楊 濤, 張?jiān)苽ィ?楊 瑞
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650504)
?
基于深度信念網(wǎng)絡(luò)的社保卡號(hào)碼識(shí)別方法*
楊 濤, 張?jiān)苽ィ?楊 瑞
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650504)
提出了一種基于深度信念網(wǎng)絡(luò)(DBN)的社??ㄌ?hào)碼識(shí)別方法,通過采集社??▓D像,采用模塊分割的方法,對(duì)社保卡號(hào)碼區(qū)域進(jìn)行行分割,利用區(qū)域生長(zhǎng)的方法對(duì)行內(nèi)號(hào)碼分割,將號(hào)碼圖像灰度化與二值化,并歸一化為32×32大小,作為深度信念網(wǎng)絡(luò)的輸入數(shù)據(jù),訓(xùn)練3層受限玻爾茲曼機(jī)(RBM)來獲得更加抽象的特征表達(dá),模型的最頂層結(jié)合Softmax回歸分類器對(duì)抽取后的特征進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明:其準(zhǔn)確率高達(dá)98.3 %,與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)模型相比,深度信念網(wǎng)絡(luò)學(xué)習(xí)了數(shù)據(jù)的高層特征的同時(shí)降低了特征維數(shù),提高了分類器的分類精度,有效提高了社??ㄌ?hào)碼識(shí)別率。
模塊分割; 深度信念網(wǎng)絡(luò); 受限玻爾茲曼機(jī); Softmax回歸分類器
社??ㄌ?hào)碼作為社保卡唯一標(biāo)識(shí),對(duì)卡號(hào)的識(shí)別是社??ㄗR(shí)別的關(guān)鍵。文獻(xiàn)[1]提出了一種基于字符結(jié)構(gòu)特征進(jìn)行識(shí)別的算法,文獻(xiàn)[2]采用了模板匹配算法進(jìn)行圖像識(shí)別,楊建等人[3]運(yùn)用基于并行特征組合與廣義K-L變換的字符識(shí)別,Yang F等人[4]采用Laplacian和BP神經(jīng)網(wǎng)絡(luò)的方法。Stuhlsatz A等人在文獻(xiàn)[5]中提出了特征提取在圖像簡(jiǎn)單分類中的思想,上述方法均依靠人工提取特征,對(duì)于社??ū尘盀榫W(wǎng)紋和激光防偽標(biāo)識(shí)的字符來說,其準(zhǔn)確性和魯棒性并不高。文獻(xiàn)[6]提出了基于深度信念網(wǎng)絡(luò)的識(shí)別算法,訓(xùn)練受限玻茲曼機(jī)(restricted Boltzmann machine,RBM)學(xué)習(xí)特征進(jìn)行數(shù)據(jù)擬合,提取圖像本質(zhì)特征,具有很好的識(shí)別效果。
本文提出了一種基于深度信念網(wǎng)絡(luò)的社??ㄌ?hào)碼識(shí)別方法,通過訓(xùn)練3層RBM來獲得更加抽象的特征表達(dá),在模型的最頂層結(jié)合Softmax回歸分類器對(duì)抽取后的特征進(jìn)行分類。
1)社保卡圖像采集
使用攝像頭采集社??▓D像,采集到24位彩色圖像,將采集的彩色圖片轉(zhuǎn)換成灰度圖像,然后,分割出社保卡號(hào)碼。設(shè)定一個(gè)社??ㄌ?hào)碼圖塊分割模板,通過這個(gè)模板可以切掉圖像其他的信息,只保留號(hào)碼區(qū)域的信息。
圖1 社保卡灰度化圖像(樣卡)
圖2 號(hào)碼分割圖像
2)二值化
a.找出圖像中最小和最大的灰度值,記為gmin和gmax;
b.選取灰度范圍的中間值作為初始閾值T(0),然后按下式進(jìn)行迭代,當(dāng)T(i+1)=T(i)時(shí)迭代停止,此時(shí),T(i+1)為最終的閾值T為
(1)
式中K取值為0.5。
二值化結(jié)果如圖3所示。
圖3 二值化圖像
3)平滑處理
在攝像頭采集圖像的過程中,圖像不可避免地存在噪聲,采用低通濾波的方法去噪。圖4為除噪后的圖像。
圖4 去除噪聲后的圖像
4)號(hào)碼分割
號(hào)碼分割指精確分割單個(gè)數(shù)字,采取對(duì)圖4分別做水平和垂直方向的一階差分,得到單個(gè)字符區(qū)域的圖像。如圖5和圖6所示。
圖5 號(hào)碼輪廓
圖6 單個(gè)號(hào)碼分割
2.1RBM網(wǎng)絡(luò)結(jié)構(gòu)
RBM是一種二分結(jié)構(gòu)的無向圖模型,也是基于熱動(dòng)力學(xué)的能量模型,能夠很好地對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行初始化,其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 RBM網(wǎng)絡(luò)結(jié)構(gòu)
RBM網(wǎng)絡(luò)分為2層:隱含層h和可視層v。隱含層由m個(gè)隱含的隨機(jī)變量構(gòu)成:h=[h1,h2,…,hm];可視層的構(gòu)成為v=[v1,v2,…,vn],用于表示觀測(cè)的數(shù)據(jù),RBM又可視為基于能量的模型,其能量函數(shù)定義如式(2)所示
(2)
式中wi為可視單元vi與隱單元hj之間連接權(quán)重;ai為可視單元vi的偏置;bj為隱含單元hj偏置。
2.2 RBM的訓(xùn)練方法
根據(jù)梯度上升算法,使得參數(shù)沿著似然函數(shù)梯度,如式(3),上升的方向不斷迭代更新,使似然函數(shù)取得最大值
(3)
迭代更新的表達(dá)式為
(4)
每一步采樣中,先通過p(h|v(t))對(duì)h采樣獲得h(t),然后再通過p(h|v(t))對(duì)v采樣獲得v(t+1),具體過程如下:
輸入:RBM(v,h),訓(xùn)練集合S。
輸出:梯度Δwij,Δai,Δbj,i=1,…,n;j=1,2,…,m。
1)初始化Δwij,Δai=0,Δbj=0。
2)對(duì)所有的v∈S,做如下循環(huán):
a.v(0)=v;
b.對(duì)所有的t=0,…,k-1,執(zhí)行:
c.對(duì)于i=1,2,...,n,j=1,2,…,m,執(zhí)行:
Δbj+=P(hj=1│v(0))-P(hj=1|v(k))。
1)充分訓(xùn)練第一個(gè)RBM;
2)固定第一個(gè)RBM的權(quán)重和偏移量,作為第二個(gè)RBM的輸入向量;
3)充分訓(xùn)練第二個(gè)RBM后,將第二個(gè) RBM堆疊在第一個(gè)RBM上方,然后依次將第三個(gè)RBM堆疊在第二個(gè)RBM上;
4)訓(xùn)練集中的數(shù)據(jù)有標(biāo)簽,那么在頂層的 RBM訓(xùn)練時(shí),這個(gè)RBM的顯層中除了顯性神經(jīng)元,還需要有代表分類標(biāo)簽的神經(jīng)元,一起進(jìn)行訓(xùn)練;
5)將DBN的輸出層采用Softmax回歸分類器,DBN被訓(xùn)練好后如圖8。
圖8 DBN網(wǎng)絡(luò)結(jié)構(gòu)
利用Matlab R2010a軟件進(jìn)行實(shí)驗(yàn)。將已分割出的號(hào)碼圖片歸一化為32×32大小,作為訓(xùn)練樣本和測(cè)試樣本。共有11種圖片(0,1,…,9,x),每種圖片100張,合計(jì)1 100張,其中訓(xùn)練樣本700張,測(cè)試樣本400張。部分訓(xùn)練樣本如圖9所示。
圖9 部分訓(xùn)練樣本圖片
將上述得到的字符圖片存入num.mat文件中,然后,將num.mat文件中的數(shù)據(jù)導(dǎo)入到DBN(本次實(shí)驗(yàn)采用3層RBM組成)的第一層RBM的可視層v1中。
然后,學(xué)習(xí)得到的連接權(quán)重w1對(duì)v1進(jìn)行加權(quán)重置,從而得到第一層RBM的隱含層參數(shù)h1;將h1作為第二層RBM的可視層v2的輸入,再次根據(jù)學(xué)習(xí)得到的連接權(quán)值w2對(duì)v2進(jìn)行權(quán)值重置,得到第二層RBM的隱層參數(shù)h2,以此類推,直到將3層RBM訓(xùn)練完成。節(jié)點(diǎn)數(shù)分別為[300,250,200]。最后頂層采用Softmax分類器,若Softmax分類器輸出標(biāo)簽與測(cè)試樣本標(biāo)簽一致時(shí),表明分類結(jié)果正確,反之,則分類結(jié)果錯(cuò)誤。
按照DBN訓(xùn)練方法訓(xùn)練。對(duì)400個(gè)測(cè)試樣本進(jìn)行測(cè)試,得到的結(jié)果與SVM和BP神經(jīng)網(wǎng)絡(luò)方法的實(shí)驗(yàn)結(jié)果作比較,得到如表1所示的結(jié)果。
表1 本文方法與SVM,BP神經(jīng)網(wǎng)絡(luò)算法的比較
由表1中可以看出:采用本文方法的識(shí)別正確率要高于使用SVM方法和BP神經(jīng)網(wǎng)絡(luò)方法。
另外,RBM的網(wǎng)絡(luò)單元數(shù)量對(duì)實(shí)驗(yàn)結(jié)果也有一定的影響,本文通過選用4種不同的隱含層單元數(shù)量進(jìn)行實(shí)驗(yàn),得出如表2所示的結(jié)果。
表2 不同隱含層單元數(shù)量的識(shí)別結(jié)果
DBN的深度,即網(wǎng)絡(luò)的層數(shù),也影響著網(wǎng)絡(luò)對(duì)數(shù)據(jù)的擬合精度,理論上網(wǎng)絡(luò)的層數(shù)越多,復(fù)雜的參數(shù)意味著網(wǎng)絡(luò)具有更強(qiáng)大的數(shù)據(jù)表達(dá)能力,但網(wǎng)絡(luò)的深度越高,也意味著網(wǎng)絡(luò)的訓(xùn)練越困難,若訓(xùn)練不好,得到的識(shí)別精度反而更差,目前,DBN深度的選擇沒有更好的理論支撐,所以,本實(shí)驗(yàn)選擇隱含層單元層數(shù)分別為1,2,3,4這4種情況,結(jié)果如表3所示。
表3 不同DBN深度的識(shí)別結(jié)果
由表3可以看出,DBN的識(shí)別率隨著隱含層單元數(shù)的增加先增大后減小,當(dāng)隱含層單元層數(shù)為3時(shí),識(shí)別率最高,層數(shù)為4時(shí),識(shí)別率反而降低,這是因?yàn)榫W(wǎng)絡(luò)深度的增加更容易陷入局部最優(yōu)點(diǎn),導(dǎo)致最終識(shí)別率不高。
本文提出的基于深度信念網(wǎng)絡(luò)的社保卡號(hào)碼識(shí)別方法,與傳統(tǒng)的號(hào)碼識(shí)別相比,避免了人工選取特征的局限性,利用無監(jiān)督學(xué)習(xí)算法DBN自動(dòng)地學(xué)習(xí)號(hào)碼圖像特征,并使用Softmax回歸分類器對(duì)學(xué)習(xí)的特征進(jìn)行分類。討論了不同隱含層單元數(shù)量、不同DBN深度對(duì)識(shí)別的影響,與BP神經(jīng)網(wǎng)絡(luò)以及SVM相比較,實(shí)驗(yàn)表明:本文方法的魯棒性和識(shí)別的準(zhǔn)確度都很高。
[1] 范瑋琦,金 燦.基于結(jié)構(gòu)特征的紙幣號(hào)碼識(shí)別方法[J].圖形圖像處理,2014,50(8):118-121.
[2] 田 娟,鄭郁正.模板匹配技術(shù)在圖像識(shí)別中的應(yīng)用[J].傳感器與微系統(tǒng),2008,27(1):112-114,117.
[3] 楊 建,楊靜宇,高建貞.基于并行特征組合與廣義K-L變換的字符識(shí)別[J].軟件學(xué)報(bào),2003,14(3):490-495.
[4] Yang F,Chen L J.A segmentation and recognition method of RMB series number based on Laplacian transformation and BP neural networks[C]∥Seventh International Symposium on Computational Intelligence and Design,2014:189-192.
[5] Stuhlsatz A,Lippel J,Zielke T.Feature extraction for simple classification[C]∥Pattern Recognition(ICPR),2010:1525-1528.
[6] 陽 武,李 倩,趙繼生,等.深度信念網(wǎng)絡(luò)在故障指示器檢測(cè)中的應(yīng)用[J].傳感器與微系統(tǒng),2015,34(7):155-157.
Research on social security card number identification method based on the deep belief network*
YANG Tao, ZHANG Yun-wei, YANG Rui
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650504,China)
A method based on deep belief networks (DBN) is proposed to identify social security card number. Firstly, collect the social security card image and segment the card number area by the module segmentation. Secondly, split a single character of the card number using the regional growth method. Thirdly, the character image is grayed, binarized and normalized to the size of 32×32, which is taking as the input data of DBN.Training the 3 layers restricted Boltzmann machine (RBM) to obtain more abstract features. The top layer of the model combined the softmax regression classifier to classify the extracted features. Experimental results show that the accuracy rate is up to 98.3%. Compared with the BP neural network and support vector machine (SVM) model, the DBN not only learned the high-level characteristics but also reduced the dimension of features and improved the accuracy of classifier classification.Finally, it effectively improved the recognition rate of social security card number.
module segmentation; deep belief networks(DBN); restricted Boltzmann machine; softmax regression classifier
10.13873/J.1000—9787(2017)08—0059—03
2016—09—05
國(guó)家自然科學(xué)基金資助項(xiàng)目(51365019)
TP 391
A
1000—9787(2017)08—0059—03
楊 濤(1991-),男,碩士研究生,研究方向?yàn)橛?jì)算機(jī)圖像處理與模式識(shí)別。
張?jiān)苽?1972-),男,通訊作者,博士,教授,主要從事精密測(cè)控技術(shù)研究工作,E—mail:zhangyunwei72@qq.com