蔡夢倩,張蕾,王炎,莫娟
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
如今,數(shù)字儀表在各行各業(yè)都有著廣泛的應(yīng)用,由于歷史遺留原因、成本控制考慮、設(shè)計(jì)需要等因素,仍有相當(dāng)一部分的儀表不提供與計(jì)算機(jī)進(jìn)行數(shù)據(jù)通信的接口,需要人工錄入儀表讀數(shù)。人工錄入儀表讀數(shù)需要消耗大量的人力和時間,且結(jié)果易受認(rèn)為因素的干擾。相比之下,根據(jù)實(shí)時監(jiān)控捕獲儀表圖像,再利用字符識別方法識別儀表圖像中的讀數(shù)就顯得更加便捷。
數(shù)字儀表中的讀數(shù)通常包含多個字符,傳統(tǒng)方法[1-2]首先通過定位確定字符串的位置,再將字符串分割為單個字符后進(jìn)行識別。整個過程比較繁雜,且識別結(jié)果容易受預(yù)處理過程中定位和分割效果的影響。如果我們對數(shù)字儀表圖像實(shí)現(xiàn)像素級的預(yù)測,預(yù)測結(jié)果同時包含位置信息和類別信息,我們就可以綜合二者直接得到字符串的結(jié)果。
本文提出一種基于全卷積網(wǎng)絡(luò)的數(shù)字儀表字符串識別方法。該方法通過全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了圖到圖的像素級預(yù)測,同時實(shí)現(xiàn)了字符的定位、分割與識別。并且,通過加權(quán)混合特征學(xué)習(xí)融合了全卷積網(wǎng)絡(luò)中多尺度多層級的特征,使預(yù)測結(jié)果很好地綜合了位置信息和分類信息,從而得到準(zhǔn)確的字符串識別結(jié)果。我們采用了包含有多類數(shù)字儀表的數(shù)據(jù)集來展示基于加權(quán)混合特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)方法在數(shù)字儀表字符串識別上的出色表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠在省略復(fù)雜的預(yù)處理過程的前提下,由數(shù)字儀表圖像直接得到儀表中字符串的識別結(jié)果。
本文的主要貢獻(xiàn)如下:
(1)我們提出了一種基于加權(quán)混合特征學(xué)習(xí)的全卷積網(wǎng)絡(luò)H-Meter,利用像素級的預(yù)測解決了數(shù)字儀表字符串的識別問題;
(2)通過加權(quán)融合全卷積網(wǎng)絡(luò)中多尺度多層級特征的方式,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使像素級預(yù)測結(jié)果在位置信息和識別信息上都有很好的表現(xiàn),提高字符串的識別的準(zhǔn)確率;
(3)應(yīng)用相關(guān)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明基于加權(quán)混合特征的全卷積網(wǎng)絡(luò)能夠直接、準(zhǔn)確的識別字符串。
一直以來,對于數(shù)字儀表字符識別的研究工作都十分豐富.這些工作所提出的方法基本都包含三個階段:字符區(qū)域定位、字符分割和字符識別。
字符的定位和分割通常通過一定的閾值對圖像做二值化處理,對二值化后的圖像進(jìn)行行掃描和列掃描,利用行掃描和列掃描的結(jié)果確定字符串的邊界以及字符串中每個字符的分界點(diǎn)[14-17]。這種預(yù)處理方法容易受到噪聲的影響,從而無法獲得正確的字符分割結(jié)果。
在字符識別階段,通常采用兩種方法:模板匹配方法[14-15,17]和神經(jīng)網(wǎng)絡(luò)方法[3,18]。模板匹配通過人工的字符模板進(jìn)行字符識別,神經(jīng)網(wǎng)絡(luò)方法通過訓(xùn)練進(jìn)行特征提取實(shí)現(xiàn)字符識別。相比之下,模板匹配方法的抗噪能力較弱,例如,不均勻光照、角度傾斜等因素可能會導(dǎo)致字符形變或缺損,在這些情況下,模板匹配方法的識別率就會受到嚴(yán)重的影響。在實(shí)際應(yīng)用的過程中,這些干擾因素是難免的,這就使得神經(jīng)網(wǎng)絡(luò)方法更具優(yōu)越性。但是,無論是模板匹配方法,還是神經(jīng)網(wǎng)絡(luò)方法都會受到預(yù)處理結(jié)果的影響。
本文提出的基于全卷積網(wǎng)絡(luò)的數(shù)字儀表字符串識別方法,通過圖到圖的預(yù)測,不依賴于預(yù)處理方法,直接實(shí)現(xiàn)字符的定位、分割與識別。并結(jié)合加權(quán)混合特征學(xué)習(xí),使了全卷積網(wǎng)絡(luò)在數(shù)字儀表圖像上具有更好的預(yù)測效果和更強(qiáng)的魯棒性。
在本節(jié)中,主要介紹一種基加權(quán)混合特征學(xué)習(xí)的全卷積網(wǎng)絡(luò),并將其應(yīng)用于數(shù)字儀表字符串識別中。
總結(jié)傳統(tǒng)方法解決數(shù)字儀表字符串識別的思路:首先,需要確定每個字符的位置;然后,再對每個字符進(jìn)行逐一識別。如果我們能夠用一個方法同時解決這兩個問題,將極大簡化數(shù)字儀表字符串識別的解決過程。
2015年,J.Long等人利用卷積層替代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層以得到圖到圖的預(yù)測的方法[7],很好地解決語義分割問題。如果利用全卷積網(wǎng)絡(luò)對原始數(shù)字儀表圖像實(shí)現(xiàn)像素級的預(yù)測,使得預(yù)測結(jié)果與原始圖像中的元素一一對應(yīng);那么,我們就可以根據(jù)預(yù)測結(jié)果的分布情況確定背景區(qū)域和各個字符區(qū)域,并根據(jù)每個字符區(qū)域內(nèi)的預(yù)測結(jié)果確定該字符的分類。由此,設(shè)計(jì)了用于解決數(shù)字儀表字符串識別的全卷積網(wǎng)絡(luò)。
該網(wǎng)絡(luò)通過卷積層和池化層進(jìn)行特征提取[5]。由于圖像有其固有特性,圖像一部分的統(tǒng)計(jì)特性也可作用于其他部分上,這意味著對于圖像上所有的區(qū)域,我們都能使用同樣的學(xué)習(xí)特征[8]。通過借鑒視覺神經(jīng)系統(tǒng)中感受野的概念,利用卷積核大小為3×3的卷積層不斷地學(xué)習(xí)圖像不同尺度的特征,卷積層的權(quán)值共享和局部連接的特性,大大減少了網(wǎng)絡(luò)的計(jì)算量。再通過池化層對數(shù)據(jù)進(jìn)行降維操作,該網(wǎng)絡(luò)采用最大池化方法,也就是計(jì)算鄰域內(nèi)特征點(diǎn)的最大值,來得到輸入的概要統(tǒng)計(jì),這些概要統(tǒng)計(jì)不僅相比輸入具有低得多的維度,而且保持了輸入的特征不變性,進(jìn)一步減少了網(wǎng)絡(luò)的計(jì)算量。卷積層和池化層的相關(guān)參數(shù)信息如表1所示。
表1 網(wǎng)絡(luò)的層級信息
為了能產(chǎn)生圖到圖的像素級預(yù)測,需要保證網(wǎng)絡(luò)的預(yù)測結(jié)果要與原輸入圖像元素對應(yīng),即預(yù)測結(jié)果為與輸入圖像尺寸一致的預(yù)測圖。在每一層卷積之前都對輸入進(jìn)行padding操作,保證卷積層的輸入輸出圖像尺寸一致;利用卷積核大小為1×1的卷積層替代全連接層得到圖像級預(yù)測結(jié)果,即網(wǎng)絡(luò)結(jié)構(gòu)中不包含全連接層;在最后一層卷積層后添加反卷積層實(shí)現(xiàn)上采樣操作將由于池化層下采樣操作逐層變小的特征圖恢復(fù)到原圖尺寸,這一過程看作是一個“反向卷積”的過程,其反卷積核的參數(shù)也是可學(xué)習(xí)的。最后,通過Softmax層對每一個像素實(shí)現(xiàn)分類。
綜上所述,我們就實(shí)現(xiàn)了可以得到數(shù)字儀表圖像的像素級預(yù)測的全卷積網(wǎng)絡(luò)F-Meter,可以用于直接提取數(shù)字儀表中字符串的識別結(jié)果。
當(dāng)我們直接使用F-Meter進(jìn)行數(shù)字儀表字符串的識別時,我們會發(fā)現(xiàn)預(yù)測結(jié)果在位置信息上的表現(xiàn)并不理想。這是因?yàn)橹苯訉⑻卣鲌D放大到原輸入圖像的尺寸,會導(dǎo)致其變得非常模糊。為了解決這個問題,我們將網(wǎng)絡(luò)較低層級的輸出特征也直接作為預(yù)測結(jié)果的參考。雖然,網(wǎng)絡(luò)較低層級還不能夠很好地提取識別信息,但是,其輸出特征對于局部信息有很好地保留,有助于提升預(yù)測結(jié)果在位置上的表現(xiàn)。
我們連接了Conv1_2、Conv2_2、Conv3_3和Conv4_3到融合層,實(shí)現(xiàn)網(wǎng)絡(luò)對多尺度多層級混合特征的學(xué)習(xí),再利用融合層輸出的融合特征進(jìn)行預(yù)測。在融合方式上,我們選用加權(quán)融合(weighted-fusion)的方式,以防止過多的參考低層特征反而影響預(yù)測結(jié)果在識別信息上的表現(xiàn)。首先,我們會對Conv1_2、Conv2_2、Conv3_3和Conv4_3輸出特征分別進(jìn)行加權(quán)融合,融合后的特征作為各個層的層級特征(Level Feature)。然后,對層級特征進(jìn)行上采樣操作,保證所有的層級特征的尺寸都與原輸入圖像的尺寸一致。最后,將尺寸一致的層級特征進(jìn)行加權(quán)融合得到融合特征,并通過Softmax分類層得到分類結(jié)果。圖1展示了加權(quán)混合特征學(xué)習(xí)的過程。
在本節(jié)中,我們使用本文所提出基于混合特征學(xué)習(xí)的全卷積網(wǎng)絡(luò)H-Meter識別數(shù)字儀表中的字符串,并在包含有多類數(shù)字儀表的數(shù)據(jù)集[12]上測試了我們的方法。
本文所提出方法的性能通過字符的精度P(Precision)和召回率R(Recall)來度量。將字符根據(jù)真實(shí)類別與預(yù)測類別字符的組合劃分為四類:真正例、假正例、真反例、假反例。精度,亦稱查準(zhǔn)率,在字符識別問題中代表被正確預(yù)測地某類字符的數(shù)目占被預(yù)測為該類字符的數(shù)目的比例。召回率,亦稱查全率,代表被正確預(yù)測地某類字符的數(shù)目占該類字符真實(shí)數(shù)目的比例。精度和召回率的公式定義如下:
精度和召回率是一對矛盾的度量.一般來說,精度高時,召回率往往偏低;而召回率高時,精度往往偏低。為了能夠綜合考慮精度和召回率,我們還通過精度與召回率的調(diào)和平均F1度量來進(jìn)行模型間的評估,F(xiàn)1的公式定義如下:
由于本文所提出的方法直接實(shí)現(xiàn)字符串端到端的預(yù)測,所以我們也通過字符串的準(zhǔn)確率A(Accuracy)來反映其性能。字符串的準(zhǔn)確度代表被正確預(yù)測的字符串的數(shù)目占字符串總數(shù)目的比例,其公式定義如下:
其中,TrueStr代表被正確預(yù)測的字符串,F(xiàn)alseStr代表被錯誤預(yù)測的字符串。
圖1 加權(quán)混合特征學(xué)習(xí)過程
我們將在包含有多類數(shù)字儀表的數(shù)據(jù)集上測試我們的方法。該數(shù)據(jù)集[12]由趙凱等人收集整理,共計(jì)11385個樣本,其中包含5類數(shù)字儀表樣本,不同類別的儀表樣本包含的字符串長度和字體都有所不同,這些樣本是灰度化的3通道圖片,圖片的尺寸50×160,圖3展示了數(shù)據(jù)集的部分樣本。
我們將在包含有多類數(shù)字儀表的數(shù)據(jù)集上測試我們的方法。該數(shù)據(jù)集[12]由趙凱等人收集整理,共計(jì)11385個樣本,其中包含5類數(shù)字儀表樣本,不同類別的儀表樣本包含的字符串長度和字體都有所不同,這些樣本是灰度化的3通道圖片,圖片的尺寸50×160,圖3展示了數(shù)據(jù)集的部分樣本。
圖2 數(shù)據(jù)集中的部分樣本示例
由示例樣本可以看出數(shù)字儀表數(shù)據(jù)集中大量存在光照差異、字符串傾斜、字符扭曲等現(xiàn)象,增加了數(shù)字儀表的字符識別的難度。但是,經(jīng)過實(shí)驗(yàn)表明,本文所提出模型依舊能夠準(zhǔn)確、高效地識別數(shù)字儀表識別中的字符串。
由于H-Meter實(shí)現(xiàn)圖到圖的預(yù)測,其預(yù)測結(jié)果為11×50×160的矩陣,對應(yīng)11個分類(10個數(shù)字類和1個背景類),為了從矩陣中字符串結(jié)果作為最終輸出,我們需要利用算法1進(jìn)行字符串提取。
算法1預(yù)測矩陣字符串提取算法
輸入:預(yù)測矩陣Matrix,閾值t;
輸出:數(shù)字字符串結(jié)果Str.
將Matrix小于t的元素置0;
for 10個數(shù)字i
subMatrix=Matrix(i,50,160);/* 提取 Matrix中數(shù)字 i對應(yīng)的部分*/
查找subMatrix中的連通區(qū)域作為字符團(tuán),舍棄掉過小的團(tuán);
for subMatrix中團(tuán)的個數(shù)K
Str←i;/*將第k個字符團(tuán)的值加入到字符串中*/
end for
end for
對Loc中的坐標(biāo)進(jìn)行排序;
根據(jù)Loc中坐標(biāo)的排序,獲得順序正確的字符串Str。
本小節(jié)利用兩組實(shí)驗(yàn)來驗(yàn)證我們提出的方法的可行性和準(zhǔn)確性該數(shù)據(jù)集并沒有劃分訓(xùn)練集和測試集,所以我們按照1:9的比例將數(shù)據(jù)集隨機(jī)的劃分為測試集和驗(yàn)證集。其中,測試集包含1139張數(shù)字儀表圖片,訓(xùn)練集包含10246張數(shù)字儀表圖片。
實(shí)驗(yàn)1驗(yàn)證層級特征融合的必要性。在這個實(shí)驗(yàn)中,我們比較了2.1中所提到的不包含層級特征融合的全卷積網(wǎng)絡(luò)F-Meter和基于加權(quán)混合特征融合的全卷積網(wǎng)絡(luò)H-Meter,并在表2中列出了二者在測試集上的字符精度、召回率、F1度量和字符串準(zhǔn)確率。精度、召回率和F1度量取各個字符類的均值。
表2
實(shí)驗(yàn)結(jié)果表明,H-Meter在字符精度、召回率、F1度量和字符串準(zhǔn)確率上都要遠(yuǎn)高于F-Meter,證明網(wǎng)絡(luò)較低層級雖然還不能夠很好地提取抽象特征,但是其對于局部信息有很好地保留,合理地融合較低層級的特征輸出對于最終結(jié)果的提升有很大幫助。
實(shí)驗(yàn)2驗(yàn)證加權(quán)混合特征學(xué)習(xí)的有效性。我們對比了基于平均混合特征學(xué)習(xí)的全卷積網(wǎng)絡(luò)和基于加權(quán)混合特征學(xué)習(xí)的全卷積網(wǎng)絡(luò)在預(yù)測結(jié)果上的表現(xiàn),并結(jié)合精度、召回率等性能度量進(jìn)行比較比較?;谄骄旌咸卣鲗W(xué)習(xí)的全卷積網(wǎng)絡(luò),通過對池化層的特征輸出進(jìn)行不斷地上采樣操作并累加的方式實(shí)現(xiàn)。
表3
實(shí)驗(yàn)結(jié)果表明,雖然同樣融合了較低層級的特征,但是,平均混合特征學(xué)習(xí)在測試集上的表現(xiàn)遠(yuǎn)不如加權(quán)混合特征學(xué)習(xí)在測試集上的表現(xiàn),甚至過度的依賴低層特征影響了識別結(jié)果。所以,對于較低層級的特征也要有學(xué)習(xí)的進(jìn)行融合。
本文提出了一種基于全卷積網(wǎng)絡(luò)的數(shù)字儀表字符識別方法.通過圖像端到端像素級的預(yù)測,能夠省去繁瑣的字符識別預(yù)處理過程,直接得到字符串的識別結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的數(shù)字儀表字符方法能夠準(zhǔn)確、高效地識別自然場景下儀表中的字符串。
參考文獻(xiàn):
[1]T.E.de Campos,B.R.Babu,M.Varma.Character Recognition in Natural Images[J].In Proceedings of the International Conference on Computer Vision Theory and Applications,Lisbon,Portugal,February 2009
[2]T.Yamaguchi,Y.Nakano,M.Maruyama,H.Miyao,T.Hananoi.Digit Classification on Signboards for Telephone Number Recognition[J].In ICDAR,pages 359-363,2003.
[3]Yujie Liu,He Huang,Jinde,Cao,Tingwen Huang.Convolutional Neural Networks-Based Intelligent Recognition of Chinese License Plates.[J]Soft Computing,2017,2(2):1-17.
[4]P.Dollar,C.L.Zitnick.Fast Edge Detection Using Structured Forests.PAMI,2015
[5]K.Simonyan,A.Zisserman.Very Deep Convolutional Networksfor Large-Scale Image Recognition[J].In ICLR,2015.
[6]G.Bertasius,J.Shi,L.Torresani.Deepedge:A Multiscale Bifurcated Deep Network for Top-Down Contour Detection[J].In CVPR,2015.
[7]J.Long,E.Shelhamer,T.Darrell.Fully Convolutional Networks for Semantic Segmentation[J].In CVPR,2015.
[8]http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial l
[9]S.Xie,Z.Tu.Holistically-Nested Edge Detection.In Proc[J].ICCV,pages 1395-1403,2015.
[10]P Sermanet,S Chintala,Y LeCun.Convolutiona l Neural Networks Applied to House Numbers Digit Classification[J].Pattern Recognition.In ICPR.
[11]Lecun,Y.;Bottou,L.;Bengio,Y.;Haffner,P.Gradient-Based Learning Applied to Document Recognition[J].In Proceedings of the IEEE.pages.2278-2324,1998.
[12]http://o7zt4a6os.bkt.clouddn.com/digit_data.zip
[13]https://github.com/SHUCV/digit
[14]G Qingyu,G Yongfeng.Digital Meter Identify Based on Local Orientation[J].In International Conference on Intelligent Computation Technology and Automation,pages 110-113,2010.
[15]Wei,Bi Gui;Chang,Qing;Yan,Cai Yun;Zhang,Guo Zhen.Recognition System for Digital Meter Dynamic Display from Video Based on MATLAB[J].In Advanced Materials Research.pages 2183-2186.
[16]Tu,Zhen Yuan;Ning,Fang Hua;Yu,Wu Jia.Study about Recognition of Digital Meter Dial Reading Based on SVM[J].In Applied Mechanics and Materials.pages 194-197.
[17]Bin,Ma;Xiangbin,Meng;Xiaofu,Ma;Wufeng,Li;Linchong,Hao;Dean,Jiang.Digital Recognition Based on Image Device Meters.[J].In Second WRI Global Congress on Intelligent Systems.pages 326-330.2010.
[18]Zhao,Li-meng,Zhang,Yun-zhou,Bai,Qiu-shi,Qi,Zi-xin,Zhang,Xin-tong.Research of Digital Meter Identifier Based on DSP and Neural Network[J].In IEEE International Workshop on Imaging Systems and Techniques.pages 402-406.2009.