王 林,張曉鋒
(西安理工大學 自動化與信息工程學院,西安 710048)
隨著智能硬件的普及,通過手機、平板和數(shù)碼相機等移動可穿戴設(shè)備的終端攝像頭獲取、處理和分享信息己經(jīng)逐漸成為客觀的發(fā)展趨勢.自然場景中的文本檢測是檢測圖像中是否含有文本信息,并確定文本信息的位置.通過文本信息來對場景進行理解,將有助于我們對日夜增加的視頻、圖像和圖片等海量信息的檢索管理等.因此,本文主要集中在檢測自然場景中的文本信息.
目前,自然場景中的文本檢測有兩種經(jīng)典模型:卷積神經(jīng)網(wǎng)絡(luò)[1]和深度置信網(wǎng)絡(luò)[2],卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由個二維平面組成,而每個平面又由多個獨立的神經(jīng)元組成.卷積神經(jīng)網(wǎng)絡(luò)可以看成是卷積層和子采樣層兩種結(jié)構(gòu)交替連接而成的.卷積神經(jīng)網(wǎng)絡(luò)對圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有良好的適應(yīng)性,但是忽略了圖像中的高階統(tǒng)計特征.相應(yīng)地,深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是一種由多個受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)疊加而成的深度學習結(jié)構(gòu),兩者的區(qū)別在與卷積的使用.對于深度置信網(wǎng)絡(luò)模型而言,雖然它在提取圖像高階特征方面具有很好的性能,但忽略了圖像的局部不變性,對外部變化較為敏感.
Lee等人[3]提出了卷積深度置信網(wǎng)絡(luò)(Convolutional Deep Belief Network,CDBN),該網(wǎng)絡(luò)由卷積受限玻爾茲曼機(Restricted Boltzmann Machine,CRBM)為基礎(chǔ)堆疊而成的,是一個分層的概率生成模型.該網(wǎng)絡(luò)結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,解決了對于擴展圖像到原尺寸,以及圖像特征會因輸入局部變換而變換的問題.Huang[4]利用卷積深度置信網(wǎng)絡(luò)模型CDBN和局部二進制模式LBP相結(jié)合所形成的深度學習方法,更好的學習到高分辨率圖像中的特征,實驗結(jié)果表明該方法在真實世界的人臉驗證數(shù)據(jù)庫上實現(xiàn)了最新的結(jié)果.Wicht[5]利用卷積深度置信網(wǎng)絡(luò)模型CDBN識別包含手寫和打印數(shù)字的數(shù)獨拼圖,實驗結(jié)果表明當考慮檢測誤差時,識別精確率達到92%;當不考慮檢測誤差時,識別精確率提高到97.7%.何灼彬[6]利用卷積深度置信網(wǎng)絡(luò)模型CDBN進行歌手識別,實驗結(jié)果表明該模型在聲音識別分類表現(xiàn)上具有一定的優(yōu)勢.Ren等[7]提出利用卷積深度置信網(wǎng)絡(luò)模型CDBN對腦電信號特征提取,與其他提取方法相比,利用卷積深度置信網(wǎng)絡(luò)學習的特征具有更好的性能.祝軍[8]利用卷積深度置信網(wǎng)絡(luò)模型CDBN進行場景圖像分類識別,實驗結(jié)果表明該模型在場景圖像分類識別中取得較好的效果.
綜上所說,卷積深度置信網(wǎng)絡(luò)因結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,已廣泛應(yīng)用于圖像分類、語音識別和人臉識別[9]等領(lǐng)域,但是目前尚未發(fā)現(xiàn)有研究將卷積深度置信網(wǎng)絡(luò)應(yīng)用于自然場景中的文本檢測領(lǐng)域.因此,本文考慮將卷積深度置信網(wǎng)絡(luò)模型應(yīng)用到自然場景中文本檢測中,旨在解決圖像背景復(fù)雜、分辨率低和文本分布隨意的問題,從而提高文本檢測的精確率以及召回率.
2011年,Lee提出了卷積深度置信網(wǎng)絡(luò)CDBN,該卷積深度置信網(wǎng)絡(luò)有多個卷積受限玻爾茲曼機CRBM堆疊而成,這種結(jié)構(gòu)的層與層之間引入了一種最新的操作,即概率型最大池化(Probabilistic Max-pooling)[3],如圖1所示.一般而言,要獲取高層的特征描述需要更多的區(qū)域信息,通過用最大值池化特征表示,能夠使得高層特征描述對輸入的微小變化具有良好的不變性,同時能夠減少計算復(fù)雜度.
在本文中CDBN模型的輸入層設(shè)置為28×28×3大小(即將輸入可以看成3個大小為28×28的映射層),第一隱含層中的卷積層包含6個特征映射,卷積核大小均為7×7,池化層的池化區(qū)域為2×2,第二個隱含層的卷積層包含8個特征映射,卷積核的大小為5×5,池化層的池化區(qū)域為2×2,最后將模型的輸出單元組合成長度為一維的向量.學習速率為0.05,模型的激活函數(shù)采用sigmoid函數(shù),第一層的稀疏系數(shù)為0.02,第二層為0.03.采用Dropout方法對隱含層以50%的概率進行隨機丟取.最后的分類器采用Softmax.
圖1 一個概率max-pooling卷積CRBM結(jié)構(gòu)示意圖
一個典型的自然場景文本檢測主要流程如圖2所示,簡單描述自然場景文本檢測的主要步驟[10-12]:
1) 最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions,MSERs)[13]文本定位:假定同一個區(qū)域成分的某些相似特征(顏色、亮度和筆劃寬度的特征)差別較大,并且與背景的特征也存在較大區(qū)別的前提下,采用自底向上的方法在圖像中把連通成分作提取處理,獲取文本候選區(qū)域.
2) 預(yù)處理:對最大穩(wěn)定極值區(qū)域MSER提取的文本候選區(qū)域進行裁剪分割,過濾掉一些很長很細的MSER區(qū)域(很長很細的MSER區(qū)域不可能是文本區(qū)域),把不規(guī)整的MSER區(qū)域統(tǒng)一規(guī)范成28×28的輸入圖像如圖3所示,并在整理好的28×28輸入圖像上添加Ground truth矩形框.
圖2 MSER區(qū)域統(tǒng)一規(guī)范成28×28的輸入圖像
圖3 自然場景文本檢測主要流程
3) CDBN特征提?。簩淖畲蠓€(wěn)定極值區(qū)域MSER中提取出來的候選文本區(qū)域經(jīng)過預(yù)處理后輸入到卷積深度置信網(wǎng)絡(luò)中進行訓練,從訓練最大穩(wěn)定極值區(qū)域數(shù)據(jù)中進行學習更多隱藏特征,對候選文本區(qū)域進行驗證,進而過濾掉大量的非文本的MSER區(qū)域.
下面通過數(shù)值實驗來驗證本文所提出的場景文本檢測方法性能,將本文的方法和其他方法進行比較.本文使用一些公開的自然場景文本檢測的數(shù)據(jù)集,包括ICDAR2011魯棒閱讀競賽(Robust Reading Competition)數(shù)據(jù)集[14],和街景(Street View Text,SVT)數(shù)據(jù)集[15].數(shù)據(jù)集中的圖片是彩色的,尺寸在307×93到1280×960內(nèi).本實驗的文本檢測輸出結(jié)果為單詞級別的矩形框,與數(shù)據(jù)集的Ground truth匹配.對于文本檢測任務(wù)而言,有兩個重要的評價指標[1]:精確率(使用p表示)和召回率(使用r表示).其中p用來反映檢測出的單詞在Ground truth被標記的比例,而r則用來表示Ground truth里標記的單詞被檢測出的比例p和r通過計算Ground truth矩形框和檢測到的矩形框之間的差異得到.
硬件環(huán)境:64位Intel(R)Core(TM)i7-4790 3.6 GHz CPU,4 G RAM.
軟件環(huán)境:Windows 8.1旗艦版,Matlab R2016b.
本文實驗在Visual Studio 2013和Opencv 2.4.8環(huán)境中進行了數(shù)據(jù)準備和在Matlab R2016b環(huán)境中進行了基于稀疏自動編碼的文本檢測.
① ICDAR2011數(shù)據(jù)集
ICDAR 2011數(shù)據(jù)集包含484張圖片,其中訓練集包229張(848個單詞),測試集包含255張(1189個單詞,6393個字符).ICDAR 2011數(shù)據(jù)集的評價協(xié)議考慮三種匹配情況:一對一、一對多和沒有匹配.相應(yīng)地,其精確率和召回率的計算方式如下:
其中,N是數(shù)據(jù)集中圖像的總數(shù),分別是第i個圖像中的檢測到矩形數(shù)和真實矩形數(shù).分別是檢測矩形Dj和真實矩形Gi的匹配分數(shù).對于一對一匹配,它們的值設(shè)置為1,對于一對多的匹配,它們的值為0.8,不匹配的值為0.當它們的重疊比率高于定義的閾值時,兩個矩形認為是匹配的,即重疊率越高,檢測率越高.
② SVT數(shù)據(jù)集
SVT數(shù)據(jù)集從Google街景中搜集的,圖像背景多為街道,其中包含的文本信息主要是商業(yè)名稱,建筑名稱等.由于其圖像是通過移動的車輛拍攝獲得,所以不可避免地會產(chǎn)生運動模糊以及形變,而且圖像的分辨率較低,文本字體差異明顯[16].共包含350張,其中101張用作訓練集(257個單詞),249張用作測試集(674個單詞,3796個字符).對于SVT數(shù)據(jù)集,使用與ICDAR2011數(shù)據(jù)集相同的評價協(xié)議.
① ICDAR數(shù)據(jù)集實驗結(jié)果
為了評價本文兩個方法的有效性,首先在ICDAR數(shù)據(jù)集上與其它較好的方法進行比較.表1是在ICDAR2011數(shù)據(jù)集上的文本檢測對比結(jié)果.可以看到,MSER-CDBN方法的精確率和召回率都取得改善,提高了1.45%-2.18%并且F-measure分數(shù)超過了78.63%.由于MSER-CDBN使用了對復(fù)雜圖像更加魯棒的候選字符提取算法MSER和可以更好學習特征的CDBN模型,因此識別精確率和召回率都得到提高.
表1 ICDAR2011數(shù)據(jù)集上實驗對比結(jié)果
為了提高模型檢測精確率,一個非常重要的策略就是引入隨機噪聲.為了驗證隨機噪聲引入與否的影響,在其他條件不變的情況下,引入隨機噪聲和不引入隨機噪聲的實驗結(jié)果對比,如表2所示.
表2 ICDAR2011數(shù)據(jù)集上引入隨機噪聲和不引入隨機噪聲的實驗結(jié)果對比
由表2可知加入了噪聲后的CDBN學習到的特征比較好,ICDAR2011數(shù)據(jù)集上的精確率提高到了89.49%,可以看出隨著訓練次數(shù)的增加,文本檢測的精確率也在提高,對于那些誤判的文本進行歸類發(fā)現(xiàn)很大一部分是由于復(fù)雜的背景造成的,為此,本文給輸入數(shù)據(jù)加入噪聲,利用污染后的數(shù)據(jù)進行特征學習,和原先的數(shù)據(jù)進行對比發(fā)現(xiàn),精確率有所提高.圖4顯示了MSER-CDBN方法在ICDAR2011數(shù)據(jù)集上的部分檢測結(jié)果.
② SVT數(shù)據(jù)集實驗結(jié)果
SVT數(shù)據(jù)集比ICDAR2011數(shù)據(jù)集更為復(fù)雜,擁有更多的字體變化,而且圖像常常包含大量的噪聲信息.在SVT數(shù)據(jù)集上對比方法比較少,本文選擇了兩個代表性的方法用于對比實驗.這里需要注意的是下列方法均采用ICDAR 2011官方的評價協(xié)議.
圖4 MSER-CDBN在ICDAR2011數(shù)據(jù)集上實驗示例
可以從表3看到,本文的方法相比MSERCNN和SWT-DBN的方法,精確率提高了2.53%,召回率與SWT-DBN方法相比提高了9.24%,主要得益于本文方法使用了深度學習模型,將從最大穩(wěn)定極值區(qū)域中提取出來的候選文本區(qū)域經(jīng)過預(yù)處理后輸入到卷積深度置信網(wǎng)絡(luò)中進行訓練,從訓練最大穩(wěn)定極值區(qū)域數(shù)據(jù)中學習更多隱藏特征,進而過濾掉大量的非文本的MSER區(qū)域.圖5顯示了MSER-CDBN方法在SVT數(shù)據(jù)集上的部分識別結(jié)果.
表3 SVT數(shù)據(jù)集上實驗對比結(jié)果
由于卷積深度置信網(wǎng)絡(luò)結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,本文將該模型和最大穩(wěn)定極值區(qū)域算法相結(jié)合用于場景文本檢測解決了圖像背景復(fù)雜、分辨率低和分布隨意的問題.本文在ICADR和SVT數(shù)據(jù)集上進行實驗,結(jié)果表明與其它場景文本檢測算法相比本文的算法在檢測精確率和召回率上有了提高.
圖5 MSER-CDBN在SVT數(shù)據(jù)集上的實驗示例
1 Huang WL,Qiao Y,Tang XO.Robust scene text detection with convolution neural network induced MSER trees.Computer Vision(ECCV 2014).Cham:Springer,2014.497-511.
2 Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform.Proceedings of Computer Vision and Pattern Recognition.San Francisco,CA,USA.2010.2963-2970.
3 Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,QC,Canada.2009.609-616.
4 Huang GB,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2518-2525.
5 Wicht B,Henneberty J.Mixed handwritten and printed digit recognition in Sudoku with Convolutional Deep Belief Network.Proceedings of the 13th International Conference on Document Analysis and Recognition.Tunis,Tunisia.2015.861-865.
6 何灼彬.基于卷積深度置信網(wǎng)絡(luò)的歌手識別[碩士學位論文].廣州:華南理工大學,2015.38-48.
7 Ren YF,Wu Y.Convolutional deep belief networks for feature extraction of EEG signal.Proceedings of International Joint Conference on Neural Networks.Beijing,China.2014.2850-2853.
8 祝軍,趙杰煜,董振宇.融合顯著信息的層次特征學習圖像分類.計算機研究與發(fā)展,2014,51(9):1919-1928.[doi:10.7544/issn1000-1239.2014.20140138]
9 Shao H,Chen S,Zhao JY,et al.Face recognition based on subset selection via metric learning on manifold.Frontiers of Information Technology &Electronic Engineering,2015,16(12):1046-1058.
10 Yin XC,Yin XW,Huang KZ,et al.Robust text detection in natural scene images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(5):970-983.
11 Xu HL,Xue LK,Su F.Scene text detection based on robust stroke width transform and deep belief network.Computer Vision-ACCV 2014.Cham:Springer,2014.195-209.
12 Wang K,Babenko B,Belongie S.End-to-end scene text recognition.Proceedings of International Conference on Computer Vision.Barcelona,Spain.2012.1457-1464.
13 Chen HZ,Tsai SS,Schroth G,et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions.Proceedings of IEEE International Conference on Image Processing.Brussels,Belgium.2011.2609-2612.
14 Shahab A,Shafait F,Dengel A.ICDAR 2011 robust reading competition challenge 2:Reading text in scene images.Proceedings of International Conference on Document Analysis and Recognition.Beijing,China.2011.1491-1496.
15 Minetto R,Thome N,Cord M,et al.Text detection and recognition in urban scenes.Proceedings of IEEE International Conference on Computer Vision Workshops.Barcelona,Spain.2012.227-234.
16 Yu TS,Wang RS.Scene parsing using graph matching on street-view data.Computer Vision and Image Understanding,2016,145:70-80.[doi:10.1016/j.cviu.2016.01.004]