劉舒萍, 湯宏穎
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
?
基于MCA與判別字典學(xué)習(xí)的場(chǎng)景圖文字檢測(cè)方法*
劉舒萍, 湯宏穎
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
傳統(tǒng)的文字檢測(cè)方法在場(chǎng)景圖像復(fù)雜背景、噪聲污染和文字的多種形態(tài)特征的干擾下,檢測(cè)的準(zhǔn)確率很低,漏檢、誤檢非常嚴(yán)重。針對(duì)這些問(wèn)題,提出了基于形態(tài)成分分析(MCA)與判別字典學(xué)習(xí)的場(chǎng)景圖像文字檢測(cè)的方法。通過(guò)學(xué)習(xí)過(guò)完備字典將文字檢測(cè)問(wèn)題轉(zhuǎn)化成稀疏和魯棒表示的問(wèn)題。利用MCA與改進(jìn)的Fisher判別準(zhǔn)則學(xué)習(xí)一個(gè)過(guò)完備字典,求解待檢測(cè)圖像文字部分的稀疏系數(shù),重建待檢測(cè)圖像中的文字圖像,進(jìn)行文字檢測(cè)。通過(guò)在ICDAR2003/2005/2011和MSRA—TD500數(shù)據(jù)庫(kù)中的大量的實(shí)驗(yàn)證明了與其他文字檢測(cè)方法相比,該方法能有效提高檢測(cè)準(zhǔn)確率。
形態(tài)成分分析; 字典學(xué)習(xí); 稀疏表示; Fisher判別; 圖像重構(gòu)
圖像和視頻中往往包含著大量的文本信息,這些文本直接攜帶圖像和視頻的語(yǔ)義信息,使圖像中的文字檢測(cè)和識(shí)別在圖像檢索和分類中有著非常重要的意義。光學(xué)字符識(shí)別技術(shù)[1]使文字識(shí)別變得簡(jiǎn)單,但是文字識(shí)別嚴(yán)重依賴于文本區(qū)域檢測(cè)的結(jié)果。
基于連通區(qū)域的方法[2]利用圖像中文字顏色的相似性構(gòu)成一個(gè)或幾個(gè)連通區(qū)域,該方法對(duì)標(biāo)題文字和嵌入的文字有明顯效果,運(yùn)行效率也很高,但是對(duì)復(fù)雜的場(chǎng)景圖像文字檢測(cè)的效果很差?;诩y理的方法[3]將文字作為特殊紋理結(jié)構(gòu),通過(guò)檢測(cè)和評(píng)估紋理特征的局部強(qiáng)度及其濾波響應(yīng)特性來(lái)確定文本和非文本,其缺點(diǎn)是當(dāng)背景的紋理和文字的紋理很相似時(shí),檢測(cè)準(zhǔn)確率很低且耗時(shí)?;陬l域的方法[4]取得了不錯(cuò)的效果,但是耗時(shí)長(zhǎng)且文字檢測(cè)效果相對(duì)于基于時(shí)域的文字檢測(cè)效果并沒(méi)有很大提升?;谔荻鹊姆椒╗5]對(duì)于文字和背景梯度比較大的圖像處理效果很好,比基于紋理的方法在時(shí)間上運(yùn)行快,但是對(duì)背景特性比較敏感常常產(chǎn)生虛警。
上述方法在處理簡(jiǎn)單的場(chǎng)景圖像和純文本圖像時(shí)檢測(cè)的準(zhǔn)確率很高,但是對(duì)于復(fù)雜的場(chǎng)景圖像檢測(cè)的結(jié)果很不理想,文字檢測(cè)的準(zhǔn)確率和召回率很低,原因是場(chǎng)景圖像的分辨率比較低、背景紋理很復(fù)雜、字體的大小方向變化多樣和圖像受噪聲污染嚴(yán)重[5]等。
受人類視覺(jué)稀疏編碼機(jī)制的啟發(fā),用稀疏表示的方法表示信號(hào)和圖像的方法被提出來(lái)了[6]。稀疏表示已經(jīng)在人臉識(shí)別、信號(hào)分類、圖像恢復(fù)和壓縮感知[7]等方面有很好的應(yīng)用。近年來(lái),有研究者提出把稀疏表示應(yīng)用在文字檢測(cè)上,通過(guò)k-means聚類和奇異值分解(k-singular value decomposition,K-SVD)的算法提取圖像的邊緣信息來(lái)學(xué)習(xí)的字典[8],但是稀疏表示的方法對(duì)于包含大量噪聲的圖像會(huì)產(chǎn)生錯(cuò)誤的實(shí)驗(yàn)結(jié)果。
針對(duì)現(xiàn)有文字檢測(cè)的方法的不足,本文提出一種基于形態(tài)成分分析(MCA)和判別字典學(xué)習(xí)的場(chǎng)景圖像文字檢測(cè)方法。利用MCA的方法把含有文字的圖像看成兩部分構(gòu)成:文字部分和背景部分;用提出的字典學(xué)習(xí)的方法學(xué)習(xí)一個(gè)過(guò)完備的判別字典,利用學(xué)習(xí)到的字典稀疏重構(gòu)圖像的文字部分,進(jìn)而啟發(fā)式規(guī)則對(duì)重構(gòu)的文字部分進(jìn)行處理,得到最終文字區(qū)域。
1.1 稀疏表示
近年來(lái)稀疏表示模型經(jīng)常用于處理圖像方面的工作如紋理分割、圖像去噪[9]和特征提取等,稀疏表示通過(guò)過(guò)完備字典中原子的線性組合來(lái)稀疏地表示信號(hào),給定一個(gè)信號(hào)y∈Rn和一個(gè)矩陣A={a1,a2,…,am}∈Rn×m,等式y(tǒng)=Ax,(m?n)是一個(gè)稀疏表示問(wèn)題。為了找到表示圖像的最稀疏的解x,需要求解下式
(1)
求解式(1)是一個(gè)NP-hard問(wèn)題,文獻(xiàn)[10]提出的一種有效追蹤算法可以近似求解這種問(wèn)題,即把上式中的‖x‖0可以近似地轉(zhuǎn)化為‖x‖1,研究表明在上述解足夠稀疏情況下,是一個(gè)唯一的解。
1.2 字典學(xué)習(xí)
(2)
字典D為通過(guò)迭代優(yōu)化D和Xj求解得到的,這里j=1,…,N,給定Xj時(shí),式(2)轉(zhuǎn)化為最小二乘法求解問(wèn)題
(3)
用拉格朗日對(duì)偶算法求解如下
(4)
式中 ∧為對(duì)偶向量,Y=[Y1,…,YN]和X=[X1,…,XN]。
固定D,迭代優(yōu)化Xj,其他的稀疏編碼值Xi(i≠j) 固定。式(2)轉(zhuǎn)換為
(5)
這個(gè)問(wèn)題可以用OMP算法求解[10]。
2.1 數(shù)據(jù)采集和預(yù)處理
數(shù)據(jù)采集階段的首要任務(wù)是增強(qiáng)文字特征,弱化背景的特征。這里在數(shù)據(jù)采集的時(shí)候用自適應(yīng)濾波器對(duì)文字和背景數(shù)據(jù)預(yù)處理,達(dá)到在去除噪聲的同時(shí)弱化背景紋理的目的。另外,由于文字的紋理特征往往具有相似的幾何特征,在采集完文字訓(xùn)練數(shù)據(jù)之后,對(duì)文字訓(xùn)練數(shù)據(jù)進(jìn)行譜聚類操作,使相似的特征聚在一類為后續(xù)字典的學(xué)習(xí)提高運(yùn)行效率。由于背景結(jié)構(gòu)復(fù)雜沒(méi)有統(tǒng)一的特征,本文不對(duì)背景做聚類操作。
2.2 判別字典的學(xué)習(xí)
由于Fisher判別準(zhǔn)則可以提高稀疏編碼的判別能力[11],本文利用圖像的底層信息即用改進(jìn)的Fisher判別f(DX)來(lái)增強(qiáng)字典和稀疏表示系數(shù)的判別性。判別能力通過(guò)最小化類內(nèi)距Sw(DX)、最大化類間距SB(DX)獲得,方法如下
(6)
(7)
用本文提出的字典學(xué)習(xí)的方法學(xué)習(xí)一個(gè)結(jié)構(gòu)化的字典D=[D(T),D(B)],其中D(T)=[D1,…,Dm,…,DN]為學(xué)習(xí)的文字字典,文字訓(xùn)練數(shù)據(jù)共N類,待檢測(cè)圖像表示為Y,Y=[Y1,…,Yk],待檢測(cè)圖像對(duì)應(yīng)的稀疏表示系數(shù)為X,如Y=DX。其中X=[X1,…,Xi,…,Xk],Xi為Yi在D中的稀疏表示系數(shù)。求解這樣過(guò)完備字典D需求解下式
(8)
式中λ1,λ2為尺度參數(shù),為了防止出現(xiàn)任意大的l2范數(shù),這里把D中的每個(gè)原子di歸一化。為了去除圖像Y的加性噪聲的影響,松弛式(8)的限制條件變?yōu)?/p>
s.t.‖di‖2=1
(9)
2.3 算法步驟和分析
同時(shí)求解式(9)中的D和X為非凸的,但單獨(dú)求解其中一個(gè),即固定D求解X或固定X求解D時(shí),式(9)為凸函數(shù)。因此,本文用迭代優(yōu)化的方法來(lái)求式(9)中最優(yōu)的D和對(duì)應(yīng)的X。
2.3.1 更新X的算法
在給定D初始值的情況下,求解式(9)轉(zhuǎn)換為求解X=[X1,X2,…,Xk]的問(wèn)題,以類為單位更新X。當(dāng)更新Xm時(shí),所有的Xn,m≠n是固定值,m和n是不同的類。式(9)轉(zhuǎn)換為
(10)
(11)
這里
τ=λ1/2
(12)
表1 更新稀疏表示系數(shù)X
2.3.2 更新D的算法
s.t.‖di‖2=1
(13)
2.4 文字圖像重構(gòu)和文字檢測(cè)
重構(gòu)的文字圖像YT是通過(guò)學(xué)習(xí)到的字典D和待檢測(cè)圖像文字部分對(duì)應(yīng)的稀疏表示系數(shù)X(T)重構(gòu)的,如下式
YT=DX(T)
(14)
正如前面所述,學(xué)習(xí)的字典D為D(T)和D(B)線性組合
表2 字典學(xué)習(xí)算法
矩陣,因此,待檢測(cè)圖像對(duì)應(yīng)的稀疏編碼系數(shù)為X=[X(T),X(B)]T,這里,X(T)和X(B)分別為待檢測(cè)圖像文字和背景部分的稀疏編碼。利用式(15)可以獲得待檢測(cè)圖像的稀疏編碼
(15)
這里的Y為待檢測(cè)圖像數(shù)據(jù),D為學(xué)習(xí)到的字典。通過(guò)上式求解到稀疏編碼X=[X(T),X(B)]T之后,把X(T)帶入式(14)中,得到重構(gòu)的YT,然后把YT以圖像的形式顯示出來(lái),圖像的大小和原圖一樣,如圖1(c)所示。
在重建的文字圖像上進(jìn)行文字檢測(cè)。首先對(duì)重建的文字圖像用啟發(fā)式規(guī)則如形態(tài)學(xué)處理、雙閾值限制,面積寬高比等方法去除錯(cuò)誤重建的噪聲或背景部分;然后找到重建的文字圖像的連通區(qū)域的重心點(diǎn),重心點(diǎn)連線的水平方向和垂直方向角度在一定閾值的連接在一起,其余的連通區(qū)域判定為噪聲干擾,連接圖如圖1(d)所示;以連通區(qū)域的重心點(diǎn)為中心,給定閾值限定為邊長(zhǎng)的矩形框包圍這些連通區(qū)域,這些矩形框所包圍的區(qū)域?yàn)楹蜻x的文字區(qū)域如圖1(e)所示;最后候選的文字區(qū)域用水平方向是否一致的方法和矩形框面積閾值限定的方法進(jìn)行判斷矩形框之間是否水平合并,對(duì)于不滿足合并條件的矩形框直接舍棄最后得到一個(gè)大的矩形區(qū)域,即檢測(cè)到的文本區(qū)域如圖1(f)所示。
圖1 本文方法流程
本方法在ICDAR數(shù)據(jù)庫(kù)和MSRA—TD500數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果如圖2所示,可以看出本方法不限于文字的類型、語(yǔ)言、顏色和尺度,本部分對(duì)不同參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行分析,并與近幾年出現(xiàn)的其他的文字檢測(cè)算法在檢測(cè)的準(zhǔn)確率、召回率和F值等方面進(jìn)行對(duì)比。
圖2 本文方法處理結(jié)果展示
3.1 參數(shù)選擇的分析
本實(shí)驗(yàn)涉及一些參數(shù)設(shè)置問(wèn)題,這些值對(duì)實(shí)驗(yàn)結(jié)果有很重要的影響,本文公式中出現(xiàn)的參數(shù)是恒定的常量IST_iter。 表示稀疏編碼階段設(shè)置的迭代次數(shù),niter表示字典學(xué)習(xí)階段設(shè)置的迭代次數(shù), blocksize表示滑動(dòng)窗口的大小。其設(shè)置的具體值如表3所示。
表3 參數(shù)設(shè)置
在數(shù)據(jù)預(yù)處理階段文字訓(xùn)練樣本分類數(shù)對(duì)于重建文字圖像的效果有很大的影響,通過(guò)分析中文和英文的文本特征,發(fā)現(xiàn)文字類的分法與文字和背景的紋理特征有很大的關(guān)系,在類數(shù)過(guò)多和過(guò)少的情況下都容易重建出噪聲部分。實(shí)驗(yàn)如圖3所示。
圖3 不同類對(duì)應(yīng)的文字重建結(jié)果
結(jié)果顯示分類學(xué)習(xí)到的字典要比不分類學(xué)習(xí)的字典表征能力強(qiáng),分的類數(shù)越高,文字重建的結(jié)果越好,當(dāng)類數(shù)達(dá)到5時(shí)效果達(dá)到最好。當(dāng)分的類數(shù)高于5時(shí),重建的效果變差。
3.2 殘差的分析
圖4顯示這兩條曲線下降的都??欤诘?次迭代時(shí)基本達(dá)到了最小值,兩條曲線都在第12次迭代時(shí)達(dá)到了最小值點(diǎn),這時(shí)字典學(xué)習(xí)和稀疏系數(shù)的求解也都結(jié)束。本文設(shè)置字典學(xué)習(xí)的迭代次數(shù)為12。
圖4 字典學(xué)習(xí)和稀疏表示階段對(duì)應(yīng)的殘差曲線
3.3 實(shí)驗(yàn)對(duì)比
表4是在ICDAR數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)對(duì)比結(jié)果。目前的方法如文獻(xiàn)[13]、文獻(xiàn)[14]、文獻(xiàn)[16]、文獻(xiàn)[17]、文獻(xiàn)[18]效果很好,其中文獻(xiàn)[17]贏得了ICDAR—2013競(jìng)賽。
在ICDAR2003數(shù)據(jù)庫(kù)做的實(shí)驗(yàn)結(jié)果顯示,本文提出的方法得到了召回率73 %和準(zhǔn)確率72 %,文獻(xiàn)[15]中的方法在準(zhǔn)確率73 %方面和本文提出的方法相差不大,但是召回率60 %和本文有很大差距。在ICDAR—2011數(shù)據(jù)庫(kù)中,本文提出的方法得到了最高的準(zhǔn)確率81 %和較高的召回率72 %。由于ICDAR2013與ICDAR2011數(shù)據(jù)庫(kù)之間差別很小,只是增加了幾張圖片,所以,兩數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果也很相近。
表4 不同數(shù)據(jù)庫(kù)中本文方法與其他方法對(duì)比
圖5為在ICDAR2005數(shù)據(jù)庫(kù)中進(jìn)行的字典學(xué)習(xí)方法的實(shí)驗(yàn)對(duì)比??梢?jiàn)本文的字典學(xué)習(xí)更好的表征文字特征。
圖5 本文提出的字典學(xué)習(xí)方法與傳統(tǒng)字典學(xué)習(xí)方法對(duì)比
將場(chǎng)景圖像的文字檢測(cè)的問(wèn)題轉(zhuǎn)化為在重構(gòu)的文字圖像上進(jìn)行文字檢測(cè)的問(wèn)題。提出的用形態(tài)成分分析的思想將圖像分為復(fù)雜背景和前景文字兩部分,有效地避免了場(chǎng)景圖像背景的干擾;用稀疏表示的方法學(xué)習(xí)字典的時(shí)候本文引入了判別字典學(xué)習(xí)的方法,增強(qiáng)了字典的表示能力;實(shí)驗(yàn)結(jié)果表明:本文提出的方法比現(xiàn)存的其他方法效果要好,尤其本方法不限于文本尺寸、顏色和其他的一些文本特性。下一步的研究點(diǎn)集中于自適應(yīng)字典學(xué)習(xí)的方法研究,學(xué)習(xí)一個(gè)自適應(yīng)變化的字典更加高效地反映待檢測(cè)圖像特征。
[1] Grafmüller M,Jürgen B.Performance improvement of character recognition in industrial applications using prior knowledge for more reliable segmentation[J].Expert Systems with Applications,2013,40(17):6955-6963.
[2] Liu Y,Song Y,Zhang Y,et al.A novel multi-oriented Chinese text extraction approach from videos[C]∥2013 the 12th International Conference on Document Analysis and Recognition,IEEE,2013:1355-1359.
[3] Yan J,Li J,Gao X.Chinese text location under complex background using Gabor lter and SVM[J].Neuro Computing,2011,74(17):2998-3008.
[4] Shivakumara P,Phan T Q,Tan C L.New wavelet and color features for text detection in video[C]∥International Conference on Pattern Recognition,IEEE Computer Society,2010:3996-3999.
[5] Hu W,Ding X,Li B,et al.Multi-perspective cost-sensitive context-aware multi-instance sparse coding and its application to sensitive video recognition[J].IEEE Transactions on Multimedia,2016,18(1):76-89.
[6] 宋和平,王國(guó)利.基于貪婪重建的射頻傳感器網(wǎng)絡(luò)稀疏目標(biāo)跟蹤[J].傳感器與微系統(tǒng),2013,32(11):25-28.
[7] 王 沖,張 霞,李 鷗.無(wú)線傳感器網(wǎng)絡(luò)中基于壓縮感知的分簇?cái)?shù)據(jù)收集算法[J].傳感器與微系統(tǒng),2016,35(1):142-145.
[8] Aharon M,Elad M,Bruckstein A.K-SVD:An algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
[9] 沈千里,陳 曉,支亞京,等.一種新的人臉圖像去噪算法[J].傳感器與微系統(tǒng),2015,34(11):133-136.
[10] Chen S,Billings S A,Luo W.Orthogonal least squares methods and their application to non-linear system identification[J].International Journal of Control,2007,50(5):1873-1896.
[11] Zheng H,Tao D.Discriminative dictionary learning via Fisher discrimination K-SVD algorithm[J].Neurocomputing,2015,162(C):9-15.
[12] Bioucas-Dias J M,Figueiredo M A T.A new twist:Two-step iterative shrinkage/thresholding algorithms for image restoration[J].IEEE Transactions on Image Processing,2007,16(12):2992-3004.
[13] Anton V D H.Characterness:An indicator of text in the wild[J].IEEE Transactions on Image Processing:A Publication of the IEEE Signal Processing Society,2013,23(4):1666-77.
[14] Wang X,Song Y,Zhang Y.Natural scene text detection with multi-channel connected component segmentation[C]∥International Conference on Document Analysis and Recognition,IEEE Computer Society,2013:1375-1379.
[15] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2010:2963-2970.
[16] Khare V,Shivakumara P,Raveendran P.A new histogram oriented moments descriptor for multi-oriented moving text detection in video[J].Expert Systems with Applications,2015,42(21):7627-7640.
[17] Zhang Y,Lai J,Yuen P C.Text string detection for loosely constructed characters with arbitrary orientations[J].Neurocompu-ting,2015,168(C):970-978.
Text detection from natural-scene images using MCA and discriminative dictionary learning*
LIU Shu-ping, TANG Hong-ying
(School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)
It is very difficult to locate and recognize text in natural-scene images by interference of complex background,noise pollution and multiple morphological of text using traditional text detection method.Propose a novel method for detecting text in natural-scene images using MCA and discriminative dictionary learning method.Text-detection problems are converted to sparse and robust representations by learning redundant dictionary.An over-complete dictionary is learned using MCA and an improved version of Fisher’s discriminant law,the sparse-representation coefficients of text components in the query image are obtained using the learned dictionary.Text image is reconstructed in image to be test,and text test is carried not.The proposed method is extensively evaluated using International Conference on Document Analysis and Recognition(ICDAR)2003/2005/2011 datasets and MSRA-TD500 datasets,and it can effectively improve accurary of detection.
MCA; dictionary learning; sparse representation; Fisher discrimination; image reconstruction
10.13873/J.1000—9787(2017)07—0045—05
2016—05—09
國(guó)家自然科學(xué)基金應(yīng)急管理項(xiàng)目(NSFC61540042);云南省教育廳科學(xué)研究基金重點(diǎn)資助項(xiàng)目(2015Z045)
TP 399
A
1000—9787(2017)07—0045—05
劉舒萍(1989-),女,碩士研究生,主要研究方向?yàn)閳D像處理、模式識(shí)別。
湯宏穎(1979-),女,通訊作者,博士,講師,從事圖像處理、模式識(shí)別等研究工作,E—mail:tannya_0@163.com。