劉明珠 鄭云非 樊金斐 于芳
摘要:通過(guò)對(duì)視頻圖像進(jìn)行快速、準(zhǔn)確的文本定位與識(shí)別,有利于提高視頻信息處理的效率與準(zhǔn)確率,采用Gabor濾波器實(shí)現(xiàn)在橫、豎、撇、捺四個(gè)方向上的視頻圖像的紋理特征的提取,再通過(guò)RBM逐層增量深度學(xué)習(xí)算法構(gòu)建深度置信網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)提取的紋理特征圖像中文本區(qū)域的定位.論文同時(shí)研究了利用形態(tài)學(xué)處理方法和OCR字符庫(kù)實(shí)現(xiàn)對(duì)視頻圖像文本識(shí)別的可行性,并分析了識(shí)別效果,測(cè)試結(jié)果表明,本文提出的深度學(xué)習(xí)算法與形態(tài)學(xué)字符識(shí)別方法相結(jié)合,不但能夠?qū)崿F(xiàn)對(duì)視頻圖像文本區(qū)域的準(zhǔn)確定位,還有利于提高字符識(shí)別的效率和準(zhǔn)確率。
關(guān)鍵詞:深度學(xué)習(xí)算法;視頻圖像;文本區(qū)域定位;形態(tài)學(xué)去噪;字符識(shí)別
DoI:10.15938/j.jhust.2016.06.012
中圖分類號(hào):TP391.43
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-2683(2016)06-0061-06
0.引言
視頻中的文字檢測(cè)與識(shí)別是視頻圖像檢測(cè)領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容.在復(fù)雜背景下,視頻文本的準(zhǔn)確定位與識(shí)別有利于進(jìn)行視頻圖像檢測(cè),只有準(zhǔn)確的視頻文本區(qū)域的定位,才能提高OcR字符識(shí)別系統(tǒng)的文本識(shí)別準(zhǔn)確率,進(jìn)而提高基于內(nèi)容的視頻圖像的正確檢測(cè)的效率,對(duì)視頻定位與檢索有十分重要的應(yīng)用價(jià)值,一般的文本定位方法主要包括:邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機(jī)器學(xué)習(xí)法等,本文采用2D-Gabor濾波器與深度學(xué)習(xí)算法相結(jié)合的方法,實(shí)現(xiàn)對(duì)復(fù)雜背景視頻中文本區(qū)域的定位,并研究了基于形態(tài)學(xué)的視頻圖像去噪方法,再通過(guò)OCR系統(tǒng)實(shí)現(xiàn)字符的識(shí)別,以提高OCR系統(tǒng)字符識(shí)別的準(zhǔn)確率。
1.深度學(xué)習(xí)視頻文本區(qū)域定位與識(shí)別流程
本文將深度學(xué)習(xí)算法理論應(yīng)用于視頻文本區(qū)域定位與識(shí)別過(guò)程,設(shè)計(jì)了一種基于紋理特征的逐層增量深度學(xué)習(xí)算法.該算法的處理流程如圖1所示.首先,將視頻圖像通過(guò)Gabor濾波器濾波,獲得視頻圖像文本中文字的紋理特征;接著,將紋理特征作為訓(xùn)練樣本,利用受限玻爾茲曼機(jī)(restricted bolt-zmann machine,RBM)逐層對(duì)紋理圖像進(jìn)行增量學(xué)習(xí),在學(xué)習(xí)過(guò)程中,用標(biāo)記樣本作為監(jiān)督數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)微調(diào),構(gòu)成深度置信網(wǎng)絡(luò)(deep belief network,DBN),并標(biāo)記文本區(qū)域和背景區(qū)域的二值圖像;之后,利用形態(tài)學(xué)方法對(duì)二值圖像去噪處理,再映射到定位圖像上,得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像,最后,再將圖像進(jìn)行二值化、灰度等后續(xù)處理,送入到OCR字符識(shí)別系統(tǒng)進(jìn)行字符識(shí)別.
2.逐層增量深度學(xué)習(xí)視頻文本定位算法
2.1視頻圖像紋理特征的提取
字符的紋理具有周期性,并且在一定的頻率范圍內(nèi)能量相對(duì)集中,所以可以利用二維Gabor濾波器對(duì)視頻圖像在不同尺度和方向上進(jìn)行濾波,Gabor濾波器理論最早由Daugman提出,能夠很好地描述對(duì)應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。
鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成,所以Gabor濾波器要求能夠在這4個(gè)方向上反映中文字符的筆畫特征,并且要求能夠保證對(duì)這4個(gè)方向紋理區(qū)域的頻率分量均有很好的響應(yīng)。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系,發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系,且周期入是筆畫寬度η的一半,當(dāng)筆畫的方向與Gabor濾波器的方向處于正交時(shí),Ga-bor濾波器輸出最優(yōu),因此,可以通過(guò)筆畫的寬度來(lái)確定Gabor濾波器的中心頻率,本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U1,/sub>=0.2,高頻中心頻率U,sub>h0.4,方向數(shù)和尺度數(shù)分別為T=4,M=4。
圖2(b)所示為圖2(a)原視頻圖像在橫、撇、豎、捺4個(gè)方向進(jìn)行Gabor濾波后的結(jié)果.由圖2(b)可知,Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離,并使文字在橫、撇、豎、捺4個(gè)方向的紋理信息得到保持,同時(shí)背景區(qū)域的紋理被有效的抑制。
2.2深度學(xué)習(xí)算法基本原理
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個(gè)新問(wèn)題,其目的在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)算法是由深信度網(wǎng)絡(luò)(depth be-lief network,DBN)上的一系列受限玻爾茲曼機(jī)(re-stricted bohzmann machine,RBM)的概率模型組成.深度學(xué)習(xí)算法一般描述過(guò)程如下:假設(shè)有一個(gè)系統(tǒng)s,它有n層,S1,S2....Sn設(shè)輸入為I,輸出為o,學(xué)習(xí)的一般過(guò)程表示為:I=S1=S2,…Sn=O,如果輸出O等于輸入I即輸入I經(jīng)過(guò)這個(gè)系統(tǒng)變化之后沒(méi)有任何的信息損失或者損失很小,可以看作基本上保持不變,這意味著輸入,經(jīng)過(guò)每一層Si,都幾乎沒(méi)有信息的損失,即任何一層SI,都是原有信息(即輸入i)的另外一種表示,深度學(xué)習(xí)算法的核心思路有:①無(wú)監(jiān)督學(xué)習(xí)用于每一層網(wǎng)絡(luò)的預(yù)訓(xùn)練;②每次用無(wú)監(jiān)督學(xué)習(xí)只訓(xùn)練其中一層,將其訓(xùn)練結(jié)果作為其高一層的輸入;③用自頂而下的監(jiān)督算法去調(diào)整所有層。
2.3深度學(xué)習(xí)網(wǎng)絡(luò)(DBN)的構(gòu)建
本文采用的深度置信網(wǎng)絡(luò)的深度學(xué)習(xí)算法,是通過(guò)一系列受限波爾茲曼機(jī)(RBM)的概率模型組成.Hinton和sejnowski等設(shè)計(jì)了一種能夠用在機(jī)器學(xué)習(xí)中的隨機(jī)循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機(jī),它是一種如圖3所示的兩層無(wú)向圖模型,包含可視層v和隱藏層h,同時(shí)限制同一層節(jié)點(diǎn)之間的連接,而不同的單元層之間有連接。
2.4網(wǎng)絡(luò)訓(xùn)練與權(quán)值調(diào)整
DBN網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練以獲得最佳權(quán)值,通常DBN網(wǎng)絡(luò)訓(xùn)練包括自底向上非監(jiān)督學(xué)習(xí)和自頂向下的監(jiān)督學(xué)習(xí)兩個(gè)部分,其過(guò)程為先對(duì)紋理特征圖像采用RBM進(jìn)行逐層增量學(xué)習(xí),應(yīng)用最大似然估計(jì)法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值,使RBM達(dá)到能量平衡,再用監(jiān)督數(shù)據(jù),對(duì)整個(gè)DBN網(wǎng)絡(luò)進(jìn)行微調(diào),
在非監(jiān)督學(xué)習(xí)過(guò)程中,DBN網(wǎng)絡(luò)中每一個(gè)狀態(tài)值都對(duì)應(yīng)一層的結(jié)點(diǎn),計(jì)算的輸入輸出數(shù)據(jù)都是對(duì)應(yīng)結(jié)點(diǎn)狀態(tài)值為“1”的概率值,而Hn層的輸入向量是每個(gè)文字區(qū)域的紋理樣本,通過(guò)交替的吉布斯采樣后,作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包含n個(gè)隱藏層,每層的節(jié)點(diǎn)數(shù)分別是L1,L1,…,LN,紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層Ho層,不斷的調(diào)整Hn和H1,之間權(quán)值Wo,根據(jù)式(8)、(9)將調(diào)整得到的權(quán)值Wn與初始數(shù)據(jù)根據(jù)式(7)計(jì)算出一組新的概率送入H1層,作為H1層的輸入數(shù)據(jù).重復(fù)上述計(jì)算過(guò)程得到WS1,WS1,…,Wn-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值Wi={Wo,w1,W2,…,Wn-1},DBN網(wǎng)絡(luò)包含n+2層,即H0,H1,H2,…,Hn層和樣本標(biāo)簽數(shù)據(jù)層,其中HSn作為輸入層,其節(jié)點(diǎn)數(shù)為64,標(biāo)簽樣本層為輸出層,中間n層的節(jié)點(diǎn)數(shù)分別是L1,L2,LSn,…采用無(wú)標(biāo)注的訓(xùn)練樣本構(gòu)建DBN網(wǎng)絡(luò),以HSo和H1之間的訓(xùn)練為例,HSn和Hn,層構(gòu)成了一個(gè)RBM,HN與可見(jiàn)層移的節(jié)點(diǎn)數(shù)相同,H1,與隱藏層h的節(jié)點(diǎn)數(shù)相同,利用交替的吉布斯抽樣來(lái)調(diào)整權(quán)值WSn,直到RBM收斂。
在非監(jiān)督學(xué)習(xí)過(guò)程中,保存RBM調(diào)整得到的權(quán)值,并作為自頂向下的監(jiān)督學(xué)習(xí)的初始權(quán)值,與監(jiān)督學(xué)習(xí)過(guò)程一樣,根據(jù)樣本的標(biāo)注,采用梯度下降法再次微調(diào)權(quán)值,這里,RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu),都具有相同的輸入層和隱藏層,包括每層的節(jié)點(diǎn)數(shù)目也都相同,只是DBN網(wǎng)絡(luò)最后還有一個(gè)輸出層.DBN網(wǎng)絡(luò)訓(xùn)練過(guò)程如圖4所示,
3.形態(tài)學(xué)視頻圖像去噪處理
通過(guò)深度置信網(wǎng)絡(luò)法對(duì)文本區(qū)域準(zhǔn)確定位后,再根據(jù)字符的特征,采用形態(tài)學(xué)處理方法實(shí)現(xiàn)對(duì)空洞區(qū)域和孤立點(diǎn)進(jìn)行填充、去噪、腐蝕以及膨脹等操作,最后再將獲得的標(biāo)記二值圖像映射到原圖像,實(shí)現(xiàn)清晰背景的文本圖像。
針對(duì)圖像中存在的孤立點(diǎn)噪聲問(wèn)題,通過(guò)鄰域背景區(qū)域形態(tài)學(xué)比較,修改標(biāo)記二值圖像中孤立點(diǎn)背景區(qū)域值,實(shí)現(xiàn)孤立點(diǎn)去噪處理,如在標(biāo)記二值圖像過(guò)程中,由于字符之間存在間隔和中文標(biāo)點(diǎn)符號(hào),經(jīng)過(guò)DBN網(wǎng)絡(luò)處理后,該區(qū)域易被判定為背景區(qū)域,此時(shí)需要根據(jù)形態(tài)學(xué)法進(jìn)行背景填充,即將背景區(qū)域值“0”修改為文字區(qū)域值“1”,為消除視頻圖像中次要文本區(qū)域的定位,以達(dá)到對(duì)視頻中主要文字信息的提取與識(shí)別,本文采用了基于形態(tài)學(xué)的圖像腐蝕與膨脹方法。
選用原點(diǎn)位于中心的5×5對(duì)稱結(jié)構(gòu)元素作腐蝕和膨脹運(yùn)算,由于腐蝕運(yùn)算,在去除噪聲點(diǎn)的同時(shí),會(huì)對(duì)圖像中文本區(qū)域的形狀有影響,故在進(jìn)行腐蝕運(yùn)算,去除部分噪聲點(diǎn)后,再進(jìn)行膨脹運(yùn)算以消除腐蝕運(yùn)算之后對(duì)文本區(qū)域的影響。
經(jīng)過(guò)DBN網(wǎng)絡(luò)、形態(tài)學(xué)去噪處理以及圖像映射后的效果如圖5所示,由圖5所示可見(jiàn)視頻圖像在經(jīng)過(guò)訓(xùn)練的DBN網(wǎng)絡(luò)處理后,可以有效定位出字符、文本區(qū)域信息,如圖5(b)所示;而經(jīng)過(guò)形態(tài)學(xué)處理后圖像中的噪點(diǎn)和不連續(xù)點(diǎn)被有效去除,獲得清晰的文本區(qū)域圖像,如圖5(c)所示。
4.OCR字符識(shí)別及結(jié)果分析
視頻圖像文本區(qū)域定位都是從最底層特征映射出相應(yīng)的頂層特征,依次層層映射,直到得到最頂層的結(jié)果。
通過(guò)對(duì)DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學(xué)處理后文本區(qū)域,進(jìn)行二值化處理,去除與邊界相連的區(qū)域,將文本域背景黑白反轉(zhuǎn),再送到OCR軟件進(jìn)行識(shí)別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像,圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識(shí)別后的結(jié)果。
將本文提出的逐層增量深度學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對(duì)文本區(qū)域的定位作對(duì)比.采用式(12)中的查全率(RR)、查準(zhǔn)率(PR)以及系數(shù)F來(lái)綜合評(píng)價(jià)這幾種方法的使用效果。
其中:c為圖像中正確檢測(cè)到的文本區(qū)域個(gè)數(shù);m為圖像中檢測(cè)到的文本區(qū)域總數(shù);n為圖像中實(shí)際存在的文本區(qū)域總數(shù);F系數(shù)用來(lái)對(duì)各個(gè)算法性能進(jìn)行綜合排名,是將查全率和查準(zhǔn)率這兩個(gè)性能的指標(biāo)線性合并而成。
4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較
為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)算法性能的影響,故測(cè)試了不同DBN網(wǎng)絡(luò)層數(shù)的性能,實(shí)驗(yàn)結(jié)果如表1所示,測(cè)試數(shù)據(jù)表明,隨著網(wǎng)絡(luò)層數(shù)的增加,DBN網(wǎng)絡(luò)的正確率逐步提高,網(wǎng)絡(luò)的逼近能力逐步增強(qiáng),但是,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的復(fù)雜度也會(huì)不斷的增加,網(wǎng)絡(luò)的泛化力會(huì)逐步降低,所以并不是網(wǎng)絡(luò)層數(shù)越多越好,實(shí)驗(yàn)中,認(rèn)為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求,因此后續(xù)實(shí)驗(yàn)選擇4-DBN網(wǎng)絡(luò)為基準(zhǔn)。
4.2與其他方法的比較
通過(guò)選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下,采用如上4種不同方法對(duì)文本區(qū)域進(jìn)行定位和對(duì)比,測(cè)試結(jié)果如表2所示。
從表2的試驗(yàn)結(jié)果對(duì)比可以看出,DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法,其查全率和查準(zhǔn)率均高于Kim和SVM法,并且其F系數(shù)也是最高的.針對(duì)表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個(gè),總字符數(shù)為5059個(gè),進(jìn)行文本識(shí)別實(shí)驗(yàn),經(jīng)二值化和形態(tài)學(xué)去噪處理后再進(jìn)行OCR識(shí)別,表2測(cè)試結(jié)果表明,DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢(shì).通過(guò)正確定位出文本區(qū)域,使對(duì)視頻中的文本字符的正確識(shí)別率也明顯提高,保障了后續(xù)文本識(shí)別的正確率.
5.結(jié)論
本文將深度學(xué)習(xí)算法應(yīng)用在了文字區(qū)域的定位與識(shí)別中,根據(jù)文字區(qū)域的紋理特征,利用Gabor濾波器提取這些特征,通過(guò)逐層增量深度學(xué)習(xí)調(diào)整DBN網(wǎng)絡(luò)進(jìn)行文本區(qū)域定位,并對(duì)定位后的結(jié)果采用形態(tài)學(xué)等后續(xù)處理與OCR識(shí)別,實(shí)驗(yàn)結(jié)果表明,逐層增量深度學(xué)習(xí)算法具有較高的定位準(zhǔn)確性,有利于視頻文本的正確識(shí)別。