亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與區(qū)別

2017-02-21 17:35:05劉明珠鄭云非樊金斐于芳

哈爾濱理工大學(xué)學(xué)報(bào) 2016年6期

劉明珠　鄭云非　樊金斐　于芳

摘要：通過(guò)對(duì)視頻圖像進(jìn)行快速、準(zhǔn)確的文本定位與識(shí)別，有利于提高視頻信息處理的效率與準(zhǔn)確率，采用Gabor濾波器實(shí)現(xiàn)在橫、豎、撇、捺四個(gè)方向上的視頻圖像的紋理特征的提取，再通過(guò)RBM逐層增量深度學(xué)習(xí)算法構(gòu)建深度置信網(wǎng)絡(luò)，實(shí)現(xiàn)對(duì)提取的紋理特征圖像中文本區(qū)域的定位.論文同時(shí)研究了利用形態(tài)學(xué)處理方法和OCR字符庫(kù)實(shí)現(xiàn)對(duì)視頻圖像文本識(shí)別的可行性，并分析了識(shí)別效果，測(cè)試結(jié)果表明，本文提出的深度學(xué)習(xí)算法與形態(tài)學(xué)字符識(shí)別方法相結(jié)合，不但能夠?qū)崿F(xiàn)對(duì)視頻圖像文本區(qū)域的準(zhǔn)確定位，還有利于提高字符識(shí)別的效率和準(zhǔn)確率。

關(guān)鍵詞：深度學(xué)習(xí)算法；視頻圖像；文本區(qū)域定位；形態(tài)學(xué)去噪；字符識(shí)別

DoI：10.15938/j.jhust.2016.06.012

中圖分類號(hào)：TP391.43

文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1007-2683（2016）06-0061-06

0.引言

視頻中的文字檢測(cè)與識(shí)別是視頻圖像檢測(cè)領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容.在復(fù)雜背景下，視頻文本的準(zhǔn)確定位與識(shí)別有利于進(jìn)行視頻圖像檢測(cè)，只有準(zhǔn)確的視頻文本區(qū)域的定位，才能提高OcR字符識(shí)別系統(tǒng)的文本識(shí)別準(zhǔn)確率，進(jìn)而提高基于內(nèi)容的視頻圖像的正確檢測(cè)的效率，對(duì)視頻定位與檢索有十分重要的應(yīng)用價(jià)值，一般的文本定位方法主要包括：邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機(jī)器學(xué)習(xí)法等，本文采用2D-Gabor濾波器與深度學(xué)習(xí)算法相結(jié)合的方法，實(shí)現(xiàn)對(duì)復(fù)雜背景視頻中文本區(qū)域的定位，并研究了基于形態(tài)學(xué)的視頻圖像去噪方法，再通過(guò)OCR系統(tǒng)實(shí)現(xiàn)字符的識(shí)別，以提高OCR系統(tǒng)字符識(shí)別的準(zhǔn)確率。

1.深度學(xué)習(xí)視頻文本區(qū)域定位與識(shí)別流程

本文將深度學(xué)習(xí)算法理論應(yīng)用于視頻文本區(qū)域定位與識(shí)別過(guò)程，設(shè)計(jì)了一種基于紋理特征的逐層增量深度學(xué)習(xí)算法.該算法的處理流程如圖1所示.首先，將視頻圖像通過(guò)Gabor濾波器濾波，獲得視頻圖像文本中文字的紋理特征；接著，將紋理特征作為訓(xùn)練樣本，利用受限玻爾茲曼機(jī)（restricted bolt-zmann machine，RBM）逐層對(duì)紋理圖像進(jìn)行增量學(xué)習(xí)，在學(xué)習(xí)過(guò)程中，用標(biāo)記樣本作為監(jiān)督數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)微調(diào)，構(gòu)成深度置信網(wǎng)絡(luò)（deep belief network，DBN），并標(biāo)記文本區(qū)域和背景區(qū)域的二值圖像；之后，利用形態(tài)學(xué)方法對(duì)二值圖像去噪處理，再映射到定位圖像上，得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像，最后，再將圖像進(jìn)行二值化、灰度等后續(xù)處理，送入到OCR字符識(shí)別系統(tǒng)進(jìn)行字符識(shí)別.

2.逐層增量深度學(xué)習(xí)視頻文本定位算法

2.1視頻圖像紋理特征的提取

字符的紋理具有周期性，并且在一定的頻率范圍內(nèi)能量相對(duì)集中，所以可以利用二維Gabor濾波器對(duì)視頻圖像在不同尺度和方向上進(jìn)行濾波，Gabor濾波器理論最早由Daugman提出，能夠很好地描述對(duì)應(yīng)于空間頻率（尺度）、空間位置及方向選擇性的局部結(jié)構(gòu)信息。

鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成，所以Gabor濾波器要求能夠在這4個(gè)方向上反映中文字符的筆畫特征，并且要求能夠保證對(duì)這4個(gè)方向紋理區(qū)域的頻率分量均有很好的響應(yīng)。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系，發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系，且周期入是筆畫寬度η的一半，當(dāng)筆畫的方向與Gabor濾波器的方向處于正交時(shí)，Ga-bor濾波器輸出最優(yōu)，因此，可以通過(guò)筆畫的寬度來(lái)確定Gabor濾波器的中心頻率，本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U_{1，/sub>=0.2，高頻中心頻率U，sub>h}0.4，方向數(shù)和尺度數(shù)分別為T=4，M=4。

圖2（b）所示為圖2（a）原視頻圖像在橫、撇、豎、捺4個(gè)方向進(jìn)行Gabor濾波后的結(jié)果.由圖2（b）可知，Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離，并使文字在橫、撇、豎、捺4個(gè)方向的紋理信息得到保持，同時(shí)背景區(qū)域的紋理被有效的抑制。

2.2深度學(xué)習(xí)算法基本原理

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個(gè)新問(wèn)題，其目的在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，深度學(xué)習(xí)算法是由深信度網(wǎng)絡(luò)（depth be-lief network，DBN）上的一系列受限玻爾茲曼機(jī)（re-stricted bohzmann machine，RBM）的概率模型組成.深度學(xué)習(xí)算法一般描述過(guò)程如下：假設(shè)有一個(gè)系統(tǒng)s，它有n層，S₁，S₂....S_n設(shè)輸入為I，輸出為o，學(xué)習(xí)的一般過(guò)程表示為：I=S₁=S₂，…S_n=O，如果輸出O等于輸入I即輸入I經(jīng)過(guò)這個(gè)系統(tǒng)變化之后沒(méi)有任何的信息損失或者損失很小，可以看作基本上保持不變，這意味著輸入，經(jīng)過(guò)每一層S_i，都幾乎沒(méi)有信息的損失，即任何一層S_I，都是原有信息（即輸入i）的另外一種表示，深度學(xué)習(xí)算法的核心思路有：①無(wú)監(jiān)督學(xué)習(xí)用于每一層網(wǎng)絡(luò)的預(yù)訓(xùn)練；②每次用無(wú)監(jiān)督學(xué)習(xí)只訓(xùn)練其中一層，將其訓(xùn)練結(jié)果作為其高一層的輸入；③用自頂而下的監(jiān)督算法去調(diào)整所有層。

2.3深度學(xué)習(xí)網(wǎng)絡(luò)（DBN）的構(gòu)建

本文采用的深度置信網(wǎng)絡(luò)的深度學(xué)習(xí)算法，是通過(guò)一系列受限波爾茲曼機(jī)（RBM）的概率模型組成.Hinton和sejnowski等設(shè)計(jì)了一種能夠用在機(jī)器學(xué)習(xí)中的隨機(jī)循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機(jī)，它是一種如圖3所示的兩層無(wú)向圖模型，包含可視層v和隱藏層h，同時(shí)限制同一層節(jié)點(diǎn)之間的連接，而不同的單元層之間有連接。

2.4網(wǎng)絡(luò)訓(xùn)練與權(quán)值調(diào)整

DBN網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練以獲得最佳權(quán)值，通常DBN網(wǎng)絡(luò)訓(xùn)練包括自底向上非監(jiān)督學(xué)習(xí)和自頂向下的監(jiān)督學(xué)習(xí)兩個(gè)部分，其過(guò)程為先對(duì)紋理特征圖像采用RBM進(jìn)行逐層增量學(xué)習(xí)，應(yīng)用最大似然估計(jì)法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值，使RBM達(dá)到能量平衡，再用監(jiān)督數(shù)據(jù)，對(duì)整個(gè)DBN網(wǎng)絡(luò)進(jìn)行微調(diào)，

在非監(jiān)督學(xué)習(xí)過(guò)程中，DBN網(wǎng)絡(luò)中每一個(gè)狀態(tài)值都對(duì)應(yīng)一層的結(jié)點(diǎn)，計(jì)算的輸入輸出數(shù)據(jù)都是對(duì)應(yīng)結(jié)點(diǎn)狀態(tài)值為“1”的概率值，而H_n層的輸入向量是每個(gè)文字區(qū)域的紋理樣本，通過(guò)交替的吉布斯采樣后，作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包含n個(gè)隱藏層，每層的節(jié)點(diǎn)數(shù)分別是L₁，L₁，…，L_N，紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層H_o層，不斷的調(diào)整H_n和H₁，之間權(quán)值W_o，根據(jù)式（8）、（9）將調(diào)整得到的權(quán)值W_n與初始數(shù)據(jù)根據(jù)式（7）計(jì)算出一組新的概率送入H₁層，作為H₁層的輸入數(shù)據(jù).重復(fù)上述計(jì)算過(guò)程得到WS₁，WS₁，…，W_n-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值W_i={W_o，w₁，W₂，…，W_n-1}，DBN網(wǎng)絡(luò)包含n+2層，即H₀，H₁，H₂，…，H_n層和樣本標(biāo)簽數(shù)據(jù)層，其中HS_n作為輸入層，其節(jié)點(diǎn)數(shù)為64，標(biāo)簽樣本層為輸出層，中間n層的節(jié)點(diǎn)數(shù)分別是L₁，L₂，LS_n，…采用無(wú)標(biāo)注的訓(xùn)練樣本構(gòu)建DBN網(wǎng)絡(luò)，以HS_o和H₁之間的訓(xùn)練為例，HS_n和H_n，層構(gòu)成了一個(gè)RBM，H_N與可見(jiàn)層移的節(jié)點(diǎn)數(shù)相同，H₁，與隱藏層h的節(jié)點(diǎn)數(shù)相同，利用交替的吉布斯抽樣來(lái)調(diào)整權(quán)值WS_n，直到RBM收斂。

在非監(jiān)督學(xué)習(xí)過(guò)程中，保存RBM調(diào)整得到的權(quán)值，并作為自頂向下的監(jiān)督學(xué)習(xí)的初始權(quán)值，與監(jiān)督學(xué)習(xí)過(guò)程一樣，根據(jù)樣本的標(biāo)注，采用梯度下降法再次微調(diào)權(quán)值，這里，RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu)，都具有相同的輸入層和隱藏層，包括每層的節(jié)點(diǎn)數(shù)目也都相同，只是DBN網(wǎng)絡(luò)最后還有一個(gè)輸出層.DBN網(wǎng)絡(luò)訓(xùn)練過(guò)程如圖4所示，

3.形態(tài)學(xué)視頻圖像去噪處理

通過(guò)深度置信網(wǎng)絡(luò)法對(duì)文本區(qū)域準(zhǔn)確定位后，再根據(jù)字符的特征，采用形態(tài)學(xué)處理方法實(shí)現(xiàn)對(duì)空洞區(qū)域和孤立點(diǎn)進(jìn)行填充、去噪、腐蝕以及膨脹等操作，最后再將獲得的標(biāo)記二值圖像映射到原圖像，實(shí)現(xiàn)清晰背景的文本圖像。

針對(duì)圖像中存在的孤立點(diǎn)噪聲問(wèn)題，通過(guò)鄰域背景區(qū)域形態(tài)學(xué)比較，修改標(biāo)記二值圖像中孤立點(diǎn)背景區(qū)域值，實(shí)現(xiàn)孤立點(diǎn)去噪處理，如在標(biāo)記二值圖像過(guò)程中，由于字符之間存在間隔和中文標(biāo)點(diǎn)符號(hào)，經(jīng)過(guò)DBN網(wǎng)絡(luò)處理后，該區(qū)域易被判定為背景區(qū)域，此時(shí)需要根據(jù)形態(tài)學(xué)法進(jìn)行背景填充，即將背景區(qū)域值“0”修改為文字區(qū)域值“1”，為消除視頻圖像中次要文本區(qū)域的定位，以達(dá)到對(duì)視頻中主要文字信息的提取與識(shí)別，本文采用了基于形態(tài)學(xué)的圖像腐蝕與膨脹方法。

選用原點(diǎn)位于中心的5×5對(duì)稱結(jié)構(gòu)元素作腐蝕和膨脹運(yùn)算，由于腐蝕運(yùn)算，在去除噪聲點(diǎn)的同時(shí)，會(huì)對(duì)圖像中文本區(qū)域的形狀有影響，故在進(jìn)行腐蝕運(yùn)算，去除部分噪聲點(diǎn)后，再進(jìn)行膨脹運(yùn)算以消除腐蝕運(yùn)算之后對(duì)文本區(qū)域的影響。

經(jīng)過(guò)DBN網(wǎng)絡(luò)、形態(tài)學(xué)去噪處理以及圖像映射后的效果如圖5所示，由圖5所示可見(jiàn)視頻圖像在經(jīng)過(guò)訓(xùn)練的DBN網(wǎng)絡(luò)處理后，可以有效定位出字符、文本區(qū)域信息，如圖5（b）所示；而經(jīng)過(guò)形態(tài)學(xué)處理后圖像中的噪點(diǎn)和不連續(xù)點(diǎn)被有效去除，獲得清晰的文本區(qū)域圖像，如圖5（c）所示。

4.OCR字符識(shí)別及結(jié)果分析

視頻圖像文本區(qū)域定位都是從最底層特征映射出相應(yīng)的頂層特征，依次層層映射，直到得到最頂層的結(jié)果。

通過(guò)對(duì)DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學(xué)處理后文本區(qū)域，進(jìn)行二值化處理，去除與邊界相連的區(qū)域，將文本域背景黑白反轉(zhuǎn)，再送到OCR軟件進(jìn)行識(shí)別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像，圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識(shí)別后的結(jié)果。

將本文提出的逐層增量深度學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對(duì)文本區(qū)域的定位作對(duì)比.采用式（12）中的查全率（RR）、查準(zhǔn)率（PR）以及系數(shù)F來(lái)綜合評(píng)價(jià)這幾種方法的使用效果。

其中：c為圖像中正確檢測(cè)到的文本區(qū)域個(gè)數(shù)；m為圖像中檢測(cè)到的文本區(qū)域總數(shù)；n為圖像中實(shí)際存在的文本區(qū)域總數(shù)；F系數(shù)用來(lái)對(duì)各個(gè)算法性能進(jìn)行綜合排名，是將查全率和查準(zhǔn)率這兩個(gè)性能的指標(biāo)線性合并而成。

4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較

為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)算法性能的影響，故測(cè)試了不同DBN網(wǎng)絡(luò)層數(shù)的性能，實(shí)驗(yàn)結(jié)果如表1所示，測(cè)試數(shù)據(jù)表明，隨著網(wǎng)絡(luò)層數(shù)的增加，DBN網(wǎng)絡(luò)的正確率逐步提高，網(wǎng)絡(luò)的逼近能力逐步增強(qiáng)，但是，隨著網(wǎng)絡(luò)層數(shù)的增加，網(wǎng)絡(luò)的復(fù)雜度也會(huì)不斷的增加，網(wǎng)絡(luò)的泛化力會(huì)逐步降低，所以并不是網(wǎng)絡(luò)層數(shù)越多越好，實(shí)驗(yàn)中，認(rèn)為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求，因此后續(xù)實(shí)驗(yàn)選擇4-DBN網(wǎng)絡(luò)為基準(zhǔn)。

4.2與其他方法的比較

通過(guò)選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下，采用如上4種不同方法對(duì)文本區(qū)域進(jìn)行定位和對(duì)比，測(cè)試結(jié)果如表2所示。

從表2的試驗(yàn)結(jié)果對(duì)比可以看出，DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法，其查全率和查準(zhǔn)率均高于Kim和SVM法，并且其F系數(shù)也是最高的.針對(duì)表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個(gè)，總字符數(shù)為5059個(gè)，進(jìn)行文本識(shí)別實(shí)驗(yàn)，經(jīng)二值化和形態(tài)學(xué)去噪處理后再進(jìn)行OCR識(shí)別，表2測(cè)試結(jié)果表明，DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢(shì).通過(guò)正確定位出文本區(qū)域，使對(duì)視頻中的文本字符的正確識(shí)別率也明顯提高，保障了后續(xù)文本識(shí)別的正確率.

5.結(jié)論

本文將深度學(xué)習(xí)算法應(yīng)用在了文字區(qū)域的定位與識(shí)別中，根據(jù)文字區(qū)域的紋理特征，利用Gabor濾波器提取這些特征，通過(guò)逐層增量深度學(xué)習(xí)調(diào)整DBN網(wǎng)絡(luò)進(jìn)行文本區(qū)域定位，并對(duì)定位后的結(jié)果采用形態(tài)學(xué)等后續(xù)處理與OCR識(shí)別，實(shí)驗(yàn)結(jié)果表明，逐層增量深度學(xué)習(xí)算法具有較高的定位準(zhǔn)確性，有利于視頻文本的正確識(shí)別。