亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習法的視頻文本區(qū)域定位與區(qū)別

2017-02-21 20:45:29劉明珠鄭云非樊金斐于芳

哈爾濱理工大學學報 2016年6期

關(guān)鍵詞：字符識別

劉明珠　鄭云非　樊金斐　于芳

摘要：通過對視頻圖像進行快速、準確的文本定位與識別，有利于提高視頻信息處理的效率與準確率，采用Gabor濾波器實現(xiàn)在橫、豎、撇、捺四個方向上的視頻圖像的紋理特征的提取，再通過RBM逐層增量深度學習算法構(gòu)建深度置信網(wǎng)絡(luò)，實現(xiàn)對提取的紋理特征圖像中文本區(qū)域的定位.論文同時研究了利用形態(tài)學處理方法和OCR字符庫實現(xiàn)對視頻圖像文本識別的可行性，并分析了識別效果，測試結(jié)果表明，本文提出的深度學習算法與形態(tài)學字符識別方法相結(jié)合，不但能夠?qū)崿F(xiàn)對視頻圖像文本區(qū)域的準確定位，還有利于提高字符識別的效率和準確率。

關(guān)鍵詞：深度學習算法；視頻圖像；文本區(qū)域定位；形態(tài)學去噪；字符識別

DoI：10.15938/j.jhust.2016.06.012

中圖分類號：TP391.43

文獻標志碼：A

文章編號：1007-2683（2016）06-0061-06

0.引言

視頻中的文字檢測與識別是視頻圖像檢測領(lǐng)域的一項重要研究內(nèi)容.在復雜背景下，視頻文本的準確定位與識別有利于進行視頻圖像檢測，只有準確的視頻文本區(qū)域的定位，才能提高OcR字符識別系統(tǒng)的文本識別準確率，進而提高基于內(nèi)容的視頻圖像的正確檢測的效率，對視頻定位與檢索有十分重要的應用價值，一般的文本定位方法主要包括：邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機器學習法等，本文采用2D-Gabor濾波器與深度學習算法相結(jié)合的方法，實現(xiàn)對復雜背景視頻中文本區(qū)域的定位，并研究了基于形態(tài)學的視頻圖像去噪方法，再通過OCR系統(tǒng)實現(xiàn)字符的識別，以提高OCR系統(tǒng)字符識別的準確率。

1.深度學習視頻文本區(qū)域定位與識別流程

本文將深度學習算法理論應用于視頻文本區(qū)域定位與識別過程，設(shè)計了一種基于紋理特征的逐層增量深度學習算法.該算法的處理流程如圖1所示.首先，將視頻圖像通過Gabor濾波器濾波，獲得視頻圖像文本中文字的紋理特征；接著，將紋理特征作為訓練樣本，利用受限玻爾茲曼機（restricted bolt-zmann machine，RBM）逐層對紋理圖像進行增量學習，在學習過程中，用標記樣本作為監(jiān)督數(shù)據(jù)進行網(wǎng)絡(luò)微調(diào)，構(gòu)成深度置信網(wǎng)絡(luò)（deep belief network，DBN），并標記文本區(qū)域和背景區(qū)域的二值圖像；之后，利用形態(tài)學方法對二值圖像去噪處理，再映射到定位圖像上，得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像，最后，再將圖像進行二值化、灰度等后續(xù)處理，送入到OCR字符識別系統(tǒng)進行字符識別.

2.逐層增量深度學習視頻文本定位算法

2.1視頻圖像紋理特征的提取

字符的紋理具有周期性，并且在一定的頻率范圍內(nèi)能量相對集中，所以可以利用二維Gabor濾波器對視頻圖像在不同尺度和方向上進行濾波，Gabor濾波器理論最早由Daugman提出，能夠很好地描述對應于空間頻率（尺度）、空間位置及方向選擇性的局部結(jié)構(gòu)信息。

鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成，所以Gabor濾波器要求能夠在這4個方向上反映中文字符的筆畫特征，并且要求能夠保證對這4個方向紋理區(qū)域的頻率分量均有很好的響應。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系，發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系，且周期入是筆畫寬度η的一半，當筆畫的方向與Gabor濾波器的方向處于正交時，Ga-bor濾波器輸出最優(yōu)，因此，可以通過筆畫的寬度來確定Gabor濾波器的中心頻率，本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U_{1，/sub>=0.2，高頻中心頻率U，sub>h}0.4，方向數(shù)和尺度數(shù)分別為T=4，M=4。

圖2（b）所示為圖2（a）原視頻圖像在橫、撇、豎、捺4個方向進行Gabor濾波后的結(jié)果.由圖2（b）可知，Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離，并使文字在橫、撇、豎、捺4個方向的紋理信息得到保持，同時背景區(qū)域的紋理被有效的抑制。

2.2深度學習算法基本原理

深度學習是機器學習研究領(lǐng)域中的一個新問題，其目的在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò)，深度學習算法是由深信度網(wǎng)絡(luò)（depth be-lief network，DBN）上的一系列受限玻爾茲曼機（re-stricted bohzmann machine，RBM）的概率模型組成.深度學習算法一般描述過程如下：假設(shè)有一個系統(tǒng)s，它有n層，S₁，S₂....S_n設(shè)輸入為I，輸出為o，學習的一般過程表示為：I=S₁=S₂，…S_n=O，如果輸出O等于輸入I即輸入I經(jīng)過這個系統(tǒng)變化之后沒有任何的信息損失或者損失很小，可以看作基本上保持不變，這意味著輸入，經(jīng)過每一層S_i，都幾乎沒有信息的損失，即任何一層S_I，都是原有信息（即輸入i）的另外一種表示，深度學習算法的核心思路有：①無監(jiān)督學習用于每一層網(wǎng)絡(luò)的預訓練；②每次用無監(jiān)督學習只訓練其中一層，將其訓練結(jié)果作為其高一層的輸入；③用自頂而下的監(jiān)督算法去調(diào)整所有層。

2.3深度學習網(wǎng)絡(luò)（DBN）的構(gòu)建

本文采用的深度置信網(wǎng)絡(luò)的深度學習算法，是通過一系列受限波爾茲曼機（RBM）的概率模型組成.Hinton和sejnowski等設(shè)計了一種能夠用在機器學習中的隨機循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機，它是一種如圖3所示的兩層無向圖模型，包含可視層v和隱藏層h，同時限制同一層節(jié)點之間的連接，而不同的單元層之間有連接。

2.4網(wǎng)絡(luò)訓練與權(quán)值調(diào)整

DBN網(wǎng)絡(luò)需要進行訓練以獲得最佳權(quán)值，通常DBN網(wǎng)絡(luò)訓練包括自底向上非監(jiān)督學習和自頂向下的監(jiān)督學習兩個部分，其過程為先對紋理特征圖像采用RBM進行逐層增量學習，應用最大似然估計法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值，使RBM達到能量平衡，再用監(jiān)督數(shù)據(jù)，對整個DBN網(wǎng)絡(luò)進行微調(diào)，

在非監(jiān)督學習過程中，DBN網(wǎng)絡(luò)中每一個狀態(tài)值都對應一層的結(jié)點，計算的輸入輸出數(shù)據(jù)都是對應結(jié)點狀態(tài)值為“1”的概率值，而H_n層的輸入向量是每個文字區(qū)域的紋理樣本，通過交替的吉布斯采樣后，作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學習網(wǎng)絡(luò)結(jié)構(gòu)包含n個隱藏層，每層的節(jié)點數(shù)分別是L₁，L₁，…，L_N，紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層H_o層，不斷的調(diào)整H_n和H₁，之間權(quán)值W_o，根據(jù)式（8）、（9）將調(diào)整得到的權(quán)值W_n與初始數(shù)據(jù)根據(jù)式（7）計算出一組新的概率送入H₁層，作為H₁層的輸入數(shù)據(jù).重復上述計算過程得到WS₁，WS₁，…，W_n-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值W_i={W_o，w₁，W₂，…，W_n-1}，DBN網(wǎng)絡(luò)包含n+2層，即H₀，H₁，H₂，…，H_n層和樣本標簽數(shù)據(jù)層，其中HS_n作為輸入層，其節(jié)點數(shù)為64，標簽樣本層為輸出層，中間n層的節(jié)點數(shù)分別是L₁，L₂，LS_n，…采用無標注的訓練樣本構(gòu)建DBN網(wǎng)絡(luò)，以HS_o和H₁之間的訓練為例，HS_n和H_n，層構(gòu)成了一個RBM，H_N與可見層移的節(jié)點數(shù)相同，H₁，與隱藏層h的節(jié)點數(shù)相同，利用交替的吉布斯抽樣來調(diào)整權(quán)值WS_n，直到RBM收斂。

在非監(jiān)督學習過程中，保存RBM調(diào)整得到的權(quán)值，并作為自頂向下的監(jiān)督學習的初始權(quán)值，與監(jiān)督學習過程一樣，根據(jù)樣本的標注，采用梯度下降法再次微調(diào)權(quán)值，這里，RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu)，都具有相同的輸入層和隱藏層，包括每層的節(jié)點數(shù)目也都相同，只是DBN網(wǎng)絡(luò)最后還有一個輸出層.DBN網(wǎng)絡(luò)訓練過程如圖4所示，

3.形態(tài)學視頻圖像去噪處理

通過深度置信網(wǎng)絡(luò)法對文本區(qū)域準確定位后，再根據(jù)字符的特征，采用形態(tài)學處理方法實現(xiàn)對空洞區(qū)域和孤立點進行填充、去噪、腐蝕以及膨脹等操作，最后再將獲得的標記二值圖像映射到原圖像，實現(xiàn)清晰背景的文本圖像。

針對圖像中存在的孤立點噪聲問題，通過鄰域背景區(qū)域形態(tài)學比較，修改標記二值圖像中孤立點背景區(qū)域值，實現(xiàn)孤立點去噪處理，如在標記二值圖像過程中，由于字符之間存在間隔和中文標點符號，經(jīng)過DBN網(wǎng)絡(luò)處理后，該區(qū)域易被判定為背景區(qū)域，此時需要根據(jù)形態(tài)學法進行背景填充，即將背景區(qū)域值“0”修改為文字區(qū)域值“1”，為消除視頻圖像中次要文本區(qū)域的定位，以達到對視頻中主要文字信息的提取與識別，本文采用了基于形態(tài)學的圖像腐蝕與膨脹方法。

選用原點位于中心的5×5對稱結(jié)構(gòu)元素作腐蝕和膨脹運算，由于腐蝕運算，在去除噪聲點的同時，會對圖像中文本區(qū)域的形狀有影響，故在進行腐蝕運算，去除部分噪聲點后，再進行膨脹運算以消除腐蝕運算之后對文本區(qū)域的影響。

經(jīng)過DBN網(wǎng)絡(luò)、形態(tài)學去噪處理以及圖像映射后的效果如圖5所示，由圖5所示可見視頻圖像在經(jīng)過訓練的DBN網(wǎng)絡(luò)處理后，可以有效定位出字符、文本區(qū)域信息，如圖5（b）所示；而經(jīng)過形態(tài)學處理后圖像中的噪點和不連續(xù)點被有效去除，獲得清晰的文本區(qū)域圖像，如圖5（c）所示。

4.OCR字符識別及結(jié)果分析

視頻圖像文本區(qū)域定位都是從最底層特征映射出相應的頂層特征，依次層層映射，直到得到最頂層的結(jié)果。

通過對DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學處理后文本區(qū)域，進行二值化處理，去除與邊界相連的區(qū)域，將文本域背景黑白反轉(zhuǎn)，再送到OCR軟件進行識別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像，圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識別后的結(jié)果。

將本文提出的逐層增量深度學習算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對文本區(qū)域的定位作對比.采用式（12）中的查全率（RR）、查準率（PR）以及系數(shù)F來綜合評價這幾種方法的使用效果。

其中：c為圖像中正確檢測到的文本區(qū)域個數(shù)；m為圖像中檢測到的文本區(qū)域總數(shù)；n為圖像中實際存在的文本區(qū)域總數(shù)；F系數(shù)用來對各個算法性能進行綜合排名，是將查全率和查準率這兩個性能的指標線性合并而成。

4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較

為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對算法性能的影響，故測試了不同DBN網(wǎng)絡(luò)層數(shù)的性能，實驗結(jié)果如表1所示，測試數(shù)據(jù)表明，隨著網(wǎng)絡(luò)層數(shù)的增加，DBN網(wǎng)絡(luò)的正確率逐步提高，網(wǎng)絡(luò)的逼近能力逐步增強，但是，隨著網(wǎng)絡(luò)層數(shù)的增加，網(wǎng)絡(luò)的復雜度也會不斷的增加，網(wǎng)絡(luò)的泛化力會逐步降低，所以并不是網(wǎng)絡(luò)層數(shù)越多越好，實驗中，認為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求，因此后續(xù)實驗選擇4-DBN網(wǎng)絡(luò)為基準。

4.2與其他方法的比較

通過選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下，采用如上4種不同方法對文本區(qū)域進行定位和對比，測試結(jié)果如表2所示。

從表2的試驗結(jié)果對比可以看出，DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法，其查全率和查準率均高于Kim和SVM法，并且其F系數(shù)也是最高的.針對表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個，總字符數(shù)為5059個，進行文本識別實驗，經(jīng)二值化和形態(tài)學去噪處理后再進行OCR識別，表2測試結(jié)果表明，DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢.通過正確定位出文本區(qū)域，使對視頻中的文本字符的正確識別率也明顯提高，保障了后續(xù)文本識別的正確率.

5.結(jié)論

本文將深度學習算法應用在了文字區(qū)域的定位與識別中，根據(jù)文字區(qū)域的紋理特征，利用Gabor濾波器提取這些特征，通過逐層增量深度學習調(diào)整DBN網(wǎng)絡(luò)進行文本區(qū)域定位，并對定位后的結(jié)果采用形態(tài)學等后續(xù)處理與OCR識別，實驗結(jié)果表明，逐層增量深度學習算法具有較高的定位準確性，有利于視頻文本的正確識別。