亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與區(qū)別

        2017-02-21 17:35:05劉明珠鄭云非樊金斐于芳
        關(guān)鍵詞:字符識(shí)別

        劉明珠 鄭云非 樊金斐 于芳

        摘要:通過(guò)對(duì)視頻圖像進(jìn)行快速、準(zhǔn)確的文本定位與識(shí)別,有利于提高視頻信息處理的效率與準(zhǔn)確率,采用Gabor濾波器實(shí)現(xiàn)在橫、豎、撇、捺四個(gè)方向上的視頻圖像的紋理特征的提取,再通過(guò)RBM逐層增量深度學(xué)習(xí)算法構(gòu)建深度置信網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)提取的紋理特征圖像中文本區(qū)域的定位.論文同時(shí)研究了利用形態(tài)學(xué)處理方法和OCR字符庫(kù)實(shí)現(xiàn)對(duì)視頻圖像文本識(shí)別的可行性,并分析了識(shí)別效果,測(cè)試結(jié)果表明,本文提出的深度學(xué)習(xí)算法與形態(tài)學(xué)字符識(shí)別方法相結(jié)合,不但能夠?qū)崿F(xiàn)對(duì)視頻圖像文本區(qū)域的準(zhǔn)確定位,還有利于提高字符識(shí)別的效率和準(zhǔn)確率。

        關(guān)鍵詞:深度學(xué)習(xí)算法;視頻圖像;文本區(qū)域定位;形態(tài)學(xué)去噪;字符識(shí)別

        DoI:10.15938/j.jhust.2016.06.012

        中圖分類號(hào):TP391.43

        文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1007-2683(2016)06-0061-06

        0.引言

        視頻中的文字檢測(cè)與識(shí)別是視頻圖像檢測(cè)領(lǐng)域的一項(xiàng)重要研究?jī)?nèi)容.在復(fù)雜背景下,視頻文本的準(zhǔn)確定位與識(shí)別有利于進(jìn)行視頻圖像檢測(cè),只有準(zhǔn)確的視頻文本區(qū)域的定位,才能提高OcR字符識(shí)別系統(tǒng)的文本識(shí)別準(zhǔn)確率,進(jìn)而提高基于內(nèi)容的視頻圖像的正確檢測(cè)的效率,對(duì)視頻定位與檢索有十分重要的應(yīng)用價(jià)值,一般的文本定位方法主要包括:邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機(jī)器學(xué)習(xí)法等,本文采用2D-Gabor濾波器與深度學(xué)習(xí)算法相結(jié)合的方法,實(shí)現(xiàn)對(duì)復(fù)雜背景視頻中文本區(qū)域的定位,并研究了基于形態(tài)學(xué)的視頻圖像去噪方法,再通過(guò)OCR系統(tǒng)實(shí)現(xiàn)字符的識(shí)別,以提高OCR系統(tǒng)字符識(shí)別的準(zhǔn)確率。

        1.深度學(xué)習(xí)視頻文本區(qū)域定位與識(shí)別流程

        本文將深度學(xué)習(xí)算法理論應(yīng)用于視頻文本區(qū)域定位與識(shí)別過(guò)程,設(shè)計(jì)了一種基于紋理特征的逐層增量深度學(xué)習(xí)算法.該算法的處理流程如圖1所示.首先,將視頻圖像通過(guò)Gabor濾波器濾波,獲得視頻圖像文本中文字的紋理特征;接著,將紋理特征作為訓(xùn)練樣本,利用受限玻爾茲曼機(jī)(restricted bolt-zmann machine,RBM)逐層對(duì)紋理圖像進(jìn)行增量學(xué)習(xí),在學(xué)習(xí)過(guò)程中,用標(biāo)記樣本作為監(jiān)督數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)微調(diào),構(gòu)成深度置信網(wǎng)絡(luò)(deep belief network,DBN),并標(biāo)記文本區(qū)域和背景區(qū)域的二值圖像;之后,利用形態(tài)學(xué)方法對(duì)二值圖像去噪處理,再映射到定位圖像上,得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像,最后,再將圖像進(jìn)行二值化、灰度等后續(xù)處理,送入到OCR字符識(shí)別系統(tǒng)進(jìn)行字符識(shí)別.

        2.逐層增量深度學(xué)習(xí)視頻文本定位算法

        2.1視頻圖像紋理特征的提取

        字符的紋理具有周期性,并且在一定的頻率范圍內(nèi)能量相對(duì)集中,所以可以利用二維Gabor濾波器對(duì)視頻圖像在不同尺度和方向上進(jìn)行濾波,Gabor濾波器理論最早由Daugman提出,能夠很好地描述對(duì)應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。

        鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成,所以Gabor濾波器要求能夠在這4個(gè)方向上反映中文字符的筆畫特征,并且要求能夠保證對(duì)這4個(gè)方向紋理區(qū)域的頻率分量均有很好的響應(yīng)。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系,發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系,且周期入是筆畫寬度η的一半,當(dāng)筆畫的方向與Gabor濾波器的方向處于正交時(shí),Ga-bor濾波器輸出最優(yōu),因此,可以通過(guò)筆畫的寬度來(lái)確定Gabor濾波器的中心頻率,本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U1,/sub>=0.2,高頻中心頻率U,sub>h0.4,方向數(shù)和尺度數(shù)分別為T=4,M=4。

        圖2(b)所示為圖2(a)原視頻圖像在橫、撇、豎、捺4個(gè)方向進(jìn)行Gabor濾波后的結(jié)果.由圖2(b)可知,Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離,并使文字在橫、撇、豎、捺4個(gè)方向的紋理信息得到保持,同時(shí)背景區(qū)域的紋理被有效的抑制。

        2.2深度學(xué)習(xí)算法基本原理

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域中的一個(gè)新問(wèn)題,其目的在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)算法是由深信度網(wǎng)絡(luò)(depth be-lief network,DBN)上的一系列受限玻爾茲曼機(jī)(re-stricted bohzmann machine,RBM)的概率模型組成.深度學(xué)習(xí)算法一般描述過(guò)程如下:假設(shè)有一個(gè)系統(tǒng)s,它有n層,S1,S2....Sn設(shè)輸入為I,輸出為o,學(xué)習(xí)的一般過(guò)程表示為:I=S1=S2,…Sn=O,如果輸出O等于輸入I即輸入I經(jīng)過(guò)這個(gè)系統(tǒng)變化之后沒(méi)有任何的信息損失或者損失很小,可以看作基本上保持不變,這意味著輸入,經(jīng)過(guò)每一層Si,都幾乎沒(méi)有信息的損失,即任何一層SI,都是原有信息(即輸入i)的另外一種表示,深度學(xué)習(xí)算法的核心思路有:①無(wú)監(jiān)督學(xué)習(xí)用于每一層網(wǎng)絡(luò)的預(yù)訓(xùn)練;②每次用無(wú)監(jiān)督學(xué)習(xí)只訓(xùn)練其中一層,將其訓(xùn)練結(jié)果作為其高一層的輸入;③用自頂而下的監(jiān)督算法去調(diào)整所有層。

        2.3深度學(xué)習(xí)網(wǎng)絡(luò)(DBN)的構(gòu)建

        本文采用的深度置信網(wǎng)絡(luò)的深度學(xué)習(xí)算法,是通過(guò)一系列受限波爾茲曼機(jī)(RBM)的概率模型組成.Hinton和sejnowski等設(shè)計(jì)了一種能夠用在機(jī)器學(xué)習(xí)中的隨機(jī)循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機(jī),它是一種如圖3所示的兩層無(wú)向圖模型,包含可視層v和隱藏層h,同時(shí)限制同一層節(jié)點(diǎn)之間的連接,而不同的單元層之間有連接。

        2.4網(wǎng)絡(luò)訓(xùn)練與權(quán)值調(diào)整

        DBN網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練以獲得最佳權(quán)值,通常DBN網(wǎng)絡(luò)訓(xùn)練包括自底向上非監(jiān)督學(xué)習(xí)和自頂向下的監(jiān)督學(xué)習(xí)兩個(gè)部分,其過(guò)程為先對(duì)紋理特征圖像采用RBM進(jìn)行逐層增量學(xué)習(xí),應(yīng)用最大似然估計(jì)法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值,使RBM達(dá)到能量平衡,再用監(jiān)督數(shù)據(jù),對(duì)整個(gè)DBN網(wǎng)絡(luò)進(jìn)行微調(diào),

        在非監(jiān)督學(xué)習(xí)過(guò)程中,DBN網(wǎng)絡(luò)中每一個(gè)狀態(tài)值都對(duì)應(yīng)一層的結(jié)點(diǎn),計(jì)算的輸入輸出數(shù)據(jù)都是對(duì)應(yīng)結(jié)點(diǎn)狀態(tài)值為“1”的概率值,而Hn層的輸入向量是每個(gè)文字區(qū)域的紋理樣本,通過(guò)交替的吉布斯采樣后,作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包含n個(gè)隱藏層,每層的節(jié)點(diǎn)數(shù)分別是L1,L1,…,LN,紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層Ho層,不斷的調(diào)整Hn和H1,之間權(quán)值Wo,根據(jù)式(8)、(9)將調(diào)整得到的權(quán)值Wn與初始數(shù)據(jù)根據(jù)式(7)計(jì)算出一組新的概率送入H1層,作為H1層的輸入數(shù)據(jù).重復(fù)上述計(jì)算過(guò)程得到WS1,WS1,…,Wn-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值Wi={Wo,w1,W2,…,Wn-1},DBN網(wǎng)絡(luò)包含n+2層,即H0,H1,H2,…,Hn層和樣本標(biāo)簽數(shù)據(jù)層,其中HSn作為輸入層,其節(jié)點(diǎn)數(shù)為64,標(biāo)簽樣本層為輸出層,中間n層的節(jié)點(diǎn)數(shù)分別是L1,L2,LSn,…采用無(wú)標(biāo)注的訓(xùn)練樣本構(gòu)建DBN網(wǎng)絡(luò),以HSo和H1之間的訓(xùn)練為例,HSn和Hn,層構(gòu)成了一個(gè)RBM,HN與可見(jiàn)層移的節(jié)點(diǎn)數(shù)相同,H1,與隱藏層h的節(jié)點(diǎn)數(shù)相同,利用交替的吉布斯抽樣來(lái)調(diào)整權(quán)值WSn,直到RBM收斂。

        在非監(jiān)督學(xué)習(xí)過(guò)程中,保存RBM調(diào)整得到的權(quán)值,并作為自頂向下的監(jiān)督學(xué)習(xí)的初始權(quán)值,與監(jiān)督學(xué)習(xí)過(guò)程一樣,根據(jù)樣本的標(biāo)注,采用梯度下降法再次微調(diào)權(quán)值,這里,RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu),都具有相同的輸入層和隱藏層,包括每層的節(jié)點(diǎn)數(shù)目也都相同,只是DBN網(wǎng)絡(luò)最后還有一個(gè)輸出層.DBN網(wǎng)絡(luò)訓(xùn)練過(guò)程如圖4所示,

        3.形態(tài)學(xué)視頻圖像去噪處理

        通過(guò)深度置信網(wǎng)絡(luò)法對(duì)文本區(qū)域準(zhǔn)確定位后,再根據(jù)字符的特征,采用形態(tài)學(xué)處理方法實(shí)現(xiàn)對(duì)空洞區(qū)域和孤立點(diǎn)進(jìn)行填充、去噪、腐蝕以及膨脹等操作,最后再將獲得的標(biāo)記二值圖像映射到原圖像,實(shí)現(xiàn)清晰背景的文本圖像。

        針對(duì)圖像中存在的孤立點(diǎn)噪聲問(wèn)題,通過(guò)鄰域背景區(qū)域形態(tài)學(xué)比較,修改標(biāo)記二值圖像中孤立點(diǎn)背景區(qū)域值,實(shí)現(xiàn)孤立點(diǎn)去噪處理,如在標(biāo)記二值圖像過(guò)程中,由于字符之間存在間隔和中文標(biāo)點(diǎn)符號(hào),經(jīng)過(guò)DBN網(wǎng)絡(luò)處理后,該區(qū)域易被判定為背景區(qū)域,此時(shí)需要根據(jù)形態(tài)學(xué)法進(jìn)行背景填充,即將背景區(qū)域值“0”修改為文字區(qū)域值“1”,為消除視頻圖像中次要文本區(qū)域的定位,以達(dá)到對(duì)視頻中主要文字信息的提取與識(shí)別,本文采用了基于形態(tài)學(xué)的圖像腐蝕與膨脹方法。

        選用原點(diǎn)位于中心的5×5對(duì)稱結(jié)構(gòu)元素作腐蝕和膨脹運(yùn)算,由于腐蝕運(yùn)算,在去除噪聲點(diǎn)的同時(shí),會(huì)對(duì)圖像中文本區(qū)域的形狀有影響,故在進(jìn)行腐蝕運(yùn)算,去除部分噪聲點(diǎn)后,再進(jìn)行膨脹運(yùn)算以消除腐蝕運(yùn)算之后對(duì)文本區(qū)域的影響。

        經(jīng)過(guò)DBN網(wǎng)絡(luò)、形態(tài)學(xué)去噪處理以及圖像映射后的效果如圖5所示,由圖5所示可見(jiàn)視頻圖像在經(jīng)過(guò)訓(xùn)練的DBN網(wǎng)絡(luò)處理后,可以有效定位出字符、文本區(qū)域信息,如圖5(b)所示;而經(jīng)過(guò)形態(tài)學(xué)處理后圖像中的噪點(diǎn)和不連續(xù)點(diǎn)被有效去除,獲得清晰的文本區(qū)域圖像,如圖5(c)所示。

        4.OCR字符識(shí)別及結(jié)果分析

        視頻圖像文本區(qū)域定位都是從最底層特征映射出相應(yīng)的頂層特征,依次層層映射,直到得到最頂層的結(jié)果。

        通過(guò)對(duì)DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學(xué)處理后文本區(qū)域,進(jìn)行二值化處理,去除與邊界相連的區(qū)域,將文本域背景黑白反轉(zhuǎn),再送到OCR軟件進(jìn)行識(shí)別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像,圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識(shí)別后的結(jié)果。

        將本文提出的逐層增量深度學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對(duì)文本區(qū)域的定位作對(duì)比.采用式(12)中的查全率(RR)、查準(zhǔn)率(PR)以及系數(shù)F來(lái)綜合評(píng)價(jià)這幾種方法的使用效果。

        其中:c為圖像中正確檢測(cè)到的文本區(qū)域個(gè)數(shù);m為圖像中檢測(cè)到的文本區(qū)域總數(shù);n為圖像中實(shí)際存在的文本區(qū)域總數(shù);F系數(shù)用來(lái)對(duì)各個(gè)算法性能進(jìn)行綜合排名,是將查全率和查準(zhǔn)率這兩個(gè)性能的指標(biāo)線性合并而成。

        4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較

        為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)算法性能的影響,故測(cè)試了不同DBN網(wǎng)絡(luò)層數(shù)的性能,實(shí)驗(yàn)結(jié)果如表1所示,測(cè)試數(shù)據(jù)表明,隨著網(wǎng)絡(luò)層數(shù)的增加,DBN網(wǎng)絡(luò)的正確率逐步提高,網(wǎng)絡(luò)的逼近能力逐步增強(qiáng),但是,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的復(fù)雜度也會(huì)不斷的增加,網(wǎng)絡(luò)的泛化力會(huì)逐步降低,所以并不是網(wǎng)絡(luò)層數(shù)越多越好,實(shí)驗(yàn)中,認(rèn)為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求,因此后續(xù)實(shí)驗(yàn)選擇4-DBN網(wǎng)絡(luò)為基準(zhǔn)。

        4.2與其他方法的比較

        通過(guò)選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下,采用如上4種不同方法對(duì)文本區(qū)域進(jìn)行定位和對(duì)比,測(cè)試結(jié)果如表2所示。

        從表2的試驗(yàn)結(jié)果對(duì)比可以看出,DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法,其查全率和查準(zhǔn)率均高于Kim和SVM法,并且其F系數(shù)也是最高的.針對(duì)表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個(gè),總字符數(shù)為5059個(gè),進(jìn)行文本識(shí)別實(shí)驗(yàn),經(jīng)二值化和形態(tài)學(xué)去噪處理后再進(jìn)行OCR識(shí)別,表2測(cè)試結(jié)果表明,DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢(shì).通過(guò)正確定位出文本區(qū)域,使對(duì)視頻中的文本字符的正確識(shí)別率也明顯提高,保障了后續(xù)文本識(shí)別的正確率.

        5.結(jié)論

        本文將深度學(xué)習(xí)算法應(yīng)用在了文字區(qū)域的定位與識(shí)別中,根據(jù)文字區(qū)域的紋理特征,利用Gabor濾波器提取這些特征,通過(guò)逐層增量深度學(xué)習(xí)調(diào)整DBN網(wǎng)絡(luò)進(jìn)行文本區(qū)域定位,并對(duì)定位后的結(jié)果采用形態(tài)學(xué)等后續(xù)處理與OCR識(shí)別,實(shí)驗(yàn)結(jié)果表明,逐層增量深度學(xué)習(xí)算法具有較高的定位準(zhǔn)確性,有利于視頻文本的正確識(shí)別。

        猜你喜歡
        字符識(shí)別
        一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
        車牌識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與區(qū)別
        基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
        一種基于OpenCV的車牌識(shí)別方法
        儀表字符識(shí)別中的圖像處理算法研究
        基于數(shù)據(jù)挖掘技術(shù)的圖片字符檢測(cè)與識(shí)別
        紙幣冠字號(hào)提取的方法研究
        機(jī)號(hào)定位算法設(shè)計(jì)的應(yīng)用研究
        科技傳播(2016年4期)2016-03-25 00:15:01
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
        亚洲精品无码高潮喷水在线| 亚洲国产综合在线亚洲区亚洲av| 国产永久免费高清在线观看视频| 久久人妻少妇中文字幕| 亚洲中文字幕在线第六区| av高清在线不卡直播| 亚洲av综合a色av中文| 欧美日韩精品一区二区在线观看 | 久久一二三四区中文字幕| 白白色发布在线观看视频| 亚洲爆乳无码精品aaa片蜜桃| 色欲av伊人久久大香线蕉影院 | 国产欧美日韩一区二区三区在线 | 久久香蕉国产线看观看精品yw| 亚洲av一宅男色影视| 国产综合精品久久久久成人| 最新国产精品国产三级国产av| 亚洲中文字幕精品乱码2021| 亚洲图片日本视频免费| 天天躁日日躁狠狠躁av中文| 亚洲AV无码乱码一区二区三区| 一区二区三区在线蜜桃| 在线观看一区二区蜜桃| 无码一区二区三区| 久久久www成人免费毛片| 少妇人妻偷人精品视蜜桃| 男人深夜影院无码观看| 少妇被躁到高潮和人狍大战| 米奇欧美777四色影视在线| 国产综合色在线精品| 丰满熟妇乱又伦| 99色网站| 国产中文字幕一区二区视频| 中文字幕亚洲无线码在线一区| 国产女人高潮视频在线观看| 亚洲专区一区二区在线观看| 日本成年少妇人妻中文字幕| 国产精品会所一区二区三区| 漂亮人妻被中出中文字幕久久| 亚洲黄色尤物视频| 国产毛片精品一区二区色|