亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習法的視頻文本區(qū)域定位與區(qū)別

        2017-02-21 20:45:29劉明珠鄭云非樊金斐于芳
        哈爾濱理工大學學報 2016年6期
        關(guān)鍵詞:字符識別

        劉明珠 鄭云非 樊金斐 于芳

        摘要:通過對視頻圖像進行快速、準確的文本定位與識別,有利于提高視頻信息處理的效率與準確率,采用Gabor濾波器實現(xiàn)在橫、豎、撇、捺四個方向上的視頻圖像的紋理特征的提取,再通過RBM逐層增量深度學習算法構(gòu)建深度置信網(wǎng)絡(luò),實現(xiàn)對提取的紋理特征圖像中文本區(qū)域的定位.論文同時研究了利用形態(tài)學處理方法和OCR字符庫實現(xiàn)對視頻圖像文本識別的可行性,并分析了識別效果,測試結(jié)果表明,本文提出的深度學習算法與形態(tài)學字符識別方法相結(jié)合,不但能夠?qū)崿F(xiàn)對視頻圖像文本區(qū)域的準確定位,還有利于提高字符識別的效率和準確率。

        關(guān)鍵詞:深度學習算法;視頻圖像;文本區(qū)域定位;形態(tài)學去噪;字符識別

        DoI:10.15938/j.jhust.2016.06.012

        中圖分類號:TP391.43

        文獻標志碼:A

        文章編號:1007-2683(2016)06-0061-06

        0.引言

        視頻中的文字檢測與識別是視頻圖像檢測領(lǐng)域的一項重要研究內(nèi)容.在復雜背景下,視頻文本的準確定位與識別有利于進行視頻圖像檢測,只有準確的視頻文本區(qū)域的定位,才能提高OcR字符識別系統(tǒng)的文本識別準確率,進而提高基于內(nèi)容的視頻圖像的正確檢測的效率,對視頻定位與檢索有十分重要的應用價值,一般的文本定位方法主要包括:邊緣特征定位法、筆畫寬度定位法、紋理特征定位法、機器學習法等,本文采用2D-Gabor濾波器與深度學習算法相結(jié)合的方法,實現(xiàn)對復雜背景視頻中文本區(qū)域的定位,并研究了基于形態(tài)學的視頻圖像去噪方法,再通過OCR系統(tǒng)實現(xiàn)字符的識別,以提高OCR系統(tǒng)字符識別的準確率。

        1.深度學習視頻文本區(qū)域定位與識別流程

        本文將深度學習算法理論應用于視頻文本區(qū)域定位與識別過程,設(shè)計了一種基于紋理特征的逐層增量深度學習算法.該算法的處理流程如圖1所示.首先,將視頻圖像通過Gabor濾波器濾波,獲得視頻圖像文本中文字的紋理特征;接著,將紋理特征作為訓練樣本,利用受限玻爾茲曼機(restricted bolt-zmann machine,RBM)逐層對紋理圖像進行增量學習,在學習過程中,用標記樣本作為監(jiān)督數(shù)據(jù)進行網(wǎng)絡(luò)微調(diào),構(gòu)成深度置信網(wǎng)絡(luò)(deep belief network,DBN),并標記文本區(qū)域和背景區(qū)域的二值圖像;之后,利用形態(tài)學方法對二值圖像去噪處理,再映射到定位圖像上,得到僅包含文本區(qū)域而去除背景區(qū)域的文本圖像,最后,再將圖像進行二值化、灰度等后續(xù)處理,送入到OCR字符識別系統(tǒng)進行字符識別.

        2.逐層增量深度學習視頻文本定位算法

        2.1視頻圖像紋理特征的提取

        字符的紋理具有周期性,并且在一定的頻率范圍內(nèi)能量相對集中,所以可以利用二維Gabor濾波器對視頻圖像在不同尺度和方向上進行濾波,Gabor濾波器理論最早由Daugman提出,能夠很好地描述對應于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。

        鑒于中文字符主要由橫、撇、豎、捺4種基本筆畫組成,所以Gabor濾波器要求能夠在這4個方向上反映中文字符的筆畫特征,并且要求能夠保證對這4個方向紋理區(qū)域的頻率分量均有很好的響應。Wang等研究了Gabor濾波器中心頻率與漢字的筆畫的關(guān)系,發(fā)現(xiàn)Gabor濾波器的中心頻率與周期入成倒數(shù)關(guān)系,且周期入是筆畫寬度η的一半,當筆畫的方向與Gabor濾波器的方向處于正交時,Ga-bor濾波器輸出最優(yōu),因此,可以通過筆畫的寬度來確定Gabor濾波器的中心頻率,本文中Gabor濾波器所選擇的參數(shù)為低頻中心頻率U1,/sub>=0.2,高頻中心頻率U,sub>h0.4,方向數(shù)和尺度數(shù)分別為T=4,M=4。

        圖2(b)所示為圖2(a)原視頻圖像在橫、撇、豎、捺4個方向進行Gabor濾波后的結(jié)果.由圖2(b)可知,Gabor濾器能夠?qū)⑽淖旨y理和背景紋理分離,并使文字在橫、撇、豎、捺4個方向的紋理信息得到保持,同時背景區(qū)域的紋理被有效的抑制。

        2.2深度學習算法基本原理

        深度學習是機器學習研究領(lǐng)域中的一個新問題,其目的在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),深度學習算法是由深信度網(wǎng)絡(luò)(depth be-lief network,DBN)上的一系列受限玻爾茲曼機(re-stricted bohzmann machine,RBM)的概率模型組成.深度學習算法一般描述過程如下:假設(shè)有一個系統(tǒng)s,它有n層,S1,S2....Sn設(shè)輸入為I,輸出為o,學習的一般過程表示為:I=S1=S2,…Sn=O,如果輸出O等于輸入I即輸入I經(jīng)過這個系統(tǒng)變化之后沒有任何的信息損失或者損失很小,可以看作基本上保持不變,這意味著輸入,經(jīng)過每一層Si,都幾乎沒有信息的損失,即任何一層SI,都是原有信息(即輸入i)的另外一種表示,深度學習算法的核心思路有:①無監(jiān)督學習用于每一層網(wǎng)絡(luò)的預訓練;②每次用無監(jiān)督學習只訓練其中一層,將其訓練結(jié)果作為其高一層的輸入;③用自頂而下的監(jiān)督算法去調(diào)整所有層。

        2.3深度學習網(wǎng)絡(luò)(DBN)的構(gòu)建

        本文采用的深度置信網(wǎng)絡(luò)的深度學習算法,是通過一系列受限波爾茲曼機(RBM)的概率模型組成.Hinton和sejnowski等設(shè)計了一種能夠用在機器學習中的隨機循環(huán)網(wǎng)絡(luò)一受限波爾茲曼機,它是一種如圖3所示的兩層無向圖模型,包含可視層v和隱藏層h,同時限制同一層節(jié)點之間的連接,而不同的單元層之間有連接。

        2.4網(wǎng)絡(luò)訓練與權(quán)值調(diào)整

        DBN網(wǎng)絡(luò)需要進行訓練以獲得最佳權(quán)值,通常DBN網(wǎng)絡(luò)訓練包括自底向上非監(jiān)督學習和自頂向下的監(jiān)督學習兩個部分,其過程為先對紋理特征圖像采用RBM進行逐層增量學習,應用最大似然估計法不斷地調(diào)整網(wǎng)絡(luò)中權(quán)值,使RBM達到能量平衡,再用監(jiān)督數(shù)據(jù),對整個DBN網(wǎng)絡(luò)進行微調(diào),

        在非監(jiān)督學習過程中,DBN網(wǎng)絡(luò)中每一個狀態(tài)值都對應一層的結(jié)點,計算的輸入輸出數(shù)據(jù)都是對應結(jié)點狀態(tài)值為“1”的概率值,而Hn層的輸入向量是每個文字區(qū)域的紋理樣本,通過交替的吉布斯采樣后,作為DBN網(wǎng)絡(luò)的輸入.設(shè)深度學習網(wǎng)絡(luò)結(jié)構(gòu)包含n個隱藏層,每層的節(jié)點數(shù)分別是L1,L1,…,LN,紋理特征圖像送入到DBN網(wǎng)絡(luò)中的輸入層Ho層,不斷的調(diào)整Hn和H1,之間權(quán)值Wo,根據(jù)式(8)、(9)將調(diào)整得到的權(quán)值Wn與初始數(shù)據(jù)根據(jù)式(7)計算出一組新的概率送入H1層,作為H1層的輸入數(shù)據(jù).重復上述計算過程得到WS1,WS1,…,Wn-1最終得到DBN網(wǎng)絡(luò)的初始權(quán)值Wi={Wo,w1,W2,…,Wn-1},DBN網(wǎng)絡(luò)包含n+2層,即H0,H1,H2,…,Hn層和樣本標簽數(shù)據(jù)層,其中HSn作為輸入層,其節(jié)點數(shù)為64,標簽樣本層為輸出層,中間n層的節(jié)點數(shù)分別是L1,L2,LSn,…采用無標注的訓練樣本構(gòu)建DBN網(wǎng)絡(luò),以HSo和H1之間的訓練為例,HSn和Hn,層構(gòu)成了一個RBM,HN與可見層移的節(jié)點數(shù)相同,H1,與隱藏層h的節(jié)點數(shù)相同,利用交替的吉布斯抽樣來調(diào)整權(quán)值WSn,直到RBM收斂。

        在非監(jiān)督學習過程中,保存RBM調(diào)整得到的權(quán)值,并作為自頂向下的監(jiān)督學習的初始權(quán)值,與監(jiān)督學習過程一樣,根據(jù)樣本的標注,采用梯度下降法再次微調(diào)權(quán)值,這里,RBM網(wǎng)絡(luò)和DBN網(wǎng)絡(luò)采用同樣的網(wǎng)絡(luò)結(jié)構(gòu),都具有相同的輸入層和隱藏層,包括每層的節(jié)點數(shù)目也都相同,只是DBN網(wǎng)絡(luò)最后還有一個輸出層.DBN網(wǎng)絡(luò)訓練過程如圖4所示,

        3.形態(tài)學視頻圖像去噪處理

        通過深度置信網(wǎng)絡(luò)法對文本區(qū)域準確定位后,再根據(jù)字符的特征,采用形態(tài)學處理方法實現(xiàn)對空洞區(qū)域和孤立點進行填充、去噪、腐蝕以及膨脹等操作,最后再將獲得的標記二值圖像映射到原圖像,實現(xiàn)清晰背景的文本圖像。

        針對圖像中存在的孤立點噪聲問題,通過鄰域背景區(qū)域形態(tài)學比較,修改標記二值圖像中孤立點背景區(qū)域值,實現(xiàn)孤立點去噪處理,如在標記二值圖像過程中,由于字符之間存在間隔和中文標點符號,經(jīng)過DBN網(wǎng)絡(luò)處理后,該區(qū)域易被判定為背景區(qū)域,此時需要根據(jù)形態(tài)學法進行背景填充,即將背景區(qū)域值“0”修改為文字區(qū)域值“1”,為消除視頻圖像中次要文本區(qū)域的定位,以達到對視頻中主要文字信息的提取與識別,本文采用了基于形態(tài)學的圖像腐蝕與膨脹方法。

        選用原點位于中心的5×5對稱結(jié)構(gòu)元素作腐蝕和膨脹運算,由于腐蝕運算,在去除噪聲點的同時,會對圖像中文本區(qū)域的形狀有影響,故在進行腐蝕運算,去除部分噪聲點后,再進行膨脹運算以消除腐蝕運算之后對文本區(qū)域的影響。

        經(jīng)過DBN網(wǎng)絡(luò)、形態(tài)學去噪處理以及圖像映射后的效果如圖5所示,由圖5所示可見視頻圖像在經(jīng)過訓練的DBN網(wǎng)絡(luò)處理后,可以有效定位出字符、文本區(qū)域信息,如圖5(b)所示;而經(jīng)過形態(tài)學處理后圖像中的噪點和不連續(xù)點被有效去除,獲得清晰的文本區(qū)域圖像,如圖5(c)所示。

        4.OCR字符識別及結(jié)果分析

        視頻圖像文本區(qū)域定位都是從最底層特征映射出相應的頂層特征,依次層層映射,直到得到最頂層的結(jié)果。

        通過對DBN網(wǎng)絡(luò)及經(jīng)形態(tài)學處理后文本區(qū)域,進行二值化處理,去除與邊界相連的區(qū)域,將文本域背景黑白反轉(zhuǎn),再送到OCR軟件進行識別。圖6所示為圖5中視頻幀圖像中的一段文本區(qū)域的二值反轉(zhuǎn)圖像,圖7為此二值反轉(zhuǎn)圖像經(jīng)OCR識別后的結(jié)果。

        將本文提出的逐層增量深度學習算法與神經(jīng)網(wǎng)絡(luò)、經(jīng)典Kim方法以及SVM方法對文本區(qū)域的定位作對比.采用式(12)中的查全率(RR)、查準率(PR)以及系數(shù)F來綜合評價這幾種方法的使用效果。

        其中:c為圖像中正確檢測到的文本區(qū)域個數(shù);m為圖像中檢測到的文本區(qū)域總數(shù);n為圖像中實際存在的文本區(qū)域總數(shù);F系數(shù)用來對各個算法性能進行綜合排名,是將查全率和查準率這兩個性能的指標線性合并而成。

        4.1不同網(wǎng)絡(luò)結(jié)構(gòu)的比較

        為研究不同DBN網(wǎng)絡(luò)結(jié)構(gòu)對算法性能的影響,故測試了不同DBN網(wǎng)絡(luò)層數(shù)的性能,實驗結(jié)果如表1所示,測試數(shù)據(jù)表明,隨著網(wǎng)絡(luò)層數(shù)的增加,DBN網(wǎng)絡(luò)的正確率逐步提高,網(wǎng)絡(luò)的逼近能力逐步增強,但是,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)的復雜度也會不斷的增加,網(wǎng)絡(luò)的泛化力會逐步降低,所以并不是網(wǎng)絡(luò)層數(shù)越多越好,實驗中,認為4-DBN網(wǎng)絡(luò)能夠滿足文本區(qū)域的需求,因此后續(xù)實驗選擇4-DBN網(wǎng)絡(luò)為基準。

        4.2與其他方法的比較

        通過選用100幅不同背景的視頻幀圖像、字體大小、字體顏色、單行或者多行等情況下,采用如上4種不同方法對文本區(qū)域進行定位和對比,測試結(jié)果如表2所示。

        從表2的試驗結(jié)果對比可以看出,DBN網(wǎng)絡(luò)文字區(qū)域定位的效果要明顯優(yōu)于其它3種方法,其查全率和查準率均高于Kim和SVM法,并且其F系數(shù)也是最高的.針對表1中DBN網(wǎng)絡(luò)正確定位的文本區(qū)域總數(shù)378個,總字符數(shù)為5059個,進行文本識別實驗,經(jīng)二值化和形態(tài)學去噪處理后再進行OCR識別,表2測試結(jié)果表明,DBN網(wǎng)絡(luò)在文本定位方面與其他3種算法有著明顯的優(yōu)勢.通過正確定位出文本區(qū)域,使對視頻中的文本字符的正確識別率也明顯提高,保障了后續(xù)文本識別的正確率.

        5.結(jié)論

        本文將深度學習算法應用在了文字區(qū)域的定位與識別中,根據(jù)文字區(qū)域的紋理特征,利用Gabor濾波器提取這些特征,通過逐層增量深度學習調(diào)整DBN網(wǎng)絡(luò)進行文本區(qū)域定位,并對定位后的結(jié)果采用形態(tài)學等后續(xù)處理與OCR識別,實驗結(jié)果表明,逐層增量深度學習算法具有較高的定位準確性,有利于視頻文本的正確識別。

        猜你喜歡
        字符識別
        一種改進深度學習網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
        車牌識別系統(tǒng)的設(shè)計與實現(xiàn)
        基于深度學習法的視頻文本區(qū)域定位與區(qū)別
        基于自動智能分類器的圖書館亂架圖書檢測
        一種基于OpenCV的車牌識別方法
        軟件導刊(2016年11期)2016-12-22 22:01:20
        儀表字符識別中的圖像處理算法研究
        基于數(shù)據(jù)挖掘技術(shù)的圖片字符檢測與識別
        紙幣冠字號提取的方法研究
        機號定位算法設(shè)計的應用研究
        科技傳播(2016年4期)2016-03-25 00:15:01
        基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
        中文字幕在线亚洲一区二区三区 | 男女真人后进式猛烈视频网站| 日韩中文字幕乱码在线| 九九久久精品一区二区三区av| 亚洲女同同性一区二区| 亚洲av午夜精品无码专区| 色偷偷噜噜噜亚洲男人| aaaaa级少妇高潮大片免费看| 岛国熟女一区二区三区| 五月停停开心中文字幕| 国产麻豆久久av入口| 中文字幕无线码| 精品国产乱码久久久久久口爆网站| 久久亚洲日本免费高清一区| 少妇人妻精品一区二区三区视| 国产大屁股喷水视频在线观看| 两个人看的www免费视频中文| 东北寡妇特级毛片免费| 久久精品国产亚洲Av无码偷窍| 蜜桃成人精品一区二区三区| 男吃奶玩乳尖高潮视频| 日韩在线一区二区三区免费视频 | 国产成人精品成人a在线观看| 久久一区二区三区不卡| 国产久色在线拍揄自揄拍| 日本亲近相奷中文字幕| 久久中文字幕无码专区| 最新国产女主播福利在线观看| 黄片免费观看视频播放| 亚洲av综合av国产av中文| 中文字幕乱伦视频| 国产精品每日更新在线观看 | 久久发布国产伦子伦精品| 国产最新在线视频| 国产黄三级三级三级三级一区二区| 一边摸一边做爽的视频17国产 | 欧美日韩亚洲综合久久久| 蜜桃在线观看免费高清| 99久久免费视频色老| 成av人片一区二区三区久久| 久久精品午夜免费看|