亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進TextBoxes++的多方向場景文字識別算法的研究

        2019-01-23 08:15:56李偉沖
        現(xiàn)代計算機 2018年36期
        關鍵詞:分支邊界卷積

        李偉沖

        (四川大學計算機學院,成都 610065)

        0 引言

        自然場景文字識別有著諸多潛在的應用,例如文檔分析、圖像檢索、情景理解以及機器導航等,因此其在計算機視覺已成為一個熱點研究領域。傳統(tǒng)光字符識別技術(OCR)主要面向高質量的文檔圖像。此類技術假設輸入圖像背景干凈、字體簡單且文字排布整齊,在符合要求的情況下能夠達到很高的識別水平。與文檔文字識別不同,自然場景中的文字識別則面臨著圖像背景復雜、分辨率底下、字體多樣、分布隨意等挑戰(zhàn),傳統(tǒng)光學識別技術在此類情況下幾乎無法被應用。近年來基于深度神經網絡(DNN)技術在圖像識別及計算機視覺各領域取得重大進展,相關方法也被逐步應用到自然場景文字識別中并大大提高識別的效率和精度。作為大量相關技術的基礎工作,自然場景文字識別的不斷發(fā)展和突破具有深遠的研究意義和實際價值。

        過去的研究通常將自然場景文字識別視為兩個按順序執(zhí)行的單獨的子任務:文字檢測和文字識別。文字檢測通常使用卷積神經網絡提取場景圖像特征,然后通過目標回歸(例如文獻[1、2、3])或使用基于語義分割的方法(例如文獻[4、5])確定文字位置。而文字識別被視作序列標簽問題,其中為了提高識別準確度有些方法加入了注意力機制,例如文獻[6、7]。分別訓練兩個任務,會導致大量的時間開銷,特別是對于具有多個文字區(qū)域的圖像。此外,單獨檢測和識別不能共享卷積特征。

        經上分析,本文通過改進TextBoxes++[1]算法,提出一種端到端可訓練的多方向場景圖像文字識別方法(即EX-TextBoxes++)。相比兩階段文字識別方法,本文提出的方法在檢測和識別之間共享卷積特征,并通過多任務學習進一步提高檢測和識別的精度。綜上所述,本文的主要貢獻如下:

        (1)本文通過添加一個文字識別分支擴展TextBoxes++算法,提出一個端到端可訓練的多方向場景圖像文字識別算法。

        (2)為了將檢測和識別統(tǒng)一到端到端管道中,并從卷積特征映射中提取定向文字區(qū)域,本文引入RoIRotate模塊。

        (3)本文提出的方法在多方向文字數(shù)據集ICDAR 2015和ICDAR 2017 MLT上進行評估。實驗結果表明:本文提出的方法在以上數(shù)據集上達到先進水平。

        1 相關工作

        TextBoxes++是基于SSD[9]改進的端到端全卷積網絡,通過四邊形或者傾斜的矩形來表示圖像中文字框,因此具有檢測任意方向文字的能力。TextBoxes++在數(shù)據集ICDAR 2015的檢測F-measure值為0.829,屬于最先進的多方向場景文字檢測方法之一。其網絡結構如下圖1所示,Conv_n#c中的k,n和#c分別表示卷積層索引,卷積單元個數(shù)和網絡輸出特征圖通道數(shù)。主干網絡繼承流行的VGG-16[10]架構,保持Conv1_1到Conv4_3,并用兩個卷積層(Conv5_1和 Conv6_1)替換最后2個全連接層。在Conv6_1之后附加另外10個卷積層(Conv7_2到Conv10_2),以及6個連接到6個中間卷積層的文字框(text-box)層。文字框層的每個位置預測每個默認框的n維向量,包括文字存在分數(shù)(2維),水平邊界矩形偏移(4維)和旋轉矩形邊界框偏移(5維)或四邊形邊界框偏移(8維)。在本文中剪除旋轉矩形邊界框偏移的維度,并添加對旋轉角度的預測。改變后的文字框層的每個位置預測每個默認框的n維向量,包括文字存在分數(shù)(2維),水平邊界框偏移(4維),四邊形邊界框偏移(8維度)和四邊形邊界框旋轉角度(1維)。在測試階段應用非最大抑制以合并所有6個文字框層的結果。網絡受到SSD啟發(fā),使用多尺度輸出以適應小目標檢測。TextBoxes++是一個僅包括卷積和池化層的全卷積神經網絡,因此,可以在訓練和測試階段適應任意大小的圖像。

        圖1 TextBoxes++的網絡體系結構

        2 本文提出的方法

        2.1 EX-TextBoxes++網絡結構

        如圖2所示為本文提出的網絡結構(EX-TextBoxes++),由圖可知本文擴展了TextBoxes++的網絡結構,添加了連接用于文字識別分支(recognition-branch)和檢測分支與識別分支的RoIRotate模塊,其中檢測分支如圖2所示。首先使用共享卷積提取圖像特征,并在檢測分支和識別分支共享特征。卷積特征經過檢測分支輸出文字的水平邊界矩形框,四邊形邊界框及其旋轉角度。RoIRotate模塊結合檢測分支的邊界框信息提取文字區(qū)域對應的卷積特征,并通過仿射變換后輸入到識別分支。由于網絡中所有模塊都是可區(qū)分的,因此可以對整個網絡進行端到端的訓練。

        圖2 EX-TextBoxes++的網絡體系結構

        2.2 RoIRotate

        圖3 RoIRotate作用解釋圖

        RoIRotate首先由FOTS[8]提出,對定向的特征區(qū)域應用仿射變換來獲得與坐標軸平行的特征圖,如圖3所示。在本文中使用固定的輸出高度并保持縱橫比不變以處理不同長度的文字。RoIRotate使用雙線性插值來計算輸出值,從而避免了提取的特征之間的未對準的情況。RoIRotate操作后輸出特征的長度是可變的,這更適合于大小不定的文字識別。RoIRotate仿射變換的過程可分為兩個步驟。首先,通過文字檢測分支預測的水平邊界框或真實邊界框的坐標計算仿射變換參數(shù)。然后,對于每個區(qū)域,將仿射變換應用于共享特征圖。由此,可獲得文字區(qū)域對應的水平特征圖。第一步的公式如下:

        其中M為仿射變換矩陣,wt,ht表示仿射變換后特征映射的寬高(在本文的實驗中ht設置為8),w,h表示預測或真實的文字水平邊界框的寬高,tx,ty表示對于邊界框內共享特征映射中的點的坐標,θ為文字框旋轉的角度,在測試時w,h,θ由檢測分支預測,在訓練時取值為真實標注值。在得到仿射變換矩陣后,利用放射變形可以輕松生成最終的水平特征,其公式如下所示:

        對?i∈[1...ht],?j∈[1...wt],?c∈[1...C]有:

        其中是通道 c中位置(i,j)的輸出值是通道c中位置(n,m)的輸入值。h,w表示輸入的高度和寬度,Φx,Φy表示普通的采樣核k()的參數(shù),其定義了插值的方法。由于提取文字區(qū)域特征的寬度大小可能不同,因此本文使用最長寬度進行填充,對于小于最長寬度的部分填充0,而在識別時損失函數(shù)中則忽略補0的部分。

        一節(jié)課的回顧總結同樣也是一個提升學生數(shù)學交流的重要環(huán)節(jié)。教師引導學生回顧總結,喚起學生對整節(jié)課內容的回憶,幫助他們整理學習過程,理清新內容與舊知識之間的聯(lián)系,讓學生體會到學習數(shù)學的快樂。讓學生談收獲與感受,有意識地交流,在交流中不斷進步。

        2.3 文字識別分支

        表1 文字識別分支網絡結構

        文字識別分支旨在使用從共享卷積特征提取的,并由RoIRotate仿射變換的文字區(qū)域特征來預測文字標簽,其網絡結構如上表1所示,其中conv_bn_relu表示依次經過卷積,批量正則和ReLU函數(shù)激活的卷積單元,height_max_pool表示僅沿高度軸減小特征尺寸。首先,經過仿射變換的水平空間特征圖依次通過卷積和池化。然后,將提取更高層的特征圖L∈RC×H×W從寬度方向展開轉換為時間序列l(wèi)1...lw∈RC×H,并饋入雙向RNN進行編碼。本文使用雙向LSTM,每個方向256個維度,以捕獲輸入特征間的長短依賴。接著,將在兩個方向的每個時間步長的隱藏狀態(tài)h1...hw∈RD相加并饋入|S|維的完全連接網絡,其中|S|表示字符字典中字符的個數(shù)。完全連接網絡每個節(jié)點輸出每個狀態(tài)在字符類S上的分布xt∈R|S|。最后,CTC(Connectionist Temporal Classification)[14]用于將網絡輸出的分類分數(shù)轉換為標簽序列。對于給定每個狀態(tài)ht在字符類S上 的 概 率 分 布xt,及 真 實 標 簽 序 列y*={y1,...,yT},T≤W,標簽y*的條件概率是所有路徑π的概率之和,可表示為下式:

        其中β定義了從具有空白和重復標簽到y(tǒng)*的可能標記集合中的多對一映射。訓練階段文字識別損失就是對于整個訓練集取公式(4)的最大似然。本文采用文獻[14]的損失函數(shù)如下式:

        其中N為輸入圖像中文字區(qū)域的數(shù)量,y*n表示預測的字符標簽。

        2.4 損失函數(shù)

        EX-TextBoxes++損失函數(shù)由檢測損失和識別損失組成,如下式:

        其中Lrecog由上式(5)給出,λ為檢測和識別損失平衡因子,本文實驗中λ取值為1。Ldetect的損失由置信度,幾何框(水平矩形框和四邊形框)和旋轉角度損失組成。更具體地,令x為默認框和真實最小外接矩形框的匹配指示矩陣。對于第i個默認框和第j個真實框,xij=1表示兩者重疊匹配(本文實驗中IOU>0.5認為重疊匹配),否則xij=0,此時幾何形狀損失為0。讓c表示置信度,l為預測位置,g為真實位置。檢測損失函數(shù)定義為:

        其中N是與真實框匹配的默認框的數(shù)量,?設置為0.2以便快速收斂。對Lloc采用平滑L1損耗[15],對Lconf采用2分類Softmax損失。

        3 實驗及結果分析

        3.1 實驗數(shù)據集

        ICDAR 2015[15]附帶的文字數(shù)據集來自ICDAR 2015 Robust Reading Competition的挑戰(zhàn)。該數(shù)據集有1000個訓練圖像和500個測試圖像組成。這些圖像由Google Glass以隨機的方式拍攝,因此,場景中的文字可以處于任意方向,或者具有運動模糊和低分辨率。ICDAR 2015提供了3個特定的單詞列表作為詞典,分別為“Strong”,“Weak”和“Generic”。“Strong”詞典每個圖像提供100個單詞,包括圖像中出現(xiàn)的所有單詞。“Weak”詞典包括出現(xiàn)在整個測試集中的所有單詞。而“Generic”詞典是一個90k字的詞匯。在訓練中,首先使用ICDAR 2017 MLT[16]訓練和驗證集中的9000個圖像訓練本文的模型,然后使用1000張ICDAR 2015訓練集的圖像和229張ICDAR 2013[17]訓練集圖像來微調模型。

        ICDAR 2017 MLT[16]是一個大型多語言文字數(shù)據集,包括7200張訓練圖像,1800張驗證圖像和9000張測試圖像。數(shù)據集由來自9種語言的自然場景圖像組成。該數(shù)據集中的文字區(qū)域可以處于任意方向,因此具有更加多樣性和挑戰(zhàn)性。該數(shù)據集沒有文字識別任務,因此僅比較文字檢測結果。

        3.2 實現(xiàn)細節(jié)

        本文使用ImageNet[11]數(shù)據集訓練的模型作為我們預先訓練的模型。訓練過程包括兩個步驟:首先使用Synth800k數(shù)據集[12]訓練網絡10次,然后采用對應的實驗數(shù)據集對模型進行微調直到收斂,如3.1小節(jié)所述。數(shù)據增強能增強網絡的魯棒性,本文使用了與文獻[8]類似的數(shù)據增強方式。首先,圖像的較長邊從640像素到2560像素調整大小。接著,圖像隨機旋轉-10°到10°。然后,圖像的高度以0.8到1.2的比例隨機縮放,同時寬度保持不變。最后,從變換的圖像中裁剪640×640個隨機樣本。為了解決目標的不均衡分布問題,本文采用Hard Negative Mining處理訓練圖像[13]。更確切地說,對相應數(shù)據集的訓練分為兩個階段。第一階段的負數(shù)和正數(shù)之間的比例設定為3:1,然后第二階段的比例變?yōu)?:1。

        本文的實驗在配備單個Titan Xp GPU的PC上使用TensorFlow框架完成。使用Adam[18]對網絡進行端到端的訓練。為了加快訓練速度,取最小批量的大小為24,學習率從1e-3開始,每訓練27300個小批量學習率衰減十分之一,最終停在1e-5。在訓練階段輸入文字識別分支的幾何框和角度為真實標簽值。在測試階段輸入文字識別分支的幾何框和旋轉角度為文字檢測分支預測的并經過NMS提取的結果。

        3.3 實驗結果分析

        圖4-5為EX-TextBoxes++的部分測試樣例,可以看出EX-TextBoxes++能夠處理各種具有挑戰(zhàn)性的場景,例如非均勻照明、低分辨率、任意方向和透視失真。

        圖4 EX-TextBoxes++在ICDAR 2015數(shù)據集上的測試樣例

        圖5 EX-TextBoxes++在ICDAR 2017 MLT數(shù)據集上的測試樣例

        圖6

        表2-3分別為在ICDAR 2015和ICDAR 2017 MLT數(shù)據集的對比實驗結果,單位為百分比,其中“P”,“R”,“F”分別代表精度,召回率和 F-measure?!癝”,“W”,“G”分別表示對應數(shù)據集的“Strong”,“Weak”和“Generic”的 F-measure。ICDAR 2017 MLT沒有文字識別任務,因此僅比較文字檢測結果。在ICDAR 2015數(shù)據集的文字檢測上本文提出的方法優(yōu)于其他先進的單步檢測方法,對此本文給出如下解析:如圖6(b)所示為錯誤識別的結果。由于網絡共享卷積特征,識別誤差通過反饋傳播輔助檢測的修正。而在ICDAR 2015數(shù)據集的端到端的識別任務和ICDAR 2017 MLT的檢測任務,本文的方法效果不如FOTS,但是優(yōu)于其他先進的方法。經過分析,F(xiàn)OTS采用實例分割的方法進行檢測,在對小文字的檢測上優(yōu)于本文采用的基于區(qū)域建議框的目標回歸方法。綜上分析,本文提出的方法在端到端文字識別上達到先進水平,而在檢測方面優(yōu)于其他先進的單步檢測方法。

        表2 在ICDAR 2015數(shù)據集的對比實驗結果

        表3 在ICDAR 2017 MLT數(shù)據集的對比實驗結果

        4 結語

        本文通過改進目前先進的多方向場景文字檢測算法TextBoxes++,提出一個統(tǒng)一的端到端可訓練的多方向文字識別方法,用于文字的同時檢測和識別。為了適應多方向文字的識別,在TextBoxes++文字檢測分支添加了對四邊形文字框角度的預測;并且通過添加文字識別分支擴展TextBoxes++的網絡結構,用于文字的識別;最后本文引入RoIRotate以在檢測和識別之間共享卷積特征。在公開數(shù)據集ICDAR 2015和ICDAR 2017 MLT上的實驗證明本文提出的方法的有效性。

        猜你喜歡
        分支邊界卷積
        拓展閱讀的邊界
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        巧分支與枝
        學生天地(2019年28期)2019-08-25 08:50:54
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        論中立的幫助行為之可罰邊界
        基于傅里葉域卷積表示的目標跟蹤算法
        一類擬齊次多項式中心的極限環(huán)分支
        “偽翻譯”:“翻譯”之邊界行走者
        外語學刊(2014年6期)2014-04-18 09:11:49
        一種基于卷積神經網絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        生成分支q-矩陣的零流出性
        精品久久有码中文字幕| 国产一区二区三区韩国| 男女上床视频免费网站| 国产三级国产精品国产专播| 亚洲一区二区三区小说| 无遮挡又爽又刺激的视频| 人妻无码Aⅴ中文系列| 国产自拍精品视频免费观看| 亚洲视频网站大全免费看| 日本乱偷人妻中文字幕在线 | 午夜视频网址| 中文片内射在线视频播放| 亚洲国产精品美女久久| 性欧美牲交xxxxx视频欧美| 美国黄色片一区二区三区| 国产午夜在线观看视频| 国产成人av一区二区三区不卡| 国产激情久久久久影院老熟女免费 | 在线亚洲国产一区二区三区| 蜜臀一区二区三区精品| 欧洲熟妇色xxxxx欧美老妇伦| 国产91在线免费| 最新亚洲视频一区二区| av区无码字幕中文色| 99久久精品费精品国产一区二区| 成年性生交大片免费看| 日本又黄又爽gif动态图| 人妻少妇无码中文幕久久| 蜜桃一区二区三区在线视频| 亚洲av福利天堂一区二区三| 国产精品沙发午睡系列990531| 国产偷国产偷亚洲欧美高清| 国内精品女同一区二区三区| 亚洲小说区图片区色综合网| 色翁荡息又大又硬又粗又视频图片| 韩国日本亚洲精品视频| 国产日产韩国级片网站| 人妻丰满熟妇无码区免费| 国产精品嫩草影院AV| 日韩av中文字幕亚洲天| 曰韩少妇内射免费播放|