亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于STN-CRNN的自然場景英文文本識別研究

        2022-01-20 03:45:54汪洪濤
        關鍵詞:特征文本檢測

        汪洪濤,李 魁,潘 昊,丁 力

        (1.武漢理工大學 網絡信息中心,湖北 武漢 430070;2.武漢理工大學 計算機學院,湖北 武漢 430070;3.武漢尚賽光電科技有限公司,湖北 武漢 430206)

        對自然場景下圖片中包含的文本識別,可以廣泛應用于無人駕駛中路牌信息的理解、車牌的檢測識別、圖片廣告過濾、場景理解、商品識別、票據(jù)識別等領域。與傳統(tǒng)的高質量文檔圖像(optical character recognition,OCR)[1]相比,自然場景下的圖片脫離了圖片場景和質量的束縛,面臨著復雜背景的干擾、文字的傾斜與形變、字體大小不一、字體格式多樣、多方向文本等眾多挑戰(zhàn)。從傳統(tǒng)的OCR文本識別到智能駕駛中街道交通標志識別,兩者具有一定的相似性,但自然場景下的文本檢測與識別面臨著更大的困難。雖然傳統(tǒng)OCR輸入的圖片具有清晰度高、文本區(qū)域位置明顯、文字風格尺寸一致等特點,但是在自然場景下圖片的文字檢測和識別依舊面臨著較大的可變形與差異性,而且圖片拍攝的角度變化大、不具有可控性,導致文字產生長寬比不一、大小差異大的形變。正是由于不可控的、復雜多變的影響因素,處理自然場景下的圖片文字信息時,需要先檢測文本區(qū)域位置,再對文本區(qū)域內容進行識別。作為識別過程中的第一步,文本檢測的效果對文本識別的最終結果起到了至關重要的影響。

        傳統(tǒng)文本檢測方法是通過手工設計的特征進行分類,該方法受限于人工設計的特征分類能力,因此文本檢測效果在相當長的一段時間內沒有取得重要突破。近年來,隨著深度學習理論的不斷發(fā)展,神經網絡在各種計算機視覺任務中得到了廣泛應用,利用深度神經網絡來進行文本檢測與識別成為主流方向。與傳統(tǒng)手工設計特征提取然后分類的框架不同,深度學習通過中間隱藏層自動學習特征,隨著卷積層的疊加,低層特征組合形成更加抽象的高層特征來進行分類,進而使計算機自動地學習相關特征,避免了繁瑣且低效的手工特征選擇。此外,深度學習的自動學習算法是多層表達的復雜算法,其自動提取的分類特征是由低層次特征組合而來的高層次特征。在自然場景文本檢測領域,也相繼出現(xiàn)許多基于深度學習的方法[2],這些方法通過深度學習網絡模型自動獲取文本特征,并依據(jù)這些特征對自然場景文本進行檢測,與傳統(tǒng)方法手工設計特征進行檢測相比,基于深度學習的方法取得了令人矚目的成績。

        1 文本識別方法

        隨著深度學習和卷積神經網絡在文本檢測領域取得的成績愈加顯著,基于深度卷積神經網絡的文本檢測方法在實際應用中越來越普遍[3]。目前,在自然場景下有多種文本識別方法。

        1.1 基于候選框的文本識別方法

        基于候選框的文本識別方法一般從Faster-RCNN[4](faster-recurrent convolutional neural networks)等目標檢測方法出發(fā),通過anchor的密集采樣實現(xiàn)對目標位置的檢測。如ZHONG等[5]提出了DeepText算法,對Faster-RCNN進行改進并用于文字檢測,先用Inception-RPN提取候選的單詞區(qū)域,再利用文本檢測網絡過濾候選區(qū)域中的噪聲區(qū)域,最后對重疊區(qū)域進行投票和非極大值抑制;LIU等[6]提出了DMPNet(deep matching prior network,),該方法為應對自然場景文本多方位、透視失真,以及文本大小、顏色和尺度的變化,提出了改用緊湊的四邊形而非矩形的方法對文本區(qū)域進行檢測,同時提出一個光滑的損失函數(shù)對文本位置進行回歸,比L1和L2損失函數(shù)具有更好的魯棒性和穩(wěn)定性。DENG等[7]提出了基于CRPN (cascade region proposal network)的多方向文本檢測方法,該方法不需要預先了解文本的形狀,而是通過基于頂點的CRPN來預測文本區(qū)域的位置。CRPN生成的候選框有幾何適應性,因此對任意方向和各種長寬比的文本區(qū)域具有較好的魯棒性。

        1.2 基于圖像語義分割的文本識別方法

        基于圖像語義分割的識別方法是從全卷積神經網絡的思想出發(fā),將文本區(qū)域視為一種類別進行像素級別的分類。本質上,它將文本檢測看作一種廣義上的圖像語義分割。此類方法一般利用圖像語義分割中常用的全卷積網絡作為基本骨架,從而進行像素級別的文本區(qū)域與分文本區(qū)域的標注,同時對文本區(qū)域邊界框進行回歸。HE等[8]提出了一種高性能的直接回歸文本區(qū)域位置的檢測算法DDRN,該算法通過回歸預測偏移量得到文本位置的邊界框。LYU等[9]提出了角點定位的文本檢測算法,該方法結合了物體檢測和語義分割這兩種方法的思想,針對文本排列方向不確定和文本區(qū)域長寬比變化大的問題,先檢測文本區(qū)域的角點位置,接著對角點位置進行采樣和分組,進而得到文本候選區(qū)域的邊框位置,然后利用全卷積神經網絡對文本候選區(qū)域邊框按得分進行排序,最終通過非極大值抑制處理得到檢測結果。

        1.3 基于CRNN的文本識別方法

        在傳統(tǒng)的深度卷積神經網絡(deep convolutional neural networks, DCNN)[10]模型進行文本識別時,通常是使用標記的字符圖像進行訓練,對于每一個字符有一個對應的預測輸出,字符與字符之間沒有任何上下文關系,這種方法需要訓練出一個強健的字符檢測器來識別每張圖片中出現(xiàn)的字符。還有一些方法是將字符圖像識別視作圖片分類問題,對于每一個圖片中出現(xiàn)的單詞,為其分配一個標簽與之對應,會有超過9萬個單詞的情況出現(xiàn)。這些方法對于序列對象的識別較難,如生活中常見的樂譜、文字、筆跡等,它們之間的組合方式復雜多變,數(shù)量龐大,基于DCNN的系統(tǒng)很難應用在序列識別任務中。因此,SHI等[11]提出了CRNN(convolutional recurrent neural network,)模型,解決了可變長度序列下的識別問題,不僅適用于文本識別領域,還適用于其他的序列數(shù)據(jù)識別。

        CRNN算法網絡結構可以分解為卷積層、遞歸層和轉錄層3個部分,通過最底層的卷積神經網絡(convolutional neural networks, CNN)直接讀取輸入圖像,自動從里面提取文本特征,在遞歸層主要是利用到了循環(huán)神經網絡(reursive neural network, RNN)的“記憶”性,建立一個序列到序列的模型,對卷積層提取到的特征進行預測,之后輸出到頂部的轉錄層,轉錄層再將前面預測到的特征分布轉換為序列標簽,通過連接時序分類(connectionist temporal classification, CTC)解碼找出對應標簽概率最大的字符,然后進行輸出[12]。通過CRNN網絡架構進行文本識別有以下優(yōu)點:①可以不用逐個對字符進行標注,完全可以對整個序列文本進行識別;②沒有序列長度的限制,只需要輸入文本圖片和與之對應的序列標簽即可;③通過CNN和RNN可以直接由輸入圖片得到序列標簽,無需進行字符分割、尺度歸一化等數(shù)據(jù)預處理操作;④相比于其他文本識別模型,參數(shù)更少且有效。

        2 優(yōu)化的CRNN自然場景文本識別方法

        由于傳統(tǒng)的DCNN模型只對固定維數(shù)的輸入和輸出進行操作,無法應用于可變長度標簽序列的文本識別問題。筆者采用優(yōu)化的CRNN模型,對修正后的圖像進行文本識別,同時對其中編碼器網絡架構進行優(yōu)化,替換了文本序列特征提取網絡,將空間轉換網絡(spatial transformer network, STN)[13]與CRNN整合起來,設計新的損失函數(shù),并對實驗細節(jié)進行了優(yōu)化。

        2.1 編碼器網絡優(yōu)化

        在CRNN中,主要的網絡架構是由編碼器網絡中CNN+RNN組成的,CNN網絡配置是基于VGG-VeryDeep體系結構的,RNN使用的是雙向長短時記憶循環(huán)神經網絡(Bi-directional LSTM,BiLSTM),為了能夠適用于英文文本的識別,在第三層和第四層的最大池化層采用的是1×2的矩形窗口代替?zhèn)鹘y(tǒng)的2×2池化,這能產生更長的特征序列以便識別更狹小的字符,如“L”和“l(fā)”這種字符。此外,第5層和第6層使用了批尺度歸一化層,用于緩解因CNN和RNN結合起來導致難以訓練的問題。在輸入網絡前,對圖像進行預處理操作,將其縮放到相同的高度,輸入到CNN中提取特征序列,然后從中提取特征向量,根據(jù)CNN的平移不變性,特征向量的生成也是從左往右的,最后將生成的特征向輸入到RNN中進行序列建模,繼續(xù)提取文本的序列特征,輸出特征分布,給后面的CTC進行解碼。

        編碼器接受輸入的圖片,通過CNN將之轉化為特征向量W×H×D的形式,在CNN中經過卷積、池化和激活函數(shù)作用于圖像中某一區(qū)域,最后提取出來的特征圖在空間相對位置上是不變的,特征圖的每個列向量都對應原圖像中的一塊矩形區(qū)域。

        CRNN中CNN是基于VGG16結構的,為了更好地提取文本特征,將CNN中基于VGG特征提取網絡替換為Resnet50,與STN中不同的是,這里對殘差塊進行了優(yōu)化處理。在接近輸入和輸出之間有著更短的連接,可以使得CNN更為深入,且準確有效,故在每個殘差單元引入了一個1×1的卷積,在它之后才是一個3×3的卷積,每個殘差塊中包含的殘差單元個數(shù)分別為3、4、6、6、3。Res_unit_0是對輸入圖像進行處理的模塊,在之后兩個殘差塊中,采取步長為2、padding為2對特征圖進行采樣提取特征,最后3個殘差塊padding改為1,使得在水平上不降低分辨率,區(qū)分相鄰圖像之間的特征,具體配置如圖1所示。

        圖1 殘差塊單元配置

        訓練過程中,引入STN后的模型基于Resnet50和VGG16的特征提取網絡上單詞識別精度變化,具體如圖2所示。由圖2可知,隨著訓練次數(shù)的增加,二者識別精度上升趨勢基本一致,最后穩(wěn)定不變,Resnet50相對于VGG16單詞識別精度更高,故筆者選用Resnet50作為特征提取網絡。

        圖2 Resnet50和VGG16單詞識別精度變化

        2.2 CTC損失函數(shù)設計與融合

        CRNN中對于RNN的使用采取的是BiLSTM結構,并引入殘差連接的方式,可以讓上下文的信息傳遞到深層,通過將LSTM的起始輸入信息和輸出信息相加,構成了雙向殘差長短時記憶網絡(residual Bi-directional LSTM, resBiLSTM),使得在CNN中提取出來的特征能夠更好地和BiLSTM層結合,同時也能學習到復雜序列數(shù)據(jù)中的上下文信息。將CRNN網絡架構(VGG16+BiLSTM)和改進后的網絡架構(Resnet50+resBiLSTM)在Synth90k和SynthText進行訓練。

        利用CNN-resBiLSTM得到預測標簽序列yt后,需要通過yt找到它所對應的概率最高的輸出標簽序列。一般在使用Softmax計算損失值時,需要yt中每一個字符對應著原圖像的位置和標簽信息,但實際情況下由于樣本圖片中字體大小、樣式、背景等的復雜性,使得輸出的標簽序列并不能一一對應上每一個元素字符,因此使用CTC解碼器來完成。

        (1)

        其中,l∈B-1(m)表示所有經過B變換之后為m的路徑l。

        利用CTC原理設計訓練時的損失函數(shù),定義訓練集X={Ii,li},其中Ii為識別網絡中的輸入圖片,li為對應的groundtruth,通過負對數(shù)似然函數(shù)(negative log-likelihood,NLL)作為識別模型的損失函數(shù),如式(2)所示。

        (2)

        其中,yi為由編碼器中CNN和RNN產生出來的標簽序列。損失函數(shù)能夠直接從輸入圖像Ii和對應的groundtruth中計算loss值,可以減少在圖片上的人工標注信息,使得每對圖像-標簽數(shù)據(jù)能夠在這個識別網絡中進行訓練,對于序列數(shù)據(jù)的識別具有很大的幫助。將STN修正網絡與優(yōu)化的CRNN網絡結合起來,融合STN與CTC損失函數(shù),形成一個端到端的文本修正與識別的模型,融合后的損失函數(shù)如式(3)所示。

        (3)

        結合修正網絡與識別網絡進行同步訓練,直接輸入訓練集中的圖片,經過修正網絡處理,然后進入識別網絡,輸出識別結果,不需要中間過程,很大程度上簡化了工作量,提高了文本識別效率。

        3 實驗結果與分析

        自然場景下的文本識別常用的評判標準是 ICDAR上使用的兩種:①平均編輯距離(average edit distance,AED),是指輸入任意兩個字符串,計算其中一個字符串變動到另外一個字符串這一過程中需要的最少編輯操作次數(shù),編輯操作可以是替換、插入或者刪除字符,計算出來的編輯距離越小,則兩個字符串的相似程度越大。如字符串s1為“sstce”,字符串s2為“state”,將s1轉換成s2時,刪除s1中一個‘s’,將第一個‘c’替換為‘a’,然后插入一個‘t’,這兩個字符串的編輯距離就為3。②單詞識別正確率(word accuracy,WA),其計算方法如式(4)所示。

        (4)

        3.1 數(shù)據(jù)集

        選取SynthText90k和SynthText作為訓練數(shù)據(jù)集,選取SVT、IIIT5K和ICDAR2013作為測試數(shù)據(jù)集,3種數(shù)據(jù)集對比如表1所示。

        表1 SVT、IIIT5K、ICDAR2013數(shù)據(jù)集對比

        3.2 網絡配置與模型訓練

        對網絡的主要部分CNN和RNN進行結構的改進。CNN上主要是利用了Resnet50進行文本特征提取,主要由6個殘差塊組成,其中第一個是對輸入圖片進行預處理操作,其余每個殘差塊由若干個1×1和3×3的殘差單元組成,每個殘差塊中使用了批歸一化(batch norm,BN)和ReLU激活函數(shù)處理,殘差塊的輸入由上一個殘差塊產生的shortcut和經過卷積后的特征圖相加組成。此外,第2個到第6個殘差塊的輸出特征維度分別為32、64、128、256、512。殘差塊的內部結構如圖3所示。

        圖3 殘差塊內部結構

        在殘差網絡之后,是兩層殘差循環(huán)神經網絡,每層包含256個resBiLSTM單元,兩層LSTM的方向相反,當前輸出與之前和之后狀態(tài)有關,兩層結合在一起組成BiLSTM結構。此外,每層通過一個快捷方式將BiLSTM的原始信息與其輸出信息相加,進一步提取序列特征信息。優(yōu)化后的CNN和RNN構成了Res_CRNN識別模型,結合編碼器中網絡結構信息,識別模型Res_CRNN配置參數(shù),如表2所示。其中,s為步長,p為填充0的大小,conv為卷積核尺寸,括號后的數(shù)字代表每個殘差包含的殘差單元個數(shù)。

        表2 Res_CRNN識別模型網絡配置

        訓練時采用Synth90k和SynthText數(shù)據(jù)集,輸入圖片大小為640×205,batchsize大小設置為32,優(yōu)化器采取Adadelta算法,其是改進的Adagrad算法,收斂速度較快,雖然其學習速率可以自適應,但通過人為設置的學習速率計劃更有效,訓練參數(shù)如表3所示。

        表3 訓練模型的部分參數(shù)信息

        3.3 經典算法比較

        識別模型采用SVT、IIIT5K、ICDAR2013 3種數(shù)據(jù)集作為測試集進行驗證。SVT數(shù)據(jù)集是Google從各個街景中獲取的,測試數(shù)據(jù)集共有647張圖片,這些圖像分辨率低,可變性高,這樣使SVT數(shù)據(jù)集在自然場景下的文本識別更具有現(xiàn)實意義。IIIT5K數(shù)據(jù)集主要包括門牌號、廣告牌、海報等關鍵字作為搜索對象獲取的圖像,測試數(shù)據(jù)集采用了3 000張經過裁剪的單詞圖像和數(shù)字圖像,這些圖像背景復雜,文字樣式變形,這對于自然場景的文本檢測與識別更具挑戰(zhàn)性和實際意義。ICDAR2013數(shù)據(jù)集是由文檔分析與國際會議(ICDAR)建立的,檢測與識別都有對應的訓練集和測試集。本研究使用的測試數(shù)據(jù)集包括233張圖片,都是經過裁剪過濾之后的圖片,每張圖片都包括頂點坐標、高度、寬度和文本內容。通過對CRNN網絡優(yōu)化和加上STN文本修正網絡后的Res_CRNN模型進行對比分析,實驗結果如表4所示,其中AED為平均編輯距離,WA為單詞識別正確率。

        表4 3種識別方法在不同數(shù)據(jù)集上實驗結果

        由表4可知,改進后的識別模型Res_CRNN在SVT和IIIT5K上識別效果比CRNN分別高1.4%和2.1%,在ICDAR2013上差距不大;在Res_CRNN上加入STN文本修正網絡后,識別精確度有了進一步的提升,在SVT、IIIT5K、ICDAR2013上識別精度分別提升了3.8%、10.0%和1.3%,平均編輯距離明顯下降。

        3.4 實驗結果

        圖4 IIIT5K上STN+Res_CRNN識別效果

        4 結論

        通過采取STN文本修正方法,以及在改進的CRNN編碼器網絡結構的基礎上,建立了Res_CRNN文本識別模型,該模型可在一定程度上提高文本的識別精度。但由于此次研究僅限于英文文本,未來可進一步完善設計方法,通過擴充訓練集模型來提高對自然場景下各類文本的適應能力,以實現(xiàn)對多種語言類型的文本識別。

        猜你喜歡
        特征文本檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        日韩精品成人区中文字幕| 亚洲AV日韩Av无码久久| 国产精品人成在线765| 国产伦一区二区三区色一情| 亚洲日韩av无码一区二区三区人 | 男男车车的车车网站w98免费| 久久水蜜桃亚洲av无码精品麻豆| 成人免费播放片高清在线观看| 国产精品妇女一区二区三区| 欧美最大胆的西西人体44| 伊人色综合久久天天人手人停| 国产美女高潮流白浆免费观看| 黄射视频在线观看免费| 美女把尿囗扒开让男人添| 国产2021精品视频免费播放| 国产性感丝袜美女av| 日韩三级一区二区三区| 国产人妻久久精品二区三区老狼| 欧美成人专区| 亚洲国产精品色一区二区| 国产毛片av最新视频| 久久精品国产69国产精品亚洲 | 日韩免费无码一区二区三区| 最新精品国偷自产在线婷婷| 亚洲成在人网站天堂日本| 日韩 无码 偷拍 中文字幕| 中文字幕一区二区人妻| 天天射色综合| 一区二区三区av在线| 亚洲av无码乱码国产精品| 亚洲伊人久久一次| 亚洲图文一区二区三区四区| 国产精品国产亚洲精品看不卡| 久久久久久久久888| 无码伊人久久大蕉中文无码| 国产一区二区av免费观看| 精品三级av无码一区| 国产精品区一区二区三在线播放| 久久精品国产亚洲av沈先生| 日本熟妇美熟bbw| 亚洲欧美成人a∨|