亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向結(jié)構(gòu)化文本圖像識別的深度學習模型

        2020-04-08 12:48:56唐三立程戰(zhàn)戰(zhàn)
        關鍵詞:特征文本區(qū)域

        唐三立,程戰(zhàn)戰(zhàn),鈕 毅,雷 鳴

        (杭州??低晹?shù)字技術(shù)股份有限公司,浙江 杭州 310051)

        0 引 言

        結(jié)構(gòu)化文本識別[1]是在通用文本識別技術(shù)[2]的基礎上,增加了文本結(jié)構(gòu)化的功能需求。其中,通用文本識別技術(shù)通常應用于非結(jié)構(gòu)化文本場景,例如交通場景圖像中的車牌號識別、物流運輸場景圖像中的集裝箱號識別等。在這類場景中,僅需通過檢測算法對圖像中的車牌號、集裝箱號文本區(qū)域進行定位,再使用文本識別模型對僅包含文本的圖像區(qū)域進行識別,從而得到所需的文本字符串。而在結(jié)構(gòu)化文本場景中,要求模型不僅僅能檢測、識別出圖像中的文本,還要對不同字段的文本屬性進行分類。例如,對于一張出租車票,要求模型將識別得到的“2017年01月01日”歸為“日期”類別,將識別得到的“上海市”歸為“歸屬地”類別。因此,結(jié)構(gòu)化文本圖像識別解決方案需要具有對圖像中若干文本區(qū)域檢測、區(qū)域內(nèi)文本識別和區(qū)域內(nèi)文本屬性分類等3種能力。現(xiàn)有結(jié)構(gòu)化文本識別系統(tǒng)通常由3個分立的模型構(gòu)成:文本檢測模型、文本識別模型及信息結(jié)構(gòu)化模型。對于一張結(jié)構(gòu)化文本圖像,先使用檢測模型[3-5]對圖像中的文本字段進行定位,然后將裁剪后的文本子圖輸入識別模型[6-8]獲得相應的文本內(nèi)容,最后根據(jù)識別結(jié)果以及文本所在圖像中的位置,設計一套基于版式、規(guī)則或者可學習模型的算法[9],進而得到每個文本的屬性類別。但是,這3個子模型在訓練時單獨優(yōu)化,各自達到最優(yōu)解時往往不是全局的最優(yōu)解;每個檢測到的文本區(qū)域均需要送入識別模型進行文本識別,大量不感興趣區(qū)域的文本識別造成計算資源的浪費;同時,模型數(shù)量多、參數(shù)量大、開發(fā)調(diào)試困難。針對以上不足,本文提出一種可端到端訓練優(yōu)化的結(jié)構(gòu)化文本識別模型,包含3個分支,即文本檢測、結(jié)構(gòu)化與識別。3個分支共享1個圖像特征提取子模塊,可進行全局訓練優(yōu)化;并將結(jié)構(gòu)化分支嵌入檢測與識別分支之間,利用結(jié)構(gòu)化分支對檢測得到的所有文本區(qū)域進行篩選,僅將“感興趣”屬性對應的文本區(qū)域送入識別分支進行識別;同時,通過端到端訓練使圖像特征提取子模塊接收來自檢測、識別分支的監(jiān)督信號,提取特征的同時能抽取到文本信息結(jié)構(gòu)化所需的文本幾何特征和語義特征,從而使得文本結(jié)構(gòu)化分支有較高的分類準確率。

        1 結(jié)構(gòu)化文本識別模型設計

        基于單模型的可端到端訓練的結(jié)構(gòu)化文本識別模型網(wǎng)絡結(jié)構(gòu)如圖1所示,包含卷積特征提取模塊、文本區(qū)域粗定位模塊、文本區(qū)域精定位與屬性分類模塊和文本識別模塊。一張輸入圖像經(jīng)過卷積特征提取模塊得到相應的卷積特征,常用的卷積特征提取網(wǎng)絡有殘差網(wǎng)絡(Residual Networks,ResNet)[10]、VGGNet[11]等。圖像卷積特征通過文本區(qū)域粗定位模塊得到文本區(qū)域矩形框坐標,可通過區(qū)域生成網(wǎng)絡(Region Proposal Network, RPN)[12]等網(wǎng)絡來實現(xiàn)。根據(jù)粗定位的矩形坐標在全局卷積特征中截取相應區(qū)域的特征,并通過可求導的特征對齊方式縮放至固定尺寸。再由文本區(qū)域精定位與屬性分類模塊獲得精確的文本區(qū)域坐標與文本屬性,根據(jù)文本屬性篩選出感興趣的字段區(qū)域。隨后,通過1次特征對齊得到用于識別的卷積特征,最后通過序列解碼得到每個感興趣字段區(qū)域內(nèi)的識別結(jié)果字符串。至此,依次獲得輸入圖像中圖像文本區(qū)域坐標、對應文本區(qū)域的屬性以及文本區(qū)域內(nèi)的字符串識別結(jié)果。

        圖1 可端到端訓練的文本結(jié)構(gòu)化識別模型網(wǎng)絡結(jié)構(gòu)圖

        1.1 卷積特征提取模塊

        本文采用ResNet50[10]結(jié)合特征金字塔(Feature Pyramid Network, FPN)[13]模塊得到卷積特征,并且在ResNet50的最后一個卷積層增加一個步長為2的最大池化層,得到相對于原圖下采樣4,8,16,32,64倍的5組特征圖。通過引入FPN模塊,5組卷積特征圖各自融合來自更高層級的、語義信息更豐富的上下文特征,在保留高分辨率的紋理特征的同時增大了網(wǎng)絡的感受野。因此,卷積特征提取模塊能獲取輸入圖像不同分辨率層級的卷積特征,為后續(xù)檢測、識別不同尺寸大小的文本奠定基礎。

        1.2 文本區(qū)域粗定位模塊

        文本區(qū)域粗定位模塊與Faster RCNN[12]網(wǎng)絡中RPN模塊類似,由全卷積網(wǎng)絡構(gòu)成。通過計算預先生成的一系列不同大小、長寬比的錨點矩形框(anchor)與圖中真實文本區(qū)域的交并比(Intersection of Unit,IoU)來確定其是否包含文本區(qū)域以及其與真實文本框的幾何差值,即對應于文本區(qū)域粗定位模塊的分類損失與回歸損失。

        對于分類損失,當IoU大于0.7時,為正樣本,標注為p*=1;當IoU小于0.3時,為負樣本,p*=0;當IoU介于0.3與0.7之間時,在訓練時將其忽略。對于RPN預測的某一錨點矩形框為正樣本的概率p,使用交叉熵來定義其分類損失:

        (1)

        對于回歸損失,本文只將屬于正樣本的錨點矩形框與其對應的真實文本框的差值作為網(wǎng)絡的回歸目標。設錨點矩形框的幾何中心、寬高分別為xa,ya,wa,ha,與其對應的真實文本矩形框的幾何中心、寬高分別為xg,yg,wg,hg。對于錨點矩形框,網(wǎng)絡的回歸目標為:

        (2)

        回歸損失用連續(xù)可導的SmoothL1函數(shù)計算:

        (3)

        式中,σ為預先設定的可調(diào)參數(shù)。

        由此,對于某一錨點矩形框,RPN對其與對應的真實文本矩形框預測的偏差為ax,ay,aw,ah,則RPN模塊的回歸損失函數(shù)為:

        (4)

        式(4)中對應式(3)中SmoothL1函數(shù)的超參σ設為1/9。

        本文將錨點矩形框的寬長比設置為0.1,0.2,0.4,0.8,1.6,3.2,盡可能覆蓋極長、短、豎排文本;錨點矩形框面積設為322,642,1282,2562像素,盡可能覆蓋不同大小的文本。不同長寬比和尺寸相互組合,使RPN輸出的預測圖的每個坐標位置對應6×4=24個錨點矩形框區(qū)域。

        1.3 文本區(qū)域精定位與屬性分類模塊

        將經(jīng)過RPN網(wǎng)絡預測誤差矯正過的正樣本錨點矩形框和一定數(shù)量的負樣本錨點矩形框作為提議矩形框(proposal),由RoIAlign[12]特征截取對齊后,得到固定尺寸的特征圖,再送入文本區(qū)域精定位與屬性分類模塊。

        文本區(qū)域精定位與屬性分類模塊主要承擔結(jié)構(gòu)化文本識別任務中文本高精度檢測與信息結(jié)構(gòu)化的功能,由若干卷積與全連接運算構(gòu)成,其網(wǎng)絡結(jié)構(gòu)如圖2所示。

        圖2 文本區(qū)域精定位與屬性分類模塊網(wǎng)絡結(jié)構(gòu)圖

        對于文本高精度位置的檢測,模型通過預測提議矩形框到其對應的真實矩形框的中心點坐標偏差px,py和寬高偏差pw,ph,實現(xiàn)文本區(qū)域定位的二次矯正。同時,文本高精度檢測僅對感興趣區(qū)域的提議矩形框進行預測,不對負樣本及屬性為不感興趣的文本區(qū)域進行預測。其損失誤差與RPN網(wǎng)絡中定義基本一致,

        (5)

        式(5)中對應式(3)中SmoothL1函數(shù)的超參σ設為1.0。

        對于文本屬性的分類,通過一個簡單的全連接網(wǎng)絡來實現(xiàn)。對于需要分為感興趣的C類屬性的不同文本區(qū)域,通過全連接網(wǎng)絡輸出C+2個預測單元,分別代表對輸入提議矩形框預測的屬于感興趣的C類文本區(qū)域?qū)傩?、不感興趣的1類文本區(qū)域?qū)傩砸约?類背景區(qū)域的概率,該分類損失使用多分類的交叉熵Lcls2進行衡量。

        至此,通過文本區(qū)域精定位與屬性分類模塊,本文提出的結(jié)構(gòu)化文本識別模型已經(jīng)能夠?qū)Y(jié)構(gòu)化文本圖像中文本區(qū)域進行精確定位,同時對文本屬性進行分類,實現(xiàn)了結(jié)構(gòu)化文本識別模型中文本檢測、信息結(jié)構(gòu)化的功能。

        1.4 文本識別模塊

        本文采用與文本區(qū)域精定位及屬性分類模塊相同的特征裁剪及對齊方式對感興趣的C類文本區(qū)域進行處理,獲得感興趣區(qū)域文本紋理特征,并將這些特征送文本識別模塊。文本識別模塊由任意的基于CTC[14]或者Attention[6-7]的文本識別網(wǎng)絡構(gòu)成,文本所采用的識別模塊由一系列卷積特征提取操作、基于雙向長短期記憶模型(Long Short-Term Memory, LSTM)的序列編碼操作以及基于注意力(Attention)的序列解碼操作組成,最后對解碼后的特征通過全連接網(wǎng)絡對不同的字符進行分類。其中,識別分支的卷積特征提取由修改后的ResNet32[10]構(gòu)成,將步長為2的卷積下采樣替換為步長為2的最大值池化(MaxPooling)。為了適應大多數(shù)水平排布文本特征提取,保證特征在水平方向上有較高分辨率,將最后2個池化最大值池化水平方向上步長設為1。雙向LSTM模塊隱層及輸出層特征維度均為256。Attention序列解碼模塊的隱層特征維度為256,序列長度為25。

        設zi為識別模塊在第i時刻預測的字符,oi為LSTM在第i時刻的輸出,h為文本區(qū)域的卷積特征,其特征圖高為1。識別模塊輸出端全連接網(wǎng)絡權(quán)重為Wout,bout,則識別模塊的預測輸出表示為:

        p(zi|z1,…,zi-1,h)=Softmax(Woutoi+bout)

        (6)

        LSTM的外部輸入為經(jīng)過Attention加權(quán)得到的文本區(qū)域的卷積特征ci,LSTM網(wǎng)絡第i-1時刻的隱層特征為si-1,則LSTM網(wǎng)絡表示為:

        (oi,si)=LSTM(zi-1,si-1,ci)

        (7)

        對于長度為N的字符串,設數(shù)據(jù)集中中英文字符類別數(shù)目為K,字符串中第n個字符標簽為yn,則基于Attention解碼的文本識別網(wǎng)絡損失函數(shù)如下:

        (8)

        綜上,本文提出的結(jié)構(gòu)化文本識別模型兼具了文本檢測、文本屬性分類、文本圖像識別功能。上述4個子模塊中所有運算均可導,且各子模塊銜接時使用可導的RoIAlign進行局部區(qū)域特征對齊,故本文模型可以進行端到端訓練,其目標函數(shù)由文本粗定位模塊、文本區(qū)域精定位與屬性分類模塊、文本識別模塊的損失函數(shù)加權(quán)構(gòu)成:

        L=(Lcls+Lreg)+α(Lcls2+Lreg2)+βLrecog

        (9)

        式中,超參α與β分別控制文本區(qū)域精定位與屬性分類模塊、文本識別模塊的損失占總損失的相對權(quán)重。為了緩解文本檢測、識別分支訓練速度差異大的問題,本文設為α=1,β=5。

        2 實驗分析

        在自建的票據(jù)及電子簡歷等結(jié)構(gòu)化文本場景數(shù)據(jù)集中驗證本文提出的結(jié)構(gòu)化文本識別模型的有效性。數(shù)據(jù)集如表1所示。數(shù)據(jù)集中各類票據(jù)圖像均為掃描版圖像,且票據(jù)主體占據(jù)圖像區(qū)域的80%以上,電子簡歷數(shù)據(jù)直接從pdf格式簡歷轉(zhuǎn)換至圖像格式。

        表1 結(jié)構(gòu)化文本數(shù)據(jù)集

        作為對照組,本文采用一個三階段的結(jié)構(gòu)化文本識別方案進行對比(后稱為“三階段模型”),分別為文本檢測、文本識別與文本結(jié)構(gòu)化(屬性分類)獨立模型或算法,這也是當前絕大多數(shù)結(jié)構(gòu)化文本識別所采用的方案[2]。文本檢測模型類似于1.2節(jié)所述的文本區(qū)域粗定位模塊,文本識別模型類似于1.4節(jié)所述的文本識別模塊,文本結(jié)構(gòu)化模型為利用各類結(jié)構(gòu)化文本圖像特點定制的文本屬性分類算法,其輸入為圖像中所有文本框坐標以及相應的文本內(nèi)容,結(jié)合版式、規(guī)則等特點,輸出每個文本矩形框所屬的類別。上述3個獨立的文本檢測、識別、信息結(jié)構(gòu)化模型均在表1相應數(shù)據(jù)集中進行訓練及驗證,各自達到最優(yōu)后串接形成作為對照組的結(jié)構(gòu)化文本識別解決方案。

        本文提出的結(jié)構(gòu)化文本識別模型以及作為對照的“三階段模型”中的檢測模型、識別模型、結(jié)構(gòu)化模型均在8塊V100 32GB的GPU上進行訓練,其測試基于單塊V100 32GB的GPU。對于模型效率的分析,采用幀率(Frame Per Second, FPS)進行衡量。在后續(xù)實驗分析中,將本文提出的可端到端訓練的結(jié)構(gòu)化文本識別模型稱為“單階段模型”。

        針對不同數(shù)據(jù)集特點,訓練時進行以下數(shù)據(jù)擴增:(1)旋轉(zhuǎn):除電子簡歷數(shù)據(jù)集外,圖像隨機旋轉(zhuǎn)(-10°,10°);(2)縮放:出租車發(fā)票、定額發(fā)票、火車票數(shù)據(jù)集長邊隨機縮放至(600,900)像素,電子簡歷數(shù)據(jù)集長邊隨機縮放至(1 200, 1 800)像素,短邊進行等比例縮放;(3)圖像亮度及對比度:亮度隨機增加(-32,32)像素值,對比度隨機縮放(0.5,1.5)倍。測試時,除電子簡歷數(shù)據(jù)長邊縮放至1 500像素外,其余數(shù)據(jù)集圖像長邊均縮放至750像素,短邊進行等比例縮放,在單一尺度下進行測試,無其它數(shù)據(jù)增強方式。

        在出租車發(fā)票中,需要識別“發(fā)票代碼”、“發(fā)票號碼”、“日期”、“上車時間”、“下車時間”、“行駛里程”、“單價”、“等候時間”、“金額”等9個感興趣的字段,兩種模型在出租車發(fā)票測試集中的測試結(jié)果如表2所示,其預測結(jié)果可視化如圖3所示。圖3中,冒號前表示結(jié)構(gòu)化分支預測的文本框?qū)傩?,冒號后表示識別分支預測的字符串結(jié)果,屬性“nc”表示不感興趣的文本區(qū)域。為了更好地區(qū)分不同屬性的文本區(qū)域,圖3中用不同顏色的矩形框表示不同屬性類別的文本。

        表2 出租車發(fā)票測試集各字段準確率與幀率

        圖3 出租車測試集的結(jié)構(gòu)化文本識別結(jié)果可視化圖

        兩種模型在火車票、定額發(fā)票、簡歷測試集中的測試結(jié)果如表3所示。

        表3 火車票、定額發(fā)票、簡歷測試集各字段準確率與幀率

        由表2和表3可以看出:本文提出的結(jié)構(gòu)化文本識別模型不僅在識別精度上優(yōu)于三階段模型,同時幀率上有3~5倍的提高,效率上有明顯的優(yōu)勢。

        分別使用本文提出的單階段結(jié)構(gòu)化文本識別模型、現(xiàn)有的三階段模型在火車票數(shù)據(jù)集上進行可視化分析,其中部分敏感信息已被人工擦除,結(jié)果如圖4所示。圖4中,在“起始城市”字段識別時,三階段模型將“站”表示地點的關鍵信息錯誤地預測成“不感興趣”,而單階段模型通過聯(lián)合訓練使得結(jié)構(gòu)化分支同時接受來自檢測的文本幾何特征與來自識別的語義特征,從而做出正確的屬性類型預測。又如“日期時間”字段,由于時間冒號“:”不清晰導致了三階段模型輸出缺少“:”,給后續(xù)結(jié)構(gòu)化分析增加了難度。而單階段模型的識別分支通過接受來自結(jié)構(gòu)化分支的“日期時間”字段屬性特征,使得識別分支面對模糊字段仍然做出正確預測。因此,單階段模型通過聯(lián)合訓練優(yōu)化能有效消除各模塊單獨訓練時不兼容的依賴關系,各子模塊之間相輔相成,達到聯(lián)合最優(yōu)效果。

        圖4 兩種模型在火車票圖像上的識別結(jié)果

        3 結(jié)束語

        本文提出一種集檢測、屬性分類、識別功能為一體的結(jié)構(gòu)化文本識別模型,在識別精度上達到或超過由3個獨立子模型構(gòu)成的結(jié)構(gòu)化文本識別算法,效率上也有3~5倍的提升。本文設計的文本屬性分類模塊通過學習模型對文本屬性進行預測,避免了人工設計繁瑣的規(guī)則,在實際應用中能有效減少開發(fā)、維護成本,具有較大的工業(yè)應用價值。但是,本文所提出的結(jié)構(gòu)化文本識別模型僅局限于小角度傾斜的掃描版結(jié)構(gòu)化文本圖像識別,對于較大角度的傾斜、彎曲等文本圖像場景,模型的文本識別與字段屬性分類精度受到一定程度上的影響。此外,隨著檢測、識別、結(jié)構(gòu)化等子領域技術(shù)的發(fā)展,本文所述結(jié)構(gòu)化文本識別模型中各檢測、識別、文本結(jié)構(gòu)化等子模塊可以進行同步更新?lián)Q代,從而進一步提高模型的性能。

        猜你喜歡
        特征文本區(qū)域
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        關于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        基于嚴重區(qū)域的多PCC點暫降頻次估計
        電測與儀表(2015年5期)2015-04-09 11:30:52
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        久久精品中文字幕女同免费| 三级全黄的视频在线观看| 永久免费在线观看蜜桃视频| 亚洲综合中文字幕日韩| 国产强被迫伦姧在线观看无码| 五十路熟妇高熟无码视频| 亚洲av成人一区二区三区网址| 白白在线免费观看视频| 亚洲精品久久国产精品| 青草视频在线播放| 亚洲视频高清| 国产午夜三级精品久久久| 精品国产精品三级精品av网址| 黑人大荫道bbwbbb高潮潮喷| 色爱无码A V 综合区| 日韩人妻大奶子生活片| 欧美疯狂性受xxxxx喷水| 日韩免费无码一区二区三区| 久久精品爱国产免费久久| 久久国产精品亚洲我射av大全| 国产日产亚洲系列最新| 人妻少妇av无码一区二区| 国产激情视频在线| 亚洲成人精品在线一区二区| 久久久久成人精品无码| 亚洲免费黄色| 亚洲av高清在线一区二区三区| 美女视频黄是免费| 久久久久久国产精品美女| 国产亚洲日本人在线观看| 日日麻批免费高清视频| 色一情一乱一伦| 色yeye免费视频免费看| 加勒比久草免费在线观看| 精品久久久久久综合日本| 国产成a人亚洲精v品无码性色| 99精品国产自产在线观看| 亚洲中文字幕剧情类别| 边啃奶头边躁狠狠躁| 国产主播无套内射一区| 九九精品国产亚洲av日韩|