亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力多分支卷積和Transformer的手寫文本識別

        2023-11-17 03:01:10鄭曉旭舒珊珊文成玉
        關(guān)鍵詞:特征提取語義特征

        鄭曉旭,舒珊珊,文成玉

        (成都信息工程大學(xué)通信工程學(xué)院,四川成都 610225)

        0 引言

        智能閱卷、銀行支票識別、自動入檔等解放人類勞動力的應(yīng)用需求,催促著自動文字識別技術(shù)的發(fā)展。漢字字符種類繁多,不同字符間相似度高,書寫者書寫風(fēng)格復(fù)雜多變,字跡下傾上漂等對識別算法造成極大干擾,使其成為模式識別領(lǐng)域中的熱點研究問題。

        基于分割的手寫文本識別,將輸入的文本圖片進(jìn)行分割,獲得整個或部分字符的一系列片段,組合這些片段生成候選項,利用字符分類器和上下文信息完成識別[1-2]。由于粘連字符難以切分,錯誤切分對連續(xù)識別造成影響,額外的后處理過程導(dǎo)致模型設(shè)計過于復(fù)雜,識別算法開始向無分割的方法衍生。無分割的方法主要利用滑動窗口滑動步長,通過分類器對窗口內(nèi)字符進(jìn)行識別。識別過程無需任何字符或單詞切分,避免字符切分錯誤對識別精度的影響。如Su等[3]提出高斯混合隱馬爾可夫模型(hidden markov model,HMM)對滑動窗口內(nèi)的字符進(jìn)行識別。

        深度卷積神經(jīng)網(wǎng)絡(luò)贏得圖像分類挑戰(zhàn)后,基于深度神經(jīng)網(wǎng)絡(luò)的無分割手寫識別方法不斷被提出。從模型的結(jié)構(gòu)和切入角度分析,可分為面向文本行和文本頁識別的模型。文本行識別模型采用編-解碼或特征對齊等技術(shù),將輸入的文本行圖像看作多字符序列映射問題。Shi 等[4]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提出卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型(convolutional recurrent neural network,CRNN)直接運行于單詞標(biāo)簽上,CNN 進(jìn)行特征提取,RNN 建模序列信息。Messian等[5]利用多維長短時記憶(long-short term memory,LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端文本識別。上述模型表現(xiàn)出良好性能,但存在以下限制:循環(huán)網(wǎng)絡(luò)對于長序列文本聯(lián)系的利用并不充分,其序列信息生成依賴于循環(huán)迭代過程,造成強烈耦合;固定感受野的CNN 模型,對于脫機(jī)漢字大小不一致的特點,提取的特征表達(dá)力不夠,導(dǎo)致泛化性弱。

        文本頁圖片無分割的識別方法[6-7],通過拉伸、擠壓方式將整個文本頁圖片逐漸壓縮成幾行或一整行特征圖進(jìn)行識別。該策略丟失文本的定位信息,無法處理傾斜文本,復(fù)雜的層次結(jié)構(gòu)會加重識別難度,識別性能有待提高。

        為解決上述問題,本文提出一種基于注意力多分支卷積和Transformer的手寫文本識別算法。通過文本糾正模塊進(jìn)行傾斜計算糾正文本,由注意力多分支卷積實現(xiàn)變感受野和注意力機(jī)制結(jié)合,從而聚焦文本圖像重要特征,通過自注意力機(jī)制捕獲序列長距離語義關(guān)系。

        1 算法框架

        1.1 總體框架

        本文所提出的算法框架主要由檢測網(wǎng)絡(luò)和識別網(wǎng)絡(luò)兩部分構(gòu)成,如圖1所示。檢測網(wǎng)絡(luò)主要完成文本定位和傾斜信息獲取,識別網(wǎng)絡(luò)主要完成文本糾正、特征提取和文本預(yù)測識別。

        其中,識別網(wǎng)絡(luò)包含文本糾正模塊、注意力多分支提取網(wǎng)絡(luò)、語義提取層和輸出層,具體設(shè)置如下:

        (1)檢測網(wǎng)絡(luò)用于將輸入文本圖片轉(zhuǎn)換為單文本行表示形式,使用包含位置信息的坐標(biāo)點表示不同行文本所在區(qū)域,同時坐標(biāo)點暗含了文本的傾斜信息。該層的輸入為整張文本,輸出是文本信息坐標(biāo)點。

        (2)識別網(wǎng)絡(luò)中文本糾正模塊用于糾正傾斜文本,采用透視變換對文本圖片進(jìn)行空間映射變換。該層輸入的是文本行圖片和位置信息坐標(biāo)點,輸出的是糾正后圖片。

        (3)在注意力多分支卷積層中,分別對每層的特征圖進(jìn)行基于空間和通道注意力的細(xì)化特征提取,以及變化感受野堆疊的分支特征融合,最后得到字符特征表達(dá)形式。該層輸入的是文本圖片,輸出提取的文本字符特征。

        (4)語義提取層將上一步的字符特征轉(zhuǎn)變?yōu)榘舷挛牡男蛄行畔⑻卣?使用TCN 做序列特征提取,Transformer 使用自注意力機(jī)制融合文本上下文語義信息,輸出的是基于自注意力權(quán)重的序列特征。

        (5)輸出層通過鏈接時序分類CTC 做序列特征對齊,實現(xiàn)表征序列到文本序列的轉(zhuǎn)化,完成文本預(yù)測識別。該層輸入是語義提取層獲取的時間步特征,輸出是整張文本的識別文本。

        1.2 檢測網(wǎng)絡(luò)

        在檢測網(wǎng)絡(luò)產(chǎn)生文本行定位信息,選用PAN++[8]檢測網(wǎng)絡(luò)作為文本定位模型。模型采用語義分割的方法,能檢測任意形狀的文本。每行文本視為周圍像素包裹的文本中心核,不同文本核之間存在間隔以此區(qū)分不同文本行。選擇ResNet[9]作為骨架網(wǎng)絡(luò),塊堆疊數(shù)目設(shè)置為3、3、9、3,滑動步長設(shè)置為2,在每個殘差堆疊塊中引入深度可分離卷積來減少網(wǎng)絡(luò)參數(shù)量,沿用其特征增強模塊(FPEMv2),以融合不同尺度的特征信息。檢測效果如圖2所示。

        圖2 文本檢測結(jié)果圖

        1.3 識別網(wǎng)絡(luò)

        1.3.1 文本圖片糾正

        文本檢測網(wǎng)絡(luò)只涉及文本的定位,在無約束的條件下,手寫文本上漂下傾,對識別造成影響,識別前利用糾正算法對文本進(jìn)行水平糾正。檢測網(wǎng)絡(luò)的定位信息包含4 個頂點坐標(biāo),采用透視變換糾正傾斜的文本行。透視變換把圖片投影到一個新的視平面,從二維平面轉(zhuǎn)換到三維空間,再映射到另一個二維平面。變換矩陣由給定的4 個頂點坐標(biāo)和目標(biāo)坐標(biāo)計算可得,變換公式:

        式中,(x,y)為原始圖片的坐標(biāo)點,變換的目標(biāo)坐標(biāo)為(x′,y′),展開可得:

        由文本行頂點信息可獲得變換后目標(biāo)坐標(biāo)點。首先進(jìn)行傾斜計算:

        計算傾斜角θ表示傾斜程度,正負(fù)表示文本上傾或下斜,(x1,y1)、(x4,y4)表示左上、右上頂點。

        然后,根據(jù)得到的角度θ變換至水平位置的目標(biāo)坐標(biāo)點(x′,y′)。變換前后的8 個坐標(biāo)點利用式(2)得到變換矩陣,通過矩陣透視變換文本行至水平方向,獲得糾正后的文本圖片,如圖3所示。

        圖3 文本行糾正結(jié)果圖

        1.3.2 識別框架

        文本圖像轉(zhuǎn)換為字符序列對齊,需要獲得細(xì)粒度的字符特征,要求特征提取網(wǎng)絡(luò)能突出文本圖像的重要區(qū)域,有效提取各個字符。從圖像的全局特征角度設(shè)計含有注意力機(jī)制的多分支卷積層,關(guān)注特征圖中重要區(qū)域,以及增強重要特征通道。語義特征層則實現(xiàn)字符特征到序列特征映射,建模特征序列上下文信息以構(gòu)建序列特征間的語義聯(lián)系。圖4 為識別網(wǎng)絡(luò)總體結(jié)構(gòu),其中虛線框表示特征提取操作,主要由注意力多分支卷積和下采樣來實現(xiàn),實線框表示語義提取操作,主要由TCN 和Transformer 來實現(xiàn),后通過鏈接時序分類完成文本識別。

        圖4 識別網(wǎng)絡(luò)結(jié)構(gòu)圖

        通過堆疊注意力多分支卷積和下采樣層進(jìn)行輸入圖片的高維特征提取,注意力分支卷積層中包含不同數(shù)量的多分支卷積和多層感知機(jī),構(gòu)成SeBlock_1~SeBlock_5 五個特征提取層,每層后添加下采樣層,以此縮減輸入圖片尺寸和通道增加,由h×w減小至1×w/8,通道數(shù)由1 增加至1024。

        語義提取層,通過時間卷積網(wǎng)絡(luò)引導(dǎo)字符特征到序列特征映射,主要由4 層因果卷積層和空洞卷積所構(gòu)成,每層空洞數(shù)翻倍;通過Transformer 建模特征序列上下文信息,主要由6 層堆疊的自注意力編碼器構(gòu)成,該層維持特征圖大小和通道數(shù)不變。另外,在最后一層Transformer 后連接線性層,通道數(shù)由1024 變?yōu)榉诸愵悇e數(shù)。

        1.3.3 注意力多分支卷積層

        由于不規(guī)范的書寫會嚴(yán)重影響網(wǎng)絡(luò)的判別力,如連筆拖拽、部首分離,使得卷積網(wǎng)絡(luò)特征提取過程關(guān)注干擾區(qū)域,造成誤判。注意力機(jī)制[10]模擬了人眼的視覺感知,通過對不同區(qū)域進(jìn)行注意力映射,以減小干擾信息的權(quán)重輸入,聚焦有用信息的提取。在卷積網(wǎng)絡(luò)中引入空間和通道注意力,利用空間定位和通道壓縮,實現(xiàn)跨通道和空間信息整合,提升網(wǎng)絡(luò)的關(guān)鍵信息提取能力和過濾背景噪聲。經(jīng)過多層卷積后,原始高維特征圖亦含有重要語義信息,在空間和通道注意力殘差連接輸入特征,利用原始輸入特征提升深度神經(jīng)網(wǎng)絡(luò)收斂性,空間和通道注意力結(jié)構(gòu)如圖5 和圖6所示。

        圖5 空間注意力結(jié)構(gòu)圖

        圖6 通道注意力結(jié)構(gòu)圖

        空間注意力使用最大池化和平均池化進(jìn)行輸入特征In∈RN×C×H×W通道維度壓縮,得到輸入紋理特征信息Fm∈RN×1×H×W和背景特征Fv∈RN×1×H×W,級聯(lián)拼接特征信息,經(jīng)卷積核尺寸為7 的卷積層將特征通道壓縮為1,再經(jīng)Sigmoid 函數(shù)激活后得到文本區(qū)域的空間注意力權(quán)重映射Sn(In)。通道注意力在空間維度上壓縮輸入特征圖In,經(jīng)全局平均池化和最大池化得到不同維度的空間背景特征:Fg∈RN×C×1×1和Fm∈RN×C×1×1,通過共享的多層感知機(jī)(multilayer perceptron,MLP)網(wǎng)絡(luò)進(jìn)行非線性變換,輸出兩個不同的特征圖逐點求和并利用Sigmoid 函數(shù)激活,得到文本通道注意力映射Cn(In)。Sn(In)和Cn(In):

        式中,K7×7表示7×7 卷積,⊕表示維度拼接操作,MLP表示經(jīng)過采用ReLU 函數(shù)激活的多層感知機(jī)。

        注意力機(jī)制優(yōu)化了網(wǎng)絡(luò)關(guān)注區(qū)域,而特征提取過程依賴于卷積層感受野。因脫機(jī)文本書寫風(fēng)格多變,使得受限于單一感受野的單卷積核,并不能較好適應(yīng)文本變化。小尺寸卷積核注重于文本淺層特征,輸入圖片較大的情況下,需經(jīng)過多層疊加以擴(kuò)充感受野來整合高階信息。較大尺寸卷積核全局信息提取能力更強,但忽視了細(xì)微特征,在深層特征語義信息下,影響網(wǎng)絡(luò)表達(dá)能力?;谏鲜鎏匦?引入提供變化感受野的分支卷積。通過并行疊加不同尺寸的卷積核,利用不同的感受野來實現(xiàn)不同尺寸特征融合。同時結(jié)合多層感知機(jī),達(dá)到高維空間非線性變換。多次疊加分支卷積構(gòu)成注意力多分支卷積層SeBlock,結(jié)構(gòu)如圖7所示。給定輸入特征In∈Rh×w×c,經(jīng)注意力卷積層得到輸出特征On∈Rh′×w′×c′,h′、w′和c′由卷積層決定,具體設(shè)置如表1所示。Fn表示輸入特征到輸出特征的映射函數(shù),即On=Fn(In),添加注意力的卷積塊映射函數(shù)表示:

        表1 卷積層結(jié)構(gòu)設(shè)置

        記C′n=Cn[Sn(In)×In+In],S′n=Sn(In),將式(7)代入式(6),進(jìn)一步展開得到:

        式(9)由兩個部分組成,第一部分表示注意力模塊對上一層卷積主干提取的特征從不同方面進(jìn)行映射,抽取細(xì)粒度特征。與卷積主干特征相乘,Sigmoid函數(shù)會將特征值限制在0~1,以此增強相關(guān)特征信息和抑制不相關(guān)特征信息。第二部分表示分支卷積作用過程,對注意力映射和殘差連接的原始輸入特征進(jìn)行高層特征提取,以實現(xiàn)注意力引導(dǎo)卷積層。

        1.3.4 語義提取層

        語義特征層首先使用時間卷積網(wǎng)絡(luò)(temporal convolution network,TCN)做序列特征的提取,序列特征描述了文本的先后順序,序列位置輸出與序列之前位置有關(guān),通過TCN 提取感受野范圍內(nèi)的局部上下文信息,以學(xué)習(xí)序列依賴信息,引入空洞卷積擴(kuò)大感受野,整合長距離的信息。

        為了讓序列信息有效融合,選擇多頭注意力機(jī)制[11]對序列特征進(jìn)行自注意力計算,得到含有權(quán)重的特征表示,以此交互上下文信息。Transformer 編碼器使用自注意力機(jī)制,輸入序列中任意兩個位置之間的距離縮小為一個常量,以鍵值對的形式建模輸入序列間的語義關(guān)系,多頭機(jī)制映射至不同的子空間去學(xué)習(xí)特征,優(yōu)化不同特征部分。編碼器結(jié)構(gòu)如圖8所示。

        圖8 Transformer 編碼器結(jié)構(gòu)圖

        序列特征多頭自注意力計算如下:

        特征序列fin∈R(N,L,C)經(jīng)過權(quán)重矩陣映射得到Q,K,V∈R(N,L,C),被M個注意力頭均分為Qi,Ki,Vi∈R(N,M,L,C/M),映射過程如下:

        每個注意力頭內(nèi)通過Qi與Ki的轉(zhuǎn)置做點積運算,經(jīng)過Softmax 歸一化,求得各個位置在序列中的不同關(guān)聯(lián)程度Atti∈R(N,M,L,L):

        得到的權(quán)重向量再與V做點積,加權(quán)各位置語義輸出,以此融合不同位置的語義特征,再拼接上不同頭輸出,形成多頭注意力,計算如下:

        2 實驗結(jié)果與分析

        2.1 數(shù)據(jù)集與參數(shù)設(shè)置

        實驗所用的數(shù)據(jù)集為公開數(shù)據(jù)集 CASIAHWDB2.x,由1019 名書寫者書寫完成,包含5091 張文本圖片,2703 類字符類別,字符數(shù)為1349414。數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中4076 張圖片用作訓(xùn)練集,1015 張用于測試集,

        實驗平臺為Win10 操作系統(tǒng)、NVIDIA GeForce RTX 3070 顯卡,使用PyTorch 框架搭建網(wǎng)絡(luò),優(yōu)化器選用Adam,初始學(xué)習(xí)率設(shè)為0.001,批大小數(shù)量設(shè)置為8,訓(xùn)練輪數(shù)epoch 為50。文本圖像大小調(diào)整為736×736 輸入網(wǎng)絡(luò)中,不額外使用語言模型來優(yōu)化識別結(jié)果。

        為評估識別網(wǎng)絡(luò)的性能,采用Levenstein 字符編輯距離[12]用作度量方式,計算插入、刪除和替換的字符數(shù),得到準(zhǔn)確率(AR)和正確率(CR)兩個評價指標(biāo),計算如下:

        其中,Nc表示輸入文本圖像的字符序列長度,Dc表示需要刪除字符的數(shù)量,Ic表示需要插入字符的數(shù)量,Sc表示替換錯誤字符的數(shù)量。

        2.2 實驗對比及分析

        近年來不同方法在CASIA-HWDB2.x 數(shù)據(jù)集上識別性能的對比如表2所示,分別提供了不同條件下識別精度結(jié)果。文獻(xiàn)[5]使用多維長短時記憶循環(huán)網(wǎng)絡(luò)MDLSTM-RNN 結(jié)合CTC 鏈接時序分類用于端到端識別,文獻(xiàn)[14]和文獻(xiàn)[15]使用CNN 提取特征,并在LSTM 和CNN 分別引入注意力機(jī)制賦予特征不同的權(quán)重,識別性能較文獻(xiàn)[5]取得很大提升,意味著注意力機(jī)制能增強網(wǎng)絡(luò)對重要信息的捕捉能力。文獻(xiàn)[13]使用CNN-ResLSTM 結(jié)合數(shù)據(jù)預(yù)處理以及文本圖片糾正,文獻(xiàn)[16]使用像素級別糾正的深度網(wǎng)絡(luò)進(jìn)行CNN和RNN 中像素糾正,識別率分別提升1.78%和4.4%,說明文本糾正有助于識別提升。此外,文獻(xiàn)[5]、[13]和文獻(xiàn)[15]額外使用語言模型以提高識別準(zhǔn)確率。

        表2 不同方法識別結(jié)果 單位:%

        本文所提方法在特征提取階段使用注意力多分支卷積,提供變化感受野,融合不同尺度特征,語義提取階段使用自注意機(jī)制構(gòu)建序列特征語義上下文,因而具有更好的特征提取能力。除文獻(xiàn)[16]和使用語言模型的文獻(xiàn)[15]外,表2 中其余方法CR 準(zhǔn)確率均低于本文方法。由于參與對比的方法皆為單文本行輸入圖片識別結(jié)果,針對本文方法有效性討論,額外測試單文本行輸入圖片下的識別性能,結(jié)果如表2 最后一項,所提方法取得CR 和AR 較最高CR 和AR 準(zhǔn)確率皆有提升,驗證了本文模型的可行性。

        另外,本文還在CASIA-HWDB2.x 數(shù)據(jù)集上進(jìn)行一系列消融實驗,以驗證所提模型的有效性。首先對注意力卷積層特征提取能力分析,再在最終識別模型的基礎(chǔ)上刪除注意力卷積層的不同組件,性能對比如表3所示。注意力和多分支特征融合在單獨使用下,CR 分別提升0.5%和0.2%,這意味著注意力分支卷積層提取特征能力更強,賦予網(wǎng)絡(luò)更強的泛化性。

        表3 注意力卷積層組件結(jié)果對比 單位:%

        模型選用TCN 和transformer 編碼器作為序列和語義特征提取層,該模塊由兩部分所構(gòu)成。為了驗證不同部分對性能的影響,對不同配置獲得的精度和速度進(jìn)行了比較,所有的實驗都在同一個數(shù)據(jù)集和特征提取網(wǎng)絡(luò)下進(jìn)行,實驗結(jié)果如表4所示。

        表4 TCN 和Transformer 堆疊層數(shù)對比結(jié)果

        可以看出,使用TCN 和Transformer 提升了網(wǎng)絡(luò)精度,CR 和AR 在TCN 和6 層Transformer 的配置達(dá)到最高,而隨著Transformer 層數(shù)的不斷加深,準(zhǔn)確率有所下降,可能深度過深引起網(wǎng)絡(luò)退化;單張圖片推理時間由204 ms增長至211 ms,較不使用語義提取層,推理時間增加7.5%,TCN 的使用對推理時間幾乎無影響,表明語義提取層對推理速度無明顯降低。

        圖9 為模型的訓(xùn)練曲線,圖9(a)和(b)為訓(xùn)練損失以及驗證損失值曲線。隨著訓(xùn)練輪數(shù)epoch 增加,損失值快速下降,20 輪后曲線趨近于平穩(wěn)。圖9(c)和(d)為CR 和AR 準(zhǔn)確率曲線,兩者總體趨勢趨近于一致,快速上升后緩慢增長。

        圖9 網(wǎng)絡(luò)訓(xùn)練曲線圖

        3 結(jié)束語

        針對手寫中文文本識別,提出一種注意力分支卷積和Transformer 的文本定位和識別方法。文本識別網(wǎng)絡(luò)利用透視變換將文本圖像定位信息進(jìn)行傾斜文本糾正;特征提取階段使用注意力分支卷積獲取文本區(qū)域的注意力分布和變感受野特征融合,從而有效適應(yīng)長文本的變化;語義提取層使用TCN 和Transformer 用于整合序列特征和上下文語義特征提取。在公開數(shù)據(jù)集上進(jìn)行實驗,結(jié)果表明所提方法的可行性。接下來的研究工作將應(yīng)用于其他手寫體語言。

        猜你喜歡
        特征提取語義特征
        語言與語義
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個特征
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        极品美女一区二区三区免费| 人人妻人人狠人人爽| 久久人妻无码一区二区| 无码国产午夜福利片在线观看| 中文字幕人妻偷伦在线视频| 最新欧美一级视频| 日韩精品中文字幕综合| 成年网站在线91九色| 99无码熟妇丰满人妻啪啪| 国产午夜视频在线观看| 91精彩视频在线观看| 亚洲国产精品美女久久久 | 久久综合伊人有码一区中文字幕 | 黑人免费一区二区三区| 国产视频一区二区三区久久亚洲| 亚洲国产精品情侣视频| 久久久久99精品成人片直播| 精品无码国产污污污免费| 中文字幕日韩人妻高清在线| 亚洲日本中文字幕高清在线| 无码国产69精品久久久久孕妇| 国产久热精品无码激情 | 亚洲视频一区二区三区免费 | 91在线无码精品秘 入口九色十| 自拍成人免费在线视频| 老师露出两个奶球让我吃奶头| AV无码最在线播放| 青草网在线观看| 国产在线白浆一区二区三区在线| 久久综合国产精品一区二区| 亚洲精品国产美女久久久| 伊人精品在线观看| 91国内偷拍一区二区三区| 无人区乱码一区二区三区| 少妇特黄a一区二区三区| 国产91第一页| 日本一区二区三区光视频| 亚洲人成无码网站在线观看| 久久久久亚洲AV无码专区喷| 国产精品女同一区二区免| 麻豆免费观看高清完整视频|