亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)和Transformer的手寫體英文文本識別

        2022-08-24 06:30:00張顯杰張之明
        計算機應(yīng)用 2022年8期
        關(guān)鍵詞:手寫體解碼器編碼器

        張顯杰,張之明

        (1.武警工程大學信息工程學院,西安 710086;2.武警工程大學研究生大隊,西安 710086)

        0 引言

        離線手寫體文本識別(Offline Handwritten Text Recognition,OHTR)一直是計算機視覺和模式識別的主要研究內(nèi)容之一[1]。不同于聯(lián)機手寫體文本識別可以記錄書寫人的軌跡,OHTR 由于不同的人書寫的風格不同以及文本的結(jié)構(gòu)越來越復(fù)雜等原因,仍然是一個具有挑戰(zhàn)性的難題[2]。早期的OHTR 主要是基于分割的手寫體文本識別[3-4],該類方法將圖像分割成像素級的小部分,再使用分類的方法給每一個部分歸類,由于分割的不確定性,此類方法識別的精度較低;另一種主流的方法是基于隱馬爾可夫模型(Hidden Markov Model,HMM)的無分割的手寫體文本識別[5-6],該類方法將圖像作為整體輸入到模型中,能避免出現(xiàn)圖像分割產(chǎn)生的問題。

        隨著深度學習技術(shù)的飛速發(fā)展,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的無分割手寫體識別模型[7-10]不斷被提出。Vaswani 等[11]提出了基于全局自注意力的Transformer,該模型放棄了循環(huán)連接的長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),已經(jīng)廣泛應(yīng)用于自然語言處理和計算機視覺領(lǐng)域[12-14]。

        受此啟發(fā),本文提出了基于CNN 和Transformer 的手寫體英文文本識別模型。主要工作有以下幾點:

        1)將CNN 和Transformer 編碼器結(jié)合,提出了無分割的手寫體英文文本識別模型;

        2)使用鏈接時序分類(Connectionist Temporal Classification,CTC)貪心搜索算法解碼,解決輸入序列和標簽的對齊問題。

        1 相關(guān)工作

        1.1 CNN

        CNN 已經(jīng)成為深度學習時代的主干架構(gòu),廣泛應(yīng)用于圖像分類[15]、目標檢測[16-17]、實例分割[18-19]。然而,大多數(shù)CNN擅長利用卷積操作捕捉局部信息[20-25],但不擅長捕捉全局信息,比如對于手寫體文本識別比較重要的長序列依賴關(guān)系。為了使CNN 能夠捕捉到全局信息,一種方法是通過卷積層的堆疊,使網(wǎng)絡(luò)模型變得更深[21-23],而這往往導致模型的參數(shù)量急劇增加;另一種方法是增大卷積核的尺寸,擴大卷積操作的感受野,這需要更多具有破壞性的池化操作[26-27]。雖然使用以上兩種方法確實提高了CNN 的性能,但直接使用全局依賴關(guān)系的機制可能更適用于手寫體文本識別任務(wù)。

        1.2 Transformer

        基于全局自注意力機制的Transformer 在許多序列模式識別任務(wù)中取得了不錯的效果,比如機器翻譯[28]、語音識別[29]。Kang 等[30]首次將Transformer 的自注意力機制應(yīng)用于手寫體文本識別,提出了沒有循環(huán)網(wǎng)絡(luò)的識別模型,解決了循環(huán)網(wǎng)絡(luò)不能并行的問題,并且在字符級別上預(yù)測手寫體文本。Mostafa 等[31]構(gòu)建了自己的數(shù)據(jù)集,應(yīng)用Transformer 編碼器和解碼器,結(jié)合頁面分割和文本分割技術(shù)用于手寫體阿拉伯文識別。Ly 等[32]將Transformer 編碼器與雙向長短時記憶(Bidirectional LSTM,BLSTM)網(wǎng)絡(luò)結(jié)合,提出了注意力增強的卷積循環(huán)網(wǎng)絡(luò),在手寫體日語文本識別中表現(xiàn)優(yōu)異。雖然Transformer 在計算機視覺領(lǐng)域發(fā)展迅速,但在手寫體文本識別中還有很大的發(fā)展空間。

        1.3 CTC

        目前,CTC 解碼方法是無分割手寫體文本識別任務(wù)常用的一種解碼方法,Graves 等[33-34]最早將CTC 和BLSTM 結(jié)合用于端到端手寫體文本識別。之后,Chen 等[35]提出將門控卷積網(wǎng)絡(luò)和可分離的多維長短時記憶(Multi-Dimensional LSTM,MDLSTM)網(wǎng)絡(luò)結(jié)合,同時訓練筆跡識別和文本識別,使用CTC 處理文本識別輸入和標簽序列對齊問題。Zhan等[36]提出將帶有殘差連接[23]的CNN 和BLSTM 結(jié)合,用CTC計算損失和解碼?;贑TC 模型,Krishnan 等[37]提出了一種端到端的嵌入方案,聯(lián)合學習文本和圖像的嵌入。

        在手寫體英文文本識別任務(wù)中使用CTC 解碼器能夠取得一定的效果,但CTC 解碼器假設(shè)不同時刻的網(wǎng)絡(luò)輸出是條件獨立的[33],存在忽略全局信息的不足,而Transformer 基于全局自注意力機制能夠有效地捕捉到全局信息。因此,本文利用Transformer 捕捉全局信息的優(yōu)點彌補CNN 難以捕捉全局信息和CTC 忽略全局信息的不足,探索Transformer 在手寫體英文文本識別中的應(yīng)用前景。

        2 CNN-Transformer Network

        2.1 總體架構(gòu)

        本文提出的基于CNN 和Transformer 的手寫體英文文本識別模型CTN(CNN-Transformer Network)如圖1 所示,主要包含三個部分:CNN 特征提取層、Transformer 編碼器、CTC 解碼器。輸入灰度圖像I∈RH*W*1,經(jīng)過CNN 提取到特征圖,而后將特征圖F輸入Transformer 編碼器得到特征序列每一幀的預(yù)測Y=[y1,y2,…yT],yT∈RL,其中:T是序列長度,L是標簽字符種類的個數(shù)(含空白字符)。最后經(jīng)過CTC 解碼器獲取最終的預(yù)測結(jié)果。

        圖1 CTN總體架構(gòu)Fig.1 Overall architecture of CTN

        2.2 CNN特征提取層

        由于Transformer 缺少CNN 固有的一些歸納偏置[12],即對模型作出的一系列人為限制,同時對訓練數(shù)據(jù)集需求較高,因此本文使用CNN 作以彌補,使模型能夠在一般的數(shù)據(jù)集上具有泛化性。

        本文使用帶有壓縮激勵(Squeeze-and-Excitation,SE)塊的SE-ResNet-50[27]作為特征提取層,SE 塊結(jié)構(gòu)如圖2,特征圖X經(jīng)過壓縮函數(shù)Fsq(·)得到關(guān)于通道的統(tǒng)計信息Z,隨后經(jīng)過激勵函數(shù)Fex(·,We)獲取通道的相關(guān)性S,最后經(jīng)過縮放函數(shù)Fscale(·,·)得到新的特征圖。計算公式如下:

        圖2 SE塊Fig.2 SE block

        SE 塊讓特征圖通過一些網(wǎng)絡(luò)層得出每個通道的“權(quán)重”,再和原特征圖進行運算,對通道增加了注意力機制。

        2.3 Transformer編碼器

        Transformer 編碼器由一個多頭注意力(Multi-Head Attention,MHA)和一個多層感知器(Mult-iLayer Perceptron,MLP)兩個子層組成[11],每個子層前使用層標準化(Layer Normalization,LN)[38],每個子層后使用殘差連接[23],如圖3(a)所示。

        為了減少運算量,文獻[14]提出了線性的空間縮減注意力(Liner Spatial Reduction Attention,LSRA),如圖3(b)。和MHA 類似,LSRA 也是接收查詢Q、鍵K、值V作為輸入,計算公式如下:

        圖3 Transformer編碼器和LSRAFig.3 Transformer encoder and LSRA

        其中:Ni表示的是第i個階段注意力頭的數(shù)量;表示第j個頭與輸入對應(yīng)的權(quán)重矩陣;WO表示線性層的權(quán)重矩陣;Avg(·)表示的是平均池化,目的是減少參數(shù)運算量。和文獻[11]一樣,Attention(·)注意力計算如下:

        多頭注意力經(jīng)過Ni次計算,將所有頭的結(jié)果拼接到一起,再經(jīng)過一個線性層獲得LSRA 的輸出結(jié)果。

        對于輸入特征Fin,帶有LSRA 的Transformer 編碼器計算過程如下:

        由于Wang 等[13]提出的金字塔視覺Transformer(Pyramid Vision Transformer,PVT)大幅減少了模型的計算量和內(nèi)存消耗,并且能很好適用于下游任務(wù),本文在Wang 等[14]提出的PVTv2 上作以改良,用于建立圖像內(nèi)部的上下文關(guān)系,整體結(jié)構(gòu)如圖4 所示。

        圖4 改良的PVTv2整體架構(gòu)Fig.4 Overall architecture of improved PVTv2

        PVTv2 共有4 個相似的階段,每個階段都包含一個塊嵌入層(Patch Embedding)和多個Transformer 編碼器,CNN 獲取的特征圖經(jīng)過嵌入層后輸入到Transformer 編碼器中。PVTv2 在第i個階段開始都會把特征圖平均分成份,分辨率降為原來的,每個階段輸出的結(jié)果都會重塑(Reshape)成特征圖,再輸入到下一個階段,從而降低圖像的分辨率。為了產(chǎn)生寬度較大的特征圖,本文對特征圖的劃分與PVTv2不同,經(jīng)過Transformer 后,特征圖的高H依次降為,寬W依次降為

        2.4 CTC解碼器

        Transformer 編碼器輸出的特征序列每一幀的預(yù)測,輸入到CTC 解碼器中得到最后的預(yù)測結(jié)果。實驗結(jié)果表明,使用CTC 束搜索算法解碼和使用貪心搜索算法解碼精度相差不到0.1%,但束搜索算法(束大小設(shè)置為10)解碼時間是貪心搜索算法的3 倍左右,因此,在實驗時,本文使用CTC 的貪心搜索算法解碼。

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        實驗所用數(shù)據(jù)集是公開的IAM(Institut für Angewandte Mathematik)手寫英文單詞數(shù)據(jù)集[39],包含由675 個作者手寫的115 320 個單詞以及對應(yīng)的標簽,由字母、數(shù)字以及特殊符號組成。由于原始數(shù)據(jù)部分單詞分割錯誤,本文在實驗前對原始數(shù)據(jù)進行了篩選,去掉了錯誤分割的圖像、純標點符號的圖像以及兩張損壞的圖像和一張標簽錯誤的圖像,得到實驗圖像數(shù)據(jù)共84 976 張,按照8∶1∶1 劃分為67 919 張訓練集圖像、8 461 張驗證集圖像和8 596 張測試集圖像。圖5 是實驗中使用的數(shù)據(jù)集和標簽示例。

        圖5 實驗數(shù)據(jù)集和標簽示例Fig.5 Examples of experimental dataset and labels

        3.2 評價標準

        為了量化實驗的結(jié)果,使用標準的字符錯誤率(Character Error Rate,CER)和單詞錯誤率(Word Error Rate,WER)評估模型。預(yù)測的單詞轉(zhuǎn)換為標簽,需要替換的字符個數(shù)記為SC,需要插入的字符個數(shù)記為IC,需要刪除的字符個數(shù)記為DC:

        其中:LC表示單詞標簽中字符的總個數(shù)。最后求取所有單詞CER 的算術(shù)平均數(shù)。同理,

        其中:SW表示預(yù)測的字符串轉(zhuǎn)換為標簽需要替換的單詞個數(shù);IW表示需要插入的單詞個數(shù);DW表示需要刪除的單詞個數(shù);LW表示字符串標簽中單詞的總個數(shù)。最后求取所有字符串WER 的算術(shù)平均數(shù)。

        3.3 實驗細節(jié)

        3.3.1 實驗設(shè)置

        在CNN 特征提取層,選擇3.4.1 節(jié)消融研究的最優(yōu)結(jié)果作為基準,Transformer 編碼器的參數(shù)在遵循文獻[14]的B2-Li 的基礎(chǔ)上,對特征圖的劃分份數(shù)作以修改,CTC 解碼器采用貪心搜索算法。輸入圖像為灰度圖,尺寸統(tǒng)一縮放到128 × 384,預(yù)測序列長度為24,標簽字符種類個數(shù)(含空白符)為72,使用CTC 損失函數(shù),優(yōu)化器使用均方根傳遞(Root Mean Square prop,RMSprop),共訓練100 個循環(huán)次數(shù)。實驗操作系統(tǒng)為ubuntu18.04,GPU 型號為GTX1080Ti,CUDA(Compute Unified Device Architecture)版本為10.2,采用Pytorch 1.5.0 學習框架。

        3.3.2 數(shù)據(jù)增強

        由于數(shù)據(jù)量有限,為了防止過擬合,本文對輸入圖像做了增強。在訓練階段,為了增加訓練樣本的多樣性,既采用了隨機幾何數(shù)據(jù)增強,如旋轉(zhuǎn)、平移、縮放、錯切等,又采用了文獻[40]提出的數(shù)據(jù)增強方法。前者將圖像視為一個整體,而后者對圖像中每個字符作以變化,更加適用于手寫體英文文本的識別。在測試階段,為了防止數(shù)據(jù)增強對識別產(chǎn)生影響,只將圖像縮放到128 × 384,不做其他任何處理。

        3.4 消融實驗

        為了選擇最優(yōu)的訓練模型,本文做了大量的消融實驗,主要包括CNN 深度對實驗精度的影響和學習率對實驗精度的影響。

        3.4.1 CNN深度對實驗精度的影響

        實驗中選擇了SE-ResNet-50 作為CNN 特征提取層,其模型含有5 個層級。為了選擇合適的截取層級作為CNN 特征提取層,對不同截取層級獲得的精度和速度進行了比較。所有的實驗都在同一個數(shù)據(jù)集和實驗環(huán)境下進行,學習率設(shè)為0.000 5,選取在驗證集上WER 最低的模型進行測試。實驗結(jié)果如表1 所示。

        表1 SE-ResNet-50不同截取層級的性能Tab.1 Performance of different interception layers of SE-ResNet-50

        從實驗結(jié)果可發(fā)現(xiàn):隨著層級的不斷加深,模型的參數(shù)量由94.1×106增加到197.0×106,單張圖像測試時間由1.98 ms 增加到37.92 ms,但模型的字符錯誤率和單詞錯誤率在conv2_x 達到最低,分別為4.30%和14.52%,同時參數(shù)量相對較低。由此可見,CNN 的歸納偏置能夠增加Transformer 的識別精度。因此,本文選擇截取層級conv2_x作為CNN 特征提取層。

        3.4.2 學習率對實驗精度的影響

        為了選擇最優(yōu)的訓練模型,在3.4.1 節(jié)模型的基礎(chǔ)上設(shè)置不同的學習率進行實驗,同樣選取在驗證集上WER 最低的模型進行測試,結(jié)果如圖6 所示。

        圖6 不同學習率的測試精度Fig.6 Test accuracies of different learning rates

        從圖6 可以看出,學習率不同,測試精度不同,隨著學習率的不斷增加,CER 和WER 也不斷變化,總體呈現(xiàn)先下降后上升的趨勢,學習率為0.000 7 時CER 和WER 達到最高,分別為11.98%和29.78%,學習率為0.000 2 時CER 和WER 達到最低,分別為3.60%和12.70%,因此,本文選擇0.000 2 作為模型的最終學習率,所得測試精度作為模型的最終測試精度。

        3.5 實驗對比及分析

        3.5.1 與其他模型的比較

        表2 是不同模型在IAM 手寫英文單詞數(shù)據(jù)集上評估的結(jié)果。表2 中分別提供了作者采用的主要模型所獲得的識別精度,部分模型同時提供了在不同條件下所得的評估結(jié)果,可以看出,在有詞典或語言模型的情況下,識別精度都比較高。本文所提出的模型不依賴于詞典或語言模型的約束,既能呈現(xiàn)出模型的真實識別能力,也能應(yīng)對一些不能提供詞典的情況,比如姓名識別,實用性較強。表2 中CTC+Attention[2]、RNN+CTC[37]、RNN+CTC[41]、Attention[42]沒有使用預(yù)處理方法,CER 和WER 基本都高于本文的CER 和WER;RNN+Attention[8]、RNN+CTC[9]、Attention[43]和本文模型一樣使用了預(yù)處理,其中RNN+Attention[8]在未使用其他方法的情況下,CER 和WER 分別比本文高了5.20 個百分點和11.10個百分點,使用了詞典約束后CER 比本文高了2.60 個百分點,RNN+CTC[9]只使用了預(yù)訓練方法后CER 比本文高了1.28 個百分點,WER 比本文低了0.09 個百分點,Attention[43]只使用了預(yù)訓練方法后CER 和WER 分別比本文高了2.19個百分點和2.45 個百分點,通過比較驗證了本文模型的可行性。

        表2 IAM手寫英文單詞數(shù)據(jù)集上的評估結(jié)果比較Tab.2 Comparison of evaluation results on IAM handwritten English word dataset

        3.5.2 錯誤結(jié)果分析

        為了進一步了解模型的識別能力,從預(yù)測錯誤圖像的結(jié)果中隨機抽取100 條記錄進行分析,表3 給出了預(yù)測錯誤的類型占比。從表3 可以看出,單詞預(yù)測錯誤1 個字母所占比例為68%(單詞內(nèi)部錯誤1 個字母所占比例為41%,開頭或結(jié)尾錯誤1 個字母所占比例為27%),單詞大小寫預(yù)測錯誤所占比例為4%,而整個單詞錯誤所占比例僅為1%,驗證了模型能夠識別出單詞中大部分的字母,識別能力比較強。

        表3 預(yù)測錯誤的類型占比Tab.3 Proportion of types of prediction errors

        圖7 展示了模型預(yù)測的圖像示例。圖7(a)展示的是預(yù)測正確的圖像示例;圖7(b)、(c)展示的是預(yù)測錯誤1 個字母的圖像示例;圖7(d)展示的是整個單詞預(yù)測錯誤的圖像示例。

        圖7 預(yù)測的圖像示例Fig.7 Examples of predicted images

        從圖7 可以看出,模型對于書寫相對規(guī)范的英文文本識別精度高,對于書寫隨意性較大的英文文本識別精度低。

        4 結(jié)語

        手寫體英文文本識別因書寫隨意、結(jié)構(gòu)復(fù)雜和分割困難等問題,一直是計算機視覺和模式識別的難題之一。針對這些問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer 相結(jié)合的手寫體英文文本識別模型。該模型利用CNN 提取特征,而后輸入到Transformer 進行編碼,最后采用CTC 解碼器解決輸入序列和標簽的對齊問題。通過在公開數(shù)據(jù)集上進行大量的實驗分析,驗證了本文模型的可行性。接下來的研究工作:一是將本文模型應(yīng)用于其他手寫體文本識別任務(wù),比如中文或日文手寫體文本識別;二是在手寫體行級文本識別中提出合適的網(wǎng)絡(luò)結(jié)構(gòu),達到較高的識別精度。

        猜你喜歡
        手寫體解碼器編碼器
        哐當(外一首)
        哐當(外一首)
        科學解碼器(一)
        科學解碼器(二)
        科學解碼器(三)
        基于大數(shù)據(jù)下的手寫體識別的設(shè)計與研發(fā)
        科技風(2020年3期)2020-02-24 06:52:46
        披著書法外衣的手寫體
        中國篆刻(2019年6期)2019-12-08 15:56:23
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        亚洲性无码av在线| 日韩av无码社区一区二区三区 | 中文字幕一区二区三区在线乱码| 国产一区二区三区在线男友| 久久久中文久久久无码| 亚洲综合久久成人a片| 亚洲第一区二区快射影院| 日韩精品一区二区三区影音视频| 92午夜少妇极品福利无码电影| 色老头在线一区二区三区| AV人人操| 亚洲av综合av国一区二区三区| 国产极品视觉盛宴| 日韩精品中文字幕无码一区| 91亚洲欧洲日产国码精品| 白白色最新福利视频二| 国产无套粉嫩白浆在线观看| 美女黄18以下禁止观看| 在线视频一区二区在线观看 | 美女福利视频网址导航| 日韩精品无码一区二区三区| 国产农村乱子伦精品视频| 精品国偷自产在线不卡短视频 | 99热在线播放精品6| 亚洲女同免费在线观看| 午夜射精日本三级| 女同啪啪免费网站www| 精品国产麻豆一区二区三区| 国产精品亚洲第一区二区三区 | 国产人成精品免费久久久| 老熟女重囗味hdxx70星空| 巨乳av夹蜜桃站台蜜桃机成人 | 精品亚洲麻豆1区2区3区| 亚洲av无码精品色午夜| 最新亚洲无码网站| 婷婷丁香开心五月综合| 小sao货水好多真紧h无码视频 | 亚洲视频在线播放免费视频| 日本最新一区二区三区视频观看| 国产成人综合久久亚洲精品| 国产欧美日韩专区毛茸茸|