亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層次自注意力的高效場景文本識別

        2022-01-23 03:42:48陳平平林志堅
        無線電工程 2022年1期
        關(guān)鍵詞:特征提取文本

        陳 瑛,陳平平,林志堅

        (福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108)

        0 引言

        近年來,場景文本識別逐漸成為計算機視覺任務(wù)中的一個重要過程,在智能交通駕駛、圖像搜索、產(chǎn)品識別等實際項目中得到了廣泛的應(yīng)用[1]。由于場景文本蘊含著豐富的語義信息,對理解現(xiàn)實場景發(fā)揮著至關(guān)重要的作用。隨著場景文本檢測技術(shù)的不斷發(fā)展,在精準的文本定位上如何實現(xiàn)精準的文本識別被視為一個極具挑戰(zhàn)性的研究問題。

        目前的多數(shù)工作都從更加有效的提取視覺特征這一角度進行深入研究。例如,構(gòu)造更加強大的視覺特征提取骨干網(wǎng)絡(luò)、引入文本圖像矯正機制等,它們在規(guī)則、清晰的文本裁剪圖像上取得了一定的突破性進展,但在應(yīng)對不規(guī)則、模糊等文本圖像時,視覺特征的有效提取已無法滿足實際應(yīng)用中的精度需求。

        為了構(gòu)建更加精準高效的識別網(wǎng)絡(luò),本研究受到人類理解模式的啟發(fā)構(gòu)造了一種新的層次自注意力編碼器(Hierarchical Self-Attention Transformer,HSAT)用于場景文本識別任務(wù),在獲取視覺感知信息的基礎(chǔ)上結(jié)合有效的序列語義信息來推斷完整的文本內(nèi)容。通過聯(lián)合深度可分離卷積[2](Depth Separable Convolution,DS Conv)與自注意力[3](Self-Attention)來增強捕獲視覺感知與文本序列間的相關(guān)性,以此獲得更為魯棒的識別結(jié)果。本研究可實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Transformer的端到端結(jié)構(gòu),提升了模型的泛化能力。首先,通過輕量級特征提取網(wǎng)絡(luò)獲取視覺圖像的卷積嵌入映射圖;然后,采用HSAT對卷積嵌入塊進行編碼預(yù)測,利用視覺與序列特征間的互補性來學(xué)習(xí)更好的文本特征表示。實驗結(jié)果表明,本文提出的算法在5個場景文本識別基準數(shù)據(jù)集上均具備一定的優(yōu)勢,并且以較高的識別速度在精度和效率間達到了更好的平衡。

        1 相關(guān)工作

        1.1 場景文本識別

        早期的場景文本識別算法大都是基于文本圖像的特點進行研究。通過傳統(tǒng)的數(shù)字圖像處理方法對單個字符進行分割、匹配來識別字符。隨著背景日趨復(fù)雜的自然場景文本圖像的出現(xiàn),文本識別任務(wù)面臨更深層的技術(shù)挑戰(zhàn)。

        近年來,依靠大量人工成本進行文本識別的傳統(tǒng)方法[4]隨著深度學(xué)習(xí)的興起被逐漸取代。Le等人[5]最早提出用CNN進行文本識別,該模型在手寫字符MNIST數(shù)據(jù)集上達到了99%的識別精確率,證明了CNN模型的有效性。目前,基于深度學(xué)習(xí)的場景文本識別算法大致可分為基于字符的識別方法、基于序列的識別方法和基于注意力的識別方法。

        基于字符的識別方法[6]采用固定詞典模型并結(jié)合CNN網(wǎng)絡(luò)對文本圖像進行掃描、分析,生成最終的識別結(jié)果。隨著更深入的研究,相關(guān)人員提出了基于序列的識別方法,例如CRNN[7]首先通過CNN提取一系列特征向量,然后輸入至循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)提取文本區(qū)域的字符序列,最后利用連接主義時間分類(Connectionist Temporal Classification,CTC)對序列數(shù)據(jù)進行預(yù)測解碼,有效地解決了時序數(shù)據(jù)在分類上難以對齊的問題。為了提升不規(guī)則形狀場景文本的識別效果,受到自然語言處理(Natural Language Processing,NLP)領(lǐng)域機器翻譯算法的啟發(fā),RARE[8],ASRER[9],MORAN[10]等采用注意力機制對文本序列建模并解碼,通過關(guān)注更大范圍的上下文信息來獲得更好的文本序列特征。

        1.2 自注意力與Transformer

        在自然語言處理任務(wù)中,使用注意力機制能夠高效地提取稀疏數(shù)據(jù)的重要特征,因此被廣泛應(yīng)用在機器翻譯中。自注意力機制作為注意力機制的變體,不僅繼承了注意力機制能夠從大量信息中篩選并聚焦在重要信息這一本質(zhì)特點,同時更加擅長捕捉輸入數(shù)據(jù)間的內(nèi)部相關(guān)性,以此獲得更長距離的序列信息。基于這一特性,谷歌提出了基于Transformer的BERT[11]模型在NLP領(lǐng)域取得重大突破。自此,由多頭自注意力機制和前饋網(wǎng)絡(luò)組成的Transformer掀起了計算機視覺領(lǐng)域的研究熱潮。

        ViT[12]將Transformer引入CV領(lǐng)域進行圖像分類任務(wù),輸入序列化的圖像數(shù)據(jù)至Transformer模型中進行編碼,舍棄了CNN中的歸納偏好問題,以更少的計算量達到了SOTA(State-of-the-art)的性能。DETR[13]將CNN與Transformer網(wǎng)絡(luò)相結(jié)合執(zhí)行目標檢測任務(wù),通過CNN提取的二維表征轉(zhuǎn)換至一維表征,進而輸入到Transformer的編解碼器中,利用表征間的相互關(guān)系來進行全局推理,從而得到預(yù)測結(jié)果。另外,Transformer也被應(yīng)用于場景文本識別領(lǐng)域,VisSTR[14]采用ViT編碼器結(jié)構(gòu),在其基礎(chǔ)上對大規(guī)模的識別數(shù)據(jù)集進行訓(xùn)練,通過并行的自注意力機制來進行序列的建模和預(yù)測,取得了相當不錯的性能。

        2 主要方法

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文設(shè)計了一種聯(lián)合CNN與Transformer的場景文本識別網(wǎng)絡(luò)。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network architecture

        采用MobileNetV2[15]的核心單元來構(gòu)造視覺特征提取網(wǎng)絡(luò),然后通過上采樣將視覺特征圖恢復(fù)至原圖尺寸的1/2,并將其輸入至HSAT中進行視覺和序列特征間的全局交互以實現(xiàn)有效的字符預(yù)測。

        2.2 視覺特征提取網(wǎng)絡(luò)

        考慮到識別算法需要滿足實時性需求,本文優(yōu)先采用輕量級的特征提取網(wǎng)絡(luò)。在MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)下,采用瓶頸殘差結(jié)構(gòu)(Bottleneck Residual Block,BRB)作為該特征提取網(wǎng)絡(luò)的基本構(gòu)成單元,在提取有效視覺特征的同時極大地減少了模型的參數(shù)量。具體來說,將調(diào)整尺寸后的圖像(224 pixel×224 pixel×1)數(shù)據(jù)輸入至由4個BRB堆疊的網(wǎng)絡(luò)中并輸出相應(yīng)的視覺特征圖。由于圖像尺寸太小容易丟失目標位置信息,最后通過一個上采樣操作將該特征圖尺寸恢復(fù)至原圖大小的1/2,且保持通道維數(shù)不變(112 pixel×112 pixel×128)。

        具體實現(xiàn)步驟如表1所示,Input表示輸入的尺寸(pixel × pixel)和維度,Operator表示相應(yīng)的操作,t表示BRB的擴張倍數(shù),C表示輸出通道維數(shù)。

        表1 視覺特征提取器的網(wǎng)絡(luò)結(jié)構(gòu)

        圖2為BRB的內(nèi)部結(jié)構(gòu),由擴張層、深度卷積層以及映射層組成,與一般的深度可分離卷積不同,它采用2個1×1的卷積結(jié)構(gòu)來平衡在低維和高維空間中提取特征與計算效率的問題。

        圖2 BRB的內(nèi)部結(jié)構(gòu)Fig.2 Internal architecture of BRB

        2.3 層次自注意力編碼器

        自然場景下的圖像通常包含復(fù)雜的背景噪聲,由于模型對文本區(qū)域的視覺特征不夠敏感,傳統(tǒng)的序列編解碼方法會導(dǎo)致文本識別結(jié)果出現(xiàn)較大的偏差。因此,本文構(gòu)建了一種更加強大的HSAT,有效地減緩了視覺特征不足對序列預(yù)測的影響,同時避免了多階段傳播后梯度可能消失的問題。與RNN的順序結(jié)構(gòu)不同,HSAT能夠以并行計算的方式關(guān)注文本序列的全局加權(quán)信息?;趥鹘y(tǒng)的Transformer編碼器結(jié)構(gòu),HSAT將深度可分離卷積融合到編碼器內(nèi)部,以替換原先的矩陣計算。

        為了在自注意力層的并行計算中增加位置信息的可學(xué)習(xí)性,本文不再采用人工設(shè)置位置編碼,而是對視覺提取網(wǎng)絡(luò)輸出的特征圖進行卷積操作,使輸入的Token map仍然保留二維空間的位置特性。

        在傳統(tǒng)的Transformer中,編碼器端是由6個編碼塊堆疊而成。輸入每個編碼塊的Token個數(shù)取決于上一個編碼塊的輸出,且個數(shù)固定。而在HSAT中,Token的個數(shù)取決于卷積后的特征圖尺寸。為了降低自注意力層的計算復(fù)雜度,本文采用3層次結(jié)構(gòu),即每2個堆疊后采用深度可分離卷積來調(diào)整Token map的個數(shù)和維度。隨著網(wǎng)絡(luò)的加深,Token map個數(shù)則逐階段遞減,以此達到減少計算量的目的。HSAT的結(jié)構(gòu)如圖3所示,每個階段Token map的個數(shù)分別為56×56,28×28,14×14;維度變化分別為128,256,512。由于文本識別任務(wù)包含39個輸出分類,即26個大寫字母、10個數(shù)字、1個開始標識符[GO]、1個結(jié)束標識符[S]以及一個未知字符標識符[UNK],最后利用全連接操作將輸出階段的Token個數(shù)調(diào)整至36,從而實現(xiàn)字符序列的預(yù)測。

        圖3 HSAT結(jié)構(gòu)Fig.3 Architecture of HSAT

        3 實驗結(jié)果分析

        3.1 數(shù)據(jù)集

        基于3種類型的合成文本數(shù)據(jù)集進行訓(xùn)練,并在5種類型的場景文本識別基準數(shù)據(jù)集上進行實驗以評估識別算法的性能。

        訓(xùn)練數(shù)據(jù)集由以下3類數(shù)據(jù)集組成,示例圖像如圖4所示,包括:

        MJSynth(MJ)[16]:該數(shù)據(jù)集包含890萬個文本框圖像,對90 000個英語單詞應(yīng)用渲染、著色和投影畸變,與真實圖像進行混合。

        SynthText(ST)[17]:該數(shù)據(jù)集最初設(shè)計應(yīng)用在場景文本檢測任務(wù),本文對80 000張訓(xùn)練圖像的文本區(qū)域進行裁剪來適應(yīng)文本識別任務(wù),大約包含700萬個帶有字符與單詞級的邊界框注釋實例。

        SynthAdd(SA)[18]:該數(shù)據(jù)集是包含120萬個單詞框的合成文本圖像,其中增加了非字母、數(shù)字符號,例如標點符號等數(shù)據(jù)類型。

        圖4 MJ,ST的示例圖像Fig.4 Image of datasets

        5種類型的測試數(shù)據(jù)集覆蓋了規(guī)則文本和不規(guī)則文本,包括:

        IIIT5K[19]:該數(shù)據(jù)集包含了5 000張在谷歌搜索引擎隨機檢索的規(guī)則場景文本圖像。

        SVT[20]:該數(shù)據(jù)集來源于谷歌街景圖像,包含904張規(guī)則的文本裁剪圖像。。

        IC13[21]:該數(shù)據(jù)集包含1 863張單詞級注釋框的規(guī)則裁剪文本圖像。

        SVTP[22]:該數(shù)據(jù)集由645個裁剪的單詞級圖像構(gòu)成,屬于不規(guī)則類文本圖像。

        CUTE[23]:該數(shù)據(jù)集包含288個裁剪的單詞級圖像,以彎曲的文本圖像為主。

        3.2 評估標準

        本文從識別的精確度以及識別速度2個方面對場景文本識別算法的性能進行全面分析。為了公平比較,所有評估都是在相同的環(huán)境下進行的,即所有評估實驗均基于一張NVIDIA GeForce RTX 2080 Ti的GPU進行。

        對于識別精度(Text Recognition Accuracy,TRA)的評估,定義如下:

        (1)

        式中,T表示文本框的總數(shù)量;TP表示識別正確的文本框數(shù)量。

        對于識別速度(Text Recognition Speed,WRS)的評估,時間以ms為單位,計算識別每張文本圖像所需要的平均時間,定義如下:

        (2)

        3.3 實驗細節(jié)

        采用AdaDelta優(yōu)化器進行訓(xùn)練,并使用以下訓(xùn)練參數(shù):衰減率為0.95,梯度下降步幅為5,Batch Size設(shè)置為128(其中,MJ,ST和SA訓(xùn)練數(shù)據(jù)集的采樣比分別為0.4,0.4,0.2),圖像尺寸統(tǒng)一調(diào)整至224 pixel×224 pixel。此外,本文不采用任何預(yù)訓(xùn)練方式,所有訓(xùn)練實驗均使用Pytorch 3.6.0在2個型號為NVIDIA GeForce RTX 2080 Ti的GPU上并行訓(xùn)練,共訓(xùn)練10個epoch。

        為了豐富文本數(shù)據(jù)的多樣性,使用了隨機縮放、旋轉(zhuǎn)和透視等數(shù)據(jù)增強手段。與常見的目標檢測任務(wù)不同,該模型的輸出分類為36個符號,分別為10個阿拉伯數(shù)字和26個不區(qū)分大小寫的字母符號。

        3.4 消融實驗

        將進行2組消融實驗來探究所提出方法的性能改進以及關(guān)鍵貢獻的影響。為了公平,所有實驗環(huán)境均相同。

        3.4.1 BRB堆疊網(wǎng)絡(luò)的有效性

        本組實驗對BRB堆疊網(wǎng)絡(luò)的有效性進行了探究,對單獨使用HSAT(方法1)、MobileNetV2-HSAT(方法2)以及本文所提出的模型進行評估。結(jié)果如表2所示。

        表2 采用不同視覺特征提取網(wǎng)絡(luò)的實驗結(jié)果

        從表2可以看出,聯(lián)合BRB堆疊網(wǎng)絡(luò)與HSAT在多個數(shù)據(jù)集上的平均識別精度為85.6%,比方法1和方法2分別高出0.3%,4.7%。特別的是,本文所采用的BRB網(wǎng)絡(luò)由MobileNetv2核心單元堆疊而成,其復(fù)雜度遠小于MobileNetv2的原始結(jié)構(gòu),但在該識別任務(wù)中卻獲得了相當?shù)男阅堋?/p>

        3.4.2 HSAT的有效性

        為了驗證HSAT的有效性,本文在視覺特征提取網(wǎng)絡(luò)相同的前提下對CTC(方法1)、Attention(方法2)以及本文的方法進行探究。結(jié)果如表3所示。

        表3 采用不同序列機制的結(jié)果

        本文所使用的層次自注意力編碼器的識別精度遠高于方法1和方法2,這得益于Transformer能進行并行計算以獲取全局的序列特征。由于CTC和Attention的解碼結(jié)果在一定程度上依賴BiLSTM的編碼結(jié)果,但BiLSTM仍然受到超長距離依賴問題的限制, 而Transformer的并行性有效地解決了該問題。

        3.5 對比實驗

        為了驗證所提方法的有效性,本研究與其他較為先進的5種算法進行了比較,表4顯示了在III5K、SVT、IC13、SVTP以及CUTE五個數(shù)據(jù)集上的比較結(jié)果,其中加粗字體為最優(yōu)結(jié)果,下劃線表示次優(yōu)結(jié)果。

        表4 不同基準數(shù)據(jù)集的識別精度對比

        通過對表4的分析可以看出,本文所提出的模型在III5K與CUTE數(shù)據(jù)集上達到最優(yōu),相較于次優(yōu)結(jié)果分別提升了0.8%,0.1%。在SVTP數(shù)據(jù)集上達到了次優(yōu)結(jié)果。對于規(guī)則文本,可以看出本模型在此類數(shù)據(jù)集上獲得了更為顯著的結(jié)果。對于不規(guī)則文本,盡管相較先前算法在識別精度上提升了近20%,但錯誤比例相對較高。經(jīng)分析,主要原因在于這類文本圖像本身具有光照不均、部分遮擋以及彎曲等容易造成混淆的特點。因此,仍需進一步探索識別此類樣本的有效解決方案。圖5展示了本方法識別的結(jié)果,綠色表示真實字符序列,黑色表示預(yù)測序列,紅色表示該字符預(yù)測錯誤。

        圖5 場景文本識別數(shù)據(jù)集識別結(jié)果Fig.5 Recognition results of scene text recognition datasets

        同時,該網(wǎng)絡(luò)的推理時間為6.24 ms,在識別效率上可以達到先進的性能。

        4 結(jié)束語

        本文提出了一種自注意力混合卷積的場景文本識別網(wǎng)絡(luò)。在輕量級特征提取骨干的基礎(chǔ)上通過HSAT加強視覺特征信息與文本語義信息的關(guān)聯(lián)。多模態(tài)的全局交互能夠有效抑制復(fù)雜噪聲所帶來的影響,使得網(wǎng)絡(luò)在低分辨率等數(shù)據(jù)集上獲得更好的泛化能力。經(jīng)實驗,結(jié)果表明本模型在各個數(shù)據(jù)集上的性能均優(yōu)于大多數(shù)算法,平均識別精度在85%以上。此外,將進一步考慮實現(xiàn)端到端的場景文本檢測識別算法,從而優(yōu)化在實際項目中的部署。

        猜你喜歡
        特征提取文本
        特征提取和最小二乘支持向量機的水下目標識別
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        Bagging RCSP腦電特征提取算法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        69av视频在线观看| 日韩在线不卡免费视频| 国产婷婷色一区二区三区| 亚洲国产日韩综合天堂| 亚洲AV无码一区二区三区性色学| 色多多a级毛片免费看| 日韩a级精品一区二区| 一区二区三区人妻在线| 国产精品无码专区综合网| 久久国产精品-国产精品 | 久久国内精品自在自线| 久久综合这里只有精品| 精品九九视频| 97免费人妻在线视频| 婷婷四虎东京热无码群交双飞视频 | 国产精品福利自产拍久久| 夜夜爽妓女8888888视频| 亚洲成人av在线蜜桃| 激情视频国产在线观看| 亚洲一区二区在线视频播放| 18禁美女裸身无遮挡免费网站| 少妇精品无码一区二区三区| 亚洲一区二区三区99| 国产精品一区二区黄色片| 久热re在线视频精品免费| 国产免费破外女真实出血视频| 国产青榴视频在线观看| 精品国产天堂综合一区在线| 久久精品国产精品亚洲艾| 91亚洲色图在线观看| 国产亚洲欧美精品一区| a国产一区二区免费入口| 精品亚洲成a人片在线观看| 国产狂喷水潮免费网站www| 久久人妻中文字幕精品一区二区 | 亚洲一区二区在线视频,| 色婷婷色99国产综合精品| 免费99视频| 亚洲黄色电影| 香蕉久久福利院| 香港台湾经典三级a视频|