基于多模態(tài)特征融合的場景文本識別

2025-04-30 00:00:00蔡明哲王滿利竇澤亞張長森

計(jì)算機(jī)應(yīng)用研究 2025年4期

摘要：為了解決自然場景文本圖像因?yàn)檎趽?、扭曲等原因難以識別的問題，提出基于多模態(tài)特征融合的場景文本識別網(wǎng)絡(luò)（multimodal scene text recognition，MMSTR）。首先，MMSTR使用共享權(quán)重內(nèi)部自回歸的排列語言模型實(shí)現(xiàn)多種解碼策略；其次，MMSTR在圖像編碼階段提出殘差注意力編碼器（residual attention encoder，REA-encoder）提高了對淺層特征捕獲能力，使得淺層特征能夠傳到更深的網(wǎng)絡(luò)層，有效緩解了vision Transformer提取圖像淺層特征不充分引起的特征坍塌問題；最后，針對解碼過程中存在語義特征與視覺特征融合不充分的問題，MMSTR構(gòu)建了決策融合模塊（decision fusion module，DFM），利用級聯(lián)多頭注意力機(jī)制提高語義與視覺的融合程度。經(jīng)過實(shí)驗(yàn)證明，MMSTR在IIIT5K、ICDAR13等六個(gè)公共數(shù)據(jù)集上平均詞準(zhǔn)確率達(dá)到96.6%。此外，MMSTR在識別遮擋、扭曲等難以識別的文本圖像方面相較于其他的主流算法具有顯著優(yōu)勢。

關(guān)鍵詞：場景文本；特征融合；語言模型；注意力機(jī)制；殘差網(wǎng)絡(luò)

中圖分類號：TP391"" 文獻(xiàn)標(biāo)志碼：A""" 文章編號：1001-3695（2025）04-042-1274-07

doi： 10.19734/j.issn.1001-3695.2024.05.0250

Scene text recognition based on multimodal feature fusion

Cai Mingzhe， Wang Manli， Dou Zeya， Zhang Changsen

（School of Physics amp; Electronic Information Engineering， Henan Polytechnic University， Jiaozuo Henan 454003， China）

Abstract：Toward addressing the challenges posed by occlusions， distortions， and other impediments in recognizing text within natural scenes， this paper proposed a scene text recognition network MMSTR based on multi-modal feature fusion. Firstly， MMSTR employed a shared-weight internal autoregressive permutation language model to facilitate a variety of decoding strategies. Secondly， during the image encoding phase， MMSTR introduced a REA-Encoder， which enhanced the capability of capturing shallow features， allowing them to propagate to deeper network layers. This effectively alleviated the issue of feature collapse resulting from the inadequate extraction of shallow image features by vision Transformer. Finally， to address the insufficient fusion of semantic and visual features during the decoding process， MMSTR constructed a DFM . The DFM utilized a cascaded multi-head attention mechanism to enhance the integration of semantic and visual features. Experimental evidence confirms that MMSTR attains an average word accuracy rate of 96.6% across six public datasets， including IIIT5K and ICDAR13. Furthermore， MMSTR exhibits a significant advantage over other mainstream algorithms in the recognition of challenging text images that are obscured or distorted.

Key words：scene text; feature fusion; language model; attention mechanism; residual network

0 引言

隨著信息化與智能化時(shí)代的到來，場景文本識別的應(yīng)用越來越廣泛，如自動駕駛、道路標(biāo)牌識別、自然場景翻譯等。自然界捕獲的文本圖像具有文本扭曲、字符分布不均勻、背景雜亂、字體多變等問題［1］，基于圖像處理的傳統(tǒng)算法不足以勝任如此復(fù)雜的自然環(huán)境。早期基于深度學(xué)習(xí)的場景文本識別算法將識別任務(wù)當(dāng)作分類問題［2］，首先利用圖像分割，分割出字符位置，再逐個(gè)識別圖像中的字符，并在最后階段連接成字符串。這類算法僅僅關(guān)注圖像視覺的信息，忽略了場景文本圖像中字符與字符之間的關(guān)聯(lián)，因此它的性能在很大程度上受限于圖像的質(zhì)量。

場景圖像文本中蘊(yùn)涵著語義知識，借助文本間的語義信息，人們可以更好地識別場景圖像中的文本內(nèi)容。受到自然語言處理領(lǐng)域的啟發(fā)，現(xiàn)階段大多數(shù)場景文本識別算法學(xué)習(xí)圖像中字符之間的關(guān)系，將其作為潛在的語義信息［3］，并將識別整個(gè)圖像的任務(wù)當(dāng)作一個(gè)序列預(yù)測處理。因此現(xiàn)有的場景文本識別算法大致可以分為非語義方法和語義方法兩大類。非語義的方法僅僅依靠視覺信息去預(yù)測圖像中的文本，缺乏語義推理能力。非語義方法對圖像質(zhì)量要求比較高，在視覺特征缺失的情況下（如遮擋），難以實(shí)現(xiàn)最優(yōu)的識別效果［4］。語義方法會挖掘圖像中詞匯、語法等信息作為上下文語義信息，接著利用語義信息和視覺信息聯(lián)合預(yù)測圖像中的文本，所以相較于非語義的方法，語義方法往往能取得更好的識別性能。視覺信息和語義信息屬于兩個(gè)模態(tài)的信息，并不能簡單地融合在一起，解決這個(gè)問題的一個(gè)常用方法是利用一個(gè)強(qiáng)大的視覺語言解碼器來融合從視覺編碼器和語言編碼器中獨(dú)立提取的特征。Qiao等人［5］將場景識別任務(wù)當(dāng)作跨模態(tài)任務(wù)，并提出了一種語義增強(qiáng)的編解碼模型，但是難以做到實(shí)時(shí)識別。于是，Yu等人［6］提出了SRN，利用多路并行傳輸?shù)淖宰⒁饬W(wǎng)絡(luò)來學(xué)習(xí)語義信息，雖然有效提升了識別率，但是卻存在不同模態(tài)特征長度對齊的問題。Wang等人［7］提出了VisionLAN，在訓(xùn)練階段利用語言感知的視覺掩圖遮擋選定的字符區(qū)域，將視覺線索與語義知識相結(jié)合，提高了場景文本識別的性能。為了高效地融合視覺信息和語義信息，F(xiàn)ang等人［8］提出了ABINet網(wǎng)絡(luò)。ABINet將雙向自主語言建模與迭代學(xué)習(xí)結(jié)合，有效緩解了對齊異常的問題，但是難以識別任意形狀以及背景復(fù)雜的圖像。Bautista等人［9］利用排列語言建模學(xué)習(xí)一個(gè)具有共享權(quán)重的內(nèi)部自回歸語言模型，聯(lián)合處理上下文特征和圖像特征來執(zhí)行初始解碼和迭代細(xì)化，能夠有效地識別任意形狀的文本圖像，但是其推理速度不能令人滿意。Yang等人［10］將排列語言建模與掩碼語言建模統(tǒng)一在一個(gè)解碼架構(gòu)中隱式學(xué)習(xí)上下文，暫時(shí)實(shí)現(xiàn)了先進(jìn)的識別性能，但算法存在復(fù)雜度過高的問題。考慮到上述算法存在的問題，為了進(jìn)一步解決場景文本圖像模糊、字體扭曲等問題。本文在場景文本識別中利用文本的語義特征和圖像的視覺特征進(jìn)行跨模態(tài)聯(lián)合訓(xùn)練來緩解文本圖像模糊、字體扭曲導(dǎo)致難以識別的問題。但是常規(guī)的多模態(tài)文本識別網(wǎng)絡(luò)存在參數(shù)量大、訓(xùn)練過程中算力資源消耗過多等問題。例如：MATRN［11］通過利用多模態(tài)增強(qiáng)代替語義增強(qiáng)，實(shí)現(xiàn)了視覺特征和語義特征的進(jìn)一步交互，但是參數(shù)量過大導(dǎo)致識別效率低下［12］。Zhao等人［13］指出訓(xùn)練語言模型提取語義特征會為整個(gè)識別網(wǎng)絡(luò)的訓(xùn)練消耗掉大量的算力資源。受此啟發(fā)，本文提出的MMSTR使用排列語言建模出不同的文本序列，避免了訓(xùn)練過程中巨大的資源消耗問題?？偨Y(jié)本文貢獻(xiàn)主要分為以下三個(gè)方面：

a）提出了一個(gè)MMSTR場景文本識別網(wǎng)絡(luò)。經(jīng)過大量實(shí)驗(yàn)證明，MMSTR在多個(gè)基準(zhǔn)數(shù)據(jù)集中評估對比當(dāng)下主流算法均能達(dá)到最優(yōu)的識別效果。

b）設(shè)計(jì)了一個(gè)基于殘差注意力的圖像編碼器。利用殘差連接能夠緩解vision Transformer［14］在場景文本圖像編碼過程中因?yàn)闇\層特征不足所引起的特征坍塌問題，從而更好地讓模型提取到具有全局信息和淺層信息的視覺特征。

c）提出了決策融合模塊。通過搭建多個(gè)級聯(lián)的多頭注意力機(jī)制，在解碼過程中將圖像視覺特征與不同層次的語義特征融合，提高了字符解碼準(zhǔn)確率。

1 本文模型

本文提出的MMSTR網(wǎng)絡(luò)采用了編解碼器的框架，整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，其中［B］和［P］代表序列開始和序列填充，［E］表示序列的結(jié)束。字符最大的長度T設(shè)置為25時(shí)會產(chǎn)生26個(gè)位置標(biāo)記。位置編碼（Pq）是一個(gè)模型可學(xué)習(xí)的參數(shù)，初始化為均值是0，標(biāo)準(zhǔn)差為0.02的正態(tài)分布。MMSTR主要由殘差注意力編碼器、決策融合解碼器兩部分組成。考慮到MMSTR的參數(shù)量和整體識別性能，本文將殘差注意力編碼器的層數(shù)設(shè)置為12，決策融合解碼器的層數(shù)設(shè)置為1。殘差注意力編碼器的輸入為文本圖像I∈Euclid Math TwoRAph×w×3，h、w分別為圖像的高度和寬度，3為圖像的通道數(shù)。文本圖像經(jīng)過殘差注意力編碼器編碼后的輸出是視覺特征If 。隨后視覺特征If 、位置編碼Pq、上下文輸入Ic，以及由排列語言生成的注意力掩碼序列Am被送進(jìn)決策融合解碼器生成解碼特征。解碼特征最后經(jīng)過線性層產(chǎn)生MMSTR最終的識別結(jié)果。

1.1 殘差注意力編碼器

殘差注意力編碼器（REA-encoder）會將圖像分成多個(gè)圖像塊，其具體結(jié)構(gòu)如圖2所示。它的每個(gè)層由一個(gè)殘差注意力模塊（ReMHA）和一個(gè)多層感知機(jī)（multi-layer perceptron， MLP）組成，如圖3所示。ReMHA是本文基于ViT網(wǎng)絡(luò)提出的全新模塊，與常規(guī)的ViT網(wǎng)絡(luò)相比，最大的差異是ReMHA在多頭注意力中加入了注意力殘差學(xué)習(xí)。

ReMHA在注意力層中引入了一種新式殘差連接機(jī)制（圖3），該機(jī)制通過自適應(yīng)學(xué)習(xí)的門控變量來控制注意力在頭維度的快速擴(kuò)展。該方法不僅保留了全局特征，還將淺層特征通過殘差連接傳遞至更深層，從而在深層網(wǎng)絡(luò)結(jié)構(gòu)中也保持了淺層信息的活性。因此ReMHA有效地增強(qiáng)了提取特征的多樣性，緩解了在深層網(wǎng)絡(luò)中常見的特征坍塌問題。REA-encoder通過這種策略，提升了模型的表達(dá)能力，增強(qiáng)了網(wǎng)絡(luò)的泛化性和魯棒性。

1.2 決策融合解碼器

決策融合解碼器由一個(gè)多頭注意力（multi-head attention， MHA）［16］、一個(gè)決策融合模塊，以及多層感知機(jī)構(gòu)成。由圖1可知，決策融合解碼器的輸入有三部分：a）位置查詢（Pq）是為了預(yù)測圖像中目標(biāo)的位置，每一個(gè)都與輸出中的特定位置有直接對應(yīng)關(guān)系，這種參數(shù)化類似于雙流注意力［17］的查詢流，它將上下文與目標(biāo)位置解耦，允許模型從排列語言建模中學(xué)習(xí)；b）注意力掩碼（Am）是在模型訓(xùn)練過程中使用排列語言隨機(jī)生成的；c）上下文輸入（Ic）由文本圖像的真實(shí)標(biāo)簽生成。決策融合模塊的結(jié)構(gòu)如圖4所示，If是殘差注意力編碼器輸出的視覺特征，Is是經(jīng)過語義信息融合后的語義特征。

Pq、Ic和Am作為整個(gè)決策融合解碼器的語義信息，首先會經(jīng)過多頭注意力融合，其過程如式（5）所示。

Is=Pq+MHA（Pq，Ic，Ic，Am）

（5）

其中：Is為融合的語義特征，Is接下來會送給決策融合模塊。決策融合模塊的另一個(gè)輸入為If。在決策融合模塊中的融合過程如式（6）所示。

Of=MHA（MHA（Is，If，If）+Is，If，If）

Os=MHA（Is，If，If）+Is

（6）

其中：Of為DFM輸出的深融合特征；Os為輸出的淺融合特征。Of和Os隨后被進(jìn)一步疊加融合，最后通過多層感知機(jī)和線性層生成每個(gè)字符的預(yù)測概率。

1.3 排列語言建模

排列語言建模（ermuted language modeling，PLM）屏蔽語言建模方式被廣泛應(yīng)用在預(yù)訓(xùn)練任務(wù)，而近期學(xué)者已經(jīng)將其擴(kuò)展應(yīng)用于基于Transformer的廣義序列模型［18］學(xué)習(xí)，實(shí)現(xiàn)了多種解碼策略。本文所有實(shí)驗(yàn)遵循文獻(xiàn)［9］，將PLM應(yīng)用于場景文本識別。PLM可以是自回歸（autoregressive， AR）建模的一個(gè)廣義形式，其中采用PLM訓(xùn)練的模型可視為具有共享架構(gòu)和權(quán)重的AR模型的集合。通過動態(tài)地使用注意力掩碼來指定令牌之間的依賴關(guān)系［19］，使得這類模型能夠?qū)W習(xí)并利用給定輸入上下文任意子集的條件字符概率，從而支持單調(diào)的AR解碼、并行的非AR解碼，以及迭代細(xì)化。利用PLM訓(xùn)練的多模態(tài)場景文本識別模型（MMSTR）是一個(gè)統(tǒng)一的場景文本識別模型，其結(jié)構(gòu)簡潔，能夠進(jìn)行上下文感知推理［20］，并實(shí)現(xiàn)利用雙向上下文的迭代細(xì)化［8］。

上下文感知的AR模型，如式（7）所示。

P（y｜x）=∏Tt=1P（Yt｜y＜t，x）

（7）

迭代細(xì)化模型，如式（8）所示。

P（y｜x）=∏Tt=1P（yt｜y≠t，x）

（8）

1.4 損失函數(shù)

給定一張文本圖像，文本識別算法要最大化文本標(biāo)簽yT=［y1，y2，…，yT-1，yT］的可能性。PLM將序列標(biāo)簽的所有T！個(gè)子序列可能性分解，如式（9）所示。

log p（y｜x）=Ez-ZT∑Tt=1log pθ（yzt｜yzy＜t，x）

（9）

其中：ZT是序列［1，2，…，T］的所有可能排列的集合；zt和zlt;t分別代表z的第T個(gè)元素和前T-1個(gè)元素。每個(gè)排列z指定了一種順序，這個(gè)順序?qū)?yīng)于可能性不同的因式分解。本文不用實(shí)際的文本排列標(biāo)簽y，而是制作注意力掩碼圖強(qiáng)制生成z的順序。在實(shí)際的訓(xùn)練過程中考慮到計(jì)算的復(fù)雜度，MMSTR從T！中選取K個(gè)序列訓(xùn)練。所以MMSTR在訓(xùn)練過程中的損失函數(shù)如式（10）所示。

Loss=1K∑Kt=1Lce（yt，）

（10）

其中：Lce為交叉損失熵；K作為超參數(shù)設(shè)置為6；yt為第t個(gè)子序列；為預(yù)測的字符序列。

2 實(shí)驗(yàn)結(jié)果與分析

本章首先介紹場景文本識別中的常用數(shù)據(jù)集以及評價(jià)指標(biāo)，接著進(jìn)行消融實(shí)驗(yàn)分析和對比實(shí)驗(yàn)分析，最后將MMSTR的識別結(jié)果進(jìn)行可視化對比分析。通過大量的實(shí)驗(yàn)分析論證了MMSTR具有較強(qiáng)的魯棒性和更高的識別精度。

2.1 數(shù)據(jù)集與評估指標(biāo)

2.1.1 實(shí)驗(yàn)數(shù)據(jù)集

現(xiàn)有的文本識別方法通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)，由于缺乏帶標(biāo)注的真實(shí)文本圖像，這些方法大多采用計(jì)算機(jī)合成的圖像進(jìn)行訓(xùn)練［21］，即SynthText和MJSynth［22］。近年來，場景文本識別領(lǐng)域發(fā)布了大量的真實(shí)場景下的數(shù)據(jù)集，涵蓋了廣泛的真實(shí)場景［23］。有學(xué)者研究發(fā)現(xiàn)真實(shí)場景下的數(shù)據(jù)集有助于場景文本識別模型的訓(xùn)練。因此，本文的實(shí)驗(yàn)中除了Synth- Text和MJSynth之外，還用到了大量的真實(shí)數(shù)據(jù)，如RCTW17［24］、COCO-Text［25］、Uber［26］、Art［27］、LSVT［28］、MLT19［29］、ReCTS［30］、OPenVINO［31］和TextOCR［32］。

根據(jù)經(jīng)驗(yàn)，實(shí)驗(yàn)采用IIIT5K、CUTE80、SVT、SVTP、ICDAR2013（IC13）、ICDAR15（IC15）［33］作為基準(zhǔn)數(shù)據(jù)集來評估模型的性能。對比實(shí)驗(yàn)還在Art、COCO、Uber此類更具挑戰(zhàn)性的數(shù)據(jù)集上評估了MMSTR的模型，進(jìn)一步論證MMSTR的魯棒性。本文中所用的數(shù)據(jù)集遵循文獻(xiàn)［9］標(biāo)準(zhǔn)，其簡要介紹如表1所示。

2.1.2 評估指標(biāo)

為了對比公平，本文中的實(shí)驗(yàn)所采用的評價(jià)指標(biāo)為場景文本識別中常用的詞準(zhǔn)確率（accuracy）和歸一化編輯距離（1-NED）。詞準(zhǔn)確率的計(jì)算如式（11）所示。

accuracy=n/N

（11）

其式：n為預(yù)測正確的單詞個(gè)數(shù)，如果預(yù)測單詞和標(biāo)簽單詞完全相同，則可以視為正確；N為所要預(yù)測單詞的總數(shù)。

歸一化編輯距離（1-NED）是衡量兩個(gè)字符序列差異大小的方法。它的定義是一個(gè)序列通過編輯操作轉(zhuǎn)換成另一個(gè)序列的最小次數(shù)，歸一化編輯距離經(jīng)常在評估場景文本識別模型的準(zhǔn)確程度中用到。字符串sn與n的歸一化編輯距離計(jì)算如式（12）所示。

1-NED=1-1T∑Tn=1L（sn，n）/max（sn，n）

（12）

其中：L為萊溫斯特坦距離，代表sn與n的編輯距離；T是所有樣本數(shù)；max（sn，n）為最長字符串的長度。

字符集的不同會導(dǎo)致模型推理性能發(fā)生變化，本文的實(shí)驗(yàn)中分為36-char（10個(gè)數(shù)字和26個(gè)小寫字母）、62-char（10個(gè)數(shù)字和52個(gè)大小寫字母）和94-char（10個(gè)數(shù)字、52個(gè)大小寫字母和32個(gè)標(biāo)點(diǎn)符號）三個(gè)字符集。另外不同的解碼方式也會影響模型推理的性能，本文所有實(shí)驗(yàn)一律采用AR方式結(jié)合迭代細(xì)化解碼字符序列。

2.2 實(shí)驗(yàn)環(huán)境與訓(xùn)練策略

2.2.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)所用的系統(tǒng)軟件平臺為CentOS 7.6，Python版本為3.8，cudatoolkit的版本為11.6，深度學(xué)習(xí)框架為PyTorch 1.12。系統(tǒng)硬件平臺顯卡為兩張NVIDIA RTX 3090，CPU為XeonGold 6226R。

2.2.2 訓(xùn)練策略

本文實(shí)驗(yàn)中的訓(xùn)練集分為合成訓(xùn)練集（SynthText和MJSynth，用S表示）、真實(shí)訓(xùn)練集（Art、COCO、LSVT、MLT19、RCTW17、Uber、OPenVINO、TesxtOCR、ReCTS，用R表示），在評估模型性能時(shí)分別將IC15、IC13分為兩部分（IC15-1811、IC15-2077、IC13-848、IC13-1015），所有模型的訓(xùn)練都使用混合精度。MMSTR與MMSTR-tiny的BatchSize分別為256和384。MMSTR訓(xùn)練采用Adam優(yōu)化器，訓(xùn)練輪數(shù)為40，學(xué)習(xí)率使用動態(tài)衰減的策略，其衰減過程與文獻(xiàn)［9］一致。

訓(xùn)練過程中，每迭代1 000次評估一次模型的性能。單幅文本圖像中的字符最大數(shù)T設(shè)置為25，對于字符數(shù)不足25的標(biāo)簽使用［P］符號填充，送入網(wǎng)絡(luò)的圖像尺寸設(shè)置為32×128。

2.3 消融實(shí)驗(yàn)

為了快速驗(yàn)證MMSTR網(wǎng)絡(luò)的識別性能，消融實(shí)驗(yàn)使用MMSTR-tiny結(jié)構(gòu)，超參數(shù)設(shè)置如表2所示，分別用S與R訓(xùn)練MMSTR-tiny。其中actual-lr是實(shí)際學(xué)習(xí)率，patch為圖像塊的大小，dmodle代表輸入特征維度，h為MHA注意力頭的數(shù)量，dmlp代表中間特征維度，depth是編碼器的層數(shù)。Benchmark為MMSTR-tiny使用36-char在IIIT5K、SVT、IC13-1015、IC15-2077、CUTE80、SVTP上面的平均詞準(zhǔn)確率，評估結(jié)果如表3所示。

分析表3中的數(shù)據(jù)，在添加REA-encoder后使用S和R訓(xùn)練模型的平均詞準(zhǔn)確率分別提高了0.9、0.4百分點(diǎn)，證明了無論在S還是R上加入了REA-encoder，不僅能提取全局特征，而且還能充分地提取圖像的淺層特征。REA-encoder從編碼階段緩解了利用常規(guī)的Vision Transformer在圖像編碼階段中存在的特征坍塌問題。此外，分析DFM模塊，僅加入DFM后訓(xùn)練S與R上，DFM對模型平均詞準(zhǔn)確率的提升均為0.2百分點(diǎn)，這驗(yàn)證了DFM在充分融合語義信息與圖像的視覺信息的同時(shí)，還不受訓(xùn)練數(shù)據(jù)的影響。進(jìn)一步分析1-NED，從表3發(fā)現(xiàn)，使用REA-Encoder后在S上1-NED提高了0.3百分點(diǎn)，在R上1-NED提高了0.2百分點(diǎn)。

MMSTR加入REA-Encoder和DFM訓(xùn)練S和R上，對比原始網(wǎng)絡(luò)的平均詞準(zhǔn)確率均有1.2和0.5百分點(diǎn)的提升。

2.4 對比實(shí)驗(yàn)

在對比實(shí)驗(yàn)過程中，將MMSTR與當(dāng)下流行的算法分別在36-char、62-char、94-char進(jìn)行對比實(shí)驗(yàn)分析。為了公平公正地對比，實(shí)驗(yàn)遵循Bautista的模型訓(xùn)練策略，對比的算法為Parseq［9］、ABINet［8］、TRBA［34］、ViTSTR［35］、CRNN［36］，對比結(jié)果（對比算法中的平均詞準(zhǔn)確率引用Bautista中的數(shù)據(jù)）如表4所示。MMSTR在基準(zhǔn)數(shù)據(jù)集評估的詞準(zhǔn)確率詳細(xì)數(shù)據(jù)如表5所示。

由表4可知，MMSTR無論是使用R訓(xùn)練還是使用S訓(xùn)練，使用不同大小的字符集在基準(zhǔn)數(shù)據(jù)集上評估的平均詞準(zhǔn)確率都能取得不同幅度的提升。特別是在合成數(shù)據(jù)集上訓(xùn)練使用94-char評估，平均詞準(zhǔn)確率相較于次優(yōu)算法有3.4百分點(diǎn)的提升。從表5可以發(fā)現(xiàn)，MMSTR在所有的基準(zhǔn)數(shù)據(jù)集上平均詞準(zhǔn)確率都能取得最優(yōu)。

除此之外，本文還用36-char在Art、COCO、Uber這些難度更大的數(shù)據(jù)集上進(jìn)行評估，分析MMSTR的性能表現(xiàn)。由表6的數(shù)據(jù)可以看出，MMSTR在這三個(gè)高難度的數(shù)據(jù)集上的評估表現(xiàn)依然是最優(yōu)的。MMSTR對比次優(yōu)算法ParseqA在S上有2.4百分點(diǎn)的提高，在R上有1.5百分點(diǎn)的提高。

為了驗(yàn)證MMSTR算法識別不同方向文本圖像的魯棒性，將基準(zhǔn)數(shù)據(jù)集分別旋轉(zhuǎn)90°、180°、270°，再次使用36-char進(jìn)行評估，結(jié)果如表7所示?；鶞?zhǔn)數(shù)據(jù)集旋轉(zhuǎn)后對比0°的平均下降率和平均精度，如圖5所示。

從表7可以看出，MMSTR在圖片旋轉(zhuǎn)不同的角度后，平均詞準(zhǔn)確率領(lǐng)先于當(dāng)前的主流算法。從圖5分析，MMSTR在基準(zhǔn)數(shù)據(jù)集旋轉(zhuǎn)后平均精度能達(dá)到最優(yōu)性能，從數(shù)值上看，旋轉(zhuǎn)后的平均精度達(dá)到了88.4%，領(lǐng)先次優(yōu)算法2.2百分點(diǎn)，對比旋轉(zhuǎn)0°的情況，平均下降僅為5.8百分點(diǎn)，比次優(yōu)算法低了1.8百分點(diǎn)。這驗(yàn)證了MMSTR對于不同方向的文本圖像具有良好的魯棒性。

2.5 識別結(jié)果展示

為了直觀地分析MMSTR的識別優(yōu)勢，本文隨機(jī)挑選了8張極具挑戰(zhàn)性的文本圖像，這幾張圖像分別具有字體扭曲、色彩豐富、模糊程度嚴(yán)重、背景復(fù)雜、方向不一致等問題。本文將主流算法的識別結(jié)果可視化展示，如圖6所示。從圖6可以直觀地看到，8張圖像中MMSTR正確識別了7張，優(yōu)于其他識別算法。MMSTR對比ParseqA、CRNN、TRBA等主流算法在識別色彩豐富、扭曲嚴(yán)重、字體變化巨大的文本圖像具有更好的魯棒性。但是MMSTR與其他算法一樣對于模糊程度十分嚴(yán)重的圖像識別效果不夠理想，這是因?yàn)楝F(xiàn)在主流的場景文本識別算法沒有對模糊圖像進(jìn)行特定的去模糊處理，直接從模糊圖像提取視覺特征信息導(dǎo)致視覺信息不足，從而對高模糊的圖像不能精準(zhǔn)識別。

3 結(jié)束語

本文提出了MMSTR網(wǎng)絡(luò)，利用文本的語義特征與圖像的視覺特征來解決場景文本識別中因?yàn)閳D像扭曲、遮擋、模糊等原因難以識別的問題。為了提高M(jìn)MSTR網(wǎng)絡(luò)的性能，本文提出了一個(gè)殘差注意力編碼器用來進(jìn)一步提取圖像中的淺層特征，解決傳統(tǒng)vision Transformer中存在的特征坍塌問題。在解碼階段，為了增強(qiáng)語義特征與圖像視覺特征的融合，本文還提出一個(gè)DFM模塊，通過消融實(shí)驗(yàn)證明了DFM在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上面訓(xùn)練都能充分融合不同層次的語義特征與圖像視覺特征。在對比實(shí)驗(yàn)中得出了MMSTR在基準(zhǔn)評估集上的平均詞準(zhǔn)確率達(dá)到了96.6%，比次優(yōu)算法高出了0.6百分點(diǎn)。為了驗(yàn)證MMSTR的方向魯棒性，將圖像旋轉(zhuǎn)不同的方向，其平均詞準(zhǔn)確率下降僅為5.8百分點(diǎn)。從實(shí)驗(yàn)結(jié)果看，MMSTR在方向魯棒性與識別精度方面均優(yōu)于當(dāng)下主流的場景文本識別算法。在實(shí)驗(yàn)中還發(fā)現(xiàn)MMSTR與當(dāng)下主流的識別算法一樣、在面對更大的字符集時(shí)使用合成數(shù)據(jù)訓(xùn)練出的模型，在評估后平均詞準(zhǔn)確率會急劇下降。這一發(fā)現(xiàn)對于具有大規(guī)模字符集的場景文本識別并不友好，因此如何讓場景文本識別算法更好地識別大字符集是下一步的研究方向。

參考文獻(xiàn)：

［1］Zheng Tianlun， Chen Zhineng， Fang Shancheng， et al. CDistNet： perceiving multi-domain character distance for robust text recognition ［J］. International Journal of Computer Vision， 2024， 132（2）： 300-318.

［2］Ali Chandio A， Asikuzzaman M， Pickering M R， et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network ［J］. IEEE Access， 2022， 10： 10062-10078.

［3］Xue Chuhui， Huang Jiaxing， Zhang Wenqing， et al. Image-to-character-to-word Transformers for accurate scene text recognition ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2023， 45（11）： 12908-12921.

［4］Zhang Boqiang， Xie Hongtao， Wang Yuxin， et al. Linguistic more： taking a further step toward efficient and accurate scene text recognition ［C］//Proc of the 32nd International Joint Conference on Artificial Intelligence. San Francisco： Morgan Kaufmann， 2023： 1704-1712.

［5］Qiao Zhi， Zhou Yu， Yang Dongbao， et al. SEED： semantics enhanced encoder-decoder framework for scene text recognition ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway， NJ： IEEE Press， 2020： 13525-13534.

［6］Yu Deli， Li Xuan， Zhang Chengquan， et al. Towards accurate scene text recognition with semantic reasoning networks ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2020： 12110-12119.

［7］Wang Yuxin， Xie Hongtao， Fang Shancheng， et al. From two to one： a new scene text recognizer with visual language modeling network ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE Press， 2021： 14174-14183.

［8］Fang Shancheng， Xie Hongtao， Wang Yuxin， et al. Read like humans： autonomous， bidirectional and iterative language modeling for scene text recognition ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2021： 7094-7103.

［9］Bautista D， Atienza R. Scene text recognition with permuted autoregressive sequence models ［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2022： 178-196.

［10］Yang Xiaomeng， Qiao Zhi， Wei Jin， et al. Masked and permuted implicit context learning for scene text recognition ［J］. IEEE Signal Processing Letters， 2024， 31： 964-968.

［11］Na B， Kim Y， Park S. Multi-modal text recognition networks： interactive enhancements between visual and semantic features ［C］//Proc of European Conference on Computer Vision. Cham： Springer， 2022： 446-463.

［12］曾凡智，馮文婕，周燕. 深度學(xué)習(xí)的自然場景文本識別方法綜述［J］. 計(jì)算機(jī)科學(xué)與探索， 2024， 18（5）： 1160-1181. （Zeng Fanzhi， Feng Wenjie， Zhou Yan. Survey on natural scene text recognition methods of deep learning ［J］. Journal of Frontiers of Computer Science and Technology， 2024， 18（5）： 1160-1181.）

［13］Zhao Zhen， Tang Jingqun， Lin Chunhui， et al. Multi-modal in-context learning makes an ego-evolving scene text recognizer ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2024： 15567-15576.

［14］Dosovitskiy A， Beyer L， Kolesnikov A， et al. An image is worth 16×16 words： Transformers for image recognition at scale ［EB/OL］. （2021-06-03） . https：//arxiv. org. abs/2010. 11929.

［15］Diko A， Avola D， Cascio M， et al. ReViT： enhancing vision Transformers with attention residual connections for visual recognition ［EB/OL］. （2024-02-17） . https：//arxiv. org/abs/2402. 11301.

［16］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need ［C］// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 6000-6010.

［17］石祥濱，李怡穎，劉芳，等. T-STAM：基于雙流時(shí)空注意力機(jī)制的端到端的動作識別模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2021， 38（4）： 1235-1239， 1276. （Shi Xiangbin， Li Yiying， Liu Fang， et al. T-STAM： end-to-end action recognition model based on two-stream network with spatio-temporal attention mechanism ［J］. Application Research of Computers， 2021， 38（4）： 1235-1239， 1276.）

［18］黃文明，任沖，鄧珍榮. 基于多對抗訓(xùn)練的古詩生成方法［J］. 計(jì)算機(jī)應(yīng)用研究， 2021， 38（1）： 164-168. （Huang Wenming， Ren Chong， Deng Zhenrong. Chinese poetry generation model with multi-adversarial training ［J］. Application Research of Compu-ters， 2021， 38（1）： 164-168.）

［19］Zhang Ningyu， Ye Hongbin， Deng Shumin， et al. Contrastive information extraction with generative Transformer ［J］. IEEE/ACM Trans on Audio， Speech， and Language Processing， 2021， 29： 3077-3088.

［20］張少偉，李斌勇，鄧良明. 基于上下文感知的自適應(yīng)訪問控制模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2024， 41（9）： 2839-2845. （Zhang Shaowei， Li Binyong， Deng Liangming. Context-aware adaptive access control model ［J］. Application Research of Computers， 2024， 41（9）： 2839-2845.）

［21］Yang Mingkun， Liao Minghui， Lu Pu， et al. Reading and writing： discriminative and generative modeling for self-supervised text recognition ［C］//Proc of the 30th ACM International Conference on Multimedia. New York： ACM Press， 2022： 4214-4223.

［22］Yang Mingkun， Yang Biao， Liao Minghui， et al. Class-aware mask-guided feature refinement for scene text recognition ［J］. Pattern Recognition， 2024， 149： 110244.

［23］Jiang Qing， Wang Jiapeng， Peng Dezhi， et al. Revisiting scene text recognition： a data perspective ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway， NJ： IEEE Press， 2023： 20486-20497.

［24］Shi Baoguang， Yao Cong， Liao Minghui， et al. ICDAR2017 competition on reading Chinese text in the wild （RCTW-17）［C］// Proc of the 14th IAPR International Conference on Document Analysis and Recognition. Piscataway， NJ： IEEE Press， 2017： 1429-1434.

［25］Veit A， Matera T， Neumann L， et al. COCO-Text： dataset and benchmark for text detection and recognition in natural images ［EB/OL］. （2016-06-19）. https：//arxiv.org/abs/1601.07140.

［26］Zhang Ying， Gueguen L， Zharkov I， et al. Uber-text： a large-scale dataset for optical character recognition from street-level imagery ［C］// Proc of Scene Understanding Workshop. 2017： 5.

［27］Chng C K， Liu Yuliang， Sun Yipeng， et al. ICDAR2019 robust reading challenge on arbitrary-shaped text - RRC-ArT ［C］// Proc of International Conference on Document Analysis and Recognition. Piscataway， NJ： IEEE Press， 2019： 1571-1576.

［28］Sun Yipeng， Ni Zihan， Chng C K， et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT ［C］// Proc of International Conference on Document Analysis and Recognition. Piscataway， NJ： IEEE Press， 2019： 1557-1562.

［29］Nayef N， Patel Y， Busta M， et al. ICDAR2019 robust reading challenge on multi-lingual scene text detection and recognition-RRC-MLT-2019 ［C］// Proc of International Conference on Document Analysis and Recognition. Piscataway， NJ： IEEE Press， 2019： 1582-1587.

［30］Zhang Rui， Zhou Yongsheng， Jiang Qianyi， et al. ICDAR 2019 robust reading challenge on reading Chinese text on signboard ［C］// Proc of International Conference on Document Analysis and Recognition. Piscataway， NJ： IEEE Press， 2019： 1577-1581.

［31］Krylov I， Nosov S， Sovrasov V. Open images V5 text annotation and yet another mask text spotter ［C］// Proc of Asian Conference on Machine Learning ［S.I.］：PMIR， 2021： 379-389.

［32］Singh A， Pang Guan， Toh M， et al. TextOCR： towards large-scale end-to-end reasoning for arbitrary-shaped scene text ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2021： 8798-8808.

［33］Xie Xudong， Fu Ling， Zhang Zhifei， et al. Toward understanding WordArt： corner-guided Transformer for scene text recognition ［C］// Proc of European Conference on Computer Vision. Cham： Springer， 2022： 303-321.

［34］Baek J， Kim G， Lee J， et al. What is wrong with scene text recognition model comparisons？ Dataset and model analysis ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway， NJ： IEEE Press， 2019： 4714-4722.

［35］Atienza R. Vision Transformer for fast and efficient scene text recognition ［C］// Proc of International Conference on Document Analysis and Recognition. Cham： Springer， 2021： 319-334.

［36］Shi Baoguang， Bai Xiang， Yao Cong. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2017， 39（11）： 2298-2304.

計(jì)算機(jī)應(yīng)用研究2025年4期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于關(guān)節(jié)結(jié)構(gòu)依賴的三維人體姿態(tài)估計(jì)與優(yōu)化策略; 面向隱私保護(hù)的無鏡頭成像坐姿識別技術(shù); 聯(lián)合邊緣特征的物流駕駛員危險(xiǎn)行為識別; 基于圖像-文本大模型CLIP微調(diào)的零樣本參考圖像分割; ASGC-STT：基于自適應(yīng)空間圖卷積和時(shí)空Transformer的人體行為識別; 無線傳感器網(wǎng)絡(luò)中基于PUF的輕量級多網(wǎng)關(guān)身份認(rèn)證協(xié)議

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多模態(tài)特征融合的場景文本識別