亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度可變形Transformer紙幣序列號識別

        2023-09-25 08:55:54張開生李旭洋
        關(guān)鍵詞:序列號紙幣尺度

        張開生,李旭洋

        陜西科技大學(xué)電氣與控制工程學(xué)院,西安710021

        隨著國內(nèi)經(jīng)濟(jì)的迅速發(fā)展,近五年來我國國內(nèi)現(xiàn)金流通量年均增速為5.9%,在各類交易流通中現(xiàn)金量仍然呈上升趨勢[1]。根據(jù)艾媒數(shù)據(jù)(iiMedia Research)的一項(xiàng)關(guān)于我國居民外出使用現(xiàn)金交易情況的調(diào)查結(jié)果顯示,截至2020 年我國四十歲以上人群中使用現(xiàn)金進(jìn)行交易的人數(shù)占比達(dá)72.1%;五十歲以上人群中使用現(xiàn)金進(jìn)行交易的人數(shù)占比高達(dá)93.6%?,F(xiàn)金流通量和需求量的不斷提升造成現(xiàn)金流通管理壓力不斷增大,為了確保國家發(fā)行的紙幣得到良好的監(jiān)督和管理,紙幣的序列號承擔(dān)著重要的角色:一是國庫和銀行需要通過紙幣序列號進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。鈔票由一些指定的印刷廠生產(chǎn)后,先要將其存儲到國庫中,隨后發(fā)放到不同的銀行或金融機(jī)構(gòu),以便在市場上正式發(fā)行流通。在國庫接收印鈔廠印制好的鈔票前,工作人員需要統(tǒng)計(jì)各類型紙幣的序列號范圍,以便明確不同種類的紙幣的總數(shù)以及紙幣的總價值;二是當(dāng)國庫或銀行發(fā)現(xiàn)一些已經(jīng)銷毀或者受損嚴(yán)重因而無法正常使用的紙幣時,需要根據(jù)上述紙幣的序列號通知印鈔廠重新印制相同序列號的紙幣[2]。三是公安機(jī)關(guān)及有關(guān)部門需要通過紙幣序列號對走私、洗錢、金融詐騙等違法犯罪行為進(jìn)行調(diào)查[3]。四是隨著數(shù)字信息技術(shù)的不斷進(jìn)步和完善,為了完善貨幣的追蹤溯源機(jī)制,紙幣交易和數(shù)字貨幣交易將以紙幣序列號為線索聯(lián)系起來,將交易數(shù)據(jù)有機(jī)融合形成大數(shù)據(jù),為貨幣溯源機(jī)制提供數(shù)據(jù)依據(jù)[4]。因此,開展紙幣序列號識別技術(shù)的研究具有重要意義。

        紙幣序列號的識別任務(wù)主要是利用文字識別技術(shù)(optical character recognition,OCR)進(jìn)行處理。該技術(shù)涉及文本檢測和文本識別兩個階段:首先,通過光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)對獲取到的紙幣圖像中的序列號區(qū)域進(jìn)行檢測,然后識別出圖像中的文字內(nèi)容。自1980 年以來,研究人員已經(jīng)針對該領(lǐng)域的各種問題開發(fā)出了許多識別系統(tǒng)。LeCun等人[5]首次將反向傳播算法應(yīng)用于手寫體數(shù)字的識別過程中,提升了識別的泛化能力,識別準(zhǔn)確率達(dá)到93%,而該方法在識別復(fù)雜背景文本時效果較差。Nakayama 等人[6]提出了一種基于神經(jīng)網(wǎng)絡(luò)的新模式識別方案,通過在標(biāo)準(zhǔn)圖案中添加典型的手寫字符,提升了復(fù)雜背景下文本識別的準(zhǔn)確率?;谏窠?jīng)網(wǎng)絡(luò)的方法[7-8]開啟了文本識別的新階段。卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN)[9]集成了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來執(zhí)行文本識別。然而上述識別方法由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在長距離依賴問題上的局限性,導(dǎo)致其僅能針對水平排列的規(guī)則文本進(jìn)行識別。

        實(shí)際上,在各種紙幣流通的各類典型場景中,由于紙幣的材質(zhì)序列號區(qū)域經(jīng)常受到污染、損壞或折疊,如圖1 所示,導(dǎo)致該區(qū)域被部分遮擋或是變形,加之環(huán)境光線以及拍攝角度等問題,在識別過程中,紙幣序列號區(qū)域呈現(xiàn)出邊界框扭曲變形、字符大小不一致的不規(guī)則文本特點(diǎn),極大地影響了OCR 識別技術(shù)的識別精度和識別效率。因此需要一種不規(guī)則文本識別方法,有效識別不規(guī)則排列的紙幣序列號,減少人工的工作量,進(jìn)一步提升原有紙幣識別系統(tǒng)的識別效率和應(yīng)用范圍。

        圖1 受到污損或折疊的紙幣示意圖Fig.1 Illustration of defaced or folded banknotes

        然而現(xiàn)行的不規(guī)則文本識別方法多數(shù)是在基于神經(jīng)網(wǎng)絡(luò)的規(guī)則文本識別方法基礎(chǔ)上進(jìn)行改良得到:TextBoxes[10]在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了一種場景文本檢測器,通過使用旋轉(zhuǎn)框和四邊形并結(jié)合回歸模型或損失函數(shù)實(shí)現(xiàn)任意方向的四邊形文本檢測,但對扭曲文本的檢測效果不佳;EAST[11]則是直接預(yù)測圖像中任意方向的四邊形邊框單詞或文本行,省去了不必要的中間步驟,但受限制于網(wǎng)絡(luò)結(jié)構(gòu),無法實(shí)現(xiàn)長文本識別;CRAFT[12]基于VGG-16全卷積網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計(jì),通過檢測每個字符之間的親和力來確定任意形狀的文本區(qū)域,但檢測過程中需要成本高昂的字符級注釋和后處理步驟;Wang 等人[13]提出了一種具有自適應(yīng)文本區(qū)域表示的場景文本檢測方法,但僅限于RNNs 的順序解碼;近期提出的ABCNet[14]和ABCNet v2[15]方法通過參數(shù)化的貝塞爾曲線自適應(yīng)地?cái)M合定向或彎曲的文本邊界框,雖然提高了檢測性能與適用范圍,但該方法無法適應(yīng)由于紙幣序列號區(qū)域嚴(yán)重扭曲變形后產(chǎn)生的邊界框定位問題。為了提升不規(guī)則文本邊框定位能力,TextDragon[16]圍繞文本中心線生成多個局部四邊形,并使用RoISlide操作來在文本實(shí)例內(nèi)進(jìn)行特征扭曲和聚合。盡管不需要字符級別的監(jiān)督,但它仍然需要執(zhí)行中心線檢測,并進(jìn)行相應(yīng)的分組和排序,以將四邊形轉(zhuǎn)換為多變形文本邊界;Qin 等人[17]提出了一種感興趣區(qū)域屏蔽的方法通過將分割概率圖與特征相乘以降低背景對文本識別的影響,但仍需要相應(yīng)的后處理操作才能完成識別任務(wù)。

        為了應(yīng)對更加復(fù)雜的不規(guī)則文本識別需求,現(xiàn)行的不規(guī)則文本識別模型在加入了大量的感興趣區(qū)域操作和后處理步驟后使得模型結(jié)構(gòu)愈加復(fù)雜,同時應(yīng)用于文本識別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在長距離依賴問題上的局限性也并未通過上述模型的提出而得到徹底的解決。另一方面,由于序列號本身的格式特點(diǎn)在經(jīng)過扭曲變形后會產(chǎn)生大量尺度不一的文本信息,進(jìn)一步限制了部分識別模型的識別精確度,因此文本識別模型需要精確度更高的多尺度文本特征信息提取能力。

        針對上述問題,隨著Transformer[18]在語言處理[19]和計(jì)算機(jī)視覺[20]領(lǐng)域得到越來越多的應(yīng)用和實(shí)驗(yàn),特別是SRN[21]和NRTR[22]在文本識別任務(wù)上的良好表現(xiàn),進(jìn)一步證明了Transformer 在文本識別任務(wù)上的應(yīng)用前景。Transformer的結(jié)構(gòu)可以在特征提取部分關(guān)注全局信息,通過替換額外的上下文建模模塊有效解決神經(jīng)網(wǎng)絡(luò)存在的弊端,同時可以避免冗雜的感興趣區(qū)域操作和后處理步驟,簡化了模型的復(fù)雜程度。然而僅通過經(jīng)典的Transformer結(jié)構(gòu)設(shè)計(jì)不規(guī)則紙幣序列號識別方法時,會出現(xiàn)由于其多頭注意力機(jī)制在處理不規(guī)則紙幣序列號文本特征圖時提取多尺度特征的局限性,導(dǎo)致的模型收斂速度慢和特征空間分辨率有限的問題?;诖耍槍δ壳安灰?guī)則紙幣序列號文本識別問題展開研究,采用線陣相機(jī)搭建紙幣序列號檢測識別系統(tǒng),并提出一種結(jié)合多尺度可變形注意力和Transformer 模型(multi-scale deformable attention Transformer,MDATR)的紙幣序列號識別方法,在統(tǒng)一框架中執(zhí)行文本檢測和識別,有效規(guī)避神經(jīng)網(wǎng)絡(luò)處理文本識別任務(wù)時的局限性和經(jīng)典模型結(jié)構(gòu)過于復(fù)雜的問題,改進(jìn)經(jīng)典Transformer 結(jié)構(gòu)的注意力機(jī)制模塊以提升方法的多尺度文本特征提取能力。對需要檢測的紙幣序列號進(jìn)行高效的定位檢測和識別。主要貢獻(xiàn)如下:

        (1)在編解碼器的設(shè)計(jì)過程中,引入了多尺度可變形注意力模塊。通過減少對骨干網(wǎng)絡(luò)輸出特征圖的采樣點(diǎn)個數(shù),很大程度上降低了模型的計(jì)算成本,加快模型的計(jì)算速度。另一方面,多尺度可變形注意力模塊能夠充分利用多尺度特征圖中的信息,從而獲取到各類使用場景中豐富的紙幣序列號文本信息。

        (2)在不規(guī)則序列號文本的定位階段,采用了一種多邊形邊界框檢測機(jī)制,將編碼器階段輸出的特征圖信息經(jīng)過候選框生成器標(biāo)記出特征圖中序列號文本的粗邊界框,使用位置編碼模塊對粗邊界框進(jìn)行編碼后,輸入位置解碼器訓(xùn)練不規(guī)則序列號邊界框控制點(diǎn)坐標(biāo)回歸,進(jìn)而引導(dǎo)邊界框的檢測,確定最終的序列號文本邊界框。

        (3)實(shí)驗(yàn)結(jié)果表明,對于紙幣序列號文本圖像,MDATR能夠有效識別受折疊扭曲或污損遮擋的不規(guī)則序列號文本,同時與主流識別模型相比對規(guī)則序列號文本的識別表現(xiàn)良好,其在統(tǒng)一框架下檢測與識別任務(wù)的處理方式能有效提升網(wǎng)絡(luò)的推理速度。

        1 系統(tǒng)結(jié)構(gòu)

        紙幣序列號檢測識別系統(tǒng)主要由4部分組成,圖像采集單元、圖像處理單元、運(yùn)動控制單元和機(jī)械結(jié)構(gòu)單元。系統(tǒng)總體結(jié)構(gòu)如圖2所示,紙幣首先通過帶有可調(diào)光源的攝像頭,得到連續(xù)的模擬信號。圖像采集卡將模擬信號轉(zhuǎn)換為數(shù)字信號并將圖像傳輸?shù)接?jì)算機(jī)。通過MDATR 算法處理圖像并對紙幣的序列號進(jìn)行檢測識別。最后將結(jié)果輸出到監(jiān)視器,同時檢測結(jié)果也將傳輸?shù)侥繕?biāo)參數(shù)輸出接口,以供計(jì)算機(jī)使用。

        圖2 系統(tǒng)總體結(jié)構(gòu)圖Fig.2 Illustration of system overall structure

        圖像采集單元主要由CCD相機(jī)、可調(diào)節(jié)光源、圖像采集卡等組成。CCD 相機(jī)為DALSA 公司的Spyder3 Color 系列雙線CCD 線陣工業(yè)數(shù)字?jǐn)z像機(jī)。該系列使用DALSA 獨(dú)有的雙線掃描傳感器(dual-line sensor),通過雙線彩色(biliner color)技術(shù)將線陣傳感器上的一條線交替感應(yīng)R、B 分量信息,另一條線感應(yīng)G 分量信息,然后以插值的方法得到每個像素的RGB 分量信息。該系列相機(jī)采用Camera Link串行接口,傳輸距離可達(dá)100 m。光源對于產(chǎn)生合理“均勻”的、無反射的直射光線以供CCD 相機(jī)使用至關(guān)重要。因此,本系統(tǒng)選擇FOSTEC燈,一種可調(diào)節(jié)的光源來滿足這一要求。圖像采集卡選用美國NI公司生產(chǎn)的PCI-1411圖像采集卡。該卡有兩路輸入RS-170/NTCS和CCIR/PAL模式,可以輸出同色、RGB、HSL格式的圖像,支持單幀和序列幀。

        圖像處理單元主要由計(jì)算機(jī)組成。整套系統(tǒng)由計(jì)算機(jī)控制,通過可編程邏輯陣列(field programmable gate array,F(xiàn)PGA)[23]發(fā)送各種信息來控制電機(jī)與相機(jī)配合采集出紙幣序列號區(qū)域的完整圖像,將其輸入檢測算法并給出獲得檢測結(jié)果。

        運(yùn)動控制單元由兩個電機(jī)以及FPGA組成,分別控制著軸承的進(jìn)入與軸承的旋轉(zhuǎn),通過FPGA 給出觸發(fā)信號,精準(zhǔn)控制圖像采集時間與觸發(fā)頻率。FPGA 采用Altera公司Cyclone 1V系列中的EP4CEl0資源,它具有10 320 個邏輯單元(LEs)、46 個M9K 存儲器模塊,每個模塊都具有9 kb的嵌入式SDRAM存儲器,并且可以根據(jù)需要配置成單端口、雙端口RAM以及嵌入式FIFO存儲器或者ROM;還具有8個PLL、10個全局時鐘網(wǎng)絡(luò),可以滿足不同模塊的時鐘頻率。有23 個嵌入式18×18乘法器,可以實(shí)現(xiàn)DSP處理密集型應(yīng)用。

        機(jī)械結(jié)構(gòu)單元包含外箱體、傳送帶、傳動輪和傳動軸,是檢測系統(tǒng)實(shí)現(xiàn)圖像采集的核心部件,決定該系統(tǒng)運(yùn)行效率與檢測精度。傳送帶、傳動輪和傳動軸構(gòu)成傳動機(jī)構(gòu),在電機(jī)的驅(qū)動下傳送帶和傳動輪將動力傳送給各個傳動軸,使得傳動機(jī)構(gòu)穩(wěn)定運(yùn)轉(zhuǎn)配合相機(jī)完成紙幣序列號圖像的采集工作。

        2 紙幣序列號識別算法研究

        如圖1所示,與一般圖像不同,受到折疊、損壞或污損影響的紙幣序列號區(qū)域會產(chǎn)生扭曲變形和遮擋的問題,導(dǎo)致采集到的該區(qū)域圖像具有更復(fù)雜的表現(xiàn)形式,通常不會以水平的規(guī)則文本的形式出現(xiàn)。因此結(jié)合多尺度可變形注意力機(jī)制提出基于Transformer的MDATR方法,對多種情況下的紙幣序列號文本進(jìn)行檢測識別,算法流程示意圖如圖3所示。首先,編碼器在輸入圖像上執(zhí)行多尺度可變形注意力機(jī)制,并且通過引導(dǎo)生成器從特征圖中生成粗糙的邊界框。這些邊界框被編碼并添加到可學(xué)習(xí)的控制點(diǎn)查詢嵌入之上,以指導(dǎo)控制點(diǎn)的學(xué)習(xí)??刂泣c(diǎn)查詢通過位置解碼器和前饋網(wǎng)絡(luò)(feedforward network,F(xiàn)FN)[24]進(jìn)行饋送,以預(yù)測序列號邊界框坐標(biāo)。字符解碼器以位置解碼器的共享參考點(diǎn)作為多尺度交叉注意力機(jī)制的輸入,為相應(yīng)的序列號文本預(yù)測字符。

        圖3 MDATR算法流程示意圖Fig.3 Schematic diagram of flow of MDATR algorithm

        2.1 編碼器結(jié)構(gòu)設(shè)計(jì)

        編碼器的結(jié)構(gòu)如圖3所示,輸入圖像首先通過骨干網(wǎng)絡(luò)減小通道維數(shù),輸出特征圖。由于編碼器的輸入一般為序列形式,因此需要將得到的特征圖的空間維度降低為一維,進(jìn)而得到低緯特征圖作為編碼器的輸入。編碼器中的每一層都由一個多尺度可變形自注意力機(jī)制模塊、一個前饋網(wǎng)絡(luò)以及相應(yīng)的層歸一化組成。另外,由于Transformer 體系結(jié)構(gòu)是空間不相關(guān)的,因此需要采用固定位置編碼[25-26]對其進(jìn)行補(bǔ)充,這些位置編碼將被添加到每個注意力層的輸入中。

        現(xiàn)階段文本識別任務(wù)中的一個首要問題是獲取到的文本圖像中普遍存在多尺度文本信息,這導(dǎo)致文本的檢測識別系統(tǒng)需要準(zhǔn)確、有效地處理多尺度文本信息,在紙幣序列號的識別任務(wù)中也存在同樣的問題。現(xiàn)階段的相關(guān)文獻(xiàn)中,大多數(shù)研究人員嘗試通過利用多尺度特征圖(multi-scale feature map)來克服這一障礙實(shí)現(xiàn)對小尺寸文本的準(zhǔn)確識別。例如,在所提出的方法中采用特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[27]有效識別多尺度文本信息,然而卻由于繁雜的中間處理過程增加了模型結(jié)構(gòu)的復(fù)雜度。

        在開發(fā)基于Transformer 的文本識別模型時同樣利用多尺度特征圖來應(yīng)對這一問題,與先前的研究方法不同的是,常規(guī)的Transformer 結(jié)構(gòu)中一般使用多頭注意力機(jī)制處理特征圖,多頭注意力機(jī)制可被定義為式(1)所示:

        其中,q∈Ωq為具有表示特征zq∈?C的查詢元素,k∈Ωk為具有表示特征xk∈?C的鍵值元素,C為特征維數(shù),Ωq和Ωk分別表示查詢元素集合和鍵值元素集合;h表示注意力頭,Wh和W′h為可學(xué)習(xí)權(quán)值,Ahqk為注意力權(quán)值。然而,常規(guī)的多頭注意力機(jī)制在處理特征圖的過程中,可能會查看特征圖中所有可能的空間位置,導(dǎo)致大量查詢和鍵值元素的產(chǎn)生,最終使得多頭注意力機(jī)制的計(jì)算復(fù)雜度升高。

        為了應(yīng)對常規(guī)多頭注意力機(jī)制處理特征圖中存在的問題,研究人員引入了可變形注意力機(jī)制,無需關(guān)注特征圖的所有空間位置,只需要關(guān)注參照點(diǎn)周圍的一組關(guān)鍵采樣點(diǎn),可變形注意力機(jī)制可被定義為:

        其中,k表示采樣個數(shù),K表示采樣總個數(shù),Δphqk和Ahqk分別表示第h個注意頭中第k個采樣點(diǎn)的采樣偏移量和注意力權(quán)重??勺冃巫⒁饬C(jī)制通過為每個查詢只分配少量固定數(shù)量的鍵值,可以有效減輕收斂和特征空間分辨率的問題。

        本文的研究中為了能夠高效利用系統(tǒng)所采集圖片中的多尺度特征信息,在編碼器設(shè)計(jì)中采用可變形注意力機(jī)制并進(jìn)行擴(kuò)展,引入多尺度可變形注意力機(jī)制模塊,其結(jié)構(gòu)示意圖如圖4所示。

        圖4 多尺度可變形注意力機(jī)制示意圖Fig.4 Illustration of multi-scale deformable attention

        與一般的注意力機(jī)制不同點(diǎn)在于,該模塊能夠聚合多尺度特征,不需要對特征圖中H×W個點(diǎn)進(jìn)行采樣,而是對檢測目標(biāo)參照點(diǎn)周圍的L×K個點(diǎn)進(jìn)行采樣,這在很大程度上既降低了計(jì)算成本還能夠充分利用特征圖中的多尺度信息,加速模型收斂。具體地,給定一組L層的多尺度特征圖,其中,為查詢q的參考點(diǎn)歸一化坐標(biāo),多尺度可變形注意力機(jī)制可表示為:

        其中,h、l、k分別是注意力頭、輸入特征圖層數(shù)和采樣點(diǎn)的鍵值。Amlqk表示查詢q的注意力權(quán)重,針對K個采樣點(diǎn)進(jìn)行歸一化。?l表示將歸一化坐標(biāo)映射到第l層特征圖的比例,ΔPhlqk表示為查詢q生成適當(dāng)?shù)牟蓸悠屏?,將它們二者相加以形成特征圖Fl的采樣位置。Wh和W′h是可訓(xùn)練的類似于多頭注意力機(jī)制中的權(quán)重矩陣。

        2.2 解碼器結(jié)構(gòu)設(shè)計(jì)

        紙幣序列號識別任務(wù)中的文本邊界框控制點(diǎn)坐標(biāo)和相應(yīng)的字符預(yù)測可統(tǒng)一看作集合預(yù)測問題。即給定一張圖像G,系統(tǒng)需要輸出一組文本邊界框控制點(diǎn)坐標(biāo)以及字符,定義為。其中g(shù)是每個文本的索引,表示文本的N個初始邊界框控制點(diǎn)坐標(biāo),表示文本的M個字符。為了在同一框架中實(shí)現(xiàn)預(yù)測,在本文所提出的模型中同時利用兩種適用于預(yù)測不同模態(tài)的解碼器來解決這一問題,兩個解碼器分別是用于文本邊界框位置檢測的位置解碼器和用于字符識別的字符解碼器。

        2.2.1 位置解碼器

        為了準(zhǔn)確預(yù)測每個文本實(shí)例中的序列號邊界框控制點(diǎn)坐標(biāo),擴(kuò)展傳統(tǒng)的Transformer 中的查詢?yōu)閺?fù)合查詢。假設(shè)有Z個這樣的復(fù)合查詢,每個復(fù)合查詢中的各個查詢元素各自對應(yīng)一個文本實(shí)例。其中的每個查詢元素又由子查詢組成,即:另一方面,為了能夠應(yīng)對可能出現(xiàn)的同時識別多個序列號的任務(wù)需求,通過結(jié)構(gòu)化的方式獲取到不同文本實(shí)例之間以及單個文本實(shí)例之間的不同子查詢之間的關(guān)系,所設(shè)計(jì)的位置解碼器中引入了分解自注意力機(jī)制[28],該機(jī)制示意圖如圖5 所示。分解自注意力機(jī)制首先在各查詢元素內(nèi)部子查詢之間運(yùn)行內(nèi)部關(guān)聯(lián)自注意力機(jī)制,然后在各查詢元素之間運(yùn)行相互關(guān)聯(lián)自注意力機(jī)制。內(nèi)部關(guān)聯(lián)自注意力機(jī)制利用部分的上下文信息進(jìn)行關(guān)系預(yù)測,例如,主題查詢和對象查詢分別是“人”和“車”有助于預(yù)測謂詞“駕駛”。相互關(guān)聯(lián)自注意力機(jī)制則是利用上下文信息,增強(qiáng)每個圖像的整體關(guān)系預(yù)測,這對于針對同一文本實(shí)例的多個交互檢測特別重要。

        圖5 因式分解自注意力機(jī)制示意圖Fig.5 Illustration of factorized self-attention

        初始控制點(diǎn)查詢被反饋到位置解碼器。經(jīng)過多層解碼,由預(yù)測置信度的分類頭和輸出每個控制點(diǎn)坐標(biāo)的2通道回歸頭得到最終控制點(diǎn)查詢預(yù)測結(jié)果。

        這里預(yù)測的控制點(diǎn)可以是N個多邊形頂點(diǎn),也可以是貝塞爾曲線的控制點(diǎn)。對于多邊形頂點(diǎn),可以使用從左上角開始并按順時針順序移動的序列;對于貝塞爾控制點(diǎn),可以使用伯恩斯坦多項(xiàng)式[29]構(gòu)建參數(shù)曲線:

        其中,伯恩斯坦多項(xiàng)式定義為:

        對單個序列號文本可以使用兩條三次貝塞爾曲線,對應(yīng)于文本的兩個可能彎曲的邊,隨后通過跨t采樣將貝塞爾曲線轉(zhuǎn)換回多邊形。

        2.2.2 多邊形邊框檢測機(jī)制

        紙幣序列號識別任務(wù)的集合預(yù)測問題通過解碼器部分進(jìn)行數(shù)學(xué)建模,其貝葉斯推理過程為:P(Y|I)∝P(I|Y)P(Y),其中P(I|Y)通過交叉注意力機(jī)制獲取到查詢和輸入之間的關(guān)系,P(Y)則通過自注意力機(jī)制模擬Y的先驗(yàn)配置。然而當(dāng)Y很復(fù)雜,即文本呈現(xiàn)出不規(guī)則排列時,在復(fù)合查詢的情況下P(Y)很難學(xué)習(xí)。因此,為了避免這一情況,在模型中引入一種多邊形邊框檢測機(jī)制,通過檢測并使用文本實(shí)例的粗邊界框來指導(dǎo)系統(tǒng)進(jìn)行文本多邊形邊界的檢測。這個過程利用與具體序列號圖像G相關(guān)的信息形成特定于輸入的先驗(yàn)知識,有助于控制點(diǎn)坐標(biāo)回歸的訓(xùn)練。

        多邊形邊框檢測機(jī)制如圖6 所示。由編碼器輸出的特征圖作為輸入傳輸?shù)胶蜻x框生成器中,作為多邊形邊框檢測機(jī)制的核心,候選框生成器針對特征圖檢測出可能是文本的內(nèi)容,進(jìn)而輸出文本的粗邊界框坐標(biāo)及其概率,并篩選出概率最高的前Z個框,其坐標(biāo)表示為隨后由位置編碼模塊結(jié)合粗邊界框坐標(biāo)進(jìn)行編碼并將結(jié)果添加共享字符查詢嵌入輸入到位置解碼器,最終得到序列號文本的邊界框預(yù)測結(jié)果。

        圖6 多邊形邊框檢測機(jī)制示意圖Fig.6 Illustration of polygon detection process

        基于此,初始控制點(diǎn)查詢可進(jìn)一步表示為:

        其中,φ(α(g))作為粗邊界框的位置編碼結(jié)果,在單個序列號文本的N個子查詢之間共享,對序列號文本的整體位置和規(guī)模進(jìn)行建模;α(g)作為因式分解自注意力機(jī)制的初始參考點(diǎn);(b1,b2,…,bn)是控制點(diǎn)查詢嵌入,在Z個查詢中共享,對與特定邊界框位置無關(guān)的控制點(diǎn)之間的一般關(guān)系進(jìn)行建模;在位置編碼模塊,候選粗邊界框經(jīng)過正弦位置編碼φ(?),隨后經(jīng)過線性化和層歸一化處理,結(jié)合共享控制點(diǎn)查詢嵌入輸入到位置解碼器,最終得到精確的多邊形邊界框。

        2.2.3 字符解碼器

        字符解碼器的設(shè)計(jì)思路類似于位置解碼器,其中位置解碼器的控制點(diǎn)查詢被字符查詢?nèi)〈?。初始字符查詢包括可學(xué)習(xí)的字符查詢嵌入和一維正弦位置編碼,并在不同的文本實(shí)例之間共享。具有相同索引的字符查詢和控制點(diǎn)查詢屬于同一個文本,因此多尺度可變形注意力機(jī)制的參考點(diǎn)是共享的,以確保從圖像中獲得相同的上下文特征信息。分類頭負(fù)責(zé)接收最終的字符查詢并在多個字符類中進(jìn)行預(yù)測。

        3 實(shí)驗(yàn)與分析

        為了進(jìn)一步驗(yàn)證所提出的紙幣序列號檢測識別方法MDATR模型的有效性,通過所搭建的紙幣序列號檢測識別系統(tǒng)采集一定數(shù)量的人民幣序列號圖像,同時結(jié)合韓元和日元的紙幣序列號圖像數(shù)據(jù)組成本次實(shí)驗(yàn)的數(shù)據(jù)集。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        考慮到所設(shè)計(jì)的紙幣序列號檢測系統(tǒng)的可移植性以及實(shí)際應(yīng)用中的場景復(fù)雜性,為更加全面地驗(yàn)證所提出的方法的性能,實(shí)驗(yàn)過程中所使用的人民幣、韓元和日元紙幣等9 組數(shù)據(jù)集中包括:扭曲變形、受到污染的紙幣序列號區(qū)域圖像,即不規(guī)則紙幣序列號圖像,相對平整的紙幣序列號區(qū)域圖像,即規(guī)則紙幣序列號圖像,以及應(yīng)用場景中的紙幣序列號區(qū)域圖像。具體地,數(shù)據(jù)集A 至數(shù)據(jù)集D 為不規(guī)則排列或受污損的紙幣序列號圖像,數(shù)據(jù)集E至數(shù)據(jù)集H為規(guī)則排列的紙幣序列號圖像,數(shù)據(jù)集I為應(yīng)用場景中的紙幣序列號圖像,該數(shù)據(jù)集圖像包括但不僅限于實(shí)際應(yīng)用場景中的紙幣序列號文本呈現(xiàn)出的扭曲變形、旋轉(zhuǎn)、文本模糊、陰影遮擋以及大小不一等特點(diǎn)。圖7為每組數(shù)據(jù)集中典型圖像的示意圖。

        圖7 紙幣序列號圖像數(shù)據(jù)集示意圖Fig.7 Illustration of image dataset of banknote serial numbers

        在前四組數(shù)據(jù)集中:數(shù)據(jù)集A 包含面值為1 000 日元和5 000日元的紙幣,數(shù)據(jù)集B包含面值為2 000日元和10 000 日元的紙幣。數(shù)據(jù)集C 包含面值為1 元、5 元人民幣的紙幣,數(shù)據(jù)集D 包含面值為50 元人民幣的紙幣;在后四組數(shù)據(jù)集中:數(shù)據(jù)集E包含面值為1 000日元的紙幣,數(shù)據(jù)集F包含面值為2 000日元的紙幣,數(shù)據(jù)集G包含面值為10 000韓元的紙幣,數(shù)據(jù)集H包含面值為1 元和5 元人民幣的紙幣。數(shù)據(jù)集I 包含面值為1 元、5元和50元人民幣的紙幣。其中,數(shù)據(jù)集A中有6 860個訓(xùn)練數(shù)據(jù)和1 000個測試數(shù)據(jù);數(shù)據(jù)集B中有5 670個訓(xùn)練數(shù)據(jù)和1 780個測試數(shù)據(jù);數(shù)據(jù)集C中有5 100個訓(xùn)練數(shù)據(jù)和1 900個測試數(shù)據(jù);數(shù)據(jù)集D中有4 900個訓(xùn)練數(shù)據(jù)和1 890 個測試數(shù)據(jù)。數(shù)據(jù)集E 中有5 600 個訓(xùn)練數(shù)據(jù)和1 010個測試數(shù)據(jù);數(shù)據(jù)集F中有5 500個訓(xùn)練數(shù)據(jù)和1 880個測試數(shù)據(jù);數(shù)據(jù)集G中有5 020個訓(xùn)練數(shù)據(jù)和1 910 個測試數(shù)據(jù);數(shù)據(jù)集H 中有5 200 個訓(xùn)練數(shù)據(jù)和1 620 個測試數(shù)據(jù);數(shù)據(jù)集I 中有2 009 個訓(xùn)練數(shù)據(jù)和1 000個測試數(shù)據(jù)。

        3.2 評價指標(biāo)

        為了評價MDATR對紙幣序列號的識別性能,本文采用了幾個主流的評價基準(zhǔn)來評估所提出識別方法中模型的性能,主要包含:精確率(Precision)、召回率(Recall)和F值(F-Measure)。這些評價指標(biāo)定義如下:

        其中,TP(true positive)表示預(yù)測正確的正類的數(shù)目,TN(true negative)是分割正確負(fù)類數(shù)目,F(xiàn)P(false positive)是指預(yù)測錯誤的正類數(shù)目,F(xiàn)N(false negative)表示預(yù)測錯誤的負(fù)類數(shù)目。

        精確率(Precision)是指模型正確預(yù)測為正的占全部預(yù)測為正的比例。召回率(Recall)是識別正確的正例占總的正例的比重。F 值(F-Measure)是為了避免精確率(Precision)和召回率(Recall)出現(xiàn)相矛盾的情況而設(shè)計(jì)的綜合評價指標(biāo),即精確率(Precision)和召回率(Recall)的加權(quán)調(diào)和平均值。以上三個指標(biāo)的數(shù)值越大代表預(yù)測效果越好。運(yùn)算的速率方面采用了每秒的傳輸幀節(jié)數(shù)(frames per second,F(xiàn)PS)作為衡量指標(biāo)。

        3.3 損失函數(shù)

        二分匹配。由于模型輸出固定數(shù)量的預(yù)測結(jié)果,并且與文本實(shí)例的實(shí)際數(shù)量G不符,因此需要得到二者之間的最佳匹配來計(jì)算損失。具體地,需要得到函數(shù)σ使得匹配成本Cm最小,即:

        其中,Y(g)是真值(ground truth),Y(σ(g))是匹配的預(yù)測結(jié)果。為了進(jìn)一步提升處理效率,使用控制點(diǎn)坐標(biāo)來指導(dǎo)字符解碼的學(xué)習(xí)。因此,匹配成本被定義為置信度和坐標(biāo)偏差之和。對于第g個文本實(shí)例及其匹配的第σ(g)個查詢,其匹配成本函數(shù)定義為:

        式(11)中的第二項(xiàng)是真值(ground truth)坐標(biāo)和預(yù)測控制點(diǎn)坐標(biāo)之間的L-1 距離。

        式(10)中使匹配成本最小的問題可以利用匈牙利算法[31]有效地解決。使用相同的二分匹配的方法將候選框生成器中的候選框與作為控制點(diǎn)邊界框的真值(ground truth)進(jìn)行匹配。

        文本實(shí)例分類損失。采用焦點(diǎn)損失函數(shù)作為文本實(shí)例的分類損失。對于第g個查詢,損失函數(shù)定義為:

        其中,Im( )

        σ是映射函數(shù)σ的圖像。

        控制點(diǎn)損失。L-1 距離損失用于控制點(diǎn)坐標(biāo)回歸:

        字符分類損失。將字符識別視為一個分類問題,其中每個類都分配了一個特定的字符。本文中使用交叉熵?fù)p失函數(shù):

        解碼器的損失函數(shù)包括上述三個損失:

        邊界框中間監(jiān)督損失。為了使多邊形邊界框檢測機(jī)制中的候選框預(yù)測更準(zhǔn)確,在編碼器中引入了中間監(jiān)督。采用前文中的二分匹配將預(yù)測出的候選框與文本框真值(ground truth)進(jìn)行匹配,其映射函數(shù)表示為σ′,整體損失表示為:

        3.4 實(shí)驗(yàn)細(xì)節(jié)

        系統(tǒng)的硬件處理器為Intel Core i9 9900X @3.5 GHz;內(nèi)存為128 GB;顯卡為NVIDIA Geforce RTX 2080Ti 11 GB,操作系統(tǒng)為Windows 11 22H2。采用Python3.6編程語言以及深度學(xué)習(xí)開發(fā)框架Pytorch環(huán)境進(jìn)行程序的編寫。在實(shí)驗(yàn)過程中選用ResNet-50[33]作為骨干網(wǎng)絡(luò)。多尺度可變形Transformer 的參數(shù)設(shè)置:可變形注意力機(jī)制中H=8,采樣點(diǎn)K=4,編解碼器層數(shù)N=6。

        MDATR在SynthText 150k、MLT 2017[34]和Total-Text[35]的混合數(shù)據(jù)集上進(jìn)行了共計(jì)300 000 次迭代的預(yù)訓(xùn)練。多邊形變體的基本學(xué)習(xí)率為1×10-4,并在第240 000次迭代時衰減0.1倍。對于用于預(yù)測參考點(diǎn)坐標(biāo)的線性投影、多尺度可變形注意力機(jī)制和骨干網(wǎng)絡(luò)的采樣偏移,學(xué)習(xí)率按0.1 倍縮放。本文采用改進(jìn)的自適應(yīng)梯度法AdamW[36]作為模型優(yōu)化器,其中β1=0.99,β2=0.999,權(quán)重衰減為10-4,復(fù)合查詢個數(shù)Q=10。最大文本長度M=15,多邊形控制點(diǎn)數(shù)N=50。損失函數(shù)的權(quán)重因子為λcl=2、λco=5、λch=4、λg=2。設(shè)置焦點(diǎn)損失函數(shù)中ε=0.25、γ=2.0。

        3.5 實(shí)驗(yàn)結(jié)果與分析

        3.5.1 不規(guī)則紙幣序列號識別

        在四組不規(guī)則或受污損紙幣序列號數(shù)據(jù)集(數(shù)據(jù)集A 到數(shù)據(jù)集D)上進(jìn)行測試,使用四個數(shù)據(jù)集和六種檢測識別模型進(jìn)行性能評估和對比,實(shí)驗(yàn)中選用的測試模型包括:ABCNet v2、TextNet[37]、CharNet[38]、Mask TextSpotter[39]以及PGNet[40]等模型。在實(shí)驗(yàn)過程中每個模型均進(jìn)行了多測試,并將測試結(jié)果平均值作為測試準(zhǔn)確度進(jìn)行匯總。實(shí)驗(yàn)結(jié)果如表1所示,所提出的MDATR模型在數(shù)據(jù)集A 和數(shù)據(jù)集D 上的測試準(zhǔn)確率分別為93.4%和92.2%,優(yōu)于其他方法;在數(shù)據(jù)集B上的測試準(zhǔn)確率與ABCNet v2模型的測試準(zhǔn)確率相同為89.2%;在數(shù)據(jù)集C上的預(yù)測結(jié)果MDATR模型的準(zhǔn)確率為91.2%,但相較于同一數(shù)據(jù)集下預(yù)測準(zhǔn)確率最優(yōu)的ABCNet v2模型僅降低了0.3%。

        表1 不同模型的不規(guī)則紙幣序列號識別結(jié)果Table 1 Recognition results of different models on irregular banknote serial numbers

        TextNet的檢測識別過程是通過生成四邊形文本區(qū)域,然后進(jìn)行感興趣區(qū)域轉(zhuǎn)換,進(jìn)而完成文本識別任務(wù)。盡管此方法可以識別不規(guī)則文本,但對于任意形狀的文本區(qū)域,其四邊形文本區(qū)域檢測效果并不佳;CharNet是在一次檢測任務(wù)中同時執(zhí)行字符和文本檢測,但需要字符級注釋;Mask TextSpotter模型是基于Mask RCNN[41]構(gòu)建的,該模型針對目標(biāo)圖像執(zhí)行文本和字符級別的分割,需要在獲得最終結(jié)果之前進(jìn)行進(jìn)一步分組;ABCNet v2為彎曲文本引入貝塞爾曲線,并開發(fā)了用于特征提取的貝塞爾-對齊方法。但是低階貝塞爾曲線在檢測相對嚴(yán)重彎曲或波浪形的文本邊框時存在局限性;PGNet是將多邊形文本邊界轉(zhuǎn)換為中心線,邊界偏移和方向偏移,并針對這些目標(biāo)執(zhí)行多任務(wù)學(xué)習(xí)。但在消除感興趣區(qū)域操作時,仍需要使用專門設(shè)計(jì)的多邊形恢復(fù)過程。

        相較于上述模型,MDATR 模型使用了位置解碼器和字符解碼器的雙解碼器結(jié)構(gòu)可同時進(jìn)行文本框的定位和字符的識別,多尺度可變形注意力機(jī)制能更有效地提取圖像中文本的多尺度特征信息,多邊形邊界框檢測機(jī)制能夠準(zhǔn)確地檢測出變形的文本邊界,模型的檢測精度更高。另一方面,由于文本邊界框控制點(diǎn)坐標(biāo)的直接回歸,對紙幣序列號的檢測識別過程中不需要類似PGNet 模型和ABCNet v2 模型中采用的后處理步驟和感興趣區(qū)域的相關(guān)操作,提高計(jì)算效率。圖8為MDATR在不規(guī)則紙幣序列號數(shù)據(jù)集上的可視化檢測結(jié)果。

        圖8 不規(guī)則或受污損紙幣序列號檢測結(jié)果示意圖Fig.8 Sketch of irregular text or defaced banknote serial number detection results

        表2是在數(shù)據(jù)集A和數(shù)據(jù)集D上的詳細(xì)實(shí)驗(yàn)結(jié)果。在紙幣序列號區(qū)域相對模糊且存在污漬遮擋的數(shù)據(jù)集A 上,MDATR 模型的測試結(jié)果中F 值指標(biāo)為87.2%,相比于之前準(zhǔn)確率最高的ABCNet v2 模型高出0.3%;在檢測的精確率上MDATR 相較ABCNet v2 模型高出3.7%,達(dá)到93.4%。在紙幣序列號文本邊界框相對更加扭曲變形的數(shù)據(jù)集D上,MDATR模型的優(yōu)勢更加突出,F(xiàn)值相較于ABCNet v2模型提升了2.4%達(dá)到86.7%,而在精確率指標(biāo)上提升更為明顯,相較于精確率最高的CharNet模型提升了6.1%。

        表2 在數(shù)據(jù)集A和數(shù)據(jù)集D上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on dataset A and dataset D

        3.5.2 規(guī)則紙幣序列號識別

        在規(guī)則紙幣序列號數(shù)據(jù)集(數(shù)據(jù)集E 至數(shù)據(jù)集H)共四個數(shù)據(jù)集上,使用包含本文提出模型在內(nèi)的八種文本識別模型進(jìn)行橫向的檢測識別性能評估和對比實(shí)驗(yàn)。實(shí)驗(yàn)過程中所選用的測試模型包括:ABCNet v2、TextNet、CharNet、Mask TextSpotter、TEAA[42]、Textboxes[43]、Text Percrptron[44]以及MDATR 模型。在該實(shí)驗(yàn)過程中每個模型均進(jìn)行了多次測試,實(shí)驗(yàn)結(jié)果其平均值。實(shí)驗(yàn)結(jié)果如表3 所示,圖9 為MDATR 模型在規(guī)則紙幣序列號數(shù)據(jù)集上的可視化檢測結(jié)果。

        表3 不同模型的規(guī)則紙幣序列號識別結(jié)果Table 3 Recognition results of different models on regular banknote serial numbers

        由表3 可知,在數(shù)據(jù)集F、數(shù)據(jù)集G 和數(shù)據(jù)集H 上,MDATR模型的測試準(zhǔn)確率分別為92.6%、91.6%和91.7%,與其他測試模型對比實(shí)驗(yàn)效果最優(yōu)。TEAA 模型提出了新的文本對齊層以改進(jìn)傳統(tǒng)的感興趣區(qū)域操作,但對于模糊文本和背景較為復(fù)雜的文本信息識別效果較差,因此在對比實(shí)驗(yàn)中的識別準(zhǔn)確率最低;Textboxes 模型基于VGG-16網(wǎng)絡(luò)對序列號文本進(jìn)行快速定位,隨后采用RCNN識別文本框中的文字內(nèi)容,應(yīng)對大字符間距文本和多角度文本時檢測效果較差;Mask TextSpotter 模型采用區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)進(jìn)行文本的檢測和識別,但由于RPN的結(jié)構(gòu)限制,模型不能處理方向密集或縱橫比過大的文本;Text Percrptron模型采用一種基于分割的文本檢測器和形狀變換模塊對文本區(qū)域進(jìn)行檢測,使得模型的開發(fā)需要大量的中間環(huán)節(jié)。與上述模型不同的是,MDATR模型基于Transformer模型開發(fā),不依賴于感興趣區(qū)域操作因此省去了大量中間開發(fā)環(huán)節(jié),同時可變形注意力機(jī)制能夠克服文本模糊和復(fù)雜背景問題。本組實(shí)驗(yàn)中在數(shù)據(jù)集E上MDATR模型的識別準(zhǔn)確率相較于Text Percrptron模型降低了2.2%,然而在其余數(shù)據(jù)集的測試過程中,MDATR 模型的識別準(zhǔn)確率分別提升了3.8%、1.1%和0.4%,體現(xiàn)了本文提出模型的優(yōu)越性。

        3.5.3 一般紙幣序列號識別

        為驗(yàn)證所提出模型應(yīng)對復(fù)雜場景下紙幣序列號識別任務(wù)時的有效性,在一般紙幣序列號數(shù)據(jù)集上,使用包含本文提出模型在內(nèi)的六種文本識別模型進(jìn)行橫向的檢測識別性能評估及對比實(shí)驗(yàn)。選用的測試模型包括:ABCNet v2、TUTS[17]、TextNet、Mask TextSpotter v3[45]、MSR[46]和SPRN[47]和模型。實(shí)驗(yàn)過程中每個模型均開展了多次實(shí)驗(yàn),最終結(jié)果取均值,實(shí)驗(yàn)結(jié)果如表4所示。

        表4 不同模型的一般紙幣序列號識別結(jié)果Table 4 Recognition results of different models on general banknote serial numbers

        由表4可知,本次實(shí)驗(yàn)中MDATR模型的識別精確率為93.7%,F(xiàn)值為87.6%,實(shí)驗(yàn)效果最優(yōu)。Mask TextSpotter模型受限于候選區(qū)域網(wǎng)絡(luò)限制,不能有效識別多尺度特征信息,因此識別精度不佳,Mask TextSpotter v3 模型則是改進(jìn)了區(qū)域候選網(wǎng)絡(luò),結(jié)合硬感興趣區(qū)域掩碼操作克服了處理極高寬比或不規(guī)則形狀文本時的局限性,使得識別精確率達(dá)到90.6%;MSR模型利用多尺度形狀回歸網(wǎng)絡(luò),提取并融合不同尺度的特征,對文本尺度變化具有很好的容忍度,識別精確率達(dá)到84.2%;SPRN模型利用區(qū)域定位網(wǎng)絡(luò)快速定位文本并估計(jì)文本尺度,隨后通過文本檢測器和后處理過程實(shí)現(xiàn)多尺度文本檢測,但模型設(shè)計(jì)復(fù)雜處理時間較長;TUTS 模型則是利用改進(jìn)的感興趣區(qū)域操作來提取不規(guī)則文本區(qū)域中有用的多尺度特征信息,識別準(zhǔn)確率達(dá)到87.6%,但感興趣區(qū)域操作也使得模型的計(jì)算復(fù)雜度依然較高。

        MDATR 模型利用多尺度可變形注意力機(jī)制,通過減少采樣點(diǎn)個數(shù)降低模型計(jì)算量,同時提取并融合圖像的多尺度特征信息。與TUTS 模型相比,MDATR 模型的識別精確率提升了6.9%,F(xiàn)值提升了1.7%。

        圖10為不同模型在一般紙幣序列號圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果示意圖。由圖10可知,Mask TextSpotter v3模型相對于Mask TextSpotter模型利用分段建議網(wǎng)絡(luò)提升了對不規(guī)則文本的識別精度,然而其在應(yīng)對旋轉(zhuǎn)角度較大的文本和小尺寸文本識別時,檢測精確度較差;MSR模型使用了多尺度回歸網(wǎng)絡(luò),用于融合多尺度特征信息,相比Mask TextSpotter v3模型能夠有效避免旋轉(zhuǎn)角度影響,但其針對于嚴(yán)重變形的多尺度文本或模糊的小尺寸文本識別準(zhǔn)確率較差。TUTS模型為了更好地處理多尺度文本特征,引入了感興趣區(qū)域掩碼操作提取有用的多尺度特征信息,但增加了模型復(fù)雜度的同時在識別有陰影遮擋或是模糊文本時識別效果較差。

        圖10 一般紙幣序列號檢測結(jié)果示意圖Fig.10 Diagram of banknote serial number detection results under complex scenario

        與上述方法相比,提出的MDATR模型利用可變形注意力模塊精確提取小尺寸檢測目標(biāo),融合多尺度特征信息,并實(shí)現(xiàn)了更優(yōu)的特征編碼以及特征融合。另外由于僅在參考點(diǎn)周圍取一定數(shù)量的采樣點(diǎn),降低了采樣點(diǎn)個數(shù),與常規(guī)注意力機(jī)制相比有效降低了模型復(fù)雜度,提升了計(jì)算效率;同時MDATR模型還將多尺度特征信息在雙解碼器中共享,結(jié)合多邊形邊框檢測模塊準(zhǔn)確預(yù)測多邊形文本控制點(diǎn)位置以及相應(yīng)的字符坐標(biāo)。在紙幣序列號呈現(xiàn)出扭曲變形、文本模糊、陰影遮擋以及大小不一等特點(diǎn)時,MDATR 模型仍能夠相對準(zhǔn)確地識別出紙幣序列號文本信息,在應(yīng)對多尺度文本和小尺寸文本識別任務(wù)時,其優(yōu)勢尤為明顯。

        3.5.4 消融實(shí)驗(yàn)

        本文提出的MDATR 模型主要是針對紙幣序列號圖像數(shù)據(jù)集的特點(diǎn)進(jìn)行文本識別。為了進(jìn)一步驗(yàn)證MDATR 模型中各個模塊的有效性和優(yōu)越性,在一般紙幣序列號圖像數(shù)據(jù)集上開展了消融實(shí)驗(yàn)。其中,選取的對比模型包括:Textboxes、Mask TextSpotter v3和CPN[48]。消融實(shí)驗(yàn)結(jié)果如表5所示,圖11為消融實(shí)驗(yàn)結(jié)果示意圖。

        表5 消融實(shí)驗(yàn)結(jié)果Table 5 Detection results of ablation experiments

        圖11 消融實(shí)驗(yàn)結(jié)果示意圖Fig.11 Diagram of ablation experiment results

        多尺度可變形注意力模塊有效性驗(yàn)證。為驗(yàn)證該模塊的有效性,使用ResNet 最后階段的特征圖進(jìn)行實(shí)驗(yàn)。如表5 所示,CPN 模型利用CNN 網(wǎng)絡(luò)提取多尺度文本的空間特征,同時在模型主干中加入了可變形卷積,用以增強(qiáng)對于變形和長文本信息的適應(yīng)性,其識別精確率、召回率和F值分別達(dá)到89.8%、82.7%和86.1%。相比之下,結(jié)合圖11可知,多尺度可變形注意力模塊能夠有效提取多尺度文本特征信息,針對目標(biāo)文本周圍進(jìn)行采樣以充分利用文本多尺度信息,對于嚴(yán)重扭曲變形的紙幣序列號文本識別效果良好,相較于常規(guī)的可變形卷積該模塊的變形準(zhǔn)確性較高,檢測的精確度、召回率和F 值分別達(dá)到92.5%、79.1%和85.1%。在MDATR 模型中,多尺度可變形注意力模塊將進(jìn)一步提升模型對紙幣序列號文本的識別效果。其中,文本識別精確率、召回率和F 值分別提高2.0%、4.6%和2.6%。由此可以進(jìn)一步證明,多尺度可變形注意力模塊能夠有效應(yīng)對紙幣序列號文本圖像識別中的扭曲文本信息,進(jìn)而提升模型的識別準(zhǔn)確率。

        另一方面,為驗(yàn)證采樣點(diǎn)個數(shù)對于多尺度可變形注意力模塊識別準(zhǔn)確率的影響,本小節(jié)針對這一問題進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。當(dāng)沒有應(yīng)用多尺度注意力時,采樣點(diǎn)數(shù)量K=1 時,多尺度可變形注意力模塊的作用類似于可變形卷積,此時的識別精確率、召回率和F 值較低,僅能達(dá)到83.6%、81.2%和82.4%;使用多尺度輸入代替單尺度輸入,結(jié)合多尺度可變形注意力,可以將識別精確率提升4.7%。

        表6 不同采樣點(diǎn)個數(shù)下的實(shí)驗(yàn)結(jié)果Table 6 Experimental results with different number of sampling points

        當(dāng)采樣點(diǎn)數(shù)量增加至K=4 時,可以進(jìn)一步提高識別精確率至89.6%;此時引入多尺度可變形注意力,允許多尺度特征之間的跨特征信息交換,可以將識別精確率、召回率和F 值分別提高至92.9%、81.6%和86.9%。由此可以證明,采樣點(diǎn)個數(shù)會對多尺度可變形注意力模塊的識別準(zhǔn)確性產(chǎn)生一定的影響,當(dāng)采樣點(diǎn)個數(shù)K=4時,模型的實(shí)驗(yàn)效果相對較好。

        多邊形邊界框檢測機(jī)制有效性驗(yàn)證。為證明該機(jī)制的有效性,將式(6)中的粗邊界框位置編碼結(jié)果替換為可學(xué)習(xí)嵌入向量進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證該機(jī)制對于序列號文本的識別準(zhǔn)確性是否存在影響,同時引入對比模型進(jìn)一步驗(yàn)證該機(jī)制的優(yōu)越性。

        由表5 可知,Textboxes 模型通過VGG-16 網(wǎng)絡(luò)和RCNN實(shí)現(xiàn)對多邊形文本的定位和識別,但其在處理多方向文本或陰影遮擋的文本時,檢測效果較差,因此在實(shí)驗(yàn)過程中識別精確率最低,僅達(dá)到62.1%。Mask TextSpotter v3模型利用分段建議網(wǎng)絡(luò)檢測彎曲文本的文本,結(jié)合感興趣區(qū)域操作克服陰影遮擋的問題,將識別精確率、召回率和F 值分被提升至89.6%、78.8%和83.9%,然而分段建議網(wǎng)絡(luò)無法有效實(shí)現(xiàn)對于多尺度文本或多角度文本的檢測。

        與上述模型不同的是,在MDATR模型中多邊形邊界框檢測機(jī)制主要是將編碼器得到的特征圖輸入到候選框生成器中,檢測出可能是文本的內(nèi)容,進(jìn)而輸出文本的粗邊界框坐標(biāo)及概率,并篩選出概率最高的Z個粗邊界框,由正弦編碼φ(?)結(jié)合粗邊界框坐標(biāo)進(jìn)行編碼,并將編碼結(jié)果添加共享控制點(diǎn)查詢嵌入輸入到位置解碼器。同時融合編碼器提取的多尺度特征信息,以獲取多尺度文本和小尺寸文本的邊界框控制點(diǎn)坐標(biāo),進(jìn)而確定最終序列號文本的邊界框,以提升對多邊形文本邊界框的定位準(zhǔn)確率。采用多邊形邊框檢測機(jī)制后序列號的識別精確率至91.6%。

        另一方面,在MDATR模型中結(jié)合多尺度可變性注意力模塊,多邊形邊界框檢測機(jī)制可以將序列號文本識別的準(zhǔn)確率、召回率和F值分別提升0.9%、2.9%和2.1%,分別達(dá)到93.4%、81.4%和86.9%,進(jìn)一步證明多邊形邊框檢測機(jī)制能夠提升模型應(yīng)對多尺度序列號文本的識別準(zhǔn)確率。圖11的可視化結(jié)果表明,Mask TextSpotter v3模型在應(yīng)對模糊文本和小尺寸文本時識別效果不佳;而在MDATR模型中引入了多邊形邊框檢測機(jī)制后,模型針對于一般場景下的不規(guī)則紙幣序列號文本框的定位更加精準(zhǔn),這進(jìn)一步證明,多邊形邊界框檢測機(jī)制能夠準(zhǔn)確的定位出紙幣序列號文本的邊界框,幫助模型提升在實(shí)際場景中紙幣序列號圖像的識別準(zhǔn)確性。

        4 結(jié)束語

        針對紙幣序列號由于污染、破損或折疊等情況而影響序列號檢測和識別的問題,設(shè)計(jì)一種紙幣序列號檢測識別系統(tǒng),實(shí)現(xiàn)快速、準(zhǔn)確、全面的紙幣序列號檢測和識別。該系統(tǒng)的主要特點(diǎn)在于:不同于現(xiàn)有的大多是紙幣序列號識別算法是基于字符分割實(shí)現(xiàn)的,該方法結(jié)合多尺度可變形注意力機(jī)制在Transformer的基礎(chǔ)上由一個編碼器和兩個解碼器構(gòu)成的新框架,以并行處理的方式實(shí)現(xiàn)紙幣序列號的檢測識別,提升運(yùn)算速率;針對紙幣序列號區(qū)域扭曲變形的問題,采用一種多邊形邊界框檢測機(jī)制,實(shí)現(xiàn)由邊界框引導(dǎo)的多邊形檢測,保證扭曲的紙幣序列號檢測精度;針對紙幣序列號可能存在的字符大小不一的問題,采用多尺度可變形注意力模塊,降低模型結(jié)構(gòu)復(fù)雜度。

        實(shí)驗(yàn)結(jié)果表明,在面對不規(guī)則文本同時受到污染的紙幣序列號檢測識別任務(wù)時,MDATR 模型檢測精度達(dá)到93.4%;在應(yīng)對復(fù)雜場景下的紙幣序列號文本識別任務(wù)時,MDATR模型相較于主流識別模型,將識別精確度提升了6.9%。與目前主流的文本檢測識別模型相比,該方法對紙幣序列號的檢測更準(zhǔn)確高效,尤其是對于多尺度紙幣序列號文本而言識別效果良好。本文為紙幣的檢測和識別技術(shù)探索提出了一個可靠的研究思路與方案,具有良好的應(yīng)用前景。

        猜你喜歡
        序列號紙幣尺度
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對
        recALL
        消失的紙幣
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        猜紙幣
        猜紙幣
        讀寫算(上)(2016年9期)2016-02-27 08:45:01
        9
        PP助手教你辨別翻新iPhone5小白不再中招
        溫度傳感器DS18B20序列號批量搜索算法
        金山通行證三問三答
        国产麻豆精品久久一二三| 国产一区二区三区不卡视频| 青青草大香蕉视频在线观看| 男ji大巴进入女人的视频小说| 5级做人爱c视版免费视频| 91精品国产无码在线观看| 久久久人妻一区二区三区蜜桃d | 蜜桃成人永久免费av大| 日韩av一区二区三区高清| 日韩av激情在线观看| 少妇高潮惨叫久久久久久| 四虎国产精品成人影院| 男女上床免费视频网站| 乱色精品无码一区二区国产盗| 99久久久无码国产精品免费砚床| 亚洲精品国产福利在线观看| 国产自拍精品在线免费观看| 特黄做受又硬又粗又大视频小说| 亚洲精品国产成人AV| 毛片av在线尤物一区二区| 国产成人一区二区三区乱| 内射少妇36p亚洲区| 亚洲欧洲精品成人久久曰不卡| 91国内偷拍一区二区三区| 久久精品免费一区二区喷潮| 国产性生交xxxxx免费| 亚洲AⅤ男人的天堂在线观看| 日本一区二区三区高清视| 成人精品天堂一区二区三区| 久久ri精品高清一区二区三区 | 丝袜美腿在线播放一区二区| 成人a级视频在线播放| 精品国精品国产自在久国产应用| 全免费a级毛片免费看视频| 蜜桃av噜噜一区二区三区香| 久久精品av在线观看| 大肉大捧一进一出视频出来呀| 中国精品视频一区二区三区| 国产乱人伦偷精品视频还看的| 2020无码专区人妻系列日韩| 日日人人爽人人爽人人片av|