亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        嵌入注意力機制的自然場景文本檢測方法

        2021-12-21 13:51:26楊鍶齊易堯華湯梓偉王新宇
        計算機工程與應(yīng)用 2021年24期
        關(guān)鍵詞:注意力準確率特征

        楊鍶齊,易堯華,湯梓偉,王新宇

        武漢大學(xué) 印刷與包裝系,武漢430079

        自然場景圖像含有豐富的文本信息,準確檢測到圖像中的文本信息有助于正確理解圖像內(nèi)容。傳統(tǒng)文本檢測方法主要基于連通域分析[1]和紋理特征分析[2],人工痕跡較重、適用范圍較窄。近年來,基于深度學(xué)習(xí)的自然場景文本檢測[3-4]方法發(fā)展迅速,廣泛應(yīng)用于圖像/視頻檢索[5]、智能導(dǎo)航無人駕駛[6]等領(lǐng)域,并成為當(dāng)下研究熱點之一。自然場景文本檢測方法主要存在以下三方面挑戰(zhàn):(1)圖像文本形式多樣,具有不同顏色、字體、大小、形狀;(2)自然場景圖像背景復(fù)雜,存在類文本目標如柵欄或窗戶等;(3)自然場景圖像中文本上存在光照不均勻、噪聲等干擾因素。

        為了應(yīng)對上述挑戰(zhàn),大量基于深度學(xué)習(xí)的自然場景文本檢測方法被提出。其中,基于Faster R-CNN[7]的自然場景文本檢測方法檢測速度快、精度高、具有較好的穩(wěn)定性。此類方法利用CNN網(wǎng)絡(luò)進行特征提取,通過預(yù)設(shè)數(shù)量固定、尺度不同、長寬比不同的anchor,生成包含文本的感興趣區(qū)域(ROIs),最后進行回歸和分類計算,得到文本檢測結(jié)果。在此基礎(chǔ)上,Tian等[8]提出CTPN自然場景文本檢測方法。首先,由RPN提取固定寬度為16像素的子文本區(qū)域,再將子文本區(qū)域的特征送入循環(huán)神經(jīng)網(wǎng)絡(luò)得到一系列子文本信息,最后合并得到最終文本檢測結(jié)果。Prasad等[9]以Faster R-CNN為基礎(chǔ),串聯(lián)文字載體目標檢測網(wǎng)絡(luò)與文本檢測網(wǎng)絡(luò),利用文字載體信息輔助定位文字,文本檢測效果達到先進水平。此外,在anchor的研究中,Liao等[10]提出的自然場景文本檢測方法TextBoxes,為適合文本檢測,重新設(shè)計anchor的長寬比為1、2、3、5、7、10提高了文本檢測的召回率。雖然上述方法基本解決了圖像文本形式多樣的問題,并且可以從背景中定位文本,但是檢測效果會受到文本圖像中各種噪聲的影響,極易導(dǎo)致檢測文本的內(nèi)容不完整和漏檢如圖1所示。

        圖1 文本檢測中的文本不完整與漏檢Fig.1 Broken results and omissions in text detection

        通常情況下,檢測文本的內(nèi)容不完整可以通過圖像后處理加以減弱,例如按比例擴大檢測框邊界,但是這種方法適用性較差、調(diào)參復(fù)雜。鑒于目標分類領(lǐng)域的注意力機制,被廣泛地應(yīng)用于提升CNN模型對圖像中有效區(qū)域的感知能力,能夠減少圖像噪聲與背景對分類結(jié)果的影響。Woo等[11]提出了一種輕量、通用的注意力機制模塊,分別在空間和通道上對特征賦予注意力權(quán)重加成,從而特征具有更好的解釋性,并且更加關(guān)注目標物體本身。但是該模塊被運用在每段CNN網(wǎng)絡(luò)主干上,導(dǎo)致運算緩慢并不適用于實時性較強的文本檢測任務(wù)。為了保證檢測方法的時效性,本文將注意力機制運用到結(jié)構(gòu)簡單的RPN中,從而保留了注意力機制的引導(dǎo)作用。

        為了解決檢測文本的內(nèi)容不完整和漏檢問題,綜上考慮,本文提出嵌入注意力機制的自然場景文本檢測方法,主要內(nèi)容如下:

        (1)使用FPN融合深層、淺層CNN語義信息,兼顧大尺度文本與小尺度文本的檢測,提升了召回率。

        (2)設(shè)計嵌入注意力機制的RPN(AM-RPN),利用注意力機制增強圖像中文本特征并引導(dǎo)模型的關(guān)注方向,提升獲取ROIs的準確性,保證檢測文本的完整,進一步提高召回率。

        1 嵌入注意力機制的文本檢測方法

        本文方法共分為三個部分:CNN特征提取、AM-RPN以及后處理模塊,如圖2所示。CNN特征提取在基礎(chǔ)網(wǎng)絡(luò)后增加了優(yōu)化后的FPN結(jié)構(gòu),最終輸出多層融合深層、淺層特征的特征層。AM-RPN通過引入注意力機制,對輸入的特征層在顏色通道以及空間上增強其文本特征,最后輸出多個包含文本的建議區(qū)域。后處理部分將各層檢測得到的文本框進行NMS處理,融合得到最終的文本檢測結(jié)果。

        圖2 方法流程圖Fig.2 Flow sheet of proposed method

        1.1 CNN特征提取

        本文方法以Faster R-CNN為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),ResNet-101為骨干網(wǎng)絡(luò)。但隨著網(wǎng)絡(luò)模型的不斷加深,特征所具有的深層語義信息更加顯著,淺層顏色紋理等信息逐漸丟失,小尺度文本難以檢測。為了解決該問題,本文在CNN特征提取模塊使用了FPN。如圖3所示。圖中{C2,C3,C4,C5}分別表示ResNet-101中conv2_x、conv3_x、conv4_x、conv5_x層,經(jīng)FPN處理計算得到特征層集合表示為fi={f2,f3,f4,f5,f6},計算過程如公式(1)所示:

        圖3 CNN特征提取模塊Fig.3 CNN feature extraction module

        其中,Upsample(·)表示步長為2的上采樣,MaxPool(·)表示最大值池化計算;由于fi的每一層均會作為RPN的輸入并完成回歸與分類的計算,所以Convi(·)為1×1卷積模版的卷積層,并約束fi的通道數(shù)均為256。通過深層特征的上采樣與淺層特征進行融合,在顧及小尺度目標檢測同時,增強對大尺度目標的感知,一定程度提升文本檢測召回率。

        1.2 嵌入注意力的區(qū)域建議網(wǎng)絡(luò)

        RPN在生成ROIs以便于進行后續(xù)文本檢測任務(wù)起到關(guān)鍵作用。一般情況下,經(jīng)RPN生成的得分高的ROIs中存在大量非文本區(qū)域即負樣本。因而在對文本/非文本分類同時,更多地過濾非文本的區(qū)域,有助于提升正樣本的準確性,生成更準確的ROIs。本文方法利用注意力機制增強圖像中文本特征的特點,提出引入注意力機制的AM-RPN,其中注意力機制包含空間注意力機制和通道注意力機制,如圖4所示。

        圖4 AM-RPN模塊Fig.4 AM-RPN module

        首先,輸入的特征fi∈RC×H×W經(jīng)通道注意力模塊得到一維通道注意力權(quán)重系數(shù)Wc∈RC×1×1,再和原來的特征fi相乘得到加權(quán)后的特征如公式(2)所示。其次,′經(jīng)空間注意力模塊得到的二維空間注意力權(quán)重系數(shù),與加權(quán)后的特征′相乘即可得到最終輸出的特征,如公式(3)所示:

        其中,?表示為對應(yīng)矩陣元素進行相乘的運算。利用通道注意力權(quán)重和空間注意力權(quán)重對特征進行加權(quán),達到文本特征加強,非文本特征抑制的效果。

        1.2.1 通道注意力權(quán)重和空間注意力權(quán)重

        為有效計算通道注意力權(quán)重,本文方法通過利用平均值池化和最大值池化計算挖掘更精確的通道注意力信息,如圖5所示。

        圖5 通道注意力方法示意圖Fig.5 Diagram of channel attention

        首先,對經(jīng)FPN輸出的特征fi分別進行平均值池化和最大值池化計算,得到兩組一維通道特征。然后,將所得一維通道特征經(jīng)“卷積層—RELU激活函數(shù)—卷積層”的計算得到新的兩組一維通道特征。最后,將兩組一維特征相加后激活后得到最終通道注意力權(quán)重,計算公式如式(4)所示:

        其中,⊕為矩陣加法運算符,Sigmoid為Sigmoid激活函數(shù),AvgPool和MaxPool為將特征層fi分別進行平均池化、最大值池化至C×1×1的特征,σ(x)如公式(5)所示,x為函數(shù)變量。

        σ(x)的計算中,Relu為RELU激活函數(shù);Conv_1為1×1卷積模版的卷積層,其輸入特征的通道數(shù)是輸出特征的16倍;Conv_2為1×1卷積模版的卷積層,其輸入特征的通道數(shù)是輸出特征的1/16倍。

        在利用特征的通道間的信息,由通道注意力模塊生成Wc后,對經(jīng)Wc加權(quán)后的特征fi′送入空間注意力模塊得到Ws。如圖6所示,在空間注意力模塊中,先對輸入的特征fi′沿通道方向進行最大值池化和平均值池化,再對所得二維特征進行卷積,經(jīng)Sigmoid函數(shù)激活后得到最終的空間注意力權(quán)重,過程如公式(6)所示:

        圖6 空間注意力方法示意圖Fig.6 Diagram of spatial attention

        其中,Sigmoid為Sigmoid激活函數(shù),Maxc與Meanc為對特征fi′在通道方向上分別求最大值與平均值,結(jié)果均為1×H×W的二維特征,Θ(x,y)如公式(7)所示,(x,y)為函數(shù)變量,即任意2個1×H×W的二維特征。

        Θ(x,y)公式中,Concat(x,y)表示將特征x與y從通道維度上進行拼接,得到2×H×W的特征;Conv_3為7×7卷積模版的卷積層,輸入2×H×W的特征,輸出為1×H×W的特征。

        上述方法,利用特征層的通道以及空間關(guān)系得到通道注意力權(quán)重和空間注意力權(quán)重,能夠增強檢測模型對文本區(qū)域的感知,便于ROIs生成。

        1.2.2 Anchor的設(shè)置

        在本文方法中,anchor長寬比設(shè)置為1、2、3、5、7、10、1/2、1/3,其中,1、2、3、5、7、10便于水平方向的文本檢測,1/2、1/3便于垂直方向的文本檢測;anchor的單元尺度設(shè)置為8;在{f2,f3,f4,f5,f6}上anchor的步長分別設(shè)置為{64,32,16,8,4}。

        1.3 后處理模塊

        在本文方法中,AM-RPN將產(chǎn)生大量的ROIs,為了便于ROIs進行后續(xù)的分類與回歸計算,本文使用ROIAlign[12]對fi(i={2,3,4,5,6})與各層對應(yīng)的ROIs分別進行處理,得到各層對應(yīng)的大小統(tǒng)一的特征。

        當(dāng)分類計算完成后,仍然存在大量的候選區(qū)域,通過使用NMS,過濾冗余、重疊的檢測結(jié)果,簡單高效地獲取最優(yōu)文本檢測結(jié)果。NMS算法原理如下:

        經(jīng)NMS處理后,文本檢測的結(jié)果,如圖7所示。圖7(a)為輸入圖像,圖7(b)為候選區(qū)域映射在原圖的示意圖,其中紅色框表示文本分類置信度最高的區(qū)域,圖7(c)為經(jīng)NMS處理后文本檢測結(jié)果,紅色框表示最終的檢測區(qū)域。

        圖7 NMS處理效果示意圖Fig.7 Diagram of NMS results

        1.4 損失函數(shù)

        依據(jù)Faster R-CNN中損失函數(shù)的設(shè)計思路,本文方法總損失函數(shù)L主要由分類損失和回歸損失兩部分構(gòu)成,其計算如式(8)所示,λ為權(quán)重平衡參數(shù),此處取λ=1。

        其中分類損失部分,將原本的多類損失改為“文本”與“非文本”的二分類交叉熵,計算如式(9)所示,當(dāng)真實文本框與anchor的交并比大于0.7時,anchor為正樣本,小于0.3時,anchor為負樣本,交并比計算如式(10)所示,其中area(G)、area(A)分別為真實文本框與anchor的面積。pi為anchori的預(yù)測分類概率,anchori是正樣本時是負樣本時,為最小批尺寸數(shù)值。

        回歸損失使用的是Smooth L1 loss,其計算如式(11)、(12)所示。分別為anchori利用本文方法實際檢測到的文本框以及真實文本框的參數(shù)化坐標,Nreg為生成anchor的數(shù)量。

        需要說明的是,在訓(xùn)練過程中AM-RPN將直接由損失函數(shù)L進行參數(shù)調(diào)節(jié)。

        2 實驗與分析

        2.1 數(shù)據(jù)集與評價指標

        ICDAR 2013數(shù)據(jù)集[13]是一個全英文的自然場景文本檢測競賽標準數(shù)據(jù)集,共含有462張自然場景,其中229張為訓(xùn)練集,233張為測試集,圖像分辨率不一,圖像中文本為水平文本,且提供單詞級別的文本標注。

        本文采用DetEval評價方法[14],檢測匹配順序為一對多、多對一、一對一。主要利用準確率(Precision,P)、召回率(Recall,R)、綜合評價指標(F-measure,F(xiàn))這個三個評價指標表征結(jié)果,如式(13)~(15)。此外,利用表征檢測速度的參數(shù)即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為效率參考標準。

        其中,召回率閾值tr和準確率tp閾值取值范圍為[0,1],依據(jù)文獻取值分別為tr=0.8,tp=0.4。G、D分別表示真實文本框與本文方法實際檢測的文本框,MatchG和MatchD是真實文本框和實際文本框的匹配函數(shù),用于區(qū)分匹配類型。

        2.2 實驗細節(jié)

        本文方法在Linux系統(tǒng)搭建實驗平臺,CPU型號為Xeon?E5-2640 v4、內(nèi)存為128 GB、GPU型號為Tesla V100。

        本文使用ResNet-101作為方法的基礎(chǔ)模型,通過隨機梯度下降的優(yōu)化方式進行端到端的訓(xùn)練,學(xué)習(xí)率(learning rate)初始設(shè)置均設(shè)置為0.004,迭代500次內(nèi)逐漸上升到0.01,并設(shè)定在第9個迭代輪次(epoch)和第12個迭代輪次分別將學(xué)習(xí)率調(diào)整為0.001與0.000 1。批尺寸均設(shè)置為(batchsize)為4,動量(momentum)均設(shè)為0.9。

        在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)通過以下方法進行數(shù)據(jù)增強:(1)輸入圖像按照0.5的比例進行左右翻轉(zhuǎn);(2)輸入圖像將短邊縮放到800像素且保持原有縱橫比。先利用Synth-1k人工合成數(shù)據(jù)集進行50個迭代輪次的模型預(yù)訓(xùn)練。再利用ICDAR-2013數(shù)據(jù)集中229張訓(xùn)練集,迭代25個迭代輪次進行微調(diào)得到最終的檢測模型。

        2.3 實驗結(jié)果與分析

        2.3.1 NMS參數(shù)分析

        在測試階段,AM-RPN模塊與后處理模塊均采用了NMS算法對候選區(qū)域進行了篩選,避免文本候選框冗余。本文將對NMS的閾值進行實驗分析,利用ICDAR2013測試集進行測試,為了減小分類置信度對實驗的影響,所以將分類置信度設(shè)置為0.1。實驗結(jié)果如圖8所示,分別為AM-RPN模塊NMS閾值(ARNMS)與后處理模塊NMS閾值(PPNMS)設(shè)置對P、R、F的影響??梢园l(fā)現(xiàn)AM-RPNNMS∈[0.1,0.3]、PPNMS∈[0.1,0.3]時,P、R、F均可以取得優(yōu)秀的結(jié)果,所以,AM-RPNNMS與PPNMS均設(shè)置為0.2。

        圖8 NMS參數(shù)實驗結(jié)果圖Fig.8 Presentation for NMS parameters selection

        2.3.2 消融實驗對比分析

        為了說明方法設(shè)計的每個模塊對最終結(jié)果是否為正相關(guān),本文將進行消融實驗加以驗證。本文以Faster-RCNN為基礎(chǔ)框架,引入并優(yōu)化了FPN以滿足適合各尺度文本檢測要求;針對自然場景中文本內(nèi)容檢測不完整、漏檢的問題,提出AM-RPN。消融實驗在ICDAR2013數(shù)據(jù)集進行,從Faster-RCNN開始逐步融合各個模塊并計算出對應(yīng)的準確率、召回率與F值,實驗結(jié)果如表1所示。實驗過程其他參數(shù)均保持一致,F(xiàn)aster-RCNN選取Resnet-101的conv4_x最后一層作為RPN的輸入。

        表1 消融實驗結(jié)果Table 1 Ablation experiment results

        通過表1發(fā)現(xiàn),{P6}層的使用召回率和F值分別提高了0.024和0.006但準確率下降了0.014,經(jīng)分析由于{P6}層的增加擴大了模型的感受野,使得更多較大的文本得到檢測,但{P6}也會相對應(yīng)地增加干擾區(qū)域?qū)е聹蚀_率下降;在Faster-RCNN與FPN融合的基礎(chǔ)上,單獨使用通道注意力對RPN進行優(yōu)化,通道注意力加強了文本區(qū)域在各個通道里的權(quán)重,但也丟失了一些難例文本區(qū)域,因此準確率提高了0.028,但是召回率下降了0.02;最后完整地使用AM-RPN,通過利用空間注意力使得文本區(qū)域更加顯著并減少了各種因素的干擾,召回率、準確率和F值分別達到0.845、0.880和0.862。此外,本文對Faster R-CNN與AM-RPN融合進行了實驗召回率、準確率和F值分別為0.595、0.835、0.695,由于AM-RPN的輸入為ResNet-101的深層特征導(dǎo)致模型難以捕捉到小文本造成了召回率下降。

        2.3.3 實驗結(jié)果對比

        本文在ICDAR-2013數(shù)據(jù)集上進行方法性能驗證的實驗。用召回率、準確率、F值和檢測時間(frame/s,F(xiàn)PS)評價方法的性能,實驗結(jié)果如表2所示。

        表2 ICDAR-2013數(shù)據(jù)集評估結(jié)果Table 2 Evaluation results on ICDAR-2013 dataset

        與近幾年的自然場景文本檢測方法相比,本文方法得到了較高的召回率、準確率和F值分別為0.845、0.880和0.862。在保證了檢測效果的同時,本文方法的時間損耗同樣良好,F(xiàn)PS為6.5。與文獻[18]對比,本文在召回率、F值和FPS分別提升了0.028、0.015和3.5;與文獻[20]相比,本文召回率提升了0.015,準確率落后了0.02,F(xiàn)值提升了0.002。

        2.3.4 檢測結(jié)果分析

        本文提出嵌入注意力機制的自然場景文本檢測方法。使用優(yōu)化了FPN結(jié)構(gòu)使得小文本得到一定程度檢測,同時提出AM-RPN,有效地提高了檢測文本的完整度和召回率,檢測結(jié)果與對比如圖9所示。

        圖9 本文方法檢測效果示意圖Fig.9 Diagram of detection results

        圖9 (a)為文獻[15-16,19-20]檢測效果圖;圖9(b)是(a)的本文方法檢測效果圖,圖9(c)為圖1的對比樣本展示??梢园l(fā)現(xiàn)本文方法可以完整地檢測到文本區(qū)域,且未出現(xiàn)漏檢;對比其他文獻的結(jié)果,本文檢測到的文本區(qū)域更加精準、更加貼合實際的文本邊界;此外,從圖9(c)的檢測結(jié)果中可以發(fā)現(xiàn)本文方法對小目標文本和干擾環(huán)境下文本的檢測也具有一定的魯棒性。

        3 結(jié)論

        本文提出了嵌入注意力機制的自然場景文本檢測方法。該方法主要解決自然場景文本檢測內(nèi)容不完整和漏檢的問題。通過在主干網(wǎng)絡(luò)中增加FPN,利用多尺度特征融合的方法將待檢測圖像輸入CNN特征提取網(wǎng)絡(luò),再利用嵌入注意力機制的區(qū)域建議網(wǎng)絡(luò)結(jié)合CNN提取的區(qū)域特征,經(jīng)端到端的訓(xùn)練,生成高質(zhì)量的區(qū)域候選框,最后IoU設(shè)定為0.2的NMS后處理篩選得到檢測結(jié)果。本文方法在ICDAR-2013數(shù)據(jù)集測試實驗結(jié)果的召回率、準確率、F值以及FPS分別為0.845、0.880、0.862和6.5。

        與最新的方法相比,本文在保證檢測速度的同時提高了召回率、準確率,顯著改善了自然場景文本檢測的效果。但是本文方法對類文本目標的誤檢和多方向文本的檢測處理效果不佳,后續(xù)擬分別通過級聯(lián)文本識別模塊和設(shè)置多方向、多角度的anchor加以解決。

        猜你喜歡
        注意力準確率特征
        讓注意力“飛”回來
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        如何表達“特征”
        不忠誠的四個特征
        高速公路車牌識別標識站準確率驗證法
        抓住特征巧觀察
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        欧美丰满熟妇xxxx性| 亚洲视频综合在线第一页| 综合成人亚洲网友偷自拍| 国产人妻高清国产拍精品| 久久久久久国产精品无码超碰动画| 波多野结衣视频网址| 国产一级片内射在线视频| 丝袜美腿福利视频在线| 成人特黄a级毛片免费视频| 综合三区后入内射国产馆| 最新亚洲无码网站| 久久久人妻精品一区bav| 综合色就爱涩涩涩综合婷婷| 人妻精品无码一区二区三区 | 国产一区二区黄色网页| 亚洲精品一品区二品区三品区| 亚洲精品无码久久毛片| 久久国产精品男人的天堂av | 日韩成人精品日本亚洲| 国产午夜精品久久精品| 中文字幕在线日亚州9| 亚洲日韩∨a无码中文字幕| 亚洲成av人无码免费观看| 亚洲av日韩专区在线观看| 蜜桃一区二区三区| 99久久久国产精品免费蜜臀| 国产av一区二区三区香蕉| 狠狠躁夜夜躁av网站中文字幕| 国产成人综合久久亚洲精品| 久热香蕉av在线爽青青| 亚洲av毛片在线播放| 人妻无码一区二区三区| 97人人超碰国产精品最新o| 国产一区二区在线观看我不卡| 国产不卡视频在线观看| 一本色道无码道dvd在线观看| 综合网五月| 一区二区亚洲熟女偷拍| 乱人伦中文视频在线| 真人男女做爰无遮挡免费视频| 蜜臀av人妻一区二区三区|