摘 要:自然場(chǎng)景文本檢測(cè)是圖像處理領(lǐng)域的基礎(chǔ)性研究工作,具有廣泛的應(yīng)用價(jià)值。目前,自然場(chǎng)景文本檢測(cè)通常采用單尺度卷積和多尺度特征融合來(lái)捕獲場(chǎng)景文本語(yǔ)義特征。然而,單尺度卷積方法通常難以兼顧不同形狀、不同尺度的文本目標(biāo)的特征表達(dá)。同時(shí),基于上采樣的簡(jiǎn)單的多尺度特征融合方法,只關(guān)注了尺度大小的一致性,而忽略了不同尺度下特征的重要性。針對(duì)以上問(wèn)題,提出一種基于多尺度特征提取和雙向特征融合的場(chǎng)景文本檢測(cè)算法。所提算法基于不同大小卷積核構(gòu)建多尺度特征提取模塊,以兼顧不同尺度和不同形狀文本目標(biāo)的特征提取,同時(shí)捕獲不同距離上下文信息依賴(lài)關(guān)系。在特征融合過(guò)程中,通過(guò)增加自下而上的融合路徑構(gòu)建雙向特征融合模塊實(shí)現(xiàn)不同尺度信息交互。特征融合后引入坐標(biāo)注意力,以實(shí)現(xiàn)高層細(xì)節(jié)信息增強(qiáng),彌補(bǔ)特征融合細(xì)節(jié)信息損失的缺陷。在ICDAR2015、MSRA-TD500、CTW1500數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果F值分別達(dá)到87.8%、87.1%和83.2%,檢測(cè)速度分別達(dá)到17.2幀/s、31.1幀/s和22.3幀/s,相較于其他先進(jìn)檢測(cè)方法展現(xiàn)出良好的魯棒性。
關(guān)鍵詞:文本檢測(cè);多尺度特征提取;雙向特征融合;坐標(biāo)注意力;可微分二值化
DOI:10.15938/j.jhust.2024.04.004
中圖分類(lèi)號(hào): TP391.41
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)04-0029-11
Scene Text Detection Based on Multi-scale Feature
Extraction and Bidirectional Feature Fusion
LIAN Zhe, YIN Yanjun, ZHI Min, XU Qiaozhi
(College of Computer Science and Technology, Inner Mongolia Normal University, Hohhot 010022, China)
Abstract:Natural scene text detection is a fundamental research work in the field of image processing and has a wide range of applications. Currently, natural scene text detection usually adopts single-scale convolution and multi-scale feature fusion to capture the semantic features of scene text. However, single-scale convolution methods are usually difficult to take into account the feature representation of text targets with different shapes and scales. Meanwhile, simple multi-scale feature fusion methods based on upsampling only focus on the consistency of scale size, while ignoring the importance of features at different scales. To address the above problems, a scene text detection algorithm based on multi-scale feature extraction and bidirectional feature fusion is proposed. The proposed algorithm constructs a multi-scale feature extraction module based on convolutional kernels of different sizes to take into account the feature extraction of text targets of different scales and shapes, while capturing contextual information dependencies at different distances. In the feature fusion process, a bi-directional feature fusion module is constructed by adding bottom-up fusion paths to achieve different scales of information interaction. Coordinate attention is introduced after feature fusion to achieve high-level detail information enhancement and compensate for the deficiency of feature fusion detail information loss. Extensive experiments are conducted on the ICDAR2015, MSRA-TD500, and CTW1500 datasets, and the experimental F1 values reach 87.8%, 87.1%, and 83.2%, respectively, with detection speeds of 17.2 frames/s, 31.1 frames/s, and 22.3 frames/s, respectively, showing good robustness compared with other advanced detection methods.
Keywords:text detection; multi-scale feature extraction; bidirectional feature fusion; coordinate attention; differentiable binarization
0 引 言
自然場(chǎng)景下文本檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域基礎(chǔ)且重要的研究課題,其目的是通過(guò)文本檢測(cè)網(wǎng)絡(luò)定位圖像中的文本區(qū)域。準(zhǔn)確的文本檢測(cè)結(jié)果有利于廣泛的實(shí)際應(yīng)用,如無(wú)人駕駛[1]、圖像檢索[2]、工業(yè)自動(dòng)化[3]等圖像理解任務(wù)。
近年來(lái),基于深度學(xué)習(xí)的文本檢測(cè)方法表現(xiàn)出優(yōu)異的性能,這些方法總體上可以分為基于回歸的算法和基于分割的算法。
基于回歸的算法將圖像中文本看作同一類(lèi)檢測(cè)目標(biāo),根據(jù)不同的文本特征設(shè)計(jì)不同比例和大小的候選框,直接預(yù)測(cè)文本實(shí)例邊界。受Faster RCNN[4]啟發(fā),DeepText[5]首次將基于感知(inception)模塊的區(qū)域生成網(wǎng)絡(luò)Inception-RPN(inception region proposal network)應(yīng)用于文本檢測(cè),極大提高了候選區(qū)域的提取效率和質(zhì)量,但它只適用于水平文本。為了適應(yīng)非水平文本,RRPN[6]將旋轉(zhuǎn)因素并入Faster RCNN,提出旋轉(zhuǎn)感興趣區(qū)域池化層RRol(Rotation Region-of-Interest),將任意方向的建議映射到特征圖。RRD(rotation-sensitive regression detector)[7]則是通過(guò)調(diào)整SSD(single shot multiBox detector)[8]的錨定比,來(lái)適應(yīng)非規(guī)則形狀文本的寬高比變化。同樣基于SSD,TextBoxes++[9]引入角度預(yù)測(cè),實(shí)現(xiàn)任意方向文本檢測(cè)?;诨貧w的算法沒(méi)有復(fù)雜的后處理過(guò)程,在規(guī)則文本檢測(cè)時(shí)效果較好。面對(duì)彎曲文本和極端寬高比文本時(shí),雖然研究者進(jìn)行了深入研究提出眾多檢測(cè)模型,但檢測(cè)性能仍需提升。
基于分割的算法通過(guò)獲取像素級(jí)標(biāo)簽預(yù)測(cè)和聚合像素的后處理算法來(lái)實(shí)現(xiàn)文本檢測(cè),該類(lèi)算法性能高度依賴(lài)于特征處理方式和復(fù)雜的后處理過(guò)程。例如,PixelLink[10]采用改進(jìn)的VGG16作為主干進(jìn)行特征提取,通過(guò)鏈接預(yù)測(cè)后處理過(guò)程實(shí)現(xiàn)文本區(qū)域和非文本區(qū)域分離。PSENet[11]則是采用ResNet+FPN結(jié)構(gòu)進(jìn)行特征處理,漸進(jìn)尺度擴(kuò)展后處理算法實(shí)現(xiàn)重構(gòu)文本實(shí)例。特別是,DBNet(differentiable binarization network)[12]提出的可微分二值化后處理,為基于分割的算法領(lǐng)域帶來(lái)重大突破。但DBNet簡(jiǎn)單的特征提取和融合結(jié)構(gòu)導(dǎo)致預(yù)測(cè)特征圖的特征丟失。Ibrayim等[13]基于DBNet提出一種基于特征金字塔FPN(feature pyramid networks)[14]的雙分支注意力特征融合模塊TB-AFF(two-branch attentional feature fu-sion),以改善特征融合結(jié)構(gòu),提高文本特征信息的表示能力。該類(lèi)算法因其以像素分類(lèi)為核心進(jìn)行圖像目標(biāo)分割,一定程度上克服了彎曲文本和極端高寬比文本所帶來(lái)的困難。但是,目前該算法通常采用單尺度卷積核進(jìn)行特征提取的方法,難以滿(mǎn)足不同尺度、不同形狀的文本目標(biāo)的特征提取要求,同時(shí)簡(jiǎn)單的基于上采樣的特征融合方法,只關(guān)注尺度大小的一致性,而忽略了不同尺度在不同特征的重要性,極易導(dǎo)致細(xì)節(jié)信息損失。
針對(duì)上述問(wèn)題,本文提出一種基于多尺度特征提取和雙向特征融合的場(chǎng)景文本檢測(cè)模型,主要貢獻(xiàn)如下:
1)設(shè)計(jì)多尺度特征提取模塊MFE(multiscale feature extraction),以解決上下文信息缺失和不同長(zhǎng)寬比文本實(shí)例難以檢測(cè)問(wèn)題。
2)設(shè)計(jì)雙向特征融合模塊BFF(bidirectional feature fusion),以更好地融合語(yǔ)義和尺度不一致的特性。
3)設(shè)計(jì)特征增強(qiáng)模塊,引入坐標(biāo)注意力CA(coordinate attention)[15],以彌補(bǔ)特征融合細(xì)節(jié)信息損失的缺陷。
4)構(gòu)建一種新的文本檢測(cè)框架,在3個(gè)公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了提出算法的有效性。
本文組織結(jié)構(gòu)如下:第1節(jié),從網(wǎng)絡(luò)結(jié)構(gòu)各部分介紹所提出的文本檢測(cè)方法,并對(duì)所提出的模塊進(jìn)行詳細(xì)介紹,第2節(jié),進(jìn)行實(shí)驗(yàn)結(jié)果及分析,通過(guò)仿真實(shí)驗(yàn),得到消融和對(duì)比實(shí)驗(yàn)結(jié)果,并對(duì)結(jié)果進(jìn)行分析,第3節(jié),總結(jié)全文,并對(duì)未來(lái)進(jìn)行展望。
1 本文方法
本文提出一種基于多尺度特征提取和雙向特征融合的場(chǎng)景文本檢測(cè)模型,其整體結(jié)構(gòu)如圖1所示。主要包含4個(gè)部分:主干網(wǎng)絡(luò)、雙向特征融合、 文本特征增強(qiáng)以及后處理。
1.1 主干網(wǎng)絡(luò)
主干網(wǎng)絡(luò)旨在從多層次提取圖像特征。為了能夠獲得更為靈活的感受野,充分捕獲上下文信息,提出模型在ResNet50基礎(chǔ)架構(gòu)上進(jìn)行改進(jìn)。
常規(guī)卷積通過(guò)固定大小的濾波器執(zhí)行卷積,意味著每個(gè)位置只能捕獲固定形狀的局部區(qū)域。為了有效提取不規(guī)則形狀文本特征,將常規(guī)卷積替換為可變形卷積DCN(deformable convolution)[16]。DCN在感受野中引入偏移量,并且是可學(xué)習(xí)的,通過(guò)這樣的方式,感受野不再是正方形,而是更貼合物體的實(shí)際形狀。
另一方面,為了提取圖像中的多尺度特征,將瓶頸層3×3卷積替換為多尺度特征提取模塊MFE,替換方式如圖2所示。
輸入圖片經(jīng)過(guò)主干網(wǎng)絡(luò)捕獲4個(gè)階段特征記為C2、C3、C4、C5,它們分別是ResNet的后4個(gè)殘差塊的最后一層輸出特征,再經(jīng)過(guò)1×1卷積橫向連接得到4個(gè)語(yǔ)義特征P2、P3、P4、P5。
1.2 多尺度特征提取
上下文信息在自然場(chǎng)景文本檢測(cè)中發(fā)揮重要的作用,文[17]表明文本上下文信息缺失是由于像素級(jí)特征感受野不足?,F(xiàn)有自然場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)大多采用ResNet[18]及其各類(lèi)變體提取文本特征,理論上ResNet感受野大于輸入圖像,但研究表明[19],CNN的實(shí)際感受野遠(yuǎn)小于理論感受野。
針對(duì)現(xiàn)有方法中單尺度卷積核很難捕獲不同尺度對(duì)象上下文信息及不同長(zhǎng)寬比文本實(shí)例難以檢測(cè)問(wèn)題,本文設(shè)計(jì)多尺度特征提取模塊MFE。該模塊由多特征提取、注意力權(quán)重分配、信息增強(qiáng)三部分構(gòu)成,具體結(jié)構(gòu)如圖3所示。
多特征提取主要作用是提取圖像的多尺度特征。形式上,對(duì)于輸入圖像X,通道維度為C,設(shè)置卷積核大小為1×3、3×1、5×5、7×7 4個(gè)獨(dú)立分支來(lái)學(xué)習(xí)圖像的多尺度空間信息。5×5、7×7卷積核的增加,導(dǎo)致計(jì)算復(fù)雜度增加,為了減少計(jì)算成本,在多特征提取過(guò)程中采用分組卷積方法,其中,組大小Gi根據(jù)多尺度卷積核的大小來(lái)決定,計(jì)算為
Gi=2ki-12(1)
其中ki表示卷積核大小,ki∈{3,3,5,7}
多尺度特征Fi計(jì)算為
Fi=Conv(ki,Gi)(X)(2)
其中Conv(ki,Gi)表示采用卷積核ki和分組Gi進(jìn)行卷積。
注意力權(quán)重分配旨在根據(jù)通道對(duì)文本分割任務(wù)的重要程度,捕獲通道的注意力權(quán)重。借鑒ECANet[20]的構(gòu)思,為了避免通道維度變化對(duì)通道注意力學(xué)習(xí)效果的影響,提出模塊以極其輕量的方式提取不同尺度特征圖的注意力權(quán)重,并重新標(biāo)定注意力向量。獲得權(quán)重包含空間位置信息和通道注意力權(quán)重,實(shí)現(xiàn)了局部和全局通道間的交互。通道注意力向量Z計(jì)算為
Zi=fECAWeight(fReshape(Fi))(3)
Z=Z1Z2Z3Z4(4)
其中:fECAWeight表示提取通道注意力操作;fReshape(·)表示調(diào)整張量形狀;Fi為多尺度特征;i∈{1,2,3,4};表示concat操作。
重新標(biāo)定的注意向量atti計(jì)算為
atti=Softmax(Zi)=exp(Zi)∑S-1i=0exp(Zi)(5)
其中Softmax(·)表示Softmax激活函數(shù)。
信息增強(qiáng)主要是通過(guò)注意力權(quán)值關(guān)注重要通道信息。多尺度通道注意力權(quán)重的特征圖yi計(jì)算為
yi=Fi⊙a(bǔ)tti(6)
其中⊙為通道乘法。
通過(guò)連接運(yùn)算得到一個(gè)精細(xì)化、多尺度、信息更豐富的特征輸出Out,計(jì)算如下:
Out=Cat([Y1,Y2,Y3,Y4])(7)
其中Cat(·)表示按通道維度進(jìn)行拼接。
1.3 雙向特征融合
通常,主干網(wǎng)絡(luò)提取的淺層特征感受野小,具有豐富的位置信息,但是缺少語(yǔ)義信息。深層特征感受野大,具有豐富的語(yǔ)義信息,但缺乏位置信息。為了能夠在文本檢測(cè)任務(wù)中充分利用淺層與深層特征,大多數(shù)研究采用了特征融合的方法。目前,目標(biāo)檢測(cè)網(wǎng)絡(luò)通常采用FPN進(jìn)行特征融合,如圖4(a)所示。FPN特征融合方法僅具有一條自上而下單向信息流的融合路徑。在FPN基礎(chǔ)上,PANet[21]添加一條自下而上的融合路徑,改善信息傳播路徑,如圖4(b)所示。BiFPN[22]則是基于PANet結(jié)構(gòu),刪除只有一條輸入邊的節(jié)點(diǎn),加入跳轉(zhuǎn)連接,構(gòu)建基于特征重要性賦予邊權(quán)重的重復(fù)加權(quán)雙向融合方式,如圖4(c)所示。
考慮到文本檢測(cè)并不需要像通用目標(biāo)檢測(cè)一樣復(fù)雜的融合結(jié)構(gòu),本文源于BiFPN結(jié)構(gòu)設(shè)計(jì)了雙向特征融合模塊BFF,如圖4(d)所示。采用單次去除權(quán)重的雙向融合路徑,跳過(guò)不重要節(jié)點(diǎn),同層輸入和輸出節(jié)點(diǎn)之間添加一條額外邊,在不增加太多成本情況下融合更多的語(yǔ)義特性,相比于BiFPN減少了大量參數(shù),同時(shí)增強(qiáng)網(wǎng)絡(luò)預(yù)測(cè)多尺度目標(biāo)的能力。
雙向特征融合模塊BFF以主干網(wǎng)絡(luò)輸出的語(yǔ)義特征P2、P3、P4、P5作為輸入,通過(guò)一條自上而下的路徑以3×3卷積操作得到中間特征P4_1、P3_1, 以消除上采樣的混疊效應(yīng)。P4_1、P3_1計(jì)算為
P4_1=Conv3×3(Up×2(P5)+P4)(8)
P3_1=Conv3×3(Up×2(P4_1)+P3)(9)
其中:Up×2(·)表示二倍雙線(xiàn)性上采樣;Conv3×3(·)表示3×3卷積。
輸出層特征P2_2計(jì)算為
P2_2=Conv3×3(Up×2(P3_1)+P2)(10)
從P2_2開(kāi)始,通過(guò)自下而上的路徑逐層下采樣并跳躍連接同層輸入節(jié)點(diǎn)得到P3_2、P4_2、P5_2,計(jì)算為
P3_2=Down×2(P2_2)+P3_1+P3(11)
P4_2=Down×2(P3_2)+P4_1+P4(12)
P5_2=Down×2(P4_2)+P5(13)
其中Down×2(·)表示二倍雙線(xiàn)性下采樣。
最后,將P3_2、P4_2、P5_2經(jīng)過(guò)上采樣與P2_2拼接得到特征F*,計(jì)算如下:
F*=Cat(Up×8(P5_2),Up×4(P4_2),Up×2(P3_2),P2_2)(14)
其中,Up×2(·)、Up×4(·)、Up×8(·)分別表示2倍、4倍、8倍上采樣。
1.4 文本特征增強(qiáng)
特征融合過(guò)程中,較高層特征通道數(shù)的減少將造成細(xì)節(jié)信息損失,且不同層特征圖的語(yǔ)義差異會(huì)被不斷放大,造成文本實(shí)例邊界定位不準(zhǔn)確。
針對(duì)上述問(wèn)題,提出文本特征增強(qiáng)模塊。該模塊通過(guò)坐標(biāo)注意力CA,在水平方向和垂直方向分別聚合輸入特征,捕獲位置敏感信息與通道長(zhǎng)程依賴(lài)關(guān)系,以彌補(bǔ)融合過(guò)程的語(yǔ)義偏差。
CA結(jié)構(gòu)如圖5所示,對(duì)于給定輸入F*,分別使用大小為(H,1)和(1,W)的池化核,沿橫軸和縱軸進(jìn)行平均池化,捕獲水平與垂直方向圖像語(yǔ)義特征Zh、Zw,計(jì)算如下:
Zh=Poolh(F*)(15)
Zw=Poolw(F*)(16)
其中:Poolh(·)表示沿縱軸平均池化操作;Poolw(·)表示沿橫軸平均池化操作。
語(yǔ)義特征Zh、Zw沿空間方向連接,通過(guò)卷積壓縮通道數(shù),生成中間特征f,計(jì)算如下:
f=δ(Conv1×1([Zh,Zw]))(17)
其中:[·,·]表示兩個(gè)張量的拼接操作;Conv1×1(·)表示1×1卷積操作;δ表示Relu函數(shù)。
生成中間特征f沿空間維度切分為兩個(gè)單獨(dú)的張量fh和fw,1×1卷積操作將fh和fw變換到與輸入F*相同的通道數(shù),得到兩個(gè)張量gh和gw,計(jì)算如下:
gh=σ(Conv1×1(fh))(18)
gw=σ(Conv1×1(fw))(19)
其中σ表示Sigmoid激活函數(shù)。
CA模塊的增強(qiáng)特征Fz,計(jì)算如下:
Fz=F*ghgw(20)
經(jīng)過(guò)特征增強(qiáng)模塊得到最終特征圖F,計(jì)算如式(21)所示:
F=FzF*(21)
其中表示逐元素相加。
1.5 后處理
1.5.1 可微分二值化
傳統(tǒng)的二值化不可微,因此不能直接用于反向傳播以更新網(wǎng)絡(luò)。為了解決該問(wèn)題,采用可微二值化模塊,其表達(dá)式為
Bi,j=Sigmoid(-k(Pi,j-ti,j))(22)
其中:Bi,j為像素點(diǎn)(i,j)的近似二值映射;Pi,j為概率映射,其值表示像素點(diǎn)(i,j)為文本的概率;Ti,j為從網(wǎng)絡(luò)中學(xué)習(xí)獲得的像素點(diǎn)(i,j)自適應(yīng)閾值映射;k為放大因子,設(shè)置為50,用于反向傳播時(shí)放大模型梯度。
1.5.2 損失函數(shù)
損失函數(shù)由概率圖損失Ls、二值圖損失Lb和閾值圖損失Lt組成,計(jì)算如下:
L=Ls+αLt+βLb(23)
其中,α、β為超參數(shù),根據(jù)各部分損失的重要性,設(shè)置α=1,β=10。
Ls和Lb采用二元交叉熵?fù)p失BCE,采用難例挖掘的方法解決正負(fù)樣本不平衡的問(wèn)題。而閾值圖損失Lt定義為概率圖標(biāo)簽y*i和預(yù)測(cè)x*i之間的L1距離和,計(jì)算如下:
Lt=∑i∈Rd|y*i-x*i|(24)
2 實(shí)驗(yàn)結(jié)果及分析
本文在4個(gè)公開(kāi)數(shù)據(jù)集上對(duì)提出模型進(jìn)行了一系列實(shí)驗(yàn),以驗(yàn)證其在性能上的有效性和可行性。
2.1 數(shù)據(jù)集
本文所用4個(gè)公開(kāi)數(shù)據(jù)集介紹如下:
SynthText[23]:包含約80萬(wàn)張圖像的大規(guī)模合成文本檢測(cè)數(shù)據(jù)集,文本實(shí)例注釋以單詞、字符、文本行形式給出。在實(shí)驗(yàn)中用于模型預(yù)訓(xùn)練。
ICDAR2015[24]:多方向文本檢測(cè)數(shù)據(jù)集,包含1500張圖像,其中訓(xùn)練集1000張,測(cè)試集500張。圖中文字較小,主要由英文和數(shù)字組成,文本區(qū)域標(biāo)注形式采用4個(gè)頂點(diǎn)表示的矩形框,圖像背景較為復(fù)雜,文本尺度變化大,是近年來(lái)最常用的評(píng)估數(shù)據(jù)集。在實(shí)驗(yàn)中用于模型微調(diào)和算法性能驗(yàn)證。
MSRA-TD500[25]:多方向文本檢測(cè)數(shù)據(jù)集,包含500張圖像,訓(xùn)練圖像300張,測(cè)試圖像200張,語(yǔ)言類(lèi)型包括英語(yǔ)和中文,文本實(shí)例標(biāo)注以行為單位,標(biāo)注形式為4坐標(biāo)矩形。
CTW1500[26]:多語(yǔ)言彎曲文本數(shù)據(jù)集,由1000張訓(xùn)練圖片和500張測(cè)試圖片組成,標(biāo)注形式為14個(gè)點(diǎn)標(biāo)注的多邊形。
2.2 實(shí)驗(yàn)設(shè)置
本文使用在SynthText上預(yù)訓(xùn)練的ResNet18和ResNet50作為主干網(wǎng)絡(luò),進(jìn)行100000次迭代的預(yù)訓(xùn)練。所有模型在訓(xùn)練時(shí)批處理大小Batch Size設(shè)置為8,進(jìn)行1200個(gè)epoch的訓(xùn)練。采用Adam[27]優(yōu)化器進(jìn)行參數(shù)優(yōu)化。初始學(xué)習(xí)率設(shè)置為0.007,權(quán)重衰減為0.0001,動(dòng)量為0.9。迭代學(xué)習(xí)率設(shè)為1-itermax _iterpower,power設(shè)為0.9,max_iter為最大迭代次數(shù)。訓(xùn)練樣本圖片大小設(shè)置為640×640像素。
訓(xùn)練階段進(jìn)行數(shù)據(jù)增強(qiáng),主要方法是:①隨機(jī)旋轉(zhuǎn)(-10°,10°);②明暗飽和度變化;③隨機(jī)翻轉(zhuǎn);④多尺度訓(xùn)練;⑤隨機(jī)裁剪。
2.3 評(píng)估指標(biāo)
為了評(píng)價(jià)模型的檢測(cè)性能,本文使用3個(gè)常用的文本檢測(cè)評(píng)價(jià)指標(biāo)。召回率R(recall)代表真值圖(ground truth)里的東西有多少比例被檢測(cè)。精確率P(precision)是檢測(cè)的文本有多少比例是正確的。調(diào)和平均F(F-measure)綜合了準(zhǔn)確率和召回率,計(jì)算如下:
R=αTPαTP+αFP(25)
P=αTPαTP+αFN(26)
F=2RPR+P(27)
式中:αTP表示模型正確預(yù)測(cè)的文本區(qū)域總個(gè)數(shù);αFP表示錯(cuò)誤預(yù)測(cè)的文本區(qū)域總個(gè)數(shù);αFN表示未能預(yù)測(cè)到的文本區(qū)域總個(gè)數(shù)。
2.4 消融實(shí)驗(yàn)
為了驗(yàn)證多尺度特征提取模塊、雙向特征融合模塊、特征增強(qiáng)模塊的有效性,主干網(wǎng)絡(luò)分別采用ResNet18和ResNet50,在ICDAR2015數(shù)據(jù)集上進(jìn)行大量消融實(shí)驗(yàn)。考慮到實(shí)驗(yàn)環(huán)境的不同,給出了DB基線(xiàn)模型在本地復(fù)現(xiàn)的實(shí)驗(yàn)數(shù)據(jù),設(shè)計(jì)了7組對(duì)比模型:
1)ResNet-MFE:僅具有多尺度特征提取模塊。
2)ResNet-BFF:僅具有雙向特征融合模塊。
3)ResNet-CA:僅具有特征增強(qiáng)模塊。
4)ResNet-Mamp;B:同時(shí)具有多尺度特征提取和雙向特征融合模塊。
5)ResNet-Mamp;C:同時(shí)具有多尺度特征提取和特征增強(qiáng)模塊。
6)ResNet-Bamp;C:同時(shí)具有雙向特征融合和特征增強(qiáng)模塊。
7)ResNet-All:同時(shí)具有3個(gè)模塊。
詳細(xì)實(shí)驗(yàn)結(jié)果如表1、表2所示。其中*表示基線(xiàn)模型在本地復(fù)現(xiàn)的實(shí)驗(yàn)數(shù)據(jù)。
2.4.1 多尺度特征提取模塊
分別在ResNet18和ResNet50中使用MFE對(duì)原卷積核進(jìn)行替換,以驗(yàn)證MFE的有效性。實(shí)驗(yàn)結(jié)果如表1、表2第三行。ResNet18-MFE相比復(fù)現(xiàn)基線(xiàn)模型,P值降低2.2%,R值、F值分別提升4.1%和2.0%,F(xiàn)PS降低11.5;ResNet50-MFE則是P值降低0.8%,R值、F值分別提升1.7%和0.6%,F(xiàn)PS降低5.0。相比較于ResNet50-MFE,ResNet18-MFE提升效果明顯。在兩種主干網(wǎng)絡(luò)結(jié)果存在差異,分析其原因在于ResNet18相比于ResNet50網(wǎng)絡(luò)層數(shù)淺,圖像特征高級(jí)語(yǔ)義表達(dá)能力較弱,而MFE對(duì)于多尺度特征的提取彌補(bǔ)了模型特征提取不足的缺陷。模型性能提升表明,本文使用MFE模塊代替原卷積核的有效性。
2.4.2 雙向特征融合模塊
傳統(tǒng)特征金字塔僅使用一條路徑融合主干網(wǎng)絡(luò)輸出的不同尺度特征。本文提出雙向特征融合結(jié)構(gòu)BFF替換FPN。實(shí)驗(yàn)結(jié)果如表1、表2第四行。ResNet18-BFF相比復(fù)現(xiàn)基線(xiàn)模型,P值降低3.4%,R值、F值分別提升6.0%和2.1%,F(xiàn)PS基本持平;ResNet50-BFF則是P值、R值、F值分別提升0.7%、0.7%和0.7%,F(xiàn)/S基本持平。取得良好效果表明提出的雙向特征融合結(jié)構(gòu)BFF,在FPN基礎(chǔ)上增加一條自下而上的路徑,可以使信息融合更充分,去除對(duì)特征網(wǎng)絡(luò)貢獻(xiàn)小的無(wú)效節(jié)點(diǎn),降低參數(shù),同層間額外增加跳轉(zhuǎn)邊,在不增加太多計(jì)算成本前提下可以融合更多特征。
2.4.3 特征增強(qiáng)模塊
多尺度特征融合難免會(huì)造成細(xì)節(jié)信息損失,所以在融合后引入坐標(biāo)注意力CA進(jìn)行特征增強(qiáng),以生成更為準(zhǔn)確、可靠的特征表達(dá)。實(shí)驗(yàn)結(jié)果如表1、表2第五行。在ResNet18上P值降低1.1%,R值、F值分別提升3.7%和1.4%,F(xiàn)/S降低3.6;ResNet50則是P值降低0.9%,R值、F值分別提升1.1%和0.2%,F(xiàn)/S降低1.0,同樣在兩種主干網(wǎng)絡(luò)存在差異。原因在于CA本質(zhì)上是一種通道注意力,通道注意力會(huì)給輕量級(jí)模型ResNet18帶來(lái)比較顯著的性能提升,對(duì)于ResNet50提升效果不明顯[28]。
2.4.4 多模塊
本文還對(duì)多個(gè)模塊共同作用進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1、表2后四行。
ResNet18-All取得最高F值83.4%,ResNet18-Bamp;C取得最高R值78.7%和次優(yōu)F值82.9%,ResNet18-Mamp;B取得次優(yōu)P值90.0%。這表明對(duì)于輕量級(jí)網(wǎng)絡(luò),提供豐富的多尺度特征并構(gòu)建適宜的特征融合結(jié)構(gòu),并對(duì)融合后的特征進(jìn)行增強(qiáng),模型在引入少量計(jì)算的同時(shí)獲得較大性能提升。
ResNet50-All同時(shí)取得最高P值90.6%和F值85.0%,ResNet50-Mamp;B同時(shí)取得次優(yōu)R值80.2%和F值84.9%。這表明對(duì)于較深層次網(wǎng)絡(luò),提取的特征信息相對(duì)充分,單獨(dú)引入新的模塊僅獲得小幅度性能提升,需要同時(shí)引入3個(gè)模塊發(fā)揮其各自?xún)?yōu)勢(shì)。
2.5 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文所提出檢測(cè)方法的有效性,在ICDAR2015數(shù)據(jù)集、MSRA-TD500數(shù)據(jù)集和CTW1500數(shù)據(jù)集上與近些年主流方法進(jìn)行對(duì)比。主干網(wǎng)絡(luò)采用ResNet50,加入可變形卷積,并加入所提出模塊。3個(gè)數(shù)據(jù)集上部分檢測(cè)結(jié)果及對(duì)應(yīng)二值圖如圖6所示。
ICDAR2015:通過(guò)在SynthText數(shù)據(jù)集的預(yù)訓(xùn)練模型下進(jìn)行1 200輪微調(diào)訓(xùn)練,實(shí)驗(yàn)結(jié)果如表3所示。所提方法在召回率R值和調(diào)和平均F值兩個(gè)評(píng)價(jià)指標(biāo)上取得了最佳性能,分別達(dá)到86.6%和87.8%,相較于當(dāng)前最優(yōu)方法DBNet++提高2.7%和0.5%。召回率大幅度提高主要得益于所提出多尺度特征提取模塊執(zhí)行跨通道的局部交互,導(dǎo)致不同尺度特征圖有關(guān)實(shí)例的特征信息得到充分交互,同時(shí)抑制無(wú)關(guān)背景信息,使得模型給出更高覆蓋率的結(jié)果。精確率偏低是由于多尺度特征提取捕獲到更多的目標(biāo)特征,使得網(wǎng)絡(luò)容易將背景或噪聲錯(cuò)誤地分類(lèi)為文本。
MSRA-TD500:通過(guò)在SynthText數(shù)據(jù)集的預(yù)訓(xùn)練模型下進(jìn)行1200輪微調(diào)訓(xùn)練,實(shí)驗(yàn)結(jié)果如表4所示。所提方法在精確率P值取得了最佳檢測(cè)結(jié)果,達(dá)到91.9%,同時(shí)在召回率R值和調(diào)和平均F值兩個(gè)評(píng)價(jià)指標(biāo)分別達(dá)到82.8%和87.1%,能夠與最優(yōu)方法競(jìng)爭(zhēng)。獲得較高精確率的原因在于樣本數(shù)量平衡,提出模型特征提取充分,容易得到準(zhǔn)確的預(yù)測(cè)結(jié)果。召回率相對(duì)較低的原因在于該數(shù)據(jù)集小文本實(shí)例較少,在特征提取和檢測(cè)過(guò)程中容易丟失,同時(shí)多尺度提取增加網(wǎng)絡(luò)對(duì)圖像中噪聲的敏感性,從而導(dǎo)致召回率降低。
CTW1500:通過(guò)在SynthText數(shù)據(jù)集的預(yù)訓(xùn)練模型下進(jìn)行1 200輪微調(diào)訓(xùn)練,實(shí)驗(yàn)結(jié)果如表5所示。所提方法在精確率P值、召回率R值和調(diào)和平均F值3個(gè)評(píng)價(jià)指標(biāo)分別達(dá)到85.3%、81.2%和83.2%,相較于其他主流算法有一些差距。分析其原因在于多尺度特征提取模塊中的長(zhǎng)方形和正方形卷積核與彎曲文本不兼容,使得網(wǎng)絡(luò)檢測(cè)性能受限。同時(shí)彎曲文本通常包含較小的曲線(xiàn)和細(xì)微的細(xì)節(jié),多尺度特征提取可能無(wú)法提供足夠高的特征分辨率以捕獲這些細(xì)節(jié)。
這可能導(dǎo)致文本曲線(xiàn)的模糊或丟失,從而影響檢測(cè)性能。
總體上,得益于多尺度特征提取模塊、雙向特征融合模塊和文本特征增強(qiáng)模塊,本文提出的檢測(cè)模型能夠充分捕獲圖像中的文本特征,并充分融合主干網(wǎng)絡(luò)各層特征,實(shí)現(xiàn)了較為先進(jìn)的檢測(cè)性能。
3 結(jié) 論
本文針對(duì)單尺度特征提取和單向融合結(jié)構(gòu)的不足之處進(jìn)行深度研究,展示了一種基于多尺度特征提取和雙向特征融合的文本檢測(cè)模型,從多個(gè)角度實(shí)施改進(jìn)策略,提高了網(wǎng)絡(luò)的檢測(cè)性能。多尺度特征提取模塊設(shè)計(jì)了不同大小的卷積核,關(guān)聯(lián)不同層次的上下文信息,使得網(wǎng)絡(luò)分割的更準(zhǔn)確。雙向特征融合模塊通過(guò)兩條不同方向的融合路徑改善了信息傳播方式,提高網(wǎng)絡(luò)的尺度魯棒性。坐標(biāo)注意力模塊進(jìn)行特征增強(qiáng),緩解融合過(guò)程中特征圖失真的現(xiàn)象。通過(guò)在ICDAR2015和MSRA-TD500數(shù)據(jù)集與其他代表性模型對(duì)比,本文模型展現(xiàn)出良好的魯棒性,在CTW1500數(shù)據(jù)集上,也展現(xiàn)出了競(jìng)爭(zhēng)性的結(jié)果。
本文所提模型在彎曲文本檢測(cè)時(shí)表現(xiàn)出較差的結(jié)果,原因是多尺度特征提取模塊中的正方形和長(zhǎng)方形卷積核不能很好適應(yīng)彎曲文本。因此,在今后的工作中,將進(jìn)一步研究適應(yīng)彎曲文本的多特征提取方法,并探索結(jié)構(gòu)更精簡(jiǎn)、預(yù)測(cè)精度更高、檢測(cè)速度更快的算法。
參 考 文 獻(xiàn):
[1] YUAN Y, ZOU W, ZHAO Y, et al. A Robust and Efficient Approach to License Plate Detection[J]. IEEE Transactions on Image Processing,2016,26(3):1102.
[2] TSAI S S, CHEN H, CHEN D, et al. Mobile Visual Search on Printed Documents Using Text and Low Bitratefeatures[C]//2011 18th IEEE International Conference on Image Processing, Piscataway: IEEE,2011: 2601.
[3] HE Z, LIU J, MA H, et al.A New Automatic Extraction Method of Container Identity Codes [J]. IEEE Transactions on Intelligent Transportation Systems,2005,6(1):72.
[4] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137.
[5] BUSTA M, NEUMANN L, MATAS J. Deep Textspotter: Anend-to-end Trainable Scene Text Localization and Recognition Framework[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2204.
[6] MA J, SHAO W, YE H, et al.Arbitrary-oriented Scene Text Detection Via Rotation Proposals[J]. IEEE Transactions on Multimedia,2018,20(11):3111.
[7] LIAO M, ZHU Z, SHI B, et al. Rotation-sensitive Regression for Oriented Scene Text Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:5909.
[8] LIU W, ANGUELOV D, ERHAN D, et al. Ssd:" Single Shot Multibox Detector[C]//Proceedings of the Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, Netherlands, 2016: 21.
[9] LIAO M, SHI B, BAI X.Textboxes++: A Singleshot Oriented Scene Text Detector[J]. IEEE Transactions on Image Processing,2018,27(8):3676.
[10]DENG D, LIU H, LI X, et al. Pixellink: Detecting Scene Text Via Instance Segmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans, USA, 2018, 32(1):1.
[11]WANG W, XIE E, LI X, et al. Shape Robust Text Detection with Progressive Scale Expansion Network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2019: 9336.
[12]LIAO M, WAN Z, YAO C, et al. Realtime Scene Text Detection with Differentiable Binarization[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans, USA, 2020, 34(7):11474.
[13]IBRAYIM M, LI Y, HAMDULLA A.Scene Text Detection Based on Two-Branch Feature Extraction [J]. Sensors,2022,22(16):6262.
[14]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117.
[15]HOU Q, ZHOU D, FENG J. Coordinate Attention" for Efficient Mobile Network Design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2021: 13713.
[16]DAI J, QI H, XIONG Y, et al. Deformable Convolutional Networks[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 764.
[17]YUAN Y, CHEN X, WANG J. Objectcontextual Representations for Semantic Segmentation[C]//Computer Vision-ECCV 2020: 16th European Conference,Glasgow, UK, August 23/28, 2020, Proceedings," Part VI 16, 2020:173.
[18]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770.
[19]ZHOU B, KHOSLA A, LAPEDRIZA A, et al.Object Detectors Emerge in Deep Scene Cnns[J]. arXiv Preprint arXiv:1412.6856,2014.
[20]WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA, 2020: 11534.
[21]LIU S, QI L, QIN H, et al. Path Aggregation Network for Instance Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759.
[22]TAN M, PANG R, LE Q V. Efficientdet: Scalable and Efficient Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 10781.
[23]GUPTA A , VEDALDI A , ZISSERMAN A. Synthetic Data for Text Localisation in Natural Images[C]// IEEE Conference on Computer Vision amp; Pattern Recognition. IEEE, 2016: 2315.
[24]KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 Competition on Robust Reading[C]//2015 13th International Conference on Document Analysis and Recognition (ICDAR), 2015: 1156.
[25]YAO C, BAI X, LIU W, et al. Detecting Texts of Arbitrary Orientations in Natural Images[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012: 1083.
[26]LIU Y, JIN L, ZHANG S, et al.Curved Scene Text Detection Via Transverse and Longitudinal Sequence Connection[J]. Pattern Recognition,2019,90:337.
[27]KINGMA D P, BA J.Adam: A Method for Stochastic Optimization[J]. arXiv Preprint arXiv:1412.6980,2014.
[28]HU J, SHEN L, SUN G. Squeeze-and-excitation Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132.
[29]CHEN Z, WANG J, WANG W, et al. FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel Representation[J]. arXiv Preprint arXiv:2111.02394,2021.
[30]ZHOU X, YAO C, WEN H, et al. East: An Efficient and Accurate Scene Text Detector[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA, 2017: 5551.
[31]SHI B, BAI X, BELONGIE S. Detecting Oriented Text in Natural Images by Linking Segments[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Los Alamitos, Washington, 2017: 2550.
[32]LIN J, YAN Y, WANG H. A Dual-Path Transformer Network for Scene Text Detection[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023: 1.
[33]LONG S, RUAN J, ZHANG W, et al. Textsnake: A Flexible Representation for Detecting Text of Arbitrary Shapes[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 20.
[34]BAEK Y, LEE B, HAN D, et al. Character Regionawareness for Text Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2019: 9365.
[35]WANG W, XIE E, SONG X, et al. Efficient and Accurate Arbitrary-shaped Text Detection with Pixel Aggregation Network[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, Seattle, USA, 2019: 8440.
[36]LIAO M, ZOU Z, WAN Z, et al.Real-time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,45(1):919.
[37]XUY, WANG Y, ZHOU W, et al.Textfield: Learning a Deep Direction Field for Irregular Scene Text Detection[J]. IEEE Transactions on Image Processing,2019,28(11):5566.
[38]LIU Z, LIN G, YANG S, et al.Learning Markov Clustering Networks for Scene Text Detection[J]. arXiv Preprint arXiv:1805.08365,2018.
[39]LYU P, YAO C, WU W, et al. Multi-oriented Scene Text Detection Via Corner Localization and Region Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7553.
[40]XIE E, ZNAG Y, SHAO S, et al. Scene Text Detectionwith Supervised Pyramid Context Network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans, USA, 2019, 33(1):9038.
(編輯:溫澤宇)
哈爾濱理工大學(xué)學(xué)報(bào)2024年4期