宋彭彭,曾祥進(jìn),鄭安義,米 勇
武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205
近年來(lái),深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的不斷發(fā)展,使得目標(biāo)檢測(cè)技術(shù)在各領(lǐng)域的應(yīng)用獲得了出色的成果[1]。文本檢測(cè)技術(shù)在其影響下也從傳統(tǒng)的手工設(shè)計(jì)特征轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)提取特征[2]。隨著文本檢測(cè)技術(shù)在交通標(biāo)志識(shí)別、盲人文本閱讀系統(tǒng)、圖像與視頻中的文本信息提取等方面的應(yīng)用越來(lái)越廣泛,使得準(zhǔn)確獲取文本中的文字位置并識(shí)別語(yǔ)義內(nèi)容成為文本分析與計(jì)算機(jī)視覺(jué)領(lǐng)域的重點(diǎn)研究課題[3]。由于自然場(chǎng)景中的文本受背景混亂、文本方向不同、空間分布不均勻、光照強(qiáng)度等因素影響,使得文本檢測(cè)技術(shù)面臨更大的挑戰(zhàn)[4]。
為了解決自然場(chǎng)景中不同因素對(duì)文本檢測(cè)帶來(lái)的影響,提出了許多基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)方法。主要方法有:(1)基于區(qū)域建議的文本檢測(cè)方法。如:Shi 等[5]提出了SegLink 文本檢測(cè)方法,該方法思路與SSD[6]算法一致,并融入了CTPN[7]算法的細(xì)粒度候選框,使得模型不再受限于默認(rèn)比例的人工設(shè)定文本框,最終得到的網(wǎng)絡(luò)在多方向文本與長(zhǎng)文本中有較好的檢測(cè)結(jié)果,但該模型對(duì)于彎曲文本和間距較大文本檢測(cè)結(jié)果較差。文獻(xiàn)[8]提出了SegLink++文本檢測(cè)方法彌補(bǔ)了SegLink 的不足,該方法通過(guò)明確分塊間的關(guān)系,使得模型對(duì)密集文本進(jìn)行分離,改進(jìn)損失函數(shù)增加檢測(cè)難度較大區(qū)域的損失權(quán)重,最終實(shí)現(xiàn)對(duì)旋轉(zhuǎn)、密集以及水平文本的檢測(cè);(2)基于圖像分割 的 文 本 檢 測(cè) 方 法。 如Long 等[9]提 出 了TextSnake 模型,該模型對(duì)文本幾何屬性的表示很靈活,采用圓環(huán)作為基礎(chǔ),使用FCN 來(lái)逐漸預(yù)測(cè)文本區(qū)域、文本的中心線以及圓環(huán)表示的屬性,通過(guò)堆疊圓環(huán)來(lái)構(gòu)成序列以表示文本行屬性,最終的模型可以較好地檢測(cè)不規(guī)則文本。
現(xiàn)有的深度學(xué)習(xí)文本檢測(cè)方法主要由特征提取、預(yù)測(cè)網(wǎng)絡(luò)以及NMS 組成,在進(jìn)行特征提取時(shí)由于網(wǎng)絡(luò)沒(méi)有表明感興趣的特征信息且沒(méi)有融合多層特征,因此在特征映射時(shí)會(huì)忽略一些重要的信息,造成對(duì)文本與非文本的誤判,使得整個(gè)文本檢測(cè)過(guò)程存在耗時(shí)、誤檢等問(wèn)題。
針對(duì)上述問(wèn)題,本文提出一種以DenseNet[10]網(wǎng)絡(luò)為基礎(chǔ)的文本檢測(cè)模型。DenseNet 由核心模塊dense block 構(gòu)成,該網(wǎng)絡(luò)可以提取更深層的文本特征,并減緩了因網(wǎng)絡(luò)深度造成的梯度消失問(wèn)題,加強(qiáng)了特征傳播和特征重用,同時(shí)極大地降低了網(wǎng)絡(luò)參數(shù)數(shù)目;同時(shí)為了明確感興趣的特征,在特征提取網(wǎng)絡(luò)中引入?yún)f(xié)調(diào)注意力(coordinate attention,CA)[11],通過(guò)在通道信息中嵌入位置信息來(lái)明確感興趣的特征;為了使網(wǎng)絡(luò)可以提取內(nèi)容更豐富的特征,在網(wǎng)絡(luò)中使用特征融合技術(shù)。
注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域發(fā)揮重要的作用,如:文獻(xiàn)[12]通過(guò)簡(jiǎn)單的壓縮每一個(gè)二維特征圖,建立了通道間的相互依賴(lài)關(guān)系;注意力模型(convolutional block attention module,CBAM)[13]在建立通道依賴(lài)關(guān)系基礎(chǔ)上,通過(guò)引入大尺寸卷積核實(shí)現(xiàn)空間信息的編碼;文獻(xiàn)[14]利用非局部機(jī)制去獲取特征圖不同類(lèi)型的空間信息。但這些注意力模塊內(nèi)部計(jì)算量大,將其用于文本檢測(cè)網(wǎng)絡(luò)中會(huì)消耗大量的計(jì)算資源。
CA 降低了對(duì)計(jì)算資源的消耗,且可以很好的表示感興趣的特征。該機(jī)制的工作流程為:首先通過(guò)坐標(biāo)注意力將通道注意力分解為兩個(gè)一維的特征編碼過(guò)程,并分別從兩個(gè)空間方向去聚集特征;其次從一個(gè)空間方向獲取長(zhǎng)距離的依賴(lài)關(guān)系,同時(shí)在另一空間方向保存準(zhǔn)確的位置信息;最后將獲得的特征圖分別編碼成對(duì)方向感知和對(duì)位置敏感的注意力,將其互補(bǔ)的應(yīng)用在輸入特征圖中以增強(qiáng)對(duì)感興趣特征的表示。
CA 的框架如圖1 所示,它可以輸入任意的特征向量,并輸出一個(gè)增強(qiáng)后相同大小的特征向量。其中X Avg Pool 和Y Avg Pool 分別表示一維水平全局池化和一維垂直全局池化。為了使注意力模塊利用準(zhǔn)確的位置信息獲取空間上的遠(yuǎn)程交互信息,將全局池化分解為兩個(gè)一維的特征編碼操作。具體操作如下:使用空間范圍是(H,1 )、( 1,W)的池化內(nèi)核沿水平與垂直方向?qū)γ總€(gè)通道編碼,得到高度h、寬度w處第c信道的輸出,如公式(1)、(2)所示:
其中,H、W為特征圖的高和寬。將得到的信道輸出結(jié)果送入共享1× 1 卷積的函數(shù)F1中聚合特征,輸出結(jié)果如公式(3)所示:
其中,[ ·, · ]表示在某一空間維度的串聯(lián)操作,δ表示非線性激活函數(shù),f∈?Cr×(H+W)表示在水平與垂直方向編碼的中間過(guò)程特征圖,C為通道數(shù),r表示控制塊的縮小比。 然后將f拆分為f h∈?C r×H和f w∈?C r×W,利用1× 1 的卷積變換Fh和Fw將其變化為通道數(shù)相同的張量,得到結(jié)果如式(4)~式(5)所示:
其中,σ表示Sigmoid 函數(shù)。將輸出結(jié)果展開(kāi)并用于注意力權(quán)重,得到CA 的輸出結(jié)果如式(6)所示:
CA 在考慮通道重要性的同時(shí)也考慮了對(duì)空間信息的編碼,得到的兩個(gè)注意力,圖1 中的所有元素都可以反映行與列中是否存在感興趣的特征,更準(zhǔn)確的定位出特征圖中感興趣特征的具體位置,使得網(wǎng)絡(luò)模型提取特征的性能更好。
圖1 協(xié)調(diào)注意力模塊Fig.1 Coordinate attention module
DenseNet 網(wǎng)絡(luò)使用密集連接的方式將先前層的特征用于后續(xù)層的輸入,該網(wǎng)絡(luò)降低了梯度消失的影響,提高特征的傳播,實(shí)現(xiàn)特征重用,極大地減少模型的參數(shù)量,其結(jié)構(gòu)如圖2 所示。計(jì)算公式如式(7)所示:
圖2 DenseNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of DenseNet network
其中,xl-1表示l- 1 層生成的特征圖,[x0,x1,...,xl-1]表示拼接0 至l- 1 層生成的特征圖,Hl( · )表示復(fù)合函數(shù),包含批量標(biāo)準(zhǔn)化、激活函數(shù)(ReLU)以及3× 3 卷積。
DenseNet 網(wǎng)絡(luò)使用跳躍拼接保留原本的特征,降低了梯度消失現(xiàn)象的發(fā)生,然而由于網(wǎng)絡(luò)深度不斷加深,導(dǎo)致通道數(shù)與參數(shù)量增多,使得模型很難提取深層次的特征,因此DenseNet 設(shè)置了轉(zhuǎn)換模塊,其結(jié)構(gòu)如圖3 所示。該模塊用于Dense Block 之后,主要用來(lái)減少通道數(shù)。同時(shí)為了使通道數(shù)更少,在每次Dense Block 拼接前都添加瓶頸結(jié)構(gòu),使通道數(shù)更少。
圖3 轉(zhuǎn)換模塊Fig.3 Transition block
DenseNet 網(wǎng)絡(luò)經(jīng)過(guò)批量標(biāo)準(zhǔn)化與轉(zhuǎn)換模塊后通道數(shù)目減少一半,同時(shí)使用下采樣減小尺寸大小,從而減少了模型計(jì)算量,提升了計(jì)算效率。
隨著卷積網(wǎng)絡(luò)深度的增加,文本檢測(cè)任務(wù)可以獲取更深層次的特征,但是提取特征過(guò)程中出現(xiàn)梯度下降或消失現(xiàn)象的概率也變大,為了解決這個(gè)問(wèn)題,本文使用去除全連接層的DenseNet-121網(wǎng)絡(luò)提取文本特征,該網(wǎng)絡(luò)有效緩解梯度消失問(wèn)題,且加強(qiáng)特征傳播,提升了特征重用,同時(shí)降低了模型參數(shù)數(shù)目。為了增強(qiáng)對(duì)特征圖中感興趣特征的表示,本文在特征提取網(wǎng)絡(luò)中引入CA,通過(guò)將特征的位置信息嵌入通道注意力中,以表示對(duì)需要特征的關(guān)注。為了使輸出特征可以包含豐富的文本信息,使用特征融合技術(shù)對(duì)批量標(biāo)準(zhǔn)化4 輸出的特征進(jìn)行反卷積,并將該特征與Dense Block 3 輸出的特征拼接,最終獲得多層文本特征,使得文本檢測(cè)準(zhǔn)確率得到提高。改進(jìn)后的DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
基于DenseNet 網(wǎng)絡(luò)設(shè)計(jì)了自然場(chǎng)景文本檢測(cè)網(wǎng)絡(luò),具體文本檢測(cè)流程如下:首先利用改進(jìn)的DenseNet 網(wǎng)絡(luò)獲取輸入文本圖像的特征圖(尺寸為:W×H×C),其中W×H為圖像寬高,C為特征圖通道數(shù);其次使用3× 3 滑動(dòng)窗口密集滑動(dòng)在特征圖上,每一個(gè)滑動(dòng)窗口用3× 3×C卷積特征來(lái)預(yù)測(cè)以獲得256 維特征向量;然后為了適應(yīng)不同尺寸的文本框,設(shè)計(jì)了10 個(gè)寬度固定為16 像素,高度由11 至273 像素(每次除0.7)變化的錨框。檢測(cè)時(shí)單獨(dú)考慮獨(dú)立文本框有可能會(huì)造成對(duì)非文本目標(biāo)的誤檢,因此為了提升定位精度,將每個(gè)文本行轉(zhuǎn)為一系列細(xì)粒度文本框,利用雙向LSTM對(duì)細(xì)粒度文本框從兩個(gè)方向編碼;最后將編碼得到的結(jié)果輸入全連接層。改進(jìn)后的文本檢測(cè)網(wǎng)絡(luò)如圖5 所示。
圖5 文本檢測(cè)網(wǎng)絡(luò)Fig.5 Text detection network
文本檢測(cè)實(shí)驗(yàn)使用數(shù)據(jù)集ICDAR2011[15]和ICDAR2013[16]檢 測(cè) 本 文 方 法 的 有 效 性。ICDAR2011 由229 張訓(xùn)練集與255 張測(cè)試集組成,圖像中的文本區(qū)域均以單詞級(jí)別來(lái)標(biāo)注。ICDAR2013 由229 張訓(xùn)練集與233 張測(cè)試集組成,圖像中的文本區(qū)域由字符和單詞級(jí)別來(lái)標(biāo)注。兩類(lèi)數(shù)據(jù)集均從真實(shí)場(chǎng)景獲取,且對(duì)自然場(chǎng)景中可能受到的遮擋、光照不均、模糊等現(xiàn)象考慮充分。因此這兩種數(shù)據(jù)集滿足評(píng)價(jià)本文方法的條件。
使用DetEval 評(píng)價(jià)指標(biāo)來(lái)評(píng)估兩類(lèi)數(shù)據(jù)集,該方法通過(guò)一對(duì)一、一對(duì)多以及多對(duì)一、3 種方式判斷檢測(cè)框和標(biāo)記框的匹配程度。最后通過(guò)精確度(P)、召回率(R)、F值判斷模型有效性。其計(jì)算公式如式(8)~式(10)所示:
相同環(huán)境下,使用數(shù)據(jù)集ICDAR2011 和ICDAR2013 評(píng)估本文不同的改進(jìn)方法,實(shí)驗(yàn)結(jié)果如表1、表2 所示。通過(guò)表中數(shù)據(jù)發(fā)現(xiàn),使用本文方法(DenseNet+CA+特征融合)檢測(cè)文本時(shí),在ICDAR2011 中準(zhǔn)確率(P)、召回率(R)、F值分別提高0.12、0.09、0.11,在ICDAR2013 中準(zhǔn)確率(P)、召回率(R)、F值分別提高0.11、0.10、0.10。
表2 不同改進(jìn)方法在ICDAR2013 實(shí)驗(yàn)結(jié)果Tab.2 Experimental results using different improvement methods in ICDAR2013
對(duì)特征提取網(wǎng)絡(luò)以及注意力進(jìn)行改進(jìn)的對(duì)比實(shí)驗(yàn)如下:
實(shí)驗(yàn)一:分別使用VGG16 與DenseNet 網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)進(jìn)行文本檢測(cè),實(shí)驗(yàn)結(jié)果如圖6 所示。兩類(lèi)網(wǎng)絡(luò)均存在誤檢、漏檢問(wèn)題,但是DenseNet 網(wǎng)絡(luò)對(duì)相同圖像的檢測(cè)準(zhǔn)確度明顯高于VGG16。
圖6 不同特征提取網(wǎng)絡(luò)檢測(cè)結(jié)果:(a)VGG16,(b)DenseNetFig.6 Detection results of feature extraction using different networks:(a)VGG16,(b)DenseNet
實(shí)驗(yàn)二:以DenseNet 網(wǎng)絡(luò)為特征提取網(wǎng)絡(luò),為了提取更深層次的網(wǎng)絡(luò)特征對(duì)該網(wǎng)絡(luò)進(jìn)行特征融合,為了明確特征提取過(guò)程中的感興趣特征,分別引入CA 與CBAM 注意力進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如圖7 所示。通過(guò)對(duì)相同圖像的對(duì)比可以發(fā)現(xiàn),CA 的引入降低了文本檢測(cè)的誤檢率,提升了文本檢測(cè)的準(zhǔn)確率。
圖7 不同注意力方法檢測(cè)結(jié)果:(a)DenseNet+CBAM+特征融合,(b)DenseNet+CA+特征融合Fig.7 Detection results using different attention methods:(a)DenseNet+CBAM+feature fusion,(b)DenseNet+CA+feature fusion
通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比發(fā)現(xiàn),本文改進(jìn)的自然場(chǎng)景中的文本檢測(cè)方法有較好的檢測(cè)結(jié)果。為了評(píng)估本文方法和其他算法在文本中的檢測(cè)性能,本次實(shí)驗(yàn)選用ICDAR2011 和ICDAR2013 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3、表4 所示。在ICDAR2011 中本文方法的準(zhǔn)確率(P),召回率(R),F(xiàn)值分別為0.88,0.84,0.86;在ICDAR2013 中本文方法的準(zhǔn)確率(P)、召回率(R)、F值分別為0.89、0.86、0.87。與其他算法相比本文方法在準(zhǔn)確率、召回率、F值上均有提高。
表3 ICDAR2011 評(píng)估結(jié)果Tab.3 Evaluation results of ICDAR2011
表4 ICDAR2013 評(píng)估結(jié)果Tab.4 Evaluation results of ICDAR2013
本文提出基于DenseNet 改進(jìn)的文本檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以很好地處理自然場(chǎng)景中復(fù)雜多樣的文本圖像。為了獲取文本圖像的深層特征,使用DenseNet 網(wǎng)絡(luò)來(lái)進(jìn)行文本特征提取。同時(shí)在DenseNet 網(wǎng)絡(luò)中使用特征融合技術(shù),使改進(jìn)后的網(wǎng)絡(luò)可以獲得文本內(nèi)容更豐富的特征。此外,為了使特征提取過(guò)程明確感興趣的特征,引入CA 機(jī)制,使得網(wǎng)絡(luò)在提取特征時(shí)能夠準(zhǔn)確獲取需要的特征,減少文本檢測(cè)過(guò)程中的漏檢和誤檢問(wèn)題。通過(guò)使用不同數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),本文改進(jìn)后的方法在文本檢測(cè)任務(wù)中有較好的結(jié)果。然而本文只針對(duì)水平方向文本進(jìn)行檢測(cè),對(duì)多方向文本檢測(cè)效果較差,因此,后期將考慮對(duì)多方向文本檢測(cè)的方法進(jìn)行探討。