李曉玉 宋永紅 余濤
場(chǎng)景圖像文字中承載的高級(jí)語(yǔ)義信息可以幫助我們更好地理解周圍的世界,同時(shí)場(chǎng)景圖像文字檢測(cè)技術(shù)也可以廣泛地應(yīng)用于多媒體檢索、視覺輸入和訪問(wèn),以及工業(yè)自動(dòng)化.早期的文字檢測(cè)技術(shù)都是使用傳統(tǒng)的模式識(shí)別技術(shù),可以分為兩大主流方法,一種是以連通區(qū)域分析為核心技術(shù)的文字檢測(cè)方法,另一種則是以滑動(dòng)窗為核心技術(shù)的文字檢測(cè)方法.傳統(tǒng)的模式識(shí)別方法一般包含多個(gè)步驟:字符候選區(qū)域生成、候選區(qū)域?yàn)V除、文本行構(gòu)造和文本行驗(yàn)證,繁瑣的檢測(cè)步驟致使文字檢測(cè)結(jié)果過(guò)于依賴中間結(jié)果且非常耗時(shí).
隨著計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的發(fā)展,目標(biāo)檢測(cè)方法研究開始使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN),研究者們開始借鑒基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法來(lái)檢測(cè)文字,因此產(chǎn)生了一系列基于回歸的深度學(xué)習(xí)文字檢測(cè)方法,該類方法主要是基于目標(biāo)檢測(cè)框架 SSD (Single shot multibox detector)[1]、Faster-RCNN (Region CNN)[2]等進(jìn)行針對(duì)文字特性的改進(jìn)得到.這類方法的主要特點(diǎn)是通過(guò)回歸水平矩形框、旋轉(zhuǎn)矩形框以及四邊形等形狀來(lái)獲得文字檢測(cè)結(jié)果.同時(shí),由于后續(xù)文字識(shí)別步驟需要精確的文字定位結(jié)果,也誕生了一系列基于分割的深度學(xué)習(xí)文字檢測(cè)方法[3-5],該類方法主要借鑒語(yǔ)義分割的思路,將文本像素分到不同的實(shí)例中,并通過(guò)一些后處理方法獲得文字像素級(jí)別的定位結(jié)果,并且由于像素級(jí)檢測(cè)的特點(diǎn),近年來(lái)該類方法逐漸開始用于解決曲線文本檢測(cè)與識(shí)別問(wèn)題[6].此外,由于無(wú)論是基于目標(biāo)檢測(cè)還是基于分割都存在各自的局限,因此也有學(xué)者嘗試融合檢測(cè)和分割的思想[7]進(jìn)行文字檢測(cè).雖然近些年基于深度學(xué)習(xí)的文字檢測(cè)方法已經(jīng)取得巨大進(jìn)步,但是文字作為一種具有其獨(dú)有特色的目標(biāo),其字體、顏色、方向、大小等呈現(xiàn)多樣化形態(tài),相比一般目標(biāo)檢測(cè)更加困難,即便有許多的學(xué)者嘗試根據(jù)文字的特點(diǎn)進(jìn)行網(wǎng)絡(luò)改進(jìn),如使用旋轉(zhuǎn)敏感的回歸[8]來(lái)適應(yīng)任意方向文本,亦或使用端到端的文字檢測(cè)與識(shí)別方法聯(lián)合優(yōu)化檢測(cè)和識(shí)別結(jié)果[9],但在遇到多方向文字以及多尺度文字場(chǎng)景圖像時(shí),檢測(cè)準(zhǔn)確性和有效性依舊差強(qiáng)人意.另外,現(xiàn)有檢測(cè)方法有一階端對(duì)端檢測(cè)流程,但當(dāng)前一階方法存在以下問(wèn)題:1)一階方法如果使用較小的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行檢測(cè),速度快但精度不理想,因此,一階方法一般會(huì)通過(guò)增加網(wǎng)絡(luò)深度提高檢測(cè)精度,顯然,這種做法增大了計(jì)算開銷,檢測(cè)速度無(wú)法得到滿足;2)一階檢測(cè)方法存在嚴(yán)重的正負(fù)樣本不均衡、對(duì)目標(biāo)尺度不敏感等問(wèn)題,也導(dǎo)致檢測(cè)器準(zhǔn)確率不高.
本文提出一種可端對(duì)端訓(xùn)練的快速文本檢測(cè)方法,可以魯棒地檢測(cè)任意方向文本和多尺度文本.為 了提升網(wǎng)絡(luò)的檢測(cè)效果并盡量減少計(jì)算量,受人類視覺系統(tǒng)感受野結(jié)構(gòu)的啟發(fā),在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中加入手工設(shè)計(jì)的感受野增強(qiáng)模塊,從而在保持較快速度前提下提高檢測(cè)精度,克服了一階檢測(cè)方法速度快精度低的弊端.在損失函數(shù)部分,為了改善樣本不均衡、文字尺度不敏感等問(wèn)題,引入 Focalloss[10]和GIoUloss[11]訓(xùn)練網(wǎng)絡(luò),進(jìn)一步提升網(wǎng)絡(luò)性能.
本文內(nèi)容安排如下:第 1 節(jié)介紹基于全卷積網(wǎng)絡(luò)的檢測(cè)框架的各部分結(jié)構(gòu)設(shè)計(jì);第 2 節(jié)描述損失函數(shù)的設(shè)計(jì);第 3 節(jié)給出詳細(xì)的實(shí)驗(yàn)結(jié)果與模型分析;第 4 節(jié)對(duì)本文進(jìn)行總結(jié).
圖1 是本文文字檢測(cè)算法流程的一個(gè)高級(jí)概述.可以看到圖像送入全卷積網(wǎng)絡(luò)(Fully convolutional networks,FCN),通過(guò)特征金字塔網(wǎng)絡(luò)(Feature pyramid networks,FPN)[12]隨之產(chǎn)生多通道的像素級(jí)別的文本得分圖和旋轉(zhuǎn)矩形框預(yù)測(cè)圖.其中 1 通道的像素級(jí)別文本得分圖的每一個(gè)像素值在 [0,1]之間,代表該像素屬于文本的置信度.旋轉(zhuǎn)矩形框預(yù)測(cè)圖表示以當(dāng)前像素點(diǎn)為中心,可以包圍文本區(qū)域的旋轉(zhuǎn)矩形,共包含 5 通道特征圖,分別代表以該像素點(diǎn)為中心,預(yù)測(cè)的旋轉(zhuǎn)矩形的4 條邊與該點(diǎn)的距離以及該矩形的旋轉(zhuǎn)角度.網(wǎng)絡(luò)產(chǎn)生的旋轉(zhuǎn)矩形框預(yù)測(cè)結(jié)果直接經(jīng)過(guò)精細(xì)局部感 知非極大值抑制(Refined locality aware non-maximum suppression,RLANMS)產(chǎn)生最終的結(jié)果.
圖1 本文方法檢測(cè)流程圖Fig.1 Flow chart of our detection method
圖2 展示了文字檢測(cè)網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)圖,主要包括4 部分:特征提取主干、感受野增強(qiáng)模塊、特征融合分支和輸出層.
圖2 本文方法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of our network
特征提取主干使用的是在 ImageNet[13]數(shù)據(jù)集預(yù)訓(xùn)練的 50 層的殘差網(wǎng)絡(luò)(ResNet50[14]).ResNet50 有 5 個(gè)級(jí)別特征圖,本文主要使用后四個(gè)級(jí)別的特征層,如圖2 所示,它們的尺寸分別是輸入圖像的 1/32,1/16,1/8,1/4,用fi表示.
在特征融合分支中,逐漸地合并從 ResNet50中提取的4 個(gè)級(jí)別特征圖mi,受 FPN[12]啟發(fā),具體融合方式如式(1)和式(2)所示.
式(1)和式(2)中,bi是準(zhǔn)備融合前的特征圖;fi是融合后的特征圖;[·;·]表示不同層次特征圖進(jìn)行通道方向上的拼接.在每個(gè)融合階段,前一階段的特征圖fi-1經(jīng)過(guò)一個(gè)反卷積層放大兩倍,然后與當(dāng)前特征圖進(jìn)行連接.這里,當(dāng)i=4,5時(shí),mi會(huì)先經(jīng)過(guò)一個(gè)感受野增強(qiáng)模塊,該模塊的具體結(jié)構(gòu)將在下一節(jié)詳細(xì)介紹.接著,一個(gè)conv1×1模塊用于增加網(wǎng)絡(luò)的非線性并降低特征圖的通道數(shù),減少網(wǎng)絡(luò)參數(shù).最后的融合階段,經(jīng)過(guò)一個(gè)conv3×3模塊得到整個(gè)融合分支的最后輸出f4,作為輸出層的輸入.
輸出層各部件的特征圖通道數(shù)如圖2 所示,輸出層中,輸入的是 32 通道的融合特征,目的是為了保證以少許的計(jì)算復(fù)雜度換取更高的檢測(cè)精度.最后的輸出層包含3個(gè)conv1×1模塊,分別將輸入特征變換到 1 通道的文本得分圖、4 通道的矩形距離響應(yīng)圖和 1 通道的旋轉(zhuǎn)角度響應(yīng)圖,文本得分圖和旋轉(zhuǎn)矩形框的標(biāo)簽制作具體可參照文獻(xiàn)[15].
自然場(chǎng)景文字由于尺度大小和寬高比多變,導(dǎo)致現(xiàn)有方法準(zhǔn)確率欠佳.本節(jié)通過(guò)加入感受野模塊(Receptive field block,RFB)來(lái)提升不同尺度和寬高比文字檢測(cè)準(zhǔn)確率.受目標(biāo)檢測(cè)領(lǐng)域中文獻(xiàn)[16]方法的啟發(fā),本文重新設(shè)計(jì)了這一模塊,并將其嵌入特征融合中.圖3(a)展示了在人類視覺系統(tǒng)中,感受野的大小在人類視網(wǎng)膜圖中是離心率的函數(shù),感受野隨著離心率的增加不斷增大;在不同視覺系統(tǒng)中,感受野也不同,圖3(b)展示了基于圖3(a)中參數(shù)的感受野空間陣列,顯示了感受野的分布規(guī)律,每個(gè)圓的半徑表示在對(duì)應(yīng)離心率下的感受野大小.
圖3 離心率與感受野的關(guān)系圖Fig.3 Structure of the human visual system's receptive field
本節(jié)希望通過(guò)控制離心率來(lái)控制感受野大小,因此設(shè)計(jì)了與人類視覺系統(tǒng)感受野結(jié)構(gòu)有相似分布規(guī)律的感受野增強(qiáng)模塊.整個(gè)感受野增強(qiáng)模塊用于在網(wǎng)絡(luò)特征融合時(shí),主干網(wǎng)絡(luò)中共4 次特征融合,為了保證此模塊在發(fā)揮最大作用的同時(shí),盡量減少參數(shù)量以加快檢測(cè)速度,本文只將該模塊用于高層語(yǔ)義(實(shí)驗(yàn)時(shí),加在低層在 ICADAR2015 上僅有 0.1%的提升),即主干網(wǎng)絡(luò)的 stage 4和stage 5.該模塊在參考Inception-ResNet[17]的基礎(chǔ)上,加入了空洞卷積,使用不同尺度的卷積核作為不同視覺系統(tǒng),不同膨脹率的空洞卷積作為對(duì)應(yīng)視覺系統(tǒng)中的離心率.
1.3.1 多分支卷積層
感受野增強(qiáng)模塊是由多種尺度卷積核的卷積層構(gòu)成的多分支結(jié)構(gòu)[17].具體設(shè)計(jì)如圖4 所示,從主干網(wǎng)絡(luò)提取的特征圖分別進(jìn)入 6 個(gè)分支,其中,前五個(gè)分支都先經(jīng)過(guò)一個(gè)conv1×1模塊以減少通道特征,最后經(jīng)過(guò)一層空洞卷積,且其中間 4 個(gè)分支在空洞卷積前還要分別經(jīng)過(guò)conv1×3、conv3×1、conv1×5、conv5×1卷積,最后一個(gè)分支為 short cut.使用 1、3、5 不同大小的卷積核相當(dāng)于不同的視覺系統(tǒng),它們的基礎(chǔ)感受野不同,針對(duì)不同尺度的文字進(jìn)行檢測(cè).使用 1×n和n×1代替n×n卷積是為了降低參數(shù)量,使得提升網(wǎng)絡(luò)性能的同時(shí),盡量減少計(jì)算成本的增加;最后一個(gè)分支是直連,該設(shè)計(jì)來(lái)自于 ResNet和 Inception-ResNet.5 個(gè)分支的輸出進(jìn)行通道上連接后與直連通道進(jìn)行相加融合,得到該模塊的最終輸出.
圖4 感受野增強(qiáng)模塊Fig.4 Receptive field block
1.3.2 空洞卷積層
在圖像分割領(lǐng)域,為了保證在增大感受野的同時(shí),又不會(huì)因?yàn)槌鼗僮鞫鴵p失圖像信息,學(xué)者們提出空洞卷積[18].在文字檢測(cè)中,大的長(zhǎng)文本需要比較大的感受野,小的短文本檢測(cè)需要保留盡量多的信息,因此在本文的感受野增強(qiáng)模塊中加入空洞卷積,保證在感受野增大的同時(shí),避免信息損失.在圖5 顯示的結(jié)構(gòu)中,每個(gè)分支都是一個(gè)正常卷積后面加一個(gè)空洞卷積,膨脹因子大小根據(jù)卷積核大小設(shè)計(jì).本文設(shè)計(jì)的感受野增強(qiáng)模塊結(jié)構(gòu)中,分別在conv1×1,conv1×3,conv3×1,conv1×5,conv5×1卷積后加膨脹因子大小為 1,3,3,5,5的conv3×3卷積.圖5 展示了卷積核大小為 3×3 的卷積在膨脹因子分別為 1,3,5 情況下的感受野.
圖5(a)表示當(dāng)膨脹因子為 1 時(shí),與普通 3×3的卷積相同,感受野為 3;圖5(b)表示當(dāng)膨脹因子為 3 時(shí),與普通 3×3 的卷積相比,空洞卷積的感受野為 9;圖5(c)表示當(dāng)膨脹因子為 5 時(shí),與普通3×3 的卷積相比,空洞卷積的感受野為 15.圖5直觀展示了空洞卷積增大感受野的過(guò)程.
圖5 不同膨脹因子的空洞卷積Fig.5 Dilated convolution with different dilation rates
本小節(jié)介紹本文模型的損失函數(shù),模型整體的損失函數(shù)表示為
式中,Lconf和Lloc分別表示文本得分圖和旋轉(zhuǎn)矩形框損失;λ是平衡因子,用于均衡文本得分圖損失和旋轉(zhuǎn)矩形框損失;在本文實(shí)驗(yàn)中,λ設(shè)為 1.
在文字檢測(cè)領(lǐng)域,一幅圖像可能生成成千上萬(wàn)的候選包圍框,但是一幅圖像上真實(shí)目標(biāo)包圍框可能只是很少幾個(gè)甚至沒有,這樣就造成正負(fù)樣本比例失衡的問(wèn)題.本文網(wǎng)絡(luò)最后會(huì)得到大小為256×256×1的文本得分圖和 256×256×5的旋轉(zhuǎn)矩形框幾何特征圖,在每一個(gè)像素點(diǎn)位置都會(huì)預(yù)測(cè)一個(gè)候選包圍框,也即是 256×256 個(gè)候選框.然而,每幅圖像上需要檢測(cè)的文字?jǐn)?shù)量只是很少幾個(gè)甚至0 個(gè),這樣致使網(wǎng)絡(luò)訓(xùn)練過(guò)程中文字區(qū)域與非文字區(qū)域樣本比例嚴(yán)重失衡.
目前已有的很多檢測(cè)方法也關(guān)注到了樣本不均衡問(wèn)題,其一般做法是對(duì)樣本進(jìn)行數(shù)據(jù)增廣或者訓(xùn)練過(guò)程中進(jìn)行難樣本挖掘.這類做法確實(shí)在一定程度上改善了樣本不均衡問(wèn)題,但是也在整個(gè)檢測(cè)過(guò)程中引入額外的步驟,這與本文 “簡(jiǎn)潔快速的端對(duì)端檢測(cè)器”初衷是相違背的.為了保持一個(gè)簡(jiǎn)單的訓(xùn)練過(guò)程,同時(shí)又可以改善正負(fù)樣本不均衡問(wèn)題,本文引入 Focalloss[10]損失函數(shù),計(jì)算式為
式中,αt用于控制正負(fù)樣本的權(quán)重.一般而言,文字檢測(cè)任務(wù)中,文字類的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于背景類的樣本,因此,αt取[0,0.5]來(lái)增加文字類的樣本的權(quán)重,使網(wǎng)絡(luò)關(guān)注文字類的學(xué)習(xí). (1-pt)γ用于調(diào)控易分類樣本和難分類樣本的比重.當(dāng)一個(gè)樣本越難分類,pt就越小,那么其損失和反向梯度就會(huì)越大,損失再乘以 (1-pt)γ則會(huì)更大;易分類樣本恰好相反,損失和梯度會(huì)更小.于是網(wǎng)絡(luò)就會(huì)更多關(guān)注難分類樣本的學(xué)習(xí),從而降低樣本誤檢.通過(guò)多次實(shí)驗(yàn)結(jié)果,當(dāng)αt=0.5,γ= 0.5 時(shí),效果最好,本文實(shí)驗(yàn)均在該參數(shù)設(shè)置下進(jìn)行.
2.2.1 矩形框損失
場(chǎng)景文字檢測(cè)的一大難題是場(chǎng)景圖像中文字的尺度、寬高比極其多變.目標(biāo)檢測(cè)領(lǐng)域常用 L1、L2損失來(lái)回歸目標(biāo)包圍框,這類損失的特點(diǎn)是對(duì)大數(shù)很敏感,如果直接使用這類損失來(lái)回歸文字區(qū)域,那么大文字、長(zhǎng)文字的損失就會(huì)相對(duì)更大,不僅導(dǎo)致梯度難以控制,也很可能指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)出更大更長(zhǎng)的文本包圍框.因此,需要一個(gè)對(duì)文字尺度不敏感的函數(shù)進(jìn)行文字區(qū)域回歸.
EAST (Efficient and accurate scene text detector)[15]中,對(duì)于矩形框部分使用交并比(Intersection over union,IoU)損失,Zhou等[15]認(rèn)為 IoU的特性就是對(duì)尺度不敏感,可以兼容文字的多種尺度,但沒有考慮 IoU 作為損失函數(shù)時(shí)存在以下問(wèn)題:1)假設(shè)兩個(gè)目標(biāo)包圍框沒有發(fā)生重疊,那么IoU值為零,這種情況下,IoU 作為損失反向梯度也為 0,網(wǎng)絡(luò)得不到任何優(yōu)化;2)IoU 無(wú)法表達(dá)出兩個(gè)目標(biāo)矩形框的重合情況.圖6 給出了兩個(gè)目標(biāo)包圍框不同情況下的重合,圖6(a)~6(c)三種情況下的 IoU值相等,但顯然它們的重合情況完全不同.這三種情況下,圖6(a)會(huì)得到一個(gè)很好的回歸結(jié)果,圖6(c)很難回歸出理想的包圍框.因此,IoU 函數(shù)用作損失無(wú)法反映出兩個(gè)目標(biāo)包圍框的重疊情況.
圖6 三種IoU 相等的情況[11]Fig.6 Three situations with the same IoU[11]
針對(duì)上述 IoU 的缺點(diǎn),本文參考文獻(xiàn)[11]引入GIoU (Generalized IoU)作為文字回歸的損失,GIoU 計(jì)算過(guò)程很簡(jiǎn)單,詳細(xì)計(jì)算步驟如下:
1)對(duì)于兩個(gè)任意形狀凸邊形,q1,q2?Q∈Rn,求出可以封閉兩者的最小凸邊形q3.這里q3?Q∈Rn.例如,圖6(c)中的虛線部分即兩個(gè)矩形框的最小凸邊形.
2)計(jì)算q1,q2的IoU值,
綜上所述,對(duì)于矩形框部分,本文模型使用 GIoU損失的表達(dá)式為
式中,表示網(wǎng)絡(luò)預(yù)測(cè)的矩形形狀;R*表示其對(duì)應(yīng)的真實(shí)包圍框;R表示可以封閉R*和的最小矩形.|∪R*|的寬高可以簡(jiǎn)單地表示為
式中,d1,d2,d3和d4分別代表一個(gè)像素位置到其對(duì)應(yīng)的矩形框上、右、下、左邊的距離.R的寬高計(jì)算式為
因此,根據(jù)上述計(jì)算式,GIoU 可以很容易地計(jì)算出來(lái).
2.2.2 角度損失
角度損失簡(jiǎn)單地使用余弦損失,計(jì)算式為
綜上,幾何形狀損失可以整合表示為
式中,λθ在實(shí)驗(yàn)時(shí)設(shè)置為20.值得一提的是,本文在計(jì)算Lα?xí)r假設(shè)兩個(gè)目標(biāo)包圍框角度相同,即忽略了角度差異.雖然網(wǎng)絡(luò)在訓(xùn)練過(guò)程中,兩個(gè)包圍框的角度有較大差異,但是這樣的近似 GIoU值依然可以反映兩個(gè)包圍框的重合情況.
為了證明本文模型的有效性,分別在 ICDAR-2013,ICDAR2015,以及 MSRATD-500 數(shù)據(jù)集上進(jìn)行測(cè)試.并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)的對(duì)比和分析.
ICDAR2013[19]:高分辨率的自然場(chǎng)景圖像,包含訓(xùn)練圖片 229 幅,測(cè)試圖片 233 幅.
ICDAR2015[20]:該數(shù)據(jù)集來(lái)自 ICDAR2015 魯棒閱讀競(jìng)賽中的任務(wù) 4:偶然場(chǎng)景文字檢測(cè).該數(shù)據(jù)集包含的圖片是隨機(jī)拍攝的生活場(chǎng)景,不是刻意針對(duì)文字拍攝的.訓(xùn)練集包含1 000 幅圖片,測(cè)試集包含 500 幅圖片,文本的標(biāo)注是以單詞為單位.
MSRATD-500[21]:該數(shù)據(jù)集是多方向自然場(chǎng)景文字?jǐn)?shù)據(jù)集,訓(xùn)練集包含 300 幅圖片,測(cè)試集包含200 幅圖片.該數(shù)據(jù)集不僅包含英文文本也包含中文文本,并且中英文標(biāo)注都是以行為單位.因?yàn)樵摂?shù)據(jù)集數(shù)據(jù)量太少,所以在使用該數(shù)據(jù)集時(shí),加入HUSTTR400[22]數(shù)據(jù)集共同作為訓(xùn)練數(shù)據(jù).
本文方法利用 ADAM 優(yōu)化器進(jìn)行網(wǎng)絡(luò)訓(xùn)練.為了加速訓(xùn)練,統(tǒng)一地從原始圖片上隨機(jī)采樣 512 ×512 像素大小的圖片塊作為每一批次的訓(xùn)練樣本,訓(xùn)練的批次大小設(shè)置為 12.ADAM 的初始學(xué)習(xí)率為 0.0001,每迭 代 10 000 次下降為原來(lái)的0.94倍,訓(xùn)練均在一塊 TITAN X GPU 上進(jìn)行,一共迭代 100 000 次.
3.3.1 精度性能
首先在兩個(gè)比較流行的多方向偶然場(chǎng)景文字?jǐn)?shù)據(jù)集 ICDAR2015和 MSRA-TD500 上進(jìn)行實(shí)驗(yàn),以此驗(yàn)證本文模型解決偶然場(chǎng)景下多方向文本檢測(cè)的能力.并且,為了驗(yàn)證本文方法的多功能性,又在比較流行的水平自然場(chǎng)景文字?jǐn)?shù)據(jù)集 ICDAR2013進(jìn)行訓(xùn)練與測(cè)試,并與現(xiàn)有方法的性能進(jìn)行了詳細(xì)對(duì)比.
1)多方向偶然場(chǎng)景文字?jǐn)?shù)據(jù)集
本節(jié)實(shí)驗(yàn)首先在廣泛使用的多方向偶然場(chǎng)景數(shù)據(jù)集 ICDAR2105 上實(shí)施,與其他方法的部分檢測(cè)結(jié)果列舉在圖7 中.從圖7 中列舉的檢測(cè)結(jié)果可以看到,Zhang等[23]和Shi等[24].對(duì)多方向文本和多尺度文本出現(xiàn)了大量的漏檢現(xiàn)象,而本文方法在所列舉的這幾幅圖像上表現(xiàn)出了對(duì)多尺度文本和多方文本魯棒的檢測(cè)性能.
圖7 各種方法在ICDAR2015 測(cè)試集檢測(cè)結(jié)果比較Fig.7 Qualitative comparison on ICDAR2015 dataset
根據(jù)文獻(xiàn)[20]定義的召回率(R)、精確率(P)、F值三個(gè)指標(biāo),將本文方法與其他方法的定量比較結(jié)果列舉在表1 中.本文模型單尺度測(cè)試的結(jié)果已經(jīng)達(dá)到與現(xiàn)有先進(jìn)方法相當(dāng)?shù)乃?更重要的是,本文模型與以 PVANET 作為基網(wǎng)絡(luò)的 EAST 相比,在都使用單尺度測(cè)試的情況下,F值相比EAST 高出 6.29%,當(dāng) EAST 基網(wǎng)絡(luò) PVANET 通道增加為原來(lái)兩倍時(shí),本文方法 F值高出 3.8%,更進(jìn)一步,本文方法在單尺度測(cè)試的情況下,依然高出 EAST 多尺度測(cè)試版本 1.3%.與方法 Text-Boxes++相比,本文方法的單尺度測(cè)試結(jié)果高出TextBoxes++的單尺度測(cè)試結(jié)果.
表1 ICDAR2015 測(cè)試集檢測(cè)結(jié)果對(duì)比Table 1 Qualitative comparison on ICDAR2015 dataset
本文方法在 MSRA-TD500 數(shù)據(jù)集上實(shí)驗(yàn)成績(jī)與現(xiàn)有方法相比也達(dá)到了相當(dāng)?shù)乃疁?zhǔn),如表2 所示.
表2 MSRA-TD500 測(cè)試集檢測(cè)結(jié)果對(duì)比Table 2 Qualitative comparison on MSRA-TD500 dataset
從表2 可知,本文方法與以 PVANET 作為基網(wǎng)絡(luò)的 EAST 相比,在 R值和 F值上分別高出 1.77%,8.94%和 4.45%,當(dāng) EAST 基網(wǎng)絡(luò) PVANET 通道增加為原來(lái)兩倍時(shí),本文方法 F值依舊高出 2.8%.Zhang等[23]的方法是之前發(fā)表的先進(jìn)多方向文字檢測(cè)方法,與其相比,本文方法在 R值、P值、F值三個(gè)指標(biāo)上分別提升了 25.9%,21.5%,25%.
2)水平自然場(chǎng)景文字?jǐn)?shù)據(jù)集
除了在多方向數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文也在水平文本數(shù)據(jù)集 ICDAR2013 上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集是目前最為廣泛使用的水平文本數(shù)據(jù)集.表3 展示了本文方法與其他先進(jìn)文字檢測(cè)方法的成績(jī)對(duì)比情況.
由表3 可以觀察到,除了 Tang等[42]的方法,本文方法成績(jī)?nèi)矫娉奖? 中所列舉的先進(jìn)文字檢測(cè)方法.然而,Tang等[42]的方法使用的是包含了兩個(gè)網(wǎng)絡(luò)的級(jí)聯(lián)結(jié)構(gòu),檢測(cè)一幅圖片平均耗時(shí) 1.36 s,更進(jìn)一步,該方法只可以檢測(cè)水平文本數(shù)據(jù)集,對(duì)多方向文本失效.與相似網(wǎng)絡(luò)[43]結(jié)構(gòu) EAST 相比,表3 中列出以 2 倍通道 PVANET 作為基網(wǎng)絡(luò)的EAST 的檢測(cè)成績(jī),召回率、精確率和 F值分別為0.8267,0.9264,0.8737,本文方法在三個(gè)指標(biāo)上分別超出 EAST 3.13%,0.46%,1.93%.
表3 ICDAR2013 測(cè)試集檢測(cè)結(jié)果對(duì)比Table 3 Qualitative comparison on ICDAR2013 dataset
3.3.2 時(shí)間性能
本文方法不僅檢測(cè)準(zhǔn)確,而且檢測(cè)快速.在ICDAR2015 數(shù)據(jù)集上對(duì)本文方法和部分先進(jìn)檢測(cè)算法[44-45]的運(yùn)行速度進(jìn)行比較,結(jié)果如表4 所示.
由表4 可知,本文方法在取得 82% 的 F值的情況下,檢測(cè)速度為 12.5 幀/s.相較其他方法,這樣的結(jié)果在性能和速度上達(dá)到了相對(duì)均衡.觀察表4,可以看到 Tian等[27]提出的 ss-600 方法,訓(xùn)練時(shí)圖片的最短邊縮放到 600,其在 ICDAR2015 數(shù)據(jù)集上的最優(yōu)結(jié)果是在將圖片最短邊放大到 2 000 時(shí)得到的,這種情況下,該方法的時(shí)間相對(duì)表4 中顯示的時(shí)間會(huì)更慢.對(duì)于 Zhang 等.[23]的方法,MS 表示使用三個(gè)尺度測(cè)試(如200,500,1 000).EAST 方法在以 PVANet 為基網(wǎng)絡(luò)時(shí),可以達(dá)到 16.8 幀/s的速度,雖然 EAST 方法比本文方法略快,但是在ICDAR2015 數(shù)據(jù)集上 F值低于本文方法 6.3%.EAST 方法為了提高檢測(cè)成績(jī),將 PVANet 的通道數(shù)增加為原來(lái)的兩倍,速度增為 13.2 幀/s,與本文方法速度相近,但檢測(cè)的 F值依然比本文方法低4% 左右.
表4 多種文字檢測(cè)方法在ICDAR2015 上的精度和速度對(duì)比結(jié)果Table 4 Comparison of accuracy and speed on ICDAR2015 dataset
3.4.1 模型各組件作用
為了直觀地觀察模型中各組件的作用,本節(jié)進(jìn)行控制變量實(shí)驗(yàn)來(lái)觀察各組件如何影響模型的最終效果.由于 ICDAR2015 數(shù)據(jù)集為自然場(chǎng)景圖,在該數(shù)據(jù)集上的結(jié)果更能體現(xiàn)方法的實(shí)用性,因而整個(gè)實(shí)驗(yàn)在該數(shù)據(jù)集上進(jìn)行.本節(jié)的所有實(shí)驗(yàn)除了控制變量,其他條件均相同,實(shí)驗(yàn)結(jié)果如表5 所示.
從表5 中可以看出:1)本文模型通過(guò)使用基網(wǎng)絡(luò) ResNet50,F值得到提升,在 ICDAR2015 數(shù)據(jù)集上達(dá)到 79.7%.2)在本文網(wǎng)絡(luò)結(jié)構(gòu)中,對(duì) Res-Net50 的第 4 階段和第 5 階段特征圖之后嵌入感受野增強(qiáng)模塊,F值得到 0.5% 的提升.這樣的實(shí)驗(yàn)結(jié)果說(shuō)明增大網(wǎng)絡(luò)的感受野對(duì)網(wǎng)絡(luò)性能確實(shí)有所提升,提升不是很明顯的主要原因是 ICDAR2015 數(shù)據(jù) 集主要特點(diǎn)在于自然場(chǎng)景背景的復(fù)雜,而不在于長(zhǎng)、大文本,因此基礎(chǔ)模型由于感受野不足而誤檢的情況并不常見.3)當(dāng)對(duì)像素點(diǎn)進(jìn)行文本/非文本分類時(shí),引入 Focalloss 作為分類損失,F值提高到 81.3%.這組實(shí)驗(yàn)一定程度上說(shuō)明正負(fù)樣本不均衡問(wèn)題確實(shí)影響網(wǎng)絡(luò)性能,并且 Focalloss 確實(shí)改善了網(wǎng)絡(luò)性能.4)使用 GIoU 作為網(wǎng)絡(luò)回歸矩形的損失,使得F值再次得到提升.最終,本文方法在 ICDAR2015數(shù)據(jù)集上的召回率、精確率、F值分別為 78.9%,85.4%和 82%.
表5 本文方法各組件在ICDAR2015 數(shù)據(jù)集上的作用效果Table 5 Effectiveness of various designs on ICDAR2015 dataset
3.4.2 模型優(yōu)缺點(diǎn)
圖8 給出了本文模型在 ICDAR2013、ICDAR-2015 以及 MSRA-TD500 數(shù)據(jù)集測(cè)試集上的部分圖像檢測(cè)結(jié)果.從這些檢測(cè)結(jié)果圖可以看出,本文方法在多方向數(shù)據(jù)集、水平數(shù)據(jù)集上都表現(xiàn)出了優(yōu)異的檢測(cè)結(jié)果,并且對(duì)于一幅圖像上出現(xiàn)文字尺度多變、寬高比多邊的情況,本文方法檢測(cè)依然具有一定的魯棒性.另外,從圖8(c)可看出本文方法不僅可以檢測(cè)英文文本,中文文本同樣可以檢測(cè).但是本文方法也存在檢測(cè)效果不理想的情況,如圖9(a)所示,對(duì)于過(guò)長(zhǎng)文本和特大文字,本文方法會(huì)出現(xiàn)檢測(cè)不全甚至漏檢的情況.考慮到長(zhǎng)文本和特大文字需要更大的感受野,雖然添加了感受野增強(qiáng)模塊,但感受野依然受限,導(dǎo)致長(zhǎng)文本和特大文字檢測(cè)失敗.圖9(b)顯示了本文方法對(duì)曲線文本檢測(cè)[46]的效果差強(qiáng)人意,主要原因是一方面旋轉(zhuǎn)矩形框無(wú)法準(zhǔn)確地表示出曲線文本的形狀,另一方面可能是因?yàn)樗褂玫娜齻€(gè)數(shù)據(jù)集的訓(xùn)練集中包含曲線文本的圖像樣本幾乎沒有.圖9(b)也顯示出本文方法在垂直文本檢測(cè)方面效果欠佳,這個(gè)問(wèn)題出現(xiàn)的一個(gè)主要原因可能是在訓(xùn)練集中包含垂直文本的樣本圖片數(shù)量較少,導(dǎo)致網(wǎng)絡(luò)對(duì)垂直文本的學(xué)習(xí)程度不夠.
圖8 本文方法在各個(gè)數(shù)據(jù)集上檢測(cè)結(jié)果比較Fig.8 Comparison of detection results on different datasets
圖9 本文方法檢測(cè)失敗的一些場(chǎng)景圖像Fig.9 Some scene image of detect failure
本文提出并介紹了一種結(jié)合感受野增強(qiáng)和全卷積網(wǎng)絡(luò)的多方向文本檢測(cè)方法.該方法基于以 Res-Net50 為基網(wǎng)絡(luò)的全卷積網(wǎng)絡(luò)(FCN),不僅可以魯棒地檢測(cè)任意方向文本和多尺度文本,而且消除了冗余且耗時(shí)的中間步驟,可端對(duì)端訓(xùn)練.首先,為了提升不同尺度和寬高比文字檢測(cè)準(zhǔn)確率,受人類視覺的感受野結(jié)構(gòu)的啟發(fā),使用多層卷積和空洞卷積設(shè)計(jì)了感受野增強(qiáng)模塊,使得網(wǎng)絡(luò)對(duì)尺度、寬高比多變的文字檢測(cè)更加魯棒,然后,針對(duì)文字檢測(cè)中樣本不均衡問(wèn)題,引入 Focalloss 對(duì)像素點(diǎn)進(jìn)行文本/非文本預(yù)測(cè),從而一定程度上提升了網(wǎng)絡(luò)的檢測(cè)性能;其次,針對(duì)以往 IoUloss 使用存在的幾個(gè)弊端問(wèn)題,引入 GIoU 作為包圍框回歸損失,改善文本定位精確性;最后,在多方向文本數(shù)據(jù)集 ICDAR2015和 MSRA-TD500 以及水平文本數(shù)據(jù)集 ICDAR2013上與現(xiàn)有的頂級(jí)方法進(jìn)行對(duì)比實(shí)驗(yàn)和模型分析,最后結(jié)果顯示本文方法達(dá)到了現(xiàn)有先進(jìn)水平,并且也驗(yàn)證了本文各部件的作用.