陳淼妙 續(xù)晉華
(華東師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院 上海 200062)
隨著互聯(lián)網(wǎng)和移動終端的飛速發(fā)展,越來越多的信息載體以圖像的形式存在。自然場景中的文本具有豐富、明確的語義信息,利用計算機技術(shù)快速、準確地提取場景圖像中的文本信息是計算機視覺和模式識別領(lǐng)域當下熱門的研究課題之一。場景文本檢測技術(shù)是文本識別的基礎(chǔ),在人們的日常生活和生產(chǎn)中有著廣泛的應(yīng)用。例如:手機設(shè)備上的拍照翻譯軟件,可以對異國街景中的文本進行即時的實景翻譯,給出國旅游帶來極大的便利;汽車上的智能拍攝設(shè)備,可以對道路交通指示牌上的文本進行檢測和識別,獲取實時的地理位置信息和道路周邊情況,實現(xiàn)輔助駕駛。除此之外,場景文本檢測技術(shù)在盲人輔助、商業(yè)票據(jù)處理、工業(yè)自動化等領(lǐng)域也有著重要的應(yīng)用價值。
與傳統(tǒng)OCR[1]相比,自然場景圖像中的文本檢測面臨背景復(fù)雜、文本尺度和字體多樣、圖像質(zhì)量的不確定性等諸多困難和挑戰(zhàn)。近年來,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,深度學(xué)習(xí)的方法在文本檢測任務(wù)上效果顯著,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)具備很好的表征能力,但網(wǎng)絡(luò)定位能力不強,對文本的邊界定位不準確。特征金字塔網(wǎng)絡(luò)可以融合不同尺度的特征,但小尺度文本的高級語義信息在網(wǎng)絡(luò)高層已經(jīng)丟失,導(dǎo)致模型對多尺度文本的檢測能力不強。
鑒于此,本文設(shè)計專門用于文本檢測的主干網(wǎng)絡(luò),通過引入空洞卷積層,提高網(wǎng)絡(luò)高層特征圖的空間分辨率,以學(xué)習(xí)更精細的文本位置信息,提高模型的多尺度檢測性能。
場景文本檢測是從自然場景圖像中定位出文本的位置。近年來,隨著基于深度學(xué)習(xí)的目標檢測和圖像分割算法的快速發(fā)展,場景文本檢測的研究也進入了一個新階段,涌現(xiàn)出大量基于深度學(xué)習(xí)的方法。這些方法主要分為三類:基于回歸的文本檢測方法、基于分割的文本檢測方法和基于混合的文本檢測方法。
受通用目標檢測框架的啟發(fā),基于回歸的文本檢測方法通常采用回歸文本邊界框的方式獲取文本區(qū)域,主要分為兩類:
(1)間接回歸。Faster R-CNN[2]的思想進入文本檢測領(lǐng)域,將目標檢測的各個階段整合到深度神經(jīng)網(wǎng)絡(luò)中。間接回歸首先通過卷積神經(jīng)網(wǎng)絡(luò)得到整幅圖像的特征圖,再通過錨點(anchor)機制或區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network)獲得文本候選框,最后使用回歸方法或其他方式精細調(diào)整候選框得到最后的文本檢測結(jié)果。CTPN[3](Connectionist Text Proposal Network)提出了一種垂直錨點機制,將文本區(qū)域細分為多個固定寬度、預(yù)測高度的文本段,以提取多尺度的文本特征。RRPN[4](Rotation Region Proposal Networks)利用任意角度的區(qū)域建議網(wǎng)絡(luò),可以檢測任意方向的場景文本。
(2)直接回歸。YOLO[5]屬于直接回歸的目標檢測框架。受此啟發(fā),直接回歸的文本檢測方法直接用一個神經(jīng)網(wǎng)絡(luò)預(yù)測給定點到文本邊界框的偏移量,不需要進行二次回歸。FCRN[6](Fully-Convolutional Regression Network)利用人工合成的場景文本訓(xùn)練基于YOLO的深度神經(jīng)網(wǎng)絡(luò)。He等[7]基于直接回歸,采用多任務(wù)學(xué)習(xí)的框架,緩解了錨點機制不能有效檢測傾斜長文本的問題。
這類方法采用整體化思想,計算速度較快,但在一些情況下檢測出的文本邊界框不夠精確且無法調(diào)整。
文本檢測的核心是設(shè)計特征來區(qū)分出文本和背景。基于分割的文本檢測方法將文本檢測問題轉(zhuǎn)化為文本與背景的語義分割問題,首先通過分割網(wǎng)絡(luò)提取文本塊區(qū)域,再進行后處理獲取文本邊界框。大多數(shù)方法采用全卷積網(wǎng)絡(luò)框架(FCN[8])。Yao等[9]將文本置信度、字符置信度和相鄰字符連接方向多個通道的信息在一個網(wǎng)絡(luò)中進行端到端訓(xùn)練,以精確分割文本與背景。He等[10]先利用一個多尺度全卷積網(wǎng)絡(luò)提取文本塊區(qū)域,再級聯(lián)一個實例感知分割網(wǎng)絡(luò)得到精細的文本實例。PixelLink[11]基于實例分割,先進行文本類別和連通預(yù)測,再利用實例分割得到最后的檢測結(jié)果。這些方法可以檢測傾斜或呈曲線的文本行,對文本邊界定位較為準確,但對小尺度文本的檢測能力不強,而且離得較近的文本行不容易區(qū)分開。
混合的思想是將回歸方法與分割方法相結(jié)合,融合兩種方法的優(yōu)勢。Zhou等[12]提出了一個簡單、高效的文本檢測器(EAST),直接在整幅圖像上預(yù)測任意方向的場景文本,整個流程沒有冗余的中間步驟。Lyu等[13]提出基于角點檢測與區(qū)域分割的文本檢測方法,以準確檢測長寬比變化較大的文本實例,解決了相鄰文本行的分割結(jié)果粘連的問題。
以上這些方法更多地受益于通用目標檢測框架和圖像分割方法,較少針對文本的尺度變化研究專門用于場景文本檢測的主干網(wǎng)絡(luò)。因此,本文基于混合思想,設(shè)計更關(guān)注文本的尺度變化和邊界位置的網(wǎng)絡(luò)結(jié)構(gòu),在不增加計算量的前提下提高模型的檢測性能。
本文主要貢獻是研究高分辨率特征圖對文本檢測結(jié)果的影響,因此本文采用了EAST[12]中的流程(Pipeline),設(shè)計新的高分辨率主干網(wǎng)絡(luò)。實驗結(jié)果表明,新的主干網(wǎng)絡(luò)與原始的EAST模型相比,提高了召回率,取得了更好的檢測性能。
本文提出的模型是一個端到端可訓(xùn)練的場景文本檢測器,該模型由兩部分組成:深度神經(jīng)網(wǎng)絡(luò)和后處理。受DetNet[14]啟發(fā),通過維持較高的網(wǎng)絡(luò)高層特征圖的空間分辨率,讓網(wǎng)絡(luò)學(xué)習(xí)到文本的多尺度特征和精細的邊界位置,從而提高模型的分類、定位能力。
模型的主體是深度神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)由三部分構(gòu)成:主干網(wǎng)絡(luò)、特征融合層和輸出層。圖1中:Conv代表卷積操作,后面的參數(shù)分別為卷積核尺寸、通道數(shù)和下采樣倍數(shù);Max pool代表最大池化操作;Concat代表將兩個特征圖按通道維度進行拼接;Unpool代表上采樣,直接使用雙線性插值。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
主干網(wǎng)絡(luò):基于ResNet50,改進Block 3使得其特征圖分辨率是輸入的1/16(而不是原來的1/32),以提取到合適的多尺度特征和精細的文本位置。相應(yīng)地改進Block 4為Dilated Block,該結(jié)構(gòu)塊由一個帶有1×1卷積項的空洞卷積[15]結(jié)構(gòu)(圖2(a))開始,再堆疊兩個無1×1卷積項的空洞卷積結(jié)構(gòu)(圖2(b)),以增大網(wǎng)絡(luò)的有效感受野,捕獲高級語義信息,增強網(wǎng)絡(luò)的分類能力。同時,Dilated Block的網(wǎng)絡(luò)寬度與Block 3保持一致,以減少網(wǎng)絡(luò)的計算代價。
(a)帶有1×1卷積項 (b)無1×1卷積項
特征融合層:從主干網(wǎng)絡(luò)的最高層開始,將其中的5層特征融合,以增強網(wǎng)絡(luò)低層的表征能力,充分利用網(wǎng)絡(luò)各層提取到的特征來應(yīng)對文本的尺度變化。融合方式如下:
(1)
(2)
式中:[·,·]代表拼接操作。
輸出層:特征融合層得到原圖四分之一大小的特征圖,利用1×1卷積操作得到6個通道的輸出,其中一個通道預(yù)測每個像素屬于文本區(qū)域的置信度,四個通道分別預(yù)測每個像素距離文本外接矩形4條邊的距離,另一個通道預(yù)測該文本外接矩形的旋轉(zhuǎn)角度。
標簽生成過程如圖3所示,圖中虛線四邊形為ground truth對文本區(qū)域的標注。將虛線四邊形的4條邊均向內(nèi)縮減0.3倍的短邊長得到一個內(nèi)部四邊形,目的是緩解緊挨文本區(qū)域存在的分割結(jié)果粘連的問題;將內(nèi)部四邊形內(nèi)的像素視作正樣本,真值為1,其余區(qū)域值設(shè)為0;生成虛線四邊形的最小外接矩形;僅對內(nèi)部四邊形內(nèi)的像素計算損失,以圖3中一個像素點為例,4個箭頭代表該像素點距離外接矩形4條邊的距離;用θ表示外接矩形的旋轉(zhuǎn)角度,最終表示出文本區(qū)域的外接旋轉(zhuǎn)矩形。
圖3 標簽生成示意圖
網(wǎng)絡(luò)的損失函數(shù)是分類損失與回歸損失的加權(quán)和:
L=Lcls+λregLreg
(3)
式中:Lcls代表分類損失;Lreg代表回歸損失;平衡系數(shù)λreg設(shè)為1。與EAST中的交叉熵損失不同,本文采用二分類的Dice損失作為分類損失Lcls:
(4)
(5)
(6)
Lreg=Lgeo+λθLθ
(7)
式中:λθ是幾何損失和角度損失的平衡系數(shù),實驗中設(shè)置為20。
非極大值抑制算法(Non-Maximum Suppression,NMS)的本質(zhì)是局部極大值搜索,抑制非極大值元素。該算法在文本檢測任務(wù)的后處理中被廣泛應(yīng)用,目的是去除冗余的檢測結(jié)果,得到最佳的文本邊界框。
模型的后處理采用融合NMS[12],算法步驟如下:
(1)對模型生成的文本邊界框按行從左向右依次進行融合操作,計算兩個文本邊界框的面積交疊率(PIoU),計算公式如下:
(8)
式中:area(·)代表文本邊界框的面積。如果交疊率大于設(shè)定的閾值,對文本邊界框的4個頂點坐標分別進行相應(yīng)的權(quán)重平均,得到融合后的文本邊界框,其置信度設(shè)為原始文本邊界框的置信度之和;否則,保留原始文本邊界框。
(2)將經(jīng)過融合操作后的所有文本邊界框按照置信度從高到低排序,并將第一個文本邊界框作為當前抑制文本邊界框。
(3)非極大值抑制:將其他文本邊界框作為被抑制的元素,計算當前抑制文本邊界框與被抑制文本邊界框的面積交疊率。如果交疊率大于設(shè)定的閾值,去除該文本邊界框。
(4)按照步驟(2)中的排序結(jié)果,取下一個未被抑制的文本邊界框作為當前抑制文本邊界框,執(zhí)行步驟(3),重復(fù)步驟(4)直至剩下最后一個文本邊界框,算法結(jié)束。
為了驗證模型的有效性,實驗在公開的場景文本檢測數(shù)據(jù)集ICDAR2015上進行性能評估。ICDAR2015數(shù)據(jù)集包含1 000幅訓(xùn)練圖像和500幅測試圖像,圖像相對模糊且文本為任意方向、包含畸變,標注真值為文本區(qū)域外接四邊形的4個頂點坐標。
實驗中使用Adam優(yōu)化器來進行網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練數(shù)據(jù)為ICDAR2013訓(xùn)練集中的229幅圖像和ICDAR2015訓(xùn)練集中的1 000幅圖像。為了加速網(wǎng)絡(luò)收斂,訓(xùn)練前將圖像隨機裁剪縮放(縮放比例為0.5、1.0、2.0、3.0),并用黑色填充以重新將圖像大小調(diào)整為512×512,Batch Size設(shè)為16。初始學(xué)習(xí)率為0.000 1,之后每1萬步以0.96的比例衰減,總迭代次數(shù)為9萬次。
研究采用標準的自然場景文本檢測評估指標:準確率(P)、召回率(R)和F值(F)。它們的計算公式分別為:
(9)
(10)
(11)
式中:TP表示檢測正確的文本框數(shù)量;D表示模型檢測出的文本框數(shù)量;G表示ground truth中真實的文本框數(shù)量。若檢測結(jié)果與ground truth之間的交并比大于閾值(一般設(shè)為0.5)并且得分也大于相應(yīng)閾值,則認為該檢測結(jié)果是正確的。F值是準確率和召回率的調(diào)和平均數(shù),以綜合評估模型的性能。
為了驗證專為文本檢測任務(wù)設(shè)計的主干網(wǎng)絡(luò)(TextNet)的性能,首先將提出的模型(HRTextDet)在ICDAR2015數(shù)據(jù)集上進行測試,在輸入圖像為單尺度的條件下,與原始模型(EAST[12])進行實驗對比。如表1所示,本文模型最大的優(yōu)勢在于召回率得到顯著的提升,達到79.35%,比原始模型提高5.88%;準確率達到84.60%,比原始模型提高1.03%;F值達到81.89%,提升3.69%。
表1 HRTextDet與原始模型的性能對比 %
此外,原始模型PVANet2x(EAST)使用多尺度測試PVANet2x_MS(EAST)后,召回率得到極大的提升,說明原始模型盡管融合了高低層特征,仍無法應(yīng)對文本劇烈的尺度變化。然而,本文模型使用單尺度測試與使用多尺度測試的PVANet2x_MS(EAST)相比,在準確率、召回率和F值上分別仍有1.33%、1.02%和1.17%的提升。這是因為專為文本檢測設(shè)計的主干網(wǎng)絡(luò),能夠提取到文本的多尺度特征和精細的邊界位置。圖4為原始EAST模型和提出模型的結(jié)果對比圖。圖4(a)中,原始EAST模型在多尺度文本檢測上能力不足,而提出的模型具有較高的網(wǎng)絡(luò)高層特征圖的空間分辨率,在不均勻照明、低分辨率、背景復(fù)雜等各種有挑戰(zhàn)的場景中,仍能有效地檢測出多尺度文本;圖4(b)中,原始EAST模型對文本的邊界定位不準確,而本文模型能準確地定位出文本的位置;圖4(c)中,原始EAST模型存在背景誤檢的情況,而本文模型能有效地保留高級語義信息,具有較強的分類能力,能減少對背景誤檢的情況。
(a)多尺度檢測
為了探討主干網(wǎng)絡(luò)的網(wǎng)絡(luò)深度對模型性能的影響,改變主干網(wǎng)絡(luò)的網(wǎng)絡(luò)深度,在TextNet50的最高層堆疊一個Dilated Block,得到TextNet59。在ICDAR2015數(shù)據(jù)集上進行單尺度測試,并與HRTextDet50模型進行實驗對比。如表2所示,主干網(wǎng)絡(luò)為TextNet59的模型在準確率、召回率和F值上與主干網(wǎng)絡(luò)為TextNet50的模型相比均有所下降。這表明主干網(wǎng)絡(luò)的深度不是越深越好,與文本檢測可能不需要太深的高級語義信息這一猜想吻合。
表2 不同深度TextNet的性能對比 %
為了驗證Dilated Block設(shè)計中1×1卷積項具有開啟新的語義階段的作用,實驗使用無1×1卷積項的空洞卷積結(jié)構(gòu)開啟TextNet59主干網(wǎng)絡(luò)的第二個Dilated Block,把該結(jié)構(gòu)叫作TextNet59_v0。在ICDAR2015數(shù)據(jù)集上用TextNet59_v0進行單尺度測試,并與主干網(wǎng)絡(luò)為TextNet59的HRTextDet模型進行實驗對比。如表3所示,主干網(wǎng)絡(luò)為TextNet59_v0的模型在F值上與主干網(wǎng)絡(luò)為TextNet59的模型相比略有下降,這表明1×1卷積項可以開啟新的語義階段。
表3 Dilated Block中有/無1×1卷積項的性能對比 %
圖5給出了更多檢測結(jié)果,其中:(a)是檢測成功的例子;(b)是檢測失敗的例子。圖像中的文本太過模糊時,對文本檢測器是個很大的挑戰(zhàn)。
(a)檢測成功示意圖
最后,把HRTextDet模型與常用的自然場景文本檢測方法進行實驗對比,在ICDAR2015數(shù)據(jù)集上的實驗結(jié)果如表4所示??梢钥闯?,本文模型F值達到81.89%,比之前最好的方法提高1.19%。HRTextDet模型的最大的優(yōu)勢在于召回率得到顯著的提升,比之前最好的方法SegLink[16]的76.80%提高2.55%。
表4 在ICDAR2015數(shù)據(jù)集上的實驗結(jié)果 %
本文提出一個具有高空間分辨率的文本檢測模型,通過專為文本檢測任務(wù)設(shè)計的主干網(wǎng)絡(luò)使得模型可以提取到文本的多尺度特征和精確的邊界位置。實驗結(jié)果表明,在不均勻照明、低分辨率、背景復(fù)雜等各種有挑戰(zhàn)的場景中,本文模型能有效地應(yīng)對文本劇烈的尺度變化,準確地檢測出場景文本。本文模型能檢測任意方向的場景文本,由于采用旋轉(zhuǎn)矩形來表示文本區(qū)域,在一定程度上限制了模型對彎曲文本的檢測性能。因此,下一步的工作將嘗試采用多邊形來表示文本區(qū)域,使得模型能檢測任意方向和任意形狀的場景文本。