謝斌紅,秦耀龍,張英俊
(太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
場(chǎng)景文本檢測(cè)有助于場(chǎng)景內(nèi)容信息的獲取、分析和理解,對(duì)于提高圖像檢索能力、工業(yè)自動(dòng)化水平和場(chǎng)景理解能力等具有重要意義,可應(yīng)用于自動(dòng)駕駛、車牌票據(jù)識(shí)別、智能機(jī)器人、圖片檢索和大數(shù)據(jù)產(chǎn)業(yè)等場(chǎng)景。目前,場(chǎng)景文本檢測(cè)已成為計(jì)算機(jī)視覺與模式識(shí)別、文檔分析與識(shí)別領(lǐng)域的研究熱點(diǎn)[1-2]。相較于通用目標(biāo)檢測(cè),在同一張或不同自然場(chǎng)景圖片中文本尺度變化較大,最大文本與最小文本之間可以相差近230 倍[3]。因此,多尺度場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)應(yīng)運(yùn)而生,多尺度場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)通過(guò)多尺度多形式的特征提取和融合,以適應(yīng)場(chǎng)景文本尺度的多變性,對(duì)于場(chǎng)景文本檢測(cè)的工業(yè)化應(yīng)用具有十分重要的意義。
早期多尺度場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)采用傳統(tǒng)機(jī)器學(xué)習(xí)的方法,通過(guò)傳統(tǒng)的圖像處理方法和人工設(shè)計(jì)的特征檢測(cè)場(chǎng)景文本。如文獻(xiàn)[4]通過(guò)提取最大穩(wěn)定極值區(qū)域(MSER)找出候選字母,根據(jù)Hu 矩特征刻畫候選字母的幾何特征;然后通過(guò)單鏈接聚類得到候選文本,最后引入共生紋理特征篩選文本區(qū)域,該算法對(duì)文本尺度變化有一定的適應(yīng)性。文獻(xiàn)[5]采用基于方向預(yù)分類的Gabor 小波變換特征提取方法,利用Gabor 函數(shù)良好的頻率選擇性和方向選擇性,同時(shí)考慮到筆畫相對(duì)位置的偏移,對(duì)筆畫變形和低分辨率字符具有較好的適應(yīng)性。文獻(xiàn)[6]引入筆畫寬度變化(SWT)算法處理場(chǎng)景圖片提取不同尺度和不同方向的文本候選區(qū),采用手工特征和隨機(jī)森林(Random Forest,RF)算法過(guò)濾非文本區(qū)域,利用文本間的相似性連接成文本行。文獻(xiàn)[7]采用多尺度滑動(dòng)窗口模型,針對(duì)文本的局部特征提出一種基于文本部件的樹形結(jié)構(gòu),該算法能很好地適應(yīng)文本尺度的多變性。上述方法雖然在多尺度場(chǎng)景文本檢測(cè)領(lǐng)域取得了不錯(cuò)的效果,但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法在特征提取方面仍有許多不足:由于場(chǎng)景文本檢測(cè)的復(fù)雜性,人工設(shè)計(jì)特征難度高,需要消耗大量的時(shí)間和人力,成本較高;人工設(shè)計(jì)的特征會(huì)引入人為因素,可能造成文本特征的缺失甚至引入錯(cuò)誤特征,檢測(cè)精度不高。
近年來(lái),隨著深度學(xué)習(xí)網(wǎng)絡(luò)的迅猛發(fā)展,涌現(xiàn)出一系列多尺度場(chǎng)景文本檢測(cè)網(wǎng)絡(luò),其中典型方法是基于金字塔網(wǎng)絡(luò),根據(jù)其網(wǎng)絡(luò)結(jié)構(gòu)可分為單向金字塔網(wǎng)絡(luò)和雙向金字塔網(wǎng)絡(luò)。
基于單向金字塔網(wǎng)絡(luò)的方法[8-11]通常只有自下而上的特征提取過(guò)程,即對(duì)原始輸入圖像通過(guò)卷積、池化等操作進(jìn)行特征提取,在不同層的特征圖或者融合后的特征圖上進(jìn)行文本檢測(cè)。根據(jù)網(wǎng)絡(luò)輸入不同大致可分為兩類:一類為單向特征金字塔網(wǎng)絡(luò),其輸入為單一尺度場(chǎng)景圖片,在同一圖片不同層的特征圖或者不同層融合后的特征圖上進(jìn)行文本檢測(cè);另一類為單向圖片金字塔網(wǎng)絡(luò),該類方法輸入不同尺度圖片,在不同圖片的不同尺度特征圖上進(jìn)行檢測(cè)。如CTPN[8]為解決文本長(zhǎng)度變化非常劇烈的問(wèn)題,采用單向特征金字塔網(wǎng)絡(luò),通過(guò)設(shè)定相同寬度不同高度的垂直文本候選框,使用長(zhǎng)短期雙向記憶模型處理文字建議序列,進(jìn)而計(jì)算多尺度文字區(qū)域外接框與置信度。R2CNN[9]使用Faster R-CNN 網(wǎng)絡(luò)提取特征,利用不同尺寸卷積核的ROI Pooling 處理特征圖,從而計(jì)算出文本目標(biāo)的矩形包圍框檢測(cè)多尺度場(chǎng)景文 本。TextBoxss[10]基于SSD 框架,根據(jù)不同卷積層的多尺度特征檢測(cè)不同尺寸文本,通過(guò)設(shè)定不同縱橫比的默認(rèn)文本候選框,提高了不同尺寸文本的檢測(cè)準(zhǔn)確率。SSTD[11]基于SSD 框架,借鑒了GoogleNet[12]中的Inception 模塊,使用HIM(Hierarchical Inception Module)融合卷積特征以提高模型的性能。
基于單向金字塔結(jié)構(gòu)網(wǎng)絡(luò)雖然在多尺度場(chǎng)景文本檢測(cè)領(lǐng)域取得了較好的性能,但是單向特征金字塔網(wǎng)絡(luò)只包含自下而上的特征提取過(guò)程,可以提取到豐富高層語(yǔ)義特征,卻忽略了低層特征圖包含的文本邊界特征信息,造成文本邊界檢測(cè)不準(zhǔn)確;而單向圖片金字塔網(wǎng)絡(luò)雖然通過(guò)對(duì)不同尺度圖片進(jìn)行特征提取,有利于檢測(cè)不同尺度文本,但是增加了額外的計(jì)算開銷。因此,針對(duì)單向金字塔網(wǎng)絡(luò)的不足,研究人員提出了基于雙向金字塔結(jié)構(gòu)的多尺度場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)。
基于雙向金字塔網(wǎng)絡(luò)的方法包括自下而上和自上而下兩個(gè)特征提取過(guò)程,首先在自上而下過(guò)程中融合同層次自下而上的特征圖,最后在不同尺度特征圖或融合后的特征圖上進(jìn)行檢測(cè),該類方法可以有效利用低層特征分辨率高和高層特征語(yǔ)義信息豐富的特點(diǎn),其中低層特征語(yǔ)義信息少但分辨率高,有利于文本目標(biāo)的定位,而高層特征分辨率低但包含語(yǔ)義信息豐富,有利于文本目標(biāo)和非文本目標(biāo)的分類。典型方法為基于FPN[13](Feature Pyramid Network)結(jié)構(gòu),如PSENet[14]引入FPN 結(jié)構(gòu),首先將文本區(qū)域收縮劃分為多級(jí)中心區(qū)域,然后進(jìn)行像素級(jí)分類和預(yù)測(cè)多級(jí)中心區(qū)域,最后使用廣度優(yōu)先搜索算法逐級(jí)擴(kuò)展為不同的文本區(qū)域,可以有效地檢測(cè)相距較近和尺度多變的文本實(shí)例。MSR[15]網(wǎng)絡(luò)使用FPN結(jié)構(gòu),輸入多個(gè)尺度原始圖像進(jìn)行特征提取并在相同層對(duì)不同尺度圖片的特征進(jìn)行融合,在最后融合后的特征圖上檢測(cè)多尺度的文本。CCTN[16]網(wǎng)絡(luò)基于VGG 框架,首先將文本劃分為文本區(qū)域和文本中心線區(qū)域,然后通過(guò)先粗略分類后精細(xì)分割的方式檢測(cè)多尺度文本。EAST[17]則基于PVANet,通過(guò)上采樣融合不同網(wǎng)絡(luò)層的特征計(jì)算出融合特征圖,在融合特征圖的基礎(chǔ)上回歸文本包圍框的相關(guān)屬性來(lái)檢測(cè)場(chǎng)景文 本。PixelLink[18]采用基 于VGG-16 的雙向特征金字塔網(wǎng)絡(luò),通過(guò)預(yù)測(cè)像素類別和像素在空間特征上的連通性以區(qū)分不同文本。
基于雙向金字塔網(wǎng)絡(luò)的方法雖然同時(shí)融合高層語(yǔ)義特征和低層包含的邊界特征,但其在自下而上的深層特征提取過(guò)程中,會(huì)通過(guò)下采樣來(lái)減小特征圖的分辨率以增大感受野來(lái)提取高層的語(yǔ)義特征,因此存在以下不足:大文本邊界回歸弱,雖然較深的特征圖有利于預(yù)測(cè)大文本,但隨著特征圖分辨率的減小和網(wǎng)絡(luò)層數(shù)的加深,大文本的邊界信息也會(huì)逐漸減少,因而不利于大文本的邊界回歸;小文本語(yǔ)義信息丟失。隨著特征圖分辨率的減小,小文本的語(yǔ)義特征會(huì)逐漸減少甚至丟失,導(dǎo)致出現(xiàn)漏檢情況;文本邊界檢測(cè)錯(cuò)誤,隨著大文本邊界信息的減少和小文本語(yǔ)義特征的減弱,造成文本檢測(cè)框包含過(guò)多背景或部分包圍文本造成的邊界檢測(cè)識(shí)別錯(cuò)誤,雖然該類方法在自上而下的過(guò)程中融合了同層次的自下而上的淺層特征圖以增強(qiáng)低層邊界特征,但是對(duì)于大文本而言,淺層特征圖的語(yǔ)義信息弱,沒有能力檢測(cè)大文本,而對(duì)于小文本而言,由于其語(yǔ)義特征已經(jīng)丟失,即使融合特征,檢測(cè)效果也不會(huì)有明顯提升。
針對(duì)金字塔結(jié)構(gòu)由于下采樣減小特征圖分辨率而造成的性能次優(yōu)情況,本文采用多尺度特征權(quán)重融合(Multi-Scale Feature Weight Fusion,MSWF)模型在3 個(gè)分支上進(jìn)行多尺度特征提取,以兼顧高層語(yǔ)義特征和低層邊界特征。由于不同分支特征之間的不一致性,本文在3 個(gè)分支加入可學(xué)習(xí)的權(quán)重,并針對(duì)多尺度場(chǎng)景文本邊界檢測(cè)錯(cuò)誤的問(wèn)題,提出學(xué)習(xí)主動(dòng)中心輪廓(Learning Active Center Contour,LACC)模型用于多尺度場(chǎng)景文本邊界檢測(cè)。
本文提出的基于學(xué)習(xí)主動(dòng)中心輪廓模型的場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。本文網(wǎng)絡(luò)使用ResNet[19]作為主干網(wǎng),首先在其基礎(chǔ)上構(gòu)建多尺度特征權(quán)重融合(MSWF)模型,在3 個(gè)不同分支上進(jìn)行多尺度的特征提取和權(quán)重融合,然后借鑒FPN 結(jié)構(gòu)提取自上而下特征圖,接著使用融合函數(shù)C對(duì)自上而下各層特征圖進(jìn)一步融合計(jì)算出最終特征圖F,將融合后的特征圖輸入學(xué)習(xí)主動(dòng)中心輪廓模型中進(jìn)行中心點(diǎn)的定位和邊界框的回歸,最后得出預(yù)測(cè)結(jié)果。
圖1 基于學(xué)習(xí)主動(dòng)中心輪廓模型的場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)Fig.1 Scene text detection network based on learning active center contour model
本文網(wǎng)絡(luò)特征提取過(guò)程如圖1 所示,首先將增強(qiáng)后的場(chǎng)景文本圖片輸入到自下而上的主干網(wǎng)中,依次計(jì)算出3 個(gè)不同尺度的特征圖(C1,C2,C3),然后將C3輸入到2 個(gè)多尺度特征權(quán)重融合模型中,自上而下特征提取過(guò)程與FPN[13]相同,最后獲得5 個(gè)256通道的特征圖(P2,P3,P4,P5,P6),并使用連接函數(shù)C進(jìn)一步融合不同層次的特征圖,得到具有1 280 通道的特征圖F,該函數(shù)定義如下:
其中:“||”為連接(concatenation)操作;Up()為上采樣操作。特征圖F被輸入到可變形卷積網(wǎng)絡(luò)[20](DCNv2)中進(jìn)一步提取特征并且將通道數(shù)降為64 通道,然后將其輸入到學(xué)習(xí)主動(dòng)中心輪廓模型中進(jìn)行中心點(diǎn)的定位和文本邊界的回歸,并計(jì)算出檢測(cè)結(jié)果。
多尺度特征權(quán)重融合模型結(jié)構(gòu)如圖2 所示,將圖1 所示特征圖C3輸入到多尺度特征權(quán)重融合模型中,該模型包含3 個(gè)分支(Branch1,Branch2,Branch3),各分支處理流程相同。以Branch1 分支為例,特征圖C3經(jīng)過(guò)空洞卷積塊計(jì)算空洞卷積特征圖D1,該分支分為上下兩層,上層通過(guò)權(quán)重計(jì)算模塊計(jì)算出該分支的權(quán)重特征圖W1,下層輸出卷積特征圖D1,此時(shí)Branch1 分支輸出特征圖B1,滿足:
圖2 多尺度特征權(quán)重融合模型示意圖Fig.2 Schematic diagram of multi-scale feature weight fusion model
其中:⊙為Hadamard 乘積,按照上述流程依次計(jì)算出各分支輸出特征圖(B1,B2,B3),則MSWF Mode 輸出特征圖MF,滿足:
相較于三叉戟網(wǎng)絡(luò)[21](Trident Network,TridentNet),本文網(wǎng)絡(luò)不同之處在于著重對(duì)3 個(gè)分支的融合過(guò)程進(jìn)行改進(jìn),TridentNet 三分支卷積核參數(shù)權(quán)值共享,首先對(duì)訓(xùn)練目標(biāo)進(jìn)行尺度劃分,然后根據(jù)劃分結(jié)果選擇分支進(jìn)行訓(xùn)練,最后使用第二分支進(jìn)行推理,并經(jīng)過(guò)NMS 后處理輸出推理結(jié)果。
因此,MSWF Model 與TridentNet 存在以下不同之處:1)TridentNet 對(duì)訓(xùn)練目標(biāo)進(jìn)行尺度劃分來(lái)選擇訓(xùn)練分支,三分支卷積核參數(shù)權(quán)值共享,而本文采用三分支并行訓(xùn)練,分別計(jì)算三分支權(quán)重;2)TridentNet 通過(guò)第二分支進(jìn)行檢測(cè),本文在權(quán)重融合后的特征圖上檢測(cè)文本;3)TridentNet 選擇某個(gè)分支進(jìn)行訓(xùn)練和檢測(cè)屬于硬注意力的一種,本文對(duì)三分支的特征基于權(quán)重融合屬于軟注意力。
MSWF 模型各分支的空洞卷積[22]分別使用了不同空洞率(Dilate=1,Dilate=2,Dilate=3),采用三分支結(jié)構(gòu)是為了在多個(gè)分支提取多種尺度特征,以適應(yīng)場(chǎng)景文本的多尺度變化。相同分支則在同一尺度采用空洞卷積,既可以保持分辨率不變,又可以擴(kuò)大感受野,以此取代特征金字塔下采樣提取文本特征的方法,提高了網(wǎng)絡(luò)對(duì)于大、小文本的檢測(cè)性能。
圖2 中權(quán)重計(jì)算模塊結(jié)構(gòu)如圖3 所示,D1、D2、D3分別經(jīng)過(guò)1×1Conv 層、BN(Batch Normalization)層和ReLU(Rectified Linear Units)層生成特征圖(W1_t,W2_t,W3_t),然后使用cat(concatnate)函數(shù)將其拼接為特征圖Wt,再經(jīng)過(guò)SoftMax 函數(shù)作歸一化處理得到可學(xué)習(xí)的權(quán)重特征圖(W1,W2,W3)。
圖3 權(quán)重計(jì)算模塊結(jié)構(gòu)Fig.3 Structure of the weight calculation block
在具體計(jì)算權(quán)重時(shí),令為l(l∈[1,3])分支經(jīng)過(guò)空洞卷積模塊后產(chǎn)生的特征圖(D1,D2,D3)在(i,j)位置的特征向量,則有:
其中:yij表示多尺度特征權(quán)重融合模型輸出的特征圖MF 在(i,j)位置的特征向量;αij、βij、γij分別表示三分支權(quán)重特征圖(W1,W2,W3)在(i,j)位置的特征向量。受文獻(xiàn)[23]的啟發(fā),本文令αij+βij+γij=1,且αij,βij,γij∈[0,1],如式(5)所示:
其中:αij、βij、γij分別由 以作為控制參數(shù)的softmax 函數(shù)計(jì)算得出。
算法1MSWF 算法
在眾多分割方法中,基于主動(dòng)輪廓模型(ACM)或其變形模型是圖像分割中應(yīng)用最廣泛的方法之一,取得了較好的性能。本文提出的學(xué)習(xí)主動(dòng)中心輪廓模型即是受主動(dòng)輪廓模型的啟發(fā)。1988 年,KASS 等[24]提出主動(dòng)輪廓模型,將圖像分割問(wèn)題轉(zhuǎn)換為求解能量泛函最小值問(wèn)題,為圖像分割提供一種全新的思路。該模型的主要原理是通過(guò)構(gòu)造能量泛函,在能量函數(shù)最小值驅(qū)動(dòng)下,使用基于偏微分的方法最小化能量函數(shù),使輪廓線朝著目標(biāo)邊界的方向不斷演進(jìn),最終分割出目標(biāo)。但由于實(shí)際圖像的背景是不均勻的,并且背景和目標(biāo)的對(duì)比度往往比較低,僅依靠能量函數(shù)的最小值無(wú)法準(zhǔn)確分割出目標(biāo),因此Chan-Vese 模型將曲線所圍的面積和曲線長(zhǎng)度作為能量項(xiàng)引入到能量函數(shù)中。在過(guò)去若干年里,研究人員提出了很多基于ACM 的模型,如無(wú)邊緣主動(dòng)輪廓模型(ACWE)和BRESSON 等[25]提出的快速全局最小化主動(dòng)輪廓模型(FGM-ACM)。
ACWE 模型的能量最小化問(wèn)題可以表述為:
其中:ds是歐幾里得長(zhǎng)度;C是曲線的長(zhǎng)度;f(x)是待分割圖像;Ωc是圖像f(x)在圖像域Ω上的閉合子集;c1是內(nèi)部區(qū)域的平均灰度;c2是外部區(qū)域的平均灰度;λ是用于控制正則化過(guò)程中c1、c2之間平衡的參數(shù)(λ?0)。
雖然基于主動(dòng)輪廓模型的圖像分割取得了很好的效果,但還存在以下不足:1)采用無(wú)監(jiān)督的方法不需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)屬性,因此它們很難處理噪聲和遮擋;2)有許多參數(shù)是依據(jù)經(jīng)驗(yàn)設(shè)定的;3)多數(shù)方法都不能對(duì)自然場(chǎng)景圖片進(jìn)行魯棒分割。顯然,基于主動(dòng)輪廓模型的方法不適用于有監(jiān)督的機(jī)器學(xué)習(xí)來(lái)處理標(biāo)記圖像,而且大多數(shù)基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)方法缺乏整合目標(biāo)先驗(yàn)知識(shí)的機(jī)制。因此,有必要將基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)與基于主動(dòng)輪廓模型的方法結(jié)合起來(lái),以便后者能夠提供足夠的先驗(yàn)知識(shí),以提高模型對(duì)于場(chǎng)景文本邊界的檢測(cè)性能。
本文受主動(dòng)輪廓模型ACWE 模型能量最小化問(wèn)題的啟發(fā),提出一個(gè)整合了中心點(diǎn)、文本區(qū)域和文本檢測(cè)框長(zhǎng)度信息的可用于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的新?lián)p失函數(shù),將LACC Mode 的先驗(yàn)知識(shí)用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,解決多尺度場(chǎng)景文本檢測(cè)框輪廓線能量全局最小化問(wèn)題,進(jìn)而精確檢測(cè)文本邊界。具體的損失函數(shù)如式(7)所示:
其中:
其中:center 中心點(diǎn)表示矩形文本框的中心點(diǎn),采用Focal Loss[26]損失函數(shù);為文獻(xiàn)[27]中的關(guān)鍵點(diǎn)熱力圖;α和β是文獻(xiàn)[27]中的超參數(shù),根據(jù)文獻(xiàn)[27]設(shè)置α=2,β=4;N是輸入圖像中的關(guān)鍵點(diǎn)個(gè)數(shù);length 表示矩形文本框的周長(zhǎng);region 表示矩形文本框的面積;ν,μ∈[0,1]m×n分別表示文本框標(biāo)注值和預(yù)測(cè)值;和中 的和分別表示本文網(wǎng)絡(luò)在特征圖(i,j)位置的水平方向和垂直方向;ε(ε>0)是為了防止平方根為零而添加的參數(shù),在訓(xùn)練時(shí),設(shè)ε為一個(gè)極小的正數(shù)即可;c1和c2分別表示內(nèi)部和外部能量。
c1和c2的定義如下:
綜上,本文提出一種新?lián)p失函數(shù),考慮了文本的中心點(diǎn)和邊界輪廓的長(zhǎng)度以及文本區(qū)域的擬合度,具有以下優(yōu)點(diǎn):1)將無(wú)監(jiān)督AC Model 能量最小化問(wèn)題轉(zhuǎn)化為有監(jiān)督的深度學(xué)習(xí)損失函數(shù)最小化問(wèn)題;2)將本文網(wǎng)絡(luò)提取特征和AC Model 的先驗(yàn)知識(shí)相結(jié)合,解決了AC Model 過(guò)于依賴人工特征設(shè)計(jì)、魯棒性差和深度學(xué)習(xí)缺乏足夠先驗(yàn)知識(shí)的問(wèn)題;3)將AC Model 基于圖像像素信息檢測(cè)方式轉(zhuǎn)化為基于深度學(xué)習(xí)卷積特征圖像素信息檢測(cè)方式。
算法2LACC 算法
MSRA-TD500[6]是一個(gè)文本尺度變化較大的中英文數(shù)據(jù)集,共包含500 張圖片,其中300 張用于訓(xùn)練,200 張用于測(cè)試。
ICDAR-2013(IC13)[28]是一種常用的多方向英文場(chǎng)景文本檢測(cè)數(shù)據(jù)集,共包含509 張圖片,其中258 張圖片用于訓(xùn)練,251 張圖片用于測(cè)試。文本區(qū)域是由四邊形的左上、右下2 個(gè)頂點(diǎn)標(biāo)注。
ICDAR-2015(IC15)[29]是一種常用的多方向英文文本檢測(cè)數(shù)據(jù)集,共包含1 500張圖片,其中1 000張圖片用于訓(xùn)練,500 張圖片用于測(cè)試。文本區(qū)域是由四邊形的4 個(gè)頂點(diǎn)標(biāo)注。
ICDAR-2017MLT(IC17-MLT)[30]是一個(gè)大規(guī)模的多方向多語(yǔ)言場(chǎng)景文本數(shù)據(jù)集,包括7 200 張訓(xùn)練圖片、1 800 張驗(yàn)證圖片和9 000 張測(cè)試圖片,由9 種自然語(yǔ)言組成,文本區(qū)域由四邊形的4 個(gè)頂點(diǎn)標(biāo)注。
本文使 用ResNet50[19]在ImageNet[31]上的預(yù)訓(xùn)練模型,并在其基礎(chǔ)上構(gòu)建多尺度特征權(quán)重融合模型(MSWF Model)作為網(wǎng)絡(luò)的主干網(wǎng),所有網(wǎng)絡(luò)都采用Adam[32]優(yōu)化器進(jìn)行訓(xùn)練。首先在IC17-MLT數(shù)據(jù)集上進(jìn)行訓(xùn)練,得出IC17-MLT 上的訓(xùn)練模型并進(jìn)行測(cè)試,然后加載該訓(xùn)練模型為預(yù)訓(xùn)練模型,在MSRA-TD500、IC13 和IC15 數(shù)據(jù)上分別繼續(xù)訓(xùn)練網(wǎng)絡(luò)并進(jìn)行測(cè)試。本文實(shí)驗(yàn)在GTX1080Ti×2 個(gè)GPU上進(jìn)行批量大小為8 的270K 次迭代。初始學(xué)習(xí)率設(shè)置為1×10-4,在90K 次和180K 次迭代時(shí)將學(xué)習(xí)率分別調(diào)整為1×10-5和1×10-6。
在訓(xùn)練時(shí),忽略數(shù)據(jù)集中標(biāo)注為“不用關(guān)注”的模糊文本區(qū)域。本文根據(jù)實(shí)驗(yàn)結(jié)果,將損失函數(shù)的權(quán)重系數(shù)設(shè)定為:λc=1,λl=0.5,λr=0.5。采用以下方法對(duì)訓(xùn)練集的數(shù)據(jù)進(jìn)行增強(qiáng):1)圖像按比例在[0.6,1.4]之間以步長(zhǎng)為0.1 進(jìn)行隨機(jī)縮放;2)圖像在[-10°,10°]范圍內(nèi)隨機(jī)進(jìn)行水平翻轉(zhuǎn)和旋轉(zhuǎn);3)隨機(jī)裁剪,但裁剪尺寸大于原始圖像尺寸的1/2。
本文使用準(zhǔn)確率(P)、召回率(R)和F-measure(F)對(duì)算法進(jìn)行評(píng)估,具體定義如下:
其中:TP 表示將正樣本預(yù)測(cè)為正樣本數(shù)目;FP 表示將負(fù)樣本預(yù)測(cè)為正樣本的誤報(bào)數(shù);FN 表示將正樣本預(yù)測(cè)為負(fù)樣本的漏報(bào)數(shù)目。準(zhǔn)確率(P)與召回率(R)之間可能會(huì)出現(xiàn)矛盾的情況,其中一個(gè)測(cè)試指標(biāo)較高,而另外一個(gè)測(cè)試指標(biāo)較低。這時(shí)就需要綜合考慮兩者指標(biāo)的情況,采取F-measure 評(píng)估方法。
3.4.1 多尺度特征權(quán)重融合模型的有效性
為驗(yàn)證多尺度特征權(quán)重融合模型對(duì)本文多尺度場(chǎng)景文字檢測(cè)網(wǎng)絡(luò)性能的影響,保持主干網(wǎng)為ResNet50 不變,通過(guò)對(duì)網(wǎng)絡(luò)添加和去除多尺度特征權(quán)重融合模型分別進(jìn)行訓(xùn)練。本文實(shí)驗(yàn)在數(shù)據(jù)集IC13 和IC15 上分別進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果如表1 所示(粗體表示最優(yōu)值),在IC13 數(shù)據(jù)集上添加多尺度特征權(quán)重融合模型,相較于ResNet50+FPN 網(wǎng)絡(luò)F值提升2%,相較于TridentNet 網(wǎng)絡(luò)F值提升1%。在IC15 數(shù)據(jù)集上添加多尺度特征權(quán)重融合模型(MSWF Model),相較于ResNet50+FPN 網(wǎng)絡(luò)F值提升2%,相較于TridentNet 網(wǎng)絡(luò)F值提升1%。實(shí)驗(yàn)結(jié)果表明多尺度特征權(quán)重融合模型有效提升了網(wǎng)絡(luò)的檢測(cè)性能。
表1 多尺度特征權(quán)重融合模型的消融實(shí)驗(yàn)結(jié)果Table 1 Ablation experiment result of multi-scale feature weight fusion model
3.4.2 學(xué)習(xí)主動(dòng)中心輪廓模型對(duì)網(wǎng)絡(luò)性能的影響
研究實(shí)驗(yàn)結(jié)果證明,更優(yōu)損失函數(shù)的使用可以提高大規(guī)模圖像分類和目標(biāo)檢測(cè)的性能。為了更好地驗(yàn)證本文提出網(wǎng)絡(luò)的檢測(cè)能力,本文實(shí)驗(yàn)通過(guò)使用不同的損失函數(shù),在MSRA-TD500 數(shù)據(jù)集上進(jìn)行測(cè)試來(lái)驗(yàn)證學(xué)習(xí)主動(dòng)中心輪廓模型(LACC Model)對(duì)于網(wǎng)絡(luò)檢測(cè)能力的影響。保持網(wǎng)絡(luò)結(jié)構(gòu)不變,使用不同的損失函數(shù)分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示(粗體表示最優(yōu)值),使用學(xué)習(xí)主動(dòng)中心輪廓模型相較 于L1 Loss 和SmoothL1 Loss,F(xiàn)值分別提升4%和2%,說(shuō)明本文提出的學(xué)習(xí)主動(dòng)中心輪廓模型可以更好地檢測(cè)場(chǎng)景文本的邊界,提高檢測(cè)性能。
表2 學(xué)習(xí)主動(dòng)中心輪廓模型的消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment result of learning active center contour model
本文主要進(jìn)行了以下方面的實(shí)驗(yàn):
1)多尺度文本檢測(cè)實(shí)驗(yàn)。本文在MSRA-TD500數(shù)據(jù)集上對(duì)本網(wǎng)絡(luò)進(jìn)行了測(cè)試,以驗(yàn)證其檢測(cè)多尺度文本的能力。本實(shí)驗(yàn)分別在GTX1080Ti×2 個(gè)GPU上進(jìn)行訓(xùn)練和測(cè)試。將本文方法和其他方法進(jìn)行比較,具體結(jié)果如表3 所示(粗體表示最優(yōu)值)。在MSRA-TD500 數(shù)據(jù)集上本文提出網(wǎng)絡(luò)相較于TextSnake 召回率分別提升5%;相較于Lyu et al 準(zhǔn)確率提升2%;相較于最近方法MSR 和TridentNet 方法F值分別提升1%和1%。由此可以得出本文網(wǎng)絡(luò)準(zhǔn)確率和召回率相較于大部分現(xiàn)有方法都有所提升,本文網(wǎng)絡(luò)綜合指標(biāo)F值高于最新方法,證明了本文方法對(duì)于多尺度場(chǎng)景文本檢測(cè)的有效性。
表3 在MSRA-TD500 數(shù)據(jù)集上的檢測(cè)結(jié)果Table 3 Detection results on MSRA-TD500 dataset
2)多方向英文文本檢測(cè)實(shí)驗(yàn)。本文在IC13 和IC15 數(shù)據(jù)集上對(duì)本文方法進(jìn)行了測(cè)試,以驗(yàn)證其檢測(cè)多方向英文文本的能力。實(shí)驗(yàn)采用本文在IC17MLT 上的訓(xùn)練模型作為預(yù)訓(xùn)練模型,分別在GTX1080Ti×2 個(gè)GPU 上進(jìn)行訓(xùn)練和測(cè)試。將本文方法和其他方法進(jìn)行比較,具體結(jié)果如表4 所示(粗體表示最優(yōu)值)。實(shí)驗(yàn)結(jié)果表明,在IC13 數(shù)據(jù)集上本文提出網(wǎng)絡(luò)相較于CTPN、TextBoxss 和SSTD,召回率分別提升10%、10%和7%;相較于R2CNN,準(zhǔn)確率提升6%;相較于最近方法PixelLink 和TridentNet 方法,F(xiàn)值分別提升2%和1%。由此可以得出本文方法召回率和準(zhǔn)確率相較于大部分現(xiàn)有方法有所提升。但是本文方法準(zhǔn)確率相較于CTPN 并沒有提升,原因在于:CTPN 方法使用了長(zhǎng)短期雙向記憶模型處理文字建議序列,但本文方法綜合指標(biāo)F值高于最新方法,證明了本文方法的有效性。在IC15 數(shù)據(jù)集上本文方法相較于CTPN 和SSTD,召回率分別提升12%和6%;相較于EAST 和R2CNN,準(zhǔn)確率提升7%和7%;相較于最近方法TridentNet 和PSENet,F(xiàn)值分別提升1%和1%。由此可以得出:本文方法準(zhǔn)確率和召回率相較于大部分現(xiàn)有方法有所提升,而且本文方法綜合指標(biāo)F值高于最新方法,說(shuō)明本文方法可以很好的檢測(cè)多方向英文場(chǎng)景文本。
表4 在IC13 和IC15 數(shù)據(jù)集上的檢測(cè)結(jié)果Table 4 Detection results on IC13 and IC15 dataset
3)多方向多語(yǔ)言文本檢測(cè)實(shí)驗(yàn)。為了測(cè)試本文方法對(duì)多方向多語(yǔ)言場(chǎng)景文本檢測(cè)的魯棒性,本文實(shí)驗(yàn)在IC17-MLT 基準(zhǔn)數(shù)據(jù)集上對(duì)其進(jìn)行了評(píng)估。在IC17MLT 上使用GTX1080Ti×2 個(gè)GPU 進(jìn)行訓(xùn)練和測(cè)試。與最新方法的對(duì)比如表5 所示(粗體表示最優(yōu)值),在IC17MLT 數(shù)據(jù)集上本文提出方法相較于SCUT_DLVClab1 和FOTS,召回率分別提升17%和14%;相較于AF_RPN,準(zhǔn)確率分別提升1%;相較于最近方法TridentNet 和PSENet,F(xiàn)值分別提升1%和2%。由此可以得出:本文方法召回率相較于大部分現(xiàn)有方法有所提升,但是本文方法準(zhǔn)確率相較于FOTS 并沒有提升,原因在于:本文方法對(duì)于場(chǎng)景圖片中的類文字元素,如欄桿、葉子、圖標(biāo)等區(qū)分能力不夠高,存在誤檢,這也是本文下一步要改進(jìn)的工作。但本文方法綜合指標(biāo)F值高于最新方法,表明本文方法對(duì)多語(yǔ)言場(chǎng)景文本檢測(cè)的有效性,可以很好地檢測(cè)多方向多語(yǔ)言場(chǎng)景文本。
表5 在IC17MLT 數(shù)據(jù)集上的測(cè)試結(jié)果Table 5 Detection results on IC17MLT dataset
表6為本文方法與基于雙向特征金字塔結(jié)構(gòu)的PixelLink 和三叉戟方法TridentNet 在各數(shù)據(jù)集上代表性檢測(cè)結(jié)果。從表6 可以看出:PixelLink 和TridentNet 方法對(duì)于某些大尺度的文本目標(biāo)存在欠檢測(cè),即大尺度文本檢測(cè)框不能完全包圍目標(biāo),小尺度文本目標(biāo)漏檢的情況;而本文方法采用多尺度權(quán)重融合與學(xué)習(xí)主動(dòng)中心輪廓模型相結(jié)合的方式,對(duì)于大尺度文本檢測(cè)效果更好,檢測(cè)框包圍更準(zhǔn)確,進(jìn)一步提高小目標(biāo)檢測(cè)能力,有利于解決小目標(biāo)漏檢的問(wèn)題。
表6 不同方法在各數(shù)據(jù)集上的代表性檢測(cè)結(jié)果Table 6 Representative detect results of different methods on each dataset
本文針對(duì)場(chǎng)景文本多尺度變化造成的小文本漏檢、大文本欠檢測(cè)以及場(chǎng)景文本邊界檢測(cè)錯(cuò)誤問(wèn)題,提出基于學(xué)習(xí)主動(dòng)中心輪廓模型的場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)。通過(guò)多尺度特征權(quán)重融合模型解決多尺度場(chǎng)景文本特征提取問(wèn)題,基于學(xué)習(xí)主動(dòng)中心輪廓模型解決場(chǎng)景文本邊界檢測(cè)錯(cuò)誤的問(wèn)題,并在4個(gè)公共數(shù)據(jù)集上驗(yàn)證了本文網(wǎng)絡(luò)對(duì)于多尺度場(chǎng)景文本檢測(cè)的有效性。下一步擬將本文提出網(wǎng)絡(luò)用于彎曲場(chǎng)景文本檢測(cè),以提高網(wǎng)絡(luò)的泛化性能,并研究本文網(wǎng)絡(luò)對(duì)于類文本元素的檢測(cè)能力,以增強(qiáng)網(wǎng)絡(luò)的魯棒性。