亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        短邊頂點(diǎn)回歸網(wǎng)絡(luò):新型自然場(chǎng)景文本檢測(cè)器

        2021-12-13 02:04:30游洋彪石繁槐
        關(guān)鍵詞:文本區(qū)域檢測(cè)

        游洋彪,石繁槐

        (同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)

        近年來(lái),自然場(chǎng)景圖像中的文本檢測(cè)成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)。自然場(chǎng)景圖像文本檢測(cè)在圖像檢索、定位導(dǎo)航、盲人輔助、數(shù)據(jù)錄入等領(lǐng)域具有重要的實(shí)用價(jià)值。自然場(chǎng)景圖像背景千變?nèi)f化,并且自然場(chǎng)景圖像文本具有大小和長(zhǎng)寬比變化劇烈、多方向等特點(diǎn);此外,與一般目標(biāo)檢測(cè)不同的是,文本目標(biāo)框可能使用水平矩形、四邊形、旋轉(zhuǎn)矩形,甚至是多邊形等形式進(jìn)行精確表達(dá),所以自然場(chǎng)景圖像文本檢測(cè)一直是一個(gè)難點(diǎn)問(wèn)題。

        通用目標(biāo)檢測(cè)(generic object detection)[1],定位圖像上預(yù)先定義類(lèi)別的目標(biāo)實(shí)例的位置,檢測(cè)結(jié)果通常以外接矩形框的形式呈現(xiàn),不同于專(zhuān)用目標(biāo)檢測(cè)只適用于一種或一些類(lèi)別,通用目標(biāo)檢測(cè)適用于廣泛的類(lèi)別,典型方法有Faster R-CNN[2]、SSD[3]等。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,通用目標(biāo)檢測(cè)性能得到了顯著的提升。很多學(xué)者在通用目標(biāo)檢測(cè)方法的基礎(chǔ)上提出了許多自然場(chǎng)景文本檢測(cè)方法。這些方法可以大致分為兩類(lèi):間接回歸方法與直接回歸方法。間接回歸方法,通常借鑒Faster R-CNN[2]、SSD[3]等目標(biāo)檢測(cè)方法,預(yù)先設(shè)定一些錨(anchor)或先驗(yàn)框(default box),利用卷積神經(jīng)網(wǎng)絡(luò)判定它們是否與文本區(qū)域高度重疊并調(diào)整它們的大小和位置以準(zhǔn)確定位文本。然而自然場(chǎng)景中的文本方向多變,大小、長(zhǎng)寬比變化劇烈,為了使預(yù)設(shè)的錨或先驗(yàn)框能與文本區(qū)域高度重疊,很多方法增加了多種方向、多種大小及多種長(zhǎng)寬比的預(yù)設(shè)框,但這無(wú)疑增加了方法的復(fù)雜度與計(jì)算量。

        為適應(yīng)文本的特性,Liao等[4]、Zhong等[5]分別在Faster R-CNN、SSD的基礎(chǔ)上增加了不同尺寸與長(zhǎng)寬比的預(yù)設(shè)框。Ma等[6]、Liu等[7]為檢測(cè)多方向的文本設(shè)置了多方向的預(yù)設(shè)框。為了能夠輸出四邊形的檢測(cè)結(jié)果,Liu等[7]、Liao等[8]直接預(yù)測(cè)預(yù)設(shè)框與文本邊界四邊形4個(gè)頂點(diǎn)的坐標(biāo)差;Jiang等[9]通過(guò)預(yù)測(cè)兩個(gè)頂點(diǎn)坐標(biāo)與一條邊長(zhǎng)得到旋轉(zhuǎn)矩形的檢測(cè)結(jié)果;Zhu等[10]通過(guò)預(yù)測(cè)多個(gè)文本邊界上的點(diǎn)得到多邊形的檢測(cè)結(jié)果。

        直接回歸方法不需要預(yù)設(shè)框,相比于間接回歸方法,它更加靈活簡(jiǎn)便。直接回歸方法借鑒了DenseBox[11]的思想,這類(lèi)方法通常采用全卷積網(wǎng)絡(luò)[12](fully convolutional network,F(xiàn)CN)的架構(gòu),在分割出文本區(qū)域中的候選點(diǎn)的同時(shí)在每個(gè)點(diǎn)處預(yù)測(cè)對(duì)應(yīng)的文本區(qū)域邊界。為了得到四邊形的檢測(cè)結(jié)果,He等[13]在分割出文本區(qū)域中像素點(diǎn)的同時(shí)預(yù)測(cè)該點(diǎn)與四邊形邊界頂點(diǎn)的坐標(biāo)偏差。為了降低復(fù)雜度,Zhou等[14]預(yù)測(cè)文本區(qū)域中的點(diǎn)到文本外接旋轉(zhuǎn)矩形4條邊的距離與旋轉(zhuǎn)矩形的角度。Xue等[15]則在此基礎(chǔ)上還分割了文本的邊界區(qū)域以助于區(qū)分文本實(shí)例。

        上述基于回歸的文本檢測(cè)方法或是通過(guò)調(diào)整預(yù)設(shè)框得到文本的外接四邊形,或是在每個(gè)點(diǎn)處直接預(yù)測(cè)文本的外接四邊形,都是直接預(yù)測(cè)文本的整個(gè)邊界框。這些方法能檢測(cè)到目標(biāo)尺寸與網(wǎng)絡(luò)的感受野大小成正相關(guān),當(dāng)檢測(cè)更長(zhǎng)的文本目標(biāo)時(shí),網(wǎng)絡(luò)需要更大的感受野。在面對(duì)長(zhǎng)文本時(shí),由于感受野大小有限,并且相應(yīng)感受野內(nèi)背景干擾可能更多,這些直接預(yù)測(cè)整個(gè)文本邊界的方法難以得到理想的結(jié)果。

        針對(duì)直接預(yù)測(cè)整個(gè)文本邊界的方法在檢測(cè)長(zhǎng)文本時(shí)的缺陷,本文設(shè)計(jì)了一種短邊頂點(diǎn)回歸網(wǎng)絡(luò),該網(wǎng)絡(luò)不再直接預(yù)測(cè)文本區(qū)域的所有邊界。具體來(lái)說(shuō),本文方法在直接回歸方法的基礎(chǔ)上,分割出文本的兩條短邊附近的區(qū)域以及中間區(qū)域。不同于其他直接回歸方法中文本區(qū)域中的點(diǎn)需要預(yù)測(cè)文本整個(gè)邊界框,本方法中,文本邊界框頂點(diǎn)由短邊附近區(qū)域中的點(diǎn)來(lái)預(yù)測(cè),并且一條短邊區(qū)域內(nèi)的點(diǎn)只預(yù)測(cè)其附近短邊的兩個(gè)頂點(diǎn),而不需預(yù)測(cè)另外一條更遠(yuǎn)短邊的頂點(diǎn)。在檢測(cè)長(zhǎng)文本時(shí),相應(yīng)感受野內(nèi)背景干擾相對(duì)更少,同時(shí)對(duì)感受野大小的要求更低,所以檢測(cè)結(jié)果更為準(zhǔn)確。為了將預(yù)測(cè)的兩組短邊頂點(diǎn)結(jié)合,本文設(shè)計(jì)了一種新的后處理方法,利用中間區(qū)域與兩短邊區(qū)域相鄰或兩短邊區(qū)域直接相鄰的特點(diǎn)將文本的兩個(gè)短邊區(qū)域組合,兩組預(yù)測(cè)的短邊頂點(diǎn)隨之結(jié)合,便能得到精確完整的文本檢測(cè)結(jié)果。本文所提方法在多個(gè)自然場(chǎng)景文本檢測(cè)數(shù)據(jù)集上均取得了不錯(cuò)的效果,結(jié)果超過(guò)了目前絕大部分方法,并且本方法更快速高效。

        1 短邊頂點(diǎn)回歸網(wǎng)絡(luò)的文本檢測(cè)方法

        圖1為本文方法的原理流程圖,本方法采用了全卷積與多層特征融合的網(wǎng)絡(luò)架構(gòu)。圖像輸入網(wǎng)絡(luò)后,網(wǎng)絡(luò)輸出3種像素級(jí)分類(lèi)結(jié)果,即文本中間區(qū)域像素、文本左短邊區(qū)域像素、文本右短邊區(qū)域像素。文本短邊區(qū)域是指文本短邊邊界附近的區(qū)域。如圖1的區(qū)域分割結(jié)果所示,其中藍(lán)色、綠色、紅色區(qū)域分別為文本中間區(qū)域、左短邊區(qū)域與右短邊區(qū)域。在分類(lèi)短邊區(qū)域像素的同時(shí),網(wǎng)絡(luò)還在該點(diǎn)處預(yù)測(cè)附近一條短邊兩個(gè)頂點(diǎn)的坐標(biāo)。最后通過(guò)后處理,本方法將左短邊頂點(diǎn)與右短邊頂點(diǎn)的預(yù)測(cè)結(jié)果結(jié)合起來(lái),得到最終的檢測(cè)結(jié)果。

        圖1 基于短邊頂點(diǎn)回歸網(wǎng)絡(luò)的文本檢測(cè)方法流程

        1.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本方法的網(wǎng)絡(luò)結(jié)構(gòu)可以大致分為3個(gè)部分:特征提取、特征融合以及分類(lèi)回歸。特征提取部分使用Resnet 50[16]的框架,去除Resnet 50后面的全連接層,圖1中綠色模塊為Resnet 50特征提取部分。相比于經(jīng)典的VGG16/19[17],Resnet 50參數(shù)量更少,計(jì)算存儲(chǔ)花銷(xiāo)更小,而且Resnet 50使用了殘差結(jié)構(gòu),能夠有效緩解訓(xùn)練時(shí)發(fā)生梯度消失的情況。

        自然場(chǎng)景圖像中文本具有尺度變化劇烈的特點(diǎn),特征提取網(wǎng)絡(luò)越深,提取到的特征語(yǔ)義范圍越廣,越有利于大尺度文本的檢測(cè),而檢測(cè)小的文本需要靠淺層局部的特征。為了能夠檢測(cè)不同大小的文本,本方法參考U-Net[18]的架構(gòu)將Resnet 50提取到的多層特征進(jìn)行融合。具體來(lái)說(shuō),高層的特征首先進(jìn)行上采樣,與低一層的特征的長(zhǎng)寬維度保持一致,然后沿通道方向?qū)⑸喜蓸犹卣髋c低一層特征進(jìn)行連接,最后使用一個(gè)1×1與一個(gè)3×3的卷積操作將特征進(jìn)行融合。融合后的特征繼續(xù)融合更低層特征,直至融合的特征長(zhǎng)寬為原圖像的1/4。

        對(duì)于最小外接矩形長(zhǎng)寬比接近于1的文本區(qū)域,它的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域會(huì)有部分重疊。所以在網(wǎng)絡(luò)輸出的結(jié)果中,同一個(gè)像素可以同時(shí)屬于中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域。在最后分類(lèi)時(shí),中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域均與背景進(jìn)行二分類(lèi),這樣能夠避免類(lèi)間的競(jìng)爭(zhēng)。具體來(lái)說(shuō),在最后融合的特征上分別使用一個(gè)1×1的卷積操作與一個(gè)sigmoid非線性函數(shù)來(lái)預(yù)測(cè)每個(gè)像素點(diǎn)屬于中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的概率。

        1.2 訓(xùn)練樣本標(biāo)簽生成

        短邊頂點(diǎn)回歸網(wǎng)絡(luò)的目標(biāo)之一在于分割文本的中間區(qū)域、左短邊區(qū)域及右短邊區(qū)域。文本短邊區(qū)域是文本短邊邊界附近的部分區(qū)域,在確定文本左、右短邊區(qū)域前,首先需要規(guī)定文本的左短邊及右短邊。由于文本目標(biāo)大多使用四邊形進(jìn)行標(biāo)注,而四邊形的兩條對(duì)邊不一定為最短的兩條邊,所以在此通過(guò)尋找四邊形最小包圍矩形的左短邊及右短邊來(lái)確定文本邊界四邊形的對(duì)應(yīng)短邊。

        如圖2(a)所示,黃色四邊形是文本區(qū)域原始的標(biāo)注,紅色的矩形是該四邊形的最小包圍矩形R。矩形R順時(shí)針旋轉(zhuǎn)直至長(zhǎng)邊與水平軸平行,假設(shè)此時(shí)底部長(zhǎng)邊為w,轉(zhuǎn)過(guò)的角度為矩形R的傾角θ。當(dāng)θ≤45°時(shí),R旋轉(zhuǎn)后,位于w右側(cè)的短邊對(duì)應(yīng)的是R的右短邊,位于w左側(cè)的短邊為R的左短邊,例如圖2(b)中的R1、R2、R3;當(dāng)θ>45°時(shí),R旋轉(zhuǎn)后,位于w左側(cè)的短邊對(duì)應(yīng)的是R的右短邊,位于w右側(cè)的短邊為R的左短邊,例如圖2(b)中的R4、R5、R6、R7、R8。圖2(b)中矩形R綠色短邊為左短邊,紅色短邊為右短邊。文本四邊形的左、右短邊與其最小包圍矩形R的左、右短邊一一對(duì)應(yīng)。

        在確定文本的左短邊與右短邊后,再精確定義文本的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域。首先定義四邊形Q={q0,q1,q2,q3},其頂點(diǎn)qi(i=0,1,2,3)的參考長(zhǎng)度為

        li=min(hi,(i+1)mod4,h(i+3)mod4,i)

        (1)

        圖2 左短邊、中間、右短邊區(qū)域標(biāo)簽生成

        1.3 損失函數(shù)

        本方法是基于直接回歸的文本檢測(cè)方法,所以設(shè)計(jì)損失函數(shù)時(shí)參考了其他同類(lèi)的方法[13-15]。本方法損失函數(shù)為:

        L=Lcls+Lreg

        (2)

        Lcls=α1Lm_cls+Ll_cls+Lr_cls

        (3)

        Lreg=Ll_reg+Lr_reg

        (4)

        式中:L為最后總損失;Lcls為3類(lèi)區(qū)域的分類(lèi)損失和;Lreg為短邊區(qū)域頂點(diǎn)回歸損失和;Lm_cls、Ll_cls、Lr_cls分別為中間區(qū)域、左短邊區(qū)域及右短邊區(qū)域的像素分類(lèi)損失;Ll_reg為左短邊頂點(diǎn)回歸損失;Lr_reg為右短邊頂點(diǎn)回歸損失。由于中間區(qū)域起著確定文本實(shí)例的作用,相對(duì)更加重要,實(shí)驗(yàn)中其分類(lèi)損失權(quán)重α1設(shè)置為4。

        在自然場(chǎng)景圖像中,文本區(qū)域往往只占很小一部分,如果分類(lèi)損失函數(shù)使用交叉熵類(lèi)型的損失函數(shù),很可能由于正負(fù)樣本不平衡,導(dǎo)致最后分類(lèi)結(jié)果傾向于背景。本方法采用D(dice coefficient)函數(shù)[19]作為分類(lèi)的損失函數(shù),分類(lèi)損失為:

        Lcls=α1D(Pm,Gm)+D(Pl,Gl)+D(Pr,Gr)

        (5)

        (6)

        式中:Pm、Pl、Pr分別為中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類(lèi)得分預(yù)測(cè)值;Gm、Gl、Gr為分類(lèi)得分真實(shí)值;Px,y、Gx,y分別為點(diǎn)(x,y)分類(lèi)得分的預(yù)測(cè)值與真實(shí)值。

        (7)

        (8)

        (9)

        (10)

        (11)

        1.4 后處理

        從網(wǎng)絡(luò)的輸出中不能直接得到文本區(qū)域的檢測(cè)結(jié)果,還需要進(jìn)行后處理才能得到完整的結(jié)果。對(duì)于點(diǎn)(x,y),用Sm、Sl、Sr分別表示該點(diǎn)屬于文本中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類(lèi)得分。Tm、Tl、Tr分別表示中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域的分類(lèi)閾值。當(dāng)Sm>Tm,SlTm,Sl≥Tl時(shí),稱該點(diǎn)為有效左短邊區(qū)域點(diǎn),這類(lèi)點(diǎn)連接形成的區(qū)域稱為有效左短邊區(qū)域,當(dāng)Sm>Tm,Sr≥Tr時(shí),稱該點(diǎn)為有效右短邊區(qū)域點(diǎn),這類(lèi)點(diǎn)形成的區(qū)域稱為有效右短邊區(qū)域。舍棄其他短邊區(qū)域點(diǎn)的原因在于密集的文本實(shí)例的短邊區(qū)域可能存在誤連接的情況,容易導(dǎo)致文本邊界頂點(diǎn)預(yù)測(cè)不準(zhǔn)確。

        整個(gè)后處理的流程如圖3(a)所示,具體如下:

        1)尋找有效區(qū)域。遍歷所有的像素點(diǎn),找到所有的有效中間區(qū)域、有效左短邊區(qū)域及有效右短邊區(qū)域,分別如圖3(c)中藍(lán)色、綠色、紅色區(qū)域所示。同時(shí)記錄下各有效區(qū)域的相鄰區(qū)域。當(dāng)某個(gè)有效區(qū)域的點(diǎn)與其他有效區(qū)域的點(diǎn)相鄰或重疊時(shí),則這兩個(gè)有效區(qū)域相鄰,如圖3(d)所示。

        2)確定文本實(shí)例及其邊界頂點(diǎn)。遍歷所有的有效中間區(qū)域,當(dāng)該有效中間區(qū)域相鄰的有效左短邊區(qū)域、有效右短邊區(qū)域數(shù)目均不小于1時(shí),則3種區(qū)域共同構(gòu)成一個(gè)文本實(shí)例。若相鄰的有效短邊區(qū)域數(shù)大于1,只選最大的有效短邊區(qū)域。遍歷所有的有效左短邊區(qū)域,當(dāng)該有效左短邊區(qū)域相鄰的有效中間區(qū)域數(shù)為0,相鄰的有效右短邊區(qū)域數(shù)大于0時(shí),則兩種短邊區(qū)域同樣構(gòu)成一個(gè)文本實(shí)例。在確定文本實(shí)例后,綜合計(jì)算左、右短邊頂點(diǎn)坐標(biāo),計(jì)算方式為

        (12)

        式中:xi為由單個(gè)有效短邊區(qū)域點(diǎn)預(yù)測(cè)的短邊頂點(diǎn)坐標(biāo);si為該有效短邊區(qū)域點(diǎn)的短邊區(qū)域分類(lèi)得分;n為該短邊區(qū)域有效點(diǎn)數(shù);x為最后綜合計(jì)算的短邊頂點(diǎn)坐標(biāo)結(jié)果。

        3)去除重復(fù)。當(dāng)同一個(gè)連通區(qū)域內(nèi)有多個(gè)重疊的檢測(cè)結(jié)果,去除面積較小的。

        圖3 后處理流程圖及中間結(jié)果示例

        2 實(shí)驗(yàn)比較與分析

        為了驗(yàn)證本文方法的效果,本文將在常用的3個(gè)公開(kāi)的自然場(chǎng)景文本檢測(cè)數(shù)據(jù)集及一個(gè)長(zhǎng)文本數(shù)據(jù)集上進(jìn)行測(cè)試比較。

        2.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        1)長(zhǎng)文本數(shù)據(jù)集。根據(jù)主觀經(jīng)驗(yàn),當(dāng)一個(gè)文本實(shí)例長(zhǎng)邊與短邊之比大于7時(shí),認(rèn)為該文本實(shí)例為長(zhǎng)文本。從MLT數(shù)據(jù)集[20]中選取742張含有長(zhǎng)文本實(shí)例的圖片作為長(zhǎng)文本數(shù)據(jù)集。該數(shù)據(jù)集的文本實(shí)例均為英文。該數(shù)據(jù)集均為測(cè)試集。

        2)MSRA-TD 500[21]。MSRA-TD 500包含500張圖片,其中訓(xùn)練集有300張,測(cè)試集有200張。該數(shù)據(jù)集包含中文與英文兩種類(lèi)型文本,標(biāo)注的目標(biāo)為文本行,標(biāo)注的類(lèi)型為旋轉(zhuǎn)矩形。該數(shù)據(jù)集中的文本具有大小變化劇烈、長(zhǎng)寬比變化劇烈、多方向的特點(diǎn)。該數(shù)據(jù)集中含長(zhǎng)文本的圖像占40%,長(zhǎng)文本實(shí)例占總文本實(shí)例的27.3%。

        3)ICDAR 2015[22]。該數(shù)據(jù)集來(lái)自于ICDAR 2015魯棒閱讀競(jìng)賽。該數(shù)據(jù)集包含1 500張圖片,訓(xùn)練集有1 000張,剩余的500張為測(cè)試集。該數(shù)據(jù)集包含的文本為英文,文本實(shí)例標(biāo)注是英文單詞的邊界四邊形。與MSRA-TD 500相比,該數(shù)據(jù)集的文本同樣具有多方向的特點(diǎn),但大小、長(zhǎng)寬比變化相對(duì)較小。該數(shù)據(jù)集中長(zhǎng)文本實(shí)例只占1.5%。

        4)ICDAR 2013[23]。該數(shù)據(jù)集一共有462張圖片,訓(xùn)練集有229張,測(cè)試集有233張。該數(shù)據(jù)集的文本為英文,對(duì)每一個(gè)詞進(jìn)行標(biāo)注,標(biāo)注類(lèi)型為軸向矩形。其中長(zhǎng)文本實(shí)例占6%。

        當(dāng)一個(gè)文本實(shí)例的檢測(cè)結(jié)果與真實(shí)目標(biāo)交占比大于0.5時(shí),該檢測(cè)結(jié)果被認(rèn)為是正確的檢測(cè)結(jié)果,否則為一個(gè)錯(cuò)誤的檢測(cè)結(jié)果。文本檢測(cè)的評(píng)價(jià)指標(biāo)有3個(gè),召回率(r,recall),準(zhǔn)確率(p,precision),綜合得分(f,f-score),其計(jì)算方式為:

        (13)

        (14)

        (15)

        式中:|TP|為正確的檢測(cè)結(jié)果數(shù)目;|GT|為真實(shí)的文本實(shí)例數(shù)目;|DT|為檢測(cè)結(jié)果數(shù)。

        2.2 實(shí)驗(yàn)實(shí)施細(xì)節(jié)

        由于各個(gè)數(shù)據(jù)集訓(xùn)練集規(guī)模都較小,本方法參考了多種文本檢測(cè)方法[6,8-9,13-14,24-28]通過(guò)加入其他數(shù)據(jù)與仿射變換的方式增大訓(xùn)練數(shù)據(jù)量,提高模型的泛化能力。HUST-TR 400數(shù)據(jù)集是使用文本行標(biāo)注,與方法[6,13-14,25-27]一樣,將該數(shù)據(jù)集加入到MSRA-TD 500訓(xùn)練集中。參考方法[8-9,13-14,24-28],在ICDAR 2013訓(xùn)練集中加入其他訓(xùn)練樣本,將部分MLT數(shù)據(jù)集加入到ICDAR 2013訓(xùn)練集中。本方法使用縮放、旋轉(zhuǎn)、隨機(jī)截取3種方式進(jìn)行數(shù)據(jù)擴(kuò)充。對(duì)于ICDAR 2013與ICDAR 2015訓(xùn)練集,在保持長(zhǎng)寬比不變的條件下,圖片長(zhǎng)邊被隨機(jī)縮放到[640,2 560]之間。然后在[-10°,10°]之間隨機(jī)旋轉(zhuǎn)圖像。最后隨機(jī)截取512×512大小的圖像塊作為訓(xùn)練樣本。對(duì)于MSRA-TD 500數(shù)據(jù)集,圖片長(zhǎng)邊被隨機(jī)縮放到為原始長(zhǎng)度的[0.5,2.0]倍,最后隨機(jī)截取1 024×512的圖像塊作為訓(xùn)練樣本。

        本方法使用Adam[29]作為網(wǎng)絡(luò)訓(xùn)練優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1。使用多步調(diào)整為學(xué)習(xí)率調(diào)整策略,每經(jīng)過(guò)10 000次迭代,學(xué)習(xí)率衰減為原來(lái)的0.94倍。使用在ImageNet[30]上預(yù)訓(xùn)練的Resnet 50模型初始化本網(wǎng)絡(luò)中特征提取部分的模型參數(shù),其余新加入層的參數(shù)使用符合均值為0,方差為0.01的高斯分布的隨機(jī)數(shù)進(jìn)行初始化。

        在測(cè)試時(shí),將3類(lèi)區(qū)域的分類(lèi)閾值均設(shè)置為0.9。實(shí)驗(yàn)的硬件環(huán)境是Intel Core 7700 CPU,16 GB RAM,Nvidia GTX 1080顯卡,操作系統(tǒng)為Ubuntu 16.04。

        2.3 結(jié)果及分析

        表1為各方法在長(zhǎng)文本數(shù)據(jù)集上測(cè)試結(jié)果。表中各方法均是在ICDAR 2015訓(xùn)練集上進(jìn)行訓(xùn)練,在長(zhǎng)文本數(shù)據(jù)集上進(jìn)行測(cè)試。由于訓(xùn)練集與測(cè)試集存在一定差異,所以總體指標(biāo)數(shù)據(jù)均不高。但是本方法在準(zhǔn)確率與召回率均高于其他方法,綜合得分至少高于其他方法5%。這充分表明了本方法在長(zhǎng)文本檢測(cè)方面的優(yōu)勢(shì)。

        表1 各方法在長(zhǎng)文本數(shù)據(jù)集中測(cè)試結(jié)果比較

        圖4(a)、(b)分別是一種間接回歸方法TextBox++[8]與一種直接回歸方法EAST[14]檢測(cè)一個(gè)較長(zhǎng)文本的效果示例。圖4(a)中品紅色的虛線框?yàn)轭A(yù)設(shè)框,黃色框?yàn)樽詈髾z測(cè)結(jié)果,TextBox++[8]只能檢測(cè)到長(zhǎng)文本的一部分。圖4(b)中品紅色的四邊形是EAST[14]在文本區(qū)域中右側(cè)某像素點(diǎn)處預(yù)測(cè)的檢測(cè)結(jié)果。該點(diǎn)距離文本區(qū)域的左側(cè)邊界較遠(yuǎn),由于該點(diǎn)處的感受野不足導(dǎo)致其預(yù)測(cè)結(jié)果中左側(cè)兩個(gè)頂點(diǎn)的定位精度非常差,而該點(diǎn)距離右側(cè)邊界較近,右側(cè)邊界定位較為準(zhǔn)確。

        圖4(c)為本文方法檢測(cè)長(zhǎng)文本結(jié)果,其中黃色框?yàn)樽詈髾z測(cè)結(jié)果,綠色、紅色及藍(lán)色區(qū)域分別為文本左短邊區(qū)域、右短邊區(qū)域及文本中間區(qū)域,左短邊區(qū)域內(nèi)像素點(diǎn)只預(yù)測(cè)文本左短邊的兩個(gè)頂點(diǎn),右短邊區(qū)域內(nèi)的點(diǎn)只預(yù)測(cè)右短邊的兩個(gè)頂點(diǎn)。與其他兩種方法比較,在預(yù)測(cè)文本邊界框頂點(diǎn)時(shí),本文方法只需要關(guān)注文本短邊附近一小塊區(qū)域,而不用關(guān)注整個(gè)文本區(qū)域,對(duì)網(wǎng)絡(luò)的感受野要求較低。所以在檢測(cè)長(zhǎng)文本時(shí),本文方法檢測(cè)精度要明顯優(yōu)于預(yù)測(cè)整個(gè)文本邊界的方法。

        圖4 長(zhǎng)文本測(cè)試結(jié)果比較示例

        表2為各方法在MSRA-TD 500數(shù)據(jù)集上測(cè)試結(jié)果,其中其他方法的結(jié)果來(lái)自各自的文獻(xiàn)。本方法在MSRA-TD 500測(cè)試集上分別使用了單尺度與多尺度圖像進(jìn)行測(cè)試,單尺度圖像長(zhǎng)寬被縮放為原圖像的0.6倍,多尺度圖像分別被縮放為原來(lái)的0.25、0.50、1.00倍。表2中一些方法的準(zhǔn)確率高于本方法的原因在于它們犧牲了一定的召回率。本方法最高綜合得分為82.66%,高于文獻(xiàn)[27]中的1%。MSRA-TD 500數(shù)據(jù)集檢測(cè)目標(biāo)是文本行,其中含有許多長(zhǎng)文本。表2的結(jié)果再次表明了本方法在長(zhǎng)文本檢測(cè)方面的有效性。

        表2 各方法在MSRA-TD 500數(shù)據(jù)集中測(cè)試結(jié)果比較

        表3所示為各方法在ICDAR 2015數(shù)據(jù)集上的測(cè)試結(jié)果比較,其中其他方法的結(jié)果來(lái)自各自的文獻(xiàn)。本方法測(cè)試圖像大小為1 728×972。從表3數(shù)據(jù)可以看到,雖然文獻(xiàn)[27]準(zhǔn)確率高于本方法,但其召回率較低,所以綜合性能落后于本方法。與綜合得分為第2的方法RRD[26]相比,本方法的綜合得分為85.44%,高于其1.6%。

        表3 各方法在ICDAR 2015數(shù)據(jù)集中測(cè)試結(jié)果比較

        表4所示為多種方法在ICDAR 2013數(shù)據(jù)集上的測(cè)試結(jié)果,其中其他方法的結(jié)果來(lái)自各自的文獻(xiàn)。本方法在測(cè)試之前,將一些過(guò)大的圖像縮小為原來(lái)的0.5倍。本方法單尺度測(cè)試圖像大小基本為原圖像大小。而多尺度測(cè)試時(shí),對(duì)于較小的圖像,所使用的尺度為0.5、1.0、2.0,對(duì)于較大的圖像,所使用的尺度為0.25、0.50、1.00。不同于表4中一些方法,本方法能在獲得較高準(zhǔn)確率的同時(shí),獲得高召回率,所以本方法綜合得分能達(dá)到90.1%,超過(guò)了表4中其他所有方法。

        表4 各方法在ICDAR 2013數(shù)據(jù)集中測(cè)試結(jié)果比較

        ICDAR 2015數(shù)據(jù)集、ICDAR 2013數(shù)據(jù)集的檢測(cè)目標(biāo)為詞,長(zhǎng)文本實(shí)例數(shù)目不多。相比于文本行,詞相對(duì)較短,而本方法在這兩個(gè)數(shù)據(jù)集上的效果依然超過(guò)了目前絕大部分方法。原因在于:1)詞通常是以多個(gè)密集出現(xiàn),短邊區(qū)域能夠?qū)⒚芗奈谋緦?shí)例分離開(kāi),縮小的中間區(qū)域能防止相鄰的文本實(shí)例誤連接;2)不再直接預(yù)測(cè)整個(gè)文本邊界,短邊區(qū)域內(nèi)的像素點(diǎn)只預(yù)測(cè)與之鄰近的短邊的頂點(diǎn),這樣的任務(wù)相對(duì)更簡(jiǎn)單,所以能更精準(zhǔn)地預(yù)測(cè)文本邊界頂點(diǎn)。

        圖5為本方法在各個(gè)數(shù)據(jù)集上的單尺度測(cè)試的一些結(jié)果樣例。1~4行分別為長(zhǎng)文本數(shù)據(jù)集、MSRA-TD 500數(shù)據(jù)集、ICDAR 2015、ICDAR 2013數(shù)據(jù)集測(cè)試樣例結(jié)果。

        圖5 本方法的測(cè)試結(jié)果樣例

        2.4 速度比較

        表5所示為各方法運(yùn)行速度測(cè)試結(jié)果?;旧纤谢谏疃葘W(xué)習(xí)的檢測(cè)方法測(cè)試過(guò)程都可分為兩階段,網(wǎng)絡(luò)前向推理階段與后處理階段,其中網(wǎng)絡(luò)前向推理階段占大部分時(shí)間開(kāi)銷(xiāo),測(cè)試圖像的大小對(duì)速度有直接的影響。各方法測(cè)試時(shí),圖像大小與實(shí)驗(yàn)設(shè)備平臺(tái)不一樣。

        表5 各方法速度比較

        表5列出了每種方法測(cè)試的圖像大小與使用的GPU。在測(cè)試圖像大小相近的條件下,EAST[14]只比本方法稍快一點(diǎn),然而其測(cè)試所用GPU設(shè)備性能要大大強(qiáng)于本方法。本方法能夠如此快速,原因在于:1)本方法網(wǎng)絡(luò)為單階段的全卷積網(wǎng)絡(luò);2)網(wǎng)絡(luò)輸出結(jié)果邊長(zhǎng)為原圖的1/4,這不僅減少了特征融合部分的卷積運(yùn)算量,還降低了后處理的運(yùn)算量。

        3 結(jié) 論

        1)針對(duì)長(zhǎng)文本難以有效檢測(cè)的問(wèn)題,本文提出了一種全新的短邊頂點(diǎn)回歸網(wǎng)絡(luò)。本方法分割出文本的中間區(qū)域、左短邊區(qū)域、右短邊區(qū)域,左、右短邊區(qū)域的點(diǎn)預(yù)測(cè)各自短邊的頂點(diǎn),再利用區(qū)域的相鄰關(guān)系將兩種短邊區(qū)域連接組合起來(lái),便可得到精確完整的文本檢測(cè)結(jié)果。

        2)在長(zhǎng)文本數(shù)據(jù)集,MSRA-TD 500,ICDAR 2015及ICDAR 2013文本檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)測(cè)試結(jié)果表明本方法高速有效。

        3)本方法目前主要適用于直線文本,在未來(lái)的工作中,將研究如何改善本方法使其具有更強(qiáng)的泛化能力。

        猜你喜歡
        文本區(qū)域檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        亚洲国产精华液网站w| 国产丝袜美腿一区二区三区| 麻神在线观看免费观看| 免费人成年激情视频在线观看| 亚洲国产综合精品 在线 一区| 免费一级欧美大片久久网| 亚洲精品不卡av在线免费| 成人国产一区二区三区| 欧美疯狂做受xxxx高潮小说| 成 人 网 站 在线 看 免费| 高清不卡av在线播放| 欧美做受又硬又粗又大视频| 国产一区二区三区在线观看免费| 国产成人cao在线| 三级国产自拍在线观看| 亚洲成熟丰满熟妇高潮xxxxx| 又硬又粗又大一区二区三区视频| 久久91精品国产91久久麻豆| 91九色视频在线国产| 女人被狂躁c到高潮| 欧美午夜a级精美理论片| 少妇极品熟妇人妻高清| 中文字幕国产精品一二三四五区| 少妇饥渴偷公乱a级无码| 国产成人精品日本亚洲专区6 | 亚洲av毛片一区二区久久| 精品人妻系列无码人妻漫画| 丁香五香天堂网| 亚洲性无码av在线| 亚洲精品第四页中文字幕| 四虎影视成人永久免费观看视频| 久久免费网国产AⅤ| 日本黑人人妻一区二区水多多 | 午夜探花在线观看| 中文字幕人妻一区色偷久久| 久久99精品久久久大学生| 久久久精品欧美一区二区免费| AV在线中出| 女同同志熟女人妻二区| 亚洲av无码av制服另类专区 | 国产麻无矿码直接观看|