亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制特征融合與增強(qiáng)的自然場(chǎng)景文本檢測(cè)

        2022-01-23 03:42:46陳靜嫻
        無(wú)線電工程 2022年1期
        關(guān)鍵詞:特征文本融合

        陳靜嫻,周 全

        (南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

        0 引言

        場(chǎng)景圖像指在自然場(chǎng)景中通過(guò)圖像采集設(shè)備采集的圖像。相對(duì)于圖像中的其他元素,文字能傳達(dá)更豐富準(zhǔn)確的信息,因此自然場(chǎng)景中文字的識(shí)別對(duì)于圖像理解至關(guān)重要。然而自然場(chǎng)景中的文本相對(duì)于文檔文本有如下3個(gè)特點(diǎn):① 背景復(fù)雜多干擾;② 文本自身的多樣性和可變性;③ 不完美的成像條件。這給自然場(chǎng)景下的文本檢測(cè)任務(wù)增加了難度。而文本檢測(cè)是場(chǎng)景文本識(shí)別(Scene Text Recognition,STR)的前序步驟,檢測(cè)結(jié)果的好壞直接影響到識(shí)別準(zhǔn)確率,為了能幫助計(jì)算機(jī)更準(zhǔn)確地理解圖像,精準(zhǔn)的文本檢測(cè)非常重要。

        隨著深度學(xué)習(xí)熱潮的來(lái)襲,傳統(tǒng)手工設(shè)計(jì)特征[1]和分類器做文本檢測(cè)的方法逐步被卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)所取代。目前基于深度學(xué)習(xí)的文本檢測(cè)方法主要分為兩大類:基于回歸和基于分割。

        基于回歸的方法主要依據(jù)文本的特點(diǎn),對(duì)通用目標(biāo)檢測(cè)算法做相對(duì)應(yīng)的改進(jìn)。基于Faster RCNN[2]框架,Tian等人[3]提出的CTPN算法使用一組寬度固定的anchor組件來(lái)描述文本行,有效地解決了長(zhǎng)文本行的檢測(cè)問(wèn)題?;谝浑A段檢測(cè)SSD[4]框架,Shi等人[5]提出了Seglink算法,該算法對(duì)不同尺度的特征圖分別檢測(cè),并對(duì)anchor引入了角度預(yù)測(cè),對(duì)不同尺度和帶角度的文本檢測(cè)有較好的魯棒性。該類方法采用外接矩形框做定位,對(duì)文檔文本檢測(cè)良好,但對(duì)任意形狀的文本不能做精準(zhǔn)的邊界包圍,多余的背景噪聲會(huì)嚴(yán)重干擾后續(xù)的文本識(shí)別。

        近年來(lái),由于像素級(jí)的分割可以更準(zhǔn)確地描述各種形狀的場(chǎng)景文本,基于分割的方法在場(chǎng)景文本檢測(cè)中非常流行?;诜指畹姆椒ㄍǔ=梃b經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)FCN[6]和FPN[7]的思路來(lái)構(gòu)建網(wǎng)絡(luò)框架。Dan等人[8]提出的PixelLink算法對(duì)每個(gè)像素點(diǎn)分別做二分類和8鄰域連接預(yù)測(cè),再對(duì)屬于同一文本實(shí)例的像素做聚類。Zhou等人[9]提出的EAST算法將回歸與分割結(jié)合,精簡(jiǎn)了網(wǎng)絡(luò)流程,能端到端檢測(cè)。Wang等人[10]提出了PSENet,該網(wǎng)絡(luò)使用漸進(jìn)尺度擴(kuò)張預(yù)測(cè)算法,在實(shí)現(xiàn)任意形狀文本的檢測(cè)之余還對(duì)緊密文本實(shí)例的分離有了改善。Baek等人[11]提出的CRAFT算法對(duì)文本做字符級(jí)的檢測(cè),該算法能在感受野較小的情況下仍能檢測(cè)出長(zhǎng)文本。Liao等人[12]提出的DB算法用近似可微分的二值化替代固定閾值,使后處理過(guò)程變得簡(jiǎn)單且泛化能力更強(qiáng)。該類方法可以適應(yīng)任意形狀的文本目標(biāo)。但圖像采集視角和文字本身多尺度、不規(guī)則分布的特點(diǎn)仍然給基于分割的文本檢測(cè)帶來(lái)了巨大的挑戰(zhàn)。

        基于上述難題,本文的主要工作有2點(diǎn):① 為了得到更準(zhǔn)確的解碼信息,設(shè)計(jì)了一種基于注意力的特征融合模塊(Attention-based Feature Fusion Module,AFFM),該模塊通過(guò)注意力機(jī)制提取深層特征的全局信息為淺層特征在通道維度上做校準(zhǔn)加強(qiáng),提取淺層特征的空間細(xì)節(jié)信息為深層特征在空間維度上做校準(zhǔn)加強(qiáng),從而使擁有不同感受野的特征能更精準(zhǔn)地融合。在一定程度上能克服常規(guī)解碼過(guò)程中信息丟失的問(wèn)題。② 為了提高級(jí)聯(lián)后特征的信息表征能力,設(shè)計(jì)了一種聯(lián)合注意力特征增強(qiáng)模塊(Joint Attention Feature Enhancement Module,JAM),該模塊利用卷積對(duì)級(jí)聯(lián)后特征通道間和空間位置之間的關(guān)系建模,從而有效加強(qiáng)級(jí)聯(lián)后特征通道維度及空間維度上的信息交融,進(jìn)而提高檢測(cè)性能。

        為了證明上述模塊的有效性,實(shí)驗(yàn)中將所提出的AFFM和JAM與基于語(yǔ)義分割的文本檢測(cè)網(wǎng)絡(luò)DBNet結(jié)合。從Total-Text和ICDAR2015數(shù)據(jù)集上的性能評(píng)估結(jié)果觀測(cè),所提出的檢測(cè)網(wǎng)絡(luò)相比從前最優(yōu)的檢測(cè)網(wǎng)絡(luò)在精確度上更有優(yōu)勢(shì)。

        1 基于注意力的自然場(chǎng)景文本檢測(cè)模型

        1.1 整體網(wǎng)絡(luò)架構(gòu)

        為了使網(wǎng)絡(luò)能更好地檢測(cè)不同尺度和多種形態(tài)的場(chǎng)景文本,網(wǎng)絡(luò)架構(gòu)以基于分割的文本檢測(cè)網(wǎng)絡(luò)DBNet[12]為基準(zhǔn),設(shè)計(jì)了一種應(yīng)用注意力特征融合以及聯(lián)合注意力增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)的整體架構(gòu)如圖1所示。

        圖1 文本檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of text detection network

        網(wǎng)絡(luò)按照推理流程可分為3個(gè)部分:骨干網(wǎng)絡(luò)、特征融合和檢測(cè)頭。骨干網(wǎng)絡(luò)采用ResNet-50[13]對(duì)圖像做初步的特征提取并抽取conv2_x~conv5_x這4種不同尺度的特征進(jìn)行特征融合。特征融合部分首先對(duì)抽取的4種特征分別經(jīng)過(guò)一個(gè)1×1卷積將通道統(tǒng)一成256維,將得到的特征ink(k=2,3,4,5)送入AFFM與解碼特征做融合得到輸出特征outk(k=2,3,4,5),該模塊的細(xì)節(jié)將在1.2小節(jié)描述。其次對(duì)outk(k=2,3,4,5)使用3×3卷積進(jìn)一步提取特征并調(diào)整通道為64后上采樣到1/4輸入圖像的大小得到特征pk(k=2,3,4,5),并對(duì)其進(jìn)行通道維度的拼接。為了能對(duì)目標(biāo)更準(zhǔn)確地預(yù)測(cè),在檢測(cè)之前增加JAM來(lái)提取更加適應(yīng)文本特點(diǎn)的特征,該部分將在1.3小節(jié)做詳細(xì)的描述。第三部分檢測(cè)頭采用DBNet算法對(duì)文本核心區(qū)域和邊界閾值做預(yù)測(cè),再利用可微分二值化算法得到近似二值圖,最后對(duì)二值圖做簡(jiǎn)單的后處理即可得到最終的檢測(cè)結(jié)果,該部分會(huì)在1.4小節(jié)做簡(jiǎn)要描述。另外,將在1.5小節(jié)介紹網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)標(biāo)簽的制作方法與損失函數(shù)的構(gòu)成以及訓(xùn)練參數(shù)設(shè)置。

        1.2 基于注意力機(jī)制的雙向特征融合

        分割網(wǎng)絡(luò)需要將深層特征解碼恢復(fù)到輸入尺寸進(jìn)行預(yù)測(cè),為了使解碼特征融合的過(guò)程中充分利用不同層級(jí)特征的空間和全局信息,設(shè)計(jì)了一種新的特征融合模塊AFFM,其結(jié)構(gòu)如圖2所示。

        圖2 基于注意力的特征融合模塊Fig.2 Attention-based feature fusion module

        AFFM整體包含2個(gè)輸入和一個(gè)輸出,分別記為來(lái)自淺層編碼端的輸入特征為ink(k=2,3,4),來(lái)自深層解碼端的輸入特征為outk+1(k=2,3,4),經(jīng)過(guò)AFFM融合后的輸出特征為outk。其內(nèi)部具體的運(yùn)算如式(1)所述,上支路將淺層特征ink經(jīng)過(guò)空間注意力模塊(Spatial Attention Module,SAM)得到1×H×W的空間信息mask與2倍上采樣后的深層特征逐通道相乘,下支路將深層特征outk+1經(jīng)過(guò)通道注意力模塊(Channel Attention Module,CAM)得到C×1×1的通道信息向量與淺層特征逐像素位置相乘,再將校準(zhǔn)加強(qiáng)過(guò)后的特征按位置相加得到輸出特征outk:

        outk=[Up2(outk+1)×SA(ink)]+[ink×CA(outk+1)]

        ?k={2,3,4},

        (1)

        式中,“+”和“×”分別表示對(duì)應(yīng)元素相加或相乘;SA(·)和CA(·)分別表示SAM和CAM的運(yùn)算。

        AFFM的核心在于使用注意力機(jī)制提取深淺層的不同側(cè)重信息來(lái)對(duì)輸入特征做校準(zhǔn)加強(qiáng)。具體來(lái)說(shuō)即使用SAM提取淺層特征的空間信息對(duì)上采樣后的深層特征做加權(quán),使用CAM提取深層特征的全局信息對(duì)來(lái)自編碼端的淺層信息做加權(quán),再對(duì)校準(zhǔn)后的雙方特征進(jìn)行相加融合。SAM和CAM的內(nèi)部運(yùn)作機(jī)制分別如圖3和圖4所示。

        圖3 空間注意力模塊Fig.3 Spatial attention module

        圖4 通道注意力模塊Fig.4 Channel attention module

        SAM對(duì)輸入特征分別按照空間位置計(jì)算所有通道上的最大值和平均值,得到2個(gè)1×H×W的特征mask,再對(duì)拼接后的特征mask用卷積做融合。CAM對(duì)輸入的特征分別做全局最大池化和全局平均池化,得到2個(gè)C×1×1的一維特征向量,一定程度上防止了單一池化方式造成的信息丟失。其內(nèi)部具體運(yùn)算細(xì)節(jié)如式(2)、式(3)所示:

        SA(X)=σ{Conv7[Pmax(X)||Pavg(X)]},

        (2)

        (3)

        在整體網(wǎng)絡(luò)框架中,AFFM先分別提取最深層特征in5的全局信息和相鄰特征in4的空間信息,再對(duì)二者做融合得到第一次融合后的特征out4,再用相同的原理對(duì)out4和in3融合得到out3,最后對(duì)out3和in2融合得到out2。相對(duì)于直接將編碼端的信息與解碼端上采樣后同維度的特征相加的特征融合方式,基于注意力的雙向特征融合模塊能使編解碼端的信息相互監(jiān)督、彼此受益,從而促進(jìn)網(wǎng)絡(luò)優(yōu)化。

        1.3 聯(lián)合注意力特征增強(qiáng)

        為了提高級(jí)聯(lián)后特征的信息表征能力,通常會(huì)使用卷積來(lái)對(duì)級(jí)聯(lián)后的特征做融合。常規(guī)的卷積操作僅對(duì)局部感受野中的空間信息做融合,而忽略了通道間的信息交互。若直接對(duì)通道間關(guān)系建模會(huì)將每個(gè)通道內(nèi)的信息進(jìn)行全局處理,而忽略了空間內(nèi)的信息交互。針對(duì)上述問(wèn)題,設(shè)計(jì)了JAM,其結(jié)構(gòu)如圖5所示。

        圖5 聯(lián)合注意力模塊Fig.5 Joint attention module

        JAM對(duì)特征的處理參考BAM[14](Bottlenet Attention Module)使用并聯(lián)的方式。該模塊分別使用CAM和SAM對(duì)輸入特征F的通道間和空間位置間的依賴關(guān)系建模,利用特征的全局信息得到每個(gè)通道的權(quán)重,利用空間上下文之間的關(guān)系突出目標(biāo)相關(guān)的特征并抑制背景噪聲。再對(duì)所得C×1×1權(quán)向量和1×H×W的空間掩碼擴(kuò)張到輸入特征F的維度后按位置相乘得到與F同維度的權(quán)重特征F′。為了避免網(wǎng)絡(luò)退化,模塊內(nèi)增加殘差連接來(lái)保證模型訓(xùn)練的有效性。該模塊的實(shí)現(xiàn)細(xì)節(jié)為:

        F″=JA(F)=F+F×F′=

        F+F×σ{EX[CA(F)]×EX[SA(F)]},

        (4)

        注意,這里的CA(·)和SA(·)去除了激活函數(shù)Sigmoid;EX(·)表示將特征擴(kuò)張到與輸入特征F相同維度的操作。

        1.4 可微分二值化

        如圖1第三部分檢測(cè)頭所示,檢測(cè)頭需要將預(yù)測(cè)圖P中屬于文本核心區(qū)域的像素與背景分開(kāi),即對(duì)圖像中的像素點(diǎn)做聚類。而最簡(jiǎn)單的聚類即設(shè)定某固定閾值,將各個(gè)像素點(diǎn)按照閾值t進(jìn)行劃分,固定閾值的二分類方法為:

        (5)

        (6)

        1.5 標(biāo)簽生成和損失函數(shù)

        相鄰文本實(shí)例的有效分離是基于分割的文本檢測(cè)算法需要解決的一項(xiàng)重大難題。本文標(biāo)簽生成方法采用PSE中的Vatti[15]裁剪算法。圖6表示2類標(biāo)簽生成的過(guò)程,從原始標(biāo)注文本框G中生成收縮的文本核心區(qū)域Gs和外擴(kuò)的文本邊界區(qū)域Gd。其中將Gs內(nèi)部填充1,外部填充0的掩碼圖作為P圖和B圖的標(biāo)簽,將Gs與Gd之間框型區(qū)域按照高斯分布填充0~1的值,其余部分填充0的掩碼圖作為T圖的標(biāo)簽。

        圖6 標(biāo)簽生成(圖片來(lái)源于DBNet論文)Fig.6 Label generation picture from the paper of DBNet

        收縮擴(kuò)張距離參數(shù)d由式(7)計(jì)算所得,A和L分別為原始標(biāo)簽多邊形G的面積和周長(zhǎng),r是縮小比例,本文設(shè)定為0.4。

        (7)

        本文算法的總損失函數(shù)L由Ls,Lb和Lt三部分組成,如式(8)所示。其中Ls,Lb,Lt分別表示概率圖P、近似二值圖B和閾值圖T的損失,α設(shè)置為1,由于T圖的預(yù)測(cè)直接影響到B圖的準(zhǔn)確率,因此Lt前的系數(shù)β設(shè)置成10。

        L=Ls+α×Lb+β×Lt,

        (8)

        式中,Ls和Lb使用二元交叉熵?fù)p失函數(shù)(BCE loss),如式(9)所示。其中Sl表示訓(xùn)練過(guò)程中所預(yù)測(cè)的文本核心區(qū)域,yi表示第i個(gè)位置點(diǎn)的標(biāo)簽值,xi表示該位置的預(yù)測(cè)概率值,即:

        (9)

        (10)

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 數(shù)據(jù)集

        ICDAR2015[17]:是一個(gè)面向多方向的文本數(shù)據(jù)集,包含很多小的和低分辨率的文本實(shí)例。其中1 000張用于訓(xùn)練,500張用于測(cè)試。其文本區(qū)域由四邊形的4個(gè)頂點(diǎn)進(jìn)行單詞級(jí)別的標(biāo)注。

        Total-Text[18]:是用于曲線文本檢測(cè)的數(shù)據(jù)集。其中1 255張用于訓(xùn)練,300張用于測(cè)試。數(shù)據(jù)集中包含水平、多方向和曲線文本實(shí)例,文本區(qū)域由多邊形進(jìn)行單詞級(jí)別標(biāo)注。

        2.2 評(píng)價(jià)指標(biāo)

        本文算法的性能由準(zhǔn)確率P、召回率R、F1分?jǐn)?shù)這3個(gè)指標(biāo)來(lái)衡量。其數(shù)值越大表示性能越好,即:

        (11)

        (12)

        (13)

        式中,Ntrue表示正確檢測(cè)的文本實(shí)例數(shù)量;Ndet表示全部檢測(cè)的文本實(shí)例數(shù)量;NGT表示標(biāo)簽真實(shí)文本框的數(shù)量。

        2.3 實(shí)驗(yàn)平臺(tái)及訓(xùn)練細(xì)節(jié)

        實(shí)驗(yàn)所用到的軟硬件環(huán)境為3塊NVIDIA Tesla K80顯卡,操作系統(tǒng)為Ubuntu16.04,網(wǎng)絡(luò)模型使用Pytorch框架搭建實(shí)現(xiàn)。

        本文僅在對(duì)比實(shí)驗(yàn)加載在SynthText[16]合成數(shù)據(jù)集上預(yù)訓(xùn)練2個(gè)epoch的ResNet-50模型作為骨干基礎(chǔ)網(wǎng)絡(luò)。在消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)中,本文在真實(shí)數(shù)據(jù)集上做1 000個(gè)epoch的微調(diào)訓(xùn)練,批次設(shè)置為8,優(yōu)化器使用帶動(dòng)量的SGD,動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 1,初始學(xué)習(xí)率設(shè)置為0.007,學(xué)習(xí)率衰減使用Poly策略。

        為了提高訓(xùn)練后模型的泛化能力,采用隨機(jī)旋轉(zhuǎn)[-10°~10°]、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)來(lái)對(duì)訓(xùn)練圖像做數(shù)據(jù)增廣,最后將圖像調(diào)整成640 pixel×640 pixel大小送入網(wǎng)絡(luò)訓(xùn)練。

        2.4 消融實(shí)驗(yàn)

        為了驗(yàn)證AFFM和JAM的有效性,在Total-Text和ICDAR2015數(shù)據(jù)集上分別進(jìn)行了消融實(shí)驗(yàn),這些實(shí)驗(yàn)在訓(xùn)練過(guò)程中均未使用合成數(shù)據(jù)做預(yù)訓(xùn)練,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 Total-Text和ICDAR2015數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果

        基線:第1行表示本次實(shí)驗(yàn)對(duì)DBNet算法[12]的復(fù)現(xiàn)結(jié)果,并以此作為基準(zhǔn)線;

        AFFM:由表1第2行所示,在添加本文提出的AFFM后,原始網(wǎng)絡(luò)的性能在Total-Text和ICDAR2015數(shù)據(jù)集上均有提升。其中準(zhǔn)確率P分別提升1.3%,1.2%,F(xiàn)1指標(biāo)分別提升0.9%,0.7%。證明了利用上下層級(jí)特征的特點(diǎn)對(duì)需要融合的特征做校準(zhǔn)加強(qiáng)可以提高后續(xù)檢測(cè)的準(zhǔn)確度。

        JAM:由表1第3行所示,文本提出的JAM模塊的引入可以為模型帶來(lái)一定的性能提升。在應(yīng)用該模塊后,模型在Total-Text和ICDAR2015數(shù)據(jù)集上召回率R分別提升1.5%,1.0%,F(xiàn)1指標(biāo)分別提升0.9%,0.6%。證明對(duì)級(jí)聯(lián)后的特征做通道和空間上的聯(lián)合加強(qiáng)能在有效增強(qiáng)目標(biāo)文本區(qū)域特征的同時(shí)抑制背景噪聲,從而減少漏檢。

        AFFM+JAM:由表1第4行所示,AFFM和JAM聯(lián)合使用會(huì)對(duì)準(zhǔn)確率P和召回率R之間做一個(gè)折中,即能更好地平衡誤檢和漏檢,其F1指標(biāo)達(dá)到最佳,相對(duì)于基線結(jié)果在Total-Text和ICDAR2015數(shù)據(jù)集上分別提升1.0%,0.8%。

        2.5 對(duì)比實(shí)驗(yàn)

        在Total-Text數(shù)據(jù)集和ICDAR2015數(shù)據(jù)集上將本文提出的方法與近年來(lái)的優(yōu)秀算法進(jìn)行了比較,包括一個(gè)多語(yǔ)言彎曲文本數(shù)據(jù)集和一個(gè)多方向長(zhǎng)文本文本數(shù)據(jù)集??梢暬臏y(cè)試結(jié)果如圖7所示,其中按列從左至右分別為測(cè)試圖、標(biāo)簽圖、DBNet檢測(cè)結(jié)果圖和本文算法檢測(cè)結(jié)果圖。

        (a) 大尺度彎曲文本檢測(cè)結(jié)果(Total-Text)

        圖7(a)、圖7(b)和圖7(c)取自Total-Text的測(cè)試集,圖7(d)、圖7(e)取自ICDAR2015的測(cè)試集。為了使檢測(cè)結(jié)果更直觀,在去均值的圖像上繪制文本邊界框。從圖7(a)可以看出,本文方法的檢測(cè)結(jié)果能覆蓋待識(shí)別文本的更多部位,更完整的檢測(cè)區(qū)域利于后續(xù)的文本識(shí)別;從圖7(b)和圖7(c)可以看出,本文的方法能在一定程度上減少誤檢和漏檢,并且對(duì)彎曲本文的檢測(cè)有魯棒性;從圖7(d)可以看出,本文方法在多尺度文本檢測(cè)上也取得了較好的檢測(cè)效果,并且對(duì)排布較為緊密的文本行也能正確分離檢測(cè);從圖7(e)可以看出,本文方法對(duì)豎向排列的文本同樣能精準(zhǔn)檢測(cè)。

        在Total-Text數(shù)據(jù)集上的測(cè)試結(jié)果證明了所提出方法在曲形文本檢測(cè)上的有效性。該方法在召回率R和F1指標(biāo)上均取得最優(yōu)。其中F1指標(biāo)高達(dá)85.1%,相比于針對(duì)曲形文本檢測(cè)任務(wù)的TextSnake[20]、PSENet[10]分別提高了6.7%,4.2%;相比于目前應(yīng)用廣泛且效果最佳的DBNet[12]提高了0.4%,與其他方法的對(duì)比結(jié)果如表2所示。

        表2 Total-Text數(shù)據(jù)集上模型性能對(duì)比

        在ICDAR2015數(shù)據(jù)集上的測(cè)試結(jié)果表明所提出方法對(duì)多方向、多尺度的文本檢測(cè)有較強(qiáng)的魯棒性。該方法在精度上達(dá)到了最優(yōu),其F1指標(biāo)高達(dá)87.6%,相比于針對(duì)長(zhǎng)文本檢測(cè)的CTPN方法提高了26.7%,相比于字符級(jí)精準(zhǔn)檢測(cè)的CRAFT算法提高了0.7%,相對(duì)于目前最優(yōu)的DBNet算法提高了0.3%,與其他方法的對(duì)比結(jié)果如表3所示。

        表3 ICDAR2015數(shù)據(jù)集上模型性能對(duì)比

        3 結(jié)束語(yǔ)

        針對(duì)文本尺度多樣、分布隨機(jī)、背景復(fù)雜所造成的檢測(cè)難題,提出了一個(gè)新的自然場(chǎng)景文本檢測(cè)框架。其中AFFM和JAM能將有效特征更精準(zhǔn)地覆蓋到目標(biāo)文本區(qū)域,并且在突出目標(biāo)特征的同時(shí)能抑制無(wú)關(guān)的背景噪聲。在2個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的方法相比于目前最先進(jìn)的算法在F1指標(biāo)上均有一定的提升,證明了方法的有效性。后續(xù)工作將對(duì)目標(biāo)文本的結(jié)構(gòu)化表示和模型輕量化展開(kāi)深入研究,進(jìn)一步提升模型的檢測(cè)性能和檢測(cè)速度。

        猜你喜歡
        特征文本融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        蜜桃av区一区二区三| 美女高潮流白浆视频在线观看| 亚洲AV秘 无码一区二区三区1| 久久亚洲成a人片| 色婷婷久久99综合精品jk白丝 | 国产变态av一区二区三区调教| 日本顶级片一区二区三区 | 亚洲人成网站18禁止久久影院| 天天做天天躁天天躁| 国产精品无码片在线观看| 97无码人妻一区二区三区蜜臀| 亚洲无av高清一区不卡| 成人性生交大片免费5| 91日韩东京热中文字幕| 欧美成人秋霞久久aa片| 在线高清理伦片a| 97精品伊人久久大香线蕉app| 国产精品原创av片国产日韩| 一区二区三区国产偷拍| 国产情侣自拍在线视频| 波多野42部无码喷潮| 国产丝袜在线精品丝袜不卡| 日本一区二区三区在线播放| 丝袜美腿一区在线观看| 亚洲国产成人av二区| 免费人成激情视频在线观看冫| 国产精品成人国产乱| 精品五月天| 久久久亚洲欧洲日产国码是AV| 国产成人精品一区二三区在线观看 | 亚洲一区二区三区免费av| 97精品一区二区三区| 精品国产三级a∨在线| 日本欧美视频在线观看| 96免费精品视频在线观看| 女同久久精品国产99国产精| 一区二区三区在线视频观看| 亚洲精品无码永久在线观看| 欧洲一卡2卡三卡4卡免费网站| 日本一区二区三区激情视频| 亚洲一区二区三区码精品色|