亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于雙通道殘差的場(chǎng)景文本檢測(cè)方法?

        2021-06-28 07:03:42劉建云李海山
        艦船電子工程 2021年6期
        關(guān)鍵詞:語(yǔ)義特征文本

        劉建云 李海山 李 恒

        (武漢數(shù)字工程研究所 武漢 430000)

        1 引言

        場(chǎng)景文本檢測(cè)在深度學(xué)習(xí)領(lǐng)域可被視為計(jì)算機(jī)視覺(jué)中物體檢測(cè)任務(wù)的特定物體檢測(cè),也就是說(shuō)將文本作為一種特定的物體來(lái)檢測(cè)?;谏疃葘W(xué)習(xí)的文本檢測(cè)方法按照網(wǎng)絡(luò)輸出的數(shù)據(jù)分為基于邊框回歸的方法和基于語(yǔ)義分割的方法?;谶吙蚧貧w的文本檢測(cè)方法,如 CTPN[1]、SegLink[2]等,其檢測(cè)效果嚴(yán)重依賴于錨框或者錨點(diǎn)的選擇,導(dǎo)致模型中超參數(shù)的數(shù)量增加,降低了模型的泛化能力。而 PSENet[3]、DBNet[4]等網(wǎng)絡(luò)采用語(yǔ)義分割的方法根據(jù)圖片生成二值圖,然后根據(jù)二值圖生成文本框,因而檢測(cè)結(jié)果更加魯棒。為了提高檢測(cè)算法對(duì)于自然場(chǎng)景圖像中任意形狀文本的魯棒性和檢測(cè)精度,本文提出了一個(gè)以ResNet[5]為基礎(chǔ)網(wǎng)絡(luò),同時(shí)利用特征金字塔(Feature Pyramid Networks,F(xiàn)PN[6])進(jìn)行特征融合,最后利用雙通道殘差網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割的檢測(cè)算法。該方法不僅保證了深度學(xué)習(xí)模型的精度和推理速度,同時(shí)通過(guò)語(yǔ)義分割網(wǎng)絡(luò)提高網(wǎng)絡(luò)模型的泛化能力。

        2 本文方案

        2.1 基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)

        本文提出的語(yǔ)義分割網(wǎng)絡(luò)如圖1所示,一共分為上下兩個(gè)通道,通道中的網(wǎng)絡(luò)進(jìn)行殘差連接,故而命名為雙通道殘差。網(wǎng)絡(luò)的特征輸入為經(jīng)過(guò)特征融合網(wǎng)絡(luò)得到的特征圖,輸出為通道數(shù)為1的概率圖,其表示的是每個(gè)像素點(diǎn)處于文本區(qū)域的概率。由于通道2的網(wǎng)絡(luò)層數(shù)小于通道1,因而通道2相當(dāng)于是通道1殘差連接,加上圖1中的1、2、3這三個(gè)殘差連接,整個(gè)語(yǔ)義分割網(wǎng)絡(luò)中共有4個(gè)殘差連接。由于輸出概率圖的分辨率大于輸入特征圖,因此通道1和通道2進(jìn)行的都是上采樣操作,本文采用反卷積[7]實(shí)現(xiàn)上采樣。通道1和通道2的最后一層都是對(duì)輸入圖像每個(gè)像素點(diǎn)的分類結(jié)果,這兩層進(jìn)行逐像素相加后得到網(wǎng)絡(luò)的最后一層。

        圖1 基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)

        2.2 整體網(wǎng)絡(luò)結(jié)構(gòu)

        本文的文本檢測(cè)算法流程如圖2所示,從輸入圖片到輸出圖片一共經(jīng)過(guò);是個(gè)階段,其中前三階段為網(wǎng)絡(luò)處理部分,第四個(gè)階段為后處理部分,目的是從二值圖中生成文本區(qū)域。本文設(shè)計(jì)整個(gè)檢測(cè)網(wǎng)絡(luò)分為三個(gè)部分,分別為backbone、neck和head。backbone部分采用ResNet作為整個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)骨架,用以提取圖像中的語(yǔ)義信息。neck部分采用FPN進(jìn)行特征融合,特征融合之后對(duì)得到的特征圖進(jìn)行concat操作,然后連接注意力層[8],使得分割結(jié)構(gòu)更加魯棒。head部分采用2.1小節(jié)提出的雙通道殘差語(yǔ)義分割網(wǎng)絡(luò),對(duì)輸入圖像中的每個(gè)像素點(diǎn)進(jìn)行預(yù)測(cè),輸出每個(gè)點(diǎn)處于文本區(qū)域的概率值。

        圖2 算法流程

        網(wǎng)絡(luò)的損失函數(shù)層一共有三個(gè),分別是通道1最后輸出的概率圖1和通道2最后輸出的概率圖2,以及網(wǎng)絡(luò)最后輸出的概率圖3。其中,由于通道1的深度更深,所以得到特征圖的語(yǔ)義信息更強(qiáng),因而使用交叉熵?fù)p失函數(shù),以此來(lái)保證每個(gè)點(diǎn)分類的準(zhǔn)確性,而通道2更短,因而使用IOU Loss來(lái)保證文本的召回率。最后概率圖3同樣使用IOU Loss,以此來(lái)提高整體網(wǎng)絡(luò)對(duì)于檢測(cè)結(jié)果召回率。

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)集

        本文選擇的實(shí)驗(yàn)數(shù)據(jù)集為ICDAR2015。該數(shù)據(jù)集一共包含1500張圖片,按照2:1的比例分為訓(xùn)練集和測(cè)試集,每張圖片的大小都為1280×720像素。該數(shù)據(jù)集中的圖像都是通過(guò)可穿戴設(shè)備隨意采集的,圖像中的文本大小、文本行方向等都具有隨機(jī)性,這些因素增加了其文本檢測(cè)的難度。

        3.2 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)基于Pytorch,利用ICDAR2015開源數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行了性能評(píng)估。實(shí)驗(yàn)中的硬件平臺(tái)配置如表1所示。

        表1 實(shí)驗(yàn)環(huán)境

        3.3 實(shí)驗(yàn)驗(yàn)證

        在實(shí)驗(yàn)中,我們將訓(xùn)練的batch size設(shè)為6,初始學(xué)習(xí)率設(shè)為0.001,優(yōu)化器選擇Adam,一共迭代1200個(gè)epoch。圖3為模型在測(cè)試集的準(zhǔn)確率和召回率的變化曲線,圖中的橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)為百分比,可以看到隨著迭代次數(shù)的增加,網(wǎng)絡(luò)的精度也在逐漸提升。當(dāng)?shù)螖?shù)過(guò)少時(shí),深度學(xué)習(xí)模型的精度會(huì)比較差,反之,模型可能會(huì)出現(xiàn)過(guò)擬合,使得在訓(xùn)練集的精度上升而測(cè)試集的準(zhǔn)確率下降,因此,在我們的研究中每訓(xùn)練完一個(gè)ep?och,就將此時(shí)得到的模型權(quán)重與之前迭代得到的最高精度的模型權(quán)重進(jìn)行對(duì)比,如果此時(shí)的模型權(quán)重測(cè)試結(jié)果更優(yōu),則將權(quán)重保存下來(lái),同時(shí)將其更新為當(dāng)前的最優(yōu)結(jié)果。最終,本文提出的場(chǎng)景文本檢測(cè)算法在ICDAR2015數(shù)據(jù)集中取得了88.99%的準(zhǔn)確率和80.16%的召回率。圖4顯示了測(cè)試集中的部分檢測(cè)結(jié)果。

        圖3 測(cè)試集準(zhǔn)確率和召回率變化曲線

        圖4 部分檢測(cè)結(jié)果

        表2是目前主流的文本檢測(cè)方法與本文方法的對(duì)比結(jié)果,本文的baseline算法為DB-ResNet-18[8],它發(fā)表在AAAI2020,是當(dāng)時(shí)場(chǎng)景文本檢測(cè)的最佳算法。本文的檢測(cè)網(wǎng)絡(luò)與DB-ResNet-18都是采用resnet18+特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取和融合。本文所提出算法的準(zhǔn)確率、召回率、F-mea?sure相比于DB-ResNet-18分別提升了2.19%、1.66%、2.05%,這表明本文所提出的基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)對(duì)于分割精度的提升是有效的。同時(shí)可以看到本文提出的方法相比于SegLink[2],PixelLink[9],EAST[10]等多方向文本檢測(cè)網(wǎng)絡(luò)有所提升,與FTSN[11]等目前檢測(cè)效果優(yōu)異的網(wǎng)絡(luò)相比性能接近。

        表2 ICDAR2015檢測(cè)結(jié)果對(duì)比

        4 結(jié)語(yǔ)

        為了提高場(chǎng)景文本檢測(cè)的精度和模型的泛化能力,本文將基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用在場(chǎng)景文本檢測(cè)算法中。特別地,我們利用ResNet作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取,同時(shí)利用FPN對(duì)提取的特征進(jìn)行融合,最后送到語(yǔ)義分割網(wǎng)絡(luò)中。與基于邊框回歸的檢測(cè)算法相比,檢測(cè)網(wǎng)絡(luò)的泛化能力得到增強(qiáng),同時(shí)提高了模型的推理速度。最終的實(shí)驗(yàn)結(jié)果證明,本文提出的網(wǎng)絡(luò)是行之有效的。其在ICDAR2015的測(cè)試集的準(zhǔn)確率達(dá)到88.99%,召回率達(dá)到80.16%。在未來(lái),我們可以進(jìn)一步優(yōu)化分割網(wǎng)絡(luò)的結(jié)構(gòu)以提高深度學(xué)習(xí)模型準(zhǔn)確性。

        猜你喜歡
        語(yǔ)義特征文本
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        精品女同一区二区三区| 精品视频在线观看免费无码| 中文字幕av无码一区二区三区电影| 久久久免费精品国产色夜| 亚洲精品中文字幕二区| 亚洲乱码av一区二区蜜桃av| 欧美激欧美啪啪片| 女厕厕露p撒尿八个少妇| 亚洲AV无码成人精品区网页| 日韩精品有码中文字幕 | 国产午夜精品理论片| 国产女人18一级毛片视频| av资源在线播放网站| 白白发在线视频免费观看2| 无码人妻精品一区二区| 国产成人久久精品二区三区牛| 中文字幕亚洲精品第一页| 日韩av一区二区三区激情在线| 欧美 国产 综合 欧美 视频| 一级片久久| 精品日本免费观看一区二区三区| 免费观看91色国产熟女| 国产真人性做爰久久网站| 91爱爱视频| 一道本加勒比在线观看| 大地资源在线影视播放| 人人超碰人人爱超碰国产| 疯狂的欧美乱大交| 中文字幕喷水一区二区| av网页在线免费观看| 国产av综合网站不卡| 双腿张开被9个男人调教| 中文字幕无码日韩欧毛| 99久久久69精品一区二区三区| 伊人大杳焦在线| 麻豆精产国品| 亚洲人成伊人成综合网中文| 国产激情视频免费在线观看| 久久中文字幕无码专区| 精品国产高清a毛片| 丝袜美腿丝袜美腿丝袜美腿丝袜|