亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于雙通道殘差的場(chǎng)景文本檢測(cè)方法?

2021-06-28 07:03:42劉建云李海山

艦船電子工程 2021年6期

劉建云李海山李恒

（武漢數(shù)字工程研究所武漢 430000）

1 引言

場(chǎng)景文本檢測(cè)在深度學(xué)習(xí)領(lǐng)域可被視為計(jì)算機(jī)視覺(jué)中物體檢測(cè)任務(wù)的特定物體檢測(cè)，也就是說(shuō)將文本作為一種特定的物體來(lái)檢測(cè)?；谏疃葘W(xué)習(xí)的文本檢測(cè)方法按照網(wǎng)絡(luò)輸出的數(shù)據(jù)分為基于邊框回歸的方法和基于語(yǔ)義分割的方法?；谶吙蚧貧w的文本檢測(cè)方法，如 CTPN［1］、SegLink［2］等，其檢測(cè)效果嚴(yán)重依賴于錨框或者錨點(diǎn)的選擇，導(dǎo)致模型中超參數(shù)的數(shù)量增加，降低了模型的泛化能力。而 PSENet［3］、DBNet［4］等網(wǎng)絡(luò)采用語(yǔ)義分割的方法根據(jù)圖片生成二值圖，然后根據(jù)二值圖生成文本框，因而檢測(cè)結(jié)果更加魯棒。為了提高檢測(cè)算法對(duì)于自然場(chǎng)景圖像中任意形狀文本的魯棒性和檢測(cè)精度，本文提出了一個(gè)以ResNet［5］為基礎(chǔ)網(wǎng)絡(luò)，同時(shí)利用特征金字塔（Feature Pyramid Networks，F(xiàn)PN［6］）進(jìn)行特征融合，最后利用雙通道殘差網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割的檢測(cè)算法。該方法不僅保證了深度學(xué)習(xí)模型的精度和推理速度，同時(shí)通過(guò)語(yǔ)義分割網(wǎng)絡(luò)提高網(wǎng)絡(luò)模型的泛化能力。

2 本文方案

2.1 基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)

本文提出的語(yǔ)義分割網(wǎng)絡(luò)如圖1所示，一共分為上下兩個(gè)通道，通道中的網(wǎng)絡(luò)進(jìn)行殘差連接，故而命名為雙通道殘差。網(wǎng)絡(luò)的特征輸入為經(jīng)過(guò)特征融合網(wǎng)絡(luò)得到的特征圖，輸出為通道數(shù)為1的概率圖，其表示的是每個(gè)像素點(diǎn)處于文本區(qū)域的概率。由于通道2的網(wǎng)絡(luò)層數(shù)小于通道1，因而通道2相當(dāng)于是通道1殘差連接，加上圖1中的1、2、3這三個(gè)殘差連接，整個(gè)語(yǔ)義分割網(wǎng)絡(luò)中共有4個(gè)殘差連接。由于輸出概率圖的分辨率大于輸入特征圖，因此通道1和通道2進(jìn)行的都是上采樣操作，本文采用反卷積［7］實(shí)現(xiàn)上采樣。通道1和通道2的最后一層都是對(duì)輸入圖像每個(gè)像素點(diǎn)的分類結(jié)果，這兩層進(jìn)行逐像素相加后得到網(wǎng)絡(luò)的最后一層。

圖1 基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)

2.2 整體網(wǎng)絡(luò)結(jié)構(gòu)

本文的文本檢測(cè)算法流程如圖2所示，從輸入圖片到輸出圖片一共經(jīng)過(guò)；是個(gè)階段，其中前三階段為網(wǎng)絡(luò)處理部分，第四個(gè)階段為后處理部分，目的是從二值圖中生成文本區(qū)域。本文設(shè)計(jì)整個(gè)檢測(cè)網(wǎng)絡(luò)分為三個(gè)部分，分別為backbone、neck和head。backbone部分采用ResNet作為整個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)骨架，用以提取圖像中的語(yǔ)義信息。neck部分采用FPN進(jìn)行特征融合，特征融合之后對(duì)得到的特征圖進(jìn)行concat操作，然后連接注意力層［8］，使得分割結(jié)構(gòu)更加魯棒。head部分采用2.1小節(jié)提出的雙通道殘差語(yǔ)義分割網(wǎng)絡(luò)，對(duì)輸入圖像中的每個(gè)像素點(diǎn)進(jìn)行預(yù)測(cè)，輸出每個(gè)點(diǎn)處于文本區(qū)域的概率值。

圖2 算法流程

網(wǎng)絡(luò)的損失函數(shù)層一共有三個(gè)，分別是通道1最后輸出的概率圖1和通道2最后輸出的概率圖2，以及網(wǎng)絡(luò)最后輸出的概率圖3。其中，由于通道1的深度更深，所以得到特征圖的語(yǔ)義信息更強(qiáng)，因而使用交叉熵?fù)p失函數(shù)，以此來(lái)保證每個(gè)點(diǎn)分類的準(zhǔn)確性，而通道2更短，因而使用IOU Loss來(lái)保證文本的召回率。最后概率圖3同樣使用IOU Loss，以此來(lái)提高整體網(wǎng)絡(luò)對(duì)于檢測(cè)結(jié)果召回率。

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集

本文選擇的實(shí)驗(yàn)數(shù)據(jù)集為ICDAR2015。該數(shù)據(jù)集一共包含1500張圖片，按照2：1的比例分為訓(xùn)練集和測(cè)試集，每張圖片的大小都為1280×720像素。該數(shù)據(jù)集中的圖像都是通過(guò)可穿戴設(shè)備隨意采集的，圖像中的文本大小、文本行方向等都具有隨機(jī)性，這些因素增加了其文本檢測(cè)的難度。

3.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)基于Pytorch，利用ICDAR2015開源數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行了性能評(píng)估。實(shí)驗(yàn)中的硬件平臺(tái)配置如表1所示。

表1 實(shí)驗(yàn)環(huán)境

3.3 實(shí)驗(yàn)驗(yàn)證

在實(shí)驗(yàn)中，我們將訓(xùn)練的batch size設(shè)為6，初始學(xué)習(xí)率設(shè)為0.001，優(yōu)化器選擇Adam，一共迭代1200個(gè)epoch。圖3為模型在測(cè)試集的準(zhǔn)確率和召回率的變化曲線，圖中的橫坐標(biāo)表示迭代次數(shù)，縱坐標(biāo)為百分比，可以看到隨著迭代次數(shù)的增加，網(wǎng)絡(luò)的精度也在逐漸提升。當(dāng)?shù)螖?shù)過(guò)少時(shí)，深度學(xué)習(xí)模型的精度會(huì)比較差，反之，模型可能會(huì)出現(xiàn)過(guò)擬合，使得在訓(xùn)練集的精度上升而測(cè)試集的準(zhǔn)確率下降，因此，在我們的研究中每訓(xùn)練完一個(gè)ep?och，就將此時(shí)得到的模型權(quán)重與之前迭代得到的最高精度的模型權(quán)重進(jìn)行對(duì)比，如果此時(shí)的模型權(quán)重測(cè)試結(jié)果更優(yōu)，則將權(quán)重保存下來(lái)，同時(shí)將其更新為當(dāng)前的最優(yōu)結(jié)果。最終，本文提出的場(chǎng)景文本檢測(cè)算法在ICDAR2015數(shù)據(jù)集中取得了88.99%的準(zhǔn)確率和80.16%的召回率。圖4顯示了測(cè)試集中的部分檢測(cè)結(jié)果。

圖3 測(cè)試集準(zhǔn)確率和召回率變化曲線

圖4 部分檢測(cè)結(jié)果

表2是目前主流的文本檢測(cè)方法與本文方法的對(duì)比結(jié)果，本文的baseline算法為DB-ResNet-18［8］，它發(fā)表在AAAI2020，是當(dāng)時(shí)場(chǎng)景文本檢測(cè)的最佳算法。本文的檢測(cè)網(wǎng)絡(luò)與DB-ResNet-18都是采用resnet18+特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取和融合。本文所提出算法的準(zhǔn)確率、召回率、F-mea?sure相比于DB-ResNet-18分別提升了2.19%、1.66%、2.05%，這表明本文所提出的基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)對(duì)于分割精度的提升是有效的。同時(shí)可以看到本文提出的方法相比于SegLink［2］，PixelLink［9］，EAST［10］等多方向文本檢測(cè)網(wǎng)絡(luò)有所提升，與FTSN［11］等目前檢測(cè)效果優(yōu)異的網(wǎng)絡(luò)相比性能接近。

表2 ICDAR2015檢測(cè)結(jié)果對(duì)比

4 結(jié)語(yǔ)

為了提高場(chǎng)景文本檢測(cè)的精度和模型的泛化能力，本文將基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用在場(chǎng)景文本檢測(cè)算法中。特別地，我們利用ResNet作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取，同時(shí)利用FPN對(duì)提取的特征進(jìn)行融合，最后送到語(yǔ)義分割網(wǎng)絡(luò)中。與基于邊框回歸的檢測(cè)算法相比，檢測(cè)網(wǎng)絡(luò)的泛化能力得到增強(qiáng)，同時(shí)提高了模型的推理速度。最終的實(shí)驗(yàn)結(jié)果證明，本文提出的網(wǎng)絡(luò)是行之有效的。其在ICDAR2015的測(cè)試集的準(zhǔn)確率達(dá)到88.99%，召回率達(dá)到80.16%。在未來(lái)，我們可以進(jìn)一步優(yōu)化分割網(wǎng)絡(luò)的結(jié)構(gòu)以提高深度學(xué)習(xí)模型準(zhǔn)確性。