亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進PSENet的自然場景文本檢測方法

        2022-06-21 19:15:59彭棟,支世堯,李盛達,楊鵬
        計算機時代 2022年6期
        關(guān)鍵詞:多尺度語義分割

        彭棟,支世堯,李盛達,楊鵬

        摘? 要: 基于深度學(xué)習(xí)的檢測方法在文本形狀較規(guī)則的情況下,已經(jīng)取得較好的檢測結(jié)果,但對于傾斜以及彎曲的文本行仍有改進空間。文章在漸進式尺度擴展網(wǎng)絡(luò)PSENet的基礎(chǔ)上,通過使用Res2Net模塊提取多尺度特征,并結(jié)合全局卷積網(wǎng)絡(luò)GCN進行特征融合,來對原有模型進行改進。根據(jù)在SCUT-CTW1500和Total-Text數(shù)據(jù)集的實驗結(jié)果對比,證明改進的算法有效可行。

        關(guān)鍵詞: 文本檢測; 語義分割; 多尺度; 全局卷積

        中圖分類號:TP389.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2022)06-89-04

        Improved PSENet natural scene text detection method

        Peng Dong, Zhi Shiyao, Li Shengda, Yang Peng

        (School of Information Engineering,Nanjing Audit University, Nanjing, Jiangsu 211815, China)

        Abstract: The detection method based on deep learning has achieved good results in the case of regular text shape, but there is still an improved space for tilting and curved text. Based on the progressive scale expansion network PSENet, the original model is improved by using the Res2Net module to extract multi-scale features and combined with the global convolution network GCN. According to the comparison of experimental results in SCUT-CTW1500 and Total-Text data sets, the effectiveness of the improved algorithm is proved.

        Key words: text detection; semantic segmentation; multi-scale; global convolution

        0 引言

        近年來,隨著互聯(lián)網(wǎng)的發(fā)展和手機的普及,人們逐漸習(xí)慣于從生活場景中獲取圖片并進行分享。文字作為信息傳遞的重要載體,如何從自然場景的圖片中準確地提取出文字信息變得越來越重要。深度學(xué)習(xí)的興起,尤其是卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域的廣泛應(yīng)用為自然場景下的文本識別帶來了發(fā)展契機。

        對圖片中的文本進行識別前,需要預(yù)先進行文本檢測以提取出文本所在的區(qū)域。高性能的文本檢測系統(tǒng)可以極大地剔除干擾信息,為文本識別奠定良好的基礎(chǔ)[1]。目前,基于深度學(xué)習(xí)的文本檢測方法在文字行形狀較規(guī)則的場景中已經(jīng)獲得較好的性能,但由于目標檢測網(wǎng)絡(luò)感受野的限制,以及文本目標表達方式的單一,對于文本形狀不規(guī)則的場景,檢測性能仍有提升的空間。

        本文在PSENet[2]網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合Res2Net[3]模塊和GCN[4]網(wǎng)絡(luò)對其進行改進,并在標準文字數(shù)據(jù)集上進行實驗結(jié)果分析以驗證網(wǎng)絡(luò)的可行性。

        1 文本檢測網(wǎng)絡(luò)PSENet

        PSENet以殘差網(wǎng)絡(luò)(ResNet)和特征金字塔網(wǎng)絡(luò)(FPN)作為主干網(wǎng)絡(luò),可將底層紋理信息與高層語義信息相結(jié)合[5-7]。其實現(xiàn)流程如下。

        ⑴ 提取ResNet50的第二、三、四以及五階段的特征圖,并通過FPN側(cè)向連接和自頂向下的結(jié)構(gòu),得到四個256通道的特征圖[P2],[P3],[P4],[P5]。

        ⑵ 將特征圖([P2],[P3],[P4],[P5])通過函數(shù)[C]進一步融合,得到1024通道的特征圖[F],融合公式為:

        [F=CP2,P3,P4,P5]

        [=P2||Up*2(P3)||Up*4(P4)||Up*8(P5)]? ⑴

        其中,[Up*2]、[Up*4]、[Up*8]分別代表2倍、4倍、8倍方式的上采樣,[||]代表連接操作。

        ⑶ 特征圖[F]作為輸入,傳遞到3[×]3的卷積-BN-ReLU層中,得到256通道的特征圖;該特征圖再通過n個1[×]1的卷積層并上采樣處理后,利用sigmoid函數(shù)生成n個圖像分割的輸出結(jié)果:[S1]到[Sn]。

        ⑷ 每個[Si]是具有不同比例的分割掩碼,從具有最小比例的分割結(jié)果[S1]開始,通過漸進式尺度擴展算法,將文本實例的內(nèi)核逐步擴充到[Sn]中的最大形狀;在多個內(nèi)核擴展的過程中,如果出現(xiàn)像素沖突的問題,則根據(jù)先到先服務(wù)的原則對沖突像素進行分配。

        PSENet是一種基于分割的文本檢測方法,通過對輸入圖像進行像素級別的檢測,可有效地處理傾斜或者彎曲文本的檢測問題,對于文本行距離較近的稠密場景也有較好的檢測性能。但該網(wǎng)絡(luò)模型仍存在小文本區(qū)域遺漏、類文字圖案誤判等問題,具有進一步優(yōu)化的空間。

        2 改進的PSENet

        2.1 Res2Net模塊

        Res2Net前向傳播的具體過程[8,9]如圖1所示。

        ⑴ 輸入特征圖經(jīng)過n通道1[×]1的卷積層后,將其劃分為s個w通道且空間大小相同的子集,并用[xi]進行表示,其中,[i∈1,2,…,s],[ n=s×w]。

        ⑵ 考慮到減少參數(shù)與特征復(fù)用的因素,忽略[x1]的卷積層,其余的特征圖子集[xi]都有相對應(yīng)的w通道3[×]3卷積層[Ki(?)]。令[Ki(?)]的輸出為[yi],將[xi]與[yi-1]相加后作為輸入,傳遞到[Ki(?)]中處理,即

        [yi=xi? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=1Kixi? ? ? ? ? ? ? ? ? ? ? ? ? ? ?i=2Kixi+yi-1? ? ? ? ? ? ? ?2<i≤s]? ⑵

        ⑶ 經(jīng)過層內(nèi)分組與類殘差連接的處理后,[y1,y2,…,ys]中含有局部和全局信息,為了對不同尺度的信息進一步融合,將其并聯(lián)拼接后輸入到n通道1[×]1的卷積層。

        Res2Net模塊所采取的分組-合并策略,通過調(diào)控特征圖被分成的組數(shù)s,在不顯著增加計算量與內(nèi)存消耗的前提下,使得單個的殘差塊可以更高效地提取特征信息,在細粒度的級別上增強網(wǎng)絡(luò)的多尺度表達能力,獲取不同尺寸的感受野。

        2.2 全局卷積網(wǎng)絡(luò)GCN

        GCN模型在使用ResNet作為特征提取網(wǎng)絡(luò)、FCN作為語義分割框架的基礎(chǔ)上,通過添加GCN和BR模塊,可同時解決分割任務(wù)中的分類與定位問題。在圖2的GCN模塊中,并沒有直接使用更大的卷積核,而是結(jié)合Inception V3[10]的思想,將其替換為k×1+1×k和1×k+k×1的卷積組合。在減少卷積核參數(shù)的同時,通過調(diào)節(jié)k值來控制非對稱卷積核的大小,實現(xiàn)全局卷積。為了進一步優(yōu)化物體邊界的定位,GCN網(wǎng)絡(luò)給出了圖3所示的BR模塊,通過殘差連接的形式,學(xué)習(xí)輸入與輸出間的誤差,并進行邊界修正。

        GCN網(wǎng)絡(luò)在與ResNet各階段的特征圖形成遠程連接的同時,其內(nèi)部的類殘差結(jié)構(gòu)也形成較多的短程連接,極大地簡化了訓(xùn)練學(xué)習(xí)的過程,增強了信息前后向傳播的能力。

        2.3 改進的網(wǎng)絡(luò)模型

        如圖4所示,本文在PSENet原有網(wǎng)絡(luò)模型的基礎(chǔ)上,進行改進以提高文本檢測性能。針對特征提取網(wǎng)絡(luò),在ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)中集成Res2Net模塊,通過調(diào)整尺度維數(shù)s的取值,擴展多尺度特征表達潛力。同時,在特征融合網(wǎng)絡(luò)中,穿插GCN與BR模塊,在全卷積結(jié)構(gòu)的基礎(chǔ)上盡可能地使用大卷積核,達到分類與定位問題的平衡點。對于各階段的特征圖,依次利用反卷積進行上采樣處理,用高分辨率的特征圖改善低分辨率的特征圖,得到精調(diào)特征圖F。最后結(jié)合漸進式尺度擴展算法,逐步生成文本檢測結(jié)果。

        3 實驗與結(jié)果分析

        3.1 實驗環(huán)境與評估指標

        本文在配置NVIDIA GeForce GTX 1070顯卡的Ubuntu18.04.1系統(tǒng)下,選用PyTorch 1.2.0框架對模型進行實現(xiàn)。為評估改進后算法的效果,使用SCUT-CTW1500[11]和Total-Text[12]數(shù)據(jù)集進行訓(xùn)練與測試。SCUT-CTW1500數(shù)據(jù)集包含1500張圖像,其中訓(xùn)練圖像1000張,測試圖像500張。該數(shù)據(jù)集的圖像不僅類型多樣,而且文本形狀不規(guī)則,具有一定的挑戰(zhàn)性。其注釋文件中,在行級別基礎(chǔ)上,通過14個點所形成的封閉多邊形對文本進行標記。而Total-Text是當(dāng)前檢測領(lǐng)域較為常用的彎曲文本行數(shù)據(jù)集,其訓(xùn)練集含有1255張圖像,測試集含有300張圖像,并基于單詞級別進行標注。

        為評判本文所改進模型的好壞,采取文字檢測任務(wù)中常用的精確率(Precision)、召回率(Recall)以及F1分數(shù)(F1-Score)作為評估指標[13]。令TP代表真陽例(True Positive,預(yù)測為正樣本的正樣本),F(xiàn)P代表假陽例(FalsePositive,預(yù)測為正樣本的負樣本),F(xiàn)N代表假陰例(FalseNegative,預(yù)測為負樣本的正樣本),則:

        [Precision=TPTP+FP]? ⑶

        [Recall=TPTP+FN]? ⑷

        [F1Score=2*Precision*RecallPrecision+Recall]? ⑸

        3.2 實驗結(jié)果分析

        本文在實驗過程中,不使用額外數(shù)據(jù)集進行預(yù)訓(xùn)練,并嚴格控制其他變量,均在ResNet50+FPN作為主干網(wǎng)絡(luò)的基礎(chǔ)上進行改進。訓(xùn)練次數(shù)共計600次,初始學(xué)習(xí)率為0.01,并在次數(shù)迭代至200以及400次時,學(xué)習(xí)率動態(tài)地衰減,以使網(wǎng)絡(luò)更好地收斂到最優(yōu)解。同時,為了加快收斂速度,用mini-batch梯度下降法,并將batch size統(tǒng)一設(shè)置為4。

        在上述實驗環(huán)境下,針對SCUT-CTW1500和Total-Text數(shù)據(jù)集進行消融實驗,重新訓(xùn)練模型,并在測試集上評估模型性能。將原始的PSENet以及其他文本檢測算法與本文改進后的模型效果進行比較,結(jié)果如下:

        根據(jù)表1與表2中的實驗數(shù)據(jù),本文模型在SCUT-CTW1500和Total-Text數(shù)據(jù)集上的各項評估指標相較于原PSENet網(wǎng)絡(luò)皆有所提升。為更直觀地體現(xiàn)模型的可行性,對測試圖像生成效果對比圖,具體如圖5所示。對于圖5中的小文本區(qū)域,由于Res2Net模塊可提取多尺度的特征,使小區(qū)域也可以單獨檢測。另外,在GCN網(wǎng)絡(luò)中邊界精修模塊的影響下,文本行粘結(jié)問題也得到一定的緩解。

        4 總結(jié)

        文字作為信息的重要載體,如何從圖片中準確地提取出文字信息是眾多科研學(xué)者重點關(guān)注的問題。而文本檢測作為文字識別技術(shù)的前提,高性能的檢測系統(tǒng)對識別效果起到促進作用。本文針對自然場景下的文本檢測問題,在PSENet網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合Res2Net模塊與GCN網(wǎng)絡(luò)對其進行優(yōu)化,以進一步提高文本檢測能力。通過在SCUT-CTW1500和Total-Text數(shù)據(jù)集上的訓(xùn)練與測試,相較于原始的PSENet網(wǎng)絡(luò),本文模型在性能上有所提升,具有一定的有效性。但實驗仍有優(yōu)化的空間,后續(xù)可從優(yōu)化損失函數(shù)以及簡化后處理操作等方面進行改進。

        參考文獻(References):

        [1] 梁柏榮.基于深度卷積神經(jīng)網(wǎng)絡(luò)的不規(guī)則形狀文字行檢測方法研究[D].廈門大學(xué),2019

        [2] Wang W, Xie E, Li X, et al. Shape Robust Text Detection with Progressive Scale? Expansion Network[J]. arXiv preprint arXiv:1903.12473,2019

        [3] Shang-Hua Gao, Ming-Ming Cheng, Kai Zhao, Xin-Yu Zhang,Ming-Hsuan Yang, Philip Torr. Res2Net:A New Multi-scaleBackbone Architecture.arXiv:1904.01169

        [4] Peng, Chao, et al. Large kernel matters-improve semantic segmentation by global convolutional network. Computer Vision and Pattern Recognition (CVPR),2017.7:4353-4361

        [5] 施漪涵,仝明磊.基于PSENet的自然場景文字檢測網(wǎng)絡(luò)改進[J].上海電力大學(xué)學(xué)報,2021,37(1):73-77

        [6] 趙龍,李飛,王偉峰.基于PSENet和CRNN的身份證識別[J].現(xiàn)代計算機,2020(34):78-82

        [7] 王光軍.基于神經(jīng)網(wǎng)絡(luò)的自然場景中的字符識別算法的研究與實現(xiàn)[D].電子科技大學(xué),2020

        [8] 張芮.基于Res2Net的多任務(wù)網(wǎng)絡(luò)及應(yīng)用注意力機制的自動作曲[D].吉林大學(xué),2020

        [9] 劉一群.基于Res2Net的重識別方法[D].吉林大學(xué),2020

        [10] Christian Szegedy et al. Rethinking the Inception Architecture for Computer Vision[J]. CoRR, 2015, abs/1512.00567

        [11] Yuliang L, Lianwen J, Shuaitao Z, et al. Detecting curve text in the wild: New dataset and new solution[J]. arXiv preprint arXiv:1712.02170,2017

        [12] Ch'ng C K, Chan C S. Total-Text: A comprehensive dataset for scene text detection and recognition[C]. In:201714th IAPR International Conference on Document Analysis and Recognition,2017.1:935-942

        [13] 付明輝.基于深度學(xué)習(xí)的自然場景文字檢測算法研究[D].北方工業(yè)大學(xué),2021

        猜你喜歡
        多尺度語義分割
        結(jié)合語義邊界信息的道路環(huán)境語義分割方法
        一種改進迭代條件模型的遙感影像語義分割方法
        基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
        基于全卷積網(wǎng)絡(luò)FCN的圖像處理
        基于語義分割的車道線檢測算法研究
        基于語義分割的增強現(xiàn)實圖像配準技術(shù)
        基于多尺度融合插值算法的風(fēng)資源監(jiān)測方法
        海綿城市建設(shè)研究進展與若干問題探討
        一種基于多尺度數(shù)學(xué)形態(tài)學(xué)的心電信號去噪方法
        多尺度高效用水評價
        價值工程(2016年35期)2017-01-23 16:32:49
        日韩女优一区二区在线观看| 成人激情五月天| 国产精品99久久久久久宅男| 国产自产av一区二区三区性色| 女同成片av免费观看| 亚洲综合久久中文字幕专区一区| 日韩精品熟女中文字幕| 亚洲熟妇自偷自拍另欧美| 国产精品久久久| 91福利国产在线观一区二区| 亚洲高清国产拍精品熟女| 日韩美女av一区二区三区四区| 丰满少妇被猛烈进入高清播放 | 免费网站看av片| 国产精品久久婷婷六月丁香| 西西人体大胆视频无码| 日本美女性亚洲精品黄色| 亚洲天堂精品成人影院| 亚洲综合色婷婷七月丁香| 国产精品99久久久久久宅男| 国产精品美女久久久浪潮av| 97成人精品在线视频| 亚洲日韩精品a∨片无码加勒比 | 久久精品亚洲一区二区三区浴池 | 在线视频日韩精品三区| 亚洲国产精品区在线观看| 亚洲一区亚洲二区中文字幕| 亚洲va视频一区二区三区| 精品国产一区二区三区av性色| 中文字幕熟妇人妻在线视频| 亚洲人成网站18男男| 久久少妇高潮免费观看| 男人吃奶摸下挵进去啪啪软件| 99精品欧美一区二区三区| 国产美女69视频免费观看| 亚洲美女av二区在线观看| 蜜桃视频网站在线观看一区| 边喂奶边中出的人妻| 国产精品美女久久久久久大全| 蜜臀av一区二区三区精品| 免费国产在线视频自拍白浆|