亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RefineNet特征融合的改進(jìn)EAST場(chǎng)景文本檢測(cè)方法

        2022-06-24 10:02:30仝明磊施漪涵
        關(guān)鍵詞:卷積特征文本

        張 魁 仝明磊 施漪涵 唐 麗

        (上海電力大學(xué)電子與信息工程學(xué)院 上海 200090)

        0 引 言

        定位自然場(chǎng)景中的文本是文本分析領(lǐng)域中的必要條件[1-7],也是最困難和最具有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù)之一,在場(chǎng)景理解,機(jī)器人自主導(dǎo)航以及文字圖像檢索等領(lǐng)域具有潛在的應(yīng)用價(jià)值。通常閱讀自然圖像文本包括兩個(gè)子任務(wù)[8]:文本檢測(cè)和文本識(shí)別。在文本檢測(cè)中,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,然后利用不同的解碼器對(duì)區(qū)域詳細(xì)信息,比如位置、角度和形狀進(jìn)行解碼。在計(jì)算機(jī)視覺領(lǐng)域,傳統(tǒng)的檢測(cè)方法[9]已經(jīng)在該領(lǐng)域的基準(zhǔn)數(shù)據(jù)集上取得了較好的性能,但是由于室外場(chǎng)景中的文本模式具有很大的差異性以及文本的背景高度雜亂性,準(zhǔn)確定位室外文字仍然是一項(xiàng)具有挑戰(zhàn)性的研究。

        現(xiàn)有的文本定位方法主要分為兩種,一種是傳統(tǒng)方法,另一種是基于深度學(xué)習(xí)的方法。早期的傳統(tǒng)方法分為兩大類,一類是基于滑動(dòng)窗口的方法[10],一類是基于連通域的方法[11]?;诨瑒?dòng)窗口的方法利用不同尺度的窗口在圖像上進(jìn)行滑動(dòng),提取出文字候選區(qū)域,進(jìn)而檢測(cè)出文字。Kim等[12]利用不同尺度的窗口在圖像上進(jìn)行滑動(dòng),提取出文字候選區(qū)域,之后在文本候選區(qū)域投入支持向量機(jī),得出文本區(qū)域?;谶B通域的方法利用自然場(chǎng)景文字在顏色、光照等低級(jí)特征上呈現(xiàn)一定的相似性這一性質(zhì),通過某些算法對(duì)相似像素進(jìn)行聚合,找出文字的連通域進(jìn)而進(jìn)行文字檢測(cè)。Huang等[13]提出筆畫特征轉(zhuǎn)換(Stroke Feature Transform,SFT)低級(jí)特征提取器,用于文本區(qū)域候選區(qū)的提取,之后訓(xùn)練兩個(gè)分類器,一個(gè)用于單詞粒度的分類,一個(gè)用于文本線的分類。基于滑動(dòng)窗口的方法雖然簡(jiǎn)單,但滑動(dòng)窗口的位置固定,無法覆蓋全部位置,對(duì)于位置的定位不夠準(zhǔn)確。基于連通域的方法雖然速度快,定位位置精準(zhǔn),但無法囊括復(fù)雜場(chǎng)景文字的變化。傳統(tǒng)的計(jì)算機(jī)視覺方法將背景和文本進(jìn)行分割,然后提取文本特征,最后使用分類器定位文本,常用的特征包括筆劃寬度和密度特征[14]、關(guān)鍵點(diǎn)特征[15]等。傳統(tǒng)的方法在一些特定場(chǎng)景如文本密度較低情形下?lián)碛休^好的效果。但是,對(duì)于高密度的文本場(chǎng)景,由于文本分布不均導(dǎo)致透視失真等干擾因素,這些傳統(tǒng)方法并不合適。

        隨著深度學(xué)習(xí)的快速發(fā)展,出現(xiàn)了以卷積神經(jīng)網(wǎng)絡(luò)作為回歸預(yù)測(cè)模型的文本定位方法。Liao等[5]提出一個(gè)基于端到端的文本定位方法TextBoxes,利用多尺度融合進(jìn)一步提升了檢測(cè)精度。在此基礎(chǔ)上,文獻(xiàn)[2]提出一種連接成分進(jìn)行多方向場(chǎng)景文字檢測(cè)的方法。該方法檢測(cè)出文字的Segment,再利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)出Segment之間的連接信息,最終用結(jié)合算法將Segment連接起來得到最終結(jié)果。Zhou等[1]提出一種既高效又精確的文本檢測(cè)器,該方法利用多通道的特征融合豐富語義信息,在網(wǎng)絡(luò)的最后利用全卷積網(wǎng)絡(luò)來區(qū)分文本和非文本區(qū)域,用旋轉(zhuǎn)的矩形來對(duì)文本進(jìn)行檢測(cè)。雖然這些方法表現(xiàn)出對(duì)尺度變化的魯棒性,但它們?nèi)匀粺o法很好地適用文字在各種情況下的變化,因?yàn)槭芟抻诰矸e神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

        為解決上述問題,本文選擇目前檢測(cè)算法較好的EAST算法作為基礎(chǔ)算法,改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使特征圖信息更加完善,解決樣本不均衡問題,從而改進(jìn)文本檢測(cè)算法的性能。

        1 改進(jìn)算法

        EAST算法的高層語義特征信息和底層語義特征信息對(duì)特征融合起著很重要的作用。原始模型如圖1所示利用Conv stage 4層輸出經(jīng)過反池化和前一層輸出融合方式,逐層進(jìn)行融合,最后得到輸出,然而這樣使得融合的特征信息不夠完整。

        圖1 原始特征融合方式

        本文將原先EAST網(wǎng)絡(luò)結(jié)構(gòu)特征合并層的融合方式改成RefineNet網(wǎng)絡(luò)結(jié)構(gòu)。RefineNet網(wǎng)絡(luò)使用較多residual connection,與ResNet殘差網(wǎng)絡(luò)形成long-range連接,梯度能夠傳遞到整個(gè)網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。ResNet50殘差網(wǎng)絡(luò)提取出的2-5層4種分辨率特征圖,經(jīng)過3×3卷積和線性修正單元輸出后,再經(jīng)過3×3卷積和上采樣,將特征恢復(fù)至最大尺寸,然后進(jìn)行加權(quán)輸出,最后在通過池化、卷積和加權(quán)操作輸出傳遞給后續(xù)處理。

        圖2 RefineNet網(wǎng)絡(luò)結(jié)構(gòu)

        2 網(wǎng)絡(luò)結(jié)構(gòu)

        整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)輸入圖像大小為512×512。首先經(jīng)過ResNet50殘差網(wǎng)絡(luò),提取四個(gè)級(jí)別的特征圖f1、f2、f3和f4,大小分別為輸入圖像的1/32、1/16、1/8和1/4;之后每個(gè)輸入路徑都經(jīng)過RCU,在RCU中,分為兩路,一路經(jīng)過2個(gè)3×3卷積,一路不進(jìn)行任何操作,兩路進(jìn)行加權(quán)輸出;隨后所有路徑輸出都通過MRF(Multi-Residual Fusion)融合為高分辨率特征圖,該模塊將3×3卷積應(yīng)用于輸入自適應(yīng),生成具有相同尺寸的特征圖,所有特征圖經(jīng)過上采樣將特征恢復(fù)至最大尺寸后進(jìn)行加權(quán)輸出。從MRF輸出的特征圖通過CRP(Chained Residual Pooling)模塊,該模塊由3個(gè)池塊組成,每個(gè)池塊由一個(gè)最大池化層和一個(gè)卷積層組成,一個(gè)池塊將前一個(gè)池塊的輸出作為輸入,通過合并殘差連接,將所有池塊的輸出特征圖與輸入特征圖融合在一起。輸出后再經(jīng)過RCU,目的是在多路徑融合特征圖上采用非線性運(yùn)算。最后,通過3個(gè)3×3卷積,使其維度變?yōu)?2。此外,每個(gè)最大值池化核大小為5×5,每個(gè)卷積核大小為3×3,卷積之后使用修正線性單元ReLU(Rectified Linear Units)作為激活函數(shù)。

        圖3 整體網(wǎng)絡(luò)結(jié)構(gòu)

        這樣設(shè)計(jì)網(wǎng)絡(luò)的優(yōu)點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)中使用多個(gè)identity mapping 連接,梯度可以傳遞到整個(gè)網(wǎng)絡(luò)中。在網(wǎng)絡(luò)深層,其輸入為融合后的特征,經(jīng)過卷積縮減特征維度,然后使用全局平均池化,這樣能夠減少網(wǎng)絡(luò)參數(shù),最后使用softmax分類器輸出分類結(jié)果。

        3 損失函數(shù)

        3.1 文本框置信度

        在大多數(shù)文本檢測(cè)算法中,訓(xùn)練圖像都是通過平衡采樣處理以應(yīng)對(duì)文本的不平衡分布,雖然會(huì)改善網(wǎng)絡(luò)性能,但會(huì)引入更多的參數(shù)來進(jìn)行調(diào)整,所以本文采用類平衡交叉熵作為文本框置信度的損失函數(shù),其計(jì)算式表示為:

        (1)

        (2)

        3.2 幾何圖形

        自然場(chǎng)景圖像中文本的大小變化較大,直接使用L1或L2損失進(jìn)行回歸將引導(dǎo)損失偏向于更大的文本區(qū)域,需要為文本區(qū)域生成精確的文本框預(yù)測(cè),文本框包括文本旋轉(zhuǎn)角度和文本位置信息兩部分,因此,本文在文本位置部分采用IOU(Intersection Over Union)損失函數(shù),其計(jì)算式表示為:

        (3)

        文本旋轉(zhuǎn)角度損失計(jì)算式表示為:

        (4)

        Lg=LAABB+μθLθ

        (5)

        式中:Lg代表整體幾何圖損失;μθ取值為10。

        3.3 損失函數(shù)融合

        得到文本框置信度和幾何圖形的損失后,需要將二者融合為一個(gè)新的損失以便神經(jīng)網(wǎng)絡(luò)訓(xùn)練并更新參數(shù),該函數(shù)表達(dá)式為:

        L=Ls+λgLg

        (6)

        式中:L代表總的損失。由于損失函數(shù)不同,實(shí)際實(shí)驗(yàn)中得到的損失值有很大差別,因此,λg作為超參數(shù)用于平衡兩個(gè)損失,在實(shí)驗(yàn)中,λg取值為1。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)設(shè)備為配置TITAN XPascal的Ubuntu16.04系統(tǒng),12 GB內(nèi)存。深度學(xué)習(xí)框架為Tensorflow。采用公共數(shù)據(jù)集ICDAR 2015和MSRA-TD500,ICDAR 2015包含1 000幅訓(xùn)練圖像和500幅測(cè)試圖像,MSRA-TD500包含300幅訓(xùn)練圖像和200幅測(cè)試圖像,拍攝這些圖像時(shí),由于沒有考慮位置,所以場(chǎng)景中的文本是任意方向的。檢測(cè)數(shù)據(jù)集的難點(diǎn)在于文字的旋轉(zhuǎn)性。

        4.2 評(píng)價(jià)指標(biāo)

        采用準(zhǔn)確率(Precision)、召回率(Recall)和F1-score作為算法性能的評(píng)價(jià)指標(biāo),定義如下:

        (7)

        (8)

        (9)

        式中:TP是指正樣本被預(yù)測(cè)為正;FP是指負(fù)樣本被預(yù)測(cè)為正;FN是指正樣本被預(yù)測(cè)為負(fù);P是指準(zhǔn)確率,R是指召回率。

        4.3 訓(xùn)練過程

        數(shù)據(jù)預(yù)處理:在訓(xùn)練樣本較少的情況下,數(shù)據(jù)擴(kuò)增的方法有利于提升網(wǎng)絡(luò)性能,將訓(xùn)練集的原始圖像剪裁、翻轉(zhuǎn)以擴(kuò)增訓(xùn)練樣本。

        參數(shù)設(shè)置:為了更好地訓(xùn)練網(wǎng)絡(luò)收斂,本文使用Adam優(yōu)化器,具體訓(xùn)練參數(shù)配置如表1所示,訓(xùn)練網(wǎng)絡(luò)總耗時(shí)約144 h。

        表1 訓(xùn)練網(wǎng)絡(luò)的參數(shù)配置

        4.4 結(jié)果分析

        為了驗(yàn)證本算法的性能,選取現(xiàn)有幾種優(yōu)秀的文本檢測(cè)算法與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比。CTPN算法是Tian等[3]提出的,它采用了數(shù)學(xué)上“微分”的思想,將文本檢測(cè)任務(wù)進(jìn)行拆分,轉(zhuǎn)化為多個(gè)小尺度文本框的檢測(cè),并結(jié)合CNN與RNN,形成一個(gè)端到端的訓(xùn)練模型,不僅提升了文本定位的效果,還提升了精準(zhǔn)度。SegLink[2]算法是2017年發(fā)表的文本檢測(cè)算法,該算法能夠檢測(cè)任意角度的文本,融入了CTPN小尺度候選框的思路又加入了SSD算法的思路。主要思想是將文本進(jìn)行分解,得到兩個(gè)局部可檢測(cè)的元素,即segment和link,segment是對(duì)字符或單詞的方框,覆蓋文本的一部分,link用來連接方框,最后檢測(cè)是通過連接片段產(chǎn)生,并且該算法還可以檢測(cè)非拉丁文。經(jīng)實(shí)驗(yàn),該算法使定位的準(zhǔn)確率和訓(xùn)練效率得到了很大的提高。TexeBoxes++算法是Liao等[16]在2018年提出的文本定位算法,該算法是在SSD的基礎(chǔ)上進(jìn)行改進(jìn)的,能夠檢測(cè)任意方向的文本。其核心是通過四邊形或傾斜的矩形來表示文本區(qū)域。Pixel-Link算法是Deng等[17]在2018年提出的文本定位算法,該算法放棄了邊框回歸的思想,采用實(shí)例分割的方法,將同一個(gè)實(shí)例中的像素連接在一起,之后進(jìn)行分割,然后從分割結(jié)果中得到文本邊界框,這大大提升了文本定位的效果。

        在TITAN X顯卡上進(jìn)行訓(xùn)練和測(cè)試,上述幾種算法在ICDAR2015數(shù)據(jù)集上的結(jié)果如表2所示,本文算法召回率為81.61,準(zhǔn)確率為85.51,F(xiàn)1-score為83.51。

        表2 不同算法在ICDAR 2015數(shù)據(jù)集上的表現(xiàn)(%)

        通過表2能夠看出,本文算法的準(zhǔn)確率和召回率均遠(yuǎn)高于CTPN算法,與Seglink算法對(duì)比,召回率高5%,準(zhǔn)確率高12%,和TextBoxes++算法進(jìn)行比較,本文算法在召回率上提升了4%,和Pixel-Link算法相比,在準(zhǔn)確率上高將近3%,與EAST算法相比,準(zhǔn)確率和召回率均有所提高,并且在實(shí)驗(yàn)過程中,所用的訓(xùn)練時(shí)間也少于EAST算法,說明本文算法檢測(cè)任意文本更準(zhǔn)確。此外,通過比較能夠看出,F(xiàn)1-score是上述算法中最優(yōu)的,表明本文的算法綜合性能最好。

        在MSRA-TD500數(shù)據(jù)集上的結(jié)果如表3所示。

        表3 不同算法在MSRA-TD500數(shù)據(jù)集上的表現(xiàn)(%)

        通過表3能夠看出,所改進(jìn)方法的三個(gè)值均取得了優(yōu)異的效果,表明了該方法在處理不同長度的文本行方面的卓越能力。具體來說,本文算法的F1-score略高于文獻(xiàn)[21],與文獻(xiàn)[20]方法相比,本文算法在F1-score上提高2.29%,在召回率上提高8.25%。

        為了將實(shí)驗(yàn)結(jié)果直觀表現(xiàn)出來,將真實(shí)標(biāo)簽值與預(yù)測(cè)值標(biāo)注在圖像上,如圖4所示,第一組為ICDAR 2015中圖像,后一組為MSRA-TD500中圖像,(a)為經(jīng)典EAST算法預(yù)測(cè)結(jié)果,(b)為本文算法預(yù)測(cè)結(jié)果,從圖中能夠看出,本文算法檢測(cè)長文本效果優(yōu)于經(jīng)典EAST算法。

        (a) EAST預(yù)測(cè)

        (b) 本文算法預(yù)測(cè)圖4 效果圖

        5 結(jié) 語

        針對(duì)特征融合過程中特征信息的丟失,本文提出利用RefineNet網(wǎng)絡(luò)改進(jìn)EAST算法用于文本檢測(cè),并優(yōu)化損失函數(shù),使算法在處理樣本不平衡問題上更加合理。該網(wǎng)絡(luò)在ICDAR 2015數(shù)據(jù)集取得較好的準(zhǔn)確率和召回率,實(shí)驗(yàn)表明完善特征信息有效地幫助深度卷積網(wǎng)絡(luò)提升文本定位效果。

        本文還未將注意力機(jī)制,數(shù)據(jù)增強(qiáng)納入網(wǎng)絡(luò),也未采用多尺度訓(xùn)練,此外,本文方法僅對(duì)水平文字檢測(cè)效果好,對(duì)于彎曲文本有待深入研究。

        猜你喜歡
        卷積特征文本
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        少妇高潮无套内谢麻豆传| 日韩精品极品免费观看| 日本在线一区二区三区视频| 色综合久久中文综合网亚洲| 少妇仑乱a毛片| 中文字幕在线免费| 国产精品性一区二区三区| 久久免费亚洲免费视频| 色视频综合无码一区二区三区| 国产精品成人av在线观看| AV无码专区亚洲AVL在线观看| 精品一区二区三区亚洲综合 | 国产欧美日韩精品丝袜高跟鞋| 中文无码制服丝袜人妻av| 国产成人精品免费视频大全| 色婷婷亚洲一区二区三区在线| 国产对白国语对白| 小12箩利洗澡无码视频网站| 国产午夜精品美女裸身视频69| 亚洲一区二区三区在线看| 男人的天堂免费a级毛片无码| 精品久久久久久国产| 久久精品国产亚洲av桥本有菜| 日韩av毛片在线观看| 国产揄拍国产精品| 人妻无码aⅴ中文系列久久免费| 中国av一区二区三区四区| 男人国产av天堂www麻豆| 精品国产一区二区三区av 性色 | 日韩精品极品视频在线观看蜜桃 | 精品粉嫩av一区二区三区| 无码人妻av免费一区二区三区| 夜夜春精品视频| 中文字幕人妻在线少妇完整版| 国产成人无码专区| 少妇厨房愉情理伦片免费 | 国产无套护士在线观看| 亚洲欧美日韩在线精品2021| 亚洲日本中文字幕高清在线| 免费毛片a线观看| 狼友AV在线|