亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BLSTM網(wǎng)絡(luò)的改進EAST文本檢測算法

        2020-07-15 05:03:40邱曉暉
        計算機技術(shù)與發(fā)展 2020年7期
        關(guān)鍵詞:特征文本檢測

        郭 闖,邱曉暉

        (南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

        0 引 言

        自然場景中包含豐富的文本信息,這些信息在工業(yè)自動化、智能圖像檢索、機器人導(dǎo)航、無人汽車等眾多領(lǐng)域有著重要的意義,因而高效準(zhǔn)確的文本檢測方法成為計算機視覺領(lǐng)域備受關(guān)注的研究內(nèi)容。但是自然場景中的文本在尺度、方向、光照、字體、顏色等方面嚴(yán)重影響了文本檢測的準(zhǔn)確率。所以自然場景文本檢測被認(rèn)為是在文本分析領(lǐng)域中最有價值的挑戰(zhàn)之一,受到了廣泛的關(guān)注[1-3]。盡管前人在文本檢測和文本識別的工作中取得了不錯的進展,但是由于文本模式的差異和背景的高度復(fù)雜性,文本識別仍然是一個巨大的挑戰(zhàn)。

        現(xiàn)在一般將場景文本閱讀分為文本檢測和文本識別兩部分,分別作為兩個獨立的任務(wù)進行研究處理[4-5]。在文本檢測中,通常使用卷積神經(jīng)網(wǎng)絡(luò)從場景圖像中[6-8]提取特征,然后使用不同的解碼器對區(qū)域進行解碼[9]。文本檢測作為文本識別的前提,在整個文本信息提取和理解過程中起著重要的作用。文本檢測的核心是設(shè)計文本與背景的特征區(qū)分,傳統(tǒng)基于深度學(xué)習(xí)的算法大致分為三類,第一類是直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)有效的特征[10-12],第二類是根據(jù)像素連通域分類學(xué)習(xí)[13-14],第三類是特征融合進行學(xué)習(xí)[15-16]。雖然這些方法很優(yōu)秀,但是在某些特定的場景下,對于感受野不都長的文本檢測,效果不是很好。為解決感受野不足的問題,文中選取目前檢測效果較為優(yōu)秀的EAST算法作為基礎(chǔ)算法,改進網(wǎng)絡(luò)結(jié)構(gòu),增大感受野,從而改進文本檢測算法的性能。

        1 改進EAST算法

        1.1 EAST算法介紹

        EAST不同于傳統(tǒng)的文本檢測方法[10]和一些基于深度學(xué)習(xí)的文本檢測方法,它的貢獻在于提出了端到端的文本定位方法,消除了中間多個stage,直接預(yù)測文本行。EAST只有兩個階段。該算法使用全卷積網(wǎng)絡(luò)(FCN)模型[17]直接生成單詞或文本行級別預(yù)測,剔除冗余和慢速中間步驟。生成的文本預(yù)測(可以是旋轉(zhuǎn)的矩形或四邊形)被送到非最大抑制算法(NMS)[18]中以產(chǎn)生最終結(jié)果。根據(jù)標(biāo)準(zhǔn)基準(zhǔn)的定性和定量實驗,與現(xiàn)有的方法相比,該算法顯著增強了性能,同時運行速度更快。

        EAST網(wǎng)絡(luò)可以分解為三個部分(如圖1所示):特征提取、特征合并和輸出層。

        圖1 算法流程

        特征合并:

        (1)

        (2)

        輸出層:包含若干個conv1×1操作,以將32個通道的特征圖投影到一個通道的分?jǐn)?shù)特征圖Fs和一個多通道幾何特征圖Fg。

        幾何形狀圖可以是RBOX或QUAD中的任意一種,如表1所示。

        表1 輸出幾何設(shè)計

        其中,RBOX的幾何形狀由4個通道的水平邊界框(AABB)R和一個通道的旋轉(zhuǎn)角度θ表示;AABB4個通道分別表示像素位置到矩形的頂部,右側(cè),底部,左側(cè)邊界的4個距離;QUAD使用8個數(shù)字來表示從矩形的四個頂點到像素位置的坐標(biāo)偏移,由于每個距離偏移量都包含兩個數(shù)字(Δxi;Δyi),因此幾何形狀輸出包含8個通道。損失函數(shù)公式為Loss:

        L=Ls+Lgλg

        (3)

        其中,Ls和Lg分別表示該像素是否存在文字(score map)以及IoU和角度(genmetry map)的損失,λg表示兩個損失之間的重要性。原文的實驗中將λg設(shè)置為1。

        目前的方法中,多數(shù)在訓(xùn)練圖像通過均衡采樣和hard negative mining以解決目標(biāo)的不均衡分布問題,這樣做可能會提高網(wǎng)絡(luò)性能。然而,使用這種技術(shù)不可避免地引入一個階段和更多參數(shù)來調(diào)整pipeline,這與EAST算法的設(shè)計初衷相矛盾。為了簡化訓(xùn)練過程,文中使用類平衡交叉熵(用于解決類別不平衡,β=反例樣本數(shù)量/總樣本數(shù)量),公式如下:

        (4)

        (5)

        Lg幾何圖損失又分為兩部分,一部分為IoU損失,一部分為旋轉(zhuǎn)角度損失:

        (6)

        (7)

        Lg=LAABB+λθLθ

        (8)

        1.2 優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)

        在卷積神經(jīng)網(wǎng)絡(luò)中,感受野的定義是卷積神經(jīng)網(wǎng)絡(luò)中的每一層輸出的特征圖上的像素點在輸出圖上映射的區(qū)域大小。EAST算法可以處理的文本實例的最大大小與網(wǎng)絡(luò)的感受野成正比。這限制了網(wǎng)絡(luò)預(yù)測長文本區(qū)域的能力,例如跨越圖像的文本行。文本具有很強的連續(xù)字符,其中連續(xù)的上下文信息對于做出可靠決策很重要。在CPTN算法中,把一個完整的文本框拆分成多個小文本框集合,通過BLSTM[19]對過去或未來的信息進行學(xué)習(xí)和預(yù)測。因為一個小文本框,對于它的預(yù)測,文中不僅與其左邊的小文本框有關(guān)系,而且還與其右邊的小文本框有關(guān)系。當(dāng)參考這個框的左邊和右邊的小框的信息后,再做預(yù)測就會大大提高準(zhǔn)確率。所以,可以根據(jù)CPTN[20]的思想,在EAST算法中加入BLSTM網(wǎng)絡(luò),理論上可以擴大算法本身的感受野。

        1.3 算法步驟

        文中算法的主要步驟如下:

        (1)在特征提取層抽出不同的特征。

        (2)將抽出的特征層從后向前做上采樣,然后進行特征融合。

        (3)在特征融合之后加入BLSTM網(wǎng)絡(luò)。

        (4)將步驟(3)后的結(jié)果輸入到輸出層,最終輸出一個score map和8個坐標(biāo)的信息。

        2 實驗結(jié)果及分析

        使用resnet-50網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型,使用ADAM優(yōu)化器對網(wǎng)絡(luò)進行端到端訓(xùn)練。為了加快學(xué)習(xí)速度,從圖像中均勻采樣512×512大小的特征圖,經(jīng)過旋轉(zhuǎn)、平移等處理后,以每個batch size等于16開始訓(xùn)練。ADAM的學(xué)習(xí)率從1e-3開始,每10 000批次衰減十分之一,訓(xùn)練次數(shù)到模型較優(yōu)為止。

        使用的數(shù)據(jù)集是ICDAR2013和ICDAR2015數(shù)據(jù)集,以ICDAR2015為例,它是ICDAR 2015魯棒性比賽的挑戰(zhàn)4,該挑戰(zhàn)通常面向自然場景的文本定位。該數(shù)據(jù)集包括1 000幅訓(xùn)練圖片和500張測試圖片。這些圖片是不考慮位置任意拍攝的,其中的場景文本可以是任意方向的。它的檢測難點在于它的文字旋轉(zhuǎn)性。

        將文中算法與其他算法在ICDAR2015數(shù)據(jù)集上進行比較,結(jié)果如表2所示。

        表2 文中算法與其他算法的比較

        從表2中可以看出,在準(zhǔn)確率和召回率方面,相較于原論文的結(jié)果都有一定的提高。

        3 結(jié)束語

        該算法在EAST的基礎(chǔ)上引入了BLSTM網(wǎng)絡(luò),改善了網(wǎng)絡(luò)感受野。和經(jīng)典EAST算法相比,準(zhǔn)確率和召回率均有提高,和其他優(yōu)秀算法相比,綜合性能均有提高。

        猜你喜歡
        特征文本檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产精品亚洲一区二区极品| 亚洲精品久久| 色婷婷久久一区二区三区麻豆| 亚洲亚洲网站三级片在线| 国产三级三级三级看三级日本 | 国产亚洲精品av久久| 亚洲欧美日韩国产精品一区二区 | 伊人青青草综合在线视频免费播放| 67194熟妇人妻欧美日韩| 推油少妇久久99久久99久久| 蜜桃av无码免费看永久 | 亚洲免费精品一区二区| 99热高清亚洲无码| 久久91精品国产一区二区| 观看在线人视频| 狼色精品人妻在线视频| 日韩不卡av高清中文字幕| 国产精品国产传播国产三级| 亚洲日韩精品无码专区网址| 国产精品天天狠天天看| 无码AV无码免费一区二区| 亚洲一区二区三区视频免费看| 日本无码欧美一区精品久久| 精品88久久久久88久久久| 熟女丝袜美腿亚洲一区二区三区| 日本a级一级淫片免费观看| 大又大粗又爽又黄少妇毛片| 成人毛片18女人毛片免费| 久久人妻精品中文字幕一区二区| 久久婷婷五月综合色奶水99啪| 午夜亚洲av永久无码精品| 天堂69亚洲精品中文字幕| 熟女免费视频一区二区| 亚洲精品国偷拍自产在线观看 | av在线入口一区二区| 妺妺窝人体色www看美女| 中文字幕日韩高清| 蜜臀精品一区二区三区| 亚洲欧洲成人精品香蕉网| 麻豆精品久久久久久久99蜜桃 | 亚洲国产精品av麻豆网站|