亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BLSTM網(wǎng)絡(luò)的改進EAST文本檢測算法

2020-07-15 05:03:40邱曉暉

計算機技術(shù)與發(fā)展 2020年7期

郭闖，邱曉暉

(南京郵電大學(xué) 通信與信息工程學(xué)院，江蘇南京 210003)

0 引言

自然場景中包含豐富的文本信息，這些信息在工業(yè)自動化、智能圖像檢索、機器人導(dǎo)航、無人汽車等眾多領(lǐng)域有著重要的意義，因而高效準(zhǔn)確的文本檢測方法成為計算機視覺領(lǐng)域備受關(guān)注的研究內(nèi)容。但是自然場景中的文本在尺度、方向、光照、字體、顏色等方面嚴(yán)重影響了文本檢測的準(zhǔn)確率。所以自然場景文本檢測被認(rèn)為是在文本分析領(lǐng)域中最有價值的挑戰(zhàn)之一，受到了廣泛的關(guān)注[1-3]。盡管前人在文本檢測和文本識別的工作中取得了不錯的進展，但是由于文本模式的差異和背景的高度復(fù)雜性，文本識別仍然是一個巨大的挑戰(zhàn)。

現(xiàn)在一般將場景文本閱讀分為文本檢測和文本識別兩部分，分別作為兩個獨立的任務(wù)進行研究處理[4-5]。在文本檢測中，通常使用卷積神經(jīng)網(wǎng)絡(luò)從場景圖像中[6-8]提取特征，然后使用不同的解碼器對區(qū)域進行解碼[9]。文本檢測作為文本識別的前提，在整個文本信息提取和理解過程中起著重要的作用。文本檢測的核心是設(shè)計文本與背景的特征區(qū)分，傳統(tǒng)基于深度學(xué)習(xí)的算法大致分為三類，第一類是直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)有效的特征[10-12]，第二類是根據(jù)像素連通域分類學(xué)習(xí)[13-14]，第三類是特征融合進行學(xué)習(xí)[15-16]。雖然這些方法很優(yōu)秀，但是在某些特定的場景下，對于感受野不都長的文本檢測，效果不是很好。為解決感受野不足的問題，文中選取目前檢測效果較為優(yōu)秀的EAST算法作為基礎(chǔ)算法，改進網(wǎng)絡(luò)結(jié)構(gòu)，增大感受野，從而改進文本檢測算法的性能。

1 改進EAST算法

1.1 EAST算法介紹

EAST不同于傳統(tǒng)的文本檢測方法[10]和一些基于深度學(xué)習(xí)的文本檢測方法，它的貢獻在于提出了端到端的文本定位方法，消除了中間多個stage，直接預(yù)測文本行。EAST只有兩個階段。該算法使用全卷積網(wǎng)絡(luò)(FCN)模型[17]直接生成單詞或文本行級別預(yù)測，剔除冗余和慢速中間步驟。生成的文本預(yù)測(可以是旋轉(zhuǎn)的矩形或四邊形)被送到非最大抑制算法(NMS)[18]中以產(chǎn)生最終結(jié)果。根據(jù)標(biāo)準(zhǔn)基準(zhǔn)的定性和定量實驗，與現(xiàn)有的方法相比，該算法顯著增強了性能，同時運行速度更快。

EAST網(wǎng)絡(luò)可以分解為三個部分(如圖1所示)：特征提取、特征合并和輸出層。

圖1 算法流程

特征合并：

(1)

(2)

輸出層：包含若干個conv1×1操作，以將32個通道的特征圖投影到一個通道的分?jǐn)?shù)特征圖Fs和一個多通道幾何特征圖Fg。

幾何形狀圖可以是RBOX或QUAD中的任意一種，如表1所示。

表1 輸出幾何設(shè)計

其中，RBOX的幾何形狀由4個通道的水平邊界框(AABB)R和一個通道的旋轉(zhuǎn)角度θ表示；AABB4個通道分別表示像素位置到矩形的頂部，右側(cè)，底部，左側(cè)邊界的4個距離；QUAD使用8個數(shù)字來表示從矩形的四個頂點到像素位置的坐標(biāo)偏移，由于每個距離偏移量都包含兩個數(shù)字(Δxi;Δyi)，因此幾何形狀輸出包含8個通道。損失函數(shù)公式為Loss:

L=Ls+Lgλg

(3)

其中，Ls和Lg分別表示該像素是否存在文字(score map)以及IoU和角度(genmetry map)的損失，λg表示兩個損失之間的重要性。原文的實驗中將λg設(shè)置為1。

目前的方法中，多數(shù)在訓(xùn)練圖像通過均衡采樣和hard negative mining以解決目標(biāo)的不均衡分布問題，這樣做可能會提高網(wǎng)絡(luò)性能。然而，使用這種技術(shù)不可避免地引入一個階段和更多參數(shù)來調(diào)整pipeline，這與EAST算法的設(shè)計初衷相矛盾。為了簡化訓(xùn)練過程，文中使用類平衡交叉熵(用于解決類別不平衡，β=反例樣本數(shù)量/總樣本數(shù)量)，公式如下：

(4)

(5)

Lg幾何圖損失又分為兩部分，一部分為IoU損失，一部分為旋轉(zhuǎn)角度損失：

(6)

(7)

Lg=LAABB+λθLθ

(8)

1.2 優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)

在卷積神經(jīng)網(wǎng)絡(luò)中，感受野的定義是卷積神經(jīng)網(wǎng)絡(luò)中的每一層輸出的特征圖上的像素點在輸出圖上映射的區(qū)域大小。EAST算法可以處理的文本實例的最大大小與網(wǎng)絡(luò)的感受野成正比。這限制了網(wǎng)絡(luò)預(yù)測長文本區(qū)域的能力，例如跨越圖像的文本行。文本具有很強的連續(xù)字符，其中連續(xù)的上下文信息對于做出可靠決策很重要。在CPTN算法中，把一個完整的文本框拆分成多個小文本框集合，通過BLSTM[19]對過去或未來的信息進行學(xué)習(xí)和預(yù)測。因為一個小文本框，對于它的預(yù)測，文中不僅與其左邊的小文本框有關(guān)系，而且還與其右邊的小文本框有關(guān)系。當(dāng)參考這個框的左邊和右邊的小框的信息后，再做預(yù)測就會大大提高準(zhǔn)確率。所以，可以根據(jù)CPTN[20]的思想，在EAST算法中加入BLSTM網(wǎng)絡(luò)，理論上可以擴大算法本身的感受野。

1.3 算法步驟

文中算法的主要步驟如下：

(1)在特征提取層抽出不同的特征。

(2)將抽出的特征層從后向前做上采樣，然后進行特征融合。

(3)在特征融合之后加入BLSTM網(wǎng)絡(luò)。

(4)將步驟(3)后的結(jié)果輸入到輸出層，最終輸出一個score map和8個坐標(biāo)的信息。

2 實驗結(jié)果及分析

使用resnet-50網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型，使用ADAM優(yōu)化器對網(wǎng)絡(luò)進行端到端訓(xùn)練。為了加快學(xué)習(xí)速度，從圖像中均勻采樣512×512大小的特征圖，經(jīng)過旋轉(zhuǎn)、平移等處理后，以每個batch size等于16開始訓(xùn)練。ADAM的學(xué)習(xí)率從1e-3開始，每10 000批次衰減十分之一，訓(xùn)練次數(shù)到模型較優(yōu)為止。

使用的數(shù)據(jù)集是ICDAR2013和ICDAR2015數(shù)據(jù)集，以ICDAR2015為例，它是ICDAR 2015魯棒性比賽的挑戰(zhàn)4，該挑戰(zhàn)通常面向自然場景的文本定位。該數(shù)據(jù)集包括1 000幅訓(xùn)練圖片和500張測試圖片。這些圖片是不考慮位置任意拍攝的，其中的場景文本可以是任意方向的。它的檢測難點在于它的文字旋轉(zhuǎn)性。

將文中算法與其他算法在ICDAR2015數(shù)據(jù)集上進行比較，結(jié)果如表2所示。

表2 文中算法與其他算法的比較

從表2中可以看出，在準(zhǔn)確率和召回率方面，相較于原論文的結(jié)果都有一定的提高。

3 結(jié)束語

該算法在EAST的基礎(chǔ)上引入了BLSTM網(wǎng)絡(luò)，改善了網(wǎng)絡(luò)感受野。和經(jīng)典EAST算法相比，準(zhǔn)確率和召回率均有提高，和其他優(yōu)秀算法相比，綜合性能均有提高。