亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合的電商圖片文本檢測(cè)?

        2020-11-02 09:00:36王麟琦何成威
        關(guān)鍵詞:文本框殘差損失

        王麟琦 何成威

        (1.南京烽火天地通信科技有限公司 南京 210019)(2.武漢郵電科學(xué)研究院 武漢 430074)(3.國(guó)網(wǎng)電力科學(xué)研究院武漢南瑞有限責(zé)任公司 武漢 430074)

        1 引言

        電子商務(wù)自從1999 年在中國(guó)出現(xiàn)以來(lái),發(fā)展迅速。到2017 年年底,中國(guó)電子商務(wù)市場(chǎng)交易額高達(dá)29.16 萬(wàn)億元,其中網(wǎng)絡(luò)零售市場(chǎng)交易規(guī)模達(dá)到了7 萬(wàn)億,占據(jù)全球網(wǎng)售份額的50%。中國(guó)已經(jīng)成為電子商務(wù)規(guī)模最大、發(fā)展最快的國(guó)家之一。如今電商平臺(tái)越來(lái)越多地采用圖片的方式展示信息,而電商圖片存在背景復(fù)雜、水印重疊等問(wèn)題,這為電子商務(wù)的管理帶來(lái)了技術(shù)上的挑戰(zhàn)。因此,自動(dòng)讀取商品信息圖片中的文本信息成了熱點(diǎn)問(wèn)題。

        根據(jù)不同的實(shí)現(xiàn)框架,文本檢測(cè)的方法大致可以分為三類(lèi):自底向上的生成式方法[1~3];基于滑動(dòng)窗口的方法[4~5];基于深度學(xué)習(xí)的檢測(cè)方法[6]。隨著深度學(xué)習(xí)算法的不斷優(yōu)化和硬件水平的提高,基于深度學(xué)習(xí)的文本檢測(cè)算法已經(jīng)成為圖像文本檢測(cè)領(lǐng)域的主流方法。其中以Faster R-CNN[7~9]系列、MR-CNN[10]以及SPP-NET[11]為主流的基于RP(Re?gion Proposal)的目標(biāo)檢測(cè)算法,由于區(qū)域推薦網(wǎng)絡(luò)(RPN)結(jié)構(gòu)的存在,雖然檢測(cè)結(jié)果精度越來(lái)越高,但是檢測(cè)的速度卻遇到瓶頸,難以滿足有實(shí)時(shí)性需求的場(chǎng)景。

        針對(duì)以上問(wèn)題,為了能檢測(cè)電商圖片中的文本,本文實(shí)現(xiàn)了一種基于特征融合的文本檢測(cè)模型。通過(guò)50 層的殘差網(wǎng)絡(luò)提取輸入圖像的特征,然后將殘差網(wǎng)絡(luò)得到的每一層不同尺寸的特征圖進(jìn)行特征融合,對(duì)特征融合后的特征圖進(jìn)行回歸和分類(lèi),去除候選區(qū)域的提取、過(guò)濾和融合等步驟,提高模型的效率。通過(guò)利用改進(jìn)后的NMS 將預(yù)測(cè)的文本框合并,得到最終的檢測(cè)結(jié)果。為解決非平衡數(shù)據(jù)的問(wèn)題以及加快模型的收斂,模型引入了DiceLoss 和實(shí)例間平衡的交叉熵?fù)p失相結(jié)合的損失函數(shù)

        2 網(wǎng)絡(luò)結(jié)構(gòu)

        圖1 特征提取層結(jié)構(gòu)圖

        本文通過(guò)殘差網(wǎng)絡(luò)構(gòu)建的全卷積網(wǎng)絡(luò)文本檢測(cè)模型,網(wǎng)絡(luò)結(jié)構(gòu)分為以下三個(gè)部分:特征提取層、特征融合層、結(jié)果輸出層。特征提取層采取殘差網(wǎng)絡(luò)來(lái)做特征提取。圖1 為特征提取層結(jié)構(gòu)圖,如圖所示,在特征提取步驟中,原圖先經(jīng)過(guò)一層卷積核為7×7,步長(zhǎng)為2 的卷積層,輸出的通道數(shù)為64。圖中一共有4 個(gè)Block 模塊,模塊的中括號(hào)里的三位數(shù)字分別代表:殘差單元第三層輸出通道數(shù)、前兩層輸出通道數(shù)、中間層的步長(zhǎng)。在本網(wǎng)絡(luò)中,每個(gè)殘差學(xué)習(xí)單元里面有三個(gè)卷積層,例如[256,64,2]代表構(gòu)建的殘差學(xué)習(xí)單元中,第三層輸出通道數(shù)為256,前兩層輸出通道數(shù)為64,且中間層的步長(zhǎng)為2,在Block1 中有3 個(gè)殘差學(xué)習(xí)單元。特征圖每經(jīng)過(guò)一次Block 區(qū)域的操作后,得到新的特征圖尺寸變?yōu)樯弦粚犹卣鲌D的一半,而通道數(shù)則增加一倍,達(dá)到抽取不同層次的特征圖的目的。因此可以得到不同尺度的特征圖,解決文本行尺度變換劇烈的問(wèn)題。低層的特征圖尺寸較大,對(duì)局部信息較為敏感,可用于預(yù)測(cè)較小的文本行,高層特征圖尺寸較小,提取的特征更為抽象,可用于檢測(cè)較大的文本行。特征提取層得到的特征圖依次為f4、f3、f2、f1。

        特征融合層將特征提取層中抽取的特征進(jìn)行合并,合并的規(guī)則采用了U-net[12]的方法。圖2 為特征融合層的結(jié)構(gòu)圖。從圖中可以看出,特征融合層首先從特征提取網(wǎng)絡(luò)的頂部特征逐步向下進(jìn)行合并,在每一個(gè)合并階段,從上一個(gè)階段來(lái)的特征圖先進(jìn)行反卷積,使得特征圖尺寸增大一倍,然后和當(dāng)前特征圖級(jí)聯(lián)。然后,利用一個(gè)1×1 的卷積層減少特征圖的通道數(shù),也達(dá)到了降低計(jì)算量的目的,接著經(jīng)過(guò)一個(gè)3×3 的卷積核對(duì)特征圖進(jìn)行卷積,將信息融合,最終產(chǎn)生合并階段的結(jié)果。在最后一個(gè)合并階段之后,利用一個(gè)3×3 卷積層產(chǎn)生最終的歸并部分的特征圖,并輸入到輸出層。

        圖2 特征融合層結(jié)構(gòu)圖

        第三部分為結(jié)果輸出層,將特征融合層產(chǎn)生的特征圖進(jìn)行1×1 的卷積,激活層采用Sigmoid 作為激活函數(shù)。輸出的結(jié)果分為兩個(gè)部分。一個(gè)是完成分類(lèi)任務(wù)的輸出,另外一個(gè)表示檢測(cè)框的輸出,檢測(cè)框的輸出有5 個(gè)通道,前四個(gè)通道分別對(duì)應(yīng)點(diǎn)到邊框的四條邊的距離。最后一個(gè)通道表示文本框的旋轉(zhuǎn)角度。

        2.1 非極大值抑制算法的優(yōu)化

        非極大值抑制算法(Non-maximum suppres?sion,NMS)的本質(zhì)是通過(guò)選擇最具代表性的候選框刪除同一對(duì)象的重疊候選框。

        物體檢測(cè)中應(yīng)用NMS 算法的主要目的是消除交叉重復(fù)的窗口,找到最佳物體檢測(cè)位置。通常的流程為以下三步:

        1)通過(guò)滑動(dòng)窗口或者其他的目標(biāo)推薦的方法產(chǎn)生大量的候選窗口;

        2)用訓(xùn)練好的分類(lèi)器對(duì)候選窗口進(jìn)行分類(lèi),類(lèi)似于打分的過(guò)程;

        3)使用NMS對(duì)檢測(cè)結(jié)果進(jìn)行融合。

        非極大值抑制算法常用于物體檢測(cè)領(lǐng)域,并能取得較好的檢測(cè)的結(jié)果。物體檢測(cè)和文本檢測(cè)有很多相同之處,文獻(xiàn)[13]采用NMS 算法作為去掉重復(fù)率較大的文本框。NMS算法公式如式(1)所示。

        其中M 為當(dāng)前得分最大的文本框,Nt 為抑制閾值,si為分?jǐn)?shù)。

        NMS 這種簡(jiǎn)單直接的方法也存在一些不利。假設(shè)有兩個(gè)物體之間存在遮擋,則后面的物體預(yù)測(cè)框有可能被NMS 算法誤刪掉,從而導(dǎo)致檢測(cè)網(wǎng)絡(luò)無(wú)法起到作用。為了解決這種hard threshold(硬閾值)問(wèn)題,遵循IoU 越大,得分越低的原則,對(duì)該函數(shù)進(jìn)行平滑處理。平滑函數(shù)的選取一般有兩種,一種是線性加權(quán)函數(shù),一種是高斯加權(quán)函數(shù)。兩者的目的都是為了將NMS的函數(shù)進(jìn)行平滑化。

        該式滿足了連續(xù)的懲罰函數(shù)在沒(méi)有重疊時(shí)沒(méi)有懲罰項(xiàng),而在高度重疊時(shí)有非常高的懲罰項(xiàng)。

        2.2 訓(xùn)練損失函數(shù)

        網(wǎng)絡(luò)損失函數(shù)由兩個(gè)部分構(gòu)成:分類(lèi)誤差函數(shù)和幾何誤差函數(shù),具體損失函數(shù)如式(4)所示。其中,Ls為分類(lèi)誤差,λg為權(quán)重,Lg為幾何誤差。

        1)分類(lèi)誤差函數(shù)

        文本檢測(cè)在文本檢測(cè)問(wèn)題中,文字和背景的比例通常較小,存在數(shù)據(jù)的不平衡問(wèn)題。本文采用Dice loss 緩解數(shù)據(jù)的非平衡問(wèn)題。Dice loss 是Fausto Milletar[14]等 在V-net 中 提 出 的 損 失 函 數(shù),Dice Loss的本質(zhì)就是不斷學(xué)習(xí),使得交集和并集的比值越來(lái)越大。如式(5)所示,DSC 表示兩個(gè)輪廓區(qū)域的相似的程度,A 和B 分別表示兩個(gè)輪廓區(qū)域所包含的點(diǎn)集。

        當(dāng)DSC越高,代表分割結(jié)果和標(biāo)準(zhǔn)答案相似度越高,但模型是用求最小值的思想進(jìn)行訓(xùn)練,因此分類(lèi)誤差函數(shù)如下式所示。

        在計(jì)算損失函數(shù)時(shí),為了避免不同大小的文本框?qū)p失造成的影響不同,較大的文本框造成的影響大,為緩解這個(gè)問(wèn)題,本模型采用了實(shí)例間平衡的交叉熵?fù)p失[15]。假設(shè)圖像中有M 個(gè)文本框。Sj代表第j 個(gè)文本框的面積,S 表示所有文本框的總面積,則文本框i的損失權(quán)重應(yīng)為

        2)幾何誤差函數(shù)

        文本檢測(cè)中的一大挑戰(zhàn)是文本在圖像中的尺寸變化范圍較大。直接用L1 或者L2 損失,會(huì)導(dǎo)致文本區(qū)域的損失偏差更大。文本檢測(cè)需要的是一個(gè)不會(huì)影響尺寸的回歸損失函數(shù),因此回歸損失采用IoU(Intersection over Union)Loss。IoU Loss 的公式和Dice Loss較為相似,如式(9)所示。

        其中,R 代表預(yù)測(cè)的文本框的幾何位置,R*代表的真實(shí)值。

        幾何誤差函數(shù)除了邊框的回歸損失函數(shù)外,還包含角度的誤差損失函數(shù),角度誤差函數(shù)如式(10)所示。

        其中θ*代表的角度的真實(shí)值,θ代表的預(yù)測(cè)的角度值。完整的幾何誤差函數(shù)如式(11)所示。

        2.3 數(shù)據(jù)預(yù)處理

        本文數(shù)據(jù)集來(lái)自天池大賽的ICPR MTWI 挑戰(zhàn)賽。為了豐富圖像數(shù)據(jù)集,提高模型的泛化能力,本文采用了以下步驟對(duì)訓(xùn)練圖像進(jìn)行數(shù)據(jù)增強(qiáng)。設(shè)立四種縮放倍數(shù)0.5、1、2、3,隨機(jī)從中選取一個(gè)參數(shù)對(duì)圖片進(jìn)行縮放操作,對(duì)縮放的圖片進(jìn)行隨機(jī)剪切(不小于原圖的十分之一)并隨機(jī)選取一些圖像數(shù)據(jù)進(jìn)行旋轉(zhuǎn)角度處理。處理后的圖片如圖3所示。

        圖3 預(yù)處理后的圖片數(shù)據(jù)示例

        檢測(cè)的任務(wù)中,一般會(huì)存在正負(fù)樣本嚴(yán)重失衡的情況,為緩解數(shù)據(jù)集文字和背景樣本不平衡的問(wèn)題和增強(qiáng)模型的魯棒性,本文采用均衡采樣的方法,將數(shù)據(jù)增強(qiáng)后的純背景圖片和包含文字的圖片比例控制在3:5,最后利用雙線性插值法將圖像尺寸改變?yōu)槟P退璧妮斎氤叽?。?shù)據(jù)集中的四個(gè)坐標(biāo)圍成的文本框并不一定為矩形,因此,需要對(duì)文本框坐標(biāo)進(jìn)行數(shù)據(jù)預(yù)處理。首先將坐標(biāo)的方向都改為順時(shí)針,以便于模型后續(xù)的計(jì)算,然后按照增加最小面積的原則,將文本框填補(bǔ)為矩形。在后續(xù)的學(xué)習(xí)過(guò)程中,標(biāo)準(zhǔn)的文本框中會(huì)存在一些非文本信息,進(jìn)行適當(dāng)?shù)乜s進(jìn)可以減少這些信息對(duì)最終目標(biāo)的影響,從而提高網(wǎng)絡(luò)的性能。

        2.4 評(píng)估標(biāo)準(zhǔn)以及訓(xùn)練參數(shù)配置

        文本檢測(cè)的效果評(píng)價(jià)共有三個(gè)評(píng)價(jià)指標(biāo),分別為精度、召回率以及二者之間的綜合評(píng)價(jià)因素F-Score(f)。召回率表示圖片中真實(shí)存在的文本框被檢測(cè)到的比例,代表真實(shí)標(biāo)簽有多大比例被檢測(cè)出來(lái),精度表示正確檢測(cè)文本定位框與檢測(cè)文本框總數(shù)的比例,代表檢測(cè)出來(lái)的結(jié)果正確率。實(shí)際情況下,算法得到的檢測(cè)結(jié)果與人工標(biāo)記的邊界框不可能完全重合,當(dāng)檢測(cè)框與真實(shí)框之間的匹配度滿足一定閾值則認(rèn)為是正確匹配。這三個(gè)參數(shù)的定義如下所示:

        本模型的訓(xùn)練過(guò)程中,基礎(chǔ)模型選用的殘差網(wǎng)絡(luò)以及全卷積網(wǎng)絡(luò),采用Adam 算法替代傳統(tǒng)隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)對(duì)訓(xùn)練參數(shù)不斷更新,該算法計(jì)算高效,所需的內(nèi)存少,梯度對(duì)角度縮放的不變形,適合解決大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問(wèn)題。訓(xùn)練過(guò)程中一共迭代了3萬(wàn)次,初始的學(xué)習(xí)率為10-4,采用指數(shù)衰減法,通過(guò)迭代逐步減小學(xué)習(xí)率,每1 萬(wàn)次迭代后,縮小0.96。為了使得模型在測(cè)試數(shù)據(jù)上更加健壯,本模型采用滑動(dòng)平均模型控制參數(shù)更新前后的差距,達(dá)到減緩參數(shù)變化的目的。

        3 實(shí)驗(yàn)結(jié)果分析

        算法檢測(cè)為正樣本的條件是:

        1)預(yù)測(cè)框和真實(shí)1之間的IoU值大于0.5;

        2)在條件1)滿足的同時(shí),預(yù)測(cè)框和真實(shí)框之間角度差應(yīng)小于10°。

        圖4 展示了ICPR MTWI 挑戰(zhàn)賽上的正確檢測(cè)樣本。圖5 為模型訓(xùn)練過(guò)程中,模型總損失函數(shù)的訓(xùn)練過(guò)程。在訓(xùn)練最開(kāi)始的5000 次訓(xùn)練中,模型總損失的下降速度較快,5000 次以后,分類(lèi)損失逐步下降速度變緩,到30k次后,趨于穩(wěn)定。

        圖4 ICPR MTWI挑戰(zhàn)賽的部分正確檢測(cè)結(jié)果

        圖5 模型總損失的訓(xùn)練過(guò)程

        表1 為對(duì)本實(shí)現(xiàn)模型做的切除實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,用于分析關(guān)鍵步驟對(duì)模型表現(xiàn)的影響。

        表1 本實(shí)驗(yàn)?zāi)P颓谐龑?shí)驗(yàn)結(jié)果

        實(shí)例間平衡的交叉熵?fù)p失用于緩解文本實(shí)例大小差異過(guò)大對(duì)模型的影響。實(shí)驗(yàn)3 沒(méi)有使用實(shí)例間平衡的損失函數(shù),在計(jì)算損失函數(shù)時(shí),所有像素使用一樣的權(quán)重。改進(jìn)后的NMS 能取得比傳統(tǒng)NMS 更好的性能。對(duì)比實(shí)驗(yàn)1 和實(shí)驗(yàn)2,加入改進(jìn)的NMS 后,可以發(fā)現(xiàn)召回率和精準(zhǔn)率都提高了三個(gè)百分點(diǎn)。同時(shí),可以在高度重疊的環(huán)境下取得更大的性能提升,在電商圖片中,存在大量的水印文字和圖片的文字重疊的情況。因此,相比于傳統(tǒng)NMS,改進(jìn)后的NMS 在文本檢測(cè)中具有更好的定位效果。改進(jìn)后的NMS 對(duì)相鄰區(qū)域內(nèi)的檢測(cè)框的分?jǐn)?shù)進(jìn)行調(diào)整而不是NMS 方法中的徹底抑制,達(dá)到了提高檢測(cè)率時(shí)準(zhǔn)確率的目的。NMS 對(duì)相鄰區(qū)域的徹底抑制使其在較高重疊環(huán)境下更容易發(fā)生漏檢文本框的情況,而改進(jìn)后的NMS 在低檢索率時(shí),仍能提高模型的檢測(cè)性能。由實(shí)驗(yàn)4 可以看出,在本模型中使用ResNet 作為基礎(chǔ)網(wǎng)絡(luò),比使用VGG16 作為基礎(chǔ)網(wǎng)絡(luò),性能更好,實(shí)驗(yàn)結(jié)果在召回率和精準(zhǔn)率都有一定提升。

        表2 為本文的檢測(cè)方法和其他一些主流的文本檢測(cè)算法進(jìn)行比較的結(jié)果。表中其他深度學(xué)習(xí)的文本檢測(cè)算法,都將ICPR MTWI 挑戰(zhàn)賽的數(shù)據(jù)集作為訓(xùn)練集。

        表2 不同方法文本檢測(cè)指標(biāo)對(duì)比

        從表中可以看出,在多方向ICPR MTWI 挑戰(zhàn)賽的數(shù)據(jù)集上,本模型的召回率、精度、F-measuren都達(dá)到了較好的評(píng)估結(jié)果。CTPN在水平方向的文本上的檢測(cè)效果較好,而在多方向的文本檢測(cè)時(shí),檢測(cè)效果差強(qiáng)人意。PixelLink 也是基于全卷積神經(jīng)網(wǎng)絡(luò)的,但它在處理重疊問(wèn)題時(shí),可能會(huì)將兩個(gè)有重疊部分的文本框劃分成四個(gè)文本框,而ICPR MTWI 挑戰(zhàn)賽的數(shù)據(jù)集主要為電商圖片,有著大量的水印,因此文本框重疊是很常見(jiàn)的。這個(gè)問(wèn)題使得PixelLink模型對(duì)該數(shù)據(jù)集有著較大的影響。

        4 結(jié)語(yǔ)

        本文主要完成電商圖片的多方向文本檢測(cè)的任務(wù),提出了一種基于全卷積的文本檢測(cè)網(wǎng)絡(luò)模型,直接產(chǎn)生預(yù)測(cè)的文本框,免除了中間多個(gè)步驟,如候選區(qū)域的提取、過(guò)濾和融合,以及后處理等。首先通過(guò)一個(gè)50 層的殘差網(wǎng)絡(luò)進(jìn)行特征抽取,抽取不同尺寸的特征圖,以解決文本行尺度變換劇烈的問(wèn)題。然后將特征抽取層的不同尺寸的特征進(jìn)行上采樣后,采用通道數(shù)串聯(lián)的方式合并,將融合后的特征圖傳到輸出層。最后用改進(jìn)后的非極大值抑制的方法對(duì)上一層結(jié)果進(jìn)行處理,得到最終的預(yù)測(cè)結(jié)果。本節(jié)算法在ICPR MTWI 挑戰(zhàn)賽的數(shù)據(jù)集上進(jìn)行測(cè)試,通過(guò)切除實(shí)驗(yàn),分析了殘差網(wǎng)絡(luò)、改善后的NMS 以及實(shí)例平衡的交叉熵?fù)p失對(duì)本算法的影響。最后,將算法測(cè)試結(jié)果與其他文本檢測(cè)的方法進(jìn)行對(duì)比,取得了較好的檢測(cè)效果。

        猜你喜歡
        文本框殘差損失
        基于雙向GRU與殘差擬合的車(chē)輛跟馳建模
        少問(wèn)一句,損失千金
        胖胖損失了多少元
        巧用文本框?qū)崿F(xiàn)PPT多圖片排版
        基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
        PPT文本框的另類(lèi)應(yīng)用
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        一般自由碰撞的最大動(dòng)能損失
        文本框酷變3D效果
        野狼第一精品社区| 日韩av在线手机免费观看| 国产一区二区三区亚洲avv| 日本真人做人试看60分钟| 极品美女扒开粉嫩小泬| 亚洲中字幕永久在线观看| 国产av一级二级三级| 国产亚洲精品久久久久久国模美| 18成人片黄网站www| 中文字幕精品一二三区| 丰满人妻被持续侵犯中出在线| 波多野结衣av一区二区全免费观看 | 亚洲一区精品无码| 99久久er这里只有精品18| 久久狠色噜噜狠狠狠狠97| 国产激情视频高清在线免费观看 | 国产一及毛片| 中文字幕一区二区在线| 九九九免费观看视频| 7777奇米四色成人眼影| 九九99久久精品午夜剧场免费| 精品一区二区三区国产av| 中文字字幕人妻中文| 亚洲妓女综合网99| 亚洲国产精品一区二区第一| 日本系列中文字幕99| 久久精品噜噜噜成人| 婷婷色综合成人成人网小说| 男女性生活视频免费网站| 国产av国片精品有毛| 婷婷亚洲综合五月天小说| 国产免费人成视频在线观看播放| 女人av天堂国产在线| 一二三四在线观看免费视频| 娇柔白嫩呻吟人妻尤物| 在线观看免费不卡网站| 狠狠精品久久久无码中文字幕 | 国产女主播白浆在线观看| 欧美一欧美一区二三区性| 日韩av综合色区人妻| 欧美日韩精品乱国产|