亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)DBNet的電商圖像文字檢測算法研究

        2023-11-17 13:15:26李卓璇周亞同
        關(guān)鍵詞:概率文字特征

        李卓璇,周亞同

        (河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401)

        1 引言

        近年來,電商平臺的出現(xiàn)極大地滿足了人們的消費(fèi)需求[1]。但與此同時(shí),很多不法分子將敏感信息放入商戶的宣傳圖像中進(jìn)行傳播,給電商平臺的監(jiān)管帶來了極大的困擾。因此,如何對種類繁多、數(shù)量龐大的商品圖像進(jìn)行高效的合法性驗(yàn)證成為了當(dāng)前的熱點(diǎn)問題[2]。采用文字識別技術(shù)對商品的宣傳圖像進(jìn)行檢測與識別,再將識別到的文字進(jìn)行語義分析可有效地對圖像進(jìn)行篩選驗(yàn)證。

        目前,圖像中文字的檢測方法可以分為2大類:基于人為選擇特征的傳統(tǒng)文字檢測法[3]和基于深度學(xué)習(xí)的文字檢測法[4]?;谌藶檫x擇特征的文字檢測法又可以分為3類:滑動(dòng)窗口法[5]、連通成分分析法[6]和混合方法[7]?;瑒?dòng)窗口法通常使用多尺度滑動(dòng)窗口在圖像上掃描來獲得文字候選區(qū)域,隨后使用分類器判斷候選區(qū)域是否包含文字區(qū)域。連通成分分析法會根據(jù)像素點(diǎn)在空間上的近鄰性和像素點(diǎn)在顏色、紋理等方面的相似性過濾大部分背景像素,隨后將字符中的像素聚合為連通成分進(jìn)行過濾,接著依據(jù)規(guī)則對候選連通成分進(jìn)行過濾,得到文本位置。混合方法在充分吸收了上述2類方法的優(yōu)點(diǎn)后,能夠更精確地檢測文字。傳統(tǒng)的文字檢測法存在人為選擇特征在區(qū)分背景與目標(biāo)文字特征時(shí)檢測能力不強(qiáng)、分類器應(yīng)對復(fù)雜背景檢測效果不佳等問題。

        隨著深度學(xué)習(xí)的蓬勃發(fā)展,研究人員嘗試使用深度學(xué)習(xí)來解決傳統(tǒng)文字檢測法中遇到的問題[8]。在早期的嘗試中,Huang等[9]將連通區(qū)域法和滑動(dòng)窗口法結(jié)合起來提取文字候選區(qū)域,并使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)提取更高層的特征完成文字區(qū)域檢測,其本質(zhì)上是對局部的圖像斑塊進(jìn)行特征挖掘并完成分類任務(wù)。后來,CNN網(wǎng)絡(luò)被逐漸用于檢測整個(gè)圖像。Fast R-CNN(Fast Region-CNN)[10]、Faster R-CNN[11]、SSD(Single Shot multibox Detector)[12]等對文字的檢測效果都比較理想。Tian等[13]充分考慮了文本檢測的難點(diǎn)——文本行的長度不固定,提出了CTPN(Connectionist Text Proposal Network),該網(wǎng)絡(luò)使用較深的VGG(Visual Geometry Group)模型提取特征,同時(shí)開發(fā)了垂直錨點(diǎn)機(jī)制,預(yù)測固定寬度的小文本候選框,大幅提升了檢測的精度。Ma等[14]沿用了Faster R-CNN檢測候選區(qū)域的思想,提出了RRPN(Rotation Region Proposal Network),該網(wǎng)絡(luò)可以生成帶旋轉(zhuǎn)角的候選區(qū)域,通過旋轉(zhuǎn)的矩形框可以標(biāo)記任意方向的文本。Liu等[15]提出了一個(gè)可訓(xùn)練、端到端的多方向文本檢測識別算法FOTS(Fast Oriented Text Spotting),在檢測與識別任務(wù)中共享了卷積特征層。Liao等[16]基于SSD提出了TextBoxes網(wǎng)絡(luò),設(shè)計(jì)了多個(gè)不同比例的候選框并為每個(gè)候選框添加了垂直偏移量,但是該網(wǎng)絡(luò)僅能檢測水平方向的文字。為此,文獻(xiàn)[17]做出了進(jìn)一步改進(jìn),提出了TextBoxes++網(wǎng)絡(luò),該網(wǎng)絡(luò)在SSD網(wǎng)絡(luò)的輸出層后面通過預(yù)測回歸,以四邊形或傾斜的矩形來框出任意方向的文本。

        雖然上述部分模型已經(jīng)在一般文字檢測領(lǐng)域表現(xiàn)出良好的性能,但是在場景文字檢測領(lǐng)域的效果不佳,尤其是在電商宣傳文字檢測方面。這主要是由于電商圖像背景復(fù)雜,且存在文字不規(guī)則、文字排列方向多變的現(xiàn)象。而曲折的文本排列難以使用矩形框覆蓋。由此可見,使用預(yù)設(shè)形狀的候選框無法很好地描述某些特殊形狀的文本。相比之下,基于分割的文字檢測法從像素層面進(jìn)行分類,判別每一個(gè)像素點(diǎn)是否屬于某一個(gè)文本目標(biāo)以及它與周圍像素的關(guān)系,最后將相鄰像素聚合為一個(gè)文本框。此方法可以適應(yīng)任意角度和形狀的文本[18]。

        針對電商宣傳圖像中存在的背景復(fù)雜、文字排列方向多變等問題,本文選擇了基于分割的文字檢測法,以DBNet(Differentiable Binarization Network)[19]作為基礎(chǔ)模型,可以處理包括橫向、縱向和卷曲排列的任意方向文字,即使使用輕量級的主干網(wǎng)絡(luò),檢測性能也十分優(yōu)秀。為了使特征金字塔能夠更好地對不同尺度的特征圖進(jìn)行特征融合,本文提出了更為復(fù)雜的特征融合機(jī)制,能夠有效融合高層次和低層次的信息。此外,為了使網(wǎng)絡(luò)能夠更加關(guān)注圖像中的關(guān)鍵區(qū)域,引入了SimAM(Simple Attention Module)注意力模塊,最后添加了雙邊上采樣模塊來提高可微分二值化DB(Differenti- able Binarization)模塊的自適應(yīng)性能。本文的主要工作如下:

        (1)提出了一個(gè)迭代的自選擇特征融合模塊,該模塊可以更好地融合語義和尺度不一致的特征,同時(shí)提取具有代表性的局部信息。

        (2)引入了SimAM注意力模塊,該模塊能夠?yàn)樘卣鲌D推導(dǎo)出3D注意力權(quán)值且無需額外參數(shù),同時(shí)還關(guān)注了通道和空間注意力,提高了模型對關(guān)鍵區(qū)域的聚焦程度。

        (3)為了進(jìn)一步優(yōu)化二值化過程的自適應(yīng)性能,降低復(fù)雜背景對文字檢測的干擾,引入了雙邊上采樣模塊來提取易于被誤判的背景特征,通過二值化計(jì)算來更精確地檢測文字位置。

        2 DBNet模型原理

        Figure 1 Structure of DBNet圖1 DBNet結(jié)構(gòu)

        DBNet結(jié)構(gòu)如圖1所示,輸入圖像經(jīng)ResNet提取特征后會獲得不同層次的特征圖,為了充分利用低層特征的高分辨率和高層特征的高語義信息,將特征圖送入到特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Network)[20]中進(jìn)行特征融合。使用融合后的特征圖預(yù)測概率圖(Probability Map)和閾值圖(Threshold Map),最后利用概率圖和閾值圖計(jì)算近似二元映射。在訓(xùn)練階段,對概率圖、閾值圖和近似二進(jìn)制圖進(jìn)行監(jiān)督。在推理階段,從近似二元映射或概率映射中獲得文本框,完成文字檢測任務(wù)。

        2.1 FPN結(jié)構(gòu)

        CNN網(wǎng)絡(luò)[21]已被證明可以將大量的參數(shù)降維成少量參數(shù)后再進(jìn)行處理,其使用類似視覺機(jī)制保留了圖像的特征。即使對圖像進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)或變換位置等操作,CNN網(wǎng)絡(luò)也可以進(jìn)行有效識別。深度神經(jīng)殘差網(wǎng)絡(luò)ResNet(Deep Residual Network)成功解決了網(wǎng)絡(luò)“退化”問題,使得更深層次網(wǎng)絡(luò)的訓(xùn)練變得可行。

        常規(guī)的FPN結(jié)構(gòu)一般采用特征圖相加的方式對不同層次的特征圖進(jìn)行融合。不同尺度的特征圖經(jīng)上采樣后與經(jīng)過1×1卷積降維后的特征圖相加,這種方法雖然增強(qiáng)了目標(biāo)特征信息,但同時(shí)也引入了背景的特征信息。在DBNet網(wǎng)絡(luò)中,還將4組不同尺度的特征圖上采樣至相同尺度并進(jìn)行特征級聯(lián),這種原始特征直接拼接的方式是為了讓網(wǎng)絡(luò)學(xué)習(xí)到如何進(jìn)行特征融合,避免出現(xiàn)信息損失。

        2.2 可微分二值化結(jié)構(gòu)

        基于分割的文字檢測法后處理過程,通常都是設(shè)定固定的閾值將分割模型得到的概率圖轉(zhuǎn)化為二值化圖,標(biāo)準(zhǔn)的二值化式如式(1)所示:

        (1)

        其中,P是概率圖,(i,j)是圖中的像素坐標(biāo),th是固定的閾值,B為輸出的二值圖。

        傳統(tǒng)的二值化方法設(shè)置一個(gè)閾值th,大于這個(gè)閾值則判定為目標(biāo)區(qū)域,概率值為1,代表像素為正樣本即屬于文字區(qū)域,否則為背景區(qū)域。傳統(tǒng)的二值化函數(shù)曲線實(shí)際上是一個(gè)不可微的階躍信號,這使分割算法無法在訓(xùn)練過程中優(yōu)化。研究人員針對這個(gè)問題提出了一個(gè)DB(Differentiable Binarization)模塊,實(shí)現(xiàn)了可微分二值化。具體來說,是使用近似階躍函數(shù)執(zhí)行二值化,如式(2)所示:

        (2)

        DBNet文字檢測算法的損失函數(shù)由概率映射損失Ls、二進(jìn)制映射損失Lb和閾值映射損失Lt加權(quán)求和取得,如式(3)所示:

        L=Ls+α×Lb+β×Lt

        (3)

        其中,α和β分別設(shè)置為1.0和10;Ls與Lb都應(yīng)用了二進(jìn)制交叉熵?fù)p失,具體如式(4)所示:

        (4)

        其中,Sl表示正樣本與負(fù)樣本比例為1∶3的被采樣的數(shù)據(jù)集,xi表示預(yù)測為文字區(qū)域的概率值,yi則表示實(shí)際的標(biāo)簽值。

        閾值圖的損失Lt采用平均絕對誤差損失,其計(jì)算如式(5)所示:

        (5)

        實(shí)際上,在模型的訓(xùn)練過程中會對概率圖、近似二值圖和閾值圖進(jìn)行監(jiān)督,其中概率圖和近似二值圖共享相同的監(jiān)督。而在模型預(yù)測過程中,可以從概率圖預(yù)測獲得邊界框。

        3 改進(jìn)iSFF-DBNet模型

        電商宣傳圖像背景復(fù)雜,內(nèi)部的文字方向具有任意性,且字體多變。即使經(jīng)過FPN特征融合,特征圖中仍然存在大量誤判的背景特征,在應(yīng)用到文字檢測任務(wù)時(shí)會導(dǎo)致產(chǎn)生大量的漏檢和誤檢。針對上述問題,為進(jìn)一步增強(qiáng)模型對局部特征的提取能力,本文進(jìn)行了如下改進(jìn):(1)引入注意力模塊SimAM[22]關(guān)注文字區(qū)域;(2)為了幫助模型有選擇性地融合不同尺度特征圖的顯著區(qū)域,提出迭代自選擇特征融合模塊iSFF(iterative Selective Feature Fusion);(3)為消除概率圖中與文字特征近似的非文字特征區(qū)域,使用雙邊采樣器提取特征并計(jì)算新的概率圖,稱之為迭代自選擇特征融合DBNet 模型iSFF-DBNet,其結(jié)構(gòu)如圖2所示。

        Figure 2 Structure of iSFF-DBNet圖2 iSFF-DBNet結(jié)構(gòu)

        3.1 SimAM注意力模塊

        為了使模型能夠捕獲更多文字相關(guān)特征并抑制背景特征,本文引入了注意力模塊SimAM?,F(xiàn)有的注意力模塊普遍存在2個(gè)問題:一個(gè)是只能沿空間或通道維度細(xì)化特征,限制了它們學(xué)習(xí)跨空間和跨通道變化的注意力權(quán)重的能力;另一個(gè)是結(jié)構(gòu)過于復(fù)雜,給模型增加了極大的運(yùn)算量。

        SimAM是一個(gè)具有完整三維權(quán)重的注意力模塊。不同于現(xiàn)有的通道、空間注意力模塊,該模塊無需額外參數(shù)即可直接在網(wǎng)絡(luò)層中推理出三維的注意力權(quán)重。具體來說,SimAM模塊能夠同時(shí)考慮空間和通道維度并細(xì)化這些神經(jīng)元。SimAM模塊的另一個(gè)優(yōu)點(diǎn)在于大部分操作均基于已定義的能量函數(shù),避免了過多的結(jié)構(gòu)調(diào)整。模塊的推理過程如圖3所示,其中,H、W和C分別表示特征圖高度、寬度和通道數(shù),不同灰度填充的多邊形代表特征圖中不同通道和空間位置的元素。

        Figure 3 Process of attention ratiocinate圖3 注意力推理過程

        具體來講,通過測量目標(biāo)元素和其他元素之間的線性可分性,可挖掘出特征向量中每個(gè)元素的重要性。為每一個(gè)神經(jīng)元定義的能量函數(shù)如式(6)所示:

        (6)

        其中,t表示輸入特征圖上的目標(biāo)神經(jīng)元編號,xi表示特征圖上的其它神經(jīng)元,wt和bt分別表示上述神經(jīng)元進(jìn)行線性變換時(shí)的權(quán)重和偏移值,M表示特征圖上所有元素的個(gè)數(shù)。理論中,激活神經(jīng)元通常會抑制周圍神經(jīng)元,換句話說,具有抑制效應(yīng)的神經(jīng)元應(yīng)當(dāng)賦予更高的重要性。因此,能量越低,神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大,重要性越高。

        3.2 迭代的選擇性特征融合模塊

        DBNet網(wǎng)絡(luò)對4個(gè)不同層次的特征圖進(jìn)行了拼接操作,以融合不同尺度的特征。CONCAT層以原始特征圖直接拼接方式,讓網(wǎng)絡(luò)去學(xué)習(xí)如何融合特征。但是,不同層次的特征圖所包含的有用信息不同,為此本文提出了一種選擇性特征融合SFF(Selective Feature Fusion)模塊,可以通過獲得每個(gè)特征圖信息的權(quán)重,自適應(yīng)地選擇和集成不同模塊的局部和全局特征。為了解決初始輸入特征問題,本文進(jìn)一步提出了迭代自選擇特征融合模塊iSFF。

        SFF模塊結(jié)構(gòu)如圖4所示。首先,將4個(gè)不同層次的特征圖上采樣至相同的維度,接著將這些特征按通道維度連接,并通過2個(gè)3×3的Conv、BatchNorm和ReLU層以達(dá)到降維目的并進(jìn)一步提取特征。特征圖經(jīng)過Sigmoid函數(shù)輸出值為0/1,相當(dāng)于獲得特征圖信息的權(quán)重。最后的卷積層和Sigmoid層用于生成一個(gè)4通道權(quán)重矩陣,將不同層次的特征圖與對應(yīng)的各個(gè)通道逐元素相乘,以聚焦于重要位置。然后,將這些相乘的特征按元素相加,構(gòu)建出混合特征圖。

        Figure 4 Schematic diagram of selective feature fusion圖4 選擇性特征融合示意圖

        實(shí)際上,選擇性特征融合模塊有一個(gè)不可避免的問題,即如何集成初始的輸入特征。模塊中以CONCAT的方式提供初始的輸入特征,但這些特征在規(guī)模和語義上可能存在很大的不一致性,從而對權(quán)重融合的質(zhì)量產(chǎn)生很大的影響,使得模型表現(xiàn)受限。實(shí)際上這仍然是一個(gè)特征融合問題,一種直觀的方法是使用另一個(gè)選擇性特征融合模塊來融合輸入特征。這種2階段的方法被稱為迭代自選擇特征融合模塊,其結(jié)構(gòu)示意圖如圖5所示,其中,E、F、G和H分別表示輸入特征圖,Z表示輸出特征圖。2個(gè)不同層次的特征圖先經(jīng)過一個(gè)SFF模塊,各個(gè)特征圖與對應(yīng)的權(quán)重通道相乘后加在一起,集成了初始的輸入特征,之后再進(jìn)行一次選擇性特征融合,得到更優(yōu)的模型結(jié)果。

        Figure 5 Iterative selective feature fusion圖5 迭代自選擇特征融合

        3.3 雙邊上采樣模塊

        對于背景簡單的電商宣傳圖像,DBNet模型的檢測效果非常理想。但是,在某些背景復(fù)雜的電商宣傳圖像中,即使引入了特征融合模塊抑制背景特征,還是會出現(xiàn)“誤檢”情況。為了進(jìn)一步優(yōu)化二值化過程的自適應(yīng)性能,本文在DB模塊中添加雙邊上采樣(Bilateral up-sampling)模塊來提供穩(wěn)定的二值化映射。

        大多數(shù)解碼器利用雙線性上采樣過程來恢復(fù)最終的像素級預(yù)測,但此時(shí)獲得的預(yù)測圖往往是粗略的結(jié)果,通常會丟失一些細(xì)節(jié)。雙邊上采樣模塊由2個(gè)分支組成:一個(gè)用來恢復(fù)粗粒度特征,另一個(gè)用來修復(fù)精細(xì)的細(xì)節(jié)丟失特征。其結(jié)構(gòu)如圖6所示,特征融合模塊的輸出通過2個(gè)分支,最終生成的特征圖將恢復(fù)到與輸入圖像相同的大小。

        Figure 6 Bilateral up-sampling圖6 雙邊上采樣

        在粗粒度分支(Coarse grained branch)中,快速輸出最后一層的粗采樣特征,但是這可能會導(dǎo)致其忽略細(xì)節(jié)特征。在這條路徑中,首先通過卷積核為1×1的卷積層減少輸入特征圖的通道數(shù),隨后使用雙線性插值法對輸入特征圖進(jìn)行上采樣,最后經(jīng)過ReLU函數(shù)。

        而在精細(xì)細(xì)節(jié)分支(Fine detailed branch)中,會微調(diào)輸入數(shù)據(jù)中的細(xì)微信息。在這條路徑中,使用轉(zhuǎn)置卷積對特征圖進(jìn)行上采樣的同時(shí)減少通道數(shù)。在上采樣完成以后堆疊了2個(gè)非瓶頸模塊(Non-bottleneck-1D block)對特征進(jìn)行精細(xì)提取,它由4個(gè)3×1和1×3的卷積、ReLU函數(shù)、BN函數(shù)組成。其不僅可以保持特征圖的形狀,同時(shí)還以因式分解的方式高效地提取特征。

        在近似二值化映射的計(jì)算中,概率圖中會存在較少的背景特征最終被判斷為文字區(qū)域,相較于概率圖中被正確判斷為文字的區(qū)域,這些背景特征區(qū)域在概率圖中都表現(xiàn)地相對較小且較為灰暗,這也側(cè)面印證了雖然被誤判為文字區(qū)域,但是背景區(qū)域?qū)W習(xí)到的特征并不充足。為了降低誤檢的概率,本文提出了新的近似二值化映射,如式(7)所示:

        (7)

        其中Bi,j為雙邊映射,它會與概率映射Pi,j計(jì)算一起生成新的概率圖。事實(shí)上,雙邊映射偏移了概率值,其主要是修改文本和非文本區(qū)域中被判定為文字區(qū)域的分?jǐn)?shù)。在新的概率映射中,文字區(qū)域仍然可以被正確地識別,但是被“誤判”的背景區(qū)域已經(jīng)消失不見。新概率映射如式(8)所示:

        P′i,j=Pi,j-Bi,j,0≤Bi,j≤0.2

        (8)

        模型可以充分提取文字區(qū)域的特征,所以實(shí)際上式(2)中Pi,j-Ti,j對文字區(qū)域值的變化并不敏感,此時(shí)通過Bi,j偏移Pi,j,并不會對最終文字區(qū)域的檢測結(jié)果有較大影響。結(jié)果表明,雙邊上采樣模塊側(cè)重于非文本區(qū)域分?jǐn)?shù)的負(fù)偏移。訓(xùn)練過程中,在損失函數(shù)的約束下,雙邊上采樣模塊將抑制非文本區(qū)域的分?jǐn)?shù)。

        4 文字檢測實(shí)驗(yàn)設(shè)置

        4.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架,以Python 3.7作為編程語言。本地計(jì)算機(jī)的基本配置如下:Intel?CoreTMi7-10870H的處理器,頻率為2.20 GHz的CPU,內(nèi)存為8 GB,NVIDIA?GeForce?RTXTM3060 的GPU,顯存為4 GB,操作系統(tǒng)為Windows 10。

        4.2 數(shù)據(jù)集

        為了驗(yàn)證本文所提出的改進(jìn)模型的有效性,采用ICPR MTWI 2018(International Conference on Pattern Recognition Multi-Type Web Image 2018)網(wǎng)絡(luò)圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集是由華南理工大學(xué)聯(lián)合阿里巴巴共同收集和標(biāo)注的淘寶商品類圖像,其關(guān)注的是多方向文字的檢測問題。數(shù)據(jù)集圖像主要包括中文和英文文本,少量圖像中包含韓文和日文文本。如圖7所示,該數(shù)據(jù)集的特點(diǎn)是所包含的文字在字號、字體、排版上均有較大變化,且背景復(fù)雜、顏色多變。文本區(qū)域的標(biāo)注是以文本間的間隔進(jìn)行劃分的,圖像中文本之間間隔大于一定的閾值即劃分為不同的文本區(qū)域。本文將10 000幅含有標(biāo)注的圖像以8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集。為了加速訓(xùn)練過程,訓(xùn)練樣本大小均調(diào)整為640×640。

        Figure 7 Samples of ICPR MTWI 2018 network image dataset圖7 ICPR MTWI 2018 網(wǎng)絡(luò)圖像數(shù)據(jù)集示例

        4.3 參數(shù)設(shè)置

        本文算法選用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation)優(yōu)化器進(jìn)行訓(xùn)練,該優(yōu)化器具有運(yùn)算高效、所需內(nèi)存少等優(yōu)點(diǎn)。此外,實(shí)驗(yàn)中使用指數(shù)變換的學(xué)習(xí)率衰減策略,其表達(dá)式如式(9)所示:

        (9)

        其中,base_lr為初始的學(xué)習(xí)率,epoch為當(dāng)前迭代次數(shù),num_epoch為最大迭代次數(shù),power控制著曲線的形狀。實(shí)驗(yàn)中將初始學(xué)習(xí)率設(shè)為0.007,最大迭代次數(shù)設(shè)為150,power設(shè)為0.9。此外,將批量處理大小設(shè)為8。指數(shù)衰減學(xué)習(xí)率的優(yōu)點(diǎn)在于可以先使用較大的學(xué)習(xí)率,加快模型的訓(xùn)練速度,然后逐步減小學(xué)習(xí)率,使模型在訓(xùn)練后期逐漸穩(wěn)定。

        5 實(shí)驗(yàn)與結(jié)果分析

        5.1 算法評估標(biāo)準(zhǔn)

        文字檢測算法一般以召回率(Recall)、精確率(Precision)以及調(diào)和平均數(shù)(F1-score)作為評價(jià)指標(biāo)。精確率是指文本區(qū)域的預(yù)測結(jié)果正確預(yù)測所占的比例。召回率是指所有標(biāo)注的文本區(qū)域被檢測出來的比例。兩者的計(jì)算公式分別如式(10)和式(11)所示:

        (10)

        (11)

        其中,TP表示實(shí)例為正例且預(yù)測結(jié)果為正例的樣本數(shù);TN表示實(shí)例為負(fù)例且預(yù)測結(jié)果為負(fù)例的樣本數(shù);FP表示實(shí)例為負(fù)例但預(yù)測結(jié)果為正例的樣本數(shù);FN表示實(shí)例為正例但預(yù)測結(jié)果為負(fù)例的樣本數(shù)。

        為了綜合評估算法的好壞,避免僅局限于其中一種指標(biāo),本文還以調(diào)和平均數(shù)作為文本檢測算法的綜合指標(biāo),該指標(biāo)越高,代表算法越好,其計(jì)算公式如式(12)所示:

        (12)

        5.2 消融實(shí)驗(yàn)

        為了驗(yàn)證本文算法中各組分模塊對性能的影響,本節(jié)在ICPR MTWI 2018數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1所示。本文將DBNet模型作為基礎(chǔ)模型,隨后將SimAM模塊、自選擇特征融合模塊(SFF)、迭代的自選擇特征融合模塊(iSFF)和雙邊上采樣模塊(BU-S)分別添加到基礎(chǔ)模型中。本文選擇Precision、Recall、F1_score、參數(shù)量和FLOPs(表示浮點(diǎn)計(jì)算數(shù))作為算法的評價(jià)指標(biāo)。

        Table 1 Results of ablation experiment表1 消融實(shí)驗(yàn)結(jié)果 %

        從表1可以看出,SimAM模塊使模型的精確率提高了1.7%;iSFF模塊在召回率和綜合指標(biāo)F1_score上相比較于SFF模塊取得了更好的效果,驗(yàn)證了初始特征的輸入確實(shí)會對最終的融合權(quán)重有較大的影響;BU-S模塊使模型的召回率提升了3.3%,表明優(yōu)化可微分二值化結(jié)構(gòu)可以降低文字區(qū)域的漏檢情況。雖然在添加iSFF與BU-S模塊后Precision沒有提升,但這并不代表模塊在精度提升方面沒有作用。可能的原因之一是在特征提取能力增強(qiáng)以后,很多小的文字被檢測出來,但是這些小文字因?yàn)檫^小并沒有被記錄在數(shù)據(jù)集標(biāo)簽當(dāng)中,從而導(dǎo)致了Precision的下降。

        為分析各種改進(jìn)對模型的影響,設(shè)計(jì)了消融實(shí)驗(yàn),結(jié)果如表2所示。添加的SimAM模塊對模型的參數(shù)量和計(jì)算量基本沒有影響,同時(shí)還可以使模型的綜合指標(biāo)略有上升。在特征提取部分添加的iSFF模塊使得模型的計(jì)算量增加了11%,但是該模塊可以使模型的召回率與精確率達(dá)到平衡,在僅添加少量參數(shù)的情況下使得模型的穩(wěn)定性有了顯著提升。BU-S模塊在計(jì)算量與參數(shù)量上都沒有明顯變化,但是其對模型的召回率提升是最為明顯的。改進(jìn)后的DBNet模型雖然在檢測速度上略有降低,但是其檢測效果與原始DBNet模型相比有了較為明顯的提升。

        Table 2 Comparison of complexity表2 復(fù)雜度對比

        5.3 實(shí)驗(yàn)結(jié)果對比與分析

        5.3.1 引入注意力模塊SimAM檢測結(jié)果對比

        為了驗(yàn)證注意力模塊SimAM對文字檢測能力的提升,在僅加入SimAM的情況下對基礎(chǔ)模型DBNet進(jìn)行檢測,檢測結(jié)果如圖8所示。在引入SimAM模塊后,圖像右側(cè)腿部方框中預(yù)測錯(cuò)誤的文字區(qū)域明顯減少,同時(shí)左上角相鄰的單詞也被完整預(yù)測。實(shí)驗(yàn)結(jié)果表明,注意力模塊SimAM可以增強(qiáng)模型對文字區(qū)域的關(guān)注程度。

        Figure 8 Comparison of detection results before and after adding SimAM圖8 引入SimAM前后檢測結(jié)果對比

        5.3.2 引入迭代自選擇特征融合模塊檢測結(jié)果對比

        引入迭代自選擇特征融合(iSFF)模塊,可以提升模型對于文字特征的提取能力,同時(shí)抑制背景特征對檢測的影響,使得模型檢測復(fù)雜背景圖像的能力大幅增強(qiáng)。在引入iSFF模塊后,不同尺度的特征圖輸入iSFF模塊進(jìn)行特征融合,融合后的結(jié)果用于預(yù)測概率圖與閾值圖,可以從預(yù)測的概率圖中直觀地感受到iSFF模塊對檢測結(jié)果的影響,如圖9所示。

        Figure 9 Probability map comparison before and after adding iSFF圖9 引入iSFF前后概率圖對比

        引入iSFF模塊以后,概率圖中部分背景區(qū)域被預(yù)測為文字區(qū)域的概率值明顯下降。最終檢測結(jié)果如圖10所示。在輸入圖像中,手套上的皺紋結(jié)構(gòu)與“三”“川”等文字結(jié)構(gòu)十分相似,所以在預(yù)測階段,模型十分容易出現(xiàn)誤判現(xiàn)象,如圖10a中,在圖像中心被方框標(biāo)記的手套區(qū)域上有大量細(xì)長的文字框,這些都是被誤檢的區(qū)域。引入特征融合結(jié)構(gòu)后,模型有了一定的抑制背景特征能力,如圖10b 中,手套區(qū)域上的文字誤檢框已經(jīng)基本消失。這表明當(dāng)遇到復(fù)雜背景時(shí),改進(jìn)后的模型能夠充分提取文字特征,更精確地完成檢測任務(wù)。同時(shí),這些誤檢文字框的消除可以提升Precision值,也就是說雖然在消融實(shí)驗(yàn)中添加iSFF模塊使得Precision下降,但是模塊并非對精度的提升沒有作用。

        Figure 10 Comparison of detection results before and after adding iSFF圖10 引入iSFF前后檢測效果對比

        5.3.3 引入雙邊上采樣模塊檢測結(jié)果對比

        在近似二值化映射的計(jì)算中,概率圖中會存在較少的背景特征最終被判斷為文字區(qū)域。為了盡可能消除背景區(qū)域特征影響,本文引入了雙邊采樣模塊偏移背景區(qū)域概率值,概率圖前后的變化如圖11所示。從圖11可以看到,在原模型的概率映射中有少量較暗淡的白色區(qū)域,這些是被誤判為文字的背景區(qū)域,與其它背景區(qū)域相比,誤判區(qū)域有著與文字類似的特征,但是其“概率”相較于真正的“文字區(qū)域”的又比較小,因此顯示得較為暗淡,但這些區(qū)域在檢測過程中仍然會對檢測結(jié)果產(chǎn)生影響。而在雙邊上采樣模塊偏移了非文本區(qū)域的概率值以后,圖像的檢測結(jié)果更為精準(zhǔn),如圖12所示。在圖12a中,圖像的左上角以及中間部分的背景區(qū)域中均有被誤檢的情況,而在引入了雙邊上采樣模塊以后,僅僅只檢測出了應(yīng)被正確檢測的文字區(qū)域,檢測效果更佳。

        Figure 11 Probability map comparison before and after adding BU-S圖11 引入BU-S前后概率圖對比

        Figure 12 Comparison of detection results before and after adding BU-S圖12 引入BU-S前后檢測效果對比

        5.4 對比實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文算法的有效性,本節(jié)在ICPR MTWI 2018數(shù)據(jù)集上將其與其它文字檢測算法進(jìn)行了對比,實(shí)驗(yàn)結(jié)果如表3所示。CTPN是復(fù)雜場景文字檢測的經(jīng)典模型,它使用垂直錨框回歸機(jī)制,檢測小尺度的文本候選框,然后將屬于同一個(gè)標(biāo)注文本框的小文本框連接成一個(gè)文本框區(qū)域,形成候選區(qū)域,最后對每個(gè)候選區(qū)域的大小進(jìn)行微調(diào)。但是,CTPN對于非水平文本的檢測效果并不好,實(shí)驗(yàn)結(jié)果表明,CTPN在3個(gè)評價(jià)指標(biāo)上都表現(xiàn)得不盡如人意。而高效準(zhǔn)確場景文本檢測器EAST(Efficient and Accurate Scene Text detector)利用一個(gè)全連接模型直接預(yù)測單詞或文本行。事實(shí)上,EAST和DBNet一樣,都利用了分割思想來完成文字檢測任務(wù),但在實(shí)驗(yàn)中,EAST的召回率偏低,僅有59.2%,表明部分文字區(qū)域未能被有效檢測到。下面2篇文獻(xiàn)都使用了ICPR MWTI 2018作為數(shù)據(jù)集,將10 000幅圖像以8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,與本文的數(shù)據(jù)集選用相同。文獻(xiàn)[23]應(yīng)用了推選出“文字區(qū)域候選框”的思想,并在第2階段進(jìn)行邊框精細(xì)化處理,采用實(shí)例分割的思想分割出文本框。文獻(xiàn)[24]則提出了一個(gè)單元組合的自下而上的文本檢測框架,利用不同的卷積核提取對應(yīng)的輸出,確定不同文本間的互斥關(guān)系,通過閾值確定有效的文字單元之間的聯(lián)系,最后從每組文字單元提取文字區(qū)域的外接檢測框。該模型相較于之前的模型大幅提升了檢測性能,召回率能夠達(dá)到69.7%。

        Table 3 Experimental results of different detection algorithms表3 不同檢測算法的實(shí)驗(yàn)結(jié)果 %

        原DBNet模型相較于其他模型,在精確率方面有著較大的優(yōu)勢,但是在召回率方面卻不盡人意,這主要是由于ICPR MTWI 2018數(shù)據(jù)集中圖像背景過于復(fù)雜,部分文本區(qū)域未被成功地檢測出來。而本文提出的改進(jìn)模型相比于原DBNet模型雖然精確率方面有所下降,但是在召回率上有6.0%的提升,同時(shí)F1_score也有著2.4%的提升,表明改進(jìn)后的網(wǎng)絡(luò)模型更加穩(wěn)定,在精確率和召回率上取得了平衡。本文算法在保證擁有較高精確率的同時(shí)大幅提升召回率,檢測效果明顯優(yōu)于其它文字檢測算法的,同時(shí)在面對復(fù)雜的背景時(shí),本文算法也更具競爭力。

        6 結(jié)束語

        本文針對復(fù)雜背景的電商圖像文字檢測提出了一種新算法。該算法以DBNet模型為基礎(chǔ),通過改進(jìn)FPN網(wǎng)絡(luò)中的特征融合模塊,自適應(yīng)地選擇和集成局部和全局特征。此外,添加了注意力模塊使模型重點(diǎn)關(guān)注特征明顯的區(qū)域。同時(shí),還在可微分二值化模塊中引入了雙邊上采樣模塊來降低復(fù)雜背景對文字區(qū)域檢測的影響。實(shí)驗(yàn)結(jié)果表明,本文所提算法取得了68.1%的召回率、82.6%的精確率和74.6%的F1_score,優(yōu)于其它算法。基于該算法,可以高效地對種類繁多、數(shù)量龐大的商品圖像進(jìn)行合法性驗(yàn)證。在接下來的工作中,將重點(diǎn)對可微分二值化模塊進(jìn)行處理,研究如何盡可能多地將圖像中的文本區(qū)域檢測出來,以進(jìn)一步提高算法的檢測能力。

        猜你喜歡
        概率文字特征
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        文字的前世今生
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        熱愛與堅(jiān)持
        當(dāng)我在文字中投宿
        文苑(2020年12期)2020-04-13 00:55:10
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        国产一区二区三免费视频| 国产无码swag专区| 亚洲人成网站www| 中文乱码字幕在线亚洲av| 成人精品一区二区三区电影| 无套内谢的新婚少妇国语播放| 久久中文字幕日韩精品| 蜜桃激情视频一区二区| 久久久99精品成人片| 国产丝袜无码一区二区三区视频| 久久一区二区三区四区| 国产免费一区二区三区在线视频| 国产精品亚洲一区二区三区| 50岁熟妇的呻吟声对白| 在线av野外国语对白| 手机在线播放成人av| 亚洲av中文无码乱人伦在线咪咕| 久久免费的精品国产v∧| 不卡a v无码在线| 日本一区二区不卡二区| 亚洲国产精品无码专区在线观看| 国内精品久久久久久久久久影院 | 久久精品熟女亚洲av麻豆永永| 无码孕妇孕交在线观看| 午夜亚洲www湿好大| 亚洲成片在线看一区二区| 人妻中文字幕日韩av| av无码精品一区二区三区宅噜噜 | 欧美亚洲另类 丝袜综合网| 精品国产一区二区三区性色| 久久久精品一区aaa片| 欧美一欧美一区二三区性| 国产一区亚洲一区二区| 免费a级毛片又大又粗又黑| 久久男人av资源网站无码| 黄色录像成人播放免费99网| 免费在线视频亚洲色图| 东京热人妻无码一区二区av| 国产aⅴ夜夜欢一区二区三区| 日本av一区二区三区四区| 美女mm131爽爽爽|