亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征增強和雙線性特征向量融合的 移動端工業(yè)貨箱文本檢測

        2022-08-01 03:35:54胡海洋厲澤品李忠金
        電信科學 2022年7期
        關鍵詞:特征文本融合

        胡海洋,厲澤品,李忠金

        (1. 杭州電子科技大學計算機學院,浙江 杭州 310018; 2. 浙江省腦機協(xié)同智能重點實驗室,浙江 杭州 310018)

        0 引言

        現(xiàn)實場景中文字承載的高級語義信息能夠幫助人們更好地理解周圍世界,場景文本檢測作為場景文本讀取的關鍵組成部分,一直是計算機視覺領域的熱門研究方向,例如工業(yè)自動化、自動駕駛和盲人輔助等。

        早期的文字檢測技術使用傳統(tǒng)的模式識別方法,其主要分為兩種:一是以連通區(qū)域分析為核心技術的文字檢測方法[1-3],二是Minetto等[4]提出的以滑動窗口為核心技術的文字檢測方法。傳統(tǒng)的模式識別方法一般包含4個步驟:字符候選區(qū)域生成;候選區(qū)域濾除;文本行構造;文本行驗證。然而煩瑣的檢測步驟導致文字檢測的實時性差,同時準確率得不到保證。

        隨著計算機視覺和模式識別領域的發(fā)展,卷積神經(jīng)網(wǎng)絡[5]開始嶄露頭角,逐步成為主流的目標特征提取網(wǎng)絡。因此先從訓練數(shù)據(jù)中提取有效的文本特征并建立模型,然后將模型運用于實際環(huán)境,并通過文本檢測算法完成文本檢測任務的深度學習方式逐漸成為主流。

        目前,基于深度學習的文本檢測方法可以分為兩類:一種是基于目標檢測方法的回歸檢測算法,目標檢測框架由SSD[6]、FasterRCNN[7]、ResNet[8]等進行針對文字特性的改進得到,這類方法的主要特點是通過回歸水平矩形框(anchor)、旋轉矩形框以及四邊形等形狀獲得文字檢測結果;另一種是基于文本分割方法進行文本檢測,此類方法主要借鑒語義分割的思路,將文本像素分到不同的實例中,并通過一些后處理方法獲得文本像素級別的定位結果,可以精確定位任意形狀的文字,該類方法主要有Liao等[9]提出的可微分二值化(2ifferentiable binarization,DB)后處理算法等。

        與傳統(tǒng)文字檢測方法相比,深度學習的文字檢測[10]已經(jīng)簡化了很多步驟,但是網(wǎng)絡的加深帶來了更大的計算量。ResNet50具有大約25.6 MB大小的參數(shù),以及需要4.1×109FLOPS(floating point operations per secon2,每秒浮點運算次數(shù))的計算量處理一張2242pi× 2242pi 的圖像。因此,深度神經(jīng)網(wǎng)絡設計的最新趨勢是探索可移植、高效、輕量的網(wǎng)絡架構,并為移動設備提供可接受的性能。Han等[11]采用裁剪的方法,對不重要的權值進行裁剪,以此提升網(wǎng)絡性能。Howar2等[12]利用深度卷積和逐點卷積相結合構建了MobileNet輕量網(wǎng)絡架構,在與VGG16精度相同的情況下,參數(shù)量和計算量減少了2個數(shù)量級。ShuffleNet[13]改進了通道的shuffle操作,增強了輕量網(wǎng)絡的性能。

        工廠中的貨箱運輸環(huán)境如圖1所示,其中,開發(fā)板、顯示器、攝像機部署在叉車上,叉車行駛的平均速度為3 m/s左右,攝像機拍攝貨箱編號。只有當圖片的檢測幀率為12 f/s(frames per secon2,每秒傳輸幀數(shù))以上時,顯示器才可以清楚地顯示每張圖片的檢測結果,而處于移動端的文本檢測,則需要達到更高的檢測幀率才能滿足要求,因此需要搭建輕量網(wǎng)絡架構,而與輕量網(wǎng)絡MobileNet、ShuffleNet文本檢測方法相比,工廠環(huán)境下的文本檢測有其復雜性和特殊性:它所處的運輸環(huán)境背景混亂、光線變化頻繁、文本不規(guī)整等。因此在工廠環(huán)境下輕量網(wǎng)絡文本檢測方法無法在保證實時性的同時,達到較高的準確率。

        圖1 工廠中的貨箱運輸環(huán)境

        針對在工廠貨箱運輸場景中存在的問題,本文提出一種基于輕量級網(wǎng)絡的貨箱編號檢測方法。文本檢測模型如圖2所示,首先,使用ResNet18作為基礎網(wǎng)絡架構,用改進的Ghost 模塊替換基礎殘差模塊,其中,Ghost 模塊嵌入文獻[14]中提出的輕量級特征增強技術Squeeze- an2-Excitation,對部分卷積后的特征進行重標定,提高重要特征的權重。其次,采用雙分支結構,第一分支使用文獻[15]中提出的特征金字塔增強模塊(feature pyrami2 enhancement mo2ule,F(xiàn)PEM)提取圖像高級和低級信息,第二分支利用本文提出的雙線性特征融合向量模塊融合不同尺度的特征向量,增強尺度多變的文本特征表達能力。而后特征融合模塊(feature fusion mo2ule,F(xiàn)FM)級聯(lián)所有特征向量。最后,采用DB語義分割算法獲得最終結果,其中,修改損失函數(shù)為文獻[16]中提出的DiceLoss和 MaskLoss。同時在推理階段采用自適應閾值分割算法替換固定閾值,更能適應工廠環(huán)境的光線變化。

        圖2 文本檢測模型

        為了能夠訓練新型輕量網(wǎng)絡框架并評估它的優(yōu)勢,本文創(chuàng)建了一個復雜工廠環(huán)境下的貨箱文字數(shù)據(jù)集,數(shù)據(jù)集中包含了不同種類的貨箱,不同視角下、不同形狀的文字。實驗表明,本文提出的新型輕量級網(wǎng)絡框架RGFFD(ResNet18+ GhostMo2ule+特征金字塔增強模塊(feature pyrami2 enhancement mo2ule,F(xiàn)PEM)+ 特征融合模塊(feature fusion mo2ule,F(xiàn)FM)+可微分二值化(2ifferenttiable binarization,DB ))在實時性和精確度方面都優(yōu)于其他的網(wǎng)絡框架。本文的主要貢獻為以下3點。

        ? 提出了新型的輕量網(wǎng)絡架構解決實際工業(yè)場景中移動設備的文字檢測,并達到了可觀的精確度。

        ? 制作了一個貨箱文字數(shù)據(jù)集對模型進行訓練和評估,并最終實現(xiàn)在線部署。

        ? 在自定義數(shù)據(jù)集上,本文的模型在識別精度和泛化能力上都超過了主流的文字檢測方法。

        1 相關工作

        近年來,設計輕量高效的神經(jīng)網(wǎng)絡架構一直是熱門的研究領域。VGGNets[17]模型表明,增加網(wǎng)絡的深度可以顯著提高網(wǎng)絡的學習特征的能力。同時Batch Normalization操作通過調(diào)整輸入每一層的分布,提升了深層網(wǎng)絡學習過程的穩(wěn)定性,產(chǎn)生了更平滑的優(yōu)化曲面。ResNet通過使用殘差模型構建更深層次和更強大的網(wǎng)絡。而網(wǎng)絡的加深帶來了更大的計算量,Szege2y等[18]提出采用逐點卷積(1×1)減少參數(shù)計算量,并在同一層級利用不同大小的卷積核提取圖像不同維度的信息,在保證模型質(zhì)量的前提下,減少參數(shù)量。InceptionV2[19]則通過恰當?shù)胤纸饩矸e與積極地正則化盡可能地利用有效的運算。雖然網(wǎng)絡的計算成本得到了降低,但是仍無法在一些嵌入式的設備中運行。MobileNet的提出使網(wǎng)絡的計算成本出現(xiàn)了大幅度的下降,其主要思想是對每個通道單獨利用卷積核進行卷積操作,然后利用逐點卷積融合特征,有效替代傳統(tǒng)的卷積層,然而精確度卻無法得到保障。MobileNetV2[20]對此進行了擴展,引入線性瓶頸和反向殘差結構,主要思想是在深度卷積之前增加逐點卷積操作,使得特征提取能夠在高維運行。Howar2等[21]提出MobileNetV3,其添加了輕量級注意力機制,將swish替換為h-swish,以更少的計算量獲得更好的性能。ShuffleNet提出逐點組卷積,有效地降低了因為逐點卷積而形成的通道之間的約束,同時采用通道混洗方法提高了通道組之間的信息流通,提高了信息的表示能力。SqueezeNet廣泛使用1×1卷積,采用Squeeze-an2-Excitation模塊減少參數(shù)數(shù)量,提升網(wǎng)絡的特征提取能力。Lin等[22]提出了特征金字塔網(wǎng)絡(feature pyrami2 network,F(xiàn)PN),通過提取并融合上下文信息,使小物體的檢測更準確,但由于網(wǎng)絡計算復雜,參數(shù)量大無法滿足實時性要求。Wang等[15]提出了FPEM,采用可分解卷積,降低網(wǎng)絡計算量,并通過級聯(lián)的方式完成高低級特征的提取,同時利用FFM特征融合模塊融合不同層次的特征,在保證精度的同時參數(shù)量僅為FPN的1/5。

        采用輕量網(wǎng)絡架構提取圖像文本特征,最后利用文本檢測算法繪制文本框,文本檢測方法大致可以分為兩類:基于回歸的方法和基于分割的方法。

        基于回歸的方法是直接回歸文本邊界框,準確定位文本。Liao等[23]提出的TextBoxes基于SSD修改了anchor和卷積核的尺度,用于文本檢測。Liao等[24]提出的TextBoxes++應用四邊形回歸來檢測多方向文本。Tian等[25]首次提出將文字區(qū)域分割成一系列小尺度的候選框,同時引入循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN),增加了檢測的精度,但只能檢測水平方向的文字。Shi等[26]采用角度概念,切割圖片為段,使用link檢測將屬于同一文本的段進行連接,以處理長文本實例。Liao等[27]通過使用旋轉不變特征進行分類,使用旋轉敏感特征進行回歸,將分類和回歸解耦,以便在多方向和長文本實例上取得更好的效果。Zhou等[28]提出了全卷積操作,并直接生成預測文本框,利用局部感知非最大抑制(locality- aware non maximum suppression,LNMS)產(chǎn)生最終結果,實現(xiàn)端到端的文本檢測。然而這些方法都是為四邊形文本檢測而設計的,無法識別任意形狀的文本。

        與基于回歸方法不同,基于分割的方法通常結合像素級預測和后處理算法得到邊界框,可以檢測不規(guī)則形狀的文本。Deng等[29]提出Pixel-Link概念,對輸入圖像執(zhí)行文本和非文本預測以及鏈接預測,然后通過后處理以獲取文本框并過濾噪聲,分隔不同的文本實例。Wang等[30]通過分割具有不同規(guī)模內(nèi)核的文本實例,并使用漸進式尺度擴展算法獲得最終文本框。然而PSENet因網(wǎng)絡計算量大,網(wǎng)絡檢測文本的實時性大大降低。Wang等[15]引入特征金字塔增強模塊,并通過級聯(lián)的方式提取多級信息,而后采用特征融合模塊融合多尺度信息,最后通過像素聚合模塊預測相似性向量聚合文本像素,在不降低精度的情況下,減少網(wǎng)絡的計算量。DBNet提出了一個可微分二值化模塊預測收縮區(qū)域,并且收縮區(qū)域以恒定的膨脹率擴張,最終獲得文本框。Tian等[31]提出了學習形狀感知嵌入(learning shape-aware embe22ing,LSAE)方法,將圖像像素映射到特征空間中,對屬于同一文本實例的像素進行聚類,很好地分割相鄰的文本,并且可以檢測長文本。

        2 本文方法

        2.1 特征增強的Ghost模塊

        深層卷積神經(jīng)網(wǎng)絡中通常由大量的卷積操作組成,這就需要大量的計算量,大多數(shù)方法采用逐點卷積處理跨通道的特征,然后采用深度卷積處理空間信息,以此減少網(wǎng)絡的計算量。普通的卷積操作會產(chǎn)生大量的冗余信息,特征冗余如圖3所示,其中有部分是相似的,因此不需要一個接一個地生成這些冗余的帶有大量參數(shù)運算的特征映射,而是將相似的特征映射通過某種簡單的線性操作進行獲取,以此減少計算量。

        圖3 特征冗余

        為了解決特征冗余的問題,避免不必要的卷積操作,本文采用改進的Ghost模塊替換殘差網(wǎng)絡的基礎殘差3×3卷積模塊。常規(guī)Ghost模塊主要由兩種關鍵技術組成,分別是部分卷積和Chollet等[32]提出的DepthWise卷積。相較于常規(guī)卷積,部分卷積只有部分特征圖是利用卷積核生成的。Depthwise操作的一個卷積核只負責特征映射圖的一個通道,一個通道只與一個卷積核進行卷積操作。最后將線性變換的特征圖與原先的特征圖進行拼接操作,轉換為普通卷積操作后通道數(shù)相同的特征圖。

        本文為了使網(wǎng)絡能夠在訓練和測試階段獲得更加完整的文本圖像特征,且只提高少許網(wǎng)絡的復雜性,因此采用輕量級特征增強技術Squeeze-an2-Excitation,Squeeze-an2-Excitation模塊如圖4所示,通過顯式地建模卷積特征通道之間的相互依賴性提高網(wǎng)絡的性能。

        圖4 Squeeze-an2-Excitation模塊

        Ghost模塊改進方法示意圖如圖5所示,其中改進方法1將特征增強模塊Squeeze-an2-Excitation嵌入Ghost模塊中,在部分卷積之后進行特征增強。改進方法2選擇在部分卷積和DepthWise卷積后進行特征增強。相較于方法2,方法1在進行特征增強時所需要的網(wǎng)絡計算量更少,Ghost模塊部分卷積操作只產(chǎn)生通道數(shù)為N/2的特征圖,因此只需要對一半的特征圖進行特征增強。而在工廠環(huán)境下,叉車運行速度較快,需要網(wǎng)絡檢測圖片的速率達20 f/s以上,才可以清晰地顯示圖片。因此本文選擇改進方法1,減少網(wǎng)絡計算量,提升網(wǎng)絡檢測速率。

        圖5 Ghost模塊改進方法示意圖

        2.2 雙線性特征向量融合模塊

        工廠環(huán)境復雜,在不同視角存在大量尺度不同的文本,因此為了融合不同尺度的文本特征,增強尺度多變的文本特征表達能力,本文提出了雙線性特征向量融合模塊。

        長短期記憶(long short-term memory,LSTM)[33]是特征向量融合模塊的核心成分,LSTM首先被應用在文本識別。特征融合模塊細節(jié)如圖6所示,本文特征向量融合模塊僅由4個特征向量組合而成,因此本文舍棄了長期記憶,采用簡單的線性操作融合以前的輸入信息,將不同層次的特征向量依次輸入特征向量融合模塊中。其中,tanh網(wǎng)絡創(chuàng)建一個可以存儲的向量Ct,sigmoi2網(wǎng)絡層為此向量中的每個值輸出一個0~1的數(shù)值it,決定要存儲哪些狀態(tài)值,最后通過簡單的線性操作進行融合。通過訓練,可以使最后一個特征向量對應的輸出存儲了所有特征向量重要的信息。因為本文提出的雙線性特征向量融合模塊只需要經(jīng)過簡單的線性操作,就可以完成不同尺度特征向量的融合,因此在不影響實時性的同時,增加了網(wǎng)絡檢測的精確率。雙線性特征向量融合模塊公式化為:

        圖6 特征融合模塊細節(jié)

        其中 ,it為sigmoi2網(wǎng)絡層的輸出,Ct為tanh網(wǎng)絡層的輸出,σ為sigmoi2網(wǎng)絡層,ht-1為上一次的輸出,xt為第t次的輸入。Wi、WC、bi、bC為權重。

        2.3 特征金字塔和特征融合

        FPN采用特征金字塔模型,對高低層的語義信息進行融合,提高網(wǎng)絡檢測不同尺度的目標的精度,然而特征融合采用上采樣、逐個位相加、向量拼接技術,大大增加了網(wǎng)絡計算量,無法保證網(wǎng)絡的實時性。FPEM能夠通過融合低級和高級信息增強不同尺度的特征。FPEM模塊細節(jié)如圖7所示,F(xiàn)PEM是可級聯(lián)的模塊,隨著級聯(lián)層數(shù)的增加,不同尺度的特征圖會得到更充分的融合,特征圖的感受野也隨之增大。此外,因為FPEM是通過可分解卷積構建的,其計算開銷非常小,僅為FPN的1/5左右。

        圖7 FPEM模塊細節(jié)

        FFM模塊示意圖如圖8所示,特征融合模塊FFM對FPEM級聯(lián)產(chǎn)生的不同層次的特征F1,F2,…,Fm進行融合。為增強不同尺度文本的特征表達能力,本文對FFM進行改進,將特征融合后的向量進行上采樣并與原模型相級聯(lián),獲得通道數(shù)為5×128,大小為原圖1/4的最終特征圖。

        圖8 FFM模塊示意圖

        2.4 自適應閾值后處理DB算法

        DBNet采用可微分二值化處理,使閾值在訓練期間能隨著網(wǎng)絡一起優(yōu)化,同時基于閾值圖和概率圖獲取近似二值圖。DBNet提供的可微的二值化計算式為:

        其中,Pi,j表示該區(qū)域有文字的概率,如果沒有文字區(qū)域,Pi,j為0;Ti,j是由網(wǎng)絡學習到的閾值圖;k表示放大系數(shù)。

        總的損失函數(shù)L可以表示為概率圖的損失與二值圖的損失與閾值圖的損失的加權和:

        其中,LS是概率圖的損失值,Lb是二值圖的損失值,Lt是閾值圖的損失。其中,α和β分別被設置為5和10。其中LS和Lb分別使用DiceLoss損失函數(shù)來進行訓練,DiceLoss常用于醫(yī)學圖像分割,其目的就是解決前景比例太小的問題。其計算式為:

        DiceLoss損失函數(shù)特點就是收斂速度快,且收斂速度優(yōu)于交叉熵等分類損失函數(shù)。Lt采用Mask L1 Loss損失函數(shù)來進行訓練,通過掩模進行Lt損失函數(shù)的計算。其計算式為:

        其中,Lt損失為平均絕對差值,而后增加了mask掩模,對mask指定的區(qū)域進行Lt損失函數(shù)的計算,n為膨脹后的圖像區(qū)域在mask掩模下需要進行計算的數(shù)量總和。絕對值為預測文本框與標簽的距離差值。

        DB算法檢測不規(guī)整文本如圖9所示,本文采用自適應閾值替換固定閾值獲取閾值圖。最終文本框的獲取有3個步驟。

        圖9 DB算法檢測不規(guī)整文本

        步驟1采用網(wǎng)絡輸出概率圖,其值范圍為[0,1],DBNet設定常數(shù)閾值(0.2)獲取閾值圖,本文不設定固定的閾值獲取閾值圖,而是通過設置九宮格掩模對概率圖進行自適應閾值計算獲得閾值圖,自適應閾值計算式為:

        其中,x、y為圖像中的坐標,fx,y是坐標為(x,y)的像素值,t為自適應閾值算法求得的閾值,px+i,y+j為原圖坐標為(x+i,y+j) 的像素值,fx,y是坐標為(x,y)的閾值。

        步驟2從概率圖和閾值圖中獲取連接區(qū)域。

        步驟3擴大文本區(qū)域,進行膨脹,擴大的倍數(shù)為D’= (A′×r′) /L′,A′為多邊形的面積,L′為多邊形的面積,r′被設定為1.8。

        3 實驗

        3.1 數(shù)據(jù)集

        利用本文的網(wǎng)絡RGFFD,在ICDAR2015、Total-text以及本文采集并設計的數(shù)據(jù)集上進行實驗和評估,具體如下。

        ? ICDAR2015數(shù)據(jù)集:主要面向自然場景的文本檢測,有1000張訓練圖片和500張測試圖片,其中圖片的像素大小為1280 2pi × 7202pi。

        ? 自定義數(shù)據(jù)集:針對復雜工廠環(huán)境下貨箱編碼檢測的問題而采集的數(shù)據(jù)集,包含了在不同形狀的木板箱子上從不同角度采集的3000多張的文本圖片,其中文本樣式各異,并且傾斜角度不同,文字背景信息復雜。文本框區(qū)域用矩形的4個坐標點來進行記錄。其中圖片的像素大小為1280 2pi×7202pi。

        ? Total-text數(shù)據(jù)集:包含各種形狀文本的數(shù)據(jù)集,包括水平、多方向和曲線文本實例,由1255張訓練圖像和300張測試圖像組成,文本實例以單詞級標注。

        3.2 實驗環(huán)境和模型的訓練

        在本實驗中,實驗數(shù)據(jù)訓練在64位的Win2ows系統(tǒng)上,內(nèi)存為16 GB,CPU是8核,顯卡為RTX2060。所有的實驗都是通過PyTorch深度學習框架完成的,模型的循環(huán)次數(shù)(epoch)為500,學習率被設置為0.001,每次訓練選取樣本數(shù)量為8。

        實驗檢測結果在開發(fā)板UP2 boar2中運行,開發(fā)板具體配置為Win2ows10系統(tǒng),內(nèi)存為8 GB,容量大小為64 GB,處理器為N4200。

        3.3 網(wǎng)絡參數(shù)設置

        本實驗的反向傳播選用的是A2am優(yōu)化算法,A2am優(yōu)化器是一個尋找全局最優(yōu)點的優(yōu)化算法,算法引入了二次梯度校正。

        3.4 評價指標

        由于常規(guī)的視頻需要達到12 f/s,顯示器才可以清楚地顯示每張圖片,而處于移動端的文本檢測,叉車平均行駛速度為3 m/s,則需要更高的幀率才能滿足要求。經(jīng)實驗可知,當幀率達到20 f/s或以上時,圖片可以流暢地顯示,因此本文算法的性能由精確率、召回率、幀率(檢測速度)(f/s)以及檢測速度與20的差值這4個指標來衡量。

        4 結果比較

        4.1 模型對比實驗

        本文方法與近年出現(xiàn)的其他方法在多個數(shù)據(jù)集上進行了對比,在公共數(shù)據(jù)集中算法的實驗結果由算法作者提供,自定義數(shù)據(jù)集中算法的實驗結果由本文作者實現(xiàn)。本文方法在ICDAR2015數(shù)據(jù)集中與不同文本檢測方法的比較見表1。由實驗結果可知,TextFuseNet在ICDAR2015數(shù)據(jù)集中的檢測精確率和召回率已與SOTA相近,但是網(wǎng)絡復雜,計算參數(shù)量大,導致網(wǎng)絡的檢測速度較慢,無法滿足20 f/s的要求。PAN(pixel aggregation network)作為PSENet的改進版,將精確率和檢測速度做到了很好的平衡,但是本文提出的RGFFD網(wǎng)絡同樣采用PAN的特征金字塔和特征融合模塊并進行改進,在精確率上超過PAN 0.4%,同時在召回率上與PAN接近,且利用改進的Ghost模塊替換常規(guī)卷積,在速度方面更是超過PAN 2.1 f/s,與其他網(wǎng)絡相比本文方法檢測速度達到最快。

        表1 本文方法在ICDAR2015數(shù)據(jù)集成中 與不同文本檢測方法的比較

        本文方法在Total-text數(shù)據(jù)集中與不同文本檢測方法的比較見表2,TextFuseNet在精確率和召回率上已和SOTA相近,但是檢測速度不滿足 要求,無法達到20 f/s,而PAN在精確率和召回率上與TextFuseNet相近,且速度更是達到39.9 f/s。本文提出的RGFFD網(wǎng)絡精確率與PAN相近,且檢測速度高于PAN 5.7 f/s。與其他網(wǎng)絡相比,本文方法檢測速度達到最快。

        表2 本文方法在Total-text數(shù)據(jù)集中 與不同文本檢測方法的比較

        本文方法在自定義數(shù)據(jù)集中與不同文本檢測方法的比較見表3,TextFuseNet的精確率和召回率都顯示出自己的優(yōu)勢,但是由于網(wǎng)絡復雜、計算量大,網(wǎng)絡的檢測速度未能達到20 f/s。本文的方法RGFFD,精確率和召回率都與TextFuseNet相近,且檢測速度達到20 f/s的要求,并超出TextFuseNet 23.2 f/s。PAN雖然檢測速度也達到20 f/s的要求,但是精確率卻沒有RGFFD高,因此本文的方法RGFFD性能更優(yōu)異。

        表3 本文方法在自定義數(shù)據(jù)集中與不同文本檢測方法的比較

        針對復雜工廠環(huán)境,將訓練好的網(wǎng)絡參數(shù)移植入開發(fā)板UP2 boar2進行檢測,開發(fā)板中不同方法的效果比較見表4。實驗結果表明本文的方法檢測速度最快。

        表4 開發(fā)板中不同方法效果比較

        開發(fā)板檢測的文本效果如圖10所示,圖10(a)為MobileNetV3+DB網(wǎng)絡檢測的結果,圖10(b)為RGFFD的檢測結果??梢钥闯霰疚牡臋z測方法能夠精確檢測遠處尺度較小的貨箱文本,且針對不同角度,RGFFD也能精確檢測。因此,RGFFD能夠在工廠環(huán)境下高效地完成文本檢測任務。

        圖10 開發(fā)板檢測的文本效果

        4.2 消融研究

        為了驗證本文不同模塊在檢測過程中發(fā)揮作用,針對不同模塊設計了消融實驗,所有消融實驗均在自定義數(shù)據(jù)集上進行。

        針對Ghost模塊,設計了3組實驗:第1組實驗不對網(wǎng)絡嵌入任何模塊,第2組實驗嵌入的Ghost模塊采用改進方法1(如圖5所示),第3組實驗嵌入的Ghost模塊采用改進方法2(如圖5所示)。第1組實驗、第2組實驗與第3組實驗形成對比,分別探究刪除、不同改進方法對結果的影響,如果第2組實驗結果優(yōu)于第1組實驗、第3組實驗,則說明本文改進的Ghost模塊在文本檢測流程中發(fā)揮了不可或缺的作用。

        本文實驗的運行環(huán)境以及參數(shù)設置均與原實驗相同。不同嵌入模塊的實驗結果對比見表5。由實驗結果可知:嵌入Ghost模塊之后,網(wǎng)絡的檢測速度得到了提升,這說明Ghost模塊為輕量級。而比較第2組實驗、第3組實驗,可以發(fā)現(xiàn)改進方法1相較于改進方法2,計算的參數(shù)量更少,網(wǎng)絡的檢測速度高出0.8 f/s,且精確率兩者相接近,召回率高出0.8%,進一步證明了方法1的有效性。

        表5 不同嵌入模塊的實驗結果對比

        此外,本文設計了消融實驗驗證特征向量融合模塊的有效性。特征向量融合模塊效果比較見表6。由實驗結果可知,嵌入特征向量融合模塊雖然降低了檢測速度,但是精確率和召回率得到了提升,相較于原來精確率提升了1.1%,召回率提升了0.3%。

        表6 特征向量融合模塊效果比較

        在推理階段,本文設計了消融實驗驗證自適應閾值的DB算法的有效性。在自定義數(shù)據(jù)集中不同方法的檢測結果如圖11所示,實驗結果表明采用自適應閾值分割算法獲得的平均聯(lián)合交叉(intersection over union,IOU)值要較固定閾值(0.2)高出4%,而文本檢測獲得的IOU值越高,越能判定文本框的存在,因此真陽率得到了5.2%的提升。因為工廠環(huán)境復雜、文本較小、光線變化頻繁等因素,直接使用全局閾值分割算法容易引入噪聲等不確定因素影響閾值,而自適應閾值分割算法,只獲取像素點周圍九宮格內(nèi)的像素進行閾值計算,更好地限制了不利因素,且適應文本較小的情況。

        圖11 在自定義數(shù)據(jù)集中不同方法的檢測結果

        推理階段檢測結果如圖12所示,展示了采用自適應閾值分割算法與固定閾值方法檢測文本的實驗圖,圖12(a)為固定閾值(0.2)的檢測結果,圖12(b)為自適應閾值分割算法的檢測結果??梢园l(fā)現(xiàn)在光照頻繁變化的情況下,自適應閾值分割算法的判斷能力更好,固定閾值算法會發(fā)生很多誤判,因此自適應閾值分割算法在文本檢測流程中發(fā)揮著不可或缺的作用。

        圖12 推理階段檢測結果

        5 結束語

        本文提出的輕量級文本檢測網(wǎng)絡RGFFD,采用改進的Ghost模塊大幅度降低計算量的同時嵌入特征增強模塊(SEBlock)提升Ghost模塊提取特征能力,而后連接特征金字塔(FPEM)融合圖像高低層語義信息,同時使用雙線性特征向量融合模塊,增強尺度多變的文本特征表達能力,而后采用特征融合模塊(FFM)融合各特征向量。實驗結果表明,在工廠環(huán)境下,RGFFD網(wǎng)絡運行在嵌入式設備UP2 板中,檢測速度最快且精度高,因此本文的網(wǎng)絡性能更優(yōu)異。而采用Dice Loss和Mask L1 Loss作為損失函數(shù)的DB算法,收斂效果更好。在推理階段,采用自適應閾值分割算法來獲取閾值的方法比直接采用固定閾值的方法,更加能夠適應各種環(huán)境變化,圖片檢測文本框的效果也更加精準。

        猜你喜歡
        特征文本融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        激情综合五月| 久久久诱惑一区二区三区| 成人av一区二区亚洲精| 亚洲国产精品无码一线岛国| 天干天干天啪啪夜爽爽av| 日本丰满少妇裸体自慰| 无码人妻精品一区二区三区不卡| 亚洲AV无码一区二区三区天堂网| 亚洲国产精品色婷婷久久| 丝袜美腿福利一区二区| 日日婷婷夜日日天干| 伊人一道本| 一本大道加勒比东京热| 国产亚洲视频在线播放| 搡老熟女中国老太| 久久久久久久一线毛片| 在线观看视频亚洲一区二区三区| 欧美老熟妇乱子| 日产无人区一线二线三线新版| 久久亚洲精彩无码天堂| 日韩精品中文字幕一区二区| 亚洲成在人线av品善网好看| 国产精品无需播放器| 日本视频一区二区二区| 老熟女的中文字幕欲望| 精品亚洲成a人7777在线观看 | 精品成在人线av无码免费看| 欧美丰满大爆乳波霸奶水多| 伊人不卡中文字幕在线一区二区| 蜜桃91精品一区二区三区| 人妻无码一区二区视频| 亚洲VA中文字幕欧美VA丝袜| 精品日韩在线观看视频| 亚洲熟妇av一区| 亚洲Va欧美va国产综合| av天堂手机在线免费| 老熟妇乱子伦牲交视频| 69久久夜色精品国产69| 亚洲国产成人aⅴ毛片大全| 国产成人精品一区二三区孕妇| 亚洲一区二区三区小说|