亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于通道注意力機制與金字塔池化的包裹破損檢測算法

        2023-11-13 01:37:34周耀威孔令軍李慧剛郭樂婷楊文杰陳一品張棟濠
        無線電工程 2023年11期
        關(guān)鍵詞:檢測模型

        周耀威,孔令軍*,李慧剛,郭樂婷,楊文杰,陳一品,張棟濠

        (1.金陵科技學院 網(wǎng)絡與通信工程學院,江蘇 南京 211169;2.浙江舟山群島新區(qū)旅游與健康職業(yè)學院 科研與社會服務處,浙江 舟山 316111)

        0 引言

        包裹破損檢測技術(shù)是智慧物流體系中重點研究的方向之一,對物流運輸效率和包裹運輸質(zhì)量有著至關(guān)重要的作用。盡管包裹破損檢測已經(jīng)取得了一些顯著的成果,但要在實際的檢測場景中精確且快速地檢測出破損包裹仍然存在著許多不足:① 檢測到小體積包裹時,破損特征更加不明顯,很容易造成誤識別的現(xiàn)象[1];② 隨著物流行業(yè)的興起,包裹數(shù)量呈指數(shù)級增長,從而使得檢測需要消耗大量的時間,影響物流速度[2]。

        目前包裹破損檢測主要分為2類:基于人工設計特征提取的包裹破損檢測和基于深度學習的包裹破損檢測。傳統(tǒng)的人工設計特征提取的檢測方法是指通過人工設計的特征來進行計算機實時檢測,將檢測目標與該特征進行比對,從而反饋檢測結(jié)果,有著較好的實時性。然而環(huán)境的變化和場景的不同會導致識別準確率相差甚遠,具有很強的局限性。因此,隨著深度學習技術(shù)的快速發(fā)展以及目標檢測算法的不斷創(chuàng)新,基于深度學習的包裹破損檢測技術(shù)[3]由此興起。

        基于深度學習的特征提取是指通過卷積神經(jīng)網(wǎng)絡自主地學習圖像的特征提取[4],目標檢測的精度有了極大的提升。目前,通用的目標檢測算法主要分為兩大類:Two-stage算法和One-stage算法。前者先進行區(qū)域生成一個可能包含待檢測物體的預選框(Region Proposal,RP),再通過卷積神經(jīng)網(wǎng)絡進行樣本分類。此類算法雖然具有很高的精確度,但在面對一些小目標時,效果相差甚遠,同時實時性也很差,因此適用于檢測高精度的大目標,代表算法有R-CNN[5]、SPP-net[6]、Faster R-CNN[7]等。另一類算法是不用RP,直接在網(wǎng)絡中提取特征來預測物體分類和位置。此類算法的實時性高,在檢測堆積目標和小目標時精度較低,因此適用于實時目標檢測。代表算法有YOLO[8]、SSD[9]、Retina-Net[10]等。

        近幾年,由于目標檢測技術(shù)的盛行,越來越多的目標檢測算法經(jīng)過改良后有著非常不錯的速度與精度提升[11]。文獻[12]提出了在目標檢測框架YOLOv5s的基礎上引入基于通道的Transformer注意力機制以及SE注意力機制優(yōu)化檢測器,使得檢測精度有了一定的提高。文獻[13]提出了基于ResNet神經(jīng)網(wǎng)絡模型來構(gòu)建包裹缺陷檢測系統(tǒng),隨著網(wǎng)絡的深度增加,能夠提高準確率。文獻[14]提出了通過修改Faster R-CNN算法中的損失函數(shù),使用RepGT損失函數(shù)代替,使得包裹檢測候選框更接近目標框,識別精度提高。文獻[15]提出了一種改進的SSD目標檢測算法,通過改進ResNet-50網(wǎng)絡并引入了ECANet通道注意力機制,使得檢測精度均值達到了99.8%。文獻[16]提出了一種改進的CenterNet目標檢測算法,使用HRNet替代算法中的Hourglass-104主干網(wǎng)絡,通過降低參數(shù)量來提高模型的推理速度,引入注意力機制來提高檢測精度。文獻[17]提出了一種可部署于移動端的輕量級卷積神經(jīng)網(wǎng)絡算法YOLOv3_M,使用ISODATA動態(tài)聚類算法對BDD與KITTI混合數(shù)據(jù)集聚類分析找出更適合目標的Anchor Box,使用MobileNetv3-Large網(wǎng)絡代替原始YOLOv3網(wǎng)絡中的特征提取網(wǎng)絡DarkNet53,該算法與開源框架YOLOv3相比在降低參數(shù)量的同時提高了檢測速度與檢測精度。

        基于以上研究可以發(fā)現(xiàn),輕量級網(wǎng)絡模型除了有著較高的檢測速度外,還需有著較高的檢測精度[18],同時模型大小與參數(shù)量都必須控制在一定的范圍內(nèi),進一步體現(xiàn)了對模型簡化程度的追求,從而有利于邊緣計算設備[19]部署。

        為此,本文針對自然場景下包裹破損檢測耗時過長的問題,提出了一種提高檢測速度的輕量級包裹破損檢測模型,算法在YOLOv5s的基礎上進行改進。改進思路如下:① 使用ShuffleNetV2[20]作為輕量級主干網(wǎng)絡來降低模型復雜度,從而提高模型檢測速度;② 融合通道注意力機制SE[21]模塊減少卷積神經(jīng)網(wǎng)絡對圖像相關(guān)特征的重復提取,提高信息表征能力,從而提高輕量級優(yōu)化后模型的檢測精度;③ 利用快速空間金字塔池化(Space Pyramid Pool-Fast,SPPF)在不同尺度的特征圖上進行特征提取,有效減少漏檢與誤檢,進一步提高了模型對多尺度目標檢測的精度。

        1 算法框架設計

        1.1 整體網(wǎng)絡結(jié)構(gòu)

        本文使用ShuffleNetV2作為輕量級模型來構(gòu)建YOLOv5s目標檢測框架的主干網(wǎng)絡,整個網(wǎng)絡結(jié)構(gòu)如圖1所示。

        圖1 整體網(wǎng)絡框架Fig.1 Overall network framework

        YOLOv5s-5.0版本的Stem模塊是一個Focus切片操作,而YOLOv5s-6.0版本是一個6×6的Conv,本文在此基礎上將其改成一個3×3的卷積來降低參數(shù)量。大小為640 pixel×640 pixel×3 pixel的RGB圖像作為網(wǎng)絡的輸入,然后通過Stem模塊將圖像進行特征提取得到160×160×64的特征矩陣,接下來使用了重復堆疊的SV1基本模塊與SV2下采樣模塊對特征矩陣進行了特征提取,分別得到了不同分辨率的特征矩陣。網(wǎng)絡在最后一個SV1模塊后添加了C3模塊,由于此時的采樣特征較小,為40×40,執(zhí)行速度非???因此加入該模塊基本沒有影響模型性能,同時還解決了深度網(wǎng)絡的梯度發(fā)散問題。為了解決目標多尺度問題從而能夠在堆積包裹中更準確地預測,在主干網(wǎng)絡輕量化的同時添加了YOLOv5s 6.0中的SPPF模塊,結(jié)構(gòu)如圖2所示。

        圖2 空間金字塔池化模塊Fig.2 Spatial pyramid pooling module

        從圖2可以看出,SPPF結(jié)構(gòu)是將輸入串行通過多個卷積核大小5×5的MaxPool層。卷積操作中池化層提取重要信息的操作,可以去除不重要的信息,減少計算開銷。最大池化操作相當于核在圖像上移動時,篩選出被核覆蓋區(qū)域的最大值。目的是保留輸入的特征,同時把數(shù)據(jù)量減少,對于整個網(wǎng)路來說,進行計算的參數(shù)就變少了,會訓練得更快。該模塊將任意大小的特征圖固定為相同長度的特征向量,傳輸給全連接層。因為卷積層后面的全連接層的結(jié)構(gòu)是固定的。但在現(xiàn)實中,輸入圖像尺寸總是不能滿足輸入要求的大小,然而通常的方法就是通過裁剪和拉伸,但這樣做效果總是會有所欠缺,扭曲了原始的特征,如圖3所示。

        圖3 裁剪和拉伸導致的圖像失真Fig.3 Image distortion caused by clipping and stretching

        SPPF模塊通過將候選區(qū)的特征圖劃分為多個網(wǎng)格,然后對每個網(wǎng)格內(nèi)都做了最大池化,這樣依舊可以讓后面的全連接層得到固定的輸入。通過SPPF解決了深度網(wǎng)絡固定輸入層尺寸的限制,使得網(wǎng)絡可以享受不限制輸入尺寸帶來的好處,如圖4所示。

        圖4 SPPF模塊特征提取Fig.4 SPPF module feature extraction

        因此,對輸入圖像的不同縱橫比和不同尺寸,SPPF同樣可以處理,從而提高了圖像的尺度不變性和模型泛化能力。

        引入SPPF模塊后,模型精度有了進一步的提升,實驗結(jié)果將在3.3節(jié)給出。

        1.2 輕量級主干網(wǎng)絡

        本節(jié)將詳細介紹主干網(wǎng)絡部分。作為輕量級的卷積神經(jīng)網(wǎng)絡,除了要提高模型的速度外,必須同時降低模型的參數(shù)量。為此本文的主干網(wǎng)絡主要使用融合了SE注意力機制的ShuffleNetV2基本模塊和下采樣模塊,詳細結(jié)構(gòu)如圖5和圖6所示。

        圖5 輕量級主干網(wǎng)基本模塊Fig.5 Lightweight backbone basic module

        圖6 輕量級主干網(wǎng)下采樣模塊Fig.6 Lightweight backbone down-sampling module

        圖像通道寬度均衡能夠使內(nèi)存成本(MAC)最小化。對承擔大部分計算開銷的逐點卷積進行分析,假設輸入通道數(shù)C1和輸出通道數(shù)C2通過網(wǎng)絡各層時特征圖的空間大小為h×w,那么1×1卷積核的計算量(FLOPs)如式(1)所示:

        B=hwC1C2。

        (1)

        內(nèi)存足夠的情況下,其內(nèi)存消耗如式(2)所示:

        MAC=hw(C1+C2)+C1C2。

        (2)

        則由式(1)可以推導出C2的表達式如式(3)所示:

        (3)

        在滿足式(3)的情況下內(nèi)存消耗如式(4)所示:

        (4)

        從式(4)可以看出,當且僅當C1=C2時,MAC有最小值。因此為了得到最輕量化的模型,基本模塊與下采樣模塊的輸入輸出通道都應該相等。

        增加組卷積的同時將使內(nèi)存訪問成本增加,分析組卷積,計算量如式(5)所示:

        (5)

        式中:g為組數(shù)。

        由式(2)可得此時的內(nèi)存消耗,如式(6)所示:

        (6)

        假設固定輸入hwC1和計算量B,則MAC又可以推導為式(7):

        (7)

        觀察式(7)可以發(fā)現(xiàn),若組數(shù)g增加,內(nèi)存量MAC也會隨之增大。

        網(wǎng)絡碎片化操作將會降低并行度,若采用Inception網(wǎng)絡那樣的“多路”結(jié)構(gòu),即一個網(wǎng)絡塊中有多個卷積或池化操作,很容易造成網(wǎng)絡碎片化,從而運行速度變慢,并行度降低。元素級操作也是不可忽略的,如ReLU函數(shù)和Add操作,即使運算量較小,也會帶來較大的內(nèi)存損耗。

        本文設計的輕量級主干網(wǎng)絡結(jié)構(gòu)如表1所示。

        表1 輕量級主干網(wǎng)絡Tab.1 Lightweight backbone network

        由表1可以看出,本文設計的輕量級網(wǎng)絡第一層是一個使用了3×3卷積的Stem模塊,為了降低參數(shù)量,將通道層設計為32。中間使用的SV1為基本模塊,SV2為下采樣模塊。雖然其中幾個模塊還有重復次數(shù)設置,但每個模塊都有著較好的性能,計算量并沒有過多的增加。

        1.3 損失函數(shù)

        本文所使用的損失函數(shù)Loss由分類損失Lc、定位損失Lb和置信度損失Lo組成,如式(8)所示。為了實現(xiàn)損失函數(shù)權(quán)重的平衡,引入了3個不同系數(shù),其中系數(shù)α設置為1,系數(shù)γ設置為1,由于正樣本定位直接影響到目標預測的準確率,系數(shù)β設置為4。

        Loss=α×Lc+β×Lb+γ×Lo。

        (8)

        分類損失Lc和置信度損失Lo使用了二元交叉熵損失函數(shù)(BCE with Logits Loss),如式(9)所示:

        (9)

        式中:x表示訓練過程中所預測的包裹核心區(qū)域,y表示標簽值,a表示預測的概率值,n表示樣本總量。

        采用CIoU損失函數(shù)計算正樣本的定位損失,在IoU的基礎上引入長寬比因子,如式(10)和式(11)所示:

        式中:A為真實框,B為預測框,d為預測框和真實框中心點的距離,c為最小外接矩形的對角線距離,v為長寬比的相似性因子,如式(12)所示。

        (12)

        式中:Wb、Hb為真實框的寬和高,Wp、Hp為預測框的寬和高。

        2 數(shù)據(jù)集

        由于開源包裹破損數(shù)據(jù)集較少,因此本文使用自建的包裹破損數(shù)據(jù)集,總共標注了2 104張圖片,其中1 169張圖片作為訓練集,935張圖片作為測試集,其中包括不同數(shù)據(jù)特征的包裹,如單個完整包裹、單個破損包裹以及多個堆積包裹。單個包裹樣例如圖7所示,第一行為單個破損包裹與完整包裹圖片,第二行為經(jīng)過神經(jīng)網(wǎng)絡模型推理后的包裹圖片。

        多個堆積包裹樣例如圖8所示,第一行為多個包裹堆積圖片,第二行為經(jīng)過神經(jīng)網(wǎng)絡模型推理后的堆積包裹圖片。

        數(shù)據(jù)集詳細劃分如表2所示。

        表2 數(shù)據(jù)集劃分Tab.2 Dataset partitioning

        3 實驗結(jié)果與分析

        3.1 實驗平臺部署

        本文實驗所使用的是PyTorch深度學習框架,在Ubuntu 20.04操作系統(tǒng)下進行。訓練以及測試所使用的硬件設備如表3所示。

        表3 硬件平臺Tab.3 Hardware platform 單位:GB

        本文在消融實驗和對比實驗中,在數(shù)據(jù)集上做了300個epoch的微調(diào)訓練,其余參數(shù)配置將在3.2節(jié)做簡要描述。

        3.2 實驗設計與參數(shù)設置

        為了驗證本文提出的包裹破損檢測算法的有效性與真實性,選用了當前較為流行的輕量級主干網(wǎng)絡模型進行對比試驗。其中有將主干網(wǎng)絡替換為MobileNetV3[22]的YOLOv5s_MV3,相較于MobileNetV1[23]和MobileNetV2[24],該版本加入了神經(jīng)網(wǎng)絡架構(gòu)搜索和h-swish激活函數(shù),并引入了SE通道注意力機制,在性能和速度上表現(xiàn)優(yōu)異;還有將主干網(wǎng)絡替換為GhostNet[25]的YOLOv5s_GN,該模型首先通過在卷積部分使用少量卷積核進行卷積操作減少計算量,接著使用3×3的卷積核進行逐通道卷積操作,進一步降低了模型的復雜度;以及將主干網(wǎng)絡替換為ShuffleNetV2的YOLOv5s_SV2,與ShuffleNetV1[26]相比,該版本既沒有密集的卷積,也沒有太多的分組,實現(xiàn)了較高的模型容量和效率。

        訓練中的超參數(shù)設置如表4所示。

        表4 超參數(shù)配置Tab.4 Hyperparameters configuration

        為了豐富數(shù)據(jù)集的多樣性,減少GPU運算時的顯存消耗,本文使用的數(shù)據(jù)增強過程如下:

        ① 首先隨機抽取4張圖片。

        ② 分別對4張圖片進行數(shù)據(jù)增廣操作,如隨機翻轉(zhuǎn)、隨機縮放和色域變化等,系數(shù)如表5所示。

        表5 數(shù)據(jù)增強系數(shù)Tab.5 Data augmentation coefficient

        ③ 進行圖片的組合和選框的組合,完成4張圖片的擺放之后,利用矩陣的方式將4張圖片固定的區(qū)域截取,然后進行拼接,得到一張新的圖片,如圖9所示。

        3.3 結(jié)果對比與分析

        本文的實驗結(jié)果使用了3種指標來評價模型:

        ① 針對神經(jīng)網(wǎng)絡模型的復雜度評價,以浮點運算次數(shù)(Floating point Operations,FLOPs)來衡量模型的復雜度,其數(shù)值越小表示模型的復雜度越低,更加輕量化。

        ② 針對神經(jīng)網(wǎng)絡模型的精度評價,以平均精度(mean Average Precision,mAP)來衡量模型的檢測精度,其數(shù)值越高表示預測準確率越高。

        ③ 針對神經(jīng)網(wǎng)絡模型的速度評價,以每秒傳輸幀數(shù)(Frames Per Second,FPS)來衡量模型的識別速度,其數(shù)值越高表示預測速度越快。

        不同算法的實驗結(jié)果,如表6所示。

        表6 不同算法的實驗結(jié)果對比Tab.6 Comparison of experimental results of different algorithms

        由表6可以得到以下結(jié)論:

        ① 對比開源框架,使用輕量級網(wǎng)絡作為主干網(wǎng)絡能夠大大降低模型的計算量,模型速度也得到了提升,但精度有所下降。

        ② 表中FPS最高的YOLOv5s_SV2與開源框架相比,速度提升了近173%,但mAP卻下降了26.7%。YOLOv5s_MV3模型與開源框架相比,速度提升了36.3%,同時mAP下降了10%。

        ③ YOLOv5s_GN框架則只是模型復雜度有所下降,精度指標mAP和速度指標FPS都沒有提高,反而出現(xiàn)了下降。

        ④ 以上數(shù)據(jù)表明,YOLOv5s_SV2模型的速度最快,如果能夠繼續(xù)改進算法將mAP提高到80%以上,前景非??捎^。

        為此,本文進行了大量的消融實驗來提高YOLOv5s_SV2的精度,實驗數(shù)據(jù)如表7所示。

        表7 輕量級主干網(wǎng)絡消融實驗對比Tab.7 Comparison of lightweight backbone network ablation experiments

        表7第一行是表示本次實驗對開源YOLOv5s算法的復現(xiàn)結(jié)果,以此作為基準線,可以得到以下結(jié)論:

        ① 融合了SE注意力機制的YOLOv5s_SV2框架在數(shù)據(jù)集上精度有所提升,提升了3.5%,效果并不是特別明顯,速度下降了約8.3%。驗證了通道注意力機制能夠在輕量級網(wǎng)絡中提高檢測精度。

        ② 結(jié)合SPPF模塊的YOLOv5s_SV2框架在數(shù)據(jù)集上精度有了較大的提升,提升了19.7%,速度下降了21.5%。驗證了SPPF模塊豐富了特征圖的表達能力,有利于待檢測圖像中目標大小差異較大的情況,因此對檢測精度有很大的提升。

        ③ 同時融合SE注意力機制與結(jié)合SPPF模塊可以在模型精度和性能之間做一個折中,相對于開源YOLOv5s算法,速度提升了約105.7%,模型復雜度下降了約84.2%,精度僅下降了2.8%,驗證了本文所設計輕量級網(wǎng)絡的有效性。

        3.4 算法在不同類型包裹數(shù)據(jù)上的性能對比

        使用YOLOv5s_SV2算法分別在單個包裹和多個堆積包裹以及單個完整包裹和單個破損包裹的數(shù)據(jù)集上單獨進行對比實驗,不同數(shù)據(jù)集的實驗結(jié)果如表8所示。

        表8 本文算法在不同數(shù)據(jù)集上的性能對比Tab.8 Performance comparison of the proposed algorithm on different datasets

        由表8可以得到以下結(jié)論:

        ① 對比單個包裹圖片與多個堆積包裹圖片的數(shù)據(jù)集,前者在本文算法上的檢測精度較高,達到了85.3%,推理速度較快,達到了71.3幀/秒。由于多個堆積包裹圖片的檢測目標較多,數(shù)據(jù)集在算法上的檢測精度和推理速度雖然略微有所下降,但仍有著較高的數(shù)據(jù)值,具有可靠性。

        ② 對比單個完整包裹圖片與單個破損包裹圖片的數(shù)據(jù)集,前者在算法上的推理速度更快,達到了71.7幀/秒,后者在算法上的檢測精度更高,達到了85.9%,二者的實驗結(jié)果數(shù)值相差并不大。

        ③ 根據(jù)對4種不同數(shù)據(jù)特征的包裹數(shù)據(jù)集進行實驗,得到的結(jié)果均有著較高的檢測精度與檢測速度,驗證了本文所提出的算法能夠準確識別多種不同數(shù)據(jù)特征的包裹圖片,兼顧了推理速度與檢測精度,在實際包裹破損檢測場景中,符合輕量化模型這一需求。

        4 結(jié)束語

        本文提出了一種新的自然場景包裹破損檢測框架,并在模型主干網(wǎng)絡部分融合了通道注意力機制,其中SPPF模塊能將有效特征更精確地覆蓋到目標區(qū)域,在突出目標特征的同時能抑制無關(guān)的背景噪聲。在數(shù)據(jù)集上的實驗結(jié)果表明,本文所提方法對多種不同破損程度的包裹圖像檢測精度可達 82.7%,模型泛化能力較好,且相比于目前先進的算法在FPS指標上有一定的提升,證明了方法的有效性。此外,為了促進對目標檢測識別領(lǐng)域的研究,接下來將考慮把模型應用于其他檢測場景下進行研究,從而給予更多科研人員以參考。

        猜你喜歡
        檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應用
        亚洲av日韩精品久久久久久久 | 国产91色在线|亚洲| 亚洲国产成人片在线观看无码| 男人靠女人免费视频网站| 精品成人乱色一区二区| 日本色噜噜| 亚洲日韩区在线电影| 蜜桃av多人一区二区三区| 人妻精品久久久一区二区| 国产尤物自拍视频在线观看 | 精品少妇一区二区av免费观看| 琪琪色原网站在线观看| 特级精品毛片免费观看| 中国凸偷窥xxxx自由视频妇科 | 亚洲色图视频在线播放| 日韩午夜免费视频精品一区| 亚洲一区精品无码| 日韩精品极品视频在线观看免费| 99re8这里有精品热视频免费| 亚洲av色无码乱码在线观看| 在线观看网址你懂的| 久久精品国产亚洲av热一区| 少妇人妻精品一区二区三区视| 偷拍一区二区三区高清视频| 精品亚洲麻豆1区2区3区| 爆乳熟妇一区二区三区霸乳| 色偷偷av亚洲男人的天堂| 国产丝袜在线精品丝袜不卡| 久久久久无码中文字幕| 久久久精品网站免费观看| 免费在线观看播放黄片视频| 人妻仑乱a级毛片免费看| 99香蕉国产精品偷在线观看 | 久久久精品2019免费观看| 日本熟妇中文字幕三级 | 色偷偷888欧美精品久久久 | 麻豆国产成人av高清在线观看| 福利视频一二区| 国产精品久久夜伦鲁鲁| 日本视频一区二区三区观看| 亚洲午夜无码毛片av久久|