亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進YOLOv5的目標檢測算法研究

        2022-07-13 01:57:36邱天衡白燕娥
        計算機工程與應用 2022年13期
        關鍵詞:輕量化復雜度注意力

        邱天衡,王 玲,王 鵬,白燕娥

        長春理工大學 計算機科學技術學院,長春 130022

        目標檢測是計算機視覺經(jīng)久不衰的研究方向,被廣泛應用在航空航天、交通、醫(yī)療、工業(yè)、農(nóng)業(yè)、自動駕駛等眾多領域,顯著地改善著人們的日常生活。

        隨著大數(shù)據(jù)時代的到來以及GPU 算力的不斷增強,深度學習在計算機視覺各領域中逐漸展露其優(yōu)勢,尤其是目標檢測任務。目標檢測主要分為靜態(tài)圖像目標檢測和動態(tài)視頻目標檢測。文獻[1]給出了近年來各種圖像目標檢測算法及其改進方法,視頻目標檢測主要以圖像目標檢測為基礎,連接循環(huán)神經(jīng)網(wǎng)絡提取復雜的時序信息,文獻[2]給出了近年來的視頻目標檢測方法的研究與發(fā)展。從2014 年開始,基于深度學習的目標檢測網(wǎng)絡井噴式爆發(fā),先是二階段網(wǎng)絡,如R-CNN、Fast-RCNN[3]、Mask-RCNN[4]等,自2016 年文獻[5]提出you only look once(YOLOv1)以來,更輕更快的單階段目標檢測網(wǎng)絡開始進入學者們的視野,開啟了單階段目標檢測網(wǎng)絡的新紀元。文獻[6-9]均是對單階段目標檢測模型改進的研究,為各研究領域提供了更快、更好的目標檢測方法,也為單階段目標檢測算法的實際應用提供了重要理論保障。2020 年,YOLOv5 問世,以最高140FPS 的檢測速度震驚世人,使其成為實時條件和移動部署環(huán)境上的理想候選者。

        為了更好地提取檢測目標的特征,許多優(yōu)秀的卷積神經(jīng)網(wǎng)絡被應用于Backbone中,如VGG[10]、ResNet[11]等,但這些網(wǎng)絡訓練和預測的代價太大,用于YOLO網(wǎng)絡的特征提取會使其失去實時性,無法滿足工業(yè)應用的要求。隨著移動端部署的需求不斷增強和模型應用場景的多樣化發(fā)展,許多輕量化深度神經(jīng)網(wǎng)絡應運而生。MobileNet[12]的基本單元是深度可分離卷積,把標準卷積拆分為深度卷積和點卷積,用較少的計算量獲得了幾乎無損的精度。ShuffleNet[13]在此基礎上,利用組卷積和通道混洗來進一步減少模型參數(shù)量。最近,華為諾亞方舟實驗室在CVPR 2020上提出了一種新型的端側神經(jīng)網(wǎng)絡GhostNet[14],利用一些廉價的操作進行變換,在同等參數(shù)量的情況下,精度遠高于之前的輕量化網(wǎng)絡。

        文獻[15-18]針對特定領域,對YOLOv5進行了輕量化改進,但幾種模型均沒有對一般數(shù)據(jù)集,如COCO、PASCAL VOC 等進行性能驗證。同時,在實際工業(yè)應用中,發(fā)現(xiàn)YOLOv5s對邊界框的回歸不夠精準,使用更深的YOLOv5m、YOLOv5l 等又會受到硬件的制約,均難以滿足對實時性和目標框回歸準確率要求都很高的場景。為了解決這個問題,本研究基于YOLOv5提出一種針對一般數(shù)據(jù)集的輕量化和具有更高精度的目標檢測模型:

        (1)提出跨層加權級聯(lián)的路徑聚合網(wǎng)絡(WCALPAN)。首先,為了防止淺層目標特征丟失,在PANet[19]結構中加入跨層級聯(lián)的加權融合結構,將細節(jié)信息傳遞到深層網(wǎng)絡;其次,為了獲得更加豐富的語義信息,加深金字塔的深度,并對應增加Head部分的檢測層,在四種尺度下進行檢測,使錨框的鋪設間隔更加合理;最后,為了削減上采樣過程帶來的特征損失,改進了上采樣方法。

        (2)提出改進CBAM 并行注意力模塊(P-CBAM)。首先對特征圖同時提取空間和通道注意力特征,然后進行加權融合。并行模式的CBAM注意力結構作為一個即插即用的模塊,可以插入到Backbone 中的每個卷積模塊后,用來提高網(wǎng)絡的收斂速度、精確度和對目標邊界的回歸能力。

        (3)輕量化網(wǎng)絡。以GhostConv 作為基本卷積模塊,通過廉價的線性變換生成更多的特征圖,使用GhostBottleneck替換掉原有的殘差塊,對整個檢測網(wǎng)絡進行輕量化處理,以更少的參數(shù)量、更快的速度獲得更好的檢測效果。

        1 YOLOv5概述

        YOLO 算法基于整個圖片進行預測,一次性給出所有的檢測結果。經(jīng)過不斷更新迭代,現(xiàn)已推出了YOLOv5,按照模型大小遞增可分為s、m、l、x,各模型僅在網(wǎng)絡的深度和寬度上有所不同,均由輸入端、Backbone、Neck、Head四部分構成。輸入端使用Mosaic數(shù)據(jù)增強、自適應初始錨框計算、圖片縮放等對圖像進行預處理;Backbone采用了Focus下采樣、改進CSP結構、SPP池化金字塔結構提取圖片的特征信息;Neck主要采用FPN+PAN的特征金字塔結構,實現(xiàn)了不同尺寸目標特征信息的傳遞,解決了多尺度問題;Head采用三種損失函數(shù)分別計算分類、定位和置信度損失,并通過NMS提高網(wǎng)絡預測的準確度。

        Conv 模塊為復合卷積模塊,是許多重要模塊的基本組成部分,結構如圖1所示。

        圖1 Conv結構Fig.1 Conv structure

        該模塊封裝了卷積層、BN 層以及激活函數(shù)層。卷積層通過autopad函數(shù)實現(xiàn)自適應padding的效果。

        Focus模塊結構如圖2所示。首先將輸入圖片按照2倍下采樣切分為四部分,然后在通道維度拼接得到12維的特征圖,再經(jīng)過3×3的復合卷積模塊進一步提取特征信息,生成32維的特征圖。Focus下采樣不但信息丟失少,而且通過reshape減少了卷積所帶來的FLOPs,提升了網(wǎng)絡的速度。

        圖2 Focus結構Fig.2 Focus structure

        Bottleneck為基本殘差塊,被堆疊嵌入到C3模塊中進行特征學習,結構如圖3所示。

        圖3 Bottleneck結構Fig.3 Bottleneck structure

        利用兩個Conv 模塊將通道數(shù)先減小再擴大對齊,以此提取特征信息,并使用ShortCut控制是否進行殘差連接。

        C3 模塊是改進后的BottleneckCSP 模塊,結構如圖4所示。

        圖4 C3結構Fig.4 C3 structure

        在C3模塊中,輸入特征圖會通過兩個分支,第一個分支先經(jīng)過一個Conv模塊,之后通過堆疊的Bottleneck模塊對特征進行學習;另一分支作為殘差連接,僅通過一個Conv 模塊。兩分支最終按通道進行拼接后,再通過一個Conv模塊進行輸出。

        SPP 模塊是空間金字塔池化模塊,可以擴大感受野,結構如圖5所示。

        圖5 SPP結構Fig.5 SPP structure

        先將輸入特征圖經(jīng)過一個Conv 模塊減半通道數(shù),然后分別做三種不同卷積核的最大池化下采樣,再將三種池化結果與輸入特征圖按通道進行拼接,合并后的通道數(shù)為原來的兩倍,以較小的代價最大限度地提升了感受野。

        基于上述介紹,YOLOv5的基本架構如圖6所示。

        圖6 YOLOv5架構圖Fig.6 YOLOv5 architecture diagram

        2 本文算法

        2.1 網(wǎng)絡整體結構

        本研究基于YOLOv5提出了改進網(wǎng)絡YOLO-G,使用WCAL-PAN和P-CBAM來提高網(wǎng)絡的回歸精度和收斂速度,并引入Ghost 相關模塊降低網(wǎng)絡的復雜度。模型的網(wǎng)絡結構如表1所示。其中,“from”表示該層模塊對應的輸入層,?1表示上一層?!癆dd”表示W(wǎng)CAL-PAN中跨層加權相加模塊,“Ghost”表示該層引入了Ghost模塊?!癝imple”標記的模塊表示不添加P-CBAM機制。

        表1 YOLO-G算法架構Table 1 Architecture of YOLO-G algorithm

        2.2 跨層加權級聯(lián)的路徑聚合網(wǎng)絡(WCAL-PAN)

        深度學習的淺層網(wǎng)絡關注細節(jié)信息,如邊緣特征,在獲取簡單特征的基礎上,可以幫助網(wǎng)絡更準確的回歸目標邊界;深層網(wǎng)絡側重提取高級語義信息,可以提取到更加復雜的特征,能夠幫助網(wǎng)絡準確地檢測出目標。FPN結構據(jù)此使用淺層特征區(qū)分簡單的目標,深層特征區(qū)分復雜的目標,旨在獲得魯棒性更強的檢測結果。YOLOv5的FPN結構是基于PAN的,創(chuàng)建了自下而上的路徑增強,加速了底層信息的流動,能夠很好地融合各層次的語義信息。為了進一步增強模型對淺層語義的關注度,充分融合FPN 各層所提取出的語義信息,增強網(wǎng)絡對目標邊界的回歸能力,本研究對YOLOv5的FPN進行改進,稱為weighted connections across layers-path aggregation network(WCAL-PAN),具體改進點如下:

        (1)在同一尺寸的輸入、輸出節(jié)點間加入跨層加權連接[20]。跨層級聯(lián)結構能夠有效地將淺層的細節(jié)、邊緣、輪廓等信息融入到深層的網(wǎng)絡中,可以在幾乎不增加計算量的同時,融合到目標的淺層細節(jié)信息,使網(wǎng)絡對目標邊界的回歸更加精準,有效提升預測框與真實框的交并比。同時,考慮到使用跨層級聯(lián)時淺層特征的融入會對深層語義信息造成一定的影響,所以采用可學習的方式進行融合。以下給出本研究所使用的兩種融合方式:

        在特征融合過程中,由于頂層和底層的節(jié)點信息流動速度較快,經(jīng)歷的卷積數(shù)目較少,所以對細節(jié)信息的損失不多,為了減小模型的復雜度,所以直接采用concat操作按通道進行特征融合,過程如圖7所示。

        圖7 一般特征融合示意圖Fig.7 Diagram of general feature fusion

        對于其他層的節(jié)點,相鄰路徑上采用concat操作進行特征融合,不相鄰路徑上采用可學習權重的加權add操作進行特征融合,add操作既可以減少計算量,也可以減少無效淺層信息的融合。計算見公式(1):

        式中xi表示每個要進行融合的特征圖;μi是該特征圖的權重系數(shù),可通過學習進行更新,初始的權重系數(shù)設定為1,表示兩層特征圖對等融合;?是一個很小的數(shù)字(≤10?3),可有效防止數(shù)值不穩(wěn)定的情況。將權重標準化到0~1 之間,提高訓練的速度的同時,可以防止訓練不穩(wěn)定的情況發(fā)生。依據(jù)公式(1),對于某一中間層的特征融合方式如圖8所示。

        圖8 跨層級聯(lián)示意圖Fig.8 Linking diagram of across hierarchies

        在圖7和圖8中,給定某層輸入特征圖F1∈Rw×h×c1,自頂向下路徑對應層的特征圖F2∈Rw×h×c2,自底向上路徑對應層的特征圖F3∈Rw×h×c3,“*”表示concat 操作,“+”表示add 操作,weight1、weight2分別是兩條路徑上特征圖融合的權重值。

        從兩圖中可以看出,頂層和底層輸出節(jié)點的特征融合采用的是concat操作;而中間層節(jié)點的特征融合的過程中首先經(jīng)歷了concat操作,之后與經(jīng)過通道對齊后的輸入層進行加權add 操作。最終在輸出節(jié)點得到的特征圖是含有細節(jié)、邊緣和高級語義信息的復合特征圖。為了便于理解,以中間層P4 為例,各路徑上輸出的計算如公式(2)、(3)所示:

        (2)向上加深特征金字塔深度。FPN 高層感受野大,包含的語義信息更高級,可以增加網(wǎng)絡的學習能力,進一步提高檢測精度。YOLOv5的FPN為3層,基于改進(1),本研究將其加深為4層,可以充分利用所提跨層級聯(lián)結構。除此之外,為了匹配FPN 的深度,本研究增加Detect 部分的檢測層,分別命名為tiny、small、medium、large,依次對P3、P4、P5、P6 輸出的特征圖進行目標檢測,增加檢測層之后錨框的鋪設間隔變得更加合理,訓練的穩(wěn)定性以及模型的收斂速度和精度都會得到有效提升。

        基于改進點(1)、(2),本文采用的FPN 結構簡化版如圖9所示。

        圖9 本文所用FPN結構Fig.9 FPN structure used in this paper

        圖9 中橙色虛線即為跨層級聯(lián),從圖中可以看出,跨層加權融合僅僅用于兩個中間層P4、P5,對于頂層P6 和底層P3,由于信息流動造成的損失不多,考慮到模型的運行效率,本研究直接將兩部分特征圖按通道進行拼接。為了客觀給出加深金字塔對網(wǎng)絡造成的影響,表2 給出了加深金字塔前后YOLOv5s 的效果對比,其中WCAL-PAN_1表示加深金字塔后的PAN模塊。

        表2 加深金字塔前后YOLOv5s的效果對比Table 2 Effect comparison of YOLOv5s before and after deepening pyramid

        可見,加深金字塔后,雖然模型精度mAP@0.5 和mAP@0.5:0.95 獲得了大幅提升,但參數(shù)量的大幅增加使得加載網(wǎng)絡需要更多的顯存,加大了模型訓練對硬件的要求,同時也影響了模型運行的速度。為了解決這樣的問題,本研究引入了Ghost 系列模塊對網(wǎng)絡進行輕量化處理,在一定程度上彌補加深金字塔后網(wǎng)絡復雜度上升所帶來的負面影響。

        (3)改進YOLOv5上采樣方法。YOLOv5采用最鄰近插值法進行上采樣,該方法選用單個參考點像素值進行估計,雖然速度快、開銷小,但上采樣過程中會造成很嚴重的特征損失,降低小目標的檢測精度。雙線性插值法利用4 個點估計插值,得到的特征圖更加細膩,細節(jié)的損失更少,于是本研究將上采樣方法改為雙線性插值法,二者復雜度僅僅是常數(shù)級的差距,相對于精確度的提升,帶來的計算開銷是可以接受的。

        表3 為使用PAN 結構和兩種WCAL-PAN 結構的YOLOv5s 的實驗精度對比,WCAL-PAN 表示完全使用本研究所提出的FPN 結構。從表中可以看出,使用WCAL-PAN比PAN的mAP@0.5指標提升了4.9個百分點,高交并比要求下的mAP@0.5:0.95 指標提高了8.0個百分點,比加深金字塔的WCAL-PAN_1 在mAP@0.5:0.95指標上提升了1.6個百分點,證明了跨層級聯(lián)結構能進一步提高網(wǎng)絡對邊界的回歸精度??偟膩碚f,WCAL-PAN結構使得網(wǎng)絡各層次語義信息融合得更加合理充分,WCAL-PAN 的引入使網(wǎng)絡精度有了大幅上升,尤其是高交并比要求下的精度進一步提高,證明網(wǎng)絡從WCAL-PAN 結構中融合到了更加有效的特征信息,可以更好地回歸目標的邊界框,契合高交并比下的工業(yè)目標檢測任務。

        表3 WCAL-PAN和PAN在YOLOv5s下的效果對比Table 3 Effect comparison of WCAL-PAN and PAN in YOLO%v5s

        2.3 并行混合域卷積注意力模塊(P-CBAM)

        注意力機制通過給不同部分的特征圖賦予權重或硬性選擇部分特征圖,抑制無用信息,以達到選擇更優(yōu)特征的目的。文獻[21]結合通道和空間的信息,提出了一種混合域卷積注意力模塊(convolutional block attention module,CBAM),該模塊首先逐通道提取全局特征,生成通道注意力特征圖,并以此作為空間注意力的輸入,最終生成混合域特征圖,可以有效提高模型的收斂速度和檢測精度。事實上,在深度卷積神經(jīng)網(wǎng)絡中,有些層更加關注通道特征,而引入空間特征則會讓網(wǎng)絡變得敏感,甚至會產(chǎn)生許多非像素信息;有的層更加關注空間特征,而引入通道特征容易對網(wǎng)絡造成過擬合的情況。但CBAM空間和通道注意力串行的信息交流方式忽略了上述特點,本研究基于此進行改進。對于不同的特征圖數(shù)據(jù),由于無法預知特征圖對通道和空間的關注程度,首先賦予通道注意力模塊和空間注意力模塊相同的優(yōu)先級,然后以可學習的加權融合方式提取混合域特征信息,以此進行特征圖空間和通道的信息交流,充分利用通道和空間維度的注意力信息,稱為parallelconvolutional block attention module(P-CBAM),結構如圖10所示。

        圖10 P-CBAM結構Fig.10 P-CBAM structure

        對于輸入特征圖F∈RW×H×C,通道注意力模塊和空間注意力模塊輸出的計算如公式(4)、(5)所示:

        式中,F(xiàn)C和FS分別為通道和空間注意力特征圖,?表示元素乘法,在該過程中,MC和MS被沿著通道和空間維度進行廣播。Fout是對兩種類型的特征圖進行加權融合的結果。本研究通過ShortCut控制殘差連接,使用簡便的歸一化除法保證訓練的穩(wěn)定性。P-CBAM從對等的角度獲取一維通道和二維空間的注意力信息,能夠更加有針對性地提取圖片特征,提升圖像識別效果,以下從定性定量兩個角度證明P-CBAM的有效性。

        表4為YOLOv5s與加入各種注意力機制后在VOC2007測試集下的精度對比,從表中可以看出加入注意力機制普遍能夠提升網(wǎng)絡的精度。原始算法在加入CBAM后造成了精度下降,而加入P-CBAM后,在mAP@0.5指標上比最優(yōu)的ECA機制僅差0.2個百分點,相比原始算法提高0.6 個百分點;在mAP@0.5:0.95 指標上,P-CBAM在4種注意力機制中獲得了最優(yōu)的效果,相比原始算法提高1.8 個百分點,更適用于高交并比下的目標檢測任務,證明賦予空間和通道注意力機制相同的優(yōu)先級并以加權的方式提取注意力信息是對CBAM模塊有效的改進方法。

        表4 各種注意力機制與P-CBAM在YOLOv5s下的對比Table 4 Comparison of various attentional mechanisms and P-CBAM in YOLOv5s%

        如圖11為特征圖經(jīng)過各種注意力機制處理后的加權熱力圖。從圖中可以看出,和其他3種主流注意力機制相比,加入P-CBAM 后,網(wǎng)絡對檢測目標區(qū)域的覆蓋度和關注程度都獲得了提升,證明P-CBAM能夠幫助深度卷積網(wǎng)絡提取到更加關鍵的特征信息。

        圖11 各種注意力機制與P-CBAM熱力對比Fig.11 Thermal contrast of various attentional mechanisms and P-CBAM

        此外,為了驗證P-CBAM注意力機制在不同類型目標檢測問題上的普適性,表5給出了加入P-CBAM前后YOLOv5s在VOC數(shù)據(jù)集、SKU-110K數(shù)據(jù)集、Argoverse數(shù)據(jù)集、VisDrone2019 數(shù)據(jù)集上的檢測效果,實驗結果格式為mAP@0.5/mAP@0.5:0.95。4 種數(shù)據(jù)集涵蓋了各種目標分布類型,除了比較容易檢測的大目標外,還包括了一些目標檢測領域的重難點問題,如小目標、模糊目標、密集目標、形態(tài)多樣目標等。

        表5 P-CBAM在多個數(shù)據(jù)集下的檢測效果Table 5 Detection effects of P-CBAM in multiple data%sets

        從表中可以看出,加入P-CBAM 注意力機制后的YOLOv5s相比原始算法在所有數(shù)據(jù)集上的精度都獲得了一定提升,證明P-CBAM模塊對于各種目標檢測任務的普適性。

        2.4 網(wǎng)絡結構輕量化

        GhostNet的基本思想是根據(jù)特征圖之間的聯(lián)系,把一般卷積拆分為兩步,圖12給出一般卷積和Ghost卷積的對比示意圖。

        圖12 一般卷積與Ghost卷積對比圖Fig.12 Contrast diagram of general and Ghost convolution

        Ghost 模塊包含一個少量卷積、一個總體恒等映射和m×(s?1)個線性運算。首先通過一般卷積生成少量特征圖,然后將第一步得到的特征圖進行廉價線性操作生成Ghost特征圖,最后將兩組特征圖按通道拼接,生成足夠多的特征圖以匹配給定的輸出通道數(shù)。

        對于輸入X∈RW×H×C,一般卷積的輸出Y∈RW′×H′×n可以表示為Y=X?f+b,其中f∈Rk×k×C×n表示卷積核大小為k×k的C×n個卷積運算,b表示偏置項。一般卷積的FLOPs可表示為W′?H′?n?k?k?C。Ghost卷積采用分步策略,計算如公式(9)、(10)所示:

        其中少量卷積結果Y′∈RW′×H′×m表示對輸入X經(jīng)過一般卷積f′∈Rk×k×C×m后生成的m個特征圖(m?n);之后將m個特征圖逐個進行線性操作,每個特征圖均生成s個特征圖,共生成n=m×s個特征圖。Φi,j表示對第一步卷積中生成的第i個特征圖Y′i進行第j個線性操作,Φi,s表示一個直接的特征恒等映射。為了保證CPU 或GPU 的高效性和實用性,設每個線性操作的卷積核大小均為d×d,則一般卷積和Ghost卷積的速度比可用公式(11)進行計算:

        由化簡結果可得一般卷積的計算量大致為Ghost卷積的s倍,同理可計算出參數(shù)量也近似為s倍。Ghost 卷積是一個更輕、更快的模塊,本研究以此為基礎,使用Ghost 卷積替換了YOLOv5 中的部分一般卷積,替換后的Conv、Bottleneck 和C3 這3 種主要模塊結構如圖13所示。

        圖13 Ghost系列模塊Fig.13 Ghost series modules

        圖13 中,K表示卷積核大小,act 表示是否有非線性激活函數(shù)層,act=False 表示未含有非線性激活函數(shù),DWConv 為逐通道卷積。輕量化后的模型在保證準確率降低最少的條件下,大大減少了參數(shù)量和計算量,提升了網(wǎng)絡的運行速度,表6 為輸入尺寸為640×640 的圖像在全部使用Ghost系列模塊替換后的網(wǎng)絡與YOLOv5s模型的對比結果。

        表6 YOLOv5s和YOLO-G的結果對比Table 6 Results comparison of YOLOv5s and YOLO-G

        由表6可以看出,替換后網(wǎng)絡計算量減少了52.7%,參數(shù)量減少了51.9%,模型大小減少了52%,目標檢測推理速度提升了18%。實驗結果證明了使用Ghost模塊對網(wǎng)絡進行輕量化的有效性,而參數(shù)量和計算量的大幅降低能夠有效減小模型訓練和預測對硬件的要求,使模型更適配于實際的工業(yè)應用。Ghost結構使得網(wǎng)絡的復雜度得以降低,能夠彌補P-CBAM 和WCAL-PAN 引入后所帶來的計算量和參數(shù)量的上升。

        3 實驗結果及分析

        3.1 實驗環(huán)境與參數(shù)設置

        具體實驗環(huán)境如表7所示。

        表7 實驗環(huán)境Table 7 Experimental environment

        所有YOLO 模型初始學習率為0.01,動量參數(shù)為0.92,最終學習率為0.2,BatchSize為64,并采用epoch為3,動量參數(shù)為0.8 的warm-up 方法預熱學習率。在warm-up 階段,采用一維線性插值更新學習率,預熱結束后采用余弦退火對學習率進行更新。

        3.2 數(shù)據(jù)集及預處理

        本研究使用PASCAL VOC 2007 和2012 數(shù)據(jù)集進行實驗,該數(shù)據(jù)集包含4個大類和20個小類。訓練集選用VOC 2007 和2012 數(shù)據(jù)集中的train+val 部分,共16 551 張圖片;測試集選用VOC 2007 數(shù)據(jù)集中的test部分,共4 952張圖片。

        首先對數(shù)據(jù)集標簽格式進行轉化,將PASCAL VOC格式轉化為YOLO的文本格式,生成id、x、y、w、h,并進行歸一化,然后把轉換結果按訓練集和驗證集的方式進行存儲。

        其次,對640×640大小的圖片,采用k-means算法重新對數(shù)據(jù)集中的目標框進行聚類,并對聚類產(chǎn)生的所有anchors使用genetic algorithm算法進行2 000輪變異,保留得到最佳召回率最大的結果,得到的最終anchors 如表8所示。

        表8 聚類后的anchors大小Table 8 Anchors size after clustering

        本研究使用隨機增減亮度、對比度、飽和度、色調,以及隨機縮放、裁減、翻轉、擦除等基本方法和Mosaic方法進行數(shù)據(jù)增強。Mosaic 數(shù)據(jù)增強選取4 張經(jīng)過進行上述基本方法操作后的圖片進行隨機編排和拼接,一方面變相地增大了BatchSize,降低顯存占用率,另一方面擴充了原始數(shù)據(jù)集,防止過擬合的發(fā)生,提高了模型的整體魯棒性,數(shù)據(jù)增強后效果如圖14所示。

        圖14 數(shù)據(jù)增強后的效果圖Fig.14 Rendering after enhanced data

        3.3 評價指標

        本研究使用mAP@0.5、mAP@0.5:0.95、參數(shù)量、計算量(GFLOPs)、模型大小、FPS作為目標檢測模型的衡量標準。其中,mAP@0.5代表在IOU閾值為0.5時的平均AP;mAP@0.5:0.95代表在IOU閾值為從0.5到0.95,步長為0.05時各個mAP的平均值。

        參數(shù)量和計算量指標分別從時間和空間上衡量模型的復雜度,mAP@0.5主要用于體現(xiàn)模型的識別能力,mAP@0.5:0.95 由于要求的IOU 閾值更高,主要用于體現(xiàn)定位效果以及邊界回歸能力,前5個評價指標的值均與檢測效果呈正相關,F(xiàn)PS 表示每秒檢測圖像的數(shù)目,值越大檢測速度越快。

        mAP 計算中的AP 即P-R 曲線下方面積,具體計算基于公式(12)~(14):

        式中,TP代表IOU大于等于設定閾值的檢測框數(shù)目,F(xiàn)P代表代表IOU 小于設定閾值的檢測框數(shù)目,F(xiàn)N 代表漏檢的目標數(shù)目。

        3.4 定量評價

        為了驗證所提算法YOLO-G 的有效性,本研究將其與一些輕量化檢測模型和主流的單階段、二階段目標檢測模型進行了比較,實驗結果如表9 所示??梢姡琘OLO-G相比大部分網(wǎng)絡不僅復雜度更小,而且精度上也有著顯著優(yōu)勢,尤其是mAP@0.5:0.95 指標,幾乎是所有對比模型中最優(yōu)的;相比于相同Baseline的輕量化的網(wǎng)絡YOLOv5-mobileNet、YOLOv5-ShuffleNet,雖然模型復雜度稍大,但是檢測精度方面有著明顯的優(yōu)勢;改進后的網(wǎng)絡在GPU下的FPS達到51.3,由于WCAL-PAN模塊、P-CBAM模塊的加入,以及輕量化depth-wise卷積的大量引入,使得YOLO-G 的檢測速度未達到最優(yōu),但也可以滿足實時檢測任務的需求。而網(wǎng)絡參數(shù)量和計算量的進一步優(yōu)化,使得模型時間、空間復雜度大大減少,讓模型訓練和檢測時對硬件的要求更低,可以被廣泛應用于一些低成本的工業(yè)檢測問題。在13組對比實驗中,YOLO-G 在模型復雜度升序中位列第3,在mAP@0.5 指標降序排列中位列第3,與top1 僅僅相差0.9個百分點,在mAP@0.5:0.95指標降序排列中位列第2,與top1僅僅相差0.3個百分點。結合模型復雜度和實際應用效果,從總體上看,在高交并比需求的工業(yè)任務中,YOLO-G在眾多模型中的表現(xiàn)更加出色。

        表9 對比實驗Table 9 Contrast experiments

        3.5 定性評價

        本研究還使用了3 組場景的圖片對YOLOv5 和YOLO-G的檢測效果進行定性評價,所有實驗輸入圖片大小均為640,置信度閾值為0.25,NMS 閾值為0.45,實驗結果如圖15所示。

        圖15 YOLOv5和YOLO-G效果對比Fig.15 Comparison of YOLOv5 and YOLO-G effects

        第1組實驗圖片的先驗目標數(shù)量較少,此時YOLOv5出現(xiàn)了大量漏檢的情況,而YOLO-G檢測出了更多正確的目標,證明YOLO-G 能提取出更豐富的特征;第2 組實驗圖片中的目標較密集、遮擋較嚴重,YOLOv5 漏檢的數(shù)量進一步增多,且出現(xiàn)了一定的誤檢框,而YOLO-G的檢測精度并未下降;第3組圖片中部分目標的特征較為模糊,識別很困難,但YOLO-G 的檢測效果依然比較出色??傮w來說,YOLO-G對正確預測框的置信度和交并比都普遍高于YOLOv5,證明網(wǎng)絡提取到了更加豐富的語義信息,表現(xiàn)出了更好的性能。

        3.6 消融實驗

        為了進一步驗證本研究所提算法的檢測性能,探究各個改進方法的有效性,在YOLOv5s的基礎上設計了8組消融實驗,每組實驗使用相同的超參數(shù)以及訓練技巧,實驗結果如表10所示。

        表10 消融實驗Table 10 Ablation experiments

        其中,WCAL-PAN 代表所提FPN 結構,P-CBAM 代表本研究所提注意力機制,Ghost代表引入Ghost系列模塊,“√”代表引入模塊,組別7中WCAL-PAN下“√”代表不引入跨層加權連接結構。由于引入Ghost模塊是為了進行網(wǎng)絡輕量化,所以不對單獨引入Ghost 模塊后的網(wǎng)絡計算mAP。

        從表10 中可以看出,Ghost 系列模塊的引入,使網(wǎng)絡計算量減少了52.7%,參數(shù)量減少了51.9%,是有效的輕量化手段;加入P-CBAM模塊后mAP@0.5提升0.6個百分點,mAP@0.5:0.95 提升1.8 個百分點,雖然對網(wǎng)絡精度提升不多,但其幾乎不增加網(wǎng)絡的參數(shù)量和計算量。同時在引入Ghost 模塊降低模型復雜度后,雖然mAP@0.5 指標下降了0.8 個百分點,但是mAP@0.5:0.95 依然比之前提升了0.5 個百分點,證明P-CBAM 模塊的引入,提高了模型對目標邊界的回歸能力,使預測出的目標框更加貼合物體的輪廓,對于一些對IOU要求較高、需要更準確定位物體的任務來說,加入P-CBAM是非常有效的;其次,WCAL-PAN對網(wǎng)絡精度的提升是最多的,mAP@0.5提升4.9個百分點,mAP@0.5:0.95提升8個百分點,但網(wǎng)絡結構比原始YOLOv5s復雜,對硬件的要求較高,并且犧牲了一些實時性,引入Ghost模塊后,在mAP@0.5提升2.0個百分點,mAP@0.5:0.95提升4.0個百分點的情況下,不僅使網(wǎng)絡參數(shù)量有所降低,并且使計算量減少為原來的50.3%;無論是P-CBAM或者WCAL-PAN 都會增加網(wǎng)絡復雜度,尤其是使用WCALPAN后,網(wǎng)絡的參數(shù)量增加了44.9%,而引入Ghost可以有效降低網(wǎng)絡復雜度,大大地減少計算量,達到速度和精度兩方的平衡,最終改進后的模型相比YOLOv5s,參數(shù)量減少了4.7%,計算量減少了47.9%,而mAP@0.5提高了3.1個百分點,mAP@0.5:0.95提高了5.6個百分點,模型對目標框的擬合能力進一步加強,且網(wǎng)絡運行時對硬件要求更小,可以被廣泛應用于一些對目標框IOU要求較高,需要定位得更加準確的工業(yè)任務。

        另外,針對比較難分辨的小目標,設計了4 組消融實驗,結果如表11 所示,表中實驗結果格式為mAP@0.5/mAP@0.5:0.95。從表中可以看到,WCAL-PAN 對小目標提升效果較大,mAP@0.5 提高了3.3 個百分點,mAP@0.5:0.95 提高了5.1 個百分點,而P-CBAM 的作用更多的體現(xiàn)在邊框回歸精度的上,mAP@0.5:0.95 提升了1.3個百分點。最終本文所提模型YOLO-G在小模型檢測上,mAP@0.5 提高了2.6 個百分點,mAP@0.5:0.95 提高了2.7 個百分點,使模型對小目標檢測效果也得到了有效提升。

        表11 小目標消融實驗Table 11 Small target ablation experiments %

        4 結語

        本文研究基于YOLOv5 提出了一種改進的目標檢測算法YOLO-G。采用WCAL-PAN、P-CBAM 結構對網(wǎng)絡的精度和目標框邊界的回歸能力進行提升;使用Ghost模塊對網(wǎng)絡進行輕量化處理,填補WCAL-PAN和P-CBAM 模塊引入后對網(wǎng)絡實時性能造成的損失。YOLO-G和YOLOv5s相比,參數(shù)量減少了7.9%,計算量減少了49%,而mAP@0.5 提高了3.1 個百分點,mAP@0.5:0.95提高了5.6個百分點。但為了減少模型復雜度,實現(xiàn)移動端目標檢測,接下來將對網(wǎng)絡進行剪枝、蒸餾等處理,進一步對模型進行輕量化;另外,Head 階段中上采樣部分仍可繼續(xù)改進,如果使用一些復雜度較低的圖像超分算法,可以更好地檢測出小目標。

        猜你喜歡
        輕量化復雜度注意力
        讓注意力“飛”回來
        汽車輕量化集成制造專題主編
        一種輕量化自卸半掛車結構設計
        智富時代(2019年2期)2019-04-18 07:44:42
        一種低復雜度的慣性/GNSS矢量深組合方法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        求圖上廣探樹的時間復雜度
        A Beautiful Way Of Looking At Things
        瞄準掛車輕量化 鑼響掛車正式掛牌成立
        專用汽車(2016年1期)2016-03-01 04:13:19
        某雷達導51 頭中心控制軟件圈復雜度分析與改進
        用戶:輕量化掛車的使用體驗
        專用汽車(2015年4期)2015-03-01 04:09:07
        日本高清一区二区三区水蜜桃| 亚洲丝袜美腿精品视频| 日韩国产精品一区二区三区 | 美女一级毛片免费观看97| 日韩少妇无码一区二区免费视频| 二区三区视频在线观看| 男女啪啪在线视频网站| 音影先锋中文字幕在线| 日本最新免费二区三区| 国产真实偷乱视频| 国产精品主播视频| 蜜桃精品国产一区二区三区| 日本va中文字幕亚洲久伊人| 嫩草伊人久久精品少妇av| 欧美人妻少妇精品久久黑人| 中文字幕有码无码av| 黄色毛片视频免费| 天堂av一区一区一区| 精品久久人妻av中文字幕| 日本一区二区视频在线| 国产精品h片在线播放| 亚洲乱码中文字幕综合| 最新国产乱视频伦在线| 亚洲大尺度动作在线观看一区| 国产亚洲精品综合在线网站| 日本一区二区精品高清 | 中国亚洲一区二区视频| 亚洲av无码av在线播放| 每天更新的免费av片在线观看| 精品人妻无码中文字幕在线| 国产熟女自拍视频网站| 美女和男人一起插插插| 久久久国产精品| 最近最好的中文字幕2019免费 | 日日麻批免费高清视频| 性色av一二三天美传媒| 国产在线精品一区在线观看| 久久中文字幕av一区二区不卡| 精品国产1区2区3区AV| 精品国产av一区二区三四区| 人妻少妇哀求别拔出来|