趙璐璐,王學(xué)營(yíng),張 翼,張美月
基于YOLOv5s融合SENet的車(chē)輛目標(biāo)檢測(cè)技術(shù)研究
趙璐璐1,王學(xué)營(yíng)2,張 翼1,張美月1
(1. 長(zhǎng)安大學(xué)信息工程學(xué)院,陜西 西安 710064;2. 內(nèi)蒙古自治區(qū)交通建設(shè)工程質(zhì)量監(jiān)測(cè)鑒定站,內(nèi)蒙古 呼和浩特 010050)
針對(duì)交通監(jiān)控視頻的車(chē)輛目標(biāo)檢測(cè)技術(shù)在早晚高峰等交通擁堵時(shí)段,車(chē)輛遮擋嚴(yán)重且誤、漏檢率較高的問(wèn)題,提出一種基于YOLOv5s網(wǎng)絡(luò)的改進(jìn)車(chē)輛目標(biāo)檢測(cè)模型。將注意力機(jī)制SE模塊分別引入YOLOv5s的Backbone主干網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)層和Head輸出端,增強(qiáng)車(chē)輛重要特征并抑制一般特征以強(qiáng)化檢測(cè)網(wǎng)絡(luò)對(duì)車(chē)輛目標(biāo)的辨識(shí)能力,并在公共數(shù)據(jù)集UA-DETRAC和自建數(shù)據(jù)集上訓(xùn)練、測(cè)試。將查準(zhǔn)率、查全率、均值平均精度作為評(píng)價(jià)指標(biāo),結(jié)果顯示3項(xiàng)指標(biāo)相比于原始網(wǎng)絡(luò)均有明顯提升,適合作為注意力機(jī)制的引入位置。針對(duì)YOLOv5s網(wǎng)絡(luò)中正、負(fù)樣本與難易樣本不平衡的問(wèn)題,網(wǎng)絡(luò)結(jié)合焦點(diǎn)損失函數(shù)Focal loss,引入2個(gè)超參數(shù)控制不平衡樣本的權(quán)重。結(jié)合注意力機(jī)制SE模塊和焦點(diǎn)損失函數(shù)Focal loss的改進(jìn)檢測(cè)網(wǎng)絡(luò)整體性能提升,均值平均精度提升了2.2個(gè)百分點(diǎn),有效改善了車(chē)流量大時(shí)的誤檢、漏檢指標(biāo)。
車(chē)輛檢測(cè);交通監(jiān)控;注意力機(jī)制;焦點(diǎn)損失函數(shù);YOLOv5模型
交通監(jiān)控視頻提供的數(shù)據(jù)對(duì)緩解城市交通擁堵、提高道路通行效率以及合理分配交通資源具有重要作用?;诮煌ūO(jiān)控視頻的車(chē)輛目標(biāo)檢測(cè)是后續(xù)進(jìn)行車(chē)輛跟蹤、道路車(chē)流量統(tǒng)計(jì)的基礎(chǔ)?;诮煌ūO(jiān)控視頻的車(chē)輛目標(biāo)檢測(cè),對(duì)檢測(cè)的實(shí)時(shí)性要求較高[1],且易受復(fù)雜環(huán)境背景及天氣光線等干擾,尤其是城市交通擁堵路段,環(huán)境復(fù)雜、車(chē)流量,車(chē)輛互相遮擋嚴(yán)重,對(duì)車(chē)輛目標(biāo)檢測(cè)提出了挑戰(zhàn)。
目標(biāo)檢測(cè)技術(shù)是基于交通監(jiān)控視頻的車(chē)輛檢測(cè)核心技術(shù)。傳統(tǒng)目標(biāo)檢測(cè)方法,輸入一張待檢測(cè)圖片,首先采用滑動(dòng)窗口的方式對(duì)圖片進(jìn)行候選框提取,接著提取每個(gè)候選框中的特征信息,最后利用分類(lèi)器進(jìn)行識(shí)別。典型的目標(biāo)檢測(cè)算法有Haar+Adaboost[2],Hog+SVM[3]和DPM[4]。傳統(tǒng)方法采用滑動(dòng)窗口操作[5]易導(dǎo)致算法產(chǎn)生大量冗余的候選框,使得檢測(cè)速度慢、效率低、消耗資源多,而且傳統(tǒng)算法采用基于手工設(shè)計(jì)特征提取方法的魯棒性低、泛化效果差[6]。
LEE[7]提出的背景差分法利用當(dāng)前圖像與背景之間的差距識(shí)別車(chē)輛,在背景情況復(fù)雜時(shí),難以應(yīng)對(duì)車(chē)流量大的識(shí)別場(chǎng)景。TSAI和LAI[8]提出的幀間差分法,其需要選定合適的時(shí)間間隔,且容易出現(xiàn)漏檢、錯(cuò)檢問(wèn)題。
隨著機(jī)器學(xué)習(xí)和GPU并行計(jì)算技術(shù)的蓬勃發(fā)展,基于學(xué)習(xí)的特征提取技術(shù)方興未艾。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)主要包括:基于區(qū)域建議的Two-Stage檢測(cè)算法和基于回歸思想的One-Stage檢測(cè)算法[9]。兩階段算法需要先生成預(yù)選框,再進(jìn)行細(xì)粒度的物體檢測(cè),檢測(cè)精度高,但效率低,其代表算法有:R-CNN[10],F(xiàn)ast R-CNN[11]和Faster R-CNN[12]。單階段算法不必生成預(yù)選框,直接在網(wǎng)絡(luò)中提取特征實(shí)現(xiàn)物體分類(lèi)和位置的預(yù)測(cè)。相比兩階段算法,單階段算法檢測(cè)速度快,代表算法有RetinaNet[13]和YOLO[14-15]。其中,YOLO系列算法基于PyTorch框架,便于擴(kuò)展到移動(dòng)設(shè)備,屬于輕量級(jí)網(wǎng)絡(luò)。YOLOv5包括YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x 4種網(wǎng)絡(luò)結(jié)構(gòu),隨著網(wǎng)絡(luò)寬度和深度的增大,參數(shù)量依次增加。YOLOv5s是輕量級(jí)網(wǎng)絡(luò)的首選,便于部署到嵌入式設(shè)備。
YOLOv5系列經(jīng)COCO2017測(cè)試集測(cè)試,平均準(zhǔn)確率達(dá)72%,在GPU Nvidia Tesla V100的設(shè)備上檢測(cè)速度為每張2 ms,處于目標(biāo)檢測(cè)算法中領(lǐng)先水平。由于單階段檢測(cè)算法未生成候選框,所以檢測(cè)速度快,但精度相比兩階段算法偏低,該系列算法在檢測(cè)精度方面仍有改進(jìn)的空間。
本文在YOLOv5s的基礎(chǔ)上進(jìn)行改進(jìn),以改善在車(chē)輛遮擋或小目標(biāo)情況下檢測(cè)準(zhǔn)確率偏低的問(wèn)題。首先在Backbone主干網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)層以及輸出端分別加入注意力機(jī)制SE,測(cè)試得到注意力機(jī)制的最優(yōu)引入位置。其次,考慮到單階段結(jié)構(gòu)存在正負(fù)樣本和難易樣本不平衡的問(wèn)題,引入Focal loss函數(shù)計(jì)算目標(biāo)損失和分類(lèi)損失,以?xún)?yōu)化訓(xùn)練過(guò)程。在公開(kāi)數(shù)據(jù)集UA-DETRAC進(jìn)行模型訓(xùn)練和驗(yàn)證,并且在自建數(shù)據(jù)集上測(cè)試算法的性能。
YOLOv5s網(wǎng)絡(luò)采用One-Stage結(jié)構(gòu),由Input輸入端、Backbone主干網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)層和Head輸出端4個(gè)部分組成,如圖1所示。Input輸入端具有Mosaic數(shù)據(jù)增強(qiáng),自適應(yīng)錨框計(jì)算以及自適應(yīng)圖片縮放功能。Backbone主干網(wǎng)絡(luò)包括Focus結(jié)構(gòu),CSP結(jié)構(gòu)[16]以及空間金字塔池化(spatial pyramid pooling,SPP)[17]結(jié)構(gòu),通過(guò)深度卷積操作提取圖像中的不同層次特征。Neck網(wǎng)絡(luò)層由特征金字塔(feature pyramid networks,F(xiàn)PN)和路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)組成。Head作為最后的檢測(cè),在大小不同的特征圖上預(yù)測(cè)不同尺寸的目標(biāo)。
YOLOv5s網(wǎng)絡(luò)層次不斷加深,輸出端提取到的信息逐漸抽象,檢測(cè)監(jiān)控視頻中遠(yuǎn)處小目標(biāo)車(chē)輛更難以實(shí)現(xiàn),本文在網(wǎng)絡(luò)中融入注意力機(jī)制的方法有效改善了這一問(wèn)題。
1.1.1 SENet網(wǎng)絡(luò)
SENet[18]是典型的通道注意力網(wǎng)絡(luò),曾獲得ImageNet2017分類(lèi)比賽冠軍。在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,并非所有提取的特征都是重要的。SE注意力機(jī)制的作用是增強(qiáng)重要特征、抑制一般特征,并對(duì)卷積得到的特征圖進(jìn)行包含Sequeeze,Excitation和特征重標(biāo)定3步操作[19],如圖2所示。Sequeeze對(duì)卷積得到的××進(jìn)行全局平均池化,得到1×1×大小的特征圖。Excitation使用一個(gè)全連接神經(jīng)網(wǎng)絡(luò),對(duì)Sequeeze之后的結(jié)果做一個(gè)非線性變換。特征重標(biāo)定使用Excitation得到的結(jié)果作為權(quán)重,與輸入特征相乘。SE模塊具有即插即用的便利特征,已經(jīng)在一些網(wǎng)絡(luò)中得到應(yīng)用,但其融合在網(wǎng)絡(luò)中的哪個(gè)部分效果更好,目前還沒(méi)有完整的理論說(shuō)明。
圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
圖2 SENet網(wǎng)絡(luò)結(jié)構(gòu)
1.1.2 3種融合方法
針對(duì)YOLOv5s,本文設(shè)計(jì)了3種不同位置的融合方法。將SE模塊分別融合Backbone,Neck和Head 3個(gè)模塊,未考慮Input的原因是因其只對(duì)圖像進(jìn)行預(yù)處理,并沒(méi)有特征提取的作用。由此產(chǎn)生3個(gè)網(wǎng)絡(luò)模型,本文分別將其記為YOLOv5s_A,YOLOv5s_B和YOLOv5s_C。
將SE模塊融合在Backbone主干網(wǎng)絡(luò)形成YOLOv5s_A。Backbone的主要作用是通過(guò)一個(gè)比較深的卷積網(wǎng)絡(luò)提取圖像中的深度特征,隨著網(wǎng)絡(luò)層數(shù)的加深,特征圖寬度越來(lái)越小,深度越來(lái)越深,可以使用SE模塊對(duì)不同位置的特征圖進(jìn)行通道注意力重構(gòu),BottleneckCSP結(jié)構(gòu)聚合不同層次特征,因此將SE放在BottleneckCSP之后,如圖3所示。
圖3 Backbone主干網(wǎng)絡(luò)融合SE模塊
將SE模塊融合Neck中形成YOLOv5s_B。Neck中的PAN和FPN結(jié)構(gòu)可以自上而下地傳遞語(yǔ)義信息,自下而上地傳遞定位信息,通過(guò)4個(gè)Concat操作將深層與淺層信息進(jìn)行融合,因此將SE模塊放在Concat之后,對(duì)融合的特征圖進(jìn)行通道注意力重構(gòu),如圖4所示。
將SE模塊與網(wǎng)絡(luò)最后的Head融合,形成YOLOv5s_C。YOLOv5s通過(guò)3個(gè)尺度大小不同的特征圖預(yù)測(cè)目標(biāo),在小特征圖上預(yù)測(cè)大目標(biāo),大特征圖上預(yù)測(cè)小目標(biāo),考慮在預(yù)測(cè)之前,對(duì)每個(gè)特征圖進(jìn)行注意力重構(gòu),如圖5所示。
圖4 Neck層融合SE模塊
圖5 Head輸出端融合SE模塊
1.2.1 正負(fù)樣本不平衡問(wèn)題
YOLOv5s的損失包含目標(biāo)損失、分類(lèi)損失和邊界框回歸損失。YOLOv5s使用BCE With Logits作為目標(biāo)損失函數(shù)和分類(lèi)損失函數(shù),即
其中,為經(jīng)過(guò)Sigmoid激活函數(shù)輸出的概率;為真實(shí)的樣本標(biāo)簽,取值為0或1。
圖像中包含車(chē)輛的部分為正樣本,其余部分為負(fù)樣本。對(duì)于正樣本,輸出概率越大則損失越小;對(duì)于負(fù)樣本,輸出概率越小損失越小。對(duì)于One-Stage目標(biāo)檢測(cè)算法,正、負(fù)樣本不均衡的問(wèn)題較為突出,在交通道路圖中背景的占比明顯大于車(chē)輛的占比,損失函數(shù)得出的損失值絕大部分是負(fù)樣本背景損失,并且大部分負(fù)樣本背景是簡(jiǎn)單易分的,對(duì)于模型的收斂幾乎沒(méi)有作用。因此,本文引入焦點(diǎn)損失函數(shù)Focal loss,使用參數(shù)平衡正、負(fù)樣本對(duì)損失的影響,將樣本分為難分和易分樣本,降低易分樣本對(duì)總損失的權(quán)重。
1.2.2 Focal loss函數(shù)
對(duì)于正、負(fù)樣本權(quán)重的控制,需要降低大量負(fù)樣本對(duì)損失的影響,利用平衡因子
因子在樣本標(biāo)簽不同時(shí),提供不同的權(quán)重,例如BCE With Logits損失
通過(guò)改變的大小控制正、負(fù)樣本在損失的占比:在[0.50,1]區(qū)間,能夠增加正樣本損失的占比,降低負(fù)樣本損失的占比。在[0.25,0.75]范圍,能夠取得較好的AP值。LIN等[20]分別取值為0.25,0.50和0.75,因0.25不在[0.50,1]范圍內(nèi)容,將其舍棄并用后2個(gè)值進(jìn)行實(shí)驗(yàn)。
是為了控制正、負(fù)樣本對(duì)損失的貢獻(xiàn),但不影響易分、難分樣本的損失,因此使用調(diào)制因子(1-)和控制難分樣本和易分樣本的權(quán)重,即
其中,取值范圍[0,5],通過(guò)控制調(diào)制因子的大小,以控制難分、易分樣本損失權(quán)重的大小。當(dāng)=0,式(4)是標(biāo)準(zhǔn)二分類(lèi)交叉熵?fù)p失函數(shù);當(dāng)0<≤5,可以實(shí)現(xiàn)降低易分類(lèi)樣本對(duì)損失的貢獻(xiàn),使得模型更加專(zhuān)注于難分類(lèi)樣本。
將平衡因子和調(diào)制因子(1-)和結(jié)合得到最終的Focal loss,即
其中,平衡因子可以平衡One-Stage檢測(cè)模型中正、負(fù)樣本不均衡的問(wèn)題;調(diào)制因子(1-)和控制難易樣本差異對(duì)損失的影響。
(1) 實(shí)驗(yàn)平臺(tái)。網(wǎng)絡(luò)訓(xùn)練平臺(tái)采用騰訊云服務(wù)器,規(guī)格為T(mén)esla V100-NVLINK-32G GPU,40 G RAM。模型框架采用Python 3.8,PyTorch 1.9,CUDA 10.2。
(2) 數(shù)據(jù)集。UA-DETRAC[21]是美國(guó)奧爾巴尼大學(xué)車(chē)輛目標(biāo)檢測(cè)和跟蹤的數(shù)據(jù)集,采集于北京和天津24個(gè)不同的地點(diǎn),包括100個(gè)具有挑戰(zhàn)性的視頻,超過(guò)14萬(wàn)幀視頻圖像和8 250輛人工標(biāo)記的汽車(chē)目標(biāo),共計(jì)121萬(wàn)標(biāo)記過(guò)的目標(biāo)檢測(cè)框。由于數(shù)據(jù)中包含夜晚、晴天、陰雨天等不同天氣場(chǎng)景,以及城市公路、道路交叉口等豐富的交通場(chǎng)景并且拍攝角度接近于監(jiān)控探頭。馬蕓婷和喬鵬[22-23]及本實(shí)驗(yàn)均選用該數(shù)據(jù)集。為避免相鄰幀之間圖像變化過(guò)小,每10幀選取一幀的方式,得到14 000張視頻圖像。從中選取1萬(wàn)幀車(chē)流量較大的圖像作為本文的實(shí)驗(yàn)數(shù)據(jù)集。
(3) 數(shù)據(jù)標(biāo)注。為驗(yàn)證本文算法的泛化性能,模擬監(jiān)控視頻采集于西安市南二環(huán)文藝路天橋,采集場(chǎng)景包括傍晚、陰雨天以及光照較強(qiáng)的晴天總量1 500張,部分?jǐn)?shù)據(jù)如圖6所示。
圖6 數(shù)據(jù)實(shí)例((a) UA-DETRAC;(b)自建數(shù)據(jù))
自建數(shù)據(jù)集采用LabelImg標(biāo)注工具進(jìn)行人工標(biāo)注,生成的Txt標(biāo)簽格式如圖7所示。
圖7 Txt 數(shù)據(jù)標(biāo)簽文件
標(biāo)簽文件中每行為一個(gè)車(chē)輛信息,依次表示車(chē)輛類(lèi)別,車(chē)輛中心坐標(biāo),,以及標(biāo)注車(chē)輛矩形框的寬度和高度。車(chē)輛類(lèi)別car,bus和van分別對(duì)應(yīng)數(shù)字0,1和2。坐標(biāo)均被歸一化,將車(chē)輛中心坐標(biāo)和寬度除以圖像寬度,車(chē)輛中心坐標(biāo)和高度除以圖像高度。
本實(shí)驗(yàn)采用查準(zhǔn)率Precision、查全率Recall、均值平均精度mAP作為評(píng)價(jià)指標(biāo),即
其中,,和分別為正確檢測(cè)出的車(chē)輛數(shù)目,錯(cuò)誤檢出的車(chē)輛數(shù)目以及未被正確檢出的車(chē)輛數(shù)目。為單類(lèi)別平均精度;為各類(lèi)別的平均值,用于對(duì)所有目標(biāo)類(lèi)別檢測(cè)的效果取平均值,可以代表檢測(cè)性能[24]。
本文將UA-DETRAC數(shù)據(jù)按照9:1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,將自行采集并標(biāo)注的圖像作為測(cè)試集。實(shí)驗(yàn)均不采用預(yù)訓(xùn)練模型,訓(xùn)練過(guò)程使用相同的參數(shù)配置,輸入圖像大小為640×640,優(yōu)化器為SGD,初始學(xué)習(xí)率設(shè)為0.01,動(dòng)量設(shè)為0.937,衰1減系數(shù)為0.000 5。測(cè)試集上的實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 融合SE的結(jié)果對(duì)比
并非所有融合SE的網(wǎng)絡(luò)均能提升檢測(cè)效果。YOLOv5s_A相較于原始YOLOv5s網(wǎng)絡(luò)查準(zhǔn)率Precision和均值平均精度mAP有所提高,但召回率Recall卻有明顯下降,圖像中車(chē)輛被檢測(cè)到的情況較差。YOLOv5s_B對(duì)于原始網(wǎng)絡(luò)在3個(gè)評(píng)價(jià)指標(biāo)上均有提升,均值平均精度mAP也是4個(gè)網(wǎng)絡(luò)中最高的,達(dá)到0.970。YOLOv5s_C在3個(gè)評(píng)價(jià)指標(biāo)中全面落后原始網(wǎng)絡(luò)。
分析表1可知,注意力機(jī)制并不是在網(wǎng)絡(luò)中的任何位置均有作用,在Backbone中,網(wǎng)絡(luò)提取的特征還不夠充分,因此只有Precision和mAP兩項(xiàng)指標(biāo)提高;在Neck中,網(wǎng)絡(luò)對(duì)深層和淺層的特征圖進(jìn)行融合,在此基礎(chǔ)上對(duì)特征圖進(jìn)行注意力融合,對(duì)不同的通道特征的重要性重新標(biāo)定,因此取得了最好地檢測(cè)結(jié)果;Head中是在不同特征圖預(yù)測(cè)目標(biāo)之前進(jìn)行SE融合,但此處的特征圖已損失了很多低層的語(yǔ)義信息,SE模塊難以從這種高度融合的特征圖中區(qū)分出重要的特征通道,因此所有的指標(biāo)均有下降,是4個(gè)網(wǎng)絡(luò)中效果最差的一個(gè)。基于以上分析本文將YOLOv5s_B作為車(chē)輛檢測(cè)的基礎(chǔ)模型。
由式(5)可以看出,F(xiàn)ocal loss主要通過(guò)2個(gè)超參數(shù)和控制正、負(fù)樣本和難、易樣本對(duì)損失的貢獻(xiàn),為了更好地融合Focal loss函數(shù)與YOLOv5s網(wǎng)絡(luò)適應(yīng)車(chē)輛檢測(cè)任務(wù)的需求,確定一組最優(yōu)的和值成為進(jìn)一步研究的內(nèi)容。
實(shí)驗(yàn)中網(wǎng)絡(luò)使用未融合SE模塊的YOLOv5s,損失函數(shù)采用Focal loss函數(shù),其他各種參數(shù)均與2.2節(jié)對(duì)比實(shí)驗(yàn)保持一致。選擇幾組不同的與進(jìn)行對(duì)比實(shí)驗(yàn),即取0.50和0.75,取值[1,5]范圍的整數(shù),遵循控制變量法的原則,各參照組僅有和的取值不同,測(cè)試結(jié)果見(jiàn)表2。
表2 不同參數(shù)組合的結(jié)果對(duì)比
從表2可知,并非所有超參數(shù)和的組合能對(duì)結(jié)果產(chǎn)生好的影響。在實(shí)驗(yàn)中,當(dāng)=0.50,=3時(shí),網(wǎng)絡(luò)在測(cè)試集上取得了最好的檢測(cè)結(jié)果,3項(xiàng)評(píng)價(jià)指標(biāo)均高于其他組合,并且高于原始YOLOv5s的結(jié)果,證明了改進(jìn)損失函數(shù)的有效性。
對(duì)原始YOLOv5s同時(shí)進(jìn)行SE模塊融合和Focal loss損失函數(shù)改進(jìn),在UA-DETRAC訓(xùn)練集上進(jìn)行訓(xùn)練并在本文自建測(cè)試集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見(jiàn)表3。可以看出,同時(shí)引進(jìn)SE和Focal loss之后,網(wǎng)絡(luò)的檢測(cè)結(jié)果有了進(jìn)一步提升,mAP達(dá)到最高0.974,相較原始YOLOv5s提升了2.2個(gè)百分點(diǎn)。
表3 原始網(wǎng)絡(luò)和改進(jìn)后網(wǎng)絡(luò)的結(jié)果對(duì)比
圖8為自建數(shù)據(jù)集對(duì)部分晴朗白天、陰雨天和夜晚檢測(cè)結(jié)果的可視化。可以看到,原始網(wǎng)絡(luò)對(duì)一些路段的目標(biāo)和密集車(chē)輛出現(xiàn)了漏、誤檢現(xiàn)象,而本文改進(jìn)網(wǎng)絡(luò)檢測(cè)出了這些目標(biāo)。白天組中標(biāo)記1處,車(chē)輛密集,原始網(wǎng)絡(luò)出現(xiàn)了漏檢現(xiàn)象,將多輛車(chē)識(shí)別為一輛;在標(biāo)記2處,將一個(gè)車(chē)輛目標(biāo)識(shí)別為了2輛。本文改進(jìn)的網(wǎng)絡(luò)模型解決了這樣的問(wèn)題,沒(méi)有出現(xiàn)漏、誤檢。陰雨天和夜晚監(jiān)控圖像受天氣和光線影響,增加了檢測(cè)的難度,原始網(wǎng)絡(luò)和改進(jìn)網(wǎng)絡(luò)檢測(cè)性能均受到影響。但圖中對(duì)比顯示,改進(jìn)網(wǎng)絡(luò)對(duì)遠(yuǎn)處以及遮擋車(chē)輛的誤、漏檢率總體更低,具有明顯優(yōu)勢(shì)。
圖8 原始網(wǎng)絡(luò)和改進(jìn)網(wǎng)絡(luò)的結(jié)果對(duì)比((a)原始網(wǎng)絡(luò);(b)改進(jìn)網(wǎng)絡(luò))
本文使用改進(jìn)的YOLOv5s網(wǎng)絡(luò)檢測(cè)交通監(jiān)控中的車(chē)輛目標(biāo)。針對(duì)檢測(cè)中出現(xiàn)的誤、漏檢問(wèn)題,提出將注意力模塊SE引入YOLOv5s,為判斷SE位置不同對(duì)檢測(cè)結(jié)果造成的影響,在網(wǎng)絡(luò)的3個(gè)不同位置Backbone,Neck和Head分別引入并進(jìn)行對(duì)比實(shí)驗(yàn);使用焦點(diǎn)損失Focal loss替代原始的損失函數(shù),改善網(wǎng)絡(luò)的正、負(fù)樣本和難、易樣本不平衡的問(wèn)題,設(shè)置不同的參數(shù)并根據(jù)實(shí)驗(yàn)結(jié)果選擇最合適的組合。分別在UA-DETRAC和自建數(shù)據(jù)集上訓(xùn)練、測(cè)試。實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)方法相比原始YOLOv5s在評(píng)價(jià)指標(biāo)mAP上提高2.2%,根據(jù)可視化結(jié)果,本文方法可以有效降低漏、誤檢率。目前監(jiān)控探頭往往是算力較低的邊緣設(shè)備,因此,在低算力設(shè)備上部署車(chē)輛檢測(cè)模型并達(dá)到實(shí)時(shí)檢測(cè)的要求是下一步的研究重點(diǎn)。
[1] 蔣镕圻, 彭月平, 謝文宣, 等. 嵌入scSE模塊的改進(jìn)YOLOv4小目標(biāo)檢測(cè)算法[J]. 圖學(xué)學(xué)報(bào), 2021, 42(4): 546-555.
JIANG R Q, PENG Y P, XIE W X, et al. Improved YOLOv4 small target detection algorithm with embedded scSE module[J]. Journal of Graphics, 2021, 42(4): 546-555 (in Chinese).
[2] TIAN D X, ZHANG C, DUAN X T, et al. The cooperative vehicle infrastructure system based on machine vision[C]//The 6th ACM Symposium on Devel Opment and Analysis of Intelligent Vehicular Networks and Applications. New York: ACM Press, 2017: 85-89.
[3] DRO?D? M, KRYJAK T. FPGA implementation of multi-scale face detection using HOG features and SVM classifier[J]. Image Processing & Communications, 2016, 21(3): 27-44.
[4] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[5] ZHU H G. An efficient lane line detection method based on computer vision[J]. Journal of Physics: Conference Series, 2021, 1802(3): 032006-032014.
[6] 李妮妮, 王夏黎, 付陽(yáng)陽(yáng), 等. 一種優(yōu)化YOLO模型的交通警察目標(biāo)檢測(cè)方法[J]. 圖學(xué)學(xué)報(bào), 2022, 43(2): 296-305.
LI N N, WANG X L, FU Y Y, et al. A traffic police object detection method based on optimized YOLO model[J]. Journal of Graphics, 2022, 43(2): 296-305 (in Chinese).
[7] LEE D S. Effective Gaussian mixture learning for video background subtraction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 827-832.
[8] TSAI D M, LAI S C. Independent component analysis-based background subtraction for indoor surveillance[J]. IEEE Transactions on Image Processing, 2009, 18(1): 158-167.
[9] 楊亞峰, 蘇維均, 秦勇, 等. 基于語(yǔ)義標(biāo)簽的高鐵接觸網(wǎng)圖像目標(biāo)檢測(cè)研究[J]. 計(jì)算機(jī)仿真, 2020, 37(11): 146-149, 188.
YANG Y F, SU W J, QIN Y, et al. Research on object detection method of high-speed railway catenary image based on semantic label[J]. Computer Simulation, 2020, 37(11): 146-149, 188 (in Chinese).
[10] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[11] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[12] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[13] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[14] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2022-01-20]. https://arxiv.org/abs/1804. 02767?context=cs.CV.
[15] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2022-02-05]. https://arxiv.org/abs/2004.10934.
[16] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]///The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington New York: IEEE Press, 2020: 390-391.
[17] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[18] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(8): 2011-2023.
[19] 譚芳喜, 肖世德, 周亮君, 等. 基于改進(jìn)YOLOv3算法在道路目標(biāo)檢測(cè)中的應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2021, 31(8): 118-123.
TAN F X, XIAO S D, ZHOU L J, et al. Application in road target detection based on improved YOLOV3 algorithm[J]. Computer Technology and Development, 2021, 31(8): 118-123 (in Chinese).
[20] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[21] WEN L, DU D, CAI Z, et al. UA-DETRAC: a new benchmark and protocol for multi-object detection and tracking[J]. Computer Vision and Image Understanding, 2020, 193(C): 102907-102926.
[22] 馬蕓婷. 基于深度特征的車(chē)輛檢測(cè)與跟蹤[D]. 蘭州: 西北師范大學(xué), 2020.
MA Y T. Vehicle detection and tracking based on depth feature[D]. Lanzhou: Northwest Normal University, 2020 (in Chinese).
[23] 喬鵬. 基于深度學(xué)習(xí)和邊緣任務(wù)卸載的交通流量檢測(cè)研究[D]. 西安: 西安電子科技大學(xué), 2019.
QIAO P. Research on traffic flow detection based on deep learning and edge task offloading[D]. Xi’an: Xidian University, 2019 (in Chinese).
[24] 謝富, 朱定局. 深度學(xué)習(xí)目標(biāo)檢測(cè)方法綜述[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2022, 31(2): 1-12.
XIE F, ZHU D J. Survey on deep learning object detection[J]. Computer Systems and Applications, 2022, 31(2): 1-12 (in Chinese).
Vehicle target detection based on YOLOv5s fusion SENet
ZHAO Lu-lu1, WANG Xue-ying2, ZHANG Yi1, ZHANG Mei-yue1
(1. School of Information Engineering, Chang’an University, Xi’an Shaanxi 710064, China; 2. Inner Mongolia Autonomous Region Traffic Construction Engineering Quality Monitoring and Appraisal Station, Hohhot Inner Mongolia Autonomous Region 010050, China)
To address the problem that the vehicle target detection technology of traffic monitoring videos has high rates of false detection and missed detection due to serious vehicle occlusion in traffic congestion periods such as morning and evening peaks, an improved vehicle target detection model based on YOLOv5s network was proposed. The attention mechanism SE module was introduced into the Backbone network, Neck network layer, and Head output of YOLOv5s, respectively, thus enhancing the important features of the vehicle and suppressing the general features. In doing so, the recognition capability of the detection network for the vehicle target was strengthened, and training and tests were performed on the public data set UA-DETRAC and self-built data set. The results show that the three indicators were significantly enhanced compared with the original network, which was suitable for the introduction of the attention mechanism. The evaluation rate, the value, and mean average accuracy were evaluated, and the results showed that compared with the original network, the three indicators were significantly improved, suitable for the introduction of attention mechanisms. To address the imbalance between positive and negative samples and that between difficult and easy samples in YOLOv5s network, the network combined the focus loss function Focal loss and introduced two super-parameters to control the weight of unbalanced samples. Combined with the improvement of attention mechanism SE module and focus loss function, the overall performance of the detection network was improved, and the average accuracy was improved by 2.2 percentage points, which effectively improves the index of false detection and missed detection in the case of large traffic flow.
vehicle detection; traffic monitoring; attention mechanism; focus loss function; YOLOv5 model
TP 391
10.11996/JG.j.2095-302X.2022050776
A
2095-302X(2022)05-0776-07
2022-03-08;
2022-05-09
8 March,2022;
9 May,2022
2020年度陜西省交通運(yùn)輸廳科研項(xiàng)目(20-24K,20-25X);內(nèi)蒙古自治區(qū)交通運(yùn)輸發(fā)展研究中心開(kāi)放基金項(xiàng)目(2019KFJJ-003)
Scientific Research Project of Shaanxi Provincial Department of Transportation in 2020 (20-24K, 20-25X); Open Fund of Inner Mongolia Autonomous Region Transportation Development Research Center (2019KFJJ-003)
趙璐璐(1998-),女,碩士研究生。主要研究方向?yàn)榛谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)。E-mail:2689797652@qq.com
ZHAO Lu-lu (1998-), master student. Her main research interest covers object detection based on deep learning. E-mail:2689797652@qq.com
王學(xué)營(yíng)(1991-),男,博士研究生。主要研究領(lǐng)域?yàn)闉r青路面新材料及檢測(cè)。E-mail:2020124099@chd.edu.cn
WANG Xue-ying (1991-), Ph.D candidate. His main research interests cover new asphalt pavement mate rials and testing. E-mail:2020124099@chd.edu.cn