摘要: 針對(duì)交通路口車輛目標(biāo)檢測(cè)算法存在精確度低、 少檢、 漏檢等問(wèn)題, 提出一種基于改進(jìn)YOLOv7的交通路口目標(biāo)識(shí)別算法. 該算法
首先利用前饋式卷積注意力機(jī)制CBAM從通道注意力和空間注意力兩者提升網(wǎng)絡(luò)對(duì)關(guān)鍵特征的注意力, 提高網(wǎng)絡(luò)的運(yùn)行速率, 優(yōu)化網(wǎng)絡(luò)的特征提取能力; 其次采取空間層
到深度層連接全維動(dòng)態(tài)卷積組成一個(gè)新的學(xué)習(xí)模塊, 以此結(jié)構(gòu)改進(jìn)YOLOv7特征學(xué)習(xí)方式, 提升特征表達(dá)能力; 最后在實(shí)際采集的交通路口數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果表
明, 該方法在對(duì)應(yīng)數(shù)據(jù)集上平均精度達(dá)到96.1%, 訓(xùn)練耗時(shí)降低至16.71 h, 因此針對(duì)交通路口小目標(biāo)檢測(cè)有明顯的識(shí)別優(yōu)勢(shì).
關(guān)鍵詞: 深度學(xué)習(xí); 目標(biāo)檢測(cè); 卷積神經(jīng)網(wǎng)絡(luò); 注意力機(jī)制; 全維動(dòng)態(tài)卷積
中圖分類號(hào): TP301.6" 文獻(xiàn)標(biāo)志碼: A" 文章編號(hào): 1671-5489(2024)03-0665-09
Target Recognition Algorithm of Traffic IntersectionBased on Improved YOLOv7
JIANG Sheng1, ZHANG Zhongyi1,2, WANG Zongyang2, YU Qing1
(1. School of Physics, Changchun University of Science and Technology, Changchun 130022, China;
2. Institute of Deep Perception Technology, Wuxi 214000, Jiangsu Province, China)
Abstract: Aiming at the problems of low accuracy, under-detection, and missed detection in the vehicle target detection algorithm at traffic intersections,
we proposed a target recognition algorithm of traffic intersection based on improved YOLOv7." Firstly, the algorithm" used the feed-forward convolutional attention mechanism CBAM to
enhance the network’s" attention to key features from both channel attention and spatial attention, improve the network’s running" speed, and optimize the network’s feature extraction capabilities.
Secondly, a new learning module was formed by connecting the" spatial layer to depth" layers to form a" full-dimensional dynamic convolution, which improved the YOLOv7 feature learning method
and enhanced the feature expression ability. Finally, the experiments were conducted on the actual collected traffic intersection dataset. The experimental results show that the proposed method
achieves an average accuracy of 96.1% on the corresponding dataset, and the training time is reduced to 16.71 h. Therefore, it has obvious recognition advantages
for small target detection at traffic intersections.
Keywords: deep learning; target detection; convolutional neural network; attention mechanism; full-dimensional dynamic convolution
收稿日期: 2023-06-12.
第一作者簡(jiǎn)介: 江" 晟(1985—), 男, 漢族, 博士, 副教授, 從事多維智能感知與協(xié)同控制的研究, E-mail: js1985_cust@163.com.
通信作者簡(jiǎn)介: 張仲義(1999—), 男, 漢族, 碩士, 從事光電傳感與探測(cè)技術(shù)的研究, E-mail: yuanqing288@icloud.com.
基金項(xiàng)目: 吉林省科技發(fā)展計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(批準(zhǔn)號(hào): 20210203214SF).
近年來(lái), 隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷深化[1], 基于深度卷積神經(jīng)網(wǎng)絡(luò)提出的深度學(xué)習(xí)算法因其精確度高、 準(zhǔn)確度高、 使用方便, 具備
從靜態(tài)或動(dòng)態(tài)視頻中快速檢測(cè)出車輛目標(biāo)及其相關(guān)特征信息[2]等特點(diǎn), 實(shí)現(xiàn)了對(duì)路口交通流進(jìn)行快速檢測(cè)的良好功能, 逐漸成為主流目標(biāo)檢測(cè)算法[3].
但在目前的交通流量目標(biāo)檢測(cè)任務(wù)中, 存在大量的遠(yuǎn)景小目標(biāo), 其在圖像中的分辨率和信息有限, 使得對(duì)小目標(biāo)的精確檢測(cè)識(shí)別成為一項(xiàng)具有挑戰(zhàn)性的任務(wù). 為更好地解決該
問(wèn)題, 歐陽(yáng)繼紅等[4]提出了一種改進(jìn)多尺度特征融合的目標(biāo)檢測(cè)方法, 該方法將網(wǎng)絡(luò)的學(xué)習(xí)參數(shù)作為特征間的平衡因子進(jìn)行加權(quán)融合, 從而提高模型多尺度特征融合能力,
有效提高了模型的檢測(cè)精度; 逄晨曦等[5]通過(guò)采用注意力改進(jìn)的自適應(yīng)空間特征融合策略生成金字塔形表示, 在不影響小目標(biāo)識(shí)別的情況下, 提高了中、 大目標(biāo)的檢測(cè)精
度; 姚慶安等[6]用改進(jìn)的帶孔空間金字塔池化增加多維度目標(biāo)的分割, 用注意力細(xì)化模塊捕獲線索特征學(xué)習(xí), 并加入基于注意力機(jī)制的特征融合有隊(duì)列地監(jiān)督重要通道特征的學(xué)習(xí), 引
導(dǎo)高、 低階特征融合, 在面對(duì)多像素目標(biāo)語(yǔ)義分割時(shí)效果較好;" Singh等[7]提出了SNIPER模型, 通過(guò)只處理目標(biāo)周圍的背景區(qū)域減少訓(xùn)練時(shí)間, 提高
SNIP[8]的訓(xùn)練效率, 但這種多尺度特征訓(xùn)練的方法引用了大量的跨步卷積或池化層, 導(dǎo)致細(xì)粒度信息的丟失和較低的特征學(xué)習(xí)能力. 因此, Sunkara等[9]提出了SPD-Conv
結(jié)構(gòu), 通過(guò)引入由空間層到深度層結(jié)構(gòu)連接非跨步卷積層的結(jié)構(gòu)代替跨步卷積和池化, 提升了對(duì)低分辨率場(chǎng)景的檢測(cè)能力, 降低了網(wǎng)絡(luò)復(fù)雜度, 提升了模型運(yùn)行速度, 但
網(wǎng)絡(luò)中的所有卷積均是靜態(tài)卷積, 靜態(tài)卷積核共享權(quán)值[10], 導(dǎo)致模型特征學(xué)習(xí)能力下降. 針對(duì)靜態(tài)卷積, Chen等[11]在基于CondConv[12]的基礎(chǔ)上, 通過(guò)
使用一組K個(gè)并行卷積核, 對(duì)每個(gè)單獨(dú)輸入的x, 根據(jù)關(guān)注度動(dòng)態(tài)聚合多個(gè)并行卷積核, 共享輸出通道, 相比于CondConv, 在注意力機(jī)制上采取GAP+FC+ReLU+FC+Sofma
x的方法, 提取注意力分配給不用的卷積核上, 提升了特征表示能力, 但其忽略了卷積核的其他維度. Li等[13]提出了全維動(dòng)態(tài)卷積, 通過(guò)采取多維注意力機(jī)制和并行
策略, 賦予了卷積核動(dòng)態(tài)屬性, 有更強(qiáng)的特征表達(dá)能力, 但引用過(guò)多的動(dòng)態(tài)卷積后會(huì)提升模型的大小, 增加網(wǎng)絡(luò)復(fù)雜度.
針對(duì)上述問(wèn)題, 本文采用一階段算法YOLO(you only look once)系列最新的YOLOv7[14]網(wǎng)絡(luò), 在原網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行改進(jìn), 將改進(jìn)后的網(wǎng)絡(luò)與原有網(wǎng)絡(luò)進(jìn)行檢測(cè)對(duì)比
, 對(duì)比結(jié)果表明, 改進(jìn)后的網(wǎng)絡(luò)相比原網(wǎng)絡(luò)的檢測(cè)效果有明顯提升, 應(yīng)用價(jià)值更廣.
1" YOLOv7網(wǎng)絡(luò)模型
YOLOv7是最新YOLO系列的檢測(cè)器, 相同體量下比YOLOv5精度更高, 速度快120%, 其傳輸幀數(shù)達(dá)161 幀/s;
同時(shí)在GPU V100上進(jìn)行測(cè)試, 平均精度為56.8%的模型可達(dá)30 幀/s. 無(wú)論是速度還是精度, 都取得了較優(yōu)異的檢測(cè)效果.
YOLOv7的網(wǎng)絡(luò)結(jié)構(gòu)由輸入(Input)、 骨干網(wǎng)絡(luò)(Backbone)、 中間網(wǎng)絡(luò)(Neck)和檢測(cè)頭(Head)四部分組成, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
1.1" 骨干網(wǎng)絡(luò)
YOLOv7的骨干網(wǎng)絡(luò)由CBS層、 ELAN層和MP層組成. 圖像輸入后首先經(jīng)過(guò)4個(gè)CBS卷積層, CBS層由卷積(Conv)層、 歸一化(BN)層和損失函數(shù)(SiLu)層組成.
當(dāng)特征圖經(jīng)過(guò)4個(gè)CBS后, 其特征尺寸由640×640×32壓縮至160×160×128, 然后送至ELAN層[8], ELAN層是一個(gè)高效的網(wǎng)絡(luò)結(jié)構(gòu), 由多個(gè)CBS構(gòu)成, 第一條分支是經(jīng)過(guò)一個(gè)CB
S卷積改變通道數(shù)量, 第二條分支首先經(jīng)過(guò)一個(gè)CBS卷積層改變通道數(shù)量, 其次經(jīng)過(guò)4個(gè)CBS卷積層進(jìn)行特征提取, 然后將結(jié)果疊加得到最后的特征提取結(jié)果.
ELAN層輸入前后特征圖尺寸大小保持不變, 通道數(shù)量增加至輸入的一倍. 其通過(guò)控制最短和最長(zhǎng)的梯度路徑, 使網(wǎng)絡(luò)能充分學(xué)習(xí)特征, 具有很強(qiáng)的魯棒性. ELAN的結(jié)構(gòu)如圖2所示.
經(jīng)過(guò)ELAN層后特征圖將會(huì)送入MP層, MP-1層通道數(shù)保持不變, MP-2層通道數(shù)增加至原來(lái)的一倍. MP層主要由最大池化層(Maxpool)和CBS卷
積層組成, 第一條分支是特征圖先經(jīng)過(guò)最大池化層, 進(jìn)行下采樣操作, 然后經(jīng)過(guò)CBS卷積層,
改變通道數(shù)量; 第二條分支先經(jīng)過(guò)一個(gè)卷積層改變通道數(shù)量, 然后進(jìn)行下采樣操作, 最后將結(jié)果疊加在一起.
經(jīng)過(guò)Backbone網(wǎng)絡(luò)后, 將會(huì)輸出3個(gè)特征圖C3,C4,C5, 其大小分別為80×80×512,40×40×1 024,20×20×1 024.
1.2" 中間網(wǎng)絡(luò)與檢測(cè)頭網(wǎng)絡(luò)
YOLOv7的Neak部分可視為一個(gè)pafpn結(jié)構(gòu), 將Backbone網(wǎng)絡(luò)生成的3個(gè)特征圖按其尺寸大小分別進(jìn)行多尺度特征融合. 首先通過(guò)SPPCSPC模塊, SPPCSPC模塊利用不同尺度的最
大池化獲得不同的感受野, 用于區(qū)分大目標(biāo)和小目標(biāo), 其結(jié)構(gòu)如圖3所示.
然后自頂向下經(jīng)過(guò)CBS層、 UPSample層、 ELAN-Z層等依次與C4和C3進(jìn)行融合, 得到P3,P4,P5, 其中UPSample層是一個(gè)上采樣模塊,
它所使用的采樣方式是最近鄰插值nearest算法, 其結(jié)構(gòu)如圖4所示.
而ELAN-Z結(jié)構(gòu)與ELAN結(jié)構(gòu)類似, ELAN-Z結(jié)構(gòu)如圖5所示. 由圖5可見(jiàn), 它的第二條分支所選取的輸出數(shù)量不同, ELAN模塊選取3個(gè)輸出進(jìn)行最后相加, 而ELAN-Z選
取5個(gè)輸出進(jìn)行相加, 從而提高特征提取的能力; 然后自底向上經(jīng)由MP-2層、 ELAN-Z層與P4,P5進(jìn)行融合, 最后pafpn將輸出P′3,
P′4,P′5. 通過(guò)RepConv層調(diào)整通道數(shù), 用卷積去預(yù)測(cè)objectness,class和bbox三部分.
RepConv層有兩種情況: 一種是訓(xùn)練(train), 另一種是推理(deploy). 在訓(xùn)練時(shí), 其結(jié)構(gòu)有3條分支: 分別是3×3卷積層+BN層, 作用是特征提取; 1×1卷積層+BN層, 作
用是特征平滑; 最后一條分支是Identity, 由一個(gè)BN層構(gòu)成. 最后將3條分支疊加在一起.
在推理時(shí), 將訓(xùn)練時(shí)的第二條和第三條分支都轉(zhuǎn)化為3×3的卷積, 然后進(jìn)行矩陣融合, 權(quán)重相加, 3條分支融合成1條分支, 其中只包含1個(gè)3×3卷積, 結(jié)構(gòu)如圖6所示.
在YOLOv7的Backbone和Neck中都不同程度地采用了跨步卷積層和Maxpooling層. 而在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)中, 使用跨步卷積或池化操作雖
然會(huì)一定程度上增大感受野, 但在降維過(guò)程中會(huì)使網(wǎng)絡(luò)忽略一些關(guān)鍵的特征信息, 易丟失特征細(xì)節(jié)信
息, 常會(huì)導(dǎo)致小目標(biāo)丟失, 出現(xiàn)漏檢的現(xiàn)象, 從而無(wú)法滿足檢測(cè)的精度, 同時(shí)還會(huì)增加網(wǎng)絡(luò)深度, 使整個(gè)網(wǎng)絡(luò)計(jì)算量變大, 影響時(shí)空效率等問(wèn)題; 同時(shí), 對(duì)于傳統(tǒng)的CNN網(wǎng)絡(luò),
傳統(tǒng)卷積層是單個(gè)靜態(tài)卷積核, 傳統(tǒng)靜態(tài)卷積中所有樣本共享一個(gè)卷積核, 特征表達(dá)能力較差, 因此在一定程度上影響了CNN網(wǎng)絡(luò)的準(zhǔn)確性, 并且不能有效地進(jìn)行推理.
2" 模型優(yōu)化設(shè)計(jì)
在目標(biāo)檢測(cè)任務(wù)中, 目標(biāo)檢測(cè)模型不僅要在各種場(chǎng)景下準(zhǔn)確地對(duì)各類目標(biāo)進(jìn)行檢測(cè), 而且還
要降低網(wǎng)絡(luò)參數(shù)和復(fù)雜度, 提高網(wǎng)絡(luò)的運(yùn)行速度, 進(jìn)而提高目標(biāo)檢測(cè)的速度, 達(dá)到實(shí)時(shí)檢測(cè)的目的. 基于此, 本文提出一種改進(jìn)YOLOv7算法網(wǎng)絡(luò)結(jié)構(gòu)的方法.
2.1" 空間-深度層設(shè)計(jì)
針對(duì)YOLOv7結(jié)構(gòu)中的特征圖, 對(duì)任何大小的S×S×C1中間特征映射X, 將子特征映射序列切片為如下部分:
f0,0=X[0∶S∶scale,0∶S∶scale],(1)
f1,0=X[1∶S∶scale,0∶S∶scale],…,(2)
fscale-1,0=X[scale-1∶S∶scale,0∶S∶scale],(3)
f0,1=X[0∶S∶scale,1∶S∶scale],f1,1,…,(4)
fscale-1,1=X[scale-1∶S∶scale,1∶S∶scale],(5)
f0,scale-1=X[0∶S∶scale,scale-1∶S∶scale],f1,scale-1,…,(6)
fscale-1,scale-1=X[scale-1∶S∶scale,scale-1∶S∶scale].(7)
例如scale=2, 如圖7所示, 可得到4個(gè)子圖f0,0,f0,1,f1,0,f1,1, 每個(gè)特征子圖的尺寸為S2,S2
,C1, 并下采樣2倍. 然后按通道維度連接子特征映射, 得到一個(gè)新的特征映射 X′Sscale,Sscale,scale
2C1,相比于特征映射f0,0,f0,1,f1,0,f1,1, 空間維度減少一個(gè)scale, 通道維度增加一個(gè)比例因子scale2.
2.2" 全維動(dòng)態(tài)卷積優(yōu)化
全維動(dòng)態(tài)卷積是采取多維注意力機(jī)制和并行策略, 在任何卷積層沿內(nèi)核空間的4個(gè)維度學(xué)習(xí)卷積內(nèi)核的注意力, 運(yùn)算公式如下:
y=(αw1⊙αf1⊙αc1⊙αs1⊙w1+…+αwn⊙αfn⊙αcn⊙αsn⊙wn)*x,(8)
其中: αwi∈
瘙 綆 表示卷積核wi的關(guān)注標(biāo)量; αsi∈
瘙 綆 k×k, αci∈
瘙 綆 cin和αfi∈
瘙 綆 cout表示3個(gè)新
引入的關(guān)注點(diǎn), 分別沿卷積核wi核空間的空間維度、 輸入通道維度和輸出通道維度計(jì)算; ⊙表示沿著核空間不同維度的乘法運(yùn)算.
圖8為全維動(dòng)態(tài)卷積的多種注意力機(jī)制結(jié)構(gòu). 全維動(dòng)態(tài)卷積通過(guò)對(duì)空間大小、 輸入通道數(shù)量和輸出通道數(shù)量賦予了動(dòng)態(tài)屬性, 從而極大減少了額外的參數(shù), 提升了卷積核自
身的感受野, 有更強(qiáng)的特征表達(dá)能力.
2.3" 卷積注意力機(jī)制設(shè)計(jì)
CBAM(convolutional block attention module)是一個(gè)輕量級(jí)的注意力模塊, 由通道注意力模塊CAM(channel attention mechanism)和空間注意
力模塊SAM(space attention mechanism)組成. CAM可使網(wǎng)絡(luò)提高對(duì)圖像的前景和一些關(guān)鍵位置區(qū)域的注意力; SAM使網(wǎng)絡(luò)關(guān)注圖片上下文中語(yǔ)義信息豐富的位置. 圖9為CBAM的結(jié)構(gòu).
對(duì)于特征圖F∈
瘙 綆 C×H×W, Mc∈
瘙 綆 C×1×1表示通道注意力模塊輸出的通道權(quán)重?cái)?shù)據(jù)為1×1×C, F′表示通道注意力的輸出; M
s∈
瘙 綆 1×H×W表示空間注意力模塊輸出的空間權(quán)重?cái)?shù)據(jù)為2×H×W, 將通道注意力所輸出的結(jié)果F
′與空間注意力權(quán)重相乘后即得到CBAM輸出結(jié)果F″, 公式如下:
F′=Mc(F)F,(9)
F″=Ms(F′)F′.(10)
2.4" 目標(biāo)檢測(cè)模型優(yōu)化
YOLOv7是一種基于卷積神經(jīng)網(wǎng)絡(luò)的一階段算法, 本文在骨干網(wǎng)絡(luò)與檢測(cè)頭之間的特征提取部分加入卷積注意力機(jī)制CBAM, 如圖10所示. 卷積注意力機(jī)制CBAM通過(guò)通道注意力機(jī)制模塊CA
M和空間注意力機(jī)制模塊SAM分別沿通道和空間兩個(gè)獨(dú)立維度依次推斷圖片的注意力, 然后將注意力圖乘以輸入的特征圖, 進(jìn)行自適應(yīng)特征細(xì)化, 優(yōu)化了網(wǎng)絡(luò)感興趣特征的表現(xiàn).
為改善網(wǎng)絡(luò)訓(xùn)練速度, 優(yōu)化網(wǎng)絡(luò)的特征學(xué)習(xí)能力, 減少細(xì)節(jié)特征丟失, 本文采用帶有C2濾波器的非跨步全維動(dòng)態(tài)卷積層連接空間-深度層的方式, 在檢測(cè)頭之前添加該
結(jié)構(gòu), 以進(jìn)一步對(duì)特征X′進(jìn)行轉(zhuǎn)換, 轉(zhuǎn)換方式為
X″Sscale,Sscale,C2.(11)
從而減少YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)中跨步卷積和池化層的使用, 降低網(wǎng)絡(luò)復(fù)雜度, 提升網(wǎng)絡(luò)性能; 同時(shí)利用全維動(dòng)態(tài)卷積代替?zhèn)鹘y(tǒng)網(wǎng)絡(luò)中的靜態(tài)卷積, 提升卷積核自身的感
受野, 盡可能保留所有判別特征的信息, 獲得更高的特征學(xué)習(xí)率. 改進(jìn)的YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示.
3" 實(shí)驗(yàn)驗(yàn)證
實(shí)驗(yàn)流程如圖12所示. 通過(guò)自研的雷視一體機(jī)對(duì)交通路口進(jìn)行拍攝, 收集一段時(shí)間內(nèi)的交通目標(biāo)數(shù)據(jù); 將圖片輸入數(shù)據(jù)預(yù)處理模塊對(duì)圖片進(jìn)行處理, 處理后的圖片輸入YOLOv7網(wǎng)絡(luò)進(jìn)行訓(xùn)練, 在
反復(fù)前向、 后向傳播后, 訓(xùn)練完畢得到滿足要求的權(quán)重模型. 進(jìn)行檢測(cè)時(shí), 將圖片輸入到訓(xùn)練獲得的模型中進(jìn)行推理, 最后得到檢測(cè)結(jié)果.
3.1" 數(shù)據(jù)集的制作
本文數(shù)據(jù)集包括訓(xùn)練集、 測(cè)試集和驗(yàn)證集, 數(shù)據(jù)集制作過(guò)程如下: 先利用由江蘇省無(wú)錫市集萃深度感知技術(shù)研究所提供的雷視一體機(jī)對(duì)路口進(jìn)行監(jiān)控并錄制視頻, 從錄制視頻中截取
一定數(shù)量的圖片, 圖片中涵蓋行人、 非機(jī)動(dòng)車、 小型機(jī)動(dòng)車、 大型機(jī)動(dòng)車4種交通目標(biāo); 然后利用Vott軟件對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注, 分別為4類識(shí)別目標(biāo), 其中“0”為行人, “1”為非機(jī)
動(dòng)車, “2”為小型機(jī)動(dòng)車, “3”為大型機(jī)動(dòng)車, 每一行是一個(gè)目標(biāo), 第一個(gè)元素是類別, 后面4個(gè)數(shù)據(jù)是經(jīng)過(guò)歸一化后的數(shù)據(jù), 分別表示中心橫坐標(biāo)X、 中心縱坐標(biāo)Y、 標(biāo)注框?qū)挾萕、 標(biāo)注框高度H.
通過(guò)對(duì)所截取圖片的篩選和檢查, 從截取總數(shù)6 000張中選取4 800張圖片作為訓(xùn)練集, 其中包括多個(gè)路口場(chǎng)景, 如圖13所示的不同路口、 白天、 夜晚、 雨天等場(chǎng)景, 以此增加
數(shù)據(jù)集的多樣性, 進(jìn)而提升模型的魯棒性. 然后按上述要求對(duì)圖片進(jìn)行標(biāo)注. 此外, 剩余的1 200張圖片不進(jìn)行標(biāo)注, 作為測(cè)試集對(duì)網(wǎng)絡(luò)性能進(jìn)行測(cè)試.
3.2" 實(shí)驗(yàn)設(shè)定與訓(xùn)練
實(shí)驗(yàn)環(huán)境配置如下: 操作系統(tǒng)為Windows10/ubuntu18.04, CPU為Intel(R) Core i5-10400F/Intel(R) Core(TM) i9-9900, GPU為NVIDA GeForce RTX3060/NVIDA GeForce RTX2080Super,
編程語(yǔ)言為Python3.7, GPU加速環(huán)境為CUDA 11.6/CUDA 11.4, 顯存為12 GB/8 GB.
實(shí)驗(yàn)訓(xùn)練參數(shù)設(shè)置如下: epochs設(shè)為300, 表示對(duì)訓(xùn)練集的全部樣本訓(xùn)練300次; batch-size設(shè)為8, 表示每次訓(xùn)練時(shí)在訓(xùn)練集中取8個(gè)訓(xùn)練樣本進(jìn)行訓(xùn)練; img-size設(shè)為640
×640, 表示輸入圖片像素大小為640×640.
3.3" 結(jié)果分析
在300輪的訓(xùn)練后, 利用得到的最佳權(quán)重參數(shù)模型對(duì)待檢測(cè)目標(biāo)樣本進(jìn)行推理驗(yàn)證, 結(jié)果如圖14所示. 由圖14(A)可見(jiàn), 未檢測(cè)出公交車的存在; 由圖14(C)可見(jiàn), 未檢測(cè)
出周圍處于圖像暗部的車輛, 同時(shí)一些停止在車道線上的車輛也未能檢測(cè)出; 由圖14(E)可見(jiàn), 在夜晚燈光較暗的情況下, 在車道線上的小車對(duì)大車有一定的遮擋, 導(dǎo)致模型未對(duì)該大車進(jìn)
行有效識(shí)別; 由圖14(G)可見(jiàn), 改進(jìn)前模型將騎電瓶車的交通目標(biāo)誤識(shí)別為行人, 而且識(shí)別出的行人置信度較低. 而圖14(B),(D),(F),(H)
識(shí)別出了未能被檢測(cè)出的目標(biāo), 并且相對(duì)提高了對(duì)目標(biāo)的置信度, 有效改善了少檢、 漏檢和誤檢的現(xiàn)象, 提高了目標(biāo)檢測(cè)的精度; 由圖14(I),(K),(M),(O)可見(jiàn),
遠(yuǎn)處的目標(biāo)很小, 可供學(xué)習(xí)的特征較少, 使改進(jìn)前的網(wǎng)絡(luò)模型對(duì)小目標(biāo)檢測(cè)能力較差; 由圖14(J),(L),(N),(P)可見(jiàn),
改進(jìn)后的模型能更深入地挖掘特征信息, 保證特征的完整性, 尤其是對(duì)一些關(guān)鍵特征的學(xué)習(xí), 進(jìn)而識(shí)別出了遠(yuǎn)處的車輛, 提升了小目標(biāo)檢測(cè)能力.
表1列出了不同網(wǎng)絡(luò)模塊的推理結(jié)果.
由表1可見(jiàn), 改進(jìn)后的網(wǎng)絡(luò)模型平均精確度(mAP)比改進(jìn)前有一定提高; 同時(shí), 改進(jìn)前的網(wǎng)絡(luò)模型較復(fù)雜, 導(dǎo)致整個(gè)網(wǎng)絡(luò)運(yùn)行效率低, 訓(xùn)練時(shí)間較長(zhǎng),
且目標(biāo)檢測(cè)的精度也較低, 易出現(xiàn)目標(biāo)漏檢或誤檢等問(wèn)題. 但經(jīng)過(guò)改進(jìn)后, 本文模型的訓(xùn)練時(shí)間大幅度下降, 運(yùn)行效率提高, 改進(jìn)前模型未被檢測(cè)出的目標(biāo)均被成
功檢測(cè)出, 且在交通數(shù)據(jù)集下平均精度相比于YOLOv7(SPD-Conv)有一定提升.
行人、 非機(jī)動(dòng)車和機(jī)動(dòng)車的相對(duì)檢出提升率列于表2. 由表2可見(jiàn), 行人在圖中相對(duì)于其他目標(biāo)較小, 網(wǎng)絡(luò)檢測(cè)時(shí)易漏檢, 改進(jìn)后的模型檢測(cè)性能更強(qiáng), 尤其是對(duì)小目標(biāo)的檢測(cè); 在進(jìn)行
非機(jī)動(dòng)車檢測(cè)時(shí), 改進(jìn)前的模型有時(shí)會(huì)誤檢, 將非動(dòng)車目標(biāo)識(shí)別為行人, 而改進(jìn)后的模型更精確, 行人目標(biāo)和非機(jī)動(dòng)目標(biāo)分屬不同類, 二者不同; 對(duì)于機(jī)動(dòng)車目標(biāo), 由于
目標(biāo)較多會(huì)導(dǎo)致模型漏檢和誤檢, 改進(jìn)后的模型具有更強(qiáng)的檢測(cè)性能, 能更好地識(shí)別交通目標(biāo).
實(shí)驗(yàn)結(jié)果表明, 改進(jìn)后的算法增強(qiáng)了特征學(xué)習(xí)能力和特征表達(dá)能力, 對(duì)在目標(biāo)檢測(cè)中出現(xiàn)的少檢、 漏檢等問(wèn)題有一定改善; 同時(shí)在對(duì)小目標(biāo)進(jìn)行檢測(cè)時(shí), 能有效檢測(cè)出像素點(diǎn)
較少的道路遠(yuǎn)處的小目標(biāo), 提升了網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)能力, 進(jìn)一步提高了網(wǎng)絡(luò)模型的檢測(cè)精度和準(zhǔn)確度.
綜上所述, 針對(duì)交通路口目標(biāo)識(shí)別中存在的精確度低、 少檢、 漏檢等問(wèn)題, 本文提出了一種基于深度學(xué)習(xí)的交通目標(biāo)識(shí)別方法. 該方法通過(guò)在原有的YOLOv7網(wǎng)絡(luò)基礎(chǔ)上, 采用前饋式卷積注意
力機(jī)制CBAM提升對(duì)通道和空間的注意力, 以提高對(duì)關(guān)鍵特征的注意力, 降低網(wǎng)絡(luò)復(fù)雜度, 提高網(wǎng)絡(luò)運(yùn)行效率; 同時(shí)采用SPD層與非跨步全維動(dòng)態(tài)卷積ODConv相連接的方式, 提升卷積神
經(jīng)網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力和表達(dá)能力, 提升了網(wǎng)絡(luò)對(duì)小目標(biāo)的檢測(cè)精度, 進(jìn)而提升了整個(gè)網(wǎng)絡(luò)的性能. 實(shí)驗(yàn)結(jié)果表明, 改進(jìn)后的目標(biāo)檢測(cè)網(wǎng)絡(luò)在不同時(shí)間段、 不同環(huán)境下的檢測(cè)能力有
一定提升, 對(duì)環(huán)境具有一定的魯棒性, 實(shí)現(xiàn)了對(duì)交通路口目標(biāo)識(shí)別精度的提升.
參考文獻(xiàn)
[1]" 侯學(xué)良, 單騰飛, 薛靖國(guó). 深度學(xué)習(xí)的目標(biāo)檢測(cè)典型算法及其應(yīng)用現(xiàn)狀分析 [J]. 國(guó)外
電子測(cè)量技術(shù), 2022, 41(6): 165-174. (HOU X L, SHAN T F, XUE J G. Analysis of Typical Algorithms and Application Status of Deep Learning Object Dete
ction [J]. Foreign Electronic Measurement Technology, 2022, 41(6): 165-174.)
[2]" 李明熹, 林正奎, 曲毅. 計(jì)算機(jī)視覺(jué)下的車輛目標(biāo)檢測(cè)算法綜述 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(24): 20-28. (
LI M X, LIN Z K, QU Y. Overview of Vehicle Target Detection Algorithms under Computer Vision [J]. Computer Engineering and Applications, 2019, 55(24): 20-28.)
[3]" ALSHEMALI B, KALITA J. Improving the Reliability of De
ep Neural Networks in NLP: A Review [J]. Knowledge-Based Systems, 2020, 191: 105210-1-105210-9.
[4]" 歐陽(yáng)繼紅, 王梓明, 劉思光. 改進(jìn)多尺度特征的YOLO_v4目標(biāo)檢測(cè)方法 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 60(6): 1349-1355. (
OUYANG J H, WANG Z M, LIU S G. YOLO_v4 Object Detection Method with Im
proved Multi-scale Features [J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1349-1355.)
[5]" 逄晨曦, 李文輝. 基于注意力改進(jìn)的自適應(yīng)空間特征融合目標(biāo)檢測(cè)算法 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2023, 61(3): 557-566. (
PANG C X, LI W H. Adaptive Spatial Feature Fusion Object Detection Algorit
hm Based on Attention Improvement [J]. Journal of Jilin University (Science Edition), 2023, 61(3): 557-566.)
[6]" 姚慶安, 張?chǎng)危?劉力鳴, 等. 融合注意力機(jī)制和多尺度特征的圖像語(yǔ)義分割 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 60(6): 1383-1390. (
YAO Q A, ZHANG X, LIU L M, et al. Image Semantic Segmentation Based o
n Fusion of Attention Mechanism and Multi-scale Features [J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1383-1390.)
[7]" SINGH B, NAJIBI M, DAVIS L S. Sniper: Efficient Multi-scale Training [C
]//Proceedings of the 32nd International Conference on Natural Information Processing Systems. New York: ACM, 2018: 9333-9343.
[8]" SINGH B, DAVIS L S. An Analysis of Scale Invariance in Object Detection Sni
p [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 3578-3587.
[9]" SUNKARA R, LUO T. No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects [C]//
Machine Learning and Knowledge Discovery in Databases: European Conference. New York: ACM, 2022: 443-459.
[10]" 孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810. (
SUN Z J, XUE L, XU Y M, et al. A Review of Deep Learning Research [J]. Computer Application Research, 2012, 29(8): 2806-2810.)
[11]" CHEN Y P, DAI X Y, LIU M C, et al. Dynamic Convolution: Attention over Convo
lution Kernels [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 11030-11039.
[12]" YANG B, BENDER G, LE Q V, et al. Condconv: Conditionally Parameterized Convol
utions for Efficient Inference [C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. New York: ACM, 2019: 1307-1318.
[13]" LI C, ZHOU A J, YAO A B. Omni-dimensional Dynamic Convolut
ion [EB/OL]. (2022-09-16)[2023-03-15]. https://arxiv.org/abs/2209.07947.
[14]" WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets
New State-of-the-Art for Real-Time Object Detectors [EB/OL]. (2022-07-06)[2023-04-01]. https://arxiv.org/abs/2207.02696.
(責(zé)任編輯: 韓" 嘯)