摘 要:為解決交通道路小目標檢測難度大、精度低,容易出現(xiàn)錯檢漏檢的問題,提出一種基于YOLO v5 (you only look once v5)算法的多尺度特征融合目標檢測改進算法。首先,增加小目標檢測頭用于適應小目標尺寸,緩解漏檢情況。然后,引入可變形卷積網(wǎng)絡v2 (deformable convolutional networks V DCN V2)提高模型對運動中小目標的學習能力;同時,增加上下文增強模塊,提升對遠距離小目標的識別能力。最后,在替換損失函數(shù)、提高邊界框定位精度的同時,使用空間金字塔池化和上下文空間金字塔卷積分組模塊,提高網(wǎng)絡的感受野和特征表達能力。實驗結(jié)果表明,所提算法在KITTI數(shù)據(jù)集小目標類別上平均識別精度達到了95.2%,相較于原始YOLO v5,算法總體平均識別精度提升了2.7%,對小目標的檢測效果更佳,平均識別精度提升了3.1%,證明所提算法在道路小目標檢測方面的有效性。
關鍵詞: YOLO v5; 小目標檢測; 上下文增強模塊; 可變形卷積
中圖分類號: TP 311.5 文獻標志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.10.04
Road small target detection based on improved YOLO v5 algorithm
SONG Cunli, CHAI Weiqin, ZHANG Xuesong*
(School of Software, Dalian Jiaotong University, Dalian 116028, China)
Abstract: In order to solve the problems that small targets on traffic roads faces including detection difficulty, low precision, detection failures, a multi-scale feature fusion target detection improvement algorithm based on the YOLO v5 (you only look once v5) algorithm is proposed. Firstly, the small target detection head is added for adapting to the small target size and alleviating the missed detection. Then, deformable convolutional networks V2 (DCN V2) is introduced to improve the model’s learning ability for small targets in motion. The context augmentation module (CAM) is introduced to improve the recognition ability of small targets at a long distance. The replacement loss function is used to improve the bounding box’s localization accuracy, and the spatial pyramid pooling and context spatial pyramid convolution_group (SPPCSPC_group) module is also used to improve the sensory field and feature expression ability of the network. The experiment results show that the proposed algorithm achieves an average accuracy of 95.2% in the category of small targets in the KITTI dataset, compared with the original YOLO v5 algorithm, the overall average accuracy is improved by 2.7%. For the detection of small targets, the average accuracy is improved by 3.1% with a better detection effect, which proves the effectiveness of the proposed algorithm for the detection of small targets on roads.
Keywords: you only look once v5 (YOLO v5); small target detection; context augmentation module (CAM); deformable convolutional networks (DCN)
0 引 言
隨著智能交通系統(tǒng)和深度學習的發(fā)展,實時道路檢測技術被廣泛應用。目前,已建立多個無人駕駛示范區(qū),大力研究無人駕駛系統(tǒng),通過車輛檢測功能可以得到道路上行駛車輛的種類、數(shù)量信息,在無人車的車速控制、安全駕駛、路徑規(guī)劃等各個方面都起到重要作用。車輛檢測作為目標檢測的重要組成部分,在打造智能交通體系中扮演了重要的角色。當前,車輛檢測的應用方向主要是交通監(jiān)控視頻的檢測,其主要任務是定位、分類視頻圖像中的檢測目標。但是在實際交通場景中,部分擁擠復雜路段場景下的小目標車輛由于重疊雜亂等問題,很容易出現(xiàn)誤檢、漏檢情況。因此,遮擋情況下的小尺度目標檢測是當前車輛檢測的重要研究方向。
當前,基于深度學習的小目標檢測是車輛檢測的主要研究熱點。現(xiàn)階段,目標檢測算法可以分為兩類,一類以區(qū)域卷積神經(jīng)網(wǎng)絡(regions with convolutional neural network, R-CNN)算法[1]、快速R-CNN(faster R-CNN, Faster R-CNN)算法[23]和掩模R-CNN (mask R-CNN, Mask R-CNN)算法[4]等兩階段檢測算法為代表;另一類以單步多框檢測(single shot multiBox detector,SSD)算法[5]、YOLO(you only look once)系列算法[610]等一階段檢測算法為代表。兩階段目標檢測網(wǎng)絡主要由訓練區(qū)域候選網(wǎng)絡(region proposal network,RPN)和目標區(qū)域網(wǎng)絡兩部分組成。首先訓練RPN,其次訓練目標區(qū)域網(wǎng)絡,網(wǎng)絡的準確率較高但是速度相對較慢;一階段目標檢測網(wǎng)絡,不需要通過RPN,僅由主干網(wǎng)絡直接給出類別信息和位置信息,此類算法速度更快,但精度相對略低。
目前,有很多學者采用基于深度學習的目標檢測算法進行小目標檢測。例如皮駿等[11]提出在主干與頸部的連接處加入坐標注意力(coordinate attention,CA),能夠?qū)D片不同的位置信息聚合到通道中,使被檢測對象的關注度得以提高,但是高分辨率圖像對輕量級網(wǎng)絡精度的影響等問題有待解決。Yan等[12]將跨階段部分(cross-stage partial, CSP)網(wǎng)絡中的剩余單元變?yōu)槊芗B接,增加信道注意機制,緩解網(wǎng)絡模型梯度消失問題,增強了特征傳播,但沒有深入計算交并比且未調(diào)整超參數(shù)和學習率。
牛為華等[13]將雙線性插值上采樣加入特征融合部分,并插入5個卷積注意力機制模塊(convolutional block attention module, CBAM)和小目標檢測層,增強小目標語義及位置信息,但其僅實現(xiàn)了數(shù)據(jù)集中一個小目標類別的檢測。Xu等[14]在局部感知骨干網(wǎng)絡中引入Swin Transformer[15]來應對實例分割與檢測任務,以此增強網(wǎng)絡的局部感知能力,提高小尺度物體的檢測精度,但模型在實驗對象數(shù)量和類型上受到限制,推理速度也有一定降低。Li等[16]采用引入內(nèi)容感知特征重組模塊[17]的方法,并結(jié)合歸一化的注意力模塊,以增強對小目標信息的提取能力。Shen等[18]通過生成形狀接近真實盒子的先驗盒子,并結(jié)合特征圖裁剪模塊,提升跨尺度檢測的能力,從而增強對小目標的聚焦能力。Liu等[19]提出使用Ghost-Hards-wish Conv模塊來簡化卷積運算,并引入坐標注意力結(jié)合加權(quán)雙向特征金字塔網(wǎng)絡(bidirectional feature pyramid network, BiFPN)[20],以增強對小目標特征的表達能力。Zhang等[21]采用Flip-Mosaic算法緩解小目標樣本不平衡問題,提高模型泛化能力。趙睿等[22]提出在特征融合層加入SE通道注意力(squeeze-and-excitation-network, SE-Net)[23],使算法聚焦于小目標的通道特征,提升檢測性能,但在暗光條件下,小目標的檢測效果仍然不夠理想。
本文針對目前車輛檢測算法對于交通道路上小目標感知能力較差、缺少針對性、容易出現(xiàn)錯檢漏檢問題,提出基于YOLO v5算法的改進算法,首先增加小目標檢測頭來適應較小目標尺寸,提高網(wǎng)絡對小目標的關注度,減少漏檢數(shù)量;然后引入一個可變形卷積網(wǎng)絡V2(deformable convolutional network V DCN V2)[24],提高模型對物體幾何變化的適應力;引入上下文增強模塊(context augmentation module, CAM)[25],來增強背景信息提取;使用增強交并比(enhanced intersection over union, EIoU)損失函數(shù)替換完整的交并比(complete intersection over union, CIoU)損失函數(shù),提高邊界框的定位精度,將快速空間金字塔池化(spatial pyramid pooling fast, SPPF)模塊替換為空間金字塔池化和上下文空間金字塔卷積分組(spatial pyramid pooling and context spatial pyramid convolution_group, SPPCSPC_group)模塊,提升網(wǎng)絡的特征提取能力。本文將提出的改進算法在KITTI[26]數(shù)據(jù)集中進行測試,并與其他算法進行實驗對比。實驗結(jié)果表明,該方法具有良好的檢測性能,在道路小目標的檢測精度上有不錯的提升。
1 YOLO v5算法與改進
1.1 網(wǎng)絡概述
YOLO v5算法由輸入端、主干、頸部、檢測端組成。輸入端由自適應錨框計算方法[27]計算出最佳錨框參數(shù);利用Mosaic數(shù)據(jù)增強進行圖片拼接,豐富圖片背景信息以及自適應圖片縮放,來適應不同尺寸車輛的檢測。在YOLOv5-6.0之后的版本中,主干網(wǎng)絡由標準卷積層Conv模塊和集中綜合卷積塊(concentrated-comprehensive-convolution block, C3)以及SPPF組成,進行特征提取工作。頸部網(wǎng)絡層將特征金字塔網(wǎng)絡(feature pyramid network,F(xiàn)PN)[28]與路徑聚合網(wǎng)絡(path aggregation network,PAN)[29]進行多尺度特征融合,使得輸出特征包含淺層特征的強定位信息和深層特征的高級語義信息。檢測端部分根據(jù)融合的特征信息對圖像進行多尺度目標檢測。
本文針對道路上小目標像素差、尺度小、遠距離等問題對YOLO v5算法進行優(yōu)化。首先增加160×160尺寸檢測頭,其次引入可變形卷積C3-DCN,增加CAM,使用SPPCSPC_group模塊進行多尺度特征融合,加強算法對小目標的感知能力,提升檢測精度。優(yōu)化后的YOLO v5算法總體網(wǎng)絡結(jié)構(gòu)如圖1所示。
1.2 小目標檢測頭
針對原始算法下采樣倍數(shù)過大、深層特征圖學習小目標的特征信息困難的問題,本算法增加一個160×160的小目標檢測頭。原本的YOLO v5算法在完成特征融合后,檢測層會輸出20×20、40×40和80×80 3種尺寸特征圖,分別檢測不同大小的目標。尺度較小的3種特征圖具有較大的感受野和豐富的語義信息,但局部細節(jié)特征不明顯,因此適合被用于大目標檢測。在實際道路場景中,由于視距和遮擋問題,小目標車輛和行人十分普遍。小目標經(jīng)過下采樣特征層和較多的深層卷積后,會造成大量淺層位置信息丟失,加之小目標本身像素較少,易出現(xiàn)漏檢情況。
為了緩解這種情況,保留淺層有效位置信息,增加網(wǎng)絡對道路小目標的關注程度,本文在原網(wǎng)絡基礎上增加了一個特征圖尺寸為160×160的小目標檢測頭,用于增強網(wǎng)絡對小目標的檢測能力。改進后增加的大尺度特征圖可以將目標劃分得更加細致,對目標細節(jié)關注度更高,利用淺層位置信息和深層語義信息相結(jié)合的方法,更加準確地定位和識別小目標,從而降低漏檢數(shù)量。
1.3 替換卷積
傳統(tǒng)卷積采用固定尺寸、固定大小卷積核對特征圖固定位置進行采樣,當面對非網(wǎng)狀格的物體時,無法適應其變化,泛化性較差。本算法將主干網(wǎng)絡尾部C3中的3×3傳統(tǒng)卷積替換為DCN V2可變形卷積,得到C3-DCN模塊,以此來適應不同物體的形狀、大小等幾何形變??勺冃尉矸e為每個采樣點引入一個偏移量,使卷積核能按需識別目標區(qū)域的內(nèi)容并進行動態(tài)調(diào)整,并且學習每個采樣點權(quán)重,以降低干擾因素的影響,從而適用于在擁堵道路上提取形狀復雜多變行人車輛的特征,提升網(wǎng)絡對動態(tài)小目標的特征提取能力,如圖2所示。
標準卷積可得到的特征矩陣為
y(p0)=∑pn∈Rw(pn)·x(p0+pn)(1)
式中:y是輸出特征圖;x是輸入特征圖的映射;w是該位置的權(quán)重因子;p0是y中真實的像素坐標;pn則是卷積核的位置;R是實數(shù)集??勺冃尉矸eDCN V2在此基礎上讓模型學習采樣點的偏移和每個采樣點的權(quán)重,其計算公式如下所示:
y(p0)=∑pn∈Rw(pn)·x(p0+pn+Δpn)·Δmn(2)
式中:Δpn是偏移量;Δmn是權(quán)重系數(shù),介于0~1之間,針對于無關采樣點可直接取0。由于DCN V2會帶來額外的推理時間,本改進算法僅將主干最后一個C3模塊替換成C3-DCN模塊,適當增加了網(wǎng)絡復雜度,提高網(wǎng)絡對可變小目標的學習能力。
1.4 CAM
為獲取小目標更豐富的語義信息和定位信息,本算法在主干網(wǎng)絡部分增加CAM,利用不同空洞卷積率的空洞卷積,可以獲取更豐富的上下文信息,并將其注入到FPN中,以補充FPN對上下文信息獲取的不足。該模塊對大小為[bs,C,H,W]的輸入分別以1、3、5的空洞卷積率通過空洞卷積進行處理,融合不同感受野的特征,獲取背景信息。其中,bs為批次大小,C為通道數(shù),H和W為高和寬。為獲得更多細節(jié)特征,選用核大小為3×3的卷積核,并將通道數(shù)壓縮為1/4,降低參數(shù)量,然后通過卷積擴張得到3種大小相同而感受野不同的輸出,最后將其進行融合,結(jié)構(gòu)如圖3所示。本文算法采用自適應融合的方式,首先通過卷積、拼接、歸一化等步驟將輸入特征圖壓縮成通道為3的空間權(quán)重,然后將其與3個輸入特征圖(F1、F2、F3)相對應,計算加權(quán)和以將上下文信息聚合到輸出特征圖中,具體流程如圖4所示。通過這種方式補充檢測所需信息,緩解小目標特征信息前傳丟失的情況,提升檢測效果。
1.5 SPPCSPC_group結(jié)構(gòu)
為了避免由圖像處理操作所造成的圖像失真、提取圖片特征重復等問題,提升算法特征融合能力,本文采用了SPPCSPC_group結(jié)構(gòu)來替換SPPF,其網(wǎng)絡結(jié)構(gòu)如圖5所示??臻g金字塔池化(spatial pyramid pooling,SPP)模塊用于增強感受野以適應不同分辨率的圖像,最大池化可獲得不同感受野。CSP模塊將特征分為兩部分,分別進行常規(guī)處理和SPP結(jié)構(gòu)處理,然后再將兩部分拼接。SPPCSPC_group結(jié)構(gòu)通過卷積、批歸一化、激活函數(shù)以及池化等操作,在減少參數(shù)量的同時提高了特征提取能力。
1.6 EIoU函數(shù)
原始YOLO v5算法使用CIoU函數(shù)計算邊界框損失,使用損失函數(shù)計算置信度損失和分類損失。CIoU函數(shù)計算公式如下所示:
LCIoU=IoU-ρ2(b,bgt)c2-αv(3)
v和α的計算公式如下所示:
v=4π2arctanwgthgt-arctanwh(4)
α=v1-IoU+v(5)
式中:IoU為預測框與實際框的交并比;ρ為兩者中心點距離;c為兩者最小包圍矩形閉包的對角線距離;bgt和b分別代表實際框和預測框,wgt、w、hgt、h代表真實框、預測框的寬度和高度;該損失函數(shù)考慮了邊界框回歸的重疊面積、中心點距離、長寬比,但其使用的是寬高相對比例,并不是寬高的值。當預測框的寬高滿足{(w=kwgt,h=khgt)|k∈R+}時,v=0長寬比的限制就會失效,如下所示:
vw=8π2arctanwgthgt-arctanwh×hw2+h2(6)
vh=-8π2arctanwgthgt-arctanwh×ww2+h2(7)
由式(6)和式(7)可知vw=-h(huán)wvh,w、h的值一個增大,一個減小,不能保持同增同減,與實際真實框和預測框訓練情況不符,有時會妨礙模型的優(yōu)化相似度。為了解決此問題,引入EIoU函數(shù)將預測框和實際框的寬高比影響因子分開處理,分別計算長和寬,其計算公式如下所示:
LEIoU=IoU-ρ2(b,bgt)c2+ρ2(w,wgt)c2w+ρ2(h,hgt)c2h(8)
式中:cw、ch是包圍真實框與預測框最小矩形的寬和高。本模型采用EIoU函數(shù)替換原始CIoU函數(shù),改進后的損失函數(shù)考慮了重疊面積,中心點距離、長寬邊長真實差,加快了模型收斂速度,解決了縱橫比的模糊定義和回歸中的樣本不平衡問題,并少量提升了檢測精度。
2 實驗結(jié)果與分析
2.1 實驗準備
本文選取了自動駕駛KITTI數(shù)據(jù)集進行實驗。KITTI數(shù)據(jù)集從高速公路、鄉(xiāng)村、市區(qū)等多種環(huán)境采集現(xiàn)實道路圖像,圖像中最多包含15輛車以及30名行人,且存在不同程度的遮擋與截斷,其中將像素低于60×25或45×30的圖像定義為道路小目標。該數(shù)據(jù)集共有car、van、truck、pedestrian、pedestrian(sitting)、cyclist、tram與misc 8個類別,本文將pedestrian類別和pedestrian(sitting)類別進行合并,選擇數(shù)據(jù)集中car、cyclist、pedestrian這3個類別,共選取了7 481張圖像作為實驗數(shù)據(jù),將其中5 984張圖像作為訓練集、1 497張圖像作為驗證集進行實驗。
本實驗選用精準率(precision, P)、召回率(recall, R)、平均精度(average precision, AP)和AP均值(mean AP, mAP)作為評價指標,其計算如下所示:
P=TPTP+FP×100%(9)
R=TPTP+FN×100%(10)
AP=∫R0(P)d(R)(11)
mAP=∑ki=1APik(12)
式中:TP代表正確識別車輛的數(shù)量;FP代表識別出車輛但沒有正確檢測的數(shù)量;FN代表車輛漏檢量;AP為單類別AP;mAP為各類別AP的平均值。
2.2 消融實驗
為了驗證本文算法對小目標車輛檢測的有效性,本文在訓練方法、訓練環(huán)境一致的情況下,設計消融實驗,依次將EIoU函數(shù)、CAM、SPPCSPC_group模塊、小目標檢測層和DCN模塊加入到原始YOLO v5算法中,消融實驗結(jié)果如表1所示。
表1中“√”代表實驗算法中使用了對應的模塊;“×”代表算法中沒有使用對應的模塊。由表1可知,在原始網(wǎng)絡上采用EIoU作為邊界框回歸損失函數(shù)后優(yōu)化了模型學習能力,檢測AP提升了1%,對于各類目標的檢測精度均有提升。加入CAM后,補充了網(wǎng)絡語義信息,提高了網(wǎng)絡信息獲取能力,改善漏檢情況,使mAP提升了0.4%。將SPPCSPC_group加入后,改善了圖像失真情況,使目標較小的兩個類別精度分別提升了0.4%和0.2%,圖像處理操作相對于目標較大的車輛類別影響較小,因此車輛類別精度并未提升。將小目標檢測頭加入后,在小目標提升方面效果較好,小目標層保留了淺層信息,提升了模型對小目標的學習能力。從表1中可知,其對行人這類小目標的檢測能力更強,檢測AP提升了1.4%,并且使mAP值提升了0.9%??勺冃尉矸e的引入使網(wǎng)絡可以更好地適應圖像中的變形物體,更加準確地識別各種形變物體,使運動中的行人和自行車輛的AP都有所提升。盡管對于在運動中形變較小的汽車類別沒有提升效果,但汽車類別檢測精度仍保持在了較高水準,保證了AP的提升。
2.3 改進前后效果對比
本文將改進算法與原始YOLO v5模型,在相同訓練環(huán)境下,采用batch-size為16、學習率為0.01,使用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器,分別在驗證集上迭代訓練150次,其驗證結(jié)果如表2所示。
由表2可知,改進后模型的精度有較大提升,mAP提升了2.7%,改進模型在車輛類、騎行類和行人類的效果均有提升,AP值分別提升了0.6%、3.1%、3.1%。本實驗選取的騎行類和行人類都屬于KITTI數(shù)據(jù)集中的小目標類別,其尺度較小,在其圖像中目標通常密集且重疊,容易出現(xiàn)漏檢、錯檢。改進后的算法對這兩類目標的精度提升值最大,由實驗結(jié)果可以看出改進后的算法對小目標的檢測有一定的改善。
YOLO v5算法和優(yōu)化后的算法在驗證集上的精度召回率(precision-recall, P-R)曲線分別如圖6所示。
由圖6可以看出,經(jīng)過優(yōu)化后,隨著R的提高,優(yōu)化后的算法各個類別以及總體準確率的下降更迅速,且各類別的曲線面積都大于原始算法,尤其在小目標的檢測方面曲線的收斂效果更好。
從數(shù)據(jù)集中選取3組道路圖像進行檢測,圖7為原算法與本文改進算法檢測對比圖像。根據(jù)實驗結(jié)果,可以得知本文改進的算法在檢測道路上的小目標和遠距離遮擋車輛方面具有良好的效果。
2.4 與其他檢測算法的性能對比
為驗證本文算法的優(yōu)越性,將改進后的算法與YOLO v3、YOLO v4、YOLO v5、SSD、Faster R-CNN、YOLO v5-C2f (faster implementation of CSP bottleneck with 2 convolutions)、添加了有效通道注意力(efficient channel attention, ECA)的YOLO v5-ECA算法、HorNet算法[30]、ConvNeXt[31]算法在同等條件下,采用前文所提方式劃分的數(shù)據(jù)集進行實驗對比,實驗結(jié)果如表3所示。
由表3可知,本文算法總體AP達到了95.2%,相較于表3中的其他檢測算法,本文算法在道路小目標檢測中精度最高。與當前主流的YOLO v5改進方法相比,本文算法在AP上比替換C3模塊為跨階段部分層模塊的YOLO v5-C2f算法高2.2%,并且相較于添加了有效通道注意力(efficient channel attention, ECA)的YOLO v5-ECA算法精度提升了2.3%。在與近年提出的采用遞歸門控卷積(recursive gated convolutions, gnConv)的HorNet算法和ConvNeXt算法進行對比時,本文算法仍具有一定的優(yōu)勢。
3 結(jié)束語
本文針對實際道路上距離較遠、像素較低、檢測目標較小的車輛與行人容易出現(xiàn)的錯檢、漏檢而導致的準確率較低的問題,在YOLO v5原始算法的基礎上進行改進。改進的算法首先針對小尺度目標檢測添加了微小檢測頭,增強網(wǎng)絡對較小目標的關注程度,從而減少漏檢情況,提升準確率。其次將主干最后一層C3模塊替換成可變形卷積C3-DCN模塊,以提高采樣點偏移量和權(quán)重的學習,使模型在面對擁堵路段運動的行人、車輛時可以準確提取特征,然后添加CAM增強背景信息的獲取,提升了遠距離車輛的檢測能力。接著使用了SPPCSPC_group模塊在減少參數(shù)量的同時提升特征提取能力,最后使用EIoU函數(shù)作為邊界框回歸損失函數(shù),解決了邊界框回歸不平衡的問題。
將改進后的YOLO v5算法在經(jīng)過處理的KITTI數(shù)據(jù)集上與原算法進行對比實驗,改進后的算法在小目標類別方面的AP更高,雖增加了一些參數(shù)量,檢測速度有所下降,但對于有速度優(yōu)勢的YOLO v5算法來說,下降的速度可忽略不計。
其次,本文算法相較于SSD、YOLO v3、YOLO v4、Faster R-CNN、YOLO v5-C2f、 YOLO v5-ECA、HorNet、ConvNeXt算法都有更高的精度,具有一定優(yōu)勢。但本文由于注重小目標的檢測,改進后的模型較大,對于硬件的計算能力和存儲能力要求較高,需要在輕量化方面進行進一步改進。
參考文獻
[1] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580587.
[2] GIRSHICK R. Fast R-CNN[C]∥Proc.of the IEEE International Conference on Computer Vision, 2015: 14401448.
[3] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2016, 39(6): 11371149.
[4] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]∥Proc.of the IEEE International Conference on Computer Vision, 2017: 29612969.
[5] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]∥Proc.of the 14th European Conference of Computer Vision-ECCV, 2016: 2137.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779788.
[7] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 72637271.
[8] GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. [20230603]. https:∥arxiv.org/abs/2107.08430.html.
[9] LI C Y, LI L L, JIANG H L, et al. YOLOv6: a single-stage object detection framework for industrial applications[EB/OL]. [20230603]. https:∥arxiv.org/abs/2209.02976.html.
[10] WANG C Y, BOCHKOVSKIY A, LIAOH Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 74647475.
[11] 皮駿, 劉宇恒, 李久昊. 基于YOLO v5s的輕量化森林火災檢測算法研究[J]. 圖學學報, 2023, 44(1): 2632.
PI J, LIU Y H, LI J H. Research on lightweight forest fire detection algorithm based on YOLO v5s[J]. Journal of Graphics, 2023, 44(1): 2632.
[12] YAN F X, XU Y X. Improved target detection algorithm based on YOLO[C]∥Proc.of the 4th International Conference on Robotics, Control and Automation Engineering, 2021: 2125.
[13] 牛為華, 殷苗苗. 基于改進YOLO v5的道路小目標檢測算法[J]. 傳感技術學報, 2023, 36(1): 3644.
NIU W H, YIN M M. Road small target detection algorithm based on improved YOLO v5[J]. Chinese Journal of Sensors and Actuators, 2023, 36(1): 3644.
[14] XU X K, FENG Z J, CAO C Q, et al. An improved swin transformer-based model for remote sensing object detection and instance segmentation[J]. Remote Sensing, 202 13(23): 4779.
[15] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2021: 999210002.
[16] LI A, SUN S J, ZHANG Z Y, et al. A multi scale traffic object detection algorithm for road scenes based on improved YOLOv5[J]. Electronics, 2023, 12(4): 878.
[17] WANG J Q, CHEN K, XU R, et al. CARAFE: content-aware reassembly of features[C]∥Proc.of the IEEE/CVF International Conference on Computer Vision, 2019: 30073016.
[18] SHEN L Z, TAO H F, NI Y Z, et al. Improved YOLOv3 model with feature map cropping for multi-scale road object detection[J]. Measurement Science and Technology, 2023, 34(4):045406.
[19] LIU J, CAI Q Q, ZOU F M, et al. BiGA-YOLO: a lightweight object detection network based on YOLOv5 for autonomous driving[J]. Electronics, 2023, 12(12): 2745.
[20] TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1078110790.
[21] ZHANG Y, GUO Z Y, WU J Q, et al. Real-time vehicle detection based on improved YOLO v5[J]. Sustainability, 202 14(19): 12274.
[22] 趙睿, 劉輝, 劉沛霖, 等. 基于改進YOLOv5s的安全帽檢測算法[J]. 北京航空航天大學學報, 2023, 49(8): 20502061.
ZHAO R, LIU H, LIU P L, et al. Safety hat detection algorithm based on improved YOLOv5s[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(8): 20502061.
[23] LIANG Q K, XIANG S, HU Y C, et al. PD2SE-Net: computer-assisted plant disease diagnosis and severity estimation net-work[J]. Computers and Electronics in Agriculture, 2019, 157: 518529.
[24] ZHU X Z, HU H, LIN S, et al. Deformable convnets v2: more deformable, better results[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 93089316.
[25] LUO Z X, SHEN T W, ZHOU L, et al. ContextDesc: local descriptor augmentation with cross-modality context[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 25272536.
[26] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 12311237.
[27] ZHANG S F, CHI C, YAO Y Q, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 97599768.
[28] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 21172125.
[29] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 87598768.
[30] RAO Y M, ZHAO W L, TANG Y S, et al. HorNet: efficient high-order spatial interactions with recursive gated convolutions[J]. Advances in Neural Information Processing Systems, 202 35: 1035310366.
[31] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s[C]∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 1197611986.
作者簡介
宋存利(1975—),女,教授,碩士研究生導師,博士,主要研究方向為計算機視覺、智能優(yōu)化算法。
柴偉琴(1998—),女,碩士研究生,主要研究方向為計算機視覺。
張雪松(1980—),男,副教授,碩士研究生導師,博士,主要研究方向為計算機視覺、人工智能。