陳 旭,彭冬亮,谷 雨
杭州電子科技大學(xué)自動(dòng)化學(xué)院,浙江 杭州 310018
“無人機(jī)+行業(yè)應(yīng)用”逐漸成為社會(huì)剛需,實(shí)現(xiàn)無人機(jī)圖像的目標(biāo)準(zhǔn)確實(shí)時(shí)檢測(cè)與跟蹤是在安防巡警、農(nóng)業(yè)防害、電力檢修、物聯(lián)網(wǎng)運(yùn)輸?shù)阮I(lǐng)域廣泛應(yīng)用需要解決的核心問題之一。與通用目標(biāo)檢測(cè)不同,無人機(jī)視角圖像小目標(biāo)多且密集,不同類型目標(biāo)間尺度差異大、背景復(fù)雜等特點(diǎn)[1]嚴(yán)重影響了目標(biāo)檢測(cè)的精度,而無人機(jī)圖像的高分辨率特點(diǎn)對(duì)目標(biāo)檢測(cè)模型優(yōu)化設(shè)計(jì)提出了挑戰(zhàn)。
隨著深度學(xué)習(xí)理論與技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的通用目標(biāo)檢測(cè)性能取得了遠(yuǎn)超傳統(tǒng)方法的性能[2-4],基于深度學(xué)習(xí)的通用目標(biāo)檢測(cè)算法可分為RCNN[2]系列雙階段算法和YOLO[3]、SSD[4]系列單階段算法。單階段檢測(cè)器有著端到端的性能優(yōu)勢(shì),但是在小目標(biāo)定位識(shí)別上精度偏低。雙階段目標(biāo)檢測(cè)器以先定位后識(shí)別的方式,在精度方面優(yōu)于單階段,但實(shí)時(shí)性較差。
深度目標(biāo)檢測(cè)模型算法的訓(xùn)練需要大量的數(shù)據(jù),目前主要的無人機(jī)圖像目標(biāo)檢測(cè)數(shù)據(jù)集包括VisDrone[5]、UAVDT[6]等。VisDrone 無人機(jī)數(shù)據(jù)集由多架無人機(jī)傾斜俯視拍攝而成,涵蓋了中國14 個(gè)城市景觀,包含10000 張圖像以及260 萬標(biāo)注信息,對(duì)于檢測(cè)、跟蹤任務(wù)而言仍然是一個(gè)難度較高的數(shù)據(jù)集。VisDrone 數(shù)據(jù)集中圖片分辨率高達(dá)2000×1500,包含10 種目標(biāo)類別,其中people 類和pedestrians 類極易混淆,圖像的尺度、方向多樣性、強(qiáng)度不均勻、退化嚴(yán)重等特點(diǎn)對(duì)算法設(shè)計(jì)提出了極大挑戰(zhàn)。UAVDT無人機(jī)數(shù)據(jù)集是一個(gè)大規(guī)模的目標(biāo)檢測(cè)跟蹤數(shù)據(jù)集,由100 個(gè)航拍視頻、4 萬張圖片及其84.15 萬標(biāo)注信息組成,圖片大小為1080×540,包含不同天氣狀況、飛行高度、攝像機(jī)視圖和遮擋等14 種不同場(chǎng)景下的三類車輛圖像,UAVDT 數(shù)據(jù)集中圖像的背景復(fù)雜度高于VisDrone 數(shù)據(jù)集。
直接將通用目標(biāo)檢測(cè)算法應(yīng)用于無人機(jī)圖像目標(biāo)檢測(cè)時(shí),由于無人機(jī)圖像的上述特性,檢測(cè)性能通常會(huì)有較大降低,因此研究學(xué)者進(jìn)行了有針對(duì)性的改進(jìn),主要從優(yōu)化雙階段檢測(cè)網(wǎng)絡(luò)、進(jìn)行數(shù)據(jù)增強(qiáng)、優(yōu)化無錨方法、優(yōu)化輕量化網(wǎng)絡(luò)等幾個(gè)方面展開。
為充分利用雙階段網(wǎng)絡(luò)在小目標(biāo)檢測(cè)上的優(yōu)勢(shì),文獻(xiàn)[7]針對(duì)提高IOU 訓(xùn)練閾值存在的問題,提出了一種級(jí)聯(lián)指導(dǎo)IOU 重采樣的網(wǎng)絡(luò)結(jié)構(gòu)Cascade RCNN,顯著提升了小目標(biāo)檢測(cè)精度,但推理速度有所降低?;跓o人機(jī)圖像目標(biāo)聚集的特點(diǎn),文獻(xiàn)[8]基于R-CNN 改進(jìn)算法,提出了一種多階段集群檢測(cè)網(wǎng)絡(luò)ClusDet。該網(wǎng)絡(luò)使用區(qū)域聚類、切片檢測(cè)、尺度適應(yīng)的方法,提高了雙階段目標(biāo)檢測(cè)網(wǎng)絡(luò)在高分辨率無人機(jī)圖像上的運(yùn)行速度與小目標(biāo)檢測(cè)率。Singh 等人[9]使用小目標(biāo)縮放、均衡正負(fù)樣本的訓(xùn)練策略,提高了雙階段R-CNN 的精度水平;文獻(xiàn)[10]使用多方法聯(lián)合增強(qiáng)的訓(xùn)練策略,解決了訓(xùn)練網(wǎng)絡(luò)的過程中存在的尺度變化、目標(biāo)稀疏、類別不均衡等問題,在不犧牲推理速度的情況下大幅提高精度。近年新興的無錨網(wǎng)絡(luò)十分適用于無人機(jī)圖像小目標(biāo)檢測(cè):Duan 等人提出的CenterNet[11]提出的視定位為檢測(cè)中心點(diǎn)及其偏移的任務(wù),使用預(yù)測(cè)焦點(diǎn)的方式進(jìn)行回歸,并從中心回歸的偏移參數(shù)得到實(shí)際的位置信息,該方法有效增強(qiáng)了小目標(biāo)的檢出率,但高分辨率特征圖也降低了算法實(shí)時(shí)性。從實(shí)時(shí)性角度出發(fā),谷歌采用深度可分離卷積替換傳統(tǒng)卷積,提出了MobileNet[12]骨干網(wǎng)絡(luò),大幅降低計(jì)算量,廣泛應(yīng)用在邊緣設(shè)備上。隨后也出現(xiàn)了大量輕量化網(wǎng)絡(luò):Pelee[13]、EfficientDet[14]、GhostNet[15]等。此外基于L1 正則化的模型剪枝、特征組之間的模型蒸餾加速方法也備受關(guān)注,提速效果明顯,可兼容各種邊緣設(shè)備,但是精度會(huì)出現(xiàn)較大損失。
結(jié)合無人機(jī)圖像特點(diǎn)和單階段YOLO 系列算法的實(shí)時(shí)性和準(zhǔn)確性,本文充分利用YOLOv5s 的優(yōu)勢(shì)解決了其深度寬度不均衡、分類精度不足等問題,有效提高了無人機(jī)場(chǎng)景下小模型實(shí)時(shí)檢測(cè)的精度,主要?jiǎng)?chuàng)新點(diǎn)包括以下幾點(diǎn):
1) 為解決無人機(jī)圖像目標(biāo)尺度差異大、小目標(biāo)檢測(cè)率低的問題,分析了深度模型中模型深度和寬度對(duì)于無人機(jī)圖像檢測(cè)的性能增益,提出了可顯著提高感受野的混合殘差空洞卷積模塊,并結(jié)合無人機(jī)圖像特點(diǎn)對(duì)YOLOv5s 模型進(jìn)行改進(jìn),設(shè)計(jì)了YOLOv5sm模型;
2) 為進(jìn)一步優(yōu)化改進(jìn)模型的實(shí)時(shí)性與識(shí)別率,設(shè)計(jì)了一種基于目標(biāo)局部部件特征信息的注意力機(jī)制,提出了一種跨階段注意力特征融合模塊SCAM;
3) 考慮到目標(biāo)檢測(cè)任務(wù)中位置回歸與分類任務(wù)之間的矛盾,通過對(duì)YOLO 檢測(cè)頭進(jìn)行改進(jìn),單獨(dú)對(duì)分類分支進(jìn)行特征后處理,實(shí)現(xiàn)位置回歸與分類任務(wù)的隔離解耦;
4) 最后采用VisDrone 和DIOR[16]數(shù)據(jù)集驗(yàn)證了提出算法的有效性與適用性。
基于全卷積的單階段YOLO 目標(biāo)檢測(cè)算法,以其簡(jiǎn)潔、快速、易部署的優(yōu)點(diǎn),被廣泛應(yīng)用于工業(yè)領(lǐng)域的目標(biāo)檢測(cè)、跟蹤、分割,其中YOLOv5s 十分適用于無人機(jī)場(chǎng)景實(shí)時(shí)目標(biāo)檢測(cè)。與其他檢測(cè)算法相比,YOLOv5s 有著如下特點(diǎn)。
2.1.1 骨干網(wǎng)絡(luò)
采用CSPDarkNet53 表征學(xué)習(xí),在檢測(cè)性能上優(yōu)于ResNet 基準(zhǔn)算法。其深度、寬度均衡化的特性兼容了不同設(shè)備、數(shù)據(jù)集。殘差網(wǎng)絡(luò)避免了深度網(wǎng)絡(luò)學(xué)習(xí)中的梯度消失的問題,以及CSPNet[17](cross stage partial network)在不丟失模型精度的條件下,加速推理44%。在最后一個(gè)尺度的表征學(xué)習(xí)前添加SPP[18],極大提高感受野,提高大目標(biāo)檢出率和平移魯棒性。
2.1.2 特征融合
沿用特征金字塔網(wǎng)絡(luò) (feature pyramid network,FPN)[19]輔以PANet[20]多尺度特征融合策略,如圖2所示,在不同特征層輸出檢測(cè)結(jié)果,提高了各尺度目標(biāo)的檢出率與定位、識(shí)別精度。結(jié)合CSPNet 融合特征,優(yōu)化特征融合速度。
圖2 特征融合模塊結(jié)構(gòu)圖Fig.2 Structure diagram of feature fusion module
2.1.3 其他特性
采取一系列數(shù)據(jù)增強(qiáng)方法,并沿用目標(biāo)檢測(cè)算法中的先驗(yàn)框思想,在目標(biāo)數(shù)據(jù)集上主動(dòng)學(xué)習(xí)得到預(yù)設(shè)先驗(yàn)框,使得目標(biāo)定位更加精確,訓(xùn)練更加快速穩(wěn)定。
盡管YOLOv5s 性能優(yōu)異,在無人機(jī)場(chǎng)景上有巨大優(yōu)勢(shì),但是精度上相較YOLOv4[21]、EfficientDet 等一流模型差距較大,故本文從骨干網(wǎng)絡(luò)、特征融合、檢測(cè)頭三個(gè)方面改進(jìn)YOLOv5s,提出了一個(gè)均衡化的實(shí)時(shí)檢測(cè)算法YOLOv5sm+,力圖保持運(yùn)行速度的同時(shí)提高檢測(cè)精度。
2.2.1 YOLOv5sm 骨干網(wǎng)絡(luò)
深度卷積通過不斷疊加卷積模塊來提高檢測(cè)精度,但是無人機(jī)圖像小目標(biāo)眾多,分辨率高,一味增加深度將嚴(yán)重降低算法實(shí)時(shí)性,給深度網(wǎng)絡(luò)帶來難以承受的推理、后處理計(jì)算成本,而且難以在硬件中實(shí)際部署。而YOLOv5s 模型低級(jí)特征映射少、感受野小,導(dǎo)致各大目標(biāo)的召回率、精度偏低,故需針對(duì)無人機(jī)圖像對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)整。
深度網(wǎng)絡(luò)可以映射更深層次的語義信息,這對(duì)分類有益,卻不利于回歸,回歸框的優(yōu)劣極大影響樣本判定,即召回率,進(jìn)而影響整體精度。寬度網(wǎng)絡(luò)不但可以保存更多的歷史信息,降低神經(jīng)網(wǎng)絡(luò)的災(zāi)難性遺忘,而且可以映射更細(xì)微的特征信息,即相似特征之間微弱的差異、偏移。這些對(duì)于無人機(jī)圖像定位、識(shí)別來說尤為重要。
圖1 YOLOv5 骨干網(wǎng)絡(luò)架構(gòu)圖Fig.1 YOLOv5 backbone network architecture diagram
基于以上分析,本文對(duì)YOLOv5s 增寬50%以增加模型容量,去除Focus 模塊降低對(duì)小目標(biāo)定位的影響,由于低層特征提取模塊內(nèi)部?jī)H有32 維特征,故替換為殘差塊以增加低層內(nèi)部特征的容量、信息。為了解決低層特征感受野較小的問題,本文提出了混合殘差空洞卷積模塊(Res-DConv),如圖3 (a),通過有效提高感受野來增強(qiáng)背景信息對(duì)回歸、分類的指導(dǎo),并避免降低局部細(xì)節(jié)信息損失,提高回歸的精度。如圖3 (b),該模塊(空洞率為3)等價(jià)于四層普通卷積的感受野,即可以一半的計(jì)算量實(shí)現(xiàn)相同深度。最終提出YOLOv5sm 輕量化骨干網(wǎng)絡(luò),具體架構(gòu)如表1 所示。
表1 感受野分析表Table 1 Receptive field analysis table
圖3 (a) Res-DConv 模塊;(b) 感受野映射Fig.3 (a) Res-DConv module;(b) Receptive field mapping
其次考慮到錨的尺寸需受到特征感受野、下采樣次數(shù)的約束。首先根據(jù)實(shí)際數(shù)據(jù)集中目標(biāo)的長寬分布,采用K-Means 聚類確定預(yù)設(shè)先驗(yàn)框的大致范圍,再根據(jù)表2 中的框預(yù)設(shè)值范圍對(duì)先驗(yàn)框進(jìn)行歸類?;赮OLO 系列模型,VisDrone 數(shù)據(jù)集的預(yù)設(shè)錨點(diǎn)要參考實(shí)際目標(biāo)出現(xiàn)頻次、長寬先驗(yàn)信息與模型預(yù)測(cè)輸出的最值進(jìn)行判斷取舍。采用契合數(shù)據(jù)集的超參數(shù)設(shè)置方法,將三個(gè)預(yù)設(shè)框增加為四個(gè),可增加硬件設(shè)備兼容性,提高訓(xùn)練速度,也可細(xì)分樣本的尺度變化,增大錨與真實(shí)樣本框的擬合度,提升訓(xùn)練樣本召回率,利于檢測(cè)框的回歸,提升小目標(biāo)的檢測(cè)精度。
表2 呼應(yīng)感受野、下采樣的錨點(diǎn)預(yù)設(shè)置Table 2 Pre-setting anchors in response to the receptive field and down-sampling
2.2.2 SCAM 特征融合模塊
為了保持小目標(biāo)分類性能的同時(shí)平衡計(jì)算成本和物體尺度的方差、強(qiáng)化大目標(biāo)的識(shí)別精度,受基于部件的細(xì)粒度目標(biāo)分類[22]、注意力機(jī)制[23]啟發(fā),本文提出了SCAM 特征融合模塊,其主要思想是基于低分辨率特征圖的空間注意力對(duì)高分辨率特征圖進(jìn)行加權(quán)篩選,用以增強(qiáng)目標(biāo)的部件特征,提高特征利用率,增強(qiáng)檢測(cè)器的分類性能。本文稱之為跨階段注意力模塊(stage crossed attention module,SCAM)。
本SCAM 模塊可取代下采樣模塊:首先低分辨率特征經(jīng)過最大池化和均值池化,連接后經(jīng)過混合空洞卷積后得到注意力掩碼圖像Mask;然后對(duì)高分辨率特征按照尺度轉(zhuǎn)通道進(jìn)行處理(下轉(zhuǎn)換)結(jié)合Mask掩碼對(duì)高分辨率特征進(jìn)行加權(quán),后經(jīng)過通道注意力[24]調(diào)整通道得到待融合特征;最后將高階特征與處理后的低階特征按維度級(jí)聯(lián)融合得到融合特征。具體模塊結(jié)構(gòu)如圖4 中SCAM 模塊所示。
圖4 改進(jìn)模塊結(jié)構(gòu)Fig.4 Improved module structure
2.2.3 SDCM 檢測(cè)頭解耦模塊
目標(biāo)檢測(cè)中分類和回歸的矛盾本質(zhì)上是卷積的平移、尺度的不變性和恒等性之間的矛盾。分類任務(wù)希望目標(biāo)狀態(tài)經(jīng)平移、旋轉(zhuǎn)、光照和尺度改變后,類別信息不變,即平移和尺度的不變性,而對(duì)于回歸任務(wù),需要目標(biāo)的狀態(tài)變化皆反映在特征上,進(jìn)而回歸出準(zhǔn)確位置,即平移和尺度的恒等性。基于Retina-Net[24]、Double-Head R-CNN[25]等文獻(xiàn)對(duì)檢測(cè)頭解耦的做法,本文提出SDCM(split de-couped module)模塊,可分階段地執(zhí)行不同的任務(wù),防止特征共用,第一階段完成回歸任務(wù),第二階段借助跨階段卷積模塊協(xié)助完成分類任務(wù),從而緩解了這種互斥矛盾,提高了細(xì)類別的分類精度。
2.2.4 YOLOv5sm+模型架構(gòu)
混合殘差空洞卷積的高感受野和高維特征,降低了實(shí)際所需的卷積層數(shù),使得低層特征具有較大感受野的同時(shí)包含較多的細(xì)節(jié)信息,輔以SCAM 特征融合模塊和SDCM 檢測(cè)頭,用以提高檢測(cè)速度與定位識(shí)別精度,改進(jìn)模型并稱之為YOLOv5sm+,和YOLOv5 相似,該模型有著四種不同的容量大小,以匹配不同設(shè)備、數(shù)據(jù)集。尤其在無人機(jī)場(chǎng)景中,性能優(yōu)異的輕量化的模型結(jié)構(gòu)十分重要。
圖5 YOLOv5sm+模型架構(gòu)Fig.5 YOLOv5sm+model architecture
3.1.1 數(shù)據(jù)處理
本文選取VisDrone2019-DET 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練、驗(yàn)證數(shù)據(jù)集均以步長為600,切分為800×800的圖像,其中訓(xùn)練數(shù)據(jù)集有樣本25447 張圖片及其標(biāo)注,驗(yàn)證集樣本1115 張圖像及其標(biāo)注信息,測(cè)試集為547 張驗(yàn)證集原圖。
經(jīng)過數(shù)值統(tǒng)計(jì)分析,由表3、圖6 可知,VisDrone數(shù)據(jù)集類別分布不均衡、小目標(biāo)眾多、大目標(biāo)稀少,部分類間方差較小,類別混淆嚴(yán)重,是一個(gè)極具挑戰(zhàn)性的數(shù)據(jù)集。
圖6 (a) VisDrone 數(shù)據(jù)集類別實(shí)例總計(jì);(b) YOLOv5m 算法下的類混淆矩陣Fig.6 (a) Total number of category instances on the VisDrone dataset;(b) Classes confusion matrix of YOLOv5m algorithm
表3 不同類型目標(biāo)數(shù)量統(tǒng)計(jì)Table 3 Statistics of different types of objects
3.1.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)中采用的服務(wù)器配置如下:Intel(R) i7-6850K的CPU,64 G 內(nèi)存,NVIDIA GeForce GTX 3090 圖形處理器,Ubuntu 18.04 操作系統(tǒng)。
所有模型訓(xùn)練使用雙卡分布式混合精度訓(xùn)練,并使用單卡單批次方式進(jìn)行測(cè)試。實(shí)驗(yàn)代碼基于ultralytics 的YOLOv5 工程第四個(gè)版本和yolov3-archive 工程融合改進(jìn),同時(shí)支持yaml 模型文件和cfg 模型文件,所有算法皆為官方模型在本工程的遷移實(shí)現(xiàn)。訓(xùn)練輪次(epoch)初始為200,批大小為16;采用SGD 梯度下降優(yōu)化器,初始學(xué)習(xí)率0.01,動(dòng)量為0.949,采用one-cycle 學(xué)習(xí)率衰減,其它為默認(rèn)設(shè)置。
為了準(zhǔn)確評(píng)估深度模型在無人機(jī)空域圖像上的檢測(cè)性能,本文采用檢測(cè)算法評(píng)估公認(rèn)度最高的平均精度均值(mean average precision,mAP),即數(shù)據(jù)集中各類精度的平均值。每個(gè)類別根據(jù)準(zhǔn)確率和召回率可繪制一條曲線,該曲線與坐標(biāo)軸的面積則為AP 值。其中準(zhǔn)確率(precision,P)、召回率(recall,R)定義如下。其中TP為真正例,F(xiàn)P為假正例,F(xiàn)N為假反例。
實(shí)驗(yàn)中采用COCO 評(píng)價(jià)標(biāo)準(zhǔn)[26],使用pycocotools工具對(duì)檢測(cè)結(jié)果進(jìn)行評(píng)估分析。當(dāng)檢測(cè)框與真值的交并比(intersection over union,IOU)大于0.5 認(rèn)為該目標(biāo)被準(zhǔn)確預(yù)測(cè),分別在IOU 取值為0.5、0.75、0.5:0.95條件下的計(jì)算總類別的平均精度(mAP50,mAP75,mAP),并且在IOU 為0.5 的條件下分別統(tǒng)計(jì)大、中、小三種尺度目標(biāo)的平均精度(AP-large,AP-mid,APsmall)。模型實(shí)時(shí)性評(píng)估采用單張圖片的平均推理時(shí)間。
4.1.1 目標(biāo)檢測(cè)模型中深度和寬度對(duì)檢測(cè)精度影響實(shí)驗(yàn)分析
首先本文探索了深度和寬度對(duì)VisDrone 數(shù)據(jù)集算法精度的增幅,為了保證對(duì)比模型的計(jì)算量、參數(shù)量一致,模型設(shè)置如下:1) 深度為1.33、寬度為0.5的深度模型;2) 深度為0.33、寬度為0.75 的寬度模型;3) 深度為0.33,寬度為0.5 的基準(zhǔn)模型YOLOv5s。實(shí)驗(yàn)使用處理后的訓(xùn)練集以及相同的默認(rèn)參數(shù)進(jìn)行訓(xùn)練,在800×800 的裁剪后的驗(yàn)證數(shù)據(jù)集上進(jìn)行單尺度測(cè)試,評(píng)價(jià)模型的表征能力。由表4 實(shí)驗(yàn)結(jié)果可知:1) YOLOv5s 的模型容量不足以容納VisDrone 數(shù)據(jù)集的知識(shí)總量;2) 在VisDrone 無人機(jī)數(shù)據(jù)集上,相比深度網(wǎng)絡(luò)模型,寬度網(wǎng)絡(luò)模型對(duì)精度提升增益更大。
表4 深度、寬度模型性能對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Performance comparison experiment results of depth and width models
為了驗(yàn)證混合殘差空洞卷積模塊的有效性,設(shè)置實(shí)驗(yàn)如下,模型分別為YOLOv5s 和更改殘差塊為Res-Dconv 的YOLOv5s+Res-Dconv 模型,實(shí)驗(yàn)條件同上。由表5 實(shí)驗(yàn)結(jié)果可知,在VisDrone 數(shù)據(jù)集上,相較原始YOLOv5s 模型,改進(jìn)模型平均精度提升1.4%,驗(yàn)證了本模塊可增大感受野,縮減網(wǎng)絡(luò)深度,進(jìn)而提高性能。
表5 Res-Dconv 模塊驗(yàn)證實(shí)驗(yàn)結(jié)果Table 5 Verification experiment results on Res-Dconv module
鑒于以上實(shí)驗(yàn),本文提出了YOLOv5sm 骨干網(wǎng)絡(luò),并與官方s、m 模型進(jìn)行對(duì)比實(shí)驗(yàn),在1536×1536 的圖片分辨率下測(cè)試各項(xiàng)指標(biāo),如表6 的1、2行所示,在s 模型基準(zhǔn)下,改進(jìn)骨干的mAP50 提高了4.1 個(gè)百分點(diǎn),優(yōu)于s 模型的0.548,驗(yàn)證了改進(jìn)模型在無人機(jī)圖像上具有可行性。
4.1.2 特征融合SCAM 模塊對(duì)比實(shí)驗(yàn)
為驗(yàn)證SCAM 模塊的有效性,本文以YOLOv5s為基準(zhǔn)模型,并以SCAM 模塊替換下采樣特征融合模塊進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)參數(shù)默認(rèn),使用單尺度訓(xùn)練,在1536×1536 分辨率下進(jìn)行測(cè)試,由表6 第1、3 行可知,相較于YOLOv5s 基準(zhǔn)模型,SCAM 模塊提升mAP50 近0.7%,且目標(biāo)越大,提升越明顯,同時(shí)參數(shù)量和推理時(shí)間也低于基準(zhǔn)模型。
4.1.3 SDCM 檢測(cè)頭解耦模塊對(duì)比實(shí)驗(yàn)
為驗(yàn)證SDCM 模塊的可行性,本文仍然以YOLOv5s 為基準(zhǔn)模型,在此基礎(chǔ)之上加入SDCM 模塊進(jìn)行對(duì)比實(shí)驗(yàn)。SDCM 模塊可直接替換YOLOv5s的檢測(cè)頭結(jié)構(gòu),實(shí)驗(yàn)條件同上,通過比較表6 中的第1、4 行,得出SDCM 模塊在輕量級(jí)s 模型基礎(chǔ)上將性能指標(biāo)mAP 提升1.4%,也驗(yàn)證了對(duì)于回歸、分類解耦的可行性。
表6 本文算法模塊在VisDrone 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 6 The ablation experiment results of our algorithm modules on the VisDrone dataset
為了驗(yàn)證本文方法的有效性,本文以YOLOv5s模型作為基準(zhǔn)算法,然后以Scaled-YOLOv4[27]、YOLOv3[28]探索精度水平,MobileNetv3[29]探索速度基準(zhǔn),MobileViT[30]試驗(yàn)Transformer 算法的性能表現(xiàn),YOLOX[31]試驗(yàn)無錨檢測(cè)算法在VisDrone 數(shù)據(jù)集上的性能表現(xiàn)。實(shí)驗(yàn)結(jié)果如表7 所示。
表7 不同算法在VisDrone 數(shù)據(jù)集上的檢測(cè)性能Table 7 Detection performance of different algorithms on VisDrone dataset
對(duì)比發(fā)現(xiàn),在1536×1536 分辨率下,基準(zhǔn)算法YOLOv5s 的mAP50 精度為54.8%,實(shí)時(shí)性最好;Scaled-YOLOv4 精度最高、YOLOv3 次之,同時(shí)模型復(fù)雜度最高,推理時(shí)間達(dá)不到無人機(jī)平臺(tái)算法實(shí)時(shí)性的要求;對(duì)于輕量級(jí)網(wǎng)絡(luò)MobileNetv3 來說,精度優(yōu)于YOLOv5s 模型,但是速度上次于YOLOv5s;基于注意力的Transformer 輕量級(jí)網(wǎng)絡(luò)性能上并不占優(yōu)勢(shì);無錨檢測(cè)器YOLOX 的精度最低,即在輕量骨干網(wǎng)絡(luò)下,無錨檢測(cè)器回歸精度低,性能較差。
YOLOv5sm+模型較基準(zhǔn)模型mAP50 高5.6%,優(yōu)于m 模型且推理速度提升21.4%,也驗(yàn)證了改進(jìn)算法在無人機(jī)數(shù)據(jù)集上的有效性。由圖7 可知,本文YOLOv5sm+模型在遠(yuǎn)景小目標(biāo)的檢出率優(yōu)于s 和m模型,由圖8 可知,在重疊度高的目標(biāo)集群中,本文算法可以更準(zhǔn)確的檢測(cè)出實(shí)際的目標(biāo),虛警低于對(duì)比模型。
圖7 不同算法在VisDrone 無人機(jī)場(chǎng)景下的檢測(cè)實(shí)例。(a) YOLOv5m 模型;(b) YOLOv5sm+模型;(c) YOLOv5s 模型Fig.7 The detection examples of different algorithms in the VisDrone UAV scene.(a) YOLOv5m model;(b) YOLOv5sm+model;(c) YOLOv5s model
圖8 三種算法在密集車輛場(chǎng)景的檢測(cè)結(jié)果對(duì)比圖。(a) YOLOv5m;(b) YOLOv5s;(c) YOLOv5sm+Fig.8 Comparison of the detection effects of three algorithms in dense vehicle scenes.(a) YOLOv5m;(b) YOLOv5s;(c) YOLOv5sm+
為了充分驗(yàn)證本文方法有效性和魯棒性,本文在DIOR 遙感數(shù)據(jù)集上進(jìn)行了對(duì)比驗(yàn)證。該數(shù)據(jù)集是西北工業(yè)大學(xué)于2019 年發(fā)布了一個(gè)大規(guī)模的空域遙感數(shù)據(jù)集,數(shù)據(jù)集在不同成像條件、天氣和季節(jié)下采集而成,覆蓋20 個(gè)目標(biāo)類別,類間相似、類內(nèi)多樣,尺度差異性大,背景復(fù)雜,適合遷移驗(yàn)證本文算法有效性。訓(xùn)練參數(shù)按照默認(rèn)實(shí)施,使用多尺度訓(xùn)練模型200 個(gè)輪次。DIOR 數(shù)據(jù)集使用官方的數(shù)據(jù)劃分,分為5876 張訓(xùn)練集,876 張驗(yàn)證集,14885 張測(cè)試集,采用默認(rèn)超參數(shù)設(shè)置。
實(shí)驗(yàn)結(jié)果如表8 所示,在20 類的DIOR 遙感數(shù)據(jù)集上,相對(duì)于YOLOv5s 模型,改進(jìn)模型檢測(cè)精度提升近4.2%,達(dá)到了66.7%,優(yōu)于Faster R-CNN 兩階段算法。由如圖9 中的部分檢測(cè)實(shí)例可知,本模型在虛警率、密集目標(biāo)分辨率上表現(xiàn)優(yōu)于YOLOv5s 模型。實(shí)驗(yàn)表明,本文算法對(duì)于小目標(biāo)眾多、尺度差異大、目標(biāo)重疊度的數(shù)據(jù)集可以實(shí)現(xiàn)較好的魯棒性。
圖9 改進(jìn)算法在DIOR 數(shù)據(jù)集的檢測(cè)對(duì)比。(a) YOLOv5s;(b) YOLOv5sm+Fig.9 Detection comparison of improved algorithm in DIOR dataset.(a) YOLOv5s;(b) YOLOv5sm+
表8 不同算法在DIOR 數(shù)據(jù)集上的檢測(cè)性能Table 8 Detection performance of different algorithms on DIOR dataset
本文以無人機(jī)監(jiān)視場(chǎng)景為背景,分析了VisDrone無人機(jī)視角數(shù)據(jù)集的目標(biāo)分布規(guī)律。首先探索了在UAV 數(shù)據(jù)集上深度和寬度對(duì)YOLOv5 模型的精度增幅,實(shí)驗(yàn)結(jié)果表明,在無人機(jī)數(shù)據(jù)集上,雖然深度模型的深層語義提高了模型精度,但是由于內(nèi)部特征匱乏,深度模型性能差于寬度模型,主要影響精度水平的是內(nèi)部特征映射量?;诨旌蠚埐羁斩淳矸e模塊,提出了一種均衡化的實(shí)時(shí)目標(biāo)檢測(cè)模型YOLOv5sm,精度高于YOLOv5s 模型4.1 個(gè)百分點(diǎn)。SCAM 特征融合模塊提高了特征空間利用率和特征融合速度,進(jìn)一步提升了檢測(cè)精度。在VisDrone 數(shù)據(jù)集上的結(jié)果表明,目標(biāo)尺度越大,精度提升越明顯。最后基于解耦的思想改進(jìn)檢測(cè)頭結(jié)構(gòu),進(jìn)一步提升了精度水平。通過與Scaled-YOLOv4、MobileNetv3 輕量化網(wǎng)絡(luò)、MobileViT 注意力網(wǎng)絡(luò)、YOLOX 無錨檢測(cè)器對(duì)比可知,改進(jìn)模型可顯著提高模型精度,驗(yàn)證集mAP50高達(dá)60.6%,優(yōu)于m 模型且速度提升21.4%,基本滿足無人機(jī)邊緣設(shè)備上的性能、精度要求。在DIOR 數(shù)據(jù)集上的遷移實(shí)驗(yàn)表明,改進(jìn)模型相較于YOLOv5s基準(zhǔn)模型,mAP50 提升4.2%,驗(yàn)證了算法的有效性和魯棒性。雖然改進(jìn)模型的精度、速度在VisDrone數(shù)據(jù)集上較為可觀,但后期工作仍需關(guān)注召回對(duì)目標(biāo)的精度影響以及在無人機(jī)并行設(shè)備上的實(shí)際測(cè)試部署工作。