李嘉新,侯 進(jìn),盛博瑩,周宇航
(1.西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756;2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院智能感知智慧運(yùn)維實(shí)驗(yàn)室,成都 611756;3.西南交通大學(xué) 綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,成都 611756)
近年來(lái),遙感圖像目標(biāo)檢測(cè)在無(wú)人機(jī)巡檢[1]、農(nóng)業(yè)監(jiān)測(cè)[2]、城市規(guī)劃[3]、生態(tài)保護(hù)[4]等領(lǐng)域得到了廣泛應(yīng)用,因此,對(duì)遙感圖像檢測(cè)的進(jìn)一步優(yōu)化具有重要意義。遙感圖像采用空中設(shè)備對(duì)地采集信息,可以解決地面采集覆蓋范圍有限、減少目標(biāo)被遮擋等問(wèn)題。但是,從遠(yuǎn)距離和俯瞰視角拍攝的目標(biāo)在高分辨率下呈現(xiàn)多鄰域聚集、小目標(biāo)占比高等特性,導(dǎo)致檢測(cè)精度大幅下降,給航拍遙感場(chǎng)景下小目標(biāo)檢測(cè)帶來(lái)巨大挑戰(zhàn)。根據(jù)國(guó)際光學(xué)工程學(xué)會(huì)定義,尺寸小于原圖的0.12%可認(rèn)為是小目標(biāo)[5]。
現(xiàn)階段遙感領(lǐng)域的小目標(biāo)檢測(cè)性能的提升主要從多尺度融合和感受野角度出發(fā)。文獻(xiàn)[6]對(duì)特征金字塔模塊進(jìn)行重構(gòu),添加跨層級(jí)橫向連接以融合更多的通道特征,并在檢測(cè)頭前引入位置注意力(Coordinate Attention,CA)機(jī)制[7]以確保遙感小目標(biāo)精確定位,雖然其對(duì)小目標(biāo)具有較優(yōu)的檢測(cè)性能,但是采用直接去除頂層特征提取層的方式會(huì)對(duì)語(yǔ)義信息造成一定程度的損失,不利于應(yīng)對(duì)復(fù)雜場(chǎng)景下的檢測(cè)任務(wù)。文獻(xiàn)[8]提出用于特征增強(qiáng)的特征圖融合機(jī)制,利用卷積操作對(duì)不同深度、不同尺度的特征圖深度以及尺度進(jìn)行統(tǒng)一,融合得到檢測(cè)能力更強(qiáng)的特征圖,從而構(gòu)建特征金字塔(Feature Pyramid Network,F(xiàn)PN)以增強(qiáng)小目標(biāo)特征。盡管在遙感飛機(jī)和不同空中飛機(jī)數(shù)據(jù)集上的檢測(cè)精度均有所提升,但是其檢測(cè)速度無(wú)法滿(mǎn)足實(shí)時(shí)性需求。文獻(xiàn)[9]基 于Faster R-CNN[10]上的特 征金字塔[11]結(jié)構(gòu)設(shè)計(jì)了特征門(mén)控模塊和動(dòng)態(tài)融合模塊,依據(jù)不同尺度分配不同權(quán)重來(lái)區(qū)分目標(biāo)尺度對(duì)特征融合的影響,解決在特征融合中共享同一權(quán)重的問(wèn)題。但是,基于雙階段的目標(biāo)檢測(cè)算法本身在速度方面存在一定的局限性。
此外,研究人員從感受野角度來(lái)提升小目標(biāo)檢測(cè)性能。文獻(xiàn)[12]在8 倍下采樣后的特征映射中添加可變形卷積,對(duì)卷積中采樣點(diǎn)的位置增加1 個(gè)偏移,擴(kuò)張實(shí)際感受野進(jìn)而提升對(duì)小目標(biāo)的識(shí)別精度,但是當(dāng)目標(biāo)存在背景遮擋時(shí)虛警率和漏檢率較高。文獻(xiàn)[13]參考RFB(Receptive Field Block)[14]結(jié)構(gòu),采用多分支處理和空洞卷積設(shè)計(jì)特征增強(qiáng)模塊以加強(qiáng)特征語(yǔ)義信息,減少小目標(biāo)的檢測(cè)精度損失,但是在遙感圖像檢測(cè)精度上仍有進(jìn)一步提升的空間。文獻(xiàn)[15]利用混合空洞卷積的方式提取特征,有效增大感受野,并直接引入空洞空間金字塔池化(ASPP)[16]進(jìn)行多尺度特征融合,以捕獲更完整的衛(wèi)星道路圖像信息。但是以上方法使用場(chǎng)景單一,不能很好地應(yīng)用在多場(chǎng)景任務(wù)中。因此,現(xiàn)有算法在小目標(biāo)檢測(cè)任務(wù)上取得了一定成效,但是無(wú)法有效權(quán)衡檢測(cè)精度和速度,且未考慮卷積特征提取和下采樣操作過(guò)程中的小目標(biāo)信息傳遞丟失問(wèn)題。
本文提出基于YOLOv5 的遙感小目標(biāo)檢測(cè)算法YOLOv5-RS。通過(guò)構(gòu)建輕量的并行混合注意力模塊抑制圖像中復(fù)雜背景和負(fù)樣本的干擾,同時(shí)通過(guò)調(diào)整下采樣倍數(shù),保證傳遞更多的細(xì)節(jié)信息,并進(jìn)一步設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與Transformer[17]相結(jié)合 的特征 提取模 塊C3BT,將從特征圖中獲取到的局部與全局信息輸出作為融合的底層特征。將原網(wǎng)絡(luò)中的CIoU[18]損失函數(shù)替換為EIoU[19]損失函數(shù),有效減少目標(biāo)檢測(cè)框的重疊,精準(zhǔn)定位小目標(biāo)的位置,從而提升模型對(duì)遙感小目標(biāo)的檢測(cè)性能。
近年來(lái),目標(biāo)檢測(cè)領(lǐng)域越來(lái)越注重算法的工程化應(yīng)用,對(duì)實(shí)時(shí)性要求大幅提高??紤]到一階段網(wǎng)絡(luò)YOLOv5s[20]能兼顧檢測(cè)精度與速度的特性,本文將其作為基礎(chǔ)框架,從注意力模塊、特征金字塔融合、損失函數(shù)3 個(gè)角度進(jìn)行優(yōu)化。在特征提取階段,為減少小目標(biāo)信息的丟失,本文使用16 倍下采樣操作代替32 倍下采樣,并添加淺層分支。上述操作雖然能夠傳遞更多的淺層信息,但是縮小了感受野。基于此,本文構(gòu)建具有更大感受野和更強(qiáng)表征能力的C3BT 模塊替換SPPF 模塊前的原C3 特征提取模塊,C3BT 由CNN 和多頭自注意力(Multi-Head Self-Attention,MHSA)組合而成,同時(shí),將并行混合注意力模塊CBAM-P 嵌入到FPN 結(jié)構(gòu)中進(jìn)行Concat 融合淺層特征之前。從模型預(yù)測(cè)中發(fā)現(xiàn),在小目標(biāo)的定位任務(wù)中會(huì)存在大量重復(fù)的檢測(cè)框,采用EIoU 損失函數(shù)具化預(yù)測(cè)框與真實(shí)框之間的長(zhǎng)寬關(guān)系。YOLOv5-RS 網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1 所示。
圖1 YOLOv5-RS 網(wǎng)絡(luò)整體架構(gòu)Fig.1 Overall architecture of YOLOv5-RS network
注意力機(jī)制的本質(zhì)是仿照人類(lèi)視覺(jué)處理圖像的過(guò)程,對(duì)特征圖的不同位置予以各自的權(quán)重來(lái)表示不同的關(guān)注度。遙感圖像往往包含復(fù)雜的背景,經(jīng)過(guò)卷積層特征提取后存在待檢測(cè)小目標(biāo)信息占比少、背景以及背景中非檢測(cè)物體信息占比多的情況,這些非感興趣區(qū)域信息會(huì)對(duì)小目標(biāo)檢測(cè)產(chǎn)生干擾。
為關(guān)注圖像中待檢測(cè)的小目標(biāo)以及忽略無(wú)關(guān)的物體信息,本文借鑒了CBAM(Convolutional Block Attention Module)[21]的通道 注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)結(jié)構(gòu),提出通道注意力模塊CAM-P 和空間注意力模塊SAM-P,最終通過(guò)并行連接構(gòu)成CBAM-P 模塊,使其分別沿通道和空間維度對(duì)特征圖信息進(jìn)行編碼。與CBAM 模塊相比,CBAM-P 在減少計(jì)算量的同時(shí)提高檢測(cè)精度。CBAM-P 模塊結(jié)構(gòu)如圖2 所示。
圖2 CBAM-P 模塊結(jié)構(gòu)Fig.2 Structure of CBAM-P module
首先對(duì)通道注意力模塊進(jìn)行改進(jìn),CAM-P 是基于SENet[22]模塊進(jìn)行改進(jìn),將SENet 模塊中全局平均池化(Global Average Pooling,GAP)后的全連接層替換為3×3 卷積層,并獲取局部信息。因?yàn)樾∧繕?biāo)本身的感受野較小,所以全連接層對(duì)整張圖片進(jìn)行降維,導(dǎo)致待檢測(cè)的小目標(biāo)被淹沒(méi)在與其他背景的平均特征之中。CAM-P 特征圖計(jì)算過(guò)程如式(1)所示:
其中:σ表示Sigmoid 激活函數(shù);f1×1表示大小為1×1的卷積;f3×3表示大小為3×3 的卷積。輸入特征X∈?H×W×C通過(guò)GAP 后輸出1×1×C的一維通道注意力圖,再通過(guò)激活函數(shù)重建得到權(quán)重特征圖WC。
然后對(duì)空間注意力模塊進(jìn)行改進(jìn),SAM-P 在原SAM 模塊的基礎(chǔ)上移除所有池化層,僅由1×1 卷積層生成。該操作是考慮到池化會(huì)丟失小目標(biāo)的關(guān)鍵特征而不利于檢測(cè)。SAM-P 特征圖的計(jì)算過(guò)程是將輸入特征X經(jīng)1×1×1 卷積的結(jié)果輸入Sigmoid 激活函數(shù),得到空間注意力特征圖WS,如式(2)所示:
最終,將通道特征圖WC與空間特征圖WS分別與輸入特征X逐元素相乘,采用逐元素相加方式將相乘后所得的特征圖并行連接,輸出特征XCS。上述過(guò)程的計(jì)算式如式(3)所示:
其中:?表示逐元素相乘;⊕表示逐元素相加。
特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。YOLOv5 特征圖的融合部分采用路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[23],其結(jié)構(gòu)如圖3(a)所示。將主干網(wǎng)絡(luò)經(jīng)8 倍、16 倍、32 倍下采樣后輸出{P3,P4,P5}特征,分別與FPN 自底向上的特征圖進(jìn)行融合。這種將淺層豐富細(xì)節(jié)信息和深層高語(yǔ)義信息融合的操作有利于多尺度目標(biāo)檢測(cè),但是對(duì)于小目標(biāo),經(jīng)過(guò)多次下采樣后特征圖所含小目標(biāo)的有效特征信息較少,導(dǎo)致小目標(biāo)檢測(cè)精度降低。因此,本文對(duì)特征金字塔進(jìn)行改進(jìn),保證傳遞更多的小目標(biāo)細(xì)節(jié)信息并輸出對(duì)小目標(biāo)表征能力更強(qiáng)的特征圖。改進(jìn)后的特征金字塔PANet_RS 結(jié)構(gòu)如圖3(b)所示。
圖3 特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of feature pyramid network
原始輸入圖像在經(jīng)卷積下采樣逐步映射為不同尺度特征圖的過(guò)程中,所包含的有效像素信息逐漸減少。表1所示為將原始圖像映射到不同特征層后所占像素的情況,P2、P3、P4、P5 分別進(jìn)行4、8、16、32 倍下采樣。結(jié)合實(shí)際數(shù)據(jù)目標(biāo)尺度分布情況,將小目標(biāo)進(jìn)一步劃分為檢測(cè)尺度小于16×16像素的微小目標(biāo)。
表1 原始圖像映射到不同特征層后的分辨率 Table 1 Resolution of original image mapping to different feature layers 單位:像素
從表1 可以看出,小目標(biāo)特征映射到P5 特征層后所包含的小目標(biāo)分辨率為1×1 像素,微小目標(biāo)的分辨率甚至不到1×1 像素,對(duì)遙感小目標(biāo)的檢測(cè)效果甚微。考慮到直接裁剪P5 檢測(cè)層和其對(duì)應(yīng)的分支,會(huì)造成深層網(wǎng)絡(luò)間的語(yǔ)義信息缺失、感受野減小,進(jìn)而影響分類(lèi)任務(wù)的準(zhǔn)確率。為緩解語(yǔ)義信息與位置信息之間的矛盾,本文在主干網(wǎng)絡(luò)中去除32 倍的下采樣層,使用16 倍的卷積層進(jìn)行替換,有效緩解連續(xù)下采樣存在信息損失的問(wèn)題。
與{P3,P4,P5}相比,在P2 大尺寸檢測(cè)層中含有豐富的紋理和輪廓信息,有利于圖像中小目標(biāo)的檢測(cè),因此添加P2 檢測(cè)頭并使用CBAM-P 注意力模塊來(lái)抑制P2 特征層的噪聲信息。為進(jìn)一步平衡速度與精度,本文仍然保持3 個(gè)尺度的檢測(cè)頭預(yù)測(cè)結(jié)構(gòu),但調(diào)整檢測(cè)頭為{P2,P3,P4}所對(duì)應(yīng)的檢測(cè)分支。
雖然上述通過(guò)1×1 卷積替代用于下采樣的3×3 卷積操作可以保證傳遞更多信息,但是1×1 卷積操作與YOLOv5 網(wǎng)絡(luò)相比感受野減少,導(dǎo)致圖像中大尺寸目標(biāo)的檢測(cè)精度下降,整體精度提高不明顯?;诖?,本文構(gòu)建基于CNN 與Transformer 相結(jié)合的模塊C3BT,提取表征能力更強(qiáng)的特征圖作為FPN 的底層特征。具體操作是將YOLOv5 特征提取基礎(chǔ)單元Bottleneck中的3×3 卷積替換為BottleTransformer[24]中的MHSA。BottleTransformer結(jié)構(gòu)如圖4所示。
圖4 BottleTransformer 模塊結(jié)構(gòu)Fig.4 Structure of BottleTransformer module
MHSA 層由多個(gè)Self-Attention 模塊組成,每個(gè)Self-Attention 模塊在不同空間中捕獲全局特征信息,最終將每個(gè)Self-Attention 模塊輸出的信息進(jìn)行拼接形成帶注意力權(quán)重的新特征圖Z。每個(gè)Self-Attention 模塊的具體操作過(guò)程如式(4)所示,q(query)、k(key)、v(value)如式(5)所示:
原始YOLOv5 采用CIoU 計(jì)算定位損失,其在IoU(Intersection over Union)損失的基礎(chǔ)上,添加邊界框回歸的重疊面積、中心點(diǎn)距離及邊長(zhǎng)縱橫比作為懲罰項(xiàng)因子。CIoU 及其懲罰項(xiàng)計(jì)算式如式(6)和式(7)所示:
其中:b、bgt分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn);ρ表示2 個(gè)中心點(diǎn)間的歐氏距離;c表示包含預(yù)測(cè)框和真實(shí)框的最小閉包區(qū)域形成的對(duì)角線距離;v用來(lái)測(cè)量寬高比差異。
本文采用EIoU 損失函數(shù)計(jì)算定位損失,將寬高縱橫比的損失項(xiàng)拆分,分別計(jì)算寬和高的差異值,計(jì)算式如下:
其中:w、wgt、h、hgt分別表示預(yù)測(cè)框和真實(shí)框的寬度及高度。
在同一目標(biāo)區(qū)域內(nèi)采用CIoU 和EIoU 損失函數(shù)的預(yù)測(cè)結(jié)果如圖5 所示。CIoU 損失增加了寬高比的一致性,使得檢測(cè)框回歸過(guò)程更加穩(wěn)定,收斂的精度更高。但是參數(shù)v只反映了寬高比間的相對(duì)差異,而不 是w與wgt、h與hgt之間的真實(shí)關(guān)系。CIoU定位損失如圖5(a)所示。CIoU 損失函數(shù)生成的預(yù)測(cè)框與真實(shí)框相比,其寬邊差異很大且無(wú)法精確定位。利用預(yù)測(cè)框與標(biāo)注框?qū)捀咧g的真實(shí)差監(jiān)督反向傳播過(guò)程,得到損失函數(shù)最優(yōu)解。該過(guò)程提高回歸精度進(jìn)而提升小目標(biāo)檢測(cè)性能。EIoU 定位損失如圖5(b)所示,EIoU 定位損失函數(shù)生成的預(yù)測(cè)框高度和寬度與真實(shí)框相似。
圖5 同一目標(biāo)區(qū)域預(yù)測(cè)結(jié)果Fig.5 Prediction results for the same target area
實(shí)驗(yàn)環(huán)境:Ubuntu20.04 操作系統(tǒng),顯卡GeForce RTX 3090,訓(xùn)練平臺(tái)Python3.8,深度學(xué)習(xí)框架PyTorch。模型訓(xùn)練參數(shù)設(shè)置:迭代次數(shù)為200,批大小batch_size 為16,其余參數(shù)均為默認(rèn)值。
本文采用武漢大學(xué)發(fā)布的航空遙感影像DOTAv1.5 數(shù)據(jù)集[25]對(duì)所提小目標(biāo)檢測(cè)算法進(jìn)行評(píng)估,選取小型車(chē)輛(Small Vehicle,SV)、大型車(chē)輛(Large Vehicle,LV)和輪船(SH)3 種小目標(biāo)數(shù)據(jù)集作為原始圖像,圖像大小一般為800~3 000 像素不等。若將小目標(biāo)數(shù)據(jù)集圖像直接送入檢測(cè)網(wǎng)絡(luò)訓(xùn)練,其分辨率過(guò)大,易造成顯存溢出。若等比例縮放會(huì)直接導(dǎo)致圖像過(guò)度壓縮而丟失大量小目標(biāo)細(xì)節(jié)信息。因此,本文使用圖像裁剪方式對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將樣本統(tǒng)一裁剪為1 024×1 024 像素的圖片,在切割圖像時(shí)保留一定重疊區(qū)域(gap)來(lái)防止切割邊緣目標(biāo)信息丟失,本文將gap 設(shè)置為200。
將處理后得到的9 240 張圖像構(gòu)成DOTA-v 數(shù)據(jù)集,共計(jì)標(biāo)注457 528 個(gè)實(shí)例,平均單幅圖像包含49.5 個(gè)待測(cè)實(shí)例,按照6∶2∶2 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。圖6 所示為3 類(lèi)目標(biāo)的標(biāo)注框占原圖像尺寸的比例分布。從分布情況可以看出,SV類(lèi)目標(biāo)幾乎全部為占比小于0.1 的小目標(biāo),LV 和SH類(lèi)目標(biāo)也大多集中在0.1 范圍內(nèi)。在COCO 數(shù)據(jù)集[26]中大、中、小目標(biāo)占比約為4∶3∶2,而DOTA-v數(shù)據(jù)集為7∶2∶1,顯然DOTA-v 數(shù)據(jù)集的小目標(biāo)占比更高,可用于驗(yàn)證本文算法的合理性。
圖6 在DOTA-v 數(shù)據(jù)集中各類(lèi)目標(biāo)尺寸分布情況Fig.6 Distribution of various objects size on DOTA-v dataset
本文選取目標(biāo)檢測(cè)領(lǐng)域3 種常用的評(píng)價(jià)指標(biāo)對(duì)算法進(jìn)行定量評(píng)價(jià)。
1)精確度(P)和召回率(R)的計(jì)算式如式(9)和式(10)所示[27]:
其中:TTP(True Positive)表示圖像中待檢測(cè)目標(biāo)被正確識(shí)別且IoU 大于閾值;FFP(False Positive)表示檢測(cè)目標(biāo)未被正確識(shí)別且IoU 小于閾值;FFN(False Negative)表示沒(méi)有被檢測(cè)到的目標(biāo)。
2)平均精度(mAP)計(jì)算式如式(11)所示:
其中:N代表數(shù)據(jù)集中檢測(cè)目標(biāo)的類(lèi)別個(gè)數(shù);Pn表示某一類(lèi)別的AP 值。mAP@0.5 和mAP@0.5∶0.95 常用來(lái)評(píng)估模型性能,mAP@0.5 關(guān)注模型精確率隨召回率變化趨勢(shì),mAP@0.5∶0.95 更關(guān)注模型在不同IoU 閾值下的綜合表現(xiàn),反映檢測(cè)框與真實(shí)框的擬合程度。本文若無(wú)特殊說(shuō)明,mAP 默認(rèn)為mAP@0.5。
3)幀速(Frames Per Second,F(xiàn)PS)[28]表示模型每秒能處理圖片的數(shù)量,單位為幀/s,通常用于衡量模型的實(shí)時(shí)性,輔以參數(shù)量和計(jì)算量(GFLOPs)綜合判別模型性能。
2.4.1 注意力機(jī)制改進(jìn)實(shí)驗(yàn)
為驗(yàn)證本文所提CBAM-P 模塊的有效性,本文進(jìn)行注意力機(jī)制對(duì)比實(shí)驗(yàn),比較參數(shù)量和mAP 這2 個(gè)指標(biāo),其中,CBAM-S表示CAM-P 與SAM-P 的串行模塊,CBAM-P 表示CAM-P 與SAM-P 的并行模塊。CBAM-P 模塊對(duì)模型性能影響如表2 所示。
表2 CBAM-P 模塊對(duì)模型性能影響 Table 2 Influence of CBAM-P module on model performance
CBAM 首先使用CAM 給不同通道分配不同的權(quán)重,然后使用SAM 進(jìn)行空間信息校準(zhǔn)。從表2 可以看出,在YOLOv5s 中直接嵌入CBAM 模塊后相比YOLOv5s mAP 指標(biāo)僅提升0.1 個(gè)百分點(diǎn),然而在YOLOv5s 中直接嵌入CBAM-P 模塊后與YOLOv5s+CBAM 相比不僅參數(shù)量減少,而且mAP 提高了0.3 個(gè)百分點(diǎn)。分析認(rèn)為有2 個(gè)方面的原因:1)在小目標(biāo)信息本身不足的情況下,池化操作和全連接操作帶來(lái)的負(fù)面影響大于正面影響,替換全連接層和移除池化層后的模塊后所得的特征圖更有利于小目標(biāo)檢測(cè);2)得益于并行的連接結(jié)構(gòu),在串行結(jié)構(gòu)中,空間注意力機(jī)制的輸入是經(jīng)過(guò)通道注意力模塊后所得,使得目標(biāo)淺層信息再次減少,即使具有更多的語(yǔ)義信息也無(wú)法對(duì)小目標(biāo)進(jìn)行定位,相反可能導(dǎo)致目標(biāo)錯(cuò)檢。
為進(jìn)一步直觀對(duì)比CBAM 模塊與CBAM-P 模塊的效果,本文采用Grad-CAM(Gradient-weighted Class Activation Map)[29]熱力圖進(jìn)行可視化,可視化結(jié)果如圖7 所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。圖7(a)中標(biāo)注框表示將地面停車(chē)線誤判為感興趣目標(biāo),從圖7(b)可以看出,采用CBAM-P結(jié)構(gòu)后的熱力圖沒(méi)有出現(xiàn)誤判現(xiàn)象。該實(shí)驗(yàn)結(jié)果進(jìn)一步說(shuō)明注意力機(jī)制的減法操作和并行結(jié)構(gòu)能夠有效提高空間維度特征的提取能力,更好地區(qū)分前景和背景信息,使得關(guān)注區(qū)域與檢測(cè)目標(biāo)區(qū)間更緊湊,證明CBAM-P 模塊對(duì)小目標(biāo)檢測(cè)是有效的。
圖7 注意力機(jī)制可視化結(jié)果Fig.7 Visualization results of attention mechanism
2.4.2 特征融合層改進(jìn)實(shí)驗(yàn)
檢測(cè)頭分支數(shù)量與性能關(guān)系如表3 所示。本文綜合考慮參數(shù)量與檢測(cè)精度,選?。鸓2,P3,P4}對(duì)應(yīng)的預(yù)測(cè)分支輸出檢測(cè)頭。
表3 檢測(cè)頭分支數(shù)量與模型性能關(guān)系 Table 3 Number of detection head branches in relation to model performance
從表3 可以看出,采用減少下采樣倍數(shù)并添加P2 檢測(cè)頭模塊后的結(jié)構(gòu){P2,P3,P4,P5},與{P2,P3,P4}檢測(cè)頭相比mAP 提高約0.2 個(gè)百分點(diǎn),證明該結(jié)構(gòu)能夠傳遞更多的小目標(biāo)信息。但受限于降采樣操作所造成感受野縮小和淺層特征P2 中的噪聲干擾,mAP 提升不是很明顯?;诖?,本文進(jìn)一步驗(yàn)證C3BT 模塊的有效性,選取{P2,P3,P4}檢測(cè)頭進(jìn)行對(duì)照實(shí)驗(yàn),并增加各類(lèi)目標(biāo)mAP 指標(biāo)以直觀反映其對(duì)不同尺寸目標(biāo)檢測(cè)性能的影響,對(duì)比結(jié)果如表4所示,“√”表示在基準(zhǔn)模型YOLOv5s 中添加該模塊。
表4 C3BT 模塊對(duì)模型性能影響 Table 4 Influence of C3BT module on model performance %
從表4 可以看出,為傳遞更多小目標(biāo)而采用降采樣操作,添加{P2,P3,P4}結(jié)構(gòu)后,相比YOLOv5s 的SV 目標(biāo)的mAP 提高1.2 個(gè)百分點(diǎn),但LV 類(lèi)目標(biāo)mAP下 降0.4 個(gè)百分 點(diǎn),SH 類(lèi)目標(biāo)mAP下降0.3 個(gè)百分點(diǎn)。感受野的縮小影響了LV 類(lèi)和SH 類(lèi)中大尺寸和中尺寸目標(biāo),無(wú)法捕捉到全部的特征。在添加了C3BT 模塊后,與YOLOv5s相比,mAP 提升了0.8 個(gè)百分點(diǎn),其中SV 類(lèi)目標(biāo)mAP 提升了2.2 個(gè)百分點(diǎn),SH類(lèi)目標(biāo)mAP 提升0.1 個(gè)百分點(diǎn),說(shuō)明C3BT 模塊能有效地提取更具判別能力的特征用于檢測(cè)小目標(biāo),同時(shí)擴(kuò)張了感受野保證大尺寸和中尺寸目標(biāo)的精度。
2.4.3 模塊消融實(shí)驗(yàn)
為驗(yàn)證各模塊的有效性,本文在遙感數(shù)據(jù)集DOTA-v 上進(jìn)行消融實(shí)驗(yàn)。本文在YOLOv5s 基礎(chǔ)上依次添加CBAM-P、特征層改進(jìn)模塊(PANet_RS)以及EIoU 損失函數(shù)。消融實(shí)驗(yàn)結(jié)果如表5 所示。
表5 消融實(shí)驗(yàn)結(jié)果 Table 5 Ablation experiment results
從表 5 可以看出,本文所提 CBAM-P、PANet_RS、EIoU 損失函數(shù)對(duì)模型性能具有一定的有效性,YOLOv5s+CBAM-P+PANet_RS+EIoU 模型大小縮小為10.1 MB,整體mAP 與YOLOv5s 相比提高了1.5 個(gè)百分點(diǎn)。
2.5.1 預(yù)測(cè)結(jié)果分析
從上述實(shí)驗(yàn)中可以發(fā)現(xiàn),本文在DOTA-v 數(shù)據(jù)集上的整體預(yù)測(cè)效果優(yōu)于YOLOv5s。為了進(jìn)一步反映改進(jìn)模型的性能,在所有預(yù)測(cè)類(lèi)上的mAP 變化結(jié)果如表6 所示,并通過(guò)遙感圖像進(jìn)行主觀視覺(jué)定量評(píng)價(jià)。
表6 YOLOv5s 與YOLOv5-RS 各類(lèi)別mAP 對(duì)比 Table 6 Comparison between YOLOv5s and YOLOv5-RS by category mAP %
從 表 6 可以看 出,與 YOLOv5s相比,YOLOv5-RS 在SV、LV 和SH 3 個(gè)類(lèi)別 目標(biāo)的mAP均得到提高,尤其是SV 的檢測(cè)精度提升了3.2 個(gè)百分點(diǎn)。SH 類(lèi)小目標(biāo)大多呈現(xiàn)密集分布,水平檢測(cè)框之間的重合導(dǎo)致精度提升不明顯。
YOLOv5-RS 與YOLOv5s 檢測(cè)效果對(duì)比如圖8所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。從圖8 可以看出:第1 組YOLOv5-RS 算法對(duì)小目標(biāo)定位更加準(zhǔn)確,預(yù)測(cè)框能更好地定位到物體所在的位置,且減少了預(yù)測(cè)框重疊的現(xiàn)象;第2 組在遮擋場(chǎng)景下,YOLOv5-RS 算法可以更準(zhǔn)確地檢測(cè)被樹(shù)遮擋的車(chē)輛;第3 組在密集場(chǎng)景下,YOLOv5-RS 算法可以檢測(cè)出更多的船類(lèi)目標(biāo),在目標(biāo)識(shí)別與定位能力上均優(yōu)于YOLOv5s 算法。
圖8 YOLOv5-RS 與YOLOv5s 算法的檢測(cè)效果對(duì)比Fig.8 Detection effects comparison between YOLOv5-RS and YOLOv5s algorithms
2.5.2 不同算法對(duì)比實(shí)驗(yàn)
本文以 一階段EfficientDet[30]、YOLOx[31]、TPH-YOLOv5[32]、YOLOv7[33]以 及YOLOv5s 5種算法作為對(duì)照組進(jìn)行實(shí)驗(yàn),包括近年來(lái)在小目標(biāo)檢測(cè)領(lǐng)域的常用框架和最新的改進(jìn)框架。EfficientDet 系列網(wǎng)絡(luò)以權(quán)衡速度與精度為前提,實(shí)現(xiàn)對(duì)雙向特征融合結(jié)構(gòu)的動(dòng)態(tài)調(diào)整。本文選取兼顧速度與精度的EfficientDet-d4 作為對(duì)照組。YOLOx 采用無(wú)錨框方式,并通過(guò)解耦YOLO Head 提升網(wǎng)絡(luò)的性能。TPH-YOLOv5 是基于YOLOv5s 進(jìn)行改進(jìn)。由于TPH-YOLOv5集成CBAM、Transformer 等模塊,因此在無(wú)人機(jī)小目標(biāo)檢測(cè)數(shù)據(jù)集上性能表現(xiàn)突出。YOLOv7 設(shè)計(jì)新的內(nèi)部組件模塊,結(jié)合新的標(biāo)簽分配策略使其架構(gòu)在速度和精度上均取得較優(yōu)的表現(xiàn)。不同算法的評(píng)價(jià)指標(biāo)對(duì)比如表7 所示,加粗表示最優(yōu)數(shù)據(jù)。與上述5 種算法相比,YOLOv5-RS 在mAP@0.5、mAP@0.5∶0.95 和模型大小3 種評(píng)價(jià)指標(biāo)上取得最優(yōu)結(jié)果,在精確率與召回率的平衡、檢測(cè)框與預(yù)測(cè)框的擬合方面表現(xiàn)突出。YOLOv5-RS 檢測(cè)速度為65.4 幀/s,其兼顧精度與實(shí)時(shí)性,對(duì)小目標(biāo)檢測(cè)性能更優(yōu)。
表7 不同算法的評(píng)價(jià)指標(biāo)對(duì)比 Table 7 Comparison of evaluation indicators for different algorithms
為解決現(xiàn)有算法的小目標(biāo)檢測(cè)精度遠(yuǎn)低于大、中目標(biāo)的問(wèn)題,本文提出一種基于并行注意力機(jī)制和融合更多低層級(jí)特征的檢測(cè)算法YOLOv5-RS。在特征金字塔融合結(jié)構(gòu)中添加1 個(gè)淺層特征分支以反饋更多的淺層特征,并利用所提的注意力模塊抑制分支中的噪聲干擾。通過(guò)調(diào)整下采樣倍數(shù),并融合全局和局部信息生成特征提取能力更強(qiáng)的特征提取模塊。在預(yù)測(cè)階段,采用EIoU 損失函數(shù)有效縮小真實(shí)框與預(yù)測(cè)框之間的差異。實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有一階段算法,本文算法具有較優(yōu)的小目標(biāo)識(shí)別能力,在復(fù)雜場(chǎng)景下魯棒性較優(yōu)。下一步將在一階段網(wǎng)絡(luò)中引入旋轉(zhuǎn)檢測(cè)方法,解決目標(biāo)方向不確定所存在邊界框重疊問(wèn)題。