鄢奉習(xí),徐銀霞+,蔡思遠(yuǎn),祁澤政
(1.武漢工程大學(xué) 智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430205;2.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205)
相較于傳統(tǒng)圖像,遙感圖像中的飛機(jī)目標(biāo)更具多樣性、背景更具復(fù)雜性,并且目標(biāo)更小。因此,遙感圖像飛機(jī)目標(biāo)檢測(cè),面臨著諸多挑戰(zhàn)。
隨著深度學(xué)習(xí)高速發(fā)展,現(xiàn)階段的目標(biāo)檢測(cè)算法主要包括以下兩種類別[1]:一是Two-stage算法、如R-CNN算法[2]、Fast R-CNN算法[3]、Faster R-CNN算法[4]、R-FCN算法[5]、Mask R-CNN算法[6]等。二是One-stage算法,如SSD算法[7]、YOLO[8]系列算法、RetinaNet算法[9]等。近年來,為提高遙感圖像目標(biāo)檢測(cè)的精度和效率,許多學(xué)者進(jìn)行了相關(guān)研究。
Adam Van Etten等[10]通過對(duì)圖像做尺度變換、旋轉(zhuǎn),縮小輸出特征圖及分割等操作,在衛(wèi)星遙感圖像目標(biāo)檢測(cè)中取得不錯(cuò)的效果。鄭哲等[11]融合多尺度特征金字塔,并引入通道與空間注意力機(jī)制,顯著提高了遙感圖像的檢測(cè)精度。姚群力等[12]應(yīng)用反卷積算法實(shí)現(xiàn)了高層語義信息與底層特征細(xì)節(jié)的融合,較大提升了遙感圖像密集小目標(biāo)飛機(jī)的檢測(cè)效果。李婕等[13]通過融合注意力約束的特征共享層,有效提升了多尺度密集的遙感飛機(jī)目標(biāo)的檢測(cè)精度。葉趙兵等[14]引入CIOU邊框回歸損失,提高了模型的定位精度。劉輝等[15]使用Soft-NMS代替YOLOv5所使用的非極大值抑制(NMS),成功降低了模型的漏檢率。
YOLOv5s是一種高效、高精度的網(wǎng)絡(luò)模型,但在復(fù)雜遙感圖像目標(biāo)檢測(cè)的應(yīng)用中仍有待改進(jìn)。受以上文章啟發(fā),本文引入DenseNet方法、CBAM注意力機(jī)制以及改進(jìn)損失函數(shù),對(duì)YOLOv5s模型進(jìn)行特征復(fù)用、精度優(yōu)化以及魯棒性提高,利用多種公開數(shù)據(jù)集驗(yàn)證了模型改進(jìn)后的性能。
由圖1可以看出,YOLOv5s模型由Input、Backbone、Neck、Prediction這4部分組成。
圖1 YOLOv5s模型結(jié)構(gòu)
Input端采用了Mosaic方法進(jìn)行數(shù)據(jù)增強(qiáng),任意選取4張圖片進(jìn)行縮放、裁剪和排布處理,然后再拼成1張圖片。
Backbone網(wǎng)絡(luò)中包含F(xiàn)ocus和CSP[16]模塊。Focus模塊的切片操作能保證網(wǎng)絡(luò)層獲取足夠多的特征信息,增加卷積視野。CSP模塊由殘差組件與CBS模塊構(gòu)成,CBS模塊由3個(gè)連續(xù)操作構(gòu)成:3×3Conv+BN+SiLU。殘差組件由CBS模塊以殘差的方式連接而成。CSP模塊可以保證準(zhǔn)確率和速率,減少參數(shù),使模型更輕量化。
Neck部分采用FPN+PAN[17]結(jié)構(gòu),F(xiàn)PN自上而下通過上采樣向下將特征圖進(jìn)行傳遞融合。PAN采用自底向上的特征金字塔傳遞特征,從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合。
Prediction端先采用GIOU損失函數(shù)[18],增加相交尺度的衡量方式,使邊界框的回歸收斂效果更好。然后,運(yùn)用非極大值抑制算法對(duì)檢測(cè)框進(jìn)行篩選,保留置信度最高的預(yù)測(cè)框,舍棄置信度較低的預(yù)測(cè)框。
為解決遙感飛機(jī)圖像中小目標(biāo)特征消失,以及重疊區(qū)域漏檢等問題,提高對(duì)小目標(biāo)飛機(jī)的檢測(cè)性能與魯棒性,本文對(duì)YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)中的CSP模塊、Backbone網(wǎng)絡(luò)以及檢測(cè)算法分別進(jìn)行了改進(jìn)。
遙感飛機(jī)圖像具有分辨率較大,待檢測(cè)小目標(biāo)飛機(jī)密集以及復(fù)雜背景等問題,因此在模型訓(xùn)練過程中,需要大量參數(shù),消耗較多時(shí)間。而且,隨著網(wǎng)絡(luò)層數(shù)加深,還會(huì)出現(xiàn)小目標(biāo)飛機(jī)梯度消失的現(xiàn)象。如果在淺層網(wǎng)絡(luò)的輸出層與深層網(wǎng)絡(luò)的輸入層之間,建立更短的連接通道,則可以最大化傳遞網(wǎng)絡(luò)層之間的特征信息,使網(wǎng)絡(luò)訓(xùn)練更快、更深、更準(zhǔn)確。借鑒稠密卷積神經(jīng)網(wǎng)絡(luò)模型DenseBlock[19]的方法,本文對(duì)YOLOv5s網(wǎng)絡(luò)中的CSP模塊進(jìn)行改進(jìn),以稠密連接方式代替?zhèn)鹘y(tǒng)卷積,使得在深層網(wǎng)絡(luò)中也能更好的傳遞特征信息,從而減輕梯度消失。
DenseBlock結(jié)構(gòu)如圖2所示,其中,Xl是第l層的輸出,H由BN、ReLU和3×3卷積操作組成,用于提取特征圖。第l層的輸入為第0~l-1層的輸出特征圖,式(1)為輸出Xl的計(jì)算公式。在DenseBlock的輸出端,使用由BN層、1×1卷積和2×2池化構(gòu)成的Transition Layer層來對(duì)特征圖進(jìn)行下采樣
圖2 DenseBlock結(jié)構(gòu)
Xl=Hl([X0,X1,X2,…,Xl-1]),(l∈N+)
(1)
需要注意的是,稠密連接會(huì)使得特征圖通道數(shù)隨著網(wǎng)絡(luò)層的加深不斷增多。為了控制特征圖數(shù)量,DenseNet引入Growth rate超參數(shù)k來表示DenseBlock中特征圖的數(shù)量,k其實(shí)是卷積核個(gè)數(shù)。假設(shè)輸入特征圖數(shù)量為k0,則輸出特征圖的數(shù)量m的計(jì)算如式(2)所示
m=k0+(l-1)×k
(2)
如圖3所示,本文將CSP模塊中的殘差單元采用稠密連接方式,通過Concatenate特征聯(lián)合多個(gè)特征圖維度實(shí)現(xiàn)短路連接,采用3×3與1×1的卷積進(jìn)行特征維度轉(zhuǎn)換,使特征信息得以復(fù)用。這種方法既能保證網(wǎng)絡(luò)各層之間的信息流最大化,又解決了特征圖因網(wǎng)絡(luò)層數(shù)加深而信息丟失的問題。每一個(gè)Resnet殘差單元對(duì)獲取的輸入信息經(jīng)過卷積計(jì)算后,會(huì)傳遞給所有深層殘差單元。因?yàn)椴恍枰匦聦W(xué)習(xí)冗余特征圖,所以僅需新增少量參數(shù)就能使網(wǎng)絡(luò)層獲得足夠的特征信息,從而提升了特征利用效率,加強(qiáng)了網(wǎng)絡(luò)模型對(duì)遙感圖像中尺寸較小的飛機(jī)目標(biāo)的特征提取。而且通過短路徑,特征信息可以直接由淺層向深層傳遞,擁有更強(qiáng)的流動(dòng)能力。此外,殘差單元采用稠密連接方式,通過引入大量低層信息,達(dá)到了正則化的效果,優(yōu)化了過擬合問題。
圖3 CSP_DB結(jié)構(gòu)
在人類視覺感知中,注意力起著重要作用。研究表明,人類的注意力分布是不均勻的,選擇性地關(guān)注顯著信息是人類視覺系統(tǒng)的重要特性之一。YOLOv5s算法的檢測(cè)性能主要取決于Backbone網(wǎng)絡(luò),為了在不增加網(wǎng)絡(luò)深度的條件下提高CNN對(duì)遙感圖像中小目標(biāo)飛機(jī)的檢測(cè)精度,本文在Backbone網(wǎng)絡(luò)增加CBAM(convolutional block attention module)[20]注意力機(jī)制來關(guān)注重要特征并抑制非重要特征,以提高表示能力。CBAM注意力機(jī)制分別提取通道和空間兩個(gè)維度的信息,凸顯沿通道軸和空間軸兩個(gè)主要方向的有意義的特征。如圖4所示,本文依次應(yīng)用通道和空間注意力模塊,以便每個(gè)分支可以分別學(xué)習(xí)通道和空間軸上的信息特征和特征位置。
圖4 CBAM結(jié)構(gòu)
圖4中,F(xiàn)∈RC×1×1為輸入特征,CBAM算法從通道維度與空間維度上順序計(jì)算得到通道注意力圖MC∈RC×1×1和空間注意力圖MS∈R1×H×W。 式(3)、式(4)為注意力過程計(jì)算公式
F′=MC(F)?F
(3)
F″=MS(F′)?F′
(4)
其中,?表示逐元素乘法。在矩陣相乘時(shí),通道注意力值沿著空間維度廣播,反之亦然,F(xiàn)″是最終的精煉輸出。
圖5 通道注意力結(jié)構(gòu)
(5)
式中:σ示sigmoid函數(shù),W0∈RC/r×C,W1∈RC×C/r, MLP權(quán)重、W0、W1是輸入共享的,且W0在ReLu激活函數(shù)之后。
圖6 空間注意力結(jié)構(gòu)
(6)
式中:σ表示sigmoid函數(shù),f7×7表示濾波器大小為7×7的卷積操作。
Backbone網(wǎng)絡(luò)中的CBAM模塊如圖7所示。本文僅特征圖下采樣時(shí)嵌入注意力機(jī)制,對(duì)下采樣時(shí)神經(jīng)網(wǎng)絡(luò)傳遞的特征圖在通道和空間兩個(gè)層面設(shè)置不同的權(quán)重。這種方法使得深層網(wǎng)絡(luò)得到更加準(zhǔn)確的特征信息,有利于loss值的降低,保證遙感圖像中飛機(jī)目標(biāo)的準(zhǔn)確識(shí)別與定位。直觀來講,在梯度向前傳播的過程中,特征圖中重要的通道與空間將會(huì)占有更大的比重。在最終的輸出圖像中能更加凸顯出檢測(cè)模型所重點(diǎn)關(guān)注的部分,從而更好地分辨出待檢測(cè)目標(biāo)。在Backbone網(wǎng)絡(luò)中,嵌入注意力機(jī)制后會(huì)增加計(jì)算量,但通過一定比例的降維可以使檢測(cè)性能和速度達(dá)到一定的平衡。而且空間與通道注意力機(jī)制,是一種即插即用的算法模塊,并不會(huì)改變網(wǎng)絡(luò)結(jié)構(gòu)。
圖8展示了使用注意力機(jī)制前后,網(wǎng)絡(luò)模型第一次下采樣后的特征提取結(jié)果對(duì)比,圖8(a)為待檢測(cè)圖像,圖8(b)為未使用注意力機(jī)制時(shí)的特征提取結(jié)果,可以看出飛機(jī)的邊緣較模糊,特征沒有得到很好的提取。圖8(c)為使用注意力機(jī)制后的特征提取結(jié)果,飛機(jī)的輪廓更清晰,而且飛機(jī)與背景被明顯區(qū)分開,說明改進(jìn)后的模型更好的提取到了特征信息。由此可見注意力機(jī)制增強(qiáng)了模型的特征提取能力。
圖8 CBAM注意力機(jī)制引入前后特征提取結(jié)果對(duì)比
2.3.1 損失函數(shù)改進(jìn)
預(yù)測(cè)框回歸是定位目標(biāo)對(duì)象的關(guān)鍵步驟。在預(yù)測(cè)框回歸的評(píng)估中,IOU是最受歡迎的指標(biāo)。YOLOv5s網(wǎng)絡(luò)采用GIOU,雖然可以緩解非重疊情況下的梯度消失問題,但仍然存在一定的局限性。
如圖9所示,圖9(a)~圖9(c)中的預(yù)測(cè)框A大小一致,且在真實(shí)框B內(nèi)部,C為預(yù)測(cè)框A和真實(shí)框B的最小外接矩形,預(yù)測(cè)框A和真實(shí)框B的差集相同。根據(jù)GIOU_Loss計(jì)算式(7)~式(9),這3種狀態(tài)的GIOU值也都是相同的,這時(shí)GIOU退化成了IOU,無法區(qū)分相對(duì)位置關(guān)系
圖9 GIOU
(7)
(8)
(9)
本文損失函數(shù)采用CIOU_Loss[21],同時(shí)計(jì)算檢測(cè)框之間的中心點(diǎn)距離、縱橫比以及重疊大小。CIOU損失函數(shù)原理如圖10所示,計(jì)算如式(10)所示
圖10 CIOU
(10)
式中:L為最小外接矩形C的對(duì)角線距離,d為預(yù)測(cè)框中心點(diǎn)與目標(biāo)框中心點(diǎn)間的歐氏距離,v是衡量長(zhǎng)寬比一致性的參數(shù),可以定義為式(11)
(11)
式中:wgt、hgt代表目標(biāo)框?qū)捄透?,w、h代表檢測(cè)框?qū)捄透摺?/p>
2.3.2 NMS改進(jìn)
在預(yù)選框的篩選階段,YOLOv5s采用的是非極大值處理(non-maximum suppression,NMS)。需要注意的是,由于NMS將IOU高于閾值的候選框的分?jǐn)?shù)置0,如果真實(shí)物體在重疊區(qū)域出現(xiàn),那么采用NMS可能會(huì)漏檢。因此,本文將DIOU部署在NMS中,在抑制冗余框時(shí)考慮重疊區(qū)域以及兩個(gè)邊界框中心點(diǎn)之間的距離,增加其識(shí)別被部分遮擋的目標(biāo)的魯棒性,還能加快收斂速度。DIOU_NMS計(jì)算如式(12)、式(13)
(12)
(13)
其中,b和bgt表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn),ρ(x) 是歐幾里得距離,c是覆蓋兩個(gè)框的最小封閉框的對(duì)角線長(zhǎng)度,ε是NMS閾值,Si為預(yù)測(cè)框得分,M為分?jǐn)?shù)最高的候選框,Bi為待去除的候選框。
改進(jìn)的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。首先,在Input端,將三通道輸入圖像的尺寸由604×604改為640×640,避免小目標(biāo)飛機(jī)的特征信息經(jīng)過多次下采樣后消失,降低復(fù)雜背景下小目標(biāo)飛機(jī)的漏檢率。
圖11 改進(jìn)YOLOv5s結(jié)構(gòu)
在Backbone中,將Focus結(jié)構(gòu)中的原始640×640×3的圖像改為320×320×12的特征圖,再經(jīng)過32個(gè)12×3×3卷積核的卷積操作,輸出尺寸為320×320×32的特征圖。在特征圖輸入CSP_DB模塊前使用步長(zhǎng)為2的3×3卷積核進(jìn)行下采樣。5次下采樣后的特征圖依次為320×320、160×160、80×80、40×40、20×20。在進(jìn)行特征下采樣前,Resunit殘差單元采用稠密連接方式,防止深層網(wǎng)絡(luò)梯度消失的同時(shí),增強(qiáng)特征傳播,鼓勵(lì)特征重用,并減少參數(shù)數(shù)量,使網(wǎng)絡(luò)可以進(jìn)行更深入、更準(zhǔn)確和有效的訓(xùn)練。將注意力機(jī)制添加在Backbone網(wǎng)絡(luò)中的CSP_DB模塊之后,有選擇性地加強(qiáng)包含重要信息的特征并抑制無關(guān)或較弱關(guān)聯(lián)的特征,確保在獲取足夠多與足夠準(zhǔn)確的特征信息之后,再進(jìn)行特征圖下降。實(shí)現(xiàn)特征信息在網(wǎng)絡(luò)中更準(zhǔn)確、有效的傳播,不僅可以提升檢測(cè)精度與性能,還能增強(qiáng)網(wǎng)絡(luò)特征提取的魯棒性。SPP模塊使用不同尺度過濾器K={1×1,5×5,9×9,13×13}, 對(duì)輸入特征圖進(jìn)行多尺度最大池化與通道拼接,從而提高圖像的尺度不變性,降低過擬合,使網(wǎng)絡(luò)更容易收斂。
在Neck層,沿用雙重特征金字塔思想,融合FPN+PAN結(jié)構(gòu)。FPN與PAN分別是自頂向下與自底向上的特征金字塔結(jié)構(gòu),融合兩種結(jié)構(gòu),可以同時(shí)加強(qiáng)語義特征與定位特征傳達(dá),從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合。首先將Backbone網(wǎng)絡(luò)輸入的19×19特征圖經(jīng)過兩次上采樣與特征融合后得到80×80輸出特征圖。然后80×80輸出特征圖經(jīng)過下采樣后,與Backbone網(wǎng)絡(luò)特征圖融合得到40×40輸出特征圖。最后,40×40輸出特征圖經(jīng)過下采樣與特征圖融合后,得到20×20輸出特征圖。從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合,實(shí)現(xiàn)了不同尺寸目標(biāo)檢測(cè)間的平衡。
最后Prediction端采用CIOU_Loss算法,從重疊面積、中心點(diǎn)與長(zhǎng)寬比3個(gè)量維度上對(duì)預(yù)測(cè)框進(jìn)行回歸;接著,采用DIOU_NMS算法,從重疊面積以及預(yù)測(cè)框間的中心點(diǎn)距離對(duì)冗余框進(jìn)行抑制的。最終,提高算法對(duì)被遮擋目標(biāo)識(shí)別的性能。值得注意的是,這里之所以未考慮長(zhǎng)寬比維度,是因?yàn)樵撚绊懸蜃訛間roundtruth標(biāo)注框信息,而測(cè)試過程中,并沒有該影響因子,因此,采用DIOU_NMS算法即可。
本文實(shí)驗(yàn)所用的操作系統(tǒng)為Ubuntu20.04,處理器型號(hào)為Intel(R)Xeon(R)Gold 6230 CPU@2.10 GHz;顯卡型號(hào)為NVIDIA Tesla T4;開發(fā)環(huán)境為python3.8、pytorch、cuda11.1。
本文采用2015年武漢大學(xué)團(tuán)隊(duì)標(biāo)注的RSOD[22]數(shù)據(jù)集中的遙感飛機(jī)圖像作為數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,并選取西北工業(yè)大學(xué)的光學(xué)遙感圖像數(shù)據(jù)集NWPU VHR-10、DIOR、UCAS-AOD和DOTA中包含飛機(jī)類別的數(shù)據(jù)集進(jìn)行了拓展實(shí)驗(yàn)。數(shù)據(jù)集中飛機(jī)樣式包含民航客機(jī)、戰(zhàn)斗機(jī)以及直升機(jī),表1展示了訓(xùn)練集與測(cè)試集的相關(guān)數(shù)據(jù)。
表1 訓(xùn)練集和測(cè)試集
為了避免初始較大學(xué)習(xí)率導(dǎo)致模型的不穩(wěn)定,本文采用改進(jìn)的預(yù)熱訓(xùn)練(Warmup)策略:采用批訓(xùn)練(mini-batch)方式輸入訓(xùn)練數(shù)據(jù)集,在訓(xùn)練過程中,先用較小的學(xué)習(xí)率訓(xùn)練一個(gè)epoch,待模型趨于穩(wěn)定后,再分階段恢復(fù)正常學(xué)習(xí)率。在防止訓(xùn)練誤差增大與提前過擬合的同時(shí),加快了網(wǎng)絡(luò)模型的收斂速率,從而有效地提高計(jì)算效率。
為了評(píng)估網(wǎng)絡(luò)模型的性能和對(duì)遙感飛機(jī)圖像檢測(cè)的準(zhǔn)確性,本文采用準(zhǔn)確率(P)、召回率(R)、mAP、幀率(FPS)、參數(shù)數(shù)量(Param)和GFLOP作為評(píng)估指標(biāo)。
準(zhǔn)確率指網(wǎng)絡(luò)檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量與檢測(cè)到的所有目標(biāo)類別數(shù)量之比;召回率指網(wǎng)絡(luò)檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量與所有真實(shí)目標(biāo)類別數(shù)量之比。準(zhǔn)確率和召回率的計(jì)算方法如式(14)
(14)
式中:真正樣本(TP)表示檢測(cè)到的真實(shí)目標(biāo)類別的樣本數(shù)量;假正樣本(FP)表示檢測(cè)到的目標(biāo)類別中非真實(shí)目標(biāo)類別的樣本數(shù)量;假負(fù)樣本(FN)表示未檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量。
mAP為所有類別的平均準(zhǔn)確率,計(jì)算方法如式(15)
(15)
式中:AP表示每個(gè)類別平均準(zhǔn)確率,N表示檢測(cè)目標(biāo)類別數(shù)量。
幀率指網(wǎng)絡(luò)模型每秒鐘能檢測(cè)的圖像數(shù)量,用來評(píng)估網(wǎng)絡(luò)模型檢測(cè)速率。
參數(shù)數(shù)量指的是模型所需參數(shù)。
GFLOP即每秒10億次的浮點(diǎn)運(yùn)算數(shù)。
為了測(cè)試本文改進(jìn)的YOLOv5s模型對(duì)于遙感飛機(jī)圖像的檢測(cè)性能,本文利用RSOD數(shù)據(jù)集進(jìn)行了訓(xùn)練測(cè)試。模型改進(jìn)前后loss曲線如圖12所示,橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)為訓(xùn)練過程中的loss值。
圖12 Loss值下降曲線
圖12表明,模型改進(jìn)前,初始loss值約為0.3;模型改進(jìn)后,初始loss約為0.2,降低了33.3%。在訓(xùn)練的初始階段,模型改進(jìn)前的檢測(cè)框loss值有上升趨勢(shì),說明有過擬合現(xiàn)象;而模型改進(jìn)后的檢測(cè)框loss值較平滑,未出現(xiàn)過擬合現(xiàn)象。在預(yù)訓(xùn)練結(jié)束時(shí),模型改進(jìn)前l(fā)oss值約為0.1776,模型改進(jìn)后loss值約為0.1042,降低了41.8%。由此可見,模型改進(jìn)后顯著降低了loss并優(yōu)化了過擬合現(xiàn)象,性能更佳。
圖13 mAP曲線
為了進(jìn)一步測(cè)試改進(jìn)YOLOv5s模型的檢測(cè)性能,本文在測(cè)試集上進(jìn)行了目標(biāo)檢測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖14所示。圖14中有3個(gè)對(duì)照組,在每一組中,左圖為改進(jìn)前的模型測(cè)試結(jié)果,右圖為改進(jìn)后的模型測(cè)試結(jié)果。圖14(a)是針對(duì)飛機(jī)尺寸小且機(jī)身顏色與背景顏色相近的遙感圖像進(jìn)行測(cè)試的結(jié)果。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法準(zhǔn)確無誤地檢測(cè)出了所有飛機(jī),而改進(jìn)前的模型測(cè)試存在誤檢現(xiàn)象,如右上角標(biāo)記框所示。這是由于在改進(jìn)前的卷積神經(jīng)網(wǎng)絡(luò)中,小尺寸目標(biāo)的語義丟失,影響了后續(xù)特征金字塔的信息融合,錯(cuò)誤地將與目標(biāo)顏色、形狀相近的物體識(shí)別為目標(biāo)。改進(jìn)后的模型使用密集網(wǎng)絡(luò)加強(qiáng)了網(wǎng)絡(luò)的特征提取能力,而且密集網(wǎng)絡(luò)的正則化可以減輕YOLOv5s的過擬合。因此,即使目標(biāo)顏色與背景顏色相近,改進(jìn)后的網(wǎng)絡(luò)模型仍然可以區(qū)分目標(biāo)與背景。
圖14 模型改進(jìn)前后實(shí)驗(yàn)結(jié)果對(duì)比
在實(shí)際拍攝過程中,中等尺寸的飛機(jī)目標(biāo),可能存在部分被遮擋的情況。圖14(b)是針對(duì)目標(biāo)部分被遮擋的遙感圖像進(jìn)行測(cè)試的結(jié)果,改進(jìn)前YOLOv5s未能檢測(cè)出右上標(biāo)記框中的部分被遮擋的飛機(jī)目標(biāo);而改進(jìn)后的模型采用了注意力機(jī)制,通過細(xì)化特征圖提高了卷積網(wǎng)絡(luò)的表示能力,有效地幫助了特征信息傳播,具有對(duì)嘈雜輸入的魯棒性,成功檢測(cè)出了該位置的目標(biāo)。
圖14(c)是針對(duì)背景更為復(fù)雜,飛機(jī)目標(biāo)更小更密集的遙感圖像進(jìn)行測(cè)試的結(jié)果,改進(jìn)后的模型較好地檢測(cè)出了所有目標(biāo),而改進(jìn)前的YOLOv5s網(wǎng)絡(luò)模型依然存在誤檢情況,如左下標(biāo)記框所示。
表2列出了YOLOv5s+CBAM+DenseNet(本文模型)與Faster R-CNN、SSD、YOLOv5s、YOLOv5s+CBAM、YOLOv5s+DenseNet在RSOD數(shù)據(jù)集上的測(cè)試結(jié)果對(duì)比。
表2 不同算法模型在RSOD數(shù)據(jù)集上的對(duì)比
由表2可見,本文模型在RSOD數(shù)據(jù)集上,IOU大于0.5時(shí)的平均準(zhǔn)確率較YOLOv5s+DenseNet、YOLOv5s+CBAM、YOLOv5s、SSD、Faster R-CNN算法分別提高了2.91%、0.3%、3.91%、11.54%、9.08%,表明本文模型具有優(yōu)良的檢測(cè)性能。IOU閾值越大,對(duì)目標(biāo)檢測(cè)算法的準(zhǔn)確性要求越高。從表中可以看出,在IOU閾值增大的情況下,mAP排序依舊是本文模型>YOLOv5s+DenseNet>YOLOv5s+CBAM>YOLOv5s>Faster R-CNN>SSD,表明本文算法整體檢測(cè)精度更高。雖然,相比原YOLOv5s算法,改進(jìn)后的幀率小幅度降低。從表中可以看出,幀率下降的主要原因是稠密連接雖然需要較少的參數(shù),但是需要更大的計(jì)算量,并且在特征圖空間軸和通道軸上使用了注意力機(jī)制。總體而言,相比原YOLOv5s算法,本文改進(jìn)后的算法僅僅降低了少量幀率,卻顯著提升性能。
表3為不同注意力安排方法以及損失函數(shù)在RSOD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
表3 不同注意力安排方法以及損失函數(shù)在RSOD數(shù)據(jù)集上的對(duì)比
根據(jù)表3實(shí)驗(yàn)結(jié)果,帶有CBAM注意力機(jī)制的模型性能優(yōu)于SE注意力機(jī)制,說明與SE相比,CBAM有更大的提升。同時(shí),還可以看出,相比于GIOU損失函數(shù)與DIOU損失函數(shù),CIOU損失函數(shù)擁有更高的回歸精度。
為了驗(yàn)證本文算法訓(xùn)練得到的模型的適應(yīng)性,本節(jié)在 NWPU VHR-10、DIOR、UCAS-AOD和DOTA數(shù)據(jù)集中選取了不同分辨率與背景的遙感飛機(jī)圖片進(jìn)行測(cè)試。如表4所示,本文改進(jìn)后的算法在NWPU VHR-10數(shù)據(jù)集上的檢測(cè)精度為92.15%、在DIOR數(shù)據(jù)集上的檢測(cè)精度為91.56%、在UCAS-AOD數(shù)據(jù)集上的檢測(cè)精度為93.19%,以及在DOTA數(shù)據(jù)集上的檢測(cè)精度為93.22%。本文改進(jìn)后的模型在上述數(shù)據(jù)集上都擁有較高準(zhǔn)確度,說明該模型具有較強(qiáng)的實(shí)用性。
表4 改進(jìn)YOLOv5s在其它數(shù)據(jù)集檢測(cè)結(jié)果
本文以遙感飛機(jī)圖像的目標(biāo)檢測(cè)為研究背景,基于遙感圖像飛機(jī)目標(biāo)檢測(cè)任務(wù)中存在的密集小目標(biāo)以及被遮擋目標(biāo)檢測(cè)精度低的問題,提出了一種基于稠密連接以及CBAM注意力機(jī)制改進(jìn)的YOLOv5s檢測(cè)模型。首先,稠密連接的引入,增強(qiáng)了網(wǎng)絡(luò)特征傳播,減輕了梯度消失并且減少了參數(shù)數(shù)量;其次,采用CBAM注意力機(jī)制,通過增加重要特征信息權(quán)重,抑制無關(guān)信息,大大提升了網(wǎng)絡(luò)模型性能。最后,將GIOU+NMS改進(jìn)為CIOU+DIOU_NMS,提升了對(duì)被遮擋目標(biāo)檢測(cè)的魯棒性。實(shí)驗(yàn)結(jié)果表明,與其它幾種主流算法相比,本文提出的模型不僅具有較好的檢測(cè)性能,還具有很好的實(shí)用性以及適用性。未來的工作,將在不降低網(wǎng)絡(luò)模型性能的情況下減少模型參數(shù)的方向展開研究,進(jìn)一步提升網(wǎng)絡(luò)模型的綜合性能。