亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)YOLOv5s算法的遙感圖像飛機(jī)檢測(cè)

2023-10-12 01:10:50鄢奉習(xí)徐銀霞蔡思遠(yuǎn)祁澤政

計(jì)算機(jī)工程與設(shè)計(jì) 2023年9期

關(guān)鍵詞：飛機(jī)特征檢測(cè)

鄢奉習(xí)，徐銀霞+，蔡思遠(yuǎn)，祁澤政

(1.武漢工程大學(xué) 智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室，湖北武漢 430205；2.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，湖北武漢 430205)

0 引言

相較于傳統(tǒng)圖像，遙感圖像中的飛機(jī)目標(biāo)更具多樣性、背景更具復(fù)雜性，并且目標(biāo)更小。因此，遙感圖像飛機(jī)目標(biāo)檢測(cè)，面臨著諸多挑戰(zhàn)。

隨著深度學(xué)習(xí)高速發(fā)展，現(xiàn)階段的目標(biāo)檢測(cè)算法主要包括以下兩種類別[1]：一是Two-stage算法、如R-CNN算法[2]、Fast R-CNN算法[3]、Faster R-CNN算法[4]、R-FCN算法[5]、Mask R-CNN算法[6]等。二是One-stage算法，如SSD算法[7]、YOLO[8]系列算法、RetinaNet算法[9]等。近年來，為提高遙感圖像目標(biāo)檢測(cè)的精度和效率，許多學(xué)者進(jìn)行了相關(guān)研究。

Adam Van Etten等[10]通過對(duì)圖像做尺度變換、旋轉(zhuǎn)，縮小輸出特征圖及分割等操作，在衛(wèi)星遙感圖像目標(biāo)檢測(cè)中取得不錯(cuò)的效果。鄭哲等[11]融合多尺度特征金字塔，并引入通道與空間注意力機(jī)制，顯著提高了遙感圖像的檢測(cè)精度。姚群力等[12]應(yīng)用反卷積算法實(shí)現(xiàn)了高層語義信息與底層特征細(xì)節(jié)的融合，較大提升了遙感圖像密集小目標(biāo)飛機(jī)的檢測(cè)效果。李婕等[13]通過融合注意力約束的特征共享層，有效提升了多尺度密集的遙感飛機(jī)目標(biāo)的檢測(cè)精度。葉趙兵等[14]引入CIOU邊框回歸損失，提高了模型的定位精度。劉輝等[15]使用Soft-NMS代替YOLOv5所使用的非極大值抑制(NMS)，成功降低了模型的漏檢率。

YOLOv5s是一種高效、高精度的網(wǎng)絡(luò)模型，但在復(fù)雜遙感圖像目標(biāo)檢測(cè)的應(yīng)用中仍有待改進(jìn)。受以上文章啟發(fā)，本文引入DenseNet方法、CBAM注意力機(jī)制以及改進(jìn)損失函數(shù)，對(duì)YOLOv5s模型進(jìn)行特征復(fù)用、精度優(yōu)化以及魯棒性提高，利用多種公開數(shù)據(jù)集驗(yàn)證了模型改進(jìn)后的性能。

1 YOLOv5s模型結(jié)構(gòu)

由圖1可以看出，YOLOv5s模型由Input、Backbone、Neck、Prediction這4部分組成。

圖1 YOLOv5s模型結(jié)構(gòu)

Input端采用了Mosaic方法進(jìn)行數(shù)據(jù)增強(qiáng)，任意選取4張圖片進(jìn)行縮放、裁剪和排布處理，然后再拼成1張圖片。

Backbone網(wǎng)絡(luò)中包含F(xiàn)ocus和CSP[16]模塊。Focus模塊的切片操作能保證網(wǎng)絡(luò)層獲取足夠多的特征信息，增加卷積視野。CSP模塊由殘差組件與CBS模塊構(gòu)成，CBS模塊由3個(gè)連續(xù)操作構(gòu)成：3×3Conv+BN+SiLU。殘差組件由CBS模塊以殘差的方式連接而成。CSP模塊可以保證準(zhǔn)確率和速率，減少參數(shù)，使模型更輕量化。

Neck部分采用FPN+PAN[17]結(jié)構(gòu)，F(xiàn)PN自上而下通過上采樣向下將特征圖進(jìn)行傳遞融合。PAN采用自底向上的特征金字塔傳遞特征，從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合。

Prediction端先采用GIOU損失函數(shù)[18]，增加相交尺度的衡量方式，使邊界框的回歸收斂效果更好。然后，運(yùn)用非極大值抑制算法對(duì)檢測(cè)框進(jìn)行篩選，保留置信度最高的預(yù)測(cè)框，舍棄置信度較低的預(yù)測(cè)框。

2 YOLOv5s改進(jìn)

為解決遙感飛機(jī)圖像中小目標(biāo)特征消失，以及重疊區(qū)域漏檢等問題，提高對(duì)小目標(biāo)飛機(jī)的檢測(cè)性能與魯棒性，本文對(duì)YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)中的CSP模塊、Backbone網(wǎng)絡(luò)以及檢測(cè)算法分別進(jìn)行了改進(jìn)。

2.1 采用稠密連接減輕梯度消失

遙感飛機(jī)圖像具有分辨率較大，待檢測(cè)小目標(biāo)飛機(jī)密集以及復(fù)雜背景等問題，因此在模型訓(xùn)練過程中，需要大量參數(shù)，消耗較多時(shí)間。而且，隨著網(wǎng)絡(luò)層數(shù)加深，還會(huì)出現(xiàn)小目標(biāo)飛機(jī)梯度消失的現(xiàn)象。如果在淺層網(wǎng)絡(luò)的輸出層與深層網(wǎng)絡(luò)的輸入層之間，建立更短的連接通道，則可以最大化傳遞網(wǎng)絡(luò)層之間的特征信息，使網(wǎng)絡(luò)訓(xùn)練更快、更深、更準(zhǔn)確。借鑒稠密卷積神經(jīng)網(wǎng)絡(luò)模型DenseBlock[19]的方法，本文對(duì)YOLOv5s網(wǎng)絡(luò)中的CSP模塊進(jìn)行改進(jìn)，以稠密連接方式代替?zhèn)鹘y(tǒng)卷積，使得在深層網(wǎng)絡(luò)中也能更好的傳遞特征信息，從而減輕梯度消失。

DenseBlock結(jié)構(gòu)如圖2所示，其中，Xl是第l層的輸出，H由BN、ReLU和3×3卷積操作組成，用于提取特征圖。第l層的輸入為第0～l-1層的輸出特征圖，式(1)為輸出Xl的計(jì)算公式。在DenseBlock的輸出端，使用由BN層、1×1卷積和2×2池化構(gòu)成的Transition Layer層來對(duì)特征圖進(jìn)行下采樣

圖2 DenseBlock結(jié)構(gòu)

Xl=Hl([X0，X1，X2，…，Xl-1])，(l∈N+)

(1)

需要注意的是，稠密連接會(huì)使得特征圖通道數(shù)隨著網(wǎng)絡(luò)層的加深不斷增多。為了控制特征圖數(shù)量，DenseNet引入Growth rate超參數(shù)k來表示DenseBlock中特征圖的數(shù)量，k其實(shí)是卷積核個(gè)數(shù)。假設(shè)輸入特征圖數(shù)量為k0，則輸出特征圖的數(shù)量m的計(jì)算如式(2)所示

m=k0+(l-1)×k

(2)

如圖3所示，本文將CSP模塊中的殘差單元采用稠密連接方式，通過Concatenate特征聯(lián)合多個(gè)特征圖維度實(shí)現(xiàn)短路連接，采用3×3與1×1的卷積進(jìn)行特征維度轉(zhuǎn)換，使特征信息得以復(fù)用。這種方法既能保證網(wǎng)絡(luò)各層之間的信息流最大化，又解決了特征圖因網(wǎng)絡(luò)層數(shù)加深而信息丟失的問題。每一個(gè)Resnet殘差單元對(duì)獲取的輸入信息經(jīng)過卷積計(jì)算后，會(huì)傳遞給所有深層殘差單元。因?yàn)椴恍枰匦聦W(xué)習(xí)冗余特征圖，所以僅需新增少量參數(shù)就能使網(wǎng)絡(luò)層獲得足夠的特征信息，從而提升了特征利用效率，加強(qiáng)了網(wǎng)絡(luò)模型對(duì)遙感圖像中尺寸較小的飛機(jī)目標(biāo)的特征提取。而且通過短路徑，特征信息可以直接由淺層向深層傳遞，擁有更強(qiáng)的流動(dòng)能力。此外，殘差單元采用稠密連接方式，通過引入大量低層信息，達(dá)到了正則化的效果，優(yōu)化了過擬合問題。

圖3 CSP_DB結(jié)構(gòu)

2.2 引入注意力機(jī)制優(yōu)化特征傳播

在人類視覺感知中，注意力起著重要作用。研究表明，人類的注意力分布是不均勻的，選擇性地關(guān)注顯著信息是人類視覺系統(tǒng)的重要特性之一。YOLOv5s算法的檢測(cè)性能主要取決于Backbone網(wǎng)絡(luò)，為了在不增加網(wǎng)絡(luò)深度的條件下提高CNN對(duì)遙感圖像中小目標(biāo)飛機(jī)的檢測(cè)精度，本文在Backbone網(wǎng)絡(luò)增加CBAM(convolutional block attention module)[20]注意力機(jī)制來關(guān)注重要特征并抑制非重要特征，以提高表示能力。CBAM注意力機(jī)制分別提取通道和空間兩個(gè)維度的信息，凸顯沿通道軸和空間軸兩個(gè)主要方向的有意義的特征。如圖4所示，本文依次應(yīng)用通道和空間注意力模塊，以便每個(gè)分支可以分別學(xué)習(xí)通道和空間軸上的信息特征和特征位置。

圖4 CBAM結(jié)構(gòu)

圖4中，F(xiàn)∈RC×1×1為輸入特征，CBAM算法從通道維度與空間維度上順序計(jì)算得到通道注意力圖MC∈RC×1×1和空間注意力圖MS∈R1×H×W。式(3)、式(4)為注意力過程計(jì)算公式

F′=MC(F)?F

(3)

F″=MS(F′)?F′

(4)

其中，?表示逐元素乘法。在矩陣相乘時(shí)，通道注意力值沿著空間維度廣播，反之亦然，F(xiàn)″是最終的精煉輸出。

圖5 通道注意力結(jié)構(gòu)

(5)

式中：σ示sigmoid函數(shù)，W0∈RC/r×C，W1∈RC×C/r， MLP權(quán)重、W0、W1是輸入共享的，且W0在ReLu激活函數(shù)之后。

圖6 空間注意力結(jié)構(gòu)

(6)

式中：σ表示sigmoid函數(shù)，f7×7表示濾波器大小為7×7的卷積操作。

Backbone網(wǎng)絡(luò)中的CBAM模塊如圖7所示。本文僅特征圖下采樣時(shí)嵌入注意力機(jī)制，對(duì)下采樣時(shí)神經(jīng)網(wǎng)絡(luò)傳遞的特征圖在通道和空間兩個(gè)層面設(shè)置不同的權(quán)重。這種方法使得深層網(wǎng)絡(luò)得到更加準(zhǔn)確的特征信息，有利于loss值的降低，保證遙感圖像中飛機(jī)目標(biāo)的準(zhǔn)確識(shí)別與定位。直觀來講，在梯度向前傳播的過程中，特征圖中重要的通道與空間將會(huì)占有更大的比重。在最終的輸出圖像中能更加凸顯出檢測(cè)模型所重點(diǎn)關(guān)注的部分，從而更好地分辨出待檢測(cè)目標(biāo)。在Backbone網(wǎng)絡(luò)中，嵌入注意力機(jī)制后會(huì)增加計(jì)算量，但通過一定比例的降維可以使檢測(cè)性能和速度達(dá)到一定的平衡。而且空間與通道注意力機(jī)制，是一種即插即用的算法模塊，并不會(huì)改變網(wǎng)絡(luò)結(jié)構(gòu)。

圖8展示了使用注意力機(jī)制前后，網(wǎng)絡(luò)模型第一次下采樣后的特征提取結(jié)果對(duì)比，圖8(a)為待檢測(cè)圖像，圖8(b)為未使用注意力機(jī)制時(shí)的特征提取結(jié)果，可以看出飛機(jī)的邊緣較模糊，特征沒有得到很好的提取。圖8(c)為使用注意力機(jī)制后的特征提取結(jié)果，飛機(jī)的輪廓更清晰，而且飛機(jī)與背景被明顯區(qū)分開，說明改進(jìn)后的模型更好的提取到了特征信息。由此可見注意力機(jī)制增強(qiáng)了模型的特征提取能力。

圖8 CBAM注意力機(jī)制引入前后特征提取結(jié)果對(duì)比

2.3 檢測(cè)算法改進(jìn)

2.3.1 損失函數(shù)改進(jìn)

預(yù)測(cè)框回歸是定位目標(biāo)對(duì)象的關(guān)鍵步驟。在預(yù)測(cè)框回歸的評(píng)估中，IOU是最受歡迎的指標(biāo)。YOLOv5s網(wǎng)絡(luò)采用GIOU，雖然可以緩解非重疊情況下的梯度消失問題，但仍然存在一定的局限性。

如圖9所示，圖9(a)～圖9(c)中的預(yù)測(cè)框A大小一致，且在真實(shí)框B內(nèi)部，C為預(yù)測(cè)框A和真實(shí)框B的最小外接矩形，預(yù)測(cè)框A和真實(shí)框B的差集相同。根據(jù)GIOU_Loss計(jì)算式(7)～式(9)，這3種狀態(tài)的GIOU值也都是相同的，這時(shí)GIOU退化成了IOU，無法區(qū)分相對(duì)位置關(guān)系

圖9 GIOU

(7)

(8)

(9)

本文損失函數(shù)采用CIOU_Loss[21]，同時(shí)計(jì)算檢測(cè)框之間的中心點(diǎn)距離、縱橫比以及重疊大小。CIOU損失函數(shù)原理如圖10所示，計(jì)算如式(10)所示

圖10 CIOU

(10)

式中：L為最小外接矩形C的對(duì)角線距離，d為預(yù)測(cè)框中心點(diǎn)與目標(biāo)框中心點(diǎn)間的歐氏距離，v是衡量長(zhǎng)寬比一致性的參數(shù)，可以定義為式(11)

(11)

式中：wgt、hgt代表目標(biāo)框?qū)捄透?，w、h代表檢測(cè)框?qū)捄透摺?/p>

2.3.2 NMS改進(jìn)

在預(yù)選框的篩選階段，YOLOv5s采用的是非極大值處理(non-maximum suppression，NMS)。需要注意的是，由于NMS將IOU高于閾值的候選框的分?jǐn)?shù)置0，如果真實(shí)物體在重疊區(qū)域出現(xiàn)，那么采用NMS可能會(huì)漏檢。因此，本文將DIOU部署在NMS中，在抑制冗余框時(shí)考慮重疊區(qū)域以及兩個(gè)邊界框中心點(diǎn)之間的距離，增加其識(shí)別被部分遮擋的目標(biāo)的魯棒性，還能加快收斂速度。DIOU_NMS計(jì)算如式(12)、式(13)

(12)

(13)

其中，b和bgt表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn)，ρ(x) 是歐幾里得距離，c是覆蓋兩個(gè)框的最小封閉框的對(duì)角線長(zhǎng)度，ε是NMS閾值，Si為預(yù)測(cè)框得分，M為分?jǐn)?shù)最高的候選框，Bi為待去除的候選框。

2.4 改進(jìn)YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)

改進(jìn)的YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。首先，在Input端，將三通道輸入圖像的尺寸由604×604改為640×640，避免小目標(biāo)飛機(jī)的特征信息經(jīng)過多次下采樣后消失，降低復(fù)雜背景下小目標(biāo)飛機(jī)的漏檢率。

圖11 改進(jìn)YOLOv5s結(jié)構(gòu)

在Backbone中，將Focus結(jié)構(gòu)中的原始640×640×3的圖像改為320×320×12的特征圖，再經(jīng)過32個(gè)12×3×3卷積核的卷積操作，輸出尺寸為320×320×32的特征圖。在特征圖輸入CSP_DB模塊前使用步長(zhǎng)為2的3×3卷積核進(jìn)行下采樣。5次下采樣后的特征圖依次為320×320、160×160、80×80、40×40、20×20。在進(jìn)行特征下采樣前，Resunit殘差單元采用稠密連接方式，防止深層網(wǎng)絡(luò)梯度消失的同時(shí)，增強(qiáng)特征傳播，鼓勵(lì)特征重用，并減少參數(shù)數(shù)量，使網(wǎng)絡(luò)可以進(jìn)行更深入、更準(zhǔn)確和有效的訓(xùn)練。將注意力機(jī)制添加在Backbone網(wǎng)絡(luò)中的CSP_DB模塊之后，有選擇性地加強(qiáng)包含重要信息的特征并抑制無關(guān)或較弱關(guān)聯(lián)的特征，確保在獲取足夠多與足夠準(zhǔn)確的特征信息之后，再進(jìn)行特征圖下降。實(shí)現(xiàn)特征信息在網(wǎng)絡(luò)中更準(zhǔn)確、有效的傳播，不僅可以提升檢測(cè)精度與性能，還能增強(qiáng)網(wǎng)絡(luò)特征提取的魯棒性。SPP模塊使用不同尺度過濾器K={1×1，5×5，9×9，13×13}，對(duì)輸入特征圖進(jìn)行多尺度最大池化與通道拼接，從而提高圖像的尺度不變性，降低過擬合，使網(wǎng)絡(luò)更容易收斂。

在Neck層，沿用雙重特征金字塔思想，融合FPN+PAN結(jié)構(gòu)。FPN與PAN分別是自頂向下與自底向上的特征金字塔結(jié)構(gòu)，融合兩種結(jié)構(gòu)，可以同時(shí)加強(qiáng)語義特征與定位特征傳達(dá)，從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合。首先將Backbone網(wǎng)絡(luò)輸入的19×19特征圖經(jīng)過兩次上采樣與特征融合后得到80×80輸出特征圖。然后80×80輸出特征圖經(jīng)過下采樣后，與Backbone網(wǎng)絡(luò)特征圖融合得到40×40輸出特征圖。最后，40×40輸出特征圖經(jīng)過下采樣與特征圖融合后，得到20×20輸出特征圖。從不同的主干層對(duì)不同的檢測(cè)層進(jìn)行特征聚合，實(shí)現(xiàn)了不同尺寸目標(biāo)檢測(cè)間的平衡。

最后Prediction端采用CIOU_Loss算法，從重疊面積、中心點(diǎn)與長(zhǎng)寬比3個(gè)量維度上對(duì)預(yù)測(cè)框進(jìn)行回歸；接著，采用DIOU_NMS算法，從重疊面積以及預(yù)測(cè)框間的中心點(diǎn)距離對(duì)冗余框進(jìn)行抑制的。最終，提高算法對(duì)被遮擋目標(biāo)識(shí)別的性能。值得注意的是，這里之所以未考慮長(zhǎng)寬比維度，是因?yàn)樵撚绊懸蜃訛間roundtruth標(biāo)注框信息，而測(cè)試過程中，并沒有該影響因子，因此，采用DIOU_NMS算法即可。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)平臺(tái)

本文實(shí)驗(yàn)所用的操作系統(tǒng)為Ubuntu20.04，處理器型號(hào)為Intel(R)Xeon(R)Gold 6230 CPU@2.10 GHz；顯卡型號(hào)為NVIDIA Tesla T4；開發(fā)環(huán)境為python3.8、pytorch、cuda11.1。

3.2 數(shù)據(jù)集與訓(xùn)練策略

本文采用2015年武漢大學(xué)團(tuán)隊(duì)標(biāo)注的RSOD[22]數(shù)據(jù)集中的遙感飛機(jī)圖像作為數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試，并選取西北工業(yè)大學(xué)的光學(xué)遙感圖像數(shù)據(jù)集NWPU VHR-10、DIOR、UCAS-AOD和DOTA中包含飛機(jī)類別的數(shù)據(jù)集進(jìn)行了拓展實(shí)驗(yàn)。數(shù)據(jù)集中飛機(jī)樣式包含民航客機(jī)、戰(zhàn)斗機(jī)以及直升機(jī)，表1展示了訓(xùn)練集與測(cè)試集的相關(guān)數(shù)據(jù)。

表1 訓(xùn)練集和測(cè)試集

為了避免初始較大學(xué)習(xí)率導(dǎo)致模型的不穩(wěn)定，本文采用改進(jìn)的預(yù)熱訓(xùn)練(Warmup)策略：采用批訓(xùn)練(mini-batch)方式輸入訓(xùn)練數(shù)據(jù)集，在訓(xùn)練過程中，先用較小的學(xué)習(xí)率訓(xùn)練一個(gè)epoch，待模型趨于穩(wěn)定后，再分階段恢復(fù)正常學(xué)習(xí)率。在防止訓(xùn)練誤差增大與提前過擬合的同時(shí)，加快了網(wǎng)絡(luò)模型的收斂速率，從而有效地提高計(jì)算效率。

3.3 評(píng)估指標(biāo)

為了評(píng)估網(wǎng)絡(luò)模型的性能和對(duì)遙感飛機(jī)圖像檢測(cè)的準(zhǔn)確性，本文采用準(zhǔn)確率(P)、召回率(R)、mAP、幀率(FPS)、參數(shù)數(shù)量(Param)和GFLOP作為評(píng)估指標(biāo)。

準(zhǔn)確率指網(wǎng)絡(luò)檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量與檢測(cè)到的所有目標(biāo)類別數(shù)量之比；召回率指網(wǎng)絡(luò)檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量與所有真實(shí)目標(biāo)類別數(shù)量之比。準(zhǔn)確率和召回率的計(jì)算方法如式(14)

(14)

式中：真正樣本(TP)表示檢測(cè)到的真實(shí)目標(biāo)類別的樣本數(shù)量；假正樣本(FP)表示檢測(cè)到的目標(biāo)類別中非真實(shí)目標(biāo)類別的樣本數(shù)量；假負(fù)樣本(FN)表示未檢測(cè)到的真實(shí)目標(biāo)類別數(shù)量。

mAP為所有類別的平均準(zhǔn)確率，計(jì)算方法如式(15)

(15)

式中：AP表示每個(gè)類別平均準(zhǔn)確率，N表示檢測(cè)目標(biāo)類別數(shù)量。

幀率指網(wǎng)絡(luò)模型每秒鐘能檢測(cè)的圖像數(shù)量，用來評(píng)估網(wǎng)絡(luò)模型檢測(cè)速率。

參數(shù)數(shù)量指的是模型所需參數(shù)。

GFLOP即每秒10億次的浮點(diǎn)運(yùn)算數(shù)。

3.4 實(shí)驗(yàn)結(jié)果及分析

為了測(cè)試本文改進(jìn)的YOLOv5s模型對(duì)于遙感飛機(jī)圖像的檢測(cè)性能，本文利用RSOD數(shù)據(jù)集進(jìn)行了訓(xùn)練測(cè)試。模型改進(jìn)前后loss曲線如圖12所示，橫坐標(biāo)為訓(xùn)練次數(shù)，縱坐標(biāo)為訓(xùn)練過程中的loss值。

圖12 Loss值下降曲線

圖12表明，模型改進(jìn)前，初始loss值約為0.3；模型改進(jìn)后，初始loss約為0.2，降低了33.3%。在訓(xùn)練的初始階段，模型改進(jìn)前的檢測(cè)框loss值有上升趨勢(shì)，說明有過擬合現(xiàn)象；而模型改進(jìn)后的檢測(cè)框loss值較平滑，未出現(xiàn)過擬合現(xiàn)象。在預(yù)訓(xùn)練結(jié)束時(shí)，模型改進(jìn)前l(fā)oss值約為0.1776，模型改進(jìn)后loss值約為0.1042，降低了41.8%。由此可見，模型改進(jìn)后顯著降低了loss并優(yōu)化了過擬合現(xiàn)象，性能更佳。

圖13 mAP曲線

為了進(jìn)一步測(cè)試改進(jìn)YOLOv5s模型的檢測(cè)性能，本文在測(cè)試集上進(jìn)行了目標(biāo)檢測(cè)實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖14所示。圖14中有3個(gè)對(duì)照組，在每一組中，左圖為改進(jìn)前的模型測(cè)試結(jié)果，右圖為改進(jìn)后的模型測(cè)試結(jié)果。圖14(a)是針對(duì)飛機(jī)尺寸小且機(jī)身顏色與背景顏色相近的遙感圖像進(jìn)行測(cè)試的結(jié)果。實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的算法準(zhǔn)確無誤地檢測(cè)出了所有飛機(jī)，而改進(jìn)前的模型測(cè)試存在誤檢現(xiàn)象，如右上角標(biāo)記框所示。這是由于在改進(jìn)前的卷積神經(jīng)網(wǎng)絡(luò)中，小尺寸目標(biāo)的語義丟失，影響了后續(xù)特征金字塔的信息融合，錯(cuò)誤地將與目標(biāo)顏色、形狀相近的物體識(shí)別為目標(biāo)。改進(jìn)后的模型使用密集網(wǎng)絡(luò)加強(qiáng)了網(wǎng)絡(luò)的特征提取能力，而且密集網(wǎng)絡(luò)的正則化可以減輕YOLOv5s的過擬合。因此，即使目標(biāo)顏色與背景顏色相近，改進(jìn)后的網(wǎng)絡(luò)模型仍然可以區(qū)分目標(biāo)與背景。

圖14 模型改進(jìn)前后實(shí)驗(yàn)結(jié)果對(duì)比

在實(shí)際拍攝過程中，中等尺寸的飛機(jī)目標(biāo)，可能存在部分被遮擋的情況。圖14(b)是針對(duì)目標(biāo)部分被遮擋的遙感圖像進(jìn)行測(cè)試的結(jié)果，改進(jìn)前YOLOv5s未能檢測(cè)出右上標(biāo)記框中的部分被遮擋的飛機(jī)目標(biāo)；而改進(jìn)后的模型采用了注意力機(jī)制，通過細(xì)化特征圖提高了卷積網(wǎng)絡(luò)的表示能力，有效地幫助了特征信息傳播，具有對(duì)嘈雜輸入的魯棒性，成功檢測(cè)出了該位置的目標(biāo)。

圖14(c)是針對(duì)背景更為復(fù)雜，飛機(jī)目標(biāo)更小更密集的遙感圖像進(jìn)行測(cè)試的結(jié)果，改進(jìn)后的模型較好地檢測(cè)出了所有目標(biāo)，而改進(jìn)前的YOLOv5s網(wǎng)絡(luò)模型依然存在誤檢情況，如左下標(biāo)記框所示。

表2列出了YOLOv5s+CBAM+DenseNet(本文模型)與Faster R-CNN、SSD、YOLOv5s、YOLOv5s+CBAM、YOLOv5s+DenseNet在RSOD數(shù)據(jù)集上的測(cè)試結(jié)果對(duì)比。

表2 不同算法模型在RSOD數(shù)據(jù)集上的對(duì)比

由表2可見，本文模型在RSOD數(shù)據(jù)集上，IOU大于0.5時(shí)的平均準(zhǔn)確率較YOLOv5s+DenseNet、YOLOv5s+CBAM、YOLOv5s、SSD、Faster R-CNN算法分別提高了2.91%、0.3%、3.91%、11.54%、9.08%，表明本文模型具有優(yōu)良的檢測(cè)性能。IOU閾值越大，對(duì)目標(biāo)檢測(cè)算法的準(zhǔn)確性要求越高。從表中可以看出，在IOU閾值增大的情況下，mAP排序依舊是本文模型>YOLOv5s+DenseNet>YOLOv5s+CBAM>YOLOv5s>Faster R-CNN>SSD，表明本文算法整體檢測(cè)精度更高。雖然，相比原YOLOv5s算法，改進(jìn)后的幀率小幅度降低。從表中可以看出，幀率下降的主要原因是稠密連接雖然需要較少的參數(shù)，但是需要更大的計(jì)算量，并且在特征圖空間軸和通道軸上使用了注意力機(jī)制。總體而言，相比原YOLOv5s算法，本文改進(jìn)后的算法僅僅降低了少量幀率，卻顯著提升性能。

表3為不同注意力安排方法以及損失函數(shù)在RSOD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

表3 不同注意力安排方法以及損失函數(shù)在RSOD數(shù)據(jù)集上的對(duì)比

根據(jù)表3實(shí)驗(yàn)結(jié)果，帶有CBAM注意力機(jī)制的模型性能優(yōu)于SE注意力機(jī)制，說明與SE相比，CBAM有更大的提升。同時(shí)，還可以看出，相比于GIOU損失函數(shù)與DIOU損失函數(shù)，CIOU損失函數(shù)擁有更高的回歸精度。

3.5 其它數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文算法訓(xùn)練得到的模型的適應(yīng)性，本節(jié)在 NWPU VHR-10、DIOR、UCAS-AOD和DOTA數(shù)據(jù)集中選取了不同分辨率與背景的遙感飛機(jī)圖片進(jìn)行測(cè)試。如表4所示，本文改進(jìn)后的算法在NWPU VHR-10數(shù)據(jù)集上的檢測(cè)精度為92.15%、在DIOR數(shù)據(jù)集上的檢測(cè)精度為91.56%、在UCAS-AOD數(shù)據(jù)集上的檢測(cè)精度為93.19%，以及在DOTA數(shù)據(jù)集上的檢測(cè)精度為93.22%。本文改進(jìn)后的模型在上述數(shù)據(jù)集上都擁有較高準(zhǔn)確度，說明該模型具有較強(qiáng)的實(shí)用性。

表4 改進(jìn)YOLOv5s在其它數(shù)據(jù)集檢測(cè)結(jié)果

4 結(jié)束語

本文以遙感飛機(jī)圖像的目標(biāo)檢測(cè)為研究背景，基于遙感圖像飛機(jī)目標(biāo)檢測(cè)任務(wù)中存在的密集小目標(biāo)以及被遮擋目標(biāo)檢測(cè)精度低的問題，提出了一種基于稠密連接以及CBAM注意力機(jī)制改進(jìn)的YOLOv5s檢測(cè)模型。首先，稠密連接的引入，增強(qiáng)了網(wǎng)絡(luò)特征傳播，減輕了梯度消失并且減少了參數(shù)數(shù)量；其次，采用CBAM注意力機(jī)制，通過增加重要特征信息權(quán)重，抑制無關(guān)信息，大大提升了網(wǎng)絡(luò)模型性能。最后，將GIOU+NMS改進(jìn)為CIOU+DIOU_NMS，提升了對(duì)被遮擋目標(biāo)檢測(cè)的魯棒性。實(shí)驗(yàn)結(jié)果表明，與其它幾種主流算法相比，本文提出的模型不僅具有較好的檢測(cè)性能，還具有很好的實(shí)用性以及適用性。未來的工作，將在不降低網(wǎng)絡(luò)模型性能的情況下減少模型參數(shù)的方向展開研究，進(jìn)一步提升網(wǎng)絡(luò)模型的綜合性能。