李建新,陳厚權,范文龍
(1.保定市不動產(chǎn)登記中心,河北 保定 071051;2.河北大學 質(zhì)量技術監(jiān)督學院,河北 保定 071002)
遙感技術和人工智能的融合為全球監(jiān)測、環(huán)境變遷、資源管理等提供了新的視角和工具。特別是,遙感圖像目標檢測在這個交叉領域中占據(jù)了重要的地位。然而遙感圖像高緯度、大規(guī)模、復雜性和動態(tài)變化的特性,給精準的遙感圖像目標檢測帶來了挑戰(zhàn)。目前遙感圖像目標檢測算法大多來源于自然圖像目標檢測算法的改進,傳統(tǒng)的目標檢測算法需要通過手動提取感興趣區(qū)域的特征,提取特征方式繁瑣低效,且提取特征十分單一。如何有效解讀這些圖像,從中提取并識別出有價值的信息,成為了目前遙感圖像目標檢測領域研究的關鍵問題之一。
當前以卷積神經(jīng)網(wǎng)絡為基礎的目標檢測方法主要分為兩類:雙階段和單階段檢測算法,其主要的區(qū)別在于是否有候選框的生成。雙階段算法如R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等,通過先生成目標候選區(qū)域再進行分類的方式實現(xiàn)目標檢測,檢測精度高但速度慢。單階段檢測算法如SSD[4]和YOLO[5]系列,舍棄了候選框生成階段,利用卷積神經(jīng)網(wǎng)絡直接對輸入圖像進行特征提取,然后進行目標分類和位置預測,有效地提高了檢測算法的識別速度。在這些單階段檢測算法中,YOLOv5算法以模型訓練和預測快速、便于模型部署等優(yōu)點而受到廣泛關注。盡管如此,針對遙感圖像,這種算法仍存在一些問題,例如特征提取不足,對復雜背景的適應性差,以及對小目標的檢測性能不佳。
對此,文獻[6]運用空洞殘差卷積的思想提取淺層特征,隨后與深層特征進行融合,有效提高了遙感圖像中飛機的檢測精度。姚艷清等[7]使用了一種雙尺度特征融合模塊,保證了圖像特征的豐富性,以緩解深層信息的丟失問題,有效提高了多尺度遙感目標的檢測能力。文獻[8]提出了多階段級聯(lián)結構的遙感圖像目標檢測算法,在水平框和旋轉(zhuǎn)框兩個檢測任務上均有提升。以上方法,雖然通過融合淺層特征和深層特征,保存了豐富的圖像特征,但是對于目標尺度變化較大的圖像易出現(xiàn)漏檢的問題。文獻[9]在YOLOv5s的骨干網(wǎng)絡的卷積塊中加入了一種即插即用的輕量級有效通道注意力(ECA,efficient channel attention)模塊[10],形成新的卷積有效通道注意力(CECA,convolutional efficient channel attention)模塊,基于不降維的局部跨信道交互策略加強遙感目標的特征提取能力。此外,他們在多尺度特征融合的過程中引入具有Swin Transformer[11]網(wǎng)絡特性的C3STR模塊和坐標注意力機制,以增強網(wǎng)絡的局部感知能力,提高小尺度目標的檢測精度。文獻[12]在主干網(wǎng)絡引入通道-全局注意力機制(CGAM,channel-global attention mechanism),以增強模型對不同尺度目標的特征提取能力和抑制冗余信息的干擾,解決了復雜背景的適應性差的問題。雖然通過添加注意力機制,提高了復雜背景的適應性以及小目標的檢測性能,但對于云層陰影以及光照變化等不可抗因素的干擾,會產(chǎn)生嚴重的檢測性能下降以及漏檢等問題。
本研究提出了一種基于改進的YOLOv5模型的遙感圖像目標檢測算法,通過設計新的網(wǎng)絡結構和優(yōu)化策略來解決原始YOLOv5算法對遙感圖像特征提取不足,對復雜背景的適應性差,以及對小目標的檢測性能不佳等常見問題。并在遙感圖像目標檢測任務中取得了優(yōu)秀的性能。根據(jù)在RSOD數(shù)據(jù)集上進行的測試結果顯示,改進后的算法相比于原網(wǎng)絡的檢測效果在平均精度上提高了10.6%,達到了94.2%。
YOLOv5網(wǎng)絡結構分為輸入端、主干、頸部和頭部四部分。YOLOv5在輸入端采用了Mosaic數(shù)據(jù)增強,即將四張圖片進行隨機縮放、裁剪和排布并拼接在一起,可以大大豐富數(shù)據(jù)量較少的遙感圖像數(shù)據(jù)集,同時進一步提升對小目標的檢測性能。相較于YOLOv3[15]和YOLOv4[16]采用固定長寬比的錨框值,YOLOv5中可以根據(jù)不同的數(shù)據(jù)集特點,自適應計算所需錨框的大小尺寸。相較于最新的YOLOv7,YOLOv5的訓練和推理速度比YOLOv7快得多,并且具有較低的內(nèi)存占用,這使得YOLOv5在移動設備或資源受限的應用場景中更具優(yōu)勢。輸入網(wǎng)絡之前,原始圖片需要統(tǒng)一縮放到同一標準尺寸,YOLOv5采用自適應圖片縮放的方法,來為圖像添加最少量的黑邊,減少計算量并提升YOLOv5網(wǎng)絡的推理速度。除了在輸入端進行的優(yōu)化,YOLOv5基于YOLOv4網(wǎng)絡在主干網(wǎng)絡、頸部網(wǎng)絡和損失函數(shù)部分又做了進一步的改進與提升。圖1所示為YOLOv5的整體網(wǎng)絡結構。需要注意的是,YOLOv5的V6.0版本后網(wǎng)絡第一層的focus模塊替換成了的6*6的卷積層(conv),focus模塊原來的作用即為了實現(xiàn)無信息丟失的下采樣。兩個模塊的作用是等效的,但是更換為6*6的卷積層會使得當前利用GPU進行檢測網(wǎng)絡計算時更加高效,更適合實際工程環(huán)境下進行部署使用。
圖1 YOLOv5的整體網(wǎng)絡結構示意圖
YOLO系列目標檢測算法首先將圖像輸入到輸入端進行馬賽克(Mosaic)數(shù)據(jù)增強、自動拼接等預處理操作。同時將圖像分成若干個區(qū)域,在每個區(qū)域的中心,聚類生成一系列設定初始長寬比的錨框。隨后輸入到骨干網(wǎng)絡中,對圖像進行三次連續(xù)下采樣操作,生成三張不同分辨率的特征圖,并通過特征融合模塊對提取到的抽象語義信息和淺層特征信息進行重構與融合。進而,將特征融合模塊輸出的特征圖輸入到輸出端進行預測,包括類別分類和目標邊界框的回歸預測。最后與真實標簽框比較,計算差值來反向更新,進而迭代卷積神經(jīng)網(wǎng)絡參數(shù)。
本文提出的改進YOLOv5s的遙感圖像目標檢測算法(ConvN-sim-yolo)的整體框架結構如圖2所示。在骨干網(wǎng)絡方面,使用ConvNeXt取代Darknet53,提高捕獲全局信息的能力。由于遙感圖像存在云層陰影以及光照變化等不可抗因素的干擾,因此引入SimAM注意力機制,提高網(wǎng)絡抗干擾能力。此外,引入CFP捕獲全局長距離依賴關系以及遙感圖像的局部關鍵區(qū)域信息,提高了遙感圖像目標檢測的精度。
圖2 改進的YOLOv5的整體網(wǎng)絡結構示意圖
YOLOv5主干網(wǎng)絡依然沿襲使用YOLO系列常用的Darknet53網(wǎng)絡,其借鑒了ResNet卷積神經(jīng)網(wǎng)絡的設計思想。2020年以來,Transformer[17]網(wǎng)絡在各類圖像識別領域表現(xiàn)優(yōu)異,在圖像分類等任務中超越傳統(tǒng)卷積神經(jīng)網(wǎng)絡的性能。由于CNN網(wǎng)絡中卷積操作僅能實現(xiàn)局部信息的捕獲,全局信息的捕獲受網(wǎng)絡本身的結構限制無法實現(xiàn)。Transformer則可以通過其固有的自注意力機制提取圖像全局信息,擴大圖像的感受野,獲取更多的上下文信息,相較于CNN保留了更多空間信息。然而由于Transformer網(wǎng)絡不具備CNN網(wǎng)絡中的平移不變性、特征局部性等網(wǎng)絡特點,只有在擁有大規(guī)模數(shù)據(jù)集進行網(wǎng)絡訓練時才能使得網(wǎng)絡模型達到良好的檢測效果。結合RSOD數(shù)據(jù)集其遙感圖像數(shù)量少特點,設計使用基于Transformer風格的卷積神經(jīng)主干網(wǎng)絡——ConvNeXt。
ConvNeXt[18]作為一種純卷積網(wǎng)絡,基于ResNet50網(wǎng)絡,借鑒Transformer網(wǎng)絡的設計思想從宏觀設計,深度卷積,逆瓶頸化,大卷積核,微觀設計這五個方面改進所得,三者的結構對比如圖2所示。圖3(a)表示Swin Transformer模塊結構,圖3(b)為ResNet模塊,圖3(c)表示ConvNeXt模塊,其中d7×7表示7×7大小的深度卷積。
圖3 Swin Transformer、ResNet和ConvNeXt模塊結構對比示意圖
1)宏觀設計:首先改變階段(stage)計算比率,如將ResNet50中殘差塊堆疊次數(shù)比值由從(3,4,6,3)更改為(3,3,9,3)與Swin Transformer網(wǎng)絡中的堆疊比例相似。其次,ResNet50的“stem cell”層包含一個大小為7*7,步長(stride)為2的卷積層和一個最大池化層。參考Transformer網(wǎng)絡使用的“patchify(修補)”策略,使用大小為4*4,步長為4的“補丁”來替換ResNet50網(wǎng)絡中的“stem cell”層。
2)深度卷積:此處借鑒ResNeXt網(wǎng)絡中組卷積的思想,采用深度卷積替換ResNet50網(wǎng)絡中的傳統(tǒng)卷積層。深度卷積的操作與Swin Transformer網(wǎng)絡中自注意力機制的加權求和類似,僅進行空間信息的交互,可降低網(wǎng)絡的計算量FLOPs。同時將網(wǎng)絡寬度增加至與Swin Transformer相同的96通道數(shù)。
3)逆瓶頸化:ConvNeXt采用了MobileNetV2中設計的逆瓶頸結構,如圖4所示,與transformer模塊中MLP隱藏層是輸入層的4倍寬的結構類似,減少整體網(wǎng)絡的計算量FLOPs,避免了降采樣過程中小息肉特征信息的丟失,提升網(wǎng)絡性能。
圖4 ConvNext逆瓶頸化示意圖
4)大卷積核:當前大多數(shù)卷積神經(jīng)網(wǎng)絡采用堆疊多個3*3卷積核來替代一個大尺寸卷積,使得感受野大小受限。將上述深度卷積的卷積核尺寸從3*3調(diào)整到與Swin Transformer的自注意力模塊中l(wèi)ocal窗口大小相同的7*7,利用大尺寸卷積核來增大感受野,獲取更多的圖像信息。
5)微觀設計:基于Transformer網(wǎng)絡的設計,ConvNeXt替換ReLU激活函數(shù)為GeLU激活函數(shù),并減少了其數(shù)量。使用更少的正則化層,并將Batch Normalization(BN)正則化操作替換為Layer Normalization(LN),使得模型更加穩(wěn)定,減少梯度振蕩。ConvNeXt采用大小為2*2,步距為2的卷積進行空間下采樣,并在下采樣操作之前以及全局池化以后增加LN正則化操作以維持訓練的穩(wěn)定性。
為了降低云層陰影、光照變化等復雜環(huán)境對檢測任務的干擾,以提升網(wǎng)絡的抗干擾能力,本研究在ConvNext模塊中又增加了SimAM注意力機制。與現(xiàn)有常用的空間及通道注意力機制相比,SimAM可實現(xiàn)在不增加ConvNext主干網(wǎng)絡參數(shù)的同時推斷出特征圖3D注意力權值,以提升網(wǎng)絡性能。圖5(a)所示為ConvNext模塊結構,其由深度卷積(Deepwise conv)、層歸一化(Layer Norm)、普通卷積和GELU激活函數(shù)組成。本研究將SimAM注意力機制添加在ConvNeXt模塊中的深度卷積層之后,構成ConvN-Sim模塊,如圖5(b)所示。
圖5 SimAM注意力機制示意圖
該注意力機制采用神經(jīng)科學引導所得能量函數(shù)來計算注意力的權值,無須進行大量的工程性實驗,最小能量計算如公式(1)所示。
(1)
(2)
YOLOv5所采用的FPN(feature pyramid network)特征金字塔結構[19],提出了一種自頂向下的層間特征交互方法。它可以為不同尺寸的目標提供相應尺度的特征表示,并提供上下文信息,融合多尺度特征信息以實現(xiàn)不同尺度下對不同大小目標的預測,最終提升檢測網(wǎng)絡的識別性能。然而當前計算機視覺中的特征金字塔方法研究重點在于層間特征交互而忽略了一些層內(nèi)特征表示。由于卷積神經(jīng)網(wǎng)絡的固有特性,使得感受野大小受限,僅能捕獲局部的上下文信息。本研究中,我們提出采用全局顯式集中調(diào)節(jié)方案的集中特征金字塔(CFP,centralized feature pyramid),使用計算效率更高的輕量化多層感知機(MLP)來捕獲全局長距離依賴關系,并行學習視覺中心(EVC,explicit visual center)機制捕獲輸入遙感圖像的局部關鍵區(qū)域信息。同時,由于深層特征常具有淺層特征所不具備的視覺集中特征表示[20],為了提升層內(nèi)特征調(diào)節(jié)的計算效率,針對常用的視覺特征金字塔結構,提出一種效率更高的自頂向下的全局集中調(diào)節(jié)(GCR,global centralized regulation)方法,從深層特征獲取顯示視覺中心特征來優(yōu)化淺層特征,由此獲得全面而具有差異化的圖像特征表示。如圖6所示為YOLOv5添加CFP模塊(EVC+GCR)后的網(wǎng)絡結構。
圖6 集中特征金字塔結構示意圖
EVC的計算公式如式(3)所示。
X=cat(MLP(Xin);LVC(Xin))
(3)
其中:X為并行可學習視覺中心機制EVC的輸出,Xin為輸入,cat(·)表示沿通道維度拼接特征圖。MLP(Xin)和LVC(Xin)分別表示輕量化多層感知機MLP和可學習視覺中心機制的輸出特征。
輕量級MLP主要由深度卷積殘差模塊和通道MLP殘差塊組成,計算公式如下(4)和(5)所示。
(4)
(5)
LVC可學習視覺中心機制是帶有特定字典的編碼器,其計算過程如式(6)~(9)所示。
(6)
(7)
e表示整個圖像相對K個視覺碼字的完整信息。
Z=Xin?(δ(Conv1×1(e)))
(8)
Xin表示輸入特征,δ表示比例因子系數(shù),Z表示局部邊角區(qū)域特征,?表示通道乘法。
LVC(Xin)=Xin⊕Z
(9)
其中:⊕表示通道加法。
傳統(tǒng)的邊界框定位損失函數(shù)依賴于預測框與真實框之間的重疊面積、中心點距離等幾何因素,并未考慮目標真實框與目標預測框之間的方向這一要素,導致檢測網(wǎng)絡收斂效率低下。本研究使用了新的邊界框定位損失函數(shù)-SIoU loss[21],通過在損失函數(shù)中引入邊界框回歸之間的向量角度,與傳統(tǒng)損失函數(shù)方法(例如CIoU損失)相比,在網(wǎng)絡訓練階段可以實現(xiàn)更快的收斂,并在推理方面實現(xiàn)更優(yōu)越的準確性。SIoU loss計算公式如(10)~(13)所示。
(10)
(11)
Δ=∑t=x,y(1-e-(2-Λ)ρt)
(12)
Ω=∑t=w,h(1-e-ωt)θ
(13)
其中:Λ表示角度損失(Angle cost)函數(shù)、Δ為基于角度損失考慮下的距離損失(Distance cost)函數(shù),Ω表示形狀損失(Shape cost)代價函數(shù)。ρt表示預測框和真實框的中心點之間的距離。ωt表示預測框和真實框的寬度和高度的差異。θ表示調(diào)整形狀損失影響程度的參數(shù)。
非極大值抑制NMS常用于目標檢測網(wǎng)絡中,在網(wǎng)絡預測的最后過濾掉多余候選框,找到目標的最佳檢測位置。為了避免當前檢測框與得分最高的檢測框IoU大于閾值時,該檢測框被直接置零,造成相鄰兩個重疊的目標被漏檢的現(xiàn)象出現(xiàn),且同時能夠?qū)蚺c框之間的位置關系進行合理化的評估,本研究將NMS、Soft-NMS和SIoU結合,構建新的非極大值抑制方法Soft-SIoU-NMS。加權后的NMS能夠更好地解決在遙感圖像實時檢測過程中,相鄰檢測目標互相遮擋的檢測問題,提升目標檢測網(wǎng)絡的最終效果。Soft-SIoU-NMS的計算公式如下(14)和(15)所示。
(14)
f(SIoU(M,bi))=e-CIoU(M,bi )2/σ
(15)
其中:si表示當前檢測框的得分,bi表示目標預測框,Nt表示SIoU的閾值,M表示得分最高的檢測框,f(·)表示高斯衰減函數(shù),σ取值0.5。
本實驗深度學習框架為開源的PyTorch框架,PyTorch是一個開源的Python機器學習庫,是一個功能完備的框架,可用于構建深度學習模型,PyTorch版本為1.10.1。編程語言采用Python 3.9.13,硬件設備配置為Inter Core i7-7800X,使用的操作系統(tǒng)為Ubuntu 18.04.5,GPU為NVIDIA GeForce RTX 2080Ti,CUDA為10.2。
在訓練過程中,采用隨機梯度下降算法 (SGD,stochastic gradient descent)訓練 200 epoch。初始學習率設置為0.01,并采用步長衰減的策略來降低學習率,在每個epoch后,將學習率降低10%以避免模型在后期訓練過程中陷入局部最優(yōu)解。實驗表明此學習率在保證模型在初期快速收斂的同時,且不會造成梯度爆炸或消失。基于硬件配置和模型的復雜性綜合考慮,將批量大小(BatchSize)設置為32,工作線程數(shù)(num_workers)設置為8。在該設置環(huán)境下模型能夠在硬件上穩(wěn)定運行,同時獲得合理的訓練速度。研究發(fā)現(xiàn)該設置環(huán)境使得模型在遙感圖像目標檢測任務上達到最佳性能。
本文所使用的數(shù)據(jù)集為RSOD遙感數(shù)據(jù)集。該數(shù)據(jù)集于2015年由武漢大學發(fā)布用于遙感圖像目標檢測的標準數(shù)據(jù)集,共有976張圖片,6 950個實例,包括飛機446張圖片4 993個實例、油罐165張圖片1 586個實例、立交橋176張圖片180個實例和操場189張圖片191個實例。RSOD數(shù)據(jù)集是PASCAL VOC格式作為規(guī)范,為滿足yolo訓練的數(shù)據(jù)集格式,將PASCAL VOC格式轉(zhuǎn)為yolo格式。從中選取546張圖片作為訓練集,137張圖片作為驗證集,剩余的293張圖片作為測試集。
為了評估ConvN-Sim-YOLO網(wǎng)絡的遙感圖像目標檢測的性能,引入常用于深度學習測試網(wǎng)絡性能評價的六個重要指標,包含精確度(Precision)、召回率(Recall)、平均正確率(AP)和平均類別AP(mean Average Precision,mAP)。這五者計算如公式(16)~(19)所示。
(16)
精確度表示預測為陽性的樣本中真正為陽性樣本的比例。其中TP表示真陽性,即將陽性預測為陽性的數(shù)量;FP表示假陽性,即將陰性預測為陽性的數(shù)量。
(17)
召回率則表示預測正確的陽性樣本占全部陽性樣本的比例。式中TP表示真陽性,即將真陽性預測為陽性的數(shù)量;FN表示假陰性,即將真陽性預測為陰性的數(shù)量。
(18)
此平均正確率(AP)值的計算為11點計算方法,每個點處取該點右側(cè)最大精確率,然后結合召回率=[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],繪制出P-R曲線,并通過(19)公式相加求平均值。
(19)
其中:class_num代表類別總數(shù),本研究實驗取值為4,APj代表第j個類別的平均正確率。mAP表示各類別AP的均值,描述網(wǎng)絡對所有類別檢測的最終效果。mAP@0.5表示將IoU設置為0.5時,每一類圖片的AP值再求平均,mAP@0.5:0.95表示IoU在區(qū)間[0.5,0.95]內(nèi)取值,步距間隔0.05計算一個mAP值,再將這些mAP值總和求平均。
為驗證本文改進的ConvNeXt主干網(wǎng)絡、SimAM注意力機制、CFP結構、非極大值抑制方法(SIoU損失函數(shù)、NMS非極大值抑制)的有效性,進行消融實驗,評估各個改進模塊對本文檢測算法的影響。消融實驗以原始的YOLOv5s實驗結果作為基準,實驗數(shù)據(jù)如表1所示。
表1 消融實驗結果
由表1可知,原始YOLOv5在RSOD數(shù)據(jù)集上可獲得83.6%的精確度,84.5%的召回率以及83.6的mAP的結果,逐步增加改進的四個模塊后檢測各指標基本都有提升,表明各個模塊都有助于遙感圖像目標檢測任務,也驗證了優(yōu)化特征捕獲能力、特征表達能力和加強抗干擾能力的出發(fā)點的合理性。進一步,首先將YOLOv5的主干網(wǎng)絡Darknet53替換成ConvNeXt后精確度從83.6%提升至87.6%,召回率提升了5.3%以及mAP值提升了6.9,證明了改進后模型會捕獲更多的全局空間信息。其次引入SimAM注意力機制后精確度提高了0.5%,召回率略有所下降,mAP值提升1%,證明SimAM注意力機制提升網(wǎng)絡在檢測任務中的抗干擾能力。隨后引入CFP精確率和召回率進一步提升2.9%和3.6%,mAP值顯著提升至93.7%,證明網(wǎng)絡可獲取全局上下文信息。此外將原始的NMS替換為Soft-SIoU-NMS后精確度達到91.9%,召回率達92.5%,mAP值提升了0.5,證明此處改進,解決了目標互相遮擋的檢測問題。最后,當集成四個改進模塊時可將遙感圖像目標檢測的精確度提升至91.9%,召回率提升至92.5%,mAP提升至94.2,有效驗證了所提出的遙感圖像目標檢測方法的有效性。
為驗證本文提出的改進的YOLOv5目標檢測算法相比于其他主流算法具有更好的目標檢測能力,將提出的算法與現(xiàn)有主流算法進行對比實驗。選取六種模型包括典型的目標檢測模型如SSD、Faster-RCNN、YOLOv3等以及最近基于YOLOv5改進的Swin-YOLOv5s[9]進行對比實驗。實驗采用相同的遙感圖像數(shù)據(jù)集RSOD,實驗結果如表2所示。
表2 不同算法在RSOD數(shù)據(jù)集的檢測結果對比
由表2可知,改進的方法在RSOD取得了最優(yōu)的mAP值結果。與原始的YOLOv5s相比,雖然對于操場類別的準確率有所下降,但對于其他類別的準確率以及mAP值都有大幅度的提升。此外,與最近基于YOLOv5改進的Swin-YOLOv5s相比,本文改進方法mAP值達到94.2,Swin-YOLOv5s只有88.9。雖然,本文算法和其他算法相比,檢測操場目標的精度有所下降,但大部分類別的目標檢測精度都有所提高,總體來看本文提出的改進方法能夠有效提升遙感圖像中的目標檢測精度,在精度性能方面優(yōu)勢明顯。
本文對RSOD數(shù)據(jù)集上的測試結果進行了可視化展示,如圖7所示。圖7(a,b,c)為改進前基礎的yolov5網(wǎng)絡檢測效果,圖7(d,e,f)為本文提出的ConvN-sim-yolo網(wǎng)絡檢測效果。通過比較圖7(a)和圖7(d),檢測結果表明Conv-sim-yolo對于遙感圖像小目標的檢測具有更高的精度。進一步比較圖7(b)和圖(e),圖中有飛機處于陰暗或光照和陰暗交界處,而基礎的yolov5對于處于云層陰影和光照變化的飛機檢測效果并不好,而Conv-sim-yolo能夠很好的檢測此類飛機,展現(xiàn)出Conv-sim-yolo在抗干擾方面的優(yōu)越性。圖7(c)和圖7(f)的檢測結果表明,Conv-sim-yolo能夠察覺不易被發(fā)現(xiàn)的小目標,減少了漏檢率,進而提升了遙感圖像目標檢測的精度值。
針對遙感圖像目標檢測中存在云層陰影和光照變化干擾以及小目標漏檢的問題,本文提出了ConvN-sim-yolo算法。首先,使用基于Transformer風格的卷積神經(jīng)主干網(wǎng)絡--ConvNeXt,捕獲遙感圖像全局信息,充分提取遙感圖像豐富的特征。其次,為了應對云層陰影和光照變化的干擾,在ConvNext模塊中加入SimAM注意力機制,推斷特征圖的3D注意力權值,提高了網(wǎng)絡的穩(wěn)定性和抗干擾能力。同時提出采用全局顯式集中調(diào)節(jié)方案的集中特征金字塔(CFP,centralized feature pyramid),使用計算效率更高的輕量化多層感知機(MLP)來捕獲全局長距離依賴關系,并行學習視覺中心(EVC,explicit visual center)機制捕獲輸入遙感圖像圖像的局部關鍵區(qū)域信息,降低了漏檢的概率,展現(xiàn)了優(yōu)越的目標檢測的性能。最后經(jīng)過實驗對比,本文算法相比于原始的YOLOv5s,平均檢測準確率在RSOD數(shù)據(jù)集上提升了10.6%,由此表明本文算法在遙感圖像目標檢測領域上改善了小目標漏檢的問題,并對于更復雜的干擾環(huán)境依然具有良好的目標檢測性能。但是,改進的yolov5算法在目標檢測能力上還有一定的局限性,未來工作將繼續(xù)優(yōu)化網(wǎng)絡以提升算法的目標檢測能力。