沈凌云,郎百和,宋正勛,3,溫智滔
基于CSE-YOLOv5的遙感圖像目標檢測方法
沈凌云1,郎百和2,宋正勛2,3,溫智滔1
(1. 太原工業(yè)學院 電子工程系,山西 太原 030008;2. 長春理工大學 電子信息工程學院,吉林 長春 130022;3. 教育部學科創(chuàng)新引智基地(D17017),吉林 長春 130022)
針對復(fù)雜任務(wù)場景中,目標檢測存在的多尺度特征學習能力不足、檢測精度與模型參數(shù)量難以平衡的問題,提出一種基于CSE-YOLOv5(CBAM-SPPF-EIoU-YOLOv5,CSE-YOLOv5)模型的目標檢測方法。模型以YOLOv5主干網(wǎng)絡(luò)框架為基礎(chǔ),在淺層引入卷積塊注意力機制層,以提高模型細化特征提取能力并抑制冗余信息干擾。在深層設(shè)計了串行結(jié)構(gòu)空間金字塔快速池化層,改進了統(tǒng)計池化方法,實現(xiàn)了由淺入深地融合多尺度關(guān)鍵特征信息。此外,通過改進損失函數(shù)與優(yōu)化錨框機制,進一步增強多尺度特征學習能力。實驗結(jié)果顯示,CSE-YOLOv5系列模型在公開數(shù)據(jù)集RSOD、DIOR和DOTA上表現(xiàn)出良好的性能。mAP@0.5的平均值分別為96.8%、92.0%和71.0%,而mAP@0.5:0.95的平均值分別為87.0%、78.5%和61.9%。此外,該模型的推理速度滿足實時性要求。與YOLOv5系列模型相比,CSE-YOLOv5模型的性能顯著提升,并且在與其他主流模型的比較中展現(xiàn)出更好的檢測效果。
遙感圖像;目標檢測;注意力機制;金字塔快速池化;多尺度目標
目標檢測是遙感圖像自動分析與智能解譯的基礎(chǔ),主要目的在于從給定圖像中識別出預(yù)定義類別的目標,并精確回歸目標實例的定位,如水平邊框(Horizontal Bounding Box)或有向邊框(Oriented Bounding Box),這有助于實現(xiàn)多目標的快速準確分類或跟蹤[1]。
2012年,AlexNet網(wǎng)絡(luò)在ImageNet大規(guī)模圖像識別賽中展現(xiàn)出卓越的特征表達與分類能力,基于CNN(Convolutional Neural Network)的目標檢測方法開始受到學者關(guān)注。2014年Girshick[2]利用R-CNN(Region-based Convolutional Neural Network)生成目標候選區(qū)域(Region Proposals),再利用SVM(Support Vector Machines)對特征矢量分類并定位目標邊界。此后,基于CNN的數(shù)據(jù)處理因其出色的特征表達和泛化能力,逐漸成為遙感目標檢測研究領(lǐng)域的主要趨勢[3]。根據(jù)分類和回歸過程,基于CNN的目標檢測方法可劃分為兩類。第一類是基于目標候選區(qū)域(Region Proposal-Based)檢測方法,代表方法有R-CNN[4]。第二類是基于回歸(Regression-Based)的檢測方法,代表方法有SSD(Single Shot MultiBox Detector)[5]、RetinaNet[6]、YOLO(You Only Look Once)[7]、RefineDet[8]等。
提高目標檢測性能的改進措施主要有:針對小目標檢測,主要通過增大目標特征圖的尺度或加強特征融合。在深層網(wǎng)絡(luò)中采用上采樣方式,有效提高特征圖尺度[9]。將淺層的位置信息與深層的語義信息相結(jié)合,可增強特征融合能力[10]。此外,還有注意力機制與特征融合的方法[11]、特征嵌入[12]、特征遷移[13]等方法;針對多尺度目標檢測,改進途徑主要是加強多尺度信息融合。如跨層連接的特征金字塔網(wǎng)絡(luò)[14];基于自注意力機制的Transformer模型;集成卷積塊注意力機制等[15]。針對密集目標檢測,主要從特征增強與精確定位入手。如設(shè)計特征細化模塊避免特征錯位(Misalignment)[16];利用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network, PANet)集成不同層的特征圖,加強遙感小目標像素特征提取[17];設(shè)計無監(jiān)督得分的邊界框回歸(Bounding Box Regression, BBR)算法,結(jié)合非最大抑制算法優(yōu)化目標區(qū)域邊界框[18]。
YOLO系列算法在速度、精度、輕量化和擴展性等方面各具優(yōu)勢,因而在遙感目標檢測領(lǐng)域備受關(guān)注。為提高小目標或低分辨率目標、多尺度、密集遮擋等的檢測性能,主要方法有:改善主干網(wǎng)絡(luò)特征迭代以增強特征提取[19];融合注意力機制,突出目標特征權(quán)重[20];通過密集連接(Dense Connection)方式,增強層級之間的信息傳輸和共享,擴大特征的重用范圍[21]等;優(yōu)化錨框機制[22]、損失函數(shù)[23];利用自適應(yīng)剪枝壓縮算法提高推理速度[24];改進NMS(Non-Maximum Suppression)算法,優(yōu)化目標區(qū)域篩選[13,25]等。
受此啟發(fā),我們在具有較好綜合性能的YOLOv5基礎(chǔ)上提出了CSE-YOLOv5遙感圖像目標檢測方法。
CSE-YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,該模型的輸出特征尺寸分別為80×80、40×40和20×20。
圖1 CSE-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
1)針對YOLOv5主干網(wǎng)絡(luò)在目標特征信息提取方面的不足,將卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)應(yīng)用于主干網(wǎng)絡(luò)淺層,建立像素級的上下文信息關(guān)聯(lián),提取小目標或低分辨率目標特征,從而強化多尺度特征融合。
2)深層部分,設(shè)計一種串行結(jié)構(gòu)的空間金字塔快速池化(Spatial Pyramid Pooling-Fast, SPPF)層,用于融合不同分辨率的特征圖、在關(guān)鍵特征信息融合過程中減少參數(shù)量,提高推理速度。
3)改進損失函數(shù)與錨框機制,設(shè)計EIoU_loss(Efficient IoU Loss)為預(yù)測框位置回歸損失函數(shù)(Position Regression Loss)。
卷積注意力CBAM結(jié)構(gòu),如圖2(a)所示。分別從通道和空間兩個維度進行特征圖的注意力權(quán)值推斷,與初始特征圖進行自適應(yīng)細化,輸出結(jié)果為增強的自適應(yīng)細化特征圖[26]。通過注意力互補機制以提高多尺度特征表達,有利于遙感圖像小目標或低分辨率目標的檢測。
圖2 CSE-YOLOv5改進模塊細節(jié)
多尺度表征法(Multiscale Representation)在提高多尺度目標檢測性能方面具有顯著優(yōu)勢。針對遙感圖像目標分布特點,在主干網(wǎng)絡(luò)深層設(shè)計了串行結(jié)構(gòu)的SPPF。一方面,針對不同尺寸的特征圖,自適應(yīng)調(diào)整特征圖尺寸向量至固定值,避免圖像區(qū)域進行Resize操作引起的失真,降低計算成本。另一方面,通過融合不同分辨率的特征圖為一致特征圖向量,實現(xiàn)局部特征與全局特征融合。
為實現(xiàn)空間金字塔池化(Spatial Pyramid Pooling, SPP)的快速計算,設(shè)計串行空間金字塔池化結(jié)構(gòu),如圖2(b)所示。將前池化層的輸出作為后續(xù)池化層的輸入,可以減少重復(fù)操作次數(shù)并提高網(wǎng)絡(luò)效率。通過重復(fù)利用各層運算,有效避免冗余計算,從而將網(wǎng)絡(luò)計算專注于從輸入提取高級別特征。
池化方式上設(shè)計統(tǒng)計池化(Stochastic-Pooling)方式,通過平均池化(Average-Pooling)和最大池化(Max-Pooling)之間依概率選取元素,在平均情況下類似于平均池化,在局部信息的計算上遵循最大池化規(guī)則,可以避免過擬合。設(shè)特征f,其概率為:
式中:s為采樣窗。則依據(jù)概率進行統(tǒng)計抽樣,統(tǒng)計池化輸出為:
式中:m表示采樣窗口尺寸;f表示采樣特征值;表示依概率p隨機選擇的特征概率值。
基于回歸的目標檢測是對圖像中感興趣的目標進行預(yù)測,包括已知類別和預(yù)測框(Predicted Bounding Box)位置,CSE-YOLOv5使用3個尺寸的錨框來預(yù)測每個特征圖中的目標。由于遙感目標在全局呈稀疏分布,而在局部呈稠密分布的特性,根據(jù)統(tǒng)計獨立性原理,僅考慮目標空間點可能出現(xiàn)1~3個目標的情況,若輸入圖像網(wǎng)格中存在待測目標,與網(wǎng)格預(yù)測框匹配的錨框數(shù)量在3~9個之間。
增加正樣本量有助于縮短模型訓練時的收斂時間,錨框優(yōu)化原則為提高真實框(Ground Truth Box)位于一個或多個特征圖層所預(yù)測的有效正樣本數(shù)量。在訓練階段,采用形狀匹配原則,分別計算9種不同的錨框?qū)捀弑?,如公?3)所示。若錨框?qū)捀弑刃∮谠O(shè)定閾值anchor(RSOD數(shù)據(jù)集的最優(yōu)超參數(shù)值為4.0),如公式(4)所示,預(yù)測框視為正樣本;否則,將其作為無目標負樣本。
若真實框與3個不同尺寸的錨框都匹配,那么匹配的錨框均可生成預(yù)測框。此外,我們還進一步改進錨框機制,根據(jù)真實框的位置,將與預(yù)測框相鄰的網(wǎng)格(存在2~4個)作為預(yù)測網(wǎng)格,以增加正樣本數(shù)量,降低漏檢概率。
式中:p與p分別為預(yù)測框的寬與高;a與a分別為錨框的寬與高。
max<anchor=4.0 (4)
根據(jù)RSOD數(shù)據(jù)集目標框的統(tǒng)計特點,我們采用K-Means結(jié)合遺傳算法(Genetic Algorithm,GA)對錨框尺寸優(yōu)化。輸入圖像為640×640,將維空間的歐氏距離(Euclidean Distance)轉(zhuǎn)換為二維平面數(shù)組距離,優(yōu)化后獲得9組錨框,尺寸參數(shù)分配如表1所示。
表1 基于不同聚類算法的RSOD數(shù)據(jù)集錨框參數(shù)
當采樣率減小時,特征圖的相對尺度會增大,感受野變小。采用小尺寸錨框,預(yù)測小目標或低分辨率目標,從而提高檢測效果。反之,采樣率增大時,應(yīng)采用大尺寸錨框來預(yù)測大目標。
模型的損失函數(shù)設(shè)計包括:位置回歸損失函數(shù)、目標置信度損失函數(shù)與目標類別損失函數(shù)。
1.4.1 位置回歸損失函數(shù)
YOLOv5原模型采用CIoU_loss損失函數(shù),當兩個或多個預(yù)測框的中心點與真實框的中心點以一定概率重合,且寬高比相等時,位置損失函數(shù)將失效。
為了解決這個問題,將寬高比懲罰信息修改為寬、高邊長懲罰信息,并重新定義高效交并比損失函數(shù)EIoU_Loss,如公式(5)所示。函數(shù)返回值為box_loss,數(shù)值越小、預(yù)測回歸的準確性越高。
1.4.2 目標置信度損失函數(shù)與目標類別損失函數(shù)
利用二元交叉熵損失函數(shù)BCE With Logits Loss,可以分別計算目標置信度損失函數(shù)與目標類別損失函數(shù)。其中,目標置信度損失函數(shù)返回值為obj_loss,值越小表示目標檢測準確性越高,如公式(6)所示;目標類別損失函數(shù)返回值為cls_loss,其值越小意味著目標分類越準確,如公式(7)所示。
圖3 位置回歸損失函數(shù)的成本計算
式中:()=1/[1+exp(-)]為sigmoid函數(shù);表示樣本總數(shù),第樣本的類別表示為y,其預(yù)測概率表示為x。在模型測試階段,由于同一目標可能存在多個相似的預(yù)測框,為了獲得最佳的預(yù)測邊界框并防止因圖像中目標遮擋而導(dǎo)致漏檢,需要通過非極大抑制算法(NMS)過濾并篩選最佳預(yù)測框。
1.4.3 損失函數(shù)
損失函數(shù)由3部分組成:預(yù)測框位置回歸損失函數(shù)、目標置信度損失函數(shù)和目標類別損失函數(shù),計算分別如公式(5)、(6)、(7)所示,根據(jù)成本變化速率與損失值點梯度趨勢,經(jīng)大量實驗與調(diào)參,選擇優(yōu)化后的經(jīng)驗權(quán)重值分別為0.05、1.0和0.5,損失函數(shù)如公式(8)所示:
loss=0.05×box_loss+1.0×obj_loss+0.5×cls_loss(8)
優(yōu)化后的損失函數(shù)增強了多尺度特征學習能力,提高模型的訓練效果與檢測性能。
實驗檢測基準選擇,模型訓練與測試分別采用RSOD數(shù)據(jù)集[18],DIOR數(shù)據(jù)集與DOTA數(shù)據(jù)集(v1.5)。其中,RSOD數(shù)據(jù)集由4類標注目標Aircraft、Oiltank、Overpass、Playground組成,包含936張標注圖像與40張背景標注圖像,實驗將RSOD數(shù)據(jù)集按8:1:1比例隨機劃分為獨立的訓練集、驗證集以及測試集。
DIOR包含來自多種場景和視角的23463張圖像,涵蓋了20個不同的目標類別和190288個目標實例。隨機選取DIOR數(shù)據(jù)集圖像,其中訓練集2170張,驗證集和測試集各50張。
DOTA v1.5版本包含2806張遙感圖像,覆蓋了188種場景類別的16個目標類別與近40萬個目標(包括小于10個像素的小目標)。訓練集、驗證集和測試集的劃分比例為6:2:2,實驗需要將數(shù)據(jù)集的有向邊框標注數(shù)據(jù)格式轉(zhuǎn)化為水平邊框標注格式。
1)精確率(Precision,)
精確率定義為分類預(yù)測為正的樣本中實際為正的樣本比率。如公式(9)所示:
式中:TP(Ture Positive)為真正,即實際為正被分類預(yù)測為正的樣本數(shù)量。FP(False Positive)為假正,即實際為負卻被分類預(yù)測為正的樣本數(shù)量。
2)召回率(Recall,)
召回率定義為實際為正的樣本中被分類預(yù)測為正的樣本比率。如公式(10)表示:
式中,F(xiàn)N(False Negative)為假負,即實際為正卻被分類預(yù)測為負的樣本數(shù)量。
3)平均精度均值(mean Average Precision,mAP)
平均精度均值mAP表示各類目標的平均精度的算術(shù)平均值。如公式(11)所示:
式中:AP表示第類目標的平均分類精確率,其數(shù)值等于Precision-Recall函數(shù)與坐標軸所覆蓋的面積。對于多目標分類,各類別目標的分類精度AP用其平均值mAP表示。IoU參數(shù)閾值為0.5時的平均精度均值表示為mAP@0.5;IoU閾值分別取0.5、0.55、0.6…0.95時對應(yīng)的mAP值,再取平均值得到mAP@ 0.5:0.95。
實驗環(huán)境如表2所示。模型的訓練超參數(shù)設(shè)置如表3所示。
表2 實驗環(huán)境
表3 模型訓練超參數(shù)設(shè)置
訓練過程采用學習率衰減(Learning Rate Decay)方法,隨著訓練迭代輪次(epochs)的增加,學習率逐漸減小,令模型訓練過程更加穩(wěn)定。在最優(yōu)解處平穩(wěn)收斂,避免震蕩。圖4展示了CSE-YOLOv5s模型以及YOLOv3、YOLOv4、YOLOv5、YOLOv8和Faster R-CNN在訓練集和驗證集上隨著迭代(epochs)變化的損失函數(shù)曲線,計算如公式(8)所示。由圖可知,各損失函數(shù)的均值隨epoch次數(shù)而急劇減小。當訓練epoch接近200次時,損失函數(shù)的均值趨于收斂。隨著迭代輪次增加,Precision、Recall及mAP@0.5值迅速提升并逐漸趨近于穩(wěn)定值,如圖5所示。
為了比較原模型YOLOv5s和改進模型CSE-YOLOv5s在目標檢測方面的表現(xiàn),我們在同一組圖像上展示了兩種模型實驗結(jié)果的對比示意圖,如圖6所示。通過圖中可以明顯觀察到,相較于YOLOv5s模型,CSE-YOLOv5s模型在漏檢和誤檢方面都有顯著改善,從而大幅提高了對多尺度目標的檢測性能。
圖4 損失函數(shù)隨模型訓練迭代變化曲線圖(RSOD)
圖5 RSOD數(shù)據(jù)集上精確率、召回率及平均精度均值(mAP@0.5)的迭代變化曲線圖
為了驗證CBAM層、串行結(jié)構(gòu)SPPF層、損失函數(shù)EIoU(同時錨框機制優(yōu)化)對CSE-YOLOv5性能影響,我們在RSOD數(shù)據(jù)集上進行模型組合訓練與測試,結(jié)果如表4所示。當YOLOv5s增加CBAM層后,mAP@0.5提高了0.9%,RSOD測試集各目標類別的檢測平均精確率提高了1.1%,推理時間增加了0.1ms。說明增加CBAM層提高了模型的多尺度特征學習能力。YOLOv5s模型與YOLOv5s+CBAM模型在DIOR與DOTA測試集的可視化結(jié)果對比分別如圖7、圖8所示。
表4 消融實驗(RSOD)
圖8 YOLOv5s 與YOLOv5s+CBAM 在DOTA測試集目標檢測結(jié)果對比
當YOLOv5s模型改進串行結(jié)構(gòu)的SPPF層后,mAP@0.5提高了0.8%,推理時間減少了1.2ms;當YOLOv5s模型改進損失函數(shù)EIoU和優(yōu)化錨框機制后,mAP@0.5提高了1.4%,提高較為明顯,同時推理時間增加了0.1ms。
當同時改進CBAM、SPPF、EIoU與優(yōu)化錨框機制后,得到CSE-YOLOv5s。mAP@0.5提高了2.2%。推理時間僅增加了0.1ms。說明模型在多尺度遙感圖像目標檢測方面精度有明顯的性能提升,同時僅有輕微的推理時間增加。
消融實驗結(jié)果表明,增加CBAM層可以有效解決卷積迭代中細節(jié)特征丟失的問題,提高模型的多尺度特征學習能力。串行結(jié)構(gòu)的SPPF層通過降低關(guān)鍵特征信息融合時的參數(shù)數(shù)量,緩解了模型推理時間的增加。統(tǒng)計池化方式的使用有效避免了模型過擬合的問題。通過優(yōu)化錨框機制和損失函數(shù),可以解決固定錨框尺寸導(dǎo)致的自適應(yīng)能力不足,進一步提高目標檢測的有效性。
為了量化分析CSE-YOLOv5模型在不同場景下的檢測性能,在公開數(shù)據(jù)集RSOD、DIOR與DOTA上,我們將CSE-YOLOv5系列模型與主流目標檢測模型進行了訓練和測試對比實驗。實驗結(jié)果見表5。
在數(shù)據(jù)集RSOD上的結(jié)果表明,相對于YOLOv5不同尺寸系列模型YOLOv5-nsmlx,CSE-YOLOv5系列模型的mAP@0.5分別提高了2.6%、2.2%、1.2%、0.6%和0.6%,平均提高了1.5%,達到平均值96.8%。mAP@0.5:0.95分別提高了0.7%、0.7%、0.6%、0.4%和0.4%,平均提高了0.56%,達到平均值87.0%。平均推理時間仍能達到21.68ms(即46fps),雖然略有犧牲,能夠滿足實時性目標檢測需求。相較于Faster R-CNN、YOLOv3、YOLOv4和YOLOv8,CSE-YOLOv5模型在檢測精度方面同樣有了顯著提升。其中,CSE-YOLOv5s模型的推理時間為6.9ms,雖然略遜于YOLOv8s模型的推理時間6.1ms,但mAP@0.5達到97.5%,高于YOLOv8s模型的93.3%。
在數(shù)據(jù)集DIOR與DOTA上的結(jié)果表明,CSE-YOLOv5系列模型在多尺度遙感圖像目標檢測方面表現(xiàn)優(yōu)異,mAP@0.5分別達到平均值92.0%與71.0%,mAP@0.5:0.95分別達到平均值78.5%與61.9%。
表5中對比結(jié)果顯示,CSE-YOLOv5系列模型通過自適應(yīng)調(diào)整注意力權(quán)重來細化特征提取,強化多尺度特征融合,有效改善小目標或低分辨率目標的檢測,檢測精度得到了明顯的提升。CSE-YOLOv5模型在RSOD、DIOR與DOTA數(shù)據(jù)集上目標檢測結(jié)果如圖9所示。
針對遙感圖像卷積后多尺度特征學習能力弱、檢測精度與模型參數(shù)數(shù)量相互制約等問題,在YOLOv5不同尺寸系列模型YOLOv5-nsmlx的基礎(chǔ)上,提出了改進的CSE-YOLOv5系列模型,通過增加卷積塊注意力機制,強化細化特征提取并抑制冗余信息干擾,設(shè)計了串行結(jié)構(gòu)空間金字塔快速池化層,優(yōu)化錨框機制,改進損失函數(shù),增強多尺度特征學習與融合能力。在滿足推理的實時性要求下,顯著提高了模型的檢測精度。實驗結(jié)果驗證了CSE-YOLOv5模型在遙感圖像目標實時檢測應(yīng)用中具備較強的性能優(yōu)勢。
[1] WANG K, LI Z, SU A, et al. Oriented object detection in optical remote sensing images: a survey[J/OL]., 2023,https://arxiv.org/ abs/2302.10473.
[2] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.
[3] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks[J]., 2017, 60(6): 84-90.
[4] Girshick R. Fast R-CNN[C]//(ICCV), 2015: 1440-1448.
[5] LIU Wei, Dragomir Anguelov, Dumitru Erhan, et al. SSD: single shot multibox detector[J/OL]., 2015, https://arxiv.org/ abs/1512.02325.
[6] LIN Tsungyi, Goyal Priya, Girshick Ross, et al. Focal loss for dense object detection[J]., 2020, 42(2): 318-327.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//(CVPR), 2016: 779-788.
[8] ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection[C]//, 2018: 4203-4212, Doi: 10.1109/CVPR.2018.00442.
[9] CHEN H B, JIANG S, HE G, et al. TEANS: A target enhancement and attenuated no maximum suppression object detector for remote sensing images[J]., 2020, 18(4): 632-636.
[10] HOU L, LU K, XUE J, et al. Cascade detector with feature fusion for arbitrary-oriented objects in remote sensing images[C]//(ICME), 2020: 1-6. Doi: 10.1109/ICME46284.2020.9102807.
[11] LU X, JI J, XING Z, et al. Attention and feature fusion SSD for remote sensing object detection[J]., 2021, 70: 1-9.
[12] LI Q, MOU L, LIU Q, et al. HSF-Net: multiscale deep feature embedding for ship detection in optical remote sensing imagery[J/OL]., 2018, 56(12): 7147-7161.
[13] DONG R C, XU D Z, ZHAO J, et al. Sig-NMS-based faster R-CNN combining transfer learning for small target detection in VHR optical remote sensing imagery[J]., 2019, 57(11): 8534-8545.
[14] LI C, LUO B, HONG H, et al. Object detection based on global-local saliency constraint in aerial images[J/OL]., 2020, 12(9): 1435, https://doi.org/10.3390/rs12091435.
[15] ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021(ICCVW), 2021: 2778-2788.
[16] YANG X, YAN J, FENG Z, et al. R3Det: Refined single-stage detector with feature refinement for rotating object[C]//, 2022: 3163-3171.
[17] QING Y, LIU W, FENG L, et al. Improved YOLO network for free-angle remote sensing target detection[J]., 2021, 13(11): 2171.
[18] LONG Y, GONG Y, XIAO Z, et al. Accurate object localization in remote sensing images based on convolutional neural networks[J]., 2017, 55(5): 2486-2498.
[19] XU D, WU Y. FE-YOLO: A feature enhancement network for remote sensing target detection[J]., 2021, 13(7): 1311.
[20] CHEN L, SHI W, DENG D. Improved YOLOv3 based on attention mechanism for fast and accurate ship detection in optical remote sensing images[J]., 2021, 13(4): 660.
[21] XU D, WU Y. Improved YOLO-V3 with DenseNet for multi-scale remote sensing target detection[J]., 2020, 20(15): 4276.
[22] 趙玉卿, 賈金露, 公維軍, 等. 基于pro-YOLOv4的多尺度航拍圖像目標檢測算法[J]. 計算機應(yīng)用研究, 2021, 38(11): 3466-3471. ZHAO Y Q, JIA J L, GONG W J, et al. Multi-scale aerial image target detection algorithm based on pro-YOLOv4[J]., 2021, 38(11): 3466-3471.
[23] Gevorgyan Z. SIoU Loss: more powerful learning for bounding box regression[J/OL]., 2022,https://arxiv.org/abs/ 2205.12740.
[24] 王建軍, 魏江, 梅少輝, 等. 面向遙感圖像小目標檢測的改進YOLOv3算法[J]. 計算機工程與應(yīng)用, 2021, 57(20): 133-141. WANG J J, WEI J, MEI S H, et al. Improved Yolov3 for small object detection in remote sensing image[J]., 2021, 57(20): 133-141.
[25] XU Z, XU X, WANG L, et al. Deformable ConvNet with aspect ratio constrained NMS for object detection in remote sensing imagery[J]., 2017, 9(12): 1312.
[26] Sanghyun Woo, Jongchan Park, Joon-Young Lee, et al. CBAM: convolutional block attention module[J/OL]., 2018, https://arxiv.org/abs/1807.06521.
Remote Sensing Image Target Detection Method Based on CSE-YOLOv5
SHEN Lingyun1,LANG Baihe2,SONG Zhengxun2,3,WEN Zhitao1
(1. Department of Electronic Engineering, Taiyuan Institute of Technology, Taiyuan 030008, China; 2. Sch. of Elec. and Info. Engineering, Changchun University of Science and Technology, Changchun 130022, China;3. Overseas Expertise Introduction Project for Discipline Innovation D17017, Changchun 130022, China)
We proposed a new object detection method based on the CSE-YOLOv5 (CBAM-SPPF-EIoU-YOLOv5) model for insufficient multi-scale feature learning ability and the difficulty of balancing detection accuracy and model parameter quantity in remote sensing image object detection algorithms in complex task scenarios. We built this method on the YOLOv5 model's backbone network framework and introduced a convolutional attention mechanism layer into the shallow layers to enhance the model's ability to extract refined features and suppress redundant information interference. In the deep layers, we constructed a spatial pyramid pooling fast (SPPF) with a tandem construction module and improved the statistical pooling method to fuse multi-scale key feature information from shallow to deep. In addition, we further enhanced the multi-scale feature learning ability by optimizing the anchor box mechanism and improving the loss function. The experimental results demonstrated the superior performance of the CSE-YOLOv5 series models on the publicly available datasets RSOD, DIOR, and DOTA. The average mean precisions (mAP@0.5) were 96.8%, 92.0%, and 71.0% for RSOD, DIOR, and DOTA, respectively. Furthermore, the average mAP@0.5:0.95 at a wider IoU range of 0.5 to 0.95 achieved 87.0%, 78.5%, and 61.9% on the same datasets. The inference speed of the model satisfied the real-time requirements. Compared to the YOLOv5 series models, the CSE-YOLOv5 model exhibited significant performance enhancements and surpassed other mainstream models in object detection.
remote sensing images, target detection, attention mechanism, spatial pyramid pooling-fast, multi-scale target
TP391
A
1001-8891(2023)11-1187-11
2023-06-07;
2023-08-07.
沈凌云(1979-),女,工學博士,副教授,主要從事機器視覺與智能信息處理方向研究。E-mail:shenshly@163.com。
山西省引進人才科技創(chuàng)新啟動基金(21010123);山西省高等院校大學生創(chuàng)新項目(S202314101195);吉林省科技發(fā)展計劃基金(YDZJ202102CXJD007)。