摘" 要: 針對(duì)遙感目標(biāo)背景復(fù)雜、易受外界環(huán)境干擾,傳統(tǒng)方法無法滿足復(fù)雜場景下的檢測高精度與實(shí)時(shí)性要求的問題,提出基于改進(jìn)RRPN模型的遙感圖像目標(biāo)檢測方法。首先,將特征金字塔(FPN)架構(gòu)引入到了模型的殘差網(wǎng)絡(luò)中,使得遙感圖像的高、低層特征得到了有效融合;其次,在特征提取網(wǎng)絡(luò)中添加了通道和空間相融合的注意力機(jī)制(CBAM),提升了模型在遙感圖像目標(biāo)特征提取方面的跨通道和空間處理能力;此外,將剔除重疊建議框時(shí)的原始NMS算法優(yōu)化為DIoU?NMS算法,綜合考慮遙感圖像候選框之間的重疊度、距離、尺度大小等因素,使目標(biāo)框的回歸過程更加穩(wěn)定。對(duì)比實(shí)驗(yàn)與消融實(shí)驗(yàn)顯示,所提方法在公共數(shù)據(jù)集DOTA和HRSC2016上獲得的平均精度均值mAP分別可高達(dá)77.30%、90.24%,較原始RRPN模型分別提高了8.29%、11.16%,且優(yōu)于其他幾種較新的經(jīng)典模型,表明所提方法對(duì)于復(fù)雜環(huán)境下的遙感圖像目標(biāo)檢測是合理且有效的。
關(guān)鍵詞: 目標(biāo)檢測; 遙感圖像; 帶旋轉(zhuǎn)的候選框算法; 卷積通道注意力模塊; DIoU?NMS; 特征金字塔; DOTA;HRSC2016數(shù)據(jù)集
中圖分類號(hào): TN911.73?34; TP391.4" " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2025)01?0008?09
Remote sensing image object detection based on improved RRPN model
LU Xiaobo, GUO Yanguang, XIN Chunhua
(Department of Computer Technology and Information Management, Inner Mongolia Agricultural University, Baotou 010010, China)
Abstract: The background of the remote sensing object is complex. In addition, the remote sensing object is susceptible to external environment, so the traditional methods fail to meet the requirements of high precision and real?time detection in complex scenes. In view of this, the paper proposes a remote sensing image object detection method based on the improved RRPN model. The framework of feature pyramid network (FPN) is introduced into the residual network of the model, which enabled the effective fusion of high? and low?level features of remote sensing images. The convolutional block attention mechanism (CBAM) combining channel and space is incorporated into the feature extraction network, so as to improve the cross?channel and spatial processing capability of the model in the feature extraction of remote sensing image object. In addition, the original NMS (non?maximum suppression) algorithm is optimized into DIoU?NMS algorithm for eliminating overlapping object frames, and the overlap, distance, scale and other factors among the candidate frames of remote sensing images are taken into account comprehensively, so as to make the regression of object frames more stable. In the comparative and ablation experiments, it is shown that the proposed method achieves mAP (mean average precision) of 77.30% and 90.24% on the public datasets DOTA and HRSC2016, respectively, which are 8.29% and 11.16% higher than that of the original RRPN (rotation region proposal network) model, and it is better than that of the other advanced classical models. This indicates that the proposed method is reasonable and effective for the object detection of remote sensing images in complex environments.
Keywords: object detection; remote sensing image; RRPN; CBAM; DIoU?NMS; FPN; DOTA; HRSC2016 dataset
0" 引" 言
近年來,隨著遙感技術(shù)在諸多領(lǐng)域的蓬勃發(fā)展,高分辨率光學(xué)遙感圖像憑借其分布面積大、范圍廣等特點(diǎn),受到國內(nèi)外研究專家的廣泛關(guān)注[1]。遙感圖像目標(biāo)檢測[2?3]作為其中的關(guān)鍵性任務(wù),檢測性能的優(yōu)劣對(duì)于船舶等的動(dòng)態(tài)監(jiān)測、交通秩序的監(jiān)測與管理、城市建筑物的規(guī)劃等工作造成了直接影響。此外,由于遙感圖像自身具有目標(biāo)方向不確定、排列密集、尺度不一等特點(diǎn),這為復(fù)雜場景下的遙感圖像檢測工作帶來了挑戰(zhàn)。
在遙感目標(biāo)圖像檢測的過程中,雖然傳統(tǒng)的圖像處理技術(shù)在特定條件下能順利實(shí)現(xiàn)遙感目標(biāo)圖像的檢測任務(wù),但是該方法在圖像的特征提取過程中需依靠人工輔助完成相關(guān)工作,過程耗時(shí)耗力,導(dǎo)致復(fù)雜場景中遙感目標(biāo)圖像檢測的效率以及精度都較低。此外,由人工設(shè)計(jì)的特征信息對(duì)于變化明顯的遙感圖像具有較差的魯棒性,也對(duì)檢測性能造成了不良影響。基于深度學(xué)習(xí)的相關(guān)方法具有兩種類型:單階段目標(biāo)檢測算法,如單發(fā)對(duì)齊網(wǎng)絡(luò)(Single?shot Alignment Network, S2ANet)[4]、精細(xì)化單級(jí)檢測器(Refined Single?Stage Detector, RSDet)[5]、 精細(xì)化旋轉(zhuǎn)視網(wǎng)膜網(wǎng)絡(luò)檢測器(Refined Rotated RetinaNet Detector, R3Det)[6]等;雙階段目標(biāo)檢測算法,如快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region?based Convolutional Neural Network, Faster RCNN)、帶旋轉(zhuǎn)的候選框算法 (Rotation Region Proposal Network, RRPN)[5]等。單階段目標(biāo)檢測模型中,S2ANet模型通過特征對(duì)齊模塊和旋轉(zhuǎn)檢測模塊,使得模型的網(wǎng)絡(luò)實(shí)現(xiàn)全特征對(duì)齊,緩解了模型的邊界框分類與回歸的不一致性現(xiàn)象;RSDet模型是于2021年提出的旋轉(zhuǎn)靈敏度檢測網(wǎng)絡(luò),通過設(shè)計(jì)一種新的調(diào)制旋轉(zhuǎn)損失,使得模型在分類與回歸過程中產(chǎn)生的旋轉(zhuǎn)靈敏度誤差得到有效緩解;R3Det模型則是由上海交大團(tuán)隊(duì)于2021年提出的旋轉(zhuǎn)目標(biāo)檢測網(wǎng)絡(luò),通過設(shè)計(jì)特征精煉模塊增強(qiáng)對(duì)旋轉(zhuǎn)目標(biāo)的特征提取能力;雙階段目標(biāo)檢測模型中,F(xiàn)aster RCNN 是由Ross Girshick等人于2016年提出的端到端模型,通過構(gòu)建區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)實(shí)現(xiàn)對(duì)候選建議框的選取,但該模型只能生成水平建議框,不利于旋轉(zhuǎn)目標(biāo)的檢測任務(wù)[7]。針對(duì)此現(xiàn)象,文獻(xiàn)[8]在Faster RCNN的基礎(chǔ)上提出了基于不定向候選框的檢測模型,通過設(shè)計(jì)RRPN,并且對(duì)交并比(Intersection over Union, IoU)、非最大值抑制 (Non?maximum Suppression, NMS)、感興趣區(qū)域(Region of Interest, ROI)池化等算法進(jìn)行重構(gòu),成功實(shí)現(xiàn)了復(fù)雜條件下對(duì)旋轉(zhuǎn)目標(biāo)的檢測。然而,以上算法對(duì)于簡單場景中的遙感圖像目標(biāo)檢測具有較高的精準(zhǔn)性,在復(fù)雜背景下的遙感圖像小目標(biāo)檢測方面仍具有較大的改進(jìn)空間。
在國外,文獻(xiàn)[9]為了提高遙感圖像的融合性能,提出了一種新型的多級(jí)協(xié)同圖像分解算法,通過對(duì)輸入進(jìn)網(wǎng)絡(luò)的高、低層的圖像進(jìn)行分解,并且使用加權(quán)融合、平均融合策略對(duì)遙感圖像的特征信息進(jìn)行高效的融合,實(shí)現(xiàn)遙感目標(biāo)圖像的高精度檢測。文獻(xiàn)[10]針對(duì)遙感圖像的檢測難點(diǎn),提出了一種基于遙感知識(shí)圖譜引導(dǎo)的深度配準(zhǔn)網(wǎng)絡(luò),通過在視覺特征和語義表征之間進(jìn)行穩(wěn)健的跨模式配準(zhǔn),有效地解決了零距離拍攝的遙感圖像場景分類問題。文獻(xiàn)[11]針對(duì)遙感圖像檢測系統(tǒng)存在的整體設(shè)計(jì)和研究等方面的不足,提出了一個(gè)基于深度學(xué)習(xí)的“數(shù)據(jù)輸入?網(wǎng)絡(luò)設(shè)計(jì)?模型訓(xùn)練?測試時(shí)間增強(qiáng)”的端到端遙感圖像檢測框架,簡化了遙感目標(biāo)圖像檢測的流程。但由于正負(fù)樣本不平衡,該方法仍存在部分漏檢的遙感目標(biāo)圖像。在國內(nèi),文獻(xiàn)[12]在經(jīng)典的目標(biāo)檢測模型Faster RCNN基礎(chǔ)上,從模型的特征融合與增強(qiáng)、旋轉(zhuǎn)候選框質(zhì)量的提高等方面進(jìn)行優(yōu)化,但由于遙感圖像的某些樣本數(shù)量較少,導(dǎo)致對(duì)該類別的檢測精度較低;文獻(xiàn)[13]通過在特征提取網(wǎng)絡(luò)中添加通道注意力模塊ECA?NET,使得模型的特征信息得以加強(qiáng),但對(duì)于實(shí)際場景中的精準(zhǔn)識(shí)別具有一定的距離;文獻(xiàn)[14]采用SSD作為模型的主干網(wǎng)絡(luò),通過引入融合特征圖金字塔,將淺層特征圖位置信息與深層特征圖語義信息進(jìn)行融合,提出了改進(jìn)后的SSD遙感圖像目標(biāo)檢測算法,但對(duì)于跨通道和空間的特征提取能力有待提升。為了解決跨通道問題,文獻(xiàn)[15]使用通道拼接方式融合不同深度的特征圖,提出了一種利用特征注意力金字塔的方法,一定程度上提升了遙感圖像目標(biāo)檢測精度,但對(duì)于密集遙感圖像場景下的目標(biāo)檢測能力仍需進(jìn)一步提高。綜上所述,如何進(jìn)一步提升基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測精度,從而更加有利于應(yīng)用到實(shí)際場景中,是該領(lǐng)域內(nèi)需要開展的一項(xiàng)重要探究。
基于以上分析,在確保不降低檢測效率的前提下,為了更好地實(shí)現(xiàn)遙感圖像目標(biāo)的高精度檢測,本文提出了基于改進(jìn)RRPN模型(FCDI?RRPN)的遙感圖像目標(biāo)檢測方法,主要的創(chuàng)新點(diǎn)如下。
1) 在模型的殘差架構(gòu)中引入多尺度的特征金字塔(Feature Pyramid Network, FPN)[15]架構(gòu),對(duì)遙感圖像的高層信息進(jìn)行保留的同時(shí)也避免了低層特征信息的丟失,有利于多尺度遙感圖像目標(biāo)的檢測。
2) 在模型的特征提取過程中,添加通道和空間相融合的混合注意力機(jī)制(Convolutional Block Attention Module, CBAM)[16],增強(qiáng)了模型跨通道和空間對(duì)遙感圖像目標(biāo)進(jìn)行特征提取的能力。
3) 在模型的后處理過程中,將剔除重疊目標(biāo)框時(shí)的原始NMS[17]算法優(yōu)化為距離交并比非最大值抑制(Distance?IoU Non?maximum Suppression, DIoU?NMS)[18]算法,綜合考慮遙感目標(biāo)圖像候選框之間的重疊度、距離、尺度等因素,可以更好地學(xué)習(xí)檢測框信息,從而有效降低密集分布遙感圖像場景中的漏檢和誤檢。
通過在DOTA數(shù)據(jù)集和HRSC2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較于原始RRPN模型,提出的FCDI?RRPN模型在檢測精度方面具有明顯優(yōu)勢(shì),IoU為0.50時(shí)[19]的平均精度均值(mean Average Precision, mAP)達(dá)到了77.30%、90.24%,表明提出的FCDI?RRPN模型對(duì)于實(shí)際場景中的遙感圖像目標(biāo)檢測是合理且有效的。
1" RRPN模型介紹及分析
1.1" RRPN模型總體流程
由于RRPN模型是基于經(jīng)典的兩階段目標(biāo)檢測模型Faster RCNN[20]基礎(chǔ)上進(jìn)行優(yōu)化后的模型,具備較高的檢測效率,對(duì)于復(fù)雜場景下的多尺度遙感圖像,RRPN模型通過可旋轉(zhuǎn)的候選區(qū)域網(wǎng)絡(luò)能夠?qū)崿F(xiàn)精準(zhǔn)的目標(biāo)檢測[8]。因此,使用RRPN作為基線模型,在此基礎(chǔ)上開展深入探究與分析。
基于RRPN模型的遙感圖像目標(biāo)檢測流程圖見圖1。
由圖1可以看出,RRPN模型首先對(duì)輸入至網(wǎng)絡(luò)的圖像進(jìn)行尺寸縮放等預(yù)處理操作;其次將經(jīng)過預(yù)處理后的圖像輸入至模型的特征提取網(wǎng)絡(luò)中;接著將上步驟生成的特征圖輸入到可旋轉(zhuǎn)的RRPN網(wǎng)絡(luò)中,生成對(duì)應(yīng)的旋轉(zhuǎn)建議框,經(jīng)RRPN網(wǎng)絡(luò)輸出的分類層和回歸層會(huì)產(chǎn)生相應(yīng)的損失,將兩層損失疊加則形成模型的多任務(wù)損失函數(shù);再經(jīng)旋轉(zhuǎn)RoI (Rotation Region of Interest, RRoI)層化層將得到的任意方向的遙感目標(biāo)圖像建議框投射到特征圖上;最后通過由兩個(gè)全連接層組成的分類器判定遙感圖像的類型,經(jīng)回歸器獲取遙感圖像的最終位置坐標(biāo)。
1.2" 多任務(wù)損失函數(shù)
基于RRPN模型的損失函數(shù)采用多任務(wù)損失的形式,由于模型的真值框角度[θgt]位于對(duì)稱區(qū)間[-π4,π4],因此使用真值框角度作為目標(biāo)來訓(xùn)練角度分支。模型的多任務(wù)損失函數(shù)為:
[L=λN(x,y)Lctr(c,c*gt)+1Npos(x,y)c*gtLdist(t,t*gt)+1Npos(x,y)c*gtLangle(θ,θgt)] (1)
式中:[Lctr]表示交叉熵?fù)p失函數(shù);[Ldist]和[Langle]表示smooth [L1]損失函數(shù);[N]表示特征圖上所有點(diǎn)的數(shù)量;[Npos]則是正點(diǎn)的數(shù)量;[c*gt]表示通過區(qū)域分配方案得到的點(diǎn)標(biāo)簽,當(dāng)點(diǎn)標(biāo)簽為正時(shí),[c*gt]為1,否則為0。
2" FCDI?RRPN模型
為了驗(yàn)證復(fù)雜場景下的遙感圖像目標(biāo)檢測產(chǎn)生的實(shí)際效果,提出了FCDI?RRPN模型。首先,ResNet50作為骨干網(wǎng)絡(luò)提取輸入圖像的特征。ResNet50的前四個(gè)階段生成的特征圖具有不同尺度和語義層次,這些特征圖將成為FPN的輸入,作為不同金字塔層的代表特征。然后,在FPN中,低分辨率特征圖通過上采樣與高分辨率特征圖相融合,生成具有多尺度信息的特征金字塔。最后,對(duì)于FPN每個(gè)特征金字塔提取的特征,添加CBAM注意力模塊,同時(shí)計(jì)算通道注意力和空間注意力,使模型可以更有效地關(guān)注重要的特征。此外,在對(duì)遙感圖像的后處理過程中,采用DIoU?NMS優(yōu)化算法代替模型的原始NMS算法,同時(shí)考慮了遙感圖像候選框的重疊區(qū)域和候選框之間的中心距離,實(shí)現(xiàn)對(duì)遙感目標(biāo)候選框的精準(zhǔn)剔除。FCDI?RRPN模型的遙感圖像目標(biāo)檢測流程圖如圖2所示。
如圖2所示,F(xiàn)CDI?RRPN模型首先對(duì)輸入的遙感圖像進(jìn)行預(yù)處理操作;其次通過添加特征金字塔的ResNet50+FPN網(wǎng)絡(luò),結(jié)合CBAM混合卷積注意力模塊,加強(qiáng)對(duì)預(yù)處理后的遙感圖像的特征提取能力;接著將生成的特征圖送入RRPN網(wǎng)絡(luò)中,通過分類與回歸、DIoU?NMS優(yōu)化策略對(duì)遙感圖像的冗余框進(jìn)行剔除;最后經(jīng)過RRoI池化、分類與回歸等操作,實(shí)現(xiàn)對(duì)遙感圖像的背景區(qū)域、目標(biāo)區(qū)域、目標(biāo)類型的判定,并且獲得遙感目標(biāo)圖像的最終位置坐標(biāo)。
2.1" 特征金字塔網(wǎng)絡(luò)
特征金字塔網(wǎng)絡(luò)(FPN)架構(gòu)由一個(gè)自底向上的鏈路與一個(gè)自頂向下的鏈路經(jīng)橫向連接而成,其主要功能是將各個(gè)特征層中的圖像信息進(jìn)行融合后輸出[21]。圖3展示了FPN的基本組成架構(gòu)。左側(cè)顯示了圖像的下采樣階段,在該分支中,輸入圖像經(jīng)過ResNet50提取特征后,生成相應(yīng)的特征圖[C2]~[C4]。這些特征圖的尺寸逐漸減小,而維度則逐漸增加。右側(cè)則展示了上采樣階段的過程,其中低分辨率的特征圖被上采樣至與相鄰層高分辨率特征圖相同的尺寸,然后兩個(gè)特征圖進(jìn)行元素級(jí)別的相加,從而獲得用于檢測的融合特征圖[P2]~[P4]。
將FPN架構(gòu)與模型的特征提取網(wǎng)絡(luò)ResNet50進(jìn)行有效結(jié)合,使得來自不同層的遙感目標(biāo)特征圖經(jīng)過融合后能實(shí)現(xiàn)多尺度的遙感圖像檢測,明顯增強(qiáng)了遙感圖像目標(biāo)的檢測效果。
2.2" CBAM注意力模塊
CBAM是一種應(yīng)用于前饋卷積神經(jīng)網(wǎng)絡(luò)的注意力模塊[22]。該模塊由基于通道的卷積模塊(Channel Attention Module, CAM)與基于空間的卷積模塊(Spatial Attention Module, SAM)相結(jié)合而成,通過將特征圖的通道和空間信息有效融合后進(jìn)行多方位卷積處理,使得網(wǎng)絡(luò)對(duì)于特征圖中的有效特征信息的提取能力得以增強(qiáng)[23]。圖4所示為CBAM卷積模塊的組成架構(gòu)。
SAM模塊首先對(duì)輸入的特征圖分別進(jìn)行全局最大池化、平均池化,將其送入感知機(jī)(Multilayer Perceptron, MLP)[24]中得到兩個(gè)尺寸相同的單通道特征圖;再分別對(duì)輸出的特征進(jìn)行加和操作,經(jīng)Sigmoid激活函數(shù),生成最終的遙感目標(biāo)圖像通道注意力特征圖。式(2)為SAM模塊的計(jì)算過程。
[McF=σConvFcavg+ConvFcmax] (2)
式中:[σ]表示Sigmoid激活函數(shù);[Fc]表示通道方向的特征向量;[Fcavg]表示經(jīng)過平均池化的特征向量;[Fcmax]表示經(jīng)過最大值池化的特征向量;[Conv]是尺度為[1×1]的卷積核。
CAM模塊的輸入特征圖由SAM模塊生成的通道特征圖與輸入的特征圖進(jìn)行求積所得。首先通過全局、平均池化操作對(duì)輸入特征圖進(jìn)行拼接;其次將拼接后的特征圖送入卷積核中進(jìn)行通道降維;接著經(jīng)Sigmoid函數(shù)激活,生成遙感目標(biāo)圖像的空間注意力特征圖。
該模塊的計(jì)算公式如式(3)所示:
[MsF=σConv7×7catFsavg,F(xiàn)smax] (3)
式中:[Fs]表示空間方向的特征圖;[Fsavg]表示經(jīng)過平均池化的特征圖;[Fsmax]表示經(jīng)過最大值池化的特征圖;[cat]表示特征向量的拼接;[Conv7×7]表示尺度為[7×7]的卷積核。
為了解決復(fù)雜場景中的遙感圖像目標(biāo)存在的重疊現(xiàn)象,將CBAM卷積模塊引入到模型的特征提取過程中,使得模型能夠增強(qiáng)對(duì)遙感目標(biāo)圖像特征的提取并且弱化背景信息,最終實(shí)現(xiàn)遙感圖像目標(biāo)的高精度檢測。
2.3" DIoU?NMS優(yōu)化算法
模型的后處理過程中,通常使用NMS[25]算法實(shí)現(xiàn)冗余候選框的剔除。由于密集的遙感目標(biāo)圖像候選框之間具有較大的IoU值,經(jīng)NMS算法處理會(huì)將部分遙感目標(biāo)圖像剔除,導(dǎo)致模型的檢測精度較低。
因此,為了提高在復(fù)雜背景下遙感目標(biāo)圖像的檢測精度,采用DIoU?NMS[26]優(yōu)化算法替代NMS算法,綜合考慮了遙感目標(biāo)建議框與錨框之間的距離、重疊率等因素,使得遙感圖像目標(biāo)被錯(cuò)誤抑制的現(xiàn)象得到了有效緩解[27]。
DIoU?NMS優(yōu)化算法的評(píng)價(jià)策略為:
[Si=si," " " IoU-RDIoU(M,Bi)lt;Nt0," " " IoU-RDIoU(M,Bi)≥Nt] (4)
式中:[Si]表示輸入檢測框的置信度得分;[M]表示具有最高置信度的檢測框;[Bi]表示剩余檢測框集合中的第[i]個(gè)檢測框;[Nt]表示設(shè)定的閾值。
3" 實(shí)驗(yàn)結(jié)果及分析
3.1" 實(shí)驗(yàn)環(huán)境與訓(xùn)練過程
所有實(shí)驗(yàn)都基于PyTorch框架、NVIDIA RTX 2080 Ti顯卡和Python語言實(shí)現(xiàn)。實(shí)驗(yàn)具體的配置參數(shù)如表1所示。
在模型的訓(xùn)練過程中,采用ResNet50+FPN作為主干網(wǎng)絡(luò),并且將模型加載到ImageNet[28]上進(jìn)行預(yù)訓(xùn)練操作。并且采用隨機(jī)水平和垂直翻轉(zhuǎn)的方式,增加更多的樣本,提升魯棒性的同時(shí),降低模型過擬合的風(fēng)險(xiǎn)。此外,通過隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)[29]算法對(duì)原始RRPN模型進(jìn)行優(yōu)化,通過減少參數(shù)的波動(dòng)現(xiàn)象,使模型獲得更加穩(wěn)定的收斂性能。
3.2" 數(shù)據(jù)集構(gòu)建及標(biāo)注
本文分別基于兩個(gè)開源遙感圖像目標(biāo)檢測數(shù)據(jù)集:DOTA數(shù)據(jù)集[30]和HRSC2016數(shù)據(jù)集[31],展開一系列對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)的探究。
3.2.1" DOTA數(shù)據(jù)集
DOTA是于2018年提出的一個(gè)大規(guī)模的空中物體檢測數(shù)據(jù)集,包含2 806幅圖像以及15種常見物體類別的188 282個(gè)實(shí)例:港灣(HA)、儲(chǔ)罐(ST)、大型車輛(LV)、游泳池(SP)、足球場(SBF)、橋梁(BR)、船舶(SH)、飛機(jī)(PL)、棒球場(BD)、網(wǎng)球場(TC)、地面跑道(GTF)、籃球場(BC)、小型車輛(SV)、環(huán)島(RA)和直升機(jī)(HC)。實(shí)驗(yàn)按照7∶2∶1將DOTA數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集與測試集,并且在測試集上評(píng)估該模型。圖5展示了DOTA數(shù)據(jù)集部分樣本圖像。
由圖5可知,DOTA數(shù)據(jù)集圖像中的目標(biāo)尺寸具有明顯的差異,圖像分辨率由800×800~4 000×4 000不等,這對(duì)訓(xùn)練過程造成不利影響。為了保證多尺度遙感圖像目標(biāo)的完整性[32],經(jīng)綜合考慮,實(shí)驗(yàn)對(duì)原始圖像進(jìn)行裁剪:首先將原始圖像調(diào)整為三個(gè)尺度(0.5、1.0、2.0),再將這三個(gè)尺度的所有圖像裁剪成圖像分辨率為1 024×1 024的圖像。此外,在該數(shù)據(jù)集的標(biāo)注過程中,采用旋轉(zhuǎn)標(biāo)注方式得到四邊形框,相對(duì)水平框的標(biāo)注而言減少了較多重疊區(qū)域,更適用于模型的訓(xùn)練過程。
3.2.2" HRSC2016數(shù)據(jù)集
HRSC2016是選自Google Earth中6個(gè)重要港口組成的船舶檢測數(shù)據(jù)集, 包含1 061張圖像,并且圖像的分辨率由300×300~1 500×900不等。實(shí)驗(yàn)將訓(xùn)練集(436張)和驗(yàn)證集(181張)用于模型的訓(xùn)練。此外,實(shí)驗(yàn)在測試集(444張)上對(duì)模型進(jìn)行了評(píng)估。由于船艦?zāi)繕?biāo)具有極其復(fù)雜的背景信息,對(duì)目標(biāo)檢測任務(wù)造成了困難。
HRSC2016數(shù)據(jù)集的部分樣本示例如圖6所示。
3.3" 評(píng)估指標(biāo)
基于提出的FCDI?RRPN遙感圖像目標(biāo)檢測模型,將平均檢測精度(Average Precision, AP)、平均檢測精度均值(mAP)、每秒傳輸幀數(shù)(Frames Per Second, FPS)作為衡量模型性能優(yōu)劣的重要指標(biāo)。AP、mAP計(jì)算公式分別如式(5)、式(6)所示:
[AP=01PRdR] (5)
[mAP=i=1nAPin] (6)
式中:[P]為精確度;[R]表示召回率。
[P]、[R]的計(jì)算公式分別如式(7)、式(8)所示:
[P=TPTP+FP] (7)
[R=TPTP+FN] (8)
式中:[TP]表示檢測的遙感圖像為真陽性樣本;[FP]表示假陽性樣本;[FN]表示假陰性樣本。
3.4" 實(shí)驗(yàn)結(jié)果及分析
3.4.1" 對(duì)比實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文FCDI?RRPN模型的可靠性,將其與其他經(jīng)典的目標(biāo)檢測模型進(jìn)行對(duì)比,包括:基于深度學(xué)習(xí)的單階段目標(biāo)檢測模型S2ANet[33]、RSDet[34]及R3Det[35],雙階段目標(biāo)檢測模型CenterMap[36]、RRPN[37]以及其他模型ROI?Transformer[38]、DRN[39]、FPN?CSL[40]。此外,對(duì)于提出的FCDI?RRPN模型,所有實(shí)驗(yàn)均以ResNet50+FPN作為主干網(wǎng)絡(luò),且基于IoU為0.50時(shí)進(jìn)行探究。
1) DOTA數(shù)據(jù)集
表2展示了各檢測模型在DOTA數(shù)據(jù)集上的性能對(duì)比結(jié)果。由表中結(jié)果可知,提出的FCDI?RRPN模型具有最高的mAP值77.30%,較單階段目標(biāo)檢測模型S2ANet、RSDet與R3Det模型分別提升了3.18%、3.2%與3.56%,較雙階段目標(biāo)檢測模型DRN、RRPN模型分別提升了4.07%、8.29%。單階段模型中,由于S2ANet模型在對(duì)不同角度、比例以及尺寸的錨框進(jìn)行設(shè)計(jì)的過程中,導(dǎo)致空間占用現(xiàn)象較為嚴(yán)重,不利于遙感圖像的目標(biāo)檢測任務(wù),RSDet模型、R3Det模型則對(duì)輸入圖像建議框的角度變化較為敏感。雙階段模型中,F(xiàn)aster RCNN模型只能生成水平的錨框,并且該模型經(jīng)過ROI Pooling后易出現(xiàn)圖像特征不變性的丟失,對(duì)遙感圖像目標(biāo)的定位準(zhǔn)確性造成了一定程度上的影響,RRPN模型則采用旋轉(zhuǎn)錨框方式,用于對(duì)旋轉(zhuǎn)遙感圖像目標(biāo)的有效檢測。
通過以上基于DOTA數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果證明,優(yōu)化后的模型在復(fù)雜場景下的遙感圖像目標(biāo)檢測中具有較優(yōu)的檢測精度。
2) HRSC2016數(shù)據(jù)集
表3為所提FCDI?RRPN模型與經(jīng)典的目標(biāo)檢測模型在HRSC2016數(shù)據(jù)集中的mAP結(jié)果。此外,實(shí)驗(yàn)使用PASCAL VOC2007和VOC2012[41]數(shù)據(jù)集的指標(biāo)完成對(duì)各模型的評(píng)估。由表中結(jié)果可知,提出的FCDI?RRPN模型基于VOC2007指標(biāo)和VOC2012指標(biāo)分別取得了最高的mAP值90.24%和96.19%,這為HRSC2016數(shù)據(jù)集的高精度檢測提供了有效的思路。
3.4.2" 消融實(shí)驗(yàn)結(jié)果及分析
為了量化分析,對(duì)比了將特征金字塔FPN、CBAM卷積模塊、DIoU?NMS優(yōu)化策略引入模型后的綜合性能,分別在DOTA數(shù)據(jù)集、HSRC2016數(shù)據(jù)集上開展了消融實(shí)驗(yàn)探究?;诓煌瑑?yōu)化策略的模型在IoU為0.50時(shí)的平均檢測精度均值(mAP)、每秒傳輸幀數(shù)(Frames Per Second, FPS)如表4、表5所示。
由表4、表5可知,在相同的實(shí)驗(yàn)條件下,將FPN模塊引入原始RRPN模型的主干網(wǎng)絡(luò)后,其平均檢測精度mAP值提升了4.22%,表明引入特征金字塔網(wǎng)絡(luò)的主干網(wǎng)絡(luò)模型能有效地對(duì)密集遙感目標(biāo)圖像的高、低層特征進(jìn)行融合;在ResNet50+FPN主干網(wǎng)絡(luò)的基礎(chǔ)上,將CBAM卷積注意力模塊引入后,在DOTA數(shù)據(jù)集上的mAP值提升了2.93%,表明引入注意力機(jī)制后的模型有效地增強(qiáng)了模型的特征提取能力;在ResNet50+FPN主干網(wǎng)絡(luò)的基礎(chǔ)上,采用DIoU?NMS算法對(duì)模型處理過程進(jìn)行優(yōu)化之后,其mAP值較原始模型分別提升了3.26%,說明經(jīng)DIoU?NMS優(yōu)化處理后的模型減少了遙感目標(biāo)圖像的漏檢、誤檢現(xiàn)象;同時(shí)引入CBAM卷積模塊、DIoU?NMS優(yōu)化算法后的模型具有最高的mAP值,較原始RRPN模型提高了8.29%,驗(yàn)證了提出的FCDI?RRPN模型在檢測精度方面的可靠性。
此外,將ResNet101替換為ResNet50后,網(wǎng)絡(luò)深度和參數(shù)量得到了大幅度下降,檢測速度提升了0.9 f/s,然而,引入CBAM和DIoU?NMS后,增加了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,使得提出的FCDI?RRPN模型在檢測速度方面相比原始的baseline有所下降,但僅下降了0.4 f/s。綜合檢測精度和檢測速度,提出的FCDI?RRPN模型在確保不影響檢測速度的前提下大幅度提升了模型的檢測精度,表明了所提模型的可靠性。
由表中結(jié)果可知,在原始模型RRPN中,引入FPN模塊、CBAM卷積模塊、DIoU?NMS優(yōu)化算法后的模型具有最高的mAP值90.24%,較原始模型而言提高了11.16%,表明所提FCDI?RRPN模型有效地實(shí)現(xiàn)了復(fù)雜背景下HRSC數(shù)據(jù)集的高精度檢測。
此外,相比原始的baseline,所提FCDI?RRPN模型的檢測效率有所下降,但僅下降了0.7 f/s,依然可以確保模型具備較高的檢測效率。綜合檢測精度和檢測效率,所提模型在HRSC數(shù)據(jù)集上的可靠性與DOTA數(shù)據(jù)集是一致的。
3.4.3" 檢測結(jié)果可視化
為了更加直觀地對(duì)可視化結(jié)果進(jìn)行展示,圖7、圖8為在DOTA數(shù)據(jù)集、HRSC2016數(shù)據(jù)集中利用所提FCDI?RRPN模型(下半部分)與RRPN模型(上半部分)檢測到的遙感圖像目標(biāo)可視化對(duì)比。通過圖中的檢測結(jié)果能夠明顯看出,在背景復(fù)雜、尺度不一、排列密集的遙感圖像目標(biāo)中,基于所提FCDI?RRPN模型能成功將其檢測到,且具備精準(zhǔn)的檢測效果。
4" 結(jié)" 論
遙感圖像目標(biāo)檢測屬于計(jì)算機(jī)視覺領(lǐng)域中備受關(guān)注的研究方向之一,針對(duì)遙感圖像目標(biāo)檢測任務(wù)存在的難點(diǎn),本文提出了FCDI?RRPN模型的遙感圖像目標(biāo)檢測方法。通過特征金字塔融合方法,將FPN架構(gòu)引入模型的殘差網(wǎng)絡(luò)中,豐富了多尺度的遙感圖像高低層特征信息,有利于遙感圖像小目標(biāo)的檢測。此外,在模型的特征提取過程中添加了基于空間和通道的卷積注意力機(jī)制(CBAM),使得模型對(duì)于復(fù)雜背景下遙感圖像的特征提取能力得到了明顯提升;在模型的后處理過程中,使用基于距離策略的DIoU?NMS優(yōu)化算法實(shí)現(xiàn)對(duì)冗余框的剔除,明顯地改善了模型在遙感圖像檢測過程中的漏檢、誤檢現(xiàn)象。本文提出的FCDI?RRPN模型在不影響檢測速度的前提下,在DOTA數(shù)據(jù)集、HRSC2016數(shù)據(jù)集中的mAP結(jié)果分別可以高達(dá)77.30%、90.24%,通過與其他經(jīng)典的單階段、雙階段目標(biāo)檢測模型相比,本文模型比其他經(jīng)典模型在檢測精度方面更具有優(yōu)越性。
然而,構(gòu)建的多尺度特征融合金字塔架構(gòu)雖然比原始RRPN模型的綜合性能有所提升,但對(duì)于小目標(biāo)的檢測仍存在部分漏檢、誤檢、檢測不準(zhǔn)確的問題。因此,未來的工作會(huì)針對(duì)遙感圖像小目標(biāo)檢測開展進(jìn)一步探究。此外,會(huì)將提出的FCDI?RRPN模型應(yīng)用于其他更多、更大型的遙感圖像目標(biāo)檢測數(shù)據(jù)集,通過參數(shù)調(diào)優(yōu)等方式提升模型的泛化能力。
注:本文通訊作者為郭艷光。
參考文獻(xiàn)
[1] 沈旭東,樓平,雷英棟,等.一種改進(jìn)的高分辨率遙感圖像語義分割模型[J].電子器件,2021,44(3):633?639.
[2] 劉丹英,劉曉燕.基于U?net卷積神經(jīng)網(wǎng)絡(luò)的多尺度遙感圖像分割算法[J].現(xiàn)代電子技術(shù),2023,46(21):44?47.
[3] 李雷,張曄,胡楷.基于DSP的海上紅外小目標(biāo)檢測系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2023,46(4):30?34.
[4] LU D D, TIE W J, LEI S L, et al. Improved S2ANet based on attention mechanism for small target detection in remote sensing images [C]// 2021 CIE International Conference on Radar (Radar). [S.l.: s.n.], 2021: 942?945.
[5] ZHOU L, WEI H R, LI H, et al. Arbitrary?oriented object detection in remote sensing images based on polar coordinates [J]. IEEE access, 2020, 8: 223373?223384.
[6] PENG Y C, LU X M, QUAN W, et al. Adversarial reconstruction for outdoors insulator anomaly detection and recognition in high?speed railway traction substation [C]// 2021 6th International Conference on Intelligent Computing and Signal Processing (ICSP). [S.l.: s.n.], 2021: 1349?1354.
[7] WANG C, YANG L, CHEN X Y, et al. Location and identification of suspension insulators based on RRPN [C]// 2022 2nd International Conference on Consumer Electronics and Computer Engineering (ICCECE). New York: IEEE, 2022: 863?866.
[8] MA J Q. RRPN++: Guidance towards more accurate scene text detection [EB/OL]. [2020?09?28]. https://arxiv.org/abs/2009.13118v1.
[9] ZOU X S, FENG W, QUAN Y H, et al. A multi?level synergistic image decomposition algorithm for remote sensing image fusion [C]// 2022 IEEE International Geoscience and Remote Sensing Symposium. New York: IEEE, 2022: 3754?3757.
[10] LI Y S, KONG D Y, ZHANG Y J, et al. Representation learning of remote sensing knowledge graph for zero?shot remote sensing image scene classification [C]// 2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. New York: IEEE, 2021: 1351?1354.
[11] YANG Y, GU H Y, HAN Y S, et al. An end?to?end deep learning change detection framework for remote sensing images [C]// 2020 IEEE International Geoscience and Remote Sensing Symposium. New York: IEEE, 2020: 652?655.
[12] 姚子康.基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測[D].無錫:江南大學(xué),2022.
[13] 黃佳琦,范軍芳,李蓓蓓.CenterNet?based遙感圖像目標(biāo)檢測方法研究[J].彈箭與制導(dǎo)學(xué)報(bào),2023,43(1):24?31.
[14] 張艷,杜會(huì)娟,孫葉美,等.基于改進(jìn)SSD算法的遙感圖像目標(biāo)檢測[J].計(jì)算機(jī)工程,2021,47(9):252?258.
[15] 汪西莉,梁正印,劉濤.基于特征注意力金字塔的遙感圖像目標(biāo)檢測方法[J].遙感學(xué)報(bào),2023,27(2):492?501.
[16] 曲福恒,李婉婷,楊勇,等.基于圖像增強(qiáng)和注意力機(jī)制的作物雜草識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(3):815?821.
[17] 蘇樹智,陳潤斌,朱彥敏,等.重定位非極大值抑制算法[J].光學(xué)精密工程,2022,30(13):1620?1630.
[18] WANG M X, FU B Y, FAN J B, et al. Sweet potato leaf detection in a natural scene based on faster R?CNN with a visual attention mechanism and DIoU?NMS [J]. Ecological informatics, 2023, 73(3): 101931.
[19] QIN R, LIU Q J, GAO G S, et al. MRDet: A multihead network for accurate rotated object detection in aerial images [J]. IEEE transactions on geoscience and remote sensing, 2022, 60(1): 1?12.
[20] ZHANG Y, SONG C L, ZHANG D W. Small?scale aircraft detection in remote sensing images based on Faster?RCNN [J]. Multimedia tools and applications, 2022, 81(13): 18091?18103.
[21] 喬美英,史建柯,李冰鋒,等.改進(jìn)損失函數(shù)的增強(qiáng)型FPN水下小目標(biāo)檢測[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2023,35(4):525?537.
[22] LIU H, YANG G Q, DENG F L, et al. MCBAM?GAN: The GAN spatiotemporal fusion model based on multiscale and CBAM for remote sensing images [J]. Remote sensing, 2023, 15(6): 1583.
[23] 周蕾,鐘海蓮,陳冠宇.基于注意力機(jī)制的改進(jìn)YOLOX行人跌倒檢測方法[J].電子器件,2023,46(2):404?413.
[24] CHEN G S, LU H L, DI D L, et al. StfMLP: Spatiotemporal fusion multilayer perceptron for remote?sensing images [J]. IEEE geoscience and remote sensing letters, 2023, 20(1): 1?5.
[25] KARLE L. NMS?less management of radio networks for small and medium sized enterprise networks [C]// 2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT). New York: IEEE, 2022: 1?5.
[26] DONG J X, LI Z N, WANG Z B, et al. Pixel?level intelligent segmentation and measurement method for pavement multiple damages based on mobile deep learning [J]. IEEE access, 2021, 9: 143860?143876.
[27] ZHANG H, HAO C Y, SONG W R, et al. Adaptive slicing?aided hyper inference for small object detection in high?resolution remote sensing images [J]. Remote sensing, 2023, 15(5): 1249.
[28] BENBRAHIM H, BEHLOUL A. Fine?tuned Xception for image classification on tiny ImageNet [C]// 2021 International Con?ference on Artificial Intelligence for Cyber Security Systems and Privacy (AI?CSP). New York: IEEE, 2021: 1?4.
[29] WIJNHOVEN R G J, DE WITH P H N. Fast training of object detection using stochastic gradient descent [C]// 2010 20th International Conference on Pattern Recognition. New York: IEEE, 2010: 424?427.
[30] XIA G S, BAI X, DING J, et al. DOTA: A large?scale dataset for object detection in aerial images [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 3974?3983.
[31] LIU Z K, YUAN L, WENG L B, et al. A high resolution optical satellite image dataset for ship recognition and some new baselines [C]// Proceedings of the 6th International Conference on Pattern Recognition Applications and Methods. [S.l.: s.n.], 2017: 324?331.
[32] 吳明哲.基于旋轉(zhuǎn)框的多尺度遙感目標(biāo)檢測算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2022.
[33] LIU M Y, YIN H J. Sparse spatial attention network for semantic segmentation [C]// 2021 IEEE International Conference on Image Processing. New York: IEEE, 2021: 644?648.
[34] QIAN W, YANG X, PENG S L, et al. Learning modulated loss for rotated object detection [C]// Proceedings of the Thirty?fifth AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2021: 2458?2466.
[35] VO N D, NGUYEN P, TRUONG T, et al. Analysis of fog density on oriented object detection in aerial images [C]// 2022 RIVF International Conference on Computing and Communication Technologies. New York: IEEE, 2022: 1?6.
[36] WANG J W, YANG W, LI H C, et al. Learning center probabi?lity map for detecting objects in aerial images [J]. IEEE transactions on geoscience and remote sensing, 2021, 59(5): 4307?4323.
[37] MA J Q, SHAO W Y, YE H, et al. Arbitrary?oriented scene text detection via rotation proposals [J]. IEEE transactions on multimedia, 2018, 20(11): 3111?3122.
[38] DING J, XUE N, LONG Y, et al. Learning RoI transformer for oriented object detection in aerial images [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 2849?2858.
[39] PAN X J, REN Y Q, SHENG K K, et al. Dynamic refinement network for oriented and densely packed object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 11204?11213.
[40] YANG X, YAN J C. On the arbitrary?oriented object detection: Classification based approaches revisited [J]. International journal of computer vision, 2022, 130(5): 1340?1365.
[41] 張衛(wèi)良.基于深度學(xué)習(xí)的目標(biāo)檢測算法與應(yīng)用研究[D].無錫:江南大學(xué),2022.
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(31960361)
作者簡介:魯曉波(1978—),女,內(nèi)蒙古興安盟人,碩士研究生,副教授,主要研究領(lǐng)域?yàn)閳D形圖像處理、人工智能。
郭艷光(1974—),女,內(nèi)蒙古赤峰人,碩士研究生,教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?、圖像處理等。
辛春花(1989—),女,內(nèi)蒙古托克托人,講師,主要研究領(lǐng)域?yàn)槿斯ぶ悄?、圖像處理等。