張省, 李山山, 魏國芳, 張新耐, 高建威
1. 中國礦業(yè)大學 環(huán)境與測繪學院, 徐州 221116;
2. 中國礦業(yè)大學 人工智能研究院, 徐州 221116;
3. 中國科學院空天信息創(chuàng)新研究院, 北京 100094;
4. 濟南市勘察測繪研究院, 濟南 250013;
5. 中國空間技術(shù)研究院衛(wèi)星應用總體部, 北京 100094
隨著遙感技術(shù)的不斷發(fā)展,遙感數(shù)據(jù)的獲取不再困難,利用遙感數(shù)據(jù)及時準確地掌握地物目標的位置分布對交通規(guī)劃、精準農(nóng)業(yè)、軍事偵察以及海洋管理等都具有重大的意義(劉暢和朱衛(wèi)綱,2021)。然而,傳統(tǒng)的遙感圖像目標檢測方法利用方向梯度直方圖HOG(Histogram of Oriented Gradient) 特征或者尺度不變特征轉(zhuǎn)換SIFT(Scale-invariant feature transform),缺乏對遙感圖像中目標稀疏性以及遙感圖像尺度問題的考慮,同時存在計算開銷大等問題(姚艷清 等,2021)。因此對遙感影像中特定目標高效地定位與識別成為了當前的研究熱點。
近些年來,深度學習和計算機視覺技術(shù)不斷發(fā)展,在自然場景下基于卷積神經(jīng)網(wǎng)絡CNNs(Convolutional Neural Networks)的目標檢測算法代替了傳統(tǒng)HOG 和SIFT 的手工特征,取得了突破性的 進 展。 R-CNN (Region-based Convolutional Neural Network)(Girshick,2014)率先利用CNNs對候選目標區(qū)域提取特征,再利用機器學習方法對這些區(qū)域進行分類和定位。Fast R-CNN(Girshick,2015)在其基礎上利用特征圖進行感興趣區(qū)域的提取,極大地減少了計算量。Faster R-CNN(Ren 等,2017)摒棄了選擇性搜索算法SS (Selected Search),利用區(qū)域生成網(wǎng)絡RPN(Region Proposal Network)來提取感興趣區(qū)域,提升了檢測的精度和效率;此外,以YOLO(Yon Only Look Once)(Redmon 等,2016)、RetinaNet(Lin 等,2017b)等算法為代表的單階段目標檢測算法致力于提升模型整體的運算效率。YOLO 算法將檢測任務統(tǒng)一視為回歸問題,將圖像劃分為多個子區(qū)域并在每個區(qū)域內(nèi)找到目標的位置(Redmon 等,2016)。SSD(Liu 等,2016)得益于Faster R-CNN 和YOLO 的思想,設計單階段的網(wǎng)絡模型并利用錨點框(Anchor box)來進行目標檢測;RetinaNet 提出了Focal loss 函數(shù),使單階段網(wǎng)絡更好地學習難樣本,提高了單階段檢測的準確性。由于這些算法能夠精準地檢測自然場景下的多類目標,許多研究將這些算法直接地應用于遙感圖像目標檢測任務中去(奚祥書 等,2022)。然而,當遙感圖像包含更復雜的場景信息,圖像分辨率高而目標相對較小時,傳統(tǒng)的CNN 結(jié)構(gòu)將無法提取圖像中精細化的目標特征。隨著CNN 層數(shù)的加深,感受野隨之越來越大,因此一些目標在頂層特征圖上出現(xiàn)特征消失的現(xiàn)象(Lin 等,2017a);此外,由于遙感圖像背景復雜,傳統(tǒng)的CNN 容易受到噪聲影響導致激活錯誤的區(qū)域,從而導致目標特征提取不足;待檢測的目標尺度變化較大,單一尺度的檢測方式弱化了模型對目標的感知能力(Girshick 等,2014;Ren 等,2015);而且遙感圖像中的目標往往定向分布,等等。因此傳統(tǒng)的回歸框不能夠較好地表示遙感圖像中目標的位置信息。
針對上述問題,許多研究改進自然場景下基于卷積神經(jīng)網(wǎng)絡的目標檢測算法,使其更好地應用于遙感場景下的目標檢測任務。
(1)對于遙感圖像目標特征提取能力不足的問題,許多研究致力于在特征提取網(wǎng)絡上進行改進。 Mask OBB (Mask Oriented Bounding Box)(Wang 等,2019)引入了語義注意力機制,用于強化目標特征,過濾背景信息;YOLT(You Only Look Twice)(Van Etten,2018)為了解決高分辨率遙感圖像場景信息復雜的問題,將大尺寸的圖像剪裁成較小的圖像塊,再利用YOLO等方法對單個圖像塊進行檢測,最終合并結(jié)果;CBDA-Net(Center-Boundary Dual Attention Network)(Liu 等,2021)則利用一個雙流注意力網(wǎng)絡提取目標中心和邊界信息用于區(qū)分目標和背景。上述方法主要通過區(qū)分背景和目標來強化目標表征,但是忽略了特征的上下文語義以及缺乏更為精細化的目標特征。
(2)對應遙感圖像目標檢測中目標尺度變化較大的問題,許多研究采用特征金字塔(Lin 等,2017a) 的形式進行多層級檢測。如姚群力等(2019)通過構(gòu)造深層特征金字塔和聚焦分類損失,有效地提升模型對多尺度目標的檢測精度;史文旭等(2020)為提高復雜場景下多尺度目標檢測的性能,利用特征增強和特征融合的方法改進特征金字塔以適應不同背景下的遙感圖像目標檢測。然而這些方法僅利用不同尺寸的特征圖來進行多尺度檢測同時,也忽略了特征金字塔的通道信息損失,不利于后續(xù)目標地定位和分類。
(3)在遙感圖像中目標的定向分布問題中,許多研究引入了角度值和定向檢測框來表示目標的位置信息。RRPN(Rotation Region Proposal Network)(Ma 等,2018)率先利用旋轉(zhuǎn)錨點框的方法去匹配密集排列的旋轉(zhuǎn)目標,實現(xiàn)了目標方向 角 度 的 回 歸;SCRDet (Detection for Small,Cluttered and Rotated Objects)(Yang 等,2019)引入了平滑交并比損失在一定程度上解決了角度回歸的邊界問題。然而角度值回歸會引發(fā)邊界問題而平滑交并比利用交并比因子來緩解角度值引發(fā)的回歸突變并沒有從本質(zhì)上解決邊界問題。
本文針對遙感圖像目標檢測中存在的特征提取困難、尺度差異較大、有向目標方向表示三方面問題,提出了一個新的基于精細化多尺度特征的遙感圖像定向目標檢測算法;該方法充分考慮了遙感圖像的場景復雜以及尺度問題,設計了一個基于空洞卷積的上下文注意力網(wǎng)絡,提出了精細化的特征金字塔網(wǎng)絡并在檢測任務中引入了新的方向因子。本文具體貢獻包括:(1)設計了基于空洞卷積的上下文注意力網(wǎng)絡,提高模型對復雜背景下目標的特征表示能力;(2)設計了精細化的特征金字塔網(wǎng)絡,有效地緩解由于遙感圖像中目標尺度變化對模型性能的影響;(3)引入了新的方向因子來表示遙感圖像中目標的方向信息。
本文在Faster R-CNN OBB (Faster Region-Convolutional Neural Network for Oriented Bounding Box)上進行改進,在特征提取階段引入了基于空洞卷積的上下文注意力網(wǎng)絡,提高了主干網(wǎng)絡對目標特征的表示能力;在多層級特征提取階段,設計了一個精細化特征金字塔網(wǎng)絡,幫助模型提取圖像中多尺度目標;在回歸階段引入了新的方向因子表示目標的方向信息。下面將詳細介紹各個模塊。
在基于卷積神經(jīng)網(wǎng)絡的特征提取方法中,特征圖的語義信息隨著網(wǎng)絡的加深而愈加豐富(于野 等,2020)。因此在目標檢測方法中,往往對頂層特征圖進行目標的分類和定位。然而這種特征提取很難在場景信息較大的遙感圖像中提取較小目標的表征,尤其在ResNet(He 等,2016)下采樣的過程中,模型很難提取甚至丟失這些目標的表征;此外,遙感圖像存在大量的背景噪聲,很容易干擾網(wǎng)絡對目標顯式特征的判斷(周勇 等,2021)。為了解決這些困難,本文設計了一個基于空洞卷積的上下文注意力網(wǎng)絡,嵌入到ResNet-50各個階段之間,提高模型在復雜背景下目標特征的表示能力,改進后的特征提取網(wǎng)絡如圖1所示。
ResNet-50 包含5 個階段(stage),16 個殘差塊,50 個卷積層。在每個階段之間,利用基于空洞卷積注意力來強化特征對目標尺度的感知能力并且利用上下文信息來弱化背景噪聲對目標特征提取的影響。具體的注意力網(wǎng)絡結(jié)構(gòu)如圖2所示。
空洞卷積由于其更為廣泛的感受野,可以感知上下文特征而被廣泛應用(Chen 等,2017)。引入空洞卷積使 ResNet 在保持參數(shù)量不變、每個階段的卷積層視野不變的前提下,靠后的卷積層也可保持較大的特征圖尺寸,從而有利于對小目標的檢測,提高模型整體性能(Yu和 Koltun,2016;Chen 等,2017)。本文首先利用多尺度的空洞卷積獲取圖像的尺度信息和上下文信息。經(jīng)過不同尺度的卷積核對特征進行采樣然后利用獨立的卷積層來學習顯著性的激活區(qū)域,最終利用sigmoid 函數(shù)輸出注意力權(quán)重。具體地,將每個階段輸入的特征圖表示為Xi∈RC×H×W,其中,C表示特征圖X的通道數(shù),H和W表示特征圖X的高、寬尺寸;由于第一層淺層特征不被利用,i表示階段索引(i=2,3,4)。將第i個特征圖輸入到本文設計的注意力網(wǎng)絡中,首先通過一個并行的空洞卷積金字塔。其中包含了4 個不同空洞率的空洞卷積Ak(k=1,2,3,4),空洞率分別是1,3,5,7。經(jīng)過空洞卷積金字塔后,再經(jīng)過獨立的1×1 卷積層輸出4 個融合上下文信息的特征圖fk(k=1,2,3,4),具體計算方式如下:
式中,Convk1×1表示第k個1×1卷積,k=1,2,3,4。得到的輸出[f1,f2,f3,f4],分別表示在不同的尺度下感知不同范圍上下文信息的特征圖。為了聚合這些信息,利用一層1×1 卷積,對4 個特征圖融合并激活顯著性區(qū)域。最終利用sigmoid 將顯著性圖轉(zhuǎn)換為注意力權(quán)重圖。具體計算過程如下
式中,a∈R1×H×W表示輸出的注意力權(quán)重圖,σ表示sigmoid 函數(shù)。將得到的注意力權(quán)重圖與輸入的特征圖融合即可獲得包含尺度信息和上下文信息的特征,融合方式為:
式中,X′i表示輸出的強化后的特征圖,?表示逐元素相乘計算。
圖 1 改進后的特征提取網(wǎng)絡Fig.1 Improved feature extraction network
圖 2 基于空洞卷積的上下文注意力網(wǎng)絡Fig.2 Context attention network based on hole convolution
在遙感圖像中,目標間的尺度差異較大(如車輛和港口輪船在尺度上相差數(shù)倍),無法直接使用卷積神經(jīng)網(wǎng)絡中的頂層特征檢測這種多尺度目標(于野 等,2020)。多數(shù)方法采用了特征金字塔網(wǎng)絡FPN(Feature Pyramid Network)去適應圖像中的尺度變化,如圖3(a)所示。特征金字塔利用了側(cè)連接的方式來建立一個自頂向下的特征提取網(wǎng)絡,每層都包含了相鄰層級的語義信息,最終輸出多個尺度的特征圖,有助于模型對多尺度目標的檢測。
圖 3 對比傳統(tǒng)特征金字塔和本文提出的精細化特征金字塔Fig.3 Comparisons the traditional feature pyramid with the refined feature pyramid proposed in this paper
式中,PixelShuffle(·)表示像素混洗操作。像素混洗是圖像超分辨率算法中較為經(jīng)典的一種,主要功能是將低分辨的特征圖通過通道間的重組得到高分辨率的特征圖(Shi 等,2016)。經(jīng)過上述兩步操作,最終待融合的特征Pi保留了通道和尺度信息,在向下融合的過程中對多尺度的遙感圖像模板進行了更精細化的表征提取,最終進行的融合過程如圖3(b)中所示。
在遙感圖像的目標檢測任務中,需要最終確定場景中目標的位置及方向,采用目標檢測的水平回歸框,容易造成多個目標以及背景與目標之間的混疊。一些研究提出定向回歸框來定位遙感或文字檢測場景的目標,定義了一個新的方向因子θ,表示框長邊與水平軸的夾角,并且固定該角度范圍為[-90°,0]。
然而,在遙感場景下,頂點坐標真值無序易引起角度預測錯誤、回歸困難等問題,這種問題被成為回歸邊界性(Yang 等,2019)。因此本文采用預測滑動頂點(Xu 等,2021)的方式來解決邊界問題,如圖4所示。
圖 4 方向因子的標簽生成方式Fig.4 Label generation method of direction factor
首先,由于水平框不存在邊界問題,因此網(wǎng)絡先預測出一個水平的矩形框坐標(x,y,w,h),通過這組坐標可以求出水平框的頂點坐標(v1′,v2′,v3′,v4′)。其次引入了一組新的方向因子(α1,α2,α3,α4),這組方向因子表示水平框4 個頂點的相對偏移量。其計算方式如下所示:
式中,Si表示預測框頂點vi和真值框頂點vi′的絕對偏移量。因此,最終回歸分支預測的回歸向量為(x,y,w,h,α1,α2,α3,α4)。
本文采用一個多任務損失函數(shù)進行模型的訓練,損失函數(shù)為
式中:Ltotal表示總損失,Ncls表示輸入第二階段網(wǎng)絡中總的候選框個數(shù),Nreg表示輸入第二個階段網(wǎng)絡中正樣本的個數(shù),i為候選框的索引。對于第i個候選框,若它為正樣本則pi*為1,反之則為0。Lcls和Lreg分別表示分類任務和回歸任務的損失,與傳統(tǒng)目標檢測類似,Lcls采用交叉熵損失(Lin 等,2017a)。由于回歸目標引入了新的方向因子,回歸損失Lreg的形式需要改進,其具體形式為
式中,λ表示損失的平衡權(quán)重參數(shù),Lh表示水平框的回歸損失,αˉi表示方向因子的真值。取四個點的均值均值作為斜框的中心坐標,框的角度使用四邊形最長的邊對應的兩個頂點兩個坐標,由這條邊與x軸的夾角作為角度真值。與傳統(tǒng)目標檢測保持一致,方向因子αi的損失采用smoothL1損失(Girshick,2015)進行訓練。
實驗環(huán)境為處理器為Intel Xeon Gold 5120 CPU@2.20 GHz 的服務器,GPU 是4 個NVIDIA GeForce RTX2080Ti GPU,顯存皆為11 GB。編程環(huán)境為Python3.6.11和Pytorch1.4.0。
(1)DOTA 數(shù)據(jù)集:DOTA 數(shù)據(jù)集如圖5(a)所示。作為遙感圖像定向目標檢測的基準數(shù)據(jù)集,它包含2806 張來自不同傳感器衛(wèi)星的遙感圖像,主要來源為天地圖。圖像像素每英寸尺寸范圍從800×800 到4000×4000。數(shù)據(jù)集標注了188282 個不同尺度、不同方向的實例目標,共分為15個類別:飛機PL(Plane)、棒球場BD(Baseball Diamond)、橋 梁BR (Bridge)、田 徑 場GTF (Ground Track Field)、小型車輛SV(Small Vehicle)、大型車輛LV(Large Vehicle)、船體SH(Ship)、網(wǎng)球場TC(Tennis Court)、籃球場BC(Basketball Court)、儲油罐ST(Storage Tank)、足球場SBF(Soccer-ball Field)、環(huán)形交叉路口RA(Roundabout)、海港HA(Harbor)、游泳池SP(Swimming Pool)以及直升飛機(Helicopter)。
(2)HRSC2016:HRSC2016 是一個遙感圖像艦船檢測的數(shù)據(jù)集。如圖5(b)所示,其中包含了對船體定向的標注框。數(shù)據(jù)集內(nèi)包含了1061 張來自天地圖的遙感圖像,其像素每英寸尺寸范圍從300×300 到1599×900。數(shù)據(jù)集共包含了2976 個船體實例。訓練過程中,436 張圖像被劃分為訓練集,181 張圖像被劃分為驗證集,444 張圖像被視為測試集。
圖5 實驗所用數(shù)據(jù)集樣本Fig.5 Sample data set used in the experiment
為了驗證本文提出模型在遙感圖像定向目標檢測上的準確性,我們采用平均準確度均值mAP(mean Average Precision)作為實驗所用評價指標,利用平均準確度AP(Average Precision)衡量單類別檢測準確度。mAP 是所有類別AP 值的平均,mAP值和AP值越大,反映了模型整體或在獨立類別上的檢測準確性越高。具體的mAP計算方式如下:
式中,n表示類別的總個數(shù),i則為類別的索引。AP值是每一個類別的(準確率—召回率)曲線的面積。其中準確率P(Precision)和召回率R(Recall)的計算方式如下:
式中,TP,F(xiàn)P,F(xiàn)N分別表示真陽性、假陽性以及假陰性的個數(shù)。
本文采用的特征提取網(wǎng)絡是ResNet-50,并進行了改進。ResNet-50 在ImageNet 數(shù)據(jù)集上進行了預訓練并在遙感數(shù)據(jù)集上進行了微調(diào)。在訓練過程中,由于直接訓練高分辨率遙感圖像會對精度造成影響,對這些遙感圖像進行剪裁操作:對于DOTA 數(shù)據(jù)集,將其中的圖像剪裁成1024×1024 的圖像塊,并進行了90°、180°和270°的旋轉(zhuǎn)數(shù)據(jù)增廣;對于HRSC2016 統(tǒng)一縮放其中遙感圖像到512×800的分辨率再進行訓練和檢測。
為了公平比較本文提出的方法與其他優(yōu)越的算法,一些超參數(shù)的設置要保持一致:對于DOTA數(shù)據(jù)集的實驗,訓練過程中初始學習率設置為7.5×10-3最終學習率達到7.5×10-5,總迭代次數(shù)設置為70000,批處理大小設置為4;對于HRSC2016數(shù)據(jù)集的實驗,初始學習率設置為1×10-2最終學習率達到1×10-4,總迭代次數(shù)為2000,批處理大小為8。
為了驗證本文設計的基于空洞卷積的上下文注意力網(wǎng)絡,采用Faster R-CNN 為基線模型,分別以ResNet-50、ResNet-101 為主干網(wǎng)絡,回歸方式采用滑動頂點,對比引入上下文注意力前后檢測模型的精度變化。所有消融實驗留在DOTA數(shù)據(jù)集上進行驗證。
3.4.1 驗證基于空洞卷積的上下文注意力
如表1 所示,在ResNet-50 的基礎上引入基于空洞卷積的上下文注意力,可以有效地提升0.82%的mAP 值;其中由于引入過多上下文信息導致了特征混淆,一些類別的AP 值在可接受的范圍內(nèi)下降;對于大多數(shù)的類別,可以有效地提升其特征表示能力從而提高了其檢測的準確度。
表1 驗證基于空洞卷積的上下文注意力Table 1 Verification of contextual attention based on hole convolution
3.4.2 驗證精細化特征金字塔
為了驗證本文提出的精細化特征金字塔對模型的貢獻,以Faster R-CNN 為基線模型,主干網(wǎng)絡采用ResNet-50,特征金字塔FPN 為多尺度特征提取網(wǎng)絡,回歸方式采用滑動頂點的方式,對比引入FPN 和引入精細化FPN 對模型檢測精度造成的影響,實驗結(jié)果如表2所示。實驗結(jié)果顯示,引入精細化FPN 可以在基線模型的基礎上提升1.27%的mAP值;針對尺度變化較大的目標SV、LV(大型車輛、小型車輛)較基準算法提高顯著,提升分別達到4.99%和9.68%。
表2 驗證精細化特征金字塔Table 2 Validation refinement feature pyramid
3.4.3 方向因子消融實驗
如表3 所示,本文以Faster R-CNN OBB 為基線模型并為了公平比較引入了傳統(tǒng)的特征金字塔FPN,當以傳統(tǒng)的角度方式回歸,回歸向量為(x1,y1,w,h,θ)時得到實驗結(jié)果為68.72%;當引入本文采用的方向因子時得到實驗結(jié)果為74.69%,提升了5.97%,驗證了方向因子的有效性。
表3 方向因子消融實驗Table 3 Directional factor ablation experiment
3.4.4 模型整體消融
為了獲得最佳的模型,本文在以Faster RCNN 為基線模型的情況下,分別在主干網(wǎng)絡為ResNet-50和ResNet-101的情況下探究兩個網(wǎng)絡對檢測精度的影響,所有模型的回歸都采用滑動頂點的方式,實驗結(jié)果如表4所示。
表4 模型整體消融實驗Table 4 Overall Ablation Experiment of model
實驗結(jié)果顯示在以ResNet-50為主干網(wǎng)絡的情況下,同時引入基于空洞卷積的上下文注意力網(wǎng)絡和精細化特征金字塔,檢測效果提升1.96%的mAP 值;在以ResNet-101 為主干網(wǎng)絡的情況下,引入基于空洞卷積的上下文注意力網(wǎng)絡提升網(wǎng)絡檢測精度1.02%,引入精細化特征金字塔提升網(wǎng)絡1.14%的檢測精度,同時引入上述兩個算法提升網(wǎng)絡1.76% 的mAP 值;相較于原始的Faster R-CNN,本文方法將有向目標檢測精度提升了mAP,最終達到了76.78% mAP,從而證明了方法的有效性。
本文整合注意力網(wǎng)絡和精細化特征金字塔網(wǎng)絡后與當前在DOTA 數(shù)據(jù)集和HRSC2016 數(shù)據(jù)集上分別與目前最新的方法進行對比。
(1)HRSC2016 數(shù)據(jù)集上的結(jié)果:HRSC2016數(shù)據(jù)集包含了大類的定向船體目標。結(jié)果如表5所示,相對于R2CNN(Jiang 等,2018)、RRPN(Ma等,2018)、TOSO(Feng 等,2020)、RoI Transformer(Ding 等,2019)、RSDet(Qian 等,2021)、Gliding Vertex(Xu 等,2021)、DAL(Ming 等,2021)、R3Det(Yang 等,2021b)、DCL(Yang 等,2021a)、CSL(Yang 和 Yan,2020),本文提出的方法在mAP 值上達到了89.95%,精度較其他方法具有較為顯著的提升。在HRSC2016 數(shù)據(jù)集上檢測效果如圖6所示。
表5 在HRSC2016數(shù)據(jù)集上與先進方法的對比實驗結(jié)果Table 5 Comparative experimental results with advanced methods on HRSC2016 dataset
圖 6 在HRSC2016數(shù)據(jù)集上的檢測結(jié)果Fig.6 Test results on HRSC2016 dataset
(2)DOTA 數(shù)據(jù)集上的結(jié)果:DOTA 數(shù)據(jù)集包含15 個類別的地物目標,類別包含:飛機(PL)、船(SH)、儲罐(ST)、棒球場(BD)、網(wǎng)球場(TC)、游泳池(SP)、田徑場(GTF)、港口(HA)、橋梁(BR)、小型車輛(SV)、大型車輛(LV)、直升機(HC)、環(huán)島(RA)、足球場(SBF)和籃球場(BC),分別對比它們的AP 值以及整體的mAP 值評估本文方法的優(yōu)越性,結(jié)果如表6 所示。對比方法包含了定向的Faster R-CNN (FR-O)(Xia 等,2018)、Poly IoU 損失(PIoU Loss)(Chen等,2020)、RRPN、RoI Transformer、CAD-Net(Zhang等,2019)、DRN(Pan 等,2020)、R3Det、RSDet、Gliding Vertex、CBDA-Net(Liu 等,2021)、APE(Zhu 等,2020)、CenterMap OBB(Wang 等,2021)、CFA(Guo 等,2021)。實驗結(jié)果顯示,本文方法mAP 達到76.78%,相對于基準算法FR-O 本文最終提出的算法提升了22.65%。此外,相對比與表6中其他的方法,本文提出的算法特別在棒球場(BD)、橋梁(BR)、田徑場(GTF)、船(SH)、籃球場(BC)、儲罐(ST)、足球場(SBF)、港口(HA)、游泳池(SP)目標的檢測上獲得較好的精度。由于不同算法采用的回歸方式不同和損失函數(shù)不同,導致在不同類別上模型精度有一定差異。我們主要分析直升機類別(HC)與其他先進方法產(chǎn)生較大差異的原因。對于一些不直接回歸方向因子,采用熱圖分割或新變量表示旋轉(zhuǎn)框方法,比如CenterMap OBB、CFA、APE 等,對直升機這種角度方向變化較少的類別有更優(yōu)越的性能;此外,一些方法提出了新的約束損失比如PIoU Loss、CFA 中 的CIoU Loss,CBDA-Net 中 的arwLoss 等,對直升機這種樣本少,目標較小的類別可以學習到更多信息,因此展示了更優(yōu)的性能。CFA 算法提出的凸包自適應方法,利用凸包特征表示目的是解決密集目標的特征混淆問題(Guo 等,2021),因此對于較為密集的類別表現(xiàn)不錯,比如泳池(SP)、小型車輛(SV)、大型車輛(LV)、直升飛機(HC)。然而CFA 方法是對密集目標存在特征重疊的情況下提出的特征表示方法,在非密集目標比如籃球棒球場(BD)、田徑場(GTF)、籃球場(BC)、足球場(SBF)上與該類最優(yōu)檢測精度有一定差距。實驗結(jié)果表明,這些運動場類目標在圖像中往往單獨出現(xiàn)且不存在特征混疊,因此采用CFA 的特征表示是冗余的計算,從而導致最終檢測精度的下降。本文提出的方法致力于解決多尺度目標檢測問題。相較于CFA,沒有冗余的特征表示方法。雖然在許多密集目標上性能與CFA 存在差距,但是在總體檢測精度上有一定的優(yōu)勢;此外采用的回歸方式適應于多個類別,因此在整體上獲得了最優(yōu)的精度。
圖 7 在DOTA數(shù)據(jù)集上的檢測結(jié)果Fig.7 Test results on DOTA dataset
表6 在DOTA數(shù)據(jù)集上與其他方法的對比實驗結(jié)果Table 6 Experimental results of comparison with other methods on DOTA dataset
在DOTA 數(shù)據(jù)集上的檢測效果如圖7 所示;此外,對比了基線模型(Baseline),Center Map OBB 以及本文提出的方法,如圖8 所示,在包含多尺度的目標以及更多小目標的情況下,本文提出的方法能更加準確并且完整地檢測出圖像內(nèi)的目標。
圖 8 在DOTA數(shù)據(jù)集上的可視化對比Fig.8 Visualization comparison on the DOTA dataset
遙感圖像目標檢測中存在特征提取困難、尺度差異較大及目標方向的表示等問題。本文有針對性的提出了一種面向精細化多尺度特征的目標檢測方法。首先,利用空洞卷積的上下文注意力網(wǎng)絡來強化目標特征,它通過不同空洞率來擴大感受野,豐富特征的上下文語義并融入尺度信息,強化了卷積神經(jīng)網(wǎng)絡對遙感圖像中目標和背景的判別能力;其次,提出了精細化特征金字塔解決遙感圖像目標變化差異大的問題,為了應對目標的尺度變化,先利用多尺度卷積細化特征金字塔各層級的尺度信息;再利用像素混洗的方式,緩解尺度變化帶來的目標表征損失,強化網(wǎng)絡對多尺度目標特征信息的理解能力;最終,引入了滑動頂點的方向因子來表示定向的目標,減少了由于角度回歸會帶來的回歸邊界性問題。經(jīng)過實驗證明,本文提出的上下文注意力網(wǎng)絡提高了0.82%檢測精度;精細化特征金字塔提高1.27%的檢測精度;滑動頂點的回歸方式有效提高了5.97%的檢測精度。此外相對于基線模型Faster R-CNN OBB,本文提出的算法有22.65%的精度提高。雖然本文提出的方法在總體精度上存在優(yōu)勢,但是由于缺乏考慮旋轉(zhuǎn)目標特征表示,以及更優(yōu)良的損失函數(shù)設計,相較于其他方法本文提出的算法在密集目標、小目標存在一定的性能差距。因此,在未來的工作中將進一步優(yōu)化特征提取網(wǎng)絡,考慮目標的角度變化對特征提取的影響,并考慮損失函數(shù)的設計,進一步提高模型的泛化能力。