孟曦婷,計璐艷
(1.中國科學(xué)院空天信息創(chuàng)新研究院,北京 100094; 2.中國科學(xué)院大學(xué),北京 100049; 3.中國科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點實驗室,北京 100190)
遙感圖像目標(biāo)檢測是遙感領(lǐng)域極具挑戰(zhàn)的研究方向之一。在高科技軍事作戰(zhàn)中,其在勘探作戰(zhàn)環(huán)境、偵查戰(zhàn)略目標(biāo)等方面發(fā)揮著關(guān)鍵作用。同時,遙感圖像目標(biāo)檢測在地質(zhì)勘探、環(huán)境監(jiān)測和城市規(guī)劃等民用場景中也扮演著重要角色。典型的基于深度學(xué)習(xí)的目標(biāo)檢測算法[1-7]在自然場景目標(biāo)檢測任務(wù)中取得了很大的成功,促使學(xué)者們逐漸將這些算法應(yīng)用于遙感圖像目標(biāo)檢測的研究中。然而,自然場景下的目標(biāo)檢測算法并未在遙感圖像研究中取得突破性進(jìn)展。主要原因有以下3點:1)遙感圖像通常具有不同的分辨率并包含大量的實例目標(biāo),這使得遙感圖像非常復(fù)雜;2)遙感圖像中包含大量的小目標(biāo),復(fù)雜的場景經(jīng)常使得小目標(biāo)的特征信息被淹沒;3)類似于車輛、船舶等目標(biāo)經(jīng)常密集分布在遙感圖像中,給檢測算法帶來了極大的挑戰(zhàn)。
本文針對遙感圖像提出一個新穎的多階段目標(biāo)檢測算法——增強(qiáng)型級聯(lián)檢測網(wǎng)絡(luò)(Enhanced Cascade R-CNN Network, E-CasNet)。首先,本文設(shè)計特征融合模塊(Mix-Net),充分考慮了感受野、特征融合和錨框采樣等因素的影響,有效地提高了小目標(biāo)的檢測效果。其次,本文構(gòu)建了多重語義增強(qiáng)網(wǎng)絡(luò)(MSE-Net),其由像素級增強(qiáng)網(wǎng)絡(luò)(PE-Net)和通道增強(qiáng)網(wǎng)絡(luò)(CE-Net)這2個部分組成,MSE-Net能夠削弱噪聲信息并突出目標(biāo)特征。最后,在精檢測階段E-CasNet充分利用上下文信息,并采用級聯(lián)檢測的方式降低漏檢率和虛警率,提高了分類和回歸的準(zhǔn)確度。在DOTA數(shù)據(jù)集[8]和NWPU VHR-10數(shù)據(jù)集[9]上mAP分別達(dá)到了75.77%和91.70%。因此本文算法檢測效果優(yōu)異,有效地解決了大規(guī)模復(fù)雜場景下多類別目標(biāo)檢測問題。
典型的基于深度學(xué)習(xí)的目標(biāo)檢測算法[10-13]在自然場景目標(biāo)檢測中取得了顯著性的成果,這些算法大部分是基于深度卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的。Girshick等人[1]首次提出了R-CNN雙階段檢測網(wǎng)絡(luò)結(jié)構(gòu)并取得了顯著性突破。隨后,基于區(qū)域生成的雙階段檢測模型不斷涌現(xiàn),例如Fast R-CNN[3]、Faster R-CNN[14]和R-FCN[6],這些方法在提高檢測精度的同時降低了模型計算量。Lin等人[15]提出的FPN算法在Faster R-CNN模型的基礎(chǔ)上融合多尺度特征圖,有效提高了多尺度目標(biāo)檢測的效果。單階段目標(biāo)檢測算法SSD[4]和YOLO[16]是基于回歸的檢測模型,它們極大地提高了算法的檢測速度。Cascade R-CNN[17]模型采用多階段迭代回歸的方法逐步提高候選區(qū)域的質(zhì)量,在雙階段檢測算法的基礎(chǔ)上顯著提升了檢測效果。
近年來學(xué)者們不斷將這些算法應(yīng)用于遙感圖像目標(biāo)檢測任務(wù)中。Han等人[18]提出的R-P-Faster R-CNN模型在小數(shù)據(jù)集上實現(xiàn)了較滿意的檢測效果。Xu等人[11]將可變形卷積層[19]與R-FCN結(jié)合進(jìn)一步提高了檢測精度。Ren等人[20]采用自頂向下和橫向連接的方式生成一幅高分辨率高質(zhì)量的特征圖,進(jìn)一步提高了可變形Faster R-CNN模型的性能。然而,自然場景下的目標(biāo)檢測算法并未在遙感圖像中取得突破性進(jìn)展。正如上文中分析到的,遙感圖像場景復(fù)雜、小目標(biāo)數(shù)量巨大且目標(biāo)分布密集,這些因素均為遙感圖像目標(biāo)檢測算法帶來了巨大挑戰(zhàn)。本文充分考慮到上述因素,并針對大規(guī)模復(fù)雜場景多類別目標(biāo)檢測問題提出有效的解決方案。
圖1展示了本文算法的總體結(jié)構(gòu),E-CasNet是在Cascade R-CNN[17]的基礎(chǔ)上提出的多階段檢測算法。在粗檢測階段,通過添加Mix-Net模塊和MSE-Net模塊使得特征圖中包含更多的目標(biāo)特征信息并削弱了噪聲信息。在精檢測階段,E-CasNet充分融合上下文信息,并采用級聯(lián)多階段檢測的方式降低了漏檢率和虛警率。
圖1 E-CasNet整體框架
在分析的過程中,本文發(fā)現(xiàn)遙感圖像中小目標(biāo)檢測的主要難點是由于提取候選區(qū)域的特征圖中小目標(biāo)的特征信息不足或模糊。
1)特征融合。
導(dǎo)致小目標(biāo)特征衰減甚至消失的主要原因是主干神經(jīng)網(wǎng)絡(luò)中多次使用池化層,在深層網(wǎng)絡(luò)中多次采樣使得小目標(biāo)的大部分特征信息丟失。在深度神經(jīng)網(wǎng)絡(luò)中,普遍認(rèn)為淺層的特征圖可以保留小目標(biāo)的位置信息,而深層的特征圖能夠包含更強(qiáng)的語義信息。特征金字塔網(wǎng)絡(luò)(FPN)[15]、自上而下調(diào)制(TDM)[5]和前置網(wǎng)絡(luò)反向連接(RON)[7]均采用了將淺層特征圖和深層特征圖結(jié)合的思想,它們通過不同的特征融合方式解決小目標(biāo)特征衰減的問題。
2)融合方式。
特征金字塔網(wǎng)絡(luò)通過上采樣和橫向連接的方式融合相同尺寸的特征圖。FPN采用最近鄰上采樣的方式,分辨率較低的深層特征圖被上采樣,然后通過逐像素相加的方式與自下而上網(wǎng)絡(luò)中相同分辨率的特征圖進(jìn)行融合。采用最近鄰上采樣的方式得到的特征圖中特征不連續(xù)且有偏差,當(dāng)遙感圖像中小目標(biāo)排列緊密時,這種偏差會很大程度上影響特征圖中信息的準(zhǔn)確性。同時,直接采用逐像素相加的方式無益于特征圖中信息的校正,這將導(dǎo)致小目標(biāo)的位置信息存在模糊。
基于以上分析,本文在FPN的基礎(chǔ)上改進(jìn)特征融合網(wǎng)絡(luò),設(shè)計特征融合模塊Mix-Net,結(jié)構(gòu)如圖2所示。本文稱改進(jìn)后的特征融合網(wǎng)絡(luò)為IFPN(Improved FPN)。相比于FPN的特征融合策略,Mix-Net更加具有普適性,其可以根據(jù)目標(biāo)特征自動學(xué)習(xí)特征融合時的權(quán)重。對于語義信息較強(qiáng)但分辨率較低的特征圖,Mix-Net通過反卷積[21]操作對其上采樣,其采樣步長為2(上采樣因子為2)。這種上采樣方法的優(yōu)勢在于反卷積層的權(quán)重是不固定的,在網(wǎng)絡(luò)訓(xùn)練中可根據(jù)目標(biāo)的特征自動學(xué)習(xí)出來,也就是說特征圖中不同區(qū)域的上采樣方式不是既定的,而是在訓(xùn)練過程中被學(xué)習(xí)得到。接下來,經(jīng)過上采樣的特征圖與自下而上網(wǎng)絡(luò)中相同分辨率的特征圖進(jìn)行融合,圖2詳細(xì)展示了本文的融合方法。自下而上網(wǎng)絡(luò)中的特征圖經(jīng)過一個1×1卷積層后,與經(jīng)過上采樣后相同分辨率的特征圖堆疊,然后增加一個3×3卷積層進(jìn)行特征融合。這種融合方法通過對卷積層權(quán)重的學(xué)習(xí)可以學(xué)到最佳的融合方式,而逐像素相加的方式實際上是既定了融合的權(quán)重,相比之下Mix-Net采用的融合方式更具有普適性和可優(yōu)化性。
圖2 Mix-Net網(wǎng)絡(luò)結(jié)構(gòu)
遙感圖像中的目標(biāo)種類繁多且大小形狀多變,除了對于特征融合方式的改進(jìn),本文在錨框的設(shè)置方面也采用了更適合遙感圖像特性的方法。錨框的基礎(chǔ)尺寸為256,縮放尺度為{1/16,1/8,1/4,1/2,1,2/1},考慮到遙感圖像數(shù)據(jù)集中目標(biāo)具有不同的形狀,錨框的長寬比設(shè)置為{1:1,1:2,1:3,1:4,1:5,1:6,1:7,1:9}。以上這些設(shè)置可以盡可能保證更多的真實目標(biāo)邊框被分類為正樣本。針對錨框的分類策略本文采用與FPN相同的方式,即當(dāng)IoU>0.7時,將錨框判定為正樣本,當(dāng)IoU<0.3時,將錨框判定為負(fù)樣本,當(dāng)IoU在0.3~0.7之間時,錨框不參與訓(xùn)練。
由于遙感圖像的背景紛繁復(fù)雜,RPN網(wǎng)絡(luò)提取出的候選區(qū)域可能會引入大量的噪聲信息。過多的噪聲會淹沒目標(biāo)信息,同時目標(biāo)之間的邊界會變得模糊,這可能會導(dǎo)致漏檢率和虛警率增大。因此,增強(qiáng)特征圖中目標(biāo)的信息并減弱非目標(biāo)的信息至關(guān)重要。Wang等人[22]設(shè)計了一個單通道注意力掩膜解決了被遮擋人臉的目標(biāo)檢測問題。Hu等人[23]提出了SENet,該網(wǎng)絡(luò)自動學(xué)習(xí)每個特征通道的重要性,然后根據(jù)重要性增強(qiáng)有用的特征并抑制對當(dāng)前任務(wù)作用小的特征。
受到上述2種方法的啟發(fā),本文設(shè)計一個多重語義增強(qiáng)網(wǎng)絡(luò)(Multi Semantic Enhanced Network, MSE-Net),如圖3所示。MSE-Net由像素級增強(qiáng)網(wǎng)絡(luò)(Pixel Enhanced Network, PE-Net)和通道增強(qiáng)網(wǎng)絡(luò)(Channel Enhanced Network, CE-Net)這2個部分組成。其中,通道增強(qiáng)網(wǎng)絡(luò)CE-Net部分采用與SENet相同的網(wǎng)絡(luò)結(jié)構(gòu)和處理方法,并將衰減比率設(shè)置為16。在像素級增強(qiáng)網(wǎng)絡(luò)中,特征圖F2經(jīng)過4層擴(kuò)張率為2的空洞卷積層以及1個1×1的卷積層后,學(xué)習(xí)到一個語義信息更豐富的特征圖R,然后特征圖R經(jīng)過1個1×1的卷積層生成多類別掩膜M。同時,R經(jīng)過Softmax激活函數(shù)的作用后與特征圖F2相乘以及CE-Net輸出特征圖相乘,最終得到一個新的包含豐富語義信息的特征圖A2。值得注意的是,Softmax函數(shù)的指數(shù)運算可以快速放大類別間原始分類概率的差異,使得目標(biāo)類別的概率更接近于1,而非目標(biāo)類別的概率更接近于0。因此,特征圖R經(jīng)過Softmax函數(shù)作用后,目標(biāo)特征信息會相對突出和增強(qiáng),同時噪聲會在一定程度上被削弱。除此之外,特征圖R中的非目標(biāo)特征信息沒有被完全消除,這對于保留某些上下文信息并提高網(wǎng)絡(luò)的魯棒性有重要作用。
圖3 MSE-Net網(wǎng)絡(luò)結(jié)構(gòu)
為了使得網(wǎng)絡(luò)能夠自動學(xué)習(xí)MSE-Net,本文采用了監(jiān)督學(xué)習(xí)的方式。首先,參考Zhang等人[24]的方法,依據(jù)邊框級標(biāo)簽來進(jìn)行像素級標(biāo)簽的標(biāo)注,具體操作如下:對于每一個邊框內(nèi)的所有像素都標(biāo)注成該邊框所對應(yīng)的類別,當(dāng)某個像素同時屬于多個類別的邊框中時,該像素被標(biāo)記為面積較小的邊框的標(biāo)簽類別。其次,使用多分類掩膜的交叉熵?fù)p失作為MSE-Net的損失函數(shù),從而促進(jìn)網(wǎng)絡(luò)對于這部分的學(xué)習(xí)過程。本文僅對F2添加MSE-Net模塊,主要有以下3點原因:1)其融合后的特征圖是在較深層的網(wǎng)絡(luò)中得到的,富含的語義信息相對較強(qiáng);2)其特征圖具有較大的采樣步長,在生成像素級標(biāo)注時小目標(biāo)容易被采樣掉,從而導(dǎo)致該層的標(biāo)注只剩下背景信息;3)只針對F2層添加可以降低網(wǎng)絡(luò)的計算量,在保證速度的同時提高檢測效果。相對于文獻(xiàn)[22]只產(chǎn)生兩通道掩膜(目標(biāo)/非目標(biāo))的方法,MSE-Net能夠?qū)W習(xí)到更多的監(jiān)督信息,從而使得生成的A2特征圖中語義信息更豐富。
RPN網(wǎng)絡(luò)為后續(xù)精檢測階段提供粗略的候選區(qū)域,在精檢測階段,F(xiàn)PN將候選區(qū)域通過某種策略分配到融合后的各個分辨率特征圖上,并分別裁剪相應(yīng)的候選區(qū)域。這種方式只利用了單個特征圖的信息來對候選區(qū)域進(jìn)行進(jìn)一步的分類和回歸,并沒有考慮到上下文信息對于目標(biāo)定位的重要性。正如人眼在定位物體時,往往是先全局地掃描一遍圖像確定整體情況,然后結(jié)合細(xì)節(jié)特征確定目標(biāo)在圖中的位置。在融合后的特征圖中,分辨率較低的特征圖的感受野更大,包含更多的全局特征;分辨率較高的特征圖包含更細(xì)節(jié)的語義信息,可以更加精確地獲得位置信息。
基于以上討論,本文在精檢測階段結(jié)合了各個分辨率下的融合特征圖,充分利用了目標(biāo)的上下文信息,如圖4所示。具體地,先對{F3,F4,F5}上采樣至與A2相同尺寸,上采樣方法與Mix-Net的方式相同,然后將{A2,F3,F4,F5}堆疊得到包含豐富上下分信息的特征圖Dc。精檢測階段所有候選區(qū)域的裁剪操作均在特征圖Dc上完成。為了提高計算速度,在訓(xùn)練階段NMS選取分?jǐn)?shù)最高的12000個回歸邊框并保留2000個作為候選區(qū)域,在測試階段NMS選取10000個回歸邊框并保留300個做為候選區(qū)域。本文在精檢測階段的檢測網(wǎng)絡(luò)結(jié)構(gòu)及IoU閾值設(shè)置方法均采用與Cascade R-CNN相同的方式。
圖4 精檢測階段網(wǎng)絡(luò)結(jié)構(gòu)
E-CasNet的多任務(wù)損失函數(shù)定義如下:
DOTA[8]是一個用于遙感圖像目標(biāo)檢測的大規(guī)模數(shù)據(jù)集,包含2086幅遙感圖像,這些圖像來自不同的傳感器和平臺。數(shù)據(jù)集中的圖像大小在800×800至4000×4000之間,其中包含目標(biāo)的尺寸和形狀也存在很大變化。遙感圖像解譯專家使用15種常見的目標(biāo)類別對DOTA數(shù)據(jù)集中的圖像進(jìn)行標(biāo)注,數(shù)據(jù)集中共包含188282個實例,每個實例均被一個任意四邊形標(biāo)注。本文隨機(jī)選取原始數(shù)據(jù)集中的1/2樣本作為訓(xùn)練集,1/6樣本作為驗證集,1/3樣本作為測試集。在數(shù)據(jù)預(yù)處理階段,本文將圖像統(tǒng)一裁剪成800×800大小,裁剪重疊率為200像素。
NWPU VHR-10[9]數(shù)據(jù)集也是一個公開的地理空間目標(biāo)檢測數(shù)據(jù)集,包含800幅超高分辨率遙感圖像,圖像均是從Google Earth和Vaihingen數(shù)據(jù)集中剪裁得到,然后專家對其進(jìn)行標(biāo)注。其中下文數(shù)據(jù)集的圖像表示說明如下:PL:飛機(jī)、BD:棒球場、BR:橋梁、GTF:地面場地、SV:小型車輛、LV:大型車輛、SP:游泳池、TC:網(wǎng)球場、BC:籃球場、ST:集裝箱起重機(jī)、SBF:足球場、RA:環(huán)形路口、HA:港口、SH:船舶、HC:直升機(jī)、VE:車輛。
本文使用深度學(xué)習(xí)框架Tensorflow[26]展開實驗,并使用預(yù)訓(xùn)練模型ResNet-101初始化網(wǎng)絡(luò)。對于DOTA數(shù)據(jù)集,本文訓(xùn)練260000次迭代,前150000次迭代學(xué)習(xí)率為3e-4,接下來70000次迭代學(xué)習(xí)率為3e-5,最后40000次迭代學(xué)習(xí)率為3e-6。對于NWPU VHR-10數(shù)據(jù)集,訓(xùn)練集、驗證集和測試集的分割比例分別為60%、20%和20%。本文共訓(xùn)練20000次迭代,前10000次迭代學(xué)習(xí)率為1e-4,后10000次迭代學(xué)習(xí)率為1e-5。除此之外,權(quán)重衰減和動量分別為0.0001和0.9,優(yōu)化器使用動量優(yōu)化器。在訓(xùn)練階段,除了對圖像進(jìn)行隨機(jī)反轉(zhuǎn)外,沒有進(jìn)行額外的數(shù)據(jù)增強(qiáng)操作。
3.2.1 消融實驗
1)基準(zhǔn)模型。
本文以Cascade R-CNN[17]為基準(zhǔn)模型進(jìn)行消融實驗,為保證實驗的公平性和準(zhǔn)確性,所有實驗均在DOTA數(shù)據(jù)集上完成,并且參數(shù)設(shè)置保持嚴(yán)格一致。本文使用平均準(zhǔn)確率(mAP)作為評價指標(biāo)來衡量模型性能。
2)MSE-Net的作用。
正如本文在2.2節(jié)中討論的,多重語義增強(qiáng)網(wǎng)絡(luò)模塊對于降低噪聲信息的影響并突出有用的目標(biāo)信息具有有利作用。從表1中的結(jié)果可以看出,在添加了像素級增強(qiáng)模塊(PE-Net)后,大部分目標(biāo)的檢測結(jié)果均有不同程度的提升,并且整體的mAP提升了0.73個百分點。相比于基準(zhǔn)模型,添加MSE-Net模塊后整體mAP提升了0.93個百分點,mAP達(dá)到74.38%。
3)Mix-Net的作用。
IFPN在FPN的基礎(chǔ)上通過改進(jìn)特征融合的方式解決了小目標(biāo)特征衰減和模糊的問題,設(shè)計的Mix-Net模塊改變了上采樣方法及特征圖融合方法,有效地提升了小目標(biāo)的檢測效果。本文與其他幾種算法的上采樣方式和特征圖融合方式做了對比實驗,結(jié)果如表1所示。分析實驗結(jié)果發(fā)現(xiàn)當(dāng)只改變上采樣方式(US)或只改變特征融合方式(FF)時,車輛、船舶等小目標(biāo)的檢測精度有所提升,但尺寸較大的目標(biāo)的檢測效果并沒有明顯改進(jìn)。當(dāng)本文將Mix-Net整體添加時,可以發(fā)現(xiàn)不僅小目標(biāo)的檢測效果提升,大部分尺寸大的目標(biāo)檢測效果也有較顯著的提升。這表明上采樣和特征融合方式的改進(jìn)對于小目標(biāo)檢測的提升具有積極作用。同時,當(dāng)2個模塊同時相互作用時,由于網(wǎng)絡(luò)能夠在訓(xùn)練過程中根據(jù)目標(biāo)特征自動學(xué)習(xí)上采樣和特征融合的方式,2個部分模塊有相互促進(jìn)的效果,使得網(wǎng)絡(luò)更具可優(yōu)化性,并且對各個尺寸目標(biāo)的檢測均有積極作用。添加了Mix-Net后檢測整體的mAP提升了0.72個百分點,結(jié)果為75.10%。
4)堆疊特征圖的作用。
充分考慮上下文信息對于提升檢測效果有重要意義。在精檢測階段,本文將多尺度特征圖堆疊成一個包含豐富上下文信息的特征圖,然后進(jìn)行后續(xù)多階段檢測操作。如表1中結(jié)果所示,相比于按照FPN的策略從各尺度特征圖中分別剪裁候選區(qū)域,添加特征圖堆疊操作后,大部分目標(biāo)的檢測mAP均有提升,整體mAP提升了0.45個百分點。
3.2.2 對比實驗
在DOTA數(shù)據(jù)集和NWPU VHR-10數(shù)據(jù)集上驗證本文提出的框架的性能。表2和表3分別展示了算法在2個數(shù)據(jù)集的測試集上的檢測效果。在目前已有的針對DOTA數(shù)據(jù)集研究的論文中,本文的算法效果超過其余方法,mAP結(jié)果為75.55%,檢測結(jié)果如圖5所示。對于NWPU VHR-10數(shù)據(jù)集,本文與其他算法進(jìn)行了對比,結(jié)果也超出其他算法,mAP結(jié)果為91.70%。同時,在超出一半的類別中本文的算法表現(xiàn)優(yōu)異,檢測結(jié)果如圖6所示。
表1 DOTA數(shù)據(jù)集消融實驗對比結(jié)果 單位:%
表2 DOTA數(shù)據(jù)集不同算法對比結(jié)果 單位:%
表3 NWPU VHR-10數(shù)據(jù)集不同算法對比結(jié)果 單位:%
圖5 DOTA數(shù)據(jù)集檢測結(jié)果
本文針對遙感圖像目標(biāo)檢測問題提出了一個多階段目標(biāo)檢測模型??紤]到特征融合方式對于小目標(biāo)檢測效果的影響,在原有基礎(chǔ)上提出了改進(jìn)的特征融合網(wǎng)絡(luò),有效提升了小目標(biāo)檢測效果。同時,通過添加多重語義增強(qiáng)模塊,本文算法削弱了噪聲的影響并突出了有用的目標(biāo)信息。為了充分利用特征圖中上下文信息,本文在精檢測階段將特征圖堆疊,進(jìn)一步提升網(wǎng)絡(luò)性能。最終,本文方法在公開數(shù)據(jù)集DOTA和NWPU VHR-10上實現(xiàn)了優(yōu)異的檢測效果。