亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的多尺度導(dǎo)彈發(fā)射井目標檢測*

2021-11-25 07:41:18孟曦婷計璐艷趙永超楊煒暾

中國科學(xué)院大學(xué)學(xué)報 2021年6期

孟曦婷，計璐艷，趙永超，楊煒暾

(中國科學(xué)院空天信息創(chuàng)新研究院中國科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點實驗室，北京 100094；中國科學(xué)院大學(xué)，北京 100049)

遙感圖像目標檢測是遙感領(lǐng)域研究的熱點問題之一，在軍事偵察、地質(zhì)勘探、城市建設(shè)等多個領(lǐng)域發(fā)揮著重要作用。軍事目標檢測是遙感圖像目標檢測的一個重要分支。在軍事目標中，導(dǎo)彈發(fā)射井[1-3]作為導(dǎo)彈發(fā)射陣地的主要樣式，是重要的軍事目標之一。發(fā)射井目標檢測的研究可以在軍事偵察和戰(zhàn)略部署等方面為國防項目提供幫助與支持。發(fā)射井目標檢測任務(wù)具有以下2個特點：1)樣本數(shù)量少，沒有已標注的可用于研究的數(shù)據(jù)集；2)發(fā)射井在不同分辨率的遙感圖像中呈現(xiàn)多尺度的特性。目前針對發(fā)射井目標檢測方面的相關(guān)研究甚少，研究如何針對導(dǎo)彈發(fā)射井進行檢測具有重要意義。

針對上述問題，本文提出導(dǎo)彈發(fā)射井目標檢測研究方法。首先，構(gòu)建首個發(fā)射井目標檢測數(shù)據(jù)集，實現(xiàn)從無到有的突破，可以為后續(xù)相關(guān)領(lǐng)域的研究提供支持。其次，設(shè)計一個適用于多尺度發(fā)射井目標檢測任務(wù)的檢測模型，有效解決了導(dǎo)彈發(fā)射井目標檢測問題，檢測效果良好。最后，在公開遙感數(shù)據(jù)集上對模型進行測試，證明該方法在其他遙感圖像場景同樣適用。

1 研究現(xiàn)狀

傳統(tǒng)的目標檢測算法是通過滑動窗口遍歷整幅圖像，從而獲取目標可能存在的區(qū)域，然后對這些區(qū)域進行特征提取，常見的圖像手工設(shè)計特征有尺度不變特征變換(scale-invariant feature transform,SIFT)[4]、方向梯度直方圖(histogram of oriented gradient，HOG)[5]、局部二值模式(local binary pattern,LBP)[6]和Haar-like[7]等特征，最后使用分類器對這些提取的窗口特征進行分類，判斷是否含有目標并得到目標的類別，常見的分類器有支持向量機(support vector machine,SVM)[8]、Adaboost[9]等。目前隨著遙感技術(shù)的發(fā)展，不同場景下的高分辨率遙感圖像不斷涌現(xiàn)，傳統(tǒng)目標檢測算法受限于其對先驗知識和數(shù)據(jù)本身特征的依賴，并不適用于該場景下的目標檢測任務(wù)。

深度神經(jīng)網(wǎng)絡(luò)能夠從海量的數(shù)據(jù)中自動學(xué)習(xí)特征，在自然場景目標檢測任務(wù)中，典型的基于深度學(xué)習(xí)的算法[10-16]取得了優(yōu)異的檢測效果。R-CNN(region-convolutional neural networks)[10]提出雙階段檢測網(wǎng)絡(luò)并取得了突破性進展，此后雙階段檢測模型成為目標檢測任務(wù)的重要方法。在R-CNN的基礎(chǔ)上，F(xiàn)ast R-CNN[12]、Faster R-CNN[17]和R-FCN(region-based fully convolutional networks)[15]等基于區(qū)域生成的雙階段檢測模型不斷涌現(xiàn)，這些算法在降低網(wǎng)絡(luò)計算復(fù)雜度的同時提升了檢測精度。為了提升多尺度目標檢測的效果，特征金字塔網(wǎng)絡(luò)(feature pyramid networks，F(xiàn)PN)[18]在Faster R-CNN模型的基礎(chǔ)上提出融合多尺度特征圖的思想，充分利用各個分辨率下的特征信息。SSD(single shot multibox detector)[13]和YOLO(you only look once)[19]是典型的單階段目標檢測算法，其思想是基于回歸的檢測方法，極大地提高了算法的檢測速度。Cascade R-CNN[20]是典型的多階段檢測模型，它采用多階段迭代回歸的思想逐步提高候選區(qū)域的質(zhì)量，有效地提升了檢測效果。

由于深度神經(jīng)網(wǎng)絡(luò)在自然場景目標檢測任務(wù)中的出色表現(xiàn)，學(xué)者們開始將其應(yīng)用于遙感圖像目標檢測任務(wù)中。R-P-Faster R-CNN[21]在小數(shù)據(jù)集上實現(xiàn)了令人滿意的檢測效果。Xu等[22]將可變形卷積層[23]與R-FCN結(jié)合進一步提高了檢測精度。Ren等[24]采用自頂向下和橫向連接的方式生成一張高分辨率高質(zhì)量的特征圖，進一步提高了可變形Faster R-CNN模型的性能。

在目前已經(jīng)發(fā)表的論文中，還沒有學(xué)者針對導(dǎo)彈發(fā)射井目標檢測進行研究，因此本文的研究方向新穎且具有重要意義。

2 研究區(qū)域及數(shù)據(jù)

2.1 研究區(qū)域

本文研究的目標是導(dǎo)彈發(fā)射井，研究區(qū)域為北美中部，用于構(gòu)建數(shù)據(jù)集的發(fā)射井目標均位于此區(qū)域內(nèi)，目標圖像來自于Google Earth。由于Google Earth中的圖像是不同分辨率下的遙感圖像，所以發(fā)射井目標在圖像中呈現(xiàn)多尺度特性。

2.2 數(shù)據(jù)

由于發(fā)射井目標的數(shù)量較少，目前沒有可用于研究的數(shù)據(jù)集，因此在設(shè)計檢測算法之前，構(gòu)建有效的能夠用于發(fā)射井目標檢測的數(shù)據(jù)集至關(guān)重要。本文以來自Google Earth公開遙感圖像平臺的數(shù)據(jù)為基礎(chǔ)進行數(shù)據(jù)集的構(gòu)建。原始數(shù)據(jù)共有178個發(fā)射井目標，原始圖像大小為1 280像素×720像素，具有RGB 3個通道，發(fā)射井形態(tài)主要有2種：突顯和半淹沒。在構(gòu)建數(shù)據(jù)集的過程中，本文充分滿足了數(shù)據(jù)集的多樣性、充分性和魯棒性3個條件。主要構(gòu)建步驟如下：

步驟1針對目標的尺度多樣性，獲取數(shù)據(jù)集原始圖像。對于相同的區(qū)域，在不同分辨率條件下，Google Earth中獲取的圖像有所不同，這導(dǎo)致發(fā)射井目標在圖像中尺度大小存在差異。為了適應(yīng)不同分辨率下的發(fā)射井檢測任務(wù)，本文分別在Google Earth上獲取5個不同分辨率下的發(fā)射井目標圖像。發(fā)射井的實際尺寸約為24.5 m×21 m(由于發(fā)射井形狀不規(guī)則，這里采用的是建筑體外接矩形的尺寸)，如圖1(a)分別展示了原始數(shù)據(jù)集中5個尺度下的圖像樣例，表1中對每個尺度下發(fā)射井的大小及圖像分辨率做了詳細說明，其中尺度6的圖像僅在預(yù)測時使用。隨著圖像分辨率的降低，發(fā)射井目標的尺寸逐漸減小，Google Earth不同分辨率下的圖像中，發(fā)射井目標呈現(xiàn)多尺度特性。本文通過采集不同分辨率下的發(fā)射井目標圖像，保證了數(shù)據(jù)集中目標的尺度多樣性。

圖1 數(shù)據(jù)集典型樣本Fig.1 Typical samples of the dataset

步驟2數(shù)據(jù)集預(yù)處理。獲取178個發(fā)射井目標在5個不同分辨率下的圖像后，從中隨機選取150個發(fā)射井作為訓(xùn)練樣本，其余樣本用于最終評估算法的有效性。然后，對訓(xùn)練樣本的所有圖像進行人工標注，這里采用的標注策略與VOC2007數(shù)據(jù)集[25]的標注方式相同。同時，為了降低檢測網(wǎng)絡(luò)的計算復(fù)雜度，將原始圖像統(tǒng)一裁剪為800×800，重疊率為200像素。

表1 各尺度發(fā)射井尺寸及圖像分辨率說明Table 1 The wells’ scale and the images’ resolution

步驟3為保證數(shù)據(jù)集目標的形態(tài)多樣性，本文進行一系列數(shù)據(jù)增強操作。在實際采集遙感圖像時，傳感器成像時的角度和方位有所變化，因此導(dǎo)彈發(fā)射井在圖像中的方向和角度會存在差異。在構(gòu)建數(shù)據(jù)集的過程中，需要充分考慮到目標角度和方位的多樣性。針對目標的形態(tài)多樣性，本文主要對原始數(shù)據(jù)集進行了一系列數(shù)據(jù)增強操作，增強方式包括水平翻轉(zhuǎn)、上下翻轉(zhuǎn)、順時針旋轉(zhuǎn)45°/135°和逆時針旋轉(zhuǎn)45°/135°，圖1(b)展示了部分增強后樣本。通過以上數(shù)據(jù)增強操作，數(shù)據(jù)集中發(fā)射井目標的形態(tài)多樣性得到保證。

步驟4通過目標填充的方法保證數(shù)據(jù)集的背景復(fù)雜性。眾所周知，背景紛繁復(fù)雜是遙感圖像的重要特點之一。從Google Earth上獲取的發(fā)射井目標圖像背景較為單一，在實際檢測過程中遙感圖像的背景較復(fù)雜，而且可能存在一些相似的負樣本。為了使算法能夠在復(fù)雜背景下檢測發(fā)射井，并且有效區(qū)分出相似的負樣本，需要增加數(shù)據(jù)集背景的復(fù)雜性和多樣性。為了增加數(shù)據(jù)集的魯棒性，采用一種叫做目標填充的方式。這種方法的主要思想是將發(fā)射井目標裁剪下來，填充到目標較多背景較復(fù)雜的遙感圖像中去，通過對這樣的數(shù)據(jù)集進行訓(xùn)練，提高網(wǎng)絡(luò)在復(fù)雜背景下的魯棒性，降低網(wǎng)絡(luò)在復(fù)雜場景下將非目標檢測為發(fā)射井目標的概率，即降低虛警率，圖1(b)展示了目標填充后的圖像。

最終，本文構(gòu)建出完整的用于發(fā)射井目標檢測任務(wù)的數(shù)據(jù)集，數(shù)據(jù)集中共10 000張圖像，該數(shù)據(jù)集滿足多樣性、充分性和魯棒性3個條件。

3 研究方法

本文在Cascade R-CNN[20]模型的基礎(chǔ)上進行改進，提出改進的多階段檢測算法，圖2展示了該算法的整體結(jié)構(gòu)。在生成候選區(qū)域階段，通過改變FPN中特征圖的融合方式，使得網(wǎng)絡(luò)能夠在訓(xùn)練中根據(jù)發(fā)射井目標特性，自動學(xué)習(xí)出特征融合的方式。在精檢測階段，模型通過特征圖的堆疊充分利用上下文信息，并采用級聯(lián)多階段檢測的方法降低發(fā)射井目標檢測的虛警率。

圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of the proposed network

3.1 多尺度特征融合網(wǎng)絡(luò)

在不同分辨率的遙感圖像中，導(dǎo)彈發(fā)射井目標的尺度差異較大，在檢測發(fā)射井的過程中，需要充分考慮到各個尺度發(fā)射井的檢測效果。

特征融合在神經(jīng)網(wǎng)絡(luò)中，隨著網(wǎng)絡(luò)層次的加深，特征圖的分辨率逐漸降低、語義信息不斷增強。淺層特征圖包含更準確的位置信息，深層特征圖包含更豐富的語義信息。同時，高分辨率的特征圖感受野較小，適合小尺寸目標檢測，低分辨率的特征圖感受野較大，適合大尺寸目標的檢測。FPN采用將淺層特征圖和深層特征圖結(jié)合的思想，它通過特征融合的方式提升了多尺度目標檢測的效果。

融合方式 FPN通過橫向連接，將自下而上和自上而下網(wǎng)絡(luò)中相同尺度的特征圖進行融合。深層的特征圖經(jīng)過最近鄰上采樣后得到分辨率較高的特征圖，隨后該特征圖通過逐像素相加的方式與自下而上網(wǎng)絡(luò)中相同分辨率的特征圖進行融合。我們都知道，深層特征圖中包含的位置信息較弱，采用最近鄰上采樣的方式得到的特征圖中位置信息仍然存在較大偏差。FPN采用逐像素相加的方式，并沒有根據(jù)自下而上網(wǎng)絡(luò)中特征圖中的目標特征進行位置信息的矯正。同時，這種融合方式的普適性較差，網(wǎng)絡(luò)無法根據(jù)不同目標特征學(xué)習(xí)到最好的融合方法。以上因素均會導(dǎo)致檢測結(jié)果中的位置信息不準確。

基于以上分析，本文在FPN的基礎(chǔ)上改進特征融合方式，設(shè)計了特征融合模塊(feature fusion module，F(xiàn)FM)，圖2詳細展示了FFM的特征融合方式。首先，自下而上網(wǎng)絡(luò)中的特征圖經(jīng)過一個1×1卷積層后，與經(jīng)過上采樣后相同分辨率的特征圖堆疊。然后，堆疊得到的特征圖通過一個3×3卷積層進行特征融合，得到一個包含多尺度目標信息的特征圖。FFM采用3×3卷積層完成特征融合操作，由于卷積層的權(quán)重可在網(wǎng)絡(luò)訓(xùn)練過程中自動學(xué)習(xí)得到，所以這種融合方式可以根據(jù)目標特征學(xué)習(xí)到最好的融合方式。相比于逐像素相加的方式，本文設(shè)計的FFM更具有可優(yōu)化性和普適性。

遙感圖像中存在許多形狀大小與發(fā)射井較為相似的目標，除改進特征融合方式，本文也重新調(diào)整了錨框的設(shè)置方式。在圖2的網(wǎng)絡(luò)中，為充分覆蓋不同狀態(tài)下的導(dǎo)彈發(fā)射井目標，在{F2,F3,F4,F5,F6}上預(yù)定義尺寸為{32×32,64×64,128×128,256×256,512×512}的錨框，每個錨框長寬比設(shè)置為{1/6,1/4,1/2,1,2/1,4,6}。實際檢測時，由于傳感器的方位角度會有所不同，圖像中發(fā)射井的形狀大小可能會有變化，本文的錨框設(shè)置方式可以盡可能保證更多的真實目標邊框被分類為正樣本。在生成候選區(qū)域階段，本文采用與FPN相同的錨框分類策略，即當IoU>0.7時，將候選區(qū)域判定為正樣本，當IoU<0.3時，將候選區(qū)域判定為背景。

3.2 多階段級聯(lián)檢測

在生成候選區(qū)域階段，本文通過特征融合的方式得到各個尺度下的特征圖。在精檢測階段，需要在特征圖上剪裁對應(yīng)的候選區(qū)域進行更精細的分類和回歸。FPN網(wǎng)絡(luò)是將候選區(qū)域通過某種策略分配到各個尺度的特征圖中，然后分別在{F2,F3,F4,F5}裁剪相應(yīng)尺度下的候選區(qū)域。FPN剪裁候選區(qū)域的方式只利用了單個分辨率的特征圖信息，然而特征圖中的上下文信息對于目標的定位至關(guān)重要，充分利用多尺度特征圖的目標信息可以使定位更準確。正如3.1節(jié)中分析的，深層特征圖具有較大的感受野，能夠提供粗略的信息來確定目標是否在視野中，淺層特征圖則有更小的感受野以及更加細節(jié)的特征，使得神經(jīng)網(wǎng)絡(luò)能夠更加細致地定位目標，這與人眼在定位圖像中物體時的原理相同。

基于以上討論，本文在精檢測階段結(jié)合各個分辨率下的特征圖，充分利用目標的上下文信息，具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2中檢測網(wǎng)絡(luò)部分所示。具體地，先將{F3,F4,F5}上采樣至F2大小(F2的尺寸為200×200，相對于輸入圖像的步長為4)，然后將{F2,F3,F4,F5}堆疊成特征圖Dconcat,Dconcat中富含豐富的上下文信息，所有的候選區(qū)域都在Dconcat中裁剪特征(Dconcat尺寸為200×200)。為了保證檢測網(wǎng)絡(luò)的計算速度，在訓(xùn)練階段非極大抑制(non-maximum suppression,NMS)選取分數(shù)高的12 000個回歸框，保留2 000個作為候選區(qū)域，在測試階段NMS選取分數(shù)最高的10 000個回歸框并保留300個。在精檢測階段，多階段級聯(lián)檢測網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及IoU閾值的設(shè)置方法均采用與Cascade R-CNN相同的方式。

3.3 損失函數(shù)

通過級聯(lián)檢測的方式，復(fù)雜的檢測任務(wù)可以分解為一系列更簡單的檢測階段，前一個階段的輸出被視為下一階段的輸入。通俗地講，第i階段的損失函數(shù)可以表示為

(1)

(2)

其中調(diào)和參數(shù)α1,…,αN均設(shè)置為1。本文中采用與Cascade R-CNN相同的三階段級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)，所以N=3。

4 實驗

本文在深度學(xué)習(xí)框架Pytorch上展開實驗，并使用預(yù)訓(xùn)練模型ResNet-50[27]初始化網(wǎng)絡(luò)。共訓(xùn)練70 000次迭代，初始學(xué)習(xí)率設(shè)為0.001，經(jīng)過25 000次迭代后學(xué)習(xí)率下降為0.000 1，經(jīng)過65 000次迭代后學(xué)習(xí)率下降為0.000 01。訓(xùn)練時網(wǎng)絡(luò)使用隨機梯度下降法對參數(shù)進行優(yōu)化，動量設(shè)置為0.9，權(quán)重衰減率設(shè)置為0.001。訓(xùn)練集、驗證集和測試集的分割比例為60%、20%和20%。

4.1 消融實驗

4.1.1 模型

（二）有助于提高課堂教學(xué)效率。心理學(xué)研究表明,根據(jù)學(xué)習(xí)者的學(xué)習(xí)狀態(tài),學(xué)習(xí)可分為“被動學(xué)習(xí)”與“主動學(xué)習(xí)”兩類。在被動學(xué)習(xí)的狀態(tài)下,學(xué)習(xí)者往往缺乏學(xué)習(xí)的興趣、意義、效率和效果,他們只有學(xué)習(xí)的壓力而沒有學(xué)習(xí)的動力,只有學(xué)習(xí)的苦惱而沒有學(xué)習(xí)的快樂,而學(xué)生在主動學(xué)習(xí)狀態(tài)下所產(chǎn)生的學(xué)習(xí)效率則截然不同。面對同樣的“學(xué)習(xí)量”,主動學(xué)習(xí)者的學(xué)習(xí)時間短,學(xué)習(xí)質(zhì)量高,精神面貌也好。

基準模型本文針對發(fā)射井的目標檢測模型是在Cascade R-CNN的基礎(chǔ)上改進得到的，因此選擇Cascade R-CNN作為消融實驗的基準模型，為保證實驗的公平性和準確性，實驗參數(shù)設(shè)置保持嚴格一致。本文衡量模型性能的評價指標為平均準確率(mAP)。

FFM的作用正如本文在3.1節(jié)中討論的，F(xiàn)FM使得網(wǎng)絡(luò)可以在訓(xùn)練過程中自動學(xué)習(xí)特征圖的融合方式，根據(jù)發(fā)射井的目標特征信息學(xué)習(xí)到最佳的融合方式。本文將FFM的融合方式與逐像素相加的融合方式做了對比實驗，結(jié)果如表2所示。采用FFM模塊的融合方式后，檢測算法整體的mAP提升0.004% mAP，結(jié)果為96.029% mAP。雖然采用FFM模塊后整體檢測的mAP提升不明顯，但其仍在一定程度上發(fā)揮了積極的作用，這得益于它可優(yōu)化可學(xué)習(xí)的特點。

表2 算法消融實驗結(jié)果Table 2 Results of ablation experiments of algorithms

融合上下文信息的作用在精檢測階段，為了充分利用特征圖中上下文信息，將多個分辨率的特征圖進行堆疊，然后進行后續(xù)檢測階段的操作。為了驗證堆疊特征圖的作用，將算法與FPN的策略做了對比實驗。實驗結(jié)果表明，相比于從各尺度特征圖中分別剪裁候選區(qū)域的策略，添加特征圖堆疊操作后，檢測算法mAP提升1.320% mAP，這得益于對上下文信息的充分利用。

4.1.2 數(shù)據(jù)集

本文構(gòu)建了首個用于導(dǎo)彈發(fā)射井目標檢測的數(shù)據(jù)集，主要采用數(shù)據(jù)增強的方式來滿足數(shù)據(jù)集的多樣性、充分性和魯棒性。數(shù)據(jù)增強方式主要包括常規(guī)增強方式(翻轉(zhuǎn)、旋轉(zhuǎn))和目標填充方式2種，本文對數(shù)據(jù)增強過程做了對比實驗。原始數(shù)據(jù)集經(jīng)過預(yù)處理后的大小為1 526張圖像，進行常規(guī)增強方式后數(shù)據(jù)集大小為6 289張圖像，目標填充后數(shù)據(jù)集大小為10 000張圖像。為保證實驗公平性，每次實驗采用的訓(xùn)練模型及參數(shù)設(shè)置均相同，訓(xùn)練集、驗證集和測試集的分割比例為60%、20%和20%。

表3中展示了數(shù)據(jù)集消融實驗的對比實驗結(jié)果，從表中結(jié)果可以看出在未進行數(shù)據(jù)增強操作時，檢測的mAP較低，原因是深度學(xué)習(xí)模型需要在大量標簽數(shù)據(jù)下進行訓(xùn)練，未進行擴充的數(shù)據(jù)集無法訓(xùn)練出性能好的模型。當在進行常規(guī)增強操作后的數(shù)據(jù)集上訓(xùn)練模型時，算法檢測性能明顯提升，整體提升41.93% mAP，這得益于數(shù)據(jù)集多樣性的提高。

表3 數(shù)據(jù)集消融實驗結(jié)果Table 3 Results of ablation experiments of dataset

從對比實驗結(jié)果看出，添加了目標填充的增強方式后，在發(fā)射井目標檢測任務(wù)中，檢測性能有所下降。這是因為添加了目標填充的圖像后，數(shù)據(jù)集復(fù)雜性更高，算法在復(fù)雜場景下檢測出發(fā)射井的難度更大。但是本文采用目標填充的方式，目的是要在模型訓(xùn)練過程中使得算法更加魯棒，以便提高在實際復(fù)雜場景中檢測時的性能，在構(gòu)建數(shù)據(jù)集的過程中，這一操作是十分必要的。

4.2 發(fā)射井檢測結(jié)果

表4 多尺度檢測召回率結(jié)果Table 4 The results of multi-scale detection recall

圖3展示了本文提出的算法和Cascade R-CNN的漏檢情況對比樣例。圖3(a)和3(b)分別是本文的算法在尺度5和尺度6下的檢測結(jié)果與Cascade R-CNN在相應(yīng)尺度下檢測結(jié)果的對比，可以看出對于相同的目標，Cascade R-CNN存在漏檢，本文的算法可以檢測出來。同時發(fā)現(xiàn)，對于小尺度半淹沒的發(fā)射井目標，本文的算法也存在漏檢，如圖3(c)，推測這是因為數(shù)據(jù)集中半淹沒形態(tài)的發(fā)射井樣本較少，未得到充分的訓(xùn)練。在Google Earth中不同分辨率下的圖像代表了發(fā)射井的不同尺度，實驗表明，當分辨率高于1.20 m時，本文的算法可以較準確地檢測出發(fā)射井目標。

圖3 多尺度檢測結(jié)果對比圖Fig.3 Comparison of multi-scale detection results

多狀態(tài) 對不同狀態(tài)下的發(fā)射井進行檢測實驗，結(jié)果如圖4。發(fā)射井有突顯和半淹沒2種常見形態(tài)，在一定尺度下，本文模型可以有效地檢測出這2種形態(tài)的發(fā)射井目標。同時，在某些情況下只有部分發(fā)射井結(jié)構(gòu)存在于圖片中，對于這種截斷的情況，本文的算法也可以有效地檢測出來，這為算法的實際可落地性提供了佐證。

圖4 多狀態(tài)發(fā)射井檢測結(jié)果Fig.4 Multi-state well buildings detection results

魯棒性實驗對算法的魯棒性進行了測試。將發(fā)射井目標截取出來，填充到復(fù)雜背景的遙感圖像中，本文的算法能夠?qū)?fù)雜背景下的發(fā)射井目標檢測出來，并且不存在將非目標誤檢為發(fā)射井的情況，這表明本文的算法適用于復(fù)雜背景下的檢測任務(wù)，可以有效應(yīng)用于實際檢測任務(wù)中。

4.3 對比實驗

4.3.1 算法對比

本文將算法與幾種主流的目標檢測算法進行了對比實驗，表5展示各個算法的檢測精度和速度，實驗時輸入圖像分辨率均為800×800。除主流的自然場景目標檢測方法外，還與ICN[28]算法進行對比，ICN是針對遙感圖像提出的多尺度目標檢測算法。從實驗結(jié)果看出，本文算法的檢測結(jié)果超過ICN 0.14% mAP。在檢測精度方面超出Cascade R-CNN 1.32% mAP，最終檢測結(jié)果為97.35% mAP。在檢測速度方面，雖然比其他典型的目標檢測算法速度慢，但與Cascade R-CNN的檢測速度幾乎相同。因此，本文的算法在保證檢測速度的同時，提高了Cascade R-CNN的檢測效果，并超過目前大部分主流算法，有效解決了發(fā)射井目標檢測問題。

表5 檢測算法對比結(jié)果Table 5 The results of different algorithms

4.3.2 多類別檢測性能評估

為測試算法的魯棒性，在DOTA[29]遙感數(shù)據(jù)集上測試了算法的性能。DOTA遙感數(shù)據(jù)集是一個大型公開的遙感數(shù)據(jù)集，包含2 806張航拍圖像，這些圖像來自于不同的傳感器和平臺，主要來自于Google Earth，還有一些來自于高分二號等衛(wèi)星的數(shù)據(jù)。DOTA數(shù)據(jù)集的目標包含各種各樣的規(guī)模、位置、形狀，共15個類別，188 282個實例。

在實驗過程中，分別將圖3網(wǎng)絡(luò)中的特征圖C2、F2和Dconcat提取出來，進行可視化分析，結(jié)果在圖9(b)～9(d)中展示出來。本文采用特征圖的熱力圖進行可視化分析，熱力圖反映了特征圖中像素值的大小，由于不同的特征圖數(shù)據(jù)分布情況不同，熱力圖的響應(yīng)度大小會有所差異。同時，由于F2和Dconcat是多個特征圖加和所得，其熱力圖存在負值情況。觀察圖5中不同特征圖中的響應(yīng)差異，可以發(fā)現(xiàn)相比于C2和F2，多尺度特征圖堆疊后得到的特征圖Dconcat中具有更突出的特征信息，語義信息更強。這也進一步證明了，充分利用上下文信息，有助于突出目標特征信息。

圖5 特征圖可視化Fig.5 Feature map visualization

本文在DOTA數(shù)據(jù)集上測試算法性能，主要目的是檢驗算法在多類別目標和復(fù)雜場景下的魯棒性，不希望其將非發(fā)射井目標誤判為發(fā)射井。同時，為了展現(xiàn)算法的優(yōu)越性，我們也對Cascade R-CNN算法做了相同的實驗。本文在推理預(yù)測時在DOTA數(shù)據(jù)集上進行實驗。Cascade R-CNN算法進行推理時，存在誤檢的情況，圖6展示出其誤檢的目標情況，而本文提出的模型不存在任何誤檢的情況。究其原因，是因為Cascade R-CNN算法在提取候選區(qū)域時沒有融合上下文目標的信息，對于目標特征的提取不夠充分，導(dǎo)致存在誤檢的情況。本文的算法具有較高的魯棒性，不僅在構(gòu)建的發(fā)射井數(shù)據(jù)集上實現(xiàn)了較高的準確率，而且在復(fù)雜場景下也表現(xiàn)良好。

5 總結(jié)

本文針對多尺度導(dǎo)彈發(fā)射井目標檢測問題提出有效的解決方法。在數(shù)據(jù)層面，建立了首個用于導(dǎo)彈發(fā)射井目標檢測任務(wù)的數(shù)據(jù)集，在該數(shù)據(jù)集上可進行檢測模型的有效訓(xùn)練。同時，該數(shù)據(jù)集可為后續(xù)相關(guān)領(lǐng)域的研究提供支持。在算法層面，設(shè)計了適用于多尺度發(fā)射井目標檢測的模型，有效地解決了發(fā)射井檢測問題，檢測結(jié)果超過目前經(jīng)典算法。