姚群力,胡 顯,雷 宏
1. 中國科學(xué)院電子學(xué)研究所航天微波遙感系統(tǒng)部,北京 100190; 2. 中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049
飛機(jī)目標(biāo)自動檢測技術(shù)是遙感圖像智能解譯領(lǐng)域的重要研究方向之一,飛機(jī)作為一類重要的軍事和民用地物目標(biāo),在目標(biāo)判讀、交通安全和應(yīng)急救援等方面具有重要的應(yīng)用價值。目前,飛機(jī)目標(biāo)檢測算法通常可以劃分為傳統(tǒng)的多階段檢測算法和基于卷積神經(jīng)網(wǎng)絡(luò)的端到端檢測算法兩類。傳統(tǒng)多階段飛機(jī)檢測算法[1-8]首先通過滑窗獲得目標(biāo)候選區(qū)域,然后提取特征訓(xùn)練分類器,最后通過分類器對候選框中的目標(biāo)進(jìn)行判決。事實(shí)上,多階段飛機(jī)檢測算法實(shí)現(xiàn)流程復(fù)雜,并且候選框的提取存在較大冗余性,在目標(biāo)檢測的精度和效率方面,均難以滿足大范圍自動化檢測的需求。
近年來,基于端到端的目標(biāo)檢測研究取得了快速進(jìn)展,研究人員提出了大量兼顧檢測精度與速度的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DNNs)目標(biāo)檢測框架[9-13],(1)https:∥arxiv.org/abs/1701.06659.(2)https:∥arxiv.org/abs/1712.00960v1.。為提高遙感目標(biāo)檢測精度,文獻(xiàn)[14]提出了R-P-Faster R-CNN,該方法將RPN添加到Faster R-CNN體系結(jié)構(gòu)中,從而獲得了比其他基于DNNs模型更高的檢測精度。文獻(xiàn)[15]基于難樣本挖掘和權(quán)重平衡策略構(gòu)造了HEM-CNN框架,提高了復(fù)雜環(huán)境下的飛機(jī)目標(biāo)檢測精度。文獻(xiàn)[16]提出一種多尺度共享基礎(chǔ)網(wǎng)絡(luò)來增強(qiáng)多尺度目標(biāo)的檢測性能。然而,由于預(yù)測特征的感受野尺度相對固定,該類方法制約了小尺度目標(biāo)的檢測性能。文獻(xiàn)[17]提出了一種基于多尺度形變特征卷積網(wǎng)絡(luò)的目標(biāo)檢測方法,利用可形變卷積網(wǎng)絡(luò)對具有尺度和方向變化的遙感圖像目標(biāo)進(jìn)行特征提取。文獻(xiàn)[18]則在SSD網(wǎng)絡(luò)的基礎(chǔ)上提出了一種輸入圖像尺度可變的方法,該方法對輸入圖像進(jìn)行分塊,提高了飛機(jī)檢測精度。然而,由于來自低層的卷積特征的語義信息較弱,該方法對多尺度目標(biāo)的檢測能力仍待提高。FPN[13]和TDM(3)https:∥arxiv.org/abs/ 1612.06851.則利用top-down結(jié)構(gòu)[19]解決多尺度目標(biāo)檢測的問題。然而,由于特征金字塔的逐級特征融合方式極大地增加了計算成本,限制了目標(biāo)檢測的速度,給實(shí)時檢測應(yīng)用造成了困難。
受上述研究啟發(fā),并針對復(fù)雜場景區(qū)域或飛機(jī)密集區(qū)域內(nèi)的小尺度目標(biāo)檢測精度較低的問題,本文提出了一種基于多尺度融合特征的輕量級飛機(jī)檢測框架MultDet。全文主要工作內(nèi)容如下:
(1) 設(shè)計了一種反卷積特征融合模塊,通過跳躍連接將高層語義特征融合到細(xì)節(jié)信息豐富低層特征中,得到具有豐富結(jié)構(gòu)信息的融合預(yù)測特征,并研究特征融合模塊對飛機(jī)檢測的影響。
(2) 以SSD目標(biāo)檢測框架為基礎(chǔ),提出一種輕量級多尺度飛機(jī)目標(biāo)檢測框架MultDet。設(shè)計一系列不同縱橫比的候選框以適應(yīng)多尺度飛機(jī)目標(biāo)檢測,利用新的融合特征進(jìn)行多尺度遙感圖像飛機(jī)目標(biāo)檢測,MultDet顯著提升復(fù)雜背景下小尺度飛機(jī)目標(biāo)的檢測精度。
對于多尺度目標(biāo)檢測,特別是小尺度目標(biāo)的檢測更加依賴低層特征信息,然而低層特征缺乏足夠的語義信息,從而導(dǎo)致網(wǎng)絡(luò)對小尺度目標(biāo)特征的表征能力不足。因此,僅采用卷積神經(jīng)網(wǎng)絡(luò)固有的多尺度特征進(jìn)行目標(biāo)檢測是不夠的。文獻(xiàn)[19—21]提出基于多尺度特征融合的目標(biāo)檢測方法,為小尺度目標(biāo)檢測提供更多必要的語義特征,提升了多尺度目標(biāo)的檢測精度。RON[21]通過反向連接增強(qiáng)了前向特征的語義信息;ION[21]使用跳躍連接提取多尺度特征,以及使用空間遞歸網(wǎng)絡(luò)集成感興趣區(qū)域外部的語義信息;DSOD[19]則引入密集層次連接的方式構(gòu)造多尺度融合特征來強(qiáng)化多尺度目標(biāo)的檢測能力。此外,本文采用UCAS-AOD[22]多尺度數(shù)據(jù)集,以分析檢測框架對于多尺度目標(biāo)的檢測性能。該數(shù)據(jù)集中目標(biāo)實(shí)例的尺度和縱橫比統(tǒng)計信息如圖1所示,從圖1中可以看出,數(shù)據(jù)集中目標(biāo)實(shí)例的尺度分布于20~220像素,縱橫比分布于0.7~1.6。數(shù)據(jù)統(tǒng)計表明,目標(biāo)實(shí)例呈現(xiàn)出尺度差異明顯、形態(tài)變化多樣的統(tǒng)計特性,能夠滿足多尺度目標(biāo)檢測試驗(yàn)分析。
為了豐富特征的結(jié)構(gòu)信息,文獻(xiàn)[13,23]考慮到特征間的關(guān)系,利用多尺度特征提高網(wǎng)絡(luò)的檢測性能注1,注2。DSSD注1采用了SSD+ResNet-101的方式,使用反卷積融合模塊引入了上下文信息,提升了小尺度目標(biāo)的檢測精度。FSSD注2將淺層的細(xì)節(jié)特征和高層的語義特征結(jié)合起來,重構(gòu)了一組金字塔特征,使網(wǎng)絡(luò)的檢測精度得到提升。FPN[13]則采用top-down結(jié)構(gòu)進(jìn)行充分的信息融合,增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力。FCN[23]則使用對稱結(jié)構(gòu)和跳越連接來關(guān)聯(lián)低層特征和高層特征。
圖1 飛機(jī)數(shù)據(jù)分布信息統(tǒng)計Fig.1 The distribution of aircraft regions on training data
所提檢測框架MultDet的網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2所示。所提算法采用輕量級的VGG16作為基礎(chǔ)網(wǎng)絡(luò)提取多尺度特征信息。為充分利用低層特征信息的細(xì)節(jié)表達(dá)能力以提高網(wǎng)絡(luò)對小尺度目標(biāo)的檢測精度,設(shè)定融合運(yùn)算保持conv4_3和conv7層不變,將conv9_2和conv10_2分別反卷積添加到conv4_3和conv7層,新的融合特征層定義為M_1和M_2,并以此代替SSD的conv4_3和conv7進(jìn)行目標(biāo)檢測。
圖2 MultDet飛機(jī)目標(biāo)檢測框架Fig.2 The architecture of aircraft detection MultDet
MultDet通過特征融合構(gòu)成了2層新的特征M_1和M_2。以MultDet300為例,M_1對應(yīng)的特征融合模塊結(jié)構(gòu)如圖3所示,對于M_2模塊同理。對于conv9_2,首先以步長為2進(jìn)行3次反卷積運(yùn)算,卷積核設(shè)定為2×2×256和3×3×256維張量;反卷積層后緊鄰卷積層,采用L2規(guī)范化以及ReLU激活函數(shù);conv4_3經(jīng)3×3×256的卷積后,進(jìn)行L2規(guī)范化,然后將兩路特征進(jìn)行逐元素求和,直至得到新的融合特征;最后添加3×3×256的卷積層以增強(qiáng)融合特征的分辨力,再經(jīng)過ReLU激活函數(shù)后,即得到了M_1特征融合模塊。2個特征融合模塊的維度分別為512和1024。
圖3 反卷積融合模塊Fig.3 Deconvolution fusion block
假設(shè)取m個特征層用于目標(biāo)檢測,則第k層特征的候選框尺度系數(shù)設(shè)定為
(1)
本文設(shè)計了多任務(wù)聯(lián)合損失函數(shù),用于對目標(biāo)分類和邊框回歸兩個任務(wù)進(jìn)行聯(lián)合訓(xùn)練。該損失函數(shù)如式(2)所示
(2)
式中,N是匹配的候選框數(shù)目;α是平衡回歸損失和分類損失的超參數(shù),α通??稍O(shè)置為1;損失函數(shù)的第1項(xiàng)Lconf(x,c)是分類損失,通常采用Softmax函數(shù),該損失函數(shù)可表示為
(3)
(4)
本文在UCAS-AOD[23]公開數(shù)據(jù)集上評估了所有試驗(yàn)。該數(shù)據(jù)集包含飛機(jī)圖像1000景,共標(biāo)注了7482個飛機(jī)目標(biāo),本文采用1000景飛機(jī)數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)。訓(xùn)練過程中,隨機(jī)分配其中的60%為訓(xùn)練集,余下的40%為測試集,數(shù)據(jù)集的統(tǒng)計信息如表1所示。
表1 數(shù)據(jù)集信息統(tǒng)計
本文采用翻轉(zhuǎn)以及旋轉(zhuǎn)等方式將訓(xùn)練集進(jìn)行數(shù)據(jù)擴(kuò)充。擴(kuò)充后訓(xùn)練集樣本總量為3600景。本文訓(xùn)練和測試采用硬件平臺為NVIDIA Titan Xp GPUs,并采用Pytorch深度學(xué)習(xí)框架完成試驗(yàn)的構(gòu)建。本文采用與SSD相同的端到端訓(xùn)練方式,初始學(xué)習(xí)率設(shè)置為0.001,優(yōu)化方法為隨機(jī)梯度下降,動量設(shè)置為0.9,正則化系數(shù)設(shè)置為0.000 5,批處理大小設(shè)置為1。
本文采用平均檢測精度(average precision,AP)和PR曲線(precision-recall curve,PRC)作為飛機(jī)目標(biāo)檢測結(jié)果的評價指標(biāo)。其中,正確檢測將定義為檢測邊框與真值邊框的某一交并比(intersection over union,IoU)閾值,本文將在2種IoU閾值(0.5和0.75)下評估相應(yīng)的多尺度目標(biāo)檢測精度。
為了驗(yàn)證本文所提方法的有效性,本文將在UCAS-AOD數(shù)據(jù)集上訓(xùn)練好的飛機(jī)檢測模型遷移到國產(chǎn)高分辨率光學(xué)影像數(shù)據(jù)的檢測中。該部分試驗(yàn)采用的數(shù)據(jù)為4景分辨率為1 m,幅面為3000×3000像素的光學(xué)遙感圖像。
本文在UCAS-AOD數(shù)據(jù)集上對不同的目標(biāo)檢測方法進(jìn)行訓(xùn)練和測試,檢測結(jié)果如表2所示。從表2的檢測結(jié)果可以看出:①Faster R-CNN在IoU閾值為0.5時取得了86.3%的平均檢測精度,然而,當(dāng)IoU閾值為0.75時,平均檢測精度僅為43.5%,其原因是Faster R-CNN僅利用固定尺度的末端特征圖生成預(yù)測,使得網(wǎng)絡(luò)難以準(zhǔn)確回歸多尺度目標(biāo)的位置信息;②R-FCN相較于Faster R-CNN的檢測性能有了明顯改善,這是由于R-FCN采用了ResNet-101網(wǎng)絡(luò),提升了檢測器對目標(biāo)特征的學(xué)習(xí)能力;此外,R-FCN提出了位置敏感得分圖,增強(qiáng)了對多尺度目標(biāo)的定位能力;③SSD300在IoU閾值為0.75時取得了73.3%的平均檢測精度,相較于Faster R-CNN以及文獻(xiàn)[24]所提的方法有明顯的提高,原因在于SSD網(wǎng)絡(luò)引入了多尺度檢測思想,提升了檢測精度;④FSSD相較于SSD網(wǎng)絡(luò)進(jìn)一步引入了多尺度特征融合模塊,提升了多尺度目標(biāo)的檢測精度;⑤DSSD方法采用了反卷積特征融合策略,提高了對多尺度目標(biāo)特征的表達(dá)能力;⑥相較于其他典型的目標(biāo)檢測方法,本文所提方法MultDet512在不同的IoU閾值下均取得了最優(yōu)的平均檢測精度,所提方法表現(xiàn)出了對于多尺度目標(biāo)檢測的優(yōu)越性。
表2 不同飛機(jī)目標(biāo)檢測方法結(jié)果對比
注1:https:∥arxiv.org/abs/1701.06659.
注2:https:∥arxiv.org/abs/1712.00960v1.
不同檢測方法對應(yīng)的飛機(jī)目標(biāo)檢測結(jié)果的PR曲線如圖4所示,本文所提MultDet檢測框架在精度和召回率兩個性能指標(biāo)均優(yōu)于其他方法。如圖5所示,分別給出SSD512(如圖5(a),圖5(d))、FSSD512(如圖5(b),圖5(e))以及MultDet512(如圖5(c),圖5(f))的飛機(jī)目標(biāo)檢測結(jié)果示例,方框代表檢測到的飛機(jī)目標(biāo)。從圖5中可以看出,相較于SSD512和FSSD512目標(biāo)檢測框架,基于VGG16的MultDet網(wǎng)絡(luò)顯著提升了小尺度密集飛機(jī)目標(biāo)的檢測能力。此外,在不同場景下,MultDet網(wǎng)絡(luò)的部分檢測結(jié)果示例如圖6所示,在密集飛機(jī)??繀^(qū)域(圖6(a)、(d))、復(fù)雜背景區(qū)域(圖6(b)、(e))以及小尺度飛機(jī)目標(biāo)區(qū)域(圖6(c)、(f)),MultDet均可以精確檢測出其中的飛機(jī)目標(biāo),試驗(yàn)結(jié)果證明了MultDet目標(biāo)檢測框架可以有效提高復(fù)雜場景區(qū)域及密集小尺度飛機(jī)目標(biāo)的檢測能力。
圖4 不同檢測算法在UCAS-AOD數(shù)據(jù)集上的PR曲線Fig.4 Precision-recall curves of the diverse methods on the UCAS-AOD dataset
圖5 不同框架的檢測結(jié)果對比圖Fig.5 Aircraft detection results of different detection methods
圖6 MultDet512飛機(jī)檢測結(jié)果示例Fig.6 Aircraft detection results of MultDet512
3.4.1 融合構(gòu)型分析
如表3所示,本文設(shè)計了3組多尺度特征融合構(gòu)型分析對比試驗(yàn),同時評估了相應(yīng)模型的檢測精度。以第1組試驗(yàn)為例,如表3第3~5行所示,當(dāng)輸入尺度為300×300時,即設(shè)定(conv4_3、conv8_2)為基本融合層時,對比了在不同融合組(conv7、conv9_2)以及(conv7、conv10_2)下的檢測性能,其平均檢測精度分別為85.6%和84.7%。試驗(yàn)結(jié)果表明,MeticDet300按所設(shè)計的不同融合構(gòu)型,其平均檢測精度由85.9%遞減到83.7%。
表3 融合策略對飛機(jī)檢測性能的影響
Tab.3 The influence of fusion strategy on aircraft detection performance
基礎(chǔ)特征層SSD層conv4_3conv7conv8_2conv9_2conv10_2AP0.5/(%)85.684.784.885.984.683.7
3.4.2 融合組件分析
表4的對比試驗(yàn)分析了融合模塊對飛機(jī)目標(biāo)檢測結(jié)果的影響,從試驗(yàn)結(jié)果可以看出,MultDet300在含有M_1、M_2特征融合模塊時,飛機(jī)目標(biāo)檢測結(jié)果較僅含M_1融合模塊時提高了1.6%;MultDet512檢測結(jié)果較僅含M_1融合模塊時提高了1.3%。試驗(yàn)結(jié)果表明,多尺度特征融合組件可以合理挖掘多尺度特征信息,增強(qiáng)多尺度目標(biāo)的特征學(xué)習(xí)能力,從而提高了多尺度飛機(jī)目標(biāo)檢測性能。
表4 融合模塊對飛機(jī)檢測的影響分析
Tab.4 The impact of fusion module on aircraft detection framework
項(xiàng)目MultDet-300MultDet-512M_1M_2AP/(%)85.984.381.794.893.587.1時間/(s/img)0.04770.03560.02470.05000.03870.0362
3.4.3 候選框設(shè)計
本文評估了MultDet300/512框架的飛機(jī)目標(biāo)檢測速度,并與幾種代表性多尺度飛機(jī)檢測框架進(jìn)行了對比,結(jié)果如表2第5列所示,MultDet300在單張Titan Xp GPU上的檢測速度為0.047 7 s/img;由于所提算法在SSD網(wǎng)絡(luò)上附加了融合特征層,導(dǎo)致額外消耗了推斷時間,但是相比于DSSD網(wǎng)絡(luò)仍具明顯的速度優(yōu)勢。本文所提方法相較于其他目標(biāo)檢測算法實(shí)現(xiàn)了具有競爭力的檢測速度,同時實(shí)現(xiàn)了檢測精度與檢測速度的良好權(quán)衡。
表5 候選框縱橫比設(shè)計分析
為了驗(yàn)證本文所提方法的有效性,以及對于小而密集的飛機(jī)目標(biāo)的檢測效果,本文將在上述UCAS-AOD數(shù)據(jù)集上訓(xùn)練好的飛機(jī)檢測模型,直接用于國產(chǎn)高分辨率光學(xué)遙感衛(wèi)星影像數(shù)據(jù)的飛機(jī)目標(biāo)檢測。
如圖7所示,本文給出了4景國產(chǎn)高分辨率光學(xué)遙感影像的檢測結(jié)果實(shí)例。從中可以看出,MultDet對于小尺度密集分布的飛機(jī)目標(biāo)檢測效果比較理想,證明了本文方法對于檢測尺度密集分布飛機(jī)目標(biāo)的有效性。此外,訓(xùn)練集所采用的主要是民航客機(jī)樣本,而測試圖像中飛機(jī)形態(tài)與訓(xùn)練集數(shù)據(jù)的差異性較大,本文所提方法仍然能對其進(jìn)行有效檢測,證明了本文方法所學(xué)習(xí)到的檢測模型具有一定的遷移性和通用性。
圖7 遷移試驗(yàn)檢測結(jié)果Fig.7 The migration test results
本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的端到端飛機(jī)目標(biāo)檢測框架MultDet。采用輕量級的特征提取網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),設(shè)計多尺度特征融合模塊,通過跳躍連接將高層語義特征與低層細(xì)節(jié)特征進(jìn)行信息融合,增強(qiáng)了特征的結(jié)構(gòu)信息以提高模型對多尺度目標(biāo)特征的表征能力。本文根據(jù)數(shù)據(jù)集尺度分布特征,設(shè)計了相應(yīng)尺度與縱橫比的候選框,使檢測器更好地適應(yīng)多尺度飛機(jī)目標(biāo)檢測。試驗(yàn)結(jié)果表明,本文所提方法在保持較小的運(yùn)算速度損失前提下,有效地解決了深層特征維度過低,特別是對小尺度目標(biāo)表征能力不足的問題,實(shí)現(xiàn)了對復(fù)雜場景多尺度飛機(jī)目標(biāo)的最優(yōu)檢測性能。