王子琦,管振玉,朱軼昇,劉光燦
(南京信息工程大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210044)
遙感圖像目標(biāo)檢測是當(dāng)前目標(biāo)檢測領(lǐng)域一大熱門問題,其任務(wù)是對遙感圖像(圖1)中感興趣的物體,判斷類別并給出其在圖像中的位置[1,2]。伴隨著深度學(xué)習(xí)模型的大規(guī)模應(yīng)用,研究者嘗試在深度學(xué)習(xí)的基礎(chǔ)上設(shè)計(jì)目標(biāo)檢測模型。目前,這種模型主要包括基于區(qū)域推薦(region proposal)的模型和基于回歸(regression)的模型[3]。
基于以上兩類模型,近年來一系列創(chuàng)新方法被提出。二階段網(wǎng)絡(luò)方面有Zhong等[4]提出的改進(jìn)型R-FCN,Ding等[5]提出的融合遷移學(xué)習(xí)、在線困難樣本挖掘機(jī)制、多尺度特征表示及空洞卷積等方法的Faster RCNN,Ma等[6]提出的一種基于門控循環(huán)單元的融合子網(wǎng)絡(luò),Yan等[7]提出的一種基于可變形卷積的Faster RCNN的IOU自適應(yīng)模型及Wang等[8]提出的一種端到端多尺度視覺注意網(wǎng)絡(luò)等。一階段網(wǎng)絡(luò)方面有Liu等[9]在YOLO網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計(jì)的一種簡單的多類目標(biāo)檢測體系結(jié)構(gòu),楊耘等[10]結(jié)合對訓(xùn)練數(shù)據(jù)的挖掘的YOLOv3網(wǎng)絡(luò)等。以上諸多方法推動(dòng)了遙感目標(biāo)檢測領(lǐng)域的發(fā)展,但我們認(rèn)為仍存在一些需深入研究的問題。①一些方法的目標(biāo)針對性比較強(qiáng)。如曹旭等[11]在目標(biāo)標(biāo)注之外增加了目標(biāo)精細(xì)掩膜和語義分割圖,雖在飛機(jī)目標(biāo)的檢測上大幅提升了精度,但生成精細(xì)掩膜的方法較復(fù)雜,且在其它類別上難以應(yīng)用。其它諸如針對船只、車輛、建筑物等的算法也存在類似問題,其特殊方法難以泛化到多目標(biāo)的遙感目標(biāo)檢測上。②一些模型的訓(xùn)練策略比較復(fù)雜,針對訓(xùn)練樣本需調(diào)整的超參數(shù)多,且需要大量的數(shù)據(jù)增強(qiáng),訓(xùn)練效率低。③針對多分類且目標(biāo)數(shù)量和尺度變化大的大規(guī)模遙感數(shù)據(jù)集的目標(biāo)檢測方法,相比針對單類的方法,目前的研究較少。因此我們希望在更大、更具難度的大規(guī)模遙感目標(biāo)數(shù)據(jù)集的檢測問題上取得更好的效果。
基于上述分析,本文工作有以下方面:
(1)以在目標(biāo)檢測領(lǐng)域檢測效果較好的級聯(lián)RCNN(Cascade RCNN)網(wǎng)絡(luò)為基礎(chǔ),引入姿態(tài)估計(jì)領(lǐng)域中表現(xiàn)優(yōu)秀的HRnet。對網(wǎng)絡(luò)增加多重感知域和通道注意力機(jī)制,增強(qiáng)主干網(wǎng)絡(luò)對目標(biāo)特征的獲取能力。
(2)采用串并聯(lián)的RCNN訓(xùn)練模式,對RPN網(wǎng)絡(luò)生成的感興趣區(qū)域(region of interest,ROI)進(jìn)行多重特征的學(xué)習(xí)。
(3)本文方法在兩個(gè)大規(guī)模的、目標(biāo)類別分別是15和20的遙感目標(biāo)檢測數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示:相比原Cascade RCNN網(wǎng)絡(luò),本文方法在平均精確度上均有更優(yōu)表現(xiàn),并超過了一些其它新型的目標(biāo)檢測模型。
Cascade RCNN[12]是多重級聯(lián)結(jié)構(gòu)的二階段目標(biāo)檢測網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖2所示。第一部分為主干網(wǎng)絡(luò)部分(backbone),從目標(biāo)圖像中提取深度特征。主干網(wǎng)絡(luò)大多輔以特征金字塔網(wǎng)絡(luò)模塊(FPN),生成多尺度多級別特征圖。第二部分為區(qū)域提議網(wǎng)絡(luò)(RPN)部分,在主干網(wǎng)絡(luò)獲取的特征圖上生成錨框(anchor),對這些錨框進(jìn)行二分類(是否為目標(biāo))和位置回歸,并進(jìn)行置信度的篩選,獲取可能存在目標(biāo)的感興趣區(qū)域(ROI)。第三部分為RCNN部分,對前一部分獲取的ROI進(jìn)行分類和回歸。Cascade RCNN設(shè)置了多重級聯(lián)的RCNN,前一階段的輸出結(jié)果被送入下一階段進(jìn)行更高質(zhì)量的提煉,設(shè)置更高的交并比(IOU),以使預(yù)測目標(biāo)更加接近實(shí)際目標(biāo)的位置。
圖2 Cascade RCNN基本結(jié)構(gòu)
光學(xué)遙感圖像的目標(biāo)檢測存在如下問題:待檢測目標(biāo)的數(shù)量多、目標(biāo)尺度和縱橫比的分布非常廣泛、許多目標(biāo)與背景的相似性很大等。若僅用一個(gè)IOU閾值來劃分正負(fù)樣本,則難以獲得較好的ROI。為獲取較高質(zhì)量的目標(biāo)位置,本文選擇Cascade RCNN為基本檢測框架。在此基礎(chǔ)上,我們考慮到遙感圖像所包含目標(biāo)的特點(diǎn),結(jié)合Cascade RCNN中各部分功能,對其主干網(wǎng)絡(luò)和級聯(lián)的RCNN進(jìn)行改進(jìn)。
2.1.1 多感知域的HRnet
主干網(wǎng)絡(luò)是整個(gè)檢測網(wǎng)絡(luò)最基礎(chǔ)亦為最核心的部分,Cascade RCNN一般使用ResNet-50或ResNet-101網(wǎng)絡(luò),其總體結(jié)構(gòu)是自頂向下(top-down)的,即從輸入圖像開始,隨著網(wǎng)絡(luò)層級變深,其特征圖尺寸不斷縮小,特征維數(shù)不斷增加。然該結(jié)構(gòu)忽略了高分辨率的表示。高分辨率表示在目標(biāo)檢測中起著至關(guān)重要的作用,為保持高分辨率的深層特征圖,Sun等提出HRnet[13],對高分辨率特征圖進(jìn)行卷積操作以保持高分辨率表示,同時(shí)用并行的低分辨率特征圖以加強(qiáng)表示。不同層級特征之間又大量增設(shè)信息交互通道,將不同尺寸的特征廣泛結(jié)合起來,獲取更好的目標(biāo)分類特征和空間位置。我們認(rèn)為這一結(jié)構(gòu)適用于遙感圖像的目標(biāo)檢測。
所有層級的特征圖通過卷積核獲取,HRnet特征圖的獲取手段較單一,均使用3×3卷積域的卷積核。遙感圖像目標(biāo)具備兩個(gè)特點(diǎn):①空間分布廣泛。我們感興趣的目標(biāo)可能會(huì)出現(xiàn)在圖片中的任意位置;②變化的幾何形狀。同一類的物體在自然圖像中表現(xiàn)的形狀大多一致,而在遙感圖像中其形狀變化多。基于以上兩點(diǎn),我們認(rèn)為若使用調(diào)整卷積域的卷積核,利用多樣化的感受野對同一目標(biāo)的特征進(jìn)行觀察,獲取的綜合信息將比單一卷積核所獲取的信息更廣,有利于RPN和RCNN的決策。為此,我們在改進(jìn)模型中引入多種卷積核。
普通卷積核每步長可掃描3×3范圍的特征。首先我們引入空洞卷積,擴(kuò)散系數(shù)dilatation設(shè)定為2,則感知域由原先的3×3擴(kuò)大到5×5。擴(kuò)大感受野對于小目標(biāo)有更好的捕獲能力,減少遺漏;對于大目標(biāo)則可通過多樣化的感受野獲取多尺度的信息,故有利于各個(gè)目標(biāo)特征的獲取。另外,如何使模型學(xué)習(xí)目標(biāo)在幾何形狀及方向上的多樣性也應(yīng)加以考慮,為此我們引入了可變形卷積[14],公式為
(1)
可變形卷積相比傳統(tǒng)卷積核需多學(xué)習(xí)3K的參數(shù),其中Δpk為一個(gè)二維向量,表示各個(gè)位置采樣點(diǎn)在x、y方向上的偏移, Δwk為整體尺度上的偏移,這些參數(shù)通過一個(gè)增加的卷積單元進(jìn)行學(xué)習(xí)??勺冃尉矸e核的大小和位置能根據(jù)目標(biāo)進(jìn)行動(dòng)態(tài)調(diào)整,故對于圖像的幾何形狀和方向等信息具備更強(qiáng)的感知能力。將以上3種卷積核融合bottleneck結(jié)構(gòu)(圖3)形成基本單元,W為寬度(width)。
圖3 3類bottleneck
小目標(biāo)的特征在高分辨率特征圖上較為明顯,大目標(biāo)的特征在低分辨率特征圖上仍有較多保留,故我們以HRnet-W32為基礎(chǔ),第一級別特征圖用空洞卷積bottleneck結(jié)構(gòu)獲取,第二級別不變,第三級別和第四級別特征圖用可變形卷積bottleneck結(jié)構(gòu)。其余細(xì)節(jié)結(jié)構(gòu)和原HRnet相同,總體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)的多感知域HRnet
2.1.2 結(jié)合輕量級通道注意力的HRfpn
為增強(qiáng)HRnet,Sun等提出了HRfpn[13],該結(jié)構(gòu)將高分辨率特征和低分辨率特征全部結(jié)合,使獲取輸出特征圖的種類多元化,但我們認(rèn)為其未考慮到各級別特征中各通道之間相互關(guān)系,因不同維度的特征圖其在后續(xù)分類和回歸操作中所占比重很可能存在差別。為此我們引入了注意力機(jī)制解決這一問題。在此方面,HRfpn面臨一個(gè)新問題:以使用bottleneck寬度32的HRfpn為例,將各層輸出通道組合起來,共得1920通道,顯然這樣數(shù)量級的模型其尺寸將大幅增加。故我們設(shè)計(jì)了輕量化的、融合通道注意力機(jī)制的HRfpn。
改進(jìn)HRfpn總體結(jié)構(gòu)如圖5所示。首先,我們將主干網(wǎng)絡(luò)獲取的4級別特征圖F1~F4用步長為1,卷積核尺寸為3×3的卷積層進(jìn)行維度變換。因眾多遙感目標(biāo)檢測相關(guān)研究結(jié)果表明,低層特征圖包含更多小目標(biāo)的位置信息,高層特征圖感受野更大,包含更多有益于分類的語義信息[15],故我們以此操作重設(shè)高低層特征圖的數(shù)量:兩個(gè)較低層特征圖為208通道;兩個(gè)較高層特征圖為304通道。此時(shí),通道總數(shù)由1920降低至1080,接著引入ECA(efficient channel attention)模塊[16]提取通道注意力,該設(shè)計(jì)可在減少模型規(guī)模的條件下,實(shí)現(xiàn)針對HRfpn的通道注意力機(jī)制。
圖5 改進(jìn)的結(jié)合輕量級注意力的HRfpn
ECA模塊結(jié)構(gòu)如圖6所示。先將所有通道的卷積特征用全局平均池化GAP聚合,得到1×1×C的特征向量,C為通道數(shù)。用一個(gè)1維卷積層學(xué)習(xí)注意力矩陣,其卷積核尺寸為k(本文設(shè)k=5)。注意力權(quán)重矩陣Wk參數(shù)為k×C,采用一維卷積層的ECA模塊使各個(gè)通道共享權(quán)重,僅學(xué)習(xí)k個(gè)參數(shù),達(dá)到了網(wǎng)絡(luò)輕量化的目的。該操作連接Sigmoid激活函數(shù)將權(quán)重映射到[0,1],獲取最終的空間域注意力權(quán)值w,上述操作為公式
圖6 ECA模塊
w=σ(Conv1dk(y))
(2)
y為1×1×C的特征向量,將權(quán)值w與中間特征圖相乘可實(shí)現(xiàn)通道特征優(yōu)化。將優(yōu)化后的組合特征圖利用步長為1,卷積核尺寸為3×3的卷積層降維,后續(xù)做多次平均池化即獲取多尺度特征。分別用步長為1,卷積核尺寸為3×3的卷積層獲取最終輸出特征圖Gi(i=1,2,…,5), 這些特征將用于后續(xù)RPN和RCNN的相關(guān)操作。
Cascade RCNN通過感興趣區(qū)域?qū)R(ROI Align)操作將ROI映射為固定尺度的特征圖塊,接著對具有不同IOU閾值的檢測器進(jìn)行級聯(lián),可實(shí)現(xiàn)整體檢測性能的提高(圖2)。
圖7 串并聯(lián)RCNN結(jié)構(gòu)
我們所設(shè)計(jì)網(wǎng)絡(luò)的總損失函數(shù)是
(3)
其中,LRPN是RPN模塊損失函數(shù);Lbi是第一階段各并聯(lián)分支的損失函數(shù),分支總數(shù)為n,本文中n=2;LRCNN是第二階段RCNN的損失函數(shù)。λ為各損失的權(quán)重,本文λRPN設(shè)為1,λbi(bi=1,2) 均設(shè)為0.5,λRCNN設(shè)為2。
與原Cascade RCNN一致,各部分損失均為分類損失與回歸損失之和。分類損失使用交叉熵?fù)p失(RPN模塊中使用二分類的sigmoid的交叉熵?fù)p失),回歸損失為smooth L1損失,其具體內(nèi)容如下
(4)
為體現(xiàn)研究的可信性,我們認(rèn)為實(shí)驗(yàn)數(shù)據(jù)集應(yīng)滿足:①數(shù)據(jù)集所包含的圖像數(shù)量要多,場景要盡量復(fù)雜;②數(shù)據(jù)集所包含的目標(biāo)種類多,且目標(biāo)的尺度變化盡量大,即目標(biāo)定位和分類的難度較大。故使用當(dāng)前公開的遙感圖像目標(biāo)檢測數(shù)據(jù)集中規(guī)模最大、難度最高的兩個(gè)數(shù)據(jù)集——DIOR數(shù)據(jù)集[18]和DOTA數(shù)據(jù)集[19]進(jìn)行實(shí)驗(yàn)。
DIOR數(shù)據(jù)集為20分類的遙感目標(biāo)檢測數(shù)據(jù)集,類別為飛機(jī)(airplane)、機(jī)場(airport)和棒球場(baseball field)等20類。圖片總數(shù)為23 463幅,本文所用訓(xùn)練集和測試集由官方劃分,其中“trainval”部分共11 725幅用于訓(xùn)練,“test”部分共11 738幅用于測試。所有圖像的尺寸固定,為800×800像素。我們使用少量簡單的數(shù)據(jù)增強(qiáng)方法:對于各訓(xùn)練數(shù)據(jù),首先將其尺寸擴(kuò)大到原來的1.5倍,接著進(jìn)行步長為400像素的水平-垂直方向上的滑動(dòng)切割,切割子圖像的尺寸仍為800×800。將切割子圖像與原圖像結(jié)合起來,訓(xùn)練數(shù)據(jù)為原來的5倍。對于切割邊緣的實(shí)例,保留剩余為原先70%以上大小的實(shí)例。
DOTA數(shù)據(jù)集為15分類的遙感目標(biāo)檢測數(shù)據(jù)集,類別為飛機(jī)(plane)、棒球場(baseball-diamond)和橋梁(bridge)等15類。圖片總數(shù)為2806幅。我們?nèi)允褂霉俜絼澐值挠?xùn)練集和測試集,“trainval”部分共1869幅用于訓(xùn)練,“test”部分共937幅用于測試。因該數(shù)據(jù)集圖片尺寸從800×800到4000×4000不等,故我們使用滑動(dòng)切割方法,步長為600,在相鄰子圖片重疊區(qū)不超過25%的前提下,獲取800×800的子圖像,用這些子圖像進(jìn)行訓(xùn)練和測試。子圖像測試結(jié)果將通過拼接的方法返回到原圖(拼接后需做NMS操作)。對于切割邊緣的實(shí)例,保留剩余為原先70%以上大小的實(shí)例。
本文研究以水平框?yàn)橹?,故以上兩?shù)據(jù)集的目標(biāo)標(biāo)注方式均采用水平框標(biāo)注。位置標(biāo)注為水平邊框4個(gè)頂點(diǎn)坐標(biāo)(圖8)。
圖8 水平框標(biāo)注圖示
本文實(shí)驗(yàn)在搭載NVIDIA GTX2080 ti的Ubuntu 18.04.5工作臺(tái)上進(jìn)行,各模型使用單張顯卡訓(xùn)練。軟件環(huán)境為Python3.7和pytorch1.4.0。實(shí)驗(yàn)的批處理量(batch size)設(shè)為2,迭代次數(shù)(epoch)為24。實(shí)驗(yàn)采用SGD優(yōu)化方法,學(xué)習(xí)率為0.001,動(dòng)量(momentum)為0.9,權(quán)值衰減(weight decay)為0.0001。學(xué)習(xí)率在第16和第20 epoch各下降至1/10。
對于各數(shù)據(jù)集,我們選取 IOU=0.5下的平均精度(average precision,AP)值作為主要評估指標(biāo)。AP是精度-召回曲線(precision-recall curve)下方的面積。各類別的AP值取平均即為mAP,較好的檢測器mAP較高。
3.3.1 DIOR數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文方法的有效性,本文在DIOR數(shù)據(jù)集上以Cascade RCNN為基準(zhǔn)進(jìn)行實(shí)驗(yàn),漸次增加改進(jìn)方案。模型不設(shè)預(yù)訓(xùn)練參數(shù),卷積層使用kaiming初始化,其余層用常值初始化。我們?nèi)OU各為0.5和0.7情況下的AP進(jìn)行評估。實(shí)驗(yàn)結(jié)果見表1。
表1 DIOR數(shù)據(jù)集上改進(jìn)模型實(shí)驗(yàn)結(jié)果
上述實(shí)驗(yàn)結(jié)果表明本文改進(jìn)模型在相同實(shí)驗(yàn)條件下,在AP值上比兩類不同主干網(wǎng)絡(luò)的Cascade RCNN均有提升,IOU為0.5時(shí),mAP分別提升13.03個(gè)百分點(diǎn)和4.1個(gè)百分點(diǎn)。各個(gè)類別上,改進(jìn)模型比改進(jìn)前在20個(gè)類別中的18類有提升,這說明我們的改進(jìn)網(wǎng)絡(luò)兼顧了各類目標(biāo)的尺寸、縱橫比和幾何形狀等特點(diǎn),適用于多分類的目標(biāo)檢測。
IOU為0.7時(shí),對檢測位置的精確度有更高的要求。在此條件下,我們的模型比起改進(jìn)前的使用ResNet101+FPN及使用HRnet+HRfpn的Cascade RCNN在mAP上分別提升14.47和5.19個(gè)百分點(diǎn)。當(dāng)IOU閾值從0.5調(diào)整至0.7時(shí),改進(jìn)前模型的mAP分別下降了13.11和12.76個(gè)百分點(diǎn),而我們改進(jìn)模型下降11.67個(gè)百分點(diǎn)。說明改進(jìn)模型無論在分類準(zhǔn)確度還是定位準(zhǔn)確度,均優(yōu)于基準(zhǔn)模型。
我們的改進(jìn)模型在大多數(shù)類別上表現(xiàn)良好,但在個(gè)別類別上表現(xiàn)欠佳。如橋梁、儲(chǔ)油罐、車輛等。我們認(rèn)為原因可能有以下幾點(diǎn):①目標(biāo)縱橫比變化巨大,預(yù)設(shè)目標(biāo)框難以擬合;②目標(biāo)小且密集,在圖像中表現(xiàn)模糊難以區(qū)分;③樣本數(shù)量不平衡等。我們所設(shè)計(jì)的模型雖比起原模型在上述問題上有所改善,但在個(gè)別類別上仍有不足。且訓(xùn)練和測試時(shí)存在部分目標(biāo)因數(shù)據(jù)處理被截?cái)嗟默F(xiàn)象,這些不完整的目標(biāo)會(huì)削弱檢測效果。
此外,我們的網(wǎng)絡(luò)設(shè)計(jì)亦顧及到模型尺寸,避免過度膨脹。原Cascade RCNN的保存模型大小為673 MB,本文最終改進(jìn)模型為672 MB,模型尺寸基本相同。
3.3.2 級聯(lián)RCNN分析實(shí)驗(yàn)
本小節(jié)以一組實(shí)驗(yàn)驗(yàn)證本文所使用的串并聯(lián)RCNN結(jié)構(gòu)的有效性,分別單獨(dú)使用第一階段和第二階段的RCNN及串并聯(lián)的RCNN用于檢測,以IOU為0.5的mAP為基準(zhǔn)觀察各自的性能,實(shí)驗(yàn)結(jié)果見表2。
表2顯示僅使用第一階段的RCNN時(shí),網(wǎng)絡(luò)結(jié)構(gòu)類似于Faster RCNN,此時(shí)兩獨(dú)立分支的mAP均在64%左右。僅使用第二階段的RCNN時(shí),mAP提高了1.43個(gè)百分點(diǎn)。我們認(rèn)為原因有三:①第二階段受益于級聯(lián)結(jié)構(gòu),定位精度提升;②使用卷積層,增強(qiáng)了特征獲取能力;③串并聯(lián)結(jié)構(gòu)使第二階段所獲取的樣本數(shù)量增加。當(dāng)結(jié)合第一、第二階段,形成完整的串并聯(lián)結(jié)構(gòu)時(shí),檢測精度最優(yōu)。實(shí)驗(yàn)結(jié)果表明了我們的串并聯(lián)結(jié)構(gòu)的設(shè)計(jì)思路。
表2 不同級聯(lián)RCNN實(shí)驗(yàn)結(jié)果
3.3.3 DIOR數(shù)據(jù)集上結(jié)果對比
為驗(yàn)證本文所提出模型的性能,我們將本文模型實(shí)驗(yàn)結(jié)果與當(dāng)前其它目標(biāo)檢測模型進(jìn)行對比。其它模型的結(jié)果數(shù)據(jù)來自DIOR數(shù)據(jù)集官方提供的文獻(xiàn)[19]。以IOU=0.5時(shí)的mAP為評價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見表3。
如表3所示,本文的優(yōu)化模型在DIOR數(shù)據(jù)集上達(dá)到的mAP均超過這些當(dāng)前流行的目標(biāo)檢測模型。其中,SSD和YOLOv3是一階段模型,Mask RCNN和RIFD-CNN為二階段模型,CornerNet為關(guān)鍵點(diǎn)檢測模型。本文通過改進(jìn)的多感知域HRnet提取深度特征,用結(jié)合輕量注意力機(jī)制的HRfpn融合多級別特征。采用改進(jìn)結(jié)構(gòu)的級聯(lián)的RCNN對特征進(jìn)行多次分類和回歸,故無論在特征的挖掘及使用上均更優(yōu)。此外,文獻(xiàn)[19]未給出其它模型的具體訓(xùn)練方法,而本文模型僅以DIOR數(shù)據(jù)集為訓(xùn)練集,無預(yù)訓(xùn)練模型及其它數(shù)據(jù)集的遷移學(xué)習(xí)。且使用的數(shù)據(jù)增強(qiáng)方法簡單,訓(xùn)練策略是端到端的,訓(xùn)練簡捷。通過網(wǎng)絡(luò)設(shè)計(jì)的改善,我們在有限的數(shù)據(jù)集上僅以24個(gè)epoch的訓(xùn)練,即在mAP上超過了這些模型。
表3 對比實(shí)驗(yàn)結(jié)果
3.3.4 DOTA數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
為驗(yàn)證本文方法的泛化性,我們在DOTA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。因DOTA數(shù)據(jù)集未提供測試集標(biāo)注,所有實(shí)驗(yàn)結(jié)果在官方服務(wù)器上獲取。我們分別訓(xùn)練并測試了改進(jìn)前后模型以及兩個(gè)新型的目標(biāo)檢測模型:HTC[20]和Mask RCNN+HRnet[13,21],以mAP為指標(biāo)評估表現(xiàn),實(shí)驗(yàn)結(jié)果見表4。
表4 DOTA數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果
從表4可知,本文的改進(jìn)方法在DOTA數(shù)據(jù)集上依然有效,相比于兩個(gè)改進(jìn)前模型在mAP上分別提升了7.92和2.94個(gè)百分點(diǎn);相比于兩個(gè)新型的結(jié)合了語義分割模塊的二階段檢測網(wǎng)絡(luò),在相同的訓(xùn)練和測試條件下,本文模型的mAP更高。以上數(shù)據(jù)說明本文改進(jìn)模型相比其它模型在特征學(xué)習(xí)和RCNN決策方面更優(yōu)。然而,由于實(shí)驗(yàn)使用水平框標(biāo)注,因此目標(biāo)框標(biāo)注內(nèi)不可避免地夾雜多余的背景信息,對深度特征的學(xué)習(xí)存在干擾,我們認(rèn)為這是水平框目標(biāo)檢測的一大局限性。圖9是實(shí)際檢測效果,顯示被檢測目標(biāo)的位置和類別。
圖9 檢測結(jié)果圖示(上:改進(jìn)前 下:改進(jìn)后)
本文針對遙感圖像目標(biāo)檢測問題,以Cascade RCNN為基本框架,針對其主干網(wǎng)絡(luò)部分設(shè)計(jì)了多感知域的高分辨率主干網(wǎng)絡(luò),并結(jié)合了一個(gè)融合輕量級通道注意力機(jī)制的HRfpn,強(qiáng)化了網(wǎng)絡(luò)對深度特征的獲取;針對其RCNN部分,設(shè)計(jì)了串并聯(lián)的RCNN級聯(lián)模型對各ROI多次學(xué)習(xí)和優(yōu)化。模型在兩個(gè)大規(guī)模的遙感目標(biāo)檢測數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均優(yōu)于基準(zhǔn)模型和其它一些深度學(xué)習(xí)目標(biāo)檢測模型,驗(yàn)證了本文設(shè)計(jì)模型及設(shè)計(jì)思路的有效性。本文著眼于網(wǎng)絡(luò)的設(shè)計(jì)和優(yōu)化,在無預(yù)訓(xùn)練模型、較簡單的訓(xùn)練策略和有限的數(shù)據(jù)集等條件下,取得了較好的檢測結(jié)果。然而,實(shí)驗(yàn)中我們發(fā)現(xiàn)水平框目標(biāo)檢測存在兩個(gè)局限性:①對于較密集的目標(biāo),水平框難以對各目標(biāo)準(zhǔn)確區(qū)分;②水平框標(biāo)注框內(nèi)存在大量背景部分,干擾訓(xùn)練。我們期望將來以旋轉(zhuǎn)框目標(biāo)檢測方法,結(jié)合本文網(wǎng)絡(luò)設(shè)計(jì)思路解決上述問題。