聯(lián)合特征增強(qiáng)和錨點(diǎn)自動(dòng)生成的遙感圖像高精度目標(biāo)檢測(cè)

2021-09-29 02:01:10匡綱要

信號(hào)處理 2021年9期

鄭哲雷琳孫浩匡綱要

(國(guó)防科技大學(xué)電子科學(xué)學(xué)院電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 湖南長(zhǎng)沙 410073)

1 引言

目標(biāo)檢測(cè)是遙感圖像判讀中的一個(gè)重要研究方向,在軍事偵察、智能監(jiān)測(cè)、智慧城市等多個(gè)領(lǐng)域都有著廣泛的應(yīng)用需求。近些年來(lái)隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,不斷涌現(xiàn)出一些優(yōu)秀的目標(biāo)檢測(cè)算法[1- 8],卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)也已成為遙感圖像目標(biāo)檢測(cè)任務(wù)中的有力工具[9]。如Cheng等[10]提出了RIFD-CNN模型,該方法通過(guò)在訓(xùn)練過(guò)程中引入旋轉(zhuǎn)不變正則化和Fisher判別正則化有效提高了遙感圖像目標(biāo)檢測(cè)精度。為了使目標(biāo)邊框回歸更加準(zhǔn)確,Long等[11]提出了一種基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督評(píng)分邊界框回歸方法USB-BBR。為了消除候選區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)對(duì)人工設(shè)計(jì)的依賴(lài),學(xué)者們將Faster R-CNN[1]框架應(yīng)用到遙感圖像中并在此基礎(chǔ)上進(jìn)行改進(jìn),如Li等[12]提出了一個(gè)旋轉(zhuǎn)不敏感RPN,該方法在RPN中引入多角度錨,可以有效的處理遙感圖像中目標(biāo)方向旋轉(zhuǎn)變化的問(wèn)題,此外該方法設(shè)計(jì)了一種雙通道特征組合網(wǎng)絡(luò)來(lái)學(xué)習(xí)目標(biāo)的局部和上下文信息,有效提高了目標(biāo)檢測(cè)精度。Zhong等[13]利用位置敏感平衡方法來(lái)提高生成候選區(qū)域的質(zhì)量,該方法在殘差網(wǎng)絡(luò)ResNet[14]的基礎(chǔ)上引入全卷積網(wǎng)絡(luò)[15],解決目標(biāo)檢測(cè)中的平移變化和圖像分類(lèi)中的平移不變性之間的矛盾。Xu 等[16]提出受長(zhǎng)寬比約束的非最大值抑制來(lái)提高候選區(qū)域的質(zhì)量,并利用可變形的CNN來(lái)建模物體的幾何變化,有效改善了目標(biāo)檢測(cè)效果。Tang等[17]借鑒了SSD[6]的思路進(jìn)行車(chē)輛目標(biāo)檢測(cè),在特征圖中每個(gè)位置生成一組不同尺度的默認(rèn)邊框,通過(guò)預(yù)測(cè)每個(gè)默認(rèn)邊框的偏移量來(lái)進(jìn)行目標(biāo)定位。Liu等[18]將傳統(tǒng)的邊界框替換為可旋轉(zhuǎn)邊框嵌入SSD中,使得該算法可以預(yù)測(cè)目標(biāo)的方向角,具有旋轉(zhuǎn)不變性。Liu等[19]以YOLOv2為基礎(chǔ)設(shè)計(jì)了一種可以檢測(cè)任意方向艦船的框架。雖然上述方法通過(guò)各種設(shè)計(jì)在一定程度上改善了遙感圖像目標(biāo)檢測(cè)的性能,但由于圖像分辨率不同或者目標(biāo)尺度不一而導(dǎo)致的尺度差異依然是遙感圖像中目標(biāo)檢測(cè)一個(gè)難題,如何提高多尺度目標(biāo)的檢測(cè)精度仍需進(jìn)一步研究。

針對(duì)上述問(wèn)題,本文以經(jīng)典檢測(cè)框架Cascade R-CNN網(wǎng)絡(luò)為基礎(chǔ),設(shè)計(jì)了基于特征增強(qiáng)和錨點(diǎn)自動(dòng)生成的遙感圖像目標(biāo)檢測(cè)算法。該算法首先將ResNet50骨干網(wǎng)絡(luò)中每個(gè)模塊的3*3卷積替換為可操控的空洞卷積(Switch Atrous Convolution, SAC)[20]模塊,使得同一特征圖中包含不同感受野下提取的特征信息。在此基礎(chǔ)上設(shè)計(jì)了增強(qiáng)特征金字塔網(wǎng)絡(luò)(Enhanced Feature Pyramid Network, EFPN),引導(dǎo)前向傳播得到的每層特征圖信息流入傳統(tǒng)特征金字塔的對(duì)應(yīng)層次融合特征圖上,使得被弱化的特征信息得到增強(qiáng),增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度特征的表達(dá)能力。為了獲得更高質(zhì)量的候選區(qū)域,在區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)中引入可以自動(dòng)學(xué)習(xí)錨點(diǎn)框位置和形狀的錨點(diǎn)框自動(dòng)生成模塊(Anchor Automatic Generation Module, AAGM)[21]。經(jīng)實(shí)驗(yàn)證明,本文所提方法可以有效提高遙感圖像中多類(lèi)多尺度目標(biāo)的檢測(cè)精度。

2 網(wǎng)絡(luò)設(shè)計(jì)

本文所提方法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,首先將ResNet50骨干網(wǎng)絡(luò)中的3*3的卷積層全部替換為SAC模塊,該模塊利用不同的膨脹率的空洞卷積,使得特征圖的不同區(qū)域可以動(dòng)態(tài)的選擇感受野,提取多尺度特征信息。為避免特征通道縮減導(dǎo)致的信息丟失以及更加充分的利用低層特征信息的細(xì)節(jié)表達(dá)能力和高層特征信息的語(yǔ)義表達(dá)能力搭建了增強(qiáng)特征金字塔網(wǎng)絡(luò),在原始特征金字塔的基礎(chǔ)上,提出殘差特征增強(qiáng)通道,將骨干網(wǎng)絡(luò)前向傳播得到的原始特征圖與特征金字塔的融合特征圖連接,并設(shè)計(jì)自適應(yīng)插值融合模塊將兩者融合,增強(qiáng)網(wǎng)絡(luò)的特征表達(dá)能力。在RPN網(wǎng)絡(luò)中利用錨點(diǎn)框生成模塊自動(dòng)學(xué)習(xí)錨點(diǎn)框的位置和長(zhǎng)寬,避免了人工預(yù)設(shè)錨點(diǎn)框形狀和大小等相關(guān)參數(shù)所帶來(lái)的限制。在分類(lèi)回歸網(wǎng)絡(luò)中借鑒Cascade R-CNN中的級(jí)聯(lián)思想,將多個(gè)分類(lèi)回歸階段級(jí)聯(lián),前一個(gè)階段回歸得到的邊框區(qū)域作為候選區(qū)域輸入到下一個(gè)分類(lèi)回歸階段,通過(guò)逐次提高各個(gè)階段的交并比(Intersection over Union, IoU)閾值來(lái)找到IoU更高的正樣本。

圖1 目標(biāo)檢測(cè)整體流程Fig.1 The flowchart of our method

2.1 特征提取網(wǎng)絡(luò)

經(jīng)研究表明,大尺度感受野對(duì)大尺度目標(biāo)特征提取效果較好,小尺度感受野對(duì)小尺度目標(biāo)特征提取效果較好[22],因此本文使用不同膨脹率的空洞卷積來(lái)改變卷積層濾波器的感受野大小,提高網(wǎng)絡(luò)多尺度特征提取能力。已有的算法通常使用原始的ResNet網(wǎng)絡(luò)進(jìn)行特征提取,而本文將ResNet網(wǎng)絡(luò)前向傳播過(guò)程中的所有卷積核為3×3的標(biāo)準(zhǔn)卷積層全部替換為SAC模塊,增加網(wǎng)絡(luò)感受野大小的多樣性。SAC模塊結(jié)構(gòu)如圖2所示,在SAC模塊的首部和尾部分別設(shè)計(jì)兩個(gè)全局上下文信息模塊,降低噪聲的干擾, 增強(qiáng)目標(biāo)信息,達(dá)到特征優(yōu)選的目的。輸入的特征首先通過(guò)一個(gè)全局平均池化層進(jìn)行壓縮,然后連接一個(gè)1×1的卷積層,將卷積得到的特征圖與輸入特征圖相加,這種上下文模塊可以有效的豐富特征圖的全局信息,利于提取更穩(wěn)健的特征信息。SAC的中間部分分為三條支路,其中上下兩條分別是膨脹率為1和r的空洞卷積支路,中間一條支路即可切換函數(shù)S(.),由一個(gè)5×5的平均池化層和一個(gè)1×1卷積層組成,將得到的結(jié)果分別乘以其他兩個(gè)支路得到的特征圖,然后將兩者相加得到融合的特征圖。若在特征圖某個(gè)位置的S值大于 0.5,則融合特征圖的大部分信息來(lái)自膨脹率為1的分支,若S值小于0.5則最終特征圖中的信息大部分來(lái)自膨脹率為r的分支。在訓(xùn)練過(guò)程中,利用預(yù)訓(xùn)練模型的權(quán)重來(lái)初始化膨脹率為r的卷積層的權(quán)重,具體的轉(zhuǎn)化如公式(1)所示:

圖2 SAC模塊結(jié)構(gòu)Fig.2 The architecture of SAC model

(1)

其中x是輸入的特征圖,1和r是SAC的超參數(shù),也即膨脹率,這里設(shè)置r=3,w是預(yù)訓(xùn)練模型的權(quán)重,Δw是可訓(xùn)練的權(quán)重,初始化為0。

2.2 特征融合網(wǎng)絡(luò)EFPN

為了改善多尺度目標(biāo)的檢測(cè)效果,現(xiàn)有的算法通常在特征融合網(wǎng)絡(luò)部分使用特征金字塔結(jié)構(gòu),通過(guò)橫向連接中的1×1的卷積直接將原始特征圖通道數(shù)降到256[23],在通道減少的同時(shí)也會(huì)損失一部分的原始特征圖通道特征信息,并且融合相鄰層次的原始特征圖在增加其他特征層特征信息的同時(shí)也會(huì)對(duì)本層特征信息產(chǎn)生弱化作用?；谝陨峡紤]本文在特征融合網(wǎng)絡(luò)中增加了一條殘差特征增強(qiáng)通道,通過(guò)增強(qiáng)空間上下文信息來(lái)彌補(bǔ)通道減少帶來(lái)的信息丟失,在特征金字塔融合特征圖的基礎(chǔ)上,將對(duì)應(yīng)層的原始特征圖信息經(jīng)過(guò)一個(gè)聚合模塊,該模塊使用不同的比例參數(shù)α1、α2、α3來(lái)進(jìn)行自適應(yīng)池化操作實(shí)現(xiàn)下采樣,提取不同尺度的上下文信息。下采樣后的寬高分別αi×w、αi×h,接著利用一個(gè)1×1的卷積將不同尺度的特征圖的通道維持在256,再利用雙線(xiàn)性插值將三者上采樣到w×h大小,接著對(duì)上采樣結(jié)果進(jìn)行自適應(yīng)空間融合。融合的過(guò)程也即提取注意力的過(guò)程,首先將三個(gè)上采樣結(jié)果concat,然后逐次經(jīng)過(guò)一個(gè)1×1和3×3的卷積,最后利用sigmoid函數(shù)得到最后的注意力圖,通過(guò)split操作將得到的總注意力圖分離成三個(gè)子注意力分別應(yīng)用于對(duì)應(yīng)的輸入特征圖,最后將三個(gè)包含不同尺度上下文信息的特征圖聚合后注入到原始的融合特征圖中,使得特征得到進(jìn)一步的增強(qiáng)。具體的融合過(guò)程如圖3所示。

圖3 EFPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The architecture of EFPN

2.3 候選區(qū)域生成網(wǎng)絡(luò)ARPN

常用的RPN網(wǎng)絡(luò)需要針對(duì)不同的任務(wù)人工預(yù)定義一組錨點(diǎn)框的尺度和長(zhǎng)寬比,這在很大程度上依賴(lài)于先驗(yàn)知識(shí),若預(yù)設(shè)的參數(shù)與數(shù)據(jù)集不匹配則會(huì)很大程度的影響目標(biāo)檢測(cè)精度?？紤]到包含目標(biāo)的錨點(diǎn)框的位置和長(zhǎng)寬與圖像內(nèi)容、感興趣目標(biāo)的位置和形狀密切相關(guān),同時(shí)為了降低計(jì)算成本,生成相對(duì)稀疏的高質(zhì)量的錨點(diǎn)框,本文在RPN中使用錨點(diǎn)自動(dòng)生成模塊代替?zhèn)鹘y(tǒng)的錨點(diǎn)框生成法。如圖4所示,首先將輸入的融合特征圖送入兩個(gè)分支,一個(gè)分支對(duì)錨點(diǎn)框位置進(jìn)行預(yù)測(cè),對(duì)特征圖進(jìn)行1×1的卷積得到尺寸不變的概率圖,其維度為W×H×1,其中每個(gè)位置上的值表示在該位置存在目標(biāo)中心的可能性,然后使用Sigmoid函數(shù)將其轉(zhuǎn)換成概率值。同時(shí)設(shè)定一個(gè)閾值,當(dāng)某個(gè)位置的概率值高于閾值時(shí),就認(rèn)為在該位置可能存在目標(biāo)。另一個(gè)分支對(duì)錨點(diǎn)框的形狀進(jìn)行預(yù)測(cè),對(duì)輸入的特征圖進(jìn)行1×1的卷積,生成一個(gè)維度為W×H×2的兩通道映射圖,分別對(duì)應(yīng)每個(gè)位置候選框的偏移量dw和dh,然后通過(guò)一個(gè)逐元素的非線(xiàn)性變換層將其映射為候選框的w、h,具體的變換如公式(2)所示。

圖4 ARPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The architecture of ARPN

w=σ·s·edw,h=σ·s·edh

(2)

其中s是步幅,σ是經(jīng)驗(yàn)比例因子,本文設(shè)為8。通過(guò)預(yù)測(cè)特征圖中每個(gè)位置的最佳形狀,使其最大程度的接近真值框區(qū)域。結(jié)合兩條支路的預(yù)測(cè)結(jié)果,即可得到最終的錨點(diǎn)框。常用的RPN中每個(gè)位置的錨點(diǎn)框都均勻的享有相同的尺寸,在同一個(gè)卷積層的不同位置,感受野的尺寸是相同的,因此特征圖可以學(xué)習(xí)到連續(xù)的特征表示,而錨點(diǎn)自動(dòng)生成模塊生成的不同位置上的錨點(diǎn)框可能具有不同的形狀和尺寸,并且由研究可知,較大錨點(diǎn)框在較大的區(qū)域上進(jìn)行編碼,較小的錨點(diǎn)框應(yīng)在較小的區(qū)域上進(jìn)行編碼[24],所以本文使用特征自適應(yīng)模塊對(duì)特征圖進(jìn)行調(diào)整,首先在上述錨點(diǎn)框形狀預(yù)測(cè)分支的輸出上使用1×1的卷積得到錨點(diǎn)框形狀的偏移量,然后通過(guò)3×3的形變卷積[25]將偏移量信息融入到輸入的特征圖中對(duì)其進(jìn)行調(diào)整。經(jīng)過(guò)這種設(shè)計(jì)使得特征的有效范圍和錨點(diǎn)框區(qū)域更加接近,得到更高質(zhì)量的錨點(diǎn)框區(qū)域。

2.4 損失函數(shù)

在本文算法中,由于加入了錨點(diǎn)框的位置預(yù)測(cè)和形狀預(yù)測(cè)兩個(gè)設(shè)計(jì),相應(yīng)的,在進(jìn)行端到端的訓(xùn)練時(shí)多任務(wù)損失函數(shù)也要進(jìn)行相應(yīng)的改變,除了基本的分類(lèi)損失和回歸損失之外,還需要學(xué)習(xí)錨點(diǎn)框的位置和形狀,因此還要再加上相對(duì)應(yīng)的兩個(gè)損失函數(shù)部分。完整的損失函數(shù)部分如公式(3)所示。

L=λ1Lloc+λ2Lshape+Lcls+Lreg

(3)

本文使用focal loss[7]計(jì)算錨點(diǎn)框的位置損失Lloc,通過(guò)減少易分類(lèi)樣本的權(quán)重,使得網(wǎng)絡(luò)更專(zhuān)注于難分類(lèi)的樣本,具體如公式(4)所示。

FL(pt)=-αt(1-pt)γlog(pt)

(4)

其中pt是錨點(diǎn)框區(qū)域?qū)儆谡龢颖净蜇?fù)樣本的概率,由公式(5)得到,其中y∈{±1},代表樣本類(lèi)別,p∈[0,1]是網(wǎng)絡(luò)對(duì)于樣本的標(biāo)簽類(lèi)別為1的概率估計(jì)。αt為權(quán)重參數(shù),由公式(5)得到,其中α∈[0, 1]。公式(4)中的(1-pt)γ為調(diào)節(jié)因子,γ≥0為可調(diào)節(jié)聚焦參數(shù),當(dāng)pt→1時(shí),調(diào)節(jié)因子(1-pt)γ→0,因此易分類(lèi)樣本的權(quán)重就會(huì)減小,其對(duì)loss的貢獻(xiàn)越小,相反的,難分類(lèi)樣本的權(quán)重會(huì)增大,進(jìn)而使得網(wǎng)絡(luò)更加關(guān)注難分類(lèi)樣本,通過(guò)這種動(dòng)態(tài)調(diào)節(jié)方式盡可能的緩解樣本的不平衡問(wèn)題。

(5)

在學(xué)習(xí)錨點(diǎn)框的長(zhǎng)寬時(shí),常用的方法是先計(jì)算出和當(dāng)前真值最匹配的寬高,然后計(jì)算損失函數(shù),但是本文采用的方法中錨點(diǎn)框的形狀不固定,所以要尋找和真值的IoU盡可能大的寬高,實(shí)際計(jì)算非常復(fù)雜,因此為了盡可能高效的在連續(xù)的寬和高的取值范圍內(nèi)找到最優(yōu)值,我們對(duì)w和h的一些常用值進(jìn)行采樣,以模擬所有w和h的枚舉,從理論上講,采樣的對(duì)越多,則近似值越準(zhǔn)確,但計(jì)算量會(huì)越大,因此本文借鑒RPN網(wǎng)絡(luò)中預(yù)設(shè)錨框的思想,使用9對(duì)w和h,也即給定一個(gè)錨點(diǎn)框的中心點(diǎn),使用9對(duì)w和h得到的錨框來(lái)計(jì)算不同位置預(yù)設(shè)錨框與真值框的IoU,在這9對(duì)寬高中找到最大的IoU值用作vIoU(awh,gt)的近似值。其中預(yù)設(shè)錨框的相關(guān)參數(shù)設(shè)置參考文獻(xiàn)[7],錨框尺寸分別為{20,21/3,22/3},寬高比分別為{0.5,1.0,2.0}。使用公式(6)計(jì)算不固定形狀的錨點(diǎn)框和真值框之間的IoU。

(6)

其中IoUnormal表示常用的IoU計(jì)算方法,awh表示變化的錨點(diǎn)框的長(zhǎng)和寬,gt表示地面真值的長(zhǎng)和寬。最后利用bounded IoU loss[26]計(jì)算錨點(diǎn)框的形狀損失Lshape。具體如公式(7)所示。

(7)

其中w,h,wg,hg分別表示錨點(diǎn)框和地面真值的寬和高,L1表示smooth L1 loss[27]。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

本文在NWPU VHR-10遙感數(shù)據(jù)集[28]上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集總共包含分辨率及尺寸不一的650幅圖像,目標(biāo)一共被標(biāo)記為如表1所示的十個(gè)類(lèi)別,其中每類(lèi)目標(biāo)都涵蓋了多種不同的形狀和尺度。為滿(mǎn)足卷積神經(jīng)網(wǎng)絡(luò)對(duì)于大量數(shù)據(jù)的需求,需要通過(guò)裁剪,旋轉(zhuǎn)和翻轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)擴(kuò)充。為了降低十類(lèi)目標(biāo)數(shù)量的差異,我們對(duì)包含橋梁、田徑場(chǎng)、籃球場(chǎng)和港口四類(lèi)目標(biāo)的圖像分別進(jìn)行水平翻轉(zhuǎn)和垂直翻轉(zhuǎn),然后進(jìn)行一次隨機(jī)的亮度調(diào)整。得到最終的數(shù)據(jù)集后將其劃分為訓(xùn)練集和測(cè)試集,本文隨機(jī)選取了其中60%作為訓(xùn)練集,其余的作為測(cè)試集,其中訓(xùn)練集中樣本量為8431,測(cè)試集中樣本量為5453。

表1 NWPU VHR-10數(shù)據(jù)集目標(biāo)信息統(tǒng)計(jì)

本文實(shí)驗(yàn)所采用的硬件配置為Intel i9-CPU,NIVIDIA GeForce RTX 2080 Ti顯卡,采用深度學(xué)習(xí)工具包Pytorch完成實(shí)驗(yàn)。本文采用平均精度(average precision, AP)和平均精度均值(Mean Average Precision,mAP)作為評(píng)價(jià)指標(biāo),AP是每類(lèi)目標(biāo)的平均檢測(cè)精度,mAP是針對(duì)數(shù)據(jù)集中十類(lèi)目標(biāo)的總體評(píng)價(jià)指標(biāo),值越高越好。

3.2 參數(shù)討論

為了找到更合適的參數(shù)設(shè)置,本文在RSOD數(shù)據(jù)集[11]上對(duì)SAC模塊中的膨脹率r以及特征融合網(wǎng)絡(luò)中的比例參數(shù)αi進(jìn)行了實(shí)驗(yàn)并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行討論分析。首先按照3.1節(jié)所述對(duì)數(shù)據(jù)集進(jìn)行處理,然后按照表2中不同的參數(shù)取值組合進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。

由表2可知,隨著SAC中膨脹率r以及特征增強(qiáng)網(wǎng)絡(luò)中的αi在不同的值時(shí),得到mAP差異較大,這說(shuō)明參數(shù)的設(shè)置對(duì)網(wǎng)絡(luò)檢測(cè)性能的影響至關(guān)重要。在SAC中膨脹率r在分別設(shè)置為1、3、5時(shí),隨著αi取值不斷增大,mAP的變化雖偶有波動(dòng),但總體趨勢(shì)是在不斷減小,這表明在特征融合網(wǎng)絡(luò)中,設(shè)置較小的比例參數(shù)可使獲得的不同尺度的上下文信息更好的彌補(bǔ)減少通道中的信息損失,使得融合特征圖的信息更加豐富。通過(guò)橫向?qū)Ρ劝l(fā)現(xiàn),在三組膨脹率r的實(shí)驗(yàn)中,r為3時(shí)的mAP為最高,r為1時(shí)的mAP最低,這說(shuō)明使用空洞卷積可以使網(wǎng)絡(luò)更有效的提取多尺度特征信息,但將膨脹率設(shè)置太大,反而減弱這種改善效果,導(dǎo)致mAP降低,檢測(cè)性能下降。結(jié)合實(shí)驗(yàn)結(jié)果及上述分析,發(fā)現(xiàn)設(shè)置膨脹率r為3,融合比例參數(shù)αi分別為0.1、0.2以及0.3時(shí),網(wǎng)絡(luò)的mAP最高,檢測(cè)性能最好。

表2 不同參數(shù)的影響分析

3.3 消融實(shí)驗(yàn)

為了分析算法中各個(gè)模塊的有效性,本文設(shè)計(jì)了七組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示,隨著SAC、EFPN以及ARPN模塊的加入,算法的檢測(cè)精度逐漸提高。實(shí)驗(yàn)1中是基礎(chǔ)算法,沒(méi)有加入任何模塊。實(shí)驗(yàn)2加入SAC模塊,mAP提升0.7%,因此在骨干網(wǎng)絡(luò)中加入空洞卷積可以動(dòng)態(tài)的選擇感受野,有效的改善多尺度特征的提取。實(shí)驗(yàn)3加入EFPN模塊,mAP相比于實(shí)驗(yàn)1增加了0.8%,證明通過(guò)短接支路可以成功的增強(qiáng)特征圖中的有效信息。實(shí)驗(yàn)4加入了ARPN 模塊,相比于實(shí)驗(yàn)1,mAP值增加了0.8%,證明錨點(diǎn)框自動(dòng)生成模塊的有效性。由前四組實(shí)驗(yàn)可知,SAC、EFPN以及ARPN三個(gè)模塊都可以在不同程度上改善算法的檢測(cè)性能。實(shí)驗(yàn)5在基礎(chǔ)算法上同時(shí)加入了SAC和ARPN模塊,mAP比基礎(chǔ)算法提升了1.2%,實(shí)驗(yàn)6同時(shí)加入了SAC和EFPN模塊,mAP提升了1.1%,實(shí)驗(yàn)7同時(shí)加入EFPN和ARPN模塊,mAP提升了1.4%,最后一組實(shí)驗(yàn)同時(shí)加入三個(gè)模塊,也即本文所提算法,mAP值為99.2%,比基礎(chǔ)算法提高了1.9%。綜合以上8組實(shí)驗(yàn)結(jié)果可知,本文所提算法中可以更有效的挖掘多尺度特征信息,有效增強(qiáng)了算法的尺度自適應(yīng)性,提高了算法的檢測(cè)性能。

表3 不同模塊對(duì)檢測(cè)性能的影響

3.4 實(shí)驗(yàn)結(jié)果及分析

為了證明本文方法的有效性,本文對(duì)比分析了多個(gè)經(jīng)典目標(biāo)檢測(cè)算法,不同算法的mAP統(tǒng)計(jì)結(jié)果如表4所示,每類(lèi)目標(biāo)中的最高AP用黑色粗體表示。

表4 不同算法檢測(cè)性能對(duì)比

由表4可知, 在NWPU VHR-10數(shù)據(jù)集上RICNN[28]算法的mAP值為72.6%, 在幾類(lèi)對(duì)比方法中檢測(cè)精度最低,該算法沒(méi)有對(duì)得到的邊界框位置進(jìn)行回歸和優(yōu)化,而是直接將提取的深度特征輸入到支持向量機(jī)中進(jìn)行分類(lèi),因此檢測(cè)精度較低。FRCN-VGG是基于VGG[29]的Faster RCNN算法,該算法使用RPN網(wǎng)絡(luò)預(yù)先篩選候選區(qū)域,同時(shí)對(duì)候選區(qū)域的深度特征進(jìn)行分類(lèi)和回歸學(xué)習(xí),使得其檢測(cè)精度相對(duì)于RICNN提升了3.8%,但相對(duì)于其他算法檢測(cè)精度仍是較低。YOLO[5]由于其本身算法的設(shè)計(jì),只有一個(gè)目標(biāo)分類(lèi)和回歸的階段,因此會(huì)存在較多的漏檢和誤檢,并且該方法需要對(duì)特征圖進(jìn)行網(wǎng)格劃分,因此不適用于小尺度以及排列密集的目標(biāo)檢測(cè)任務(wù)。SSD算法相比于YOLO使用了多個(gè)層次的特征圖,提高了于目標(biāo)的尺度自適應(yīng)性,檢測(cè)精度也有所提高。與YOLO算法相比,YOLOv3[30]使用了新的網(wǎng)絡(luò)結(jié)構(gòu)darknet53,并且借鑒了殘差網(wǎng)絡(luò)的做法,加入殘差通道,同時(shí)利用多個(gè)尺度的特征圖進(jìn)行預(yù)測(cè),這在一定程度上改善了多尺度目標(biāo)檢測(cè)的效果,檢測(cè)精度得到提升。

FRCN-Deform是以RseNet網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)并加入形變卷積和形變池化[25]的Faster RCNN算法, ResNet網(wǎng)絡(luò)通過(guò)疊加殘差單元來(lái)實(shí)現(xiàn)更深層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得網(wǎng)絡(luò)可以學(xué)得更高質(zhì)量的特征,并且在形變卷積和形變池化的加持下,網(wǎng)絡(luò)可以根據(jù)目標(biāo)的形狀自動(dòng)調(diào)整感受野,因此其檢測(cè)精度達(dá)到91.7%。R-FCN[2]算法設(shè)計(jì)了位置敏感得分映射來(lái)對(duì)目標(biāo)空間位置信息進(jìn)行建模,同時(shí)將全部池化層和全連接層替換為卷積層,實(shí)現(xiàn)了所有卷積層的計(jì)算共享,避免了重復(fù)計(jì)算,進(jìn)一步提高了檢測(cè)精度和速度。FPN是在以ResNet為骨干網(wǎng)絡(luò)的Faster RCNN中設(shè)計(jì)了特征金字塔網(wǎng)絡(luò),通過(guò)逐次融合多個(gè)層次的特征圖將不同尺度的特征信息融合在一起,然后進(jìn)行多尺度訓(xùn)練和檢測(cè),使得檢測(cè)精度達(dá)到93.1%,后續(xù)很多算法都借鑒了這種特征融合結(jié)構(gòu)。RetinaNet[7]網(wǎng)絡(luò)在單階段算法中使用特征金字塔結(jié)構(gòu),同時(shí)在訓(xùn)練中引入了Focal loss來(lái)調(diào)整不同樣本所分配的權(quán)重,若為易分類(lèi)樣本,則減小其所對(duì)應(yīng)的權(quán)重,若為難分類(lèi)樣本則提高其所對(duì)應(yīng)的權(quán)重,通過(guò)動(dòng)態(tài)的權(quán)重調(diào)整來(lái)解決正負(fù)樣本不平衡的問(wèn)題,在這種策略下該算法檢測(cè)精度提升到94.2%。NAS-FPN[31]以RetinaNet算法為基礎(chǔ),在一個(gè)覆蓋所有跨尺度連接的可擴(kuò)展搜索空間中,使用神經(jīng)網(wǎng)絡(luò)搜索找到一種性能最好的特征金字塔結(jié)構(gòu),與FPN相比,檢測(cè)精度提升了2.6%。MSDN[32]和MSCNN[33]算法則是分別在算法中的特征提取部分使用了形變卷積和空洞卷積,并且使用多層特征圖進(jìn)行分類(lèi)回歸,有效改善了不同尺度目標(biāo)的檢測(cè)效果。Mask-RCNN則是在以ResNet為骨干網(wǎng)絡(luò)的Faster RCNN中原本的兩個(gè)分支(分類(lèi)+回歸)上增加了第三個(gè)支路用于語(yǔ)義分割,同時(shí)將損失函數(shù)改變?yōu)榉诸?lèi)損失、回歸損失和掩膜損失三者之和,利用掩膜分支來(lái)為目標(biāo)檢測(cè)提供輔助信息,其檢測(cè)精度相比于NAS-FPN提高了1.1%。Cascade-RCNN算法則是利用迭代的思想級(jí)聯(lián)了幾個(gè)檢測(cè)網(wǎng)絡(luò),不斷提高子檢測(cè)網(wǎng)絡(luò)的IoU閾值,從而達(dá)到不斷優(yōu)化預(yù)測(cè)結(jié)果的目的,在本文實(shí)驗(yàn)中該算法的檢測(cè)精度達(dá)到97.3%,是對(duì)比算法中最優(yōu)檢測(cè)算法。相比于上述對(duì)比算法,本文所提算法取得了最高檢測(cè)精度99.2%,針對(duì)艦船目標(biāo)比次優(yōu)算法檢測(cè)精度高出1.6%,對(duì)油罐目標(biāo)比次優(yōu)算法檢測(cè)精度高出2.3%,對(duì)于棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)以及田徑場(chǎng)網(wǎng)球場(chǎng)目標(biāo)則是全部都被檢測(cè)到,檢測(cè)精度達(dá)到百分百。對(duì)于港口目標(biāo)比次優(yōu)算法檢測(cè)精度高出5.1%,對(duì)于橋梁目標(biāo)比次優(yōu)算法檢測(cè)精度高出3.6%,對(duì)于車(chē)輛目標(biāo)比次優(yōu)算法檢測(cè)精度高出4.1%。對(duì)比可知,飛機(jī)、油罐、棒球場(chǎng)、田徑場(chǎng)等幾類(lèi)目標(biāo)在所列出的對(duì)比算法中的檢測(cè)精度差別不大,這是因?yàn)樵陲w機(jī)和油罐等目標(biāo)的邊界框形狀比較規(guī)則,并且棒球場(chǎng)和田徑場(chǎng)的尺度相對(duì)較大,語(yǔ)義信息相對(duì)豐富,因此檢測(cè)效果相近。而對(duì)于艦船、港口、橋梁和車(chē)輛等幾類(lèi)目標(biāo)檢測(cè)效果相差較大,本文算法在這幾類(lèi)目標(biāo)的檢測(cè)效果均為最優(yōu),因?yàn)榕灤蛙?chē)輛等目標(biāo)尺度較小,經(jīng)過(guò)若干次的卷積操作之后,損失了部分特征信息,而本文所提算法中的特征增強(qiáng)模塊可以有效的解決小尺度目標(biāo)檢測(cè)效果較差的問(wèn)題。對(duì)于網(wǎng)球場(chǎng)、棒球場(chǎng)、港口和橋梁等目標(biāo),則是由于其長(zhǎng)寬比差異較大,針對(duì)這種情況,預(yù)先尋找到更為合適的候選區(qū)域?qū)罄m(xù)的分類(lèi)回歸影響極大,而本文中的錨點(diǎn)自動(dòng)生成模塊可以有效的緩解這個(gè)問(wèn)題。圖5分別展示了本文所提算法以及幾種對(duì)比算法的檢測(cè)結(jié)果示例。從圖中也可以看出。幾種對(duì)比算法中不乏存在漏檢、錯(cuò)誤檢測(cè)以及重疊的情況存在。對(duì)比之下,本文算法針對(duì)多類(lèi)多尺度目標(biāo)的檢測(cè)效果更勝一籌。

圖5 對(duì)比算法檢測(cè)結(jié)果示例Fig.5 Detection results with different methods

3.5 擴(kuò)展實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文所提算法的有效性,搜集制作了光學(xué)遙感飛機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集。首先從網(wǎng)上搜集美國(guó)、日本、俄羅斯以及歐洲多個(gè)國(guó)家的主要飛機(jī)類(lèi)型以及相關(guān)參數(shù)信息,并找到相應(yīng)類(lèi)別飛機(jī)常駐地的地理坐標(biāo),利用這些坐標(biāo)從谷歌地球上下載相應(yīng)地點(diǎn)的光學(xué)遙感數(shù)據(jù),圖像分辨率為0.6 m,共計(jì)下載約833幅大場(chǎng)景遙感圖像,均包含一個(gè)完整的機(jī)場(chǎng)。最后綜合各方面的信息,確定無(wú)誤之后在大圖上進(jìn)行人工標(biāo)注。此時(shí)數(shù)據(jù)集中飛機(jī)目標(biāo)相關(guān)信息如表5所示。標(biāo)注完成后對(duì)原始圖像進(jìn)行如3.1節(jié)所述的裁剪和旋轉(zhuǎn),最后從擴(kuò)充數(shù)據(jù)集中隨機(jī)抽取60%作為訓(xùn)練集,其余作為測(cè)試集。實(shí)驗(yàn)中初始學(xué)習(xí)率設(shè)置為0.0025,動(dòng)量設(shè)置為0.9,正則化系數(shù)設(shè)置為0.0005,批量處理大小為2。

表5 飛機(jī)目標(biāo)數(shù)據(jù)集中的目標(biāo)相關(guān)信息

從表5可以看出所制作的飛機(jī)數(shù)據(jù)集所含目標(biāo)種類(lèi)較多,且同類(lèi)目標(biāo)以及不同類(lèi)目標(biāo)之間都有著較大的尺寸差異,符合包含多類(lèi)多尺度目標(biāo)的條件,經(jīng)過(guò)數(shù)據(jù)擴(kuò)充數(shù)據(jù)量訓(xùn)練樣本為15788,測(cè)試樣本數(shù)量為9738,可以滿(mǎn)足神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集規(guī)模的要求。

由眾多文獻(xiàn)以及前面的實(shí)驗(yàn)可知已知Cascade-RCNN算法為對(duì)比算法中性能最優(yōu)的算法,因此本節(jié)擴(kuò)展實(shí)驗(yàn)僅使用Cascade-RCNN (表格中簡(jiǎn)稱(chēng)為Casc)算法以及本章所提算法在飛機(jī)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),并對(duì)兩者的性能進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表6所示。

表6 兩類(lèi)算法針對(duì)飛機(jī)目標(biāo)數(shù)據(jù)集的檢測(cè)精度

對(duì)比可知在飛機(jī)數(shù)據(jù)集上本文所提方法性能依然優(yōu)于Cascade-RCNN算法,與之相比,本文所提方法的mAP提高了8.4%,且在20類(lèi)目標(biāo)中有16類(lèi)目標(biāo)的平均檢測(cè)精度最優(yōu)。從表格6中可知,對(duì)于B-1、C-5、F-15和E-3四類(lèi)目標(biāo),Cascade-RCNN的檢測(cè)效果優(yōu)于本文所提算法,在遙感圖像中,F-15外形以及尺寸和F-16極其相似,肉眼分辨都具有一定難度。并且經(jīng)常會(huì)為這些飛機(jī)目標(biāo)涂上偽裝顏色使其與周?chē)沫h(huán)境融為一體,增加了分類(lèi)的難度,因此存在漏檢和誤檢情況,檢測(cè)效果較差一些,同時(shí)這也對(duì)該遙感領(lǐng)域目標(biāo)檢測(cè)技術(shù)提出了更高的要求。對(duì)于較小尺度的飛機(jī)目標(biāo)如F- 4、EA- 6B、CH- 46等目標(biāo),本文所提算法的檢測(cè)精度得到了大幅度的提升,其AP值分別提高了45%、30.9%、44.2%,這三類(lèi)目標(biāo)在數(shù)據(jù)集中屬于尺度較小的目標(biāo),除此之外還有Trainer、A-10以及F-5等小尺度飛機(jī)目標(biāo)的檢測(cè)精度也分別有不同程度的提升,由此可知本文所提算法對(duì)小尺度目標(biāo)的檢測(cè)效果非常好,印證了本文的特征增強(qiáng)策略可以彌補(bǔ)網(wǎng)絡(luò)多次卷積和下采樣所帶來(lái)的小尺度目標(biāo)信息丟失,有效的增強(qiáng)小尺度目標(biāo)特征信息,提高小尺度目標(biāo)的檢測(cè)效果。本文所提算法對(duì)于如F-16、P-3、Plane以及Busine等中等尺度的飛機(jī)目標(biāo)的檢測(cè)性能也比較優(yōu)異,這些目標(biāo)的尺度相對(duì)較大,可辨識(shí)的深層抽象語(yǔ)義特征也比較豐富,因此對(duì)于中等尺度飛機(jī)目標(biāo)的分類(lèi)和定位也比較準(zhǔn)確,分別比Cascade-RCNN算法的AP值提升了0.8%、5.7%、1.9%和14.2%。不難看出本文所提方法針對(duì)飛機(jī)數(shù)據(jù)集中的絕大部分目標(biāo)都比較友好,充分證明了本文所提方法在多類(lèi)多尺度目標(biāo)檢測(cè)任務(wù)中的優(yōu)勢(shì)。圖6展示了部分本文所提算法在飛機(jī)數(shù)據(jù)集上的檢測(cè)結(jié)果示例。

圖6 本文所提算法在飛機(jī)數(shù)據(jù)集上部分檢測(cè)結(jié)果Fig.6 Number of object detection results on aircraft dataset of the algorithm proposed

4 結(jié)論

針對(duì)遙感圖像中不同尺度目標(biāo)檢測(cè)算法精度有待提高的問(wèn)題,本文設(shè)計(jì)了一種基于特征增強(qiáng)和錨點(diǎn)自動(dòng)生成模塊的多類(lèi)多尺度目標(biāo)檢測(cè)框架。該框架以ResNet50為基礎(chǔ)網(wǎng)絡(luò),并在ResNet50中引入可操控的空洞卷積模塊來(lái)調(diào)整卷積感受野大小,有效提取不同尺度的目標(biāo)特征信息。在特征融合網(wǎng)絡(luò)部分設(shè)計(jì)了增強(qiáng)特征金字塔,構(gòu)造短接支路將原始特征圖信息與金字塔特征圖融合,實(shí)現(xiàn)特征增強(qiáng),有效提高網(wǎng)絡(luò)對(duì)多尺度信息的表征能力。在候選區(qū)域生成網(wǎng)絡(luò)中利用錨點(diǎn)自動(dòng)生成模塊學(xué)習(xí)更加準(zhǔn)確的錨點(diǎn)框信息,生成更高質(zhì)量的稀疏的錨點(diǎn)框。綜上幾點(diǎn)分析以及在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文所提方法對(duì)于多類(lèi)多尺度目標(biāo)的特征提取效果更加友好,能夠更加準(zhǔn)確的檢測(cè)遙感圖像多尺度目標(biāo)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放