董志鵬,王 密,2,李德仁,2,王艷麗,張致齊
1. 武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079; 2. 地球空間信息協(xié)同創(chuàng)新中心,湖北 武漢 430079
隨著地對地觀測技術(shù)的發(fā)展,高分辨率遙感影像的數(shù)據(jù)獲取量越來越大,且已被廣泛用于城市規(guī)劃、災(zāi)害監(jiān)測、農(nóng)業(yè)管理和軍事偵察等方面[1-3]。在大數(shù)據(jù)條件下,如何自動化、智能化地實(shí)現(xiàn)高分辨率遙感影像目標(biāo)檢測與識別,對高分辨率遙感影像應(yīng)用價(jià)值的發(fā)揮具有重要影響[4]。為此,國內(nèi)外學(xué)者開展了大量的研究,其中許多研究方法主要使用人工設(shè)計(jì)的影像目標(biāo)特征進(jìn)行目標(biāo)檢測與識別,如梯度直方圖(histogram of oriented gradient,HOG)[5]、局部二值模式(local binary patterns,LBP)[6]、尺度不變特征變換(scale-invariant feature transform,SIFT)[7]和Gabor[8]等特征,然后將這些特征以特征量的形式輸入到傳統(tǒng)的分類器,如支持向量機(jī)(support vector machine,SVM)[5,7]、AdaBoost[9]、決策樹[10]等進(jìn)行分類,在特定的目標(biāo)識別任務(wù)中取得了較好的效果。但由于遙感衛(wèi)星復(fù)雜多變的拍攝條件,傳統(tǒng)的目標(biāo)檢測與識別算法難以適應(yīng)不同情況下的遙感影像,算法的穩(wěn)健性、普適性較差[11-12]。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為最熱門的深度學(xué)習(xí)模型算法,其不需要人為設(shè)計(jì)目標(biāo)特征,且會根據(jù)海量數(shù)據(jù)和標(biāo)注自行進(jìn)行有效特征提取和學(xué)習(xí)[13-14]。在訓(xùn)練數(shù)據(jù)充足的情況下,模型具有良好的泛化能力,能夠在復(fù)雜多變的條件下依然保持良好的穩(wěn)健性[15-16]。因此,卷積神經(jīng)網(wǎng)絡(luò)模型已被廣泛應(yīng)用于圖像目標(biāo)檢測與識別領(lǐng)域。如文獻(xiàn)[17]提出regional CNN(RCNN)算法,該算法將候選區(qū)域提取算法與CNN相結(jié)合,首先使用selective search算法提取圖像的候選區(qū)域,然后通過CNN對候選區(qū)域進(jìn)行特征提取,最后根據(jù)特征使用SVM進(jìn)行區(qū)域分類,實(shí)現(xiàn)圖像的目標(biāo)檢測與識別。文獻(xiàn)[18]為了減少文獻(xiàn)[17]中CNN對重疊候選區(qū)域的重復(fù)計(jì)算,提出spatial pyramid pooling net(SPPNet)算法。該算法只對CNN最后一層卷積層特定區(qū)域進(jìn)行一次池化操作,輸出候選區(qū)域的特征用于分類實(shí)現(xiàn)目標(biāo)檢測與識別,極大提高了模型的訓(xùn)練和測試速度。文獻(xiàn)[19]提出Fast-RCNN算法,采用region of interest pooling(ROI pooling)層對CNN卷積層的特定區(qū)域進(jìn)行池化,并引入多任務(wù)訓(xùn)練函數(shù),使模型的訓(xùn)練和測試變得更加方便,且具有較高的目標(biāo)檢測與識別精度。文獻(xiàn)[20]對Fast-RCNN算法進(jìn)行進(jìn)一步加速,提出Faster-RCNN算法,用region proposal network(RPN)網(wǎng)絡(luò)代替selective search候選區(qū)域提取算法;RPN負(fù)責(zé)提取數(shù)量更少準(zhǔn)確率更高的候選區(qū)域,并與Fast-RCNN提取特征的網(wǎng)絡(luò)共享卷積層,進(jìn)一步減少計(jì)算量,檢測速度更快,且目標(biāo)檢測與識別精度優(yōu)于RCNN、Fast-RCNN算法。但上述卷積神經(jīng)網(wǎng)絡(luò)算法均是針對自然圖像設(shè)計(jì)的模型算法,相對于自然圖像,高分辨率遙感影像存在背景更加復(fù)雜、目標(biāo)區(qū)域范圍更小和同類目標(biāo)尺度變化更大等特點(diǎn)[21-22]。因此,上述卷積神經(jīng)網(wǎng)絡(luò)算法難以良好地學(xué)習(xí)與耦合高分辨率遙感影像目標(biāo)特征信息,對遙感影像目標(biāo)檢測與識別精度不高。
針對上述問題,本文提出基于高分辨率遙感影像目標(biāo)尺度特征的卷積神經(jīng)網(wǎng)絡(luò)檢測與識別方法。首先通過統(tǒng)計(jì)遙感影像目標(biāo)的尺度范圍,獲得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練與測試過程中目標(biāo)感興趣區(qū)域合適的尺度大小。然后根據(jù)目標(biāo)感興趣區(qū)域合適的尺度,提出基于高分辨率遙感影像目標(biāo)尺度特征的卷積神經(jīng)網(wǎng)絡(luò)檢測與識別架構(gòu)。最后通過定性對比試驗(yàn)和定量評價(jià)驗(yàn)證本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的有效性。
本文方法主要分為兩個(gè)步驟:①統(tǒng)計(jì)高分辨率遙感影像目標(biāo)的尺度范圍,獲得遙感影像目標(biāo)感興趣區(qū)域尺度大小;②根據(jù)目標(biāo)感興趣區(qū)域尺度,設(shè)計(jì)高分辨率遙感影像目標(biāo)檢測與識別卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。
高分辨率遙感衛(wèi)星通常在近地軌道對地球表面進(jìn)行成像,且成像過程中受光照、氣象條件等影響,生成的遙感影像存在影像內(nèi)容復(fù)雜、目標(biāo)尺度范圍較小,且不同時(shí)間段生成的遙感影像輻射差異較大等特點(diǎn)。在遙感衛(wèi)星特殊的成像條件下,為了充分統(tǒng)計(jì)影像典型目標(biāo)感興趣區(qū)域的尺度范圍,本文建立了一個(gè)包含飛機(jī)、儲存罐和船只的遙感影像目標(biāo)檢測與識別數(shù)據(jù)集WHU-RSone。該數(shù)據(jù)集中包含2460幅高分辨率遙感影像,影像大小為600×600像素~1372×1024像素。2460幅遙感影像中包含22 191個(gè)目標(biāo),其中7732個(gè)飛機(jī)(plane)目標(biāo)、10 572個(gè)儲存罐(storage-tank)目標(biāo)和3887個(gè)船只(ship)目標(biāo),具體信息如表1所示。
表1 WHU-RSone數(shù)據(jù)集目標(biāo)類別與數(shù)目
Tab.1 The category and number of objects in WHU-RSone data set
目標(biāo)類型目標(biāo)個(gè)數(shù)飛機(jī)7732存儲罐10572船只3887總計(jì)22191
WHU-RSone數(shù)據(jù)集中包含不同輻射亮度、不同尺度大小的目標(biāo)影像數(shù)據(jù),可以用于充分統(tǒng)計(jì)不同成像條件下遙感影像典型目標(biāo)感興趣區(qū)域的尺度范圍,圖1為WHU-RSone數(shù)據(jù)集中部分樣例目標(biāo)數(shù)據(jù)。在Faster-RCNN架構(gòu)中RPN網(wǎng)絡(luò)使用3種尺度(128、256和512)和3種比例(1∶2、1∶1和2∶1)生成9種目標(biāo)感興趣區(qū)域。9種目標(biāo)感興趣區(qū)域大小如圖2左側(cè)矩形框內(nèi)所示,9種目標(biāo)感興趣區(qū)域能覆蓋的區(qū)域范圍如圖3面積較大多邊形區(qū)域所示。
圖1 WHU-RSone目標(biāo)樣例數(shù)據(jù)Fig.1 Object sample data in WHU-RSone data set
圖2 目標(biāo)感興趣區(qū)域提取網(wǎng)絡(luò)Fig.2 Object region of interest extraction network
對WHU-RSone數(shù)據(jù)集中22 191個(gè)目標(biāo)尺寸進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)信息如圖4所示。在圖4中,WHU-RSone數(shù)據(jù)集中僅有6.95%的目標(biāo)尺寸處于中RPN網(wǎng)絡(luò)生成的9種目標(biāo)感興趣區(qū)域覆蓋的區(qū)域范圍內(nèi),RPN網(wǎng)絡(luò)生成的9種目標(biāo)感興趣區(qū)域難以有效耦合遙感影像典型目標(biāo)的尺寸大小。由于高分辨率遙感影像中典型目標(biāo)的尺度通常較小,需要對RPN網(wǎng)絡(luò)生成的感興趣區(qū)域尺度進(jìn)行改進(jìn),設(shè)置4種尺度(16、32、64和128)與3種比例(1∶2、1∶1和2∶1)獲得12種目標(biāo)感興趣區(qū)域。12種目標(biāo)感興趣區(qū)域大小如圖2右側(cè)矩形框內(nèi)所示,12種目標(biāo)感興趣區(qū)域能覆蓋的區(qū)域范圍大小如圖3面積較小多邊形區(qū)域所示。在圖4中,WHU-RSone數(shù)據(jù)集中有95.65%的目標(biāo)尺寸處于改進(jìn)后RPN網(wǎng)絡(luò)生成的12種目標(biāo)感興趣區(qū)域覆蓋的區(qū)域范圍內(nèi),幾乎所有的目標(biāo)尺寸均處于改進(jìn)后RPN網(wǎng)絡(luò)生成的12種目標(biāo)感興趣區(qū)域覆蓋的范圍內(nèi)。統(tǒng)計(jì)結(jié)果表明,設(shè)置的4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成的目標(biāo)感興趣區(qū)域能有效耦合遙感影像中典型目標(biāo)的尺度范圍。據(jù)此,在本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中,RPN網(wǎng)絡(luò)利用4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練與測試過程中目標(biāo)感興趣區(qū)域大小。
圖3 目標(biāo)感興趣區(qū)域覆蓋范圍Fig.3 Coverage area of object region of interest
圖4 目標(biāo)尺度分布范圍Fig.4 Object scale distribution range
借鑒Faster-RCNN架構(gòu)設(shè)計(jì),本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包括RPN網(wǎng)絡(luò)和目標(biāo)識別網(wǎng)絡(luò)。其中RPN網(wǎng)絡(luò)用于生成影像中的目標(biāo)感興趣區(qū)域,目標(biāo)識別網(wǎng)絡(luò)用于對RPN網(wǎng)絡(luò)中生成的目標(biāo)感興趣區(qū)域進(jìn)行識別分類及目標(biāo)區(qū)域坐標(biāo)回歸。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖如圖5所示。
圖5 本文卷積神經(jīng)網(wǎng)路架構(gòu)Fig.5 The proposed convolution neural network framework
1.2.1 RPN網(wǎng)絡(luò)
本文中RPN網(wǎng)絡(luò)用于提取目標(biāo)感興趣區(qū)域,生成的目標(biāo)感興趣區(qū)域用于架構(gòu)的目標(biāo)檢測與識別的訓(xùn)練與測試。本文架構(gòu)的RPN網(wǎng)絡(luò)采用4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成12種錨點(diǎn)用于得到卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的目標(biāo)感興趣區(qū)域,錨點(diǎn)示意圖如圖5矩形框內(nèi)所示。RPN網(wǎng)絡(luò)在最后一層特征圖上根據(jù)錨點(diǎn)生成目標(biāo)感興趣區(qū)域,對目標(biāo)感興趣區(qū)域進(jìn)行前景與背景的二分類及目標(biāo)感興趣區(qū)域坐標(biāo)回歸訓(xùn)練,使RPN網(wǎng)絡(luò)中的權(quán)重學(xué)習(xí)到預(yù)測目標(biāo)區(qū)域的能力。二分類與目標(biāo)區(qū)域坐標(biāo)回歸訓(xùn)練的損失函數(shù)L(p,t)的計(jì)算如下所示
(1)
(2)
(3)
(4)
(5)
1.2.2 目標(biāo)識別網(wǎng)絡(luò)
目標(biāo)識別網(wǎng)絡(luò)使用卷積層(convolution layer)、激活層(relu layer)和池化層(pooling layer)獲得影像特征圖(feature map)。本文分別使用Zeiler and Fergus(ZF)模型[23]和visual geometry group(VGG)模型[24]兩種經(jīng)典網(wǎng)絡(luò)模型獲得卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的特征圖,通過兩種不同的模型驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的有效性。RPN網(wǎng)絡(luò)將生成的目標(biāo)區(qū)域信息傳遞給目標(biāo)識別網(wǎng)絡(luò),目標(biāo)識別網(wǎng)絡(luò)結(jié)合目標(biāo)區(qū)域信息和網(wǎng)絡(luò)中最后一層特征圖,獲得目標(biāo)區(qū)域在特征圖上特征向量信息,將特征向量信息傳遞至ROI pooling層,獲得指定大小的特征向量信息。特征向量被傳遞至全連接層(fully-connected layer,F(xiàn)C)用于目標(biāo)識別分類和區(qū)域坐標(biāo)回歸訓(xùn)練和測試。目標(biāo)識別分類和區(qū)域坐標(biāo)回歸訓(xùn)練的損失函數(shù)L(p,k*,t,t*)計(jì)算如下所示
(6)
(7)
(8)
1.2.3 架構(gòu)訓(xùn)練與測試
本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)利用Caffe框架實(shí)現(xiàn),采用端到端的訓(xùn)練方式對RPN網(wǎng)絡(luò)和目標(biāo)識別網(wǎng)絡(luò)進(jìn)行訓(xùn)練。將RPN網(wǎng)絡(luò)損失和目標(biāo)識別網(wǎng)絡(luò)損失相加,利用隨機(jī)梯度下降法進(jìn)行反向傳播。訓(xùn)練過程中,使用ImageNet上訓(xùn)練好的模型初始化本文網(wǎng)絡(luò)模型參數(shù)。本文RPN網(wǎng)絡(luò)的batch大小為256,目標(biāo)識別網(wǎng)絡(luò)的batch大小為2000,網(wǎng)絡(luò)訓(xùn)練的動量為0.9,衰減因子為0.000 5,基礎(chǔ)學(xué)習(xí)速率為0.001,學(xué)習(xí)速率變化比率為0.1,每迭代50 000次變化學(xué)習(xí)速率,最大訓(xùn)練迭代次數(shù)為75 000。
在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)測試階段,將一幅遙感影像輸入卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),利用RPN網(wǎng)絡(luò)生成6000個(gè)目標(biāo)區(qū)域,對目標(biāo)區(qū)域進(jìn)行非極大值抑制,非極大值抑制的intersection over union(IoU)閾值為0.7。然后選取置信度排名前300的目標(biāo)區(qū)域傳遞至目標(biāo)識別網(wǎng)絡(luò),目標(biāo)識別網(wǎng)絡(luò)對300個(gè)目標(biāo)區(qū)域進(jìn)行分類識別及區(qū)域坐標(biāo)回歸,輸出目標(biāo)類別和區(qū)域坐標(biāo)。
大規(guī)模的學(xué)習(xí)樣本是支撐深度學(xué)習(xí)發(fā)揮高性能的基礎(chǔ)。為此,本文建立了一個(gè)包含2460幅遙感影像的目標(biāo)檢測與識別數(shù)據(jù)集WHU-RSone。數(shù)據(jù)集中包含22 191個(gè)目標(biāo),其中7732個(gè)飛機(jī)目標(biāo)、10 572個(gè)存儲罐目標(biāo)和3887個(gè)船只目標(biāo),數(shù)據(jù)集具體信息如表1所示。
為了充分驗(yàn)證本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的有效性,將本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)與Faster-RCNN架構(gòu)進(jìn)行定性與定量對比評價(jià)。在試驗(yàn)中使用ZF和VGG兩種網(wǎng)絡(luò)模型獲得本文架構(gòu)與Faster-RCNN架構(gòu)的特征圖,通過兩種不同的模型充分對比驗(yàn)證兩種架構(gòu)的性能。在2460幅遙感影像中隨機(jī)選出1476幅影像作為訓(xùn)練數(shù)據(jù),492幅影像作為驗(yàn)證數(shù)據(jù),492幅影像作為測試數(shù)據(jù)。通過訓(xùn)練和驗(yàn)證數(shù)據(jù)對本文架構(gòu)與Faster-RCNN架構(gòu)進(jìn)行訓(xùn)練,利用測試數(shù)據(jù)對訓(xùn)練后的兩種架構(gòu)進(jìn)行對比測試。
圖6為兩種架構(gòu)基于ZF模型和VGG-16模型訓(xùn)練loss走勢圖。圖6(a)中藍(lán)色曲線和紅色曲線分別為Faster-RCNN ZF和本文架構(gòu)ZF模型訓(xùn)練loss曲線。相對于Faster-RCNN ZF模型loss曲線,本文架構(gòu)ZF模型的loss更易趨于收斂,且收斂后的loss值小于Faster-RCNN ZF模型。圖6(b)中的藍(lán)色曲線和紅色曲線分別為Faster-RCNN VGG-16和本文架構(gòu)VGG-16模型訓(xùn)練loss曲線。同樣,相對于Faster-RCNN VGG-16模型loss曲線,本文架構(gòu)VGG-16模型的loss更易趨于收斂,且收斂后的loss值小于Faster-RCNN VGG-16模型。
圖6 Faster-RCNN架構(gòu)與本文架構(gòu)訓(xùn)練loss對比圖Fig.6 Comparison of Faster-RCNN and the proposed CNN framework training loss
Faster-RCNN架構(gòu)通過設(shè)置3種尺度(128、256和512)和3種比例(1∶2、1∶1和2∶1)生成9種目標(biāo)感興趣區(qū)域?qū)軜?gòu)進(jìn)行訓(xùn)練。本文架構(gòu)通過設(shè)置4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成12種目標(biāo)感興趣區(qū)域?qū)軜?gòu)進(jìn)行訓(xùn)練。兩種架構(gòu)在其他結(jié)構(gòu)相似的情況下,試驗(yàn)結(jié)果表明本文架構(gòu)設(shè)置的4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成12種目標(biāo)感興趣區(qū)域更有利于高分辨率遙感影像目標(biāo)檢測與識別訓(xùn)練,可以獲得更好的模型訓(xùn)練結(jié)果。
本文使用492幅遙感影像對訓(xùn)練后的Faster-RCNN架構(gòu)和本文架構(gòu)進(jìn)行對比評價(jià)。通過mAP(mean average precision)[25]對兩種架構(gòu)的目標(biāo)檢測與識別精度進(jìn)行定量評價(jià)。mAP值越大說明網(wǎng)絡(luò)架構(gòu)的目標(biāo)檢測與識別精度越高,反之亦然。在計(jì)算mAP時(shí),當(dāng)檢測結(jié)果的坐標(biāo)與目標(biāo)真值坐標(biāo)的IoU大于等于0.5時(shí),認(rèn)為檢測結(jié)果正確,反之為錯誤檢測結(jié)果。mAP的計(jì)算如式(9)所示
(9)
式中,n為目標(biāo)類別數(shù);i為類別標(biāo)簽;APi為標(biāo)簽i類別的平均精度,APi的大小為標(biāo)簽i類別的P-R曲線下包含的面積,如圖7所示。
圖7 P-R曲線Fig.7 P-R curve diagram
圖8為兩種架構(gòu)基于ZF模型和VGG-16模型的mAP走勢圖,圖8(a)中實(shí)線和虛線分別為本文架構(gòu)ZF模型和Faster-RCNN ZF模型的mAP曲線,圖8(b)中實(shí)線和虛線分別為本文架構(gòu)VGG-16模型和Faster-RCNN VGG-16模型的mAP曲線。圖8(a)、(b)中,本文架構(gòu)的mAP曲線均高于Faster-RCNN架構(gòu)的mAP曲線,表明本文架構(gòu)的目標(biāo)檢測與識別精度優(yōu)于Faster-RCNN架構(gòu)。
圖8 Faster-RCNN架構(gòu)與本文架構(gòu)測試mAP對比圖Fig.8 The mAP comparison of Faster-RCNN and the proposed CNN framework test
表2中為圖8中Faster-RCNN架構(gòu)和本文架構(gòu)的mAP曲線平穩(wěn)時(shí),各類目標(biāo)的AP值,及所有目標(biāo)類別的mAP值。表2中,本文架構(gòu)ZF模型的飛機(jī)、存儲罐和船只的AP值均高于Faster-RCNN ZF模型,說明本文架構(gòu)ZF模型對各類目標(biāo)的檢測與識別精度均優(yōu)于Faster-RCNN ZF模型;本文架構(gòu)ZF模型和Faster-RCNN ZF模型的mAP值分別為0.772 7和0.691 0,本文架構(gòu)ZF模型的mAP值比Faster-RCNN ZF模型提高了8.17%。表2中本文架構(gòu)VGG-16模型的飛機(jī)、存儲罐和船只的AP值均高于Faster-RCNN VGG-16模型,表明本文架構(gòu)VGG-16模型對各類目標(biāo)的檢測與識別精度均優(yōu)于Faster-RCNN VGG-16模型;本文架構(gòu)VGG-16模型和Faster-RCNN VGG-16模型的mAP值分別為0.779 0和0.695 9,本文架構(gòu)VGG-16模型的mAP值比Faster-RCNN VGG-16模型提高了8.31%。試驗(yàn)結(jié)果表明本文架構(gòu)的mAP值比Faster-RCNN架構(gòu)有了較大的提升,本文架構(gòu)的目標(biāo)檢測與識別精度優(yōu)于Faster-RCNN架構(gòu)。
表2中Faster-RCNN架構(gòu)與本文架構(gòu)基于VGG-16模型的mAP值分別高于兩種架構(gòu)基于ZF模型的mAP值,則對mAP值更高的Faster-RCNN VGG-16模型與本文架構(gòu)VGG-16模型的檢測與識別結(jié)果進(jìn)行目視對比評價(jià)。兩種架構(gòu)目標(biāo)檢測與識別的置信度閾值設(shè)為0.8,圖9(a1)、(b1)、(c1)、(d1)和(e1)為Faster-RCNN VGG-16模型的測試樣例結(jié)果,圖9(a2)、(b2)、(c2)、(d2)和(e2)為本文架構(gòu)VGG-16模型的測試樣例結(jié)果。
表2 目標(biāo)檢測與識別定量評價(jià)結(jié)果
Tab.2 Quantitative evaluation results of object detection and recognition
模型飛機(jī)存儲罐船只mAPFaster-RCNN ZF0.92800.54780.59740.6910Faster-RCNN VGG-160.93190.54070.61500.6959本文架構(gòu)ZF0.93790.73520.64490.7727本文架構(gòu)VGG-160.93800.74000.65890.7790
在圖9(a1)、(a2)中黃色箭頭所指的區(qū)域,F(xiàn)aster-RCNN VGG-16模型難以檢測與識別出尺度較小的飛機(jī)目標(biāo),而本文架構(gòu)VGG-16模型可以準(zhǔn)確檢測與識別出尺度較小的飛機(jī)目標(biāo)。
在圖9(b1)、(b2)中黃色箭頭所指的區(qū)域,F(xiàn)aster-RCNN VGG-16模型難以檢測與識別出尺度較小的飛機(jī)目標(biāo),而本文架構(gòu)VGG-16模型可以準(zhǔn)確檢測與識別出尺度較小的飛機(jī)目標(biāo)。
在圖9(c1)、(c2)中黃色箭頭所指的區(qū)域,F(xiàn)aster-RCNN VGG-16模型難以檢測與識別出尺度較小的存儲罐目標(biāo),而本文架構(gòu)VGG-16模型可以準(zhǔn)確檢測與識別出尺度較小的存儲罐目標(biāo)。
在圖9(d1)、(d2)中黃色箭頭所指的區(qū)域,F(xiàn)aster-RCNN VGG-16模型難以檢測與識別出尺度較小的存儲罐目標(biāo),而本文架構(gòu)VGG-16模型可以準(zhǔn)確檢測與識別出尺度較小的存儲罐目標(biāo)。
圖9 測試樣例檢測與識別結(jié)果Fig.9 Test sample detection and recognition results
在圖9(e1)、(e2)中黃色箭頭所指的區(qū)域,F(xiàn)aster-RCNN VGG-16模型將長條形狀的碼頭區(qū)域識別為船只,而本文架構(gòu)VGG-16模型可正確識別長條形狀的碼頭區(qū)域。
試驗(yàn)結(jié)果表明,對于遙感影像中尺度較小的目標(biāo),本文架構(gòu)VGG-16模型的檢測與識別結(jié)果優(yōu)于Faster-RCNN VGG-16模型,本文架構(gòu)VGG-16模型可獲得良好的影像檢測與識別結(jié)果。
為了進(jìn)一步驗(yàn)證本文框架的適用性與穩(wěn)健性,將本文框架VGG16模型用于6幅高分二號全色影像目標(biāo)檢測與識別。目標(biāo)檢測與識別的置信度閾值設(shè)為0.8,試驗(yàn)結(jié)果如圖10所示。
通過目視判讀試驗(yàn)結(jié)果,本文框架VGG-16模型可有效檢測與識別出影像中的飛機(jī)、存儲罐和船只等典型地物。試驗(yàn)結(jié)果表明本文卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)可有效應(yīng)用于高分二號影像的目標(biāo)檢測與識別,本文卷積神經(jīng)網(wǎng)路架構(gòu)具有良好的普適性與穩(wěn)健性。
針對傳統(tǒng)影像目標(biāo)檢測與識別算法中人工設(shè)計(jì)特征穩(wěn)健性、普適性差的問題,本文提出基于高分辨率遙感影像目標(biāo)尺度特征的卷積神經(jīng)網(wǎng)絡(luò)檢測與識別。由于高分辨率遙感影像存在背景復(fù)雜、目標(biāo)區(qū)域范圍較小和同類目標(biāo)尺度變化較大的特點(diǎn),對此本文通過統(tǒng)計(jì)遙感影像目標(biāo)的尺度范圍,獲得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練與檢測過程中目標(biāo)感興趣區(qū)域合適的尺度大小。試驗(yàn)統(tǒng)計(jì)分析得出設(shè)置4種尺度(16、32、64和128)和3種比例(1∶2、1∶1和2∶1)生成的12種目標(biāo)感興趣區(qū)域能有效耦合遙感影像中飛機(jī)、存儲罐和船只等典型目標(biāo)的尺度范圍。根據(jù)合適的目標(biāo)感興趣區(qū)域尺度,提出基于高分辨率遙感影像目標(biāo)尺度特征的卷積神經(jīng)網(wǎng)絡(luò)檢測與識別架構(gòu)。通過WHU-RSone數(shù)據(jù)集測試驗(yàn)證,結(jié)果表明本文架構(gòu)ZF模型和本文架構(gòu)VGG-16模型的mAP值分別比Faster-RCNN ZF模型和Faster-RCNN VGG-16模型提高了8.17%和8.31%,本文架構(gòu)可以更好地檢測出影像中尺度較小的目標(biāo),獲得良好的目標(biāo)檢測與識別效果。下一步將在遙感影像目標(biāo)檢測與識別的基礎(chǔ)上,對目標(biāo)方向預(yù)測進(jìn)行研究。