羅 暢, 王 潔, 王世強, 史 通, 任衛(wèi)華
(空軍工程大學防空反導學院, 陜西 西安 710051)
近年來,從圖像分割等底層任務(wù)到圖像分類等綜合任務(wù),遙感圖像處理領(lǐng)域取得了快速的發(fā)展[1-7]。然而,從遙感圖像中的像素點到具體目標,再到整個遙感場景,隨著任務(wù)抽象程度的提升,遙感圖像處理的難度越來越大。根據(jù)語義特征對高分辨率遙感場景進行分類是一項具有挑戰(zhàn)性的任務(wù)。因為高分辨率遙感場景的類內(nèi)變化較大,而類間變化有時卻很小。不同的物體會以不同的尺度和方向出現(xiàn)在同一類場景中,而同樣的物體也可能出現(xiàn)在不同的場景里[5-9]。
深度學習理論通過深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學習高度抽象的特征表達。作為目前較為成功的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)被廣泛用于圖像的識別和檢測任務(wù),并在公開數(shù)據(jù)集上取得了迄今最好的識別和檢測效果[10-13]。理論上,DCNN能夠通過提取高分辨率遙感圖像的高層次特征,表征出遙感場景間的細微差別。然而,目前遙感領(lǐng)域并不具備足夠的帶標簽的高分辨率遙感圖像用于訓練DCNN中巨量的結(jié)構(gòu)參數(shù)。當采用現(xiàn)有的遙感數(shù)據(jù)集訓練DCNN時,會出現(xiàn)嚴重的過擬合[14]。
ImageNet數(shù)據(jù)集是目前最龐大的圖像數(shù)據(jù)集之一,包含數(shù)百萬張超過一千類的日??梢姽鈭D像[15]。該數(shù)據(jù)集上訓練得到的DCNN模型在各種計算機視覺任務(wù)中均取得了驚人的成績。最近的研究成果表明,經(jīng)ImageNet預訓練得到的DCNN能夠成功遷移至其他計算機視覺任務(wù)[16-18]。隨著CaffeNet等一系列成功DCNN模型的快速發(fā)展[12],將在ImageNet上訓練得到的DCNN模型遷移至高分辨率遙感場景的分類任務(wù)也成為深度學習理論應(yīng)用于遙感領(lǐng)域的重要發(fā)展方向。在將預訓練后的DCNN模型遷移至遙感場景分類任務(wù)時,文獻[19]評估了DCNN模型的泛化能力。為進一步提升分類效果,文獻[14]在將DCNN遷移至遙感場景分類時,使用遙感數(shù)據(jù)集對DCNN的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進行了微調(diào)。文獻[20]則在將DCNN遷移至高分辨率遙感場景分類時,同時提取DCNN不同特征層中的有效特征用于分類任務(wù),并取得了突出的分類精度。
經(jīng)ImageNet數(shù)據(jù)集預訓練的DCNN模型能夠成功遷移至高分辨率遙感場景分類任務(wù)的原因在于,高分辨率遙感圖像和日??梢姽鈭D像的基本視覺模塊(例如:邊、角)是相同的,DCNN在遷移過程中體現(xiàn)出一定的泛化能力。因此,本文設(shè)計了一種基于線性主成分分析網(wǎng)絡(luò)(linear principle component analysis network, LPCANet)的網(wǎng)絡(luò)結(jié)構(gòu)形式,整合了高分辨率遙感圖像的空間信息,增強了DCNN在遷移過程中的泛化能力,以進一步提升高分辨率遙感場景的分類精度。
典型的DCNN是由多個級聯(lián)的不同類型層級結(jié)構(gòu)組成。卷積層通過一系列卷積核對輸入特征圖進行卷積操作產(chǎn)生新的特征圖。更深層的卷積結(jié)構(gòu)能夠通過整合淺層特征而獲得更加抽象的特征表達。卷積操作之后常常運用非線性激活函數(shù)增強特征的泛化性能,常用的非線性激活函數(shù)包括sigmoid函數(shù)、ReLU函數(shù)等。隨后,池化層在特征圖的局部區(qū)域執(zhí)行下采樣操作以降低特征維度,同時使得特征具有局部平移和旋轉(zhuǎn)的不變性。最后,數(shù)個全連接層被置于多個級聯(lián)的卷積層和池化層之后。最后一個全連接層常常是Softmax分類器,用于獲取分類后每個類別的權(quán)重。DCNN中的結(jié)構(gòu)參數(shù)主要采用誤差反向傳播的思想,通過隨機梯度下降算法訓練得到。經(jīng)大量有效樣本訓練的DCNN能夠通過前向傳播,將輸入的圖像轉(zhuǎn)化為高層次抽象特征。
基于典型的DCNN結(jié)構(gòu),AlexNet采用隨機選取神經(jīng)元的方法進一步減輕網(wǎng)絡(luò)的過擬合現(xiàn)象[10]。另一方面,CaffeNet則是將非線性激活函數(shù)置于池化層之后,在計算機視覺任務(wù)中也取得了理想的效果[12]。從以上經(jīng)典的DCNN模型出發(fā),近年來,DCNN的發(fā)展主要在于以下兩個方面:
(1) 更深的網(wǎng)絡(luò)結(jié)構(gòu)。VGG-VD網(wǎng)絡(luò)采用更深的網(wǎng)絡(luò)結(jié)構(gòu)獲得了2014年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(2014 imageNet large scale visual recognition challenge, ILSVRC-2014)的第2名[13]。其16層網(wǎng)絡(luò)VGG-VD16和19層網(wǎng)絡(luò)VGG-VD19的成功應(yīng)用表明更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠在分類和識別等任務(wù)中提升準確率。另外,MSRA-Net進一步將VGG-VD網(wǎng)絡(luò)中的5×5卷積核替換為兩個串聯(lián)的3×3卷積核,在構(gòu)建更深網(wǎng)絡(luò)結(jié)構(gòu)的同時降低了計算復雜度并在機器視覺任務(wù)中取得了更好的效果[21]。
(2) 更優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)單元。網(wǎng)中網(wǎng)(network in network, NIN)將典型DCNN中的卷積層替換為多層感知器,同時使用全局平均值池化替代全連接層[22]。受NIN模型的啟發(fā),GoogLeNet進一步使用Inception模塊,在每一層網(wǎng)絡(luò)結(jié)構(gòu)中使用不同尺度的卷積核,獲得了ILSVRC-2014的最好成績[23]。此外,Inception V3網(wǎng)絡(luò)再次優(yōu)化了GoogLeNet中的inception模塊,其用兩個串聯(lián)的3×3卷積核替換5×5卷積核,同時1×n和n×1卷積核被添加到Inception模塊中以增加網(wǎng)絡(luò)的深度[24]。Inception模塊在Inception V3網(wǎng)絡(luò)中的演變過程如圖1所示,其中n×n表示n×n的卷積操作。
圖1 Inception模塊在Inception V3網(wǎng)絡(luò)結(jié)構(gòu)中的演變Fig.1 Changes of Inception module in the architecture of Inception V3
結(jié)合以上兩個方面,深度殘差網(wǎng)絡(luò)(deep residuals network,ResNet)采用級聯(lián)的殘差函數(shù)作為其基本網(wǎng)絡(luò)結(jié)構(gòu)單元,贏得了ILSVRC-2015的冠軍[25]。不同于傳統(tǒng)的卷積單元,ResNet中的殘差單元整合了輸入信息,使得ResNet中的結(jié)構(gòu)參數(shù)更易于優(yōu)化,并可通過加深網(wǎng)絡(luò)深度在各類機器視覺任務(wù)中取得更好的效果。基于ResNet,恒等映射殘差網(wǎng)絡(luò)進一步對殘差學習框架進行了優(yōu)化,并在分類、識別等任務(wù)中證實了其優(yōu)越性[26]。
DCNN結(jié)構(gòu)的演化進程可由圖2表示。然而,當將以上在機器視覺領(lǐng)域取得巨大成功的DCNN直接應(yīng)用于遙感場景分類時,取得的效果并不理想。事實上,因為生活中能夠輕易獲取大量帶標簽的日常可見光圖像,幾乎所有的DCNN均是基于日??梢姽鈭D像數(shù)據(jù)集(例如ImageNet)訓練得到的。在遙感領(lǐng)域,經(jīng)有限的遙感圖像訓練得到的DCNN泛化能力較弱,其結(jié)構(gòu)參數(shù)極易產(chǎn)生過擬合現(xiàn)象。
圖2 DCNNs結(jié)構(gòu)演化圖Fig.2 Evolution of the structure of DCNNs
目前,針對遙感場景分類任務(wù),能夠充分利用DCNN性能的有效方案,即將其在ImageNet上預訓練得到的高度抽象特征遷移至遙感場景圖像[14, 19-20]。此遷移過程的重要原則是:用于預訓練DCNN的源數(shù)據(jù)集(ImageNet數(shù)據(jù)集)與相應(yīng)的目標數(shù)據(jù)集(高分辨率遙感數(shù)據(jù)集)之間的差異足夠小。通過設(shè)計LPCANet整合高分辨率遙感圖像的空間信息減小兩者之間的差異,增強預訓練DCNN針對遙感場景分類的泛化能力。
基于主成分分析網(wǎng)絡(luò)(principal component analysis network,PCANet)[27],LPCANet保留了PCANet中的線性操作,并對其中的非線性結(jié)構(gòu)單元進行了改進。不同于PCANet中使用散列法對卷積特征圖進行二進制變換,LPCANet中直接對卷積特征圖進行了加權(quán)操作。另外,LPCANet中使用線性的平均值池化替換了PCANet中非線性的柱狀圖池化。以上由非線性運算到線性運算的改變,使得LPCANet在濾除高分遙感圖像中的噪聲信息的同時不改變其基礎(chǔ)結(jié)構(gòu),不影響其原有的特征分布形式。LPCANet通過整合高分辨率遙感圖像的空間信息,提取圖像中的主要特征。提取到的主要特征進一步輸入經(jīng)預訓練的DCNN用于獲取遙感場景的全局特征,并用于遙感場景的分類任務(wù)。典型的兩層LPCANet如圖3所示。
圖3 兩層LPCANet結(jié)構(gòu)示意圖Fig.3 Structure of two-stage LPCANet
I=[I1I2…IN]∈Rm×Nn×3
(1)
(2)
s.t. (Uj)TUj=IL,j=1,2,3
(3)
式中,IL為L×L的單位矩陣。
;j=1,2,3
(4)
此時,從遙感圖像中提取到的PCA核包含了遙感場景的主要空間變化。
將各個光譜通道中提取到的L個PCA核分別與遙感圖像進行卷積操作,獲取的卷積特征圖為
l=1,2,…,L;j=1,2,3
(5)
式中,符號*表示二維卷積操作;上標1表示第1層卷積特征圖。
(6)
在獲取關(guān)于遙感圖像的卷積特征圖后,需要根據(jù)卷積特征圖所包含特征的重要程度對其進行加權(quán)整合。另外,池化操作被用于進一步增強遙感場景特征的不變性。
卷積特征圖的加權(quán)過程為
(7)
ri,x′,y′=meansi∈Ri,x′,y′si
(8)
式中,si表示池化域Ri,x′,y′內(nèi)的加權(quán)特征;ri,x′,y′表示計算得到的位置(x′,y′)處的池化特征。由池化域Ri={Ri,1,1,…,Ri,x′,y′,…,Ri,m′,n′}計算得到的池化特征ri={ri,1,1,…,ri,x,y,…,ri,m′,n′}具有一定程度的平移和旋轉(zhuǎn)不變性。
對于特定的遙感數(shù)據(jù)集及其相關(guān)任務(wù),如果更深的LPCANet結(jié)構(gòu)能夠取得更好的效果,則可重復以上過程構(gòu)造多層的LPCANet。如圖3所示,兩層的LPCANet包含了2個卷積層(C1和C2),2個加權(quán)層(W1和W2)和1個池化層。最后一層的輸出作為預訓練DCNN的輸入,用于獲取高度抽象的全局語義特征。
第1層卷積層C1中,由遙感圖像集合I提取到的L1個PCA核與輸入的遙感圖像集進行卷積操作后獲取卷積特征圖集合I1。在第1層加權(quán)層W1中,卷積特征圖集合I1經(jīng)加權(quán)操作轉(zhuǎn)換為加權(quán)特征圖集合T1,同時特征圖的數(shù)量得以減少。第2層卷積層C2中,L2個PCA核由加權(quán)特征圖集合T1提取得到,C2中的卷積操作進一步產(chǎn)生卷積特征圖I2。在第2層加權(quán)層W2中,由加權(quán)操作進一步獲取加權(quán)特征圖T2。最后對T2進行平均值池化獲取池化特征圖r。
更多的層級結(jié)構(gòu)可表示為C1-W1-C2-W2-C3…,或由特征圖的形式表示為I-I1-T1-I2-T2-…-r。LPCANet中的所有操作過程均是線性的,因此在整合遙感圖像空間信息的同時,LPCANet并沒有改變原始圖像的基礎(chǔ)結(jié)構(gòu)。
高分辨率遙感圖像與日??梢姽鈭D像在空間信息上存在一定程度的差異。這兩類圖像中的機場如圖4所示。
圖4 兩類圖像中的機場Fig.4 Airport in two kinds of images
由圖4可知,這兩張圖像從語義上均稱為機場,并都包含飛機、跑道和草坪等組成單元。然而,這些組成單元在空間尺度和方向上均存在較大差異。另外,相比于日??梢姽鈭D像,高分辨率遙感圖像中存在更多的干擾信息,使得遙感場景分類任務(wù)變得更加困難。LPCANet通過PCA核與遙感圖像的卷積運算盡可能地濾除與遙感場景語義特征無關(guān)的干擾信息。同時,其線性結(jié)構(gòu)保留了遙感圖像中與遙感場景語義特征相關(guān)的特征分布形式。因此,將在日??梢姽鈹?shù)據(jù)集ImageNet上預訓練得到的DCNN遷移至遙感場景分類任務(wù)時,需要通過LPCANet減小兩類數(shù)據(jù)集之間的差異,增強預訓練DCNN針對遙感場景的泛化能力。本文設(shè)計的網(wǎng)絡(luò)框架如圖5所示。由圖5可知,在進行高分辨率遙感場景分類時,LPCANet被分別用于處理高分辨率遙感圖像3個光譜通道中的“灰度”圖像。LPCANet在保留遙感場景主要空間結(jié)構(gòu)的同時過濾掉與場景語義特征無關(guān)的細節(jié)和噪聲。隨后,LPCANet輸出的關(guān)于所有光譜通道的特征圖像被進一步整合,并作為預訓練DCNN的輸入。經(jīng)日??梢姽鈭D像集ImageNet預訓練后的DCNN被看做固定的特征提取器,用于進一步獲取遙感場景的全局特征。最后,通過線性支持向量機(support vector machine,SVM)分類器完成對遙感場景的分類。
圖5 整體網(wǎng)絡(luò)框架Fig.5 Framework of the whole network
采用以下兩類公開高分辨率遙感場景數(shù)據(jù)集進行試驗,用以驗證本文方法的有效性和可靠性。
(1) UC Merced數(shù)據(jù)集。該數(shù)據(jù)集源自美國地質(zhì)勘探局國家城市地圖圖像,共包含21類帶標簽的高分辨率遙感場景。每個類別包含100張256×256像素的圖像,圖像分辨率在0.3 m左右。其部分類別場景的示例如圖6所示。
圖6 UC Merced數(shù)據(jù)集的部分場景示例Fig.6 Some example scenes of UC Merced dataset
(2) WHU-RS數(shù)據(jù)集。該數(shù)據(jù)集源自武漢大學通過Google Earth截取的高分辨率衛(wèi)星遙感圖像,共包含19類帶標簽的高分辨率遙感場景。每個類別包含約50張600×600像素的圖像。其部分類別場景的示例如圖7所示。
圖7 WHU-RS數(shù)據(jù)集的部分場景示例Fig.7 Some example scenes of WHU-RS dataset
試驗中,以上數(shù)據(jù)集被均分為5個子部分進行交叉檢驗。對于UC Merced數(shù)據(jù)集,每一個子部分包含420張高分辨率遙感場景圖像。對于WHU-RS數(shù)據(jù)集,每一個子部分則包含190張圖像?;?個子部分的交叉檢驗,試驗的主要評價指標為遙感場景分類的平均準確率和分類準確率的標準差。
試驗使用第1節(jié)介紹的5種經(jīng)ImageNet數(shù)據(jù)集預訓練的DCNN,即AlexNet[10]、CaffeNet[12]、VGG-VD16[13]、GoogLeNet[23]和ResNet[25],驗證該方法在高分辨率遙感場景分類任務(wù)中對于增強預訓練DCNN泛化能力的效果。除了使用全局特征訓練分類器以外,其余試驗過程均是在非監(jiān)督條件下進行的。
試驗中采用單層的LPCANet,其中PCA核的尺寸為k1=k2=8,PCA核的數(shù)量設(shè)定為L=8。池化層中,池化域為8×8的無重疊區(qū)域,且采用平均值池化方法??紤]到不同的預訓練DCNN對輸入圖像尺寸具有不同的要求。針對AlexNet和CaffeNet,需要將LPCANet得到池化特征圖r縮放到227×227大小。針對VGG-VD16、GoogLeNet和ResNet,需要將池化特征圖r縮放到224×224大小。在不做說明的情況下,試驗中的分類器使用線性SVM分類器。在兩個高分辨遙感場景數(shù)據(jù)集上的實驗結(jié)果如表1所示。表1中,Ac和SD分別表示遙感場景的平均分類準確率及分類準確率的標準差。在off-the-shelf情況下,預訓練DCNN被直接用作特征提取器,其提取到的全局特征輸入線性SVM分類器實現(xiàn)對遙感場景的分類。事實上,off-the-shelf的試驗框架對于高分辨率遙感場景的分類任務(wù)已幾乎取得了迄今為止最好的分類效果[20]。對比使用遙感數(shù)據(jù)集訓練全新DCNN的方案,直接將預訓練后的DCNN遷移至遙感場景分類任務(wù)顯示出了明顯的優(yōu)勢[14]。因為面對DCNN中的巨量參數(shù),有限的遙感數(shù)據(jù)會造成嚴重的過擬合現(xiàn)象,不能充分利用DCNN的深度結(jié)構(gòu)。進一步地,遙感場景分類的平均準確率如圖8所示。
表1 5種預訓練DCNN在兩類遙感數(shù)據(jù)集上的遙感場景分類結(jié)果
圖8 遙感場景分類的平均準確率Fig.8 Mean accuracy rate of remote scene classification
由表1和圖8可知,在off-the-shelf情況下不論使用的預訓練DCNN為AlexNet、CaffeNet、VGG-VD16或GoogLeNet,其分類效果差別不大。與直觀認為的更深的DCNN結(jié)構(gòu)或更復雜的DCNN單元帶來更好的分類效果不同,GoogLeNet取得的效果并不明顯優(yōu)于AlexNet和CaffeNet,VGG-VD16甚至比AlexNet取得的分類效果更差。因此,直接將預訓練DCNN遷移至遙感場景分類存在明顯的瓶頸。其原因在于,用于預訓練DCNN的源數(shù)據(jù)集(ImageNet數(shù)據(jù)集)和目標數(shù)據(jù)集(UC Merced數(shù)據(jù)集或WHU-RS數(shù)據(jù)集)存在空間信息上的差異,在將預訓練DCNN遷移至遙感場景分類任務(wù)時,其缺乏足夠的泛化能力。另外,近兩年取得巨大成功的DCNN結(jié)構(gòu)ResNet在試驗中并沒有取得理想的效果,不論其網(wǎng)絡(luò)深度為50層、101層或是最深的152層。因為ResNet中的殘差單元將輸入與輸出直接關(guān)聯(lián),在減少了網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的同時,弱化了參數(shù)間的獨立性,使得其泛化能力較差,不利于將其遷移至其他任務(wù)。
網(wǎng)絡(luò)框架中,在將預訓練DCNN遷移至遙感場景分類之前,使用LPCANet對高分辨率遙感圖像進行處理,減小了遷移過程中目標數(shù)據(jù)集與源數(shù)據(jù)集之間的差異,增強了預訓練DCNN在遷移過程中的泛化能力。如表1和圖8所示,本文提出的方法在遙感場景分類任務(wù)中突破了off-the-shelf情況下存在的瓶頸,取得了更好的分類準確率。另外,相比于off-the-shelf的情況,該方法對于遙感場景分類準確率的提升程度隨著預訓練DCNN深度和復雜度的增加而增加。這進一步證實了該網(wǎng)絡(luò)結(jié)構(gòu)能夠增強預訓練DCNN針對遙感場景分類的泛化能力,能更好地發(fā)揮DCNN深度結(jié)構(gòu)的優(yōu)勢。另一方面,更小的分類準確率標準差也說明,相比off-the-shelf的情況,該方法在進行遙感場景分類時具有更強的穩(wěn)定性。以預訓練CaffeNet為例,針對off-the-shelf及該方法,高分辨率遙感場景在深度網(wǎng)絡(luò)結(jié)構(gòu)中的詳細變化過程如圖9所示。由圖9可知,采用文獻[28]提出的方法進行遙感場景特征的重構(gòu)顯化。CaffeNet中的卷積層保留了遙感場景的基本結(jié)構(gòu)。隨著卷積層的加深,遙感場景的空間結(jié)構(gòu)變得更加模糊。另外,全連接層對遙感場景的空間信息進行了重構(gòu),并獲取到更抽象的特征表達。從全連接層中,仍然可以看到機場跑道的邊、角等信息,但其空間布局與原始遙感場景有很大的差異。對比圖9(a)和圖9(b)中全連接層的重構(gòu)圖像,圖9(b)的全連接層中包含更多不同方位和尺度的關(guān)于機場組成部分的特征。此外,相比于圖9(a),圖9(b)全連接層中的特征更加清晰,判別性更好。試驗結(jié)果進一步說明了本文方法能夠獲取到關(guān)于遙感場景更好的全局特征,證實了該方法對于增強預訓練DCNN泛化性能,提升其在遙感場景分類效果方面的作用。
為了更直觀地對比off-the-shelf以及本文方法情況下通過預訓練CaffeNet提取到的遙感場景的全局特征分布,試驗中使用t-SNE算法[29-30]分別將兩種情況下從UC Merced數(shù)據(jù)集中提取到的高維全局特征降維至二維平面。在使用t-SNE算法時,算法復雜度設(shè)置為30,訓練迭代次數(shù)設(shè)置為1 000次。兩種情況下t-SNE算法在UC Merced數(shù)據(jù)集上的試驗結(jié)果如圖10所示。
圖10 UC Merced數(shù)據(jù)集中遙感場景的全局特征分布Fig.10 Separability of global features generated from remote scenes on UC Merced dataset
其中,UC Merced數(shù)據(jù)集中的21類遙感場景用21種不同的顏色表示。如圖10所示,兩種情況下,由預訓練CaffeNet提取到的遙感場景的全局特征經(jīng)t-SNE算法降維至二維平面后,同類遙感場景自發(fā)地聚集在一起。然而,相比于off-the-shelf的情況,本文方法提取到的不同類遙感場景的全局特征具有更好的可分離性。
為進一步驗證本文所設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)中LPCANet的有效性,如圖11所示,PCA算法被直接用于預處理遙感場景數(shù)據(jù)集中的每張遙感圖像,并將預處理后的遙感圖像輸入DCNN用于遙感場景分類。
圖11 PCA算法單獨預處理每張遙感圖像Fig.11 Pre-processing every single remote sensing image by PCA algorithm
表2顯示了各方案在UC Merced數(shù)據(jù)集上的試驗結(jié)果。試驗結(jié)果表明,相比于該方法以及off-the-shelf方案,將PCA算法直接用于預處理遙感圖像并不能提升預訓練DCNN的泛化能力并取得滿意的遙感場景分類效果。不同于LPCANet通過提取PCA核并與遙感圖像進行卷積的處理方式,直接使用PCA算法單獨處理每張遙感圖像會丟失遙感場景具有判別性的空間信息,影響預訓練DCNN對遙感場景的分類效果。
對于高分辨率遙感場景分類,近年來已有很多方法取得了令人滿意的分類效果。與本文所使用的試驗數(shù)據(jù)集相同,大多數(shù)方法均是基于UC Merced數(shù)據(jù)集進行測試的。因此,表3比較了本文方法與其他方法在UC Merced數(shù)據(jù)集上取得的遙感場景分類準確率。如表3所示,該方法相比于近年來提出的大多數(shù)方法在分類準確率上至少提升了近1%。需要指出的是,本文方法僅僅是在非監(jiān)督條件下提供了將預訓練DCNN遷移至高分辨率遙感場景分類任務(wù)的基礎(chǔ)框架,并沒有使用遙感數(shù)據(jù)集訓練DCNN中的結(jié)構(gòu)參數(shù)。因此本文方法在分類準確率上并不優(yōu)于文獻[14]提出的GoogLeNet+Fine-tune方案。然而,對DCNN參數(shù)微調(diào)(Fine-tune)的效果依賴于遙感數(shù)據(jù)集的規(guī)模,而且相比于該方法也更加費時。此外,在具有足夠多的高分辨率遙感圖像且遙感場景分類時間允許的前提下,可以在本文提出的網(wǎng)絡(luò)框架基礎(chǔ)上進一步使用遙感數(shù)據(jù)集微調(diào)DCNN的結(jié)構(gòu)參數(shù)并取得更好的分類效果。
表2 3種方案對UC Merced數(shù)據(jù)集的分類準確率
表3 現(xiàn)有方法對UC Merced數(shù)據(jù)集的分類準確率
針對DCNN遷移至高分辨率遙感場景分類的問題,設(shè)計了一種通用的網(wǎng)絡(luò)框架用于增強DCNN在遷移過程中的泛化能力,以取得更好的遙感場景分類效果。為減小用于訓練DCNN的日常可見光數(shù)據(jù)和用于分類任務(wù)的高分辨率遙感數(shù)據(jù)之間的空間差異,LPCANet被用于整合高分辨率遙感場景中的空間信息,并濾除與遙感場景語義特征不相關(guān)的噪聲。在UC Merced數(shù)據(jù)集和WHU-RS數(shù)據(jù)集上的試驗結(jié)果表明,相比于直接將各類DCNN遷移至高分辨率遙感場景分類時取得的最好分類效果,本文方法對兩類數(shù)據(jù)集的分類準確率分別提升了1.37%和1.46%,并達到95.95%和96.22%。此外,隨著DCNN結(jié)構(gòu)的不斷演化,該方法能夠為以后各類新的DCNN遷移至遙感任務(wù)提供良好的研究基礎(chǔ)。
[1] WANG J, QIN Q, LI Z, et al. Deep hierarchical representation and segmentation of high resolution remote sensing images[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2015: 4320-4323.
[2] NIJIM M, CHENNUBOYINA R D, AL AQQAD W. A supervised learning data mining approach for object recognition and classification in high resolution satellite data[J]. World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering, 2015, 9(12): 2319-2323.
[3] VAKALOPOULOU M, KARANTZALOS K, KOMODAKIS N, et al. Building detection in very high resolution multispectral data with deep learning features[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2015: 1873-1876.
[4] ZHOU W, SHAO Z, DIAO C, et al. High-resolution remote-sensing imagery retrieval using sparse features by auto-encoder[J]. Remote Sensing Letters, 2015, 6(10): 775-783.
[5] CHERIYADAT A M. Unsupervised feature learning for aerial scene classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2014, 52(1): 439-451.
[6] XU Y, HUANG B. Spatial and temporal classification of synthetic satellite imagery: land cover mapping and accuracy validation[J]. Geo-spatial Information Science, 2014, 17(1): 1-7.
[7] YANG W, YIN X, XIA G S. Learning high-level features for satellite image classification with limited labeled samples[J]. IEEE Trans.on Geoscience and Remote Sensing,2015,53(8):4472-4482.
[8] SHAO W, YANG W, XIA G S. Extreme value theory-based calibration for the fusion of multiple features in high-resolution satellite scene classification[J]. International Journal of Remote Sensing, 2013, 34(23): 8588-8602.
[9] ROMERO A, GATTA C, CAMPS-VALLS G. Unsupervised deep feature extraction for remote sensing image classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2016, 54(3): 1349-1362.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]∥Proc.of the Advances in Neural Information Processing Systems, 2012: 1097-1105.
[11] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.
[12] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]∥Proc.of the 22nd ACM International Conference on Multimedia, 2014: 675-678.
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014.
[14] CASTELLUCCIO M, POGGI G, SANSONE C, et al. Land use classification in remote sensing images by convolutional neural networks[J]. Acta Ecologica Sinica, 2015, 28(2): 627-635.
[15] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database[C]∥Proc.of the IEEE Computer Vision and Pattern Recognition, 2009: 248-255.
[16] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[J]. 2014: 512-519.
[17] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[18] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans.on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[19] PENATTI O A B, NOGUEIRA K, DOS SANTOS J A. Do deep features generalize from everyday objects to remote sensing and aerial scenes domains[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2015: 44-51.
[20] HU F, XIA G S, HU J, et al. Transferring deep convolutional neural networks for the scene classification of high-resolution remote sensing imagery[J]. Remote Sensing, 2015, 7(11): 14680-14707.
[21] HE K, SUN J. Convolutional neural networks at constrained time cost[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5353-5360.
[22] LIN M, CHEN Q, YAN S. Network in network[J]. Computer Science, 2013.
[23] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.
[24] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[J]. ArXiv Preprint ArXiv, 2015:2818-2826.
[25] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]∥Proc.of the IEEE Computer Vision and Pattern Recognition, 2016: 770-778.
[26] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[J]. 2016.
[27] CHAN T H, JIA K, GAO S, et al. PCANet: a simple deep learning baseline for image classification[J]. IEEE Trans.on Image Processing, 2015, 24(12): 5017-5032.
[28] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5188-5196.
[29] MAATEN L V D, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2017, 9(2605): 2579-2605.
[30] LAURENS V D M. Accelerating t-SNE using tree-based algorithms [J].Journal of Machine Learning Research,2014,15(1): 3221-3245.
[31] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proc.of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, 2010: 270-279.
[32] YANG Y, NEWSAM S. Spatial pyramid co-occurrence for image classification[C]∥Proc.of the IEEE International Conference on Computer Vision, 2011: 1465-1472.
[33] JIANG Y, YUAN J, YU G. Randomized spatial partition for scene recognition[C]∥Proc.of the European Conference on Computer Vision, 2012: 730-743.
[34] XIAO Y, WU J, YUAN J. mCENTRIST: a multi-channel feature generation mechanism for scene categorization[J]. IEEE Trans.on Image Processing, 2014, 23(2): 823-836.
[35] AVRAMOVIC A, RISOJEVIC V. Block-based semantic classification of high-resolution multispectral aerial images[J]. Signal, Image and Video Processing, 2016, 10(1): 75-84.
[36] CHENG G, HAN J, ZHOU P, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2014, 98(1): 119-132.
[37] KOBAYASHI T. Dirichlet-based histogram feature transform for image classification[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3278-3285.
[38] NEGREL R, PICARD D, GOSSELIN P H. Evaluation of second-order visual features for land-use classification[C]∥Proc.of the IEEE 12th International Workshop on Content-Based Multimedia Indexing, 2014: 1-5.
[39] REN J, JIANG X, YUAN J. Learning LBP structure by maximizing the conditional mutual information[J].Pattern Recognition, 2015, 48(10): 3180-3190.
[40] CHEN S, TIAN Y L. Pyramid of spatial relatons for scene-level land use classification[J]. IEEE Trans.on Geoscience and Remote Sensing, 2015, 53(4): 1947-1957.
[41] HU F, XIA G S, WANG Z, et al. Unsupervised feature learning via spectral clustering of multidimensional patches for remotely sensed scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 8(5):2015-2030.
[42] CHENG G, HAN J, GUO L, et al. Effective and efficient midlevel visual elements-oriented land-use classification using VHR remote sensing images[J]. IEEE Trans.on Geoscience and Remote Sensing, 2015, 53(8): 4238-4249.
[43] CHENG G, HAN J, GUO L, et al. Learning coarse-to-fine sparselets for efficient object detection and scene classification[C]∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1173-1181.
[44] HU F, XIA G S, HU J, et al. Fast binary coding for the scene classification of high-resolution remote sensing imagery[J].Remote Sensing, 2016, 8(7): 555.
[45] ZHONG Y, FEI F, ZHANG L. Large patch convolutional neural networks for the scene classification of high spatial resolution imagery[J]. Journal of Applied Remote Sensing, 2016, 10(2): 025006.
[46] QI K L, LIU W X, YANG C, et al. High resolution satellite image classification using multi-task joint sparse and low-rank representation[J]. Preprints (www.preprints.org), 7 November 2016, doi:10.20944/preprints201611.0036.v1.
[47] ZHAO B, ZHONG Y, ZHANG L. A spectral-structural bag-of-features scene classifier for very high spatial resolution remote sensing imagery[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2016, 116: 73-85.
[48] YU H, YANG W, XIA G S, et al. A color-texture-structure descriptor for high-resolution satellite image classification[J]. Remote Sensing, 2016, 8(3): 259.
[49] LIU Y, ZHONG Y, FEI F, et al. Scene semantic classification based on random-scale stretched convolutional neural network for high-spatial resolution remote sensing imagery[C]∥Proc.of the IEEE International Geoscience and Remote Sensing Symposium, 2016: 763-766.