王振國 ,陳宏宇 ,徐文明
(1.中國科學院上海微系統(tǒng)與信息技術研究所上海200050;2.中國科學院微小衛(wèi)星創(chuàng)新研究院上海200120;3.上??萍即髮W信息科學與技術學院,上海200120;4.中國科學院大學北京101407)
遙感圖像場景分類是遙感圖像解譯的一個重要環(huán)節(jié),也是地理信息系統(tǒng)(Geographic Information System)的關鍵技術,它在城市規(guī)劃與城市管理問題上發(fā)揮著重大作用。隨著可獲取的遙感圖像的空間分辨率越來越高,遙感圖像所展現(xiàn)的地面場景的細節(jié)更加豐富、類別更加多樣化、場景類間的相似性增大,使得場景的分類變得更加困難。因此,如何選取更有表達性的特征與更高效準確的分類方法,成為高分辨率遙感圖像場景分類問題的關鍵。
目前,遙感圖像場景分類問題大多采用貝葉斯統(tǒng)計模型來解決[1-4],這類統(tǒng)計學分類模型在面對分類總數(shù)較少、類間干擾不大的分類問題時效果較好。然而,由于視覺單詞[5(]visual words)在描述復雜場景時的充分度不夠,統(tǒng)計學模型在處理類間相似度較大、總類別較多的分類問題時,分類準確度較低。
文獻提[6]出了一種基于多尺度深度卷積神經(jīng)網(wǎng)絡(MS-DCNN)場景分類法,由于有限的遙感數(shù)據(jù)集無法充分訓練卷積神經(jīng)網(wǎng)絡,限制了其準確率的提升。文獻[7]首次把ImageNet[8]數(shù)據(jù)集所預訓練的AlexNet[9]作為一種遙感圖像的特征提取方式,并證明了這種深度卷積神經(jīng)網(wǎng)絡(DCNN)特征提取方式在遙感圖像場景分類問題上的可行性。
在此基礎上,本文探討利用ImageNet數(shù)據(jù)集訓練 的 Inspection-v3[10]、CaffeNet[11]和 OverFeatL[12]3 種DCNN提取的融合特征進行場景分類的方法。并且利用3種DCNN的歸一化融合特征,配合多層感知機(MLP)在UCMLU(http://vision.ucmerced.edu/datasets/landuse.html)數(shù)據(jù)集上獲得了97.01%的準確率。
物體分類與場景分類在過程上的相似性,決定了用物體分類數(shù)據(jù)集訓練的DCNN可以作為一種遙感圖像場景特征提取方式。不同結構的DCNN提取的遙感場景特征具有互補性。因此,融合不同結構的DCNN特征可以提高場景分類效果。
底層視覺特征、中尺度視覺特征無法充分描述復雜場景的語義信息,這是制約基于底層、中尺度視覺特征提取的場景分類方法準確率進一步提高的關鍵因素。DCNN具有極強的非線性映射能力和語義表達能力,但是其訓練卻需要大量的標注樣本。目前,具有復雜場景標記的遙感數(shù)據(jù)集的規(guī)模較小,無法達到訓練DCNN的規(guī)模,這也限制了DCNN在遙感場景分類問題上的應用。
遙感場景分類是一個把場景內(nèi)的各個組成單元及其對應關系映射到場景語義的一個過程,這與物體分類的過程是相似的。因此,利用ImageNet數(shù)據(jù)集訓練DCNN來提取遙感圖像的場景特征是一種可行的方案。這種方案即克服了底層、中尺度視覺特征場景表達不充分的問題,又避免了對大規(guī)模帶有場景標記的遙感數(shù)據(jù)集的依賴。
我們所采用的3種DCNN為:CaffeNet、Over FeatL、Inspection-v3,他們在ImageNet目標識別測試集上都取得較好效果。CaffeNet相對AlexNet而言只是交換了卷積層之間的歸一化和池化操作順序,基于Caffe[11]實現(xiàn)。OverFeatL相對于AlexNet而言增加了一層卷積操作并采取了不同的卷積核大小和步長,基于OverFeat[12]實現(xiàn)。Caffe和OverFeat分別提供了利用ImageNet預訓練的CaffeNet和OverFeatL的初始化權重。
Inspection-v3基于GoogLeNet[13]和 Inspectionv2[10],并在Inspection-v2基本結構的基礎之上引入了標記平滑(label smoothing)以及輔助分類器的全連接層塊歸一化(batch-normalized)等多種策略。它是一種比前兩種DCNN結構更優(yōu)化的一種網(wǎng)絡。其利用ImageNet預訓練的初始化權重可以從tensorFlow(http://www.tensorflow.org,谷歌2016年3月分發(fā)布的深度學習開源軟件包)中獲取。
我們利用對應的開源軟件包中的初始化權重來初始化3種深度網(wǎng)絡。對于CaffeNet和OverFeatL,我們?nèi)∽詈笠粚哟笮?096的隱含層的輸出來作為我們的特征向量,分別標記為FC∈R4096、和FO∈R4096;而對于Inspection-v3,我們把線性映射層(logits層)所輸出的2048維的向量作為特征向量,記為FI∈ R2048。
我們所采取的基于深度神經(jīng)網(wǎng)絡特征提取的場景分類器如圖1所示。輸入圖片經(jīng)過3種深度神經(jīng)網(wǎng)絡產(chǎn)生3種深度特征,經(jīng)過一定策略融合后的融合特征F輸入由一個隱含層和一個softmax分類器組成的MLP產(chǎn)生分類結果。
圖1 基于深度神經(jīng)網(wǎng)絡特征融合的場景分類器
圖1中的特征融合單元代表本文實現(xiàn)的4種特征融合策略:CaffeNet與Inspection-v3級聯(lián)、3種DCNN特征級聯(lián)、CaffeNet與Inspection-v3分別歸一化后級聯(lián)、3種DCNN特征分別歸一化后級聯(lián)。4種特征融合策略可以分別描述為:
其中norm2(F)=FT×F表示取F的2范數(shù)。
文中所采取的MLP由一個隱含層和一個softmax分類器組成。我們利用M表示隱含層的單元數(shù)目、C表示場景的類別數(shù)目、W∈RM×N表示MLP輸入層與隱含層之間的權重矩陣、b∈RM×1表示偏移向量、tanh作為隱含層的激活函數(shù),隱含層的輸出u∈RM×1可以表示為:
若θ∈RM×C表示隱含層與softmax層之間的權重矩陣、K表示訓練樣本的總數(shù)目、y∈RK表示所有訓練集的場景標記,則MLP的損失函數(shù)為:
我們采用隨機梯度下降法來訓練如圖1所示的場景分類器。圖1中的虛線表示在場景分類器訓練過程中,我們只把分類預測誤差向MLP反饋并對MLP進行參數(shù)調(diào)整,而不調(diào)整3種DCNN的參數(shù)。即,在實現(xiàn)隨機梯度下降算法時,我們只考慮損失函數(shù)J關于W和θ的偏導數(shù),而不考慮J關于δDCNN的偏導數(shù)。這是因為DCNN的結構復雜、參數(shù)較多,利用有限的遙感數(shù)據(jù)集調(diào)整其參數(shù)時容易導致網(wǎng)絡過擬合。
我們采用的數(shù)據(jù)為UCMLU數(shù)據(jù)集,它是由21種場景組成,每個場景具有100張分辨率大小為256×256的三波段的空間的分辨率大約為1英尺的高分遙感圖像。我們隨機的選取每類100張圖片中的80張作為訓練集,剩余的20張作為測試集。
為了增加訓練集的數(shù)量,我們把每張256×256的圖片分別切割出最中間和四周的5張200×200的子圖,然后每張子圖分別做90度、180度、270度的旋轉。測試集也做相同的切割與旋轉處理,所有模型的訓練和測試都在擴展的數(shù)據(jù)集上進行。
實驗的計算機配置為Inte(lR)i7-6700HQ CPU@2.6 GHz,NVIDIA GTX960M GPU,8GB RAM,軟件仿真環(huán)境為Ubuntu16.04下安裝的eclipse(python開發(fā))、以及matlab R2014。用到的開源軟件包為:tensorFlow、Caffe軟件包、OverFeat軟件包、VLFeat(http://www.vlfeat.org)。
為了與傳統(tǒng)的特征提取方式對比,我們分別實現(xiàn)了GIST特征[14]、分層梯度方向直方圖(PHOG)、分層關鍵詞直方圖(PHOW)以及堆疊判別式自編碼器[16](SDASE)4種特征提取方式。PHOG特征我們設置的梯度方向量化為128級,分別在1×1、2×2、4×4 3種空間尺度提取梯度統(tǒng)計直方圖并合并。我們利用文獻[15]中相同的參數(shù)來提取512維的GIST特征。PHOW特征的提取分為3步:
1)為減小計算量,采用未擴展的訓練集的所有的圖片的最中間的200×200的子圖作為訓練集并分別在1×1和2×2空間金字塔上利用VLFeat提取dense SIFT特征;
2)利用Kmean將所有的dense SIFT特征聚類為400個類,每個類的中心作為一個視覺單詞;
3)對于所有訓練集中的任意一副圖像,分別在1×1和2×2空間金字塔上提取dense SIFT特征,利用K最近鄰(kNN,k-Nearest Neighbor)統(tǒng)計距離每個視覺單詞最近的dense SIFT特征數(shù)目并歸一化。最后,我們得到一個2000維的PHOW特征。
SDASE的輸入為顏色統(tǒng)計直方圖、PHOW、GIST的級聯(lián)特征,其中顏色統(tǒng)計直方圖的維數(shù)為384,分3個顏色通道每個通道分128級。PHOW與GIST特征的參數(shù)與上一段中所描述的參數(shù)相同。SDASE的輸入維度大小總共為參數(shù)為2 896。SDASE的結構采用文獻[16]中準確率最高的一種結構:2 896-4 896-1 448-720。無監(jiān)督訓練和有監(jiān)督訓練的學習率均為0.000 1。我們采用tensorFlow完成對MLP分類器的訓練,MLP分類器的隱含層的大小被設為720。采用固定學習率0.000 1,迭代次數(shù)為50。
不同特征提取方式所提取的特征的分類準確率的對比如圖2所示。由此可以看出:PHOG特征、GIST特征、PHOW特征的分類準確率皆低于3種深度神經(jīng)網(wǎng)絡 OverfeatL、CaffeNet、Inspection-v3 提取特征的分類準確率;對于DCNN而言,Inspection-v3相比AlexNet而言具有更優(yōu)化的結構策略與設計思想,在沒有進行特征融合策略時,其分類效果是最好的,達到了95.98%;
圖2 幾種特征提取方式分類準確率的統(tǒng)計
雖然SDASE所提取特征的分類準確率為91.89%,高于OverfeatL特征(91.24%),但是考慮到在訓練MLP過程中對SDASE的參數(shù)進行了微調(diào),不能完全的把SDASE作為一種特征提取方式。因此,我們可以得出:DCNN所提取的特征其分類準確率要高于其他種類的特征提取方式;在遙感場景分類領域,Inspection-v3為最優(yōu)的一種場景特征提取方式。
表 1所示為式(1)、式(2)、式(3)、式(4)所示的4種特征融合方式的場景分類的準確率以及其對準確率提升的影響??梢?,式(4)所示的3種DCNN提取的特征歸一化后的級聯(lián)特征取得了最高的準確率97.01%,并且4種特征融合策略都提高了分類的結果。經(jīng)過歸一化后的特征相對原始特征而言具有更好的分類效果,這是因為不同的DCNN提取的特征經(jīng)過歸一化操作后,在級聯(lián)特征中占有了相同的比重,而不是由一種值較大的特來主導級聯(lián)特征的場景表現(xiàn)力。
表1 幾種融合特征提取方式的分類準確率
圖3所示為準確率最高的式(4)所示方式所提取的特征的分類結果的混淆矩陣(由于我們對結果的小數(shù)位數(shù)做了截斷處理,所以存在部分的列的準確率的和不為1的情況;數(shù)字表示場景類別),其中的數(shù)字與場景類別的對應關系如表2所示。由此可以看出,由于建筑物、密集住宅區(qū)、中尺度住宅區(qū)、稀疏住宅區(qū)這4種場景具有相似性,導致了其分類準確率低于平均準確率。因此,DCNN所提取的相似的場景的特征的區(qū)分度相對較小,這是制約分類效果進一步提升的關鍵因素。
圖3 基于式(4)特征分類結果的混淆矩陣。
表2 數(shù)字標號與場景類型的對應關系
物體識別與場景識別在流程上具有相似性,都是一個場景或物體中的各個部分逐步組合抽象成一個高層語義的過程。這是用ImageNet訓練的DCNN可以作為遙感場景分類特征提取方式的基本理論依據(jù)。文中展示了不同結構的DCNN的融合特征在在場景表達方面的優(yōu)勢。主要貢獻為在遙感圖像場景分類問題中首次提出了Inspection-v3、CaffeNet、以及OverFeatL 3種DCNN的特征融合策略,并運用這種策略提高了分類的準確率。
但是,由于深度的卷積神經(jīng)網(wǎng)絡結構復雜,參數(shù)數(shù)目巨大,造成了特征提取的速度較慢。如何進一步提高深度神經(jīng)網(wǎng)絡的特征提取速度以及相似場景的分類準確率,將是未來研究工作的重點。
[1]Lienou M,Maitre H,Datcu H.Semantic annotation of satellite images using latent dirichlet allocation[J].IEEE Geosci.Remote Sens.Lett.,2010(7):28-32.
[2]Luo W,Li HL,Liu GH.Automatic annotation of multispectral satellite images using autho-topic model[J].IEEE Geosci.Remote Sens.Lett.,2012(9):634-638.
[3]W.Luo,H.L.Li,G.H.Liu,et al.Semantic AnnotationofSatelliteImagesUsingAuthor-Genre-Topic Model[J].IEEE Transactions on Geoscience and Remote Sensing,2014(52):1356-1368.
[4]Zhang Z,Yang M Y,Zhou M,et al.Simultaneous remote sensing image classification and annotation based on the spatial coherent topic model[C]//IEEE InternationalGeoscience and Remote Sensing Symposium.2014:1698-1701.
[5]Sivic J,Zisserman A.Video Google:A text retrieval approach to object matching in videos[C]//Computer Vision,2003.Proceedings.Ninth IEEE InternationalConferenceon.IEEE,2003:1470-1477.
[6]許風暉,慕曉冬,趙鵬,等.利用多尺度特征與深度網(wǎng)絡對遙感影像進行場景分類[J].測繪學報,2016,45(7):834,840.
[7]Penatti O A B,Nogueira K,Santos J A D.Do deep features generalize from everyday objects to remote sensing and aerial scenes domains[C]//IEEE Int.Conf.Comput.Vis.Pattern Recognit.Workshops,2015:44-51.
[8]Deng J,Dong W,Socher R,et al.ImageNet:a large- scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition.2009:248-255.
[9]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[10]Szegedy C, Vanhoucke V, Ioffe S, etal.Rethinking the Inception Architecture for Computer Vision[J]. arXiv preprint arXiv:1512.00567,2015:1-10.
[11]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding[J].ArXiv preprint arXiv:1408.5093,2014:1-4.
[12]Sermanet P,Eigen D,Zhang X,et al.Overfeat:Integrated recognition,localization and detection using convolutional networks[J].arXiv preprint arXiv:1312.6229,2013:1-16.
[13]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2015:1-9.
[14]楊昭,高雋,謝昭,等.局部Gist特征匹配核的場景分類[J].中國圖象圖形學報,2013,18(3):264-270.
[15]Siagian C,Itti L.Rapid biologically-inspired scene classification using features shared with visual attention[J].IEEE transactions on pattern analysis and machine intelligence,2007,29(2):300-312.
[16]Yao X W,Han J W ,Gong C,et al.Semantic annotation of high-resolution satellite images via weakly supervised learning[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54:3660-3671.