徐進(jìn)康 田金文
(華中科技大學(xué)自動化學(xué)院多譜信息處理技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室 武漢 430074)
利用遙感技術(shù)進(jìn)行地震建筑物毀損評估對于震后應(yīng)急響應(yīng)以及災(zāi)后重建都具有十分重要的意義。在有限的時間和人力情況下,快速地定位受損最大的區(qū)域從而指導(dǎo)現(xiàn)場行動是毀損評估的主要目標(biāo)。考慮到在實(shí)際的地震救災(zāi)場景中,震前影像往往很難保障,大多數(shù)的研究聚焦于如何僅依據(jù)震后影像中找到毀損建筑物。這里事實(shí)上是將毀損評估問題變成一個地物分類問題了,而毀損建筑物成為一種新的地物類型。柳稼航[1]提出一種基于區(qū)域結(jié)構(gòu)和紋理信息檢測毀損建筑物的方法,其中的主要假設(shè)在于認(rèn)為完好的建筑物具有較為一致的紋理特性,而毀損建筑物灰度值較低。Sirmacek等[2]提出通過檢測建筑物屋頂和陰影的比例來判斷建筑物毀損情況。黎小東[3]提出了面向?qū)ο蟮倪b感影像分類方法檢測毀損建筑物,文中通過多層次的分割算法,在不同層采用不同的特征逐步去掉背景之后得到用于分析的建筑物對象,然后利用灰度共生矩的方法判斷建筑物是否毀損。Taskin等[4]提出融合光譜和紋理信息的方法進(jìn)行毀損建筑物檢測。
從地物分類角度解決建筑物毀損評估問題主要存在兩個難點(diǎn)。一是由于震前影像缺失導(dǎo)致建筑物定位困難,而毀損建筑物由于邊緣受損很難嚴(yán)格分離,比如文獻(xiàn)[3]采用多層次分割試圖分離出毀損建筑物要求每一層嚴(yán)格達(dá)到預(yù)定效果是很困難的。二是毀損建筑物由于很難有統(tǒng)一的紋理或形狀,無法簡單依據(jù)廢墟本身的特征進(jìn)行判別,大多需要依賴上下文提取特征,這導(dǎo)致文獻(xiàn)[2]中的陰影特性不可能適用于大多數(shù)影像,而文獻(xiàn)[4]中基于手工構(gòu)造的紋理特征參數(shù)較為敏感,很難具有通用性。本文的做法首先并不試圖分離出單獨(dú)的毀損建筑物,而是在面向?qū)ο蟮挠跋穹诸惖幕A(chǔ)上,考慮如何提取更為通用的特征用以判別毀損建筑物。其次考慮如何更好地融合超像素對象的上下文信息,從而避開廢墟地物本身沒有統(tǒng)一形狀或紋理的問題。
近年來,深度學(xué)習(xí)在很多領(lǐng)域取得了較大的進(jìn)展[5]?,F(xiàn)在有很多工作[6~7]顯示,在大規(guī)模數(shù)據(jù)集上訓(xùn)練得到的網(wǎng)絡(luò)可以用于其他領(lǐng)域的僅有少量訓(xùn)練數(shù)據(jù)的任務(wù)上。具體來講,這些工作中,深度學(xué)習(xí)網(wǎng)絡(luò)的輸出被看作圖像的特征描述。實(shí)驗(yàn)顯示,基于深度學(xué)習(xí)網(wǎng)絡(luò)輸出的特征能夠融合低層次的特征得到豐富的中層特征,具備比人為構(gòu)造的特征更好的描述能力。本文的主要貢獻(xiàn)有兩點(diǎn)。首先,將超像素分割和基于遷移學(xué)習(xí)的特征提取方法結(jié)合起來用于建筑物毀損評估。其次,為了解決在提取超像素特征時采樣窗口設(shè)置的問題,本文提出了融合多個采樣窗口進(jìn)行優(yōu)化的方法。
本文采用面向?qū)ο蟮挠跋穹诸惙椒ㄌ崛D像中屬于毀損建筑物的部分,并以此判定圖像中建筑物區(qū)域的毀損情況。圖1展示了算法的整體流程,圖像經(jīng)過超像素分割后得到若干超像素對象。為了獲取超像素對象的特征,我們以超像素的對象為中心取一定大小的采樣窗口。
圖1 算法整體流程
本文利用地物分類的思路解決建筑物毀損評估問題,最終的目的是得到圖像中每一個像素的類別標(biāo)簽。從圖1的算法流程中可以看到,在特征提取的過程中,以每一個像素為中心取特定大小采樣窗口同樣是可行的,但效率較低。在地震后遙感影像中,無論是建筑物還是廢墟,都是占據(jù)一定面積的對象,不可能以孤立的像素方式存在,所以本文選擇以超像素為單位進(jìn)行影像分類。本文采用的超像素分割算法是SLIC[8]算法。相比于現(xiàn)有的其他超像素分割算法,SLIC算法的主要有兩個特點(diǎn)。一是運(yùn)行效率高,SLIC算法是k均值聚類算法的變種,其時間復(fù)雜度與圖像的像素?cái)?shù)目呈現(xiàn)線性關(guān)系。二是SLIC算法的參數(shù)設(shè)置簡單,只需要一個用于確定大致超像素?cái)?shù)目的初始尺度參數(shù)和用于調(diào)整超像素形狀的緊致度參數(shù),且在分割要求不高時緊致度參數(shù)的合理范圍較大。
本文基于遷移學(xué)習(xí)進(jìn)行特征提取?;诰矸e神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)指的是利用在大數(shù)據(jù)集上訓(xùn)練得到的網(wǎng)絡(luò)權(quán)重用于通用的圖像特征提取。
2.3.1 VGG-16網(wǎng)絡(luò)介紹
本文所使用的預(yù)訓(xùn)練網(wǎng)絡(luò)是VGG-16[9],其基本結(jié)構(gòu)如圖2所示。
圖2 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)
VGG-16網(wǎng)絡(luò)源自文獻(xiàn)[9],網(wǎng)絡(luò)的整體的特點(diǎn)是結(jié)構(gòu)簡單,層次較深,是目前使用最廣泛的網(wǎng)絡(luò)結(jié)構(gòu)。
2.3.2 基于空域池化的圖像特征提取
池化層是卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),空域池化的思路就是將卷積神經(jīng)網(wǎng)絡(luò)某一層的所有特征平面通過池化的方式聚合成一個特征向量。具體做法如圖3所示。
圖3 空間域池化示意圖
給定一幅圖像d,我們記第k層的特征為fk(k=1,2,3…,K)。如圖3所示,可以記 fk的尺度為,其中是特征平面數(shù)目,和是第k層所有特征平面的寬度和長度。對于不同尺度的輸入圖像,和可能發(fā)生變化。具體的池化操作如下:
2.3.3 多窗口融合提取對象特征
前面的做法在用于遙感影像分類的過程中仍然存在一個問題,它們都涉及到最佳采樣窗口的問題。為了確定超像素對象所屬的類別,一般在采樣的時候會包含一定的上下文信息,這種上下文窗口的大小受到對象類型、圖像分辨率、背景地物等的影響。一種克服窗口尺度缺陷的方式就是融合多個窗口尺度的分類結(jié)果,如圖4所示。從一定程度上講,像素或超像素的不同尺度的鄰域信息是有互補(bǔ)作用的,特別是在圖像中需要區(qū)分的不同對象尺度差別比較大的時候。
圖4 三種尺度的采樣窗口
分類器的訓(xùn)練是本文算法的最后一個環(huán)節(jié),在特征提取得到所有的特征向量之后,對超像素對象的分類變成一個普通的分類問題。本文選擇使用支持向量機(jī)[10]作為分類器。支持向量機(jī)是近年來最通用的分類器,它主要的特點(diǎn)是收斂速度快、參數(shù)設(shè)置簡單。對于建筑物毀損評估而言,選用支持向量機(jī)還有一個重要的因素在于本文可用的數(shù)據(jù)量比較小。
本節(jié)所使用的測試數(shù)據(jù)源自尼加拉瓜地震災(zāi)區(qū)的遙感影像,而且是全部選取了城區(qū)的影像,共5幅,選取其中4幅作為訓(xùn)練樣本,一幅作為測試圖片。圖片的長和寬都在500~700。所有圖像的分辨率為0.5m,包含RGB三個譜段。實(shí)驗(yàn)所使用的硬件平臺為intel i7 CPU,NVidia 970M GPU。軟件平臺為Ubuntu16.04,深度學(xué)習(xí)框架為caffe。
在以下的實(shí)驗(yàn)討論中,如無特殊說明,我們都使用如下的簡寫來表述相關(guān)算法:full指的是直接從全連接層輸出特征,spm是指空域池化,multi_win是指融合多個采樣窗口的方法。sp_size是指在超像素分割算法中設(shè)置的區(qū)域初始尺度,win_size是指采樣窗口尺度。
表1展示了不同超像素分割參數(shù)和窗口尺度設(shè)置下使用基于空域池化方法提取特征得到的分類精度??梢钥吹剑诖蟛糠智闆r下,超像素分割參數(shù)的影響并不大。由于本文在特征提取的時候使用了上下文窗口包含大于超像素所占區(qū)域的矩形框,所以總體上超像素分割粒度對精度影響并不大。這里有一個例外,可以從最后兩行看到,就是當(dāng)超像素分割尺度大于時,精度會逐步下降,這個事實(shí)上是由于分割越過了對象邊界,已經(jīng)不滿足過分割的條件了,此時即使將所有超像素都正確分類了,最終得到的基于像素的準(zhǔn)確度也不高。
表1 不同參數(shù)設(shè)置下的平均分類精度
圖5 不同窗口尺度下三種地物的識別精度
圖5中展示的是固定超像素分割參數(shù)sp_size=20的條件下得到的在不同窗口尺度下各個類別的精度??梢钥吹降氖?,對于采樣窗口的設(shè)定,并不是越大越好,建筑物和廢墟在采樣窗口由小到大的過程中都經(jīng)歷了先升后降的過程。這一點(diǎn)很好理解,采樣窗口一方面融合了一定的上下文信息,另一方面我們總是假定超像素所屬對象對采樣圖片的特征占主導(dǎo)作用,當(dāng)采樣窗口過大的時候這種假設(shè)并不成立。另一方面,建筑物和廢墟分別在不同的窗口尺度下取得最佳分類精度,這事實(shí)上驗(yàn)證了前面說的采樣窗口的設(shè)置與對象大小相關(guān)。
表2展示了基于多個采樣窗口融合之后得到的分類結(jié)果,其中融合了win_size=32,48,64三種窗口尺度??梢钥吹剑w精度上相較最佳尺度設(shè)置時有明顯提升。另一個優(yōu)勢在于,在融合多個窗口的過程中,我們只是確定了窗口大小的取值范圍之后確定了三個窗口尺度,無需通過實(shí)驗(yàn)測試最佳窗口。
表2 多窗口融合之后的分類精度
為了測試本文算法相比現(xiàn)有算法的性能,本文與文獻(xiàn)[4]中的算法做了對比。
3.4.1 可視化效果
如圖6所示的是幾種算法在本文所使用的一幅測試圖片上得到的效果圖。從中可以看到的是,由于我們是在已經(jīng)定位到城區(qū)的圖片上進(jìn)行判斷,大部分不屬于建筑物的背景地物都被排除了(植被、水體等比較容易),算法的難點(diǎn)在于道路、建筑物、廢墟混在一起,這就解釋了之前為什么會有最佳采樣窗口尺度的問題,因?yàn)榇翱诔叨茸兇笾罂赡軐D片塊起主要作用的地物就變了。本文算法分類的結(jié)果相比文獻(xiàn)[4]中的算法而言能夠更好的檢測出完整的地物。
圖6 算法結(jié)果
3.4.2 數(shù)值結(jié)果
表3中展示了本文提出的算法與文獻(xiàn)[4]中算法的對比結(jié)果??梢钥吹奖疚奶岢龅幕谶w移學(xué)習(xí)的特征提取方法能得到更好的檢測效果?;诙啻翱谌诤系奶卣魈崛》绞讲粌H避開了尋找最佳窗口的過程,而且能得到更高的分類精度,唯一的缺點(diǎn)就是時間損耗增加了。另一方面,本文算法由于在特征提取的過程中引入了深度學(xué)習(xí)框架,導(dǎo)致整體在時間損耗上都比文獻(xiàn)[4]中使用的傳統(tǒng)算法都大。
表3
本章將基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法應(yīng)用到建筑物毀損評估問題中。實(shí)驗(yàn)表明基于卷積神經(jīng)網(wǎng)絡(luò)提取的特征相較于傳統(tǒng)的灰度共生矩具有更好的描述圖像特征的能力。為了對圖像過分割之后的每一個超像素進(jìn)行分類,我們需要針對特定大小的采樣窗口提取特征。采樣窗口的大小成為影像算法性能的一個關(guān)鍵因素,本文提出了融合多個窗口尺度改進(jìn)方式。實(shí)驗(yàn)表明,這種做法能以較小的時間代價(jià)得到更高的性能,最重要的是避開了最佳窗口設(shè)置的難題。
[1]柳稼航,單新建,尹京苑.遙感圖象自動識別城市震害房屋——以2001年印度庫奇地震和1976年唐山地震為例[J].地震學(xué)報(bào),2004,26(6):623-633.LIU Jiahang,SHAN Xinjian,YIN Jingyuan.Automatic rec?ognition of damaged town buildings caused by earthquake using remote sensing information:Taking the 2001 BHUJ,India Earthquake and the 1976 Tangshan,China Earth?quake as examples[J].Acta Seismologica Sinica,2004,26(6):623-633.
[2]Sirmacek,B.,Unsalan,C..Damaged building detection in aerial images using shadow information[C]//Proceed?ings of the 4th International Conference on Recent Advanc?es in Space Technologies,2009:249-252.
[3]Li,X.,Yang,W.,Ao,T.,Li,H.,Chen,W.An improved approach of information extraction for earthquake-dam?aged buildings using high-resolution imagery[J].Journal of Earthquake and Tsunami 5,2011:389-399.
[4]Taskin G,Ersoy O K,Kamasak M E.Earthquake-in?duced damage classification from postearthquake satellite image using spectral and spatial features with support vec?tor selection and adaptation[J].Journal of Applied Re?mote Sensing,2015,9(1):096017.
[5]Hinton,G.E.;Salakhutdinov,R.R.Reducing the dimen?sionality of data with neural networks[J].Science,2006,313,504-507.
[6]Razavian,A.S.;Azizpour,H.;Sullivan,J.;Carlsson,S.CNN features off-the-shelf:An astounding baseline for recognition[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,Columbus,OH,USA,2014:512-519.
[7]Donahue,J.;Jia,Y.;Vinyals,O.;Hoffman,J.;Zhang,N.;Tzeng,E.;Darrell,T.DeCAF:A Deep Convolution?al Activation Feature for Generic Visual Recognition[C]//In Proceedings of the International Conference on Machine Learning,Beijing,China,2014:647-655.
[8]Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE Transactions on Pattern Analysis&Machine Intelli?gence,2012,34(11):2274-2282.
[9]Simonyan K,Zisserman A.Very Deep Convolutional Net?works for Large-Scale Image Recognition[J].Computer Science,2014.
[10]Cortes C,Vapnik V.Support-Vector Networks[J].Ma?chine Learning,1995,20(3):273-297.