陳 夢(mèng) 王曉青
(中國地震局地震預(yù)測研究所,北京 100036)
地震是對(duì)人類影響最大的自然災(zāi)害之一,為最大限度地減輕震害損失,災(zāi)后第一時(shí)間掌握災(zāi)情分布,對(duì)有效開展應(yīng)急救援具有重大意義(王曉青等,2015;Janalipour 等,2016)。調(diào)查人員到災(zāi)區(qū)實(shí)地調(diào)查的傳統(tǒng)方式雖能真實(shí)、準(zhǔn)確地掌握受災(zāi)情況,但需花費(fèi)較長的時(shí)間,且易受道路阻塞的影響。隨著遙感技術(shù)的發(fā)展,遙感在抗震救災(zāi)中發(fā)揮著越來越重要的作用。遙感具有快速、非接觸、覆蓋范圍廣的特點(diǎn),可迅速獲取災(zāi)區(qū)的震害影像(王曉青等,2003;陳文凱等,2008)。如何從影像中快速提取建筑物震害信息是遙感應(yīng)用的重要環(huán)節(jié)。建筑物震害信息提取經(jīng)歷了從基于像元到面向?qū)ο蠓椒ǖ陌l(fā)展歷程?;谙裨姆椒ú荒艹浞掷眉y理、形狀和上下文等信息,制約了建筑物震害信息提取的精度(王巖等,2009);面向?qū)ο蠓椒◤浹a(bǔ)了基于像元方法信息提取精度的缺點(diǎn),但面向?qū)ο蠓椒☉?yīng)用于建筑物震害信息提取的特征,如紋理、形狀等大多需要經(jīng)過人機(jī)交互確定。在過去的幾十年中,許多較成功的圖像語義分割系統(tǒng),如boosting(Shotton 等,2009)、隨機(jī)森林(Shotton等,2008)、支持向量機(jī)(Fulkerson 等,2009)等,能較充分地利用紋理信息(Carreira 等,2011)和結(jié)構(gòu)形狀信息(Xuming 等,2004),但也需要人工干預(yù)選擇特征并設(shè)置參數(shù),影響其分類效果和效率。董燕生等(2011)基于面向?qū)ο蟮姆椒▽?duì)建筑物震害瓦礫進(jìn)行提取試驗(yàn),其總體精度為78.57%。吳劍等(2013)以遙感影像分類的方式進(jìn)行建筑物震害提取,將地物分為植被、水體、臨時(shí)安置房、損毀建筑物和其他地物等,基于像元的方法分類總體精度為76.84%,面向?qū)ο蟮姆椒ǚ诸惪傮w精度為90.38%。文翔等(2014)用面向?qū)ο蟮姆椒▽?duì)高分辨率遙感影像進(jìn)行分類,以提取建筑物震害信息,其總體分類精度為73.56%。楊春(2015)運(yùn)用面向?qū)ο蟮乃枷?,結(jié)合隨機(jī)森林分類器,對(duì)魯?shù)榈卣鹫鸷筮b感影像進(jìn)行分類,提取建筑物震害信息,以像元為統(tǒng)計(jì)單元,其總體分類精度為85%。
隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,如圖像分類(Lecun 等,1998;Krizhevsky 等,2012;Sermanet 等,2013;Simonyan 等,2014;Szegedy等,2015)、物體檢測(Erhan 等,2014;Girshick 等,2014;Girshick,2015;Kaiming 等,2015;Liu 等,2015;Ren 等,2017)等。許多研究者將深度學(xué)習(xí)技術(shù)應(yīng)用于遙感圖像分類的研究,總體來看可分為以下幾類:①基于窗口的卷積神經(jīng)網(wǎng)絡(luò):該方法將固定大小的圖斑輸入神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)從該圖斑中提取的特征對(duì)位于圖斑中心一個(gè)或幾個(gè)像素進(jìn)行類別預(yù)測。Mnih(2013)利用該方法從高分辨率航空影像中提取房屋和道路,并取得較理想的結(jié)果,但這種方法計(jì)算量大、速度慢,目前已較少使用。②面向?qū)ο笈c卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法:該方法先將圖像進(jìn)行多尺度分割,得到超像元圖斑,然后利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)整個(gè)超像元圖斑類別進(jìn)行預(yù)測,這種方法雖對(duì)分類器進(jìn)行了改進(jìn),但并未克服圖像多尺度分割中存在的分割效果不良的問題。金永濤等(2018)采用該方法將地物分為建筑物、農(nóng)作物、林地、水體、道路、其他地物等類型,總體精度為84.40%。③基于全卷積神經(jīng)網(wǎng)絡(luò)的方法:該方法將卷積神經(jīng)網(wǎng)絡(luò)全連接層替換為卷積層,并將不同層次的特征進(jìn)行融合,實(shí)現(xiàn)了像元級(jí)的類別預(yù)測(Long 等,2015)。劉文濤等(2018)基于該方法進(jìn)行了建筑物屋頂遙感提取,其測試精度達(dá)90%以上。
全卷積神經(jīng)網(wǎng)絡(luò)中使用的特征由神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)得到,無需人工設(shè)定,因此,相對(duì)于傳統(tǒng)方法,可在一定程度上實(shí)現(xiàn)快速自動(dòng)分類。本文將全卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于建筑物震害信息的提取,嘗試解決建筑物震害遙感信息提取自動(dòng)化程度不高的問題。
Long 等(2015)提出全卷積神經(jīng)網(wǎng)絡(luò)的概念,并將其應(yīng)用于圖像語義分割。圖像語義分割指將像素按照?qǐng)D像中表達(dá)語義含義的不同進(jìn)行分組或分割。目前,以全卷積神經(jīng)網(wǎng)絡(luò)和上采樣為基礎(chǔ)的端到端的訓(xùn)練方法是當(dāng)前語義分割的主流方法,為圖像語義分割開辟了一條新的道路,可通過自主學(xué)習(xí)圖像自身的特征實(shí)現(xiàn)語義分割任務(wù),擺脫了人工設(shè)計(jì)特征的束縛。全卷積神經(jīng)網(wǎng)絡(luò)的基本思想是將卷積神經(jīng)網(wǎng)絡(luò)最后幾層的全連接層替換為卷積層,從而使得特征圖中包含位置信息。為實(shí)現(xiàn)圖像各像素的分類,首先將卷積神經(jīng)網(wǎng)絡(luò)最后一層特征圖上采樣至與輸入圖像相同的尺寸,然后用分類器進(jìn)行每一像素的類別預(yù)測。全卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和上采樣層組成。卷積運(yùn)算的實(shí)質(zhì)是一個(gè)固定大小的卷積核以某一固定步長在圖像上滑動(dòng)做卷積運(yùn)算。卷積運(yùn)算過程中卷積核的權(quán)重參數(shù)及偏置參數(shù)均由通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練自主學(xué)習(xí)得到。神經(jīng)網(wǎng)絡(luò)中不同層的網(wǎng)絡(luò)用于提取不同層次的特征。池化層的作用在于縮少參數(shù)矩陣的大小,減少網(wǎng)絡(luò)中的訓(xùn)練參數(shù),主要通過固定大小的窗口以特定的步長在卷積層輸出的特征圖上移動(dòng),取滑動(dòng)窗口內(nèi)的最大值(最大池化)或平均值(平均池化)作為輸出。卷積和池化操作的詳細(xì)內(nèi)容參見常亮等(2016)的研究。
全卷積神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的主要區(qū)別在于:全連接層替換為卷積層;加入上采樣層;采用跳躍層(skip-layers)結(jié)構(gòu)。
如果僅對(duì)最后一層特征圖進(jìn)行上采樣,雖可達(dá)到圖像分割的目的,但圖像語義分割的邊界較模糊,不夠精確。為解決此問題,Long 等(2015)提出跳躍層的策略,主要思路是將經(jīng)過多次卷積池化操作后得到的高層次空間分辨率較低的特征圖進(jìn)行上采樣,將上采樣得到的特征圖與低層空間分辨率較高的特征圖進(jìn)行融合,本文的融合方式為特征圖中對(duì)應(yīng)元素相加求和。將卷積層conv15 輸出的特征圖進(jìn)行2 倍的上采樣得到2×conv15,然后將其與第4 卷積層pool4 輸出的特征圖進(jìn)行融合得到Fuse_pool4_pool15,再將Fuse_pool4_pool15 進(jìn)行2倍上采樣,并與第3 卷積層pool3 輸出的特征圖進(jìn)行融合,將最終融合的特征圖用于語義分割(見圖1)。融合后的特征圖集既包含高層特征圖的語義信息,又包含低層特征圖的邊界信息,因此能獲得較精確的語義分割結(jié)果。
圖1 全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖(Long 等,2015) Fig. 1 Structure diagram of skip-layers of fully convolutional neural network(Long 等,2015)
圖1 中image 為輸入圖像,conv1—conv15 為卷積層,pool1—pool5 為池化層。“n×”指后面對(duì)應(yīng)的特征圖經(jīng)上采樣操作后大小擴(kuò)大到n倍。圖1 中虛線箭頭表示跳躍層結(jié)構(gòu),“+”表示數(shù)據(jù)的融合(Long 等,2015)。
Long 等(2015)將在圖像分類任務(wù)中表現(xiàn)較好的AlexNet(Krizhevsky 等,2012)、GoogLeNet(Szegedy 等,2015)、Vgg16 Net(Simonyan 等,2014)3 種卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行全卷積網(wǎng)絡(luò)改造,并在PASCAL(Pattern Analysis, Statical Modeling and Computational Learning)網(wǎng)絡(luò)組織的PASCALVOC 數(shù)據(jù)集上進(jìn)行圖像語義分割試驗(yàn),得出Vgg16 Net 效果最佳的結(jié)論。因此本文選用Long 等(2015)基于Vgg16 Net 改造的全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建筑物震害信息的提取。由于本文中建筑物震害信息的提取是將遙感影像分為倒塌建筑物、未倒塌建筑物和背景,因此將網(wǎng)絡(luò)中待分類別數(shù)目改為3。
網(wǎng)絡(luò)的輸出層為第L層,其輸出的分類數(shù)目為KL,本文中KL=3,選用softmax 函數(shù)作為分類器,計(jì)算每個(gè)像元屬于kL類的概率值,softmax 函數(shù)表達(dá)式為:
2010 年4 月14 日7 時(shí)49 分,青海省玉樹藏族自治州玉樹縣(33.2°N, 96.6°E)發(fā)生7.1 級(jí)地震,震源深度14km,宏觀震中位于玉樹縣結(jié)古鎮(zhèn)隆洪達(dá)附近,極震區(qū)烈度為Ⅸ度,結(jié)古鎮(zhèn)房屋建筑遭受嚴(yán)重破壞。本文以玉樹縣城區(qū)局部區(qū)域?yàn)檠芯繀^(qū),試驗(yàn)數(shù)據(jù)基于原國家測繪局在玉樹地震震后拍攝的航空遙感影像,紅綠藍(lán)三波段,空間分辨率為0.2m。將該影像切割為500×500 像素的一系列圖斑,從中選取427 張包含倒塌建筑物和未倒塌建筑物的圖像圖斑,進(jìn)行倒塌建筑物、未倒塌建筑物和背景3 類地物類型標(biāo)注,從而得到標(biāo)注圖斑。從427 張標(biāo)注的圖斑中隨機(jī)選取393 張作為訓(xùn)練集,其余的34 張作為測試樣本集,訓(xùn)練集和樣本集的數(shù)據(jù)均由原始圖斑和對(duì)應(yīng)的標(biāo)簽圖像組成。訓(xùn)練樣本集和測試樣本集在研究區(qū)的分布和放大圖像分別如圖2、3 所示。
圖2 研究區(qū)震后遙感影像及選取的訓(xùn)練樣本分布示意 Fig.2 Remote sensing image and training sample distribution in the research area
圖3 震后高分遙感影像圖斑及對(duì)應(yīng)的真值 Fig. 3 training samples: post-earthquake high-resolution remote sensing image patch and the corresponding ground truth
為加快模型訓(xùn)練速度,本文結(jié)合Long 等(2015)的方法,將預(yù)訓(xùn)練的Vgg16Net 的權(quán)重作為本文網(wǎng)絡(luò)權(quán)重的初始化參數(shù)。通過制作的遙感數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練時(shí)采用梯度下降法,其中學(xué)習(xí)率參數(shù)決定了權(quán)值更新的速度,設(shè)置的太大會(huì)使結(jié)果達(dá)不到最優(yōu)值,太小會(huì)使下降速度過慢,參考Long 等(2015)的研究,在本試驗(yàn)中學(xué)習(xí)率設(shè)為10-14。另一個(gè)參數(shù)為權(quán)值衰減參數(shù),其設(shè)置的目的是防止過擬合,本文中將其設(shè)為0.0005??紤]計(jì)算機(jī)內(nèi)存的限制,本文將每次迭代訓(xùn)練圖斑的數(shù)目定為2。圖4 所示為損失函數(shù)值隨迭代次數(shù)的變化,圖中損失函數(shù)值為參與訓(xùn)練樣本的平均損失函數(shù)值。由圖4可知,隨著迭代次數(shù)的增加,損失函數(shù)值迅速減小。結(jié)合圖4 的變化趨勢,本文選取迭代訓(xùn)練50000 次得到的模型作為測試模型。
根據(jù)實(shí)際標(biāo)注樣本訓(xùn)練得到的全卷積神經(jīng)網(wǎng)絡(luò)參數(shù)模型,對(duì)34 張500×500 像素的驗(yàn)證樣本原始影像圖斑的建筑物震害類別進(jìn)行預(yù)測,并與人工標(biāo)注的真實(shí)結(jié)果進(jìn)行比較(見圖5、6)。圖5、6 中紅色表示倒塌建筑物,綠色表示未倒塌建筑物,黑色表示背景。
圖4 損失函數(shù)值隨迭代次數(shù)變化圖 Fig.4 Variation of loss value with iteration times
圖5 研究區(qū)遙感影像及驗(yàn)證樣本圖斑分布圖 Fig.5 Remote sensing image and test sample distribution in the research area
圖6 基于全卷積神經(jīng)網(wǎng)絡(luò)提取的建筑物震害信息結(jié)果示例圖 Fig.6 The typical result showing seismic damage of buildings extracted from RS image by FCN
以像元為統(tǒng)計(jì)單位,統(tǒng)計(jì)驗(yàn)證樣本分類情況,利用式(6)、式(7)分別計(jì)算每一類別的精度、總體分類精度,得到分類混淆矩陣,如表1 所示。由表1 可知,背景、倒塌建筑物和未倒塌建筑物的分類精度分別為89.3%、64.6%和72.2%,總體分類精度為82.3%,利用式(8)計(jì)算Kappa 系數(shù)為62.3%,顯示結(jié)果具有較高的一致性。
表1 基于全卷積神經(jīng)網(wǎng)絡(luò)的建筑物震害提取結(jié)果混淆矩陣 Table 1 The obfuscation matrix of building damage extraction results based on full convolutional neural network
為驗(yàn)證本文所采用方法的有效性,在相同數(shù)據(jù)集的條件下,利用面向?qū)ο蟮倪b感圖像分類軟件—ecognition 9.02 版本進(jìn)行建筑物震害提取試驗(yàn)。采用面向?qū)ο蟊O(jiān)督分類的思想,試驗(yàn)的基本流程為圖像分割、樣本選擇、監(jiān)督分類。圖像分割方法采用軟件自帶的多尺度分割算法,監(jiān)督分類算法同樣采用軟件自帶的cart 決策樹算法。經(jīng)反復(fù)試驗(yàn)比較,多尺度分割算法中的形狀參數(shù)設(shè)為0.1,緊致度參數(shù)設(shè)為0.5;選用的分類特征包括亮度均值、各波段亮度標(biāo)準(zhǔn)差、形狀指數(shù)、各方向的灰度共生矩陣、灰度共生矩陣標(biāo)準(zhǔn)差。最終的試驗(yàn)結(jié)果如表2 所示,背景、倒塌建筑物和未倒塌建筑物的分類精度分別為59.6%、84.7%和49.0%,總體分類精度為62.9%,Kappa 系數(shù)為37.3%??梢娖淇傮w精度遠(yuǎn)低于本文所采用的全卷積神經(jīng)網(wǎng)絡(luò)方法。
表2 基于cart 監(jiān)督分類的建筑物震害提取結(jié)果混淆矩陣 Table 2 confusion matrix of building damage extraction results based on cart supervised classification
本文采用基于Vgg16 Net 的全卷積神經(jīng)網(wǎng)絡(luò),建立應(yīng)用于建筑物震害信息提取的模型,以玉樹地震玉樹縣城區(qū)局部區(qū)域?yàn)檠芯繀^(qū),對(duì)研究區(qū)427 個(gè)500×500 像素的圖斑進(jìn)行建筑物倒塌、未倒塌及背景3 個(gè)類型進(jìn)行人工標(biāo)注,隨機(jī)選取393 個(gè)標(biāo)注樣本,通過迭代分析得到應(yīng)用于建筑物震害信息提取的全卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)余下34 個(gè)圖斑進(jìn)行震害信息提取,并與傳統(tǒng)的面向?qū)ο蠓椒ㄕ鸷π畔⑻崛〗Y(jié)果進(jìn)行分類精度對(duì)比分析。
試驗(yàn)結(jié)果表明,本文所建立的模型對(duì)建筑物震害提取總體像素精度可達(dá)82.3%,Kappa系數(shù)為62.3%,表明該方法具有一定的建筑物震害信息提取能力;與面向?qū)ο蟮姆椒ㄏ啾龋m然倒塌建筑物的提取精度較低,但由于全卷積神經(jīng)網(wǎng)絡(luò)方法能自主地學(xué)習(xí)建筑物震害信息的特征,在一定程度上減少了人為因素的干擾,提高了建筑物震害信息提取的自動(dòng)化程度,對(duì)災(zāi)后迅速掌握災(zāi)情信息具有一定意義。
本文所用方法也存在一定問題,對(duì)建筑物震害信息提取的精度不夠高。出現(xiàn)這種現(xiàn)象的原因包括:對(duì)建筑物震害信息的提取基于一個(gè)尺度,缺乏多尺度特征的應(yīng)用;不同地物的提取精度存在較大差異,且在該樣本集下倒塌建筑物的提取精度低于傳統(tǒng)監(jiān)督分類的方法,由于樣本類別間數(shù)量的不平衡,背景樣本數(shù)量遠(yuǎn)多于倒塌建筑物和未倒塌建筑物的樣本數(shù)量,使得模型的預(yù)測能力出現(xiàn)差異。
基于上述問題,以后的研究方向包括:①考慮全卷積神經(jīng)網(wǎng)絡(luò)沒有利用遙感影像的多尺度特征,因此可將多尺度孔洞卷積應(yīng)用于遙感影像的建筑物震害信息提取中。②對(duì)模型進(jìn)行優(yōu)化,在訓(xùn)練過程中按照訓(xùn)練樣本的數(shù)量,對(duì)樣本在訓(xùn)練過程中賦予相應(yīng)的權(quán)重,以克服樣本類別間數(shù)量不平衡的矛盾。