徐繁樹(shù),王保云
(1.云南師范大學(xué)信息學(xué)院,昆明 650500;2.云南師范大學(xué)數(shù)學(xué)學(xué)院,昆明 650500;3.云南省高校復(fù)雜系統(tǒng)建模及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
我國(guó)是受泥石流威脅人口最多的國(guó)家之一,泥石流對(duì)人民的財(cái)產(chǎn)安全和社會(huì)經(jīng)濟(jì)發(fā)展帶來(lái)嚴(yán)重威脅,因此對(duì)泥石流災(zāi)害區(qū)域進(jìn)行快速識(shí)別十分重要。
目前,對(duì)泥石流溝谷的識(shí)別方法大致有以下四類(lèi):第一種是通過(guò)實(shí)地考察,對(duì)溝谷的地形、地貌、沖積扇特征、植被情況等進(jìn)行調(diào)查識(shí)別,此類(lèi)方法準(zhǔn)確率高,但需要投入較大的人力和時(shí)間成本。第二種主要基于遙感技術(shù),通過(guò)構(gòu)建溝谷的目視解譯特征進(jìn)行泥石流的識(shí)別。第三類(lèi)使用統(tǒng)計(jì)學(xué)的方法,對(duì)泥石流流域面積、相對(duì)高差、松散物源面積等進(jìn)行建模,通過(guò)計(jì)算出的危險(xiǎn)因子大小,判別溝谷的危險(xiǎn)程度。第二、第三類(lèi)方法存在的問(wèn)題在于構(gòu)建特征或?qū)ξkU(xiǎn)因子進(jìn)行選取時(shí),主要依賴研究者的主觀判斷,需要一定的專(zhuān)業(yè)知識(shí),且模型結(jié)果受參數(shù)選取的影響較大。最后一類(lèi)方法是基于機(jī)器學(xué)習(xí)的方法,該類(lèi)方法往往需要大量數(shù)據(jù)作為支持。
為了解決實(shí)地考察費(fèi)時(shí)費(fèi)力,以及基于遙感或統(tǒng)計(jì)方法中,人的主觀判斷對(duì)模型的影響,本文結(jié)合數(shù)字高程模型(DEM)圖與深度殘差網(wǎng)絡(luò),以怒江地區(qū)為例,對(duì)該地區(qū)的泥石流溝谷進(jìn)行了識(shí)別。
怒江傈僳族自治州(下簡(jiǎn)稱怒江州)位于云南西北部,有怒江、瀾滄江、獨(dú)龍江三條河流自北向南流經(jīng)。其中怒江流域溝壑縱橫、地形復(fù)雜、高差大,是泥石流災(zāi)害的高發(fā)地區(qū)。怒江流域?qū)儆趤啛釒降貪駶?rùn)季風(fēng)氣候,降水豐富,極易誘發(fā)泥石流;此外,怒江流域兩側(cè)溝谷落差大、形態(tài)狹窄,均是形成泥石流的有利條件。研究區(qū)域如圖1所示。
圖1 研究區(qū)域位置圖
通過(guò)DEM獲取地表形態(tài)特征,比人工實(shí)地考察更加快速便捷,且許多泥石流相關(guān)的參數(shù)都可以通過(guò)對(duì)DEM計(jì)算后得到,如流域縱比降、土石量、沖淤面積等,我們希望這些泥石流相關(guān)特征能被殘差網(wǎng)絡(luò)所捕獲,從而完成對(duì)泥石流孕災(zāi)溝谷的快速識(shí)別。
為了適應(yīng)模型的訓(xùn)練要求,需要先區(qū)分出發(fā)生過(guò)泥石流災(zāi)害和未發(fā)生過(guò)災(zāi)害的溝谷,數(shù)據(jù)篩選方式如下:對(duì)于發(fā)生過(guò)災(zāi)害的溝谷,我們查閱了《云南減災(zāi)年鑒》,并結(jié)合相關(guān)新聞報(bào)道,將泥石流的發(fā)生地精確到村,在怒江流域共篩選出50條確認(rèn)發(fā)生過(guò)泥石流的溝谷。對(duì)于無(wú)泥石流記錄的溝谷,我們通過(guò)衛(wèi)星地圖篩選出溝谷旁有村莊或農(nóng)田,但是沒(méi)有泥石流記錄的溝谷作為負(fù)樣本,通過(guò)這種方法選取出了50條無(wú)泥石流災(zāi)害記錄的溝谷作為負(fù)樣本。這種負(fù)樣本的構(gòu)造方式與過(guò)去直接將無(wú)泥石流記錄的溝谷視為負(fù)樣本的數(shù)據(jù)構(gòu)建方式不同,因?yàn)橹挥性斐闪巳藛T傷亡或經(jīng)濟(jì)損失的泥石流才會(huì)被作為災(zāi)害被記錄,而對(duì)于沒(méi)有人煙的溝谷,其是否發(fā)生過(guò)泥石流實(shí)際上是難以確定的。
在確定了要提取的溝谷后,我們使用Arc-GIS軟件,從DEM圖中提取出這些溝谷。本實(shí)驗(yàn)所用的DEM圖來(lái)自USGS的公開(kāi)數(shù)據(jù)集,分辨率為30米。
泥石流是多種因素共同作用的結(jié)果,與當(dāng)?shù)氐耐寥?、巖體、植被覆蓋率,及溝谷的長(zhǎng)度,匯流面積,坡度等幾何形態(tài)等均有關(guān)聯(lián)。本文所研究的區(qū)域?yàn)榕饔?,在這一區(qū)域內(nèi),可以近似認(rèn)為該區(qū)域的土壤、巖體、植被等條件是近似的,各條溝谷的主要差異在于主溝長(zhǎng)度,坡度,匯流面積等幾何特征,可以作為識(shí)別孕災(zāi)溝谷的決定性條件。這些特征均可通過(guò)DEM圖的大小和灰度等屬性描述。
首先,我們根據(jù)是否發(fā)生過(guò)泥石流,將100張DEM圖劃分為2大類(lèi)——發(fā)生和未發(fā)生;又根據(jù)流域大小和主溝長(zhǎng)度,將每大類(lèi)再劃分為3小類(lèi),具體劃分方式見(jiàn)表1。
表1 數(shù)據(jù)的分類(lèi)方式
各類(lèi)樣本DEM示例圖片如圖2所示。
圖2 樣本示例
由于原始樣本量較少,為了適應(yīng)殘差網(wǎng)絡(luò)訓(xùn)練要求,以達(dá)到較好的訓(xùn)練效果,需要通過(guò)圖像增強(qiáng)的方式擴(kuò)充數(shù)據(jù)集。因?yàn)閹缀谓Y(jié)構(gòu)特征是本研究中的關(guān)鍵因素,故所選取的圖像增強(qiáng)方法不能破壞原DEM圖所表現(xiàn)的溝谷的形狀特點(diǎn),因此并非所有擴(kuò)充方式均適用于本實(shí)驗(yàn)所用的DEM圖像。最終采用的變換方式為:隨機(jī)旋轉(zhuǎn)變換(90°,180°,270°)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn),伽馬校正。
殘差網(wǎng)絡(luò)(Resnet)于2015年被提出,其獨(dú)特的殘差結(jié)構(gòu)解決了普通深度神經(jīng)網(wǎng)絡(luò)隨深度增加而導(dǎo)致的梯度爆炸或消失的問(wèn)題,使得層數(shù)較高的網(wǎng)絡(luò)也能取得較好的性能,在各種圖像分類(lèi)任務(wù)上表現(xiàn)優(yōu)異。
殘差模塊的結(jié)構(gòu)如圖3所示。
圖3 殘差模塊示意圖
考慮到所使用的DEM圖的大小與公開(kāi)數(shù)據(jù)集不同,為了減小圖像縮放對(duì)輸入數(shù)據(jù)造成的損失,故在進(jìn)入網(wǎng)絡(luò)前將圖像縮放大小設(shè)定為512×512,將最后的全連接層替換為兩個(gè)線性映射以適應(yīng)修改后的圖像輸入大小,具體網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖4。
圖4 調(diào)整后的Resnet18示意圖
對(duì)該模型進(jìn)行訓(xùn)練和測(cè)試的過(guò)程為:每次實(shí)驗(yàn)從100張圖片中隨機(jī)選取33張,并且保證每類(lèi)圖片至少有5張作為測(cè)試集,不作增強(qiáng),另外67張圖片作為訓(xùn)練圖片,采用圖像增強(qiáng)的方式擴(kuò)充到402張作為訓(xùn)練集,訓(xùn)練/測(cè)試集構(gòu)建方式與實(shí)驗(yàn)流程如圖5所示。
圖5 實(shí)驗(yàn)流程圖
模型的訓(xùn)練與測(cè)試均在Pytorch框架下完成。硬件環(huán)境:Intel Xeon Gold-6271@2.60GHz CPU,NVIDIA Tesla P100 GPU;軟件環(huán)境:Ubuntu 18.04操作系統(tǒng),Python 3.6,CUDA 9.0,Pytorch 0.4.1,以及圖像相關(guān)的第三方庫(kù)。
模型訓(xùn)練時(shí)使用GPU加速,具體訓(xùn)練設(shè)置如下:最大訓(xùn)練數(shù)設(shè)置為100個(gè)epoch,batch size設(shè)置為8,學(xué)習(xí)率設(shè)置為0.002,優(yōu)化方法為隨機(jī)梯度下降法(SGD),損失函數(shù)為交叉熵?fù)p失(Cross Entropy Loss),每輪訓(xùn)練后使用測(cè)試集進(jìn)行測(cè)試,保存最好的測(cè)試結(jié)果。
本文共進(jìn)行了30組平行實(shí)驗(yàn),各組實(shí)驗(yàn)結(jié)果較為相近,我們選取其中一組實(shí)驗(yàn)結(jié)果,繪制了以下圖像。
訓(xùn)練迭代100次,訓(xùn)練過(guò)程中模型的損失值隨迭代次數(shù)變換的曲線如圖6所示。
圖6 損失值變化曲線
訓(xùn)練準(zhǔn)確率、測(cè)試準(zhǔn)確率如圖7所示。
圖7 正確率變化曲線
從圖6可以看出,損失函數(shù)波動(dòng)較大,但最終能達(dá)到收斂;結(jié)合圖7,在訓(xùn)練集上的準(zhǔn)確率最后收斂到100%,在測(cè)試集上的準(zhǔn)確率與在訓(xùn)練集上的準(zhǔn)確率變化趨勢(shì)基本一致,并在過(guò)擬合前取得最好的測(cè)試準(zhǔn)確率。
根據(jù)神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的測(cè)試結(jié)果,通過(guò)以下四個(gè)指標(biāo)衡量模型的性能:召回率、準(zhǔn)確率、受試者操作特性曲線(ROC)以及。
首先給出所有實(shí)驗(yàn)結(jié)果匯總后得到的混淆矩陣,再給出各項(xiàng)性能指標(biāo),六分類(lèi)得到的混淆矩陣如表2所示。
根據(jù)表2給出的混淆矩陣,可以得到各性能指標(biāo)的值,具體見(jiàn)表3。
表2 混淆矩陣
表3 召回率和準(zhǔn)確率
觀察混淆矩陣可以發(fā)現(xiàn),分類(lèi)錯(cuò)誤的圖片往往被誤分到流域大小近似的類(lèi)別中,如對(duì)于大流域且發(fā)生了泥石流的圖片,有114張被正確預(yù)測(cè),預(yù)測(cè)錯(cuò)誤的36張中,32張被分類(lèi)為大流域但未發(fā)生泥石流,這一方面說(shuō)明模型的確具有區(qū)分溝谷是否發(fā)生泥石流的能力,另一方面也說(shuō)明流域面積大小對(duì)模型的分類(lèi)結(jié)果有著較大的影響。
通過(guò)計(jì)算召回率和準(zhǔn)確率,發(fā)現(xiàn)模型對(duì)大流域溝谷是否發(fā)生泥石流的識(shí)別效果較好,其準(zhǔn)確率和召回率均能達(dá)到70%以上,且隨著流域面積變小,模型的效果變差,這說(shuō)明高差、坡度、形態(tài)等幾何特征在大流域溝谷是否發(fā)生泥石流上有著較為顯著的特征,差異比較明顯,而隨著流域面積變小,幾何特征相似度變高,因此,僅通過(guò)DEM圖較難區(qū)分其是否發(fā)生過(guò)泥石流。
為了進(jìn)一步驗(yàn)證模型的可靠性,將圖片分類(lèi)為發(fā)生泥石流和未發(fā)生泥石流兩類(lèi),根據(jù)實(shí)驗(yàn)結(jié)果可繪制出ROC曲線(見(jiàn)圖8),計(jì)算得的值為0.70,說(shuō)明模型具有一定的準(zhǔn)確性。
圖8 ROC曲線圖
本文以怒江州為研究區(qū)域,以單溝流域?yàn)樽R(shí)別單元,針對(duì)溝谷的長(zhǎng)度、高差、坡度及匯流面積等幾何形態(tài)特征對(duì)泥石流災(zāi)害進(jìn)行了識(shí)別,通過(guò)召回率、準(zhǔn)確率等指標(biāo)對(duì)模型的準(zhǔn)確性和穩(wěn)定性進(jìn)行驗(yàn)證。結(jié)果表明,通過(guò)DEM圖結(jié)合殘差網(wǎng)絡(luò)的方法可以快速識(shí)別出溝谷是否發(fā)生過(guò)泥石流,且對(duì)于流域面積較大的溝谷具有較好的識(shí)別準(zhǔn)確率,簡(jiǎn)單易行且節(jié)省了人力物力。在后續(xù)工作中,應(yīng)進(jìn)一步擴(kuò)充所使用的圖像,添加多光譜影像作為新數(shù)據(jù),進(jìn)一步提高模型的準(zhǔn)確率。