楊延晨,周 超,施佳湄
(1. 中國地質(zhì)大學(xué)(武漢) 李四光學(xué)院, 湖北 武漢 430074; 2. 中國地質(zhì)大學(xué)(武漢) 地理與信息工程學(xué)院, 湖北 武漢 430078)
滑坡災(zāi)害是地質(zhì)災(zāi)害中最重要的一種類型,分布地區(qū)廣、發(fā)生頻率高、造成的損失嚴(yán)重。滑坡災(zāi)害的頻繁發(fā)生會對山區(qū)居民的生命財(cái)產(chǎn)安全造成巨大的威脅[1-2]。近年來三峽庫區(qū)地質(zhì)災(zāi)害頻發(fā),2013年,重慶市萬州區(qū)孫家鎮(zhèn)荊竹屋基地帶發(fā)生大面積滑坡,致使多條道路中斷,給交通和居民安全造成了重大的隱患[3]。2014年,湖北省秭歸縣發(fā)生杉樹槽滑坡,規(guī)模大、速度快,導(dǎo)致水電站被滑坡沖毀[4]?;聻?zāi)害的精細(xì)化風(fēng)險(xiǎn)管控是防災(zāi)減災(zāi)的重要手段,而滑坡易發(fā)性評價(jià)是其風(fēng)險(xiǎn)評價(jià)的基礎(chǔ)[5]。
滑坡易發(fā)性的研究始于20世紀(jì)70年代中期,在過去的幾十年里,國內(nèi)外學(xué)者對區(qū)域滑坡易發(fā)性評價(jià)開展了諸多的研究,經(jīng)驗(yàn)?zāi)P蚚6-7]、信息量模型[8-9]、統(tǒng)計(jì)預(yù)測模型[5,10-11]及機(jī)器學(xué)習(xí)模型[12-13]在滑坡易發(fā)性評價(jià)中得到了廣泛的應(yīng)用。文獻(xiàn)[14—15]應(yīng)用多種統(tǒng)計(jì)方法對尼泊爾Mugling-Narayanghat地區(qū)進(jìn)行了滑坡災(zāi)害易發(fā)性評價(jià),并對比分析了各模型方法的評價(jià)結(jié)果;文獻(xiàn)[16]通過耦合支持向量機(jī)和粗糙集模型對三峽庫區(qū)秭歸至巴東段進(jìn)行了滑坡災(zāi)害易發(fā)性評價(jià),取得了較好的效果;文獻(xiàn)[17]將隨機(jī)森林和確定系數(shù)耦合進(jìn)行滑坡易發(fā)性評價(jià),發(fā)現(xiàn)耦合后的模型精度更高?;乱装l(fā)性研究目前處于正在由傳統(tǒng)的統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)模型向更加智能精確化的深度學(xué)習(xí)模型過渡的階段[18]。
滑坡是否發(fā)生除與自身所在位置有關(guān)外,還與鄰接的地質(zhì)環(huán)境密切相關(guān)。目前的滑坡易發(fā)性模型多以像素為基礎(chǔ)評價(jià)單元,忽略了與其周邊地質(zhì)環(huán)境的關(guān)聯(lián)性,影響了制圖精度的提升[19]。深度學(xué)習(xí)是一種具有更強(qiáng)非線性預(yù)測能力的分類模型,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法能更有效地提取出圖像數(shù)據(jù)的深層信息,已經(jīng)在圖像分類[20-21]、遷移學(xué)習(xí)[22]等領(lǐng)域廣泛應(yīng)用。此外,深度學(xué)習(xí)建模使用的基礎(chǔ)數(shù)據(jù)為矩陣圖像[23-24],與基于機(jī)器學(xué)習(xí)等模型相比,可有效顧及目標(biāo)樣本周邊鄰接像素對其的影響。
本文以三峽庫區(qū)萬州區(qū)為研究對象,選取坡度、坡向、地層巖性等滑坡發(fā)育的影響因子構(gòu)建評價(jià)指標(biāo)體系,應(yīng)用信息量模型統(tǒng)計(jì)分析各指標(biāo)與滑坡空間發(fā)育的量化關(guān)系,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的易發(fā)性評價(jià)模型。
基于卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域滑坡易發(fā)性評價(jià)主要分為以下4個(gè)部分:①多源數(shù)據(jù)準(zhǔn)備,制作滑坡編錄數(shù)據(jù)庫,收集地形、地質(zhì)和遙感影像等研究所需的基礎(chǔ)數(shù)據(jù);②指標(biāo)體系構(gòu)建,結(jié)合收集的數(shù)據(jù)對影響因子進(jìn)行分級,采用信息量法分析影響因子與滑坡發(fā)育的關(guān)系,構(gòu)建滑坡易發(fā)性影響因子數(shù)據(jù)集;③智能模型建立,對構(gòu)建好的數(shù)據(jù)集進(jìn)行劃分,隨機(jī)選取70%的數(shù)據(jù)進(jìn)行訓(xùn)練,30%的剩余樣本進(jìn)行測試,分別利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行易發(fā)性建模,將模型的預(yù)測結(jié)果進(jìn)行易發(fā)性制圖;④精度分析評級,采用ROC曲線等對比分析不同易發(fā)性模型的精度,探究關(guān)鍵參數(shù)對建模性能的影響。
信息量模型通過計(jì)算信息量評價(jià)影響因子與滑坡發(fā)生與否的相關(guān)性?;聻?zāi)害(y)受多種因素的影響,各種因素在滑坡形成過程中所起的作用大小不同。對滑坡分析要綜合研究各種影響因素及具體狀態(tài)的組合,可以用信息量衡量滑坡產(chǎn)生的可能性,信息量值越大表面滑坡災(zāi)害發(fā)生的可能性越大[25]。信息量計(jì)算公式為
(1)
式中,P為在影響因素共同作用下滑坡發(fā)生的概率;P(y)為滑坡發(fā)生的概率。受樣本統(tǒng)計(jì)數(shù)量的相關(guān)限制,可以進(jìn)行如下的簡化操作[26]:以研究區(qū)域的柵格單元為基礎(chǔ),采用單因素信息量模型計(jì)算,再綜合疊加分析各種影響因素的共同影響,相應(yīng)的公式可改寫為
(2)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是一類包含卷積計(jì)算、具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[27]。CNN主要由3部分構(gòu)成:①數(shù)據(jù)輸入層;②由n個(gè)卷積層和池化層的組合組成;③由一個(gè)全連結(jié)的多層感知機(jī)分類器(全連接層)及輸出層構(gòu)成。
將CNN應(yīng)用于滑坡易發(fā)性評價(jià)需要建立適用于網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)集,要求數(shù)據(jù)集在地理空間上增加維度,每個(gè)樣本為包含像素鄰接信息的多維矩陣??紤]鄰接場景對目標(biāo)點(diǎn)的影響,通過將單一的像素?cái)U(kuò)充成由該位置和其四周的點(diǎn)所構(gòu)成的二維像素矩陣,提取滑坡在空間上的信息(如圖1所示)。在構(gòu)建數(shù)據(jù)集的過程中,需要根據(jù)樣本的信息設(shè)置特征和標(biāo)簽,像素矩陣的維度和大小、滑坡影響因子的數(shù)量共同構(gòu)成樣本的特征,而像素矩陣對應(yīng)的位置是否發(fā)生過滑坡為樣本的標(biāo)簽,發(fā)生過為1,未發(fā)生過為0。
圖1 模型數(shù)據(jù)集的構(gòu)建方式
受試者工作特征(receiver operating characteristic, ROC)曲線,是一種常用于評價(jià)二分類模型建模效果優(yōu)劣的圖形方法。ROC是二維曲線,其中縱坐標(biāo)定義為真陽性率,表示正例得到正確判定的比例;橫坐標(biāo)定義為假陽性率,表示錯(cuò)誤判定的比例。通過計(jì)算ROC曲線下面積(area under the ROC curve, AUC)可以直觀評價(jià)分類器的好壞,較大的AUC代表了較好的性能[28]。
重慶市萬州區(qū)位于中國四川盆地的東北部。萬州區(qū)地質(zhì)條件復(fù)雜,出露地層的地質(zhì)年代以中生代三疊紀(jì)和侏羅紀(jì)為主,局部地區(qū)為古生代二疊紀(jì)和新生代第四紀(jì)地層。萬州區(qū)山高且陡峭,地形起伏較大,受長江及其支流侵蝕,堆積形成了多級河流階級地貌。萬州區(qū)屬亞熱帶季風(fēng)氣候,四季分明,濕潤多雨,降雨一般集中在5—9月[29]。萬州區(qū)是三峽庫區(qū)地質(zhì)災(zāi)害發(fā)育最頻繁、最集中的地區(qū),地質(zhì)災(zāi)害分布密度大、范圍廣,主要發(fā)育的地質(zhì)災(zāi)害有崩塌、滑坡等,其中滑坡最為突出,在極端降雨、庫區(qū)水位波動及人工擾動的情況下,會引發(fā)新的滑坡,使得原本的滑坡穩(wěn)定性受到影響,加劇變形[30-31](如圖2所示)。
圖2 研究區(qū)高程和滑坡分布
準(zhǔn)確的滑坡編錄數(shù)據(jù)是易發(fā)性建模的基礎(chǔ)。在滑坡歷史編錄數(shù)據(jù)的基礎(chǔ)上,通過野外調(diào)查和高分辨率遙感影像解譯,共發(fā)現(xiàn)700多處滑坡點(diǎn),查明研究區(qū)滑坡災(zāi)害以土質(zhì)滑坡為主,平面形態(tài)上多發(fā)育為箕形,剖面上多發(fā)育為凸形和階梯形,中型滑坡占比達(dá)59.7%,小型滑坡和大型滑坡各占22%和17.8%。
滑坡的產(chǎn)生是由斜坡自身內(nèi)部基礎(chǔ)地質(zhì)條件與外界環(huán)境因素共同作用所造成的。其中,內(nèi)部基礎(chǔ)地質(zhì)條件是對滑坡發(fā)生起控制性作用的因素,主要包括地質(zhì)構(gòu)造、地層巖性、地形地貌等;外界環(huán)境因素對滑坡發(fā)生起觸發(fā)作用,如水文地質(zhì)環(huán)境、人類工程活動等[32]。通過對三峽庫區(qū)野外調(diào)查研究及相關(guān)文獻(xiàn)的分析,選取高程、高程變異系數(shù)、坡度、坡向、平面曲率、坡面曲率、地層巖性、坡體結(jié)構(gòu)、道路距離、歸一化植被指數(shù)、地形濕度、水系距離共12個(gè)因子構(gòu)建易發(fā)性評價(jià)指標(biāo)體系。應(yīng)用的指標(biāo)圖層由1∶5萬地形圖、1∶10萬地質(zhì)圖、Landsat 8遙感影像等數(shù)據(jù)提取得到。
評價(jià)指標(biāo)數(shù)據(jù)類型可分為連續(xù)型數(shù)據(jù)(坡度、坡向等)和離散型數(shù)據(jù)(地層巖性等)。在進(jìn)行易發(fā)性建模前需要通過設(shè)置一定的步長對連續(xù)型評價(jià)指標(biāo)進(jìn)行離散化處理,將得到的連續(xù)型指標(biāo)因素進(jìn)行分級[33]。為查明各指標(biāo)與滑坡空間發(fā)育的定量關(guān)系,根據(jù)各評價(jià)指標(biāo)的狀態(tài)分級計(jì)算出各指標(biāo)的信息量。
考慮模型對0~1的數(shù)據(jù)敏感性較強(qiáng),因此,在建模前需要對數(shù)據(jù)進(jìn)行歸一化處理[34]。利用二維矩陣的方式完成適用于CNN網(wǎng)絡(luò)結(jié)構(gòu)的樣本數(shù)據(jù)集,通過卷積層、池化層和全連接層搭建CNN網(wǎng)絡(luò),將研究區(qū)的數(shù)據(jù)代入網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,計(jì)算得到研究區(qū)滑坡易發(fā)性概率。為驗(yàn)證CNN模型的性能,同時(shí)也采用了隨機(jī)森林(random forest,RF)、多層感知器神經(jīng)網(wǎng)絡(luò)(multilayer perceptron,MLP)和支持向量機(jī)(support vector machine,SVM)3種常見的機(jī)器學(xué)習(xí)模型進(jìn)行易發(fā)性建模,其模型參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)組合通過試算法確定。為了便于區(qū)分滑坡的易發(fā)程度,利用分位數(shù)法將滑坡易發(fā)性概率分為極高易發(fā)(10%)、高易發(fā)(10%)、低易發(fā)(10%)和極低易發(fā)(70%)共4個(gè)等級,最終得到基于以上模型的區(qū)域易發(fā)性等級圖(如圖3所示)。
圖3 易發(fā)性等級圖
由分級后的各影響因子信息量統(tǒng)計(jì)結(jié)果可知,高程變異系數(shù)(>0.08)的信息量為2.535,對應(yīng)區(qū)域內(nèi)的地表多為松散堆積層,為滑坡發(fā)育提供了物質(zhì)基礎(chǔ),在一定程度上對滑坡的發(fā)生起了較大的促進(jìn)作用。長江水系緩沖區(qū)距離<400 m時(shí),其信息量為2.546,因庫區(qū)工作造成的長江水位變化,對滑坡誘發(fā)的因素較強(qiáng),易發(fā)性高和極高的區(qū)域大部分分布在長江兩岸及城區(qū)附近,越靠近水庫帶越易發(fā)生滑坡,長江對于滑坡發(fā)育具有較大影響。同時(shí),道路<400 m的信息量為2.389,道路的建設(shè)對地表造成了一定的影響,進(jìn)而誘發(fā)滑坡的發(fā)生,說明人類的工程活動是該研究區(qū)內(nèi)誘發(fā)滑坡的主要因素之一。
將像素單元擴(kuò)充為二維像素矩陣是考慮CNN模型中鄰域?qū)δ繕?biāo)像素的影響。為探究鄰接區(qū)域的選擇范圍對滑坡易發(fā)性評價(jià)精度的影響程度,采用不同大小的二維矩陣構(gòu)建CNN模型,精度結(jié)果如圖4所示,5×5的二維矩陣對應(yīng)的AUC最小,為0.925,11×11的二維矩陣對應(yīng)的AUC最大,為0.937,設(shè)置二維矩陣的值越大,表明鄰接區(qū)域的選擇范圍越廣,CNN模型考慮鄰域?qū)δ繕?biāo)像素影響越多。研究發(fā)現(xiàn),二維矩陣大小的改變對精度的影響較小,但隨著二維矩陣的增大,AUC在逐漸增大,在一定范圍內(nèi)增大二維矩陣可以提高易發(fā)性評價(jià)的精度。
圖4 不同二維矩陣大小ROC曲線
對于機(jī)器學(xué)習(xí)模型,在數(shù)據(jù)集的構(gòu)建中只需要考慮滑坡是否發(fā)生與單個(gè)像素包含的影響因子的關(guān)系,進(jìn)而對滑坡點(diǎn)單個(gè)像素進(jìn)行預(yù)測。而對于CNN模型,不同于機(jī)器學(xué)習(xí)模型數(shù)據(jù)集,CNN易發(fā)性模型的數(shù)據(jù)集在地理空間上增加了維度,考慮了滑坡是否發(fā)生與鄰接環(huán)境的關(guān)系,充分利用了CNN在空間數(shù)據(jù)處理鄰域的特點(diǎn)和優(yōu)勢,在數(shù)據(jù)集的構(gòu)建中考慮鄰接像素的影響,進(jìn)而完成滑坡易發(fā)性評價(jià)。通過分析基于CNN和機(jī)器學(xué)習(xí)模型易發(fā)性評價(jià)結(jié)果(如圖5所示),比較不同模型AUC發(fā)現(xiàn),CNN模型在滑坡易發(fā)性評價(jià)中的精度優(yōu)于機(jī)器學(xué)習(xí)模型,能夠更好地提取出研究區(qū)滑坡及其影響因子的信息,進(jìn)而對研究區(qū)域的易發(fā)性進(jìn)行更加準(zhǔn)確的評價(jià)。
圖5 不同易發(fā)性模型的ROC曲線
此外,在滑坡易發(fā)性評價(jià)的研究中,為更好地幫助當(dāng)?shù)貦C(jī)構(gòu)根據(jù)滑坡的易發(fā)性對區(qū)域進(jìn)行監(jiān)控和防治,期望得到的預(yù)測結(jié)果能盡量集中在兩極,即極高易發(fā)區(qū)和極低易發(fā)區(qū)?;卤嚷视筛鞣旨墔^(qū)滑坡占研究區(qū)總滑坡比例與各分級區(qū)占研究區(qū)比例的比值計(jì)算而得,通過計(jì)算和對比不同模型的滑坡比率,對易發(fā)性評價(jià)模型的分級結(jié)果進(jìn)行更加全面的分析和評價(jià)。由本次易發(fā)性評價(jià)的滑坡比率結(jié)果分析可知(如圖6所示),基于CNN的滑坡易發(fā)性評價(jià)相比于其他的機(jī)器學(xué)習(xí)模型,預(yù)測結(jié)果的兩極化效果更顯著,即極高易發(fā)區(qū)和極低易發(fā)區(qū)之和占比較大。
圖6 易發(fā)性分級滑坡比值
滑坡易發(fā)性評價(jià)是山區(qū)滑坡地質(zhì)災(zāi)害防治最重要的基礎(chǔ)工作之一。本文以三峽庫區(qū)萬州區(qū)為例,通過提取與滑坡發(fā)育和發(fā)生相關(guān)的高程、坡度、道路距離等12個(gè)影響因子,構(gòu)建數(shù)據(jù)集,建立卷積神經(jīng)網(wǎng)絡(luò)模型,分析滑坡空間發(fā)育規(guī)律與影響因子的關(guān)系,開展滑坡易發(fā)性評價(jià)。研究表明,卷積神經(jīng)網(wǎng)絡(luò)模型可以更有效地提取出研究區(qū)域某個(gè)像素及其鄰接區(qū)域的信息,擁有較高的預(yù)測精度,其總體精度為92.5%。在一定范圍內(nèi)構(gòu)建適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集時(shí),適當(dāng)提高二維矩陣的大小可以提高易發(fā)性評價(jià)的精度。綜上所述,基于卷積神經(jīng)網(wǎng)絡(luò)的易發(fā)性評價(jià)模型在滑坡等災(zāi)害的易發(fā)性評價(jià)研究中有巨大的潛力,同時(shí)也存在模型中的參數(shù)對預(yù)測結(jié)果影響較大而導(dǎo)致參數(shù)設(shè)置過程煩瑣、難度大等問題,將優(yōu)化算法引入學(xué)習(xí)易發(fā)性評價(jià)是今后的研究方向和發(fā)展目標(biāo)之一。