白 志 剛,劉 啟 蒙,劉 瑜
(1.安徽理工大學 地球與環(huán)境學院,安徽 淮南,232001; 2.安徽理工大學 深部煤礦采動響應(yīng)與災(zāi)害防控國家重點實驗室,安徽 淮南 232001)
滑坡是世界范圍內(nèi)發(fā)生次數(shù)最多的地質(zhì)災(zāi)害之一,根據(jù)緊急災(zāi)難數(shù)據(jù)庫(EM-DAT)的數(shù)據(jù),近50 a全球因滑坡已造成39 320人死亡。中國70%的國土為山區(qū),山體滑坡災(zāi)害范圍廣、發(fā)生頻率高,且逐年加劇。其中,降雨誘發(fā)滑坡分布最廣、發(fā)生頻率最高、破壞最嚴重。僅2019 年全國滑坡發(fā)生4 220 起,共造成 211 人死亡,直接經(jīng)濟損失 27.7 億元(2019全國地質(zhì)災(zāi)害通報)。重慶作為中國最典型的山地城市,在全國70個崩塌、滑坡等嚴重地質(zhì)災(zāi)害城市中排名第一[1]。1950年以來,重慶共發(fā)生滑坡災(zāi)害16 554次,平均每年發(fā)生271次。如2020年7月15日,因持續(xù)強降雨,渝東北開州區(qū)內(nèi)發(fā)生3起滑坡事故,事故共造成3人死亡、3人失聯(lián),直接經(jīng)濟損失30萬元。監(jiān)測和預警滑坡災(zāi)害已成為目前防治地質(zhì)災(zāi)害的首要問題。
近年來隨著機器學習與GIS(Geographic Information System)的快速發(fā)展,對災(zāi)害的傳統(tǒng)勘測已逐步轉(zhuǎn)變到使用GIS與機器學習對災(zāi)害發(fā)生進行預測,GIS作為數(shù)據(jù)管理、空間分析和圖像輸出的強有力技術(shù)手段,被廣泛應(yīng)用于滑坡地質(zhì)災(zāi)害的早期識別和定量分析領(lǐng)域。對此國內(nèi)外學者做了大量的研究,如頻率比法[2]、層次分析[3]、IOE法[4]、機器學習[5]等等。Thi Ngo等[6]應(yīng)用CNN與RNN方法對伊朗全國進行了滑坡災(zāi)害易發(fā)性評價,并分析對各模型方法的評價結(jié)果;Ftby等[7]運用證據(jù)信權(quán)和機器學習分別對印度西南Ghats山脈和中國西安山區(qū)開展了易發(fā)性評價;Moragues等[8]采用了AHP與WLC模型對North Branch of Argentino Lake地區(qū)進行了滑坡易發(fā)性區(qū)劃,并對比分析了2種機器模型的評價結(jié)果。陳飛等[9]提出信息量與神經(jīng)網(wǎng)絡(luò)模型相耦合的方法對江西省上猶縣進行滑坡易發(fā)性評價,結(jié)果發(fā)現(xiàn)信息量-神經(jīng)網(wǎng)絡(luò)的評價模型比單獨的信息量模型的評價精度提高了5.1%。黃發(fā)明等[10]以江西省寧都縣為例研究區(qū),使用不同空間分辨率和訓練測試集比例來預測滑坡易發(fā)性,結(jié)果表明15 m分辨率、9∶l訓練測試集比例下預測精度最佳。
但現(xiàn)有對重慶的滑坡研究主要針對小范圍縣級行政區(qū)進行滑坡評估。選取的研究區(qū)面積大小對機器學習模型的性能評估同樣非常重要。Reichenbach等[11]分析了1983~2016年發(fā)表的565篇與滑坡敏感性評價相關(guān)的文獻,他們發(fā)現(xiàn)在之前的研究中多數(shù)研究區(qū)區(qū)域面積較小,大多在100 km2左右,對于大范圍防災(zāi)減災(zāi)難以起作用,因為研究區(qū)覆蓋范圍較小,這就導致自然因素降雨量大小在區(qū)域內(nèi)差異不明顯,造成機器學習中對降雨因素不敏感,隱形地忽視了降雨量對滑坡發(fā)生的影響,但當研究區(qū)明顯擴大時,自然因素降雨量的大小對滑坡發(fā)生的影響顯著增加[12]。同時傳統(tǒng)方法在GIS選取安全點時,采用隨機生成的方法,隨意性過大,無法做到選取的單元是真正的非滑坡單元,這會造成預測結(jié)果精度低,對災(zāi)害的擬合性差。熵指數(shù)與隨機森林模型常用單獨于滑坡易發(fā)性評價中,較少研究將其耦合使用。
鑒于此,本文選取3.4萬km2的渝東北為研究區(qū),選取坡向、降雨量、NDVI(Normalized Difference Vegetation Index)等9種致災(zāi)因子,首次引入熵指數(shù)(Index of entropy,IOE)-隨機森林(Random Forest,RF)耦合的評價模式,對研究區(qū)進行滑坡易發(fā)性評價,在此基礎(chǔ)上使用ROC曲線(Receiver Operating Characteristic Curve)與AUC(Area Under Curve)對最終結(jié)果進行了分析與對比,從而找出最適合渝東北或類似大范圍研究區(qū)的滑坡易發(fā)性評價模型與誘發(fā)災(zāi)害的主要因子,提高滑坡易發(fā)性評價的科學性、精確性和可靠性,為降低滑坡條件因子所造成的風險與當?shù)鼗聻?zāi)害預防提供輔助依據(jù)。
渝東北位于中國的西南部(見圖1),東經(jīng)107°13′~110°11′,北緯29°33′~32°12′。東與湖北省接壤,北接陜西省,西與四川省毗鄰,是重慶的東北“門戶”。這3.39萬km2的區(qū)域頗為“特殊”——處于三峽庫區(qū),渝東北地區(qū)包括梁平、城口、豐都、萬州、墊江、忠縣、開州、云陽、奉節(jié)、巫山、巫溪等11個區(qū)縣[13]。渝東北總?cè)丝?24萬,區(qū)域面積3.4萬km2,占重慶市幅員面積的41.1%。
渝東北地貌造型各樣,海拔起伏較大,以山地、丘陵為主,山地面積占76%,丘陵占22%,河谷平壩僅占2%[14],所以有“山城”之稱。渝東北屬亞熱帶季風性濕潤氣候,年平均氣溫16~18 ℃。年降水量較豐富,為1 000~1 350 mm,降雨時段多集中在 8~9月,占全年總降水量的70%左右。研究區(qū)內(nèi)東北部發(fā)育有大巴山?jīng)_斷-褶皺帶為一組向南西方向突出的弧形斷褶帶,常稱南大巴山弧。渝東北出露的巖層為較單一的沉積巖,以碎屑巖為主,其次是碳酸鹽巖,基巖分布較為廣泛,松散巖罕見。其工程地質(zhì)條件明顯受3個因素控制:巖性、地貌和結(jié)構(gòu)?;鶐r的廣泛出露一方面是有利的;但另一方面,斜坡和薄弱的夾層分布較廣,在不同的結(jié)構(gòu)條件下,直接影響到整個地區(qū)的工程地質(zhì)效果。該地區(qū)受復雜的山地地貌、多變的巖性褶皺及庫區(qū)蓄水等人類工程活動及自然氣候影響,地質(zhì)災(zāi)害發(fā)生頻繁。
熵表示一個系統(tǒng)的不穩(wěn)定性、無序性、不平衡性的程度。它是一種客觀賦權(quán)法,能深刻反映出指標的區(qū)分能力,進而確定權(quán)重,相對主觀賦權(quán)具有較高的可信度和精確度[15]。山體滑坡的熵是指各種因素對山體滑坡發(fā)展的影響程度。信息量越大,不確定性越小,反之亦然。因此,在滑坡易發(fā)性評價中,熵值可以用來計算致災(zāi)因子的客觀權(quán)重,再使用GIS使用圖層疊加功能劃分不同危險等級分區(qū)。具體計算步驟如下:
(1)
(2)
式中:因子亞類中沒有發(fā)生滑坡的面積與整個研究區(qū)內(nèi)沒有滑坡的總面積的比值記做a,因子亞類中滑坡的面積與整個研究區(qū)中滑坡總面積的比值記做b。由b/a確定計算出的概率比率值FRij,作為這個評價因子亞類的量化取值。Pij表示頻率密度。
(3)
Hjmax=log2Sj
(4)
式中:Hj和Hjmax為熵值,Sj為影響因子的分類數(shù),Hjmax由Sj取對數(shù)得到。
(5)
Wj=FRij×Ij
(6)
式中:Ij為熵權(quán)值,Wj是整個因子的合成權(quán)重值,由熵權(quán)值Ij與概率比率值FRij乘積得到,其結(jié)果從0到1變化。該值越接近數(shù)字1,則不穩(wěn)定性越大。
隨機森林是一種綜合方法,通過不同的數(shù)據(jù)子集構(gòu)建多個決策樹,如圖2所示,它結(jié)合了Breiman[16]提出的思想和Ho[17]描述的方法。與傳統(tǒng)的滑坡劃分方法相比,引入了對樣本和特征隨機采樣的新方法,比單一的決策樹更能提高模型的精度和穩(wěn)定性。通過對多個決策樹的判斷結(jié)果進行表決,得到最終結(jié)果。大量研究表明,隨機森林在算法、異常值和噪聲方面具有很高的容錯率[18],可以處理多維數(shù)據(jù)而無需特征選擇。
隨機森林的關(guān)鍵是將N個獨立的決策樹組合建立一個模型,模型中的決策樹對樣本進行判斷或預測。不同的分類模型y1(X),y2(X),…,yn(X)的獲取通過機器訓練,進而建立隨機森林模型,公式如下:
(7)
式中:Υ(X)表示隨機森林模型,yi(X)表示單個決策樹模型,Z表示輸出變量,I為顯函數(shù)。
隨機森林可以有效處理大數(shù)據(jù)集,可以處理沒有刪減的成千上萬的輸入變量,即使預測變量數(shù)目極大超過觀測值數(shù)據(jù)也同樣有效[19],對于預測本文5 712 910 個超大樣本數(shù)據(jù)完全適用,且森林建立過程中內(nèi)部可以產(chǎn)生一個對一般誤差的無偏估計,不會產(chǎn)生過度估計。
滑坡災(zāi)害的發(fā)生不僅受邊坡地質(zhì)條件的控制,還受水文條件、氣候條件、人類工程活動等外部因素的控制,相關(guān)因素的選擇一般應(yīng)考慮研究區(qū)地質(zhì)特征和資料的可獲得性,選擇合適的滑坡影響因子作為輸入變量是易發(fā)性評估的關(guān)鍵步驟。根據(jù)Ayalew等[20]的理論,基于GIS的滑坡易發(fā)性影響因素應(yīng)是可測量的、可操作的、完整的和非冗余的。不同地區(qū)導致滑坡發(fā)生的下伏地質(zhì)條件和外部環(huán)境因素不同,相關(guān)研究中滑坡敏感性分析考慮的因素也不同,迄今為止,尚無統(tǒng)一的滑坡影響因素目錄[21]。然而在區(qū)域滑坡易發(fā)性綜合分析中,坡度是最常用的評價因子,之后為滑坡發(fā)生地區(qū)的地貌條件,如巖性和坡向[22]。評價涉及的影響因素不是越多越好,8~10個因子一般足以滿足滑坡易發(fā)性評價的要求,選擇對滑坡發(fā)生貢獻最大的因素的最佳組合[21]。因此本次研究根據(jù)對該地區(qū)地質(zhì)條件、地表條件、水文條件資料的分析,選?。浩露取⑵孪?、地形地貌、巖性、距公路距離、距河流距離、距斷層距離、降雨量、NDVI共9項影響因子構(gòu)建滑坡易發(fā)性基本評價體系,將分為3個大類:基礎(chǔ)地質(zhì)因子、地表條件因子、水文條件因子。
本文選取的基礎(chǔ)地質(zhì)因子包括:坡度、坡向、巖性。坡度、坡向由DEM提取,首先對其進行等級劃分,如圖3所示。坡度是影響滑坡的條件因子,邊坡坡度對邊坡上的應(yīng)力分布、地下水位、松散堆積體和人類工程活動有不同程度的影響,影響邊坡穩(wěn)定性,渝東北地區(qū)坡度起伏大,對其劃分為5個等級,分別為0~10°,10°~20°,20°~30°,30°~40°,40°~83°。東北部坡度較大,西南部坡度小,大量坡度處于10°~40°之間,是滑坡發(fā)生的主要坡度區(qū)間,處于40°~83°坡度較少,故將其分為一類。按照方位角對渝東北地區(qū)劃分為9個的等級,渝東北處于北半球,南面山坡處于朝陽面,導致該坡面溫差大,坡面沖刷更強,風化作用更為強烈,導致嚴重的水土流失,更容易發(fā)生滑坡災(zāi)害。地層巖性同樣影響滑坡發(fā)生,巖石不同其堅硬程度與巖性結(jié)果也不同,因此,不同地層的組合特征和巖體結(jié)構(gòu)差異是軟弱夾層形成的基礎(chǔ),也是滑坡發(fā)生發(fā)展的物質(zhì)基礎(chǔ)[23]。渝東北地區(qū)上古生界缺失泥盆系、石炭系,二疊系以碳酸鹽巖為主,上統(tǒng)含煤,三疊系以碳酸鹽巖為主,上統(tǒng)為碎屑巖。將地層分為6類:① 南華系火山碎屑的復陸屑雜砂巖,② 震旦系硅質(zhì)巖、板巖,夾白云巖質(zhì)灰?guī)r,③ 寒武系炭質(zhì)、硅質(zhì)板巖,④ 奧陶系黃灰、灰綠色粉砂質(zhì)頁巖夾紫紅、灰綠色中厚層狀含粉砂質(zhì)微晶生物屑灰?guī)r,⑤ 二疊系深灰色厚層狀生物碎屑灰?guī)r、有機質(zhì)灰?guī)r,⑥ 三疊系灰紫、紫紅、灰綠色砂泥質(zhì)灰?guī)r夾粉砂巖、泥頁巖。
本文將地形地貌、距道路距離、距斷層距離作為地表條件因子,渝東北地處四川盆地東南丘陵山地區(qū),海拔起伏較大,以山地、丘陵為主,山地面積占76%,丘陵占22%,平原僅占2%。高低起伏的地形為滑坡發(fā)生創(chuàng)造了基礎(chǔ),這里將研究區(qū)地形地貌共劃分為8類。公路的修建同樣影響滑坡發(fā)生,渝東北地區(qū)公路密集,G42高速公路東西貫穿研究區(qū),南北方向還有G69、G211、G6911等高速公路,同時還有省道、縣道遍布研究區(qū)。山區(qū)大量修建公路,改變了斜坡的巖土結(jié)構(gòu),導致巖土體穩(wěn)定性降低,同時修建產(chǎn)生大量的人工邊坡,當突降暴雨時,容易誘發(fā)滑坡[24]。研究區(qū)境內(nèi)構(gòu)造復雜,西北部大巴山?jīng)_斷-褶皺帶為一組向南西方向突出的弧形斷褶帶,主要由一系列復式背向斜組成,褶皺緊密,并發(fā)育眾多的平行走向的沖斷層,復雜的斷層發(fā)育使巖石支離破碎,成為引發(fā)地質(zhì)災(zāi)害發(fā)生的重要因素[25]。
水文條件因子包括降雨量、距河流距離、NDVI。降雨量和距離河流距離是該地區(qū)的主要觸發(fā)因素。僅2019年中國發(fā)生的6 181起滑坡中,95.5%的滑坡是由降雨引起的。渝東北地區(qū)降雨充裕且多集中在夏季,占全年總降水量70%左右,因研究區(qū)面積較大,所以該地區(qū)降水分布有明顯差異:東部和西部都存在有明顯的低值區(qū),年降水量不足1 000 mm。如東部的奉節(jié)縣、巫溪縣及中南部萬州區(qū)等地,西北部和西南部則存在有兩個高值區(qū),西北部的城口縣、云陽縣、開州區(qū)一線,年均降水量在1 200~1 400 mm之間,東南部的忠縣,年均降水量則在1 300~1 400 mm之間,為最高值區(qū)。降雨形成的地表水不僅會沖刷坡面,還會滲透軟化巖石和土壤。從而降低了邊坡的抗滑能力[26]。河岸侵蝕是滑坡的另一個重要原因。由于河岸的切割和坡腳的侵蝕,河流附近的坡體容易發(fā)生滑坡[27],由于研究區(qū)受到三峽水庫的蓄水影響,水庫的水長期浸泡坡岸,導致土壤變軟,同時水庫水位在145~175 m之間反復波動,形成高差為30 m的消落帶,長期、周期性起伏波動的水沖走土壤,使河岸變得更為陡峭,導致滑坡的穩(wěn)定性下降,誘發(fā)滑坡災(zāi)害的發(fā)生。植被通過根系固定土壤,提高土體的抗剪能力,同時,植物的蒸騰作用可以一定程度上降低土體的濕度。通過遙感影像提取了渝東北的地表的歸一化植被指數(shù),并將其劃分為0~0.2,0.2~0.4,0.4~0.6,0.6~0.8,0.8~1.0 五個等級,可以發(fā)現(xiàn),NDVI在遠離城鎮(zhèn)地區(qū)數(shù)值較高,人口集中處則較小。
首先單獨使用RF模型對渝東北地區(qū)進行滑坡易發(fā)性評價,通過GIS多值提取至點工具,提取9項因子數(shù)值,同時提取581個滑坡點和等量隨機產(chǎn)生的安全點,將樣本中的407個滑坡點(70%)用于訓練,將174個滑坡點(30%)用于驗證。將上述數(shù)據(jù)歸一化后導入至Python的Scikit-learn(Sklearn)庫中進行訓練與驗證[28],再將渝東北地區(qū)轉(zhuǎn)為5 712 910個矢量點,導入軟件進行預測,最終的結(jié)果再由GIS中點轉(zhuǎn)柵格工具,繪制滑坡易發(fā)性制圖,最后使用自然斷點法將研究區(qū)劃分為:低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)性、極高易發(fā)區(qū)4個等級,如圖4所示。
運用IOE-RF模型進行評價時,首先計算每一類影響因子的概率密度和熵權(quán)指數(shù),如表1所列,之后將每一類因子的熵權(quán)指數(shù)導入GIS中,使用GIS中加權(quán)總和功能,建立IOE模型,生成的滑坡易發(fā)性分區(qū)圖。利用自然斷點法,將滑坡易發(fā)性分區(qū)圖劃分為:低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)、極高易發(fā)區(qū)4個等級。在所生成的低易發(fā)性分區(qū)圖挑選非滑坡單元,即安全點,如圖5所示,再將安全點與滑坡點作為IOE-RF模型的測試集與訓練集導入Python中進行訓練,得到的訓練結(jié)果用于預測渝東北地區(qū)滑坡發(fā)生概率,最終的結(jié)果同樣使用GIS中點轉(zhuǎn)柵格工具,生成IOE-RF滑坡預測分區(qū)圖,如圖6所示。
從圖6可以看出:北部條帶狀走向高風險地區(qū),與東西向的弧形大巴山?jīng)_斷-斷層帶走向相吻合,斷層破壞了區(qū)域巖層的整體性和強度,使巖石支離破碎,是引發(fā)地質(zhì)滑坡災(zāi)害發(fā)生的重要因素。而東部與中南部有一明顯接近圓弧形的低風險地區(qū),同時西北部的特高風險地區(qū),這與降雨量的大小分布完全吻合。也證明了極大多數(shù)的滑坡發(fā)生與降雨量有明顯的正比例關(guān)系,暴雨常常是滑坡發(fā)生的特定條件,而降雨量較少的地區(qū),滑坡發(fā)生敏感性也較低。未來渝東北應(yīng)重點關(guān)注中部和西部區(qū)域的滑坡災(zāi)害預防。通過對比圖4與圖6可以看出:IOE-RF模型易發(fā)性分區(qū)圖在特高風險區(qū)域邊緣區(qū)域處理更加精細,滑坡災(zāi)點的分布與極高風險、高風險區(qū)域更為吻合,中風險區(qū)域分布較為合理,初步認定IOE-RF評價模式更加真實且準確。
根據(jù)滑坡易發(fā)性分區(qū)圖,認為渝東北區(qū)域中東西走向的弧形大巴山?jīng)_斷-褶皺帶附近與其他特高風險地區(qū)在未來的防治工作中應(yīng)該重點關(guān)注,加強水文、氣象的預報工作,特別是對小范圍的局部暴雨的預報,在暴雨將要來臨時應(yīng)及時疏散群眾。日常要加強監(jiān)測,對于特高風險區(qū)域,可預先在滑坡前緣設(shè)置擋土結(jié)構(gòu)以增加滑坡腳部重量,或者通過取土減輕滑坡頂部重量,必要時釘入錨桿增加邊坡穩(wěn)定性。當?shù)貨Q策者應(yīng)重點將災(zāi)害防治的方向與降雨致災(zāi)因子相結(jié)合,大幅度降低因降雨所誘發(fā)的滑坡地質(zhì)災(zāi)害。
為了更加準確地區(qū)分4種評價模型的結(jié)果,評價模型的準確性。引入滑坡發(fā)生面積占比與滑坡敏感性分區(qū)面積占比,如表2所列,滑坡占比在極高易發(fā)區(qū)域越高的同時,柵格占比在對應(yīng)其等級數(shù)值越低,表明該評價模型更為準確,且對災(zāi)害發(fā)生的擬合性越好。這里分別將兩種評價模式下的滑坡發(fā)生面積占比除以滑坡敏感性分區(qū)面積占比,結(jié)果表明:RF模型評價結(jié)果為1,而IOE-RF模型評價結(jié)果為1.344,表明兩種評價模式均可用于滑坡敏感性評價中,而IOE-RF模型評價模型更佳。
表2 基于RF與IOE-RF模型的易發(fā)性評價等級Tab.2 Statistical results of susceptibility evaluation classification based on RF and IOE-RF %
受試者工作特征曲線可用于說明滑坡易發(fā)性測試的準確性。其中X軸為假陽性率,即1-特異性,表示非災(zāi)害點被錯誤預測的概率;而Y軸為真陽性率,即敏感性,表示災(zāi)害點被正確預測的概率,曲線越靠近左上角,說明模型分類的準確率越高。如圖7所示,AUC代表曲線下方與坐標軸圍成的面積,其值越接近1,則表示其模型的預測結(jié)果越正確,本文AUC值分別為0.772與0.852,IOE-RF耦合模型比單一RF模型精度提高約8%,說明IOE-RF模型比RF模型評價及預測能力更為精準,更適用于預測類似渝東北大范圍研究區(qū)滑坡易發(fā)性。
(1) 本文以渝東北為研究區(qū),借助GIS與Python兩大工具,選取9項影響因子,運用單獨RF與IOE-RF耦合的兩種評價方法對該地區(qū)進行滑坡易發(fā)性評價,得到了渝東北滑坡易發(fā)性分區(qū)圖,為當?shù)鼗聻?zāi)害預防提供輔助依據(jù)。
(2) 首次引入IOE-RF耦合評價模型,通過計算每一類影響因子的概率密度和熵權(quán)指數(shù),生成IOE易發(fā)性分區(qū)圖,從中選取非滑坡單元作為訓練集進行訓練與預測。RF模型與IOE-RF模型的AUC分別為0.772,0.852。IOE-RF耦合模型比單一RF模型精度提高約8%,比單一模型評價結(jié)果更加合理,對災(zāi)害擬合更為吻合,可適用于類似渝東北及大范圍的研究區(qū)。
(3) 為了避免降雨量因子因研究區(qū)面積過小在機器學習中被“淹沒”,選取3.4萬km2地區(qū)作為研究區(qū),結(jié)合滑坡易發(fā)性分區(qū)圖,得到結(jié)論:兩種評價模式下滑坡的發(fā)生均與降雨量有明顯的正向關(guān)系,即降雨量多的地區(qū)滑坡發(fā)生概率較大,而降雨量小的地區(qū)被認定為低風險地區(qū)。建議加強水文、氣象的預報工作,在暴雨將要來臨時應(yīng)及時疏散群眾,開挖排水和截水溝以減少滑坡災(zāi)害發(fā)生。