周曉亭, 吳偉成, 皇甫文超, 歐鵬輝, 張 陽
(東華理工大學(xué) 江西省數(shù)字國土重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013 )
滑坡是我國主要地質(zhì)災(zāi)害之一,尤其對(duì)山區(qū)的社會(huì)經(jīng)濟(jì)發(fā)展造成了嚴(yán)重的威脅(黃潤秋,2007;許沖等,2019)。在地質(zhì)災(zāi)害高發(fā)區(qū),進(jìn)行滑坡易發(fā)性預(yù)測(cè),分析滑坡災(zāi)害發(fā)生概率與空間分布規(guī)律,對(duì)滑坡的預(yù)測(cè)預(yù)警、土地利用規(guī)劃、城市建設(shè)和鄉(xiāng)村發(fā)展有著重要的指導(dǎo)意義。滑坡的復(fù)雜性以及致災(zāi)因子的多樣性使得滑坡災(zāi)害易發(fā)性預(yù)測(cè)一直是國內(nèi)外研究的熱點(diǎn)和難點(diǎn)。
隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)算法在滑坡易發(fā)性預(yù)測(cè)中得到了有效的應(yīng)用(林齊根等,2017;Huang et al.,2018;張向營等,2018;Zhu et al.,2018;Achour et al.,2020;Dou et al.,2019;Sameen et al.,2020)。基于機(jī)器學(xué)習(xí)算法的滑坡易發(fā)性評(píng)價(jià)是利用歷史滑坡數(shù)據(jù)和與滑坡發(fā)生相關(guān)的環(huán)境因子進(jìn)行訓(xùn)練擬合,進(jìn)而預(yù)測(cè)其他區(qū)域的滑坡易發(fā)程度(Guzzetti et al.,1999;Zhu et al.,2018)。在眾多環(huán)境因子中,巖性地質(zhì)界線、斷層、河流和道路等線性致災(zāi)因子,對(duì)滑坡的發(fā)生有著不同程度的影響。如斷層造成的巖石破碎為滑坡發(fā)生提供了結(jié)構(gòu)和物質(zhì)基礎(chǔ);道路建設(shè)過程中,工程切坡會(huì)產(chǎn)生凌空面,導(dǎo)致坡腳失穩(wěn)。在近幾年興起的機(jī)器學(xué)習(xí)模型中,線性致災(zāi)因子的處理均采用GIS技術(shù)做緩沖分析,并以單獨(dú)的因子與其他因子進(jìn)行疊加,作為輸入變量。不同學(xué)者對(duì)線性致災(zāi)因子處理的單環(huán)緩沖距離從幾十到幾百米不等,主要依靠經(jīng)驗(yàn)和專家知識(shí),存在一定的主觀不確定性。如線性因子的緩沖距離設(shè)置未充分考慮不同線性致災(zāi)因子影響程度和范圍的差異性(張庭瑜等,2020;羅路廣等,2020;王兆華等,2020),而這是影響滑坡易發(fā)性預(yù)測(cè)模型精度的主要因素(Guzzetti et al.,1999;王佳佳等,2014)。
本研究以江西省瑞金市為例,利用遙感和地理信息技術(shù),提取環(huán)境因子層,基于Pearson相關(guān)性分析,探討不同單環(huán)緩沖距離下,線性致災(zāi)因子距離與對(duì)應(yīng)緩沖帶內(nèi)滑坡密度的相關(guān)關(guān)系,確定線性致災(zāi)因子最佳緩沖距離,設(shè)置差異性緩沖,建立隨機(jī)森林滑坡易發(fā)性預(yù)測(cè)模型,并進(jìn)行精度驗(yàn)證,為基于機(jī)器學(xué)習(xí)的滑坡易發(fā)性評(píng)估工作中線性致災(zāi)因子的處理提供思路。
瑞金市位于江西省贛州市中部,武夷山脈南西側(cè)的寧于坳陷和武夷隆起帶,構(gòu)造變形強(qiáng)烈,巖漿活動(dòng)頻繁,以強(qiáng)烈的斷裂活動(dòng)為特色。境內(nèi)屬于貢江水系,主要河流有梅江、綿江和九堡河(圖1)。交通以公路為主,有206、323、319國道,輔以縱橫交錯(cuò)的縣鄉(xiāng)(鎮(zhèn))、村公路,構(gòu)成了以市區(qū)為中心的“三縱四橫”公路交通網(wǎng)絡(luò)。然而,由于區(qū)內(nèi)公路的建設(shè)依山傍水,尤其是公路的改建、擴(kuò)建,使公路兩側(cè)山體因人為削坡而失穩(wěn),已造成多處崩塌、滑坡等工程地質(zhì)災(zāi)害,同時(shí)部分地段還存在著嚴(yán)重的地質(zhì)災(zāi)害隱患。
滑坡災(zāi)害的準(zhǔn)確評(píng)估需要正確選取環(huán)境因子,結(jié)合瑞金市環(huán)境地質(zhì)特征及滑坡災(zāi)害發(fā)生規(guī)律,基于GIS技術(shù),結(jié)合遙感影像,選取地質(zhì)、地形地貌、植被覆蓋、土地利用、巖石風(fēng)化特征、土壤類型結(jié)構(gòu)、降雨量等包括巖性地質(zhì)界線、斷層、河流、道路4個(gè)線性致災(zāi)因子在內(nèi)的19個(gè)環(huán)境因子?;A(chǔ)數(shù)據(jù)源主要來自1∶5萬地質(zhì)圖、Landsant4-5 TM遙感影像(地理空間數(shù)據(jù)云http://www.gscloud.cn/)、空間分辨率為30 m的ASTER GDEM數(shù)據(jù)(地理空間數(shù)據(jù)云http://www.gscloud.cn/)、江西省土壤類型結(jié)構(gòu)數(shù)據(jù)(中國土壤數(shù)據(jù)庫http://vdb3.soil.csdb.cn/)和江西省氣象站點(diǎn)降水量數(shù)據(jù)。Google Earth高分辨率的遙感影像可作為歷史滑坡災(zāi)害和道路、河流等基礎(chǔ)地理環(huán)境數(shù)據(jù)的重要補(bǔ)充來源。
瑞金市1∶5萬地質(zhì)災(zāi)害調(diào)查資料顯示,1970—2013年,研究區(qū)共發(fā)生滑坡155處,位置如圖1所示。在隨機(jī)森林分類問題中,非滑坡穩(wěn)定點(diǎn)的選擇也非常重要(羅路廣等,2020)。在本區(qū)Google Earth中,從城市、農(nóng)田和水體等低坡度的平坦區(qū)域選擇與滑坡數(shù)據(jù)等量的非滑坡穩(wěn)定點(diǎn),與歷史滑坡樣本共同組成滑坡易發(fā)性預(yù)測(cè)模型的樣本集。選取70%的數(shù)據(jù)作為訓(xùn)練集,用來建立模型;選取30%的數(shù)據(jù)作為驗(yàn)證集,用來驗(yàn)證模型精度。
結(jié)合前人滑坡易發(fā)性評(píng)估工作中線性致災(zāi)因子的選擇和分析(Huang et al.,2018;Zhu et al.,2018;張向營等,2018;吳常潤等,2019;黃發(fā)明等,2019),本研究根據(jù)瑞金市滑坡災(zāi)害的實(shí)際情況,選擇巖性地質(zhì)界線、斷層、道路和河流因子作為分析對(duì)象,利用滑坡密度與線性因子距離的關(guān)系,評(píng)價(jià)各因子在不同分級(jí)范圍對(duì)于滑坡的影響程度?;旅芏仍礁?,表示在該分級(jí)狀態(tài)內(nèi)滑坡發(fā)生的可能性越大。
如圖2可知,滑坡的易發(fā)性與線性因子距離的遠(yuǎn)近密切相關(guān)。線性因子距離越近滑坡越容易發(fā)生,尤其是巖性地質(zhì)界線距離表現(xiàn)更加明顯,這是由于不同的地層接觸帶極易產(chǎn)生不穩(wěn)定面,在多種因子的觸發(fā)下,導(dǎo)致沿接觸面滑動(dòng)。斷層距離除了表現(xiàn)出近斷層易滑的特征,滑坡密度在距斷層240~300 m時(shí)出現(xiàn)峰值,甚至高于近斷層區(qū),主要是由于斷層會(huì)造成周圍巖體破碎,增加斷層附近滑坡發(fā)生的可能性,但受斷層面產(chǎn)狀和延伸距離影響,在距斷層較遠(yuǎn)的距離也會(huì)受到很大的影響(范強(qiáng)等,2015;趙冬梅等,2020)。
當(dāng)緩沖界線距地質(zhì)界線、斷層和河流因子大于300 m時(shí)、距道路因子大于120 m時(shí),滑坡密度最低,對(duì)滑坡的影響較小(圖2)。
滑坡易發(fā)性預(yù)測(cè)模型建立過程中,線性致災(zāi)因子的處理主要是建立多環(huán)緩沖區(qū)。多環(huán)緩沖區(qū)的要素包括緩沖帶和單環(huán)緩沖距離,如圖3所示。
Pearson相關(guān)系數(shù)被廣泛用于分析變量間的相關(guān)性,具體為兩變量間的協(xié)方差cov(X,Y)除以它們各自標(biāo)準(zhǔn)差的乘積(σX·σY):
P(x,y)=∑Ni=1(xi-)(yi-)∑Ni=1(xi-)2∑Ni=1(yi-)212
式中,P(x,y)為待分析變量間的相關(guān)性系數(shù);xi是多環(huán)緩沖區(qū)的每個(gè)緩沖帶外邊界線性因子距離(m);是每個(gè)緩沖帶外邊界線性因子距離的平均值(m);yi是緩沖帶內(nèi)的滑坡密度(個(gè)/m2);是緩沖帶內(nèi)的滑坡密度的平均值(個(gè)/m2);N表示緩沖帶的總個(gè)數(shù)。P(x,y)系數(shù)取值為-1.0~1.0,絕對(duì)值越大表明相關(guān)性越強(qiáng)。
前人對(duì)滑坡易發(fā)性預(yù)測(cè)的研究表明,線性致災(zāi)因子的緩沖距離為50~500 m(Dou et al.,2019;張庭瑜等,2020;武雪玲等,2020)。為了更好體現(xiàn)線性致災(zāi)因子對(duì)滑坡的影響,最小單環(huán)緩沖距離設(shè)置為30 m,共緩沖10環(huán),以覆蓋到線性因子的影響范圍;單環(huán)緩沖距離最大設(shè)置為150 m,超過這個(gè)范圍將不能很好體現(xiàn)線性致災(zāi)因子對(duì)滑坡的影響,造成預(yù)測(cè)的偏差。本研究分別對(duì)巖性地質(zhì)界線、斷層、道路和河流線性致災(zāi)因子做單環(huán)緩沖距離為30 m、50 m、80 m、100 m和150 m的緩沖區(qū)共10環(huán)。在不同單環(huán)緩沖距離下,利用Spass10.0軟件建立線性因子距離和對(duì)應(yīng)緩沖帶內(nèi)滑坡密度的Pearson相關(guān)性模型。通過Pearson相關(guān)系數(shù)絕對(duì)值大小體現(xiàn)相關(guān)程度,分析不同單環(huán)緩沖距離下滑坡密度和線性因子距離的相關(guān)關(guān)系。
如圖4所示,巖性地質(zhì)界線、斷層、河流和道路因子的單環(huán)緩沖距離分別為50 m、100 m、30 m和30 m時(shí),線性致災(zāi)因子距離和對(duì)應(yīng)緩沖帶內(nèi)滑坡密度的相關(guān)性最大,分別為0.776、0.906、0.838和0.834。由于斷層對(duì)滑坡的影響范圍較大,設(shè)置較大的單環(huán)緩沖區(qū)為最佳。河流和道路對(duì)滑坡的影響范圍有限,尤其對(duì)于道路建設(shè)來說,影響范圍很小,主要體現(xiàn)在道路兩側(cè)的切坡失穩(wěn)區(qū)域。巖性地質(zhì)界線因子距離與滑坡密度整體上并未體現(xiàn)極強(qiáng)相關(guān)關(guān)系。野外調(diào)查中,發(fā)現(xiàn)滑坡主要發(fā)生在第四系與其他地層的交界處,主要受到修路和建房等人類工程活動(dòng)影響。
隨機(jī)森林模型是由多個(gè)決策樹組成的集成分類器,模型最終結(jié)果由所有決策樹的投票決定。集合中每個(gè)決策樹所用的訓(xùn)練樣本,通過Bootstrapping采樣獲得,即隨機(jī)有放回地抽取與原訓(xùn)練集樣本數(shù)量相同的訓(xùn)練樣本。假設(shè)原始訓(xùn)練集中含有N個(gè)訓(xùn)練樣本,每個(gè)樣本未被抽取的概率為(1-1/N)N。當(dāng)N足夠大時(shí),(1-1/N)N將收斂于1/e≈0.368,這表明原始樣本集有近37%的樣本不會(huì)出現(xiàn)在Bootstrapping采樣的訓(xùn)練樣本中,這些數(shù)據(jù)稱為袋外數(shù)據(jù),使用這些數(shù)據(jù)來估計(jì)模型性能的指標(biāo)稱為袋外誤差。與交叉驗(yàn)證相比,袋外誤差是內(nèi)部估計(jì),是無偏的,并且隨著樹數(shù)目的增加,袋外誤差由開始的波動(dòng)到逐漸減小并收斂到一個(gè)閾值。袋外誤差有助于理解模型分類精度以及如何提高精度。
本研究重點(diǎn)討論基于緩沖分析的線性致災(zāi)因子最佳單環(huán)緩沖距離選擇。通過隨機(jī)森林袋外誤差精度和基于混淆矩陣的精度指標(biāo)來驗(yàn)證單環(huán)緩沖距離設(shè)置的合理性,此處不重點(diǎn)介紹隨機(jī)森林建模過程及其他因子處理方法。單環(huán)緩沖距離分別為50 m、100 m、30 m和30 m的巖性地質(zhì)界線、斷層、道路和河流因子,作為最相關(guān)單環(huán)緩沖距離組合與其他15個(gè)環(huán)境因子組成滑坡致災(zāi)因子集,建立隨機(jī)森林模型。作為對(duì)比,將相同單環(huán)緩沖距離的線性致災(zāi)因子組合,也分別進(jìn)行隨機(jī)森林滑坡易發(fā)性預(yù)測(cè)建模。如圖5所示,計(jì)算獲得線性致災(zāi)因子在不同單環(huán)緩沖距離下隨機(jī)森林滑坡易發(fā)性預(yù)測(cè)模型的袋外誤差隨決策樹個(gè)數(shù)增加的變化趨勢(shì)。最相關(guān)單環(huán)緩沖距離組合模型袋外誤差隨著決策樹個(gè)數(shù)變化曲線呈現(xiàn)最低趨勢(shì),其模型精度最高。
基于混淆矩陣的精度指標(biāo)中精確率代表模型預(yù)測(cè)出的滑坡點(diǎn)有多少是正確的,召回率代表滑坡樣本有多少是被模型預(yù)測(cè)出來的,Kappa系數(shù)代表模型的可靠程度,準(zhǔn)確率代表模型的整體精度。如表1所示,最相關(guān)單環(huán)緩沖距離組合模型驗(yàn)證集的精確率、召回率、Kappa系數(shù)和準(zhǔn)確率分別為96.65%、88.67%、83.17%和91.58%,整體精度優(yōu)于相同單環(huán)緩沖距離組合的模型精度。從滑坡易發(fā)性預(yù)測(cè)精度角度進(jìn)一步印證了最相關(guān)緩沖的合理性。
表1 基于混淆矩陣的驗(yàn)證集精度
以瑞金為研究區(qū),利用Pearson相關(guān)性分析不同單環(huán)緩沖距離下滑坡密度與線性致災(zāi)因子距離的相關(guān)性,并建立隨機(jī)森林模型,驗(yàn)證最相關(guān)單環(huán)緩沖距離和線性致災(zāi)因子組合用于滑坡易發(fā)性預(yù)測(cè)的合理性。
(1)瑞金地區(qū)巖性地質(zhì)界線、斷層、道路和河流因子的單環(huán)緩沖距離分別為50 m、100 m、30 m和30 m時(shí),滑坡密度與線性致災(zāi)因子距離的相關(guān)性最大,體現(xiàn)不同因子對(duì)滑坡的影響范圍不同。其他地區(qū)在建立滑坡易發(fā)性預(yù)測(cè)模型時(shí),應(yīng)充分考慮不同線性因子的影響范圍差異。
(2)最相關(guān)單環(huán)緩沖距離線性致災(zāi)因子組合建立的滑坡易發(fā)性預(yù)測(cè)模型,袋外誤差曲線趨勢(shì)最低,驗(yàn)證集精度指數(shù)整體上高于相同單環(huán)緩沖距離的線性致災(zāi)因子組合。從模型精度和預(yù)測(cè)精度上均印證了最相關(guān)緩沖方法的合理性。
東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年2期