郭 飛 吳 迪 王秀娟 代巧怡 賴 鵬 陳 洋 夏 棟
(1.湖北長江三峽滑坡國家野外科學觀測研究站, 湖北 宜昌 443002;2.三峽大學 土木與建筑學院, 湖北宜昌 443002;3.中國科學院 南京土壤研究所, 南京 210000;4.三峽大學 水利與環(huán)境學院, 湖北 宜昌443002)
崩崗侵蝕是發(fā)育于中國南方山地丘陵區(qū)一種受水力與重力復(fù)合作用而產(chǎn)生的山坡巖土分解、崩塌的地帶性侵蝕現(xiàn)象[1-2],它是中國南方一種特殊的水土流失類型,國際上同類地貌分布少,僅馬達加斯加的lavaka侵蝕溝谷、巴西的vocorocas地貌以及日本的“崩壞”地貌類似[3].盡管崩崗在地質(zhì)災(zāi)害分布和侵蝕面積中所占比例不大,但其具有侵蝕量大、爆發(fā)力強、發(fā)展速度快等特點,易誘發(fā)泥石流和山體滑坡等地質(zhì)災(zāi)害,還嚴重制約生態(tài)恢復(fù)、農(nóng)業(yè)生產(chǎn)和區(qū)域社會經(jīng)濟可持續(xù)發(fā)展[4-5].因此,開展崩崗空間預(yù)測研究對崩崗預(yù)警防控、國土空間規(guī)劃具有重要意義.
崩崗易發(fā)性,即基礎(chǔ)環(huán)境背景下發(fā)生崩崗侵蝕的概率[6],是土壤侵蝕研究領(lǐng)域所關(guān)注的重點.隨著人工智能技術(shù)的進步,機器學習方法迅速發(fā)展成為崩崗易發(fā)性評價模型的核心.
崩崗的發(fā)育是一個復(fù)雜的動態(tài)過程,受到巖性[7]、土壤類型與性質(zhì)[8]、植被[9]、土地利用[10]、地形[11]等因素的顯著影響,這使其發(fā)生具有強烈的復(fù)雜性和不確定性,故明確主導因素、篩選代表性的影響因素對崩崗易發(fā)性評價具有重要意義.國內(nèi)外研究中常見的指標篩選方法可概括為線性選擇方法和非線性選擇方法.最普遍的線性選擇方法包括主成分分析[12]、共線性分析[13]、逐步回歸[14],方差顯著性檢驗[15]等.Yu等[12]構(gòu)建共線性分析排除高度相關(guān)的影響因素,對福建省崩崗進行易發(fā)性建模,取得了良好的精度.此外,灰色關(guān)聯(lián)度、遞歸特征消除、隨機森林等非線性選擇方法也被應(yīng)用[16-17].廖凱濤等[15]構(gòu)建灰色關(guān)聯(lián)度分析贛州市崩崗侵蝕關(guān)鍵影響因子,認為其侵蝕主要受到地形和水力因素的影響.
盡管上述方法均取得不錯的預(yù)測精度,適用于崩崗易發(fā)性評價,但均沒有考慮到地理空間內(nèi)不同要素對崩崗發(fā)育過程的影響.地理探測器(Geodetector,GD)[18]是一種空間統(tǒng)計工具,該工具憑借合理分析各種現(xiàn)象的驅(qū)動力和影響因子的能力,已經(jīng)被廣泛應(yīng)用到自然等領(lǐng)域,并取得符合現(xiàn)實且預(yù)測精度高的結(jié)果.如張若婧等[19]運用參數(shù)最優(yōu)地理探測器分析江西省山洪災(zāi)害的主要驅(qū)動因素及作用機制,探究其空間分異特征,為山洪災(zāi)害防治提供科學依據(jù).Yang等[20]將GD 與邏輯回歸相結(jié)合,與傳統(tǒng)的邏輯回歸模型相比,精度提高了11.9%.利用GD 對崩崗進行空間分異性分析,有助于崩崗研究.
近些年來,崩崗易發(fā)性評價多選用數(shù)據(jù)驅(qū)動模型,最常用的有信息量模型[21]、邏輯回歸模型[22]、多項式邏輯回歸模型[23]、隨機森林模型(Randomforest,RF)[24]、多層感知機模型[22]、人工神經(jīng)網(wǎng)絡(luò)模型[22]、支持向量機模型[25]等.亦有學者將多個模型進行對比分析,較一致地認為,隨機森林模型可處理高維度、大數(shù)據(jù)量的數(shù)據(jù)集,對評價單元的限制小,無需考慮數(shù)據(jù)尺度和數(shù)據(jù)分布,超參數(shù)調(diào)試代價相比神經(jīng)網(wǎng)絡(luò)、深度學習等明顯較低,被廣泛應(yīng)用于易發(fā)性評價模型中[26].
綜上,本文以贛南興國縣花崗巖區(qū)為典型案例,利用地理探測器篩選指標體系,構(gòu)建隨機森林模型對該地區(qū)崩崗易發(fā)性展開評價,以期為崩崗預(yù)警和防控工作提供參考.地理探測器-隨機森林(GeoDetector-RandomForest,GD-RF)模型主要包含4 步(如圖1所示):①基于頻率比分析,選取崩崗相關(guān)的環(huán)境因子;②創(chuàng)建非崩崗點,構(gòu)建樣本集;③使用地理探測器篩選主導因子,構(gòu)建崩崗易發(fā)性評價指標體系;④將樣本與評價指標因子輸入RF模型中,進行崩崗易發(fā)性指數(shù)計算.
圖1 GD-RF模型流程
研究區(qū)位于江西省中南部興國縣境內(nèi)(115°01'~115°51'E,26°03'~26°41'N),總面積3 215 km2.地處南嶺東西向復(fù)雜構(gòu)造帶東段北側(cè)、贛江支流的平江流域,形成低山、丘陵、平原等破碎折疊地貌,總地勢自東北西邊緣逐漸向中南部傾向,海拔114~1 186 m(如圖2所示).屬亞熱帶季風氣候,氣候溫暖濕潤、雨熱同季,多年平均氣溫為18.8℃,降雨量達1 515.6 mm,且主要集中于5~9月.地帶性土壤為第四紀紅黏土,母巖以花崗巖、紅砂巖、頁巖為主,土壤含沙量大、持水性差、易侵蝕.由于近現(xiàn)代以來強烈人為活動(砍伐、開墾、工程開發(fā)等)造成嚴重植被破壞,并誘發(fā)了持續(xù)性土壤侵蝕,因此被為“江南紅色沙漠”.
圖2 研究區(qū)位置圖及崩崗分布圖
據(jù)2015年江西省水土保持規(guī)劃崩崗調(diào)查數(shù)據(jù)顯示,興國縣現(xiàn)存崩崗點2 933個,分布密度為0.91個/km2,其中約80%(2 460)分布于花崗巖區(qū)(圖2).
崩崗容易受到地形、氣象、土壤和植被等方面的影響.因此,本文依據(jù)前人研究中提出的各類崩崗誘發(fā)因素,并結(jié)合現(xiàn)有可利用的數(shù)據(jù)源,選取10個環(huán)境因子(如圖3所示)作為崩崗潛在影響因素.數(shù)據(jù)的來源及采集時間見表1,各因子是基于SAGAGIS軟件提取的[26],將其重采樣為30 m×30 m 作為柵格單元大小.并用頻率比法[27]分析崩崗與環(huán)境因子間的非線性關(guān)系,其統(tǒng)計結(jié)果見表2.
表1 實驗數(shù)據(jù)來源
表2 各影響因子的頻率比值
圖3 研究區(qū)各環(huán)境因子
1)地形因素
據(jù)觀察(表2),崩崗分布集中在朝南方向和坡度小于15°地區(qū),即主要發(fā)生在中坡度與緩坡上的陽坡和半陽坡.此外,崩崗發(fā)生率隨地形濕度指數(shù)值增大而增大,表明含水率越高,更利于崩崗的發(fā)生.就坡面形態(tài)而言,崩崗發(fā)生率隨剖面曲率、平面曲率值呈現(xiàn)先上升后下降的趨勢,在數(shù)值接近零是達到峰值,79.70%和78.17%的崩崗集中分布在平面曲率和剖面曲率在-0.5~0.5之間的地區(qū),進一步說明在平緩區(qū)更易孕育崩崗.
2)土壤因素
崩崗在黏土含量5%~30%之間,頻率比值均大于1,說明在這個范圍內(nèi)崩崗較易發(fā)生侵蝕;砂含量在大于50%時,其頻率比值最大,達到2.01,對崩崗發(fā)生起到正向作用.
3)氣象因素
降雨量低于1 150 mm 的條件下,崩崗的發(fā)生占總量的78.65%;降雨在1 130 mm 以下時,頻率比值2.77為最大值.年均降雨侵蝕力在不斷增大的條件下,崩崗密度及發(fā)生率都在不停的波動,在年均降雨侵蝕力小于9 700 MJ·mm/(hm2·h·a)時,崩崗的發(fā)生率為47.04%,在9 700~10 100 MJ·mm/(hm2·h·a)條件下,頻率比值最大.可見崩崗的出現(xiàn)主要是受低降雨量影響.
4)植被因素
頻率比值隨著植被覆蓋度值的增加呈現(xiàn)先增加后減小的趨勢,可見,并不是植被越茂盛崩崗就一定不會發(fā)生.
結(jié)合以上環(huán)境制約因素,贛南興國縣崩崗地貌主要集中在坡度平緩至水平,半陽坡至陽坡,植被覆蓋稀疏至中等的花崗巖區(qū).總體而言,所選取的環(huán)境因素與崩崗存在非線性關(guān)系,可作為崩崗的影響因素.
地理探測器[18]無線性假設(shè),能夠探測崩崗的空間分異性,分析不同分層內(nèi)影響因子對崩崗發(fā)生的解釋力度.作為空間數(shù)據(jù)探索和分析十分可靠的工具之一,主要被用來分析各種現(xiàn)象的驅(qū)動力和影響因素,定量化篩選出貢獻較大的因素.地理探測器由因子探測、交互探測、風險探測、生態(tài)探測構(gòu)成.在定量化探測某因子對屬性的空間分異解釋程度時,屬因子探測,用q值[28]來度量,其表達式為:
式中:q為崩崗空間分異影響力探測力指標;Nh和N分別為分層h和全區(qū)的樣本單元數(shù);L為變量Y(崩崗)或因子X(影響因子)的分層,即分類或分區(qū);σ2h和σ2分別是分層h和全區(qū)的Y值的方差.q的值域為[0,1],值越大說明崩崗的空間分異性越明顯;如果分層是由自變量X生成的,則q值越大表示自變量X對屬性Y的解釋力越強,反之則越弱.q值表示X解釋了100×q%的Y.
地理探測器無法處理連續(xù)數(shù)據(jù),故將連續(xù)數(shù)據(jù)重分類.在花崗巖區(qū)隨機選取與已發(fā)生崩崗數(shù)目相同的非崩崗作為負樣本,構(gòu)建30 m×30 m 的漁網(wǎng),空間連接各因子屬性值及樣本集.樣本集為Y(是否為已發(fā)生崩崗),各環(huán)境因子為X,代入地理探測器,探究10個環(huán)境因子對崩崗發(fā)生的貢獻(如圖4所示).
圖4 因子探測結(jié)果
結(jié)果顯示,地理分區(qū)解釋力最強的是年均降雨侵蝕力,能夠?qū)Ρ缻徑忉?9%,年均降雨量這類水文氣象指標對崩崗解釋力次之,能夠解釋25%的崩崗.其次是植被因素和土壤指標,說明這兩類指標對于崩崗的發(fā)生具有一定的影響意義.此外,除坡度之外的其他地形因子對崩崗的解釋力與其他因子相比相差少了1個數(shù)量級,對崩崗發(fā)生的解釋力弱.
最后,選取年均降雨侵蝕力、年均降雨量、植被覆蓋度、坡度、砂含量和黏土含量作為崩崗的主導因素,構(gòu)建GD-RF模型進行易發(fā)性評價.
隨機森林是一種監(jiān)督學習算法,所構(gòu)建的“森林”是眾多決策樹的集成,以“bagging”方法來對其進行訓練,用交叉驗證方法選取模型樣本以獲得更準確和穩(wěn)定的預(yù)測[29],被認為是一種集成學習方法,根據(jù)自舉技術(shù)產(chǎn)生的一些弱分類樹的聚合結(jié)果對未知樣本進行分類.RF主要思想是有放回地抽取樣本以及隨機選取不同的輸入特征數(shù)量來構(gòu)建不同的訓練集,使產(chǎn)生的決策樹多樣化[30].通過計算評價因子k在節(jié)點分割時基尼指數(shù)的減少值DGk;將森林中所有節(jié)點的DGk求和后對所有樹取平均,即為評價因子k的重要性.以評價因子平均基尼減小值占所有因子平均基尼減少值總和的百分比度量評價因子的重要程度.按式(2)計算:
式中:m、n、t分別是評價因子總數(shù)、分類樹棵數(shù)和單棵樹節(jié)點數(shù);DGkhj為第k個評價因子在第h棵樹的第j個節(jié)點的基尼指數(shù)減少值;Pk為第k個評價因子在所有評價因子中的重要程度.
受試者工作特征曲線(receiver operating characteristic curve,ROC)可用于評價地質(zhì)災(zāi)害預(yù)測模型的準確性[31-32].本研究將容易發(fā)生崩崗的預(yù)測數(shù)據(jù)與已有的崩崗災(zāi)害點進行比較.ROC 曲線顯示了真陽性率(RTP)與假陽性率(RFP)的函數(shù),突出觀測數(shù)據(jù)和預(yù)測數(shù)據(jù)之間的一致性.具體來說,RTP描述了一組崩崗像素中被正確分類為崩崗的比例,而RFP是被錯誤分類為崩崗的非崩崗像素的比例,即
式中:真正(mTP)和真負(mTN)為正確分類的像素個數(shù),假正(mFP)和假負(mFN)為錯誤分類的像素個數(shù).
ROC與預(yù)測準確度之間的定量-定性關(guān)系范圍為[0,1][33].基于Rstuido軟件,得到興國縣易發(fā)性預(yù)測評價結(jié)果的ROC 曲線(如圖5 所示),其對應(yīng)的AUC值為0.864 4,表示評估精度良好.這說明基于地理探測器的隨機森林模型所構(gòu)建的崩崗易發(fā)性評價方法符合崩崗發(fā)生規(guī)律,具有客觀性、可行性和現(xiàn)實可操作性,為興國縣花崗巖區(qū)的地質(zhì)災(zāi)害防治起到一定的指導作用.
圖5 崩崗易發(fā)性結(jié)果檢驗曲線
將崩崗發(fā)生點位與易發(fā)性分區(qū)圖進行疊加分析,得到崩崗易發(fā)性等級與崩崗分布預(yù)測結(jié)果,見表3.
表3 崩崗易發(fā)性等級與崩崗分布預(yù)測結(jié)果圖
結(jié)果表明,極高-高易發(fā)區(qū)面積占興國縣花崗巖區(qū)域的41.49%,其中崩崗已發(fā)生點落入極高-高易發(fā)區(qū)共有1 999 處,占花崗巖區(qū)總崩崗發(fā)生數(shù)的81.26%,由此可知,極高-高易發(fā)區(qū)崩崗相對點密度為1.96.同時,極低易發(fā)區(qū)、低易發(fā)區(qū)分別占興國縣花崗巖區(qū)域的32.13%、15.91%,相應(yīng)的崩崗數(shù)量密度分別為3.90%、7.28%.此外,每個易發(fā)分區(qū)類的面積百分比與每個類別中發(fā)生的現(xiàn)象百分比的比率被稱為SCAI(Seed Cell Area Index)[34],它背后的邏輯是,在非常保守的區(qū)域范圍內(nèi)對是否容易產(chǎn)生崩崗進行正確的分類.Süzen等認為[35]在極高、高易發(fā)區(qū)應(yīng)有較小的SCAI值,在極低、低易發(fā)區(qū)應(yīng)具有較高的SCAI值,這是較為理想的SCAI值分布.本研究中,當易發(fā)性類別由低到高時,SCAI值也由較高的8.23遞減到較低的0.45,可見該研究在隨機森林模型下得到的結(jié)果(如圖6所示)是合理的.
圖6 隨機森林下的崩崗易發(fā)性圖
1)興國縣崩崗易發(fā)性評價指標貢獻排序為年均降雨侵蝕力>年均降雨量>植被覆蓋度>坡度>砂含量>黏土含量>平面曲率>坡向>地形濕度指數(shù)>剖面曲率.
2)采用隨機森林模型AUC 值為0.864 4,相應(yīng)SCAI值由極高易發(fā)區(qū)到極低易發(fā)區(qū)不停增大分別為0.45、0.83、1.39、2.19和8.23,與實際情況較吻合,表明GD-RF模型適用于該區(qū)崩崗易發(fā)性評價.極高-高易發(fā)區(qū)主要集中在永豐鎮(zhèn)、古龍崗鎮(zhèn)、江背鎮(zhèn)和鼎龍鄉(xiāng)等地區(qū).