賀 攀,郭榮昌,張 蕊,余嶺燕
(蘭州交通大學(xué)自動化與電氣工程學(xué)院,蘭州 730070)
滑坡是土壤、泥漿、巖屑或巖石的坡面運(yùn)動,是陸地斜坡環(huán)境中普遍存在的一種地質(zhì)災(zāi)害[1].鐵路沿線常遭受滑坡危害,滑坡對乘客生命財產(chǎn)和鐵路線路造成了嚴(yán)重的威脅,據(jù)初步統(tǒng)計,成都至白玉段鐵路沿線發(fā)育有滑坡126處[2].滑坡危險性(發(fā)生的概率大?。┰u價可為滑坡防治提供技術(shù)支撐,滑坡評價因子合理選取是危險性評價的重要部分.
已有研究常依據(jù)專家經(jīng)驗以及分析滑坡的觸發(fā)機(jī)制、孕災(zāi)環(huán)境來進(jìn)行滑坡評價因子選取,并采用不同的算法計算評價因子對于滑坡的貢獻(xiàn)率,進(jìn)行因子篩選.針對滑坡危險性評價因子選取和篩選,文獻(xiàn)[3]通過計算因子間協(xié)方差和相關(guān)矩陣,選取滿足相互獨(dú)立的評價因子用于滑坡易發(fā)性評價;文獻(xiàn)[4]從16個評價因子中選取30組評價因子組合,對比不同評價因子組合對應(yīng)的模型精度,得到了最佳評價因子組合,也解決了因子共線性問題;文獻(xiàn)[5]選用主成分分析和特征遞歸消除,從92個特征中分別篩選出15個和30個特征用于滑坡災(zāi)害空間預(yù)測,實驗表明特征遞歸消除法篩選得到的評價因子組合所對應(yīng)的模型預(yù)測精度更高;文獻(xiàn)[6]使用因子相關(guān)分析、主成分分析和粗糙集對滑坡評價因子進(jìn)行篩選和約簡,經(jīng)實驗驗證,篩選和約簡后評價因子可提高評價結(jié)果的精度和準(zhǔn)確性;文獻(xiàn)[7]提出Apriori算法對滑坡評價因子進(jìn)行強(qiáng)關(guān)聯(lián)分析,用于因子篩選,實驗結(jié)果表明采用Apriori算法從預(yù)選因子中選取導(dǎo)致滑坡發(fā)生可能性較大的因子進(jìn)行組合,所得到評價結(jié)果與實際滑坡分布更加吻合;文獻(xiàn)[8]采用遺傳算法優(yōu)化后的粗糙集對滑坡評價因子進(jìn)行約簡,表明選用約簡后的評價因子所對應(yīng)的評價模型精度更高.以上研究,多采用單個因子篩選法生成評價因子組合,較少進(jìn)行因子篩選方法對比,因此,有必要采用不同因子篩選法生成多個評價因子組合,對比評價因子組合的合理性和準(zhǔn)確性,選取最適合研究區(qū)域的評價因子組合,用于滑坡危險性評價.
綜合已有研究,按照以下三點(diǎn)進(jìn)行評價因子選取和篩選:1)綜合考慮專家經(jīng)驗與實地滑坡調(diào)查,預(yù)選滑坡評價因子;2)選取的評價因子間應(yīng)相對獨(dú)立,降低評價結(jié)果過擬合現(xiàn)象[9];3)在評價因子篩選的過程中,要考慮各評價因子的權(quán)重大小以及相關(guān)性,應(yīng)選取滑坡發(fā)育的主要影響因素作為評價因子,舍去次要和冗余因子,以達(dá)到簡化評價模型的目的.因此,首先,通過遙感解譯影像、收集的滑坡資料以及野外調(diào)查,預(yù)選滑坡評價因子,建立滑坡災(zāi)害空間數(shù)據(jù)庫,并對預(yù)選因子進(jìn)行共線性檢驗,確保因子間相互獨(dú)立;然后,選用主成分分析法、粗糙集和灰色關(guān)聯(lián)3種因子篩選方法,生成不同的評價因子組合;最后,將不同的評價因子組合輸入到滑坡危險性評價性能較好的隨機(jī)森林[10]、支持向量機(jī)[11]、邏輯回歸[12]3種評價模型,通過對比模型精度,選擇最優(yōu)的評價因子組合和模型進(jìn)行危險性評價,使之達(dá)到最佳的鐵路沿線滑坡危險性評價效果,為鐵路的規(guī)劃建設(shè)和后期列車安全運(yùn)營、防災(zāi)減害提供參考依據(jù).
雅安至巴塘段鐵路位于四川省西部,全長約520 km,途徑雅安、天全、瀘定、康定、雅江、理塘和巴塘等站.區(qū)域內(nèi)的鐵路沿線區(qū)域氣候復(fù)雜多變,斷裂構(gòu)造發(fā)育,地質(zhì)災(zāi)害點(diǎn)多面廣、險情重、危害大.該區(qū)域內(nèi)滑坡多為降雨型滑坡,年降水量在500~1 600 mm之間,降水主要集中在5~9月.
通過對研究區(qū)域滑坡點(diǎn)的勘察和四川省自然資源廳對研究區(qū)域滑坡災(zāi)害的信息公布,分析滑坡的成災(zāi)原因和孕災(zāi)環(huán)境,并結(jié)合前人的研究[13-15],選取剖面曲率D1、平面曲率D2、坡向D3、高程D4、坡度D5、地層巖性 D6、距斷層距離 D7、距河流距離 D8、植被覆蓋率D9、降雨量D10、土地利用類型D11和人類工程活動D12共12個因子作為預(yù)選評價因子,這些因子可以綜合呈現(xiàn)研究區(qū)域的地質(zhì)條件、地貌條件以及滑坡災(zāi)害的觸發(fā)條件等情況.其中:選取當(dāng)次降雨過程中最大24 h降雨量表示D10;用距道路距離表示D12.各評價因子數(shù)據(jù)來源見表1.
表1 評價因子數(shù)據(jù)來源Tab.1 Data sources of evaluation factors
該區(qū)域歷史滑坡數(shù)據(jù)來源于中國科學(xué)院資源環(huán)境科學(xué)與數(shù)據(jù)中心,包括滑坡位置信息、災(zāi)害險情等級、滑坡傷亡人數(shù)、財產(chǎn)損失、滑坡構(gòu)造和防治建議等信息,鐵路沿線滑坡分布情況如圖1所示.提取研究區(qū)域內(nèi)160處歷史滑坡災(zāi)害和160處非滑坡建立滑坡災(zāi)害空間數(shù)據(jù)庫,其中:非滑坡為歷史滑坡點(diǎn)附近500 m以內(nèi)隨機(jī)非滑坡點(diǎn).
圖1 研究區(qū)域鐵路沿線滑坡分布圖Fig.1 Distribution map of landslides along the railway in the study area
基于不同評價因子組合的鐵路沿線滑坡危險性評價流程如圖2所示,主要分為4個步驟:
圖2 基于不同評價因子組合的鐵路沿線滑坡危險性評價流程圖Fig.2 Flow chart of landslide risk assessment along railway based on different combination of evaluation factors
Step1:對預(yù)選的12個滑坡評價因子進(jìn)行共線性檢驗;
Step2:采用主成分分析法(principal component analysis,PCA)、粗糙集(rough set,RS)和灰色關(guān)聯(lián)分析法(grey relation analysis,GRA)3種因子篩選法生成不同評價因子組合;
Step3:將評價因子組合輸入到隨機(jī)森林、支持向量機(jī)、邏輯回歸3種評價模型,并計算模型精度;
Step4:對比模型精度大小,選擇最佳的評價因子組合和評價模型用于滑坡危險性評價.
預(yù)選的滑坡評價因子間可能不是完全獨(dú)立的,存在因子共線性問題,導(dǎo)致危險性評價結(jié)果的準(zhǔn)確性降低,因此,在因子篩選和構(gòu)建滑坡危險性評價模型之前,需要對預(yù)選因子進(jìn)行多重共線性檢驗.當(dāng)因子存在多重共線性時,因子重要性就會被影響,導(dǎo)致無法正確解釋和理解特征;當(dāng)因子不存在多重共線性時,方可用于因子篩選和模型訓(xùn)練.通過計算容忍度(T)和方差膨脹因子(VIF)的方式進(jìn)行因子多重共線性檢驗,計算公式為
其中:A2為評價因子間的方差.
主成分分析法通過對數(shù)據(jù)進(jìn)行降維,構(gòu)造原始因素之間的線性組合,減少數(shù)據(jù)的維度,降維后的數(shù)據(jù)產(chǎn)生的主成分之間互不相關(guān),且主成分能夠反映原始因素所提供的大部分信息[16].計算各評價因子的特征值和貢獻(xiàn)率,利用各主成分累計貢獻(xiàn)率(一般達(dá)到85%以上)確定主成分的個數(shù)[17],從而確定選取和剔除的因子.
粗糙集是一種能夠處理不完整、不確定信息的歸納、分類方法[18],其主要用于約簡初始的評價指標(biāo),使得在保持屬性分類性能基本不變的情況下,剔除冗余因子,從而保留核因子.
灰色關(guān)聯(lián)分析法是根據(jù)指標(biāo)之間的相似程度來衡量樣本與參考樣本之間關(guān)聯(lián)程度的一種方法[19].首先,選取評價因子的最優(yōu)值或最劣值組成參考樣本x0;接著,采用均值化處理評價因子,得到n組樣本m個指標(biāo)的樣本矩陣;然后,計算比較樣本xi與參考樣本的絕對差值 |x0(k)-xi(k)|(k=1,2,…,m;i=1,2,…,n)以及絕對差值的最大值與最小值;最后,通過式(2)~(3)計算關(guān)聯(lián)系數(shù)ξi和關(guān)聯(lián)度ri.關(guān)聯(lián)度為各因子對于滑坡事件發(fā)生的貢獻(xiàn)率,按照因子的關(guān)聯(lián)度由大到小進(jìn)行累加,選取滿足累計貢獻(xiàn)率要求的因子,從而剔除其余因子.參考主成分分析法的累計貢獻(xiàn)率,設(shè)置灰色關(guān)聯(lián)分析法累計貢獻(xiàn)率為85%.
其中:ρ為分辨系數(shù),一般取值為 0.5[19].
預(yù)選評價因子中可能存在貢獻(xiàn)率較弱的因子,這些因子在造成復(fù)雜計算程度的同時,還將影響計算的效率以及準(zhǔn)確度.使用PCA,RS,GRA對預(yù)選因子進(jìn)行篩選或約簡,根據(jù)各自的量化方法,選取貢獻(xiàn)率較大的滑坡評價因子或者核因子,生成3種評價因子組合.
隨機(jī)森林(random forest,RF)是機(jī)器學(xué)習(xí)算法中的一種組合分類器,從N個樣本中有放回抽取n個樣本(n<N),從K個總屬性中選取k個屬性(k<K),基于基尼指數(shù)選擇最佳分割屬性創(chuàng)建決策樹,通過Bagging算法可集成多個決策樹,從而組成隨機(jī)森林[20].隨機(jī)森林訓(xùn)練速度快,不易“過擬合”,對噪聲和異常值的容忍度好[21].
支持向量機(jī)(support vector machine,SVM)在處理二分類問題中尋找最優(yōu)的超平面,以最大間隔區(qū)分它們[22].對于線性可分?jǐn)?shù)據(jù),尋找最大間距來完成分類;處理非線性可分?jǐn)?shù)據(jù)時,通過核函數(shù)將其映射到高維空間,完成線性可分,引入松弛變量來控制分類誤差.
邏輯回歸(logistic regression,LR)原理是將線性回歸的結(jié)果映射到0~1之間,適用于因變量為二分類的問題,且對數(shù)據(jù)要求較為寬松[23].用于滑坡危險性評價時,自變量為滑坡評價因子,因變量為滑坡是否發(fā)生,其中:0表示滑坡未發(fā)生;1表示滑坡發(fā)生.通過建立最優(yōu)的擬合函數(shù)揭示自變量和因變量之間關(guān)系.
對隨機(jī)森林、支持向量機(jī)進(jìn)行參數(shù)調(diào)整,用于優(yōu)化模型精度;然后,將篩選后的評價因子組合分別輸入到隨機(jī)森林、支持向量機(jī)、邏輯回歸3種評價模型,并計算3種評價因子組合分別輸入到3種評價模型的預(yù)測精度.
選用預(yù)測精度最佳的評價因子組合和模型生成研究區(qū)域滑坡危險性分布圖,根據(jù)危險性大小劃分風(fēng)險等級.統(tǒng)計分析鐵路線路危險區(qū)域分布情況,并對滑坡隱患點(diǎn)進(jìn)行驗證,完成鐵路沿線滑坡危險性評價.
通過計算評價因子容忍度和方差膨脹因子的方式進(jìn)行因子多重共線性檢驗,檢驗結(jié)果見表2.當(dāng)容忍度小于0.1或方差膨脹因子大于10,認(rèn)為因子存在共線性[24],表2中各因子容忍度和方差膨脹因子不符合共線性條件,因此,認(rèn)為所選因子之間相關(guān)性弱或不相關(guān),預(yù)選的12個滑坡評價因子滿足相互獨(dú)立的要求,可直接用于因子篩選和參與模型訓(xùn)練,并將此12個評價因子作為評價因子組合一.
表2 評價因子共線性檢驗表Tab.2 Evaluation factor collinearity test table
預(yù)選的12個滑坡評價因子中可能包括相關(guān)性較差的評價因子,因此,選用SPSS25軟件對評價因子進(jìn)行主成分分析,計算各評價因子特征值和累計貢獻(xiàn)率,計算結(jié)果見表3.當(dāng)累計貢獻(xiàn)率達(dá)到86.94%時,剔除未參與計算累計貢獻(xiàn)率的評價因子,即剔除剖面曲率、平面曲率、到斷層距離和土地利用類型,保留降雨、坡度、到河流距離、植被覆蓋率、人類工程活動、地層巖性、坡向和高程,并將此8個評價因子作為評價因子組合二.
表3 評價因子的特征值和累計貢獻(xiàn)率Tab.3 Eigenvalue and cum ulative contribution rate of evaluation factors
用粗糙集進(jìn)行因子篩選,將預(yù)選的12個評價因子作為條件屬性,選擇滑坡發(fā)生與不發(fā)生作為決策屬性,構(gòu)建初始決策表,對初始決策表進(jìn)行屬性約簡,找出最小的條件屬性集和滑坡核屬性.使用Rosetta軟件對條件屬性和相應(yīng)的決策屬性進(jìn)行屬性約簡,最終得到8個核因子,分別是降雨、地層巖性、到斷層距離、坡度、坡向、到河流距離、植被覆蓋率和人類工程活動,將此8個核因子作為評價因子組合三,剔除剖面曲率、平面曲率、土地利用類型和高程.
對預(yù)選的12個評價因子進(jìn)行灰色關(guān)聯(lián)分析,確定參考樣本后生成樣本矩陣,通過計算比較樣本和參考樣本的差值,求得關(guān)聯(lián)系數(shù)以及關(guān)聯(lián)度.各因子的關(guān)聯(lián)度為因子對于滑坡事件發(fā)生的貢獻(xiàn)率大小,關(guān)聯(lián)度和累計貢獻(xiàn)率計算結(jié)果見表4.當(dāng)累計貢獻(xiàn)率達(dá)到85.1%時,剔除未參與計算累計貢獻(xiàn)率的評價因子,即剔除到河流距離、坡向、平面曲率和剖面曲率,保留降雨、坡度、地層巖性、人類工程活動、植被覆蓋率、土地利用類型、到斷層距離和高程,將此8個評價因子作為評價因子組合四.
表4 評價因子的灰色關(guān)聯(lián)度和累計貢獻(xiàn)率Tab.4 Grey relation degree and cumulative contribution rate of evaluation factors
將320組數(shù)據(jù)按照7:3劃分訓(xùn)練集和測試集,即224組數(shù)據(jù)用于訓(xùn)練,96組數(shù)據(jù)用于測試,將滑坡數(shù)據(jù)標(biāo)記為1,非滑坡數(shù)據(jù)標(biāo)記為0.為了使評價模型滿足精度要求,對隨機(jī)森林模型各參數(shù)進(jìn)行尋優(yōu),再利用網(wǎng)格搜索和交叉驗證得到各參數(shù)最優(yōu)值為:n-estimators=69,max-features=3,min-samplesleaf=3,max-depth=12;對支持向量機(jī)模型進(jìn)行參數(shù)調(diào)整,選擇核函數(shù)為徑向基核函數(shù),通過交叉驗證得到核函數(shù)中的參數(shù)γ為0.8,以及支持向量機(jī)模型中懲罰系數(shù)c為10.
受試者工作特征曲線(receiver operating characteristic curve,ROC曲線)已廣泛應(yīng)用于地質(zhì)災(zāi)害危險性評價結(jié)果精度分析中[25].ROC曲線使用曲線下面積(area under curve,AUC)值衡量模型的預(yù)測精度,AUC值為0至1,越接近于1,說明模型精度越好.將評價因子組合一、二、三、四分別輸入到RF,SVM和LR 3種評價模型,生成ROC曲線并計算模型AUC值,最后共得到12種不同組合的ROC曲線,實驗結(jié)果如圖3所示.圖 3(a)、(b)、(c)分別為4種評價因子組合輸入到RF,SVM和LR模型中的ROC曲線,12種組合的模型AUC值見表5.由表5可知:評價因子組合四輸入隨機(jī)森林模型中所得到的預(yù)測精度最佳,且AUC值為0.886 1.對比12種組合模型的AUC值可知:PCA,RS和GRA 3種篩選因子的方法可提高評價模型的預(yù)測精度,且AUC值平均提高0.034 6,0.044 8和0.054 5.對比 RF,SVM和LR 3種評價模型AUC值可知,隨機(jī)森林整體預(yù)測精度較高.
表5 12種組合模型的AUC值Tab.5 AUC values of 12 combined models
圖3 12種組合模型的ROC曲線Fig.3 ROC curves of 12 combined models
綜上,在雅安至巴塘段鐵路沿線滑坡危險性評價中,評價因子組合四輸入隨機(jī)森林模型中所得到的預(yù)測精度最佳,因此,選用評價因子組合四和隨機(jī)森林模型開展研究區(qū)滑坡危險性評價.
選用灰色關(guān)聯(lián)分析法篩選得到的評價因子組合四輸入到隨機(jī)森林模型,進(jìn)行滑坡危險性評價,計算滑坡危險性大小,并生成滑坡危險性分布圖,如圖4所示.基于自然斷點(diǎn)法將滑坡危險性評價結(jié)果劃分為低、較低、中、較高和高5個風(fēng)險等級,普遍認(rèn)為較高和高風(fēng)險地區(qū)為易受滑坡威脅的區(qū)域.選取103個滑坡隱患點(diǎn)用于檢驗滑坡危險性評價結(jié)果,可得86.4%的滑坡隱患點(diǎn)位于較高和高風(fēng)險地區(qū),即認(rèn)為驗證精度為86.4%.對圖4滑坡危險性分布圖進(jìn)行統(tǒng)計分析,得到各風(fēng)險度級別中鐵路長度及比例(見表6),其中:位于高和較高風(fēng)險地區(qū)的鐵路線路長度分別為10.9 km(2.1%)和48.7 km(9.4%),且較多分布在雅安地區(qū).評價結(jié)果與現(xiàn)場調(diào)查結(jié)果基本一致,經(jīng)過現(xiàn)場調(diào)查分析,雅安地區(qū)鐵路沿線滑坡危險性較高的主要原因為雅安降雨量較大,造成坡體的抗剪強(qiáng)度降低,加速坡體解體破壞,其中:雅安市近60年平均年降雨量為1 664.3 mm,為研究區(qū)域內(nèi)最高,而巴塘縣近60年平均年降雨量為497.4 mm,為研究區(qū)域最低,同時雅安人類工程活動較強(qiáng)烈,道路和居民地分布較為密集,為滑坡發(fā)生提供了良好的孕災(zāi)環(huán)境.在線路建設(shè)時,使用科學(xué)手段監(jiān)測危險性較大的坡體,提前做好防御滑坡的措施,以防止滑坡對鐵路線路造成巨大的損害;在后期鐵路運(yùn)營時,將滑坡災(zāi)害危險性評價結(jié)果與鐵路信號預(yù)警系統(tǒng)緊密結(jié)合,保證列車安全運(yùn)行,為鐵路運(yùn)營提供安全保障.
表6 各風(fēng)險級別中鐵路長度及比例Tab.6 Length and proportion of railway in each risk level
圖4 滑坡危險性分布圖Fig.4 Landslide risk distribution map
以雅安至巴塘段鐵路為研究區(qū)域,基于PCA,RS和GRA 3種因子篩選方法與RF,SVM和LR 3種評價模型組合的方法,選用預(yù)測精度最優(yōu)的方法進(jìn)行滑坡危險性評價,得到以下結(jié)論:
1)3種因子篩選方法使用不同的量化方法對評價因子的相關(guān)性進(jìn)行分析,剔除相關(guān)性較差的因子,保留主要因子.篩選結(jié)果表明:降雨、坡度和地層巖性為導(dǎo)致滑坡事件發(fā)生的重要因子,平面曲率和剖面曲率與滑坡發(fā)生相關(guān)性較弱,分析結(jié)果與實際滑坡災(zāi)害經(jīng)驗分析相符.
2)12種組合模型中,灰色關(guān)聯(lián)分析法篩選出的評價因子組合輸入隨機(jī)森林模型,其對應(yīng)的模型預(yù)測精度最佳,AUC值為0.886 1.通過灰色關(guān)聯(lián)分析法進(jìn)行因子篩選提高了模型預(yù)測精度,AUC面積增大了0.071 9.
3)基于不同評價因子組合的鐵路沿線滑坡危險性評價,選取最優(yōu)的評價因子組合和評價模型,由其得到的滑坡危險性評價結(jié)果與滑坡災(zāi)害隱患相比,吻合程度達(dá)86.4%,證明此研究方法可靠、準(zhǔn)確,具有一定的實用價值,可為雅安至巴塘段鐵路的中期建設(shè)和后期運(yùn)營中的風(fēng)險管理提供一定的參考和技術(shù)支撐.