黃發(fā)明,石雨,歐陽慰平,洪安宇,曾子強,徐富剛
(南昌大學 建筑工程學院,南昌 330031)
如何有效開展滑坡易發(fā)性預(yù)測制圖是現(xiàn)階段全世界范圍內(nèi)區(qū)域滑坡研究的重點和難點。通過將GIS與數(shù)據(jù)驅(qū)動模型相結(jié)合,以圖像和數(shù)字的方式可構(gòu)建出更高效準確的易發(fā)性預(yù)測模型。該易發(fā)性制圖的思路對滑坡高發(fā)地區(qū)的防災(zāi)減災(zāi)規(guī)劃具有重要意義[1]。
滑坡易發(fā)性可定義為特定地點在環(huán)境因子非線性耦合作用下發(fā)生滑坡的空間概率?;诘乩硐嗨菩砸?guī)律,即“地理環(huán)境越相似,地理特征越相近”可知,通過已經(jīng)發(fā)生滑坡的環(huán)境因子來建立預(yù)測模型,則潛在滑坡的空間位置有可能被預(yù)測[2]。很明顯,從滑坡樣本點中確定滑坡易發(fā)性與其環(huán)境因子的關(guān)系式是易發(fā)性預(yù)測的關(guān)鍵所在,因此,選擇用以獲取輸入變量的滑坡-環(huán)境因子關(guān)聯(lián)分析法非常重要。隨著遙感和GIS等基礎(chǔ)數(shù)據(jù)源獲取技術(shù)的進步,易發(fā)性建模的空間數(shù)據(jù)源及其質(zhì)量有了較大提升[3]。一般而言,具體研究區(qū)內(nèi)的滑坡環(huán)境因子類型可通過相關(guān)文獻綜述和研究區(qū)的自然地理和地質(zhì)條件確定。筆者重點關(guān)注滑坡易發(fā)性建模過程中滑坡與其環(huán)境因子的非線性關(guān)聯(lián)分析這一不確定性因素,并進一步研究其對滑坡易發(fā)性建模的影響。
啟發(fā)式模型、數(shù)理統(tǒng)計模型和機器學習模型是易發(fā)性預(yù)測過程中常用的3種類型[4]。啟發(fā)式模型[5]和數(shù)理統(tǒng)計模型被大量使用,主要有確定性因子(Certainty Factors,CF)[6]、層次分析法[7]和多元線性回歸[5]等;機器學習相關(guān)模型包括邏輯回歸(Logistic Regression,LR)[8]、C5.0決策樹[9]、人工神經(jīng)網(wǎng)絡(luò)[10-11]、隨機森林(Random Forest,RF)[12]、支持向量機(Support Vector Machines,SVM)[13]、卡方自動交互檢測(Chi-squared Automatic Interaction Detector,CHAID)決策樹[14]和貝葉斯網(wǎng)絡(luò)[15]等。對于哪種類型的模型最適合易發(fā)性預(yù)測,現(xiàn)階段還沒有一致的意見,但優(yōu)秀的機器學習模型能夠提高滑坡易發(fā)性預(yù)測精度,對滑坡易發(fā)性區(qū)間劃分有著顯著影響,并可能進一步改變滑坡易發(fā)性級別的劃分。筆者擬用CHAID決策樹這一被廣泛應(yīng)用的典型機器學習方法構(gòu)建滑坡易發(fā)性模型并探索建模不確定性特征。
在將建模預(yù)測出的滑坡易發(fā)性指數(shù)(Landslide Susceptibility Index,LSIs)與各類環(huán)境因子開展聯(lián)系時,需開展滑坡與其基礎(chǔ)環(huán)境因子(不考慮誘發(fā)因子)之間的非線性關(guān)聯(lián)分析,其關(guān)聯(lián)值可直接作為易發(fā)性模型的輸入變量[16]。目前,常用的關(guān)聯(lián)分析法包括確定系數(shù)[17]、頻率比(Frequency Ratio,F(xiàn)R)[18]、熵指數(shù)(Index of Entropy,IOE)[16]和證據(jù)權(quán)重(Weight of Evidence,WOE)[19]等。不同關(guān)聯(lián)分析法的內(nèi)部計算思路具有較大的差異性,導致各方法下的易發(fā)性建模存在不確定性[20-21]。關(guān)聯(lián)分析法太粗糙會導致部分信息丟失,降低模型預(yù)測精度;優(yōu)秀的關(guān)聯(lián)分析法能獲取較準確的環(huán)境因子影響滑坡發(fā)育的信息,進一步提高滑坡環(huán)境因子分析及其建模的可靠性??梢?,探討不同關(guān)聯(lián)分析法對易發(fā)性預(yù)測建模的影響規(guī)律具有重要意義。
學者們采用不同關(guān)聯(lián)分析法和模型開展易發(fā)性預(yù)測建模,例如:Zhang等[22]應(yīng)用IOE模型、LR-IOE和SVM-IOE模型獲得了中國陜西省府谷縣滑坡易發(fā)性圖,結(jié)果表明,LR-IOE模型的準確率最高,其次是IOE模型和SVM-IOE模型。李文彬等[23]深入探討滑坡與其環(huán)境因子間的非線性聯(lián)接以及不同數(shù)據(jù)驅(qū)動模型對滑坡易發(fā)性預(yù)測建模不確定性的影響規(guī)律,結(jié)果表明,RF模型預(yù)測性能最優(yōu),WOE-RF模型預(yù)測的滑坡易發(fā)性不確定性較低。張鐘遠等[24]基于地理信息系統(tǒng)平臺構(gòu)建了云南省鎮(zhèn)康縣滑坡易發(fā)性預(yù)測指標體系,結(jié)果顯示,頻率比耦合LR模型具有更高的成功率和預(yù)測率。但大多數(shù)情況下,現(xiàn)有研究使用特定的關(guān)聯(lián)分析法開展易發(fā)性預(yù)測建模,而較少提供可信的依據(jù)和合理的解釋,并且較少深入探討這種不確定性因素對易發(fā)性預(yù)測建模的影響。通過探討關(guān)聯(lián)分析法耦合模型下的滑坡易發(fā)性結(jié)果的不確定性,更能深入理解易發(fā)性預(yù)測的可靠性和可行性,可降低關(guān)聯(lián)分析法不確定性因素帶來的影響。
筆者采用FR和WOE兩種非線性關(guān)聯(lián)分析法的計算數(shù)據(jù)值與原始環(huán)境因子數(shù)據(jù)(以下簡稱“原始因子數(shù)據(jù)”)作為CHAID決策樹模型的輸入變量,以陜西省延長縣為例,開展滑坡易發(fā)性預(yù)測建模的不確定性分析,包括精度評價、LSIs分布規(guī)律和平均秩等。
FR和WOE兩種關(guān)聯(lián)法耦合CHAID決策樹模型時的易發(fā)性預(yù)測建模流程(圖1)如下:
1)獲取研究區(qū)滑坡編錄及相關(guān)環(huán)境因子數(shù)據(jù)源以便構(gòu)建易發(fā)性建模的空間數(shù)據(jù)集;
2)將FR、WOE和原始因子數(shù)據(jù)作為CHAID決策樹的輸入變量,形成3種耦合模型;
3)分別對3種耦合模型開展易發(fā)性預(yù)測建模,然后在GIS中繪制滑坡易發(fā)性圖并劃分易發(fā)性等級;
4)通過ROC精度、均值、標準差和平均秩等對易發(fā)性預(yù)測結(jié)果進行不確定分析;
5)通過對比分析找到最佳關(guān)聯(lián)分析法,為易發(fā)性建模提供指導。
圖1 滑坡易發(fā)性預(yù)測建模流程圖Fig.1 Flowchart of landslide susceptibility prediction
1.1.1 頻率比 頻率比(Frequency Ratio,F(xiàn)R)反映了滑坡在各環(huán)境因子類別的分布狀況,闡述環(huán)境因子各屬性區(qū)間對滑坡的相對影響度,并且能夠很好地解釋滑坡與各因子之間的內(nèi)在聯(lián)系[25]。FR>1代表在對應(yīng)的環(huán)境因子條件下利于滑坡事件的發(fā)生;FR<1表明該環(huán)境因子區(qū)間的屬性與滑坡的發(fā)展關(guān)系較弱。利用環(huán)境因子的FR值作為各模型的輸入變量之一,其計算公式如式(1)。
(1)
式中:Nj為環(huán)境因子某區(qū)間中出現(xiàn)的滑坡柵格數(shù);N是全區(qū)已知滑坡所分布柵格的總數(shù);Sj是環(huán)境因子的單元數(shù);S是全區(qū)柵格總數(shù)。
1.1.2 證據(jù)權(quán) 證據(jù)權(quán)(Weight of Evidence,WOE)法在貝葉斯準則基礎(chǔ)上綜合各類證據(jù)層來實現(xiàn)定量計算某事件的發(fā)生概率。WOE法通過將滑坡編錄和各類環(huán)境因子層進行空間關(guān)聯(lián),從而得到滑坡處各環(huán)境因子的詳細分布特征權(quán)重因子W+和W-,其在每個環(huán)境因子分級中的計算如式(2)、式(3)所示。
(2)
(3)
CHAID決策樹以卡方統(tǒng)計量為基礎(chǔ)實現(xiàn)最優(yōu)決策樹構(gòu)建,也就是通過自變量和因變量間的解釋性來實現(xiàn)因變量的自動判別。CHAID決策樹具有強大的非線性擬合預(yù)測性能,能容忍樣本數(shù)據(jù)缺失及樣本量不足等缺陷。CHAID模型設(shè)定樹生長的層數(shù)、分裂及聚合閾值等停止標準來構(gòu)建準確高效的預(yù)測或分類模型,同時,為防止過擬合現(xiàn)象而用隨機分成的訓練樣本構(gòu)建模型;最后再利用隨機分成的測試樣本對CHAID進行逐步檢驗,以修正模型參數(shù)。
1.3.1 ROC 曲線精度分析 采用受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under ROC,AUC)值作為一種量化指標來整體評估建模性能。ROC曲線對測試集中各樣例進行排序并依序選擇各截斷點,再逐個把樣例作為正例來進行計算,依據(jù)當前分類器的“真陽率”和“假陽率”進行ROC曲線的繪制,相關(guān)評價指標如表1所示。AUC值等于隨機挑選的正樣本的排名高于隨機挑選的負樣本的概率,AUC值越大,則易發(fā)性模型預(yù)測性能越好[4]。
表1 ROC曲線的相關(guān)指標
1.3.2 易發(fā)性指數(shù)統(tǒng)計規(guī)律分析 均值(Mean)是集中趨勢的測量,計算如式(4)所示(式中:Xn為第n個柵格單元的滑坡易發(fā)性指數(shù)值),其量化了研究區(qū)LSIs分布的整體偏向趨勢,反映了LSIs分布的平均水平。標準差(Standard Deviation)是對圍繞平均值的離差的測量,計算如式(5)所示(式中:μ為滑坡易發(fā)性指數(shù)均值;Xi為第i個柵格單元的滑坡易發(fā)性指數(shù)值),量化了LSIs分布的離散程度,標準差越小,說明LSIs越接近平均值,反之,則說明其與平均值的差異越大。采用均值和標準差從整體上分析LSIs的分布特征,揭示不同關(guān)聯(lián)分析法和模型耦合模型下的預(yù)測性能,為滑坡易發(fā)性研究提供理論指導[23]。
(4)
(5)
1.3.3 易發(fā)性指數(shù)的差異顯著性 采用顯著性差異水平進一步分析各耦合模型下易發(fā)性建模的不確定性。具體采用Kendall協(xié)同系數(shù)檢驗法,對任意兩組不同耦合模型下預(yù)測出的LSIs進行差異顯著性檢驗。若Kendall秩相關(guān)系數(shù)W小于1及檢驗結(jié)果的顯著性小于0.05,說明這兩組耦合模型下LSIs的差異是顯著的,拒絕原假設(shè)。本文通過成對因子顯著性檢驗發(fā)現(xiàn),W值為0.139,小于1,且P值均小于0.05,可見,各耦合模型下的LSIs間差異顯著[27]。
延長縣位于陜西東部,面積約2 368.7 km2,地勢從西北向東南方向傾斜??h境內(nèi)屬黃土高原丘陵溝壑區(qū)(河谷階地、黃土溝谷區(qū)、黃土溝間區(qū)和巖質(zhì)丘陵區(qū)),出露三疊系中上統(tǒng)內(nèi)陸湖相碎屑沉積巖和第四系風積、沖洪積和堆積黃土等地層,新近系砂礫巖在研究區(qū)出露較少(圖2)。另外,縣境內(nèi)地質(zhì)構(gòu)造活動強度低,屬于暖溫帶干旱大陸性季風氣候,年均降雨量約564 mm且集中在7、8、9月份。
圖2 延長縣滑坡編錄圖Fig.2 Landslide inventory map of Yanchang
根據(jù)已有的滑坡野外調(diào)查資料和數(shù)據(jù)庫可知,延長縣共發(fā)生滑坡82處,主要類型為小型淺層覆蓋滑坡,主要運動方式為牽引式(59%)和推移式滑動(41%);縣境內(nèi)的小型滑坡45處(占比54.8%),中型滑坡36處(占比43.9%),大型滑坡只有1處。延長縣滑坡分布位置如圖2所示,滑坡主要分布在縣域西部及周邊地區(qū),東部和中部較少;大部分發(fā)生滑坡的位置地勢較高,距離河流水系也較近。延長縣滑坡的發(fā)生與地層巖性和工程活動密切相關(guān)。
2.2.1 環(huán)境因子介紹 根據(jù)延長境內(nèi)滑坡的特征及相關(guān)參考文獻的介紹,利用遙感影像和GIS軟件系統(tǒng)從數(shù)據(jù)源中提取14類滑坡環(huán)境因子,包括地形、水文、地表覆被和基礎(chǔ)地質(zhì)等[28-29]。其中,高程、NDVI、NDBI和MNDWI等12個因子為連續(xù)型數(shù)據(jù),而距河流距離和地層巖性2個因子為離散型數(shù)據(jù)(表2)。對于連續(xù)型環(huán)境因子,先通過小間隔對該因子進行等分,再依據(jù)FR和WOE值將數(shù)值相近的區(qū)間合并成一個類別[30]。對于離散型數(shù)據(jù)類型的環(huán)境因子,采用固有的自然分組來進行分級:距河流距離因子按照距河流距離100、300、400、500、800、900、1 000 m和大于1 000 m進行分類;地層巖性因子為三疊系砂巖夾砂質(zhì)泥巖和油頁巖(T2t)、三疊系厚層砂巖夾泥巖(T3h)、三疊系細砂層粉砂巖夾與泥巖互層(T3y)、三疊系厚層狀長石石英砂巖(T2w)和第四系更新統(tǒng)風積和洪積黃土(Qp1-3)[31]。另外,在使用原始因子數(shù)據(jù)作為CHAID決策樹模型的輸入變量時,將距河流的距離和地層巖性兩種離散型數(shù)據(jù)類型的環(huán)境因子進行了“啞變量”處理。
2.2.2 地形地貌因子 高程、坡度、坡向、剖面曲率、平面曲率、地形起伏度、地形粗糙度、地形切割深度和地形濕度指數(shù)等環(huán)境因子均從DEM中提取(圖3)[23,32]。以地形起伏度為例,分析其8個等級區(qū)間內(nèi)的FR和WOE值(表2),發(fā)現(xiàn)滑坡發(fā)生概率與研究區(qū)的地形起伏度大小成正比。在20~4區(qū)間內(nèi)發(fā)生滑坡的概率最大,為78.34%;其中,F(xiàn)R值均大于1,WOE值均為正值,35~40區(qū)域內(nèi)FR和WOE值最大,分別為2.843和1.148。FR和WOE值都顯示出地形起伏度大小與滑坡發(fā)生有著較強的正向相關(guān)性,可見關(guān)聯(lián)分析法在表達滑坡與地形起伏度的非線性關(guān)聯(lián)性時具有較為一致的趨勢和計算效果。
表2 環(huán)境因子的關(guān)聯(lián)分析值
續(xù)表2
續(xù)表2
圖3 延長縣滑坡環(huán)境因子Fig.3 Landslide environmental factors in Yanchang
2.2.3 水文環(huán)境因子 由于河流對邊坡的浸潤和侵蝕作用,越靠近河流的邊坡土壤含水量可能越高,導致斜坡體失穩(wěn)的可能性更高[33-34]。利用距河流距離和MNDWI來表征水文環(huán)境對滑坡發(fā)育的影響。以距河流的距離因子為例(表2),當距河流距離小于400 m時,滑坡發(fā)育的可能性更高(達74.41%),其中,F(xiàn)R值均大于1,WOE值均為正值;在100~300 m區(qū)域內(nèi),F(xiàn)R和WOE值最大,分別為1.873和0.992。
2.2.4 地表覆被因子 NDBI和NDVI分別反映了研究區(qū)域內(nèi)的建筑分布和自然植被對滑坡地質(zhì)災(zāi)害發(fā)育的影響[35]。從表2可知,當NDVI在0.121~0.424范圍內(nèi)時,其與滑坡有較強的關(guān)系,該區(qū)間包括了研究區(qū)內(nèi)近年來所有的已發(fā)生的滑坡;其中,在0.121~0.182范圍內(nèi),F(xiàn)R值大于1且WOE值為正數(shù)。NDBI能較好地反映研究區(qū)域內(nèi)建筑的分布情況,當NBVI在0.730~0.949范圍內(nèi)時幾乎囊括了近年來研究區(qū)內(nèi)所有的滑坡,間接反映了人類工程建設(shè)對滑坡發(fā)育的影響。
2.2.5 基礎(chǔ)地質(zhì)因子 巖土類型表征滑坡體的物質(zhì)基礎(chǔ)[36-37],分析表2可知,T3h和T3y巖性區(qū)域面積僅占延長縣面積的10.6%,而區(qū)域內(nèi)滑坡發(fā)生的概率高達23.2%,且FR值均大于1、WOE值均為正值,說明T3h和T3y巖性區(qū)域內(nèi)滑坡發(fā)生的頻率較高;在Qp1-3巖性條件下,滑坡發(fā)生概率高達76.8%;在T2t巖性區(qū)域內(nèi),無滑坡分布;T2w巖性區(qū)域在研究區(qū)內(nèi)占比比較小,結(jié)果不具有研究意義。
30 m分辨率的柵格被廣泛用作滑坡易發(fā)性的制圖單元,基于30 m分辨率,整個延長縣被劃分為2 622 482個柵格,已發(fā)生的82處滑坡被劃分為3 403個滑坡柵格[38]。通過FR和WOE兩種關(guān)聯(lián)法對14個環(huán)境因子各屬性區(qū)間進行重新賦值,作為CHAID決策樹開展易發(fā)性建模的輸入變量;同時,也以原始因子數(shù)據(jù)作為輸入變量開展單獨CHAID決策樹的滑坡易發(fā)性建模。通過SPSS modeler 18.0軟件把3 403個滑坡柵格單元賦值為1,同時隨機挑選與滑坡單元相同數(shù)量的非滑坡單元,并將其易發(fā)性賦值為0,作為模型輸出變量;然后按7∶3隨機劃分滑坡和非滑坡柵格單元(6 806個)及其相關(guān)屬性值,得到模型訓練集和測試集。最后將整個研究區(qū)柵格單元的FR和WOE關(guān)聯(lián)分析值以及原始因子數(shù)據(jù)代入訓練好的模型中,預(yù)測延長縣LSIs,并將其按照自然間斷點法[39]劃分為5個易發(fā)性級別。
在SPSS modeler軟件中進行CHAID決策樹建模。以WOE樣本數(shù)據(jù)為例,首先需從外部源中讀取源節(jié)點,將6 806個滑坡-非滑坡樣本數(shù)據(jù)導入SPSS modeler軟件中;接著對字段屬性、測量級別及各字段在建模中的角色進行選擇或修改;再經(jīng)由分區(qū)選擇將樣本數(shù)據(jù)分為訓練集(70%)和測試集(30%);然后在CHAID建模節(jié)點字段選項卡中使用預(yù)定義角色,應(yīng)用boosting算法創(chuàng)建一個整體,由其生成模型序列以增強模型預(yù)測的準確度;選擇CHAID樹生長算法并定制樹的最大深度值為5、父節(jié)點的最小記錄數(shù)為75、子節(jié)點的最小記錄數(shù)為15,以此來限制決策樹的增長;CHAID決策樹的其他參數(shù)使用SPSS modeler中的默認值;最后將整體環(huán)境因子的WOE帶入訓練好的CHAID決策樹模型中,實現(xiàn)延長縣滑坡LSIs的準確預(yù)測。FR-CHAID和單獨CHAID決策樹模型的建模步驟和參數(shù)設(shè)置與WOE-CHAID決策樹模型基本一致。
分兩步開展滑坡易發(fā)性制圖,首先將3種耦合模型預(yù)測出的LSIs導入GIS軟件中,然后依據(jù)自然間斷點法將延長縣滑坡易發(fā)性劃分為極高、高、中等、低和極低5類等級區(qū)間[33]。WOE-CHAID、FR-CHAID和單獨CHAID決策樹模型下的滑坡易發(fā)性結(jié)果如圖4所示。延長縣大部分地區(qū)屬于低和極低易發(fā)區(qū),滑坡高和極高易發(fā)區(qū)主要位于坡度和高程中等且距離河流較近的山地丘陵地區(qū)。但3種耦合模型下得到的滑坡易發(fā)性級別存在顯著差異,圖4中延長縣內(nèi)已發(fā)生的82處滑坡幾乎都落在WOE-CHAID和FR-CHAID決策樹模型預(yù)測的極高與高易發(fā)性等級區(qū)域內(nèi),而單獨CHAID決策樹模型預(yù)測的極高與高易發(fā)性等級區(qū)域與82處滑坡位置存在些許偏差。
圖5 CHAID決策樹模型的滑坡易發(fā)性建模ROC曲線Fig.5 ROC curve of landslide susceptibility modeling of CHAID decision tree
采用測試集AUC值作為具體指標量化不同耦合模型的預(yù)測性能,AUC值越大,表明耦合模型預(yù)測性能越優(yōu)。WOE-CHAID、FR-CHAID和單獨CHAID決策樹模型的滑坡易發(fā)性結(jié)果ROC曲線如圖5所示。從圖5中可知,3種耦合模型下的結(jié)果均較好且相對穩(wěn)定,表現(xiàn)出良好的滑坡易發(fā)性性能。AUC精度從大到小依次為:AUC(WOE-CHAID)>AUC(FR-CHAID)>AUC(單獨的CHAID),說明FR和WOE兩種關(guān)聯(lián)分析法在CHAID決策樹模型中具有比原始因子數(shù)據(jù)更穩(wěn)定的易發(fā)性預(yù)測性能。WOE耦合CHAID決策樹模型的易發(fā)性預(yù)測效果最好且預(yù)測效率最高,AUC精度較FR提高了2.1%,較原始因子數(shù)據(jù)提高了3.1%。
采用均值和標準差分別反映LSIs分布的平均水平和離散程度,并以此分析耦合模型下的易發(fā)性預(yù)測不確定性。WOE-CHAID、FR-CHAID和單獨CHAID決策樹模型預(yù)測的LSIs分布不確定性規(guī)律較為一致,在極低和低易發(fā)區(qū)分布較集中而在高和極高易發(fā)區(qū)分布逐漸減少。LSIs平均值從小到大排名為:單獨的CHAID (0.364) 圖6 CHAID決策樹模型的LSIs分布Fig.6 LSIs distribution of CHAID decision tree 采用顯著性差異水平來進一步分析各耦合模型下易發(fā)性建模的不確定性,通過該試驗計算各耦合模型下預(yù)測的LSIs的平均秩,以便對易發(fā)性模型性能排序。平均秩越小則模型性能越好,最終模型比較結(jié)果為:WOE-CHAID決策樹模型預(yù)測LSIs的平均秩(值為1.85)最小,其次是FR-CHAID(值為2.06) 和單獨的CHAID決策樹(值為2.09)模型。顯著性差異水平和平均秩顯示出各耦合模型的易發(fā)性建模存在不確定性,如何規(guī)避這些不確定性是獲得可靠的易發(fā)性模型的重要研究內(nèi)容。 滑坡環(huán)境因子的重要性反映了已發(fā)生的滑坡事件受該環(huán)境因子影響程度的大小[40]。由于原始因子數(shù)據(jù)和不同的關(guān)聯(lián)分析值在易發(fā)性預(yù)測建模中有著不同的表現(xiàn),基于CHAID決策樹模型中自帶的分類器屬性來評估在原始因子數(shù)據(jù)、FR和WOE等輸入變量下各個環(huán)境因子的重要性。另外,易發(fā)性建模中共使用14個環(huán)境因子(原始因子數(shù)據(jù)含“啞變量”類型,共23個環(huán)境因子),排名10名之后的環(huán)境因子重要性均小于0.04,因此僅展示重要性排名前10的環(huán)境因子。從圖7可知,坡度、地形起伏度、距河流的距離(原始因子數(shù)據(jù)中為100~300 m和500~800 m的兩個“啞變量”因子)、地形切割深度和地形粗糙度等5個環(huán)境因子在單獨CHAID、FR-CHAID和WOE-CHAID決策樹易發(fā)性預(yù)測中有著較大的貢獻,占據(jù)重要性排名均在前5位,重要性均大于0.08。其次,平面曲率和地形濕度指數(shù)在所有決策樹模型中也發(fā)揮著相對重要的作用,重要性均大于0.04。 圖7 滑坡環(huán)境因子重要性Fig.7 The importance of environmental factors of 關(guān)聯(lián)分析法通過定量統(tǒng)計可直觀表現(xiàn)各環(huán)境因子不同屬性區(qū)間對滑坡易發(fā)性空間的影響性。Li等[27]、Saha等[41]對上述部分關(guān)聯(lián)分析法反映滑坡與其環(huán)境因子空間關(guān)聯(lián)的性能進行了對比分析,所得結(jié)果與筆者研究基本一致。由上述分析可知,環(huán)境因子與滑坡間的空間信息的關(guān)聯(lián)性表達越充分,則LSIs的區(qū)分度越大,進一步的易發(fā)性預(yù)測效果就越佳。在FR和WOE關(guān)聯(lián)分析法的環(huán)境因子分級中,WOE更能反映環(huán)境因子內(nèi)部影響滑坡發(fā)育的空間信息的差異,具有更優(yōu)的預(yù)測精度(AUC=86.3%);FR相較于WOE法更加簡潔高效,在保證易發(fā)性精度的同時能有效避免太復雜的統(tǒng)計分析;基于原始因子數(shù)據(jù)進行的單獨CHAID決策樹模型易發(fā)性預(yù)測精度略小于FR-CHAID和WOE-CHAID決策樹模型。此外,單獨的CHAID、FR-CHAID和WOE-CHAID決策樹模型預(yù)測的LSIs平均值逐漸減小而標準差逐漸增大,且平均秩也逐漸減小??梢婈P(guān)聯(lián)分析法的易發(fā)性預(yù)測建模效果較好,WOE優(yōu)于FR,而原始因子數(shù)據(jù)的易發(fā)性建模效果較差。 由文獻[27,42]可知,滑坡與環(huán)境因子(不考慮誘發(fā)因子)之間的非線性關(guān)聯(lián)分析法種類繁多。筆者僅使用FR和WOE兩種關(guān)聯(lián)分析法耦合CHAID決策樹模型進行滑坡易發(fā)性的不確定性對比分析而并未考慮其他關(guān)聯(lián)分析法,在下一步研究中可以考慮使用概率法、信息量、確定性系數(shù)和熵指數(shù)等其他關(guān)聯(lián)分析法,耦合多種不同類型的模型開展更加全面的易發(fā)性預(yù)測不確定性分析。 1)WOE-CHAID決策樹模型易發(fā)性預(yù)測的AUC精度最高,且均值和平均秩較小,標準差較大;FR-CHAID決策樹的AUC精度略低于WOE-CHAID,可見WOE具有更優(yōu)秀的非線性關(guān)聯(lián)性能。 2)將原始因子直接用作輸入變量的單獨CHAID決策樹模型的易發(fā)性預(yù)測精度整體略低于關(guān)聯(lián)分析法的耦合模型。為了提高滑坡易發(fā)性建模效率,可直接使用單獨CHAID決策樹模型,但要體現(xiàn)滑坡與其環(huán)境因子的空間關(guān)聯(lián)性或分析環(huán)境因子各子區(qū)間對滑坡發(fā)育的影響規(guī)律,則使用關(guān)聯(lián)分析法和CHAID決策樹模型耦合建模的優(yōu)勢顯著。 3)總體來說,WOE-CHAID決策樹模型的易發(fā)性預(yù)測結(jié)果可靠性最高,預(yù)測出的LSIs與實際的滑坡概率分布特征更加相符。4.3 耦合模型預(yù)測易發(fā)性指數(shù)的差異性分析
4.4 滑坡環(huán)境因子重要性分析
4.5 各關(guān)聯(lián)分析法的性能分析
5 結(jié)論