夏 輝,殷坤龍,梁 鑫,馬 飛
(1.中國地質大學(武漢),湖北 武漢 430074; 2.重慶市地質災害防治中心,重慶 400015)
滑坡易發(fā)性評價是滑坡危險性評價以及風險評價的基礎。滑坡易發(fā)性評價模型主要可分為確定性模型和非確定性模型,隨著GIS技術的成熟和計算機的快速發(fā)展,基于統(tǒng)計分析的非確定性模型在區(qū)域滑坡易發(fā)性評價中應用越來越廣泛,算法較為簡單的有信息量模型[1]、證據權模型[2]、層次分析法[3]等,而隨著大數據的發(fā)展,數據挖掘的興起,一些較為復雜的算法也逐漸的應用到了滑坡易發(fā)性評價中,如決策樹模型[4]、支持向量機模型[5]、人工神經網絡[6]等。張俊等[7]利用信息量和logistic regression模型對萬州區(qū)進行了滑坡易發(fā)性評價,并對比兩個模型的預測精度,認為信息量模型的預測能力優(yōu)于logistic regression模型。馮杭建等[8]在浙江淳安縣對人工神經網絡、邏輯回歸和信息量三個模型在滑坡易發(fā)性評價中的應用進行對比,認為ANN模型優(yōu)于其他兩個模型。
本文以三峽庫區(qū)巫山縣為研究區(qū),根據資料,提取指標因子,選取了支持向量機(SVM)和人工神經網絡(ANN)模型對研究區(qū)進行了滑坡易發(fā)性評價,利用受試者工作特征曲線(ROC曲線)對兩個模型的精度進行評價。然后,結合兩個模型的易發(fā)性指數利用最大值法得到基于SVM-ANN模型的易發(fā)性區(qū)劃結果,用歷史滑坡點在高和極高易發(fā)區(qū)的占比對三個模型進行了對比分析。
假設支持向量分類的訓練樣本有n數據,其表示為[xi,yi](i=1,2……n),其中xi為輸入變量(指標因子),yi為輸出變量(是否為滑坡)。只考慮一個輸入變量的情況下,支持向量回歸的超平面形式為:
y=b+ωx
(1)
式中b為截距,ω為斜率。當有n個輸入變量時,支持向量回歸的超平面為:
(2)
式中WTX為ωixi的累積。在滿足殘差零均值和等方差的前提下,回歸方程的參數估計通常采用最小二乘法,以輸出變量的實際值與估計值之間的離差平方和最小為原則求解回歸方程的參數,即求解損失函數達到最小值時的函數:
(3)
支持向量機采用ε-不敏感損失函數,回歸分析中,每個觀測的誤差函數值都計入損失函數,而支持向量回歸中,誤差函數值小于ε,它給損失函數帶來的損失將被忽略,不對損失函數做出貢獻[9]。
在ANN模型中,反向傳播(B-P)訓練算法是最常用的神經網絡模型,也被認為是滑坡易發(fā)性評價中最有用的神經網絡之一[10-11]。假設神經網絡中輸入xi,i=1,2,……,n(滑坡易發(fā)性評價中的指標因子),ωi表示其對應的權重(每個因子的權重)。取其特征函數為雙曲正切函數,如下式:
(4)
(5)
式中,S表示神經元的輸入總和;y表示神經元的輸出;θ表示神經元的閾值。
B-P反向傳播網絡采用參數優(yōu)化方法實現網絡權值的調整。參數優(yōu)化是在一個特定模型結構N中,采用數據D優(yōu)化網絡參數,目標是求得使損失函數L(W)=L(W|D,N)達到最小時的網絡參數W。B-P反向傳播網絡的誤差函數為Ep,用來衡量網絡過程在輸出層的表現能力,其表達式為:
(6)
式中,tpj表示網絡實際輸出;opj表示網絡期望輸出。
巫山縣位于重慶市東部,地處長江三峽中下游。地理坐標為東經102°33′~110°11′,北緯30°46′~31°28′。南北長80.3 km,東西寬61.2 km,面積為2 958 km2,圖1為研究區(qū)地理位置和災害點分布圖。
圖1 研究區(qū)位置及地形圖Fig.1 General situation of the study area
區(qū)內地形主要受巫山山脈和大巴山山脈的控制,地勢南北高,中間低,地貌以中、低山為主,地形陡峭,溝谷發(fā)育。地處亞熱帶濕潤氣候區(qū),四季分明,多年平均氣溫為18.4 ℃。縣域地層屬揚子地層區(qū),地層巖性分布特征明顯,中山區(qū)主要為三疊系嘉陵江組的碳酸鹽巖夾泥巖,低山、丘陵區(qū)主要為三疊系巴東組的泥巖夾泥質灰?guī)r,新生界第四系零星分布。巫山縣內地質構造復雜,處于川鄂湘黔隆起褶帶、大巴山弧和川東褶帶的交界地帶。長江橫跨研究區(qū),兩岸支流水系發(fā)育,最大支流為大寧河流域。
在以上因素以及降雨、人類工程活動作用下,縣域內地質災害發(fā)育。根據三峽工程后續(xù)規(guī)劃群測群防預警工程的統(tǒng)計資料顯示,該區(qū)域內發(fā)育地質災害共431處,其中滑坡396處,約占總數的91.9%。
本文進行滑坡易發(fā)性評價的數據來源包括:(1)巫山縣地質災害點排查資料;(2)巫山縣1∶10 000地形圖;(3)巫山縣1∶20 000地質圖;(4)分辨率為30 m的Landsat5 TM遙感影像。根據研究區(qū)的大小和滑坡的規(guī)模,本文采用分辨率為50 m×50 m的柵格作為滑坡易發(fā)性評價的基本單元。
通過整理篩選地質災害點排查資料,利用ArcGIS轉化得到滑坡災害點分布圖層。利用ArcGIS處理地形圖,得到高程、坡度、坡向以及水系分布。將DEM數據導入SAGA-GIS,得到地形濕度指數(TWI)、地表粗糙度指數(TRI)。利用地質圖提取到研究區(qū)地層巖性和構造分布,其中對不同地層的巖性進行分類,研究區(qū)主要分為5類巖性:頁巖、泥巖、碳酸鹽巖、石英砂巖以及第四系沖積物。對水系和構造帶進行緩沖區(qū)分析,其中水系緩沖距離設置為:0~200 m, 200~400 m, 400~600 m, 600~800 m, 800~1 000 m, >1 000 m;構造帶緩沖距離設置為:0~500 m, 500~1 000 m, 1 000~1 500 m, 1 500~2 000 m, 2 000~2 500 m, >2 500 m。在地理空間數據云網站收集到巫山縣Landsat5 TM遙感影像,利用ENVI軟件處理得到研究區(qū)歸一化的植被覆蓋指數(NDVI),并導入到ArcGIS中進行重采樣得到分辨率為50 m的NDVI柵格圖層。
圖2 滑坡易發(fā)性評價指標及其定量分類區(qū)劃圖Fig.2 Controlling factors of landslide susceptibility assessment
以上選取用于滑坡易發(fā)性評價的指標因子,與滑坡的發(fā)生均具有一定的相關性,但是各因子之間也可能存在某種相關性,如果將相關性較高的因子帶入模型計算,會增加模型的復雜度和運行時間。因此,在模型計算之前,對各因子進行相關性分析,剔除與其他因子相關性較高的因子,能夠有效地簡化模型,提高模型的效率。將柵格化的各圖層數據導入SPSS,利用其相關性分析工具得到各因子間的Spearman相關性系數(表1)和顯著性水平Sig.值,Sig.值≤0.05表明各因子間的相關性具有顯著的參考價值,|R|≤0.3表明因子間相關性微弱或不具有相關性[7]。高程和水系、NDVI的相關性系數大于0.3,因此剔除高程這一指標因子,其余的8類因子構成了巫山縣滑坡易發(fā)性評價的指標因子體系(圖2)。
將滑坡災害點圖層和8類指標因子圖層利用柵格轉點工具得到研究區(qū)滑坡易發(fā)性評價數據庫。選取災害點和與其相等非災害點數據作為樣本,其中,災害點隨機分為2類:70%的災害點(277個滑坡)作為訓練數據,30%的災害點(119個滑坡)作為驗證數據。將樣本數據導入SPSS Modeler進行訓練,得到基于支持向量機和人工神經網絡的易發(fā)性評價模型,然后將研究區(qū)總數據帶入模型中計算,得到了研究區(qū)的滑坡易發(fā)性指數。將滑坡易發(fā)性指數導入ArcGIS,并利用自然斷點法將研究區(qū)易發(fā)性指數分為5個等級,從而將研究區(qū)分為:極低易發(fā)區(qū)、低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)和極高易發(fā)區(qū),得到基于SVM和ANN模型的研究區(qū)滑坡易發(fā)性評價區(qū)劃圖(圖3、圖4)。
表1 指標因子相關性及其定量分類區(qū)劃圖Table 1 The correlation coefficient of controlling factor
圖3 基于SVM的滑坡易發(fā)性評價區(qū)劃圖Fig.3 Landslide susceptibility map based on SVM
圖4 基于ANN的滑坡易發(fā)性評價區(qū)劃圖Fig.4 Landslide susceptibility map based on ANN
本文利用受試者工作特征曲線對模型的精確性進行評價,在滑坡易發(fā)性評價中,ROC曲線的X軸為滑坡易發(fā)性指數,Y為滑坡累計發(fā)生頻率。曲線下的面積(AUC)代表了模型精確性的大小,AUC值越接近于1,表明模型的精確性越高[12]。其中,由訓練數據得到的ROC曲線為成功率曲線,驗證數據得到的曲線為預測率曲線。通過SPSS數據分析,得到SVM和ANN模型的成功率和預測率曲線(圖5、圖6),SVM模型的成功率值為0.919、預測率值為0.862,ANN模型的成功率值為0.860、預測值為0.837。兩個模型的AUC值均大于0.7,表明SVM和ANN模型在該研究區(qū)的滑坡易發(fā)性評價中預測能力均很好,且SVM模型預測能力略優(yōu)于ANN模型。
圖5 模型成功率曲線Fig.5 The success rate curve of models
圖6 模型預測率曲線Fig.6 The prediction rate curve of models
由SVM和ANN模型計算得到的滑坡易發(fā)性評價的精確度均較高,兩個模型得到的易發(fā)性區(qū)劃圖中高易發(fā)區(qū)和極高易發(fā)區(qū)分布相近,但是存在某些小區(qū)域在SVM模型中屬于極低和低易發(fā)區(qū),而在ANN模型中屬于中易發(fā)區(qū),甚至高或極高易發(fā)區(qū)。在滑坡預警中,應秉承的理念是即使在區(qū)域進行了預警,滑坡沒有發(fā)生,也不能滑坡發(fā)生了沒有預警?;谶@種理念,本文將兩個模型計算得到的每個柵格滑坡易發(fā)性指數對比,取該柵格上滑坡易發(fā)性指數的較大值,其關系式如下:
LSI=Max(LSISVM;LSIANN)
(7)
式中,LSI表示滑坡易發(fā)性指數,Max函數表示取兩者間的最大值。將式7計算的滑坡易發(fā)性指數導入ArcGIS,得到基于SVM-ANN的研究區(qū)滑坡易發(fā)性評價區(qū)劃圖(圖7)。
圖7 基于SVM-ANN的滑坡易發(fā)性評價區(qū)劃圖Fig.7 Landslide susceptibility map based on SVM-ANN
根據滑坡易發(fā)性評價結果,分別統(tǒng)計各易發(fā)性等級下歷史滑坡災害點柵格數以及所占比例(圖8)。在SVM、ANN和SVM-ANN模型的結果中,歷史滑坡點在高-極高易發(fā)區(qū)所占的比例分別為90.06%、83.18%和94.01%,表明基于Max{LSI(SVM);LSI(ANN)}函數的SVM-ANN模型能夠提高SVM和ANN單一模型的精確度,其更適用于滑坡災害風險分析的實際應用。
圖8 各易發(fā)區(qū)歷史滑坡點所占比例Fig.8 Percentages of landslide points falling into different susceptibility zonation
綜合分析三種模型得到的滑坡易發(fā)性評價區(qū)劃圖,其結果表明,研究區(qū)高和極高易發(fā)區(qū)主要分布在長江及其支流大寧河與三疊系巴東組的泥巖夾泥質灰?guī)r交匯,以及植被相對缺乏(NDVI值較小)的地帶,并隨研究區(qū)內向斜(大昌-水口向斜、巴霧河向斜、巫山向斜和官渡向斜)呈條帶狀分布。極低和低易發(fā)區(qū)主要分布在泥盆系、石炭系和三疊系下統(tǒng)的鹽酸鹽巖地區(qū),海拔較高,植被發(fā)育。結果與歷史滑坡災害點分布相對一致。
(1)本文以三峽庫區(qū)巫山縣為研究區(qū),基于因子相關性分析,選取了坡度、坡向、TRI、TWI、地層巖性、水系距離、構造距離和NDVI共8類指標因子,結合歷史滑坡災害點數據,基于SVM和ANN模型利用ArcGIS軟件對研究區(qū)進行滑坡易發(fā)性評價,得到研究區(qū)不同模型的滑坡易發(fā)性評價區(qū)劃圖。通過SPSS得到兩個模型的ROC曲線,SVM模型的成功率和預測率曲線的AUC值分別為0.919和0.862,ANN模型分別為0.86和0.837,表明兩個模型在研究區(qū)滑坡易發(fā)性評價的精度均較高。
(2)結合SVM和ANN模型評價結果,提出基于Max{LSI(SVM);LSI(ANN)}函數的SVM-ANN模型,并應用于研究區(qū)的滑坡易發(fā)性評價。通過統(tǒng)計,SVM、ANN和SVM-ANN模型中,歷史滑坡點在高-極高易發(fā)區(qū)所占的比例分別為90.06%、83.18%和94.01%,表明SVM-ANN模型更適用于滑坡災害風險分析的實際應用,從而說明結合多個模型來提高滑坡易發(fā)性評價區(qū)劃圖的適用性是可行的。
(3)滑坡易發(fā)性評價區(qū)劃圖表明研究區(qū)高和極高易發(fā)區(qū)主要分布在三疊系巴東組的泥巖夾泥質灰?guī)r與河流的交匯,且植被相對發(fā)育較弱的地帶,隨區(qū)內向斜呈條帶狀分布,與研究區(qū)實際情況相對一致,能夠用于滑坡災害危險性評價及風險評價中。