金 朝, 費(fèi)雯麗, 丁 衛(wèi), 陳 曦, 杜翌超
(1.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034; 2.湖北省地質(zhì)局 第八地質(zhì)大隊(duì),湖北 襄陽 441000)
目前,國內(nèi)外學(xué)者常用的地質(zhì)災(zāi)害易發(fā)性評價(jià)模型主要有模糊邏輯、層次分析法、證據(jù)權(quán)法、信息量法、確定性系數(shù)法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Logistic回歸等多種數(shù)理統(tǒng)計(jì)方法[1-8]。近年來,多數(shù)學(xué)者使用不同的評價(jià)模型疊加分析地質(zhì)災(zāi)害的易發(fā)性,Poiraud[9]采用指標(biāo)法、證據(jù)權(quán)法、回歸模型、決策樹、獨(dú)立條件單元5種方法建立滑坡易發(fā)性分區(qū),并對比分析各個(gè)評價(jià)結(jié)果;金亞兵等[10]通過層次分析法+神經(jīng)網(wǎng)絡(luò)模型對區(qū)域地災(zāi)進(jìn)行評價(jià);張曉東[11]通過信息量法+邏輯回歸模型和確定性系數(shù)法+邏輯回歸模型對寧夏鹽池縣地災(zāi)易發(fā)性進(jìn)行了評價(jià)并對比分析其結(jié)果。多數(shù)學(xué)者認(rèn)為多種方法組合評價(jià)效果優(yōu)于單一方法評價(jià)。
本文以湖北省十堰市鄖陽區(qū)為例,利用信息量模型和邏輯回歸模型,分別建立信息量模型和信息量法+邏輯回歸模型進(jìn)行地質(zhì)災(zāi)害易發(fā)性評價(jià),并對比分析評價(jià)結(jié)果,以期為同類型的地災(zāi)易發(fā)性評價(jià)提供思路,為地質(zhì)災(zāi)害風(fēng)險(xiǎn)評估和管理提供依據(jù)。
鄖陽區(qū)位于湖北省西北部、漢江上游,北緯32°25′~33°16′、東經(jīng)110°07′~111°16′,國土面積3 863 km2,地勢由南、北邊界向中部的漢江谷地傾斜,谷地兩側(cè)有狹窄而斷續(xù)的盆地與丘陵相間分布。區(qū)內(nèi)除中生界志留系、二疊系—侏羅系地層缺失外,元古界—新生界地層皆有分布。
據(jù)野外資料,全區(qū)地質(zhì)災(zāi)害點(diǎn)分布大致可分為三個(gè)帶:①丹江口庫區(qū)及黃龍灘庫區(qū)滑坡帶;②重要交通干線滑坡、崩塌帶;③兩鄖斷裂與公路斷裂之間滑坡帶。鄖陽區(qū)地質(zhì)災(zāi)害主要分布于構(gòu)造剝蝕低山地形區(qū),碳酸鹽巖類和變質(zhì)巖類占比較高,以不穩(wěn)定斜坡、滑坡和崩塌為主。依據(jù)十堰市鄖陽區(qū)地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查評價(jià)項(xiàng)目資料,十堰市鄖陽區(qū)內(nèi)共有地質(zhì)災(zāi)害隱患點(diǎn)868個(gè)(圖1)。
根據(jù)調(diào)查資料的統(tǒng)計(jì)分析,結(jié)合對典型災(zāi)害點(diǎn)的詳細(xì)勘察研究,初步確定鄖陽區(qū)地質(zhì)災(zāi)害的主要影響因素包括:工程地質(zhì)巖組、高程、地質(zhì)構(gòu)造、地形地貌、地災(zāi)點(diǎn)距道路的距離等。結(jié)合鄖陽區(qū)自然地理特征和前人對其他地區(qū)地災(zāi)易發(fā)性的研究因子選擇[11-16],在充分考慮研究區(qū)尺度大小、范圍、精度以及資料的可獲性等等因素的前提下,最終選取工程地質(zhì)巖組、高程、斷裂、坡度、地災(zāi)點(diǎn)距道路的距離、地災(zāi)點(diǎn)距水系的距離和植被覆蓋度7個(gè)影響因子作為研究區(qū)地質(zhì)災(zāi)害易發(fā)性區(qū)劃的評價(jià)指標(biāo)。
圖1 研究區(qū)高程及地質(zhì)災(zāi)害隱患點(diǎn)分布圖Fig.1 Distribution map of elevation and geological disaster points in study area
本文采用的7個(gè)易發(fā)性影響因子原始數(shù)據(jù)來源于湖北省地質(zhì)局以及1∶1萬縣級二調(diào)數(shù)據(jù),具體信息如表1所示。由于地質(zhì)災(zāi)害易發(fā)性影響因子多基于DEM數(shù)據(jù)和Landsat8數(shù)據(jù),因此采用網(wǎng)格單元作為地質(zhì)災(zāi)害風(fēng)險(xiǎn)評價(jià)的評價(jià)單元。為便于計(jì)算,研究區(qū)的柵格大小取30 m×30 m,共劃分為4 224 841個(gè)柵格單元。
表1 影響因子數(shù)據(jù)源Table 1 Data source of influence factor
信息量模型的理論基礎(chǔ)是信息論,采用地質(zhì)災(zāi)害發(fā)生過程中熵的減少來表征地質(zhì)災(zāi)害事件產(chǎn)生的可能性。地質(zhì)災(zāi)害現(xiàn)象(Y)受多種因素xi的影響,在各種不同的地質(zhì)環(huán)境中,對于地質(zhì)災(zāi)害而言,各種因素所起作用的大小、性質(zhì)是不相同的,總會存在一種“最佳因素組合”對地質(zhì)災(zāi)害發(fā)生“貢獻(xiàn)率”最大。其模型的建立過程如下:
首先,計(jì)算單因素(指標(biāo))xi提供給地質(zhì)災(zāi)害發(fā)生(A)的信息量I(xi,A):
(1)
式中:P(xi/A)為地質(zhì)災(zāi)害發(fā)生條件下xi出現(xiàn)的概率;P(xi)為研究區(qū)指標(biāo)xi出現(xiàn)的概率。
式(1)是理論模型,在具體運(yùn)算時(shí)往往用樣本頻率計(jì)算,即:
(2)
式中:S為預(yù)測區(qū)總單元數(shù);N為預(yù)測區(qū)已知發(fā)生地災(zāi)的單元數(shù);Si為含有xi的單元個(gè)數(shù);Ni為含有指標(biāo)xi且已知發(fā)生地災(zāi)的單元個(gè)數(shù)。
然后,計(jì)算某一單元在P種因素組合情況下提供的信息量,即:
(3)
式中:xi代表評價(jià)單元內(nèi)所取的因子等級;I(xi/A)為因子xi對地質(zhì)災(zāi)害所貢獻(xiàn)的信息量;S為研究區(qū)面積;Si為研究區(qū)內(nèi)含有因子xi的面積;N為研究區(qū)內(nèi)地質(zhì)災(zāi)害總數(shù);Ni為發(fā)生地質(zhì)災(zāi)害區(qū)域中含有因子xi的數(shù)量;I為評價(jià)單元中的綜合信息量。由于該模型理論簡單、客觀性高且實(shí)用性強(qiáng),在地質(zhì)災(zāi)害易發(fā)性評價(jià)中能取得較好效果,尤其在中小比例尺區(qū)域應(yīng)用十分廣泛[7-12]。
建立Logistic回歸模型,主要有兩個(gè)目的:首先是利用建立的模型挖掘隱含在數(shù)據(jù)內(nèi)部的信息,解釋自變量與因變量之間的依存關(guān)系;其次是利用模型預(yù)測未知情況下發(fā)生或者不發(fā)生某種事件的概率。在地質(zhì)災(zāi)害易發(fā)性評價(jià)中,因變量為是否發(fā)生地質(zhì)災(zāi)害,自變量為各個(gè)影響因子。
在已經(jīng)獲得研究區(qū)信息量值的基礎(chǔ)上,提取出所有自變量因子樣本數(shù)據(jù)點(diǎn),應(yīng)用Logistic回歸分析原理與方法,構(gòu)建研究區(qū)地災(zāi)易發(fā)性分區(qū)預(yù)測模型,并對模型作回歸診斷分析與評價(jià)[11,13-14]。
本文以十堰市鄖陽區(qū)地災(zāi)點(diǎn)數(shù)據(jù)作為因變量,地災(zāi)點(diǎn)距斷層距離、NDVI、坡度等7個(gè)影響因子作為自變量,在信息量法的基礎(chǔ)上將Logistic回歸分析應(yīng)用到研究區(qū)地災(zāi)易發(fā)性評價(jià)中。
其函數(shù)如下式:
式中:P為地災(zāi)點(diǎn)的概率,取值范圍(0,1);βn為邏輯回歸系數(shù);Z為地災(zāi)預(yù)測線性函數(shù),基于權(quán)重的所有變量之和。
本文依據(jù)868個(gè)地災(zāi)樣本點(diǎn)來建模,結(jié)合評價(jià)因子分別采用信息量模型以及信息量法+Logistic回歸模型分析評價(jià)十堰市鄖陽區(qū)的地質(zhì)災(zāi)害易發(fā)性;取80%樣品點(diǎn)和等量的隨機(jī)非地災(zāi)點(diǎn)樣本作為研究區(qū)的地質(zhì)災(zāi)害精度檢驗(yàn)樣本,導(dǎo)入SPSS軟件中進(jìn)行精度檢驗(yàn)(ROC),工作流程見圖2。
圖2 研究區(qū)易發(fā)性評價(jià)流程圖Fig.2 Flow chart of susceptibility evaluation in study area
在十堰市鄖陽區(qū)地質(zhì)災(zāi)害風(fēng)險(xiǎn)調(diào)查資料的基礎(chǔ)上,充分研究區(qū)內(nèi)地質(zhì)災(zāi)害的孕災(zāi)環(huán)境,經(jīng)過分析選擇坡度、工程巖組、距道路的距離、植被指數(shù)等7個(gè)影響因子(易發(fā)性評價(jià)通常不考慮人類工程活動、降雨等誘發(fā)因素)作為研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價(jià)因子(圖3),每個(gè)因子的分級指標(biāo)見表2。從表3中統(tǒng)計(jì)得出的地災(zāi)點(diǎn)個(gè)數(shù)在各個(gè)因子分級中的數(shù)量分布可以看出,地災(zāi)點(diǎn)分布規(guī)律接近野外實(shí)際情況,分布較合理,無明顯的分布不均,本次對于評價(jià)因子的分級標(biāo)準(zhǔn)整體符合野外實(shí)際地災(zāi)點(diǎn)分布規(guī)律。
根據(jù)868個(gè)地災(zāi)樣本點(diǎn)和坡度、工程巖組、植被指數(shù)等7個(gè)評價(jià)因子分類級別中的分布特征,利用前述I值計(jì)算公式,計(jì)算各分類級別在各因子中的信息量值,各分類級別的I值見表3。
表2 十堰市鄖陽區(qū)地質(zhì)災(zāi)害易發(fā)性評價(jià)因子指標(biāo)分級表Table 2 Index classification table of geological disaster susceptibilityevaluation factors in Yunyang District, Shiyan City
圖3 研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價(jià)因子Fig.3 Influence factors of susceptibility of geological disasters in study area
表3 各評價(jià)因子分類級別信息量模型計(jì)算結(jié)果表Table 3 Calculation result table of information quantity model level of evaluation factors
本文在計(jì)算信息量值的基礎(chǔ)上,隨機(jī)選取災(zāi)害點(diǎn)總樣本的80%作為訓(xùn)練樣本,提取每個(gè)樣本的各個(gè)因子等級值,在SPSS軟件中進(jìn)行多重共線性診斷,統(tǒng)計(jì)其方差膨脹因子(VIF)。對所選7個(gè)評價(jià)因子進(jìn)行共線性診斷,其VIF計(jì)算結(jié)果顯示VIF值在1~1.3。其VIF<5,說明無明顯偏高因子,表明變量之間不存在共線性,相互之間無交互作用(表4)。
利用相關(guān)分析再次對7個(gè)評價(jià)因子之間的獨(dú)立性進(jìn)行檢驗(yàn),以保證變量之間的獨(dú)立性,各評價(jià)因子之間的相關(guān)系數(shù)矩陣見表5,結(jié)果顯示各評價(jià)因子之間的相關(guān)系數(shù)均<0.4,表明評價(jià)因子之間的相關(guān)性較小,7個(gè)評價(jià)因子均可以進(jìn)入模型。
表4 各評價(jià)因子VIF計(jì)算結(jié)果表Table 4 Calculation results for each evaluation factor VIF
表5 評價(jià)因子之間的相關(guān)系數(shù)矩陣Table 5 Correlation coefficient matrix between evaluation factors
將868個(gè)樣本點(diǎn)7個(gè)評價(jià)因子的I值輸入SPSS軟件中進(jìn)行二項(xiàng)邏輯回歸分析,各評價(jià)因子分類級別的I值作為自變量,是否發(fā)生地質(zhì)災(zāi)害作為因變量(1代表地質(zhì)災(zāi)害樣本點(diǎn),0代表非地質(zhì)災(zāi)害樣本點(diǎn))。邏輯回歸分析結(jié)果中B代表各因子權(quán)重的大小,每個(gè)變量在方程中的統(tǒng)計(jì)學(xué)意義要通過比較Sig.值來判斷,當(dāng)Sig.值<0.05時(shí)才有統(tǒng)計(jì)意義。邏輯回歸分析結(jié)果顯示模型計(jì)算出的工程巖組因子的Sig.值為0.107,無法通過顯著性檢驗(yàn),無統(tǒng)計(jì)意義。將該因子剔除,剩余6個(gè)因子重新利用二項(xiàng)邏輯回歸模型計(jì)算,結(jié)果顯示6個(gè)因子顯著性均<0.05(表6)。因此,其回歸系數(shù)在誤差允許范圍內(nèi)是準(zhǔn)確的,該模型的評價(jià)因子權(quán)重值即為表6中的各因子回歸系數(shù)(B)值。
信息量法+Logistic回歸模型計(jì)算出的權(quán)重因子按照大小降序排列依次為:植被指數(shù)、道路、斷層、水系、坡度、高程。可見植被指數(shù)對模型貢獻(xiàn)變化最大,計(jì)算出所有回歸因子均>0,說明這些因子在模型中同時(shí)起到正向作用。
表6 邏輯回歸分析結(jié)果Table 6 Results of logistic regression analysis
在ArcGIS軟件中,依據(jù)得到的各評價(jià)因子I值和回歸系數(shù)值(B值),采用自然間斷法分級將研究區(qū)分成4個(gè)區(qū),最終形成研究區(qū)易發(fā)性分區(qū)(圖4)。
兩種模型得出的極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在青曲鎮(zhèn)—城關(guān)鎮(zhèn)—青山鎮(zhèn)地帶以及重要交通干線,分區(qū)結(jié)果與實(shí)際地質(zhì)災(zāi)害隱患點(diǎn)分布規(guī)律基本吻合。結(jié)合災(zāi)害點(diǎn)分布及所占比例分析2種模型得到的面積占比可知(表7),信息量模型低易發(fā)分區(qū)和中易發(fā)分區(qū)面積占比為6.9%,而信息量法+Logistic回歸模型低易發(fā)分區(qū)和中易發(fā)分區(qū)面積占比為14.63%;同時(shí)信息量法+Logistic回歸模型中植被指數(shù)權(quán)重因子占比最大,與實(shí)際影響地災(zāi)點(diǎn)分布的權(quán)重因子客觀規(guī)律略有差異。結(jié)合項(xiàng)目組野外調(diào)查資料,隨機(jī)選取兩種模型存在差異的地災(zāi)點(diǎn)進(jìn)行驗(yàn)證,分析其歷史受災(zāi)情況,以及工程巖組特征、高程等多個(gè)因子的分布規(guī)律,綜合分析認(rèn)為信息量模型得出的災(zāi)害點(diǎn)分布規(guī)律更加符合野外實(shí)際情況。
表7 兩種模型地質(zhì)災(zāi)害易發(fā)性分區(qū)對比分析表Table 7 Comparative analysis table of two models of geological hazard-prone areas
圖4 研究區(qū)地質(zhì)災(zāi)害易發(fā)性分區(qū)對比圖Fig.4 Comparative map of susceptibility zoning in study areaA.信息量模型;B.信息量法+Logistic回歸模型。
ROC曲線即受試者工作特征曲線,是地質(zhì)災(zāi)害易發(fā)區(qū)域評價(jià)精度驗(yàn)證的常用方法[15-16]。AUC(Area Under Curve)表示ROC曲線下的面積,是度量分類模型好壞的一個(gè)標(biāo)準(zhǔn),其值介于0~1間,越接近1,則模型模擬值和樣本值越接近;AUC評價(jià)指標(biāo)值越大,則代表模型分類結(jié)果的準(zhǔn)確性越高,即模型精度越高。
檢驗(yàn)結(jié)果顯示,信息量模型和信息量法+Logistic回歸模型的AUC值分別為0.759和0.764(圖5、表8),漸近顯著性b均<0.05;信息量法+Logistic回歸模型比信息量模型AUC值略高,AUC值差異不明顯,說明兩種模型的評價(jià)結(jié)果差異不大。由于信息量法+Logistic回歸模型在計(jì)算過程中剔除了工程巖組評價(jià)因子,實(shí)際野外地質(zhì)災(zāi)害隱患點(diǎn)分布特征與工程巖組密切相關(guān),結(jié)合兩種模型的面積分布及地災(zāi)點(diǎn)分布規(guī)律,選擇更接近于實(shí)際災(zāi)害隱患點(diǎn)信息量模型作為十堰市鄖陽區(qū)地災(zāi)易發(fā)性評價(jià)模型。
圖5 ROC曲線Fig.5 ROC curve圖中紅線為信息量模型ROC曲線,藍(lán)線為信息量法+Logistic回歸模型ROC曲線。
表8 AUC檢驗(yàn)結(jié)果Table 8 Test results of AUC
部分學(xué)者認(rèn)為多種方法組合評價(jià)效果優(yōu)于單一方法評價(jià)[17-18],但是本文認(rèn)為地災(zāi)易發(fā)性評價(jià)模型方法的選擇需要結(jié)合項(xiàng)目實(shí)際情況,綜合工程地質(zhì)、地形、地災(zāi)點(diǎn)的分布特征等多種因素,不能簡單依據(jù)統(tǒng)計(jì)學(xué)擬合參數(shù)來選擇數(shù)學(xué)模型方法,從而得出最優(yōu)的數(shù)學(xué)模型評價(jià)地質(zhì)災(zāi)害的易發(fā)性。
在地質(zhì)災(zāi)害評價(jià)中數(shù)學(xué)模型的選擇不一定兩種方法模型疊加使用較一種模型效果好,需要結(jié)合項(xiàng)目實(shí)際情況來選擇合適的數(shù)學(xué)模型。
選取坡度、高程、距道路的距離、距斷層的距離、距水系的距離、植被指數(shù)、工程巖組等7個(gè)影響因子作為十堰市鄖陽區(qū)地質(zhì)災(zāi)害易發(fā)性評價(jià)因子,利用信息量模型以及信息量法+Logistic回歸模型對該區(qū)地質(zhì)災(zāi)害易發(fā)性進(jìn)行評價(jià),同時(shí)與單獨(dú)使用的信息量模型評價(jià)結(jié)果進(jìn)行對比分析,研究結(jié)果如下:
(1) 基于信息量模型對研究區(qū)進(jìn)行地質(zhì)災(zāi)害易發(fā)性評價(jià)的結(jié)果表明,極高易發(fā)區(qū)和高易發(fā)區(qū)主要分布在青曲鎮(zhèn)—城關(guān)鎮(zhèn)—青山鎮(zhèn)地帶,與實(shí)際的地質(zhì)災(zāi)害隱患點(diǎn)分布一致,低易發(fā)區(qū)和極低易發(fā)區(qū)中,地質(zhì)災(zāi)害隱患點(diǎn)占比只有6.9%,模型預(yù)測效果較信息量法+Logistic回歸模型好。
(2) 利用ROC曲線精度檢驗(yàn)結(jié)果顯示,信息量模型和信息量法+Logistic回歸模型的AUC值分別為0.759和0.764,評價(jià)結(jié)果對比兩者差別不大,兩者均能較為客觀準(zhǔn)確地評價(jià)鄖陽區(qū)地質(zhì)災(zāi)害易發(fā)性,但是由于工程巖組評價(jià)因子在信息量法+Logistic回歸模型中Sig.值無法通過顯著性檢驗(yàn),考慮到實(shí)際地災(zāi)隱患點(diǎn)分布與工程巖組有一定的相關(guān)性,故選用信息量模型作為十堰市鄖陽區(qū)地質(zhì)災(zāi)害易發(fā)性評價(jià)的結(jié)果。
(3) 在地質(zhì)災(zāi)害評價(jià)中數(shù)學(xué)模型的選擇不一定兩種方法模型疊加使用較一種模型效果好,需要結(jié)合項(xiàng)目實(shí)際情況來選擇合適的評價(jià)模型。