李萌 彭思佳 白艷萍 黃兆歡
摘? 要:潛在滑坡識別對地質(zhì)災(zāi)害高發(fā)區(qū)的滑坡研究有重要意義。文章以中巴經(jīng)濟走廊災(zāi)害多發(fā)區(qū)某一試驗區(qū)為例,結(jié)合由2014-2019的Sentinel1-A雷達數(shù)據(jù)計算出的地表變形數(shù)據(jù),選取試驗區(qū)地形、水文、地質(zhì)、聚類共8種特征變量基于隨機森林模型進行滑坡識別,滑坡識別結(jié)果總體精度為88.62%,Kappa系數(shù)為0.78。結(jié)果表明,結(jié)合地表變形數(shù)據(jù)的隨機森林模型可以較好的識別潛在滑坡,聚類特征對于識別結(jié)果有重要貢獻。
關(guān)鍵詞:隨機森林;中巴經(jīng)濟走廊;地質(zhì)災(zāi)害;特征變量
中圖分類號:P642.22 文獻標志碼:A 文章編號:2095-2945(2020)06-0009-05
Abstract: The identification of potential landslides is of great significance for landslide research in high-risk areas of geological hazards. Taking a test area in a disaster-prone area of the China-Pakistan Economic Corridor as an example, combined with the surface deformation data set calculated from the Sentinel1-A radar data of 2014-2019, eight characteristic variables of terrain, hydrology, geology, and clustering in the test area were selected. Landslide identification was performed using a random forest model. The overall accuracy of the landslide identification result was 88.62%, and the Kappa coefficient was 0.78. The results show that the random forest model combined with the surface deformation data set can better identify the distribution of potential landslides, and the clustering features make an important contribution to the recognition results.
Keywords: random forest; China-Pakistan Economic Corridor; geological disaster; characteristic variable
引言
滑坡是一種多發(fā)常見、分布廣、范圍大、破壞性嚴重的地質(zhì)災(zāi)害之一,嚴重威脅著人民生命財產(chǎn)安全[1]。傳統(tǒng)的識別方法周期長、工作量大、危險性高,而遙感技術(shù)具有時間快、成本低等優(yōu)勢,將其應(yīng)用到滑坡的識別中對于滑坡發(fā)生的可能性預(yù)測,助力防災(zāi)減災(zāi)救災(zāi)等綜合工作具有較大的價值。
近年來,隨著傳感器的多元化,眾多學(xué)者使用不同數(shù)據(jù)源和方法進行滑坡識別的研究。張群等借助Geoeye-1衛(wèi)星影像提取光譜、空間、紋理及鄰域特征,基于面向?qū)ο蠓椒ㄌ崛「拭C黑方臺黃土滑坡區(qū)域[2]。徐喬等使用高分辨率QuickBird 影像,提取光譜、紋理及形狀特征識別出疑似滑坡區(qū)[3]。余坤勇等利用ALOS 多光譜數(shù)據(jù)預(yù)測山體滑坡空間分布趨勢,結(jié)果表明隨機森林模型預(yù)測精度高于邏輯回歸模型,達到90.8%[4]。Chaoying Z等使用一種典型的小基線子集(SBAS)干涉合成孔徑雷達(InSAR)技術(shù)分析烏東德水庫滑坡的時空變形特征[5]。Aggeliki K等基于Sentinel-1,Sentinel-2和Landsat-8多源遙感數(shù)據(jù)對馬其頓西北部某煤礦區(qū)進行滑坡分布識別和繪制[6]?;伦R別的一個主流思路就是使用機器學(xué)習(xí)的方法,包括支持向量機、神經(jīng)網(wǎng)絡(luò)、隨機森林等[7-9],還有學(xué)者將其它方法應(yīng)用到滑坡識別,如主成分變換、物探法[10-11]等。
本文借助地表變形數(shù)據(jù),即利用PS變形點進行空間自相關(guān)分析,計算出平均速度的聚類特征,再結(jié)合地形、水文、地質(zhì)共8種特征變量,基于隨機森林算法,對中巴經(jīng)濟走廊某試驗區(qū)進行潛在滑坡識別和研究,并分析不同特征變量的重要性。
1 研究區(qū)概況
中巴經(jīng)濟走廊是中國和巴基斯坦兩國之間交通、能源、海洋等領(lǐng)域交流與合作的戰(zhàn)略通道,是我國“一帶一路”重點工程之一,走廊內(nèi)地質(zhì)環(huán)境極為復(fù)雜、自然災(zāi)害活躍,山體滑坡、落石、塌方、地震等地質(zhì)災(zāi)害時常發(fā)生,給人們的生命財產(chǎn)安全和社會經(jīng)濟發(fā)展帶來嚴重的威脅,因此對走廊內(nèi)的潛在滑坡識別很有必要和意義。
2 數(shù)據(jù)源與處理
2.1 雷達影像數(shù)據(jù)
Sentinel-1衛(wèi)星是歐洲航天局哥白尼計劃(GMES)中的地球觀測衛(wèi)星,由兩顆衛(wèi)星組成,載有C波段合成孔徑雷達,衛(wèi)星數(shù)據(jù)不易受天氣環(huán)境的影響,可提供不論晝夜和云雨霧等狀況下的連續(xù)圖像。從歐空局數(shù)據(jù)中心(https:∥scihub.Copernicus.eu/dhus/#/home)獲取試驗區(qū)2014年10月31日到2019年10月29日共122景Sentinel-1A IW SLC數(shù)據(jù),用于生成試驗區(qū)的地表變形數(shù)據(jù)。獲取的Sentinel-1影像基本參數(shù)如表1所示。
基于PS-InSAR技術(shù),輸入研究區(qū)Sentinel-1A影像,進行裁剪配準、相位估計、差分干涉、相位解纏等一系列處理步驟,計算得到試驗區(qū)時間序列上的地表變形數(shù)據(jù)即PS變形點,試驗區(qū)位置及PS變形點如圖1 所示,不同顏色的PS變形點顯示了不同區(qū)間的平均形變速率,可以看出試驗區(qū)內(nèi)沿著溝谷分布的區(qū)域較為穩(wěn)定,但是仍然存在下降速率較大的PS點。
2.2 其它數(shù)據(jù)
地形因子對滑坡的識別有很大的影響,獲取空間分辨率為30米的ASTER GDEM高程數(shù)據(jù),作為地形特征變量的提取。在ArcGIS中對DEM 數(shù)據(jù)進行裁剪,提取坡度、坡向、曲率、水系。試驗區(qū)的地質(zhì)構(gòu)造斷對滑坡也具有一定影響,從巴基斯坦地質(zhì)中心獲取的覆蓋研究區(qū)范圍斷層空間分布數(shù)據(jù),作為滑坡識別的又一特征變量。
3 研究方法
3.1 隨機森林模型
隨機森林算法是由Breiman于2001年提出的一種非參數(shù)新型機器學(xué)習(xí)方法,即在變量(列)的使用和數(shù)據(jù)(行)的使用上進行隨機化,生成很多分類樹,再匯總分類樹的結(jié)果,隨機森林在運算量沒有顯著提高的前提下提高了預(yù)測精度,該方法分類準確性高、抗噪能力較強、泛化性能較好,已經(jīng)廣泛應(yīng)用于分類和識別的相關(guān)研究中。
3.2 樣本數(shù)據(jù)選取
樣本數(shù)據(jù)來自于Google earth高清影像的目視解譯。結(jié)合試驗區(qū)部分實地考察照片以及由Sentinel-1A計算出的PS變形點的平均速度分布范圍勾畫滑坡區(qū)域,生成滑坡區(qū)域內(nèi)共682個的滑坡點,再利用ArcGIS 10. 2軟件在已知勾畫的滑坡區(qū)之外隨機生成相等數(shù)目的穩(wěn)定點。將獲取的682個滑坡點和682個穩(wěn)定點,按照比例7:3隨機分配分為訓(xùn)練樣本集和驗證樣本集,分別用于隨機森林識別滑坡的模型建立和精度驗證,圖2 是試驗區(qū)位置及選取的樣本空間分布,圖3 是在Google earth高清影像輔助樣本解譯的PS變形點和實地考察照片。
3.3 特征變量選取
滑坡是自然界多種因子綜合作用的結(jié)果,各個因子之間往往有著相互關(guān)聯(lián)的因果關(guān)系?;掳l(fā)生與否,首先受到自身地理環(huán)境的影響,包括地形地貌、土壤環(huán)境和植被信息等。一般情況下,在地勢平坦區(qū)不易發(fā)生滑坡災(zāi)害,在地形起伏大的區(qū)域會隨著地震、降雨等事件而發(fā)生滑坡,且滑坡發(fā)生的概率會隨著坡度和高程的增加而增加。同時,構(gòu)造面又為降雨等水流進入斜坡提供了通道,故各種節(jié)理、裂隙、層面、斷層發(fā)育的斜坡,特別是當(dāng)平行和垂直斜坡的陡傾角構(gòu)造面及順坡緩傾的構(gòu)造面發(fā)育時,最易發(fā)生滑坡。另外,離水系越近的土壤,其含水性越大,而含水性越大往往有利于滑坡的發(fā)生,因而到水系距離也是滑坡發(fā)生的一個影響因子。
空間自相關(guān)是指一些變量在同一個分布區(qū)內(nèi)的觀測數(shù)據(jù)之間潛在的相互依賴性,如果這個變量的空間分布存在規(guī)律性,這個變量是空間自相關(guān)的。ArcGIS中的空間自相關(guān)分析,可以計算某個變量在某個位置上的值受相鄰位置上該變量值的影響程度,并對該變量空間分布的獨立性和隨機性進行檢驗,從而表現(xiàn)變量的聚類特征。本文基于試驗區(qū)的地表變形數(shù)據(jù)即PS變形點,以平均速率作為變量,基于 Getis和Moran's I 兩種模型進行統(tǒng)計分析,分別得出兩種模型的Gi*指數(shù)和Morans I指數(shù),公式如下。
公式(1)中,Wij(d)為在d距離內(nèi)的空間相鄰權(quán)重矩陣,同樣地,若i與j相鄰,該Wij(d)為1,不相鄰為0。公式(2)中:N為樣本數(shù),Xi變量X在i位置的值,Xj變量X在j位置的值,Wij表示空間權(quán)重。綜上考慮,最終選取試驗區(qū)地形、水文、地質(zhì)、聚類共8種特征變量(表2),提取結(jié)果如圖4所示。
4 結(jié)果和分析
4.1 分類與精度評價
輸入8個特征變量以及訓(xùn)練樣本集,在隨機森林模型中,人為調(diào)整樹的T個數(shù)和變量個數(shù)m,計算RFC模型,設(shè)置T從1-100逐一變化對融合特征進行滑坡識別,并統(tǒng)計總體精度,技術(shù)路線如圖5所示。
通過隨機森林算法的特征變量和訓(xùn)練樣本的輸入和建模,得到識別滑坡的結(jié)果,并計算了滑坡識別結(jié)果的混淆矩陣,結(jié)果顯示滑坡識別的總體精度為88.62%,Kappa精度為0.78,用戶精度和生產(chǎn)精度分別為89.18%和87.87%(表3),總體來看識別效果良好。
4.2 重要性評估
隨機森林模型可以對輸入的特征變量進行重要性排序,如圖6所示,可以看出不同特征變量在此次滑坡識別實驗中的對識別結(jié)果的貢獻。
由圖6可以看出對滑坡識別貢獻最大的是Gi*指數(shù),即熱(冷)點分析中的 Getis模型的聚類特征。地形特征中高程的貢獻最大,而坡向和曲率貢獻最小,坡度和坡向的評分接近,遠低于高程,由此可以推測在海拔越高的地方發(fā)生滑坡的可能性越大。斷層因子的評分較高,在構(gòu)造方面,例如斷層發(fā)育的斜坡,當(dāng)平行和垂直斜坡的陡傾角構(gòu)造面及順坡緩傾的構(gòu)造面發(fā)育時,最易發(fā)生滑坡,斷層評分也已說明研究區(qū)內(nèi)的滑坡易發(fā)區(qū)受斷層的影響因素較大。
通過熱(冷)點分析計算的Gi*指數(shù)貢獻最大,主要是因為PS變形點的平均速度的聚類特征,平均速度為負,表示該點地面下沉,但是一個或者兩個的下沉點往往不一定代表滑坡點,但是當(dāng)下沉點成一簇一簇聚集起來分布,則該區(qū)域最有可能發(fā)生滑坡,如特征變量的重要性排序所示,Gi*指數(shù)的貢獻遠大于其它7個特征變量。
4.3 數(shù)據(jù)對比驗證
通過分類后處理步驟設(shè)置閾值,消除分類結(jié)果中的微小細碎斑塊,得到圖7所示黑色不規(guī)則多邊形的滑坡區(qū)域,統(tǒng)計樣本點中分為滑坡點的穩(wěn)定點和分為穩(wěn)定點的滑坡點,可以看出大多滑坡點都落在黑色不規(guī)則多邊形內(nèi),即滑坡點落在滑坡區(qū),而只有少數(shù)穩(wěn)定點誤分到滑坡點。出現(xiàn)誤分的原因可能有以下原因:樣本點本身存在的誤差;隨機森林模型的算法誤差;滑坡的發(fā)生機理和誘發(fā)因子復(fù)雜,特征選擇不夠全面。以上都有可能造成分類結(jié)果精度的誤差。
通過將PS變形點覆蓋到滑坡識別結(jié)果中進行對比(圖8),可以看出在空間趨勢上,PS變形點的下沉速度較大的點大多落在黑色不規(guī)則多邊形內(nèi),即下降位移較大的點落在識別的滑坡區(qū)里,通過PS變形點和識別結(jié)果的對比,可以看出地表變形數(shù)據(jù)和滑坡識別區(qū)域的對應(yīng)效果較好。
5 結(jié)束語
本文結(jié)合地表變形數(shù)據(jù)中的PS變形點,通過空間自相關(guān)分析,使用 Getis和Moran's I兩種模型計算了平均速度的聚類特征,再結(jié)合地形、水文、地質(zhì)特征變量,對中巴經(jīng)濟走廊某試驗區(qū)進行潛在滑坡識別,識別結(jié)果總體精度為88.62%,Kappa系數(shù)為0.78。
特征重要性排序中Gi*指數(shù)評分最高,表明下沉點成團聚集的地方,最有可能發(fā)生滑坡。地形特征中高程的貢獻大于坡向和曲率,由此可以推測在海拔越高的地方發(fā)生滑坡的可能性越大。坡向和曲率和貢獻重要性較小,不是滑坡發(fā)生的主導(dǎo)因素。
降水量尤其暴雨也是導(dǎo)致滑坡可能發(fā)生的重要因素,然而由于研究區(qū)降水?dāng)?shù)據(jù)缺乏,因此只考慮了地表變形數(shù)據(jù)、地形、水文、地質(zhì)等特征,而人類活動等其它潛在因子也對滑坡產(chǎn)生影響,這可能對模型的預(yù)測結(jié)果造成一定的誤差。
參考文獻:
[1]趙寶強,韓守富,白艷萍,等.時序InSAR技術(shù)在大型滑坡監(jiān)測中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2019(1):21-24.
[2]張群,趙超英.基于面向?qū)ο蟮母叻诌b感數(shù)據(jù)甘肅黑方臺黃土滑坡半自動識別[J].災(zāi)害學(xué),2017,32(3):210-215.
[3]徐喬,孟凡利,余紹淮.基于面向?qū)ο箅S機森林分類模型的滑坡遙感解譯[J].中外公路,2019,39(3):30-33.
[4]余坤勇,姚雄,邱祈榮,等.基于隨機森林模型的山體滑坡空間預(yù)測研究[J].農(nóng)業(yè)機械學(xué)報,2016,47(10):338-345.
[5]Chaoying Z,Ya K,Qin Z,et al.Landslide Identification and Monitoring along the Jinsha River Catchment (Wudongde Reservoir Area),China,Using the InSAR Method[J].Remote sensing,2018, 10, 993.
[6]Aggeliki K,Konstantinos N.Landslide mapping using optical and radar data a case study from Aminteo Western Macedonia Greece[J].European Journal of Remote Sensing,2019,2279-7254.
[7]李松,鄧寶昆,徐紅勤,等.地震型滑坡災(zāi)害遙感快速識別方法研究[J].遙感信息,2015,30(4):25-28.
[8]李勛,楊環(huán),殷宗敏,等.基于DEM和遙感影像的區(qū)域黃土滑坡體識別方法研究[J].地理與地理信息科學(xué),2017,33(4):86-92.
[9]姚雄,余坤勇,劉健,等.基于隨機森林模型的降水誘發(fā)山體滑坡空間預(yù)測技術(shù)[J].福建農(nóng)林大學(xué)學(xué)報:自然科學(xué)版,2016,45(2):219-227.
[10]李成龍,張景發(fā).基于主成分分析的遙感震害變化檢測方法與應(yīng)用[J].地震,2013,33(2):103-108.
[11]郭瑞,李素敏,陳婭男,等.基于 SBAS-InSAR 的礦區(qū)采空區(qū)潛在滑坡綜合識別方法[J].地球信息科學(xué)學(xué)報,2019,21(7):1109-1120.