劉艷輝 黃俊寶 肖銳鏵 方然可③
(①中國地質(zhì)環(huán)境監(jiān)測院(自然資源部地質(zhì)災(zāi)害技術(shù)指導(dǎo)中心), 北京 100081, 中國)
(②福建省地質(zhì)環(huán)境監(jiān)測中心, 福州 350002, 中國)
(③華北水利水電大學(xué), 鄭州 450045, 中國)
降雨是誘發(fā)滑坡災(zāi)害的重要因素之一,尤其在我國東南沿海的山地丘陵區(qū),汛期強(qiáng)降雨作用下,滑坡災(zāi)害多發(fā)頻發(fā),具有群集發(fā)生,點(diǎn)多面廣的特點(diǎn),嚴(yán)重威脅居民生命財(cái)產(chǎn)安全。開展區(qū)域滑坡災(zāi)害預(yù)警,是防災(zāi)減災(zāi)的重要手段。世界上20多個國家或地區(qū),包括中國香港、美國、意大利、巴西、日本等,也都不同程度地開展過或正在開展區(qū)域地質(zhì)災(zāi)害的早期預(yù)警與減災(zāi)服務(wù)(Guzzetti et al.,2020)。中國大陸的地質(zhì)災(zāi)害氣象預(yù)警業(yè)務(wù)自2003年啟動以來,在多方努力下,因地質(zhì)災(zāi)害造成的死亡、失蹤人數(shù)由“十五”期間的年均1000人左右降低到“十二五”以來的500人左右,地質(zhì)災(zāi)害氣象預(yù)警預(yù)報(bào)工作做出了重要貢獻(xiàn)(劉傳正等, 2009,2015)。目前已形成國家引領(lǐng), 30個省(自治區(qū)、直轄市)、323個市(地、州)、1880個縣(市、區(qū))聯(lián)動的地質(zhì)災(zāi)害預(yù)警服務(wù)工作體系,極大地提升了公眾社會對防范地質(zhì)災(zāi)害的認(rèn)知(劉傳正等, 2020)。
預(yù)警模型研究是區(qū)域滑坡災(zāi)害預(yù)警的基礎(chǔ)科學(xué)問題,大量學(xué)者為此開展了長期不懈的研究。起步最早、應(yīng)用最廣泛的是基于統(tǒng)計(jì)的臨界降雨閾值模型,以中國香港和美國的研究最為系統(tǒng)(Cannon et al.,1985; Au et al.,1998; Pietro, 2004),以模型簡單、易于推廣的優(yōu)勢,廣泛被其他國家或地區(qū)參考應(yīng)用(Hong et al.,2015; 劉傳正等, 2015; 丁桂伶等, 2017; Peruccacci et al.,2017; Wei et al.,2018)。基于統(tǒng)計(jì)原理,劉傳正等(2007)提出的顯式統(tǒng)計(jì)預(yù)警模型在中國大陸各級預(yù)警、重點(diǎn)研究區(qū)和監(jiān)測預(yù)警區(qū)得到深入探索應(yīng)用(劉艷輝等, 2008, 2015, 2018, 2019; 侯圣山等, 2014; 魏平新等, 2015; 溫銘生等, 2016; 李守定等, 2017; 劉傳正等, 2017)?;诮涤?滲流-災(zāi)害發(fā)生的機(jī)理過程分析的區(qū)域動力預(yù)警模型研究也一直在持續(xù),通過將斜坡穩(wěn)定性分析與水文地質(zhì)模型耦合,確定滑坡啟動的臨界降雨指標(biāo)(Keefer et al.,1987; Ponziani et al.,2013; Pennington et al.,2015; Mulyana et al.,2019),動力預(yù)警模型物理意義明確,但由于復(fù)雜的參數(shù)輸入和不確定性,導(dǎo)致該方法應(yīng)用范圍較小,業(yè)務(wù)化運(yùn)行也受到限制。
近年來,隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)開始在區(qū)域地質(zhì)災(zāi)害預(yù)警領(lǐng)域得到應(yīng)用。相關(guān)研究集中在滑坡空間評價(jià)預(yù)測領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、決策樹、支持向量機(jī)等(劉藝梁等, 2010; 許沖等, 2012; Hong et al., 2015; Trigila et al., 2015; Chen et al.,2017)等多種模型算法引入到區(qū)域滑坡危險(xiǎn)性評價(jià)中,從評價(jià)因子選取與量化歸一化、數(shù)據(jù)清洗與樣本集構(gòu)建、模型選取與訓(xùn)練評價(jià)等方面開展了相關(guān)探索,并取得了較好效果,但仍在評價(jià)因子選取分析、評價(jià)因子歸一化、樣本集數(shù)量不足和模型訓(xùn)練人為調(diào)參差異較大等方面存在不足(方然可等, 2021)。目前區(qū)域滑坡災(zāi)害預(yù)警相關(guān)研究,一般是在應(yīng)用機(jī)器學(xué)習(xí)算法完成空間評價(jià)后再通過傳統(tǒng)統(tǒng)計(jì)方法確定臨界降水閾值(Trigila et al.,2015; Hong et al.,2016; Tien Bui et al.,2017; 孫德亮, 2019),從而完成對滑坡可能發(fā)生的時(shí)段、空間范圍和預(yù)警等級的預(yù)測。而通過基于機(jī)器學(xué)習(xí)算法直接實(shí)現(xiàn)區(qū)域滑坡災(zāi)害時(shí)空預(yù)警的相關(guān)成果還比較少見,劉艷輝等(2021)以四川青川縣為例,比對6種機(jī)器學(xué)習(xí)算法構(gòu)建區(qū)域滑坡預(yù)警模型,結(jié)果顯示隨機(jī)森林算法優(yōu)勢明顯。以上相關(guān)成果奠定了機(jī)器學(xué)習(xí)技術(shù)在區(qū)域滑坡災(zāi)害預(yù)警領(lǐng)域的應(yīng)用。
本文以福建省為研究區(qū),基于近9年地質(zhì)氣象數(shù)據(jù),構(gòu)建了區(qū)域滑坡災(zāi)害訓(xùn)練樣本集,采用基于隨機(jī)森林的機(jī)器學(xué)習(xí)集成算法,進(jìn)行學(xué)習(xí)訓(xùn)練、模型優(yōu)化和模型存儲,并以2021年汛期兩日滑坡災(zāi)害實(shí)際發(fā)生情況,進(jìn)行預(yù)警實(shí)況運(yùn)行與校驗(yàn)。
福建省位于我國東南沿海的山地丘陵區(qū)(圖1),山地面積占全省陸地面積的90%以上,殘坡積土層廣泛發(fā)育,斜坡坡度一般為0°~30°,局部大于30°。地質(zhì)環(huán)境條件脆弱,加之用地條件差,山區(qū)村莊建設(shè)大多數(shù)都是依山削坡建房,形成大量的房前屋后高陡邊坡。每年汛期,受局地強(qiáng)降水特別是臺風(fēng)降水影響,崩塌滑坡等突發(fā)性地質(zhì)災(zāi)害頻發(fā),點(diǎn)多面廣,雖然滑坡規(guī)模小,但由于多發(fā)生在居民的房前屋后,極易造成人員傷亡和財(cái)產(chǎn)損失。
圖1 福建省位置及訓(xùn)練樣本集分布Fig. 1 Location and training sample set of Fujian province
本文所用滑坡災(zāi)害數(shù)據(jù)來源于福建省地質(zhì)災(zāi)害防治數(shù)據(jù)庫、2010~2018年全國地質(zhì)災(zāi)害災(zāi)情數(shù)據(jù)庫; 地質(zhì)環(huán)境數(shù)據(jù)主要來源于福建省1︰20萬和1︰50萬地質(zhì)環(huán)境和地質(zhì)災(zāi)害調(diào)查數(shù)據(jù)庫等; 降水?dāng)?shù)據(jù)來源于福建省2010~2018年氣象和水利逐時(shí)降水站點(diǎn)數(shù)據(jù)(近2000站)、2021年福建省格點(diǎn)降水實(shí)況(QPE)數(shù)據(jù)(格點(diǎn)尺度為5km×5km)等。
正樣本來源于研究區(qū)歷史滑坡實(shí)際發(fā)生點(diǎn),正樣本采樣是在歷史滑坡編目基礎(chǔ)上篩選獲得。篩選依據(jù)為:要同時(shí)具有確定的空間地理坐標(biāo)和時(shí)間坐標(biāo)(精確到日),篩選出福建省2010~2018年滑坡正樣本3562個(圖1)。負(fù)樣本是指沒有發(fā)生滑坡的點(diǎn),無法直接獲取。本文負(fù)樣本采樣在“時(shí)空約束條件下隨機(jī)采樣”(繆亞敏, 2016; 劉艷輝等, 2021)方法基礎(chǔ)上進(jìn)行兩個方面的優(yōu)化:一是修正了緩沖區(qū)半徑大小; 二是除在正樣本緩沖區(qū)外隨機(jī)采樣外,補(bǔ)充在正樣本所在網(wǎng)格內(nèi)進(jìn)行采樣,即分兩部分完成負(fù)樣本采樣。示意圖見圖2。
圖2 基于正樣本的負(fù)樣本空間采樣示意圖Fig. 2 Sketch map of negative sample space sampling based on positive samples
1.2.1 正樣本緩沖區(qū)外采集負(fù)樣本
負(fù)樣本空間位置確定:在正樣本一定緩沖區(qū)外空間隨機(jī)采樣,緩沖區(qū)半徑大小的確定,要同時(shí)考慮研究區(qū)的最小預(yù)警網(wǎng)格單元尺寸和歷史滑坡點(diǎn)的分布情況。本文福建省預(yù)警研究中最小預(yù)警網(wǎng)格單元為2km,部分區(qū)域歷史滑坡點(diǎn)密度較高,因此緩沖區(qū)半徑取預(yù)警網(wǎng)格單元大小,即2km; 為了保證正負(fù)樣本的均衡性,負(fù)樣本采集數(shù)量約為正樣本的2倍。
負(fù)樣本時(shí)間屬性賦值:負(fù)樣本時(shí)間屬性約束為2010~2018年汛期(5月1日~9月30日),采用隨機(jī)函數(shù)進(jìn)行采樣,隨機(jī)函數(shù)通式為:
T=RAND(T1,T2)
(1)
式中:T為隨機(jī)獲取的時(shí)間;T1為隨機(jī)獲取時(shí)間的時(shí)間段下限;T2為隨機(jī)獲取時(shí)間的時(shí)間段上限。
1.2.2 正樣本所在網(wǎng)格內(nèi)采集負(fù)樣本
負(fù)樣本空間位置確定:在正樣本所在網(wǎng)格內(nèi)隨機(jī)采樣,網(wǎng)格即為研究區(qū)預(yù)警網(wǎng)格單元,本研究區(qū)網(wǎng)格尺寸為2km×2km,負(fù)樣本采集數(shù)量約等于正樣本數(shù)量。
負(fù)樣本時(shí)間屬性賦值:該部分負(fù)樣本時(shí)間也采用式(1)所示的隨機(jī)函數(shù),但時(shí)間約束除時(shí)間段上下限外,另外增加一個限制條件,即所采樣的負(fù)樣本時(shí)間屬性要與正樣本不同。
綜上所述,采用上述方法完成福建省正負(fù)樣本采樣,樣本集涵蓋了福建省近9年(2010~2018年)樣本15589個。其中:正樣本3562個,負(fù)樣本12027個,正負(fù)樣本比例約1︰3.4,正負(fù)樣本空間分布見圖1。正負(fù)樣本屬性確定了最終訓(xùn)練樣本集的輸出特征,正樣本輸出特征取1,負(fù)樣本輸出特征取0。
福建省滑坡災(zāi)害的發(fā)生與地形關(guān)系密切,并受強(qiáng)降雨和人類工程活動誘發(fā)。孕災(zāi)地形上,易發(fā)生在坡度20°以上斜坡; 發(fā)災(zāi)時(shí)間上,易發(fā)于5~6月強(qiáng)降雨期和7~9月臺風(fēng)暴雨期; 成災(zāi)部位上,易發(fā)在房前屋后削坡、種植經(jīng)濟(jì)林、順坡棄土等區(qū)段(福建省第二水文地質(zhì)工程地質(zhì)隊(duì), 2001; 周天智等, 2007)。訓(xùn)練樣本輸入特征的確定是在參考了研究區(qū)已有調(diào)查監(jiān)測相關(guān)成果,以及區(qū)域滑坡災(zāi)害的發(fā)育分布規(guī)律和影響因素分析(高珊等, 2010; 葉龍珍等, 2015)基礎(chǔ)上完成的。本文福建省輸入特征參數(shù)分為地質(zhì)環(huán)境因素、承災(zāi)體因素、歷史災(zāi)害情況和降雨誘發(fā)因素4大類26個輸入特征, 見表1。
在訓(xùn)練樣本集構(gòu)建過程中,為了保障模型評價(jià)精度,需要提前進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗內(nèi)容除了處理數(shù)據(jù)錯誤(例如人工錯誤、數(shù)據(jù)傳輸誤差、設(shè)備故障、地質(zhì)信息模糊等,對數(shù)據(jù)進(jìn)行缺失值插補(bǔ)或剔除、異常值識別處理)外,還需要對輸入特征屬性進(jìn)行預(yù)處理(量化、歸一化或特征縮放),從而避免各因素量綱差異問題,保證樣本輸入特征范圍的平衡。本文將地質(zhì)環(huán)境因素、承災(zāi)體因素兩大類9個輸入特征,進(jìn)行分類量化處理; 對歷史災(zāi)害情況和降水誘發(fā)因素兩大類17個輸入特征,進(jìn)了數(shù)據(jù)范圍縮放處理,詳見表1。
表1 訓(xùn)練樣本輸入特征及參數(shù)Table 1 Input characteristics and parameters of training samples
隨機(jī)森林算法是一種常用的機(jī)器學(xué)習(xí)集成算法,最早由Breiman(1996)和Cutler et al.(2004)提出,通過不同的數(shù)據(jù)子集構(gòu)建多個決策樹,然后對多個決策樹的判斷結(jié)果進(jìn)行投票,得到隨機(jī)森林的最終輸出結(jié)果。算法采用裝袋算法(bagging)技術(shù),隨機(jī)選擇樣本構(gòu)建數(shù)據(jù)子集,不同數(shù)據(jù)子集的元素可以重復(fù),也就是有放回的抽樣; 特征隨機(jī)是從所有特征屬性里隨機(jī)選若干個特征建立基學(xué)習(xí)器(決策樹); 重復(fù)多次,建立多個基學(xué)習(xí)器(決策樹)就組成了隨機(jī)森林。
隨機(jī)森林的最大優(yōu)勢就是充分應(yīng)用有限樣本,構(gòu)建多個互不關(guān)聯(lián)的決策樹模型,增加了決策樹的多樣性,提高了最終優(yōu)選集成模型的準(zhǔn)確性,缺點(diǎn)是在某些噪音較大的問題上會過擬合,需要在模型訓(xùn)練過程中關(guān)注。模型示意圖見圖3。
圖3 隨機(jī)森林集成模型示意圖Fig. 3 Schematic diagram of random forest model
本文模型訓(xùn)練過程是作者采用Python語言編制代碼實(shí)現(xiàn),代碼中調(diào)用了Python 3.6軟件sklearn庫里中的RandomForestClassifier分類算法。
將福建省區(qū)域滑坡預(yù)警訓(xùn)練樣本集(圖1,表1)按照4︰1的比例,劃分為訓(xùn)練集和測試集,基于隨機(jī)森林算法開展模型訓(xùn)練。采用貝葉斯優(yōu)化算法、五折交叉驗(yàn)證開展模型參數(shù)優(yōu)化; 采用輸入特征重要性排序進(jìn)行輸入特征優(yōu)化。
2.2.1 模型參數(shù)優(yōu)化
貝葉斯優(yōu)化算法采用高斯過程,通過增加樣本數(shù)量來擬合目標(biāo)函數(shù)分布,目標(biāo)函數(shù)通過交叉驗(yàn)證精度來進(jìn)行優(yōu)化迭代,每次迭代均輸出超參數(shù),在尋找最優(yōu)值的過程中優(yōu)化超參數(shù)(Snoek et al.,2012)。隨機(jī)森林算法涉及的部分超參數(shù)見表2。
表2 隨機(jī)森林算法涉及的部分超參數(shù)Table 2 Some hyperparameters involved in random forest algorithm
本文對n_estimators、max_depths和min_samples_split 3個超參數(shù)進(jìn)行優(yōu)化,采用貝葉斯優(yōu)化算法搜索最優(yōu)超參數(shù)值,并輸出迭代過程中得到的超參數(shù)。優(yōu)化結(jié)果中,n_estimators約為118,max_depths約為10,min_samples_split約為3,即最優(yōu)模型中,共構(gòu)建了118棵決策樹(基學(xué)習(xí)器),決策樹構(gòu)建過程中子樹最大深度為10,子樹節(jié)點(diǎn)樣本樹少于3時(shí),停止繼續(xù)劃分樣本。其他參數(shù)采用隨機(jī)森林算法默認(rèn)值。
2.2.2 輸入特征優(yōu)化
采用完成參數(shù)優(yōu)化的隨機(jī)森林模型,計(jì)算其各輸入特征的重要性屬性,重要性指標(biāo)計(jì)算公式如下:
(2)
式中:Pk為第k個輸入特征的重要程度;m為輸入特征個數(shù);n為決策樹個數(shù);t為每棵決策樹的節(jié)點(diǎn)數(shù);DGkij為第k個輸入特征在第i棵決策樹的第j個節(jié)點(diǎn)的基尼指數(shù)減少值。
根據(jù)式(2)計(jì)算各輸入特征對模型輸出的重要性,各輸入特征重要性排序見圖4。據(jù)圖4,研究區(qū)26個輸入特征屬性的重要性指標(biāo)排序可以分為6個層級。第①級:當(dāng)日雨量和前1日雨量,兩者重要性指標(biāo)值最大,分別為39.6%和13.5%; 第②級:歷史災(zāi)害點(diǎn)分布,重要性指標(biāo)值為7.0%; 第③級:前2~5日雨量,重要性指標(biāo)值介于3.2%~5.8%之間; 第④級:前6~15日雨量、距房屋距離和年均雨量,重要性指標(biāo)值介于1.0%~2.2%之間; 第⑤級:植被類型、人口密度、地層巖性、坡度和地貌類型5個特征,重要性指標(biāo)值介于0.3%~0.7%之間; 第⑥級:距道路距離、距水系距離的重要性指標(biāo)值最小,均小于0.1%。分析各輸入特征重要性分級結(jié)果,一方面與研究尺度密切相關(guān),在本文福建省級研究尺度上(2km×2km的預(yù)警網(wǎng)格單元),第⑤級中的輸入特征因素均為較大尺度的地質(zhì)環(huán)境因子,其影響相對較?。?另一方面,本文采集的滑坡樣本主要位于居民點(diǎn)附近,而道路沿線滑坡點(diǎn)納入較少,直接導(dǎo)致距道路距離、距水系距離兩個輸入特征重要性指標(biāo)值接近于0。而當(dāng)日雨量、歷史災(zāi)害點(diǎn)分布、前1~5日雨量和距房屋距離等輸入特征重要性值較高,符合福建省滑坡災(zāi)害及誘發(fā)因素規(guī)律性分析的相關(guān)認(rèn)識。
圖4 各輸入特征屬性重要性排序Fig. 4 Ranking of importance of input characteristics
采用遞歸消除法,每次剔除重要性指標(biāo)最小的輸入特征,帶入優(yōu)化后的隨機(jī)森林算法計(jì)算模型精度。計(jì)算結(jié)果顯示去掉部分特征后,模型精度有所降低,但變化不大。考慮到本研究中輸入特征數(shù)量不多,因此模型訓(xùn)練中保留了全部26個輸入特征屬性。
2.2.3 模型效果評估
分別采用混淆矩陣、ROC曲線和學(xué)習(xí)曲線對模型精度和模型泛化能力進(jìn)行評價(jià)。
2.2.3.1 混淆矩陣評價(jià)模型精度
基于最終的優(yōu)化模型,對所有樣本數(shù)據(jù)對滑坡發(fā)生概率進(jìn)行評價(jià),分別以0.25、0.5、0.75為閾值對模型結(jié)果進(jìn)行二分類,小于閾值表示未發(fā)生滑坡,大于閾值表示發(fā)生滑坡。將分類結(jié)果與實(shí)際情況對比分析,得到模型混淆矩陣(誤差矩陣)如表3所示。
表3 不同閾值下的隨機(jī)森林算法混淆矩陣Table 3 Confusion matrix of random forest algorithm with different thresholds
據(jù)表3可見,本文優(yōu)化后的模型采用3種不同閾值分類結(jié)果的精度介于0.930~0.957之間,均保持了較高的模型精度。
2.2.3.2 根據(jù)ROC曲線評價(jià)模型泛化能力
ROC(Receiver Operating Characteristic)曲線,即受試者工作特征曲線,是反映模型敏感性和特異性連續(xù)變量的綜合指標(biāo);AUC(Area Under ROC Cure)值,是ROC曲線下的面積,AUC的值介于0.5~1.0之間,AUC值越大,說明模型表現(xiàn)越好?;谧罱K優(yōu)化模型繪制的ROC曲線見圖5,模型ROC曲線無限接近于1,AUC值為0.954,可見模型泛化能力較好。
圖5 隨機(jī)森林模型ROC曲線Fig. 5 ROC curve of random forest model
2.2.3.3 根據(jù)學(xué)習(xí)曲線描述模型擬合問題
學(xué)習(xí)曲線(Learning Curve)可以描述模型擬合效果,判斷模型是否存在過擬合還是欠擬合?;谧罱K優(yōu)化模型繪制的ROC曲線見圖6,可見,隨著訓(xùn)練樣本數(shù)量增加,訓(xùn)練得分不斷降低,驗(yàn)證得分不斷升高,最后兩者得分穩(wěn)定收斂到定值,該模型擬合效果較好。
圖6 隨機(jī)森林模型學(xué)習(xí)曲線Fig. 6 Learning curve of random forest model
綜上所述,經(jīng)過訓(xùn)練、優(yōu)化后的隨機(jī)森林模型精度較高,取閾值0.5時(shí),模型總精度達(dá)0.953; 模型泛化能力較強(qiáng),AUC值為0.954; 模型擬合效果較好。
將上述訓(xùn)練好的模型進(jìn)行保存(python環(huán)境下調(diào)用DUMP函數(shù)完成),保存為pkl格式文件。實(shí)際預(yù)警運(yùn)行時(shí),輸入待預(yù)警時(shí)段的預(yù)報(bào)雨量和前1~15日實(shí)況雨量、地質(zhì)環(huán)境條件因子,通過LOAD函數(shù)調(diào)用保存好的預(yù)警模型,輸出該預(yù)警時(shí)段內(nèi)各網(wǎng)格單元滑坡災(zāi)害可能發(fā)生的概率。為了應(yīng)用于地質(zhì)災(zāi)害氣象風(fēng)險(xiǎn)預(yù)警業(yè)務(wù)中的4級預(yù)警體系,需要進(jìn)一步依據(jù)模型輸出概率大小,分級確定預(yù)警等級。分級斷點(diǎn)設(shè)定可參考地質(zhì)災(zāi)害氣象風(fēng)險(xiǎn)預(yù)警等級劃分表(據(jù)地質(zhì)災(zāi)害區(qū)域氣象風(fēng)險(xiǎn)預(yù)警標(biāo)準(zhǔn)(試行)(T/CAGHP 039-2018)),也可根據(jù)研究區(qū)具體情況微調(diào)使用??紤]到本研究中隨機(jī)森林模型訓(xùn)練輸出閾值設(shè)置為0.5,結(jié)合研究區(qū)具體情況,設(shè)定各級地質(zhì)災(zāi)害氣象風(fēng)險(xiǎn)預(yù)警概率等級劃分依據(jù)(表4)。即,當(dāng)輸出概率P≥50%且P<60%時(shí),發(fā)布滑坡災(zāi)害黃色預(yù)警; 當(dāng)輸出概率P≥60%且P<80%時(shí),發(fā)布滑坡災(zāi)害橙色預(yù)警; 當(dāng)輸出概率P≥80%時(shí),發(fā)布滑坡災(zāi)害紅色預(yù)警。
表4 預(yù)警等級劃分Table 4 Division of early warning level
據(jù)福建省2021年6月達(dá)到統(tǒng)計(jì)標(biāo)準(zhǔn)的地質(zhì)災(zāi)害災(zāi)情報(bào)告數(shù)據(jù),截止目前統(tǒng)計(jì), 2021年6月福建省共發(fā)生達(dá)到統(tǒng)計(jì)標(biāo)準(zhǔn)的地質(zhì)災(zāi)害15起,主要集中在6月22日和28日兩日,分別為6起和4起,均是由強(qiáng)降水誘發(fā)的小型崩塌滑坡災(zāi)害,危害居民房屋和財(cái)產(chǎn)安全。
據(jù)中國氣象局提供的福建省降水實(shí)況數(shù)據(jù)(5km×5km的QPE數(shù)據(jù)), 2021年6月18~23日在福建省自北向南出現(xiàn)降水過程, 6月22日雨量最大,部分區(qū)域日雨量達(dá)到暴雨或大暴雨級別; 6月27日~7月2日再次出現(xiàn)集中降水過程,降水主要集中在南平市,降水強(qiáng)度進(jìn)一步加大,南平邵武周邊連續(xù)兩日日雨量超過大暴雨級別?;趯?shí)況雨量,分別采用本文基于隨機(jī)森林的新模型和顯式統(tǒng)計(jì)模型(劉艷輝等, 2015)(目前國家級地質(zhì)災(zāi)害氣象預(yù)警業(yè)務(wù)主要模型,主要原理是基于危險(xiǎn)度與有效雨量疊加計(jì)算)進(jìn)行模擬預(yù)警,分別將6月22日和28日的模型客觀預(yù)報(bào)結(jié)果與滑坡災(zāi)害實(shí)際發(fā)生情況進(jìn)行比對,見表5、圖7~圖8。
圖8 2021年6月28日不同模型預(yù)警結(jié)果對比Fig. 8 Comparison of warning results on June 28, 2021a. 隨機(jī)森林模型預(yù)警結(jié)果, b. 顯式統(tǒng)計(jì)模型預(yù)警結(jié)果
表5 隨機(jī)森林模型和顯式統(tǒng)計(jì)預(yù)警模型實(shí)況校驗(yàn)對比Table 5 A comparison between random forest model and explicit statistical warning model
根據(jù)2021年6月22日的對比情況(表5,圖7),實(shí)際發(fā)生的6起滑坡災(zāi)害均落在隨機(jī)森林模型的預(yù)警區(qū)(黃色預(yù)警區(qū)1起,橙色預(yù)警區(qū)6起),命中率100%; 1起滑坡災(zāi)害落在顯式統(tǒng)計(jì)模型的預(yù)警區(qū)(黃色預(yù)警區(qū)),命中率16.7%。兩種模型的預(yù)警區(qū)內(nèi)滑坡密度分別為6.2處·(103·km2)-1和3.8處·(103·km2)-1,隨機(jī)森林模型預(yù)警區(qū)內(nèi)實(shí)際發(fā)生滑坡密度是顯式統(tǒng)計(jì)模型的1.6倍。
圖7 2021年6月22日不同模型預(yù)警結(jié)果對比Fig. 7 Comparison of warning results on June 22, 2021a. 隨機(jī)森林模型預(yù)警結(jié)果, b. 顯式統(tǒng)計(jì)模型預(yù)警結(jié)果
根據(jù)2021年6月28日的對比情況(表5,圖8),實(shí)際發(fā)生的4起滑坡災(zāi)害均落在隨機(jī)森林模型的預(yù)警區(qū)(橙色預(yù)警區(qū)),命中率100%; 4起滑坡落在顯式統(tǒng)計(jì)模型的預(yù)警區(qū)(橙色預(yù)警區(qū)2起,黃色預(yù)警區(qū)2起),命中率也為100%。兩種模型的預(yù)警區(qū)內(nèi)滑坡密度分別為1.7處·(103·km2)-1和1.0處·(103·km2)-1,隨機(jī)森林模型預(yù)警區(qū)內(nèi)實(shí)際發(fā)生滑坡密度是顯式統(tǒng)計(jì)模型的1.7倍。
通過兩種模型結(jié)果對比可見,基于隨機(jī)森林的新模型命中率是原模型的6倍(6月22日)或相當(dāng)(6月28日),新模型預(yù)警區(qū)內(nèi)滑坡密度是原模型的1.6~1.7倍。初步校驗(yàn)可見基于隨機(jī)森林的新模型優(yōu)勢明顯,命中率更高,預(yù)警區(qū)面積更小,能夠?qū)崿F(xiàn)更加精準(zhǔn)的預(yù)警。限于研究區(qū)新發(fā)滑坡災(zāi)害的數(shù)量較少,目前的模型校驗(yàn)工作相對薄弱,后續(xù)將繼續(xù)跟蹤研究區(qū)新發(fā)滑坡災(zāi)害情況,加強(qiáng)模型校驗(yàn)與修正完善。
本文以我國東南沿海的福建省為研究區(qū),基于近9年地質(zhì)與氣象大數(shù)據(jù),采用隨機(jī)森林算法,構(gòu)建了福建省區(qū)域滑坡災(zāi)害預(yù)警模型,并以2021年兩日實(shí)際災(zāi)害發(fā)生情況開展模型校驗(yàn)。
(1)提出區(qū)域滑坡災(zāi)害訓(xùn)練樣本集構(gòu)建的優(yōu)化方法,并構(gòu)建了福建省訓(xùn)練樣本集,樣本集包括地質(zhì)環(huán)境、降雨等26個輸入特征屬性和1個輸出特征屬性。樣本集涵蓋了福建省2010~2018年全部樣本15589個。
(2)基于隨機(jī)森林算法,對福建訓(xùn)練樣本集進(jìn)行學(xué)習(xí)訓(xùn)練、模型優(yōu)化和模型存儲。優(yōu)化后的模型總精度為0.953; 模型泛化能力AUC值為0.954; 模型擬合效果較好。
(3)選取2021年6月22日和28日的實(shí)際滑坡災(zāi)害發(fā)生情況,采用本文新模型進(jìn)行實(shí)況模擬運(yùn)行,命中率均為100%。對比原顯式統(tǒng)計(jì)模型預(yù)警結(jié)果,隨機(jī)森林模型優(yōu)勢明顯,命中率更高,預(yù)警區(qū)面積更小,能夠?qū)崿F(xiàn)更加精準(zhǔn)的預(yù)警。后續(xù)將繼續(xù)跟蹤研究區(qū)新發(fā)滑坡災(zāi)害情況,進(jìn)行模型校驗(yàn)與修正完善。