王倩麗,馬細霞,2,劉欣欣,程 旭
(1.鄭州大學 水利科學與工程學院,河南 鄭州 450001;2.鄭州大學 黃河生態(tài)保護與區(qū)域協(xié)調(diào)發(fā)展研究院,河南 鄭州 450001)
山洪災害是我國洪澇災害的主要災種[1-2],具有來勢猛、流速快、破壞力大、突發(fā)性強等特點,不僅對山丘區(qū)的基礎設施造成毀滅性破壞,而且對人民群眾的生命安全構(gòu)成極大威脅,是山丘區(qū)經(jīng)濟社會可持續(xù)發(fā)展的重要制約因素之一,對其進行預報、預測、預防難度較大。 山洪災害風險評價是對山洪災害的自然屬性和社會屬性的綜合評價,目的在于清晰把握山洪災害風險的空間格局及內(nèi)在規(guī)律[3],為山洪災害預警、人員轉(zhuǎn)移、搶險救災等提供科學依據(jù)。
山洪災害風險評價常用方法有熵權(quán)法、層次分析法、統(tǒng)計分析評價法、模糊綜合評價法等,如陳真等[4]構(gòu)建了小流域山洪災害風險指標體系,采用主成分分析法提取致災因子,采用層次分析法確定各指標權(quán)重,運用ArcGIS 空間分析疊加功能得到小流域山洪災害風險等級分布圖;朱恒槺等[5]運用層次分析法對各風險指標權(quán)重進行分配,借助GIS 手段得到河南省山洪災害風險分級圖;王英[6]采用綜合權(quán)重法確定指標權(quán)重,應用GIS 進行空間插值形成柵格圖層,分析甘肅黃土高原的山洪災害風險區(qū)劃情況。 然而,以上方法中確定指標體系和指標權(quán)重時存在一定主觀性,影響風險區(qū)劃結(jié)果。 近年來隨著人工智能的迅速發(fā)展,隨機森林算法逐漸被相關(guān)學者引入對象評價研究中,如劉云翔等[7]基于隨機森林算法建立水華預警模型,對水體水華的發(fā)生進行預測,結(jié)果表明預警模型精度達到91.67%,能夠有效進行短期預測;曹澤濤等[8]選取我國陜西北部的黃土高原作為研究區(qū)域,將隨機森林算法運用于地貌分類,取得了較好的分類結(jié)果,對地貌形態(tài)監(jiān)督分類及自動分類的方法學研究具有較大意義。然而,目前隨機森林算法在空間尺度較小區(qū)域的山洪災害風險評價方面的研究相對較少。 本文將隨機森林算法引入林州市山洪災害風險評價,結(jié)合林州市的山洪災害特點和歷史山洪災害數(shù)據(jù),運用后果逆向擴散法構(gòu)建風險指標體系并建立風險評價模型,通過GIS繪制林州市山洪災害風險區(qū)劃圖,結(jié)合歷史山洪災害發(fā)生點對該市的山洪災害進行具體分析,以期為同類型區(qū)域的山洪災害風險評價提供思路,進一步為防洪減災管理工作提供依據(jù)。
針對空間尺度較小區(qū)域的山洪災害風險評價,為確保風險指標體系具有獨立性、涵蓋性和代表性,采用后果逆向擴散法對風險指標進行梳理(見圖1)。 在自然災害系統(tǒng)中,短歷時強降雨是山洪災害發(fā)生的主要原因之一,因此選取年暴雨天數(shù)、年最大1 h 暴雨量均值和年最大6 h 暴雨量均值作為致災指標;高程較低、地形變化較小的區(qū)域更容易發(fā)生山洪災害,為綜合反映地表單元的陡緩程度,選取高程、坡度和匯流路徑比降作為孕災環(huán)境指標。 在社會災害系統(tǒng)中,人類活動、GDP 密度會對山洪災害的時空分布產(chǎn)生一定影響[9],此外,在土地利用類型中,相比林地和草地,耕地的不透水率較小,耕地面積占比也會影響洪水的發(fā)生,因此選取河道兩側(cè)人口密度、耕地面積占比和GDP 密度作為承災體指標。
圖1 基于后果逆向擴散法的風險指標體系
隨機森林算法是一種集成多棵決策樹的有監(jiān)督學習算法,基于數(shù)據(jù)處理結(jié)果類型可以完成分類和回歸2 種應用[10]。 隨機森林模型的分類器組合為{h(X,θK)|K=1,2,…},其中:h為分類器集合;θK為隨機變量,服從于獨立同分布;K為分類樹序數(shù),在已知自變量X的情況下,根據(jù)分類器投票情況決定最優(yōu)分類結(jié)果。
通過分類樹可以建立評價指標對應的評價級別,分類樹以基尼指數(shù)為分支依據(jù)形成二叉樹,由根節(jié)點、子節(jié)點和葉子節(jié)點組成,從根節(jié)點到葉子節(jié)點的每一路徑對應一評判規(guī)則,每一葉子節(jié)點對應一評價級別。單棵分類樹的生長過程見圖2,按照既定標準把位于根節(jié)點的樣本集S1自頂向下不斷進行遞歸分割[11],滿足分支的停止生長規(guī)則時停止生長。 具體地,根據(jù)臨界值t1將樣本集S1分為子樣本集S2和S3,根據(jù)臨界值t2再將S2分為子樣本集1 和S4,子樣本集1 的基尼指數(shù)已經(jīng)很小,可認為該子樣本集中所有樣本屬于同一類別,無需繼續(xù)分割,而子樣本集S4仍需繼續(xù)分割,其余分類過程與上述過程類似。
圖2 單棵分類樹的生長過程
通過計算基尼指數(shù)可以判斷指標的重要性,即比較每個指標在隨機森林中每棵分類樹上的貢獻大小。節(jié)點的基尼指數(shù)表示節(jié)點的不純度,公式為
式中:Gt為t節(jié)點處的基尼指數(shù);t為節(jié)點序數(shù);p(j/t)為風險等級j在t節(jié)點處的概率;k為風險指標序數(shù)。
計算最小基尼減小值即節(jié)點分支前后基尼指數(shù)的變化量:
式中:DG為t節(jié)點的最小基尼減小值;Gtl、Gtr分別為根據(jù)t節(jié)點分類的左右節(jié)點的基尼指數(shù)。
以指標的平均基尼減小值占所有指標平均基尼減小值總和的百分比來評估每個風險指標對總風險的貢獻程度,公式為
式中:pk為第k個指標在所有指標中的重要程度;m為風險指標總數(shù);n為分類樹總數(shù);T為節(jié)點總數(shù);DGkit為第k個指標在第K棵樹上第t個節(jié)點的基尼減小值。
山洪災害風險評價流程如下:①采用ArcGIS 以及反距離權(quán)重法對9 個指標進行空間插值形成柵格圖層,再采用自然間斷法將9 個指標分為5 個等級。②確定隨機森林模型參數(shù),主要有風險指標總數(shù)m和分類樹總數(shù)n,其中:m默認為風險指標個數(shù)的二次根,m=3;n=100。 ③選取樣本數(shù)據(jù)進行風險人工識別,采用Bootstrap 重采樣法在樣本數(shù)據(jù)集中有放回地隨機抽取s個子訓練集,訓練樣本、測試樣本占比分別為70%、30%。 ④將訓練樣本輸入隨機森林算法,建立山洪風險等級與指標之間的關(guān)系,進而建立相應的分類規(guī)則,形成隨機森林山洪災害風險評價模型,通過測試樣本對模型進行檢驗。 ⑤將處理好的各指標待測數(shù)據(jù)輸入模型,分類得到林州市各行政村的山洪災害風險等級并計算出各指標對模型判別效果的重要程度,最后利用ArcGIS 繪制山洪災害風險評價圖。
林州市地處太行山東麓,地理坐標為東經(jīng)113°37′—114°04′,北緯35°41′—36°22′,境域南北長90 km、東西寬30 km,總面積2 046 km2。 地貌類型比較復雜,分為深山、淺山、丘陵和山澗盆地,山脈以太行山為主干,林慮山為主峰,除市區(qū)、姚村鎮(zhèn)、合澗鎮(zhèn)、原康鎮(zhèn)、臨淇鎮(zhèn)為小盆地外,其余鄉(xiāng)鎮(zhèn)均為深山或丘陵。 全市河流屬海河流域漳衛(wèi)南運河水系,有漳河、洹河、淅河、淇河4 條天然河流以及紅旗渠,有中型水庫4 座、小型水庫63 座。 林州市是典型的空間尺度較小的山丘區(qū),因此本文選取林州市作為山洪災害風險評價的研究對象。
年暴雨天數(shù)、年最大1 h 暴雨量均值、年最大6 h暴雨量均值、河道兩側(cè)人口密度以及歷史山洪災害發(fā)生點數(shù)據(jù)源自《2015 年河南省林州市山洪災害調(diào)查評價》,其中年暴雨天數(shù)、年最大1 h 暴雨量均值、年最大6 h暴雨量均值為1982—2011 年場次暴雨統(tǒng)計結(jié)果;高程和GDP 密度數(shù)據(jù)分別源自中國科學院資源環(huán)境科學數(shù)據(jù)中心2012 年的地形地貌統(tǒng)計結(jié)果和社會經(jīng)濟統(tǒng)計結(jié)果,利用GIS 技術(shù)從數(shù)字高程模型(DEM)提取坡度數(shù)據(jù);耕地面積占比數(shù)據(jù)源自2012 年《林州年鑒》。
本文選取林州市203 個行政村的數(shù)據(jù)資料進行分析,運用ArcGIS 軟件并采用反距離權(quán)重法對9 個風險指標進行處理,可得到各風險指標分布圖(見圖3)。采用自然間斷法劃分風險等級,各風險等級對應的指標值見表1。
圖3 各風險指標分布
表1 山洪災害風險指標分級
通過隨機森林模型計算得到各風險指標對林州市山洪災害發(fā)生的重要程度(見圖4),可以看出,年暴雨天數(shù)、年最大1 h 暴雨量均值、匯流路徑比降和GDP密度是對林州市山洪災害發(fā)生影響較小的因素,相對而言,年最大6 h 暴雨量均值、河道兩側(cè)人口密度、坡度、高程和耕地面積占比的平均基尼減小值占比之和達65.04%,可知這5 個風險指標是比較重要的影響因素。 主要原因如下:林州市背靠太行山脈,太行山脈的海拔整體較高,林州市以東屬于平原地區(qū),山區(qū)和平原地區(qū)的耕地面積占比和人口密度差異較大,同時耕地的不透水率小于林地和草地,耕地面積占比會影響洪水的發(fā)生,因此河道兩側(cè)人口密度和耕地面積占比在林州市的山洪災害風險評價中起到了較關(guān)鍵的作用。高程和坡度代表了地形起伏情況,林州市地處山區(qū),山高坡陡,遇較大降雨時山洪暴發(fā),洪水流速較快,沖刷力強、破壞性大,因此高程和坡度的影響較大。 山洪災害往往由短歷時的強降雨引發(fā),對于空間尺度較小的區(qū)域,年最大6 h 暴雨量均值也具有較為關(guān)鍵的作用。
圖4 風險指標重要程度
將各風險指標輸入構(gòu)建的隨機森林模型,根據(jù)很低、較低、中等、較高、很高5 個風險等級對林州市進行山洪災害風險區(qū)劃分(見圖5),很低、較低、中等、較高、很高風險等級的風險區(qū)面積占比分別為1.71%、22.80%、53.43%、21.29%、0.77%,很低和較低風險等級的風險區(qū)面積占比之和為24.51%,基本分布于市區(qū)和合澗鎮(zhèn);中等及以上的風險區(qū)面積占比之和為75.49%,大多分布于五龍鎮(zhèn)、東崗鎮(zhèn)、任村鎮(zhèn)、橫水鎮(zhèn)、河順鎮(zhèn)、東姚鎮(zhèn)、石板巖鄉(xiāng)、臨淇鎮(zhèn)等。
圖5 林州市山洪災害風險區(qū)劃
根據(jù)《全國山洪災害防治規(guī)劃》及河南省林州市山洪災害調(diào)查評價成果,將歷史山洪災害發(fā)生點疊加到山洪災害風險區(qū)劃圖中,疊加結(jié)果見圖6。 統(tǒng)計歷史山洪災害發(fā)生點在各級風險區(qū)的數(shù)量與占比,結(jié)果見表2。 中等及以上風險區(qū)中歷史山洪災害發(fā)生點的占比為81.34%,此外,五龍鎮(zhèn)、東崗鎮(zhèn)、任村鎮(zhèn)、橫水鎮(zhèn)、河順鎮(zhèn)這5 個鎮(zhèn)的風險等級和歷史山洪災害發(fā)生頻率均較高。 由以上分析結(jié)果可知本次山洪災害風險評價的準確度較高,說明基于隨機森林的山洪災害風險等級劃分結(jié)果可以用于指導林州市的山洪災害防治工作。
圖6 歷時山洪災害發(fā)生點分布
表2 歷時山洪災害發(fā)生點在各級風險區(qū)的數(shù)量與占比
(1)本文采用后果逆向擴散法確定影響山洪災害發(fā)生的風險指標,通過隨機森林山洪災害風險評價模型分析各風險指標的重要程度,得出年最大6 h 暴雨量均值、河道兩側(cè)人口密度、坡度、高程和耕地面積占比對林州市山洪災害的影響較大,避免了傳統(tǒng)評價方法中指標權(quán)重不易準確確定的問題。
(2)運用隨機森林算法進行林州市山洪災害風險評價,將歷史山洪災害發(fā)生點和山洪災害風險區(qū)劃進行疊加,得出隨機森林模型的評價精度為81.34%,驗證了該算法具有較高的準確性,為同類型區(qū)域的山洪災害風險評價提供有效思路。 此外,五龍鎮(zhèn)、東崗鎮(zhèn)、任村鎮(zhèn)、橫水鎮(zhèn)、河順鎮(zhèn)這5 個鎮(zhèn)的風險等級和歷史山洪災害發(fā)生頻率均較高,須做好相應預警防范措施。