林 森,劉蓓蓓,閆 雪,孫 寧,郭桂禎
(應(yīng)急管理部國(guó)家減災(zāi)中心,北京100124)
根據(jù)應(yīng)急管理部發(fā)布數(shù)據(jù),2021年我國(guó)重大洪澇災(zāi)害共造成5 901萬(wàn)人次受災(zāi),因?yàn)?zāi)死亡失蹤590人,倒塌房屋15萬(wàn)間,直接經(jīng)濟(jì)損失2 459億元。其中,華北、西北地區(qū)洪澇災(zāi)害歷史罕見,特別是7月份河南遭遇特大暴雨洪澇災(zāi)害,造成近1 500萬(wàn)人受災(zāi),直接經(jīng)濟(jì)損失1 200億元[1]。隨著全球氣候變化、極端氣候事件頻發(fā)和社會(huì)經(jīng)濟(jì)的快速發(fā)展,暴雨多、強(qiáng)度大、損失重已成為洪澇災(zāi)害的趨勢(shì)[2-3]。減少洪澇災(zāi)害損失,減輕洪澇災(zāi)害風(fēng)險(xiǎn)是我國(guó)洪澇災(zāi)害風(fēng)險(xiǎn)管理中的必要任務(wù)。
風(fēng)險(xiǎn)評(píng)估是風(fēng)險(xiǎn)管理的重要基礎(chǔ)。根據(jù)洪澇災(zāi)害風(fēng)險(xiǎn)評(píng)估的時(shí)間段,可分為針對(duì)區(qū)域歷史災(zāi)害的風(fēng)險(xiǎn)分析和針對(duì)實(shí)時(shí)重大洪澇過程的風(fēng)險(xiǎn)預(yù)測(cè)兩大類。前者可用于風(fēng)險(xiǎn)區(qū)劃和洪水風(fēng)險(xiǎn)圖編制,幫助政府制定長(zhǎng)期規(guī)劃,主要方法是通過指標(biāo)體系對(duì)區(qū)域風(fēng)險(xiǎn)進(jìn)行評(píng)估,一般選擇致災(zāi)因子、承災(zāi)體、孕災(zāi)環(huán)境、防災(zāi)減災(zāi)能力等災(zāi)害系統(tǒng)相關(guān)指標(biāo)[4-5],經(jīng)過層次分析法、熵權(quán)法等方法確定指標(biāo)權(quán)重,進(jìn)行加權(quán)求得一個(gè)綜合風(fēng)險(xiǎn)指數(shù),在此基礎(chǔ)上進(jìn)行風(fēng)險(xiǎn)等級(jí)劃分,此類方法主觀性較強(qiáng)[6-7],結(jié)果以定性評(píng)價(jià)為主,另外還有模型模擬[8-9]、信息擴(kuò)散[10-11]等方法。針對(duì)實(shí)時(shí)重大洪澇過程的災(zāi)害風(fēng)險(xiǎn)評(píng)估研究相對(duì)較少,其目的是對(duì)即將發(fā)生的洪澇過程預(yù)測(cè)承災(zāi)體期望損失和災(zāi)害風(fēng)險(xiǎn)分布,為災(zāi)害預(yù)警和應(yīng)急響應(yīng)提供依據(jù)。目前,國(guó)際上單災(zāi)種風(fēng)險(xiǎn)評(píng)估模型以半定量化和定量化模型居多,如美國(guó)的自然災(zāi)害風(fēng)險(xiǎn)評(píng)估模型(HAZUS)[12]、世界銀行的概率風(fēng)險(xiǎn)評(píng)估模型(CAPRA)[13]等,這些模型大多基于致災(zāi)因子危險(xiǎn)性(H) 、承災(zāi)體脆弱性(V)、承災(zāi)體暴露度(E)三要素[14]。對(duì)洪澇災(zāi)害而言,一般是將不同強(qiáng)度暴雨概率、承災(zāi)體脆弱性函數(shù)、承災(zāi)體分布三者進(jìn)行耦合,構(gòu)建定量化風(fēng)險(xiǎn)評(píng)估模型[15-16],用于評(píng)估單次洪澇過程可能造成的人口、房屋、農(nóng)作物、經(jīng)濟(jì)等期望損失[17]。基于H-V-E框架的洪澇風(fēng)險(xiǎn)評(píng)估模型核心是計(jì)算不同暴雨概率和開展尺度適宜的脆弱性函數(shù)研究[18-21],該方法在應(yīng)用中可能存在三個(gè)方面的困難:①尺度太小會(huì)導(dǎo)致樣本量小,難以獲取較好的回歸函數(shù),影響脆弱性函數(shù)表現(xiàn)[22],而尺度太大會(huì)導(dǎo)致脆弱性代表性不足;②建模復(fù)雜,需要分步驟開展危險(xiǎn)性和脆弱性研究,而且不同強(qiáng)度危險(xiǎn)性分級(jí)會(huì)造成計(jì)算結(jié)果離散化,不能形成連續(xù)度量;③難以考慮到災(zāi)害系統(tǒng)中其他指標(biāo),如孕災(zāi)環(huán)境指標(biāo)、防災(zāi)減災(zāi)能力指標(biāo)等[23]。
大數(shù)據(jù)背景下,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法應(yīng)用逐漸增多,很多算法被用于建立災(zāi)害風(fēng)險(xiǎn)評(píng)估模型,其優(yōu)勢(shì)是能夠利用大樣本數(shù)據(jù)進(jìn)行建模[24-25],建模過程淡化了傳統(tǒng)災(zāi)害風(fēng)險(xiǎn)理論中危險(xiǎn)性、脆弱性等概念,簡(jiǎn)化了模型搭建步驟,同時(shí),還可以考慮更多的相關(guān)指標(biāo)。例如,劉芳利用降雨量、孕災(zāi)環(huán)境等13個(gè)指標(biāo)建立了人工神經(jīng)網(wǎng)絡(luò)(ANN)模型,用于對(duì)浙江的臺(tái)風(fēng)-暴雨災(zāi)害風(fēng)險(xiǎn)進(jìn)行動(dòng)態(tài)預(yù)評(píng)估[26];OPELLA等基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和支持向量機(jī)(SVM)算法建立了考慮10個(gè)指標(biāo)的洪澇災(zāi)害風(fēng)險(xiǎn)評(píng)估模型[27];LI等利用13個(gè)指標(biāo)對(duì)比了邏輯回歸、樸素貝葉斯等模型在洪澇風(fēng)險(xiǎn)評(píng)估中的表現(xiàn)[28]。雖然上述方法在一定程度上提高了評(píng)估效率,但是仍存在明顯缺點(diǎn),主要是不易說明各模型參數(shù)的作用,類似于“黑箱”操作,無(wú)法解釋不同指標(biāo)在災(zāi)害風(fēng)險(xiǎn)評(píng)估中所起的作用[29]。集成學(xué)習(xí)方法正好能解決上述缺點(diǎn),該類算法是將多個(gè)弱學(xué)習(xí)器組合建立一個(gè)強(qiáng)學(xué)習(xí)器,能夠提高單一模型的泛化能力和穩(wěn)健性。集成學(xué)習(xí)不但能提高預(yù)測(cè)準(zhǔn)確率,更重要的是利用其原理可以有效評(píng)估指標(biāo)對(duì)最終評(píng)估結(jié)果的貢獻(xiàn)值[30-32]。其中,XGBoost模型被認(rèn)為是集成學(xué)習(xí)算法中性能最好的方法之一。
我國(guó)目前已形成覆蓋國(guó)家-省-市-縣-鄉(xiāng)-村六級(jí)的災(zāi)情報(bào)送網(wǎng)絡(luò)體系,建成了長(zhǎng)時(shí)間序列、高精細(xì)度的災(zāi)害事件案例庫(kù),為數(shù)據(jù)驅(qū)動(dòng)的模型構(gòu)建提供了保障。本文選取我國(guó)南方地區(qū)洪澇災(zāi)害案例作為訓(xùn)練樣本,在縣域?qū)蛹?jí)收集可能影響重大洪澇過程災(zāi)害風(fēng)險(xiǎn)的23項(xiàng)指標(biāo),基于XGBoost算法建立重大洪澇過程災(zāi)害風(fēng)險(xiǎn)評(píng)估模型,對(duì)南方地區(qū)重大洪澇過程中人口、農(nóng)作物、房屋、經(jīng)濟(jì)等損失風(fēng)險(xiǎn)以及綜合風(fēng)險(xiǎn)進(jìn)行評(píng)估,并驗(yàn)證指標(biāo)量和樣本量增加對(duì)于提升模型性能的意義。
江淮地區(qū)、長(zhǎng)江中下游地區(qū)、華南地區(qū)、西南地區(qū)等南方地區(qū)歷來是我國(guó)洪澇災(zāi)害影響最大和損失最重的區(qū)域[33]。一般進(jìn)入主汛期,南方地區(qū)會(huì)遭受多次大范圍降雨過程,基本上每年都會(huì)有重大洪澇災(zāi)害發(fā)生。本文在縣級(jí)行政單元的尺度上,收集了2012—2021年南方地區(qū)650個(gè)有災(zāi)情上報(bào)的重大洪澇過程案例,除去無(wú)法匹配降雨過程的,有625個(gè)案例用于模型研究,其中,621個(gè)案例用于模型訓(xùn)練,4個(gè)案例用于模型測(cè)試。訓(xùn)練案例共有12 640個(gè)縣級(jí)樣本,涉及江蘇、浙江、安徽、福建、江西、湖北、湖南、廣東、廣西、重慶、四川、貴州、云南等13省(自治區(qū)、直轄市)1 120個(gè)縣;測(cè)試案例是2021年7月洪澇過程,涉及安徽、湖北、湖南、重慶4省(直轄市)97個(gè)縣(圖1)。
圖1 縣級(jí)訓(xùn)練樣本和測(cè)試案例分布(審圖號(hào):GS(2019)1823號(hào),底圖無(wú)修改,下同)
1.2.1 評(píng)估指標(biāo)選取
洪澇災(zāi)害是由致災(zāi)因子、孕災(zāi)環(huán)境、承災(zāi)體、災(zāi)情損失構(gòu)成的復(fù)雜系統(tǒng),災(zāi)情損失是由致災(zāi)因子、孕災(zāi)環(huán)境、承災(zāi)體三個(gè)子系統(tǒng)相互作用的產(chǎn)物[34]。歷史災(zāi)情能夠反映區(qū)域?yàn)?zāi)害風(fēng)險(xiǎn)的大小,數(shù)據(jù)驅(qū)動(dòng)的風(fēng)險(xiǎn)評(píng)估模型是通過探索歷史災(zāi)情大數(shù)據(jù)與致災(zāi)因子、孕災(zāi)環(huán)境、承災(zāi)體等災(zāi)害系統(tǒng)指標(biāo)的相關(guān)關(guān)系來建立。本文對(duì)上述625個(gè)洪澇過程分別匹配了4個(gè)維度23項(xiàng)指標(biāo)(圖2),數(shù)據(jù)來源如表1所示。
圖2 重大洪澇過程災(zāi)害風(fēng)險(xiǎn)評(píng)估指標(biāo)體系
表1 指標(biāo)數(shù)據(jù)來源
(1)致災(zāi)因子指標(biāo)。主要是重大洪澇過程的降水?dāng)?shù)據(jù)統(tǒng)計(jì),包括洪澇過程的縣域累積雨量、最大雨量、平均雨量以及汛期以來累積降雨量。其中,最大雨量是指洪澇過程的單日最大降雨量;汛期以來累積降雨量統(tǒng)計(jì)的是從當(dāng)年5月1日起到當(dāng)前過程發(fā)生時(shí)的累積降雨,考慮的是當(dāng)年的累積雨量對(duì)當(dāng)前過程的影響。
(2)孕災(zāi)環(huán)境指標(biāo)。主要考慮河網(wǎng)和地形影響,包括河網(wǎng)密度和地形指數(shù)。其中,河網(wǎng)密度指縣域內(nèi)河道總長(zhǎng)度占縣域面積的比例,地形指數(shù)是水文模擬參數(shù)之一,可以表征區(qū)域徑流面積、坡度等信息。
(3)承災(zāi)體指標(biāo)。主要提供縣域承災(zāi)體信息,包括人口密度、耕地面積、房屋結(jié)構(gòu)及人均住房間數(shù)、GDP密度等指標(biāo)。
(4)災(zāi)情損失指標(biāo)。主要考慮國(guó)家自然災(zāi)害統(tǒng)計(jì)制度中涉及的指標(biāo),包括人口損失、農(nóng)作物損失、房屋損失和經(jīng)濟(jì)損失。其中,人口損失指標(biāo)用以評(píng)估人口損失風(fēng)險(xiǎn),具體還包括受災(zāi)人口、死亡失蹤人口、緊急轉(zhuǎn)移安置人口等3項(xiàng)指標(biāo);農(nóng)作物損失指標(biāo)用以評(píng)估農(nóng)作物損失風(fēng)險(xiǎn),具體還包括農(nóng)作物受災(zāi)面積、農(nóng)作物絕收面積等2項(xiàng)指標(biāo);房屋損失指標(biāo)用以評(píng)估房屋損失風(fēng)險(xiǎn),具體還包括倒塌和嚴(yán)重?fù)p壞房屋、一般損壞房屋等2項(xiàng)指標(biāo);經(jīng)濟(jì)損失指標(biāo)用以評(píng)估直接經(jīng)濟(jì)損失風(fēng)險(xiǎn),含1項(xiàng)指標(biāo)。
另外,綜合災(zāi)情指數(shù)是基于災(zāi)情損失各類指標(biāo)計(jì)算的一個(gè)指數(shù),用以評(píng)估洪澇過程的災(zāi)害損失綜合風(fēng)險(xiǎn)。綜合災(zāi)情指數(shù)計(jì)算有多種方法[35-37],本文采用文獻(xiàn)[35]的災(zāi)情絕對(duì)指數(shù)計(jì)算方法,對(duì)各項(xiàng)指標(biāo)歸一化后,采用加權(quán)平均計(jì)算,各指標(biāo)項(xiàng)選取及相應(yīng)的權(quán)重如圖3所示。
圖3 綜合災(zāi)情指數(shù)計(jì)算所用的指標(biāo)及權(quán)重
1.2.2 災(zāi)情損失與風(fēng)險(xiǎn)等級(jí)劃分
災(zāi)情損失與風(fēng)險(xiǎn)等級(jí)劃分標(biāo)準(zhǔn)統(tǒng)一是評(píng)估模型的基礎(chǔ)。本文將縣域洪澇災(zāi)情損失劃分為3級(jí):輕災(zāi)、中災(zāi)、重災(zāi),相對(duì)應(yīng)的縣域洪澇過程災(zāi)害風(fēng)險(xiǎn)評(píng)估結(jié)果等級(jí)劃分為3級(jí):有一定風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)。這里認(rèn)為凡是能預(yù)測(cè)到有損失可能性的都是有一定風(fēng)險(xiǎn)的,代替?zhèn)鹘y(tǒng)的低風(fēng)險(xiǎn)等級(jí)。實(shí)驗(yàn)中將對(duì)受災(zāi)人口、緊急轉(zhuǎn)移安置人口、農(nóng)作物受災(zāi)面積、倒塌和嚴(yán)重?fù)p壞房屋、直接經(jīng)濟(jì)損失以及綜合風(fēng)險(xiǎn)等6項(xiàng)指標(biāo)分別建模和評(píng)估,這些指標(biāo)常用于實(shí)際風(fēng)險(xiǎn)管理工作??紤]到重大洪澇過程風(fēng)險(xiǎn)評(píng)估有實(shí)際業(yè)務(wù)傾向,每個(gè)指標(biāo)的災(zāi)情損失或風(fēng)險(xiǎn)等級(jí)劃分閾值的確定主要參考相關(guān)災(zāi)害管理辦法和歷史經(jīng)驗(yàn)(表2)。
XGBoost是集成學(xué)習(xí)中Boosting家族中的算法[38],目標(biāo)是將多個(gè)弱分類器提升為一個(gè)強(qiáng)分類器,用于數(shù)據(jù)集的分類或回歸。XGBoost核心是對(duì)算法的損失函數(shù)加上了正則化部分,并且損失函數(shù)對(duì)每一步的誤差部分做二階泰勒展開,更加準(zhǔn)確。XGBoost的損失函數(shù)形式為:
(1)
式中:L表示損失函數(shù),t表示迭代次數(shù),i表示第i個(gè)樣本,m表示樣本數(shù)量,f(x)和h(x)分別表示強(qiáng)學(xué)習(xí)器和弱學(xué)習(xí)器,J是葉子節(jié)點(diǎn)個(gè)數(shù),ωtj是第j個(gè)葉子結(jié)點(diǎn)的最優(yōu)值,λ和γ是正則化系數(shù)。XGBoost算法流程總結(jié)如下:
模型輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xN,yN)},xi∈X?Rn,yi∈Y?R;損失函數(shù)L;最大迭代次數(shù)T。
模型過程如下:
(1)計(jì)算第i個(gè)樣本當(dāng)前輪損失函數(shù)L基于ft-1(xi)的一階導(dǎo)數(shù)gti和二階導(dǎo)數(shù)hti,然后計(jì)算所有樣本的一階導(dǎo)數(shù)和Gt以及二階導(dǎo)數(shù)和Ht。
(2)嘗試分裂決策樹,默認(rèn)分?jǐn)?shù)score=0,G和H分別為當(dāng)前需要分裂節(jié)點(diǎn)的一階導(dǎo)數(shù)和以及二階導(dǎo)數(shù)和,對(duì)指標(biāo)序號(hào)k=1,2…K,有
①GL=0,HL=0。
②按指標(biāo)k將樣本從小到大排列,依次取出第i個(gè)樣本,計(jì)算該樣本放入左子樹后,左右子樹的一階導(dǎo)數(shù)和以及二階導(dǎo)數(shù)和:
GL=GL+gti,GR=G-GL;
(2)
HL=HL+hti,HR=H-HL。
(3)
③更新最大分?jǐn)?shù):
score=
(4)
(3)基于最大分?jǐn)?shù)對(duì)應(yīng)的指標(biāo)分裂決策樹。
(4)如果最大得分為0,則當(dāng)前決策樹建立完成,更新當(dāng)前輪強(qiáng)學(xué)習(xí)器ft(x),進(jìn)入下輪迭代;如果最大得分不為0,則轉(zhuǎn)到步驟(2),繼續(xù)分裂決策樹。
表2 縣域?yàn)?zāi)情損失和風(fēng)險(xiǎn)等級(jí)劃分閾值
本文基于XGBoost算法分別建立洪澇過程中受災(zāi)人口風(fēng)險(xiǎn)、緊急轉(zhuǎn)移安置人口風(fēng)險(xiǎn)、農(nóng)作物受災(zāi)面積風(fēng)險(xiǎn)、倒塌和嚴(yán)重?fù)p壞房屋風(fēng)險(xiǎn)、直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)、災(zāi)害綜合風(fēng)險(xiǎn)等6個(gè)風(fēng)險(xiǎn)評(píng)估模型。所有模型以致災(zāi)因子、孕災(zāi)環(huán)境、承災(zāi)體三類指標(biāo)為輸入向量,以不同損失風(fēng)險(xiǎn)等級(jí)為輸出向量,具體模型建立流程如圖4所示。
圖4 基于XGBoost的洪澇災(zāi)害風(fēng)險(xiǎn)評(píng)估模型建立流程
其中,模型調(diào)參采用10折交叉檢驗(yàn)優(yōu)化參數(shù),對(duì)XGBoost模型主要3個(gè)參數(shù)進(jìn)行格網(wǎng)搜索,分別是弱分類器個(gè)數(shù)、決策樹最大深度和學(xué)習(xí)率,6個(gè)模型最優(yōu)參數(shù)及訓(xùn)練集準(zhǔn)確率如表3所示。
為評(píng)估模型精度,選取準(zhǔn)確率(ACC)、查準(zhǔn)率(P)、召回率(R)、F值(F)等4個(gè)評(píng)價(jià)指標(biāo):
(5)
(6)
(7)
(8)
式中:TP表示真陽(yáng)性(True Positive),即本身是正樣本,預(yù)測(cè)也是正樣本;TN表示真陰性(True Negative),即本身是負(fù)樣本,預(yù)測(cè)也是負(fù)樣本;FP表示假陽(yáng)性(False Positive),即本身是正樣本,預(yù)測(cè)是負(fù)樣本;FN表示假陰性(False Negative),即本身是負(fù)樣本,預(yù)測(cè)是正樣本。上述評(píng)價(jià)指標(biāo)中,準(zhǔn)確率表示所有預(yù)測(cè)正確的樣本占總樣本的比例;查準(zhǔn)率表示預(yù)測(cè)為正的樣本中是真正的正樣本的比例;召回率表示實(shí)際樣本中的正例被預(yù)測(cè)正確的比例;F值是平衡查準(zhǔn)率和召回率的指標(biāo),是二者的調(diào)和平均值。
本文以2021年7月中旬的南方降雨過程作為案例,驗(yàn)證基于XGBoost算法建立的重大洪澇過程災(zāi)害評(píng)估模型的應(yīng)用效果。這次洪澇過程造成安徽、湖北、湖南、重慶等地97個(gè)縣發(fā)生災(zāi)害,共造成90余萬(wàn)人受災(zāi),直接經(jīng)濟(jì)損失近10億元。
利用建立的模型分別對(duì)受災(zāi)人口、緊急轉(zhuǎn)移安置人口、農(nóng)作物受災(zāi)面積、倒塌和嚴(yán)重?fù)p壞房屋、直接經(jīng)濟(jì)損失、災(zāi)害綜合風(fēng)險(xiǎn)進(jìn)行評(píng)估,然后與縣級(jí)實(shí)際災(zāi)情損失等級(jí)對(duì)比,結(jié)果如表4所示。
可以看出,模型整體上性能較優(yōu),除直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)評(píng)估外,其他風(fēng)險(xiǎn)評(píng)估結(jié)果的準(zhǔn)確率、查準(zhǔn)率、召回率和F值都在80%以上,特別是緊急轉(zhuǎn)移安置人口、倒塌和嚴(yán)重?fù)p壞房屋兩項(xiàng)的準(zhǔn)確率非常高,達(dá)到97%和98%,這可能因?yàn)樵跍y(cè)試集中樣本不平衡導(dǎo)致,這兩項(xiàng)指標(biāo)涉及到應(yīng)急響應(yīng)啟動(dòng)條件,該案例中均未達(dá)到啟動(dòng)條件;綜合風(fēng)險(xiǎn)評(píng)估結(jié)果準(zhǔn)確率為84%,考慮到防止過擬合的參數(shù)設(shè)定,該模型精度達(dá)到了預(yù)期效果,通過實(shí)際災(zāi)情(圖5a)與風(fēng)險(xiǎn)評(píng)估結(jié)果(圖5b)的空間對(duì)比,可以看出,模型評(píng)估在安徽、湖北、湖南、重慶都能夠較好地預(yù)測(cè)洪澇過程的災(zāi)害風(fēng)險(xiǎn);直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)評(píng)估結(jié)果準(zhǔn)確率相對(duì)較低,只有63%,可能的原因是直接經(jīng)濟(jì)損失在實(shí)際統(tǒng)計(jì)中較為復(fù)雜,包含了很多統(tǒng)計(jì)子項(xiàng),不同地區(qū)、不同時(shí)間的直接經(jīng)濟(jì)損失統(tǒng)計(jì)標(biāo)準(zhǔn)可能存在較大差異。
表3 模型最優(yōu)參數(shù)
表4 驗(yàn)證集不同風(fēng)險(xiǎn)等級(jí)評(píng)估結(jié)果
圖5 測(cè)試集案例中實(shí)際綜合災(zāi)情指數(shù)與模型評(píng)估的災(zāi)害綜合風(fēng)險(xiǎn)對(duì)比
圖6 不同風(fēng)險(xiǎn)評(píng)估類型的指標(biāo)重要性
要理解影響評(píng)估結(jié)果的各種因素,有必要對(duì)各評(píng)估指標(biāo)的具體貢獻(xiàn)進(jìn)行計(jì)算。XGBoost算法計(jì)算指標(biāo)重要性的原理是一個(gè)輸入指標(biāo)在決策樹分枝時(shí)是被選取為分枝特征次數(shù)越多,則該特征越重要。本文分別對(duì)6類風(fēng)險(xiǎn)評(píng)估目標(biāo)進(jìn)行了指標(biāo)重要性計(jì)算,結(jié)果如圖6所示。其中,影響受災(zāi)人口風(fēng)險(xiǎn)評(píng)估最重要的指標(biāo)是過程累積降雨、人口密度、地形指數(shù),表明致災(zāi)因子、承災(zāi)體、孕災(zāi)環(huán)境都對(duì)評(píng)估結(jié)果有所貢獻(xiàn);影響緊急轉(zhuǎn)移安置人口風(fēng)險(xiǎn)評(píng)估最重要的指標(biāo)是過程累積降雨、地形指數(shù)、河網(wǎng)密度,這與實(shí)際災(zāi)害應(yīng)對(duì)過程相符,一般雨量大、地勢(shì)險(xiǎn)、離水近的人口在災(zāi)害應(yīng)急中容易被轉(zhuǎn)移;農(nóng)作物受災(zāi)面積風(fēng)險(xiǎn)與地形指數(shù)、過程累積降雨、耕地面積、磚木房屋比例、人口密度有較大關(guān)系,特別是地形指數(shù)影響突出,說明農(nóng)作物的受災(zāi)與孕災(zāi)環(huán)境有很強(qiáng)的關(guān)聯(lián);倒塌和嚴(yán)重?fù)p害房屋風(fēng)險(xiǎn)明顯受過程累積降雨、人均住房間數(shù)、房屋結(jié)構(gòu)比例、河網(wǎng)密度等因素影響,承災(zāi)體指標(biāo)重要性突出;直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)影響因素主要是過程累積降雨、河網(wǎng)密度,可見直接經(jīng)濟(jì)損失大小與致災(zāi)因子、孕災(zāi)環(huán)境密不可分;災(zāi)害綜合風(fēng)險(xiǎn)的主要影響因素是GDP密度,可能的原因是GDP本身就是綜合性指標(biāo),GDP既能反映區(qū)域的承災(zāi)體綜合暴露度,也在一定程度上反映了區(qū)域的承災(zāi)體脆弱性,即一般情況下可以認(rèn)為GDP高的地區(qū)比GDP低的地區(qū)綜合防災(zāi)減災(zāi)能力要更強(qiáng)。總體來說,不同指標(biāo)對(duì)不同風(fēng)險(xiǎn)評(píng)估結(jié)果的貢獻(xiàn)并不完全相同,也沒有一個(gè)指標(biāo)的貢獻(xiàn)率可以達(dá)到忽略不計(jì)的程度,各指標(biāo)貢獻(xiàn)率都在5%~12%之間。
為考察指標(biāo)數(shù)量對(duì)評(píng)估模型精度的影響,本文對(duì)不同維度的輸入指標(biāo)進(jìn)行了組合,比較了僅用致災(zāi)因子、致災(zāi)因子和孕災(zāi)環(huán)境組合、致災(zāi)因子和承災(zāi)體組合以及采用全部指標(biāo)在洪澇災(zāi)害風(fēng)險(xiǎn)評(píng)估結(jié)果中的準(zhǔn)確率(表5)。通過對(duì)比發(fā)現(xiàn),指標(biāo)量的變化對(duì)受災(zāi)人口風(fēng)險(xiǎn)、緊急轉(zhuǎn)移安置人口風(fēng)險(xiǎn)、倒塌和嚴(yán)重?fù)p壞房屋風(fēng)險(xiǎn)3個(gè)模型評(píng)估結(jié)果影響較小。然而,指標(biāo)量對(duì)農(nóng)作物受災(zāi)面積風(fēng)險(xiǎn)、直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)和災(zāi)害綜合風(fēng)險(xiǎn)3個(gè)模型評(píng)估準(zhǔn)確率有較大影響,如果模型輸入只有致災(zāi)因子,準(zhǔn)確率最低,比全指標(biāo)偏低10%~15%;在致災(zāi)因子基礎(chǔ)上,無(wú)論加入孕災(zāi)環(huán)境和承災(zāi)體指標(biāo),對(duì)準(zhǔn)確率都有較大提升,而且承災(zāi)體指標(biāo)比孕災(zāi)環(huán)境指標(biāo)提升多,因?yàn)槌袨?zāi)體指標(biāo)子項(xiàng)更多;而將所有指標(biāo)一同作為輸入,準(zhǔn)確率最高,說明指標(biāo)量對(duì)評(píng)估結(jié)果有很大影響。
表5 不同指標(biāo)量的風(fēng)險(xiǎn)評(píng)估準(zhǔn)確率
一般對(duì)某個(gè)區(qū)域進(jìn)行災(zāi)害風(fēng)險(xiǎn)評(píng)估,往往僅選用該區(qū)域內(nèi)相關(guān)災(zāi)害案例進(jìn)行分析[19,21],這樣可能導(dǎo)致區(qū)域樣本量較少。為考察樣本數(shù)量對(duì)評(píng)估模型精度的影響,本文對(duì)驗(yàn)證集中的安徽、湖北、湖南和重慶4個(gè)省(直轄市)案例進(jìn)行對(duì)比。首先,提取各自省份(直轄市)2012—2021年的縣域?yàn)?zāi)害數(shù)據(jù)樣本;然后利用各省(直轄市)樣本分別進(jìn)行訓(xùn)練,建立各省(直轄市)基于單省份樣本的綜合風(fēng)險(xiǎn)評(píng)估模型;最后比較基于單省份樣本量的模型和基于全樣本量的模型在洪澇災(zāi)害綜合風(fēng)險(xiǎn)評(píng)估結(jié)果中的準(zhǔn)確率(表6)。可以看出,全樣本評(píng)估對(duì)湖南評(píng)估結(jié)果準(zhǔn)確率提升了13%,其他省份也有5%~10%的提升,這說明樣本量的增加對(duì)各省評(píng)估準(zhǔn)確率都有較大增益。
表6 不同樣本量的災(zāi)害綜合風(fēng)險(xiǎn)評(píng)估準(zhǔn)確率
本文基于我國(guó)南方地區(qū)625個(gè)重大洪澇過程案例的將近30萬(wàn)條指標(biāo),利用XGBoost算法建立了重大洪澇過程災(zāi)害評(píng)估模型,并以2021年7月中旬南方地區(qū)洪澇過程數(shù)據(jù)對(duì)模型進(jìn)行了驗(yàn)證。結(jié)果表明該模型可用于重大洪澇災(zāi)害事件發(fā)生前對(duì)受災(zāi)人口風(fēng)險(xiǎn)、緊急轉(zhuǎn)移安置人口風(fēng)險(xiǎn)、農(nóng)作物受災(zāi)面積風(fēng)險(xiǎn)、倒塌和嚴(yán)重?fù)p害房屋風(fēng)險(xiǎn)、直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)和災(zāi)害綜合風(fēng)險(xiǎn)評(píng)估,對(duì)災(zāi)害風(fēng)險(xiǎn)管理業(yè)務(wù)有重要意義。研究主要結(jié)論如下:
(1)基于XGBoost算法建立的重大洪澇過程災(zāi)害風(fēng)險(xiǎn)評(píng)估模型適用性較好。通過測(cè)試案例驗(yàn)證,受災(zāi)人口風(fēng)險(xiǎn)、轉(zhuǎn)移安置人口風(fēng)險(xiǎn)、農(nóng)作物受災(zāi)面積風(fēng)險(xiǎn)、倒塌和嚴(yán)重?fù)p害房屋風(fēng)險(xiǎn)、災(zāi)害綜合風(fēng)險(xiǎn)等5個(gè)模型在風(fēng)險(xiǎn)評(píng)估中的準(zhǔn)確率、查準(zhǔn)率、召回率和F值等性能指標(biāo)均在80%以上,說明模型有較好的泛化性能,能夠用于實(shí)際災(zāi)害風(fēng)險(xiǎn)評(píng)估工作中。
(2)模型可以通過計(jì)算重要性評(píng)價(jià)指標(biāo)對(duì)風(fēng)險(xiǎn)評(píng)估結(jié)果的貢獻(xiàn)度。除過程累積降雨指標(biāo)對(duì)大部分評(píng)估目標(biāo)都有影響外,不同風(fēng)險(xiǎn)評(píng)估目標(biāo)的影響因素不同,如受災(zāi)人口、倒塌和嚴(yán)重?fù)p壞房屋受承災(zāi)體因素影響較大,緊急轉(zhuǎn)移安置人口、農(nóng)作物受災(zāi)面積、直接經(jīng)濟(jì)損失主要受孕災(zāi)環(huán)境影響,而災(zāi)害綜合風(fēng)險(xiǎn)主要影響因素是GDP密度。指標(biāo)重要性增加了風(fēng)險(xiǎn)評(píng)估模型的可解釋性,提升了指標(biāo)與評(píng)估結(jié)果之間關(guān)系的理解,有助于改進(jìn)對(duì)機(jī)器學(xué)習(xí)算法“黑箱”模式的認(rèn)識(shí)。
(3)指標(biāo)量和樣本量對(duì)于數(shù)據(jù)驅(qū)動(dòng)的評(píng)估模型有重要作用。集成學(xué)習(xí)算法在災(zāi)害風(fēng)險(xiǎn)評(píng)估中淡化了危險(xiǎn)性、脆弱性等災(zāi)害機(jī)理,純粹利用災(zāi)害系統(tǒng)相關(guān)數(shù)據(jù)進(jìn)行學(xué)習(xí),建模較為簡(jiǎn)單,這也要求評(píng)估指標(biāo)和樣本數(shù)量要要有足夠積累。一方面,致災(zāi)因子指標(biāo)、孕災(zāi)環(huán)境指標(biāo)、承災(zāi)體指標(biāo)都對(duì)災(zāi)害風(fēng)險(xiǎn)評(píng)估結(jié)果有重要影響,利用全指標(biāo)量比僅用致災(zāi)因子指標(biāo)可以提高10%~15%的評(píng)估準(zhǔn)確率;另一方面,樣本數(shù)量增加1~2個(gè)數(shù)量級(jí)能夠提高5%~13%的評(píng)估準(zhǔn)確率。這表明災(zāi)害大數(shù)據(jù)對(duì)于提升災(zāi)害風(fēng)險(xiǎn)評(píng)估模型性能有很大幫助。
(4)模型仍存在一定的不確定性。由于選擇的訓(xùn)練案例源自全國(guó)各地上報(bào)災(zāi)情,災(zāi)情本身是人為統(tǒng)計(jì),存在著時(shí)間差異和地區(qū)差異,這可能也是模型在直接經(jīng)濟(jì)損失風(fēng)險(xiǎn)評(píng)估中沒有其他風(fēng)險(xiǎn)評(píng)估結(jié)果準(zhǔn)確性高的原因之一。另外,樣本本身偏向于重大洪澇災(zāi)害過程,對(duì)于一般災(zāi)害的評(píng)估效果尚待驗(yàn)證。
本文利用災(zāi)害大數(shù)據(jù)建立了縣域洪澇過程災(zāi)害風(fēng)險(xiǎn)評(píng)估模型。隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,區(qū)域的承災(zāi)體和孕災(zāi)環(huán)境會(huì)發(fā)生很多變化,在今后的研究中,需要不斷引入最新數(shù)據(jù),更新和累積大數(shù)據(jù),提升模型的可靠性。總結(jié)下一步工作,重點(diǎn)有三個(gè)方向:一是繼續(xù)完善指標(biāo)體系和樣本分布,利用第一次全國(guó)自然災(zāi)害綜合風(fēng)險(xiǎn)普查數(shù)據(jù)對(duì)指標(biāo)進(jìn)行更新,進(jìn)一步完善模型;二是收集北方地區(qū)重大災(zāi)害過程案例,并驗(yàn)證模型在北方地區(qū)是否具有通用性;三是模型的推廣應(yīng)用,比如用于確定針對(duì)歷史災(zāi)情分析時(shí)各指標(biāo)權(quán)重,或用于缺乏資料地區(qū)的洪澇災(zāi)害風(fēng)險(xiǎn)評(píng)估等。