巨文珍,韋龍斌,彭泊林,李常誠,潘 婷
(廣西壯族自治區(qū)林業(yè)勘測設(shè)計院,南寧 530011)
森林火災(zāi)是一項突發(fā)性強(qiáng)、破壞性大、處置較為困難的自然災(zāi)害。近年來,隨著全球氣候變化,其發(fā)生次數(shù)和受災(zāi)面積均有增加趨勢,給各國森林資源、人民生命安全和財產(chǎn)造成了巨大的威脅[1-2]。
利用驅(qū)動因素對林火發(fā)生概率進(jìn)行預(yù)測是森林火災(zāi)的研究熱點[3]。隨著研究深入,從前期僅考慮單一的氣候因子逐漸發(fā)展為氣候、可燃物、地形、人類活動等多因素的綜合預(yù)測[4-7]。Logistic回歸模型是最常見的預(yù)測模型,在有較好預(yù)測精度的同時能夠通過模型參數(shù)明確解釋因子與林火之間的關(guān)系,但對數(shù)據(jù)的正態(tài)性和線性關(guān)系有較高的要求[8-10];機(jī)器學(xué)習(xí)模型對數(shù)據(jù)要求較為寬松,現(xiàn)已在林火預(yù)測中得到了廣泛應(yīng)用并取得了不錯的效果[11-14],如潘登等[5]和李永和等[15]對湘中丘陵區(qū)和浙江省林火預(yù)測模型進(jìn)行了研究,對比均發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型精度要優(yōu)于logistic回歸模型。
廣西森林資源豐富,地形復(fù)雜,林區(qū)經(jīng)營活動頻繁,近年來極端天氣日數(shù)逐漸增多,全區(qū)森林火災(zāi)管控難度逐漸增大。深入研究廣西森林火災(zāi)的主要驅(qū)動因子并對其發(fā)生概率進(jìn)行預(yù)測,對于優(yōu)化該區(qū)域防滅火資源的分配,更加有效地進(jìn)行森林火災(zāi)的預(yù)防與撲救具有重要意義。當(dāng)前對林火預(yù)測模型的研究主要集中在東北、東南和云貴川地區(qū)[16],缺乏對廣西大尺度下林火驅(qū)動因素的深入分析。因此,本研究通過Logistic回歸模型和機(jī)器學(xué)習(xí)模型探索氣象、可燃物、地形、人類活動等四大類驅(qū)動因素對廣西林火發(fā)生的影響,旨在為廣西森林火災(zāi)監(jiān)測預(yù)警提供科學(xué)參考。
廣西壯族自治區(qū)(20°54′—26°23′N,104°28′—112°04′ E)西靠云貴高原,北為南嶺山地,南臨熱帶海洋,地勢自西北向東南傾斜。全區(qū)為典型的亞熱帶季風(fēng)氣候,雨熱同期,年平均氣溫17~24 ℃,年降雨量750~2 200 mm。植被類型主要有溝谷雨林、季雨林、常綠闊葉林、常綠落葉混交林、落葉闊葉林、針闊混交林等,人工林樹種主要有杉木(Cunninghamialanceolata)、馬尾松(Pinusmassoniana)和速生桉(Eucalyptusrobusta)等[17]。廣西90%以上的森林火災(zāi)由人為原因?qū)е?其中又以農(nóng)事用火和祭祀用火居多。每年9月到次年4月,尤其是清明、重陽等重要祭祀節(jié)日前后是森林火災(zāi)最頻發(fā)的時段,這段時間是廣西重點防火期(1)廣西壯族自治區(qū).廣西森林火災(zāi)易發(fā)多發(fā)原因及對策調(diào)研報告.2023.。
1)森林火災(zāi)數(shù)據(jù)為廣西2011—2020年的火災(zāi)檔案資料,包括火災(zāi)發(fā)生點的經(jīng)緯度、日期等信息。在剔除經(jīng)緯度錯誤的火災(zāi)數(shù)據(jù)后,共保留了6 495組數(shù)據(jù)。由于模型要求數(shù)據(jù)為二項分布的形式,本文采用ArcGIS 10.2在研究區(qū)域的林地內(nèi)按照森林火災(zāi)數(shù)量1∶1生成隨機(jī)點。生成時,在林火發(fā)生點處創(chuàng)建了1 km的緩沖區(qū)以減小空間自相關(guān)性。隨機(jī)點的時間也是在研究期內(nèi)隨機(jī)生成。
2)選取氣象、地形、可燃物、人為活動等四大類因素作為建立林火預(yù)測模型的初始變量。氣象因素包括月平均降雨量、月平均相對濕度、月最高氣溫、月平均氣溫、月平均風(fēng)速、月大風(fēng)天數(shù)等6個因子,從全區(qū)2011—2020年的30弧秒氣象格網(wǎng)數(shù)據(jù)中,通過林火發(fā)生點與隨機(jī)點的時間和空間坐標(biāo)提取;地形因素包括海拔和坡度,從全區(qū)數(shù)字高程DEM與坡度柵格數(shù)據(jù)中提取;可燃物載量從廣西第一次森林火災(zāi)風(fēng)險普查數(shù)據(jù)庫中提取;人類活動因素包括林區(qū)人口、經(jīng)濟(jì)、建筑物數(shù)量,從全區(qū)30弧秒林區(qū)人口、經(jīng)濟(jì)和建筑物格網(wǎng)數(shù)據(jù)提取(2)廣西壯族自治區(qū),廣西壯族自治區(qū)林業(yè)勘測設(shè)計院.廣西第一次森林火災(zāi)風(fēng)險普查成果.2022.。
2.2.1Logistic回歸模型
設(shè)置因變量數(shù)據(jù)結(jié)構(gòu)為二項分布形式(林火發(fā)生為1,未發(fā)生為0),假設(shè)林火發(fā)生概率為P,林火不發(fā)生概率為(1-P),得到關(guān)系模型如式(1)所示。
(1)
經(jīng)過變換,可得如式(2)所示的林火發(fā)生概率評估公式。
(2)
式中:β0為常量;自變量x1,x2,…,xn為各林火驅(qū)動因子;β1,β2,…,βn為各驅(qū)動因子的系數(shù)。
2.2.2機(jī)器學(xué)習(xí)模型
隨機(jī)森林(Random Forest,RF)通過從原始訓(xùn)練樣本集中隨機(jī)有放回地抽取k個樣本生成新的訓(xùn)練樣本集合,生成大量的決策樹,所有決策樹預(yù)測類中的眾數(shù)類別即為隨機(jī)森林所預(yù)測的這一樣本單元的類別。RF模型有著對數(shù)據(jù)較強(qiáng)的適應(yīng)能力和抗噪聲能力,被廣泛用于林火預(yù)測[13]。
支持向量機(jī)(Support Vector Machine,SVM)是一種基于結(jié)構(gòu)風(fēng)險最小化原則的通用學(xué)習(xí)算法,能夠有效地克服機(jī)器學(xué)習(xí)中多維度和過擬合的問題[18]。它的基本思想是在樣本輸入空間或特征空間構(gòu)造出一個最優(yōu)超平面,使得超平面到2類樣本集之間的距離達(dá)到最大,從而取得最好的一般化能力[14]。
反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò)[19],在輸入層與輸出層之間增加可設(shè)置層數(shù)的神經(jīng)元(隱藏層),輸入數(shù)據(jù)經(jīng)由神經(jīng)元通過激活函數(shù)進(jìn)行單向傳遞,通過不斷迭代調(diào)整權(quán)重與閾值,直到輸出結(jié)果與期望接近。
2.2.3因子選擇與模型檢驗
通過標(biāo)準(zhǔn)化處理消除不同因子之間量綱的差異,利用方差膨脹因子VIF(Variance Inflation Factor,VIF)進(jìn)行多重共線性檢驗,剔除共線性較高的自變量。將全部樣本分為建模樣本(70%)和檢驗樣本(30%),為減少由于樣本劃分帶來的隨機(jī)性對參數(shù)結(jié)果的干擾,隨機(jī)生成了5次建模樣本,通過Logistic回歸模型篩選出3次以上顯著的變量來構(gòu)建Logistic回歸模型和機(jī)器學(xué)習(xí)模型。
利用準(zhǔn)確率(Accuracy)、召回率(Recall)和受試者工作特征(Receiver Operating Characteristic,ROC)來評價各模型的擬合效果。準(zhǔn)確率和召回率越高分別代表模型的整體預(yù)測精度和對森林火災(zāi)的預(yù)測效果越好,ROC曲線不受分割閾值影響,能夠較好地評價模型的泛化能力[20]。ROC曲線下方面積為AUC(Area Under Curve,AUC),取值范圍為[0.5,1],AUC值越大表示模型的性能越優(yōu)秀[21-22]。
2.2.4數(shù)據(jù)分析與處理
使用Excel 2019對歷史森林火災(zāi)數(shù)據(jù)進(jìn)行初步處理,使用ArcGIS 10.2提取林火發(fā)生點和隨機(jī)點的各項屬性數(shù)據(jù),使用R軟件完成模型的構(gòu)建與檢驗。
通過方差膨脹檢驗得出月最高氣溫與其他因子之間存在多重共線性,剔除月最高氣溫后,隨機(jī)生成了5個訓(xùn)練樣本構(gòu)建了Logistic回歸模型。模型變量選擇結(jié)果如表1所示,在5次模型構(gòu)建中,除林區(qū)經(jīng)濟(jì)顯著1次外,其余變量均顯著3次以上,參數(shù)符號在5次建模結(jié)果中均保持一致。最終確定可燃物載量、林區(qū)建筑物數(shù)量、林區(qū)人口數(shù)量、海拔、坡度、月平均降雨量、月平均相對濕度,月平均氣溫、月大風(fēng)天數(shù)、月平均風(fēng)速等10個變量作為構(gòu)建Logistic回歸模型和機(jī)器學(xué)習(xí)模型的自變量。
表1 Logistic回歸模型變量選擇結(jié)果
確定最終建模因子后,重新構(gòu)建Logistic回歸模型(表2)。從表中參數(shù)的大小來看,對林火發(fā)生影響最大的前5位因素是林區(qū)建筑物數(shù)量、海拔、月平均相對濕度、月平均降雨量和月平均風(fēng)速;從參數(shù)符號來看,可燃物載量、林區(qū)建筑物數(shù)量、月平均風(fēng)速和林區(qū)人口數(shù)量與林火發(fā)生概率呈正相關(guān),而海拔、月平均相對濕度、月平均降雨量、坡度、月大風(fēng)天數(shù)、月平均氣溫與林火發(fā)生概率呈負(fù)相關(guān)。
表2 最優(yōu)Logistic回歸模型擬合統(tǒng)計結(jié)果
構(gòu)建機(jī)器學(xué)習(xí)模型后,將各模型中因子按重要性排序匯總(表3)。不同模型中因子重要程度結(jié)果略有差異:整體上,林區(qū)建筑物數(shù)量、月平均降雨量和月平均相對濕度是影響廣西森林火災(zāi)最主要的驅(qū)動因素,月大風(fēng)天數(shù)相較于其它因子對廣西森林火災(zāi)影響最小;在Logistic回歸模型和RF模型中,海拔是影響林火發(fā)生主要的因子,但在SVM模型和BP神經(jīng)網(wǎng)絡(luò)模型排名中相對靠后;可燃物載量僅在BP神經(jīng)網(wǎng)絡(luò)模型中排名較高。
表3 因子重要性排序
從表4可知,機(jī)器學(xué)習(xí)模型整體精度均優(yōu)于Logistic回歸模型,準(zhǔn)確率和召回率均在80%以上。各模型均有較好的泛化效果,驗證樣本整體精度要優(yōu)于建模樣本。從召回率看,logistic回歸模型對林火發(fā)生點的預(yù)測效果更好,精度相比整體準(zhǔn)確率高5%左右;機(jī)器學(xué)習(xí)模型對非林火發(fā)生點和林火發(fā)生點的預(yù)測區(qū)別相差不大。從圖1可得知:各模型均具有較高的預(yù)測精度,SAUC>0.85;RF的預(yù)測效果最好,SAUC=0.92。
圖1 模型ROC曲線
表4 模型評價指標(biāo)對比
通過模型精度檢驗得知RF模型擬合效果最佳,基于此模型對廣西全區(qū)各鄉(xiāng)鎮(zhèn)林火發(fā)生概率進(jìn)行預(yù)測。按市進(jìn)行統(tǒng)計,結(jié)果如表5所示。林火發(fā)生概率僅表示該區(qū)域林分引發(fā)火災(zāi)的難易程度,并不代表林火發(fā)生的必然性。整體上,廣西全區(qū)林火發(fā)生概率處于較高水平,概率較低的地區(qū)主要為林地面積較少的城區(qū)街道。位于桂西的河池市、百色市、崇左市林火平均概率均在0.7以上,最高達(dá)0.972,森林火災(zāi)隱患最大;南部沿海的北海市林火發(fā)生概率最低。
表5 廣西林火發(fā)生概率分布
從模型結(jié)果可以看出,研究區(qū)域內(nèi)林火發(fā)生與可燃物載量、林區(qū)建筑物、林區(qū)人口數(shù)量呈正相關(guān),與海拔和坡度呈負(fù)相關(guān),這與大多數(shù)研究結(jié)論一致[23-26]。廣西可燃物載量較高的地區(qū)主要為松、杉、桉樹等人工林集中區(qū),這些地區(qū),林區(qū)人口與建筑物數(shù)量同樣較多,生產(chǎn)經(jīng)營活動頻繁,加之樹種本身易燃性高,引發(fā)森林火災(zāi)的風(fēng)險大。隨著海拔的上升和坡度增大,人類活動逐漸減少;海拔的上升,氣溫降低、相對濕度與植被含水率上升;坡度的增大,水分滯留時間短,植被減少可燃物載量降低:這都大大降低了森林火災(zāi)發(fā)生的可能性[10,27-30]。部分研究表明林火的發(fā)生與經(jīng)濟(jì)呈正相關(guān)[16,31],本次建模結(jié)果顯示林區(qū)經(jīng)濟(jì)對林火發(fā)生的影響并不顯著,這與梁慧玲等[11]的研究結(jié)果一致,可能是由于經(jīng)濟(jì)發(fā)達(dá)地區(qū)基本為城區(qū),森林面積分布相對較少,同時森林火災(zāi)管控水平較高,引發(fā)的森林火災(zāi)數(shù)量較少。
模型結(jié)果顯示,森林火災(zāi)的發(fā)生與月平均降雨量和月平均相對濕度呈負(fù)相關(guān),與平均風(fēng)速呈正相關(guān)。這是因為降雨量與相對濕度的增加,能夠提高森林可燃物的含水率,而較高的風(fēng)速能夠加速可燃物的干燥,提高燃燒性[8,32]。當(dāng)前鮮有研究分析月大風(fēng)天數(shù)與森林火災(zāi)之間的關(guān)系。大多數(shù)研究顯示,氣溫的升高能夠促進(jìn)地表蒸騰作用,降低植被含水率,增加森林火災(zāi)發(fā)生的風(fēng)險[16,27]。本研究結(jié)果顯示,月平均氣溫和月大風(fēng)天數(shù)與森林火災(zāi)概率均呈負(fù)相關(guān),這可能與廣西的氣候特點有關(guān)。廣西地處低緯,屬亞熱帶季風(fēng)氣候區(qū),大風(fēng)天氣主要由強(qiáng)對流天氣和臺風(fēng)過境導(dǎo)致,集中分布在夏秋兩季[32-33]。雖然夏秋兩季在全年里溫度較高,但由于是汛期,降雨量大,林火不易發(fā)生[8]。因此,模型結(jié)果顯示其與森林火災(zāi)概率呈負(fù)相關(guān)。
在模型精度上,Logistic回歸模型與機(jī)器學(xué)習(xí)模型對研究區(qū)域內(nèi)林火發(fā)生均有較好的預(yù)測效果(SAUC>0.85),機(jī)器學(xué)習(xí)的整體精度要高于Logistic回歸模型,其中RF模型的預(yù)測精度最高。從各因子與林火發(fā)生概率的相關(guān)關(guān)系來看,各因子之間相互影響,使得Logistic回歸模型并不能夠較好地揭示部分因子與森林火災(zāi)之間的獨立關(guān)系[30,34]。今后,可通過考慮空間自相關(guān)性和分季節(jié)建模來提高模型對各驅(qū)動因子的解釋度及精度。
本研究結(jié)合氣象因子、地形因子、可燃物載量和人為活動因子,構(gòu)建了Logistic回歸模型和機(jī)器學(xué)習(xí)模型對廣西林火發(fā)生概率進(jìn)行預(yù)測。結(jié)果表明:林區(qū)建筑物數(shù)量、月平均降雨量、月平均相對濕度是廣西林火發(fā)生的主要驅(qū)動因子;logistic模型和機(jī)器學(xué)習(xí)模型均取得了較好的擬合效果(SAUC>0.85),RF模型的精度最高。對廣西各地區(qū)林火發(fā)生概率預(yù)測的結(jié)果顯示:廣西森林火災(zāi)高風(fēng)險區(qū)在馬尾松、杉木、速生桉等易燃樹種集中分布區(qū);桂西北、桂西南地區(qū)由于降雨量相對較少,季節(jié)性干旱天氣頻繁,林火發(fā)生概率相比南部沿海地區(qū)高。整體上,預(yù)測結(jié)果符合廣西客觀實際,能為廣西林火預(yù)警預(yù)測提供參考。