○王智慧 陳 飛
(云南財經(jīng)大學統(tǒng)計與數(shù)學學院 云南 昆明 650221)
森林資源是自然生態(tài)資源的重要組成部分,在維護生態(tài)平衡和可持續(xù)發(fā)展方面起到至關重要的作用。森林火災是森林資源所面臨的嚴重威脅之一,有很強的突發(fā)性、周期性和破壞性,給人們的生活和環(huán)境安全帶來嚴重的危害。近年來,森林火災受害面積問題受到了一定的關注,比如:張智光,葉超飛曾就該問題做過研究,主要使用灰色預測模型預測森林火災受害面積的變化趨勢。本文主要研究森林火災受害面積的影響因素,影響火災受害面積的因素是多方面的,大致可以分為自然原因和人為原因兩大類,由于人為的因素存在諸多的突發(fā)性和不確定性,在研究過程中存在著許多問題,故本文主要關注自然因素,例如氣候、溫度等。我們基于統(tǒng)計年鑒中2011年全國31個省市級城市的森林火災數(shù)據(jù),通過變量選擇方法,從眾多的初始變量中,篩選出了對森林火災受害面積具有顯著影響的因素,并建立了線性回歸模型,擬合森林火災受害森林面積與這些因素之間的數(shù)量關系,模型通過了異方差性和異常值檢驗。
為了分析森林火災造成的影響與危害,本文搜集了2011年全國31個省市級城市的森林火災數(shù)據(jù)。由于森林火災造成的嚴重性后果和影響森林火災發(fā)生因素的復雜性,因此對森林火災的影響因素分析顯得尤為重要。對這些因素的分析不僅有助于深入的了解森林火災的發(fā)生規(guī)律和導致災害的原因,而且對森林火災的預防和降低森林火災的損失也有很大的幫助。由于影響火災的因素很多,這里初步考慮影響火災受害的自然因素,包括全年降水量、年平均相對濕度、林地面積、森林面積、森林蓄積量、年平均氣溫、火場總面積。這里要研究的是火災受害面積與以上因素之間的關系。
我們建立森林火災受害森林面積影響因素分析的七回歸模型:
其中x1-全年降水量、x2-年平均相對濕度、x3-林地面積、x4-森林面積、x5-森林蓄積量、x6-年平均氣溫、x7-火場總面積、y-受害森林面積。
回歸方程的F檢驗的p值為0.000<0.05,這意味著,在5%的顯著性水平下,解釋變量對被解釋變量的聯(lián)合線性影響是顯著的。然而,系數(shù)的t檢驗中,p值最小的為0.183,故在5%顯著性水平下所有系數(shù)卻不顯著,這可能是由于多重共線性的存在使得某些自變量對因變量的影響被其他自變量掩蓋了。為了檢驗多重共線性存在與否,我們使用樣本協(xié)方差的條件數(shù)來進行檢驗,求得自變量的樣本協(xié)方差矩陣的條件數(shù)(最大特征值與最小特征值之比)為54126.21,這說明七個自變量之間存在很嚴重的多重共線性。故此,分別通過逐步回歸法、AIC準則和L a s s o回歸進行自變量的選擇。
對自變量采用逐步回歸方法進行變量篩選,用R軟件逐步回歸的結果如表1所示。
表1 逐步回歸方法篩選結果
逐步回歸結果顯示應當選擇自變量x2(年平均相對濕度),(森林面積),x4(火場總面積)作為森林火災受害面積的解釋變量。在5%的顯著性水平下,他們的p值分別為0.0325,0.0282和0.000,表明這三個解釋變量對因變量的影響是顯著的。為了印證上述變量選擇結果,我們再使用AIC準則在回歸中對一些重點待選模型進行比較。比較結果如下:僅包含x2、僅包含x4、僅包含x7、以及x2、x4、x7三個自變量和其他任意自變量搭配的模型,其AIC值均大于只包含x2、x4、x7三個自變量的模型的AIC值??梢姡珹IC準則提供的變量選擇的結果與逐步回歸法一致,均選擇 x2、x4和 x7。
由逐步回歸的貪婪性,下面我們引入L a s s o回歸進行進一步的驗證。L a s s o回歸是一種壓縮估計,該方法以模型系數(shù)的絕對值之和對最小二乘目標函數(shù)施加懲罰,通過最小化懲罰下的目標函數(shù)獲得參數(shù)估計。不顯著的回歸函數(shù)L a s s o估計傾向于收縮為0,因此,使用L a s s o估計可以達到變量選擇的目的。記回歸模型的樣本形式為,其中,εi~N(0,σ2),(xi1,…xip,Yi)T,i=1,…,n為樣本數(shù)據(jù)。不失一般性,假設xij,i=1,…,n已經(jīng)過中心化和標準化,隨機誤差 ε1,…,εn獨立同分布。L a s s o估計為
其中τ≥0,為調(diào)和參數(shù)。易見,對任意τ≥0,均有α的估計α^=y(tǒng)。調(diào)和參數(shù)的取值影響著 β1,…,βp,的估計值,需要恰當選擇。本文使用C p統(tǒng)計量來選取調(diào)和參數(shù),進行Lasso回歸。β1,…,β7的 Lasso估計中,只有 β2、β4、β7的估計值非零,這意味著變量選擇結果仍是x2,x4和x7,與前述變量選擇的結果一致。
以y為因變量,以x2,x4和x7為自變量的回歸模型擬合結果如下:y=1217.52-20.91 x2-0.38 x4+0.61 x7(2)
由于數(shù)據(jù)樣本來自不同的地域,故我們需要進行異方差檢驗。從異方差性的Wh i t e檢驗結果來看,F(xiàn)統(tǒng)計量的p值為0.4352,在5%的顯著性水平下,無法拒絕同方差假設。所有的交叉項和獨立項的p值也較大,故模型中不存在明顯的異方差性。
異常點為不符合預設統(tǒng)計模型所刻畫的統(tǒng)計規(guī)律的數(shù)據(jù)點。在線性模型下,異常點可采用下述的均值漂移模型來檢驗。為了檢驗第i個點是否為異常點,設定均值漂移模型形式為其中 hi第 i個元素為 1,其余元素為0,X為設計矩陣,Y為因變量向量。若不顯著,則說明第i個點的均值無漂移,即該點符合假定的線性方程εi;若γ顯著,說明第i個點的均值有漂移,即該點不符合假定的線性回歸方程,從而說明第i個點為異常點。對異常點的檢驗過程如下:對每一個待檢測的數(shù)據(jù)點在原模型y=β0+β1x1+下新增加一個自變量z,待檢測的數(shù)據(jù)點所對應的取值為1,其他元素取值為0,對新模型再進行線性回歸,若z的系數(shù)顯著,則判定相應的樣本點為異常值點。經(jīng)過計算,在5%的顯著性水平下,湖北和廣西的數(shù)據(jù)通過了γ的顯著性檢驗(其p值分別為0.032和0.028),故判定其為異常點。下列表2是刪除異常點后森林受害面積與年平均相對濕度、森林面積、火場總面積之間的回歸結果。
表2 刪除異常點后的回歸結果
從上述結果中可得剔除異常點之后的擬合模型如下:
從上述數(shù)據(jù)分析的結果顯示來看,在全年降水量、年平均相對濕度、林地面積、森林面積、森林蓄積量、年平均氣溫、火場總面積這些變量中,年平均相對濕度、森林面積、火場總面積對火災受害面積有著顯著的影響,且年平均相對濕度、森林面積與受害森林面積呈負相關,而火場總面積與受害森林面積呈正相關。這說明年平均相對濕度越大,火災受害森林面積越小;森林面積越大,火災受害面積越小?;馂氖芎ι置娣e與森林面積之間的這種負相關性可能是由于森林面積大的地方,采取的火災預防和監(jiān)管措施通常較為全面,因此發(fā)生火災的幾率較小,使得火災受害面積越小。由此可見,在以后的森林火災預防中,我們可以在氣候干燥的季節(jié),我們可以對森林進行人工澆灌,適量的增加空氣的相對濕度,減少火災的發(fā)生幾率;并且要加大森林面積較大的地區(qū)的防護措施;以減少火災的發(fā)生和危害。加強火災的預防和防護工作,對我國的經(jīng)濟發(fā)展和人民的生活起著至關重要的作用。
[1]馮乃祥、李連?。荷只馂膿p失評估淺析[J].森林防火,2000(2).
[2]吳喜之:復雜數(shù)據(jù)統(tǒng)計方法-基于R的應用[M].北京,中國人民大學出版社,2012.
[3]張智光、葉超飛:森林火災受害面積的灰色預測模型的研究[J].林業(yè)科學,1999.