張一洋 艾仁華 俞思雅 李 帆
(福州大學環(huán)境與安全工程學院,福建 福州 350108)
自然災(zāi)害對社會發(fā)展造成嚴重影響,對自然災(zāi)害的特征、過程、損失以及其他后果等方面開展研究成為學界熱點。例如張瑩等[1]基于省際面板數(shù)據(jù),對影響我國自然災(zāi)害損失的若干社會經(jīng)濟因素進行了檢驗和估計。He Yue等[2]以新浪微博的數(shù)據(jù)界定自然災(zāi)害的范圍,并對災(zāi)區(qū)網(wǎng)絡(luò)輿情進行研究。胡繼亮等[3]建立Probit模型,研究自然災(zāi)害頻率與損失度對于農(nóng)戶投保意愿的影響程度。
在進行自然災(zāi)害數(shù)據(jù)統(tǒng)計的過程中,研究人員嵌入時間因素對自然災(zāi)害情況進行分類說明。例如李媛媛[4]將新疆的自然災(zāi)害依照預(yù)警時間劃分為三類。王萍等[5]對2000—2017年中國知識資源總庫中關(guān)于災(zāi)害風險研究的中文文獻進行分析,了解當前災(zāi)害風險研究領(lǐng)域現(xiàn)狀和熱點。景楠等[6]用時間序列數(shù)據(jù),對新冠肺炎疫情構(gòu)建輿情模型并進行參數(shù)估計、模型診斷和模型評價。Xu Xiaoyan等[7]應(yīng)用經(jīng)驗?zāi)B(tài)分解和自回歸綜合移動平均相結(jié)合的預(yù)測方法研究自然災(zāi)害后的商品需求。畢碩本等[8]基于EEMD方法對1470—1911年黃河中下游地區(qū)旱澇災(zāi)害進行多時間尺度分析。Guo Naijing等[9]利用時間序列分析自然災(zāi)害和社會因素與災(zāi)情變化的相關(guān)性。張軍[10]建立時間序列組合模型對四川省自然災(zāi)害直接經(jīng)濟損失進行趨勢分析和預(yù)測。肖志權(quán)[11]利用時間序列預(yù)測模型獲取受災(zāi)人群分布以及人口數(shù)量統(tǒng)計。
在對自然災(zāi)害的時間序列研究中,有部分關(guān)于自然災(zāi)害造成的經(jīng)濟損失和受災(zāi)人口的文獻,但存在研究樣本選取時間和空間跨度較小,以及分析變量較為單一的問題。本文系統(tǒng)梳理了2014年3月至2020年5月(共75個月)全國自然災(zāi)害造成的直接經(jīng)濟損失與受災(zāi)人口數(shù)據(jù),以保證預(yù)警模型的全面和可靠。
按照時間順序排列所得的數(shù)組稱為時間序列[12]。時間序列可分為平穩(wěn)時間序列和非平穩(wěn)時間序列兩類[13]。非平穩(wěn)時間序列數(shù)據(jù)不具備趨勢,當數(shù)據(jù)存在趨勢時,回歸分析可能將無關(guān)變量擬合出顯著的關(guān)聯(lián)關(guān)系,這樣的分析會得出錯誤的結(jié)論、做出無效的預(yù)測,即發(fā)生所謂的虛假回歸,給實證研究和預(yù)測工作帶來風險[14]。
本文從國家災(zāi)情網(wǎng)和國家減災(zāi)網(wǎng),收集了我國2014—2020年自然災(zāi)害導致的直接經(jīng)濟損失和受災(zāi)人口的數(shù)據(jù),并繪制時間趨勢圖,見圖1和圖2。
圖1 2014—2020年直接經(jīng)濟損失情況時間趨勢圖
圖2 2014—2020年受災(zāi)人口情況時間趨勢圖
從圖1和圖2可以看出,受自然災(zāi)害影響的直接經(jīng)濟損失和受災(zāi)人口沒有單調(diào)的時間趨勢,且從現(xiàn)實而言自然災(zāi)害造成的直接經(jīng)濟損失和受災(zāi)人口根據(jù)每年受災(zāi)情況的不同而有所不同,一般不具有持續(xù)上升或下降的趨勢,因此可以初步認為所選數(shù)據(jù)具有平穩(wěn)時間序列的特征,但是需要進行實際的驗證。
為減少由于數(shù)據(jù)方面出現(xiàn)的異常值和數(shù)據(jù)量綱方面的問題,將直接經(jīng)濟損失和受災(zāi)人口原始數(shù)據(jù)標準化,使數(shù)據(jù)保持在一個量級,能更好的進行分析預(yù)測,見公式(1):
Zi=(Xi-μ)/δ
(1)
式(1)中,Zi為標準化后的值,Xi為原數(shù)值,μ為均值,δ為標準差。
由上文可知,直接經(jīng)濟損失和受災(zāi)人口沒有明顯的時間趨勢,故采用無時間趨勢的單位根檢驗,進而判斷后面的序列是否平穩(wěn),結(jié)果見表1。
表1 直接經(jīng)濟損失和受災(zāi)人口單位根檢驗結(jié)果
從表1可見,直接經(jīng)濟損失和受災(zāi)人口的檢定統(tǒng)計量分別為-4.598、-5.455,均小于各項檢驗值的臨界值,即認為可以在1%的水平上拒絕“存在單位根”的原假設(shè),所以認為直接經(jīng)濟損失和受災(zāi)人口是平穩(wěn)的時間序列。
自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)是時間序列時域分析的方法之一[15]。ARIMA模型是在自回歸滑動平均模型(Autoregressive Moving Average Model,ARMA)的基礎(chǔ)上先對數(shù)據(jù)進行差分,再將差分還原得到預(yù)測數(shù)據(jù),ARMA的一般表達式見式(2)。
(2)
式(2)中,yt為觀測值,p、q分別為自回歸階數(shù)和滑動平均階數(shù),αi和βj分別為自回歸系數(shù)和滑動平局系數(shù),εt為白噪聲。
通過觀察自相關(guān)圖與偏相關(guān)圖,確定時間序列的ARIMA(p,d,q)模型的具體形式。其中,p值由自相關(guān)圖的階數(shù)確定,d是差分的階數(shù),q值由偏相關(guān)圖的階數(shù)確定。
2.1.1 自相關(guān)分析
首先繪制直接經(jīng)濟損失和受災(zāi)人口的自相關(guān)圖,如圖3和圖4所示。
圖3 直接經(jīng)濟損失自相關(guān)圖
圖4 受災(zāi)人口自相關(guān)圖
從圖3、圖4看,直接經(jīng)濟損失和受災(zāi)人口的自相關(guān)圖都具有二階拖尾的特征。直接經(jīng)濟損失和受災(zāi)人口一階自相關(guān)系數(shù)都超過了95%的置信區(qū)間,因此都存在一階自相關(guān)。
2.1.2 偏相關(guān)
同理繪制直接經(jīng)濟損失和受災(zāi)人口的偏相關(guān)圖,如圖5和圖6所示。
圖5 直接經(jīng)濟損失偏相關(guān)圖
圖6 受災(zāi)人口偏相關(guān)圖
從圖5、圖6看,直接經(jīng)濟損失和受災(zāi)人口具有二階截尾的特征。直接經(jīng)濟損失和受災(zāi)人口一階偏相關(guān)系數(shù)超過了95%的置信區(qū)間,因此存在一階偏相關(guān)。
綜合自相關(guān)圖和偏相關(guān)圖來看,直接經(jīng)濟損失的自相關(guān)圖具有二階拖尾特征,而偏相關(guān)圖具有二階截尾特征;受災(zāi)人口的自相關(guān)圖具有二階拖尾特征,而偏相關(guān)圖則具有二階截尾特征,理論上兩者均使用AR(2)模型,但還需要通過赤遲信息和貝葉斯信息進行判斷。
赤遲信息準則(Akaike Information Criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)是統(tǒng)計學中模型選擇和評價的重要工具[16]。AIC和BIC可以權(quán)衡所估計模型的復雜度和此模型擬合數(shù)據(jù)的優(yōu)良性,兩者數(shù)值越小越好。
在Stata中,ARIMA模型被看作帶有擾動項的結(jié)構(gòu)模型,ARIMA模型公式中本質(zhì)上使用的是最大似然估計。
直接經(jīng)濟損失原序列通過判斷為平穩(wěn)時間序列,因此ARIMA(p,d,q)模型中d=0,且自相關(guān)圖具有二階拖尾特征而偏相關(guān)圖具二階截尾的特征,理論上使用AR(2)模型。但是仍有其他4種模型進行選擇,分別為ARIMA(1,0,1),ARIMA(1,0,2),ARIMA(2,0,1),ARIMA(2,0,2),最終將通過對比AIC值和BIC值的大小來確定使用哪一個模型,結(jié)果見表2。
表2 直接經(jīng)濟損失AIC和BIC結(jié)果
對比AR(2),ARIMA(1,0,1),ARIMA(1,0,2),ARIMA(2,0,1),ARIMA(2,0,2)的AIC值和BIC值,ARIMA(2,0,2)的AIC值和BIC值最小,因此選擇ARIMA(2,0,2)模型。
同理,受災(zāi)人口的檢驗結(jié)果如表3所示。
表3 受災(zāi)人口AIC和BIC結(jié)果
對比AR(2),ARIMA(1,0,1),ARIMA(1,0,2),ARIMA(2,0,1),ARIMA(2,0,2)的AIC值和BIC值,ARIMA(2,0,2)的AIC值和BIC值最小,因此選擇ARIMA(2,0,2)模型。
擬合模型后,需要檢驗殘差序列是否為白噪聲。生成新的殘差序列,直接經(jīng)濟損失殘差序列r1和受災(zāi)人口殘差序列r2,在正常情況下生成的殘差應(yīng)為平穩(wěn)時間序列。繪制殘差圖,見圖7和圖8。
圖7 直接經(jīng)濟損失殘差圖
圖8 受災(zāi)人口殘差圖
從圖中可以直觀看出,直接經(jīng)濟損失和受災(zāi)人口的殘差序列無明顯的上升或者下降趨勢,可認為是平穩(wěn)時間序列。為確定最終結(jié)果,還需對殘差進行單位根檢驗,結(jié)果見表4。
表4 殘差單位根檢驗結(jié)果
根據(jù)表4結(jié)果可知,直接經(jīng)濟損失和受災(zāi)人口的檢定統(tǒng)計量分別為-7.471和-6.574,均小于各項檢驗值的臨界值,即認為可以在1%的水平上拒絕“存在單位根”的原假設(shè),所以認為直接經(jīng)濟損失和受災(zāi)人口的殘差值是平穩(wěn)的時間序列。
系數(shù)顯著性檢驗通過后,要進行模型的有效性檢驗,也就是檢驗殘差性是否為白噪聲,用Q統(tǒng)計量進行白噪聲檢驗,檢驗結(jié)果見表5。
表5 白噪聲檢驗結(jié)果
從檢驗結(jié)果來看,r1的P值為0.3321>0.05,可以認為存在白噪聲,因此該序列的信息已經(jīng)被提取完畢,可知模型的擬合性較好。而r2的P值為0.0014<0.05,認為不存在白噪聲,因此模型不合理,故重新對ARIMA模型進行選取。按照AIC值和BIC值從小到大進行選取,選出白噪聲檢驗合格的ARIMA模型,結(jié)果見表6。
表6 受災(zāi)人口殘差值檢驗
根據(jù)表6的結(jié)果,只有ARIMA(2,0,1)模型的P值滿足要求為0.0517>0.05,可以認為存在白噪聲,因此該序列的信息已經(jīng)被提取完畢,可知模型的擬合性較好,可以開始模型的預(yù)測。同時,從其殘差圖(見圖9)和單位根檢驗(見表7)來看,ARIMA(2,0,1)模型也滿足條件。
圖9 受災(zāi)人口殘差圖(新)
從圖9可以看出,受災(zāi)人口的殘差序列無明顯的上升或者下降趨勢,可認為受災(zāi)人口是平穩(wěn)時間序列。
表7 殘差單位根檢驗結(jié)果(新)
根據(jù)結(jié)果檢定統(tǒng)計量的值為-7.681,均小于各項檢驗值的臨界值,即認為可以在1%的水平上拒絕“存在單位根”的原假設(shè),所以認為殘差值是平穩(wěn)的序列。
綜上結(jié)果來看,最終選定直接經(jīng)濟損失的ARIMA模型為ARIMA(2,0,2),受災(zāi)人口的ARIMA模型為ARIMA(2,0,1)。
對于模型,研究先采用樣本內(nèi)數(shù)據(jù)進行估計[17]。樣本內(nèi)預(yù)測是使用預(yù)測模型對樣本內(nèi)的原始值進行預(yù)測,其與實際樣本的差異即為殘差值。生成新的直接經(jīng)濟損失和受災(zāi)人口的時間序列作為預(yù)測值,將其比對原始值的擬合線,見圖10和圖11。
圖10 直接經(jīng)濟損失樣本內(nèi)預(yù)測
圖11 受災(zāi)人口樣本內(nèi)預(yù)測
圖10、圖11中,實線為原始值,虛線為樣本內(nèi)預(yù)測值。ARIMA模型對實際值進行了更為平均的計算,從直觀輪廓可以看出,圖中預(yù)測值與原始值時間趨勢相同,因此可以認為所選預(yù)測模型有一定的擬合效果。相比于直接經(jīng)濟損失的模型,受災(zāi)人口的模型整體擬合效果稍弱,但能其在時間節(jié)點的上升或下降趨勢與原始數(shù)據(jù)相近,能從直觀輪廓中看出受災(zāi)人口的歷年變化趨勢,因此認為所選預(yù)測模型有一定的擬合效果。從擬合的結(jié)果來看,在同一年內(nèi)一般具有兩個較大的起伏,最高值分別處于夏季7月份和冬季1月份,最低值分別處于春季3月份和秋季11月份,最高值約為最低值的2~4倍。
樣本外預(yù)測效果在未來預(yù)測方面更具有說服力[18]。樣本外預(yù)測首先要填補空缺值,Stata軟件能對未來一定時間內(nèi)的情況進行預(yù)測,該范圍取決于時間序列的單位,本文以月份為單位,新添加了12個月的空缺值,即時間范圍達到2021年5月末。生成新的時間序列作為樣本外預(yù)測值,將其與原始值進行比對,結(jié)果見圖12和圖13。
圖12 直接經(jīng)濟損失樣本外預(yù)測
圖13 受災(zāi)人口樣本外預(yù)測
圖12和圖13中實線為原始值,虛線為樣本外預(yù)測值。樣本外預(yù)測是在樣本內(nèi)預(yù)測的基礎(chǔ)上進行的,從圖12和圖13可以看出,樣本外預(yù)測值相較于原始值多出了一部分,該部分即為2020年6月初至2021年5月末的直接經(jīng)濟損失和受災(zāi)人口的預(yù)測值。從預(yù)測值的結(jié)果來看,接下來的12個月直接經(jīng)濟損失和受災(zāi)人口整體呈先上升再下降的趨勢。預(yù)測時間從2020年6月開始,此時處于夏季,是自然災(zāi)害的頻發(fā)階段,圖中的預(yù)測結(jié)果顯示在接下來的時間中,自然災(zāi)害導致的直接經(jīng)濟損失和受災(zāi)人口將會上升,這與實際情況相符合,但是在整體預(yù)測中只出現(xiàn)了一個較大的起伏,另一起伏表現(xiàn)不明顯。
①對比直接經(jīng)濟損失和受災(zāi)人口時間趨勢圖發(fā)現(xiàn),兩者變化趨勢基本相同,即自然災(zāi)害造成經(jīng)濟損失的同時也會產(chǎn)生受災(zāi)人口。一般來講,直接經(jīng)濟損失高,受災(zāi)人口也多,但是并非絕對,而是與具體造成損失的自然災(zāi)害有關(guān)。
②由相關(guān)性分析得到直接經(jīng)濟損失和受災(zāi)人口的自相關(guān)和偏相關(guān)系數(shù),并由AIC值和BIC值得到時間序列模型。通過白噪聲檢驗和殘差值檢驗,最終選定兩者的時間序列模型。
③從樣本內(nèi)預(yù)測來看,新生成的模型與原始值有一定差值,但是具有相同的起伏趨勢,預(yù)測值也滿足在冬夏季節(jié)直接經(jīng)濟損失和受災(zāi)人口多的特征。從樣本外預(yù)測來看,生成的模型是在樣本內(nèi)預(yù)測的基礎(chǔ)上形成的,具有樣本內(nèi)預(yù)測的特征。得到的結(jié)果滿足從春季到夏季先升后降的趨勢,與實際情況比較符合,對于預(yù)測未來直接經(jīng)濟損失和受災(zāi)人口有一定參考意義。