咬登魁,段功豪
(1. 安徽省地質環(huán)境監(jiān)測總站,安徽 合肥 230001;2.武漢工程大學計算機科學與工程學院,湖北 武漢 430205)
近年來,武漢市多次受到強降雨的影響,給市民的生活與城市的發(fā)展都造成了重大的損失[1-2]。一方面,中長期高強度降雨可能會引發(fā)山體滑坡、泥石流和洪澇等自然災害,威脅著人民的生命和財產安全;而另一方面,降雨量的減少會引發(fā)農田、河流和湖泊的干旱問題,破壞土壤原有的生態(tài)結構。如果能根據(jù)現(xiàn)有的降雨量的數(shù)據(jù)對未來的降雨趨勢做出科學且準確可信的預測,不僅能夠有效的減少暴雨洪澇和少雨干旱等自然災害帶來的巨大經(jīng)濟損失,而且對于工農業(yè)的發(fā)展建設、市民的出行等也具有十分重大的實際意義。然而,受下墊面性質與氣候環(huán)境多樣及變異的影響,降雨量的累積過程存在著大量的隨機性與不確定性,目前還難以通過準確成因去預測未來某一時段的降雨,傳統(tǒng)的趨勢外預測模型也不適合該類時間序列數(shù)據(jù)的特征[3-5]。根據(jù)相關文獻資料記載以及前人的經(jīng)驗,ARIMA模型(Autoregressive Integrated Moving Average Model,差分自回歸移動平均模型)可用于非平穩(wěn)數(shù)據(jù)序列的分析與預測[6]。因此,本文以武漢市2009-2019年間歷年各月的降雨量為基礎在對各月降雨量數(shù)據(jù)序列進行平穩(wěn)性和正態(tài)分布檢驗的基礎上進行模式識別、參數(shù)估計和模型檢驗等步驟,采用SPSS軟件經(jīng)過多次擬合選優(yōu),分別建立了多類參數(shù)支持下的季節(jié)性ARIMA模型,為武漢市的降雨氣象準確預報工作提供了方法論上的一定更新。
ARIMA模型作為一類常用的隨機時間序列模型,是一種精度較高的時間序列短期預測方法[7]。模型的基本思想是將預測對象隨時間推移而形成的數(shù)據(jù)序列視為一個非平穩(wěn)的隨機序列,對該非平穩(wěn)的時間序列數(shù)據(jù)進行若干次差分處理,使其變成平穩(wěn)的時間序列,然后用時間序列的觀測值去建立該隨機過程的自回歸滑動平均模型,用所建立的最優(yōu)模型進行預測和分析[8-10]。而SARIMA模型,即季節(jié)性ARIMA模型,使用等于季節(jié)數(shù)的滯后差異來消除加性季節(jié)效應。該模型共有7個參數(shù),分別是自回歸階數(shù)(p)、差分次數(shù)(d)、移動平均階數(shù)(q)、季節(jié)性自回歸階數(shù)(P)、季節(jié)性差分次數(shù)(D)、季節(jié)性移動平均階數(shù)(Q)和單個季節(jié)期間的移動步數(shù)(m),記作ARIMA。其通用表達式為:
φp(B)φp(Bm)(1-B)d(1-Bm)Dyt=θq(B)ΘQ(Bm)εt
(1)
其中:
φp(B)=1-φ1(B)-φ2(B2)-…-φp(Bp)
(2)
Φp(Bm)=1-Φ1(Bm)-Φ2(B2m)-…-Φp(Bpm)
(3)
θq(B)=1-θ1(B)-θ2(B2)-…-θq(Bq)
(4)
ΘQ(Bm)=1-Θ1(Bm)-Θ2(B2)-…-ΘQ(BQm)
(5)
式(1)中:yt為所研究的時間序列數(shù)據(jù);B表示延遲算子;)φ1,)φ2,…,)φp為自回歸系數(shù);Φ1,Φ2,…,Φp為季節(jié)性自回歸系數(shù);θ1,θ2,…,θq為移動平均系數(shù);Θ1,Θ2,…,ΘQ為季節(jié)性移動平均系數(shù);為白噪聲序列。
SRAIMA模型較為復雜,本文采用SPSS軟件里的專家建模方式和自行定階的方式,通過比較平穩(wěn)化的R方、顯著性、以及正態(tài)化的BIC等參數(shù)來擇優(yōu)確定模型最終的參數(shù)值[11]。若顯著性滿足要求且BIC值較小以及R2值較大,則說明模型的擬合效果越好。BIC準則可定義為:
BIC=-2lnL+ln(n)k
(6)
式(6)中:L為模型的極大似然函數(shù);n為樣本大?。籯為模型的獨立參數(shù)個數(shù)。
首先利用SPSS軟件對武漢市2009-2016年各月降雨量數(shù)據(jù)序列進行繪圖,如圖1所示。從圖上可看出,2009-2016年武漢市降雨量呈波浪式變化,整體上在每年的夏季降雨量明顯增加。初步判斷所研究的降雨量序列為非平穩(wěn)序列,需要進行平穩(wěn)化處理。
圖1 武漢市2009-2016年各月降雨量時序圖
圖1中的時序圖觀察到時序數(shù)據(jù)有明顯的季節(jié)性,因此數(shù)據(jù)預處理中使用季節(jié)性差分。結果如圖2所示,在使用了一階差分和一階季節(jié)性差分后的時序圖相較于圖2中的序列圖,序列波動更加平穩(wěn),此時認為降雨量的時間序列已經(jīng)平穩(wěn),符合ARIMA模型的建模要求。
在數(shù)據(jù)預處理的過程可以得到基礎模型ARIMA,模型中前后的參數(shù)“1”分別表示進行一階差分處理和一階季節(jié)性差分處理。根據(jù)差分后的平穩(wěn)序列,繪制降雨量的自相關(ACF)圖與偏相關(PACF)圖,如圖3和圖4所示。
圖2 武漢市2009-2016年各月降雨量一階差分和一階季節(jié)性差分平穩(wěn)化時序圖
圖3 平穩(wěn)化序列的ACF圖 圖4 平穩(wěn)化序列的PACF圖
PACF圖中延遲為1的地方有明顯的突起,并且1階延遲后基本都處于置信區(qū)間內,因此具有非季節(jié)性1階截尾的性質,可在初步建立的模型的基礎上建立ARIMA(1,1,0)(0,1,0)。反觀ACF圖,在滯后編號為12處有明顯的突起,表明模型具有季節(jié)性MA(1)的性質,考慮進一步建立ARIMA(1,1,0)(0,1,1)。
在非季節(jié)性延遲上,分別根據(jù)圖像建立ARIMA(1,1,1)(0,1,1)、ARIMA(1,1,2)(0,1,1)、ARIMA(1,1,3)(0,1,1)等不同參數(shù)下的模型以及一些衍生出來的其他模型。此處衍生出的其他模型主要是根據(jù)模型中不確定的階數(shù),對其進行窮舉的方式進行模擬,窮舉的結果并非全部都會接受,而是根據(jù)部分指標來進行篩選。此處的窮舉參考了ARIMA建模中的Hyndman-Khandakar算法的思想,即使用逐步搜索來遍歷模型空間,通常是對當前模型的p或者q在就近范圍內進行增與減,對比模型對應的指標進行判斷。根據(jù)初步擬合出的四種模型及衍生出的其他模型進行如下表1所示的各項指標的記錄,為上述各種模型的指標對比。
表1 不同季節(jié)性參數(shù)下Arima模型擬合對比
以上結果中的顯著性指標均大于0.05,表明結果均可以接受。其中,BIC指標最小的為模型ARIMA(1,1,1)(0,1,1),這與使用專家建模方法擬合出的模型ARIMA(0,0,0)(0,1,1)相比略大了些,但從另一方面來看,平穩(wěn)的R2指標比專家建模法要多,即擬合優(yōu)度要好很多。選擇R2最大的模型為ARIMA(1,1,2)(0,1,2),因此選擇該模型作為最終的降雨量預測模型。
將模型ARIMA在SPSS軟件中進行具體數(shù)值的擬合,結果如下圖5(a)中所示。從圖中不難發(fā)現(xiàn),模型對于歷史降雨量的情況擬合較好。利用該模型對2017-2019年各月的降雨量進行模擬預測,圖5(b)顯示了武漢市2017-2019年各月的降雨量預測效果。在預測圖中,紅色的預測曲線與藍色的實際值曲線的走勢比較吻合。
圖5 ARIMA(1,1,2)(0,1,2)模型擬合和預測效果
從圖5中發(fā)現(xiàn),橫軸上分隔線的右側可以看出實際值與預測值的差異,雖然通過直觀的觀察發(fā)現(xiàn)結果的精準度不高,但是ARIMA模型對降雨量走勢的預測比較準確,尤其是在2017年9月-2018年5月和2019年1月-2019年5月這些月份降雨量的預測走勢關鍵點的預測精度很高。
經(jīng)過上述建模及預測過程的經(jīng)驗總結,下一步對2020年的降雨量進行預測。首先將2009-2019年的數(shù)據(jù)作為原始數(shù)據(jù),通過數(shù)據(jù)預處理、確定模型、模型定參和結果預測步驟,建立2020年的降雨最優(yōu)季節(jié)性模型ARIMA(1,2,3)(0,1,2)如下所示。
從圖5中發(fā)現(xiàn),橫軸上分隔線的右側可以看出實際值與預測值的差異,雖然通過直觀的觀察發(fā)現(xiàn)結果的精準度不高,但是ARIMA模型對降雨量走勢的預測比較準確,尤其是在2017年9月-2018年5月和2019年1月-2019年5月這些月份降雨量的預測走勢關鍵點的預測精度很高。
經(jīng)過上述建模及預測過程的經(jīng)驗總結,下一步對2020年的降雨量進行預測。首先將2009-2019年的數(shù)據(jù)作為原始數(shù)據(jù),通過數(shù)據(jù)預處理、確定模型、模型定參和結果預測步驟,建立2020年的降雨最優(yōu)季節(jié)性模型ARIMA(1,2,3)(0,1,2)如下所示。
圖6 武漢市2020年降雨量短期預測圖
上圖分隔線左側為武漢市2009-2019年各月降雨量的數(shù)據(jù),分隔線右側為所預測的降雨量。從圖6中不難發(fā)現(xiàn),2020年降雨量的總體趨勢還是同每年的一樣:降雨量先增加到峰值,再逐漸減少。同時還可以發(fā)現(xiàn)藍色線條在2020年初的降雨量與2020年末的降雨量均有負值,這是由于在ARIMA模型的趨勢預測中,上一年的年末降雨量較少,同時降雨量的走勢同樣驟減,在模型確定的參數(shù)下這種減少的趨勢直接持續(xù)影響到了2020年部分月份降雨量,導致數(shù)值上呈現(xiàn)出負值。所采用的ARIMA(1,2,3)(0,1,2)模型綜合了所有衍生模型的優(yōu)點,各項模型參數(shù)指標也達到了最優(yōu),對武漢市2020年月降雨量的預測是準確、有效的,本文所提供的基于降雨長序列季節(jié)性SARIMA模型的動態(tài)建立流程是一種行之有效的方法。
通過對武漢市2009-2016年各月降雨量進行時間序列分析,在對數(shù)據(jù)進行預處理、模式識別和模型檢驗的基礎上,選擇ARIMA(1,1,1) (0,1,2)與ARIMA(1,2,3)(0,1,2)模型對武漢市降雨量進行模擬與預測。
(1)除個別年份擬合值與實際值差異較大外(如:2010、2011和2016年,出現(xiàn)了極端的降雨情況),其他年份的誤差都較小,說明該模型的擬合效果較好,結果比較可靠。
(2)利用ARIMA(1,1,1) (0,1,2)模型對2017-2019年武漢市各月降雨量進行預測,預測曲線與實際曲線的走勢比較吻合,預測值與實際值差異較小,說明該模型具有較高的預測精度,可用于武漢市各月降雨量的預測。
(3)利用ARIMA(1,2,3)(0,1,2)模型建立2020年的降雨量預測曲線,由于前后兩組實驗在數(shù)據(jù)源的存在較大的差異,后者的實驗數(shù)據(jù)比前者多出3年的數(shù)據(jù),即36個實驗數(shù)據(jù),因此2020年擬合的結果也更優(yōu)一些。這說明用于預測的數(shù)據(jù)數(shù)量越多,預測過程中的擬合優(yōu)度越高,最終的預測精度也會相應提高。
在地理位置上與武漢臨近且氣候與武漢一致的其他城市也可以考慮該模型,或者得出該模型的方法進而得出具體模型來進行降雨量的預測。對于其他氣候與武漢有著很大差異的城市或地區(qū),該模型的適用性還有待進一步的驗證和優(yōu)化。