韓 苗, 周圣武, 金子龍
(中國礦業(yè)大學(xué) 數(shù)學(xué)學(xué)院,江蘇 徐州 221116)
季節(jié)變動,是指社會經(jīng)濟(jì)現(xiàn)象隨著季節(jié)的變化而呈現(xiàn)的周期性變動.不分析研究、認(rèn)識掌握現(xiàn)象的季節(jié)變化規(guī)律,常常會使模型的預(yù)測作用減弱甚至喪失.針對季節(jié)性時間序列,一般在統(tǒng)計預(yù)測課程教學(xué)中,可供選擇的方法較多,如溫特線性和季節(jié)性指數(shù)平滑模型、季節(jié)性交乘趨向模型、含虛擬變量回歸模型、ARMA模型等方法[1-2].不同預(yù)測模型各具特點(diǎn),在教學(xué)中為了綜合比較這幾種模型,本文從實(shí)際問題出發(fā),探討模型的應(yīng)用實(shí)踐.
國內(nèi)生產(chǎn)總值GDP是衡量經(jīng)濟(jì)發(fā)展水平的重要指標(biāo)之一,研究GDP的預(yù)測分析問題具有重要的實(shí)際意義.很多學(xué)者針對不同類型的數(shù)據(jù),如季度GDP[3-5]、年度GDP[6]及地區(qū)GDP[7-9]等進(jìn)行分析,追求預(yù)測精度更高的模型及算法.由于本文考察的是季節(jié)性時間序列建模方法,因此選取我國國內(nèi)生產(chǎn)總值當(dāng)季值(億元)進(jìn)行研究,基于四種傳統(tǒng)的季節(jié)性時間序列預(yù)測方法進(jìn)行統(tǒng)計建模,模型易于理解而且預(yù)測效果較優(yōu),為我國國內(nèi)生產(chǎn)總值預(yù)測分析提供參考.在綜合建模分析的基礎(chǔ)上,強(qiáng)化應(yīng)用實(shí)踐,培養(yǎng)學(xué)生解決復(fù)雜問題的綜合能力和高階思維.
溫特線性和季節(jié)性指數(shù)平滑模型是描述既有線性趨勢又有季節(jié)變化序列的模型,一般有兩種形式,一種是線性趨勢與季節(jié)相乘形式;另一種是線性趨勢與季節(jié)相加形式.這里考慮相乘形式,即Holter-Winter 季節(jié)乘積模型,預(yù)測模型為
Ft+m=(St+btm)It-L+m,
(1)
式(1)中,m為預(yù)測的超前期數(shù),且包含時序的三種成分:平穩(wěn)性(St)、趨勢性(bt)、季節(jié)性(It).它們都是建立在三個平滑值基礎(chǔ)上的,分別為
(2)
bt=β(St-St-1)+(1-β)bt-1, 0<β<1,
(3)
(4)
式中,L為季節(jié)周期長度.I為季節(jié)調(diào)整因子,α,β,γ為三個平滑參數(shù).
季節(jié)性交乘趨向模型如下:
(5)
式中,Vt是時間序列的趨勢項;fi是時間序列各季的季節(jié)指數(shù),且
式中,F(xiàn)i是各期實(shí)際的季節(jié)指數(shù),由當(dāng)期實(shí)際值除以趨勢值得到,T是季節(jié)周期的長度,m是季節(jié)周期的個數(shù).
在回歸模型中,一般解釋變量即自變量都是連續(xù)取值的,但實(shí)際問題中,影響被解釋變量變化的可能還有一些屬性變量.如學(xué)歷、性別、職業(yè)對收入的影響;一些月度或季度數(shù)據(jù)可能會受季節(jié)的影響.為了量化這些因素,通常會根據(jù)因素的屬性類別,構(gòu)造只取“0”或“1”的虛擬變量.虛擬變量的引入通常有三種形式:加法形式、乘法形式、加乘同時引入形式.
對于一般的一元線性回歸模型
yt=β0+β1xt+εt,
(6)
εt滿足回歸模型基本假設(shè).加法形式是將虛擬變量直接加到上面模型中,即
yt=β0+β1xt+αDt+εt,
(7)
式中Dt是虛擬變量,只取“0”或“1”.乘法形式是將虛擬變量與解釋變量相乘后引入模型,即
yt=β0+β1xt+γDtxt+εt.
(8)
加法與乘法同時引入的形式(加乘形式)是將虛擬變量直接加到模型中,同時又將虛擬變量與解釋變量相乘后引入模型,即
yt=β0+β1xt+αDt+γDtxt+εt.
(9)
自回歸移動平均(ARMA)模型是經(jīng)典的時間序列分析方法,廣泛應(yīng)用于各個領(lǐng)域.該模型建模步驟主要包括平穩(wěn)性檢驗、模型識別、模型建立與選擇和預(yù)測.如果時間序列包含季節(jié)性和趨勢性特征,可以通過d階逐期差分和D階季節(jié)差分使其平穩(wěn)化,再建立ARMA模型.通常將模型記為ARIMA(p,d,q)(P,D,Q)s,具體形式如下:
φp(B)ΦP(Bs)(1-B)d(1-Bs)Dyt=θq(B)ΘQ(Bs)εt,
(10)
式中,p是自回歸階數(shù);q是移動平均階數(shù);P是季節(jié)性自回歸階數(shù);Q是季節(jié)性移動平均階數(shù).其中
φp(B)=1-φ1B-φ2B2-…-φpBp
是p階自回歸算子;
θq(B)=1-θ1B-θ2B2-…-θqBq
是q階移動平均算子;
ΦP(Bs)=1-Φ1Bs-Φ2B2s-…-ΦPBPs
是季節(jié)性P階自回歸算子;
ΘQ(Bs)=1-Θ1Bs-Θ2B2s-…-ΘQBQs
是季節(jié)性Q階移動平均算子.
本文采用的數(shù)據(jù)為2000年第1季度至2020年第4季度中國國內(nèi)生產(chǎn)總值當(dāng)季值(億元)季度數(shù)據(jù),數(shù)據(jù)來源國家統(tǒng)計局,數(shù)據(jù)序列如圖1所示.從長期來看,季度GDP序列總體呈現(xiàn)上升的趨勢,并且具有明顯的季節(jié)性特征.
圖1 中國國內(nèi)生產(chǎn)總值時序圖
下面采用前面介紹的四種常用的季節(jié)性時間序列建模方法對我國國內(nèi)生產(chǎn)總值進(jìn)行預(yù)測分析.這里將2000年第1季度至2018年第4季度數(shù)據(jù)作為訓(xùn)練樣本,用于建立模型,選取2019年第1季度至2020年第4季度數(shù)據(jù)作為測試樣本以檢驗?zāi)P偷念A(yù)測效果,最終預(yù)測2021年的季度GDP數(shù)據(jù).
建立溫特線性季節(jié)性指數(shù)平滑模型,首先要給定初值,分別選取初值
初始季節(jié)指數(shù)可以通過下面公式計算
其中
其次,要選取平滑參數(shù),這里通過反復(fù)試驗,綜合比較最終選取平滑參數(shù)分別為α=0.5,β=0.5,γ=0.6,利用式(1)—(4)計算可得各期預(yù)測值.
最終得到預(yù)測結(jié)果2001年第2季度至2018年第4季度預(yù)測期內(nèi)的均方根誤差RMSE=1759.115404,平均絕對百分誤差MAPE=1.521%;2019年第1季度至2020年第4季度樣本期外的均方根誤差RMSE=13639.86425,平均絕對百分誤差MAPE=4.166%.
根據(jù)季度GDP時間序列的非線性變化特征,建立如下季節(jié)性交乘趨向模型:
式中,β0+β1t+β2t2是GDP時間序列非線性趨勢部分.
設(shè)國內(nèi)生產(chǎn)總值當(dāng)季值序列的趨勢方程為
Vt=β0+β1t+β2t2,
采用最小二乘法,得到趨勢的估計方程(括號中的數(shù)據(jù)為對應(yīng)t檢驗統(tǒng)計量的值):
且可以得到R2=0.981975,接近1,擬合程度高.F檢驗值為1988.43,顯然F檢驗通過.D.W=2.098135,表明隨機(jī)誤差項不存在序列相關(guān),趨勢方程整體擬合效果較好.
表1 季節(jié)指數(shù)與修正的季節(jié)指數(shù)
由上面結(jié)果可得
通過計算可得2000年第1季度至2018年第4季度預(yù)測期內(nèi)的均方根誤差RMSE=3697.749096,平均絕對百分誤差MAPE=4.276%;2019年第1季度至2020年第4季度樣本期外的均方根誤差RMSE=14767.88079,平均絕對百分誤差MAPE=4.716%.
這里通過引入虛擬變量來刻畫季節(jié)性特征,同時因為時間序列具有遞增的非線性趨勢特征,在二次多項式函數(shù)趨勢基礎(chǔ)上,引入表示季節(jié)因素的虛擬變量,分別記作
由于引入虛擬變量,區(qū)分了不同季度的影響,更好的揭示了變量之間的關(guān)系,因此會提高預(yù)測精度.對于虛擬變量的引入,本文分別采用加法形式,乘法形式以及加乘同時引入形式模型.通過數(shù)值結(jié)果分析,模型優(yōu)化,最終采用乘法形式的虛擬變量回歸模型.具體模型如下:
yt=β0+β1t+β2t2+β3D1t×t+β4D2t×t+β5D3t×t+εt,
采用最小二乘法進(jìn)行參數(shù)估計,估計結(jié)果見下表.
表2 含虛擬變量回歸模型參數(shù)估計
模型整體擬合效果較好,通過預(yù)測分析,可得2000年第1季度至2018年第4季度樣本期內(nèi)的均方根誤差RMSE=3714.049862,平均絕對百分誤差MAPE=4.441%;2019年第1季度至2020年第4季度樣本期外的RMSE=14027.03523,MAPE=3.921%.
3.4.1 時間序列特征分析
首先對GDP當(dāng)季值序列yt進(jìn)行平穩(wěn)性檢驗.采用單位根檢驗,結(jié)果見表3,ADF=-1.221931,在顯著性水平(1%~10%)下,大于ADF 臨界值,且相伴概率為0.8979,充分說明該序列是非平穩(wěn)的.
表3 我國國內(nèi)生產(chǎn)總值時間序列平穩(wěn)性檢驗
為了消除趨勢并減小序列的波動性,對原序列取自然對數(shù),并做逐期差分,通過分析比較最終選擇做1階逐期差分.從自相關(guān)與偏自相關(guān)分析圖來看,序列的趨勢基本消除,但當(dāng)k=4,k=8時,樣本的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)顯著不為0,表明季節(jié)性存在,繼續(xù)做一階季節(jié)差分.從表4的計算結(jié)果可以看出我國國內(nèi)生產(chǎn)總值取對數(shù)差分后的時間序列通過了平穩(wěn)性檢驗,且序列通過0均值檢驗.說明原始序列通過取對數(shù),1階逐期差分和1階季節(jié)差分后可以建立ARMA模型,即可建立ARIMA(p,1,q)(P,1,Q)4模型,模型階數(shù)需要綜合平穩(wěn)化序列的自相關(guān)和偏自相關(guān)圖以及評價準(zhǔn)則來選擇.
表4 我國國內(nèi)生產(chǎn)總值取對數(shù)差分后時間序列平穩(wěn)性檢驗
3.4.2 模型的識別
通過觀察平穩(wěn)序列的自相關(guān)和偏自相關(guān)結(jié)果來幫助選擇模型階數(shù),建立合適的模型進(jìn)行預(yù)測分析,平穩(wěn)化序列的自相關(guān)和偏自相關(guān)結(jié)果如圖2所示.
圖2 我國國內(nèi)生產(chǎn)總值平穩(wěn)化后自相關(guān)偏自相關(guān)圖
結(jié)合自相關(guān)和偏自相關(guān)分析,考慮模型形式分別為ARIMA(2,1,3)(1,1,1)4和ARIMA(2,1,3)(2,1,2)4,同時ARIMA(2,1,3)(2,1,2)4模型又具體考慮了兩種情況.
3.4.3 模型的建立與選擇
由計算結(jié)果可知,三個模型都滿足平穩(wěn)可逆條件.將三個模型的參數(shù)估計和相關(guān)檢驗結(jié)果匯總列入表5和表6.
表5 不同ARIMA模型參數(shù)估計結(jié)果
表6 不同ARIMA模型檢驗結(jié)果
另外,模型的殘差序列通過檢驗.比較表中各個模型的檢驗結(jié)果,第三個模型的AIC和SC較小,不管是樣本期內(nèi)還是樣本期外的MAPE值顯示其預(yù)測精度最高.因此選擇第三個模型比較合適,其展開式為
(1+0.7609B4+0.1174B8)(1-0.3053B-0.6783B2)(1-B4)(1-B)ln(yt)
=(1-0.6302B+0.6432B2+0.9840B3)(1+0.0148B4+0.9447B8)εt.
3.4.4 預(yù)測
為了比較四種模型的預(yù)測效果,筆者將真實(shí)值與四種模型預(yù)測結(jié)果繪制成下面圖3,Y表示GDP時間序列,YF1表示溫特線性和季節(jié)性指數(shù)平滑模型預(yù)測結(jié)果,YF2表示季節(jié)性交乘趨向模型預(yù)測結(jié)果,YF3表示含虛擬變量回歸模型預(yù)測結(jié)果,YF4表示ARIMA模型預(yù)測結(jié)果.從圖3來看,四個模型整體預(yù)測效果較優(yōu).對于樣本期外的預(yù)測,從圖形來看預(yù)測誤差較大的時間點(diǎn)是2020年第1季度,這由于新冠肺炎疫情突發(fā)事件的影響,導(dǎo)致預(yù)測誤差偏大.但同時也看到了,疫情雖然短期會對經(jīng)濟(jì)造成重大沖擊,但是并不會改變中國經(jīng)濟(jì)長期向好的根本趨勢.
從圖3中很難定量比較四個模型預(yù)測結(jié)果的差別,為了精確比較差異,將數(shù)值結(jié)果匯總至表7.由于不同的模型建模會存在初值問題,差分問題,因此會有部分樣本數(shù)據(jù)損失.這里為了方便比較,將樣本期內(nèi)時間段統(tǒng)一為2004年第1季度至2018年第4季度.樣本期外仍然統(tǒng)一為2019年第1季度至2020年第4季度.
圖3 我國國內(nèi)生產(chǎn)總值四種模型預(yù)測結(jié)果
從表7中的數(shù)據(jù)可以看出,從樣本期內(nèi)擬合效果來看,ARIMA模型最優(yōu),溫特線性和季節(jié)性指數(shù)平滑模型次之,季節(jié)交乘趨向模型和含虛擬變量回歸模型擬合效果相對差些.但是從樣本期外預(yù)測效果來看,含虛擬變量回歸模型預(yù)測效果最好,溫特線性和季節(jié)性指數(shù)平滑模型次之.四種模型預(yù)測結(jié)果存在差異,但整體效果較優(yōu).
表7 四種模型預(yù)測結(jié)果比較分析
為了分析2021年各季度GDP的發(fā)展?fàn)顩r,進(jìn)一步對2021年四個季度GDP進(jìn)行預(yù)測,數(shù)值結(jié)果見表8,可以看出未來我國國內(nèi)生產(chǎn)總值仍然是保持穩(wěn)步增長態(tài)勢.
表8 2021年我國國內(nèi)生產(chǎn)總值四種模型預(yù)測結(jié)果(億元)
本文以我國國內(nèi)生產(chǎn)總值時間序列為研究對象,重點(diǎn)探究季節(jié)性時間序列的建模方法,從定量的角度分析我國國內(nèi)生產(chǎn)總值的變化趨勢,以及對未來的發(fā)展預(yù)測分析.結(jié)果表明四種模型整體對我國國內(nèi)生產(chǎn)總值的預(yù)測效果較好.但2020年第1季度預(yù)測結(jié)果偏差較大,這主要是因為新冠肺炎疫情突發(fā)事件的影響,從而說明對于突發(fā)事件預(yù)測也是無能為力.雖然疫情短期對經(jīng)濟(jì)造成重大沖擊,但并不影響中國經(jīng)濟(jì)長期向好的基本面.比如從ARIMA 預(yù)測結(jié)果來看,2021年GDP將增長8.1%.預(yù)測結(jié)果支持2021年3月5日李克強(qiáng)總理作政府工作報告中2021年國內(nèi)生產(chǎn)總值增長6%以上的預(yù)期目標(biāo).在教學(xué)過程中,適時開展思政教育[10],引導(dǎo)學(xué)生用全面、辨證、科學(xué)、長遠(yuǎn)的眼光看待我國的經(jīng)濟(jì)發(fā)展,堅定信心,激發(fā)學(xué)生學(xué)以致用、科技報國的家國情懷和使命擔(dān)當(dāng).
通過綜合案例分析,培養(yǎng)學(xué)生運(yùn)用統(tǒng)計軟件在數(shù)據(jù)收集、數(shù)據(jù)整理、數(shù)據(jù)分析等方面的操作技能.培養(yǎng)學(xué)生深入理解統(tǒng)計建模思想,提升統(tǒng)計思維.統(tǒng)計預(yù)測建模是建立在數(shù)據(jù)的基礎(chǔ)上的,是通過數(shù)據(jù)進(jìn)行推斷的,因此教學(xué)過程中要教育學(xué)生樹立正確的統(tǒng)計責(zé)任意識,嚴(yán)肅認(rèn)真、實(shí)事求是.統(tǒng)計建模允許人們根據(jù)自己的理解提出不同的預(yù)測方法,因此統(tǒng)計建模對結(jié)果的判斷原則不能是“對”或“錯”,只能是“好”或“壞”,在教學(xué)過程中要強(qiáng)調(diào)統(tǒng)計方法的選擇與優(yōu)化,培養(yǎng)學(xué)生精益求精的工匠精神.
本文采用的是傳統(tǒng)的季節(jié)性時間序列建模方法,模型易于理解而且預(yù)測效果較優(yōu).在建模過程中也嘗試使用BP神經(jīng)網(wǎng)絡(luò)方法[9],但是從預(yù)測結(jié)果來看,該方法對于樣本期內(nèi)預(yù)測效果較優(yōu),但是樣本期外預(yù)測精度不高.在不斷探索優(yōu)化的過程中,激發(fā)學(xué)生學(xué)習(xí)興趣,鼓勵嘗試創(chuàng)新組合預(yù)測模型[8-9,11]、周期ARMA模型[12]等,提高課程學(xué)習(xí)的創(chuàng)新性和挑戰(zhàn)度.
致謝作者非常感謝相關(guān)文獻(xiàn)對本文的啟發(fā)以及審稿專家提出的寶貴意見.