魏艷華,王丙參,包麗莉
(天水師范學院 數(shù)學與統(tǒng)計學院,甘肅 天水 741001)
國民生產(chǎn)總值(GDP)反映了某地區(qū)總體經(jīng)濟狀態(tài),是政府制定宏觀經(jīng)濟政策的主要依據(jù).另外,GDP也常常作為預測模型的重要變量,非常重要.[1]正是因為以上原因,許多學者利用各種模型與算法對GDP進行預測,以便對國民經(jīng)濟發(fā)展提供決策依據(jù).[2-4]對GDP數(shù)據(jù)構成的時間序列進行預測,主要方法有兩類:[4]一是確定性分析,如曲線回歸、移動平均法、灰色預測法等,其結果易于解釋,但由于該類方法只利用了確定性信息,沒有利用隨機信息,故精度有限;二是隨機性分析,比如ARIMA模型、條件異方差模型,這類方法不僅利用了確定性信息,也利用了隨機信息,提高了精度,但缺點是不便于直觀解釋.本文根據(jù)甘肅省1978~2016年的GDP,分別建立了ARIMA模型與兩個殘差自回歸模型并進行比較分析,建議優(yōu)先采用利用延遲因變量建立的殘差自回歸模型進行預測,并對預測結果進行分析,對政府制定經(jīng)濟策略提供參考.
對差分平穩(wěn)時間序列(即經(jīng)差分后會變?yōu)槠椒€(wěn)時間序列的非平穩(wěn)時間序列)可以用ARIMA模型進行擬合.[1-3]ARIMA(p,d,q)模型結構如下:
對于一個時間序列,首先要進行預處理,即平穩(wěn)性檢驗與白噪聲檢驗.平穩(wěn)性檢驗方法主要有:
(1)時序圖法.根據(jù)平穩(wěn)序列的均值和方差均為常數(shù)可知,平穩(wěn)序列的時序圖應該始終在一個常數(shù)附近隨機波動,且波動范圍有界,反之則否.
(2)自相關圖法.通常,平穩(wěn)序列有短期相關性,故其延遲k期自相關系數(shù) ρ?(k)會快速衰減向0,反之,ρ?(k)衰減向0的速度較慢.
(3)單位根檢驗.
Barlett證明[4]:對于n期純隨機觀測序列
(1)假定原假設
其中m為延遲期數(shù);
(2)構造檢驗統(tǒng)計量
Box和 Pierce[4]推導出當統(tǒng)計量或 p值小于顯著性水平 α時,則以1-α的水平拒絕H0,即該序列不是純隨機序列.在大樣本場合,Q統(tǒng)計量的檢驗效果很好,但是在小樣本場合就效果較差,為此Box和Ljung又推導出統(tǒng)計量[4],它適合各種場合,人們普遍使用的是LB統(tǒng)計量.注意,延遲期數(shù)m的選擇會影響LB的統(tǒng)計表現(xiàn),通過蒙特卡羅方法可知取m≈ln(n)會有較好的功效.
下面利用ARIMA模型對甘肅省GDP進行預測.
(1)獲取甘肅省GDP觀測值序列.
從《國家統(tǒng)計年鑒》(2017)獲取甘肅省1978年至2016年的GDP數(shù)據(jù),見圖1與SAS程序(單位:億元).1978年之前,中國政策多變,且與改革開放后有很大差異,故1978年之前GDP數(shù)據(jù)不選用.
圖1 甘肅省GDP時序圖
根據(jù)甘肅GDP時序圖(見圖1)容易判定:1978年至2016年,甘肅省GDP整體呈上升趨勢,剛改革開放時,基數(shù)小,增長幅度也不大,從2000年以后,GDP增長很快,但最近幾年增速放緩,初步判定甘肅省GDP序列為非平穩(wěn)時間序列.特別注意,甘肅省2015年的GDP略微下降,這主要由中國當前社會經(jīng)濟大環(huán)境嚴峻以及甘肅特殊的自然與社會環(huán)境導致.另外,從GDP的自相關圖(略)也可發(fā)現(xiàn),自相關函數(shù)緩慢衰減到2倍標準差內(nèi),這是明顯的非平穩(wěn)特征.因此,可斷定GDP序列是非平穩(wěn)時間序列.
(2)嘗試對原序列進行ARIMA建模.
經(jīng)初步嘗試,直接對原GDP序列建立ARIMA模型,效果很差(殘差序列是非白噪聲序列).這是因為:在實踐中,很多金融時間序列(GDP以貨幣衡量,也可認為是金融時間序列)呈現(xiàn)一定異方差性質,且通常序列標準差與序列均值有某種正比關系.原序列2階差分后的時序圖(見圖2)也顯示波動隨時間而變化,且有增大趨勢,這也佐證了其異方差性.
圖2 原序列2階差分后的時序圖
將轉換函數(shù)g(xt)在序列均值 μt處進行一階泰勒展開:則
(3)利用對數(shù)序列進行ARIMA建模.
現(xiàn)對原序列進行對數(shù)變換,由對數(shù)序列時序圖(見圖3)可知,對數(shù)序列l(wèi)n xt保持了原序列的變化趨勢,且大致呈一條直線,故利用一階差分運算提取線性趨勢.由ln xt的一階差分時序圖(見圖4)可知,一階差分運算已經(jīng)成功從原序列提取了線性趨勢,差分后序列可初步認定為平穩(wěn)序列.由自相關圖可知,自相關系數(shù)快速落到2倍標準差內(nèi),故可認為對數(shù)序列l(wèi)n xt的一階差分后序列(記為dif(ln xt))是平穩(wěn)的.對dif(ln xt)進行白噪聲檢驗可得:延遲6階QLB統(tǒng)計量值為13.72,p值為0.0330,小于0.05,故dif(ln xt)是非白噪聲序列,有進一步分析的價值.
圖3 甘肅GDP取對數(shù)后的時序圖
圖4 對數(shù)序列的一階差分時序圖
圖5 一階差分序列的自相關圖
圖6 一階差分序列的偏自相關圖
顯然,自相關圖(見圖5)拖尾,偏自相關圖(見圖6)一階截尾,所以對序列l(wèi)n xt可建立ARIMA(1,1,0)模型.
SAS程序主體如下:
data gsgdp;
inputx@@;t=_n_;
logx=log(x);
logx1=dif(logx);
cards;
64.73 67.51 73.9 70.69 76.88
91.5 103.17 123.39 140.74 159.52
191.84 216.84 242.8 271.39 317.79
372.24 453.61 557.76 722.52 793.57
887.67 956.32 1052.88 1125.37 1232.03
1399.83 1688.49 1933.98 2277.35 2703.98
3166.82 3387.56 4120.75 5020.37 5650.2
6330.69 6836.82 6790.32 7200.37;
proc gplotdata=gsgdp;
plotx*t logx*t logx1*t;
symbol c=black i=spline v=star;
run;
proc arima data=gsgdp;
identify var=logx(1);estimate p=1;
forecast lead=3 id=tout=gsgdpjg;
run;
data gsgdpjg;
setgsgdpjg;
x=exp(logx);l95=exp(l95);u95=exp(u95);
forecast=exp(forecast);
run;
proc printdata=gsgdpjg;
var t forecast;where t>39;
run;
部分輸出結果如下:
顯然,序列l(wèi)n xt的擬合模型為ARIMA(1,1,0),模型為
且系數(shù)顯著性檢驗的 p值分別為<.0001,0.0100,通過了顯著性檢驗.根據(jù)最小信息準則,本模型的AIC=-109.349,SBC=-106.074.
對于殘差序列的白噪聲檢驗,延遲6階的 p值為0.7314,顯著大于0.1,這表明:模型的殘差項中不再顯著蘊含與樣本有關的信息,即構建ARIMA(1,1,0)模型有效.
顯然,序列l(wèi)n xt未來3期的預測值分別為8.9763,9.0856,9.2013.
將其進行對數(shù)轉化后可得甘肅2017-2019年的GDP預測值為7912.90,8827.46,9910.02億元.從整體看,甘肅省GDP預測值的相對誤差控制在5%的范圍內(nèi),預測結果較理想,擬合效果如圖7所示.
圖7 擬合效果圖
實際上,甘肅省2017年的GDP為7677.0億元,僅比上年增長3.6%,而利用ARIMA模型的預測值為7912.90億元,高估較多.這是因為,2017年復雜多變的國內(nèi)外環(huán)境和多年少有的嚴峻形勢導致了如此低的增長率,低于2016年4個百分點.這說明當前環(huán)境相對往年有較大變化,而ARIMA模型有效的前提是當前環(huán)境基本平穩(wěn).最后,希望政府能改變觀點,吸引人才,創(chuàng)造良好的商業(yè)環(huán)境,盤活經(jīng)濟.
殘差自回歸模型既利用了確定性信息,也利用了隨機性信息,故精度高,又便于解釋,[5-8]其模型結構為:
其中Tt是趨勢效應擬合,St是季節(jié)效應擬合,εt為殘差序列.
殘差自回歸模型1:由于甘肅省GDP時序圖呈拋物線趨勢增長且沒有周期,故考慮采用時間t的冪函數(shù)作為自變量,即采用擬合趨勢效應.
SAS程序主體如下:
datagsgdp;
inputx@@;
t=_n_;t2=t**2;
cards;
數(shù)據(jù)
;
proc autoreg data=gsgdp;
modelx=t t2/dwprob;
modelx=t t2/nlag=5 backstepmethod=m lnoint;
outputout=wang p=xp pm=xtrend;
run;
部分輸出結果如下:
顯然,DW統(tǒng)計量的值為0.1760,正相關檢驗的p值<.0001,故殘差序列顯著正相關,應對殘差建立自回歸模型.
顯然,最終擬合殘差自回歸模型為
在顯著性水平α=0.05下,模型系數(shù)都通過了顯著性檢驗.
圖8 擬合效果圖
顯然,本模型的 AIC為500.330585,SBC為506.984831.注意,此處的AIC、SBC與ARIMA模型中的AIC、SBC不能直接比較,因為它們對應的時間序列是不同的.進一步,趨勢擬合部分的R2為0.9315,整體擬合模型的R2高達0.9980,另外,擬合值的相對誤差控制在理想范圍內(nèi),故擬合效果(見圖8)好.相對于二次曲線回歸模型,R2由0.9696提升到0.9980,最小信息量SBC由585.461638下降為506.984831,這表明殘差自回歸模型提高了預測精度.
在SAS程序數(shù)據(jù)步,將甘肅GDP數(shù)據(jù)最后三個定義為缺失數(shù)據(jù)即可進行3期預測,見表1.
表1 三期預測值
可見,甘肅省2017~2019年GDP整體預測值分別為7374.946909,7492.630553,7717.752566億元.
殘差自回歸模型2:下面建立延遲因變量回歸模型,建模思路同上,SAS程序主體為:
data gsgdp;
inputx@@;
lagx=lag(x);
cards;
數(shù)據(jù)
;
proc autoreg data=gsgdp;
modelx=lagx/dwprob;
model x=lagx/nlag=5 backstep method=ml noint;out?
putout=wang p=xp;
run;
部分輸出結果為:
最終擬合模型為:
本模型的R2為0.9972,稍微低于殘差自回歸模型1,AIC為493.612456,SBC為496.887628,這兩項指標都優(yōu)于殘差自回歸模型1,MSE為24150,大于殘差自回歸模型1.此模型可解釋為:在外界沒有突變的情況下,甘肅省GDP每年遞增8.29%,且以上期殘差的0.5305倍進行修正,即本模型具有一定的自我修正功能.自我修正就是統(tǒng)計學習,其目的是使學到的模型對已知數(shù)據(jù)與未知數(shù)據(jù)都具有較好的預測功能,從而使模型更能適應外界的變化.進一步可得,一期預測值為7716.0051895億元.
采用共同標準可對三個模型進行直接比較,如果以MSE為標準,由于取對數(shù)后建立ARIMA模型(簡稱取對數(shù)ARIMA模型)的MSE為27992,最大,所以對于本文建立的三個模型,對數(shù)ARIMA模型的效果最差,殘差自回歸模型1最優(yōu).但是,對于2017年GDP的真實值而言,殘差自回歸模型2預測值的誤差最小,僅僅高估39億元,且模型便于直觀解釋,而殘差自回歸模型1預測值的誤差最大,低估303億元.從模型的復雜度而言,對數(shù)ARIMA模型經(jīng)多對數(shù)運算與差分運算后,采用了3個變量,殘差自回歸模型1直接采用了5個變量,而殘差自回歸模型2僅僅采用了3個變量,故殘差自回歸模型2最簡單.在所有可選擇的模型中,能夠解釋已知數(shù)據(jù)且非常簡單的模型才是好模型,故優(yōu)先選擇殘差自回歸模型2.另外,最近幾年,國內(nèi)外環(huán)境變化很大,中國GDP增速放緩,個別省份在某些年份甚至出現(xiàn)負增長,這也導致利用延遲變量建立的殘差自回歸模型更有效,即殘差自回歸模型2的適應性強,因此,在外界環(huán)境變化較大情況下,其預測精度可能更高.綜上所述,對甘肅省GDP進行預測,可優(yōu)先選用殘差自回歸模型2,因為它更能適合外界環(huán)境的變化.
ARIMA模型利用差分提取確定性信息,并對隨機信息建立ARMA模型,提高了估計精度,但不便于經(jīng)濟解釋.殘差自回歸模型結合了確定性分析與隨機性分析的優(yōu)點,精度較高,且經(jīng)濟意義直觀.另外,延遲1階因變量的自回歸模型與AR(1)模型是不同的,AR(1)模型只能對平穩(wěn)序列建模,而前者既可以對平穩(wěn)序列建模,也可以對非平穩(wěn)序列建模,適用面更廣.