張國(guó)發(fā)
(遵義醫(yī)學(xué)院 醫(yī)學(xué)信息工程學(xué)院,貴州 遵義 563006)
若時(shí)間序列yt為它的前期值和其當(dāng)期與前期隨機(jī)誤差項(xiàng)的線性函數(shù),即
則稱序列yt為自回歸移動(dòng)平均序列,該模型為(p,q)階自回歸移動(dòng)平均模型,記為ARMA(p,q)。參數(shù)φ1,φ2,…,φp為自回歸系數(shù),參數(shù)θ1,θ2,…,θp為移動(dòng)平均參數(shù),均是模型的待估參數(shù),隨機(jī)項(xiàng)ut為服從零均值、方差為δu2的正態(tài)分布,且互相獨(dú)立的白噪聲序列,成為隨機(jī)誤差項(xiàng)。而且ut與yt-1,yt-2,…,yt-p不相關(guān);若沒有θ1,θ2,…,θq部分,則稱序列yt為自回歸序列,該模型為p階自回歸模型,記為AR(p);若沒有φ1、φ2、…φp部分,則稱序列yt為移動(dòng)平均序列,該模型為q階移動(dòng)平均模型,記為MA(q)。
若時(shí)間序列yt經(jīng)過d次差分后可以使用ARMA模型來描述,則稱該時(shí)間序列服從ARIMA(p,d,q),其模型為:
由于建立時(shí)間序列模型的數(shù)據(jù)要滿足平穩(wěn)性條件,所以對(duì)數(shù)據(jù)進(jìn)行擬合預(yù)測(cè)前要對(duì)數(shù)據(jù)進(jìn)行平穩(wěn)化處理,可以通過時(shí)間序列的散點(diǎn)圖或者折線圖對(duì)數(shù)據(jù)序列進(jìn)行初步的平穩(wěn)性判斷,再者可以通過自相關(guān)圖的特性判斷,最后再構(gòu)建統(tǒng)計(jì)量進(jìn)行輔助判斷。對(duì)于非平穩(wěn)的數(shù)據(jù),我們可以采用差分的方法使其化為平穩(wěn)的時(shí)間序列,但其差分的次數(shù)不宜過多,因?yàn)檫@樣會(huì)導(dǎo)致模型中信息的大量丟失[1]。
模型識(shí)別包含模型的類型以及相應(yīng)階數(shù)p,d,q的確定。差分階數(shù)d的識(shí)別:如果時(shí)間序列的樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)出現(xiàn)衰減非常緩慢的情況,很可能是自回歸積分滑動(dòng)平均模型(Autoregressive Integrated Moving Average Model,ARIMA)過程。通常的識(shí)別是,首先計(jì)算一階差分序列的樣本自相關(guān)系數(shù)和偏自系數(shù),對(duì)結(jié)果符合自回歸滑動(dòng)平均(Auto-Regressive and Moving Average,ARMA )模型的特征,則說明時(shí)間序列對(duì)于某一ARIMA(p,1,q)過程。否則,必須嘗試進(jìn)行高階差分,直到產(chǎn)生穩(wěn)定的統(tǒng)計(jì)特性為止。p,q確定:拖尾,p階截尾,模型定階為AR(p)模型;q階截尾,拖尾,模型定階為MA(q)模型;拖尾,拖尾,模型定階為ARMA(p,q)模型。估計(jì)方面:本文采用ML進(jìn)行估計(jì),其優(yōu)點(diǎn)是充分應(yīng)用了每一個(gè)觀察值所提供的信息,因而它的估計(jì)精度高,同時(shí),還具有估計(jì)的一致性、漸進(jìn)正態(tài)性和漸進(jìn)有效性等許多優(yōu)良的統(tǒng)計(jì)性質(zhì)[2]。
(1)為了判斷所得到的模型是否適當(dāng),還必須進(jìn)行診斷檢驗(yàn),常用數(shù)理統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)檢驗(yàn),設(shè)殘差序列為e1,e2…en,H0:e1,e2…en是白噪聲序列,構(gòu)建統(tǒng)計(jì)量Q:最后利用χ2分布對(duì)時(shí)間序列模型進(jìn)行診斷檢驗(yàn)。(2)參數(shù)的檢驗(yàn)就是要檢驗(yàn)每個(gè)參數(shù)是否顯著非零,通常應(yīng)剔除不顯著參數(shù)所對(duì)應(yīng)的自變量并重新擬合,以構(gòu)造出更精煉的擬合模型[3]。
當(dāng)一個(gè)擬合模型通過了檢驗(yàn),說明在一定的置信水平下,該模型能有效地?cái)M合觀察值序列的波動(dòng),但這種模型并不是唯一的,對(duì)于這種情況,我們通常采用最小信息準(zhǔn)則(Akaike Information Criterion,AIC)和貝葉斯信息規(guī)則(Best In Class,BIC),這兩個(gè)準(zhǔn)則可以彌補(bǔ)根據(jù)自相關(guān)圖和偏自相關(guān)圖定階的主觀性,在有限的范圍內(nèi),幫助我們尋找相對(duì)最優(yōu)擬合模型。在經(jīng)過模型識(shí)別、參數(shù)估計(jì)、模型優(yōu)化后可以獲得一個(gè)較為滿意的時(shí)間序列預(yù)測(cè)模型。
首先繪制原始GDP散點(diǎn)圖,數(shù)據(jù)選取1952—2005年期間部分GDP數(shù)據(jù),散點(diǎn)圖顯示1990年之前增長(zhǎng)趨勢(shì)較慢,較為平穩(wěn),1990年之后數(shù)據(jù)呈現(xiàn)陡增趨勢(shì),與指數(shù)增長(zhǎng)方式相似,又由于一次和二次指數(shù)平滑得到的預(yù)測(cè)值都要明顯滯后于實(shí)際值,這樣就會(huì)產(chǎn)生較大的誤差。綜上分析,我們選用三次平滑法比較具有合理性。
指數(shù)平滑法的預(yù)測(cè)模型為Ft+1=ayt+(1-a)Ft,其中:yt—第t期的實(shí)際值;Ft—第t的預(yù)測(cè)值;a—平滑系數(shù),在Excel中,它稱為阻尼系數(shù)。由于我們采用三次指數(shù)平滑法,則用二次曲線預(yù)測(cè)模型Ft+m=at+btm+ctm2。
原數(shù)列波動(dòng)較大a宜取大值,即0.6~0.8,這樣可以加重近期觀察值的權(quán)重,使各期觀察值的權(quán)重由近到遠(yuǎn)較快地變小,分別取a=0.8,a=0.7,a=0.6做指數(shù)平滑,取a=0.6,標(biāo)準(zhǔn)誤差比較小,所以我們選擇a=0.6作為模型預(yù)測(cè)的標(biāo)準(zhǔn),2005年的=154 783.6,=131 248.3=112 389.4,經(jīng)計(jì)算:
預(yù)測(cè)方程為:
當(dāng)T=1時(shí),2006年的預(yù)測(cè)值為:F2006=191 509.6
當(dāng)T=2時(shí),2007年的預(yù)測(cè)值為:F2007=200 316.2
當(dāng)T=3時(shí),2008年的預(yù)測(cè)值為:F2008=209 415
GDP預(yù)測(cè)數(shù)據(jù)比較如表1所示。
表1 GDP預(yù)測(cè)數(shù)據(jù)比較
經(jīng)圖形法檢驗(yàn),1952—2005年歷年GDP數(shù)據(jù)具有明顯的上升趨勢(shì),因此此時(shí)間序列是非平穩(wěn)序列,同時(shí),經(jīng)自相關(guān)系數(shù)圖檢驗(yàn),自相關(guān)系數(shù)緩慢衰減,同樣說明序列存在一定的非平穩(wěn)性;如果序列是平穩(wěn)的,也不一定都值得建模,只有那些序列值之間具有密切的相依性,歷史數(shù)據(jù)對(duì)未來的發(fā)展有一定的影響,才值得我們花時(shí)間去挖掘歷史數(shù)據(jù)中的有效信息,以便用來預(yù)測(cè)序列未來發(fā)展,經(jīng)自相關(guān)函數(shù)懸針圖檢驗(yàn),顯示沒有一個(gè)樣本自相關(guān)系數(shù)嚴(yán)格等于零,但這些自相關(guān)系數(shù)比較大,都以一定的幅度做著波動(dòng),由此可知不是白噪聲序列,同樣,由白噪聲檢驗(yàn)可知,可知LB(6)=154.93,LB(12)=179.30,LB(18)=179.97,LB(24)=186.40,其p值都小于0.05;顯著表明該序列不是白噪聲序列,這完全符合事實(shí)。
(1)觀察圖形后,發(fā)現(xiàn)圖形成指數(shù)上升形式,變化浮動(dòng)比較大,表明其數(shù)據(jù)存在異方差,故作對(duì)數(shù)變換;經(jīng)對(duì)數(shù)變換后可以看出它有明顯的線性增長(zhǎng)趨勢(shì),對(duì)序列做初步識(shí)別。
(2)觀察取對(duì)數(shù)后的樣本自相關(guān)系數(shù),呈現(xiàn)緩慢下降的趨勢(shì),判斷該序列是非平穩(wěn)的。
(3)結(jié)合觀察,我們知道要對(duì)序列作差分運(yùn)算,作一階差分,再觀察差分后樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)圖;經(jīng)檢驗(yàn)在顯著性水平為0.01的條件下,由于各階延遲下χ2檢驗(yàn)統(tǒng)計(jì)量的p值顯著小于0.01,我們有很大把握(置信水平>99%)斷定序列屬于非白噪聲序列。
(4)對(duì)對(duì)數(shù)差分后的平穩(wěn)非白噪聲序列進(jìn)行擬合ARMA模型??梢缘玫綄?duì)數(shù)差分后序列的自相關(guān)系數(shù)很快衰減到0,具有1階不截尾的性質(zhì),而偏自相關(guān)也顯示出1階不截尾的性質(zhì),分別到6階才出現(xiàn)截尾,初步確定為ARMA(6,6),為了檢驗(yàn)所選擇的模型是否合適,對(duì)模型進(jìn)行最優(yōu)識(shí)別,經(jīng)計(jì)算可知p=2,q=0時(shí)BIC(2,0)=-6.006 74最小,因此模型ARMA(2,0)最優(yōu),故我們選擇ARIMA(2,1,0)模型。
(5)模型估計(jì)和顯著性檢驗(yàn):經(jīng)模型擬合優(yōu)度檢驗(yàn),所有系數(shù)估計(jì)全部通過檢驗(yàn),模型可以表示為:化簡(jiǎn)為y-y=0.112 25+0.594 3tt-1(yt-1-yt-2)+εt,則最終擬合模型為:yt=0.112 25+1.594 3yt-1-0.594 3yt-2+εt,對(duì)該模型進(jìn)行殘差檢驗(yàn),殘差是白噪聲序列,該模型適應(yīng)。
(6)進(jìn)行預(yù)測(cè),預(yù)測(cè)大陸地區(qū)未來3年的每年國(guó)民生產(chǎn)總值。GDP預(yù)測(cè)數(shù)據(jù)比較如表2所示。
由比較結(jié)果可以看出第二種方法的預(yù)測(cè)值與實(shí)際值最為接近,即該種方法最好,故最后選取第二種方法對(duì)未來3年的GDP做出預(yù)測(cè)。從文中分別采取確定性分析和隨機(jī)性分析的方法對(duì)時(shí)間序列做出分析和預(yù)測(cè)的結(jié)果可以看出,隨機(jī)性ARIMA模型的分析結(jié)果要好于確定性分析的指數(shù)模型,由于對(duì)于非平穩(wěn)的數(shù)據(jù)可以采用差分處理,但差分的次數(shù)不宜過多[4-5]。本文采用一次差分較為合理,同時(shí)又采用對(duì)數(shù)相結(jié)合的方法,取得了較為滿意的預(yù)測(cè)結(jié)果,為進(jìn)行類似數(shù)據(jù)的預(yù)報(bào)提供了一個(gè)參考依據(jù)。