孫冠華
(南京大學(xué) 經(jīng)濟(jì)學(xué)院,南京 210093)
近年來(lái),學(xué)術(shù)界對(duì)回歸函數(shù)擬合的研究,無(wú)論在線性或非線性領(lǐng)域,新理論、新方法層出不窮,擬合精度越來(lái)越高,誤差也越來(lái)越小。然而,對(duì)時(shí)間序列的預(yù)測(cè)問(wèn)題在理論和實(shí)證方法上卻都鮮有突破,主要是因?yàn)樵谝粋€(gè)價(jià)值觀念越來(lái)越多元的社會(huì)里,新事物、新變化的快速產(chǎn)生使原序列發(fā)生變異的幾率增加,時(shí)間序列所包含信息越來(lái)越多,因而準(zhǔn)確預(yù)測(cè)變得越來(lái)越難。在這方面,王維和范彥偉(2012)[1]針對(duì)CPI時(shí)間序列的非線性特征,利用混沌神經(jīng)網(wǎng)絡(luò)構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)結(jié)果表明該模型在6個(gè)月內(nèi)具有較高的精度;程建華和于戒嚴(yán)(2014)[2]利用向量自回歸(VAR)模型對(duì)2014年CPI各個(gè)月的值做出預(yù)測(cè),結(jié)果顯示全年將現(xiàn)“先抑后揚(yáng)”態(tài)勢(shì),漲幅約2.4%。楊新臣和吳仰儒(2010)[3]將小波分析和支持向量回歸(SVR)方法引入CPI預(yù)測(cè)問(wèn)題,新方法充分提取CPI時(shí)間序列各種隱周期和非線性,可以顯著提高原時(shí)間序列的預(yù)測(cè)精度。本文采用的幾種預(yù)測(cè)方法對(duì)CPI預(yù)測(cè)問(wèn)題也有改進(jìn)作用,其中用核方法進(jìn)行預(yù)測(cè)所得結(jié)果的最大改進(jìn)幅度為65.40%。
時(shí)間序列的平穩(wěn)性是ARMA模型建模的基礎(chǔ),本文選擇CPI序列樣本期為1990年1月到2017年1月,共計(jì)325個(gè)樣本。選取ADF方法檢驗(yàn)CPI序列的平穩(wěn)性,原假設(shè)為序列不平穩(wěn)。經(jīng)計(jì)算,原序列的Dickey-Fuller統(tǒng)計(jì)量為-2.8902,p值為0.2011,不能顯著拒絕CPI序列不平穩(wěn)的假設(shè),因而不能直接對(duì)CPI序列進(jìn)行ARMA模型建模。
對(duì)原CPI時(shí)間序列進(jìn)行一階差分,對(duì)差分之后的序列進(jìn)行平穩(wěn)性檢驗(yàn)。經(jīng)ADF檢驗(yàn),差分后序列的Dickey-Fuller統(tǒng)計(jì)量為-4.0376,p值為0.01,序列為平穩(wěn)序列,因而可以用差分之后的CPI序列進(jìn)行ARMA模型的建模。
1.2.1 長(zhǎng)期預(yù)測(cè)情形
記差分之后的CPI時(shí)間序列為ΔCPIt,即ΔCPIt=CPIt-CPIt-1。考慮到ARMA模型是線性時(shí)間序列分析中的經(jīng)典模型,這里用其對(duì)ΔCPIt時(shí)間序列進(jìn)行估計(jì)和預(yù)測(cè)。首先對(duì)模型進(jìn)行定階,對(duì)于時(shí)間序列的定階,比較經(jīng)典的法則如AIC和BIC準(zhǔn)則。但由于ARMA模型具有形式上的特殊性,Tsay和Tiao(1984)[4]提出EACF方法確定ARMA模型的階數(shù)。取前240個(gè)樣本為訓(xùn)練樣本,后85個(gè)樣本為預(yù)測(cè)樣本,計(jì)算得ΔCPIt序列的EACF定階圖如圖1所示。
圖1 差分CPI序列EACF定階圖
其中橫向?yàn)镸A模型的滯后階數(shù),縱向?yàn)锳R模型的滯后階數(shù),交叉處圈表示用對(duì)應(yīng)ARMA模型擬合結(jié)果不顯著,交叉處叉號(hào)表示結(jié)果顯著。階數(shù)的最終確定采用三角形法則,即以全部由圈圍成的三角形的最左上方頂點(diǎn)對(duì)應(yīng)的坐標(biāo)為ARMA模型的階數(shù),這里階數(shù)確定為(1,1),模型表達(dá)式為:
其 中 (θ0,θ1,β1,σ2)′是 參 數(shù) 集 ,et是 服 從 正 態(tài) 分 布N(0,σ2)的隨機(jī)變量。采用條件最小二乘法估計(jì)參數(shù),得到參數(shù)最終估計(jì)為(-0.0037,-0.4249,0.7194,0.60)T,擬合誤差范數(shù)為52.306。圖2是用前240個(gè)觀察值,即從1990年1月至2009年12月的真實(shí)CPI時(shí)間序列數(shù)據(jù)繪出的擬合效果示意圖,其中實(shí)線為真實(shí)樣本數(shù)據(jù),虛線為擬合函數(shù)。
圖2 ARMA模型CPI走勢(shì)擬合效果圖(1990.1-2009.12)
本文采用ARMA模型對(duì)后85個(gè)CPI月度數(shù)據(jù)(2010.1-2017.1)進(jìn)行預(yù)測(cè),預(yù)測(cè)誤差范數(shù)為12.528。圖3是預(yù)測(cè)效果示意圖,從圖中可以看出,預(yù)測(cè)偏差較大,尤其是在與預(yù)測(cè)始點(diǎn)相距步數(shù)較多的點(diǎn)上,ARMA模型的預(yù)測(cè)幾乎為常值,未能有效反映實(shí)際CPI序列的變化情況,帶來(lái)了較大的誤差。究其原因,一是相比于短期預(yù)測(cè),長(zhǎng)期預(yù)測(cè)本身具有難度大、精度不高的特點(diǎn)。二是作為反映市場(chǎng)一籃子物價(jià)的重要指標(biāo),CPI的變化受到宏觀經(jīng)濟(jì)政策影響較大,因而其時(shí)間序列表現(xiàn)出一定的非線性特征[5]。而ARMA模型是經(jīng)典線性模型,對(duì)CPI序列的非線性部分進(jìn)行描繪時(shí)偏差較大。
圖3 ARMA模型真實(shí)CPI數(shù)據(jù)預(yù)測(cè)效果圖(2010.1-2017.1)
1.2.2 短期預(yù)測(cè)情形
進(jìn)一步地,可以用以上的方法以ARMA模型對(duì)CPI時(shí)間序列作出短期預(yù)測(cè)。這里選取1990年1月至2014年的CPI數(shù)據(jù)作為訓(xùn)練樣本,共計(jì)300個(gè)。以2015年1月至2017年1月的CPI數(shù)據(jù)作為預(yù)測(cè)樣本,共計(jì)25個(gè)。根據(jù)與上文中相同的計(jì)算方法,得到ARMA模型短期預(yù)測(cè)誤差為3.599,預(yù)測(cè)效果圖如圖4所示。
圖4 ARMA模型真實(shí)CPI數(shù)據(jù)預(yù)測(cè)效果圖(2015.1-2017.1)
針對(duì)ARMA模型未能有效刻畫(huà)CPI序列中的非線性因素導(dǎo)致預(yù)測(cè)精度不高的結(jié)果,本文嘗試神經(jīng)網(wǎng)絡(luò)、核方法等幾種非線性方法,考察其能否對(duì)預(yù)測(cè)精度有所提高。
(1)長(zhǎng)期預(yù)測(cè)情形
在變量之間的函數(shù)關(guān)系不明朗時(shí),利用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模是優(yōu)先選擇的方向。在建模時(shí),神經(jīng)網(wǎng)絡(luò)模型不要求建模者提供具體的函數(shù),函數(shù)關(guān)系被當(dāng)作模型的“黑箱”進(jìn)行處理。建模者只需提供輸入、輸出進(jìn)行訓(xùn)練,并用訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行模擬。神經(jīng)網(wǎng)絡(luò)對(duì)函數(shù)預(yù)測(cè)問(wèn)題的處理為建模者提供了方便,同時(shí)模型能夠保持良好的精度。丁剛等(2006)[7]指出,只要有足夠多的隱含層數(shù)和足夠多的神經(jīng)元數(shù)目,神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任意連續(xù)泛函。因此,在本文中,以時(shí)間序列{C PIt-1,t=2,...T } 為輸入,以時(shí)間序列{C PIt,t=2,...T }為輸出進(jìn)行訓(xùn)練,用逐步預(yù)測(cè)法對(duì)CPI時(shí)間序列預(yù)測(cè)問(wèn)題進(jìn)行研究?;诟黝?lèi)神經(jīng)網(wǎng)絡(luò)應(yīng)用普遍性不同,本文依次采用應(yīng)用較廣的BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和預(yù)測(cè)。
BP(Backpropagation)網(wǎng)絡(luò)是將Widrow-Hoff學(xué)習(xí)算法拓展至非線性可微傳遞函數(shù)和多層神經(jīng)網(wǎng)絡(luò)而得到的網(wǎng)絡(luò)模型。BP網(wǎng)絡(luò)是多層前饋型神經(jīng)網(wǎng)絡(luò),其核心是誤差反向傳播算法,在反向傳播的過(guò)程中調(diào)整權(quán)值和閾值、減小誤差。隱含層傳遞函數(shù)要求是可微函數(shù),一般采用Sigmond函數(shù),即y=(1+e-x)-1。BP網(wǎng)絡(luò)可以有多個(gè)隱含層,因而要提高BP網(wǎng)絡(luò)的預(yù)測(cè)精度可以有兩種基本選擇:第一種是增加隱含層的個(gè)數(shù),第二種是增加每個(gè)隱含層上的神經(jīng)元結(jié)點(diǎn)數(shù)目,或者也可以將兩種方法一同加以運(yùn)用。
表1列出了用BP網(wǎng)絡(luò)模型對(duì)原CPI進(jìn)行擬合和預(yù)測(cè)的誤差分布情況,其中體現(xiàn)了以上兩種增加預(yù)測(cè)精度方法的運(yùn)用。
表1 BP網(wǎng)絡(luò)模型CPI序列長(zhǎng)期預(yù)測(cè)誤差情況表(2010.1-2017.1)
從表1的結(jié)果來(lái)看,對(duì)于隱含層數(shù)為1的BP網(wǎng)絡(luò),較多的神經(jīng)元結(jié)點(diǎn)數(shù)帶來(lái)的改善程度較高;在存在多個(gè)隱含層的情況下,達(dá)到相似精度需要的每層神經(jīng)元結(jié)點(diǎn)數(shù)較低;增加神經(jīng)元層數(shù)可以增加改善預(yù)測(cè)精度的概率??傮w來(lái)看,這些結(jié)論都是符合直覺(jué)的。
RBF(Radical Basis Function)網(wǎng)絡(luò)是3層前向型神經(jīng)網(wǎng)絡(luò),只有1個(gè)隱含層,沒(méi)有誤差反向傳播機(jī)制。若要求結(jié)果與期望輸出的誤差較小,需在隱含層設(shè)置比BP網(wǎng)絡(luò)隱含層更多的神經(jīng)元數(shù)目。RBF網(wǎng)絡(luò)使用的徑向基函數(shù)一般為高斯函數(shù),即 y=exp(-x2/(2δ2)),其中δ為固定常數(shù)。指數(shù)函數(shù)的強(qiáng)衰減性使得只有輸入落在空間中一個(gè)很小的指定區(qū)域時(shí),隱含層神經(jīng)元才可以做出非零的響應(yīng),因而也說(shuō)明了需要更多的隱含層神經(jīng)元來(lái)達(dá)到指定的精度。在RBF網(wǎng)絡(luò)的建模應(yīng)用中,擴(kuò)展系數(shù)(sc)是其中的關(guān)鍵參數(shù),應(yīng)根據(jù)神經(jīng)元數(shù)目與訓(xùn)練樣本、目標(biāo)樣本以及擬合誤差情況進(jìn)行合理選擇。
表2報(bào)告了用RBF網(wǎng)絡(luò)對(duì)原CPI時(shí)間序列進(jìn)行長(zhǎng)期預(yù)測(cè)的誤差,同時(shí)報(bào)告了設(shè)定誤差目標(biāo)、擴(kuò)展系數(shù)以及預(yù)測(cè)誤差范數(shù)。
表2 RBF網(wǎng)絡(luò)CPI序列長(zhǎng)期預(yù)測(cè)誤差情況表(2010.1-2017.1)
從表2中可以看到,RBF網(wǎng)絡(luò)的長(zhǎng)期預(yù)測(cè)效果不佳,對(duì)于大部分情形,RBF網(wǎng)絡(luò)長(zhǎng)期預(yù)測(cè)誤差大于ARMA模型長(zhǎng)期預(yù)測(cè)誤差。擴(kuò)展系數(shù)對(duì)RBF網(wǎng)絡(luò)計(jì)算精度有重要影響,改變擴(kuò)展系數(shù)預(yù)測(cè)誤差也隨之改變。
(2)短期預(yù)測(cè)情形
用以上相同的方法,以1990年1月至2014年12月的300個(gè)CPI數(shù)據(jù)作為訓(xùn)練樣本,對(duì)剩余的2015年1月至2017年1月的25個(gè)樣本進(jìn)行預(yù)測(cè),可以得到BP網(wǎng)絡(luò)短期預(yù)測(cè)結(jié)果如表3所示。
表3 BP網(wǎng)絡(luò)CPI序列短期預(yù)測(cè)誤差情況表(2015.1-2017.1)
從表3中可以看到,相對(duì)于長(zhǎng)期預(yù)測(cè)(表1),BP網(wǎng)絡(luò)模型的短期預(yù)測(cè)精度比ARMA模型有較大提高,最大提高幅度為49.18%。表4報(bào)告了RBF網(wǎng)絡(luò)短期預(yù)測(cè)的結(jié)果。
從表4中可以看到,與BP網(wǎng)絡(luò)模型相似,RBF網(wǎng)絡(luò)在短期預(yù)測(cè)精度方面比ARMA模型有較大的提高,最大提高幅度為51.85%。
表4 RBF網(wǎng)絡(luò)CPI序列長(zhǎng)期預(yù)測(cè)誤差情況表(2015.1-2017.1)
近年來(lái),隨著經(jīng)濟(jì)模型化趨勢(shì)得到學(xué)界認(rèn)同,主流經(jīng)濟(jì)學(xué)文獻(xiàn)中的數(shù)理模型數(shù)量持續(xù)增加,經(jīng)典參數(shù)模型的固有缺陷也逐漸顯現(xiàn)。首先,經(jīng)典參數(shù)模型需要預(yù)先設(shè)定總體的分布形式,以正態(tài)分布和t分布為常用分布。但實(shí)際上,這些常用的分布形式在經(jīng)濟(jì)生活中并不常見(jiàn),因而用以這些分布為前設(shè)的參數(shù)模型進(jìn)行估計(jì)和計(jì)算時(shí)會(huì)引入誤差。其次,精準(zhǔn)擬合參數(shù)模型需要的樣本量較大,雖有些可以用大數(shù)據(jù)作為支撐,但也有捉襟見(jiàn)肘的時(shí)候。
非參數(shù)模型可以較好地彌補(bǔ)這兩方面的缺陷。同時(shí),大幅預(yù)測(cè)精度的提高是可能的。
第一,非參數(shù)模型更多應(yīng)用的是樣本在總體中位置,即樣本秩的信息,而并不需要具體的分布形式,解決了分布錯(cuò)誤設(shè)定引入的誤差問(wèn)題。
第二,非參數(shù)方法在樣本量較小的情況下就可以得到令人滿(mǎn)意的結(jié)果,大大降低了結(jié)果對(duì)樣本數(shù)量的依賴(lài)性,這是對(duì)參數(shù)模型的重要改進(jìn)[8]。
Nadaraya和Watson在1964年同時(shí)提出的核方法是一種常用的非參數(shù)方法,對(duì)于函數(shù)擬合和預(yù)測(cè)等問(wèn)題都有良好的效果。核方法中較為重要的參數(shù)是窗寬,對(duì)窗寬的選取有交叉驗(yàn)證法、列舉法等幾種方式,最優(yōu)窗寬對(duì)應(yīng)的誤差最小,窗寬選取太大或太小都將增大誤差。
(1)長(zhǎng)期預(yù)測(cè)情形
本文用列舉法選擇窗寬。根據(jù)經(jīng)驗(yàn),在解釋變量極差0.15倍左右的窗寬為最優(yōu)窗寬。因此本文構(gòu)造以5為起點(diǎn),0.05為步長(zhǎng),10為終點(diǎn)的窗寬序列,每次實(shí)驗(yàn)選擇一個(gè)窗寬,并以序列{C PIt, t=2,...,240} 作為被解釋變量,序列{CPIt-1, t=1,...,239} 作為解釋變量。此時(shí) ARMA 模型預(yù)測(cè)誤差為12.528。用公式(2)進(jìn)行一步預(yù)測(cè):
每步預(yù)測(cè)值加入下一步的解釋變量并擬合,得到第二步的預(yù)測(cè)值,這里的Kh(x)=K(x/h)/h是標(biāo)準(zhǔn)化后的核函數(shù)。如此重復(fù)25次得到預(yù)測(cè)結(jié)果及誤差,選擇使得誤差范數(shù)最小的實(shí)驗(yàn)對(duì)應(yīng)窗寬為預(yù)測(cè)窗寬。表5中列舉了誤差較小的幾次實(shí)驗(yàn)對(duì)應(yīng)窗寬。
表5 核方法長(zhǎng)期預(yù)測(cè)窗寬及對(duì)應(yīng)誤差表(2010.1-2017.1)
從表3中可以看到,與BP神經(jīng)網(wǎng)絡(luò)模型與RBF神經(jīng)網(wǎng)絡(luò)模型類(lèi)似,核方法對(duì)CPI時(shí)間序列的長(zhǎng)期預(yù)測(cè)效果并沒(méi)有比ARMA模型有顯著提高。同時(shí),如前文所言,窗寬的選擇是核方法的重要組成部分,從表5中可以看到,窗寬與提高比率在數(shù)值上呈現(xiàn)倒“U”型依賴(lài)關(guān)系,在窗寬較大或較小的兩側(cè)預(yù)測(cè)誤差較大,而在8.00處左右的中心位置誤差較小。下頁(yè)圖5所示為自2010年1月到2017年1月的實(shí)際CPI數(shù)據(jù)(實(shí)線)與采用窗寬為8.00的核方法進(jìn)行預(yù)測(cè)得到的CPI數(shù)據(jù)(虛線)比較示意圖。與圖3相比,核方法與ARMA模型在長(zhǎng)期預(yù)測(cè)方面有共同的缺陷,那就是對(duì)于多步之后預(yù)測(cè)值趨于常數(shù),不能反應(yīng)實(shí)際CPI的變化。這個(gè)結(jié)果是符合大多數(shù)領(lǐng)域長(zhǎng)期預(yù)測(cè)準(zhǔn)確度較差這一事實(shí)的。
(2)短期預(yù)測(cè)情形
圖5 核方法真實(shí)CPI預(yù)測(cè)效果示意圖(2010.1-2017.1)
用上文中的方法考慮預(yù)測(cè)訓(xùn)練樣本數(shù)為300,預(yù)測(cè)樣本數(shù)為25個(gè)的情形。這里的預(yù)測(cè)區(qū)間為2015年1月至2017年1月,屬于短期預(yù)測(cè)。經(jīng)過(guò)計(jì)算,預(yù)測(cè)窗寬和對(duì)應(yīng)誤差如表6所示。
表6 核方法預(yù)測(cè)窗寬及對(duì)應(yīng)誤差表(2015.1-2017.1)
從表4中可以看出,核方法的短期預(yù)測(cè)較ARMA模型有較大提高,提高比例與窗寬呈現(xiàn)倒“U”型的依賴(lài)關(guān)系,最大提高比例為45.10%,對(duì)應(yīng)的最優(yōu)窗寬是0.60。圖6為對(duì)應(yīng)于窗寬為0.60時(shí)2015年1月至2017年1月的實(shí)際CPI(實(shí)線)與預(yù)測(cè)CPI(虛線)走勢(shì)圖,從圖中可以看出,相比ARMA模型(圖4),核方法雖然沒(méi)有對(duì)局部波動(dòng)進(jìn)行更加精細(xì)地刻畫(huà),但是仍然能夠較好地把握CPI的變化趨勢(shì),因而減小了預(yù)測(cè)的誤差,大幅提高了預(yù)測(cè)的精度。
圖6 核方法真實(shí)CPI預(yù)測(cè)效果示意圖(2015.1-2017.1)
CPI是國(guó)民經(jīng)濟(jì)運(yùn)行的指示燈,本文采用ARMA模型對(duì)CPI時(shí)間序列進(jìn)行擬合和預(yù)測(cè),得到短期預(yù)測(cè)誤差為3.599,長(zhǎng)期預(yù)測(cè)誤差為12.528。針對(duì)ARMA模型沒(méi)有準(zhǔn)確描繪CPI時(shí)間序列中的非線性結(jié)構(gòu)問(wèn)題,本文進(jìn)一步采用BP網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)和非參數(shù)方法對(duì)預(yù)測(cè)作了改進(jìn),三種方法在長(zhǎng)期預(yù)測(cè)方面精度與ARMA模型相近。而在短期預(yù)測(cè)方面,三種方法預(yù)測(cè)精度均較ARMA模型有較大提高,最大提高比率為51.85%。
對(duì)CPI序列進(jìn)行精確管理對(duì)提高經(jīng)濟(jì)運(yùn)行效率、增進(jìn)居民獲得感有重要意義。本文采用的幾種方法可以較為準(zhǔn)確地對(duì)CPI序列進(jìn)行預(yù)測(cè),非參數(shù)核方法預(yù)測(cè)效果是其中比較好的一種,其計(jì)算量適中,可以方便加以運(yùn)用。而對(duì)于神經(jīng)網(wǎng)絡(luò)方法,其模型構(gòu)建比較簡(jiǎn)單,可復(fù)制性強(qiáng),實(shí)際中應(yīng)用較廣泛。但是,由于不需要提供精確函數(shù)關(guān)系,神經(jīng)網(wǎng)絡(luò)模型改進(jìn)手段也同時(shí)受到限制,預(yù)測(cè)效率的進(jìn)一步提高存在一定難度。