李昌良,江 燕,王殿君,韓繼光
(1.昆明理工大學 a.質量發(fā)展研究院; b.信息工程與自動化學院,昆明 650093;2.山西財經(jīng)大學 會計學院,太原 030006; 3.云南農(nóng)業(yè)大學 機電工程學院,昆明 650201)
?
組合核RVM在CPI預測中的應用研究
李昌良1a,江燕2,王殿君1b,韓繼光3
(1.昆明理工大學a.質量發(fā)展研究院; b.信息工程與自動化學院,昆明650093;2.山西財經(jīng)大學 會計學院,太原030006; 3.云南農(nóng)業(yè)大學 機電工程學院,昆明650201)
摘要:針對傳統(tǒng)預測模型訓練時間長、誤差大的缺陷,提出高可靠的組合核相關向量機模型用于CPI預測。構建組合核相關向量機預測模型,根據(jù)我國1987年1月至2015年2月的CPI月度數(shù)據(jù),得到CPI的回歸預測曲線,再與支持向量機和單核相關向量機進行對比。仿真模擬表明:組合核相關向量機預測模型預測CPI的平均誤差可控制在1%以內(nèi),運行時間為1.35 s,預測結果良好。
關鍵詞:組合核;相關向量機;CPI
一、引言
居民消費價格指數(shù)(CPI),是衡量居民購買生活相關產(chǎn)品及服務價格波動的宏觀經(jīng)濟指標,通常用以反映通貨水平,與貨幣供應量、國內(nèi)生產(chǎn)總值、匯率、投資與消費、需求和供給等有著極其重要的聯(lián)系,它們之間相互依存相互作用。它既是宏觀經(jīng)濟運行的“晴雨表”,也通過價格變化影響人民生活水平。全球經(jīng)濟復蘇乏力,我們國家自2014年9月CPI重返“1時代”,也面臨著很大的經(jīng)濟下行壓力,因而為保持價格平穩(wěn),預測CPI異常重要。
目前,研究和預測CPI問題的方法主要有經(jīng)典時間序列方法和智能算法。經(jīng)典時間序列方法如ARMA、ARCH、BVAR等大多是線性模型,而這些模型通常要求數(shù)據(jù)具有正態(tài)性和平穩(wěn)性,因此對于如同CPI這類非線性非平穩(wěn)時間序列的預測存在著一定的局限性[1-2]。為克服以上不足,一些學者引入智能算法進行時間序列的分析,其中支持向量機可以解決小樣本、非線性、高維數(shù)、局部極小點等[3-5]實際問題,常用于金融時間序列的預測[6-8]。但支持向量機的應用需要在馬瑟條件下選擇最優(yōu)參數(shù),且算法復雜、運算速度較慢、預測精度不高;因此 Zhang Lei等將核函數(shù)與相關向量機結合研究、診斷、預測電力系統(tǒng)故障[9-11],韓敏等運用相關向量機進行時間序列預測,通過相關向量機自選最優(yōu)參數(shù),取得了較好的效果[12]。
上述成果為本文研究提供了極好的參考價值和理論依據(jù)。同時,組合核相關向量機也恰好彌補了上述方法的不足,且可以利用相關向量機的概率預測優(yōu)勢得到其他預測模式無法得到的預測誤差范圍[10]?;诖?,本文選用組合核相關向量機進行居民消費價格指數(shù)的預測。
二、組合核RVM 的CPI預測模型
基于上述CPI的預測特點,結合2001年Michael E Tipping博士基于貝葉斯概率和最大似然等相關理論建立組合核RVM 的CPI預測模型,通過最大化邊際似然函數(shù)獲取關聯(lián)向量和權重。權重和核函數(shù)充分描述了相關向量機的結構。核函數(shù)是指一組輸入的數(shù)據(jù)投影到一個高維特征空間的基函數(shù)。
(一)RVM 算法
此處將具系統(tǒng)高度非線性的CPI數(shù)據(jù)進行外推數(shù)據(jù)重組處理,假定CPI訓練樣本總數(shù)為N,則N=(x1,x2,x3,…,xN), 進一步對訓練樣本集進行處理,形成M列數(shù)據(jù),一共產(chǎn)生M-1列測試集,第M列為訓練集:
(1)
(2)
其中,k(x,xi)是核函數(shù),wi是回歸系數(shù)。對于整個樣本集的似然函數(shù)為:
(3)
(4)
其中,α=[α0,α1,…,αN]T是超參數(shù),每個超參數(shù)αi都有對應的wi。由貝葉斯公式即可得到權重后驗分布的數(shù)學表達式:
p(t|W,α,σ2)=
(5)
m=σ-2∑ΦTt
(6)
∑=(σ-2ΦTΦ+A)-1
(7)
其中,A=diag(α1,α2,…,αN)。并通過集成權重獲得最大似然函數(shù):
(8)
其中,協(xié)方差可表示C=σ2I+ΦA-1ΦT。分別對α和σ2求偏導,令其等于0,可得:
(9)
(10)
其中mi是第i個元素,且γi=1-αi∑ii,∑ii是矩陣∑的第i個對角元。
相關向量機不斷重復運算,同時不斷更新m和∑,直到滿足收斂要求或達到最大迭代次數(shù)。也就是說在不斷計算過程中,大部分權重趨近于0,產(chǎn)生核函數(shù)矩陣項,而其中大部分不會參與到實際預測計算中[11]。
(二)核函數(shù)的選取
滿足 Mercer 定理的函數(shù)都可以作為核函數(shù)。常見的核函數(shù)有高斯徑向基核函數(shù)和多項式核函數(shù)。
(11)
K2(x,x′)=((x,x′)+1)d,d=1,2,…
(12)
大部分實際問題的數(shù)據(jù)均服從高斯分布,因此常選用高斯徑向基核函數(shù)作為RVM的核函數(shù)。徑向基核函數(shù)屬于典型的局部核函數(shù),而多項式核函數(shù)則是典型的全局核函數(shù);多項式核函數(shù)具有較強的推廣能力,而徑向基核函數(shù)具有較強的學習能力。因此選取高斯徑向基核函數(shù)和多項式核函數(shù)構成組合核函數(shù)用于RVM。
結合式(10)、(11)有組合核函數(shù):
K(x,x′)=λK1(x,x′)+(1-λ)K2(x,x′)
其中,0≤λ≤1;當λ=0或λ=1時,組合核函數(shù)變成單一核函數(shù);λ越大則高斯徑向基核函數(shù)占比越大,多項式核函數(shù)占比越小。
三、我國CPI預測仿真實驗
通過國家統(tǒng)計局網(wǎng)站選取我國1987年1月至2015年2月的CPI月度的338組數(shù)據(jù)進行實驗,圖1是我國此階段的CPI原始數(shù)據(jù),可以看出從1987年開始居民消費價格指數(shù)快速增長,每年平均增長20%,直到1999年底;2000年到2006年CPI出現(xiàn)小幅波動,但還是屬于比較正常的現(xiàn)象;2007年以來我國由于受美國次貸危機的影響,居民消費價格指數(shù)出現(xiàn)大幅波動,尤其2009年居民消費價格指數(shù)大幅下滑;2010年以來又大幅上漲,這是由于前期政府4萬億元投資顯現(xiàn),拉動CPI上揚;2012年下半年由于政府穩(wěn)健的貨幣政策和4萬億元刺激的減弱,居民消費價格指數(shù)保持在合理區(qū)間,說明經(jīng)濟環(huán)境整體運行良好。為驗證本文所提出的核函數(shù)的有效性,將組合核相關向量機與模糊神經(jīng)網(wǎng)絡、支持向量機進行實例比較分析。數(shù)據(jù)集包含338個樣本,其中288個樣本為訓練集,50個樣本為測試集。實驗表明,令M=10個因素數(shù)為輸入值,第11個因素數(shù)為輸出值時,誤差最小。
圖1 我國1987年1月至2015年2月CPI原始數(shù)據(jù)
(一)核函數(shù)參數(shù)選取
針對核函數(shù)k(x,x′),進行核函數(shù)參數(shù)選取,令σ=0.7,d=2[12]。則核函數(shù)成為:
(1-λ)((x,x′)+1)2
(12)
其中λ∈[0.1,0.9],按照步長為0.1,對λ進行確定,則關于參數(shù)λ與參數(shù)生成時間和誤差的關系如表1所示。
從表1可以看出,隨著λ的增大,誤差水平總體不斷增大,噪聲水平先增大后減小,運行時間誤差最小。因此選擇λ=0.1,則核函數(shù)為:
0.9((x,x′)+1)2
(13)
表1 參數(shù)選擇示意表
(二)結果分析
按照上述要求,用Matlab編制仿真實驗程序,選定參數(shù)N=300、noise=0.1、width=3、maxIts=1 200,其中支持向量機和單核相關向量機的核函數(shù)選擇kernel=gauss,相關向量機組合核函數(shù)選擇kernel=gauss+poly(如式(11))進行運行。通過前面的3種預測方法得出50個CPI預測數(shù)據(jù),3種方法的預測結果如圖2,其中SVM表示支持向量機CPI回歸預測、RVM代表單核相關向量機CPI回歸預測、CK-RVM代表組合核相關向量機CPI回歸預測??梢钥闯鲋С窒蛄繖C的CPI預測準確度明顯小于單核相關向量機CPI預測準確度和組合核相關向量機CPI回歸預測準確度,且由于相關向量機可以產(chǎn)生CPI預測誤差范圍,組合核相關向量機CPI回歸預測誤差范圍最小,體現(xiàn)出組合核相關向量機CPI回歸預測最為準確。
圖2 3種方法回歸預測示意圖
3種方法比較參數(shù)為:回歸測試誤差(Regression test error,RMS)、標準均方根誤差(Normalized root mean square error,NRMSE)、程序運行時間(Time,T)、正確率(Accuracy rate,AR)、超出預測誤差個數(shù)(Exceeding the forecast error number,EFEN)。通過表2可以看出用組合核函數(shù)的相關向量機運行時間最短,但其CPI回歸測試誤差最低,標準均方根誤差小于1%,測試結果的準確度SVM 表2 3種方法回歸誤差對比 四、結語 通過預測,發(fā)現(xiàn)CPI在近幾個月保持在1%左右,總體來說表現(xiàn)良好,但增速略有放緩,這并不是說明CPI越低越好,CPI越低表明人們手中的資本價值越高,但CPI又不能太高。保持CPI在一個合理上漲空間是很棘手的事情,可以通過穩(wěn)健的財政政策和積極的貨幣政策予以解決。 通過運用組合核相關向量機預測居民消費價格指數(shù),可以提高預測效率和準確性。在核方法的算法中,核函數(shù)的選擇是核心部分,因此在具備馬瑟條件的情況下,將數(shù)據(jù)進行重組處理找到CPI數(shù)據(jù)自身之間的關系;先對數(shù)據(jù)進行排列訓練,再將具有較強推廣能力的多項式核函數(shù)與具有較強學習能力的徑向基核函數(shù)進行結合,選取最優(yōu)核函數(shù)分配參數(shù)權重,進而預測我國CPI的發(fā)展趨勢。從圖2和表2可以看出,組合核相關向量機預測模型預測CPI的平均誤差可控制在1%以內(nèi),運行時間為1.35 s,預測值和統(tǒng)計值擬合較好,取得了良好的預測結果。但此方法在運用組合核函數(shù)進行CPI經(jīng)濟預測過程中,組合核函數(shù)中λ的更進一步精確確定是作者后面研究的主要方向,比如可以運用交叉驗證或蟻群算法進行尋優(yōu)確定。 參考文獻: [1]李召輝.基于小波分析的CPI實證研究及預測[D].成都:西南財經(jīng)大學,2011. [2]戴穩(wěn)勝,呂奇杰,David Pitt.金融時間序列預測模型——基于離散小波分解與支持向量回歸的研究[J].統(tǒng)計與決策,2007(14):4-7. [3]TAY F E H,CAO L.Application of support vector machines in financial time series forecasting[J].Omega,2001,29(4):309-317. [4]MOURA M D C,ZIO E,LINS I D,et al.Failure and reliability prediction by support vector machines regression of time series data[J].Reliability engineering,2011,96(11):1527-1534. [5]ZHENG B,MYINT S W,THENKABAIL P S,et al.A support vector machine to identify irrigated crop types using time-series landsat NDVI data[J].International journal of applied earth observation & geoinformation,2015,34(1):103-112. [6]楊新臣,吳仰儒.中國消費者物價指數(shù)預測——基于小波變換與支持向量回歸的分析[J].山西財經(jīng)大學學報,2010(2):1-8. [7]PREE H,HERWIG B,GRUBER T,et al.On general purpose time series similarity measures and their use as kernel functions in support vector machines[J].Information Sciences,2014,281:478-495. [8]路世昌,趙博琦,畢建武.基于模糊信息?;疭VM時序回歸CPI預測[J].統(tǒng)計與決策,2015(14):82-84.[9]ZHANG L.Fault prognostic algorithm based on multivariate relevance vector machine and time series iterative prediction [J].Procedia engineering,2012,29:678- 686.[10]段青,趙建國,馬艷,等.優(yōu)化組合核函數(shù)相關向量機電力負荷預測模型[J].電機與控制學報,2010,14(6):33-38. [11]朱永利,尹金良.組合核相關向量機在電力變壓器故障診斷中的應用研究[J].中國電機工程學報,2013(22):68-74. [12]韓敏,許美玲,穆大蕓.無核相關向量機在時間序列預測中的應用[J].計算機學報,2014(12):2427-2432. [13]PSORAKIS I, DAMOULAS T, GIROLAMI M A. Multiclass relevance vector machines: an evaluation of sparsity and accuracy[J].IEEE Transactions on Neural Networks, 2010,21(10): 1588-1598. [14]TOLAMBIYA A,PREM K K.Relevance vector machine with adaptive wavelet kernels for efficient image coding [J].Neurocomputing,2010,73:1417-1424. [15]王煒,郭小明,王淑艷,等.關于核函數(shù)選取的方法[J].遼寧師范大學學報(自然科學版),2008,31(1):1-4. (責任編輯魏艷君) Study on Application of Compounding Kernels RVM in Prediction of CPI LI Chang-liang1a,JIANG Yan2,WANG Dian-jun1b,HAN Ji-guang3 (1.a.Institute of Quality Development; b. Institute of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650093, China;2.School of Accountancy, Shanxi University of Finance and Economics, Taiyuan 030006, China;3.School of Mechatronic Engineering, Yunnan Agricultural University, Kunming 650201, China) Abstract:Traditional forecasting models have defects of needing long training time and producing more errors. This paper presents highly reliable nuclear relevance vector machine model used for the CPI forecasts. Based on the monthly historical data from January 1987 to February 2015 CPI, the paper builds a composite core relevance vector machine predictive model, forecasts regression curves by the CPI. Simulation shows that the combination of nuclear relevance vector machines prediction model can make the average error of the CPI controlled within 1%, and the running time is 1.35 s, so it achieved good results. Key words:Compounding Kernels (CK); Relevance Vector Machines (RVM); CPI 收稿日期:2015-11-10 作者簡介:李昌良(1990—),男,四川簡陽人,碩士研究生,研究方向:數(shù)據(jù)挖掘。 doi:10.3969/j.issn.1674-8425(s).2016.05.006 中圖分類號:F273.7 文獻標識碼:A 文章編號:1674-8425(2016)05-0048-05 引用格式:李昌良,江燕,王殿君,等.組合核RVM在CPI預測中的應用研究[J].重慶理工大學學報(社會科學),2016(5):48-52. Citation format:LI Chang-liang,JIANG Yan,WANG Dian-jun,et al.Study on Application of Compounding Kernels RVM in Prediction of CPI[J].Journal of Chongqing University of Technology(Social Science),2016(5):48-52.