田 甜,李星野
(上海理工大學(xué) 管理學(xué)院,上海 200093)
時間序列建模方法的產(chǎn)生最早可追溯到1927年,英國統(tǒng)計學(xué)家Yule(1871~1951)提出自回歸(Auto-Regressive,AR)模型。1931年,英國數(shù)學(xué)家、天文學(xué)家Walker爵士在分析印度天氣規(guī)律時使用了移動平均(Moving Average,MA)模型和自回歸移動平均 (Auto-Regressive Moving Average,ARMA)模型。這些模型奠定了時間序列建模方法的基礎(chǔ)。1970年,美國統(tǒng)計學(xué)家Box和英國統(tǒng)計學(xué)家Jenkins在總結(jié)前人研究的基礎(chǔ)上,系統(tǒng)地闡述了對求和自回歸移動平均(Auto-Regressive Integrated Moving Average,ARIMA)模型的識別、估計、檢驗及預(yù)測的原理與方法,這些是經(jīng)典的時間序列建模方法。近20年,統(tǒng)計學(xué)家紛紛轉(zhuǎn)向多變量場合、異方差場合和非線性場合的時間序列分析方法的研究。
文獻[1]提出了一種基于支持向量回歸(Support Vector Regression,SVR)和獨立成分分析 (Independent Component Analysis,ICA)的綜合金融時間序列預(yù)測模型,該建模方法運用SVR對通過ICA去噪后的預(yù)測變量建立預(yù)測模型。經(jīng)過本方法與SVR和隨機游動模型的比較,實驗結(jié)果表示本方法能降低預(yù)測誤差,提高預(yù)測精度,具有更好的預(yù)測效果。文獻[2]通過前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,FNN),ARIMA與FNN的混合模型[3],自我激勵門限自回歸模型(Self-Exciting Threshold Auto-Regressive Model,SETAR)[4]和該文獻提出的ARIMA與Elman回歸神經(jīng)網(wǎng)絡(luò) (Elman's Recurrent Neural Networks,ERNN)混合模型的方法分別對加拿大猞猁相關(guān)數(shù)據(jù)進行預(yù)測,結(jié)果表明使用該方法所得均方誤差最小,預(yù)測效果最好。而文獻[5]則對上證指數(shù)A股日收益指數(shù)的波動性建模,介紹并使用了非參數(shù)模型設(shè)定檢驗方法進行多個模型的評價,文獻[6]則分析和比較了時間序列的數(shù)據(jù)挖掘思想與經(jīng)典建模法的基本思路,總結(jié)各自的優(yōu)缺點,并闡述二者在本質(zhì)上是不同的兩類重要的時間序列分析法。隨著小波變換和傅里葉變換的應(yīng)用越來越廣泛,信號處理中的時頻分析逐漸被沿用到時序分析中,文獻[7]將小波多分辨率分析引入?yún)f(xié)整建模理論,提出多分辨協(xié)整和多分辨誤差校正模型。文獻[8]將小波分析和ARMA模型引入時間序列數(shù)據(jù)挖掘中,利用小波消噪對原始時間序列進行濾波,并應(yīng)用小波變換挖掘和分離金融時間序列的各種隱周期和非線性。
本文采用分頻方式分析時間序列并為時間序列建模,是一種基于數(shù)字信號處理和現(xiàn)代時間序列分析的方法。由于時間序列的低頻分量反映出長記憶特性,難以直接用時滯自相關(guān)模型建模,因此本文首先對時間序列做離散余弦變換,用低頻變換系數(shù)重構(gòu)出時間序列的低頻分量,這相當于對時間序列進行一次理想低通濾波,此時的低頻分量就是為數(shù)不多的幾個余弦函數(shù)的線性組合,結(jié)構(gòu)非常簡單,而剩余的高頻部分則比較好地滿足時滯自相關(guān)模型的建模條件。為了減少自回歸模型的建模計算量,加快建模速度,所以本文借鑒了ARMA模型的自相關(guān)理念,直接采用時滯自相關(guān)分析方法確定模型結(jié)構(gòu),而不是像ARMA模型那樣通過自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的拖尾截尾性定階的過程。針對股票多年日收盤價所作仿真試驗證明該時間序列建模方法是有效的,模型比較好地刻畫了時間序列的變化規(guī)律。
在頻譜分析和各種濾波方法中,最基本的數(shù)學(xué)工具是Fourier分析。離散余弦變換是一種與Fourier變換緊密相關(guān)的數(shù)學(xué)運算,它是Fourier變換的實數(shù)域變換,避免了復(fù)數(shù)運算,這是它優(yōu)于Fourier變換之處。
離散余弦變換(Discrete Cosine Transform,DCT)的形式如
DCT相應(yīng)地由有限長序列構(gòu)造出一個周期的對稱序列,由此可唯一地恢復(fù)原有限長序列。因為這樣做有許多方式,所以DCT有多種定義。對于實序列這些變換構(gòu)成了一族含有16種形式的正交歸一化變換。這些變換中最常使用的是DCT-1和DCT-2表示式,本文中應(yīng)用的是DCT-2表示式,所以主要針對它做介紹。
不同形式DCT的各種周期延拓均可看作是N點序列±x[n]和±x[-n]平移復(fù)本的和。對于DCT-2,x[n]延拓為周期為2N的周期序列,用下式表示:
由于序列的端點沒有重疊,所以不需要對它們進行調(diào)整,以保證當n=0,1,…,N-1時x[n]=。這種對稱性稱為二型周期對稱。在這種情況下周期序列關(guān)于“半樣本”點等為偶周期對稱。DCT-2定義為如下變換:
式中DCT-2反變換用到權(quán)函數(shù)
在許多處理中,DCT定義包括使該變換成為單式的歸一化因子。例如,DCT-2通常定義為
將上式與前一組表達式進行比較,可知乘積因子2,1/N和β[k]在正、反變換式中處于不同的位置。
ARMA時間序列模型的理論已發(fā)展得比較成熟,它是將平穩(wěn)時間序列利用自回歸過程和移動平均過程,以及樣本自相關(guān)系數(shù)、樣本偏相關(guān)系數(shù)等數(shù)據(jù),對模型進行辯識、估計和預(yù)報。但ARMA模型擬合是要根據(jù)樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的性質(zhì)估計自相關(guān)階數(shù)和移動平均階數(shù)的,這種定階過程過于繁瑣,為了提高建模效率,本文直接采用時滯自相關(guān)分析方法確定時間序列高頻分量的模型結(jié)構(gòu),而不是通過自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的拖尾截尾性確定模型結(jié)構(gòu)。
ARIMA模型則是通過對具有趨勢的時間序列差分,使之成為平穩(wěn)隨機序列,然后再用此平穩(wěn)時間序列去描述這一隨機過程的建模方法,由于本文原始時間序列經(jīng)過離散余弦變換后已去除了趨勢波動,所以無需使用ARIMA模型的建模方法。
時滯自相關(guān)模型描述了時間序列x'[n]某一時刻n和其前p個時刻序列值之間的相互關(guān)系,通過比較時刻n和其前p個時刻序列值的相關(guān)系數(shù),提取相關(guān)系數(shù)較大的若干項作為時滯自相關(guān)變量x[n-p],然后可運用多元線性回歸算出各變量x[n-p]的待定系數(shù)φ[p]和獨立誤差項ε,最后時間序列x'[n]便能通過下式建立時滯自相關(guān)模型:
綜合(1)式和(2)式可得時間序列分頻建模的模型表達式為:
時間序列的時滯自相關(guān)分析已在經(jīng)濟數(shù)據(jù)分析、控制系統(tǒng)設(shè)計等科學(xué)領(lǐng)域得到了廣泛的應(yīng)用并取得了良好的效果。本文在這一部分將通過運用離散余弦變換對股票九年日收盤價進行分頻處理,建立針對低頻平滑部分的余弦重構(gòu)模型和針對高頻波動部分的時滯自相關(guān)模型,再將兩者疊加便可對原始數(shù)據(jù)的變化情況進行擬合。
時間序列經(jīng)過離散余弦變換后,將把數(shù)據(jù)的高頻分量集中在中間,而低頻分量集中在數(shù)據(jù)兩端。對導(dǎo)入的原始數(shù)據(jù)提取高頻分量,并對其做時滯自相關(guān)分析,如圖1所示。
從圖1可知,若取置信區(qū)間為(-0.2210,0.2210),則可選定p=2,p=3和p=6時φ取非零值,其余φ系數(shù)的值皆為零。再通過對 x[n],x[n-2],x[n-3]和 x[n-6]序列進行線性回歸分析,可求得 φ[2]=-0.4838,φ[3]=-0.2240,φ[6]=0.2204 與 ε=-0.0002。
剩下的低頻分量則選用余弦函數(shù)重構(gòu)。數(shù)據(jù)經(jīng)過離散余弦變換后的序列展示了能量分布情況,數(shù)值平方大的項能量高,數(shù)值平方小的項能量低。實際操作時可選出十項左右,使它們的平方和占所有低頻分量離散余弦變換系數(shù)平方和的95%以上,則基本可以用這幾項來代表所有低頻的波動情況。
圖1 數(shù)據(jù)高頻分量的時滯自相關(guān)系數(shù)圖
通過編程計算,由于原始序列經(jīng)離散余弦變換所得的低頻分量中的第1,2,3,4,5,6,8,10,12,15,17項的能量和占整個低頻分量總能量的95%以上,所以取k=1,2,3,4,5,6,8,10,12,15,17。
根據(jù)以上確定下來的各參數(shù)值便可得到原時間序列的數(shù)學(xué)模型表達式為:
運用該模型對股票多年日收盤價做仿真試驗并和原時間序列進行比較,如圖2所示。
較光滑的曲線為模擬出的結(jié)果,原序列與模擬序列差的絕對值的平均數(shù)為1.2078,標準差為1.7586。從圖2中可以看到,除原時間序列突變值的模擬結(jié)果不夠精確以外,其它部分模擬情況良好,所建模型可以基本反映原時間序列的變化趨勢。
綜合以上實驗操作,可將時間序列分頻建模的過程總結(jié)為以下幾個步驟:
(1)對原時間序列進行離散余弦變換,分別提取變換系數(shù)序列當中的高頻分量和兩端的低頻分量。
(2)選取高頻分量中與當前時刻序列值相關(guān)系數(shù)較大的過去若干時刻的序列值作為時滯自相關(guān)變量,然后利用線性回歸分析求出相關(guān)系數(shù),并建立高頻分量的時滯自相關(guān)模型。
(3)提取低頻分量中能量較大的若干項重構(gòu)時間序列平滑部分的波動情況,并建立低頻分量的反離散余弦變換模型。
(4)疊加高、低頻分量的模型,得到綜合模型。
圖2 原時間序列與模擬結(jié)果的比較圖
由于時間序列的低頻分量反映出時間序列相對長期的變化規(guī)律,難以直接使用時滯自相關(guān)模型建模,因此本文先對時間序列做離散余弦變換,用低頻變換系數(shù)重構(gòu)出時間序列的低頻分量,這相當于對時間序列進行一次理想低通濾波,此時的低頻分量就是為數(shù)不多的幾個余弦函數(shù)的線性組合,結(jié)構(gòu)非常簡單,而剩余的高頻部分則比較好地滿足時滯自相關(guān)模型的建模條件。
時滯自相關(guān)模型借鑒了ARMA模型建模方法中的自相關(guān)理念,但未采用ARMA模型根據(jù)樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的拖尾截尾性估計自相關(guān)階數(shù)和移動平均階數(shù)的定階過程,因為此定階方式過于繁瑣,從而時滯自相關(guān)分析方法可減少建模計算量,加快建模速度。針對股票多年日收盤價所作仿真試驗證明該時間序列建模方法是有效的,模型比較好地刻畫了時間序列的變化規(guī)律。
[1]Lu C J,Lee T S,Chiu C C.Financial Time Series Forecasting Using Independent Component Analysis and Support Vector Regression[J].Decision Support Systems,2009,(47).
[2]Aladag C H,Egrioglu E,Kadilar C.Forecasting Nonlinear Time Series with a Hybrid Methodology[J].Applied Mathematics Letters,2009,(22).
[3]Zhang G.Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model[J].Neurocomputing,2003,(50).
[4]Katijani Y,Hipel W K,Mcleod A I.Forecasting Nonlinear Time Series with Feed-forward Neural Networks:A Case Study of Canadian Lynx Data[J].Journal of Forecasting,2005,(24).
[5]李成群.基于非參數(shù)模型設(shè)定檢驗方法的上證指數(shù)波動率的研究[J].學(xué)術(shù)論壇,2007,(9).
[6]胡桔州,蘭秋軍.金融時間序列的數(shù)據(jù)挖掘技術(shù)與經(jīng)典統(tǒng)計模型的比較[J].系統(tǒng)工程,2005,23(6).
[7]許啟發(fā),蔣翠俠,張世英.基于小波多分辨分析的協(xié)整建模理論與方法的擴展[J].統(tǒng)計研究,2007,24(8).
[8]佟偉民,李一軍,單永正.基于小波分析的時間序列數(shù)據(jù)挖掘[J].計算機工程,2008,34(1).