程麗娟
(嶺南師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,廣東湛江524048)
基于部分函數(shù)型線性回歸模型的改進
程麗娟
(嶺南師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,廣東湛江524048)
金融市場的交易是不間斷的,價格始終高頻的更新,在金融數(shù)據(jù)的研究中,經(jīng)常遇到函數(shù)型數(shù)據(jù)。文章主要建立部分函數(shù)型線性回歸模型,分析函數(shù)型數(shù)據(jù)在上證指數(shù)預(yù)測中的應(yīng)用,根據(jù)函數(shù)型數(shù)據(jù)分析的原理及其求解主成分分析的方法,使用Matlab對上證指數(shù)進行預(yù)測。
部分函數(shù)型線性回歸模型;函數(shù)型數(shù)據(jù);預(yù)測
傳統(tǒng)的數(shù)據(jù)分析中,數(shù)據(jù)是離散且有限的,但是金融市場的交易是不間斷的,價格始終高頻的更新,金融價格產(chǎn)生的隨機過程一般是非平穩(wěn)的,因而使用傳統(tǒng)的時間序列分析方法在解決金融數(shù)據(jù)的時候往往效果較差。加拿大學(xué)者J.O.Ramsay在1982年首次給出將泛函分析、拓撲學(xué)和統(tǒng)計學(xué)相結(jié)合的設(shè)想,提出“函數(shù)型數(shù)據(jù)”的概念以及函數(shù)型數(shù)據(jù)的分析方法。近年來,函數(shù)型數(shù)據(jù)分析廣泛應(yīng)用在醫(yī)學(xué)、氣象學(xué)、生物學(xué)、金融等領(lǐng)域。由于函數(shù)型數(shù)據(jù)的特殊性,將經(jīng)典多元回歸方法應(yīng)用到函數(shù)型回歸模型上通常不能得到較好的結(jié)果,因此出現(xiàn)了許多處理這類問題的方法,本文主要建立部分函數(shù)型線性回歸模型,根據(jù)文獻[6]通過把L2空間的函數(shù)型數(shù)據(jù)進行K-L展開,得到部分函數(shù)型線性模型中系數(shù)的估計量,給出其在上證指數(shù)預(yù)測中的實證分析,根據(jù)函數(shù)型數(shù)據(jù)分析的原理及其求解主成分分析的方法,使用Matlab軟件對上證指數(shù)進行預(yù)測。
對于定義在概率空間(Ω,Β,P)上的實值隨機變量Y和(z,X),滿足如下的線性關(guān)系:
其中εi獨立同分布。從而可得的樣本估計值為
根據(jù)文獻[9],使用函數(shù)型數(shù)據(jù)主成分分析方法,選擇前m個最大特征值對應(yīng)的主成分將X(t)進行Karhunen-Loève正交展開,使用最小二乘方法得到估計量:
其中:
其中,αn通過廣義Cross-Validation方法求得。
建立上證指數(shù)的函數(shù)型數(shù)據(jù)預(yù)測模型,F(xiàn)=μ+Y+ε,其中μ為上證指數(shù)的日收益率的均值,Y=βTz+<θ(t),X(t)>+ε為部分函數(shù)型線性回歸模型,本文選取我國上證指數(shù)作為研究對象,其中Y為2015年4月21日至6月8日的日收益率減去其均值后的數(shù)據(jù),z~N34(0,I),{X(t)}為2015年4月21日至6月8日的5分鐘收益率減去其均值后的數(shù)據(jù)。這里,z~N34(0,I),則其為隨機向量,Ez=0, Ezz'存在且有限;為隨機過程,均值為零,與z,X相互獨立,且Eε=0,Varε=σ2;θ(t)∈L2[0,1],且為p維隨機向量。從而,該模型符合部分函數(shù)型線性回歸模型的條件,可以進行上證指數(shù)預(yù)測。
為了避免“隔夜效應(yīng)”的影響,在進行數(shù)據(jù)分析時,舍棄每天的第一個數(shù)據(jù)(即9:35時刻),把每天的5分鐘收益率數(shù)據(jù)視為其對應(yīng)函數(shù)產(chǎn)生的一組樣本觀測值,使用B樣條插值法對這些樣本觀測值進行擬合,并進行套準和平滑處理,然后根據(jù)得到的光滑曲線求出其變化速度曲線,即一階導(dǎo)數(shù)曲線,如圖1所示。圖1表示的是收益率曲線及其平滑曲線。圖2表示的是B樣條插值法得到曲線的一階導(dǎo)數(shù)曲線。
圖1 收益率曲線及其平滑曲線
圖2 一階導(dǎo)數(shù)曲線
得到平滑函數(shù)后,對該收益率函數(shù)進行函數(shù)型主成分分析,得到主成分權(quán)重函數(shù),如圖3所示。
圖3 主成分權(quán)重函數(shù)
得到主成分特征值與貢獻率,如表1所示。
表1 主成分特征值與貢獻率
根據(jù)表1中的方差貢獻率,選取前四個最大特征值對應(yīng)的主成分將X(t)進行Karhunen-Loève正交展開,通過廣義Cross-Validation方法求得αn=0.00000001。
使用最小二乘方法得到估計量:將觀測到的真實值、模型估計出的預(yù)測值如表2所示。
表2 真實值與預(yù)測值
將考慮αn的模型估計出的預(yù)測值和不考慮αn的模型估計出的預(yù)測值的誤差百分比如表3所示。
表3 考慮αn的估計和不考慮αn估計的預(yù)測值誤差百分比(單位:%)
由表3可以看出,6月10日和6月11日考慮αn的估計誤差百分比比不考慮αn的誤差百分比小,絕大部分的誤差百分比都較小,而6月9日和6月12日考慮αn的估計誤差百分比比不考慮αn的誤差百分比基本一樣,這是因為當特征值的個數(shù)m≤3兩種估計量的效果幾乎相同,由Shin提出的估計量在m=4時達到最優(yōu);當m>4時,由于趨于零的特征值在分母上產(chǎn)生較大波動,不能給出準確的估計。因而對建立的部分函數(shù)型線性回歸模型進行預(yù)測時,考慮αn具有很好的準確性。綜上可知,建立函數(shù)型主成分預(yù)測模型對我國上證指數(shù)收益率進行預(yù)測,考慮αn預(yù)測的準確程度較高。
本文對部分函數(shù)型線性回歸模型在上證指數(shù)中的應(yīng)用進行了研究,介紹了函數(shù)型數(shù)據(jù)分析的研究意義,研究了函數(shù)型數(shù)據(jù)的主成分分析方法以及如何使用部分函數(shù)型線性回歸模型對上證指數(shù)進行預(yù)測。通過對上證指數(shù)收益率進行預(yù)測的實證分析,得到考慮αn的模型建立部分函數(shù)型線性回歸模型對我國上證指數(shù)收益率進行預(yù)測,預(yù)測的準確程度較高。
[1]Ramsay J O.When the Data Are Functions[J].Psychometrika,1982, (47).
[2]Ramsay J O,Hooker G.Functional Data Analysis With R and MATLAB[M].New York:Springer,2009.
[3]Shang H L.Nonparametric Modeling and Forecasting Electricity Demand:An Empirical Study[J].Working Paper,2010.
[4]Mallor F,Leon T,Gaston M.Changes in Power Curve Shapes as an Indicator of Fatigue During Dynamic Contractions[J].Journal of Biomechanics,2010,(43).
[5]Delicado P.Dimensionality Reduction When Data Are Density Functions[J].Computational Statistics and Data Analysis.2011.
[6]Shin H.Partial Functional Linear Regression[J].Journal of Statistical Planning and Inference,2009,139,(10).
[7]Ferraty F,GonzMez-Manteiga W,Martinez-Calvo A,et a1.Presmoothing in Functional Linear Regression[J].Statistica Sinica,2012, (22).
[8]Berrendero J R.Principal Components for Multivariate Functional Data[J].Computational Statistics and Data Analysis.2011.
[9]張雪,田媛,王德輝.部分函數(shù)型線性回歸模型的預(yù)平滑估計[J].吉林大學(xué)學(xué)報:理學(xué)版,2014,(7).
(責(zé)任編輯/浩天)
C812
A
1002-6487(2017)11-0070-03
嶺南師范學(xué)院自然科學(xué)青年項目(QL1407)
程麗娟(1986—),女,安徽臨泉人,碩士研究生,研究方向:應(yīng)用統(tǒng)計與風(fēng)險決策。