程麗娟
(嶺南師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東湛江524048)
基于部分函數(shù)型線(xiàn)性回歸模型的改進(jìn)
程麗娟
(嶺南師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東湛江524048)
金融市場(chǎng)的交易是不間斷的,價(jià)格始終高頻的更新,在金融數(shù)據(jù)的研究中,經(jīng)常遇到函數(shù)型數(shù)據(jù)。文章主要建立部分函數(shù)型線(xiàn)性回歸模型,分析函數(shù)型數(shù)據(jù)在上證指數(shù)預(yù)測(cè)中的應(yīng)用,根據(jù)函數(shù)型數(shù)據(jù)分析的原理及其求解主成分分析的方法,使用Matlab對(duì)上證指數(shù)進(jìn)行預(yù)測(cè)。
部分函數(shù)型線(xiàn)性回歸模型;函數(shù)型數(shù)據(jù);預(yù)測(cè)
傳統(tǒng)的數(shù)據(jù)分析中,數(shù)據(jù)是離散且有限的,但是金融市場(chǎng)的交易是不間斷的,價(jià)格始終高頻的更新,金融價(jià)格產(chǎn)生的隨機(jī)過(guò)程一般是非平穩(wěn)的,因而使用傳統(tǒng)的時(shí)間序列分析方法在解決金融數(shù)據(jù)的時(shí)候往往效果較差。加拿大學(xué)者J.O.Ramsay在1982年首次給出將泛函分析、拓?fù)鋵W(xué)和統(tǒng)計(jì)學(xué)相結(jié)合的設(shè)想,提出“函數(shù)型數(shù)據(jù)”的概念以及函數(shù)型數(shù)據(jù)的分析方法。近年來(lái),函數(shù)型數(shù)據(jù)分析廣泛應(yīng)用在醫(yī)學(xué)、氣象學(xué)、生物學(xué)、金融等領(lǐng)域。由于函數(shù)型數(shù)據(jù)的特殊性,將經(jīng)典多元回歸方法應(yīng)用到函數(shù)型回歸模型上通常不能得到較好的結(jié)果,因此出現(xiàn)了許多處理這類(lèi)問(wèn)題的方法,本文主要建立部分函數(shù)型線(xiàn)性回歸模型,根據(jù)文獻(xiàn)[6]通過(guò)把L2空間的函數(shù)型數(shù)據(jù)進(jìn)行K-L展開(kāi),得到部分函數(shù)型線(xiàn)性模型中系數(shù)的估計(jì)量,給出其在上證指數(shù)預(yù)測(cè)中的實(shí)證分析,根據(jù)函數(shù)型數(shù)據(jù)分析的原理及其求解主成分分析的方法,使用Matlab軟件對(duì)上證指數(shù)進(jìn)行預(yù)測(cè)。
對(duì)于定義在概率空間(Ω,Β,P)上的實(shí)值隨機(jī)變量Y和(z,X),滿(mǎn)足如下的線(xiàn)性關(guān)系:
其中εi獨(dú)立同分布。從而可得的樣本估計(jì)值為
根據(jù)文獻(xiàn)[9],使用函數(shù)型數(shù)據(jù)主成分分析方法,選擇前m個(gè)最大特征值對(duì)應(yīng)的主成分將X(t)進(jìn)行Karhunen-Loève正交展開(kāi),使用最小二乘方法得到估計(jì)量:
其中:
其中,αn通過(guò)廣義Cross-Validation方法求得。
建立上證指數(shù)的函數(shù)型數(shù)據(jù)預(yù)測(cè)模型,F(xiàn)=μ+Y+ε,其中μ為上證指數(shù)的日收益率的均值,Y=βTz+<θ(t),X(t)>+ε為部分函數(shù)型線(xiàn)性回歸模型,本文選取我國(guó)上證指數(shù)作為研究對(duì)象,其中Y為2015年4月21日至6月8日的日收益率減去其均值后的數(shù)據(jù),z~N34(0,I),{X(t)}為2015年4月21日至6月8日的5分鐘收益率減去其均值后的數(shù)據(jù)。這里,z~N34(0,I),則其為隨機(jī)向量,Ez=0, Ezz'存在且有限;為隨機(jī)過(guò)程,均值為零,與z,X相互獨(dú)立,且Eε=0,Varε=σ2;θ(t)∈L2[0,1],且為p維隨機(jī)向量。從而,該模型符合部分函數(shù)型線(xiàn)性回歸模型的條件,可以進(jìn)行上證指數(shù)預(yù)測(cè)。
為了避免“隔夜效應(yīng)”的影響,在進(jìn)行數(shù)據(jù)分析時(shí),舍棄每天的第一個(gè)數(shù)據(jù)(即9:35時(shí)刻),把每天的5分鐘收益率數(shù)據(jù)視為其對(duì)應(yīng)函數(shù)產(chǎn)生的一組樣本觀測(cè)值,使用B樣條插值法對(duì)這些樣本觀測(cè)值進(jìn)行擬合,并進(jìn)行套準(zhǔn)和平滑處理,然后根據(jù)得到的光滑曲線(xiàn)求出其變化速度曲線(xiàn),即一階導(dǎo)數(shù)曲線(xiàn),如圖1所示。圖1表示的是收益率曲線(xiàn)及其平滑曲線(xiàn)。圖2表示的是B樣條插值法得到曲線(xiàn)的一階導(dǎo)數(shù)曲線(xiàn)。
圖1 收益率曲線(xiàn)及其平滑曲線(xiàn)
圖2 一階導(dǎo)數(shù)曲線(xiàn)
得到平滑函數(shù)后,對(duì)該收益率函數(shù)進(jìn)行函數(shù)型主成分分析,得到主成分權(quán)重函數(shù),如圖3所示。
圖3 主成分權(quán)重函數(shù)
得到主成分特征值與貢獻(xiàn)率,如表1所示。
表1 主成分特征值與貢獻(xiàn)率
根據(jù)表1中的方差貢獻(xiàn)率,選取前四個(gè)最大特征值對(duì)應(yīng)的主成分將X(t)進(jìn)行Karhunen-Loève正交展開(kāi),通過(guò)廣義Cross-Validation方法求得αn=0.00000001。
使用最小二乘方法得到估計(jì)量:將觀測(cè)到的真實(shí)值、模型估計(jì)出的預(yù)測(cè)值如表2所示。
表2 真實(shí)值與預(yù)測(cè)值
將考慮αn的模型估計(jì)出的預(yù)測(cè)值和不考慮αn的模型估計(jì)出的預(yù)測(cè)值的誤差百分比如表3所示。
表3 考慮αn的估計(jì)和不考慮αn估計(jì)的預(yù)測(cè)值誤差百分比(單位:%)
由表3可以看出,6月10日和6月11日考慮αn的估計(jì)誤差百分比比不考慮αn的誤差百分比小,絕大部分的誤差百分比都較小,而6月9日和6月12日考慮αn的估計(jì)誤差百分比比不考慮αn的誤差百分比基本一樣,這是因?yàn)楫?dāng)特征值的個(gè)數(shù)m≤3兩種估計(jì)量的效果幾乎相同,由Shin提出的估計(jì)量在m=4時(shí)達(dá)到最優(yōu);當(dāng)m>4時(shí),由于趨于零的特征值在分母上產(chǎn)生較大波動(dòng),不能給出準(zhǔn)確的估計(jì)。因而對(duì)建立的部分函數(shù)型線(xiàn)性回歸模型進(jìn)行預(yù)測(cè)時(shí),考慮αn具有很好的準(zhǔn)確性。綜上可知,建立函數(shù)型主成分預(yù)測(cè)模型對(duì)我國(guó)上證指數(shù)收益率進(jìn)行預(yù)測(cè),考慮αn預(yù)測(cè)的準(zhǔn)確程度較高。
本文對(duì)部分函數(shù)型線(xiàn)性回歸模型在上證指數(shù)中的應(yīng)用進(jìn)行了研究,介紹了函數(shù)型數(shù)據(jù)分析的研究意義,研究了函數(shù)型數(shù)據(jù)的主成分分析方法以及如何使用部分函數(shù)型線(xiàn)性回歸模型對(duì)上證指數(shù)進(jìn)行預(yù)測(cè)。通過(guò)對(duì)上證指數(shù)收益率進(jìn)行預(yù)測(cè)的實(shí)證分析,得到考慮αn的模型建立部分函數(shù)型線(xiàn)性回歸模型對(duì)我國(guó)上證指數(shù)收益率進(jìn)行預(yù)測(cè),預(yù)測(cè)的準(zhǔn)確程度較高。
[1]Ramsay J O.When the Data Are Functions[J].Psychometrika,1982, (47).
[2]Ramsay J O,Hooker G.Functional Data Analysis With R and MATLAB[M].New York:Springer,2009.
[3]Shang H L.Nonparametric Modeling and Forecasting Electricity Demand:An Empirical Study[J].Working Paper,2010.
[4]Mallor F,Leon T,Gaston M.Changes in Power Curve Shapes as an Indicator of Fatigue During Dynamic Contractions[J].Journal of Biomechanics,2010,(43).
[5]Delicado P.Dimensionality Reduction When Data Are Density Functions[J].Computational Statistics and Data Analysis.2011.
[6]Shin H.Partial Functional Linear Regression[J].Journal of Statistical Planning and Inference,2009,139,(10).
[7]Ferraty F,GonzMez-Manteiga W,Martinez-Calvo A,et a1.Presmoothing in Functional Linear Regression[J].Statistica Sinica,2012, (22).
[8]Berrendero J R.Principal Components for Multivariate Functional Data[J].Computational Statistics and Data Analysis.2011.
[9]張雪,田媛,王德輝.部分函數(shù)型線(xiàn)性回歸模型的預(yù)平滑估計(jì)[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2014,(7).
(責(zé)任編輯/浩天)
C812
A
1002-6487(2017)11-0070-03
嶺南師范學(xué)院自然科學(xué)青年項(xiàng)目(QL1407)
程麗娟(1986—),女,安徽臨泉人,碩士研究生,研究方向:應(yīng)用統(tǒng)計(jì)與風(fēng)險(xiǎn)決策。