蘇梽芳, 周煜, 李氣芳
(1. 華僑大學(xué) 經(jīng)濟(jì)與金融學(xué)院, 福建 泉州 362021; 2. 閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 福建 漳州 363000)
隨著數(shù)據(jù)采集、處理和存儲(chǔ)技術(shù)的快速發(fā)展,越來(lái)越多的數(shù)據(jù)可被連續(xù)觀(guān)測(cè)且在本質(zhì)上呈現(xiàn)出明顯的函數(shù)曲線(xiàn)特征,Ramsay等[1]將這類(lèi)數(shù)據(jù)定義為函數(shù)型數(shù)據(jù),函數(shù)型數(shù)據(jù)分析已經(jīng)廣泛應(yīng)用到氣象學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域[2-5]
函數(shù)型線(xiàn)性模型是函數(shù)型數(shù)據(jù)分析的重要工具,Cardot等[6-7]基于函數(shù)型主成分分析和懲罰樣條的估計(jì)方法研究估計(jì)量的相關(guān)漸進(jìn)性質(zhì).Yao等[8]考慮觀(guān)測(cè)值為稀疏離散情況下的函數(shù)型線(xiàn)性模型的估計(jì)方式.文獻(xiàn)[9-11]采用平滑樣條方法估計(jì)函數(shù)型斜率參數(shù),研究估計(jì)量的大樣本性質(zhì).
為進(jìn)一步提高函數(shù)型線(xiàn)性模型的預(yù)測(cè)能力和可解釋性,Zhang等[12]將向量型解釋變量引入函數(shù)型線(xiàn)性模型中,提出部分函數(shù)型線(xiàn)性模型.Shin[13]運(yùn)用函數(shù)主成分分析方法估計(jì)模型,并證明參數(shù)估計(jì)量的漸進(jìn)正態(tài)性和函數(shù)系數(shù)估計(jì)量的最優(yōu)收斂速度.Zhou等[14]將模型的函數(shù)系數(shù)利用樣條基展開(kāi),進(jìn)一步通過(guò)最小二乘法得到估計(jì)量.王曉光等[15]基于核函數(shù)構(gòu)造一類(lèi)部分函數(shù)線(xiàn)性回歸模型,研究模型參數(shù)的漸進(jìn)正態(tài)性和非參數(shù)的收斂速度.
現(xiàn)有的這些估計(jì)方法一般都假設(shè)函數(shù)型數(shù)據(jù)服從獨(dú)立同分布(i.i.d),而沒(méi)有考慮函數(shù)型數(shù)據(jù)的相依特征.現(xiàn)實(shí)生活中,股票數(shù)據(jù)、溫度數(shù)據(jù)、空氣污染物數(shù)據(jù)等函數(shù)型數(shù)據(jù)明顯存在相依結(jié)構(gòu),如果運(yùn)用獨(dú)立同分布條件下的函數(shù)型數(shù)據(jù)分析方法重構(gòu)這些數(shù)據(jù),必然會(huì)出現(xiàn)誤差,從而對(duì)后續(xù)模型的估計(jì)造成影響.對(duì)此,文獻(xiàn)[16-18]利用長(zhǎng)期協(xié)方差函數(shù)替代獨(dú)立同分布條件下的協(xié)方差函數(shù),證明長(zhǎng)期協(xié)方差函數(shù)收斂于總體長(zhǎng)期協(xié)方差函數(shù).然而,長(zhǎng)期協(xié)方差函數(shù)的估計(jì)涉及核函數(shù)和窗寬的選擇易受人為因素的影響.李氣芳[19]在文獻(xiàn)[20]的研究基礎(chǔ)上,提出基于無(wú)截?cái)?Bartlett 核的長(zhǎng)期協(xié)方差函數(shù)估計(jì)方法,避免了核函數(shù)和窗寬的誤選導(dǎo)致的估計(jì)誤差.綜上,本文針對(duì)具有相依特征的函數(shù)型自變量,將獨(dú)立同分布條件下的部分函數(shù)型線(xiàn)性模型拓展到相依情形.
針對(duì)自變量中同時(shí)含有標(biāo)量型和函數(shù)型變量的情況,Zhang[9]提出了部分函數(shù)型線(xiàn)性回歸模型,即觀(guān)測(cè)數(shù)據(jù){(X1(t),Y1,Z1),(X2(t),Y2,Z2),…,(Xn(t),Yn,Zn)}滿(mǎn)足如下形式,即
(1)
式(1)中:Xi(t)為函數(shù)型變量,是L2[0,1]中的隨機(jī)過(guò)程;β(t)為回歸系數(shù)函數(shù);Zi為p維標(biāo)量型自變量;γ為p維回歸系數(shù)向量;εi表示均值為0,方差為σ2的隨機(jī)誤差項(xiàng),且與(Zi,Xi(t))獨(dú)立;Yi為標(biāo)量型應(yīng)變量.
若函數(shù)型數(shù)據(jù)Xi(t)滿(mǎn)足函數(shù)
Cov[Xi(t),Xi+h(s)]=E{[Xi(t)-μ(t)][Xi+h(s)-μ(s)]}≠0,h≠0,
則稱(chēng)Xi(t)為相依函數(shù)型數(shù)據(jù).當(dāng)Xi(t)為相依函數(shù)型數(shù)據(jù)時(shí),可以把式(1)推廣為部分相依函數(shù)型線(xiàn)性回歸模型.
函數(shù)型數(shù)據(jù)分析的首要任務(wù)是把函數(shù)型數(shù)據(jù)重構(gòu)成函數(shù)曲線(xiàn),其主要方法有外生基法(Fourier基,B-Spline基等)和內(nèi)生基法(函數(shù)主成分基),越來(lái)越多學(xué)者青睞函數(shù)主成分基的重構(gòu)方法.在獨(dú)立同分布條件下,通過(guò)計(jì)算協(xié)方差函數(shù)得到函數(shù)主成分,但當(dāng)函數(shù)型數(shù)據(jù)具有相依特征時(shí),樣本協(xié)方差函數(shù)不再是總體協(xié)方差函數(shù)的一致估計(jì)量,計(jì)算得到的函數(shù)主成分不準(zhǔn)確.H?rmann等[18]基于長(zhǎng)期協(xié)方差函數(shù)計(jì)算函數(shù)主成分的方法,面臨核函數(shù)和窗寬的選擇問(wèn)題.Kiefer等[19]在研究多元回歸模型中長(zhǎng)期協(xié)方差估計(jì)問(wèn)題時(shí),構(gòu)造基于無(wú)截?cái)郆artlett核的長(zhǎng)期協(xié)方差估計(jì)統(tǒng)計(jì)量,不需要選擇核函數(shù)和窗寬.李氣芳[19]把文獻(xiàn)[20]的估計(jì)思想推廣到長(zhǎng)期協(xié)方差函數(shù)的估計(jì)中.因此,采用基于無(wú)截?cái)郆artlett核的長(zhǎng)期協(xié)方差函數(shù)估計(jì)方法,避免核函數(shù)和窗寬的選擇問(wèn)題.
(2)
借鑒文獻(xiàn)[19]中基于無(wú)截?cái)郆artlett核的估計(jì)方法,把式(2)變?yōu)?/p>
根據(jù)文獻(xiàn)[21-22]對(duì)動(dòng)態(tài)函數(shù)型主成分的定義,樣本長(zhǎng)期協(xié)方差函數(shù)的特征值與特征函數(shù)滿(mǎn)足
(3)
基于Karhunen-Loeve展開(kāi),使用前m個(gè)函數(shù)主成分重構(gòu)相依函數(shù)型數(shù)據(jù),以達(dá)到降維的目的,即
(4)
由式(4)得到的m個(gè)函數(shù)主成分對(duì)回歸系數(shù)函數(shù)β(t)進(jìn)行逼近,有
(5)
把式(4),(5)代入部分相依函數(shù)型線(xiàn)性模型,即
則有
定義如下函數(shù)
(6)
令Y=(Y1Y2…Yn)T,A=(γ1…γpa1a2…am)T,
那么,式(6)可以改成線(xiàn)性回歸模型的形式,即
根據(jù)最小二乘法估計(jì)式,可得
(7)
最小二乘法對(duì)樣本容量要求較大且對(duì)異常值較敏感,而支持向量機(jī)算法引入了損失函數(shù),允許一些樣本點(diǎn)出錯(cuò),尋找的超平面只由少量支持向量決定,具有良好的魯棒性.最小二乘支持向量機(jī)估計(jì)方法是基于平方損失構(gòu)建的一種支持向量機(jī),其回歸問(wèn)題最終歸結(jié)為等式約束下的線(xiàn)性方程組的求解問(wèn)題,降低了計(jì)算的復(fù)雜度.因此,運(yùn)用最小二乘支持向量機(jī)算法,構(gòu)造如下優(yōu)化問(wèn)題,即
引入拉格朗日乘子μi,構(gòu)建如下方程,即
(8)
(9)
樣本數(shù)據(jù)由如下模型生成,即
上式中:系數(shù)向量γ=(2.0 -1.0 1.5 5.0 -1.7)T,隨機(jī)向量Zi=(Z1Z2Z3Z4Z5)T,其與N(0,I5)同分布;隨機(jī)誤差εi~N(0,0.52).
回歸系數(shù)函數(shù)β(t)有如下3個(gè)情形.
情形(Ⅰ):β(t)=0.
模型參數(shù)估計(jì)的算法有如下7個(gè)步驟.
步驟2由給定的γ,β(t),Zi,Xi(t),εi結(jié)合回歸模型(1)生成應(yīng)變量Yi,得到數(shù)據(jù)集,把后0.2n個(gè)樣本作為樣本外預(yù)測(cè)集.
步驟5通過(guò)留一交叉驗(yàn)證(CV)選取平滑參數(shù)λ,有
由表1~4可知:兩種估計(jì)方法的偏誤與方差非常接近且隨著樣本量的增大而減小,這說(shuō)明兩種估計(jì)方法在3種情形下都能取得較好的效果且性能表現(xiàn)近似.
表1 三種情形下的估計(jì)偏差與方差(n=50)Tab.1 Deviation and variance of estimated in three situations (n=50)
表2 三種情形下的偏差與方差(n=100)Tab.2 Deviation and variance of estimated in three situations (n=100)
表3 三種情形下的偏差與方差(n=200)Tab.3 Deviation and variance of estimated in three situations (n=200)
表4 回歸系數(shù)函數(shù)β(t)估計(jì)得到的偏差與方差(n=500)Tab.4 The deviation and variance of estimated regression coofficiont fuction of β(t) (n=500)
圖1 情形(Ⅰ)的某次模擬中β(t)觀(guān)測(cè)曲線(xiàn)及其估計(jì)曲線(xiàn)Fig.1 Observed and estimated curve of β(t) in a simulation situation (Ⅰ)
圖2 情形(Ⅱ)的某次模擬中β(t)的觀(guān)測(cè)曲線(xiàn)及其估計(jì)曲線(xiàn) 圖3 情形(Ⅲ)的某次模擬中β(t)的觀(guān)測(cè)曲線(xiàn)及其估計(jì)曲線(xiàn)Fig.2 Observed and estimated curves ofβ(t) in simulation situation (Ⅱ) Fig.3 Observed and estimated curves of β(t) in simulation situation (Ⅲ)
表5 的平均偏離平方和的均值與方差Tab.5 Mean and variance of sum of mean deviation squares of
由圖3可知:當(dāng)回歸系數(shù)函數(shù)β(t)設(shè)定為情形(Ⅲ)時(shí),LSSVM的估計(jì)曲線(xiàn)在頭部和尾部更貼近觀(guān)測(cè)曲線(xiàn),其余兩種方法估計(jì)相近都能較好地?cái)M合觀(guān)測(cè)曲線(xiàn).結(jié)合表5情形(Ⅲ)中的結(jié)果可知:當(dāng)n=50,200時(shí),LSSVM比OLS優(yōu)勢(shì)較大.
回歸系數(shù)函數(shù)β(t)樣本外預(yù)測(cè)值的RMSPE,如表6所示.由表6可知:在每個(gè)樣本容量下,LSSVM的樣本外預(yù)測(cè)誤差比OLS小;在同一回歸系數(shù)函數(shù)設(shè)定下,兩種方法的預(yù)測(cè)誤差隨著樣本量的增加略微上升,且LSSVM比OLS表現(xiàn)好.這說(shuō)明LSSVM在系數(shù)估計(jì)上具有優(yōu)勢(shì),有效提高了樣本外預(yù)測(cè)的準(zhǔn)確度.
表6 樣本外預(yù)測(cè)值的RMSPETab.6 RMSPE of out-of-sample predicted values
以上證指數(shù)當(dāng)日交易量和當(dāng)日1 min高頻交易價(jià)格數(shù)據(jù)作為次日上證指數(shù)開(kāi)盤(pán)價(jià)的影響因素.由于每日的交易量數(shù)據(jù)過(guò)大,因此,將其取對(duì)數(shù)后作為離散型自變量Zi,當(dāng)日1 min高頻交易數(shù)據(jù)作為相依函數(shù)型自變量Xi(t),次日的開(kāi)盤(pán)價(jià)作為標(biāo)量型應(yīng)變量Yi+1,構(gòu)建部分相依函數(shù)型線(xiàn)性模型,即
實(shí)例數(shù)據(jù)來(lái)源于銳思數(shù)據(jù)庫(kù),選取2018年1月至2018年12月的上證指數(shù)交易數(shù)據(jù),包含次日開(kāi)盤(pán)價(jià)、當(dāng)日的交易量、及當(dāng)日1 min高頻交易數(shù)據(jù).2018年共有243個(gè)交易日數(shù)據(jù),刪去最后1 d的交易日數(shù)據(jù)得到242個(gè)交易日數(shù)據(jù),每個(gè)交易日有242個(gè)1 min高頻交易價(jià)格數(shù)據(jù).
將前200個(gè)交易日數(shù)據(jù)作為訓(xùn)練樣本,剩余42個(gè)交易日數(shù)據(jù)作為預(yù)測(cè)樣本.分別使用文中提出的考慮函數(shù)型數(shù)據(jù)相依性的最小二乘支持向量機(jī)方法與未考慮相依性的最小二乘估計(jì)方法預(yù)測(cè)次日開(kāi)盤(pán)價(jià).預(yù)測(cè)結(jié)果與絕對(duì)誤差的比較,如圖4所示.
圖4 預(yù)測(cè)結(jié)果與絕對(duì)誤差的比較Fig.4 Comparison of prediction results and absolute error
由圖4可知:除個(gè)別交易日外,LSSVM估計(jì)的開(kāi)盤(pán)價(jià)的絕對(duì)誤差均OLS估計(jì)的開(kāi)盤(pán)價(jià)的絕對(duì)誤差,因此,文中方法的泛化能力更強(qiáng).
為了綜合比較預(yù)測(cè)效果,文中選取最大誤差、最小誤差、平均絕對(duì)誤差、均方預(yù)測(cè)誤差平方根評(píng)價(jià)方法的預(yù)測(cè)能力.兩種方法預(yù)測(cè)結(jié)果的綜合評(píng)價(jià),如表7所示. 表7中:Emax為最大誤差;Emin為最小誤差;MAE為平均絕對(duì)誤差.由表7可知:LSSVM較好地預(yù)測(cè)次日的開(kāi)盤(pán)價(jià),其最大誤差、最小誤差、平均絕對(duì)誤差、均方預(yù)測(cè)誤差平方根均好于OLS,由此證明LSSVM得到的預(yù)測(cè)效果優(yōu)于OLS的預(yù)測(cè)效果.
表7 兩種方法預(yù)測(cè)結(jié)果的綜合評(píng)價(jià)Tab.7 Comprehensive evaluation of prediction results of two methods
考慮到函數(shù)型數(shù)據(jù)的相依性結(jié)構(gòu)特征,提出一種基于最小二乘支持向量機(jī)的部分相依函數(shù)型線(xiàn)性模型.不同于其他的參數(shù)估計(jì)方法,利用無(wú)截?cái)郆artlett核估計(jì)長(zhǎng)期協(xié)方差函數(shù),并將長(zhǎng)期協(xié)方差函數(shù)所得到的特征函數(shù)對(duì)函數(shù)系數(shù)進(jìn)行基展開(kāi),從而把函數(shù)系數(shù)的估計(jì)轉(zhuǎn)化為參數(shù)向量的估計(jì)問(wèn)題,隨后運(yùn)用最小二乘支持向量機(jī)給出了模型參數(shù)的估計(jì).通過(guò)數(shù)值模擬可知,與未考慮函數(shù)型數(shù)據(jù)相依性特征的最小二乘估計(jì)法相比,文中方法對(duì)向量系數(shù)的估計(jì)更加準(zhǔn)確穩(wěn)健,有效提高了樣本外預(yù)測(cè)的準(zhǔn)確度.最后,將文中的參數(shù)估計(jì)方法應(yīng)用于上證指數(shù)次日開(kāi)盤(pán)價(jià)的預(yù)測(cè)中,進(jìn)一步證明使用文中模型及參數(shù)估計(jì)方法的有效性和優(yōu)越性.