王 珊,趙文芝
(西安工程大學(xué) 理學(xué)院,陜西 西安 710048)
變點(diǎn)是質(zhì)量控制、信號處理、地震預(yù)測和神經(jīng)醫(yī)學(xué)等各個(gè)領(lǐng)域的普遍現(xiàn)象。統(tǒng)計(jì)學(xué)文獻(xiàn)中包含大量與結(jié)構(gòu)變化有關(guān)的變點(diǎn)問題,其中大部分是為單一變化而設(shè)計(jì)的[1-3]。然而,許多真實(shí)數(shù)據(jù)卻很少出現(xiàn)單一變點(diǎn),比如經(jīng)濟(jì)、金融和生物學(xué)數(shù)據(jù)通常會發(fā)生多次變化[4-6]。線性回歸模型是統(tǒng)計(jì)數(shù)據(jù)分析的重要模型之一,在實(shí)際問題中應(yīng)用廣泛[7],因此,研究存在多個(gè)變點(diǎn)的線性回歸模型具有現(xiàn)實(shí)意義[8-9]。
回歸模型的隨機(jī)誤差項(xiàng)有時(shí)會呈現(xiàn)尖峰厚尾的統(tǒng)計(jì)特征,在能源期貨波動率[10]、細(xì)菌繁殖[11]及浮游植物的運(yùn)動模式[12]等許多自然現(xiàn)象中,厚尾分布已引起人們的廣泛關(guān)注。LAD準(zhǔn)則只考慮偏離的一次方,受異常值影響較小[13-14],因此更適合處理厚尾數(shù)據(jù)。大數(shù)據(jù)時(shí)代,高維復(fù)雜情形往往蘊(yùn)含在實(shí)際問題中,例如風(fēng)電預(yù)測、視頻圖像處理等。對高維數(shù)據(jù)特征進(jìn)行篩選、剔除冗余特征是解決維數(shù)災(zāi)難問題的主要途徑[15]。LASSO[16-17]是一種新的數(shù)據(jù)降維方法,它保持了子集收縮和嶺回歸的良好特征,從而能在參數(shù)估計(jì)的同時(shí)實(shí)現(xiàn)變量選擇[18]。HARCHAOUI等提出了基于LASSO的多變點(diǎn)估計(jì)方法[19];LI等用自適應(yīng)LAD-LASSO方法研究均值多變點(diǎn)估計(jì)問題[20]。不過,現(xiàn)有文獻(xiàn)對多變點(diǎn)估計(jì)問題的研究方法存在所適用的模型不具備普適性或者缺乏穩(wěn)健性等不足之處,如何克服這些缺點(diǎn)是值得考慮的問題。
本文將LAD-LASSO方法應(yīng)用到一般的線性回歸模型多變點(diǎn)估計(jì)問題中。該方法能同時(shí)對回歸系數(shù)、變點(diǎn)的個(gè)數(shù)及位置進(jìn)行估計(jì),且對于厚尾數(shù)據(jù)具有良好的穩(wěn)健性。采用Hausdoff距離度量變點(diǎn)估計(jì)值集合與變點(diǎn)真實(shí)值集合之間的距離,以此評價(jià)多變點(diǎn)估計(jì)的效果。最后用該方法估計(jì)上海機(jī)場股票收益率數(shù)據(jù)的方差變點(diǎn),進(jìn)一步驗(yàn)證LAD-LASSO方法對實(shí)際問題的可行性。
考慮多變點(diǎn)線性回歸模型[18]
(1)
其中
目標(biāo)是通過已知的n對觀測數(shù)據(jù)(xt,Yt),t=1,2,…,n估計(jì)模型(1)中的系數(shù)列向量βt,t=1,2,…,n,以及真實(shí)變點(diǎn)位置T*、變點(diǎn)個(gè)數(shù)K*。
令Y=(Y1,Y2,…,Yn)T,E=(ε1,ε2,…,εn)T, 并且
定義[18]
(2)
(3)
問題(1)可表示為如下優(yōu)化問題:
(4)
其中I{·}是示性函數(shù)。當(dāng)βt+1=βt時(shí),其值為0;反之其值為1。
使用文獻(xiàn)[20]中的方法將式(4)中的約束條件進(jìn)行放松:
(5)
式中:‖·‖1表示l1范數(shù);
通過式(3)將問題(5)重新表示為
(6)
這等價(jià)于求解優(yōu)化問題
(7)
(8)
這樣一來,問題(1)轉(zhuǎn)化成了LAD-LASSO變量選擇問題,其中λ是調(diào)節(jié)參數(shù)。λ的選取采用BIC方法[20](式中簡記為BBIC),即
BBIC=nln(RSA/n)+dfln(n)/2
(9)
其中ej為第j個(gè)分量為1,其余分量為0的pn×1維列向量。這樣,式(8)可以重新表示為
(10)
(11)
考慮方差多變點(diǎn)模型[21]
Yt=σtet,t=1,2,…,n
(12)
式中:σt為與時(shí)間有關(guān)的常數(shù);{et,t=1,2,…,n}是i.i.d.隨機(jī)變量序列,均值為0,方差為σ2。
式(12)右端可寫成σt+σt(et-1)。令
σt=βt,σt(et-1)=εt,xt=1,
式(12)可轉(zhuǎn)化為
Yt=βtxt+εt,t=1,2,…,n
(13)
即將模型(12)轉(zhuǎn)化為多變點(diǎn)線性回歸模型,進(jìn)而可采用LAD-LASSO方法進(jìn)行變點(diǎn)估計(jì)。
對于多變點(diǎn)估計(jì)問題,本文用Hausdorff距離dH[22]評價(jià)多變點(diǎn)估計(jì)的效果。定義A,B分別代表變點(diǎn)估計(jì)值集合以及變點(diǎn)真實(shí)值集合,‖·‖表示歐式范數(shù),則
(14)
Hausdorff距離dH越小,多變點(diǎn)估計(jì)效果越好[23]。
用隨機(jī)模擬方法驗(yàn)證LAD-LASSO估計(jì)方法的有效性,并與傳統(tǒng)的LASSO方法相對比。
數(shù)據(jù)生成過程如下:
Yt=βtxt+εt,t=1,2,…,n
(15)
其中,
(a) 正態(tài)噪聲下的觀測樣本 (b) 指數(shù)噪聲下的觀測樣本 (c) t分布噪聲下的觀測樣本
由圖1(a)、(b)可知,當(dāng)噪聲服從正態(tài)分布和輕尾分布,即指數(shù)分布時(shí),變點(diǎn)的發(fā)生用肉眼還可分辨;但在噪聲服從厚尾分布,即t分布時(shí),圖1(c)中的變點(diǎn)用肉眼已經(jīng)很難分辨,因此需要通過統(tǒng)計(jì)方法進(jìn)行多變點(diǎn)估計(jì)。
用LAD-LASSO方法對以上生成的模擬數(shù)據(jù)進(jìn)行多變點(diǎn)估計(jì),并與傳統(tǒng)的LASSO方法比較,變點(diǎn)估計(jì)結(jié)果見表1。
表1 不同分布下的LAD-LASSO估計(jì)及LASSO估計(jì)
由表1可知:LAD-LASSO的Hausdorff距離均小于LASSO的Hausdorff距離; 無論噪聲服從輕尾還是厚尾分布,LAD-LASSO方法均優(yōu)于LASSO方法。特別地,從變點(diǎn)估計(jì)的位置和數(shù)量上來看,當(dāng)噪聲服從厚尾分布,即t(3)分布時(shí),LAD-LASSO方法的優(yōu)勢更加突出。
進(jìn)一步直觀地用散點(diǎn)圖將LAD-LASSO變點(diǎn)估計(jì)與LASSO變點(diǎn)估計(jì)相對比,結(jié)果如圖2所示。圖2(a)、(b)、(c)是LAD-LASSO方法在3種噪聲下的估計(jì),(d)、(e)、(f)是LASSO方法進(jìn)行變點(diǎn)估計(jì)的結(jié)果??梢?LAD-LASSO方法能比較準(zhǔn)確地估計(jì)出真實(shí)變點(diǎn)位置,而LASSO方法無法估計(jì)出真實(shí)變點(diǎn)位置,而且估計(jì)結(jié)果不夠準(zhǔn)確。
(a) 正態(tài)噪聲下LAD-LASSO估計(jì) (b) 指數(shù)噪聲下LAD-LASSO估計(jì) (c) t分布噪聲下LAD-LASSO估計(jì)
選取2013年1月到2017年3月上海機(jī)場股票(600009)收益率數(shù)據(jù)(數(shù)據(jù)來源:http://quotes.money.163.com/trade/lsjysj_600009.html)進(jìn)行LAD-LASSO方差變點(diǎn)估計(jì),驗(yàn)證該方法的有效性,結(jié)果如圖3所示。
(a) 收盤價(jià)時(shí)序圖 (b) 收益率時(shí)序圖 (c) LAD-LASSO變點(diǎn)估計(jì)
由圖3(c)可知,上海機(jī)場股票的收益率數(shù)據(jù)共有5次聚集性波動,認(rèn)為該數(shù)據(jù)變點(diǎn)個(gè)數(shù)為5,變點(diǎn)估計(jì)結(jié)果見表2。2013年公司整體運(yùn)營平穩(wěn),處于低速增長期;2014年是全面貫徹落實(shí)十八屆三中全會精神的開局之年,機(jī)場運(yùn)行業(yè)務(wù)量實(shí)現(xiàn)穩(wěn)步增長;2015年民航業(yè)保持較快發(fā)展速度,上海機(jī)場出現(xiàn)了強(qiáng)勁的客流量增長,這是由于我國“十三五”規(guī)劃對民航經(jīng)濟(jì)帶來的積極影響。
表2 收益率數(shù)據(jù)變點(diǎn)估計(jì)結(jié)果
本文研究了線性回歸模型多變點(diǎn)的LAD-LASSO估計(jì)方法。隨機(jī)模擬結(jié)果表明:在序列誤差服從不同分布的情況下,LAD-LASSO方法得到的Hausdorff距離小于LASSO方法得到的Hausdorff距離;在序列帶t分布噪聲影響下, LAD-LASSO估計(jì)結(jié)果表現(xiàn)更佳,該方法估計(jì)的變點(diǎn)位置在準(zhǔn)確度上優(yōu)于LASSO,而且對于厚尾數(shù)據(jù)能較好地估計(jì)變點(diǎn)位置,具有良好的穩(wěn)健性。均值多變點(diǎn)、方差多變點(diǎn)模型均可作為線性回歸模型的特例使用LAD-LASSO方法進(jìn)行變點(diǎn)估計(jì)。實(shí)例分析結(jié)果表明,LAD-LASSO方法可用于處理實(shí)際問題。