韓忠成林金官
(1.東南大學(xué)數(shù)學(xué)學(xué)院,江蘇 南京211189;2.南京審計(jì)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,江蘇 南京211815)
觀測(cè)數(shù)據(jù)的曲線擬合具有廣闊的應(yīng)用前景,非參數(shù)回歸模型為曲線擬合問題提供了一個(gè)主流的統(tǒng)計(jì)工具,其形式為
其中,m(·)是未知回歸函數(shù)有有界支撐U= [a,b],X是一維解釋變量,ε是獨(dú)立同分布的隨機(jī)誤差項(xiàng).在某些情況下,回歸函數(shù)可能在某些未知位置存在跳點(diǎn),表示相關(guān)過程的結(jié)構(gòu)變化.比如,當(dāng)生產(chǎn)線失控時(shí),產(chǎn)品的質(zhì)量指標(biāo)可能在未知的時(shí)間點(diǎn)發(fā)生向下或向上的移動(dòng).在這種情況下,跳點(diǎn)的檢測(cè)對(duì)回歸函數(shù)結(jié)構(gòu)的刻畫十分重要.
近年來,非參數(shù)模型跳點(diǎn)的估計(jì)已被廣泛研究.文[1]指出回歸函數(shù)可能存在不連續(xù)點(diǎn),傳統(tǒng)光滑方法得到的擬合曲線在跳點(diǎn)處存在較大偏差.在跳點(diǎn)個(gè)數(shù)已知的假設(shè)下,文[2]提出了跳點(diǎn)和回歸函數(shù)的核估計(jì)方法.文[3]利用小波方法給出了跳點(diǎn)的檢測(cè)方法.文[4]利用回歸函數(shù)的單邊非參數(shù)回歸方法估計(jì)不連續(xù)點(diǎn)的位置.文[5]基于局部線性估計(jì)量構(gòu)造跳點(diǎn)估計(jì)過程,證明了跳點(diǎn)估計(jì)過程的收斂性質(zhì).文[6]探討了不同方法下跳點(diǎn)估計(jì)問題的最優(yōu)表現(xiàn).在實(shí)際問題中,跳點(diǎn)的個(gè)數(shù)和位置通常是未知的.文[7]提出了一種不連續(xù)點(diǎn)的檢測(cè)方法.該方法通過比較任意給定點(diǎn)的三種估計(jì)量確定不連續(xù)點(diǎn)的位置.文[8]基于局部線性估計(jì)量提出了一種保跳曲線擬合方法.文[9]指出局部線性估計(jì)量不可避免地存在巨大的計(jì)算負(fù)擔(dān),而B樣條在擬合不連續(xù)回歸函數(shù)時(shí)表現(xiàn)更好.
上述文獻(xiàn)的結(jié)果都是在最小二乘方法下得到的.然而,最小二乘方法對(duì)觀測(cè)數(shù)據(jù)存在異常點(diǎn)或重尾分布的情形十分敏感.眾所周知,M-估計(jì)常用來處理異常點(diǎn)的情形(見文[10]),但是當(dāng)誤差項(xiàng)服從正態(tài)分布時(shí)M-估計(jì)會(huì)損失一些效率.因此,當(dāng)帶跳非參數(shù)模型存在異常點(diǎn)時(shí),需要發(fā)展一種合適的估計(jì)方法能同時(shí)獲得穩(wěn)健性和有效性.但是,據(jù)知,目前還未有此類研究文獻(xiàn)出現(xiàn).本文在跳點(diǎn)個(gè)數(shù)和位置未知的假設(shè)下,結(jié)合B樣條提出一個(gè)穩(wěn)健有效的跳檢測(cè)方法,通過引入一個(gè)調(diào)節(jié)參數(shù),改善回歸函數(shù)的估計(jì)效率.蒙特卡洛模擬和實(shí)例分析說明了提出的估計(jì)方法不僅在回歸函數(shù)的連續(xù)區(qū)間而且在跳點(diǎn)的鄰域內(nèi)都有很好的表現(xiàn).
本文結(jié)構(gòu)如下: 第2節(jié)介紹估計(jì)方法;第3節(jié)通過數(shù)值模擬給出提出的方法在有限樣本下的表現(xiàn);第4節(jié)用本文提出的方法處理上證指數(shù)數(shù)據(jù).
假設(shè)模型(1.1)中的回歸函數(shù)m(·)有如下表達(dá)式:
其中,g(x)是一元光滑函數(shù),I(·)是示性函數(shù)當(dāng)條件為真時(shí)取1,否則取0.q表示回歸函數(shù)中跳點(diǎn)的個(gè)數(shù),dj和sj分別表示第j個(gè)跳點(diǎn)的幅度和位置.稱滿足式(2.1)的模型(1.1)為帶跳非參數(shù)模型.
Ⅰ眾數(shù)估計(jì)
假設(shè){(Xi,Yi),i= 1,··· ,n}是來自模型(1.1)的一組樣本.為避免局部多項(xiàng)式估計(jì)的缺點(diǎn),回歸函數(shù)m(x)可通過B樣條近似給出.令U= (u1,··· ,uK)表示支撐[a,b]上的內(nèi)節(jié)點(diǎn)向量,對(duì)應(yīng)的擴(kuò)展節(jié)點(diǎn)向量記為則
其中,B(x) = (B1,p(x),··· ,BK+p+1,p(x))表示p階B樣條基函數(shù),K表示內(nèi)節(jié)點(diǎn)個(gè)數(shù).根據(jù)眾數(shù)光滑思想,我們可通過最大化下式
估計(jì)α,其中,?h(t) =h?1?(t/h),h是需要選擇的帶寬,?(t)表示對(duì)稱核密度函數(shù).?(t)的選擇不是非常嚴(yán)格,為了便于計(jì)算,本文?(t)取標(biāo)準(zhǔn)正態(tài)密度.
注意到最大化式(2.3)無法直接得到α的顯式解.為了估計(jì)α,給出如下的EM算法:
步0 計(jì)算α的初始值α(0).設(shè)置k=0.
步1 更新π(j|α(k)):
步2 更新α(k+1):
其中,MT= (B(X1),··· ,B(Xn)),Wk是以π(j|α(k))為元素的對(duì)角陣,Y= (Y1,··· ,Yn)T.設(shè)置k=k+1,并返回至步1.
步3 重復(fù)步1至步2,直到收斂.α的最終估計(jì)量,記作.回歸函數(shù)在點(diǎn)x處的估計(jì)量記為(x,U?)=B(x)T.
進(jìn)一步,如果在U?內(nèi)加入p+1個(gè)同樣的新節(jié)點(diǎn)x0∈(a,b),不失一般性,假設(shè)x0∈(ui,ui+1),則新的節(jié)點(diǎn)向量記為,即
和
類似(2.3)式,(2.5)式和(2.6)式的最優(yōu)解可通過同樣的算法步驟獲得,分別記為和.則回歸函數(shù)在點(diǎn)x處的估計(jì)量記為令RSS0表示殘差平方和,即插入新節(jié)點(diǎn)之后的殘差平方和包含兩部分
和
注1步0中α(0)的計(jì)算可參見文[9]的方法.
Ⅱ跳點(diǎn)檢測(cè)估計(jì)
由文[11]可知,如果回歸函數(shù)m(x)在支撐[a,b]上是光滑的,則每個(gè)設(shè)計(jì)點(diǎn)(x;U?)是m(x)的相合估計(jì);如果m(x)在支撐[a,b]上存在跳點(diǎn),那么在跳點(diǎn)的鄰域內(nèi)(x;U?)不是m(x)的相合估計(jì).(x;)在區(qū)間[a,x0)和[x0,b]上也具有相同的性質(zhì).因此,為了提高回歸函數(shù)的估計(jì)精度,需要檢測(cè)觀測(cè)數(shù)據(jù)中的跳點(diǎn).
為了檢測(cè)跳點(diǎn),回歸函數(shù)估計(jì)量的距離函數(shù)定義如下:
直觀來說,若x0位于回歸曲線的連續(xù)區(qū)域在區(qū)間[a,x0) 和[x0,b]上與(x;U?)相差無幾,包括在跳點(diǎn)的鄰域內(nèi)也是如此,所以接近很小;若x0位于跳點(diǎn)的鄰域內(nèi),僅在x0的左鄰域內(nèi)相合,在x0的右鄰域內(nèi)非相合,而在跳點(diǎn)兩側(cè)均是不相合的,因此,當(dāng)x0接近跳點(diǎn)時(shí),的差異十分顯著,D(x0)相應(yīng)增加.特別地,如果x0與跳點(diǎn)重合,D(x0)可得到局部極大值點(diǎn).
總體來說,當(dāng)x0的鄰域內(nèi)存在跳點(diǎn),D(x0)變大且存在一個(gè)局部極大值點(diǎn),否則D(x0)的值很小.根據(jù)D(x0)在跳點(diǎn)處的信息,我們提出下面的跳點(diǎn)檢測(cè)步驟:
第1 步: 對(duì)任一點(diǎn)x0,若滿足|D(x0)|≥?n,其中?n是非負(fù)閾值,則x0被標(biāo)記為跳點(diǎn).
第2 步: 假設(shè){νi,i=1,··· ,q}是第一步檢測(cè)的跳點(diǎn),且?n=Xi ?Xi?1均相等.若存在整數(shù)1≤i1
利用上述程序可檢測(cè)出回歸函數(shù)中跳點(diǎn)的位置和個(gè)數(shù),記作{ν?1,··· ,ν?q?}和q?.令ν?0=a,ν?q?+1=b,V={ν?0,··· ,ν?q?+1},不難發(fā)現(xiàn),回歸函數(shù)在區(qū)間[ν?0,ν?1),··· ,[ν?q?,ν?q?+1]上是連續(xù)的.記新的節(jié)點(diǎn)向量為可通過最大化下式
進(jìn)行估計(jì),其中B?(x)是節(jié)點(diǎn)向量下的B樣條基函數(shù)向量.與(2.3)式類似,回歸函數(shù)在點(diǎn)x處的估計(jì)量為稱為穩(wěn)健跳點(diǎn)檢測(cè)估計(jì)量.
Ⅲ參數(shù)選擇
在利用B樣條函數(shù)擬合回歸函數(shù)的過程中,有四個(gè)參數(shù)需要選擇: 內(nèi)節(jié)點(diǎn)個(gè)數(shù)K,基函數(shù)階數(shù)p,帶寬h和閾值?n.首先討論參數(shù)K和p的選擇,通常考慮以下二維交叉驗(yàn)證準(zhǔn)則
獲得.其次,由文[12]可知,基于B樣條函數(shù)的局部眾數(shù)估計(jì)量與最小二乘估計(jì)量的漸近方差之比如下所示:
其中σ2= E(ε2),F(h) = E(?′′h(ε)),G(h) = E(?′h(ε)2).比值R(h)僅依賴帶寬h,且在估計(jì)量的有效性和穩(wěn)健性方面扮演著重要角色.因此,帶寬h的理想選擇為
由(2.7)式可知,hopt與樣本大小n無關(guān),只與ε的條件誤差分布有關(guān).
實(shí)際問題中,隨機(jī)誤差項(xiàng)的分布是未知的,因此F(h)和G(h)無法直接獲得.一個(gè)靈活的處理方法是通過
分別估計(jì)F(h)和G(h).則R(h)可利用來估計(jì),其中表示基于初始估計(jì)得到的殘差項(xiàng).利用格點(diǎn)搜索方法,很容易找到hopt最小化(h).
參數(shù)?n的選擇需要合適的跳點(diǎn)檢測(cè)準(zhǔn)則,常用的評(píng)價(jià)準(zhǔn)則為Hausdorff距離
其中J和分別表示真實(shí)的和估計(jì)的跳點(diǎn)集合.由于J未知,無法直接計(jì)算,故采用bootstrap方法.假設(shè)存在B個(gè)bootstrap樣本,根據(jù)第k個(gè)樣本檢測(cè)到的跳點(diǎn)記為則的估計(jì)為
?n的最優(yōu)值可通過最小化獲得.
注2參數(shù)選擇的其他方法可參見文[9,11-12].
本節(jié)通過數(shù)值例子評(píng)價(jià)提出的跳點(diǎn)檢測(cè)方法和回歸函數(shù)估計(jì)量的有限樣本表現(xiàn).考慮一組觀測(cè)值{(Xi,Yi),i=1,··· ,n}來自模型
其中Xi是來自[0,1]的均勻分布,回歸函數(shù)表達(dá)式如下函數(shù)m(x)有兩個(gè)跳點(diǎn),分別位于0.3和0.7處,幅度分別是2.8和1.7.樣本量取n= 200和400,每次實(shí)驗(yàn)重復(fù)N=200次.誤差分布考慮以下兩種不同情形:
情形1εi ~N(0,0.12),正態(tài)分布.
情形2εi ~0.95N(0,0.12)+0.05N(0,32),5%的數(shù)據(jù)可近似看作異常點(diǎn).
首先,研究跳點(diǎn)檢測(cè)方法檢測(cè)跳點(diǎn)的能力.表3.1給出了不同情形下檢測(cè)到的跳點(diǎn)出現(xiàn)在真實(shí)跳點(diǎn)0.02范圍內(nèi)的次數(shù).與情形2相比,情形1中的跳點(diǎn)檢測(cè)方法的表現(xiàn)明顯更好.這一現(xiàn)象表明誤差分布的噪聲水平較小,跳點(diǎn)檢測(cè)方法的表現(xiàn)越好.進(jìn)一步地,在情形2中,樣本量增加相應(yīng)地提高了跳檢測(cè)方法檢測(cè)跳點(diǎn)的能力.同時(shí),當(dāng)跳點(diǎn)的幅度增加時(shí)有類似的結(jié)論.
表3.1 200次重復(fù)實(shí)驗(yàn)下真實(shí)跳點(diǎn)0.02范圍內(nèi)檢測(cè)出跳點(diǎn)的次數(shù)
其次,研究回歸函數(shù)估計(jì)量的有限樣本表現(xiàn).在獲得跳點(diǎn)個(gè)數(shù)和位置的估計(jì)之后,使用提出的跳點(diǎn)檢測(cè)方法和眾數(shù)回歸方法(MPS)估計(jì)回歸函數(shù).為了說明其有效性與穩(wěn)健性,我們將該方法與基于分段樣條擬合和最小二乘提出的跳點(diǎn)檢測(cè)(LSPS)估計(jì)方法[9]進(jìn)行比較,兩個(gè)曲線估計(jì)量分別記作在200次重復(fù)實(shí)驗(yàn)下,對(duì)這兩個(gè)估計(jì)量計(jì)算相應(yīng)的平均積分平方誤差(mean integral squared error,MISE)和跳點(diǎn)附近的局部MISE的值,結(jié)果如表3.2所示.
表3.2 回歸函數(shù)的MISE 和跳點(diǎn)附近的局部MISE 的模擬結(jié)果
股票市場(chǎng)作為國(guó)民經(jīng)濟(jì)的晴雨表,受到政府和投資者的高度重視。由于股票市場(chǎng)充滿了不確定性、機(jī)遇和風(fēng)險(xiǎn),因此,挖掘有效信息可以幫助投資者抓住機(jī)遇并規(guī)避風(fēng)險(xiǎn).
股票價(jià)格指標(biāo)是度量金融市場(chǎng)信息的有效工具,從統(tǒng)計(jì)學(xué)角度分析股票價(jià)格指標(biāo)對(duì)獲取信息十分重要.作為示例,我們收集了一組上海證券綜合指數(shù)從2014年1月2日至2016年12月30日的日收盤價(jià)數(shù)據(jù)(見http://q.stock.sohu.com).這三年中,股票市場(chǎng)經(jīng)歷了幾次危機(jī),稱為中國(guó)股市動(dòng)蕩.從圖4.1可知,動(dòng)蕩起始于2015年6月15日,于2016年2月早期終止.三個(gè)暴跌點(diǎn)出現(xiàn)在2015年6月,2015年8月,2016年1月.然而,由于噪聲的影響,跳點(diǎn)位置和幅度均是未知的.因此,跳點(diǎn)檢測(cè)以及收盤價(jià)曲線擬合需要格外關(guān)注.值得注意的是,在分析數(shù)據(jù)之前,有必要對(duì)數(shù)據(jù)進(jìn)行歸一化處理.
圖4.1 2014年1月2日至2016年12月30日上海證券綜合指數(shù)的日收盤價(jià)數(shù)據(jù)
圖4.2 2014年1月2日至2016年12月30日上海證券綜合指數(shù)的擬合曲線
圖4.3 Y200 =5000作為異常點(diǎn)時(shí),2014年1月2日至2016年12月30日上海證券綜合指數(shù)的擬合曲線
根據(jù)第2節(jié)的跳點(diǎn)檢測(cè)方法,從圖4.2中可觀測(cè)到三個(gè)跳點(diǎn),分別位于0.483,0.548和0.667(對(duì)應(yīng)日期2015年6月15日,2015年8月21日和2016年1月4日).檢測(cè)出的跳點(diǎn)位置與三個(gè)暴跌點(diǎn)的位置十分接近.同時(shí),圖4.2中的擬合曲線與真實(shí)數(shù)據(jù)的變化趨勢(shì)保持一致,進(jìn)一步說明提出的跳點(diǎn)檢測(cè)估計(jì)方法在跳點(diǎn)附近和連續(xù)區(qū)域內(nèi)的表現(xiàn)良好.
為了檢驗(yàn)本文提出的方法對(duì)異常點(diǎn)是否穩(wěn)健,將第200個(gè)觀測(cè)值設(shè)為Y200=5000,見圖4.3.不難發(fā)現(xiàn),本文提出的方法與最小二乘法的跳點(diǎn)檢測(cè)方法的跳點(diǎn)檢測(cè)結(jié)果與圖4.2中的結(jié)果保持一致.當(dāng)存在異常點(diǎn)的時(shí)候,基于最小二乘的跳點(diǎn)檢測(cè)方法的回歸函數(shù)估計(jì)量(虛線)在異常點(diǎn)附近明顯偏離了真實(shí)曲線.然而,基于眾數(shù)的跳點(diǎn)檢測(cè)方法的回歸估計(jì)量(虛點(diǎn)線)與圖4.2中的結(jié)果保持一致.因此,基于眾數(shù)的跳點(diǎn)檢測(cè)方法是穩(wěn)健的.