王 蕾,曹連英
(東北林業(yè)大學(xué))
半變系數(shù)模型的一般形式如下:
(1)
針對(duì)半變系數(shù)模型有很多研究方法[1-5],如一般級(jí)數(shù)方法[1],局部多項(xiàng)式擬合方法[2],小波估計(jì)法[3],等等.由于半變系數(shù)模型可用于數(shù)據(jù)分析,然而在收集數(shù)據(jù)時(shí)可能有個(gè)別數(shù)據(jù)因錄入錯(cuò)誤或者測(cè)量錯(cuò)誤,甚至缺少重要自變量,都會(huì)導(dǎo)致數(shù)據(jù)存在較大的誤差,這些有“問題”的數(shù)據(jù)也就是異常點(diǎn),異常點(diǎn)會(huì)偏離其他數(shù)據(jù)點(diǎn)的回歸軌跡,所以對(duì)參數(shù)估計(jì)的結(jié)果會(huì)造成嚴(yán)重的干擾及影響,使模型的擬合效果變差,相關(guān)學(xué)者對(duì)于異常點(diǎn)問題也做了許多研究,如文獻(xiàn)[6]提出了一種用于可加性和創(chuàng)新異常點(diǎn)識(shí)別的遺傳算法,能有效地檢測(cè)異常點(diǎn)的位置和類型,估計(jì)異常點(diǎn)的大??;文獻(xiàn)[7]討論了基于貝葉斯統(tǒng)計(jì)理論的GNSS時(shí)間序列的異常點(diǎn)檢測(cè)問題,等等.該文利用輪廓最小二乘法,通過在模型中引入異常點(diǎn)Sl指示矩陣,對(duì)模型的異常點(diǎn)進(jìn)行分析,并通過數(shù)值模擬對(duì)該文提出異常點(diǎn)分析模型進(jìn)行驗(yàn)證,數(shù)值結(jié)果表明模型方法可行有效.
(2)
利用局部加權(quán)最小二乘,使
(3)
為了方便敘述,引入一些記號(hào):
ε=(ε1,ε2,…,εn)T,Wu0=Diag(Kh(u1-u0),Kh(u2-u0),…,Kh(un-u0)).模型(2)的矩陣形式為
Y-Xβ=M+ε
(4)
SlY-SlXβ=SlM+Slε
(5)
利用輪廓最小二乘法對(duì)上述模型給出參數(shù)和非參數(shù)部分的估計(jì).由
得到γ(u0)的估計(jì)為
取u0=ui(i=1,2,…,n),可得未知系數(shù)函數(shù)α(ui)=(α1(ui),…,αq(ui))T的估計(jì)為
用以下兩種方法對(duì)所得異常點(diǎn)進(jìn)行進(jìn)一步檢驗(yàn).
(1)LYD檢驗(yàn):
下面通過數(shù)值模擬如下的半變系數(shù)模型來驗(yàn)證異常點(diǎn)分析模型.模型為:
yi=xi1β1+xi2β2+zi·α(ui)+εi
(6)
表1 30組樣本數(shù)據(jù)的殘差平方和SSE(Sl),LYD和Cook統(tǒng)計(jì)量
圖1 模型中變系數(shù)函數(shù)的擬合曲線圖
數(shù)值結(jié)果表明,若模型存在異常點(diǎn),則去除異常點(diǎn)后,該組數(shù)據(jù)產(chǎn)生的殘差平方和SSE(Sl)遠(yuǎn)小于其他組樣本數(shù)據(jù)的SSE(Sl),根據(jù)表1可知第30組數(shù)據(jù)為異常點(diǎn).再進(jìn)一步對(duì)異常點(diǎn)進(jìn)行檢驗(yàn),由第30組數(shù)據(jù)對(duì)應(yīng)的LYD=5.2938>3,Cook統(tǒng)計(jì)量D=1.2133>4/30≈0.1333,綜合得,第30組數(shù)據(jù)為模型的異常點(diǎn).圖1也給出了去除異常點(diǎn)前后的變系數(shù)函數(shù)α(u)的估計(jì)與真實(shí)函數(shù)的比較,由于異常點(diǎn)的存在使模型的系數(shù)函數(shù)軌跡發(fā)生改變,異常點(diǎn)分析模型對(duì)估計(jì)結(jié)果進(jìn)行了修正.
該文主要討論半變系數(shù)模型的異常點(diǎn)問題,在傳統(tǒng)的輪廓最小二乘法的基礎(chǔ)上加入Sl指示矩陣,得到異常點(diǎn)分析模型.可先判斷模型是否存在異常點(diǎn),利用殘差平方和SSE(Sl)最小找出模型中的異常點(diǎn).在相同條件下,去除異常點(diǎn)的數(shù)據(jù)組產(chǎn)生的殘差平方和SSE(Sl)偏小,再利用LYD方法和Cook統(tǒng)計(jì)量對(duì)異常點(diǎn)進(jìn)一步檢驗(yàn).
參 考 文 獻(xiàn)
[1] Ahmad I, Leelahanon S, Li Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J]. Annals of Statistics, 2005, 33(1):258-283.
[2] Zhang W, LEE SY, Song X. Local Ploynomial Fitting in Semivarying Coefficient Model[J]. Journal of Multivariate Analysis, 2002, 82(1):166-188.
[3] Zhou X, You J H. Wavelet estimation in varying-coefficient partially linear regression models[J]. Statistics & Probability Letters, 2004, 68(1):91-104.
[4] 魏傳華,吳喜之.部分線性變系數(shù)模型Backfitting估計(jì)的漸進(jìn)性質(zhì)[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào)A輯,2008, 23(2): 227-234.
[5] 羅羨華,李元,周勇,等.基于縱向數(shù)據(jù)的半?yún)?shù)變系數(shù)部分線性回歸模型[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2007, 30(3): 541-554.
[6] Baragona R, Battaglia F, Calzini C.Genetic algorithms for the identification of additive and innovation outliers in time series[J]. Computational Statistics & Data Analysis, 2001, 37 (1):1-12.
[7] Zhang Q, Gui Q. Bayesian methods for outliers detection in GNSS time series[J]. Journal of Geodesy, 2013, 87 (7):609-627.
[8] Wei C H,Wu X Z.Error Variance Estimation in Partially Linear Varying Coefficient Models[J].Mathematica Applicata, 2008, 21 (2):378-383.
哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào)2017年5期