朱 寧,周桂蘭
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004)
k-d類估計(jì)下數(shù)據(jù)刪除模型的強(qiáng)影響分析
朱 寧,周桂蘭
(桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004)
在k-d類估計(jì)下對(duì)單個(gè)數(shù)據(jù)刪除模型進(jìn)行研究,得到原模型(k,d)與數(shù)據(jù)刪除(k,d)(i)、嶺估計(jì)k之間的關(guān)系,并推導(dǎo)得到CRi統(tǒng)計(jì)量和Cook統(tǒng)計(jì)量新的表達(dá)形式.
k-d類估計(jì);數(shù)據(jù)刪除模型;CRi統(tǒng)計(jì)量;Cook統(tǒng)計(jì)量
考慮一般線性模型:
其中y為n×1階向量,X為n×p階列滿秩設(shè)計(jì)陣,β為p×1階未知參數(shù)向量,ε為n×1隨機(jī)誤差向量,In為n階單位矩陣.在線性模型(1)中,估計(jì)回歸參數(shù)的最基本的方法是最小二乘法=(X'X)-1X'Y,這個(gè)方法不僅在統(tǒng)計(jì)學(xué)中,在數(shù)學(xué)其它分支,如運(yùn)籌學(xué)、計(jì)算數(shù)學(xué)和控制論等,都占有很重要的地位.但當(dāng)設(shè)計(jì)陣X'X存在一個(gè)趨于零的特征值時(shí),最小二乘估計(jì)不再是一個(gè)好的估計(jì),此時(shí)估計(jì)參數(shù)的均方誤差會(huì)很大.為了解決這個(gè)問(wèn)題,很多學(xué)者在選擇犧牲無(wú)偏的基礎(chǔ)上提出了一系列新的估計(jì),比較常用的估計(jì)有Hoerl和Kennard提出的嶺估計(jì)(k)=(X'X+kIp)-1X'Y、Stein估計(jì)、主成分估計(jì)、Liu估計(jì)、k-d類估計(jì)等[1],但當(dāng)數(shù)據(jù)存在異常值時(shí),這些估計(jì)并不適應(yīng),為此把有偏估計(jì)和數(shù)據(jù)刪除放到一起研究是有必要的.
韋博成[2]研究了最小二乘下的數(shù)據(jù)刪除的強(qiáng)影響分析.魏傳華、吳喜之[3]在空間分析中提出混合地理加權(quán)回歸模型的刪除模型,定義了數(shù)據(jù)刪除模型參數(shù)分量的Cook統(tǒng)計(jì)量,討論了均值漂移模型異常點(diǎn)的檢驗(yàn)統(tǒng)計(jì)量.張莉莉,史建紅[4]對(duì)SUR模型的影響分析進(jìn)行研究,得到SUR模型和數(shù)據(jù)刪除模型的兩種近似似然距離公式.朱寧、黃黎平和嚴(yán)冠東[5-7]分別在嶺型主成分估計(jì)和Stein嶺型主成分估計(jì)下對(duì)單個(gè)數(shù)據(jù)和多個(gè)數(shù)據(jù)刪除模型進(jìn)行研究,討論線性模型與數(shù)據(jù)刪除模型的估計(jì)量之間的關(guān)系.
本文在Sakall?o?lu S和Ka??ranlar S[8]所提出的k-d估計(jì)的基礎(chǔ)上,結(jié)合數(shù)據(jù)刪除模型的特點(diǎn),對(duì)新的有偏估計(jì)下的數(shù)據(jù)刪除模型的強(qiáng)影響問(wèn)題進(jìn)行研究,證明此有偏估計(jì)的相關(guān)性質(zhì),并在前人的基礎(chǔ)上提出CRi統(tǒng)計(jì)量和Cook統(tǒng)計(jì)量新的表達(dá)形式,并用該統(tǒng)計(jì)量來(lái)判斷強(qiáng)影響點(diǎn).
引理1[1]:在模型(1)下提出了未知參數(shù)β新的有偏估計(jì),即在嶺估計(jì)和Liu估計(jì)的基礎(chǔ)上利用最小二乘的方法得到新的估計(jì):
下面討論數(shù)據(jù)刪除模型與線性模型的估計(jì)量之間的關(guān)系.
其中,y(i)為(n-1)×1階觀測(cè),x(i)為(n-1)×p階列滿秩設(shè)計(jì)陣,β(i)為p×1階未知參數(shù)向量,ε(i)為(n-1)×1隨機(jī)誤差向量,In-1為(n-1)階單位矩陣.
其中Ip為p階單位矩陣.
證明:為了方便后面的證明,公式(2)中的k-d估計(jì)可以變形為:
模型(2)中的k-d估計(jì)為:
[9]知,模型(2)的嶺估計(jì)有如下關(guān)系:
證明方法如定理1.
性質(zhì)1:在線性模型y=Xβ+ε,ε~N(0,σ2In)中,刪除一組數(shù)據(jù)得到模型y(i)=X(i)β(i)+ε(i),ε(i)~N(0,σ2In-1),若(k,d)(i)可表示刪除模型中未知參數(shù)的值,則預(yù)測(cè)值可以表示為(k,d)(i)和yi的線性組合.
證明:
估計(jì)量的方差是度量估計(jì)量?jī)?yōu)良性的重要統(tǒng)計(jì)量,而協(xié)方差比統(tǒng)計(jì)量[1]主要度量數(shù)據(jù)點(diǎn)(yi,x'i)對(duì)估計(jì)量的影響.由
定理3:在k-d估計(jì)下,協(xié)方差統(tǒng)比計(jì)量為:
證明:因?yàn)?/p>
引理2[2]:模型(2)y(i)=X(i)β(i)+ε(i)中β和σ2的最小二乘估計(jì)與模型(1)中相應(yīng)的估計(jì)和σ2有如下關(guān)系:
證明:由引理2可知
證畢.
引理3[1]:Cook統(tǒng)計(jì)量的定義為:
定理4:k-d估計(jì)下的Cook統(tǒng)計(jì)量可表示成:
把上面的公式代入(8)式整理可得Cook統(tǒng)計(jì)量的表達(dá)式.
在k-d類估計(jì)下,得到了數(shù)據(jù)刪除下的k-d類估計(jì)與k-d類估計(jì)下原模型參數(shù)估計(jì)嶺估計(jì)三者之間的關(guān)系,找出預(yù)測(cè)估計(jì)和yi、(k,d)(i)之間的線性表達(dá)式,并根據(jù)最小二乘估計(jì)下Cook統(tǒng)計(jì)量的表達(dá)式,推導(dǎo)出數(shù)據(jù)刪除下k-d類估計(jì)的CRi統(tǒng)計(jì)量和Cook統(tǒng)計(jì)量新的表達(dá)形式.
參考文獻(xiàn)
[1]王松桂,陳敏,陳立萍.線性統(tǒng)計(jì)模型:線性回歸與方差分析[M].北京:高等教育出版社,1999.
[2]韋博成,魯國(guó)斌,史建清.統(tǒng)計(jì)診斷引論[M].南京:東南大學(xué)出版社,1991.
[3]魏傳華,吳喜之.混合地理加權(quán)回歸模型的統(tǒng)計(jì)診斷[J].統(tǒng)計(jì)與信息論壇,2009,24(1):9-13.
[4]張莉莉,史建紅.半相依線性回歸模型的影響分析[J].數(shù)學(xué)雜志,2010,30(1):137-144.
[5]朱寧,黃黎平.嶺型主成分估計(jì)下數(shù)據(jù)刪除模型的強(qiáng)影響分析[J].統(tǒng)計(jì)與決策,2012(15):72-74.
[6]朱寧,嚴(yán)冠東.Stein嶺型主成分估計(jì)下的單個(gè)數(shù)據(jù)刪除模型的研究[J].統(tǒng)計(jì)與決策,2015(14):16-18.
[7]朱寧,嚴(yán)冠東,劉慶華.Stein嶺型主成分估計(jì)下多個(gè)數(shù)據(jù)刪除模型的強(qiáng)影響分析[J].汕頭大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,30(2):20-27.
[9]錢峰,石麗娟.數(shù)據(jù)刪除模型對(duì)于廣義嶺估計(jì)的影響[J].南通大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,7(1):75-78.
Strong Impact Analysis of Data Delete Model Based on k-d Class Estimation
ZHU Ning,ZHOU Guilan
(School of Mathematics and ComputingScience,Guilin Universityof Electronic Technology,Guilin 541004,Guangxi,China)
With the k-d class estimation,the single data deletion model is studied.The relationship among the original model,the data deletionridge estimateand derive the new form of CRistatistic and Cook statistic is obtained.
k-d class estimation;data deletion model;CRistatistic;Cook statistic
1001-4217(2017)04-0035-06
O212.1
A
2017-03-07
朱 寧(1957—),男,湖南寧鄉(xiāng)人,教授,研究方向:線性統(tǒng)計(jì)模型.
周桂蘭(1993—),女,廣西南寧人,碩士究生,研究方向:應(yīng)用統(tǒng)計(jì).E-mail:839590076@qq.com.
廣西自然科學(xué)基金項(xiàng)目(2016GXNSFBA380102)