盧冬暉,江秉華,伍 麗
(湖北師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 湖北 黃石 435002)
對(duì)普通線性模型
y=Xβ+e,E(e)=0,Cov(e)=σ2I
胡宏昌教授從兩方面推廣得到泛最小二乘估計(jì)。一是統(tǒng)計(jì)上的自然推廣,在X不是滿(mǎn)秩時(shí),人們?yōu)榱说玫轿ㄒ唤?,必然增加新的求解條件,比如在β′β=min的條件下,得到最小二乘范數(shù)估計(jì)。還有作者用過(guò)β′Pβ=min 的條件。第二個(gè)方面是20世紀(jì)初,Hadamard觀察到求解算子方程Wf=F的問(wèn)題是不適定的。20世紀(jì)60年代中期,人們發(fā)現(xiàn),如果極小化正則化泛函:R(β)=λρ(e)+kf(β)=min,則可以得到一個(gè)解序列,它在δ→0 時(shí)收斂于所希望的解。將此正則化思想用于上面的線性模型,即尋求使R*(β)=‖y-Xβ‖2+k‖β‖2最小化的參數(shù)。這樣得到條件e′Pe+kβ′Qβ=min .把上面兩個(gè)同樣的條件進(jìn)一步一般化,可以得到R(β)=λρ(e)+kf(β)=min[1].但是實(shí)際應(yīng)用中通常還是考慮e′Pe+kβ′Qβ=min.
影響分析是統(tǒng)計(jì)診斷的一種重要方法,目的是探測(cè)數(shù)據(jù)中對(duì)既定模型的統(tǒng)計(jì)推斷影響特別大的點(diǎn)。[2]1977年Cook定義了Cook距離,提出了點(diǎn)刪除法這種經(jīng)典影響分析方法[3]。這種方法已經(jīng)被用于許多模型的影響分析,如普通線性模型的影響分析,增長(zhǎng)曲線的影響分析等[4]。影響分析也可能會(huì)出現(xiàn)“淹沒(méi)”或“掩蓋”現(xiàn)象[5~6]。還有一些研究致力于對(duì)Cook距離的推廣和化簡(jiǎn)。
下面用條件極值法得到約束泛最小二乘估計(jì),再定義其Cook距離并進(jìn)行化簡(jiǎn)。
對(duì)普通線性模型:
y=Xβ+e,E(e)=0,Cov(e)=σ2I
(1)
其中y為n維觀測(cè)列向量,X為n×p已知設(shè)計(jì)矩陣,β為p維未知參數(shù)列向量,e為隨機(jī)誤差列向量。
作函數(shù)φ(β)=e′Pe+kβ′Qβ,k是非負(fù)實(shí)數(shù),P,Q是給定正定矩陣。
在一些場(chǎng)合,我們需要求帶一定線性約束的泛最小二乘估計(jì)。
定理1 對(duì)線性模型(1)假設(shè):
Rank(A)=k
(2)
是一個(gè)線性相容方程組,A為k×p已知矩陣,且Rank(A)=k,b為k×1 已知向量, 則模型(1)在約束條件(2) 下的泛最小二乘估計(jì)為:
證明:為了用Lagrange乘子法求模型(1)滿(mǎn)足Aβ=b的泛最小二乘估計(jì),作輔助函數(shù):
L(β,λ)=e′Pe+kβ′Qβ+2λ′(Aβ-b)
其中λ=(λ1,λ2…λk)′為L(zhǎng)agrange乘子。
對(duì)函數(shù)L(β,λ) 求對(duì)β的偏導(dǎo),并令其為零,得:
-2X′P(y-Xβ)+2kQβ+2A′λ=0
即X′Py-X′PXβ-kQβ-A′λ=0
(3)
(X′PX+kQ)β=X′Py-A′λ
兩邊左乘 (X′PX+kQ)-1得:
(4)
因?yàn)镻是正定矩陣,故存在可逆矩陣T,使得P=T′T,把y=Xβ+e兩邊同時(shí)左乘T,得Ty=TXβ+Te,令Y=Ty,Z=TX,e*=Te,則得到
Y=Zβ+e*
(5)
(6)
(7)
先引入以下記號(hào),Y(i),y(i)分別表示從矩陣Y刪除第i行后的矩陣和被刪除的第i行向量。后面以此類(lèi)推,不再逐一說(shuō)明。
從模型(5)刪除第i組數(shù)據(jù)后的n-1組數(shù)據(jù)的線性回歸模型為:
其約束泛最小二乘估計(jì)為:
定義:基于約束泛最小二乘估計(jì)的回歸模型(5)的Cook距離為:
(8)
注:當(dāng)k=0時(shí)上述定義即Cook在文獻(xiàn)[2]中所定義的距離,說(shuō)明此處定義是合理的。
引理 令S=Z′Z+kQ,H=ZS-1Z′=Z(Z′Z+kQ)-1Z′,M=A′(AS-1A′)A,N=ZS-1MS-1Z′,設(shè)hii,nii分別為H、M的對(duì)角元,則:
證明:設(shè)K為n×n可逆矩陣,u,v均為n×1向量。則有恒等式:
(9)
同樣利用(9)式得:
(10)
把上式代入下面可得:
{S(i)-1A′(AS(i)-1A′)-1-S-1A′(A-1A′)-1}b=
(11)
為繼續(xù)化簡(jiǎn),用文獻(xiàn)[7]p.p50定理3.4.2中同樣的方法可以得出以下公式:
(12)
將(12)代入(11),得:
(13)
定理2 約束泛二乘最小估計(jì)的Cook距離可以化簡(jiǎn)為:
(14)
其中fii為F=ZS-1MS-1MS-1Z′ 的第i個(gè)對(duì)角元,lii為L(zhǎng)=ZS-1(QM+MQ)S-1Z′ 的第i個(gè)對(duì)角元,gii為G=ZS-1QSQS-1Z′ 的第i個(gè)對(duì)角元。
證明 將(13)式代入(8)式得:
利用公式(14),在計(jì)算Cook統(tǒng)計(jì)量時(shí),就不需要對(duì)每一個(gè)不完全數(shù)據(jù)的線性模型進(jìn)行計(jì)算,而只需要計(jì)算出H,N,W的對(duì)角元即可。
注:對(duì)k,P,Q取特定值和矩陣時(shí),可以得到相應(yīng)估計(jì)的Cook距離化簡(jiǎn)公式。
我們得到約束泛最小二乘估計(jì),但是對(duì)更一般的情況,比如目標(biāo)函數(shù)取R(β)=λP(e)+kf(β)的情況的討論,目前結(jié)果不多[1]。用迭代算法或泰勒公式,也可以得到Cook統(tǒng)計(jì)量的近似簡(jiǎn)化公式,而且可以有明確的統(tǒng)計(jì)意義。[9]當(dāng)然通常情況下若是能得到非近似公式還是更有利于理論推導(dǎo)和實(shí)際計(jì)算。
參考文獻(xiàn):
[1]胡宏昌,崔恒建,秦永松,等.近代線性回歸分析方法[M].北京:科學(xué)出版社,2013.
[2]Cook R D. Dectection of Influential Observation in Linear Regression[J]. Tochnometrics, 1977,19(1):15~18.
[3]Pan J X,Fang K T.Growth Curve Models and Statistical Diagnostics[M].New York:Spring,2002.
[4]Rousseeuw P J,Zomeren B C. Ummasking multivariate outliers and leverage points[C] . Journal of the Amercian Statistical Association, 1990,85:633~639.
[5]Jose A Diaz-Gracia , Grciela Gonzalez-Farias . A note on the Cook's distance[C] . Journal of Statistical Planning and Inference, 2004,120:119~136.
[6]Choongrak Kim.Cook's distance in local polynomial regression[C].Statistical &Probability Letters,2001,54:33~40.
[7]王松桂.線性統(tǒng)計(jì)模型[M].北京:高等教育出版社,1999.
[8]費(fèi) 宇,潘建新.線性混合效應(yīng)模型影響分析[M].北京:科學(xué)出版社,2005.
湖北師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2013年3期