趙晶晶,張曉冉,徐玉民
(燕山大學(xué) 理學(xué)院 河北 秦皇島 066004)
缺失數(shù)據(jù)下廣義線性回歸擬似然估計(jì)的相合性和漸近正態(tài)性
趙晶晶,張曉冉,徐玉民
(燕山大學(xué) 理學(xué)院 河北 秦皇島 066004)
研究了形如L(β)=ΣiZi(yi-μ(ZiTβ))=0的擬似然方程在協(xié)變量數(shù)據(jù)有缺失時(shí),方程未知參數(shù)估計(jì)的相合性和漸近正態(tài)性.假設(shè)存在協(xié)變量數(shù)據(jù)完整的一個(gè)有效樣本,且是總樣本的一個(gè)簡(jiǎn)單隨機(jī)子樣本,基于EM算法,提出了一種新的處理協(xié)變量中有不完整數(shù)據(jù)的擬似然方程的求解法,即通過(guò)有效數(shù)據(jù)線性預(yù)測(cè)補(bǔ)足協(xié)變量數(shù)據(jù)缺失部分,并且證明了當(dāng)樣本量n→∞,在滿足一些正則條件下所得出的新擬似然方程有解,且該解具有相合性和漸近正態(tài)性.
廣義線性模型; 擬似然估計(jì); 不完全協(xié)變量; 相合性; 漸近正態(tài)性
在廣義線性模型中,設(shè)響應(yīng)變量yi(i=1,…,n)相互獨(dú)立,服從指數(shù)型分布
exp(θiTyi-b(θi))dv(yi),i=1,…,n,
(1)
其中協(xié)變量Zi為q維列向量,yi的期望和線性預(yù)測(cè)因子ZiTβ有關(guān)系ui=h(ZiTβ),其中h:Rq→Rq是一對(duì)一光滑映射,β∈Rq是未知的回歸參數(shù),β*為其真值.函數(shù)h的逆稱(chēng)為聯(lián)系函數(shù),μi=E(yi)=b′(θi),di=Var(yi)=b″(θi).不難得到似然方程
(2)
擬似然方法的提出舍棄了響應(yīng)變量服從指數(shù)型分布的假定,并分離了均值和方差的結(jié)構(gòu).事實(shí)上只需正確指定其一階距和二階距就可在適當(dāng)條件下得到參數(shù)的相合估計(jì)及其大樣本性質(zhì)[1].文獻(xiàn)[2]提出只要均值函數(shù)假定正確,就可以預(yù)先假定響應(yīng)變量的“工作分布”進(jìn)而用“工作方差”Λ(·)替代(2)中的真實(shí)方差∑(·),并保留響應(yīng)變量獨(dú)立的假設(shè),從而得到擬似然方程
文獻(xiàn)[3-7]研究了形如
L(β)=ΣiZi(yi-μ(ZiTβ))=0
(3)
本文研究形如(3)的擬似然方程在協(xié)變量數(shù)據(jù)部分缺失時(shí)參數(shù)估計(jì)的相合性和漸近正態(tài)性.當(dāng)協(xié)變量數(shù)據(jù)有缺失時(shí),方程(3)無(wú)法求解.由于有效樣本是總樣本的一個(gè)簡(jiǎn)單隨機(jī)子樣本,可以只根據(jù)有效樣本估計(jì)出β.然而,舍棄不完全的觀測(cè)會(huì)導(dǎo)致估計(jì)效能的減小,尤其當(dāng)有效數(shù)據(jù)占據(jù)比例較小時(shí).文獻(xiàn)[8]對(duì)GLM中不完整的協(xié)變量數(shù)據(jù)問(wèn)題,基于投影思想通過(guò)線性補(bǔ)足缺失協(xié)變量數(shù)據(jù),在一定正則條件下得到了似然方程(2)參數(shù)估計(jì)的相合性和漸近正態(tài)性.受其思想啟發(fā),類(lèi)似于EM算法[9],本文提出通過(guò)補(bǔ)足協(xié)變量缺失數(shù)據(jù)來(lái)得出(3)相合性和漸近正態(tài)性的方法.
假定能夠完全觀測(cè)到的Zi是來(lái)自容量為n的總樣本的一個(gè)隨機(jī)子樣本,子樣本大小為m,稱(chēng)這個(gè)子樣本為有效樣本,剩余的n-m個(gè)為無(wú)效樣本,且有效比m/n→ρ∈(0,1]當(dāng)n→∞.記V={1,…,m}和NV={m+1,…,n}分別為有效樣本和無(wú)效樣本的標(biāo)識(shí).記Zi=(ZiT,XiT)T,其中Zi表示在樣本中總能觀測(cè)到的協(xié)變量向量部分,Xi表示只能在有效樣本中觀測(cè)到的協(xié)變量向量部分.當(dāng)協(xié)變量能夠完全觀測(cè)到時(shí)仍記為Zi.對(duì)于一般的有自然聯(lián)系的GLM,
(4)
是基于有效數(shù)據(jù)的擬似然估計(jì)方程.如果有效樣本是有代表性的,則可用作無(wú)偏估計(jì)方程.
(5)
其中,
對(duì)于β*鄰域B內(nèi)的β,在一些正則條件下有
上式是由于E(hgT){E(ggT)}-1=(0,Ir),Ir是維數(shù)為r=dim(h)單位矩陣,0表示r維0向量.由于
F(β)≡-limnn-1?L(β)/?β=ρE(dZZT)+(1-ρ)E(dZhT)[E(dhhT)]-1E(dhZT).
定理1在滿足以下正則條件下
1)β∈Θ,Θ是Rq的一個(gè)緊的凸的子集,真實(shí)的參數(shù)β*位于Θ的內(nèi)部;
2)(yi,Zi,Xi),i=1,…,n,獨(dú)立同分布;
3)對(duì)每個(gè)Zi,μ關(guān)于β二次可導(dǎo);
4)矩陣F*≡F(β*)存在且正定;
其中
2.1相合性
當(dāng)滿足下列條件時(shí)β的估計(jì)是相合的:
(a)?L(β)/?β的分量在Θ中存在且是連續(xù)的;(b)當(dāng)n→∞矩陣n-1?L(β)/?β在β*處以概率1負(fù)定;(c)n-1?L(β)/?β依概率一致的收斂到F(β),對(duì)于β∈B;(d)當(dāng)n→∞,n-1L(β*)=OP(1).
根據(jù)定理1條件3)可知(a)成立;根據(jù)條件4)和定理1上面的結(jié)果可知(b)成立;根據(jù)5),并對(duì)在巴拿赫空間取值的隨機(jī)變量運(yùn)用強(qiáng)大數(shù)定律可獲得n-1?L(β)/?β的一致收斂性[10],因此(c)成立;最后根據(jù)第一節(jié)后面部分的討論可知(d)成立.
2.2正態(tài)性
=Γ*TE{h(y-gTα*)2hT}Γ*.
因此由中心極限定理可知A服從均值為零方差為ΣNV的漸近正態(tài)分布.由條件2)知
記R=E(ggT),
=R-1E{g(μ*-gTα*)}{g(μ*-gTα*)}TR-1
=R-1E{g(μ*-gTα*)2gT}R-1=Λα.
Σα=Var(Γ*TB·C)
=Γ*TBVar(C)BTΓ*=Γ*TE(hgT)ΛαE(ghT)Γ*
=Γ*TE(hgT){E(ggT)}-1E{g(μ*-gTα*)2gT}{E(ggT)}-1E(ghT)Γ*
=Γ*TE{h(μ*-gTα*)2hT}Γ*.
上式是因?yàn)镋(hgT){E(ggT)}-1=(0,Ir),g=g(y,Z)≡(y,hT)T.
=(1-ρ)E[Z(y-μ*)(gTα*-
μ*)gT]{E(ggT)}-1E(ghT)Γ*.
記ΣC=E[Z(y-μ*)(gTα*-μ*)gT]{E(ggT)}-1E(ghT)Γ*,又因?yàn)镋(hgT){E(ggT)}-1=(0,Ir),g=g(y,Z)≡(y,hT)T,因此
ΣC=E[Z(y-μ*)(gTα*-μ*)gT]{E(ggT)}-1E(ghT)Γ*
=E[Z(y-μ*)(gTα*-μ*)hT]Γ*.
由于gTα*是μ*基于g=g(y,Z)≡(y,hT)T的最小二乘估計(jì),可以寫(xiě)成gTα*=αy*y+(1-αy*)hTθ*,其中hTθ*為μ*基于h的最小二乘估計(jì),
αy*是α*對(duì)應(yīng)于y的分量,則代入上式化簡(jiǎn)可得
=E{αy*Z(y-μ*)2hT}Γ*=αy*E(d*ZhT)Γ*.
[1] Alan A. Categorical Data Analysis[M].2nd Edition.New York:Wiley,2002:115-153.
[2] Liang K Y, Zeger S L. Longitudinal data analysis using generalized linear models[J].Biometrika,1986,73(1):13-22.
[3] 張三國(guó), 廖源. 關(guān)于廣義線性模型擬似然估計(jì)如相合性的幾個(gè)問(wèn)題[J]. 中國(guó)科學(xué)A輯,2007,37(11):1368-1376.
[4] Chen K. Strong consistency of maximum quasi-likelihood estimators in generalized linear models with fixed and adaptive designs[J].Ann Statist,1999,27(4):1155-1163.
[5] 高啟兵, 吳耀華. 廣義線性回歸擬似然估計(jì)的強(qiáng)相合性[J]. 數(shù)學(xué)年刊A輯, 2004,25(6):705-710.
[6] 高啟兵,吳耀華.廣義線性回歸擬似然估計(jì)的漸近正態(tài)性[J]. 系統(tǒng)科學(xué)與數(shù)學(xué),2005,25(6):738-745.
[7] 閻莉,陳夏.缺失數(shù)據(jù)下廣義線性回歸擬似然估計(jì)的強(qiáng)相合性[J]. 陜西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(2):15-17.
[8] Chen Y H,Chen H. Incomplete covariates data in generalized linear models[J].Journal of Planning and Inference,1999,79(2):247-258.
[9] 茆詩(shī)松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2007:427-435.
[10] Fahrmeir F,Kaufmann H. Consistency and asymptotic normality of the maximum likelihood estimatorin generalized linear models[J]. Ann Statist,1985,13(1):342-368.
ConsistencyandAsymptoticNormalityofQuasi-likelihoodEstimatorinGeneralizedLinearModelswithMissingData
ZHAO Jing-jing,ZHANG Xiao-ran,XU Yu-min
(SchoolofScience,YanshanUniversity,Qinhuangdao066004,China)
The consistency and asymptotic normality of quasi-likelihood estimating equation asL(β)=ΣiZi(yi-μ(ZiTβ))=0 was considered when part of the covariates were incomplete in generalized linear models. It was assumed that there existed a validation sample in which the data was complete .And it was a simple random subsample from the whole sample. Based on the EM-solution, a new method was proposed to estimate the regression coefficients with incomplete covariables by linear predict the incomplete co-variable data.When it was sufficiently large, the estimate was consistency and asymptotic normality under some regularity conditions.
generalized linear models; quasi-likelihood estimation; incomplete covariable; consistency; asymptotic normality
O 212.4
A
1671-6841(2011)03-0043-05
2010-05-28
趙晶晶(1986-),女,碩士研究生,主要從事廣義線性模型參數(shù)估計(jì)性質(zhì)研究,E-mail:zhaojj0418@126.com.