孫 晗,尹長明,靳永濤
(廣西大學數(shù)學與信息科學學院,南寧530004)
廣義線性模型(Generalized Linear Model,GLM)最早被Nelder和Wedderburn[1]于1972年所引進,用于解決因變量y取離散值的情況。而廣義估計方程(Generalized Estimation Equation,GEE)是Liang和Zeger[2]在1986年的一篇具有開創(chuàng)性意義的文章中引入的,作為對廣義線性模型相關數(shù)據(jù)的有用擴展,主要用于分析縱向數(shù)據(jù)(Longitudinal Data))或集團數(shù)據(jù)(Cluster Data)。而縱向數(shù)據(jù)一直是近些年來被研究的熱點之一[3]。在應用中,廣義估計方程被廣泛應用于生物統(tǒng)計、臨床試驗、車險定價及理賠等領域。張敏等[4]在高血壓研究案例當中,以高血壓的四類并發(fā)癥擬合四個常數(shù)項,構建廣義估計方程,用以計算各并發(fā)癥在基線水平上的發(fā)生概率。Wu等[5]通過收集中國高速公路出口坡道的四年碰撞數(shù)據(jù)來進行建模,將GEE與傳統(tǒng)的GLM進行比較,發(fā)現(xiàn)前者可以很好地適用于碰撞頻率數(shù)據(jù)。李靜等[6]通過采用GEE方法建立了不同孕周的體重常模??得让群蛣⑺卮海?]將GEE應用到車險定價中,與GLM相比,得到的變量更準確。除此之外,GLM和GEE不再僅限于二值數(shù)據(jù),在多分類問題中業(yè)已廣泛應用,詳見文獻[8-12]。
Wang[13]證明了在個體觀測次數(shù)有限的情況下經(jīng)典Logit廣義估計方程估計的漸近性質。而隨著時代的發(fā)展,對個體觀測的次數(shù)會越來越多,甚至趨于無窮。因此,本文將觀測次數(shù)由有限推廣到了無限,在相近的條件下證明了經(jīng)典Logit廣義估計方程估計的漸近性質。
設在試驗中對第i個個體的第j次觀測,得到二進制響應變量Yij和pn維協(xié)變量Xij,其中i=1,…,n;j=1,…,m。對于來自不同個體的觀測值,假設其相互獨立,而來自相同個體的觀測值則認為是相關的,但相關系數(shù)未知。令Yi=(Yi1,…,Yim)T表示第i個個體的響應變量,并且Xi=(Xi1,…,Xim)T為m×pn協(xié)變量矩陣。假設Ε(Yij,其中h的反函數(shù)g為聯(lián)系函數(shù)(Link Function)。對于經(jīng)典Logit模型來說,聯(lián)系函數(shù)為,βn是一個pn維的參數(shù)向量。此外,有:
詳細情況可參考文獻[14-16]。
在應用中,工作相關矩陣的提出對于分析縱向數(shù)據(jù)具有重要的意義。但由于受到擾動參數(shù)τ的影響,工作相關陣并不容易得到,于是Xie和Yang[17]以及Balan和Schiopu-Kratina[18]假設τ已知,并提出一個非隨機的正定矩陣并給出了估計方程:
式中,表示為的真實相關陣且為未知。
Wang[1]定 義 了GEE估 計 量的解,其中R^是工作相關陣,并在一定條件下證明了協(xié)變量個數(shù)趨于無窮時β^n的漸近性質。本文在其基礎上將條件放寬,對個體觀測次數(shù)也不再設置上限(即趨于無窮),并證明的漸近性質。本文不同位置的C代表不同正常數(shù);對任意矩陣A=(aij),范數(shù)為Frobenius范數(shù)[13],即:
為了后文定理敘述的簡潔,引入以下假設條件[13]:
(A2)未知參數(shù)βn屬于緊子集B?Rpn,真實參數(shù)值βn0是集合B的內點,且?c1,c2>0,使得c1≤λmin(Ai(βn0))≤λmax(Ai(βn0))≤c2,其中λmin,λmax分別表示矩陣的最小、最大特征值;
(A3)?c3,c4>0,滿足:
定理1關于漸近存在性和相合性。對于經(jīng)典Logit模型,假設(A1)~(A7)成立,則方程Sn(βn)=0存在一個根β^n,且β^
n滿足:
定理2關于漸近正態(tài)性。對于經(jīng)典Logit模型,假設(A1)-(A7)成立,則,有:
關于定理的證明需要用到以下引理。
引理1式中:
ej為第j個元素、為1,其他均為0的m維列向量。引理2假設條件(A1)~(A5)成立,則:
引理3假設條件(A1)~(A5)成立,則?Δ>0,bn∈Rpn,有:
引理4假設條件(A1)~(A4)以及(A6)成立,則?Δ>0,bn∈Rpn,有:
引理5假設條件(A1)~(A5)成立,則?Δ>0,bn∈Rpn,有:
引理6設G是Rn中的有界開集,記G的閉包和邊界分別是,?G。若函數(shù)F→Rn是連續(xù)的,并且對某個x0∈G和所有的x∈?G有(x-x0)TF(x)≤0,則F(x)=0有一個根在中。參見文獻[19]。
引理7假設條件(A1)~(A5)成立,則?αn∈Rpn,αn=1,有:
定
?理1的證明 由微分中值定理和引理1,可得:
式中,β*n在βn和βn0連線內。
首先估計In1。由引理2及(A7)可得:
其次估計In2,對求期望,即:
由(A1)-(A4)可知:
所以有:
對于In3有:
由引理3和(A6)可得:
由(A2)-(A4)可得:
而由引理4、引理5以及(A5)、(A6)可得:
由式(7)~式(12)可知In3≤-CΔ2pn,再由式(5)、式(6)可知:
最后,根據(jù)引理6可知式(5)成立,于是定理1得證。
定理2的證明 由定理1可知,Sn(β^n)=0。根據(jù)拉格朗日中值定理可得:
由(A2)、(A4)和式(1)可知,對于?bn∈Rpn且bn≠0,
有:
則根據(jù)Rayleigh-Rize定理以及(A3)可知:
首先證明In1=op(1)。由Cauchy-Schwarz不等式、引理1、
式(14)以及(A5)可得:
其次證明In2=op(1),由于
故需依次證明Jni=op(1),i=1,2,3,首先證明Jn1=op(1)。
以及(A5)可得:
同理,運用引理3、引理4,式(3)以及(A3)、(A6)可得:
由式(15)-(19)可得,In1=In2=op(1)。最后根據(jù)引理7,式(13)和Slutsky定理可知式(3)成立,即定理2得證。
例1對于經(jīng)典Logistic回歸模型產生的縱向數(shù)據(jù):
魏強強[20]通過隨機模擬,產生了個體觀測數(shù)n為20,每個個體觀測值m為15次,且協(xié)變量維數(shù)pn為4的數(shù)據(jù),根據(jù)Newton-Raphson迭代法選取初值βn0=經(jīng)過15次迭代收斂到β^n=,偏差較小。由此可得,當條件(A1)~(A7)成立時,有:
例2為了研究某種新型的治療精神抑郁病藥物是否有更好的療效,某研究中心將其與標準藥物進行對比,做了如下試驗。該試驗是由340位病人共同參與,并根據(jù)各個體抑郁癥的嚴重程度進行劃分,且每組分別被隨機地指定服用新型藥或標準藥,分別記錄個體接受治療后在1、2和4周的情況,按精神抑郁的程度,各個體被劃分為正常(N)或異常(A),具體數(shù)據(jù)見表1,數(shù)據(jù)來自Biometric Society。
表1 抑郁的三次響應對治療和抑郁嚴重程度的交叉劃分
表1給出了基于獨立工作關聯(lián)的GEE估計。而對于該數(shù)據(jù)來說,GEE估計等于通過經(jīng)典Logit模型,將3×340=1020個觀測值當做非獨立的觀測,進而得到回歸結果。通過運算分析可以得出抑郁嚴重程度、藥物治療方式以及時間都對正常響應具有實質影響。最初,兩種藥物的藥效相似,均隨著時間而增長,但新型藥物的藥效增長幅度更大。隨著觀測次數(shù)(周數(shù))的增多,所得到的效果也會更加穩(wěn)定。詳細請參考文獻[21]。由此可見,觀測次數(shù)的適當增加,可使得試驗結果更加理想。