尹長明,王亞東
(廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,廣西南寧530004)
廣義線性模型(GLMs)在研究響應(yīng)變量是離散的或非負(fù)的回歸問題中起著重要的作用[1].縱向數(shù)據(jù)(面板數(shù)據(jù)或集團(tuán)數(shù)據(jù))在生物醫(yī)學(xué),經(jīng)濟(jì)和社會科學(xué)的研究中經(jīng)常出現(xiàn).縱向數(shù)據(jù)是對一個(gè)個(gè)體的多次觀測的數(shù)據(jù)是相關(guān)的,但相關(guān)程度未知,不同個(gè)體之間的觀測數(shù)據(jù)是獨(dú)立的.廣義估計(jì)方程(GEE)[2]是常用的分析縱向數(shù)據(jù)下GLMs的方法[3],GEE估計(jì)的一個(gè)顯著特點(diǎn)是只要均值函數(shù)假定正確,即使相關(guān)陣(或協(xié)方差)假定不正確,得到的回歸參數(shù)估計(jì)仍具有相合性和漸近正態(tài)性.若方差也假定正確,得到的估計(jì)方差最小.
高維協(xié)變量現(xiàn)在越來越普遍,特別是在基因研究和大規(guī)模健康研究中.例如酵母菌基因研究有96個(gè)協(xié)變量[4];心臟病的研究,協(xié)變量有年齡,抽煙情況,膽固醇含量,血壓等等[5];有時(shí)變量雖然不多,考慮到各種交叉因素,協(xié)變量就很多.這些變量中有部分協(xié)變量與響應(yīng)變量沒有關(guān)系或者關(guān)系不密切,若將它們包含在模型中,會影響統(tǒng)計(jì)推斷的精度,因此選擇重要的協(xié)變量即變量選擇就很重要.
關(guān)于GEE的大樣本性質(zhì)可參看文[5].當(dāng)個(gè)體數(shù)n→∞,協(xié)變量維數(shù)pn可以趨于無窮時(shí),WANG[5]在沒有加稀疏條件下證明了GEE估計(jì)的大樣本性質(zhì).變量選擇的文獻(xiàn)可參看文[6],該文獻(xiàn)假定協(xié)變量的維數(shù)pn是不變的,且響應(yīng)變量是連續(xù).WANG,ZHOU,QU[4]研究了響應(yīng)變量可以是連續(xù)的,也可以是離散的(屬性數(shù)據(jù)和計(jì)數(shù)數(shù)據(jù)),協(xié)變量的維數(shù)pn可以是發(fā)散的縱向數(shù)據(jù)下廣義線性模型的變量選擇.本文改進(jìn)了WANG,ZHOU,QU[4]和WANG[5]的結(jié)果.
設(shè)(Yij,Xij)是第i個(gè)個(gè)體的第j次觀測值,i=1,2,···,n,j=1,2,···,m,其中Yij是響應(yīng)變量,Xij是pn×1協(xié)變量,m是每個(gè)個(gè)體的觀測次數(shù).當(dāng)個(gè)體數(shù)n→∞,協(xié)變量維數(shù)pn可以無界.假設(shè)不同個(gè)體之間的觀測值是獨(dú)立的,同一個(gè)個(gè)體的m次觀測值是相關(guān)的.記Yi=(Yi1,···,Yim)T,Xi=(Xi1,···,Xim),i=1,···,n,其中T表示矩陣或向量的轉(zhuǎn)置.
設(shè)廣義線性模型的期望和方差分別為
其中μ(θ)是聯(lián)系(link)函數(shù),˙μ(θ)>0是它的導(dǎo)數(shù),θij=XTijβn,βn=(βn1,···,βnpn)T是回歸參數(shù)向量.當(dāng)μ(θ)=θ,就得到線性模型;μ(θ)=eθ/(1+eθ),就得到logistic回歸模型;μ(θ)=eθ,就得到研究計(jì)數(shù)數(shù)據(jù)的對數(shù)線性回歸模型.
記μi(βn)=(μi1(βn),···,μim(βn))T,Ai(β)=diag(σi1(βn),···,σim(βn)),其中,diag(v)表示一個(gè)對角矩陣,其對角元素是向量v的元素.類似LIANG,ZEGER[2],WANG[5]定義方程
其中Qλn(|βn|)=(qλn(|βn1|),···,qλn(|βnpn|))T,Sign(βn)=(sign(βn1),···,sign(βnpn))T,Qλn(|βn|)·Sign(βn)定義為對應(yīng)元素相乘得到的向量,SCAD懲罰函數(shù)為
t≥0,a>2,λn是調(diào)整參數(shù),符號函數(shù)sign(t)=I(t>0)-I(t<0),I是示性函數(shù).
在本文中,C,C1,C2,...代表與n無關(guān)的正常數(shù),在不同地方可以表示不同值.為了得到我們的主要結(jié)果,需要如下假設(shè)條件.
(A1)pn維向量Xij,1≤i≤n,1≤j≤m的所有元素關(guān)于n一致有界;
(A3)存在與n無關(guān)的有限正常數(shù)C1和C2使得
其中Xij(1)是Xij的前sn個(gè)元素構(gòu)成的向量,Xi(1)=(Xi1(1),···,Xim(1)),λmin和λmax分別表示矩陣的最小和最大特征根;
(A4)Yi,i=1,···,n的共同真實(shí)相關(guān)陣Rn0滿足Rn0≥CIm,估計(jì)工作相關(guān)陣滿足其中是任意滿足C1Im≤≤C2Im的正定陣,稱為工作相關(guān)陣(可以不等于Rn0),Im是m階單位陣,‖R‖=[trace(RRT)]1/2表示矩陣R的Frobenius范數(shù);
(A5)存在某個(gè)r>2,對所有i≤n有E‖?i(βn0)‖r≤C,其中?i(βn)=(?i1(βn),···,?im(βn))T
(A6)對所有1≤i≤n,1≤j≤m,βn∈Bn,方差滿足μ的二階導(dǎo)數(shù)¨μ和三階導(dǎo)數(shù)μ(3)滿足≤C,其中δ是任意正常數(shù);
(A7)(i)min1≤j≤sn|βnj0|/λn→∞;(ii)(iii)λn→0;(iv).
定理2.1若假設(shè)條件(A1)-(A7)成立,則存在使下面式子成立,
其中Unk(βn)是Un(βn)的第k個(gè)元素,αn是任意固定的sn維單位向量,(2.3)和(2.4)經(jīng)常被稱為變量選擇的Oracle性質(zhì).
注2.1條件(A1)更正了文[4]中筆誤:pn維向量Xij一致有界.
注2.2(A3)減弱了文[4]中條件:的最小最大特征根都是n的階.
注2.3(A5)減弱了文[4]中條件:存在正常數(shù)M2,M3使E[exp(M2|?ij(βn0)|)]≤M3.因?yàn)?ij(βn0)的矩母函數(shù)一致有界可以推出對任意r>2有E|?i(βn0)|r≤C.
注2.4(A6)減弱了文[4]中條件:對所有1≤i≤n,1≤j≤m,其中特別當(dāng)pn是n的高階無窮大,文[4]中此條件較強(qiáng).
注2.5(A7)減弱了文[4]中條件:在矩母函數(shù)一致有界條件下,文[4]中pn最高可達(dá)n2階,我們的結(jié)果pn可達(dá)到nr階,對任意r>2.
注2.6將文[5]中條件和減弱為在參數(shù)真值點(diǎn)成立,即其中βn(1)∈Bn(1)={βn(1):
其余條件與文中[4-5]中條件一樣.
引理3.1若假設(shè)(A6),(A7)(ii)和成立,則其中βn∈Bn.
證由(A7)(ii)和知
由微分中值定理,(A6)和(3.1),知
由(3.2)和(A6),知
同理,由微分中值定理,(3.1),(3.3)和(A6),知
引理3.3[7](微分中值不等式)設(shè)D?Rn,f:D→Rm.若f(x)在D內(nèi)可微,則對任何兩點(diǎn)a,b∈D,必存在ξ=a+θ(b-a),0<θ<1,使得
引理3.4[8]設(shè)X1,X2,···,Xn是鞅差序列,r≥2,則
引理3.5[4]記epnk表示第k個(gè)元素是1,其余元素都是0的pn維向量,
則
其中
注3.1文[4]中Gnk(βn)與文[5]中(βn)表達(dá)式的有筆誤,應(yīng)為
定理2.1的證明由假設(shè)條件和引理3.1知,引理3.2的條件滿足,因而其結(jié)論成立.所以若取即
其中Snk()是Sn()的第k個(gè)元素.
由引理3.3,引理3.1,(A1),(A7)(ii),知
由(3.12),(3.13)知
由假設(shè)條件(A1)知
由(3.15),(A4),引理3.1,Markov不等式,(3.14)和(A7)(iv),知
由泰勒公式,知
其中在βn與βn0的連線上.特別當(dāng)有
其中Δnk(1)(βn)是向量的前sn個(gè)元素構(gòu)成的向量,Dnk(1)(βn)是左上角的sn×sn矩陣.
由Markov不等式,引理3.4,(A1),(A4),(A5),(A6)和(A7)(v),知
記Hnk(1)(βn),nk(1)(βn),Gnk(1)(βn)分別是向量Hnk(βn),nk(βn),Gnk(βn)的前sn個(gè)元素構(gòu)成的向量,則由引理3.5知
由(A1),(A4),(A6)和(A7)(iv),知
由引理3.4,(A1),(A4),(A5)和(A6),可得
由Markov不等式,Minkowski不等式,(3.22),(A7)(ii)和(A7)(v),知
所以
同理,
由(3.20),(3.21),(3.24)和(3.25),得
設(shè)emj表示第個(gè)j個(gè)元素是1,其余元素都為0的m維向量,則由可得,
由(3.29),(3.28),(3.27),引理3.5,(3.14),(A1),(A4),(A6)和引理3.1,可證
所以
再由Markov不等式,(A7)(iii)和(A7)(iv)知
由(3.32),(3.26),(3.19),(3.18),(3.16)和(3.6),知
當(dāng)k=sn+1,···,pn,=0,所以再由(3.33)知(2.2)成立.由=知(2.3)成立.由假設(shè)條件,引理3.1和引理3.2知(2.4)成立.定理2.1證畢.
本文只在較弱的條件下證明非零回歸系數(shù)的個(gè)數(shù)發(fā)散情況下,縱向數(shù)據(jù)GEE的協(xié)變量選擇的相合性質(zhì)和Oracle性質(zhì).數(shù)值模擬請參看文[4].