付鴻濤盧維學,楊世娟
(1.上饒市廣豐區(qū)公安局,江西 上饒 334000;2.黃山學院 數(shù)學與統(tǒng)計學院,安徽 黃山 245041)
NA樣本下隨機設計情形線性模型的經驗似然
付鴻濤1,盧維學2,楊世娟2
(1.上饒市廣豐區(qū)公安局,江西 上饒 334000;2.黃山學院 數(shù)學與統(tǒng)計學院,安徽 黃山 245041)
在NA樣本下,利用大小分塊方法和矩不等式首次構造并證明了隨機設計情形下的線性模型的回歸系數(shù)的經驗似然比統(tǒng)計量的極限分布近似服從卡方分布,并進而構造其經驗似然方法下的置信域,最后,模擬比較得出經驗似然法下的置信域優(yōu)于正態(tài)逼近法下的置信域。
線性模型;隨機設計;分塊經驗似然;NA樣本;置信域
隨著近期大數(shù)據及“互聯(lián)網+”的大力推行,數(shù)據挖掘會日漸成為研究的焦點,如教育、醫(yī)學、股市等領域的數(shù)據。上述數(shù)據都會出現(xiàn)的共同特點是相依和不完全等特性。諸如此類問題,研究者們極其希望在理論上能夠更深入研究,以便對應用研究奠定基礎。
NA的概念由Block et al.[1]和Joag-Dev and Proschan[2]第一次研究,之后國內外學者對其的研究涉及了多元統(tǒng)計分析、滲透理論等諸多方面[3-7]。
Owen[8]首次系統(tǒng)地提出解決非參數(shù)估計推斷的經驗似然方法,此法構造置信區(qū)間具有域保持性、變換不變性等諸多優(yōu)點,對此該方法被應用到各種統(tǒng)計模型的研究中,且涉及到諸多領域[9,10]。
考慮如下線性模型:
其中,Y是一維響應變量,X∈Rd是隨機向量,β∈Rd是回歸系數(shù)組成的向量,ε∈R是隨機殘差且滿足E(ε|X)=0。假設X1,X2,…,Xn為X的觀測值,Y1,Y2,…,Yn為Y的樣本觀測值,{X1,Y1,X2,Y2,…Xn,Yn}為NA序列。
為了構造β的置信域,對其定義的經驗似然的得分函數(shù)的和進行分塊,即對n的和分成如下大小塊,記:
其中rm=(m-1)(p+q)+1,lm=(m-1)(p+q)+p+1,m= 1,2,…,k,k=[n/(p+q)],[t]代表t的整數(shù)部分,且p=p(n)和q=q(n)滿足p+q≤n。
分塊經驗似然比統(tǒng)計量如下:
通過上式得出(-2log)分塊似然比統(tǒng)計量:
其中λ(β)∈Rd由下式確定
為了證明方便,給出記號用Xij記Xi的第j個分量,1≤i≤n,1≤j≤d用||x||表示向量x的L2范數(shù),矩陣A的特征值的最小和最大值分別記為λmin(A)和λmax(A)。為了構造得到l(β)的極限分布,假設條件如下:
(A1)(i){X11,X12,…,X1d,Y1,X21,X22,…,X2d,Y2,…,Xn1,Xn2,…Xn d,Yn},為NA隨機變量序列,且{Xi,1≤i≤n},{Yi,1≤i≤n}均為平穩(wěn)序列.
(iii)X和Y均有界。
(A2)如上面所描述的p,q和k,記h>0為窗寬,并滿足
若zα使得成立。由定理1知,β漸近水1-α的經驗似然置信域為
由(3)確定的β的經驗似然置信域記為ELCI,β的正態(tài)逼近的置信域記為NACI,為了比較ELCI和NACI的置信域比率 (CP)和置信區(qū)間的平均長度(AL)??紤]如下模型{X1,Y1,…,Xn,Yn}服從多元正態(tài)分布(N:p1,p2,…,p2n)(4)
分別模擬樣本容量為n=100,150,200和250的情形,且重復1000次,在此選擇參數(shù)p=[n1/6],q= [n1/8]顯著水平α=0.05,表1給出模擬結果:CP隨著樣本容量的增大而越接近顯著水平0.95,AL隨著樣本量的增加而減小,且ELCI的覆蓋精度比NACI的覆蓋精度高。
表1 ELCI與NACI置信域比率和置信區(qū)間的平均長度
引理1:假設{ηj:1≤j≤n}是NA隨機變量序列并滿足是一個實數(shù)列,則存在常數(shù)C(與所給的s有關)使得
且
證明:見Shao[11]。
引理2:假設A1A2為兩個無公共元素的整數(shù)子集,且{ηj,j∈A1∪A2}為NA隨機變量序列。函數(shù)和的偏導數(shù)都存在且有界,用表示g的偏導數(shù)的上確界,則有
其中ηj表示Aj中元素的個數(shù) j=1,2。
證明:參考 Bulinski[12]引理 1與 Cai and Roussas[13]引理3.5的論證過程。
引理3:設條件(A1)與(A2)成立,且由常數(shù)構成的向量l∈Rd滿足||l||=1,則當n→∞時有
證明:首先證明(5),注意到
為了證明(6),只需證明:對給定的l∈Rd且||l||= 1,有
故為證(7),只需證明
首先證明
類似可證
利用(11)和(12),可以得到
此外,由平穩(wěn)性和Roussas[14]的引理3.2有
根據引理2和(5)式,可得
由引理2和序列的平穩(wěn)性,結合Roussas[14]中的定理2.1證明過程,可得
假設{ηnm,1≤m≤k}為獨立隨機變量序列,ηnm和有相同的分布。故為證(8),只需證明
由引理1和(5)知
由(11)和(12)知(9)和(10)成立,故引理3證畢。
引理4:在定理1的條件下,當n→∞時,有
由引理3的證明過程可知
故為證(19),只需證明
令
由于f1(x),f2(x)都是單調函數(shù),故都是NA隨機變量,又有
由引理1,類似于(16)的證明可得
由(21)和(24)可得
下面證明(20),
由引理1知
同理有
由(25),(26),(27)可得:Tnj=op(1),1≤j≤3從而(20)式得證。
定理1的證明:
知
進而
結合引理4得
從而
結合引理3知p=Op(n-1/2)再次利用(28)得
故
其中
由引理3和引理4知
其中ηj滿足
進一步有
從而定理1得證。
[1]Block,H.W.and Savits,T.H.Sharked,M.Some conceots of negative dependence[J].The Annals of Probability,1982,10:765-772.
[2]Joag-Dev,K.and Proschan,F(xiàn).Negative association of random variables with applications[J].The Annals of Statistics,1983,11:286-295.
[3]Lei,Q.and Qin,Y.Confidence intervals for nonparametric regressionfunctionswithmissingdata:multipledesign case[J],Journal of Systems Science and Complexity,2011,24:1204-1217.
[4]Qin,Y.and Li,Y.Empirical likelihood for linear models under negatively associated errors[J].Journal of Multivariate Analysis,2011,102:153-163.
[5]Su,L.Zhao,C.Wang,Y.B.Moment inqualities and week convergence for negatively associated sequences[J],Science China,1997,40:172-182.
[6]Thomas,D.R.and Grunkemeier,G.L.Confidence interval estimation of survival probabilities for censored data[J]. Journal of the American Statistical Association,1975,70:865-871.
[7]蘇淳.NA序列的一個Hsu-Robbins型定理 [J].科學通報. 1996,41:106-110.
[8]Owen,A.B.Empirical likelihood ratio confidence intervals for a single functional[J].Biometrika,1988,75:237-249.
[9]Owen,A.B.Empirical likelihood ratio confidence regions [J].The Annals of Statistics,1990,18:90-120.
[10]盧維學,楊世娟,李英華.混合樣本下分布函數(shù)在有限點的聯(lián)合漸近分布[J].廣西師范大學學報.2014,32:67-74.
[11]Shao,Q.M.A comparison theorem on moment inequalities betweennegativelyassociatedandindependentrandom variables[J].Journal of Theoretical Probability,2000,13:343-356.
[12]Bulinski,A.V.and Keane,M.S.Invariance principle for associated random fields[J].Journal of Mathematical Sciences,1996,81:2905-2911.
[13]Cai,Z.W.and Roussas,G.G.Berry-esseen bounds for smooth estimator of a distribution function under association[J].Journal of Nonparametric Statiatics,1999,11:79-106.
[14]Roussas,G.G.Asymptotic normality of the kernel estimate of a probability density function under association[J]. Statistics and Probability Letters,2000,50:1-12.
責任編輯:胡德明
Empirical Likelihood for Linear Models with Random Designs under Negatively Associated Samples
Fu Hongtao1,Lu Weixue2,Yang Shijuan2
(1.Public Security Bureau of Guangfeng District,Shangrao 334000,China;2.School of Mathematics and Statistics,Huangshan University,Huangshan 245041,China)
Under the samples of negative association,empirical likelihood of regression coefficient in linear models with random designs is first constructed and proved by blocking method and moment inequalities.And then the confidence regions based on empirical likelihood are constructed.Simulation studies show that confidence regions based on empirical likelihood is better than those based on normalapproximation.
linear models;random design;block empirical likelihood;samples of negative association;confidence region
O212.2
A
1672-447X(2016)03-0001-006
2016-03-20
黃山學院自然科學研究項目(2015xkj004;2015xkj005),安徽省教育廳自然科學研究項目(KJHS2016B04)。
付鴻濤(1987-),江西上饒人,碩士,上饒市廣豐區(qū)公安局,研究方向為應用統(tǒng)計;盧維學(1989-),黑龍江依安人,碩士,黃山學院數(shù)學與統(tǒng)計學院助教,研究方向為數(shù)理統(tǒng)計。