禹建奇
(桂林理工大學(xué)理學(xué)院,廣西桂林541004)
等級(jí)數(shù)據(jù)缺失形態(tài)下兩多元正態(tài)均值向量的推斷
禹建奇
(桂林理工大學(xué)理學(xué)院,廣西桂林541004)
文章首先定義了等級(jí)數(shù)據(jù)缺失形態(tài),考慮了等級(jí)數(shù)據(jù)缺失形態(tài)下,兩個(gè)多元正態(tài)總體的均值向量的推斷問題。在假設(shè)兩總體協(xié)差陣相等的前提下,提出了一類似于Hoteelling T2的樞軸量,并用等矩方法近似它的分布,利用該分布做檢驗(yàn)與區(qū)間估計(jì)。近似的精確性通過蒙特卡洛數(shù)據(jù)模擬加以說明,模擬結(jié)果證明,即使對(duì)小樣本,該近似結(jié)果也非常滿意。
等級(jí)數(shù)據(jù)缺失形態(tài);單調(diào)數(shù)據(jù)缺失形態(tài);覆蓋概率;置信水平
缺失數(shù)據(jù)在實(shí)際工作生活中非常普遍,特別是在抽樣調(diào)查中。例如:在收集或記錄數(shù)據(jù)時(shí)常發(fā)生數(shù)據(jù)丟失,又如在某一段時(shí)間里,對(duì)某一組對(duì)象進(jìn)行設(shè)計(jì)中的實(shí)驗(yàn)如臨床實(shí)驗(yàn)時(shí),由于一些變量的測(cè)量非常昂貴,所以只對(duì)對(duì)象中的一小部分進(jìn)行測(cè)量。這里我們不關(guān)心數(shù)據(jù)丟失的原因,只假設(shè)是隨機(jī)丟失(MAR)。Lu&Copas[1]提出,忽略數(shù)據(jù)丟失機(jī)制的似然推斷只在隨機(jī)丟失(MAR)的條件下才有效。
數(shù)據(jù)的缺失形態(tài)有多種,其中單調(diào)缺失形態(tài)不僅常見,而且在正態(tài)假設(shè)下,可以得到準(zhǔn)確的似然推斷。Anderson[2]非常簡(jiǎn)易地得出來(lái)了一些缺失形態(tài)下的最大似然估計(jì)(MLE),Kanda和Fujkoshi[3]研究了單調(diào)缺失形態(tài)下MLE的基本性質(zhì),其他如Bhargava[4],Morrison和Bhoj[5]以及Naik[6]則發(fā)展了建立在似然比上的推斷過程,他們主要考慮檢驗(yàn)問題,而Krishnamoorthy和Pannala[7]提出了求置信域的精確方法。Yu和Krishnamoorthy[8]則提出了單調(diào)缺失形態(tài)下兩多元正態(tài)均值向量差的檢驗(yàn)及置信域問題。
本文首先推廣單調(diào)缺失數(shù)據(jù)形態(tài),提出等級(jí)數(shù)據(jù)缺失形態(tài)的概念,其次,在文獻(xiàn)[8]的基礎(chǔ)上,考慮在等級(jí)缺失形態(tài)下兩多元正態(tài)均值向量差的檢驗(yàn)及置信域問題,提出了一類似于Hoteelling T的樞軸量,近似它的分布并做出推斷。
所謂單調(diào)缺失形態(tài)指下面形態(tài)的數(shù)據(jù):
等級(jí)缺失形態(tài)數(shù)據(jù)定義為類似式(2)中的數(shù)據(jù):
(1)第一行的指標(biāo)集包含所有其他行的指標(biāo)集;
(2)不同行的指標(biāo)集要么不相交,要么是包含關(guān)系。
容易看出,等級(jí)缺失形態(tài)數(shù)據(jù)可以分成幾個(gè)指標(biāo)集不相交的單調(diào)缺失形態(tài),所以,單調(diào)缺失形態(tài)是一種特殊的等級(jí)缺失形態(tài)。
2.1 預(yù)備
考慮式(3)中數(shù)據(jù),將數(shù)據(jù)分塊如下:
設(shè)數(shù)據(jù)Xl的樣本均值與協(xié)差陣分別為它們的分塊如下:
同樣的,設(shè)數(shù)據(jù)Yl的樣本均值與協(xié)差陣分別為類似的,也對(duì)它們進(jìn)行分塊。
參數(shù)的分塊如下:
定義δ=μ-β,則δ1=μ1-β1,δ2=μ2-β2,δ3=μ3-β3
讓N3=N1-N2,n3=N3-1,M3=M1-M2,m3=M3-1,及 ni=Ni-1,
定義以下統(tǒng)計(jì)量:
及:
本文采用的樞軸量為:
Q背后的邏輯是這樣的:假如我們只有數(shù)據(jù)X2,Y2,則用于推斷的統(tǒng)計(jì)量可分解為:
同樣地,假如我們只有數(shù)據(jù)X3,Y3,則用于推斷的統(tǒng)計(jì)量為:
2.2 μ-β的置信域及假設(shè)檢驗(yàn)
下面說明Q的兩階矩的求法:
首先,我們有熟知的結(jié)果:
其次,定義:
由Seber[9],
并且R2,R3與Q2d,Q3d獨(dú)立。
注意到:
故有:
表1 閾值dFp,ν(1-α)及95%置信域的覆蓋概率的蒙特卡洛估計(jì)r1=r2=r3=1,α=0.05
據(jù)Krishnamoorthy和Pannala[10],近似的有
故近似的有:
為評(píng)價(jià)Q的近似分布的精確性,本文用蒙特卡洛數(shù)據(jù)模擬來(lái)估計(jì)不同樣本量下式(3)中的置信水平為95%的置信域的真實(shí)覆蓋概率,表1中的每個(gè)結(jié)果都采用了100000次模擬,其中r1=r2=r3=1。
可以看到,本文的結(jié)果非常接近名義置信水平95%,即使是小樣本,也是如此。
本文用著名的”菲舍爾鳶尾花數(shù)據(jù)”來(lái)說明本文的分析方法,該數(shù)據(jù)包含三種鳶尾花的花萼及花瓣的長(zhǎng)度與寬度數(shù)據(jù),三種鳶尾花分別是圣淘沙鳶尾、變色鳶尾、錦葵鳶尾。每一種均有50組數(shù)據(jù),可以從網(wǎng)址下載(http://javeeh. net/sasintro/intro151.html.)
為了說明問題,本文取了錦葵鳶尾(x)及變色鳶尾(y)的花萼長(zhǎng)度,寬度及花瓣的長(zhǎng)度數(shù)據(jù),故p=3。同時(shí),為檢驗(yàn)兩總體方差的相等性,采用了修正似然比檢驗(yàn)(Muirhead[11]),得到p值為0.412,可見,兩總體方差相等的假設(shè)合理。另外,為創(chuàng)造缺失數(shù)據(jù),刪除了錦葵鳶尾花(x)的最后10個(gè)花萼的寬度數(shù)據(jù)(x2)與最前面40個(gè)花瓣的長(zhǎng)度數(shù)據(jù)(x3),同時(shí)也刪除了變色鳶尾(y)的最后18個(gè)花萼的寬度數(shù)據(jù)(y2)與最前面32個(gè)花瓣的長(zhǎng)度數(shù)據(jù)(y3)。故最后得到一等級(jí)缺失數(shù)據(jù)滿足。設(shè)分別表示錦葵鳶尾(x)及變色鳶尾(y)的平均花萼長(zhǎng)度、平均花萼寬度,以及平均花瓣寬度。我們檢驗(yàn)假設(shè)H0:μ=β νs H1:μ≠β。
經(jīng)過仔細(xì)計(jì)算,Q=Q1+Q2+Q3=31.687+0.197+ 95.648=127.533。而分布近似的參數(shù)G1=E(Q)=3.258,G2=E(Q2)=18.307,d=3.153,ν=61.915。故檢驗(yàn)閥值dFp,ν(0.95)=8.681。由于Q遠(yuǎn)大于該值,我們有充分證據(jù)在95%的置信水平上拒絕H0:μ=β。
本文定義了一種新的缺失數(shù)據(jù)形態(tài):等級(jí)數(shù)據(jù)缺失形態(tài),它以常見的單調(diào)數(shù)據(jù)缺失形態(tài)為特例。同時(shí),考慮了在新的等級(jí)數(shù)據(jù)缺失形態(tài)下,兩個(gè)多元正態(tài)總體的均值向量的推斷問題。通過推廣單調(diào)數(shù)據(jù)缺失形態(tài)下同一問題的分析策略,本文獲得了處理等級(jí)數(shù)據(jù)缺失形態(tài)的技術(shù)與方法。蒙特卡羅模擬結(jié)果表明,即使對(duì)小樣本,本文的分析方法也非常有效。
[1]Lu G B,Copas J B.Missing at Random,Likelihood Ignorability and Model Completeness[J].Annals of Statistics,2004,(32).
[2]Anderson T W.Maximum Likelihood Estimates for a Multivariate Normal Distribution When Some Observations Are Missing[J].Journal ofAmerican Statistical Association,1957,(52).
[3]Kanda T,Fujikoshi Y.Some Basic Properties of the MLEs for a Multivariate Normal Distribution With Monotone Missing Data[J].Journal of Mathematics and Management Science,1998,(18).
[4]Bhargava B P.Multivariate Tests of Hypotheses With Incomplete Data [D].Stanford CA:Stanford University,1962.
[5]Morrison D F,Bhoj D.Power of the Likelihood Ratio Test on the Mean Vector of the Multivariate Normal Distribution With Missing Observations[J].Biometrika,1973,(60).
[6]Naik U D.On Testing Equality of Means of Correlated Variables With Incomplete Data[J].Biometrika,1975(62).
[7]Krishnamoorthy K,Pannala M.Confidence Estimation of Normal Mean Vector With Incomplete Data[J].Canadian Journal of Statistics, 1990,(27).
[8]Yu J,Krishnamoorthy K.Two-sample Inference for Normal Mean Vectors Based on Monotone Missing Data[J].Journal of Multivariate Analysis,2006,(97).
[9]Seber G A F.Multivariate Observations[M].New York:Wiley,1994.
[10]Krishnamoorthy K,Pannala M.Some Simple Test Procedures for Normal Mean Vector With Incomplete Data[J].Annals of the Institute of Statistical Mathematics,1998,(50).
[11]Muirthead R J.Aspects of Multivariate Statistcal Theory[M].New York:Wiley,1982.
(責(zé)任編輯/亦民)
Inference for Two Multi-Normal Mean Vectors With Hierarchical Missing Data
Yu Jianqi
(College of Science,Guilin University of Technology,Guilin Guangxi 541004,China)
This article firstly defines the hierarchical data missing pattern and considers the mean vectors inference on the two multi-normal population.Assuming that the two population covariance matrices are equal,the paper presents a pivotal quantity,similar to the Hoteelling T2,and uses Moment Matching Method to derive its approximate distribution which is used for testing and interval estimation.The precision of the approximation is illustrated through Monte Carlo data simulation.The study results indicate that the approximate method is very satisfactory even for small samples.
hierarchical missing pattern;monotone missing pattern;coverage probability;confidence level
O213.2
A
1002-6487(2017)11-0020-04
桂林理工大學(xué)博士科研啟動(dòng)基金資助項(xiàng)目(2014)
禹建奇(1970—),男,湖南邵陽(yáng)人,博士研究生,研究方向:多元分析、缺失數(shù)據(jù)。