邱建青 杜春霖 周 婷 張 韜 李曉松
四川大學(xué)華西公共衛(wèi)生學(xué)院(華西第四醫(yī)院)(610041)
·綜述·
多變量數(shù)據(jù)缺失機(jī)制的識(shí)別方法*
邱建青 杜春霖 周 婷 張 韜△李曉松△
四川大學(xué)華西公共衛(wèi)生學(xué)院(華西第四醫(yī)院)(610041)
數(shù)據(jù)缺失廣泛存在于醫(yī)學(xué)科研中,使研究損失大量信息,導(dǎo)致研究結(jié)果發(fā)生偏倚,因此不應(yīng)該被忽略。缺失數(shù)據(jù)的處理方法較為成熟,但是這些處理方法都以特定的數(shù)據(jù)缺失機(jī)制為前提。
數(shù)據(jù)缺失機(jī)制的概念由Rubin于1967年提出[1],它描述了數(shù)據(jù)的缺失概率與觀測(cè)到的變量和未觀測(cè)到的變量之間的關(guān)系,說(shuō)明數(shù)據(jù)缺失的原因。數(shù)據(jù)的缺失機(jī)制包括完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(missing not at random,MNAR)三類。完全隨機(jī)缺失是指目標(biāo)變量的缺失概率與已觀測(cè)到的變量和未觀測(cè)到的變量無(wú)關(guān),即缺失是完全隨機(jī)發(fā)生的。隨機(jī)缺失是指目標(biāo)變量的缺失概率與已經(jīng)觀測(cè)到的變量相關(guān),但與未觀測(cè)到的變量無(wú)關(guān)。非隨機(jī)缺失是指目標(biāo)變量出現(xiàn)缺失的概率與未觀測(cè)到的變量相關(guān)。
數(shù)據(jù)的缺失機(jī)制說(shuō)明了數(shù)據(jù)缺失的原因,數(shù)據(jù)缺失的不同處理方法對(duì)應(yīng)特定的缺失機(jī)制。研究發(fā)現(xiàn)[2-3],不根據(jù)缺失機(jī)制盲目選擇處理方法的結(jié)果往往會(huì)有偏倚,所以,缺失機(jī)制的識(shí)別很重要。我們只有清楚數(shù)據(jù)的缺失機(jī)制,才能選擇正確的方法。
目前針對(duì)單變量數(shù)據(jù)缺失機(jī)制識(shí)別的研究較為成熟,而關(guān)于多變量數(shù)據(jù)缺失機(jī)制識(shí)別的研究有所成果,但缺乏一個(gè)完整體系,本文將主要從數(shù)理方法角度入手,總結(jié)目前國(guó)外針對(duì)多變量缺失機(jī)制識(shí)別的各類方法,形成體系,以供借鑒。
檢索方法:采用主題詞結(jié)合關(guān)鍵詞的方法,結(jié)合文獻(xiàn)追溯及手工檢索,以“missing data mechanism”、“MCAR”、“MAR”、“MNAR”為關(guān)鍵詞檢索Pubmed數(shù)據(jù)庫(kù);以“數(shù)據(jù)缺失機(jī)制”及“完全隨機(jī)缺失”、“隨機(jī)缺失”、“非隨機(jī)缺失”為關(guān)鍵詞檢索中國(guó)生物醫(yī)學(xué)、知網(wǎng)、維普和萬(wàn)方科技文獻(xiàn)數(shù)據(jù)庫(kù)。檢索范圍不限,并進(jìn)一步查閱相關(guān)文獻(xiàn)的參考文獻(xiàn)來(lái)檢索可能遺漏的文獻(xiàn)。
文獻(xiàn)納入標(biāo)準(zhǔn):納入的文獻(xiàn)必須具備以下條件:①缺失類型為多變量缺失;②缺失機(jī)制的分類為完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失;③檢驗(yàn)方法為原創(chuàng)。詳見圖1。
圖1 文獻(xiàn)檢索納入排除流程圖
按照三種機(jī)制的假定性強(qiáng)弱,我們按照零假設(shè)為MCAR、MAR、MNAR的順序依次進(jìn)行假設(shè)檢驗(yàn),檢驗(yàn)順序如圖2示。各缺失機(jī)制的檢驗(yàn)方法如下所述。
圖2 多變量數(shù)據(jù)缺失機(jī)制識(shí)別方法選擇步驟
1.多變量數(shù)據(jù)MCAR機(jī)制的識(shí)別方法
目前,大部分針對(duì)多變量數(shù)據(jù)的MCAR機(jī)制識(shí)別方法主要是通過將觀測(cè)對(duì)象按照變量的缺失模式(missing pattern)分組,即將含有相同缺失變量的觀測(cè)對(duì)象劃分為同一組(如第一個(gè)觀測(cè)對(duì)象和第五個(gè)觀測(cè)對(duì)象都是變量3和變量4發(fā)生了缺失,這兩個(gè)對(duì)象屬于同一個(gè)缺失模式組);然后通過假設(shè)檢驗(yàn)比較各組的均向量和(或)協(xié)方差矩陣是否相同。如果差異無(wú)統(tǒng)計(jì)學(xué)意義,則尚不能拒絕缺失機(jī)制是MCAR;如果各組間的差異有統(tǒng)計(jì)學(xué)意義,則可以認(rèn)為該數(shù)據(jù)的缺失機(jī)制并非MCAR。而假設(shè)檢驗(yàn)需綜合考慮總體分布類型是否已知、是否分類變量、樣本含量大小等情況選擇適當(dāng)?shù)姆椒?圖2)。
(1)參數(shù)檢驗(yàn)
多重t檢驗(yàn):Dixon按每一個(gè)變量是否缺失將數(shù)據(jù)集劃分為該變量缺失的數(shù)據(jù)集和未缺失的數(shù)據(jù)集,然后對(duì)每一對(duì)數(shù)據(jù)集中其他每個(gè)變量間進(jìn)行兩樣本t檢驗(yàn)[4]。該檢驗(yàn)數(shù)理基礎(chǔ)較為簡(jiǎn)單,但忽略了多變量數(shù)據(jù)中變量之間的關(guān)系,大量t檢驗(yàn)也會(huì)增大Ⅰ型錯(cuò)誤。
似然比檢驗(yàn):該方法由Little提出,基本思想是比較各個(gè)缺失模式組的均向量是否相同[5]。如果相同,缺失機(jī)制就是MCAR;如果各組均向量不全相同,那么提示缺失機(jī)制并非MCAR。
當(dāng)數(shù)據(jù)集有J種缺失模式時(shí),假設(shè)第j(j=1,2,…,J)個(gè)缺失模式組的觀測(cè)指標(biāo)服從均向量為μj且協(xié)方差矩陣為∑j的多元正態(tài)分布。檢驗(yàn)各組的均向量是否相同就是檢驗(yàn)假設(shè):
H0:μ1=μ2=…=μJ,H1:μ1,μ2,…,μJ不全相等。
Chen和Little的文獻(xiàn)指出,將廣義估計(jì)方程應(yīng)用于含缺失的重復(fù)測(cè)量數(shù)據(jù)的參數(shù)推斷時(shí),需要考慮是否服從MCAR機(jī)制[3],針對(duì)該情形,在Little的似然比檢驗(yàn)基礎(chǔ)上,又提出了基于信息分解和重組的Wald統(tǒng)計(jì)量檢驗(yàn),但該檢驗(yàn)結(jié)果只適用于應(yīng)用廣義估計(jì)方程的情形,數(shù)理運(yùn)算也較為繁瑣復(fù)雜。同樣針對(duì)應(yīng)用廣義估計(jì)方程的情形,Qu提出的廣義得分檢驗(yàn)(generalised score-type test)避免了繁瑣數(shù)理運(yùn)算過程[6],但依然只適用于該情形。
基于廣義最小二乘法的檢驗(yàn):為了解決樣本含量少無(wú)法滿足似然比檢驗(yàn)前提的問題,Kim和Bentler[7]提出了聯(lián)合均向量和協(xié)方差陣的基于廣義最小二乘法的檢驗(yàn)方法。與Little的似然比檢驗(yàn)類似,該方法仍然是將觀測(cè)對(duì)象按照變量的缺失情況分組。不同之處在于,該檢驗(yàn)不僅考察各組均向量是否相同,還進(jìn)一步檢驗(yàn)各組的協(xié)方差齊性。因此,統(tǒng)計(jì)量是均向量齊性統(tǒng)計(jì)量和協(xié)方差齊性統(tǒng)計(jì)量的組合,模擬研究顯示,該檢驗(yàn)犯Ⅰ型錯(cuò)誤的風(fēng)險(xiǎn)小于Little的似然比統(tǒng)計(jì)法。
Park分類變量檢驗(yàn):針對(duì)重復(fù)測(cè)量數(shù)據(jù)中的分類變量,Park基于加權(quán)最小二乘法,提出統(tǒng)計(jì)量為Wald統(tǒng)計(jì)量的檢驗(yàn)[8]。該方法將數(shù)據(jù)按照缺失模式分組后對(duì)每組擬合模型,檢驗(yàn)?zāi)P蛥?shù)的同質(zhì)性,該方法的SAS程序包為CATMOD。由于該方法需要較大樣本量保證近似正態(tài)性,Park又提出了基于廣義估計(jì)方程的檢驗(yàn)[9],在原有模型基礎(chǔ)上,新模型在自變量部分加入表示對(duì)象是否在某一缺失模式組的指示變量,而并非分組建模,進(jìn)而檢驗(yàn)這些指示變量的回歸系數(shù)是否都為0,如果回歸系數(shù)不都為0且具有統(tǒng)計(jì)學(xué)意義,那么缺失機(jī)制不為MCAR。該方法操作較為簡(jiǎn)單,對(duì)連續(xù)或離散變量均可適用,較前面方法對(duì)樣本含量要求更低。
改進(jìn)后的Hawkins參數(shù)檢驗(yàn)法:Hawkins檢驗(yàn)是推斷多變量成組設(shè)計(jì)資料方差齊性的方法[10]。Jamshidian和Jalal將該方法經(jīng)改進(jìn)后用于多變量缺失數(shù)據(jù)的MCAR機(jī)制識(shí)別。首先,已知總體為正態(tài)分布的情況下,運(yùn)用極大似然法估計(jì)總體均向量和協(xié)方差陣。其次,基于均向量和協(xié)方差陣的估計(jì)值,在各個(gè)缺失模式組內(nèi)根據(jù)似然函數(shù)計(jì)算缺失數(shù)據(jù)的條件分布函數(shù),并使用單一填補(bǔ)法(single imputation)或多重填補(bǔ)法(multiple imputation)處理缺失數(shù)據(jù),得到填補(bǔ)后的完整數(shù)據(jù)集;最后,采用Hawkins檢驗(yàn)法判斷填補(bǔ)后的各個(gè)缺失模式組的協(xié)方差陣是否相等,并以此得出是否拒絕缺失機(jī)制為MCAR的結(jié)論。
(2)非參數(shù)檢驗(yàn)
上述參數(shù)檢驗(yàn)方法均依賴于數(shù)據(jù)服從或近似服從正態(tài)分布,因而難以有效地識(shí)別非正態(tài)分布情況下的數(shù)據(jù)缺失機(jī)制。這種情況下需使用非參數(shù)檢驗(yàn)驗(yàn)方法。
在Hawkins檢驗(yàn)法的基礎(chǔ)上,Jamshidian和Jalal又提出了基于Hawkins檢驗(yàn)和Anderson-Darling檢驗(yàn)的非參數(shù)聯(lián)合檢驗(yàn)法[12]。該方法不需要數(shù)據(jù)服從任何分布,只要求滿足觀測(cè)對(duì)象間的獨(dú)立性及累積分布函數(shù)的連續(xù)性。非參數(shù)聯(lián)合檢驗(yàn)法的基本步驟與改進(jìn)后的Hawkins參數(shù)檢驗(yàn)法類似。二者區(qū)別在于:①不依賴總體分布的情況下,似然函數(shù)和缺失數(shù)據(jù)的條件概率分布都未知,因此該檢驗(yàn)采用最小二乘法估計(jì)均向量和協(xié)方差陣,并使用回歸填補(bǔ)法處理缺失數(shù)據(jù);②針對(duì)填補(bǔ)后的完整數(shù)據(jù)集,考慮分布未知情況下的檢驗(yàn)效能和運(yùn)算效率問題,采用Anderson-Darlingk-樣本檢驗(yàn)法比較各組的協(xié)方差陣是否相等。
Li等指出Jamshidian提出的方法的核心是檢驗(yàn)協(xié)方差齊性[11],所以對(duì)于非協(xié)方差的參數(shù)如峰度、斜度的同質(zhì)性的檢驗(yàn)?zāi)芰^弱,因此提出一類更具有廣泛應(yīng)用價(jià)值的非參數(shù)檢驗(yàn)方法。該檢驗(yàn)方法能夠取得較為滿意的結(jié)果,但對(duì)數(shù)理要求較高,確定檢驗(yàn)水準(zhǔn)方法復(fù)雜。
(3)參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)的聯(lián)合使用
綜合參數(shù)檢驗(yàn)法和非參數(shù)檢驗(yàn)法各自的優(yōu)點(diǎn),Jamshidian提出了一套針對(duì)MCAR機(jī)制的檢驗(yàn)步驟(圖3)[12]。其基本思路為:當(dāng)數(shù)據(jù)來(lái)自一個(gè)正態(tài)分布總體,拒絕Hawkins檢驗(yàn)意味著拒絕原假設(shè)即非協(xié)方差齊性;但如果數(shù)據(jù)總體分布未知,那么拒絕原假設(shè)還可能是因?yàn)榉牡姆植疾⒎钦龖B(tài),因此在Hawkins檢驗(yàn)為拒絕的條件下,應(yīng)用一個(gè)非參數(shù)檢驗(yàn),如果拒絕該檢驗(yàn)零假設(shè),認(rèn)為拒絕Hawkins檢驗(yàn)原因并非數(shù)據(jù)不服從正態(tài)分布,機(jī)制不為MCAR;如果沒有拒絕零假設(shè),認(rèn)為Hawkins檢驗(yàn)未通過的原因是數(shù)據(jù)的總體分布并不服從正態(tài)分布。R包MissMech提供了該方法的具體實(shí)現(xiàn)。
圖3 Jamshidian非參數(shù)MCAR檢驗(yàn)步驟
2.多變量重復(fù)測(cè)量數(shù)據(jù)的MAR機(jī)制識(shí)別方法
目前多變量數(shù)據(jù)的MAR機(jī)制識(shí)別方法研究主要針對(duì)重復(fù)測(cè)量數(shù)據(jù)。該類檢驗(yàn)方法的總體思想是:按照已知影響缺失概率的因素對(duì)所有觀測(cè)對(duì)象進(jìn)行分組,如果數(shù)據(jù)的缺失機(jī)制是MAR,那么根據(jù)其定義可知,此時(shí)每個(gè)組內(nèi)的缺失機(jī)制應(yīng)為完全隨機(jī)缺失。那么檢驗(yàn)思路就為檢驗(yàn)后一個(gè)時(shí)間點(diǎn)測(cè)量值是否與前一個(gè)時(shí)間點(diǎn)測(cè)量值來(lái)自同一總體。根據(jù)數(shù)據(jù)分布不同可分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)。
(1)參數(shù)檢驗(yàn)
Diggle提出的MAR機(jī)制識(shí)別方法旨在判定數(shù)據(jù)缺失在各自組內(nèi)(若干實(shí)驗(yàn)組和對(duì)照組)是否是隨機(jī)發(fā)生的[13],基本思想為:第二次隨訪開始分別在每個(gè)時(shí)間點(diǎn)各組內(nèi)尋找是否有研究對(duì)象的觀測(cè)值發(fā)生缺失;如果有,回溯到前一個(gè)時(shí)間點(diǎn)上通過假設(shè)檢驗(yàn)的方法判斷這些研究對(duì)象的觀測(cè)值是否是該組內(nèi)所有觀測(cè)對(duì)象觀測(cè)值的隨機(jī)樣本,并記錄下每次假設(shè)檢驗(yàn)的P值。Diggle認(rèn)為,在MAR機(jī)制的假設(shè)下,這些P值應(yīng)服從[0,1]的均勻分布。因此Diggle采用Kolmogorov統(tǒng)計(jì)量衡量P值與[0,1]均勻分布的差異程度,判斷缺失機(jī)制是否為MAR。
Ridout[14]指出缺失模式為單調(diào)缺失模式(monotonous missing pattern)的情況下,即在某一時(shí)間點(diǎn)數(shù)據(jù)缺失后后續(xù)時(shí)間點(diǎn)均缺失,可以利用logit回歸模型來(lái)判定缺失機(jī)制是否為MAR,即缺失的產(chǎn)生是否與協(xié)變量相關(guān)。按照情況的復(fù)雜與否,可以將建模分為條件logit回歸模型和非條件logit回歸模型。但該方法建模十分復(fù)雜,它基于的假設(shè)每個(gè)時(shí)間點(diǎn)的數(shù)據(jù)是獨(dú)立的往往不成立。與Ridout的方法類似,F(xiàn)airclough的機(jī)制檢驗(yàn)方法也是利用logit回歸模型[15],不同的是它不要求單調(diào)缺失模式,因此適用性更加廣泛。
Diggle的方法比較直觀,但Listing指出Kolmogorov統(tǒng)計(jì)量同Ridout的統(tǒng)計(jì)量一樣依賴于每次測(cè)量的獨(dú)立性[16],顯然這個(gè)假設(shè)常不符合重復(fù)測(cè)量情況。另外,當(dāng)P值的個(gè)數(shù)太小時(shí),Kolmogorov檢驗(yàn)的效能很低。因此,他提出了一種基于均值比較的檢驗(yàn)方法。該方法與Diggle的方法類似的是,同樣是從第二次隨訪開始的每個(gè)時(shí)間點(diǎn)t(t>2)上尋找發(fā)生變量缺失的研究對(duì)象。二者的區(qū)別在于,Listing方法是回溯到前一個(gè)時(shí)間點(diǎn)(t-1)上,通過將這些研究對(duì)象的平均觀測(cè)值與完成整個(gè)隨訪的研究對(duì)象的平均觀測(cè)值相比較,得出(t-1)時(shí)間點(diǎn)上的均值之差,最終以各個(gè)時(shí)間點(diǎn)上發(fā)生缺失的樣本數(shù)作為權(quán)重,構(gòu)建加權(quán)意義下的均值之差作為檢驗(yàn)統(tǒng)計(jì)量。模擬研究發(fā)現(xiàn)Listing方法在大樣本情況下表現(xiàn)穩(wěn)定,比Diggle方法具有更強(qiáng)的檢驗(yàn)效能。
(2)非參數(shù)檢驗(yàn)
針對(duì)前一種參數(shù)檢驗(yàn)不適用于非正態(tài)分布數(shù)據(jù)的情形,Listing又提出了一種非參數(shù)檢驗(yàn)方法[17],該方法基于隊(duì)列中發(fā)生缺失的對(duì)象觀測(cè)值應(yīng)大于(或小于)未發(fā)生缺失的對(duì)象的相應(yīng)觀測(cè)值的假定。首先在每一個(gè)時(shí)間點(diǎn)上分別進(jìn)行Wilcoxon秩和檢驗(yàn),比較在該時(shí)間點(diǎn)上缺失和未缺失對(duì)象觀測(cè)值的累積分布函數(shù)是否存在差異。在隨機(jī)變量Yit是連續(xù)型的情況下,不同時(shí)間點(diǎn)Wilcoxon統(tǒng)計(jì)量是獨(dú)立的,因此可將它們合并后得到聯(lián)合檢驗(yàn)統(tǒng)計(jì)量S。根據(jù)中心極限定理,S漸近服從標(biāo)準(zhǔn)正態(tài)分布,最終根據(jù)基于S的假設(shè)檢驗(yàn)結(jié)果做出推斷。同樣針對(duì)Listing提出的參數(shù)檢驗(yàn)法,Norbert提出了基于重抽樣(bootstrap)的非參數(shù)方法[18],統(tǒng)計(jì)量是加權(quán)組合每一次測(cè)量時(shí)缺失組和非缺失組之間的差別后的非參數(shù)統(tǒng)計(jì)量,原理類似于Listing提出的非參數(shù)方法,只是使用了重抽樣技術(shù)。模擬實(shí)驗(yàn)發(fā)現(xiàn),該方法對(duì)于偏態(tài)分布可取得良好的效果。
Deny提出了一類非參數(shù)的采用logit回歸的方法[19],即用參數(shù)化的方法處理,用一組正交積來(lái)表示,從而將MAR機(jī)制的檢驗(yàn)轉(zhuǎn)化為檢驗(yàn)參數(shù)是否具有統(tǒng)計(jì)學(xué)意義的過程。若參數(shù)具有統(tǒng)計(jì)學(xué)意義則機(jī)制為MAR,但該方法較為復(fù)雜。
3.多變量重復(fù)測(cè)量數(shù)據(jù)的MNAR機(jī)制的識(shí)別方法
此外,孫捷等認(rèn)為在某些情況下,確認(rèn)機(jī)制并非MCAR后,非單調(diào)缺失模式的重復(fù)測(cè)量數(shù)據(jù)是MNAR的一種典型形式[20],比如對(duì)醫(yī)院病人的生命質(zhì)量進(jìn)行縱向隨訪時(shí),如果因?yàn)椴∪税峒叶鴮?dǎo)致數(shù)據(jù)某時(shí)點(diǎn)后的缺失,則認(rèn)為缺失與前期觀察(地址)相關(guān),機(jī)制可能為MAR,具體是否為MAR需作進(jìn)一步檢驗(yàn);但某一時(shí)點(diǎn)后數(shù)據(jù)又再次出現(xiàn),那么數(shù)據(jù)缺失不與前期觀察相關(guān),機(jī)制為MNAR,該方法簡(jiǎn)單易行,但需結(jié)合實(shí)際情況分析。
數(shù)據(jù)缺失廣泛存在于醫(yī)學(xué)研究中,對(duì)研究結(jié)果的準(zhǔn)確性造成很大的影響。在觀察性研究和實(shí)驗(yàn)性研究中,針對(duì)信息缺失往往采取一系列措施進(jìn)行預(yù)防,或者盡可能對(duì)缺失信息補(bǔ)回。通過數(shù)理方法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)的方法并未引起足夠的重視,雖然這個(gè)方法是經(jīng)濟(jì)且可行的。
國(guó)內(nèi)外針對(duì)數(shù)據(jù)缺失的填補(bǔ)方法較為系統(tǒng),但是針對(duì)填補(bǔ)方法對(duì)應(yīng)的數(shù)據(jù)缺失機(jī)制識(shí)別的相關(guān)研究,國(guó)外較為成熟,主要針對(duì)數(shù)理方法進(jìn)行闡述,但并不系統(tǒng);國(guó)內(nèi)研究較少,局限于單變量數(shù)據(jù),且缺少對(duì)其適用數(shù)據(jù)類型的說(shuō)明。本文系統(tǒng)地總結(jié)了國(guó)外各類成熟的對(duì)多變量數(shù)據(jù)缺失機(jī)制的識(shí)別方法,并指出了適用的數(shù)據(jù)類型,具有一定的借鑒意義。但數(shù)據(jù)缺失尤其是多變量數(shù)據(jù)缺失的機(jī)制在實(shí)際情況中是十分復(fù)雜的,所以需要考慮具體的研究?jī)?nèi)容,結(jié)合多種方法對(duì)數(shù)據(jù)缺失的機(jī)制進(jìn)行判定。
[1] Rubin,Donald B.Inference and Missing Data.Biometrika,1976,63(1):581-92.
[2] Fielding S,Fayers PM,Mcdonald A,et al.Simple imputation methods were inadequate for missing not at random(MNAR)quality of life data.Health and Quality of Life Outcomes,2008,6:57.
[3] Chen HY,Little R.A test of missing completely at random for generalised estimating equations with missing data.Biometrika,1999,86(1):1198-1202.
[4] Dixon WJ.Bmdp statistical software.Biometrics,1982,38(2).
[5] Little RJA.A Test of Missing Completely at Random for Multivariate Data with Missing Values.Journal of the American Statistical Association,1988,83(404):1198-1202.
[6] Qu A,Song XK.Testing ignorable missingness in estimating equation approaches for longitudinal data.Biometrika,2002,89(4):841-850.
[7] Kim KH,Bentler PM.Tests of homogeneity of means and covariance matrices for multivariate incomplete data.Psychometrika,2002,67(4):609-623.
[8] Park T,Davis CS.A test of the missing data mechanism for repeated categorical data.Biometrics,1993,49(2):631-8.
[9] Park T,Lee SY.A test of missing completely at random for longitudinal data with missing observations.Statistics in Medicine,1997,16(16):1859-1871.
[10]Hawkins DM.A New Test for Multivariate Normality and Homoscedasticity.Technometrics,1981,23(1):105-110.
[11]Li J,Yu Y.A Nonparametric Test of Missing Completely at Random for Incomplete Multivariate Data.Psychometrika,2015,80(3):707-726.
[12]Jamshidian M,Jalal S.Tests of homoscedasticity,normality,and missing completely at random for incomplete multivariate data.Psychometrika,2010,75(4):649-674.
[13]Diggle PJ.Testing for Random Dropouts in Repeated Measurement Data.Biometrics,1989,45(4):1255-1258.
[14]Ridout MS.Testing for random dropouts in repeated measurement data.Biometrics,1991,47(4):1619-1621.
[15]Fairclough DL.Design and analysis of quality of life studies in clinical trials.Quality of Life Research,2002,13(1):275-277.
[16]Listing J,Schlittgen R.Tests If Dropouts Are Missed at Random.Biometrical Journal,1998,40(8):929-935.
[17]Listing J,Schlittgen R.A Nonparametric Test for Random Dropouts.Biometrical Journal,2003,45(1):113-127.
[18]Schmitz N,Franz M.A Bootstrap Method To Test If Study Dropouts Are Missing Randomly.Quality & Quantity,2002,36(36):1-16.
[19]Pommeret D.Testing the mechanism of missing data.
[20]孫婕,金勇進(jìn),戴明鋒.關(guān)于數(shù)據(jù)缺失機(jī)制的檢驗(yàn)方法探討.數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013,12:166-173.
國(guó)家自然科學(xué)基金青年基金(No.81602935);四川大學(xué)青年教師科研啟動(dòng)基金(2016SCU11006);四川省衛(wèi)生信息學(xué)會(huì)公共衛(wèi)生信息專業(yè)委員會(huì)
△通信作者:張韜, E-mail:scdxzhangtao@163.com;李曉松,E-mail:lixiaosong1101@126.com.
張 悅)