山東大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(250012) 章 濤 朱 麟 季加?xùn)| 袁中尚 薛付忠 李秀君
基于R軟件的缺失數(shù)據(jù)MICE填補效果研究*
山東大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(250012) 章 濤 朱 麟 季加?xùn)| 袁中尚 薛付忠 李秀君△
目的研究不同缺失率、不同缺失機制下,MICE(multivariate imputation by chained equations)多重填補的效果,探討該填補方法的適用情況。方法依托某現(xiàn)況調(diào)查的完全數(shù)據(jù),使用R軟件構(gòu)造不同缺失率、不同缺失機制的缺失數(shù)據(jù)。計算列表刪除和MICE多重填補后分析結(jié)果的標(biāo)準(zhǔn)偏倚,并進行比較。單獨對分類變量計算多重填補后的平均錯分率。結(jié)果在單變量缺失率分別為10%、20%和30%的隨機缺失三種情況下,MICE多重填補表現(xiàn)優(yōu)良;其他模擬情況下,MICE多重填補相比于列表刪除并未表現(xiàn)出明顯的優(yōu)勢。對于分類變量,MICE填補后的平均錯分率均超過60%。結(jié)論對于隨機缺失數(shù)據(jù),且單變量缺失率不超過30%時,建議采用MICE多重填補進行處理;但對于資料中的分類變量,不建議直接引用MICE填補后的具體數(shù)值。
MICE 缺失數(shù)據(jù) 模擬研究 多重填補
缺失數(shù)據(jù)(m issing data)是指那些未被觀察到的、對數(shù)據(jù)分析有意義的數(shù)據(jù)[1]。缺失數(shù)據(jù)可能會導(dǎo)致參數(shù)估計的偏倚,增大Ⅰ類或Ⅱ類錯誤。并且數(shù)據(jù)的缺失常伴隨著信息的缺失,因此缺失值可能導(dǎo)致統(tǒng)計檢驗效能的降低[2]。目前缺失數(shù)據(jù)的處理方法大致分為三類[3-5]:刪除法、填補法和不處理。刪除法包括列表刪除(listw ise deletion,LD)和配對刪除。填補法又可分為單一填補和多重填補。不處理的方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的方法等[6-7]。
多數(shù)統(tǒng)計軟件在進行缺失數(shù)據(jù)的分析時默認(rèn)采用列表刪除法,因而在實際應(yīng)用中最常用的缺失數(shù)據(jù)處理方法之一還是列表刪除。列表刪除,即刪除含有缺失變量的觀測。單一填補方法盡管簡單,但可能會導(dǎo)致目標(biāo)變量分布的扭曲,并且無法解釋填補的不確定性。而多重填補(multiple imputation,MI)在一定程度上可以克服這些不足。
多重填補的方法較多,近些年發(fā)展了一種新的多重填補方法——MICE多重填補。該方法的基本思想是全條件定義法(fully conditional specification,F(xiàn)CS)。相比于一般的MI方法,MICE多重填補由于其在算法上的優(yōu)化而具有更快的收斂速度,節(jié)省了運算時間。該方法并不依賴于數(shù)據(jù)滿足多元正態(tài)分布的假定,對填補模型的設(shè)定也不是很嚴(yán)格,即使在填補模型并不非常適合原始數(shù)據(jù)類型時也能取得較好的填補效果。此外,MICE多重填補能夠處理多種數(shù)據(jù)類型,具有靈活的適用性[8-10]。MICE多重填補在Van Buuren[9]的模擬研究中表現(xiàn)出了很好地處理缺失數(shù)據(jù)的能力。在實際應(yīng)用中MICE多重填補也具有不錯的表現(xiàn)[11-12],且MICE多重填補在軟件中實現(xiàn)起來語句簡單,存在著較好的應(yīng)用潛力[13]。但Van Buuren僅研究了在MAR缺失機制下的填補效果[9,14]。本研究旨在進一步探究在不同缺失率、不同缺失機制下MICE多重填補處理缺失數(shù)據(jù)的效果以及MICE多重填補的適用情況。目前可以實現(xiàn)MICE多重填補的軟件包括R軟件的mice程序包(package)和Stata軟件,由于Stata軟件屬于收費軟件,故本次研究采用R軟件實現(xiàn)。
1.MICE多重填補原理[14]
假設(shè)完整數(shù)據(jù)Y是從含p個變量的多變量分布P(Y|θ)中隨機抽取的觀測值,其中θ為未知參數(shù)向量,它決定了Y的分布。因此,只要我們得到θ的分布,便可從P(Y|θ)中抽取數(shù)值進行缺失填補。在MICE填補中,θ的后驗分布通過Gibbs迭代抽樣得到。
具體做法為:從觀察到的邊際分布開始,進行t次迭代的Gibbs抽樣,第t次迭代時得到:
對于填補后的多個完整數(shù)據(jù)集,根據(jù)Rubin的理論,mice包提供了語句可以對每個數(shù)據(jù)集分別進行統(tǒng)計分析,最后將多個分析結(jié)果綜合起來。
2.資料情況
依托某現(xiàn)況調(diào)查的數(shù)據(jù)進行缺失模擬。該數(shù)據(jù)中包含多個變量,本次研究選取數(shù)據(jù)中區(qū)域分布(x1)、平均處方費用(x2)、配備國家藥物目錄西藥品種數(shù)(x3)、配備省增補藥物目錄西藥品種數(shù)(x4)、醫(yī)生平均收入水平(y)等5個變量,共522條觀測。其中x1為二分類變量,x2、y為連續(xù)型數(shù)值變量,x3、x4為離散型數(shù)值變量。所有觀測均無缺失值。
3.模擬思路
缺失數(shù)據(jù)根據(jù)其缺失機制,可分為完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(notmissing at random,NMAR)[2,15-16]。不同缺失機制,會影響缺失值填補效果。故本研究模擬了各種缺失機制下,單個變量缺失率(缺失率=某變量中缺失值個數(shù)/完全數(shù)據(jù)中該變量的值個數(shù))分別為10%、20%和30%的各種數(shù)據(jù)。
MCAR:所缺失的數(shù)據(jù)發(fā)生的概率,既與已觀察到的變量無關(guān),也與未觀察到的數(shù)據(jù)無關(guān)。故采用完全隨機的方法在完整數(shù)據(jù)集中制造缺失。
MAR:缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量值有關(guān),而與未觀察到的數(shù)據(jù)的特征無關(guān)。因此在本數(shù)據(jù)中依據(jù)醫(yī)生平均月收入,將收入水平進行從小到大排序以后,按順序分為5個收入等級,按收入等級由低到高,對每個等級的其他變量賦予一定的缺失概率。不同等級的缺失概率取值分別為p1~p5,具體見表1。
NMAR:當(dāng)缺失數(shù)據(jù)既不屬于MCAR,也不屬于MAR,我們就稱該缺失屬于NMAR。NMAR數(shù)據(jù)的缺失概率,多依賴于缺失值本身。因此在本數(shù)據(jù)中,各變量的缺失概率按變量值自身大小分別給定相應(yīng)的缺失概率。具體做法為:針對數(shù)值型變量,對每個變量從小到大排序,按順序分為5個等級,對每個等級賦予一定的缺失概率,不同等級的缺失概率取值分別為p1~p5;對于二分類變量(區(qū)域分布x1),由于只有兩個變量值,故根據(jù)其數(shù)值不同,賦予兩個缺失概率(p6~p7),據(jù)此隨機產(chǎn)生缺失。
不同的變量缺失率通過不同的缺失概率搭配實現(xiàn)。為保證結(jié)果的可靠性,對每種缺失類型、缺失率都進行500次的模擬。
表1 不同缺失率下的缺失概率搭配
4.分析及評價方法
本研究中以y為因變量,其他所有變量為自變量,采用多元線性回歸的方法對數(shù)據(jù)進行統(tǒng)計分析(對原始完整數(shù)據(jù)建立多元線性回歸模型,模型及各變量均有統(tǒng)計學(xué)意義)。
產(chǎn)生缺失數(shù)據(jù)以后,分別使用列表刪除和MICE填補,然后應(yīng)用多元線性回歸的方法進行分析。對各回歸系數(shù),計算其原始偏倚(bias)、標(biāo)準(zhǔn)偏倚[17-18](standard bias,SB),變量x1~x4對應(yīng)的標(biāo)準(zhǔn)偏倚為SB1~SB4。對于原始偏倚,采用均數(shù)±標(biāo)準(zhǔn)差(±s)進行描述。對于分類變量,計算多重填補后數(shù)據(jù)集的平均錯分率。本研究中定義:錯分率=填補值與對應(yīng)真實值不相等的個數(shù)/缺失值個數(shù)×100%。
5.評價標(biāo)準(zhǔn)
(1)分類變量評價標(biāo)準(zhǔn)
優(yōu):平均錯分率≤10%;良:10%<平均錯分率≤30%;中:30%<平均錯分率<50%;差:平均錯分率≥50%,此時多重填補效果與隨機取值填補效果相當(dāng),甚至更差。
(2)多元線性回歸結(jié)果評價標(biāo)準(zhǔn)
優(yōu):標(biāo)準(zhǔn)偏倚≤10%。此時缺失數(shù)據(jù)處理后的多元分析回歸系數(shù)精確度高,準(zhǔn)確度高;良:10%<標(biāo)準(zhǔn)偏倚≤20%;中:20%<標(biāo)準(zhǔn)偏倚≤40%;差:標(biāo)準(zhǔn)偏倚>40%,此時偏差極大,可能會出現(xiàn)與真實情況相反的結(jié)果[17]。
1.分類變量填補效果
對于分類變量多重填補的效果,從表2中可以看出在任一種缺失機制下,三種缺失率對應(yīng)的二分類變量平均錯分率均超過60%。說明MICE多重填補對于分類變量值本身的填補效果不好。
表2 分類變量的錯分情況
2.填補后多元線性回歸分析結(jié)果
不同缺失機制下,應(yīng)用多元線性回歸后,各變量的回歸系數(shù)偏倚情況見表3~5。
(1)完全隨機缺失(表3)
在當(dāng)前的教學(xué)模式下,教師在講授相關(guān)理論知識時,普遍采用的是視頻文件、幻燈片、文檔等形式,而學(xué)校往往因為各類因素的限制,導(dǎo)游課程教學(xué)與實訓(xùn)難以與實際結(jié)合起來,學(xué)生與社會需求的人才普遍脫節(jié),導(dǎo)致學(xué)生社會適應(yīng)能力下降。
10%缺失率時,MICE填補后分析結(jié)果與列表刪除分析結(jié)果相比,標(biāo)準(zhǔn)偏倚均低于40%,多元線性回歸系數(shù)估計效果達到優(yōu)良的均為3個,兩種方法效果相當(dāng)。
20%缺失率時,MICE填補后有1個系數(shù)標(biāo)準(zhǔn)偏倚低于20%,而此時列表刪除法有2個系數(shù)滿足優(yōu)良的標(biāo)準(zhǔn),兩種方法的標(biāo)準(zhǔn)偏倚均未超過40%,說明此時MICE填補效果不如列表刪除。
30%缺失率時,MICE填補后系數(shù)估計達優(yōu)良的有1個,而列表刪除為2個。但此時列表刪除中存在標(biāo)準(zhǔn)偏倚超過40%的情況,說明在實際分析中缺失值可能導(dǎo)致該系數(shù)估計的偏差極大,甚至出現(xiàn)與原始完整數(shù)據(jù)分析結(jié)果相反的情況。
表3 MCAR多元線性回歸分析回歸系數(shù)偏倚情況
(2)隨機缺失(表4)
10%缺失率時,MICE填補后所有系數(shù)標(biāo)準(zhǔn)偏倚均低于20%,表現(xiàn)優(yōu)良,而此時列表刪除標(biāo)準(zhǔn)偏倚低于20%的有2個,且有1個系數(shù)標(biāo)準(zhǔn)偏倚超過40%。說明此種情況下,MICE填補表現(xiàn)更好,列表刪除效果欠佳。
表4 MAR多元線性回歸分析回歸系數(shù)標(biāo)準(zhǔn)偏倚
20%缺失率時,MICE填補后估計回歸系數(shù)表現(xiàn)優(yōu)良,而此時列表刪除偏倚很大,在實際應(yīng)用中可能會使回歸系數(shù)的估計產(chǎn)生極大的偏差。
30%缺失率時,MICE填補的效果依然表現(xiàn)優(yōu)良,而列表刪除后回歸系數(shù)估計偏倚很大。
(3)非隨機缺失(表5)
20%缺失率時,兩種方法回歸系數(shù)估計的標(biāo)準(zhǔn)偏倚中均有2個低于20%,2個超過40%,說明此時MICE填補和列表刪除效果相當(dāng)。
30%缺失率時,MICE填補后分析有2個回歸系數(shù)標(biāo)準(zhǔn)偏倚低于20%,而列表刪除只有1個低于20%,說明此種情況下MICE填補較列表刪除效果好,但需要注意的是,此時兩種方法處理后分析結(jié)果均有2個回歸系數(shù)標(biāo)準(zhǔn)偏倚超過50%,回歸系數(shù)估計很不穩(wěn)定。
表5 NMAR多元線性回歸分析回歸系數(shù)標(biāo)準(zhǔn)偏倚
在日常的統(tǒng)計分析中,如果沒有對缺失值進行特別的處理,一般統(tǒng)計軟件默認(rèn)使用列表刪除的方法進行分析,這無疑會丟失一部分的樣本信息。本文著重對列表刪除和MICE多重填補后分析結(jié)果進行比較。
本研究發(fā)現(xiàn),對于MCAR資料,當(dāng)缺失率不超過20%,在應(yīng)用多元線性回歸分析時,MICE多重填補相比列表刪除并未表現(xiàn)出明顯的優(yōu)勢;當(dāng)缺失率達到30%時,列表刪除可能會導(dǎo)致分析時產(chǎn)生異常結(jié)果,但總體而言此時MICE多重填補產(chǎn)生的偏倚較大。
MAR缺失的機制下,MICE多重填補后的分析結(jié)果相比列表刪除的分析結(jié)果要好,即使在各種變量的缺失率都高達30%的情況下,MICE填補后多元線性回歸系數(shù)標(biāo)準(zhǔn)偏倚依然不超過20%,表現(xiàn)穩(wěn)健。
Van Buuren和Oudshoorn[14]認(rèn)為MICE多重填補可用于NMAR的資料,但其應(yīng)用效果卻并不清楚。因此本次研究模擬了NMAR缺失,并進行MICE多重填補。本研究發(fā)現(xiàn),非隨機缺失下,在缺失率不超過20%時,MICE多重填補相比于列表刪除表現(xiàn)不佳;當(dāng)缺失率達到30%時,MICE多重填補優(yōu)于列表刪除,但此時MICE多重填補后也有半數(shù)回歸系數(shù)標(biāo)準(zhǔn)偏倚超過50%,此時若應(yīng)用MICE多重填補可能會導(dǎo)致分析結(jié)果明顯偏離實際情況,甚至產(chǎn)生相反的結(jié)果。
對于分類變量,有時候研究者會關(guān)心該缺失值對應(yīng)的真實數(shù)值是多少。通過計算不同缺失率、不同缺失類型下的錯分率發(fā)現(xiàn)MICE多重填補后具有很高的錯分率。
MICE填補的使用建議:
當(dāng)缺失數(shù)據(jù)的缺失機制為隨機缺失時,建議采用MICE多重填補。因為在單變量缺失率不超過30%的情況下,MICE填補后可以取得較好的分析效果。這也與Van Buuen[9]的模擬結(jié)果相符。當(dāng)資料為完全隨機缺失且各變量缺失率超過20%時,可以考慮采用MICE多重填補代替列表刪除。當(dāng)資料為非隨機缺失時,不建議采用MICE多重填補處理缺失數(shù)據(jù),且此時也不建議采用列表刪除的方法處理,因為可能會產(chǎn)生不合理的研究結(jié)果。
對于缺失資料中的分類變量,不建議直接引用MICE多重填補以后產(chǎn)生的具體數(shù)值,這可能會產(chǎn)生嚴(yán)重的錯誤分類。
本研究主要關(guān)注MICE多重填補效果,故僅將MICE多重填補與列表刪除進行比較,未將其他缺失數(shù)據(jù)處理方法納入研究。部分缺失數(shù)據(jù)處理方法的比較已有一些相關(guān)研究,其研究結(jié)論可查閱相關(guān)文獻[4,16,18-21]。
[1]Little RJ,D′Agostino R,Cohen ML,et al.The Prevention and Treatment of M issing Data in Clinical Trials.New England Journal of Medicine,2012,367(14):1355-1360.
[2]Enders CK.Applied missing data analysis.Guilford Press,2010.
[3]李璐.基于R語言的缺失值填補方法.統(tǒng)計與決策,2012,(17):72-74.
[4]劉鵬,雷蕾,張雪鳳.缺失數(shù)據(jù)處理方法的比較研究.計算機科學(xué),2004,(10):155-156.
[5]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計處理方法的研究進展.中國衛(wèi)生統(tǒng)計,2013,30(1):135-139.
[6]徐麗紅,劉志永,劉桂芬,等.縱向監(jiān)測連續(xù)非隨機缺失數(shù)據(jù)變系數(shù)模型及其應(yīng)用.中國衛(wèi)生統(tǒng)計,2012,29(3):314-317.
[7]季家超,王剛,張瀟雅,等.?dāng)?shù)據(jù)非隨機缺失機制的混合效應(yīng)模式混合模型分析與應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(2):221-225.
[8]Lee KJ,Carlin JB.Multiple imputation for m issing data:fully conditional specification versus multivariate normal imputation.American journal of epidem iology,2010,171(5):624-632.
[9]Van Buuren S,Brand JPL,Groothuis-Oudshoorn CGM,et al.Fully conditional specification in multivariate imputation.Journal of Statistical Computation and Simulation,2006,76(12):1049-1064.
[10]Van Buuren S,Oudshoorn K.Flexible multivariate imputation by MICE.Leiden,The Netherlands:TNO Prevention Center,1999.
[11]Waljee AK,Mukherjee A,Singal AG,et al.Comparison of imputation methods for m issing laboratory data in medicine.BMJ open,2013,3(8).
[12]Faris PD,GhaliW A,Brant R,et al.Multiple imputation versus data enhancement for dealing with m issing data in observational health care outcome analyses.Journal of Clinical Epidem iology,2002,55(2):184-191.
[13]Kabacoff R.R in Action:Data Analysis and GraphicsW ith R.Greenw ich:Manning Publications Company,2011.
[14]Van Buuren G.m ice:Multivariate Imputation by Chained Equations in R.Journal of Statistical Software,2011,45(3):1-67.
[15]Allison PD.M issng data techniques for structural equationmodeling.Journal of abnormal psychology,2003,122(4):545-557.
[16]茅群霞.缺失值處理統(tǒng)計方法的模擬比較研究及應(yīng)用.四川大學(xué),2005.
[17]Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern m issing data procedures.Psychol Methods,2001,6(4):330-351.
[18]趙俊康.不同缺失機制并存時偏倚校正的模擬研究.山西醫(yī)科大學(xué),2012.
[19]王曼,施念,花琳琳,等.成組刪除法和多重填補法對隨機缺失的二分類變量資料處理效果的比較.鄭州大學(xué)學(xué)報(醫(yī)學(xué)版),2012(5):642-645.
[20]武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果比較.第二軍醫(yī)大學(xué)學(xué)報,2004,(9):1013-1016.
[21]張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補方法效果比較.中國衛(wèi)生統(tǒng)計,2013,30(5):690-692.
(責(zé)任編輯:郭海強)
A Study on Effects of M ultivariate Im putation by Chained Equation Based on R Software
Zhang Tao,Zhu Lin,Ji Jiadong,etal.(DepartmentofEpidemiologyandHealthStatistics,SchoolofPublicHealth,ShandongU-niversity(250012))
ObjectiveTo evaluate the effects ofmultivariate imputation by chained equations(MICE)for datawith differentm issingmechanisms and variousm issing proportions,and explore the application situations of thismethod.MethodsA complete dataset from a cross-sectional study was used to simulatem issing datasetswith differentm issingmechanisms and variousm issing proportions by R software.The standard bias of the incomplete datasets obtained by listw ise deletion was compared with that of the imputed datasets obtained by MICE.Additionally,for binom ial variable,the average m isclassification ratio was calculated.ResultsMICE performed well for“m issing at random”data with the univariatemissing proportion of 10%,20% and 30%.In other scenarios,MICE failed to show advantage over listw ise deletion.For binom ial variable,the averagem isclassification ratiosweremore than 60%.ConclusionWhen the data wasmissing at random and the univariatem issing proportion was nomore than 30%,MICE was recommended to use,but the imputed value in binom ial variable was not suggested to be represented in raw data directly.
MICE;M issing data;Simulation;Multiple imputation
*:山東省科技發(fā)展計劃(No.2014GGH218019)
△通信作者:李秀君,E-mail:xjli@sdu.edu.cn