南京醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系(211166)
林麗娟 董學思 趙 楊 魏永越 戴俊程 陳 峰△
?
三種塊缺失數(shù)據(jù)處理方法的比較*
南京醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系(211166)
林麗娟 董學思 趙 楊 魏永越 戴俊程 陳 峰△
跨平臺組學數(shù)據(jù)(cross-platform-omics data)研究中,一組樣本往往只在某些平臺(例如蛋白組學、代謝組學等)上進行了測序分析,而另外一些樣本在其他平臺(例如,基因組學、蛋白組學等)上進行了測序,欲將不同平臺的數(shù)據(jù)進行整合分析,則塊缺失(block missing)是不可避免的。由于塊缺失的缺失比例比較高,如果將含有缺失的觀測全部剔除,僅對完整數(shù)據(jù)進行分析,則會損失大量信息,甚至無信息可用。傳統(tǒng)上,常用的缺失數(shù)據(jù)處理方法是基于填補(imputation)的方法,包括單一填補法(如均值填補、回歸填補、hot deck填補等)和多重填補法[1-2]。然而這些方法適用于缺失比例不太高的情況,如果采用傳統(tǒng)填補方法對塊缺失數(shù)據(jù)進行填補,可能會導致估計偏差較大,或耗時太多,從而大大降低了統(tǒng)計分析的效率。如何處理這類缺失數(shù)據(jù),將是跨平臺組學大數(shù)據(jù)研究中急需解決的一個問題。
不同于目前常用的基于填補的缺失處理方法,不填補的方法不對缺失數(shù)據(jù)進行填補,而是利用不完整數(shù)據(jù)集中所有變量可利用的全部信息 ,來構(gòu)建變量之間的方差-協(xié)方差結(jié)構(gòu)或者極大似然函數(shù),并據(jù)此來估計回歸模型的參數(shù),則可以達到充分利用已有數(shù)據(jù)信息的目的,即不完整數(shù)據(jù)的全信息估計?;诖怂悸?,本研究采用數(shù)據(jù)模擬技術,比較三種不填補的方法:列表刪除法(listwise deletion,LD)、配對刪除法(pairwise deletion,PD)以及全信息極大似然法(full information maximum likelihood,FIML)處理塊數(shù)據(jù)的優(yōu)劣。
1.列表刪除法
將數(shù)據(jù)集中含有缺失的記錄全部刪除后得到“完整數(shù)據(jù)集”,對該“完整數(shù)據(jù)集”采用常規(guī)的統(tǒng)計方法進行分析,因此此方法也稱為完整觀測分析(complete case analysis)。該方法適用于任何一種分析,是很多統(tǒng)計分析軟件默認的缺失值處理方法[3]。
2.配對刪除法
在計算某一統(tǒng)計量時,僅將兩兩變量間的缺失記錄刪除,而不考慮其他變量的缺失情況,如:在計算x1和x2的相關系數(shù)時,只將x1或x2中缺失的記錄刪除,而忽略其他變量的缺失情況[3]。與列表刪除法相比,該方法利用更多的樣本信息,在一定程度上避免了列表刪除法所造成的樣本信息大量損失,統(tǒng)計檢驗功效降低等問題。
3.全信息極大似然
在構(gòu)造極大似然函數(shù)時,只利用每個觀測中沒有缺失的完整變量,而不考慮該觀測中缺失的變量。通過計算,得到N個觀測的N個極大似然函數(shù),然后將這N個極大似然函數(shù)相加,得到基于全部觀測的極大似然函數(shù)。其表達式如下:
其中xi表示第i個觀測中完整變量的數(shù)值,μi是第i個觀測中這些完整變量的均值向量,Σi是其方差協(xié)方差矩陣,Ki是與第i個觀測中完整數(shù)據(jù)個數(shù)相關的常數(shù)[4]。
應用SAS 9.2進行編程,模擬完整數(shù)據(jù)集,樣本量為n=1000,包括1個因變量和p個服從多元正態(tài)分布的自變量x1,x2,…,xp。對該數(shù)據(jù)集構(gòu)建一個多元線性回歸模型:
y=β0+β1x1+β2x2+……+βpxp+ε
估計模型的參數(shù)以及標準誤。對完整數(shù)據(jù)集構(gòu)造不同缺失率的數(shù)據(jù)集,分別采用列表刪除法、配對刪除法和全信息極大似然法對每種缺失率的數(shù)據(jù)集進行處理,得到模型參數(shù)的估計值及其標準誤,對每種缺失率的數(shù)據(jù)均模擬1000次,得到各模型參數(shù)的估計值及標準誤的平均值,并與所設置的理論值進行比較。
1.模擬研究一:一個塊缺失
考慮5個自變量與1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:
y=3+2x1+4x2+6x3+8x4+10x5+ε1ε1~N(0,σ2)
其中 ,X1=(x1,x2,……,x5),X1服從多元正態(tài)分布,即X1~N(μ1,∑1)。其中μ1和∑1分別表示均值向量與方差-協(xié)方差矩陣,其表達形式如下:
假設數(shù)據(jù)集中僅(變量x1,x2,x3)呈塊缺失,即同時缺失或同時不缺失,缺失比例分別考慮10%,30%,50%,70%四種情況,而其他變量均是完整的。
2.模擬研究二:兩個塊缺失
考慮8個自變量和1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:
y=3+2x1+4x2+6x3+8x4+10x5+9x6+7x7+5x8+ε2ε2~N(0,σ2)
記X2=(x1,x2,……,x8),X2服從多元正態(tài)分布,即X2~N(μ2,∑2)),其中μ2和∑2分別表示均值向量與方差-協(xié)方差矩陣,其表達形式如下:
假設數(shù)據(jù)集中(變量x1,x2,x3)呈塊缺失,(變量x6,x7,x8)也呈塊缺失,考慮兩個塊缺失比例同時為30%、35%、40%、45%四種情況,而其余變量均是完整的。
3.評價標準
(1)標準偏差:當標準偏差大于0.4時,偏差會對功效、置信區(qū)間覆蓋率以及誤差率產(chǎn)生影響[5]。因此,若某種方法的標準偏差小于0.4,認為此方法的估計偏差尚可接受。標準偏差的計算公式如下:
(2)參數(shù)的標準誤:用參數(shù)估計的標準誤的均值來衡量各方法的估計精度[5]。
1.模擬研究一:一個塊缺失
模擬1000次,由于結(jié)果相似,這里僅僅列出缺失率為30%,50%時各缺失值處理方法的結(jié)果,見表1、表2。從結(jié)果可以看出,無論缺失率為多少,LD、PD以及FIML的標準偏差均小于0.4(截距項除外),因此可認為這三種缺失值處理方法的估計偏差尚可接受。而從估計精度上看,F(xiàn)IML最優(yōu),PD次之,LD最差。
表1 缺失率為30%時各缺失值處理方法比較(模擬研究一)
圖1為不同缺失率下,各方法對完整變量x4的參數(shù)估計標準誤的變化情況。從圖中可以看出,在缺失率為10%時,三種方法的標準誤相差不大,但隨著缺失率的增加,LD和PD的標準誤均有明顯的增大,總體上PD優(yōu)于LD,而FIML的標準誤比較穩(wěn)定,增幅不大,且明顯優(yōu)于LD和PD。
表2 缺失率為50%時各缺失值處理方法比較(模擬研究一)
圖1 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究一)
2.模擬研究二:兩個塊缺失
模擬1000次,由于結(jié)果相似,這里僅列出缺失率為60%,80%時各缺失率處理方法的結(jié)果,見表3、表4。從結(jié)果可以看出,三種缺失值處理方法的標準偏差均小于0.4,說明三種方法的估計偏差尚可接受。對于含有缺失的變量(不完整變量),PD的標準誤最小,F(xiàn)IML次之,LD最大。而對于完整變量x4,x5而言,F(xiàn)IML的標準誤最小,PD次之,LD的最大。
圖2為不同缺失率下,各方法對完整變量x4的參數(shù)估計標準誤的變化情況。從圖中可以看出,隨著缺失率的上升,LD的估計標準誤明顯增加,而FIML和PD的標準誤增幅不大,F(xiàn)IML的標準誤略小于PD。
表3 數(shù)據(jù)集缺失比例為60%時各缺失值處理方法比較(模擬研究二)
表4 數(shù)據(jù)集缺失比例為80%時各缺失值處理方法比較(模擬研究二)
圖2 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究二)
本研究結(jié)果顯示,當缺失比例比較小(如<10%)時,列表刪除法、配對刪除法和全信息極大似然法的估計偏差和估計精度都差不多。隨著缺失比例的增大,列表刪除法和配對刪除法的估計標準誤均有明顯的上升趨勢,而全信息極大似然法的估計標準誤增幅不大,且明顯小于前面二者。當缺失比例很大時(如>70%),全信息極大似然法對完整變量的估計精度略優(yōu)于配對刪除法,而對不完整變量的估計卻遠差于配對刪除法。
列表刪除法因為簡單,容易實施而被廣泛應用,在很多統(tǒng)計分析軟件中是默認的缺失數(shù)據(jù)處理方法[6-7]。但在跨平臺組學數(shù)據(jù)整合分析中,數(shù)據(jù)存在很多的塊缺失,若采用列表刪除法直接將缺失數(shù)據(jù)刪除,則會損失大量數(shù)據(jù)信息,導致統(tǒng)計分析效率低下。從上述的模擬研究的結(jié)果可以看出,當缺失率比較小時(如10%),列表刪除法的效果尚可,隨著缺失率的上升,列表刪除法的估計精度不佳,與Baraldi等的結(jié)論一致[7-9]。
配對刪除法和全信息極大似然法都是基于不填補的思想[10],充分利用已觀測到的數(shù)據(jù)信息,避免了由于列表刪除法所造成的數(shù)據(jù)信息大量損失等問題,因此這兩種方法在估計精度上均優(yōu)于列表刪除法。目前常用的缺失數(shù)據(jù)處理方法是多重填補法[11-13]。有研究表明[14-15],多重填補的估計效果與全信息極大似然法相近,但全信息極大似然法的計算效率更高。而且,對于一個給定的數(shù)據(jù)集,全信息極大似然法每次的估計結(jié)果一致,而由于隨機性,多重填補會得出不一樣的結(jié)果。本研究結(jié)果表明,當數(shù)據(jù)中僅存在一個塊缺失時,全信息極大似然法對所有變量的估計標準誤均小于配對刪除法,而當數(shù)據(jù)存在兩個塊缺失時,僅對于完整變量而言,全信息極大似然法的標準誤小于配對刪除法,對于含有缺失的不完整變量,剛好相反。Yung[10]等人的研究表明,當數(shù)據(jù)集中的缺失比例超過85%時,全信息極大似然算法會不收斂。當數(shù)據(jù)存在兩個塊缺失時,即數(shù)據(jù)集的缺失比例很大,全信息極大似然法會因算法不收斂而效果不佳,不如配對刪除法。當塊缺失數(shù)據(jù)的缺失比例不是很大時(如<70%),推薦采用全信息極大似然法,因為在估計偏差均可接受的情況下,其估計精度最優(yōu)。當缺失比例超過70%時 ,三種方法的標準誤均比較大,推薦采用配對刪除法,因為其估計精度相對較優(yōu)。
塊缺失是跨組學平臺研究中經(jīng)常遇到的問題,目前尚無關于這方面的研究。不同于目前廣泛應用的基于填補的方法,本研究采用不填補的方法對塊缺失進行處理 。盡管所研究的變量不多,但是對于方法評價來說,已經(jīng)能夠說明各自的優(yōu)劣。這為進一步充分利用不同組學平臺的信息以及環(huán)境暴露信息進行疾病風險預測、預后預測等提供了方法選擇的理論依據(jù)。
[1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.
[2]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計處理方法的研究進展.中國衛(wèi)生統(tǒng)計,2013(1):135-139.
[3]Enders CK.Applied missing data analysis.Guilford Press,2010,39-42.
[4]Enders CK.The performance of the full information maximum likelihood estimator in multiple regression models with missing data.Educational and Psychological Measurement,2001,61(5):713-740.
[5]Burton A,Altman DG,Royston P,et al.The design of simulation studies in medical statistics.Statistics in medicine,2006,25(24):4279-4292.
[6]Graham J.Missing data analysis:Making it work in the real world.Annual review of psychology,2009,60:549-576.
[7]Baraldi A,Enders CK.An Introduction to Modern Missing Data Analyses.Journal of School Psychology,2010,48(1):5-37.
[8]Myers TA.Goodbye,listwise deletion:Presenting hot deck imputation as an easy and effective tool for handling missing data.Communication Methods and Measures,2011,5(4):297-310.
[9]Kang H.The prevention and handling of the missing data.Korean journal of anesthesiology,2013,64(5):402-406.
[10]Yung YF,Zhang W.Making use of incomplete observations in the analysis of structural equation models:The CALIS procedure's full information maximum likelihood method in SAS/STAT?9.3.SAS Global Forum,2011:1-20.
[11]Royston P.Multiple imputation of missing values:further update of ice,with an emphasis on categorical variable.Stata Journal,2009,9(3):466-477.
[12]Lee K J,Carlin JB.Multiple Imputation for Missing Data:Fully Conditional Specification Versus Multivariate Normal Imputation.American Journal of Epidemiology,2010,171(5):624-632.
[13]Moniek CM,Merel VD,Kitty JJ,et al.Multiple imputation:dealing with missing data.Nephrology Dialysis Transplantation,2013,28(10):2415-2420.
[14]Allison PD.Handling missing data by maximum likelihood.SAS global forum,2012,23:1-21.
[15]Newman DA.Missing data five practical guidelines.Organizational Research Methods,2014,17(4):372-411.
(責任編輯:郭海強)
國家自然科學基金(81530088,81473070,81373102,81402764)
△通信作者:陳峰,E-mail:fengchen@njmu.edu.cn