王 曼,施 念,花琳琳,楊永利
1)鄭州大學(xué)學(xué)報編輯部鄭州450001 2)鄭州大學(xué)臨床醫(yī)學(xué)系鄭州450001 3)鄭州大學(xué)第二附屬醫(yī)院科研外事辦公室 鄭州450014 4)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室鄭州450001
#通訊作者,女,1974年12月生,博士,副教授,研究方向:衛(wèi)生服務(wù)統(tǒng)計方法及應(yīng)用,E-mail:ylyang377@126.com
缺失值在生活研究的各個領(lǐng)域都普遍存在,特別是在醫(yī)學(xué)研究領(lǐng)域,是常見的棘手問題,很難避免而且會掩蓋研究結(jié)果的真實性,甚至丟失信息、降低檢驗效能,還會給研究結(jié)果帶來一定的偏性。在流行病學(xué)調(diào)查中,由于調(diào)查的不嚴(yán)謹(jǐn),定性變量資料的缺失較為常見,但對其缺失值處理一直未引起研究者的重視。該研究分別采用成組刪除法和多重填補法(multiple Imputation,MI)中的logistic回歸法對隨機缺失的二分類變量數(shù)據(jù)集進(jìn)行處理,分析兩種方法對不同缺失率的缺失數(shù)據(jù)集的處理效果,為二分類變量資料的缺失值處理提供參考。
1.1 資料 資料來源于“十·五”國家科技攻關(guān)計劃:艾滋病中醫(yī)癥候分布規(guī)律及癥候標(biāo)準(zhǔn)建立與驗證。于2006年7~12月在河南省158個縣(區(qū)、市)的40個艾滋病高發(fā)縣(HIV/AIDS超過200例)中進(jìn)行多階段分層隨機整群抽樣。選擇其中的消瘦程度和體質(zhì)量兩個變量作為研究指標(biāo),有效樣本1 189例,其中男567例,女622例。
1.2 模型的構(gòu)建 因變量消瘦程度分為無、輕、中、重4個等級,首先將其轉(zhuǎn)換成二分類變量(0=無、1=有),再與協(xié)變量體質(zhì)量建立logistic回歸模型logistic(P)=α+βx+ε。在完整數(shù)據(jù)集的基礎(chǔ)上,保留10%的低體質(zhì)量(<52 kg)所對應(yīng)的消瘦程度不變,將90%的高體質(zhì)量對應(yīng)的消瘦程度隨機刪除10%~60%,構(gòu)建隨機缺失數(shù)據(jù)集。
1.3 缺失值的處理方法 根據(jù)數(shù)據(jù)的缺失模式[1]和缺失機制[2],選擇合適的處理方法。成組刪除法:將有缺失值的數(shù)據(jù)整列或成對刪除。MI/logistic回歸法:logistic回歸采用極大似然估計方法估計模型參數(shù),依據(jù)回歸函數(shù)值對觀測數(shù)據(jù)進(jìn)行分類。對于二分類變量,在所擬合的回歸模型的基礎(chǔ)上,由參數(shù)的后驗預(yù)測分布模擬一個新的logistic回歸模型,以完成對缺失值的填充。
1.4 統(tǒng)計學(xué)處理 利用SAS 9.2產(chǎn)生不同缺失率的隨機缺失數(shù)據(jù)集,采用成組刪除法和MI/logistic回歸法對缺失數(shù)據(jù)集進(jìn)行處理,并與完整數(shù)據(jù)集進(jìn)行比較。評價指標(biāo)為各模型的回歸系數(shù)以及標(biāo)準(zhǔn)誤。
2.1 一般信息 完整數(shù)據(jù)集中,體質(zhì)量xmin=40 kg,xmax=157 kg,μx=62.8 kg,πy=1=0.293。假設(shè)缺失均發(fā)生于高體質(zhì)量水平(≥52 kg)對應(yīng)的消瘦程度內(nèi)。10%、20%、30%、40%、50%、60%的假設(shè)缺失比例對應(yīng)的例數(shù)分別為119例、238例、357例、476例、595例和713例。
2.2 缺失機制和缺失模式的判斷 對缺失10%~60%的數(shù)據(jù)集進(jìn)行Little’s MCAR檢驗,均有統(tǒng)計學(xué)差異(P<0.05),顯示為隨機缺失機制;利用SAS 9.2對缺失模式進(jìn)行診斷,結(jié)果顯示為單調(diào)缺失模式。
2.3 2種方法的處理效果 見表1、2。
表1 成組刪除后各數(shù)據(jù)集的logistic回歸分析結(jié)果
表2 M I/logistic回歸法填充后各數(shù)據(jù)集的回歸系數(shù)和標(biāo)準(zhǔn)誤
缺失值問題是醫(yī)學(xué)研究領(lǐng)域的常見問題,研究者必須從研究的設(shè)計階段就開始采取各種措施避免研究過程中產(chǎn)生缺失值[3]。對于已經(jīng)產(chǎn)生的缺失值,要及時地盡可能采取補救措施對其進(jìn)行補充。對確實無法彌補的數(shù)據(jù)應(yīng)考慮使用合適的缺失值處理方法對其進(jìn)行處理。資料收集和數(shù)據(jù)分析人員對定量資料的缺失值處理一直以來比較重視[3],但一定程度上忽視了對分類資料的處理。成組刪除法是最為常用的缺失值處理方法,在數(shù)據(jù)缺失率較低時,成組刪除法方便、準(zhǔn)確度高,具有一定優(yōu)勢;但當(dāng)缺失率較高時,該方法處理結(jié)果不僅會喪失大量的信息,還會造成結(jié)果的偏倚,不能很好地代表總體。MI/logistic法常用于處理有許多分類變量和二分類變量資料。作者用上述兩種方法對隨機缺失的二分類變量資料進(jìn)行處理,對處理效果進(jìn)行了比較。
該研究所模擬的不同缺失比例的缺失數(shù)據(jù)集均為隨機缺失機制、單調(diào)缺失模式,適合MI/logistic回歸的條件。對完整數(shù)據(jù)集和兩種方法處理后的數(shù)據(jù)集建立logistic回歸模型,x的回歸系數(shù)均為負(fù)值,exp(^β)均小于1,說明體質(zhì)量是保護(hù)因素。缺失比例很低(缺失率<10%)時,成組刪除法簡單易行,結(jié)果更接近于真實數(shù)據(jù),而MI法程序比較復(fù)雜,需占用較大內(nèi)存和時間進(jìn)行反復(fù)填補,且結(jié)果不如成組刪除法,與茅群霞等[4]的研究結(jié)果相一致。缺失20%~30%時,MI/logistic填補后x的回歸系數(shù)和標(biāo)準(zhǔn)誤偏離了完整數(shù)據(jù)集,沒有成組刪除法的效果好,與茅群霞[4]的研究結(jié)果相矛盾,可能是因為研究資料的缺失機制不同造成的。缺失40%~50%時,MI/logistic填充2次時x的回歸系數(shù)和標(biāo)準(zhǔn)誤非常接近于完整數(shù)據(jù)集,優(yōu)于成組刪除法的效果。缺失60%時,兩種方法處理效果均不理想,特別是MI/ logistic填充后x的回歸系數(shù)嚴(yán)重偏離完整數(shù)據(jù)集。與殷杰等[5]研究結(jié)果比較,二分類變量的MI/logistic填充效果較連續(xù)性變量填充的優(yōu)勢并不明顯。這是由于二分類變量自身分布范圍狹窄,MI/logistic回歸填充可發(fā)揮的空間狹窄造成的。
綜上所述,對于隨機缺失機制、單調(diào)缺失模式的二分類變量資料數(shù)據(jù),在缺失較少(缺失率<40%)的情況下,采用成組刪除法簡單易行、準(zhǔn)確、高效;缺失40%~50%時,采用MI/logistic回歸法填充顯現(xiàn)出優(yōu)勢,且只需較少的填充次數(shù)(2次)即可達(dá)到較好的效果;缺失率60%以上時,兩種方法處理均不理想,這些數(shù)據(jù)在當(dāng)前環(huán)境下已失去可利用價值,對于這類數(shù)據(jù)的處理方法有待進(jìn)一步探討。
[1]楊永利,付鵬鈺,胡東生,等.期望最大化法和回歸法對亞洲心血管病國際合作研究缺失數(shù)據(jù)填充效果比較[J].中國衛(wèi)生統(tǒng)計,2009,26(4):367
[2]曹陽,Sadana R,Tandon A.居民健康調(diào)查資料中的缺失數(shù)據(jù)的多重估算[J].中國衛(wèi)生統(tǒng)計,2002,9(5):280
[3]花琳琳,施念,楊永利,等.不同缺失值處理方法對隨機缺失數(shù)據(jù)處理效果的比較[J].鄭州大學(xué)學(xué)報:醫(yī)學(xué)版,2012,47(3):315
[4]茅群霞.缺失值處理統(tǒng)計方法的模擬比較研究及應(yīng)用[D].成都:四川大學(xué),2005.
[5]殷杰,石銳.SAS中處理數(shù)據(jù)集缺失值方法的對比研究[J].計算機應(yīng)用,2007,27:438