亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

        2015-01-27 12:28:51龐海玉王子興王鈺嫣姜晶梅
        關(guān)鍵詞:衛(wèi)生統(tǒng)計(jì)正確率偏差

        張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅

        中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

        ·方法介紹·

        完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

        張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

        中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

        目的 探討完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,對(duì)各方法插補(bǔ)效果進(jìn)行評(píng)價(jià)。方法 基于上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的完整數(shù)據(jù)集,在5%、10%、20%及30%缺失率下,模擬有序分類變量(吸煙年數(shù)分組syfz)缺失和二分類變量(性別sex)缺失,重復(fù)模擬100次。采用刪除法、眾數(shù)插補(bǔ)法、多重插補(bǔ)-logistic回歸法(MI/logistic)及多重插補(bǔ)-判別分析法(ML/discrim)對(duì)分類變量數(shù)據(jù)缺失進(jìn)行處理。對(duì)插補(bǔ)效果從插補(bǔ)正確率及插補(bǔ)后模型參數(shù)的變化兩個(gè)方面進(jìn)行評(píng)價(jià)。結(jié)果 有序分類變量缺失:各缺失率下,MI/logistic插補(bǔ)的正確率最高,MI/logistic和MI/discrim插補(bǔ)后模型參數(shù)的偏差均較小,對(duì)于吸煙年數(shù)sy以分組形式syfz納入模型數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差更小,對(duì)syfz插補(bǔ)后模型參數(shù)相對(duì)偏差也小于連續(xù)變量sy插補(bǔ)后模型參數(shù)相對(duì)偏差。二分類變量缺失:各缺失率下,眾數(shù)插補(bǔ)的正確率最高,刪除法處理缺失數(shù)據(jù)后模型參數(shù)的偏差最小。結(jié)論 連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,對(duì)于有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行分析。缺失數(shù)據(jù)插補(bǔ)模型的擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)可能會(huì)帶來(lái)更大的偏差。

        分類變量 數(shù)據(jù)缺失 多重插補(bǔ)

        在醫(yī)學(xué)研究中,數(shù)據(jù)缺失是一個(gè)普遍存在的問(wèn)題[1]。數(shù)據(jù)缺失會(huì)導(dǎo)致樣本信息減少和統(tǒng)計(jì)檢驗(yàn)效能降低,損害研究結(jié)果的有效性[2],增加統(tǒng)計(jì)分析的復(fù)雜性[3-4]。對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是國(guó)內(nèi)外普遍應(yīng)用的缺失數(shù)據(jù)處理方法,但目前研究多集中于對(duì)連續(xù)變量的數(shù)據(jù)缺失進(jìn)行插補(bǔ),對(duì)分類變量數(shù)據(jù)缺失的插補(bǔ)研究較少,完全隨機(jī)缺失是對(duì)插補(bǔ)方法的插補(bǔ)效果進(jìn)行評(píng)價(jià)的理想環(huán)境。本研究基于完整數(shù)據(jù)集模擬缺失數(shù)據(jù)集,探討分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,并對(duì)各方法的插補(bǔ)效果進(jìn)行比較及評(píng)價(jià)。

        資料與方法

        1.數(shù)據(jù)來(lái)源:研究數(shù)據(jù)源于1989-1991年開(kāi)展的“中國(guó)吸煙與全死因關(guān)系”橫斷面調(diào)查,選取上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的數(shù)據(jù)進(jìn)行插補(bǔ)方法研究,共14911條完整觀測(cè)。

        2.研究涉及的變量:詳見(jiàn)表1。

        3.不完整數(shù)據(jù)集的構(gòu)建:基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失的不完整數(shù)據(jù)集。

        (1)有序分類變量缺失:模擬syfz缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次;

        (2)二分類變量缺失:模擬sex缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次。

        4.插補(bǔ)方法及效果評(píng)價(jià)

        有序分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除syfz缺失的觀測(cè);②眾數(shù)插補(bǔ)法,按sex和sagefz將數(shù)據(jù)交叉分組分為8組。計(jì)算各組中syfz的眾數(shù),并將其作為該組中缺失項(xiàng)的插補(bǔ)值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以syfz為因變量,sex、age和sage為協(xié)變量擬合有序多分類logistic回歸模型,計(jì)算缺失觀測(cè)syfz取值為1,2,…,5的概率分別為p1,p2,…,p5,然后產(chǎn)生一個(gè)服從均勻分布的隨機(jī)變量μ,其取值介于0和1之間,若μ

        二分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除sex缺失的觀測(cè)。②眾數(shù)插補(bǔ)法,按agefz及sagefz將全部觀測(cè)分為16組,以每組中sex的眾數(shù)插補(bǔ)相應(yīng)的缺失值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以sex為因變量,age、sage、smd和sy為協(xié)變量擬合二分類logistic回歸模型,插補(bǔ)過(guò)程與有序多分類logistic回歸多重插補(bǔ)相同,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。④多重插補(bǔ)-判別分析法(MI/discrim),利用變量age、sage、smd和sy構(gòu)建sex的判別模型,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。

        對(duì)各方法的插補(bǔ)效果從以下二方面進(jìn)行評(píng)價(jià):

        (1)插補(bǔ)正確率[9-11]:計(jì)算插補(bǔ)后各插補(bǔ)方法的插補(bǔ)正確率,正確插補(bǔ)的觀測(cè)數(shù)占總?cè)笔в^測(cè)數(shù)的比例。重復(fù)模擬100次,計(jì)算100次正確率的均值,得到各方法的平均插補(bǔ)正確率。插補(bǔ)正確率越高插補(bǔ)效果越好。

        (2)插補(bǔ)后模型參數(shù)的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關(guān)系。將插補(bǔ)數(shù)據(jù)集的模型參數(shù)估計(jì)結(jié)果與完整數(shù)據(jù)集的結(jié)果相比較,計(jì)算模型參數(shù)的平均絕對(duì)偏差MADP和平均相對(duì)偏差MRDP。

        其中,k為重復(fù)模擬次數(shù),s為模型中估計(jì)的參數(shù)個(gè)數(shù),δ為完整數(shù)據(jù)集的參數(shù)估計(jì)值,δij為插補(bǔ)數(shù)據(jù)集的參數(shù)估計(jì)值。MADP和MRDP越小插補(bǔ)效果越好。

        結(jié) 果

        1.有序分類變量缺失

        表2顯示了在5%缺失率下各法對(duì)syfz插補(bǔ)的正確率及插補(bǔ)后模型參數(shù)的變化。Syfz插補(bǔ)正確率由高到低為:MI/logistic>MI/discrim>眾數(shù)插補(bǔ);從模型參數(shù)偏差來(lái)看,MI/logistic與MI/discrim插補(bǔ)后模型參數(shù)的偏差較小且極為接近,均遠(yuǎn)小于眾數(shù)插補(bǔ)與刪除法。

        其他缺失率下各插補(bǔ)方法的結(jié)果列于表3~6,由于同一多重插補(bǔ)方法在不同插補(bǔ)次數(shù)下的效果相近,選擇插補(bǔ)效果最好時(shí)對(duì)應(yīng)的次數(shù)。

        表3顯示,各方法的插補(bǔ)準(zhǔn)確率較為穩(wěn)定,不隨缺失率的變化而變化。MI/logistic插補(bǔ)的正確率最高,眾數(shù)插補(bǔ)的正確率最低。

        表4顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,眾數(shù)插補(bǔ)的偏差均最大,MI/logistic與MI/discrim的偏差較小且極為接近,明顯優(yōu)于眾數(shù)插補(bǔ)和刪除法。

        syfz是由連續(xù)變量sy離散化得到的,當(dāng)sy有數(shù)據(jù)缺失時(shí),分別以連續(xù)變量形式sy和分組變量形式syfz進(jìn)入模型,數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差情況見(jiàn)表5。

        表5顯示,在各缺失率下,以分類變量形式syfz進(jìn)入模型時(shí)模型參數(shù)的相對(duì)偏差小于連續(xù)變量形式sy的相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。

        采用刪除法、條件均值插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)-趨勢(shì)得分法、多重插補(bǔ)-回歸法、多重插補(bǔ)-預(yù)測(cè)均數(shù)匹配法及多重插補(bǔ)-馬爾科夫蒙特卡洛法對(duì)sy的缺失數(shù)據(jù)進(jìn)行處理,采用刪除法、眾數(shù)插補(bǔ)、多重插補(bǔ)-logistic回歸及多重插補(bǔ)-判別分析對(duì)syfz的缺失數(shù)據(jù)進(jìn)行處理。將插補(bǔ)后的sy和syfz分別納入模型,計(jì)算各方法插補(bǔ)后模型參數(shù)的相對(duì)偏差,選擇最小的相對(duì)偏差作圖,可得對(duì)連續(xù)變量sy和分類變量syfz插補(bǔ)后模型參數(shù)的相對(duì)偏差,詳見(jiàn)表6。

        表6顯示,在各缺失率下,分類變量syfz插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差均小于連續(xù)變量sy插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。通過(guò)表6與表5的比較可見(jiàn),插補(bǔ)后模型參數(shù)的相對(duì)偏差明顯降低。

        2.二分類變量缺失

        對(duì)二分類變量sex缺失數(shù)據(jù)處理的主要結(jié)果見(jiàn)表7-8。

        表7顯示,各方法的插補(bǔ)準(zhǔn)確率穩(wěn)定在一定水平上;眾數(shù)插補(bǔ)的正確率最高,MI/logistic與MI/discrim插補(bǔ)的正確率相近且均較低。

        表8顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,刪除法的偏差最小,MI/logistic與MI/discrim的偏差均較大。

        討 論

        缺失率越大,數(shù)據(jù)缺失導(dǎo)致研究結(jié)果的偏差越大,各缺失值處理方法的效果也越差。本研究將吸煙年數(shù)測(cè)量指標(biāo)分別以連續(xù)變量sy和分組變量syfz納入模型,結(jié)果顯示,syfz進(jìn)入模型數(shù)據(jù)缺失導(dǎo)致的模型參數(shù)的相對(duì)偏差較小,對(duì)syfz進(jìn)行插補(bǔ)后模型參數(shù)的相對(duì)偏差更小。這提示連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,在實(shí)際中遇到有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行處理。

        本研究對(duì)缺失變量的插補(bǔ)充分利用了輔助變量的信息,輔助變量與缺失變量之間的相關(guān)性越強(qiáng),信息利用越充分,插補(bǔ)的效果越好。對(duì)syfz進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較好,明顯優(yōu)于刪除法與眾數(shù)插補(bǔ)法,然而對(duì)sex進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較差,明顯差于刪除法與眾數(shù)插補(bǔ)法,究其原因是由于輔助變量能對(duì)syfz進(jìn)行較好的預(yù)測(cè),而對(duì)sex的預(yù)測(cè)效果較差。如進(jìn)行MI/logistic插補(bǔ)時(shí),對(duì)syfz進(jìn)行預(yù)測(cè)的logistic回歸模型其矯正R2為0.8513,預(yù)測(cè)一致百分比為94.8%,而對(duì)sex進(jìn)行預(yù)測(cè)的回歸模型矯正R2為0.2003,預(yù)測(cè)一致百分比為72.9%。這提示基于統(tǒng)計(jì)建模對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)時(shí),模型擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)會(huì)帶來(lái)更大的偏差,但模型擬合優(yōu)度與插補(bǔ)效果之間的定量關(guān)系有待進(jìn)一步的研究。

        [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321.

        [2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75.

        [3]吳秋紅,張?jiān)G?李國(guó)平,等.不同模型處理縱向缺失數(shù)據(jù)的模擬研究及應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):855-861.

        [4]曹陽(yáng),張羅漫.運(yùn)用SAS對(duì)不完整數(shù)據(jù)集進(jìn)行多重填補(bǔ)-SAS9中的多重填補(bǔ)及其統(tǒng)計(jì)分析過(guò)程(一).中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(1):56-63.

        [5]李樹(shù)威,鐘曉妮.基于Markov Chain Monto Carlo模型對(duì)醫(yī)院調(diào)查資料中缺失數(shù)據(jù)的多重估算.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):837-841.

        [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009.

        [7]趙飛,張志杰,劉建翔.疾病監(jiān)測(cè)資料中缺失值最佳填充次數(shù)的研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,29(5):455-458.

        [8]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(1):135-142.

        [9]蘭妥,江弋,劉光生.基于Sas的時(shí)間序列缺失值處理方法比較.計(jì)算機(jī)技術(shù)與發(fā)展,2008,10(18):43-45.

        [10]張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較.中國(guó)衛(wèi)生統(tǒng)計(jì), 2013,30(5):690-692.

        [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186.

        [12]魏昕.缺失數(shù)據(jù)對(duì)微觀計(jì)量影響研究——以農(nóng)民收入與消費(fèi)為例.成都:西南交通大學(xué),2010.

        [13]莊嚴(yán),邢艷春,馬文卿.含有缺失機(jī)制的多元縱向數(shù)據(jù)分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(5):489-493.

        (責(zé)任編輯:郭海強(qiáng))

        △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com

        猜你喜歡
        衛(wèi)生統(tǒng)計(jì)正確率偏差
        新醫(yī)療背景下衛(wèi)生統(tǒng)計(jì)工作的實(shí)踐與發(fā)展思考
        基于 Access的衛(wèi)生統(tǒng)計(jì)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)
        門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
        如何走出文章立意偏差的誤區(qū)
        兩矩形上的全偏差
        生意
        品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
        生意
        關(guān)于均數(shù)與偏差
        淺談衛(wèi)生統(tǒng)計(jì)質(zhì)量管理與控制
        影视av久久久噜噜噜噜噜三级| 亚洲av成人无码网站大全| 国精品午夜福利视频不卡| 伊人久久五月丁香综合中文亚洲 | 人妻少妇中文字幕久久hd高清| 亚洲精品女优中文字幕| 日韩一区中文字幕在线| 水蜜桃视频在线观看入口| 久草青青91在线播放| 四虎影视久久久免费观看| 欧美日韩精品久久久免费观看| 任你躁国产自任一区二区三区| 中文字幕人妻被公上司喝醉| 18禁黄网站禁片免费观看| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 大地资源中文第三页| 动漫在线无码一区| 亚洲性69影视| 一区二区三区中文字幕有码| 精品一区二区三区a桃蜜| 国产suv精品一区二区四| 亚洲精品久久久久avwww潮水| 一性一交一口添一摸视频| 亚洲综合久久成人a片| 亚洲人妻无缓冲av不卡| 亚洲熟妇av日韩熟妇av| 亚洲国产综合久久精品| 极品少妇人妻一区二区三区| 亚洲捆绑女优一区二区三区| 图片小说视频一区二区| 久久久国产打桩机| 蜜桃精品免费久久久久影院| 久久精品岛国av一区二区无码| 精品无码成人片一区二区| 色婷婷丁香综合激情| 国产丝袜美腿诱惑在线观看| 亚洲精品天堂日本亚洲精品| 国产av剧情刺激对白| 国产丶欧美丶日本不卡视频| 欧美视频第一页| 丰满人妻AV无码一区二区三区|