亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        完全隨機(jī)缺失條件下連續(xù)型隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

        2015-03-09 12:56:56中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系100005
        中國衛(wèi)生統(tǒng)計(jì) 2015年4期
        關(guān)鍵詞:效果方法模型

        中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

        張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

        完全隨機(jī)缺失條件下連續(xù)型隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

        中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

        張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

        目的探討完全隨機(jī)缺失條件下連續(xù)型隨機(jī)變量數(shù)據(jù)缺失對研究結(jié)果的影響,對各方法插補(bǔ)效果進(jìn)行比較。方法基于上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的完整數(shù)據(jù)集,在5%、10%、20%及30%缺失率下,模擬單變量(吸煙年數(shù)sy)缺失,采用了7種方法處理單變量缺失;模擬多變量(吸煙年數(shù)sy和每天吸煙支數(shù)smd)缺失,采用了4種方法處理多變量缺失。對插補(bǔ)效果從缺失變量均值的變化、插補(bǔ)精確性及插補(bǔ)后模型參數(shù)的變化三個(gè)方面進(jìn)行評價(jià)。結(jié)果單變量缺失:各缺失率下,回歸插補(bǔ)sy均值的偏差最小,MI/REG、MI/PMM和MI/MCMC插補(bǔ)后模型參數(shù)的偏差均較小,刪除法sy均值與模型參數(shù)的偏差均最大。多變量缺失:各缺失率下,回歸插補(bǔ)sy均值的偏差最小,刪除法最大;條件均值插補(bǔ)smd均值的偏差最小,MI/MCMC最大;條件均值插補(bǔ)模型參數(shù)的偏差最小,MI/MCMC最大。結(jié)論用不同指標(biāo)對各方法插補(bǔ)效果進(jìn)行評價(jià)會得出不同的結(jié)果,應(yīng)根據(jù)統(tǒng)計(jì)分析的目的和關(guān)注點(diǎn)選擇最合適的缺失數(shù)據(jù)處理方法。總體來看,插補(bǔ)法處理缺失數(shù)據(jù)的效果優(yōu)于刪除法,缺失率越高,優(yōu)勢越顯著。

        缺失數(shù)據(jù) 多重插補(bǔ)

        在醫(yī)學(xué)研究中,數(shù)據(jù)缺失是一個(gè)普遍存在的問題[1]。數(shù)據(jù)缺失會導(dǎo)致樣本信息減少和統(tǒng)計(jì)檢驗(yàn)效能降低,降低研究結(jié)果的有效性[2],增加統(tǒng)計(jì)分析的復(fù)雜性[3-4]。對缺失數(shù)據(jù)插補(bǔ)是國內(nèi)外常用的缺失數(shù)據(jù)處理方法,完全隨機(jī)缺失是各插補(bǔ)方法最理想的應(yīng)用環(huán)境,并且從理論上講,完全隨機(jī)缺失條件下的參數(shù)估計(jì)是無偏的,即完全隨機(jī)缺失是可忽略的缺失,但在一次具體研究中是否真的可以忽略完全隨機(jī)缺失值得探討。本研究基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失數(shù)據(jù)集,探討連續(xù)型隨機(jī)變量數(shù)據(jù)缺失對研究結(jié)果的影響,采用不同方法插補(bǔ)缺失數(shù)據(jù),并對插補(bǔ)效果進(jìn)行比較及評價(jià)。

        資料與方法

        1.?dāng)?shù)據(jù)來源 研究數(shù)據(jù)源于1989-1991年開展的“中國吸煙與全死因關(guān)系”橫斷面調(diào)查,選取上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的數(shù)據(jù)進(jìn)行插補(bǔ)方法研究,共14911條完整觀測。

        2.研究涉及的變量 詳見表1。

        表1 研究涉及變量情況

        3.不完整數(shù)據(jù)集的構(gòu)建 基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失的不完整數(shù)據(jù)集。

        (1)單變量缺失:模擬sy缺失的不完整數(shù)據(jù)集,在5%、10%、20%和30%的缺失率下各模擬100次。

        (2)多變量缺失(任意缺失模式):模擬sy與smd均缺失的不完整數(shù)據(jù)集,缺失觀測中僅sy缺失占30%,僅smd缺失占20%,兩者均缺失占50%(該比例分布基于原始調(diào)查數(shù)據(jù)集實(shí)際缺失情況),缺失率及模擬次數(shù)與單變量缺失相同。

        4.插補(bǔ)方法及效果評價(jià)

        單變量缺失:采用七種方法處理缺失值[5-8],①刪除法:刪除sy缺失的觀測。②條件均值插補(bǔ):按sex、agefz和sagefz將數(shù)據(jù)交叉分組分為20組。計(jì)算各組中sy的均值,將組均值作為該組中缺失項(xiàng)的插補(bǔ)值。③回歸插補(bǔ):以sy為因變量,sex、age及sage為協(xié)變量建立回歸方程,用回歸預(yù)測值作為缺失數(shù)據(jù)的插補(bǔ)值。④多重插補(bǔ)-趨勢得分法(MI/PS):按照sex分層,每層中以sy缺失指示變量R(R=1,缺失;R=0,未缺失)為因變量,age、sage為協(xié)變量建立logistic回歸方程,sy缺失的概率為趨勢得分,基于趨勢得分將觀測分為20組,在每組中應(yīng)用近似貝葉斯Bootstrap方法分別對缺失值進(jìn)行3次、5次和10次插補(bǔ)。⑤多重插補(bǔ)-回歸法(MI/REG):以sy為因變量,sex、age和sage為協(xié)變量建立回歸方程,分別對缺失值進(jìn)行3次、5次和10次插補(bǔ)。⑥多重插補(bǔ)-預(yù)測均數(shù)匹配法(MI/PMM):以sy為因變量,sex、age和sage為協(xié)變量建立回歸模型,選取與缺失數(shù)據(jù)的預(yù)測值最接近的5個(gè)真實(shí)值,從中抽樣對缺失數(shù)據(jù)進(jìn)行3次、5次和10次插補(bǔ)。⑦多重插補(bǔ)-馬爾科夫蒙特卡洛法(MI/MCMC):按sex分層,每層中采用sy、age和sage建立馬爾科夫鏈對缺失數(shù)據(jù)進(jìn)行3次、5次和10次插補(bǔ)。

        多變量缺失:采用四種方法處理缺失值[5-8],①刪除法:刪除sy或smd缺失的觀測。②條件均值插補(bǔ):按sex、agefz及sagefz組將全部觀測分為20組,以每組中sy和smd的均值來插補(bǔ)相應(yīng)的缺失值。③回歸插補(bǔ):以sex、age和sage為協(xié)變量,分別以sy及smd為因變量建立回歸模型,插補(bǔ)缺失值。④MI/MCMC:按sex分層,每層中采用sy、age、sage和smd建立馬爾科夫鏈,對缺失數(shù)據(jù)進(jìn)行3次、5次和10次插補(bǔ)。

        對各方法的插補(bǔ)效果從以下三方面進(jìn)行評價(jià):

        (1)插補(bǔ)后缺失變量均值的改變[9]:計(jì)算插補(bǔ)后缺失變量均值的絕對偏差和均值的相對偏差其中為缺失變量插補(bǔ)后的均值,μ為真實(shí)的均值。再計(jì)算100次模擬的MAD及MRD的均數(shù),即為均值的平均絕對偏差MADM及平均相對偏差MRDM,MADM和MRDM越小插補(bǔ)效果越好。

        (2)插補(bǔ)的精確性[9-11]:計(jì)算插補(bǔ)值的平均絕對偏差MADD和平均相對偏差MRDD,插補(bǔ)的均方誤平方根RMSE,插補(bǔ)方差占總方差的百分比PMSE。

        (3)插補(bǔ)后模型參數(shù)的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、sy和smd的關(guān)系。將插補(bǔ)數(shù)據(jù)集的模型參數(shù)估計(jì)結(jié)果與完整數(shù)據(jù)集的結(jié)果相比較,計(jì)算模型參數(shù)的平均絕對偏差MADP和平均相對偏差MRDP。

        其中,k為重復(fù)模擬次數(shù),s為模型中估計(jì)的參數(shù)個(gè)數(shù),δ為完整數(shù)據(jù)集的參數(shù)估計(jì)值,δ′ij為插補(bǔ)數(shù)據(jù)集的參數(shù)估計(jì)值。MADP和MRDP越小插補(bǔ)效果越好。

        結(jié) 果

        1.單變量缺失

        表2及表3顯示了5%缺失率下各法插補(bǔ)后sy均值及模型參數(shù)的改變。sy均值的偏差由大到小為:刪除法>MI/PS>MI/PMM>MI/REG>條件均值法>MI/MCMC>回歸插補(bǔ)法;插補(bǔ)精確性由高到低為:回歸插補(bǔ)法>MI/PMM>條件均值法>MI/MCMC>MI/REG>MI/PS;模型參數(shù)偏差由高到低依次為:刪除法>MI/PS>回歸插補(bǔ)法>條件均值法>MI/PMM>MI/MCMC>MI/REG。

        表2 5%缺失率下對sy進(jìn)行插補(bǔ)后均值的變化及插補(bǔ)精確性

        表3 5%缺失率下對sy進(jìn)行插補(bǔ)后模型參數(shù)的變化

        由于篇幅限制,其他缺失率下各插補(bǔ)方法的結(jié)果不再一一列出,而以簡表的形式直觀展示不同缺失率下各方法的插補(bǔ)效果。由于同一多重插補(bǔ)方法在不同插補(bǔ)次數(shù)下的效果相近,選擇插補(bǔ)效果最好時(shí)對應(yīng)的次數(shù)列表。

        表4顯示,sy均值的偏差隨著缺失率的增加而增加;在各缺失率下,回歸插補(bǔ)sy均值的偏差均最小,刪除法的偏差最大;當(dāng)缺失率≥10%時(shí),各法插補(bǔ)后sy均值偏差的增加速度加快。

        表4 不同缺失率下采用各種方法處理缺失數(shù)據(jù)后sy均值的平均絕對偏差

        表5顯示,在各缺失率下,各方法插補(bǔ)值與真實(shí)值間的偏差均穩(wěn)定在某一水平上,回歸插補(bǔ)的偏差最小,MI/PS最大。

        表6顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。當(dāng)缺失率為5%時(shí),MI/REG插補(bǔ)后模型參數(shù)的偏差最小,缺失率大于5%時(shí),MI/PMM的偏差最小。但各缺失率下MI/REG、MI/MCMC和MI/PMM的插補(bǔ)效果接近,明顯優(yōu)于其他方法,刪除法及MI/PS的偏差較大。當(dāng)缺失率≥10%時(shí),MI/REG、MI/PMM和MI/MCMC模型參數(shù)偏差的增長速度加快但不顯著,其他方法的增長速度明顯加快。

        2.多變量缺失

        對于多變量缺失,主要結(jié)果見表7~11。

        表7顯示,缺失率為5%時(shí)條件均值法sy均值的偏差最小,但與回歸插補(bǔ)非常接近,當(dāng)缺失率大于5%時(shí),回歸插補(bǔ)的偏差最小。各缺失率下刪除法的偏差最大。

        表8顯示,各缺失率下,各方法插補(bǔ)值與真實(shí)值之間的平均絕對偏差均穩(wěn)定在某一水平上,且回歸插補(bǔ)的偏差最小,MI/MCMC最大。

        表5 不同缺失率下各種方法插補(bǔ)sy后插補(bǔ)值與真實(shí)值的平均絕對偏差

        表6 不同缺失率下采用各種方法處理缺失數(shù)據(jù)模型參數(shù)的平均絕對偏差

        表7 不同缺失率下各法處理缺失數(shù)據(jù)后sy均值的平均絕對偏差

        表8 不同缺失率下采用各種方法插補(bǔ)sy后插補(bǔ)值與真實(shí)值的平均絕對偏差

        表9顯示,各缺失率下回歸插補(bǔ)與條件均值插補(bǔ)smd均值的平均絕對偏差非常接近且較小,MI/MCMC偏差最大。

        表9 不同缺失率下采用各種方法處理缺失數(shù)據(jù)后smd均值的平均絕對偏差

        表10顯示,各缺失率下smd插補(bǔ)值與真實(shí)值之間的平均絕對偏差均穩(wěn)定在某一水平上,條件均值法的偏差最小,MI/MCMC最大。

        表10 不同缺失率下各種方法插補(bǔ)smd后插補(bǔ)值與真實(shí)值的平均絕對偏差

        表11顯示,各缺失率下條件均值插補(bǔ)后模型參數(shù)的平均絕對偏差最小,MI/MCMC最大。當(dāng)缺失率≥10%時(shí),模型參數(shù)偏差增加的速度加快。

        表11 不同缺失率下各種方法插補(bǔ)缺失值后模型參數(shù)的平均絕對偏差

        討 論

        1.研究結(jié)果小結(jié)

        在實(shí)際應(yīng)用中,完全隨機(jī)缺失仍不可忽視,會影響研究結(jié)果的有效性。缺失率越大,對研究結(jié)果影響越大,對各方法插補(bǔ)效果的影響越大,且影響加大的程度也隨缺失率的增加而增加,當(dāng)缺失率≥10%時(shí),缺失變量均值偏差增長的速度、模型參數(shù)偏差增長的速度均明顯加快。對刪除缺失觀測后缺失變量均數(shù)的相對偏差與模型參數(shù)的相對偏差進(jìn)行比較發(fā)現(xiàn),模型參數(shù)的相對偏差遠(yuǎn)遠(yuǎn)大于缺失變量均數(shù)的相對偏差,提示模型對于數(shù)據(jù)缺失的敏感性高于缺失變量本身,即缺失數(shù)據(jù)對模型產(chǎn)生的影響大于對缺失變量均值的影響。盡管依據(jù)不同的指標(biāo)對各缺失值處理方法進(jìn)行評價(jià)、比較會得出不同的結(jié)論,但總體來看,插補(bǔ)法處理缺失數(shù)據(jù)的效果優(yōu)于刪除法,基于統(tǒng)計(jì)建模的插補(bǔ)法優(yōu)于未建模的缺失值處理方法,多重插補(bǔ)法的效果優(yōu)于單值插補(bǔ)法,缺失率越大優(yōu)勢越顯著,這與文獻(xiàn)[5,10,12]的研究結(jié)果一致,多重插補(bǔ)法處理缺失數(shù)據(jù)的有效性已得到國內(nèi)外學(xué)者的普遍認(rèn)可。但本研究是基于較大樣本量得到的研究結(jié)果,將其推廣到小樣本情形可能會受到一定限制,因此,在小樣本量條件下,數(shù)據(jù)缺失對研究結(jié)果的影響及插補(bǔ)方法的效果值得進(jìn)一步研究。

        2.對各插補(bǔ)方法的思考

        本研究中的插補(bǔ)法不僅利用了缺失變量的信息,還利用了輔助變量的信息,輔助變量與缺失變量之間的相關(guān)性越強(qiáng),信息利用越充分,插補(bǔ)的效果越好,如連續(xù)變量多變量缺失時(shí)采用回歸法對sy和smd進(jìn)行插補(bǔ)時(shí),對sy的插補(bǔ)效果明顯要優(yōu)于對smd的插補(bǔ)效果,這主要是由于輔助變量與sy之間的相關(guān)性較好,而與smd的相關(guān)性較差。在僅sy缺失條件下,MI/MCMC對sy的插補(bǔ)效果較好,當(dāng)sy與smd同時(shí)缺失時(shí),增加了與其他變量相關(guān)性較弱的smd建立馬爾可夫鏈,此時(shí)對smd的插補(bǔ)效果較差,同時(shí)也影響了對sy的插補(bǔ)效果。MI/REG與MI/PMM均通過擬合回歸模型實(shí)現(xiàn)多重插補(bǔ),缺失率較低時(shí)(≤10%)兩法插補(bǔ)效果接近,但隨著缺失率的增加,MI/PMM的插補(bǔ)效果要明顯優(yōu)于MI/REG,這是由于MI/PMM是用數(shù)據(jù)集中與預(yù)測值最鄰近的真實(shí)值對缺失數(shù)據(jù)進(jìn)行插補(bǔ),使填補(bǔ)更加準(zhǔn)確,當(dāng)缺失率較大和預(yù)測值與實(shí)際值差異較大時(shí),MI/PMM具有明顯的優(yōu)勢。

        3.對各插補(bǔ)方法進(jìn)行比較時(shí)評判指標(biāo)的選擇

        目前,還沒有統(tǒng)一的指標(biāo)來衡量各缺失數(shù)據(jù)插補(bǔ)方法的優(yōu)劣,本研究綜合了以往其他研究的指標(biāo)對插補(bǔ)效果進(jìn)行評價(jià)。結(jié)果顯示,用不同的指標(biāo)對各方法插補(bǔ)效果進(jìn)行評價(jià)會得出不同的結(jié)論,如對單變量缺失插補(bǔ)時(shí)若以吸煙年數(shù)sy均值的改變?yōu)樵u價(jià)指標(biāo),回歸法插補(bǔ)效果最好,若以插補(bǔ)后模型參數(shù)變化的偏差為評價(jià)指標(biāo),則MI/PMM、MI/MCMC及MI/REG均較好。因此,在對缺失數(shù)據(jù)進(jìn)行插補(bǔ)時(shí),首先明確統(tǒng)計(jì)分析的關(guān)注點(diǎn),若進(jìn)行t檢驗(yàn)、方差分析那么應(yīng)關(guān)注缺失變量均值的變化,如果要建立統(tǒng)計(jì)模型則更應(yīng)關(guān)注整個(gè)模型參數(shù)的變化,根據(jù)統(tǒng)計(jì)分析目的確定評價(jià)指標(biāo),選擇最合適的插補(bǔ)方法。本文討論了連續(xù)型隨機(jī)變量缺失對研究結(jié)果的影響,及相應(yīng)插補(bǔ)方法的比較,對于離散型隨機(jī)變量缺失的插補(bǔ)方法及比較將另撰文討論。

        [1]Abraham,Todd W,Russell,et al.M issing data:a review of current methods and applications in epidem iology research.Current opinion in psychiatry,2004,17(4):315-321.

        [2]Streiner DL,F(xiàn)inkle WD.The case of the m issing Data:Methods of dealing with dropouts and other research vagaries.Research Methods in Psychiatry,2002,47(1):68-75.

        [3]吳秋紅,張?jiān)G啵顕?,等.不同模型處理縱向缺失數(shù)據(jù)的模擬研究及應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2013,30(6):855-861.

        [4]曹陽,張羅漫.運(yùn)用SAS對不完整數(shù)據(jù)集進(jìn)行多重填補(bǔ)——SAS 9中的多重填補(bǔ)及其統(tǒng)計(jì)分析過程(一).中國衛(wèi)生統(tǒng)計(jì),2004,21(1):56-63.

        [5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對醫(yī)院調(diào)查資料中缺失數(shù)據(jù)的多重估算.中國衛(wèi)生統(tǒng)計(jì),2013,30(6):837-841.

        [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition,North Carolina:SAS Institute Inc,2009.

        [7]趙飛,張志杰,劉建翔.疾病監(jiān)測資料中缺失值最佳填充次數(shù)的研究.中國衛(wèi)生統(tǒng)計(jì),2009,29(5):455-458.

        [8]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法研究進(jìn)展.中國衛(wèi)生統(tǒng)計(jì),2013,30(1):135-142.

        [9]蘭妥,江弋,劉光生.基于Sas的時(shí)間序列缺失值處理方法比較.計(jì)算機(jī)技術(shù)與發(fā)展,2008,10(18):43-45.

        [10]張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較,2013,30(5):690-692.

        [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with M issingData:Application to a Large MedicalDatabase.Connecting Medical Informatics and Bio-Informatics,2005:181-186.

        [12]魏昕.缺失數(shù)據(jù)對微觀計(jì)量影響研究-以農(nóng)民收入與消費(fèi)為例.成都:西南交通大學(xué),2010.

        [13]莊嚴(yán),邢艷春,馬文卿.含有缺失機(jī)制的多元縱向數(shù)據(jù)分析.中國衛(wèi)生統(tǒng)計(jì),2008,25(5):489-493.

        (責(zé)任編輯:郭海強(qiáng))

        △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com

        猜你喜歡
        效果方法模型
        一半模型
        按摩效果確有理論依據(jù)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        可能是方法不對
        3D打印中的模型分割與打包
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        国产精品永久久久久久久久久 | 丰满人妻无套内射视频| 日韩高清毛片| 精品视频专区| 精品黄色av一区二区三区| 国产精品黄色av网站| 久久久精品国产免费看| 久久夜色精品国产亚洲av动态图| 国产成人午夜无码电影在线观看| 婷婷久久久亚洲欧洲日产国码av| 麻豆AⅤ无码不卡| аⅴ天堂一区视频在线观看| 99久久免费精品色老| 美女被黑人巨大入侵的的视频| 一区二区三区国产免费视频| 狠狠的干性视频| 丰满多毛的大隂户视频| 精品国产看高清国产毛片| 色窝窝手在线视频| 亚洲女人天堂成人av在线| 日本二一三区免费在线| 国产精品爽爽久久久久久竹菊| 精品国产v无码大片在线观看 | 最新永久免费AV网站| 国产一区二区三区在线爱咪咪| 一区二区三区人妻av| 免费不卡在线观看av| 中文字幕无码av激情不卡| 国产色噜噜| av毛片在线播放网址| 亚洲一区二区三区色偷偷| 亚洲成熟女人毛毛耸耸多| 国产亚洲av综合人人澡精品| 老熟女熟妇嗷嗷叫91| 亚洲成a人一区二区三区久久| 伊人久久精品无码av一区| 精品少妇人妻av无码专区| 污污污污污污污网站污| 国产人成无码视频在线1000 | 国内精品国产三级国产av另类| 国产伦精品一区二区三区在线|