亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        三種塊缺失數(shù)據(jù)處理方法的比較*

        2017-07-18 11:08:15南京醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系211166
        中國衛(wèi)生統(tǒng)計 2017年3期
        關鍵詞:標準信息方法

        南京醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系(211166)

        林麗娟 董學思 趙 楊 魏永越 戴俊程 陳 峰△

        ?

        三種塊缺失數(shù)據(jù)處理方法的比較*

        南京醫(yī)科大學公共衛(wèi)生學院生物統(tǒng)計學系(211166)

        林麗娟 董學思 趙 楊 魏永越 戴俊程 陳 峰△

        跨平臺組學數(shù)據(jù)(cross-platform-omics data)研究中,一組樣本往往只在某些平臺(例如蛋白組學、代謝組學等)上進行了測序分析,而另外一些樣本在其他平臺(例如,基因組學、蛋白組學等)上進行了測序,欲將不同平臺的數(shù)據(jù)進行整合分析,則塊缺失(block missing)是不可避免的。由于塊缺失的缺失比例比較高,如果將含有缺失的觀測全部剔除,僅對完整數(shù)據(jù)進行分析,則會損失大量信息,甚至無信息可用。傳統(tǒng)上,常用的缺失數(shù)據(jù)處理方法是基于填補(imputation)的方法,包括單一填補法(如均值填補、回歸填補、hot deck填補等)和多重填補法[1-2]。然而這些方法適用于缺失比例不太高的情況,如果采用傳統(tǒng)填補方法對塊缺失數(shù)據(jù)進行填補,可能會導致估計偏差較大,或耗時太多,從而大大降低了統(tǒng)計分析的效率。如何處理這類缺失數(shù)據(jù),將是跨平臺組學大數(shù)據(jù)研究中急需解決的一個問題。

        不同于目前常用的基于填補的缺失處理方法,不填補的方法不對缺失數(shù)據(jù)進行填補,而是利用不完整數(shù)據(jù)集中所有變量可利用的全部信息 ,來構(gòu)建變量之間的方差-協(xié)方差結(jié)構(gòu)或者極大似然函數(shù),并據(jù)此來估計回歸模型的參數(shù),則可以達到充分利用已有數(shù)據(jù)信息的目的,即不完整數(shù)據(jù)的全信息估計?;诖怂悸?,本研究采用數(shù)據(jù)模擬技術,比較三種不填補的方法:列表刪除法(listwise deletion,LD)、配對刪除法(pairwise deletion,PD)以及全信息極大似然法(full information maximum likelihood,FIML)處理塊數(shù)據(jù)的優(yōu)劣。

        缺失值處理方法

        1.列表刪除法

        將數(shù)據(jù)集中含有缺失的記錄全部刪除后得到“完整數(shù)據(jù)集”,對該“完整數(shù)據(jù)集”采用常規(guī)的統(tǒng)計方法進行分析,因此此方法也稱為完整觀測分析(complete case analysis)。該方法適用于任何一種分析,是很多統(tǒng)計分析軟件默認的缺失值處理方法[3]。

        2.配對刪除法

        在計算某一統(tǒng)計量時,僅將兩兩變量間的缺失記錄刪除,而不考慮其他變量的缺失情況,如:在計算x1和x2的相關系數(shù)時,只將x1或x2中缺失的記錄刪除,而忽略其他變量的缺失情況[3]。與列表刪除法相比,該方法利用更多的樣本信息,在一定程度上避免了列表刪除法所造成的樣本信息大量損失,統(tǒng)計檢驗功效降低等問題。

        3.全信息極大似然

        在構(gòu)造極大似然函數(shù)時,只利用每個觀測中沒有缺失的完整變量,而不考慮該觀測中缺失的變量。通過計算,得到N個觀測的N個極大似然函數(shù),然后將這N個極大似然函數(shù)相加,得到基于全部觀測的極大似然函數(shù)。其表達式如下:

        其中xi表示第i個觀測中完整變量的數(shù)值,μi是第i個觀測中這些完整變量的均值向量,Σi是其方差協(xié)方差矩陣,Ki是與第i個觀測中完整數(shù)據(jù)個數(shù)相關的常數(shù)[4]。

        模擬研究

        應用SAS 9.2進行編程,模擬完整數(shù)據(jù)集,樣本量為n=1000,包括1個因變量和p個服從多元正態(tài)分布的自變量x1,x2,…,xp。對該數(shù)據(jù)集構(gòu)建一個多元線性回歸模型:

        y=β0+β1x1+β2x2+……+βpxp+ε

        估計模型的參數(shù)以及標準誤。對完整數(shù)據(jù)集構(gòu)造不同缺失率的數(shù)據(jù)集,分別采用列表刪除法、配對刪除法和全信息極大似然法對每種缺失率的數(shù)據(jù)集進行處理,得到模型參數(shù)的估計值及其標準誤,對每種缺失率的數(shù)據(jù)均模擬1000次,得到各模型參數(shù)的估計值及標準誤的平均值,并與所設置的理論值進行比較。

        1.模擬研究一:一個塊缺失

        考慮5個自變量與1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:

        y=3+2x1+4x2+6x3+8x4+10x5+ε1ε1~N(0,σ2)

        其中 ,X1=(x1,x2,……,x5),X1服從多元正態(tài)分布,即X1~N(μ1,∑1)。其中μ1和∑1分別表示均值向量與方差-協(xié)方差矩陣,其表達形式如下:

        假設數(shù)據(jù)集中僅(變量x1,x2,x3)呈塊缺失,即同時缺失或同時不缺失,缺失比例分別考慮10%,30%,50%,70%四種情況,而其他變量均是完整的。

        2.模擬研究二:兩個塊缺失

        考慮8個自變量和1個因變量的回歸,所構(gòu)建的多元線性回歸模型如下:

        y=3+2x1+4x2+6x3+8x4+10x5+9x6+7x7+5x8+ε2ε2~N(0,σ2)

        記X2=(x1,x2,……,x8),X2服從多元正態(tài)分布,即X2~N(μ2,∑2)),其中μ2和∑2分別表示均值向量與方差-協(xié)方差矩陣,其表達形式如下:

        假設數(shù)據(jù)集中(變量x1,x2,x3)呈塊缺失,(變量x6,x7,x8)也呈塊缺失,考慮兩個塊缺失比例同時為30%、35%、40%、45%四種情況,而其余變量均是完整的。

        3.評價標準

        (1)標準偏差:當標準偏差大于0.4時,偏差會對功效、置信區(qū)間覆蓋率以及誤差率產(chǎn)生影響[5]。因此,若某種方法的標準偏差小于0.4,認為此方法的估計偏差尚可接受。標準偏差的計算公式如下:

        (2)參數(shù)的標準誤:用參數(shù)估計的標準誤的均值來衡量各方法的估計精度[5]。

        結(jié) 果

        1.模擬研究一:一個塊缺失

        模擬1000次,由于結(jié)果相似,這里僅僅列出缺失率為30%,50%時各缺失值處理方法的結(jié)果,見表1、表2。從結(jié)果可以看出,無論缺失率為多少,LD、PD以及FIML的標準偏差均小于0.4(截距項除外),因此可認為這三種缺失值處理方法的估計偏差尚可接受。而從估計精度上看,F(xiàn)IML最優(yōu),PD次之,LD最差。

        表1 缺失率為30%時各缺失值處理方法比較(模擬研究一)

        圖1為不同缺失率下,各方法對完整變量x4的參數(shù)估計標準誤的變化情況。從圖中可以看出,在缺失率為10%時,三種方法的標準誤相差不大,但隨著缺失率的增加,LD和PD的標準誤均有明顯的增大,總體上PD優(yōu)于LD,而FIML的標準誤比較穩(wěn)定,增幅不大,且明顯優(yōu)于LD和PD。

        表2 缺失率為50%時各缺失值處理方法比較(模擬研究一)

        圖1 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究一)

        2.模擬研究二:兩個塊缺失

        模擬1000次,由于結(jié)果相似,這里僅列出缺失率為60%,80%時各缺失率處理方法的結(jié)果,見表3、表4。從結(jié)果可以看出,三種缺失值處理方法的標準偏差均小于0.4,說明三種方法的估計偏差尚可接受。對于含有缺失的變量(不完整變量),PD的標準誤最小,F(xiàn)IML次之,LD最大。而對于完整變量x4,x5而言,F(xiàn)IML的標準誤最小,PD次之,LD的最大。

        圖2為不同缺失率下,各方法對完整變量x4的參數(shù)估計標準誤的變化情況。從圖中可以看出,隨著缺失率的上升,LD的估計標準誤明顯增加,而FIML和PD的標準誤增幅不大,F(xiàn)IML的標準誤略小于PD。

        表3 數(shù)據(jù)集缺失比例為60%時各缺失值處理方法比較(模擬研究二)

        表4 數(shù)據(jù)集缺失比例為80%時各缺失值處理方法比較(模擬研究二)

        圖2 回歸系數(shù)β4在不同缺失率下的估計精度(模擬研究二)

        討 論

        本研究結(jié)果顯示,當缺失比例比較小(如<10%)時,列表刪除法、配對刪除法和全信息極大似然法的估計偏差和估計精度都差不多。隨著缺失比例的增大,列表刪除法和配對刪除法的估計標準誤均有明顯的上升趨勢,而全信息極大似然法的估計標準誤增幅不大,且明顯小于前面二者。當缺失比例很大時(如>70%),全信息極大似然法對完整變量的估計精度略優(yōu)于配對刪除法,而對不完整變量的估計卻遠差于配對刪除法。

        列表刪除法因為簡單,容易實施而被廣泛應用,在很多統(tǒng)計分析軟件中是默認的缺失數(shù)據(jù)處理方法[6-7]。但在跨平臺組學數(shù)據(jù)整合分析中,數(shù)據(jù)存在很多的塊缺失,若采用列表刪除法直接將缺失數(shù)據(jù)刪除,則會損失大量數(shù)據(jù)信息,導致統(tǒng)計分析效率低下。從上述的模擬研究的結(jié)果可以看出,當缺失率比較小時(如10%),列表刪除法的效果尚可,隨著缺失率的上升,列表刪除法的估計精度不佳,與Baraldi等的結(jié)論一致[7-9]。

        配對刪除法和全信息極大似然法都是基于不填補的思想[10],充分利用已觀測到的數(shù)據(jù)信息,避免了由于列表刪除法所造成的數(shù)據(jù)信息大量損失等問題,因此這兩種方法在估計精度上均優(yōu)于列表刪除法。目前常用的缺失數(shù)據(jù)處理方法是多重填補法[11-13]。有研究表明[14-15],多重填補的估計效果與全信息極大似然法相近,但全信息極大似然法的計算效率更高。而且,對于一個給定的數(shù)據(jù)集,全信息極大似然法每次的估計結(jié)果一致,而由于隨機性,多重填補會得出不一樣的結(jié)果。本研究結(jié)果表明,當數(shù)據(jù)中僅存在一個塊缺失時,全信息極大似然法對所有變量的估計標準誤均小于配對刪除法,而當數(shù)據(jù)存在兩個塊缺失時,僅對于完整變量而言,全信息極大似然法的標準誤小于配對刪除法,對于含有缺失的不完整變量,剛好相反。Yung[10]等人的研究表明,當數(shù)據(jù)集中的缺失比例超過85%時,全信息極大似然算法會不收斂。當數(shù)據(jù)存在兩個塊缺失時,即數(shù)據(jù)集的缺失比例很大,全信息極大似然法會因算法不收斂而效果不佳,不如配對刪除法。當塊缺失數(shù)據(jù)的缺失比例不是很大時(如<70%),推薦采用全信息極大似然法,因為在估計偏差均可接受的情況下,其估計精度最優(yōu)。當缺失比例超過70%時 ,三種方法的標準誤均比較大,推薦采用配對刪除法,因為其估計精度相對較優(yōu)。

        塊缺失是跨組學平臺研究中經(jīng)常遇到的問題,目前尚無關于這方面的研究。不同于目前廣泛應用的基于填補的方法,本研究采用不填補的方法對塊缺失進行處理 。盡管所研究的變量不多,但是對于方法評價來說,已經(jīng)能夠說明各自的優(yōu)劣。這為進一步充分利用不同組學平臺的信息以及環(huán)境暴露信息進行疾病風險預測、預后預測等提供了方法選擇的理論依據(jù)。

        [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

        [2]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計處理方法的研究進展.中國衛(wèi)生統(tǒng)計,2013(1):135-139.

        [3]Enders CK.Applied missing data analysis.Guilford Press,2010,39-42.

        [4]Enders CK.The performance of the full information maximum likelihood estimator in multiple regression models with missing data.Educational and Psychological Measurement,2001,61(5):713-740.

        [5]Burton A,Altman DG,Royston P,et al.The design of simulation studies in medical statistics.Statistics in medicine,2006,25(24):4279-4292.

        [6]Graham J.Missing data analysis:Making it work in the real world.Annual review of psychology,2009,60:549-576.

        [7]Baraldi A,Enders CK.An Introduction to Modern Missing Data Analyses.Journal of School Psychology,2010,48(1):5-37.

        [8]Myers TA.Goodbye,listwise deletion:Presenting hot deck imputation as an easy and effective tool for handling missing data.Communication Methods and Measures,2011,5(4):297-310.

        [9]Kang H.The prevention and handling of the missing data.Korean journal of anesthesiology,2013,64(5):402-406.

        [10]Yung YF,Zhang W.Making use of incomplete observations in the analysis of structural equation models:The CALIS procedure's full information maximum likelihood method in SAS/STAT?9.3.SAS Global Forum,2011:1-20.

        [11]Royston P.Multiple imputation of missing values:further update of ice,with an emphasis on categorical variable.Stata Journal,2009,9(3):466-477.

        [12]Lee K J,Carlin JB.Multiple Imputation for Missing Data:Fully Conditional Specification Versus Multivariate Normal Imputation.American Journal of Epidemiology,2010,171(5):624-632.

        [13]Moniek CM,Merel VD,Kitty JJ,et al.Multiple imputation:dealing with missing data.Nephrology Dialysis Transplantation,2013,28(10):2415-2420.

        [14]Allison PD.Handling missing data by maximum likelihood.SAS global forum,2012,23:1-21.

        [15]Newman DA.Missing data five practical guidelines.Organizational Research Methods,2014,17(4):372-411.

        (責任編輯:郭海強)

        國家自然科學基金(81530088,81473070,81373102,81402764)

        △通信作者:陳峰,E-mail:fengchen@njmu.edu.cn

        猜你喜歡
        標準信息方法
        2022 年3 月實施的工程建設標準
        忠誠的標準
        當代陜西(2019年8期)2019-05-09 02:22:48
        美還是丑?
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        日本国产一区二区在线观看| 久久夜色精品国产噜噜麻豆| 久久久精品人妻一区二区三区| 国偷自产av一区二区三区| 中文字幕久久久久人妻无码| 无码中文字幕久久久久久| 成人综合激情自拍视频在线观看| 亚洲成人激情深爱影院在线 | 91亚洲欧洲日产国码精品| 国产亚洲一区二区三区三州 | 久久久大少妇免费高潮特黄| 国产一区高清在线观看| 色欲人妻综合aaaaa网| 九九99久久精品国产| 久久无码人妻一区二区三区午夜| 二区久久国产乱子伦免费精品| 亚洲区一区二区中文字幕| 免费人成在线观看播放视频| 国产自拍av在线观看视频| 巨人精品福利官方导航| 欧美人与动人物牲交免费观看| 亚洲天堂资源网| 久久青青草视频免费观看| 一区二区三区在线乱码| 国产亚洲自拍日本亚洲| 久久午夜无码鲁丝片午夜精品| 国产成人综合亚洲精品| 免费毛片在线视频| 日本中文字幕av网址| 中文字幕高清视频婷婷| 绝顶高潮合集videos| 欧美人与动牲交a精品| 亚洲人成网站在线观看播放| 中文精品久久久久中文| 国产av午夜精品一区二区入口| 自拍偷拍 视频一区二区| 婷婷久久香蕉五月综合加勒比| 少妇内射高潮福利炮| 亚洲欧美中文v日韩v在线| 国产91精品清纯白嫩| 人妻免费一区二区三区免费|