亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        臨床研究中缺失值的類(lèi)型和處理方法研究

        2011-02-03 03:50:18唐健元楊志敏楊進(jìn)波吳春芳
        關(guān)鍵詞:分析方法模型

        唐健元 楊志敏 楊進(jìn)波 黃 欽 吳春芳 馮 毅

        臨床研究中缺失值的類(lèi)型和處理方法研究

        唐健元1楊志敏1楊進(jìn)波1黃 欽1吳春芳2馮 毅3

        1.國(guó)家食品藥品監(jiān)督管理局藥品審評(píng)中心(100038)

        2.第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(200433)

        △通訊作者:馮毅,E-mail:fengy@cde.org.cn

        臨床研究過(guò)程中的一些缺失值,可能導(dǎo)致新藥評(píng)價(jià)過(guò)程中的偏倚和降低評(píng)估的精確性和損耗隨機(jī)化的效果,以至于做出偏倚性結(jié)論。由于脫落數(shù)據(jù)很可能是一些極端值(如因治療無(wú)效而未再回訪),缺失的這部分研究數(shù)據(jù)會(huì)導(dǎo)致低估結(jié)果的變異性,從而得到一個(gè)“人為狹窄”的治療效應(yīng)〔1〕。

        目前,國(guó)內(nèi)新藥研發(fā)在缺失值結(jié)轉(zhuǎn)方面普遍采用的是末次訪視結(jié)轉(zhuǎn)(last observation carried forward,LOCF)方法,并未根據(jù)缺失類(lèi)型采用有針對(duì)性的缺失值處理方法,更有甚者還將很多本不該剔除的缺失病例直接剔除出統(tǒng)計(jì)分析集。由于在缺失值問(wèn)題上的簡(jiǎn)單化處理或錯(cuò)誤處理,研究者無(wú)法借助于敏感性分析去充分評(píng)估研究結(jié)果的穩(wěn)健性和研究質(zhì)量的好壞?;趯?duì)缺失現(xiàn)象背后的真實(shí)數(shù)據(jù)的考慮,強(qiáng)調(diào)對(duì)缺失值的分析則顯得更有意義。本文擬探討不同缺失機(jī)制下,幾種常見(jiàn)的缺失類(lèi)型及相應(yīng)的缺失填補(bǔ)方法,以促進(jìn)臨床研究的發(fā)展。

        缺失類(lèi)型

        Little 和 Rubin〔2,3〕提出了缺失數(shù)據(jù)的分類(lèi)方法,根據(jù)其理論,缺失機(jī)制可分為以下三類(lèi)情況:

        1.完全隨機(jī)缺失(missing completely at random,MCAR)

        完全隨機(jī)缺失指的是觀察對(duì)象的數(shù)據(jù)缺失完全是由隨機(jī)因素造成的,獨(dú)立于已完成的和將來(lái)要進(jìn)行評(píng)價(jià)的結(jié)果,既不取決于已觀察到的數(shù)據(jù)也不取決于未被觀察到的數(shù)據(jù)。假設(shè)Y是一個(gè)沒(méi)有缺失值的n×k的矩形數(shù)據(jù)集,其中Yobs為觀測(cè)數(shù)據(jù),Ymis為缺失數(shù)據(jù);而M代表矩陣中有無(wú)缺失值,當(dāng)Yij缺失時(shí)則記為Mij=1,反之,記為Mij=0;φ是與數(shù)據(jù)集中任何變量均無(wú)關(guān)的參數(shù),那么可得出MCAR:f(M|Y,φ)=f(M|φ)。例如因?yàn)槭茉囌甙徇w而脫落、研究者未能評(píng)估或一些設(shè)計(jì)因素而出現(xiàn)缺失。

        只有當(dāng)缺失現(xiàn)象屬于MCAR時(shí),隨機(jī)選取具有完整數(shù)據(jù)的個(gè)體所組成的樣本便可認(rèn)為是從研究總體中得到的隨機(jī)樣本。因此,對(duì)MCAR的數(shù)據(jù)進(jìn)行刪除是不會(huì)產(chǎn)生偏倚的。

        盡管MCAR要求缺失現(xiàn)象與研究變量無(wú)關(guān),但是,研究變量同未被觀察數(shù)據(jù)間的間接關(guān)聯(lián)仍是有可能的。由于這種假設(shè)難以被證實(shí),因此進(jìn)行MCAR的假設(shè)有時(shí)會(huì)存在一定問(wèn)題。理論上說(shuō),如果一旦認(rèn)為缺失機(jī)制是MCAR時(shí),通??梢圆捎煤鲆曔@些非完整數(shù)據(jù)進(jìn)行處理。只要分析得當(dāng),這些缺失值是不會(huì)導(dǎo)致試驗(yàn)偏倚的出現(xiàn),僅對(duì)檢驗(yàn)效能有一定降低。需特別指出的是,在MCAR機(jī)制下缺失概率雖然與觀察結(jié)果無(wú)關(guān),但有可能與某些協(xié)變量有關(guān),尤其當(dāng)協(xié)變量矩陣中包含處理因素作時(shí),缺失概率可能會(huì)隨著不同的處理產(chǎn)生變化。

        2.隨機(jī)缺失(missing at random,MAR)

        MAR是最常見(jiàn)的缺失機(jī)制。觀察對(duì)象缺失的概率取決于已有的觀察結(jié)果,不取決于未觀察到的結(jié)果,MAR:f(M|Y,φ)=f(M|Yobs,φ)。例如在對(duì)一個(gè)降壓藥的臨床研究中,根據(jù)方案,當(dāng)受試者發(fā)現(xiàn)血壓控制并不理想(舒張壓太高)時(shí)決定退出研究,那么此時(shí)出現(xiàn)的缺失值就屬于MAR。

        在MAR情況下,僅使用具有完整數(shù)據(jù)的個(gè)體進(jìn)行分析會(huì)導(dǎo)致選擇性偏倚,因?yàn)檫@些個(gè)體所組成的樣本不是從研究總體中得到的隨機(jī)樣本。MAR一般可以從已觀察到的某些結(jié)果中分析出丟失原因并估算出缺失數(shù)據(jù)。這類(lèi)缺失值往往要求采用多重填補(bǔ)(multiple imputation,MI)的方法進(jìn)行敏感性分析(sensitivity analysis),以評(píng)估缺失值對(duì)結(jié)論的影響。

        3.非隨機(jī)缺失(missing not at random,MNAR)

        觀察對(duì)象的缺失概率與當(dāng)前尚未觀察到的結(jié)果有關(guān)。在極大似然法(maximum likelihood estimation,MLE)和貝葉斯(Bayesian)理論框架內(nèi),MNAR又被稱(chēng)為“不可忽略性”(non-ignorable)。因?yàn)檫@種缺失大都不是偶然因素造成的,比如疾病進(jìn)展太快或化療副作用太強(qiáng),病人沒(méi)有能力繼續(xù)接受隨訪。MNAR現(xiàn)象主要取決于缺失值本身,這類(lèi)情況往往需要通過(guò)建立復(fù)雜模型來(lái)合并缺失機(jī)制,MNAR:f(M|Y,φ)=f(M|Yobs,Ymis,φ)。例如乳房假體植入術(shù),當(dāng)患者滿(mǎn)意療效時(shí)便不再回訪;另外,在腫瘤臨床研究中,如果患者出現(xiàn)治療失敗也會(huì)脫落。

        Andrea B〔4〕認(rèn)為如果關(guān)于上述缺失原因的信息被納入缺失數(shù)據(jù)模型,那么缺失機(jī)制可能由MNAR向MAR甚至向MCAR轉(zhuǎn)變,因此要注意收集這類(lèi)信息。在模型中適當(dāng)?shù)卦黾舆@類(lèi)與缺失原因有關(guān)的變量可使MAR假設(shè)更可靠。

        由于實(shí)際操作中,既不能肯定缺失值和未被觀測(cè)的結(jié)局變量之間的相關(guān)性,也不能判斷缺失數(shù)據(jù)是否能從已測(cè)值中得到很好地預(yù)測(cè),因此不能確定是否應(yīng)將其視為MCAR還是MAR。另外,目前要想明確區(qū)分MAR和MNAR也很難實(shí)現(xiàn)。研究者只能對(duì)同一份有缺失數(shù)據(jù)的資料分別進(jìn)行MNAR和MAR的假設(shè),并在各自的假設(shè)下作數(shù)據(jù)分析,然后進(jìn)行敏感性分析,以比較所得結(jié)論是否與假設(shè)相應(yīng),敏感性越高則提示結(jié)論更穩(wěn)健〔5〕。

        缺失值的處理

        在臨床試驗(yàn)的設(shè)計(jì)和執(zhí)行過(guò)程中,首先應(yīng)盡量避免缺失值的出現(xiàn)。當(dāng)出現(xiàn)缺失值時(shí),一般有三種分析方法可加以處理:(1)忽視含有缺失值的觀察資料;(2)忽視那些出現(xiàn)頻繁缺失的變量;(3)用一些恰當(dāng)值去替代缺失數(shù)據(jù)〔6〕。

        1.忽視缺失值(ignore/disregard missing data)

        當(dāng)缺失值屬于MCAR時(shí)才可以忽視這些缺失值,否則會(huì)得到一個(gè)偏性結(jié)論。因?yàn)橥瓿膳R床研究的受試者并不能代表某些亞組人群,同時(shí)對(duì)不完整信息的丟棄會(huì)導(dǎo)致檢驗(yàn)效能的降低。例如 Karin M Vermeulen〔7〕在其肺移植生存質(zhì)量的研究中僅有19位患者的資料是完整的,缺失數(shù)據(jù)的產(chǎn)生和生存質(zhì)量的下降是相關(guān)的,其缺失機(jī)制可能是MAR或MNAR,而非MCAR,僅使用完整數(shù)據(jù)的個(gè)體會(huì)產(chǎn)生選擇性偏倚。

        忽視缺失值僅采用完整病例進(jìn)行分析,違背了ITT原則并可產(chǎn)生偏倚性結(jié)論,不推薦將其作為確證性試驗(yàn)的主要結(jié)果的缺失數(shù)據(jù)處理方法。可考慮在以下情況下使用〔1,8〕:(1)在探索性研究中,尤其是在藥物研發(fā)的初期階段;(2)在確證性試驗(yàn)中,作為次要結(jié)果的處理方法,用以支持性分析來(lái)說(shuō)明結(jié)論的穩(wěn)健性。

        2.數(shù)據(jù)填補(bǔ)(data imputation)

        為減少試驗(yàn)數(shù)據(jù)的缺失對(duì)試驗(yàn)評(píng)價(jià)的不良影響,除采取一些積極的預(yù)防性措施如研究中強(qiáng)調(diào)對(duì)主要變量的信息收集、增加樣本量以保證檢驗(yàn)效能外,還應(yīng)對(duì)缺失值進(jìn)行填補(bǔ),從某種程度上去彌補(bǔ)非完整數(shù)據(jù)的不足。通常在以下情況中應(yīng)該將數(shù)據(jù)填補(bǔ)作為處理缺失數(shù)據(jù)的策略:①相對(duì)小的缺失率(例如10% ~15%);②在臨床上或在生物學(xué)上,含有缺失值的變量對(duì)于所要研究的問(wèn)題都具有非常重要的意義;③有合理的假設(shè)和結(jié)轉(zhuǎn)技術(shù)策略,一般宜遵循保守的原則;④不同填補(bǔ)方式產(chǎn)生的結(jié)論需進(jìn)行敏感性分析〔6〕。

        (1)簡(jiǎn)單/單一填補(bǔ)(simple/single imputation)

        簡(jiǎn)單填補(bǔ)法是指就缺失值僅按某個(gè)填補(bǔ)方法結(jié)轉(zhuǎn)一次,但不足之處在于該方法通常會(huì)低估數(shù)據(jù)的變異性。使用最廣泛的簡(jiǎn)單填補(bǔ)法有末次訪視結(jié)轉(zhuǎn)和基線訪視結(jié)轉(zhuǎn),其他一些方法使用包括脫落前對(duì)同一研究對(duì)象收集的數(shù)據(jù)、源自其他具有類(lèi)似基線特征的研究對(duì)象的數(shù)據(jù)、一個(gè)經(jīng)驗(yàn)研發(fā)模型的預(yù)計(jì)值或歷史數(shù)據(jù)等用于結(jié)轉(zhuǎn)缺失值,如最差病例分析或最好病例分析,以及非條件均數(shù)/中位數(shù)、條件均數(shù)、隨機(jī)回歸和熱層法等經(jīng)驗(yàn)研發(fā)模型。其常用的方法如表1所示。

        (2)多重填補(bǔ)(multiple imputation,MI)

        MI是指通過(guò)隨機(jī)生成值去替代缺失值得到多個(gè)原始數(shù)據(jù)集拷貝,然后再對(duì)這些衍生數(shù)據(jù)集進(jìn)行分析。缺失數(shù)據(jù)多重填補(bǔ)過(guò)程涉及到貝葉斯理論、馬爾可夫鏈蒙特卡羅(MCMC)方法和數(shù)據(jù)增廣法(data augmentation,DA),其中DA是期望值最大化法則(expectation maximization,EM)算法的擴(kuò)展算法。

        MI假設(shè)的基礎(chǔ)在于數(shù)據(jù)缺失機(jī)制為非MNAR(主要為MAR),且數(shù)據(jù)滿(mǎn)足多元正態(tài)分布〔5〕。按照MAR假設(shè),在以Yobs為條件的基礎(chǔ)上,Ymis的缺失是隨機(jī)的,這樣,就可以從條件分布f(Yobs|Ymis)中產(chǎn)生填補(bǔ)值Y(1),Y(2),…,Y(k)。數(shù)據(jù)填補(bǔ)是MI統(tǒng)計(jì)分析中的關(guān)鍵一步,填補(bǔ)時(shí)一方面要考慮到填補(bǔ)的不確定性,同時(shí)還要考慮到所觀察的完整變量與缺失變量之間的相關(guān)性。對(duì)于每一個(gè)缺失數(shù)據(jù)填補(bǔ)k次,這k個(gè)數(shù)據(jù)按照某種要求進(jìn)行排列,這樣第一次用于填補(bǔ)缺失值的數(shù)據(jù)集就會(huì)產(chǎn)生第一個(gè)完整數(shù)據(jù)集,以此類(lèi)推,最終k次填補(bǔ)將會(huì)產(chǎn)生k個(gè)完整數(shù)據(jù)集。每一個(gè)經(jīng)填補(bǔ)后得到的完整數(shù)據(jù)集都將采用標(biāo)準(zhǔn)的完整數(shù)據(jù)分析過(guò)程進(jìn)行分析。通常,這些分析過(guò)程會(huì)忽略原數(shù)據(jù)集中觀測(cè)到與未觀測(cè)到的數(shù)據(jù)間的差別。在對(duì)每一個(gè)填補(bǔ)數(shù)據(jù)集分析得到的結(jié)果基礎(chǔ)上再進(jìn)行綜合,即產(chǎn)生最終的統(tǒng)計(jì)推論。

        在MI法過(guò)程中需注意:①M(fèi)I在合并結(jié)論時(shí)需遵循一定的原則,即要求大樣本的漸近性(asymptotic)以及要求填補(bǔ)方式和分析模型應(yīng)一致;②參數(shù)貝葉斯模擬技術(shù)(parametric Bayesian simulationmethods)主要取決于參數(shù)模型的正確形式;③應(yīng)基于事先確定好的方法進(jìn)行說(shuō)明;④即使分析模型是建立在似是而非的假設(shè)條件下,在這個(gè)錯(cuò)誤模型下所建立的MI法也不會(huì)對(duì)最終推論帶來(lái)災(zāi)難性的影響;⑤填補(bǔ)模型應(yīng)包括:a)分析中的關(guān)鍵變量,如結(jié)局和治療;b)對(duì)分析中的關(guān)鍵變量具有高度預(yù)測(cè)性的變量;c)對(duì)于缺失信息具有高度預(yù)測(cè)性的變量;d)反映研究設(shè)計(jì)特征的變量;⑥非MAR的情況須根據(jù)P(Ymis|Yobs,M)進(jìn)行填補(bǔ),模擬完整數(shù)據(jù)和缺失信息的聯(lián)合分布:a)選擇性模型:P(Y,M|X,θ,φ)=P(Y|X,θ)P(M|Y,X,φ);b)混合模式模型 (pattern-mixturemodel):P(Y,M|X,θ,φ)=P(M|X,φ)P(Y|M,X,θ);c)脆弱模型(frailty model):f(Y,M|X)=∫f(Y|X;β)f(M|X;β)dF(β|X)。

        表1 常用簡(jiǎn)單數(shù)據(jù)填補(bǔ)方法

        ①多重?zé)釋犹钛a(bǔ)法(multiple hot deck imputation)

        多重?zé)釋犹钛a(bǔ)法基于單一熱層填補(bǔ)法原則,用一組“近鄰”對(duì)缺失值進(jìn)行逐一替代。與冷層填補(bǔ)法類(lèi)似,要求資料必須有分類(lèi)、有完整數(shù)據(jù)以及預(yù)測(cè)變量。多重?zé)釋犹钛a(bǔ)法也使得所得的標(biāo)準(zhǔn)誤較單一填補(bǔ)法更大,更能反映數(shù)據(jù)的變異性。另外,在多重填補(bǔ)方法中,該方法的實(shí)現(xiàn)過(guò)程是相對(duì)簡(jiǎn)單的。

        ②趨勢(shì)得分法(propensity scoremethod,PSM)

        趨勢(shì)得分法是一種用于處理單調(diào)缺失(monotone m issing)的連續(xù)性變量數(shù)據(jù)的填補(bǔ)方法,通常被定義為對(duì)所給定的觀察到的協(xié)變量的一個(gè)向量進(jìn)行特殊處理后得到的條件概率。PSM方法最初是被用于對(duì)反應(yīng)變量進(jìn)行重復(fù)測(cè)量的隨機(jī)試驗(yàn)中,目的是為填補(bǔ)變量中的缺失值。但該方法只用到了與被填補(bǔ)變量值是否缺失相關(guān)的協(xié)變量信息,而未考慮變量間的相關(guān)。

        ③多重回歸填補(bǔ)法(multiple regression imputation)

        此法根據(jù)回歸方程“Y=β0+β1TRT+β2Site+ε”對(duì)缺失數(shù)據(jù)進(jìn)行多重填補(bǔ)。理想狀態(tài)下,每個(gè)缺失值Ymis應(yīng)在(Ymis|Yobs,θ)的預(yù)測(cè)分布中。恰當(dāng)?shù)腗 I應(yīng)該是:(a)在可被忽視的情況下,可從后驗(yàn)分布(posterior predictive distribution)中構(gòu)建 M I數(shù)據(jù)集,即根據(jù)Bayesian理論,可獲得給定觀測(cè)數(shù)據(jù)條件下缺失數(shù)據(jù)的后驗(yàn)概率。

        (b)M I往往需要迭代(iterative)以下兩個(gè)步驟:一是從P(θ|Yobs)中得到 θ(t);二是從P(Ymis|Yobs,θ(t))中得到Y(jié)mis(t)。(c)由于P(θ|Yobs)通常很難處理,一般需通過(guò)馬爾可夫鏈蒙特卡羅方法。

        ④ 數(shù)據(jù)擴(kuò)增法(data augmentation,DA)

        DA是期望值最大化(expectation maximization,EM)方法的一種衍生算法。事實(shí)上DA是從穩(wěn)定的后驗(yàn)分布中隨機(jī)抽取缺失值來(lái)創(chuàng)建M I數(shù)據(jù)集,DA與EM過(guò)程最大的區(qū)別在于:EM是直接從觀測(cè)數(shù)據(jù)中得到缺失值并估計(jì)最大參數(shù),這種方法計(jì)算的結(jié)果較精確而且唯一;而DA則反映了缺失數(shù)據(jù)的不確定性,它是在得到要估計(jì)或抽取數(shù)據(jù)的穩(wěn)定分布后,從中抽取所需估算數(shù)據(jù)的隨機(jī)樣本進(jìn)行模擬推斷;EM收斂是參數(shù)的收斂,而DA收斂是參數(shù)分布的收斂,其分布不再隨一次迭代到另一次迭代而改變,但隨機(jī)參數(shù)值本身在不斷的改變〔8〕。

        DA首先要基于一些初始猜測(cè)θ(0)。填補(bǔ)步:用t次循環(huán)得到的參數(shù)θ(t),可以從條件分布P(Ymis|Yobs,θ(t))中得到Y(jié)mis(t+1)。后驗(yàn)步:可從P(θ|Yobs,Ymis(t+1))中抽取θ(t+1)。然后重復(fù)“填補(bǔ)步”和“后驗(yàn)步”100 000 次便得到 θ(t) ~P(θ|Yobs,Ymis)和Ymis(t)~P(Ymis|Yobs,θ),由于產(chǎn)生了足夠長(zhǎng)的 Markov 鏈,若該鏈會(huì)聚于P(Ymis|Yobs,θ)分布時(shí),則可以認(rèn)為近似獨(dú)立地從該分布中抽取數(shù)值填補(bǔ)缺失值。

        以上四種缺失數(shù)據(jù)多重填補(bǔ)方法的替代步驟和特點(diǎn)如表2所示。

        表2 常用缺失數(shù)據(jù)多重填補(bǔ)方法

        敏感性分析

        敏感性分析(sensitivity analysis)是通過(guò)一系列分析來(lái)顯示采取不同方法處理缺失值對(duì)試驗(yàn)結(jié)果的影響,這將有助于證實(shí)所選特定方法的正確性,作為新藥評(píng)價(jià)過(guò)程中主要分析的附加支持。敏感性分析的實(shí)施方法應(yīng)在臨床方案和統(tǒng)計(jì)分析計(jì)劃中予以設(shè)計(jì)和說(shuō)明,任何調(diào)整必須在研究報(bào)告中加以說(shuō)明并證明其合理性。以下一些簡(jiǎn)單的方法可用于敏感性分析〔10〕:①比較全分析集和具有完整數(shù)據(jù)病例的分析結(jié)果。②比較不同模型條件下對(duì)結(jié)果的影響。③如果還未進(jìn)行主要分析,則應(yīng)充分利用取回的脫落數(shù)據(jù)。例如,如果一個(gè)患者退出研究后接受了其他治療,那么試驗(yàn)結(jié)束時(shí)主要終點(diǎn)出現(xiàn)的陽(yáng)性結(jié)果至少部分是由于這名患者的治療轉(zhuǎn)換所致。因此更保守地評(píng)估這個(gè)陽(yáng)性結(jié)果可以更客觀地看待新藥。④在應(yīng)答分析(responder analysis)中,分析應(yīng)采用將所有缺失值視為無(wú)效或因某種原因視為無(wú)效,如因不良事件脫落。⑤最差病例分析,為比較兩種分析結(jié)果,將對(duì)照組的缺失值用可能最好的結(jié)局進(jìn)行結(jié)轉(zhuǎn),而試驗(yàn)組用最差的結(jié)局進(jìn)行結(jié)轉(zhuǎn)。如果這種極端分析依然顯示研究結(jié)果未發(fā)生改變,那么就可以非??隙ǖ卣J(rèn)為所推論的這個(gè)結(jié)果在處理缺失值方面是穩(wěn)健的。

        如果敏感性分析的結(jié)果是恒定的,且能得到近似的治療效應(yīng)評(píng)價(jià),就能保證缺失信息對(duì)整個(gè)研究結(jié)論幾乎沒(méi)有或根本沒(méi)有任何影響,證實(shí)了結(jié)論的穩(wěn)健性。相反,如果敏感性分析的結(jié)果不一致,那么對(duì)試驗(yàn)結(jié)果的影響就必須進(jìn)行討論。在某些情況下,當(dāng)敏感性分析的結(jié)果表明缺失值可能影響試驗(yàn)結(jié)果時(shí),試驗(yàn)的有效性可能就會(huì)打一定折扣。

        討 論

        數(shù)據(jù)缺失在臨床研究的實(shí)施過(guò)程中是難以避免的,通過(guò)各種方式進(jìn)行數(shù)據(jù)填補(bǔ)可以在一定程度上盡量模擬其數(shù)據(jù)真實(shí)情況,但結(jié)果的好壞與數(shù)據(jù)本身有著很直接的關(guān)系,如果數(shù)據(jù)本身缺乏可信性,即使最完美的填補(bǔ)方法也無(wú)濟(jì)于事。

        如果缺失現(xiàn)象頻繁發(fā)生,即使這些缺失值不與結(jié)局終點(diǎn)相關(guān),但這個(gè)試驗(yàn)的外部有效性也會(huì)受到質(zhì)疑。有研究認(rèn)為〔11〕,在數(shù)據(jù)缺失率為10%以下時(shí),可選用簡(jiǎn)單填補(bǔ)法進(jìn)行填補(bǔ)。但也有研究認(rèn)為,當(dāng)數(shù)據(jù)缺失率<1%的時(shí)候,缺失數(shù)據(jù)的影響通常被認(rèn)為是微不足道的,可以直接刪除。當(dāng)數(shù)據(jù)缺失率在1% ~5%之間的時(shí)候,可以用樣本的均數(shù)(資料滿(mǎn)足正態(tài)分布)取代,或者用中位數(shù)(資料為偏態(tài)分布)取代,抑或用眾數(shù)(資料為二分類(lèi)數(shù)據(jù))取代。此時(shí),當(dāng)研究目的為多個(gè)總體比較的時(shí)候,通常是用各個(gè)總體的樣本統(tǒng)計(jì)量分別取代其缺失數(shù)據(jù)。而當(dāng)數(shù)據(jù)的缺失率達(dá)到或者超過(guò)了5%的時(shí)候,如果用同一個(gè)值去取代所有的缺失值,就會(huì)使得數(shù)據(jù)的方差變小,從而人為地夸大了統(tǒng)計(jì)分析結(jié)果的統(tǒng)計(jì)學(xué)意義。因此,當(dāng)數(shù)據(jù)缺失率在5%~15%之間的時(shí)候就需要用一些復(fù)雜精密的方法去處理。當(dāng)數(shù)據(jù)缺失率在15%~60%之間的時(shí)候,也可以使用不同的方法去處理,但缺失過(guò)多則反映了研究質(zhì)量的問(wèn)題;而當(dāng)數(shù)據(jù)缺失率>60%的時(shí)候,任何一種填補(bǔ)方法也愛(ài)莫能助〔11〕。在采用生存期、疾病復(fù)發(fā)或疾病進(jìn)展時(shí)間作為主要結(jié)局的臨床研究中,有經(jīng)驗(yàn)的研究者一般會(huì)將缺失數(shù)據(jù)控制在5%以?xún)?nèi)。

        在進(jìn)行數(shù)據(jù)填補(bǔ)時(shí),應(yīng)首先判斷缺失的類(lèi)型,根據(jù)不同的缺失原因采用不同的方法,必要時(shí)采取多種填補(bǔ)方法,并進(jìn)行敏感性分析以證實(shí)其可靠性。事實(shí)上,即使數(shù)據(jù)缺失在一個(gè)能處理的范圍內(nèi)時(shí),如果處理方式不恰當(dāng),也會(huì)造成分析結(jié)果的偏性或不能充分利用數(shù)據(jù)信息從而降低統(tǒng)計(jì)效率。

        簡(jiǎn)單填補(bǔ)法的優(yōu)點(diǎn)是簡(jiǎn)單、易操作,適合于缺失量很小的數(shù)據(jù)。缺點(diǎn)是導(dǎo)致標(biāo)準(zhǔn)誤的降低和P值的減小,使得犯Ⅰ類(lèi)錯(cuò)誤的概率升高,還有容易引起系統(tǒng)偏倚〔12〕。因此,用簡(jiǎn)單填補(bǔ)法計(jì)算出的治療效應(yīng)置信區(qū)間會(huì)失去它本來(lái)的真實(shí)性,從而得到一個(gè)狹窄的看似精確的置信區(qū)間。

        而MI目前已在國(guó)外許多領(lǐng)域得到廣泛應(yīng)用,其優(yōu)點(diǎn)主要在于〔13〕:①沿襲了一些簡(jiǎn)單填補(bǔ)法的優(yōu)點(diǎn),摒棄了其主要缺陷,使填補(bǔ)的缺失數(shù)據(jù)能夠接近“真實(shí)”。②對(duì)于同一資料,更換一個(gè)新的分析過(guò)程不需要重新填補(bǔ)缺失值。③因其考慮了缺失數(shù)據(jù)的不確定性,對(duì)標(biāo)準(zhǔn)誤的估計(jì)以及統(tǒng)計(jì)推論通常比較準(zhǔn)確。④填補(bǔ)效率較高。但是,與簡(jiǎn)單填補(bǔ)法相比,MI相對(duì)比較復(fù)雜,運(yùn)行程序所需空間較大,要求數(shù)據(jù)呈MAR,MCMC模型還要求數(shù)據(jù)呈多元正態(tài)分布,盡管這一假設(shè)并不十分嚴(yán)格,但在一定程度上會(huì)使其應(yīng)用受限。此外,當(dāng)樣本量足夠大時(shí),直接采用極大似然法(maximum likelihood estimation,MLE)可得到與MI幾乎相同的結(jié)果,而MLE不需依賴(lài)模型的反復(fù)模擬過(guò)程,因此在某種程度上顯得比MI略有優(yōu)勢(shì),但這類(lèi)方法往往需要專(zhuān)門(mén)軟件,而且只能解決某些特殊的問(wèn)題。相比之下,MI能夠解決有缺失數(shù)據(jù)資料中相對(duì)普遍的問(wèn)題,尤其當(dāng)數(shù)據(jù)呈任意缺失模式時(shí),可以運(yùn)用MCMC模型來(lái)處理復(fù)雜的數(shù)據(jù)缺失問(wèn)題,提高統(tǒng)計(jì)效率。

        綜上,臨床研究過(guò)程中應(yīng)高度關(guān)注出現(xiàn)的缺失現(xiàn)象及其產(chǎn)生原因,研究方案和統(tǒng)計(jì)分析計(jì)劃應(yīng)該事先確定好分析集人群和缺失值的處理方法等,保證臨床試驗(yàn)結(jié)果的可靠、可信。

        志謝:本文工作期間得到美國(guó)前國(guó)家食品藥品監(jiān)督管理局藥品評(píng)價(jià)與研究中心(CDER,F(xiàn)DA)生物統(tǒng)計(jì)學(xué)會(huì)主席、生物統(tǒng)計(jì)審評(píng)組負(fù)責(zé)人李寧博士(現(xiàn)賽諾菲-安萬(wàn)特中國(guó)公司藥政及醫(yī)學(xué)政策高級(jí)總監(jiān))和第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室賀佳教授的指導(dǎo),在此深表感謝。

        1.EMEA.Points To Consider On Missing Data.Available online at:http://www.emea.europa.eu/pdfs/human/ewp/177699EN.pdf

        2.Little Roderick JA,Rubin Jeffrey.Statistical Analysis with M issing Data.New York:John W iley & Sons,1987.

        3.Little Roderick JA,Rubin Jeffrey.Statistical analysis withm is sing data.2nd ed.Hoboken,NJ:Jonn Wiley&Sons,2002.

        4.Troxel AB,F(xiàn)airclough D,Curran D,et al.Statistical analysis of quality of life with m issing data in cancer clinical trials.Statistics in Medicine,1998,17:653-666.

        5.胡運(yùn)淘,曹袁媛,章詩(shī)琪,等.生存質(zhì)量資料中缺失值的內(nèi)在機(jī)制及處理措施.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(6):661-664.

        6.Steven Piantadosi.Clinical Trials-A Methodologic Perspective(2nd edition).Hoboken,NJ:John Wiley & Sons,2005:398-400.

        7.Vermeulen KM,Post WJ,Span M M,et al.lncomplete quality of life data in lung transplant research:comparing cross sectional,repeated measures ANOVA,and multilevel analysis.Res piratorv Research,2005,6(1):101-111.

        8.EMEA.Guideline on M issing data inconfirmatory clinical trials.Available online at:http://www.emea.europa.eu/pdfs/human/ewp/177699endraft.pdf.

        9.岳勇,田考聰.數(shù)據(jù)缺失及其填補(bǔ)方法綜述.預(yù)防醫(yī)學(xué)情報(bào)雜志,2005,21(6):683-685.

        10.馮志蘭,劉桂芳,劉力生,等.缺失數(shù)據(jù)的多重估算.中國(guó)衛(wèi)生統(tǒng)計(jì),2005,22(5):274-277.

        11.Barzi Federica,Woodward,Mark.Imputation ofmissing values in practice:results from imputations of serum cholesterol in 28 cohort studies.American Journal of Epidemiology,2004,160(1):34-35.

        12.武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果.第二軍醫(yī)大學(xué)學(xué)報(bào),2004,25(9):1013-1016.

        13.茅群霞,李曉松.多重填補(bǔ)法Markov Chain Monte Carlo模型在有缺失值的婦幼衛(wèi)生縱向數(shù)據(jù)中的應(yīng)用.四川大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2005,36(3):422-425.

        ·綜述·

        猜你喜歡
        分析方法模型
        一半模型
        隱蔽失效適航要求符合性驗(yàn)證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲熟妇夜夜一区二区三区| 国产白浆一区二区三区性色| 狂野欧美性猛xxxx乱大交| 国产在线精品欧美日韩电影| 日韩精品国产自在欧美| 日韩中文字幕精品免费一区| 人妻少妇喷水意淫诱惑| 日本一二三区在线视频观看| 成人日韩精品人妻久久一区| √天堂中文官网在线| 国产成人av 综合 亚洲| 天天综合久久| 黄片午夜免费观看视频国产| 精品国产a毛片久久久av| 夜晚黄色福利国产精品| 国产精品天干天干综合网| 狼人香蕉香蕉在线28 - 百度 | 大伊香蕉在线精品视频75| 欧美中出在线| 国产青春草在线观看视频| 亚洲综合视频一区二区| 7777色鬼xxxx欧美色妇| 桃花色综合影院| 免费的毛片视频| 免费观看在线视频一区| 久久成人永久婷婷99精品| 亚洲中文字幕精品乱码2021| 免费观看的av毛片的网站| 国产av成人精品播放| 一区二区三区婷婷中文字幕| 免费播放成人大片视频| 无码人妻精品一区二区三区蜜桃| 亚洲av日韩av天堂一区二区三区| 日日摸夜夜添夜夜添一区二区 | 日韩精品一区二区三区含羞含羞草| 日韩a级精品一区二区| 国产一女三男3p免费视频 | 精品少妇一区二区三区入口| 青青草 视频在线观看| 18禁裸男晨勃露j毛免费观看| 白丝美女被狂躁免费视频网站 |