亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

圖模型方法用于二值變量相關(guān)性分析中缺失數(shù)據(jù)的估計(jì)*

2012-03-11 14:02:12楊金英崔朝杰

中國衛(wèi)生統(tǒng)計(jì) 2012年5期

楊金英崔朝杰

在社會(huì)調(diào)查、經(jīng)濟(jì)研究和醫(yī)學(xué)試驗(yàn)中，人們會(huì)經(jīng)常遇到缺失數(shù)據(jù)的情況，如何對缺失數(shù)據(jù)進(jìn)行補(bǔ)值，長久以來備受統(tǒng)計(jì)界關(guān)注。本文將通過建立圖模型對含有缺失數(shù)據(jù)的兩值戒煙訓(xùn)練數(shù)據(jù)進(jìn)行分析。

文獻(xiàn)〔1〕分析了醫(yī)學(xué)上對吸煙者采取不同的戒煙措施的效果，對缺失數(shù)據(jù)提出了三種補(bǔ)值方法，并利用優(yōu)比(OR)值進(jìn)行了敏感性分析。

這項(xiàng)研究中共有489名吸煙志愿者自愿參加，共進(jìn)行了四次觀測(干預(yù)后，6個(gè)月后，12個(gè)月后，24個(gè)月后)。參加試驗(yàn)的個(gè)體隨機(jī)分為三個(gè)組:對照組，社會(huì)支持Ⅰ組和社會(huì)支持Ⅱ組。然而被隨機(jī)分到社會(huì)支持Ⅰ組和社會(huì)支持Ⅱ組中的個(gè)體，試驗(yàn)后期電話通知他們聚會(huì)，大約有一半從來沒有出現(xiàn)過，這就導(dǎo)致了數(shù)據(jù)缺失。把社會(huì)支持Ⅰ組和社會(huì)支持Ⅱ合并為一組，統(tǒng)稱為處理組。對缺失數(shù)據(jù)提出了三種補(bǔ)值方法(missing=smoking，last observation carried forward(LOCF)，a little multiple imputation)。主要分析了兩個(gè)時(shí)刻的觀測數(shù)據(jù)，即干預(yù)后的觀察時(shí)刻(時(shí)刻1)，24個(gè)月后的觀察時(shí)刻(時(shí)刻2)。為了使數(shù)據(jù)表述方便，我們引入下面的記號:

(t=1，2)，用以上記號可將在時(shí)刻2響應(yīng)，時(shí)刻1、時(shí)刻2都吸煙且處于處理組的試驗(yàn)個(gè)體頻數(shù)表示為nR2Y1Y2X=n1111，其他情況可類似表示。這樣試驗(yàn)數(shù)據(jù)可匯總在表1中。

表1 數(shù)據(jù)匯總情況表

針對時(shí)刻2的缺失數(shù)據(jù)，用前述三種補(bǔ)值辦法，并就優(yōu)比(OR)的不同取值進(jìn)行敏感性分析，結(jié)果如表2所示。

表2 Group by smoke analyses under different missing data assumptions

這里

表示吸煙與分組處理之間關(guān)系的強(qiáng)弱，OR越大相關(guān)關(guān)系越強(qiáng)。Marginal為所有個(gè)體時(shí)刻2的邊緣分布，Stratified1為考慮時(shí)刻1的分層分布(LOCF補(bǔ)值)，Stratified2為考慮時(shí)刻2的分層分布(a little multiple imputation)。

由于數(shù)據(jù)缺失比例較大，23.93%幾乎為個(gè)體數(shù)目的四分之一，從上述分析可以看出統(tǒng)計(jì)分析結(jié)果受到缺失數(shù)據(jù)補(bǔ)值方法的影響很大，所以補(bǔ)值方法的好壞直接影響著統(tǒng)計(jì)分析結(jié)果的可信度。

在文獻(xiàn)〔1〕提出的三種補(bǔ)值辦法中，方法1(Missing=Smoking)是比較冒進(jìn)的、理想化的處理辦法，認(rèn)定缺失的個(gè)體更有可能吸煙，而且吸煙會(huì)導(dǎo)致個(gè)體缺失，顯然這種方法對處理組明顯有利。而方法2(LOCF)認(rèn)為丟失時(shí)刻的吸煙狀態(tài)與最后觀測時(shí)刻的吸煙狀態(tài)一致，這種假設(shè)也是不符合情理的。上述兩種方法都會(huì)導(dǎo)致數(shù)據(jù)分析結(jié)果是有偏的。文獻(xiàn)〔1〕通過設(shè)定不同的OR值進(jìn)行了敏感性分析，但是該文作者沒有指出OR在這項(xiàng)研究中到底取何值最為合適。

針對文獻(xiàn)〔1〕提出的補(bǔ)值方法及研究結(jié)果，我們所關(guān)心的問題是(1)缺失的個(gè)體吸煙的可能性是否更大?(2)時(shí)刻1和時(shí)刻2的吸煙狀況是否相關(guān)?(3)戒煙效果是否和個(gè)體所在的組(處理組或?qū)φ战M)相關(guān)?針對以上問題，本文對含有缺失數(shù)據(jù)的兩值吸煙數(shù)據(jù)再次進(jìn)行分析，具體方法是:首先對數(shù)據(jù)缺失機(jī)制建立了三個(gè)圖模型，討論其可識別性之后，又確定了三個(gè)圖模型完全數(shù)據(jù)的聯(lián)合密度函數(shù);其次用EM算法對缺失數(shù)據(jù)進(jìn)行補(bǔ)值，對參數(shù)進(jìn)行估計(jì);最后利用補(bǔ)值前后的數(shù)據(jù)評估考察缺失與吸煙的關(guān)系、時(shí)刻1與時(shí)刻2吸煙狀況的關(guān)系、戒煙效果與個(gè)體所在組之間的關(guān)系。

對缺失數(shù)據(jù)機(jī)制建立圖模型

假設(shè)不考慮時(shí)刻1的吸煙狀況，只考慮分組、時(shí)刻2是否響應(yīng)及其是否吸煙之間的關(guān)系，則可建立圖(1)、圖(2)所示的兩種圖模型:

在圖(1)中，個(gè)體響應(yīng)與否依賴于其是否吸煙，并且給定吸煙狀態(tài)后，個(gè)體響應(yīng)與否與分組無關(guān)，則變量X、Y2、R2的聯(lián)合分布為 P(R2，Y2，X)=P(R2|Y2)P(Y2|X)P(X)或 P(R2|Y2)P(X|Y2)P(Y2)。

假設(shè)現(xiàn)在我們考慮時(shí)刻1的吸煙狀態(tài)，因?yàn)樵跁r(shí)刻1時(shí)所有個(gè)體都是可觀測的，個(gè)體在此時(shí)刻響應(yīng)與否不依賴于Y1的取值，則Y1與響應(yīng)示性變量R1中間沒有邊。而在時(shí)刻2，個(gè)體響應(yīng)與否僅依賴于Y2的取值，可建立圖模型(3)，則針對圖模型(3)，變量Y1、Y2、R1、R2的聯(lián)合分布 P(Y1，Y2，R1，R2)=P(Y2|Y1)P(R2|Y2)P(Y1)P(R1)

由文獻(xiàn)〔2〕中的引理1易證圖模型(1)、(2)、(3)均是可識別的，此處就不詳細(xì)討論了。

下面針對三個(gè)圖模型來確定完全數(shù)據(jù)的聯(lián)合密度函數(shù)，三個(gè)圖模型中參數(shù)的設(shè)定見表4。

在圖模型(1)、(2)中，假設(shè)完全數(shù)據(jù)頻數(shù)nijk服從參數(shù)為(n;P(R2=i，Y2=j，X=k))的多項(xiàng)分布，觀測頻數(shù)記為:

則完全數(shù)據(jù)的聯(lián)合概率密度函數(shù)為

在圖模型(3)中，假設(shè)完全數(shù)據(jù)頻數(shù)nijk服從參數(shù)為(n;P(R2=i，Y1=j，Y2=k))的多項(xiàng)分布，觀測頻數(shù)記為:

為潛在的缺失數(shù)據(jù)。

為處理組中可觀測數(shù)據(jù)。

為對照組中可觀測數(shù)據(jù)。

則處理組、對照組完全數(shù)據(jù)的聯(lián)合概率密度函數(shù)分別為

表3 缺失數(shù)據(jù)的估計(jì)值

用EM算法進(jìn)行補(bǔ)值和參數(shù)估計(jì)

EM算法是對缺失數(shù)據(jù)補(bǔ)值、參數(shù)估計(jì)的一種強(qiáng)有利的工具〔3－5〕。針對三個(gè)圖模型，我們通過SAS語言編程用EM算法迭代直至設(shè)定的精度后，對缺失數(shù)據(jù) x1、x2、x3、x4進(jìn)行補(bǔ)值結(jié)果如表3 所示，參數(shù) αi(i=1，2，…，k)估計(jì)結(jié)果如表4 所示。

表4 參數(shù)的估計(jì)值

結(jié)果分析

導(dǎo)致數(shù)據(jù)缺失可能和處理有關(guān)，也可能和當(dāng)時(shí)的吸煙狀態(tài)有關(guān)，下面我們就來探討數(shù)據(jù)缺失與哪個(gè)因素相關(guān)。

首先針對時(shí)刻2響應(yīng)與否與分組的二維聯(lián)列聯(lián)表:

=0處理組X觀測R2=1 缺失R2=1 156 34對照組X =0 216 83

通過列聯(lián)表獨(dú)立性檢驗(yàn)，計(jì)算得χ2=6.8218，P=0.0127，拒絕缺失和分組是獨(dú)立的，說明在不同的組中數(shù)據(jù)缺失的頻率是不同的，對照組的缺失頻率27.76%高于處理組的缺失頻率17.89%，顯然對照組的個(gè)體更易于缺失。

其次，我們根據(jù)補(bǔ)值后的數(shù)據(jù)來看吸煙與缺失的二維列聯(lián)表:

294 23.65不吸煙Y2=0=0吸煙Y 2=1觀測R2=1 缺失R2 78 83

通過列聯(lián)表獨(dú)立性檢驗(yàn)，計(jì)算得χ2=122.3，P＜0.001，拒絕缺失和吸煙是獨(dú)立的，且吸煙個(gè)體缺失的頻率7.45%低于不吸煙個(gè)體缺失頻率51.55%，這說明多數(shù)的吸煙者還是愿意參加戒煙訓(xùn)練，渴望戒掉煙癮的。

接下來，我們討論分組的影響。

在時(shí)刻1，所有的個(gè)體吸煙狀態(tài)都可以觀測得到，數(shù)據(jù)沒有丟失，此時(shí)我們考察分組與吸煙狀態(tài)的獨(dú)立性，得到二維列聯(lián)表如下:

110 229不吸煙Y2=0=0吸煙Y 2=1處理組X=1 對照組X 80 70

通過列聯(lián)表的獨(dú)立性檢驗(yàn)，計(jì)算得χ2=18.288，P＜0.001，所以在初次干預(yù)后，拒絕分組和吸煙狀態(tài)是獨(dú)立的。在初次干預(yù)之后處于對照組的吸煙個(gè)體頻率76.59%要高于處理組中的吸煙個(gè)體頻率57.89%，說明初次干預(yù)效果顯著。

在試驗(yàn)即將結(jié)束時(shí)(也就是在24個(gè)月后)，由于一部分個(gè)體沒有參加聚會(huì)，此時(shí)我們得不到那些個(gè)體是否吸煙的信息，從而導(dǎo)致數(shù)據(jù)的缺失。首先在可以觀測到的372個(gè)個(gè)體中，僅用不完全數(shù)據(jù)來分析，得到的分組與吸煙狀態(tài)的二維列聯(lián)表如下:

118 176不吸煙Y 2=0=0吸煙Y2=1處理組X=1 對照組X 38 40

通過列聯(lián)表的獨(dú)立性檢驗(yàn)，χ2=1.9506，P=0.1721，檢驗(yàn)結(jié)果無統(tǒng)計(jì)學(xué)意義，此時(shí)我們不能拒絕吸煙和分組是獨(dú)立這一假設(shè)。

把缺失個(gè)體通過EM算法補(bǔ)值的數(shù)據(jù)加上，得到的分組與吸煙狀態(tài)的二維列聯(lián)表如下:

131.95 197.202不吸煙Y 2=0=0吸煙Y2=1處理組X=1 對照組X 58.05 101.789

通過列聯(lián)表的獨(dú)立性檢驗(yàn)，χ2=0.6456，P=0.415，同樣不能拒絕分組和吸煙是獨(dú)立的假設(shè)。

如果我們在t1時(shí)刻分層，加上個(gè)體在時(shí)刻1是否吸煙的信息，再次觀察個(gè)體在不同分組情況下戒煙率是否是有區(qū)別，根據(jù)模型(3)中參數(shù)估計(jì)和補(bǔ)值后的缺失數(shù)據(jù)，我們得到下列二維列聯(lián)表:

如果個(gè)體在初次干預(yù)后是不吸煙的:

Y1=1處理組X=0不吸煙Y2=0 吸煙Y2=1 35.102 44.898對照組X =0 27.094 42.906

通過列聯(lián)表的獨(dú)立性檢驗(yàn)，χ2=1.2389，P=0.5213，檢驗(yàn)結(jié)果無統(tǒng)計(jì)學(xué)意義。

如果個(gè)體在初次干預(yù)后仍然吸煙:

Y1=1處理組X=1不吸煙Y2=0 吸煙Y2=1 22.948 87.052對照組X =0 74.704 154.296

通過列聯(lián)表的獨(dú)立性檢驗(yàn)，χ2=1.8115，P=0.025，檢驗(yàn)結(jié)果有統(tǒng)計(jì)學(xué)意義。

由以上分析我們得到了一個(gè)非常有趣的結(jié)果，就是如果不考慮初次干預(yù)后是否吸煙，則分組效果是不顯著的;如果個(gè)體在初次干預(yù)后就不吸煙了，那么再進(jìn)行干預(yù)也就失去了意義，當(dāng)然分組效果是不顯著的。但是如果個(gè)體在初次干預(yù)后仍然吸煙，則時(shí)刻2是否吸煙受到分組的影響，而且處理組的吸煙率高于對照組，這說明初次干預(yù)沒有戒掉煙癮的吸煙者，對于后面的多次干預(yù)是沒有顯著效果的，從長期來看，反倒是對照組中依靠自我控制來戒煙的效果更明顯。

綜合上述分析我們得到的結(jié)論是:

第一，缺失與分組有關(guān)，位于對照組的個(gè)體缺失的比例更大，缺失個(gè)體吸煙的可能性低于可觀測到個(gè)體，這說明多數(shù)缺失的個(gè)體已戒除煙癮，不需要繼續(xù)參加戒煙訓(xùn)練，同時(shí)說明文獻(xiàn)〔1〕中missing=smoking的補(bǔ)值方法是不合理的;

第二，在時(shí)刻1干預(yù)效果顯著，吸煙與分組有關(guān)，處理組的戒煙率高于對照組;如果不考慮初次干預(yù)后個(gè)體吸煙的狀態(tài)，則無論是對有缺失數(shù)據(jù)的情況，還是對于通過EM算法補(bǔ)值后得到完全數(shù)據(jù)的情況，戒煙效果與個(gè)體所在組無關(guān);

第三，如果初次干預(yù)后個(gè)體不吸煙了，則在24個(gè)月后，個(gè)體是否吸煙也與所在組無關(guān);

第四，如果初次干預(yù)后個(gè)體仍然吸煙，則在24個(gè)月后，個(gè)體是否吸煙與所在組有關(guān)，處理組的戒煙方法沒有明顯的效果。

回到試驗(yàn)背景，我們看到初次干預(yù)結(jié)果是非常重要的，通過自我控制來戒煙的方式從長期來看是更加有效的。這也為今后的戒煙訓(xùn)練工作提供了一個(gè)理論指導(dǎo)。

本文的結(jié)論更符合實(shí)際背景，這在一定程度上說明本文所建立的圖模型是合理的。與文獻(xiàn)〔1〕相比，本文的補(bǔ)值方法可信度更高，可用于分析其他含有缺失數(shù)據(jù)的兩值數(shù)據(jù)，本文得到的結(jié)論對戒煙訓(xùn)練工作更有參考價(jià)值。

1．Hedeker D，Robin J，Demirtas H．Analysis of binary outcomes with missing data:missing=smoking，last observation carried forward，and a little multiple imputation．Society for the Study of Addiction，2007，102:1564-1573．

2．Ma WQ，Geng Z，Hu YH．Identification of graphical models for nonignorable nonresponse of binary outcome in longitudinal studies．Journal of Multivariate Analysis，2003，87:24-45．

3．Little RJA，Rubin DR．Statistical analysis with missing data．New York:Wiley，1987．

4．Dempster AP，Laird NM，Rubin DB．Maximum likelihood from incomplete data via the EM algorithm．Journal of the Royal Statistical Society，Series B，1977，39:1-38．

5．趙志文，王思洋，王瑞庭，等．定時(shí)截尾下具有部分缺失數(shù)據(jù)兩個(gè)指數(shù)總體參數(shù)估計(jì)與檢驗(yàn)．吉林大學(xué)學(xué)報(bào)(理學(xué)版)，2009，47(1):26-30．