馬 薔,尚來(lái)旭,張冬陽(yáng),單 娜
(長(zhǎng)春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長(zhǎng)春 130012)
?
協(xié)變量缺失下基于結(jié)構(gòu)EM算法因果網(wǎng)模型選擇
馬薔,尚來(lái)旭,張冬陽(yáng),單娜*
(長(zhǎng)春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長(zhǎng)春130012)
針對(duì)NSCOT數(shù)據(jù),選用了結(jié)構(gòu)EM算法對(duì)模型進(jìn)行選擇。經(jīng)過具體的計(jì)算和分析得到結(jié)論,一個(gè)人的身體素質(zhì)和運(yùn)送到醫(yī)院的時(shí)間都會(huì)對(duì)患者的生存產(chǎn)生直接的影響,而受傷的嚴(yán)重程度只對(duì)患者的生存產(chǎn)生間接的影響。
協(xié)變量缺失; 結(jié)構(gòu)EM算法; 模型選擇
運(yùn)用NSCOT(TheNationalStudyonCostsandOutcomesofTrauma,NSCOT)數(shù)據(jù)[1]進(jìn)行協(xié)變量缺失下因果網(wǎng)模型選擇的研究,NSCOT是美國(guó)國(guó)內(nèi)醫(yī)療花費(fèi)和創(chuàng)傷治療結(jié)果研究的相應(yīng)的數(shù)據(jù)。這個(gè)研究主要是為了得到關(guān)于創(chuàng)傷中心更好的信息,其針對(duì)5 000名18~84歲,來(lái)自12個(gè)州69家醫(yī)院的創(chuàng)傷病人,通過對(duì)其醫(yī)療花費(fèi)和治療結(jié)果的研究達(dá)到相應(yīng)目的。近年來(lái),很多國(guó)內(nèi)外的學(xué)者都對(duì)這個(gè)數(shù)據(jù)進(jìn)行了不同方面的研究。Frangakis[2]等利用主分層設(shè)計(jì)對(duì)NSCOT的數(shù)據(jù)進(jìn)行了研究,其得出結(jié)論:對(duì)于身體狀況不好的人來(lái)說(shuō),一個(gè)有效的治療是非常重要的。Egleston[3]等對(duì)由于死亡使重要混雜缺失情況下的生存者平均因果效應(yīng)進(jìn)行了研究。通過對(duì)NSCOT進(jìn)行分析,證明了生存者平均因果效應(yīng)的估計(jì)都要比通常的回歸好,同時(shí)無(wú)論是否被分配治療,有創(chuàng)傷中心的醫(yī)療機(jī)構(gòu)的生存率都要高于無(wú)創(chuàng)傷中心的醫(yī)療機(jī)構(gòu)的生存率。Wang[4]等利用NSCOT數(shù)據(jù)對(duì)5個(gè)不同的估計(jì)量進(jìn)行了比較,其認(rèn)為在沒有創(chuàng)傷中心的醫(yī)療機(jī)構(gòu)的死亡率近似為有創(chuàng)傷中心的醫(yī)療機(jī)構(gòu)的死亡率的兩倍。Yan[5]等在文獻(xiàn)[2]研究的基礎(chǔ)上進(jìn)行了改進(jìn),放寬了原有的假設(shè),對(duì)NSCOT數(shù)據(jù)進(jìn)行了研究,得到了因果效應(yīng)的邊界,對(duì)于身體狀況差的人來(lái)說(shuō),一個(gè)有效的處理是更好的。雖然有很多人針對(duì)這個(gè)數(shù)據(jù)進(jìn)行了分析,并且或多或少地解釋了其中所暗含的一些因果關(guān)系,但是并沒有闡明各個(gè)變量間的因果結(jié)構(gòu)關(guān)系,而文中將主要研究NSCOT數(shù)據(jù)的因果網(wǎng)模型選擇問題。由于所給出的數(shù)據(jù)是帶有缺失的,所以,我們不能用一般的方法進(jìn)行模型選擇。通常來(lái)說(shuō)處理缺失數(shù)據(jù)的方法有均值插補(bǔ)、多重插補(bǔ)等,但是補(bǔ)值的方法會(huì)影響變量間的相互關(guān)系,對(duì)不完全的信息進(jìn)行插補(bǔ)的時(shí)候,或許會(huì)改變其原始數(shù)據(jù)的信息系統(tǒng),從而對(duì)以后的分析存在潛在的影響,所以,文中利用結(jié)構(gòu)EM(structuralEM)算法[6]對(duì)模型進(jìn)行選擇。結(jié)構(gòu)EM算法選擇模型結(jié)構(gòu)依賴于懲罰似然評(píng)分,文中提到的評(píng)分函數(shù)是BIC評(píng)分。
文中所用數(shù)據(jù)如下:
A代表身體素質(zhì),A=1代表身體素質(zhì)不好,A=0代表身體素質(zhì)良好;
Z代表處理,即從案發(fā)地送到醫(yī)院的時(shí)間,Z=1代表運(yùn)送時(shí)間<10min,Z=0代表運(yùn)送時(shí)間≥10min;
X代表受傷的嚴(yán)重程度,X=1代表傷勢(shì)輕微,X=0代表傷勢(shì)嚴(yán)重;
S代表生存狀態(tài),S=1代表生存,S=0代表死亡。
由數(shù)據(jù)的產(chǎn)生背景可以認(rèn)為變量的順序?yàn)锳,X,Z,S。對(duì)變量進(jìn)行因果關(guān)系建模時(shí),其基本模型如圖1所示。
圖1 基本模型
圖中,虛線表示該邊可能存在,也可能不存在。
最簡(jiǎn)單的模型如圖2所示。
圖2 零模型
此時(shí)各變量之間都無(wú)因果關(guān)系。
而最復(fù)雜的模型如圖3所示。
圖3 全模型
此時(shí)各個(gè)可能的因果關(guān)系都存在。
所有的可能模型共有26=64種。對(duì)于圖3中的全模型,(A,X,Z,S)的聯(lián)合概率分布函數(shù)表示如下:
其中
對(duì)于其他模型下,(A,X,Z,S)的聯(lián)合概率分布函數(shù)基于模型結(jié)構(gòu)有類似的分解。
結(jié)構(gòu)EM算法是由EM算法演化而來(lái)的,在其步驟的實(shí)現(xiàn)過程中與EM算法有很大的相似性。基本步驟如下:
在這個(gè)過程中,有兩點(diǎn)需要注意。首先,在EM算法中,根據(jù)填補(bǔ)后的完整數(shù)據(jù)Dt對(duì)參數(shù)進(jìn)行一步優(yōu)化就可以得到此時(shí)的最優(yōu)的參數(shù)。但是在結(jié)構(gòu)EM算法中,根據(jù)Dt進(jìn)行一步優(yōu)化不一定得到此時(shí)的最優(yōu)模型。其次,由于固定模型結(jié)構(gòu)進(jìn)行一步參數(shù)優(yōu)化比進(jìn)行一步結(jié)構(gòu)優(yōu)化要簡(jiǎn)單,所以,結(jié)構(gòu)EM算法并不是每次迭代都同時(shí)進(jìn)行結(jié)構(gòu)和參數(shù)的優(yōu)化,而是在使模型結(jié)構(gòu)不變的情況下,經(jīng)過參數(shù)優(yōu)化后再對(duì)結(jié)構(gòu)和參數(shù)同時(shí)優(yōu)化。
NSCOT主要是關(guān)于5 000名18~84歲,來(lái)自12個(gè)州69家醫(yī)院的創(chuàng)傷病人的數(shù)據(jù)。我們將采用文獻(xiàn)[5]所使用的部分?jǐn)?shù)據(jù),見表1。
在得到似然函數(shù)期望的條件下,利用R軟件[7]對(duì)其參數(shù)進(jìn)行估計(jì),并計(jì)算其BIC的值。經(jīng)過多次估計(jì)和比較,再選取BIC值最小的模型作為該問題的最優(yōu)模型,此時(shí)各參數(shù)的估計(jì)值和模型見表2和圖4所示。
表1 NSCOT數(shù)據(jù)整理結(jié)果
注:“-”代表缺失的協(xié)變量觀測(cè)值。
表2 最優(yōu)模型下的參數(shù)估計(jì)值
圖4 最優(yōu)模型
從數(shù)據(jù)中可以發(fā)現(xiàn),送往醫(yī)院的時(shí)間Z與生存狀況S是有直接關(guān)系的。當(dāng)及時(shí)送達(dá)醫(yī)院時(shí),患者是不會(huì)死亡的,而送達(dá)醫(yī)院的時(shí)間>10 min時(shí),病人一定會(huì)死亡。這在最優(yōu)的因果網(wǎng)模型中體現(xiàn)為Z對(duì)S有直接的影響。同時(shí),在最優(yōu)的因果圖中可以看出,一個(gè)人的身體素質(zhì)A是非常重要的。當(dāng)一個(gè)人的身體素質(zhì)不好時(shí),即使不是非常嚴(yán)重的傷勢(shì)也會(huì)使其死亡;相反,當(dāng)一個(gè)人擁有好的身體素質(zhì),即使傷勢(shì)嚴(yán)重也可能存活。在現(xiàn)實(shí)生活中,一個(gè)人的身體素質(zhì)可以表現(xiàn)性別、工作和身體外部狀態(tài)等多個(gè)方面,一般情況下,年輕且身體強(qiáng)壯的男性在受傷的情況下存活的概率自然會(huì)大一些,這個(gè)常識(shí)與我們所得到的因果圖也是吻合的。同時(shí),在因果圖中可以看出,一個(gè)人的身體素質(zhì)和受傷的嚴(yán)重情況也會(huì)在一定程度上影響病人的運(yùn)送時(shí)間。這可能體現(xiàn)了地域特征對(duì)病人運(yùn)送時(shí)間的影響。最后,圖中顯示,身體素質(zhì)對(duì)受傷的嚴(yán)重程度有直接的影響,這也是符合正常的生活常識(shí)的。
綜上所述,通過結(jié)構(gòu)EM算法選擇使BIC值達(dá)到最小時(shí)的模型是合理的,與實(shí)際情況相符。
[1]Ellen J MacKenzie, Frederick P Rivara. The national study on costs and outcomes of trauma[J].The Journal of Trauma-Injury, Infection, and Critical Care,2007,63:54-67.
[2]Constantine E, Frangakis, Donald B Rubin. Principal stratification designs to estimate input data missing due to death[J]. Biometrics,2007,63:641-662.
[3]Brian L Egleston, Daniel O Scharfstein, Ellen Mac Kenzie. On estimation of the survivor average causal effect in observational studies when important confounders are missing due to death[J]. Biometrics,2009,65:497-504.
[4]Weiwei Wang. Causal inference in outcome-dependent two-phase sampling designs[J]. Journal of the Royal Statistical Society,Series B,2009,71:947-969.
[5]Wei Yan, Yaqin Hu, Zhi Geng. Identifiability of causal effects for binary variables with baseline data missing due to death[J]. Biometrics,2012,68:121-128.
[6]和超.基于結(jié)構(gòu)EM的隱變量模型學(xué)習(xí)方法[D].昆明:云南大學(xué),2015.
[7]薛毅,陳麗萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007:58-60.
Structural EM based causal network model selection withdefaultcovariate
MA Qiang,SHANG Laixu,ZHANG Dongyang,SHAN Na*
(School of Basic Sciences, Changchun University of Technology, Changchun 130012, China)
WithNSCOTdata,structuralEMalgorithmisusedformodelselection.Calculationsandanalysiscomestoaconclusionthandirectinfluenceisfromboththephysicalqualityofapatientandthetransfertimetohospitalwhileindirectinfluenceonlyfromtheinjurydegreeofthepatient.
defaultcovariate;structuralEMalgorithm;modelselection.
2016-01-10
國(guó)家自然科學(xué)基金資助項(xiàng)目(11571050,11401047)
馬薔(1992-),女,漢族,內(nèi)蒙古赤峰人,長(zhǎng)春工業(yè)大學(xué)碩士研究生,主要從事因果推斷方向研究,E-mail:292094969@qq.com. *通訊作者:?jiǎn)文?1981-),女,漢族,吉林長(zhǎng)春人,長(zhǎng)春工業(yè)大學(xué)副教授,博士,主要從事因果推斷圖模型技術(shù)方向研究,E-mail:48978645@qq.com.
10.15923/j.cnki.cn22-1382/t.2016.4.16
O212
A
1674-1374(2016)04-0396-05