第二軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室 張?zhí)煲?葉小飛 張新佶 郭曉晶 張 筱 李 慧 于菲菲 賀 佳
邊緣結構模型*
——一種控制時依性混雜的方法
第二軍醫(yī)大學衛(wèi)生統(tǒng)計學教研室 張?zhí)煲?葉小飛 張新佶 郭曉晶 張 筱 李 慧 于菲菲 賀 佳Δ
在觀察性研究中,暴露或處理因素常常會隨時間的變化而變化,在分析其對結局的效應時,常會受到時依性混雜因素的影響。時依性混雜因素是指同時滿足以下三個條件的因素:(1)隨時間變化;(2)是結局的影響因素;(3)會影響到隨后的暴露/處理,同時又會受到前次暴露/處理的影響[1-2]??梢?,時依性混雜因素既可以看作暴露/處理與結局的混雜因素,也可以當成暴露/處理與結局之間的一個中間變量。在估計暴露/處理的效應時,采用傳統(tǒng)的多因素回歸模型可以校正混雜因素的影響。然而,當把中間變量納入模型時,則會產(chǎn)生有偏的估計。由于時依性混雜因素同時具有混雜因素和中間變量的性質,因此傳統(tǒng)的回歸模型不能很好地解決縱向數(shù)據(jù)中時依性混雜的問題。針對傳統(tǒng)方法在處理時依性混雜時面臨的困境,Robins在1997年提出了邊緣結構模型(marginal structural model,MSM)[3]這一新的方法。
邊緣結構模型的基本思想是:如果每個個體(i)都接受了暴露/處理的所有水平,則在不同水平上發(fā)生某一結局事件的概率分布差異就是暴露/處理的真實效應(不受混雜因素的影響)。而在現(xiàn)實中,這種假設是不存在的,因此需要通過逆概率加權的方法(inverse probability weighting,IPW)將每個觀察個體都賦予相應的權重ωi(即將每個個體i都復制ωi個),從而構建出一個虛擬人群。在這個人群中,各暴露水平在不同協(xié)變量特征的亞組人群中具有相同的分布,從而消除了混雜因素的影響,同時,暴露/處理與結局之間的關系與原人群是一致的。因此,對這個虛擬人群進行回歸模型的擬合,就可以無偏的估計暴露/處理的效應。
我們以一個前瞻性的觀察性研究來解釋MSM模型及其參數(shù)的IPW估計方法。如圖1所示:為探索暴露因素對觀察結局的效應,該研究對觀察對象進行了基線和2次隨訪調查[4]。其中,A表示暴露因素(A=1,表示接受暴露;A=0,表示未接受暴露);Y代表結局(Y=1,表示陽性結局;Y=0,表示陰性結局);L表示一組向量,它隨時間變化,受到之前暴露水平的影響,并且影響下一階段的暴露水平,同時,L也是結局的影響因素,因此,L是一個時依性變量;此外,除圖中顯示的時依性混雜因素外,還存在一些不隨時間變化的混雜因素(X),所有的混雜因素用Z表示(X,Z分別表示一組向量)。以此為例,對MSM模型的應用步驟進行介紹。
圖1 存在時依性混雜因素的病因關系圖
1.構建邊緣結構(MSM)模型,估計暴露/處理效應
設定暴露因素A與結局Y的關系符合如下線性logistic MSM模型:
vi代表一組向量,表示基線混雜因素的實際觀測值;
β0的意義是所有觀察對象從基線到第一次隨訪都沒有接受暴露的情況下,出現(xiàn)陽性結局的概率;
β1可解讀為每增加一次暴露,logit pr的改變值。因此,eβ1就表示相應的OR值。
2.逆概率加權(IPW)
構建出邊緣結構模型后,可利用逆概率加權的方法實現(xiàn)參數(shù)的無偏估計。在進行模型擬合及參數(shù)估計之前,需要采用逆概率加權的方法對每個觀察對象進行加權處理,通過加權,構建一個虛擬人群,使得在不同協(xié)變量特征的亞組人群中,各個暴露水平的分布相同,從而消除了混雜因素的影響。再通過模型(1)對參數(shù)進行估計,從而無偏地估計暴露對于結局的效應。
該方法可以通過SAS軟件實現(xiàn),即利用Proc Genmod程序的SCWGT選項(見附錄),對每個觀察對象(i)賦予一個權重ωi,其表達式如下:
其中,
j表示隨訪次數(shù),j=0,1;
Aj表示第j次隨訪時的暴露,aij為實際觀測值;
式中分母表示在給定觀察對象從基線到第j-1次隨訪暴露歷史以及從基線到第j次隨訪的混雜因素的條件下,該對象在第j次隨訪時接受暴露水平是實際觀測值的條件概率。
盡管由公式(2)算出的權重可以去除混雜因素和暴露之間的關聯(lián),解決了混雜偏倚的問題。但是,由此估計出的權重可能存在極端異常值,進而導致參數(shù)的估計值變異較大。因此,Hernan等提出了穩(wěn)定化權重(stabilized weight)的方法,一定程度上緩解了參數(shù)估計的變異程度。具體表達式如下:
式中,
Vj表示基線混雜,vji為其實際觀測值;
該方法又稱為IPTW(inverse probability of treatment weighting);
該方法與公式(2)的區(qū)別在于分子部分,其分子表示:在給定觀察對象基線混雜及從基線到第j-1次隨訪暴露歷史的條件下,該對象在第j次隨訪時接收暴露水平是實際觀測值的條件概率。
顯然,與未穩(wěn)定化權重相比,穩(wěn)定化權重的取值更接近1,分布更加集中,變異程度更小。因此,穩(wěn)定化權重可以減少極端權重對參數(shù)估計的影響。
但是,由于穩(wěn)定化權重將給定基線混雜條件概率作為分子,所以并沒有去除基線混雜的影響,也就是說基線協(xié)變量與暴露方式之間仍存在關聯(lián)性。因此,還應采用模型(1)對效應進行估計,即將基線混雜因素作為自變量納入模型中,用以校正基線混雜的影響。
3.權重的計算
公式(3)的分子和分母都可以采用合并logistic回歸(pooled logistic regression,PLR)模型[5]進行計算。
與傳統(tǒng)logistic回歸不同的是,PLR模型將人時作為觀測,即考慮到了每個對象每一次隨訪的結局,而不是僅僅分析隨訪終點時的結局,具體如下:
分母的計算:
式(4)(5)中,tj表示第j次隨訪的時間。
利用MSM模型可以解決由于失訪而導致的數(shù)據(jù)缺失問題。其基本思想是假設觀察對象中沒有發(fā)生失訪事件,則該人群中某一結局事件的頻率分布就可真實代表該人群中這一事件的發(fā)生率。具體處理的思路與第二部分介紹的方法基本一致,不同之處在于應用IPW計算權重時,除需考慮接受實際暴露水平的條件概率,還要估計失訪事件的條件概率。具體如下:
其中,C表示失訪情況(C=0,表示未失訪;C=1,表示失訪)表示從基線到第j次隨訪的失訪情況表示從未失訪);該公式第二個分式又稱為IPCW(inverse probability of censoring weighting)。
通過對人群進行加權處理,使得暴露水平與隨訪事件在具有不同協(xié)變量特征的亞組人群中,分布相同。再通過模型(1)進行擬合,即可無偏的估計出暴露因素對結局的效應。
此外,MSM模型還可用來解決隨機對照實驗中的非隨機轉組問題。
Robin等人通過采用MSM模型來估計齊多夫定對于HIV陽性人群生存率的影響,首次實現(xiàn)了MSM模型的實際應用[6]。齊多夫定對于HIV陽性患者生存率的效應受到多個時依性混雜因素的影響,如CD4淋巴細胞水平,它是:(1)一個隨時間變化的指標;(2)上一階段齊多夫定的治療會直接影響當前CD4細胞水平,而當前的CD4水平又關系到下一階段是否使用齊多夫定治療;(3)CD4淋巴細胞水平是HIV患者生存或死亡的影響因素之一。由于時依性混雜因素的特殊性質,采用傳統(tǒng)的模型不能很好地校正該類混雜因素的影響,因此該研究應用采用MSM模型對齊多夫定的效應進行估計。該研究表明齊多夫定可以增加HIV陽性患者的死亡風險,RR值為3.6,而應用傳統(tǒng)模型進行估計時,其RR值僅為2.3。
MSM模型可以解決縱向數(shù)據(jù)中時依性混雜的問題,與同能處理時依性混雜問題的SNM(structural nested model)模型相比(表1),MSM模型與傳統(tǒng)模型十分相像(如本文中的介紹logistic MSM模型和實例中的COX—MSM模型),因此,不管是操作,還是對于結果的解釋都較為簡單和直觀。與此同時,當結局變量為二分類時,MSM模型仍能夠解決SNM模型通常不能處理的時依性混雜問題。
表1 MSM模型、SNM模型、傳統(tǒng)PS模型之間的比較
此外,MSM模型也可以用來解決非時依性混雜問題,與傳統(tǒng)傾向性評分(propensity score,PS)模型相比(表1),MSM模型可以克服常規(guī)傾向性評分中存在的殘余混雜問題,并可解決當存在缺失數(shù)據(jù)和暴露因素不是二分類變量時傾向性評分不易實現(xiàn)的問題[1]。
然而,MSM模型也存在一定的局限性:
1.當在某一混雜因素的水平上,所有的觀察對象都接受了相同的暴露水平,即在給定某一混雜因素的條件下,接受當前暴露水平的條件概率為1時,MSM模型就不再適用了[1]。
2.采用MSM模型進行效應估計時,只有正確的設定混雜因素與暴露/處理水平間的模型,才能計算出準確的權重,進而得到暴露/處理效應的無偏估計。因此,MSM模型對于模型的設定較為敏感[7]。
3.當協(xié)變量與暴露/處理因素之間存在很強的關聯(lián)時,穩(wěn)定化的權重也會存在較大的變異,這將導致95%可信區(qū)間較寬,95%可信區(qū)間的覆蓋率較低。
4.當協(xié)變量與暴露/處理因素間存在交互作用時,95%可信區(qū)間的覆蓋率較低。
MSM模型通過采用IPW的參數(shù)估計方法構建出一個虛擬人群,均衡了各組間混雜因素的分布,排除了混雜因素的影響,進而實現(xiàn)了效應的無偏估計,為流行病學研究中廣泛存在的時依性混雜問題提供了一個切實有效的解決方法。自2000年以來,采用MSM模型對效應進行估計的文章呈現(xiàn)逐年增加的趨勢[7-8],但是MSM模型的應用范圍的還不夠廣泛,報道的規(guī)范性仍有待提高。例如在使用MSM模型進行效應估計的文章中,有關HIV的療法研究占據(jù)了近50%的比例,并且只有60%的研究采用了穩(wěn)定化的權重方法[8]。因此,今后還需對MSM模型加以重視,擴大MSM模型的應用范圍,加強MSM模型報道的規(guī)范性。
附錄:SAS實現(xiàn)
在應用SAS軟件進行分析前,需要將數(shù)據(jù)集進行整理,即將數(shù)據(jù)集整理成每行觀測為一個人時的形式,以便使用PLR方法進行分析,設定該數(shù)據(jù)集為data。
此外,在使用PLR模型計算每一隨訪節(jié)點的權重時,需保證各個時間點間的截距相等,即公式(4)、(5)中的α0j、α′0j在各個隨訪期間應保持不變。這需要應用限制性立方樣條的方法進行計算,可參見http://jse.stat.ncsu.edu:70/1s/software/sas
SAS程序的具體代碼如下:
國家自然科學基金(No.81072388,No.81202285,No.81373105);上海市循證公共衛(wèi)生重點學科(12GWZX0602)
△通信作者:賀佳,E-mail:hejia63@yeah.net