李偉南 林暢琪 郜艷暉 賈衛(wèi)東 周舒冬△
【提 要】 目的 介紹邊緣結(jié)構(gòu)模型原理,并將該方法應(yīng)用于具有時依性混雜變量的縱向數(shù)據(jù)中。方法 以慢性乙型肝炎(chronic hepatitis B,CHB)抗病毒治療的初治患者隨訪研究為例,根據(jù)逆概率權(quán)重構(gòu)建虛擬人群解決ALT和HBV DNA的時依性混雜,擬合邊緣結(jié)構(gòu)模型。結(jié)果 本研究所構(gòu)建的邊緣結(jié)構(gòu)模型解決了在隨訪研究中時依性混雜對治療組的影響,并有效地評估了各類CHB抗病毒藥物的療效。結(jié)論 邊緣結(jié)構(gòu)模型基于假設(shè)條件下能無偏地估計治療/暴露組的效應(yīng),且彌補了傳統(tǒng)生存分析方法在時依性混雜、刪失和治療轉(zhuǎn)換問題上的不足。
分層分析和回歸模型是常規(guī)的處理混雜的方法,但在藥物流行病學(xué)研究中,往往會遇到一些和時間有關(guān)的混雜因素,即時依性混雜(time-dependent confounders),這類混雜是影響治療/暴露方式效應(yīng)差異的一個重要因素。Robins等總結(jié)時依性混雜的特點包括隨時間變化,影響后續(xù)治療/暴露方式的選擇,并且對結(jié)局也有影響;過去治療/暴露方式對其也有影響[1]??梢姇r依性混雜不單是一個混雜變量,還是中間變量,如果使用常規(guī)的回歸模型去調(diào)整混雜因素的影響,則其估計的效應(yīng)是有偏的[2]。
在縱向數(shù)據(jù)的分析中,尤其是當(dāng)存在治療性轉(zhuǎn)換、刪失數(shù)據(jù)、時依性混雜因素的情況下,為了盡可能地?zé)o偏估計治療/暴露方式的效應(yīng),可采用邊緣結(jié)構(gòu)模型,該方法由Robins在1997年首次提出[3],目前國內(nèi)對該方法的應(yīng)用仍較少,而在國外已經(jīng)得到了較為普遍的使用[4],希望通過本文的研究能對今后該方法在國內(nèi)的應(yīng)用提供參考。
邊緣結(jié)構(gòu)模型是基于虛擬人群(pseudo-population)對治療/暴露方式進行效應(yīng)估計,在虛擬人群中,每個人均存在于各治療/暴露組,混雜因素?zé)o法起作用,得到的效應(yīng)也就是真實的因果效應(yīng)。虛擬人群的構(gòu)建可以通過逆概率加權(quán)得到。
逆概率加權(quán)的公式如下:
(1)
其中,
t表示隨訪的次數(shù),t=1,2,3,4,…;
Ak表示第k次隨訪時的治療方式;
但是由公式(1)計算出來的逆概率權(quán)重容易出現(xiàn)極值,標(biāo)準(zhǔn)差大,易使樣本量發(fā)生膨脹,從而與原樣本相比更易拒絕零假設(shè),且極值出現(xiàn)對結(jié)局會有異常影響[6]。因此,Robins等提出了穩(wěn)定化權(quán)重(stabilized weights)[1],通過保持與原人群一樣的樣本量,可降低極值,減小I類錯誤。
穩(wěn)定化權(quán)重計算公式:
(2)
公式(2)是基于公式(1)的改進,被稱為IPTW(inverse probability of treatment weighting)。
當(dāng)然穩(wěn)定化權(quán)重也有弊端,即加權(quán)后的虛擬人群沒有被完全的調(diào)整,因為基線協(xié)變量被包含在了分子的權(quán)重中,所以在擬合邊緣結(jié)構(gòu)模型時,必須將這些協(xié)變量當(dāng)作調(diào)節(jié)因素納入模型中[7]。
當(dāng)需要考慮刪失時,可通過計算研究對象在不同協(xié)變量下不發(fā)生刪失的條件概率,并以概率的倒數(shù)加權(quán),使得人群具有平衡的刪失比例[5],(2)式可做如下改進:
(3)
逆概率權(quán)重的估計是基于合并logistic回歸(pool logistic regression,PLR)模型,該方法要求數(shù)據(jù)結(jié)構(gòu)以人時為單位,每個研究對象有多條觀測記錄。權(quán)重的具體計算以公式(3)為例,左分式分母部分的計算公式如下所示[1-2]:
(4)
右分式分母部分的計算公式如下所示:
θ1ktk+θ2kak+θ3klk
(5)
式(4)、(5)中,tk表示第k次隨訪的時間,分子的計算公式與分母類似,只需將lk替換為基線混雜因素v。
在對原人群進行加權(quán)處理得到虛擬人群后,該虛擬人群已不受時依性混雜因素、刪失、治療轉(zhuǎn)換等情況的影響,此時進行治療/暴露效應(yīng)估計時能得到無偏的估計。
邊緣結(jié)構(gòu)模型的線性表達式如下所示[1,5,8]:
(6)
其中,
收集2008年1月至2015年12月到廣州市第八人民醫(yī)院進行抗病毒治療的CHB初治患者,按照2015年版《慢性乙型肝炎防治指南》的診斷標(biāo)準(zhǔn)進行病例篩選??共《局委煹乃幬锇ǘ魈婵f(entecavir,ETV)、替比夫定(telbivudine,LDT)、拉米夫定(lamivudine,LAM)、阿德福韋酯(adefovirdipivoxil,ADV)以及干擾素(interferon,IFN)。
本研究為回顧性隊列研究。隨訪起點為開始抗病毒治療時間。收集患者的人口學(xué)資料(性別、年齡等)、每位患者自治療開始后每6個月的血清HBV DNA、乙肝e抗原(HBeAg)、丙氨酸氨基轉(zhuǎn)移酶(ALT)等,隨訪24個月?;颊呤гL、四次隨訪后無發(fā)生結(jié)局事件或轉(zhuǎn)為聯(lián)合用藥時定義為刪失。結(jié)局事件為隨訪期間發(fā)生HBV DNA應(yīng)答(<500 copies/ml)。
在抗病毒藥物治療過程中療效主要受到ALT和血清HBV DNA兩個時依性混雜因素的影響,即每一隨訪點的ALT和血清HBV DNA的水平可能影響當(dāng)時抗病毒藥物的選擇,并且影響結(jié)局事件的發(fā)生;同時前一時間點的抗病毒藥物治療也會影響當(dāng)前ALT和血清HBV DNA的水平[9-10]。因此本研究的基本思路如下所示:
圖1 抗病毒藥物研究因果關(guān)聯(lián)示意圖
其中,
L0表示基線混雜包括:基線ALT、基線HBVDNA、年齡、性別、e抗原類型;L1表示時依性混雜包括:ALT、HBV DNA;Ai表示五種抗病毒藥物;Y表示結(jié)局事件。
本研究使用SAS 9.4對人口學(xué)資料進行統(tǒng)計學(xué)描述,使用proc logistic過程逐步進行逆概率權(quán)重的估計,使用proc genmod進行邊緣結(jié)構(gòu)模型的CHB擬合[11]。
納入研究的CHB患者共735人,CHB患者基線特征與用藥模式的關(guān)系如表1所示。
表1 CHB患者的基線特征及用藥模式
*:ALT正常值上限(≤40U/L)倍數(shù),血清HBV DNA單位:log10copies/ml
以表1基線ALT為例介紹逆概率加權(quán)的原理,對五個抗病毒治療組進行逆概率加權(quán),以消除各治療組在基線時ALT水平分布的差異,權(quán)重及加權(quán)后人群資料如表2所示。
表2 權(quán)重及加權(quán)后虛擬人群
原人群通過逆概率加權(quán)后,混雜因素ALT在各治療組間的分布達到平衡,表明ALT這個混雜因素已經(jīng)被去除,所以對加權(quán)后人群進行分析,得到的結(jié)果是無偏的,在觀察性研究中,逆概率加權(quán)可以被看成對數(shù)據(jù)的類隨機化。同樣在縱向數(shù)據(jù)的分析中,對研究對象的每條觀測記錄進行加權(quán),從而解決隨訪過程中可能存在的時依性混雜、治療轉(zhuǎn)換和刪失問題。
在735例患者的研究隊列中,穩(wěn)定化逆概率權(quán)重均值為0.98±0.38,最小值為0.11,最大值為3.49,權(quán)重在各隨訪點的分布如圖2所示,隨訪點的權(quán)重均值均在1附近,未出現(xiàn)極值。
對加權(quán)后的原始人群進一步驗證,判斷不同治療組與時依性混雜之間的關(guān)聯(lián),結(jié)果如表3所示。
表3顯示了兩個時依性混雜對抗病毒治療組的“整體”作用,未經(jīng)過逆概率加權(quán)的人群顯示,不同抗病毒治療組與血清學(xué)HBV DNA和ALT均存在關(guān)聯(lián)。經(jīng)過穩(wěn)定化逆概率加權(quán)的虛擬人群顯示,不同抗病毒治療組與HBV DNA和ALT之間的關(guān)聯(lián)均不存在。
圖2 各隨訪點權(quán)重分布圖
依性混雜自由度卡方值P值未加權(quán) 血清HBV DNA14.250.0393 ALT218.080.0001穩(wěn)定化逆概率加權(quán)后 血清HBV DNA10.140.7077 ALT20.40.8202
假設(shè)在研究中不存在未觀測到的混雜因素,對上述的虛擬人群構(gòu)建邊緣結(jié)構(gòu)模型(MSM),設(shè)定不同抗病毒治療組與HBV DNA應(yīng)答結(jié)局的關(guān)系符合如下線性模型:
模型擬合結(jié)果如表4所示。表4結(jié)果顯示,性別、年齡均無統(tǒng)計學(xué)意義;LAM、ADV、IFN對血清HBV DNA應(yīng)答的療效不及ETV,分別為ETV的0.61倍、0.62倍、0.45倍,e抗原陰性患者比陽性患者更易達到結(jié)局,差異有統(tǒng)計學(xué)意義(P<0.001),在基線時ALT≥5×ULN(正常值上限)的患者比<2×ULN的患者更易實現(xiàn)HBV DNA應(yīng)答,而基線時ALT為2~5×ULN的患者與<2×ULN的患者相比療效差異無統(tǒng)計學(xué)意義?;€HBV DNA<6.0 log10 copies/ml的患者比≥6.0 log10 copies/ml的患者更易實現(xiàn)HBV DNA應(yīng)答;隨訪二、隨訪三、隨訪四與隨訪一相比,提示隨著時間的推移,HBV DNA應(yīng)答率逐漸變緩。
表4 邊緣結(jié)構(gòu)模型擬合結(jié)果
邊緣結(jié)構(gòu)模型與傳統(tǒng)回歸模型不同,他解決了時依性混雜因素的影響。以圖1為例,當(dāng)估計A0對Y2的效應(yīng)時,如果回歸模型加上L1,那么模型只能求出A0→Y2和L1→Y2的效應(yīng)值,忽視了A0→L1→Y2的間接效應(yīng),這時會使得A0對Y2的估計有偏。而估計A1對Y2的效應(yīng)時,L1對于A1是混雜因素,如果回歸模型不加L1,那么A1→Y2的效應(yīng)估計是有偏的,所以傳統(tǒng)回歸模型并不能很好地估計A的效應(yīng),而邊緣結(jié)構(gòu)模型通過加權(quán)消除了L1對A1的混雜作用,能通過擬合不加Li時依性混雜的模型來無偏估計A的累積效應(yīng)[5]。
邊緣結(jié)構(gòu)模型的構(gòu)建,基于3個關(guān)鍵的假設(shè),包括(1)不存在未測量混雜,這個條件雖然難以進行驗證,但也并不意味著納入?yún)f(xié)變量越多越好,因為增加非混雜變量可能引入選擇性偏倚;增加過多潛在混雜因素可能會導(dǎo)致有限樣本偏倚,從而導(dǎo)致權(quán)重效應(yīng)估計異常;將非混雜因素加入到權(quán)重模型中可能會降低效應(yīng)估計的統(tǒng)計效率(即置信區(qū)間會變寬)。建議根據(jù)研究目的與專業(yè)背景,納入可能的混雜因素。(2)非零假設(shè),在協(xié)變量的不同水平下不同治療組均有觀測,即頻數(shù)不等于0。如果非零假設(shè)不成立,那么權(quán)重會出現(xiàn)極值,導(dǎo)致估計出來的因果效應(yīng)是有偏的。(3)模型的正確設(shè)定,主要包括治療/暴露與混雜因素間的模
型設(shè)定;刪失模型的設(shè)定;治療/暴露組與結(jié)局效應(yīng)間的結(jié)構(gòu)模型設(shè)定[7,12]。和其他分析方法一樣,如果上述假設(shè)無法滿足則分析結(jié)果會產(chǎn)生偏倚。
在真實世界的療效分析中,經(jīng)常遇到治療轉(zhuǎn)換和刪失,生存分析方法往往只是按刪失處理,從而丟失了較多信息,而應(yīng)用邊緣結(jié)構(gòu)模型對已加權(quán)的虛擬人群進行效應(yīng)估計,考慮了時依性混雜的同時還包括過去的治療史,因此該模型不單單解決時依性混雜的影響,而且通過改變數(shù)據(jù)中治療轉(zhuǎn)換的發(fā)生與協(xié)變量間的關(guān)聯(lián)性,調(diào)整了治療轉(zhuǎn)換可能帶來的偏倚。因此,在基于假設(shè)的前提下,本研究所構(gòu)建的邊緣結(jié)構(gòu)模型在觀察性研究中能對治療/暴露組進行無偏的估計。