亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        GBM 傾向評分加權(quán)法用于因果推斷的研究*

        2017-12-01 07:59:50唐進法易丹輝李學林李偉霞周曉華
        關鍵詞:丹紅個體效應

        楊 偉,唐進法,易丹輝,李學林**,李偉霞,周曉華

        (1.中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所 北京 100700;2.中央民族大學理學院 北京 100081;3.河南中醫(yī)藥大學第一附屬醫(yī)院 鄭州 450000;4.中國人民大學應用統(tǒng)計科學研究中心北京 100872;5.北京大學北京國際數(shù)學研究中心 北京 100871)

        GBM 傾向評分加權(quán)法用于因果推斷的研究*

        楊 偉1,2,唐進法3,易丹輝4**,李學林3**,李偉霞3,周曉華5

        (1.中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所 北京 100700;2.中央民族大學理學院 北京 100081;3.河南中醫(yī)藥大學第一附屬醫(yī)院 鄭州 450000;4.中國人民大學應用統(tǒng)計科學研究中心北京 100872;5.北京大學北京國際數(shù)學研究中心 北京 100871)

        目的:在觀察性研究或非隨機化試驗中,由于混雜因素***的存在,研究人員從數(shù)據(jù)中進行因果推斷的能力受到阻礙,本研究利用GBM傾向評分加權(quán)法對一組觀察性醫(yī)學數(shù)據(jù)進行了分析,以期指導相關醫(yī)學人員進行他們自己的因果推斷研究。方法:目前,四類主要的傾向評分法:匹配、分層、逆概率加權(quán)和混雜變量調(diào)整,已經(jīng)被普遍用于因果推斷的研究。傾向評分法理論上是可以消除可觀測到的混雜因素的偏倚,使處理變量接近隨機分配設計的效果,從而達到估計處理因素對結(jié)局因果效應的目的。結(jié)果:考慮到逆概率加權(quán)法相對于其它方法的優(yōu)勢,本文概括了它用于因果效應估計的適用條件,特別說明了運用一個現(xiàn)代多元非參數(shù)統(tǒng)計技術(shù)——廣義Boosted模型(GBM)傾向評分加權(quán)法的關鍵環(huán)節(jié)及優(yōu)劣。結(jié)論:當存在大量不同類型的混雜因素且它們與處理因素之間的線性、非線性或交互效應等函數(shù)形式無法確定以及其它問題的時候,GBM傾向評分加權(quán)法能克服在精確地估計傾向評分過程中所受到的阻礙,并給出相對更加接近于隨機化的因果效應。

        GBM 傾向評分加權(quán) 因果推斷 觀察性研究 非隨機化試驗

        在觀察性研究或非隨機化試驗中面臨的一個非常大的挑戰(zhàn)就是從數(shù)據(jù)中進行因果推斷(Causal Inferences)并估計因果效應(Causal Effects)。在醫(yī)學研究中,雖然隨機對照試驗(RCTs)被認為是因果推斷的黃金標準,但RCTs用于因果推斷并不總是可能的或可行的[1,2],比如,患者遵循醫(yī)囑使用某種藥物的行為符合真實世界情況,即醫(yī)生根據(jù)患者的個人信息、既往史、疾病情況以及患者意愿等信息而非隨機的分配藥物治療,故不同治療組患者的基線特征分布顯示差異,即存在混雜因素,而關注的結(jié)局會受到這些混雜的影響。若此時直接分析治療對結(jié)局的因果效應,則顯然是不合理的[3]。即使是在一個RCT可行且被實施的情況下,由于出現(xiàn)的治療不依從問題破壞了隨機化,這也會影響我們關于治療或處理因素對療效結(jié)局的因果推斷[4,5,6]。在所有這些情況下,使用一些統(tǒng)計方法或技術(shù)對混雜因素進行統(tǒng)計調(diào)整也許可能得出更有效的因果推斷,比如,協(xié)方差分析法(Analysis of Covariance(ANCOVA)models)[7],工 具 變 量 法(Instrumental Variable Approaches)[8]以及傾向評分法(Propensity Score Models)[9,10]。

        本文介紹的傾向評分(Propensity Score,PS)在概念上是一個簡單的統(tǒng)計工具,它允許研究人員通過平衡非隨機設計的非等價組來做出更精確的因果推斷。簡單的說,PS就是給定很多潛在的混雜變量取值,研究個體被分配到處理組而非對照組的概率。以PS為條件,所有觀測到的混雜變量與處理分配相互獨立,且在大樣本的情況下,混雜變量在不同處理組之間的分布幾乎相同,且估計的處理變量對結(jié)局的因果效應不會受到混雜的影響[11]。Rosenbaum和Rubin以及Stuart提出了利用PS進行分層(stratification)和配比(matching)來分析因果效應[10,12]。Hirano等提出了利用PS進行加權(quán)(weighting)來分析因果效應[13]。雖然這些方法已經(jīng)開始被廣泛的使用[10,14,15,16,17],但是文獻中幾乎所有的例子都是使用帶參數(shù)的Logistic回歸模型來估計PS,并且假設模型中的混雜變量關于處理變量的對數(shù)優(yōu)勢比(Log-odds)是線性的。雖然,通過變量選擇技術(shù),比如向前法等,模型也可能挑選出的交互項或非線性項,但更靈活的PS估計方法卻很少得到關注。

        本文闡述廣義Boosted模型(Generalized Boosted Models,GBM))是一種現(xiàn)代多元非參數(shù)回歸技術(shù),可用于對PS的估計。根據(jù)數(shù)據(jù)變量的類型,GBM利用自適應算法自動的去估計大量混雜變量與處理變量之間的非線性關系,特別是它們之間線性、非線性或交互關系等函數(shù)形式無法確定時,此方法很有優(yōu)勢[18]。目前,估計PS的很多統(tǒng)計方法缺乏靈活性,且需要進行混雜變量選擇。而變量選擇風險會使得因果效應估計有偏,比如,變量選擇過程中遺漏對處理分配很重要的混雜變量,或者錯誤指定了線性、非線性或交互關系。本研究利用GBM傾向評分加權(quán)法對來自6省市37家醫(yī)院集中監(jiān)測數(shù)據(jù)進行分析。以使用丹紅注射液是否聯(lián)合其它藥物為處理因素,實驗室檢查指標谷丙轉(zhuǎn)氨酶(ALT)用藥前后是否異常變化作為結(jié)局,用實例闡述GBM傾向評分加權(quán)法的優(yōu)勢及應用過程,以期指導相關醫(yī)學人員進行他們自己的因果推斷研究。

        1 資料來源

        1.1 數(shù)據(jù)說明

        本研究數(shù)據(jù)來自6省市37家醫(yī)院參與研究的醫(yī)院集中監(jiān)測平臺,監(jiān)測對象是從2009年4月至2013年8月所有使用丹紅注射液的住院患者,共計納入有效病例數(shù)30888例。數(shù)據(jù)包括患者基本信息、病癥情況、給藥情況、綜合情況、實驗室檢查指標這五大類信息,共收集1834個變量。其中,患者基本信息包含年齡、性別、體重指數(shù)、懷疑過敏物、醫(yī)院、住院科室等78個變量,病癥情況包含適應病癥、是否中醫(yī)辨證等671個變量,給藥情況包含是否首次使用丹紅注射液、用藥次數(shù)、合并用藥名稱等970個變量,綜合情況包含病情變化情況、癥狀改善情況等115個變量,實驗室檢查指標包含血常規(guī)、尿常規(guī)、谷丙轉(zhuǎn)氨酶(ALT)、谷草轉(zhuǎn)氨酶(AST)等96個變量。我們提取有ALT檢查的患者共5619例,用藥前后都有ALT檢查的患者共625例。

        表1 ALT異常值情況

        1.2 處理及結(jié)局變量說明

        本研究需要說明兩類人群:(1)在所有使用丹紅注射液且合并用5種及以下藥物(簡稱“丹紅合并5種以下”)的患者中,記錄其用藥前后的ALT值變化情況;(2)在所有使用丹紅注射液且合并用5種以上藥物(簡稱“丹紅合并5種以上”)的患者中,記錄其用藥前后的ALT值變化情況。我們定義處理變量為“丹紅合并5種”,丹紅合并5種以上取值1,丹紅合并5種以下取值0;安全結(jié)局為用藥前后ALT值是否有異常變化,異常變化取值1,正常變化取值0。理化指標依各家醫(yī)院不同范圍分別考慮異常值情況。具體分布如下表1。

        1.3 混雜因素

        通過對混雜因素在兩個處理組之間的組間比較、特征選擇及臨床經(jīng)驗判斷,考慮與處理選擇和結(jié)局都可能相關的混雜因素包括:年齡、性別、體重指數(shù)、個人藥物食物等過敏史、家族藥物過敏史、過敏性疾病史、醫(yī)院、住院科室、是否辨證、是否首次用丹紅、用藥次數(shù)、最后一次給藥間隔、最后一次靜滴速度、單次給藥量、溶媒種類、病情情況、癥狀情況、證候判定、體征情況等共87種,它們是與處理變量和ALT異常變化可能有關的所有混雜因素。這些混雜中的多分類變量都經(jīng)過啞變量編碼。

        2 數(shù)據(jù)分析方法

        本文利用GBM傾向評分加權(quán)法對醫(yī)院集中監(jiān)測數(shù)據(jù)進行分析及因果推斷的主要過程分為:定義因果效應、GBM估計傾向評分、傾向評分樣本加權(quán)、評估混雜因素平衡準則、PS加權(quán)估計平均因果效應、敏感性分析。

        2.1 定義因果效應

        本文在觀察性研究或非隨機化試驗中,定義了一個在接受處理和未接受處理(即對照)之間的因果效應,它主要利用了虛擬事實(counterfactuals)的概念[11,13]。假定研究總體中每個個體都有兩個可能的結(jié)局值:y1是個體被分配或接受處理條件時的結(jié)局值,y0是個體被分配或接受對照條件時的結(jié)局值。這兩個值對每個個體僅有一個值被觀察到,而另一個值是不可能被觀察到的。我們稱未觀察到的那個值為虛擬結(jié)局值。令z為處理變量,如果個體接受處理,則z=1,否則z=0,從而被觀察的結(jié)局值y=zy1+(1-z)y0。總體人群的平均因果效應(Average Treatment Effect,ATE)定義為 E(y1)-E(y0),記為 ATE[19],即

        比如,在所有使用丹紅注射液的患者中,合并用其它藥物的處理相對于未合并用其它藥物的對照對結(jié)局變量影響的平均因果效應,即理想上所有使用丹紅注射液的患者,如果他們都合并用其它藥物與他們?nèi)绻嘉春喜⒂闷渌幬锵啾容^,我們期望觀察到兩組患者在ALT指標異常變化的差異。

        然而,通常我們只對對象接受某種處理的事實與他們未接受此處理的虛擬進行比較的因果效應感興趣,即處理組平均因果效應(Average Treatment effect among the Treated,ATT),記為 ATT[19]。定義 E(y1|z=1)為處理組個體接受處理條件后的平均結(jié)局值,E(y0|z=1)為處理組個體接受對照條件后的平均結(jié)局值。那么,處理組平均因果效應

        比如,在所有使用丹紅注射液且合并用其它藥物的患者中,處理的事實與虛擬之間的平均因果效應,即理想上所有使用丹紅注射液且合并用其它藥物的患者與他們?nèi)绻嘉春喜⒂闷渌幬锵啾容^,我們期望觀察到兩組患者在ALT指標異常變化的差異。

        根據(jù)不同因果效應的定義,大多數(shù)醫(yī)學研究中要求研究人員都需要確定一個確切的因果問題,通常他們會對ATT的估計更感興趣,因為它包含了更多的暴露于某種風險的個體信息。本研究的數(shù)據(jù)分析主要是估計ATT。

        2.2 GBM估計傾向評分

        對每個接受處理的個體而言,E(y0|z=1)中的結(jié)局值y0是無法觀測到的,可利用對照組數(shù)據(jù)進行估計。然而,當多個混雜變量在處理組和對照組之間存在差異時,此估計值是有偏的,從而ATT的估計也會有偏。利用PS平衡組間差異、調(diào)節(jié)估計偏倚成為必要的分析手段[11]。在給定一組觀察到的混雜變量條件下,PS是指總體中個體接受處理而不是對照條件的概率,記為e(X)=P(z=1|X)。假定X表示一組可觀測到的基線混雜變量的向量,則傾向評分e(X)是關于向量X的函數(shù)。給定e(X)的條件下所有觀察到的混雜變量分布在處理組與對照組之間幾乎匹配或相同,即處理分配變量接近隨機分配設計(random assignment designs)的效果[11]。換句話說,給定e(X)的條件下,對照組中可觀測到的y0分布等于處理組中無法觀測到的y0分布,從而,可以利用對照組觀測到的y0的數(shù)據(jù)來估計E(y0|z=1,e(x)),且估計得到的ATT為處理組平均因果效應的無偏估計[11]。在此之前,關鍵是要正確或精準的估計傾向評分e(X),那么在具體實現(xiàn)GBM估計e(X)的過程中,必須明確兩個重要問題:

        (1)估計e(X)的模型選擇及函數(shù)形式的確定

        目前,估計PS的方法大多數(shù)是利用參數(shù)線性Logistic或Probit回歸建立基線混雜因素對處理變量的函數(shù)關系而得出的,但此函數(shù)關系必須正確。那么,模型建立過程中就會涉及變量主效應、變量間交互項或變量多項式項的選擇[14,15,16,17],即都是從變量選擇開始。比如,可利用變量主效應擬合一個回歸模型,然后估計傾向評分對數(shù)據(jù)進行分層,在每層中對處理組和對照組的混雜變量的均值和標準差進行組間顯著性檢驗(這里可以考慮不同的顯著性水平p<0.05或p<0.1或 p<0.2)。若某些混雜變量組間差異統(tǒng)計顯著,則模型再考慮它們的交互項或更高階的多項式項。此過程一直繼續(xù)到?jīng)]有顯著差異出現(xiàn)為止。但隨著大量混雜變量的增加,這些傳統(tǒng)的回歸方法和變量選擇策略可能就不實用了,比如很可能會遺漏重要的混雜變量或者錯誤指定函數(shù)關系。而GBM算法是基于廣義增強回歸的一個現(xiàn)代的非參數(shù)Boosting方法,它能提供一個靈活的、強大的且自動的數(shù)據(jù)自適應算法,可用于估計處理變量和大量混雜變量之間的非線性關系以及大量混雜變量多階交互項的關系,即使是這些混雜變量中大多數(shù)是彼此相關的或它們與處理變量不相關的情況。另外,從預測誤差方面來看,Boosting方法優(yōu)于其它的方法[20,21]。許多Boosting算法的變種已經(jīng)出現(xiàn)在機器學習和統(tǒng)計計算文獻中,比如AdaBoost算法[22],Gradient Boosting machine 算法[20],GBMs算法[23]以及LogitBoost算法[24]等。特別是當模型中存在大量混雜變量,且它們與處理選擇之間線性、非線性或交互效應等函數(shù)形式無法確定以及在沒有太大降低估計精度的情況下,此方法用于構(gòu)建大量混雜變量的傾向評分模型的優(yōu)勢更明顯[25]。

        (2)估計PS模型中的混雜變量選擇。

        一般來說,GBM估計e(X)的模型中應盡可能地選擇所有即與處理變量相關又與結(jié)局相關的基線混雜變量,也可以考慮其它策略,比如只包括和處理變量有關的基線混雜變量等[9,26])。通常,需要納入分析的混雜變量個數(shù)以及估計傾向評分的模型都是未知的,所以傾向評分的估計需要進行混雜變量選擇和函數(shù)形式的確定。一般的變量選擇都是根據(jù)統(tǒng)計顯著性或降低預測誤差的準則在模型中進行變量選擇或變量函數(shù)形式的確定。但傾向評分模型中混雜變量選擇的一個關鍵準則是基于傾向評分的條件下,如何使處理組與對照組的混雜變量分布幾乎匹配或相似。

        2.3 傾向評分樣本加權(quán)

        本文研究主要利用GBM估計傾向評分,然后再給對照組的個體進行逆概率加權(quán),使得對照組個體特征變量的分布與處理組個體特征變量的分布平衡[14,18,19,,27]。令 f(X|z=1)表示處理組個體的混雜變量分布,f(X|z=0)表示對照組個體的混雜變量分布。如果處理是被隨機分配的,則希望這兩個分布是一樣的。而實際上,它們是不同的,所以需要構(gòu)造一個權(quán)重w(X),使得

        其中w(X)=e(X)/[1-e(X)]。很顯然,如果對照組個體i具有與處理組個體相似的混雜變量,則被分配到處理組的概率更大,即個體i將有更大的e(X),從而就有更大的權(quán)重w(X),反之亦然。例如,如果處理組和對照組中65歲女性的比例分布分別為10%和5%,那么自然希望附權(quán)重2(=0.1/0.05)到對照組中每個65歲女性個體上,使得他們和處理組具有相同特征個體一樣的比例分布。GBM傾向評分加權(quán)法就是基于廣義增強回歸(Generalized boosted regression)模型來估計傾向評分并進行逆概率加權(quán)的方法。

        2.4 評估混雜因素平衡準則

        使用傾向評分進行調(diào)整以后的數(shù)據(jù)在混雜因素上的組間平衡需要得到評估,GBM算法是以處理組和對照組之間混雜變量特征達到平衡為準則,它不對兩組混雜變量的均值和標準差(means and standard deviations)進行組間顯著性檢驗,而是利用常用的測量平衡或匹配的最佳工具:平均標準絕對均值差(Average Standardized Absolute Mean difference,ASAM)和 K-S統(tǒng) 計 量(Kolmogorov-Smirnov test statistic)[10]。比如,當ASAM小于0.2時或K-S統(tǒng)計量達到最小時,就認為混雜因素在組間達到平衡。由于計算ASAM的過程要用到每個混雜變量在處理組的標準差,而當數(shù)據(jù)存在缺失或標準差為0的情況時,ASAM無法計算,所以本研究采用K-S統(tǒng)計量作為測量兩組混雜變量平衡的工具。K-S統(tǒng)計量在GBM算法過程是逐漸減小的,當達到某個最小值開始,隨后K-S統(tǒng)計量會逐漸增大。這里不能確保算法對K-S統(tǒng)計量會有全局的最小值,若K-S統(tǒng)計量無法達到最小,則調(diào)整參數(shù)或考慮其他的估計方法是必要的。

        2.5 PS加權(quán)估計平均因果效應

        當我們估計平均因果效應的時候,傾向評分可以被用來對觀察值進行加權(quán)處理[13]。為了估計ATT,關鍵就是估計E(y0|z=1),在此先給對照組樣本中的每個個體i(i=1,2,…,N)加權(quán)wi=e(Xi)/[1-e(Xi)],它表示具有特征向量X的個體i可能被隨機選擇分配到處理組的優(yōu)勢比。如果個體i是在處理組,則它被觀測到的結(jié)局值為yi=y1i;如果個體i處在對照組,則它被觀測到的結(jié)局值為yi=y0i。如果我們假設給定X的條件下處理變量z與結(jié)局值yi是獨立的,即

        那么,我們可以給出E(y0|z=1)的估計為:

        這里i∈C表示對照組中第i個觀測個體。等式(3)可以用來估計處理組個體接受對照條件后的平均結(jié)局值[7]。令NT和i∈T分別表示處理組中樣本量及第i個觀測個體,則

        可以用來估計處理組個體接受處理條件后的平均結(jié)局值[7]。從而,處理組平均因果效應 ATT的估計為在大樣本且給定幾個假設條件的情況下,加權(quán)的因果效應估計幾乎是無偏的。其中,最重要的假設就是觀測到的混雜變量可以解釋處理組與對照組之間所有事先存在的差異,而這些差異會影響分析的結(jié)局。此外,還要求個體的結(jié)局不受其他個體的處理變量以及其它與處理無關的因素的影響。本研究建立結(jié)局變量的對數(shù)似然比相對于處理變量的Logistic回歸模型,則處理變量的回歸系數(shù)值可作為處理組平均因果效應的估計值。

        2.6 對潛在混雜識別的敏感性分析

        通常,我們只對觀察到的變量構(gòu)建估計傾向評分的模型,模型中不包含未觀察到的混雜因素即潛在偏倚,我們需要對是否可能存在潛在的混雜進行識別,即所謂的敏感性分析。潛在偏倚的存在會導致混雜變量觀察值相同的個體其接受處理的概率不同,即處理分配依賴于未觀察到的混雜變量。例如,混雜變量觀察值相同的研究個體,當存在一些未觀察到的潛在混雜變量,即這些潛在變量分布存在差異,則研究個體被分配到處理組的概率也不同。從而,對權(quán)重和平均因果效應的估計會產(chǎn)生誤差。由于無法從數(shù)據(jù)中估計出潛在偏倚,故只能通過檢驗或評估研究結(jié)果對潛在偏倚的敏感程度來識別是否還存在其它的潛在變量,即對潛在混雜識別的敏感性分析[9,18]。

        若研究中確實存在潛在偏倚,研究個體被分配到處理組的真實優(yōu)勢比(即真實權(quán)重)就不是wi=w(Xi),而是wi=w(Xi,Hi),這里H表示無法觀測到的潛在混雜。為了檢驗ATT對潛在混雜的敏感性,我們需要識別隨著傾向評分權(quán)重wi的變化,變化的敏感性。通常的做法是從傾向評分模型中移除一個觀測混雜變量,把它當成H,對傾向評分重新估計,得到的新的權(quán)重為w(Xi),而原始的權(quán)重為w(Xi,H)。通過從傾向評分模型中依次移除一個混雜變量,我們可以檢驗ATT對潛在偏倚是否敏感[18]。

        3 分析結(jié)果

        本文利用GBM估計傾向評分,通過使K-S統(tǒng)計量達到最小,不斷加權(quán)調(diào)整模型,很好的平衡了丹紅合并5種以下和加權(quán)的丹紅合并5種以上的混雜因素。理論上,很大的迭代次數(shù)能使K-S統(tǒng)計量達到最小,但迭代次數(shù)越多,模型估計的時間越長。實際應用中選擇較大的迭代次數(shù),若K-S統(tǒng)計量無法達到最小,再加大迭代次數(shù),或考慮其他的估計方法。本研究設定迭代次數(shù)為20000。另外,取一個折中的4階交互項可確保模型形式的正確識別和模型的精確估計,即在估計傾向評分的模型中自動考慮混雜變量之間的四階交互項。一般來說,若要考慮5階或更高階的交互項,則要求研究樣本足夠的大。此外,模型中設定一個足夠小的收縮系數(shù)用于排除模型中大多數(shù)不相關的混雜變量,產(chǎn)生一個僅體現(xiàn)最重要作用的混雜變量和交互項的稀疏模型[24,28]。本研究取一個非常小的數(shù)值0.0005。再有,利用leave-one-out刀切法(jackknife)來估計因果效應的標準差。本研究的全部算法都可基于R統(tǒng)計軟件中的gbm、survey和Twang等包[29]編程實現(xiàn)。

        3.1 GBM估計的傾向評分和權(quán)重

        根據(jù)上面討論的過程,K-S統(tǒng)計量達到最小值的迭代次數(shù)為5217次。根據(jù)觀察到的87個混雜變量對模型對數(shù)似然度整體改善的貢獻,算法自動測量并排序每個混雜變量對處理變量的重要程度。模型似然度的大約67%的增加是由于4個混雜變量導致的:醫(yī)院代碼(22.48%)、用藥次數(shù)分組(21.81%)、住院科室(16.14%)和單次給藥量(7.37%)。這四個混雜變量似乎都與處理變量丹紅合并用藥種類數(shù)有關。對每個變量的邊際分布,可利用偏依賴圖(Partial dependence plots)[20]來查看。邊際分布圖顯示:當對其它86個混雜變量分布邊際積分以后,患者被分配到丹紅合并5種以上的對數(shù)優(yōu)勢比與每個混雜變量之間的關系為非線性的(參見圖1)。從圖1看出,比如,住在內(nèi)分泌科或腎臟病科或心血管內(nèi)科患者更有可能被分配到丹紅合并5種以上組,這種非線性體現(xiàn)了GBM方法的優(yōu)勢。如果能夠根據(jù)專業(yè)知識認為其中一些混雜變量和處理變量沒有太大相關性,則可以考慮排除少量的混雜變量,最終接受包含更小混雜變量集的傾向評分模型。根據(jù)本數(shù)據(jù)分析的經(jīng)驗,我們從模型中刪除少量不重要的混雜變量之后,傾向評分模型估計的結(jié)果幾乎沒有變化。

        圖2中左圖顯示了“丹紅合并5種以上”和“丹紅合并5種以下”的傾向評分的分布,大多數(shù)個體的權(quán)重集中在0~0.5之間,少數(shù)個體的權(quán)重超過1.5達到2。兩組的傾向評分重疊范圍很小。理想上,我們希望看到兩組的傾向評分之間有更大的重疊,因為小的重疊范圍會使因果效應的估計有更大的方差,從而出現(xiàn)傾向評分加權(quán)后對照組與處理組的混雜變量分布不能很好匹配的危險。然而,GBM模型中非線性關系暗示著在傾向評分之間的差異并不等于兩組混雜變量均值之間的差異。McCaffrey等和Ridgeway用實例說明即使兩組傾向評分的分布幾乎相同,也并不能給兩組混雜變量均值帶來更好的平衡,反之,用不同的迭代次數(shù),即使GBM估計的傾向評分和權(quán)重迥然不同,但也能在兩組混雜變量分布上產(chǎn)生很好的平衡[18,30]。

        圖1 四個混雜變量偏依賴圖(Partial dependence plots)。Drug表示用藥次數(shù)分組,HOS表示醫(yī)院代碼,DEP表示住院科室

        圖2 左圖為“丹紅合并5種以上(Treatment)”和“丹紅合并5種以下(Control)”患者的傾向評分分布箱線圖。右圖為權(quán)重在“丹紅合并5種以下”患者中的分布直方圖

        3.2 混雜變量的平衡準則

        混雜變量之間的均值差在利用PS給對照組個體進行加權(quán)之前是可以直接被觀察到的。表2給出了“丹紅合并5種以上”和“丹紅合并5種以下”兩組部分基線混雜變量在傾向評分加權(quán)前后的分布特征及K-S統(tǒng)計量、檢驗p值。

        我們可以發(fā)現(xiàn):在“丹紅合并5種以上”患者人群中,醫(yī)院代碼為SLJ,住院科室為心血管內(nèi)科等變量的比例要明顯更高;年齡、住院天數(shù)的平均值稍微更低??v觀模型中所有87個混雜變量,未加權(quán)的K-S統(tǒng)計量有十幾個混雜變量的K-S統(tǒng)計量大于0.2。兩組混雜變量之間的差異在利用PS給對照組個體進行加權(quán)之后被大大的減小了。K-S統(tǒng)計量平均值由0.12減小到0.06,減小了50%。實際上,模型中共有87個變量,我們只在表2中列出影響模型似然度變化比較大且兩組間差異明顯的前25種混雜變量的情況。

        表2 兩組部分基線混雜變量在傾向評分加權(quán)前后的分布特征及K-S統(tǒng)計量、檢驗p值

        圖3是加權(quán)前后的p值與均勻分布值的比較圖,經(jīng)過傾向評分加權(quán)后,87個基線混雜變量在兩組之間的差異接近于隨機分配的結(jié)果,即患者被隨機分配到“丹紅合并5種以上”和“丹紅合并5種以下”組。兩組之間混雜變量的K-S分布無差異獨立性檢驗值服從[0,1]均勻分布,值是對混雜變量的組間檢驗值,連續(xù)變量則為t檢驗值,分類變量則為卡方檢驗值。許多混雜變量(紅色實圓)加權(quán)前在兩組間有顯著的差異,故拒絕原假設,即許多值接近于0。大多數(shù)混雜變量(空心圓)加權(quán)后在兩組間的差異不顯著,故值都沿著[0,1]均勻變量的累積分布45度的直線分散開,即p值服從[0,1]均勻分布一樣。

        3.3 結(jié)局分析結(jié)果

        構(gòu)建ALT指標異常變化的對數(shù)似然比與處理變量“丹紅合并5種”之間的Logistic回歸模型,則模型中變量“丹紅合并5種”前的回歸系數(shù)值可作為處理組平均因果效應的估計值。下面表3的頭兩行表示不同方法估計得到的及檢驗 p值。未加權(quán)l(xiāng)ogistic回歸分析表明“丹紅合并5種以上”導致ALT發(fā)生異常變化的對數(shù)優(yōu)勢比大于0(0.016),估計的因果效應不具有統(tǒng)計顯著性(p值=0.498>0.05);但經(jīng)過GBM傾向評分加權(quán)后,logistic回歸分析表明“丹紅合并5種以上”導致ALT發(fā)生異常變化的對數(shù)優(yōu)勢比大于0(0.047),估計的因果效應具有統(tǒng)計顯著性(p值=0.048<0.05)。

        利用PS加權(quán)和少數(shù)未平衡的混雜變量加入模型中進行調(diào)節(jié)相結(jié)合的方法來估計因果效應,可獲得雙穩(wěn)?。╠oubly robust)的因果效應估計[9,31,32]。如果傾向評分估計正確或回歸模型指定正確,則它們的估計是一致的。例如,在對ALT指標分析時,注意到加權(quán)后,雖然使得住院科室混雜變量分布在兩組間更接近,但還是存在很明顯的分布差異,如住在心血管內(nèi)科患者中“丹紅合并5種以上”組占77.8%的患者,而“丹紅合并5種以下”組只占58.8%。所以,這時候把“住院科室”等混雜變量加入到傾向評分加權(quán)后的logistic回歸模型,可以適當調(diào)節(jié)還存在的混雜偏倚,估計更穩(wěn)健的因果效應。從表3的最后一列可以看到,混雜變量調(diào)節(jié)后的因果效應又減小到0.036,且依然不具有統(tǒng)計顯著性(p值=0.091>0.05)。說明這里對ALT的分析結(jié)論需要謹慎對待。

        一般來說,傾向評分模型以及回歸模型形式對估計因果效應很敏感,但對很強的因果效應,其估計的結(jié)果應該是一致的。本研究中Logistics回歸模型對ALT指標的分析出現(xiàn)不一致的情況,表明“丹紅合并5種以上”對ALT異常變化的因果效應并不是很強。

        McCaffrey還用實例說明GBM模型對e(X)估計的預測誤差更小,即GBM提供更精確的傾向評分e(X)的估計;同時也能很好的平衡兩組混雜變量均值;因果效應的估計值更小且具有更小的標準誤差[18]。

        3.4 敏感性分析結(jié)果

        圖3 加權(quán)前后兩組87個混雜變量差異檢驗的p值與均勻分布值的比較圖

        由于PS估計的模型中涉及觀察到的變量太多,在不影響分析結(jié)果示范解釋的情況下,表4只列出前幾行敏感性分析結(jié)果。第一列字母Var表示從估計傾向評分模型中移除的觀察到的混雜變量;第二列E0表示排除Var后由傾向評分模型估計的E(y0|z=1),即等式(15)的值;第三列range(ai)表示排除Var中對應變量后得到的一組ai值的范圍(最小值和最大值);第四列obseved(ρ)表示第三列的ai值與結(jié)局yi計算的相關系數(shù)cor(ai,yi)=ρ;第五列range(ρ)表示從第三列ai值的經(jīng)驗分布中找到的盡可能最大的和最小的ρ;第六列range(E0)表示使得ρ盡可能最大和最小的多組ai值,代入等式(15),估計得到E(y0|z=1)的最大值和最小值。第7列為 break even(ρ)。

        表4的結(jié)果表明,有些混雜變量的range(E0)與E0比較,變化都不大,且它們對應的break even(ρ)都很小,則說明ATE1對潛在偏倚不敏感,即表4暗示著本研究可能不存在未觀察到的潛在混雜。

        表3 用未加權(quán)Logistic回歸、GBM傾向評分加權(quán)和雙穩(wěn)健法對因果效應的估計

        表4 丹紅合并5種的估計因果效應的敏感性分析

        4 結(jié)論與討論

        對觀察性研究或非隨機化設計的資料或存在混雜因素的研究資料進行因果推斷,目前比較成熟的統(tǒng)計方法就是傾向評分法。考慮到大量混雜因素的存在,GBM估計傾向評分的方法非常具有吸引力,它提供一種自適應估計傾向評分算法,可分析包含多個混雜變量和多種類型變量(連續(xù)的、名義的或有序的)的數(shù)據(jù)。由于GBM是一種非參數(shù)的估計方法,則可以避免模型被錯誤指定而導致因果效應估計有偏,且當處理變量和大量混雜變量之間的非線性關系,特別是當模型中混雜變量與處理變量之間的函數(shù)形式無法確定時,此方法的優(yōu)勢凸顯。

        本文醫(yī)學實例數(shù)據(jù)中包含大量的臨床信息且它們和丹紅合并5種的關系存在非線性的情況(如圖1)。雖然丹紅合并5種以下和丹紅合并5種以上的多數(shù)基線混雜變量在加權(quán)前存在較大差異,但經(jīng)過加權(quán)平衡以后,PS估計模型中所有混雜變量組間均值差異幾乎達到平衡(如表2),若不消除這些混雜變量的組間差異,則會影響對因果效應的估計。GBM提供更精確的傾向評分的估計對兩組混雜變量均值平衡的更好,且加權(quán)估計并沒有太大的提高因果效應估計的標準誤。GBM提供更精確的傾向評分e(X)的估計對兩組混雜變量均值平衡的更好,且加權(quán)估計并沒有太大的提高因果效應估計的標準誤??紤]到模型的復雜度,如果存在一些混雜變量對模型似然度的改善很小且它們在兩組的差異也幾乎很小,特別是如果能夠根據(jù)專業(yè)知識認為其中一些混雜變量和處理變量沒有太大相關性,則可以考慮排除這些混雜變量,最終只接受包括更小混雜變量集的傾向評分模型。

        雖然,GBM相比于其他模型有很多的優(yōu)勢,但研究人員在利用GBM傾向評分加權(quán)法的過程中必須適當?shù)恼{(diào)整估計PS的模型和估計因果效應的模型。(1)在估計PS的模型過程中,通過變量選擇的統(tǒng)計原則和臨床經(jīng)驗,納入分析的混雜變量;靈活確定估計傾向評分的模型函數(shù)形式確定,設置模型為4階的最高階交互項;再有,足夠大的迭代次數(shù)(本研究為20000)和足夠小的收縮系數(shù)(本研究為0.0005)能夠提供更好的模型,但是卻大大增加了迭代計算的復雜度,且同時減小混雜變量對模型的邊際改善,可能導致算法不收斂。因此,給定一個合適的交互項階數(shù)以及一個足夠小的收縮系數(shù),GBM很自然的成為一個估計傾向評分的有效工具。(2)GBM傾向評分對數(shù)據(jù)加權(quán)后,并不能完全平衡數(shù)據(jù)中每個混雜變量在兩組間的差異。雖然存在的差異并不大,且混雜變量在兩組的分布基本接近,但最好利用傾向評分加權(quán)結(jié)合線性回歸調(diào)節(jié)的方法對估計因果效應再進行估計,在加權(quán)后數(shù)據(jù)上構(gòu)建的Logistics回歸模型中加入適當?shù)幕祀s變量,可獲得雙穩(wěn)健的因果效應估計。當研究的處理對結(jié)局存在很強的因果效應時,則模型中對因果推斷的結(jié)果保持一致。本研究中對ALT的分析結(jié)果出現(xiàn)不一致的情況,說明本研究中“丹紅合并5種以上”對ALT異常變化的因果效應并不是很強。

        本研究利用GBM傾向評分加權(quán)法,對一組觀察性醫(yī)學數(shù)據(jù)按照以下過程:定義因果效應、估計傾向評分、傾向評分樣本加權(quán)、評估混雜因素平衡準則、PS加權(quán)的Logistics回歸估計平均因果效應、對潛在混雜識別的敏感性分析,進行了分析,以期指導相關醫(yī)學人員根據(jù)各自的研究項目進行相關的因果推斷研究。

        1 Mccall,R B,Green B.Social Policy Report,XVIII.2004.Beyond the methodological gold standards of behavioral research:Considerationsfor practiceand policy.

        2 West SG..Alternatives to randomized experiments.Current Directions in Psychological Science,2009,18(5):299-304.

        3 楊偉,易丹輝,謝雁鳴,等.基于GBM傾向評分法對疏血通注射液導致谷丙轉(zhuǎn)氨酶異常變化的影響分析.中國中藥雜志,2013,(18):3039-3047.

        4 Mercer S L,Devinney B J,Fine L J,et al.Study designs for effectiveness and translation research:Identifying trade-offs.American Journal of Preventative Medicine,2007,33(2):139-154.

        5 Sanson-Fisher R W,Bonevski B,Green L W,et al.Limitations of the randomized controlled trial in evaluating population-based health interventions.American Journal of Preventative Medicine,2007,33(2):155-161.

        6 Stuart E A,Perry D F,Le H N,Ialongo NS.Estimating intervention effects of prevention programs:Accounting for noncompliance.Prevention Science,2008,9:288-298.

        7 Shadish W R.,Cook T D.,Campbell D T.(2002).Experimental and quasi-experimental designs for generalized causal inference.Boston:Houghton-Mifflin.

        8 Harder V S.,Stuart E A,Anthony J.Propensity Score Techniques and the Assessment of Measured Covariate Balance to Test Causal Associations in Psychological Research.Psychological Methods,2010,15(3):234-249.

        9 Rosenbaum,P.(2002).Observational studies(2nd).New York:Springer-Verlag.

        10 Stuart EA.Matching Methods for Causal Inference:A review and a look forward.Statistical Science,2010,25(1):1-21.

        11 Rosenbaum PR.,Rubin D B.The central role of the propensity score in observational studiesfor causal effects.Biometrika,1983,70(1):41-55.

        12 Rosenbaum P R.,Rubin D B.Reducing bias in observational studies using sub-classification on the propensity score.J Am Stat Assoc,1984,79:516-524.

        13 Hirano K.,Imbens G.,Ridder G..Efficient estimation of average treatment effects using the estimated propensity score.Econometrica,2003,71:1161-1189.

        14 Hirano K.,Imbens G.Estimation of causal effects using propensity score weighting:An application to data on right heart catheterization.Health Servicesand Outcomes Research Methodology,2001,2:259-278.

        15 Mojtabai R.,Graff Zivin J.Effectiveness and cost-effectiveness of four treatment modalities for substance disorders:A propensity score analysis.Health Serv Res,2003,38:233-259.

        16 Harder V.S.,Stuart E.A.,Anthony J.Adolescent can nabisproblemsand young adult depression:Male-female stratified propensity score analyses.Am JEpidemiol,2008,168:592-601.

        17 Slade E P,Stuart E A,Salkever D S,et al.Impacts of age of onset of substance used is orders on risk of adult incarceration among disadvantage Durban youth:A propensity score matching approach.Drug Alcohol Depen,2008,95:1-13.

        18 McCaffrey D F,Ridgeway G,Morral A R.Propensity Score Estimation With Boosted Regression for Evaluating Causal Effects in Observational Studies.Psychological Methods,2004,9(4):403-425.

        19 Wooldridge J.(2001).Econometric analysis of cross section and panel data.Cambridge:MITPress.

        20 Friedman J H.Greedy function approximation:A gradient Boosting machine.Ann Stat,2001,29:1189-1232.

        21 Madigan D,Ridgeway G.Discussion of Least angle regression by Efron.Ann Stat,2004,32:465-469.

        22 Freund Y,Schapire R.A decision-theoretic generalization of on-line learning and an application to boosting.J Comput Sys Sc Int,1997,55:119-139.

        23 Ridgeway G.The state of boosting.Computing Science and Statistics,1999,31:172-181.

        24 Friedman J H,Hastie T,Tibshirani R.Additive logistic regression:A statistical view of Boosting.Ann of Stat,2000,28:337-374.

        25 Buhlmann P,Yu B.Boosting with the L2 loss:Regression and classification.JAm Stat Assoc,2003,98:324-339.

        26 West SG.,Biesanz JC,Pitts SC.Causal inference and generalization in field settings experimental and quasi-experimental designs.In H.T.Reis&C.M.Judd(Eds.),Handbook of research methods in social and personality psychology,2000:40-88.New York:Cambridge University Press.

        27 Rosenbaum P R,Rubin D B.Constructing a control group using multivariate matched sampling methods that incorporate the propensity score.Am Stat,1985,39:33-38.

        28 Tibshirani R.Regression shrinkage and selection via the lasso.J Roy Stat Soc,Series B,1996,58(1):267-288.

        29 Ridgeway G.,Mccaffrey D,Morral A.(2010).Toolkit for Weighting and Analysis of Nonequivalent Groups:A tutorial for the twang package.Packagemanual.

        30 Ridgeway G.Assessing the effect of race bias in post-traffic stop outcomes using propensity scores.Journal of Quantitative Criminology,2006,22(1):1-29.

        31 Huppler-Hullsiek K.,Louis T.A.Propensity score modeling strategies for thecausal analysisof observational data.Biostatistics,2002,2:1-15.32 Bang H.,Robins J.Doubly robust estimation in missing data and causal inferencemodels.Biometrics,2005,61:692-972.

        GBM Propensity Score Weighting for Causal Inference Research

        Yang Wei1,2,Tang Jinfa3,Yi Danhui4,Li Xuelin3,Li Weixia3,Zhou Xiaohua5
        (1.Instituteof Basic Research in Clinical Medicine China Academy of Chinese Medical Sciences,Beijing 100700,China;2.Collegeof Science,Minzu University of China,Beijing 100081,China;3.The First Affiliated Hospital of Henan University of TCM,Zhengzhou 450000,China;4.Center for Applied Statisticsof Renmin University of China,Beijing 100872,China;
        5.Beijing International Center for Mathematical Research,Peking University,Beijing 100871,China)

        ObjectiveIn observational studies or non-randomized design,the researchers'ability to make causal inferences from data was hampered by confounding factors.This study used this method to analyze a group of observational medical data in order to instruct relevant medical personnel to carry out their own causal inference studies.MethodsAt present,the four main types of propensity scoring methods:matching,stratification,inverse probability weighting and covariate adjustment have been widely used in the study of causal inference.Propensity score method can theoretically eliminate the bias of the observable confounding factors,so that the treatments variables are close to the result of random assignment design,thus,it is estimated that the treatment factor has a causal effect on the outcome.ResultsConsidering the advantages of the inverse probability weighting method over other methods,this paper summarizes the applicable conditions for the estimate of causal effect,particularly illustrates the use of a modern nonparametric statistical technology--Generalized Boosted Models(GBM)and its advantages and disadvantages.ConclusionWhen there is a lot of different types of confounding factors,and uncertain functional forms for their associations with treatment selection in linear,non-linear or interaction effect,and other issues,GBM propensity score weightingmethod can overcomethe obstaclesin theprocessof accurately estimatingpropensity score.

        GBM,Propensity Score Weighting,Causal Inference,Observational Studies,Non-randomized Design

        10.11842/wst.2017.09.009

        R33

        A

        2017-08-11

        修回日期:2017-09-12

        * 國家自然科學基金委青年科學基金項目(81502898):大型觀察性醫(yī)學數(shù)據(jù)的因果圖模型研究,負責人:楊偉;重大新藥創(chuàng)制專項子課題(2015ZX09501004-001-007):臨床需長期使用的中藥口服制劑安全性監(jiān)測研窮,負責人:李學林。

        ** 通訊作者:易丹輝,教授,博士生導師,主要研究方向:風險管理與保險、預測與決策;李學林,主任藥師,博士生導師,主要研究方向:中藥上市后再評價和中藥的應用形式研究

        *** 混雜因素也稱為混雜變量,這兩種說法本文會交替使用。

        (責任編輯:張娜娜,責任譯審:王 晶)

        猜你喜歡
        丹紅個體效應
        鈾對大型溞的急性毒性效應
        懶馬效應
        關注個體防護裝備
        勞動保護(2019年7期)2019-08-27 00:41:02
        應變效應及其應用
        42例丹紅注射液不良反應/事件報告分析
        個體反思機制的缺失與救贖
        學習月刊(2015年22期)2015-07-09 03:40:48
        How Cats See the World
        中學科技(2015年1期)2015-04-28 05:06:12
        丹紅注射液治療重型顱腦損傷并發(fā)腦梗死52例
        阿托伐他汀聯(lián)合丹紅注射液治療頸椎病腦供血不足48例
        丹紅注射液的不良反應及合理應用
        久久精品无码中文字幕| 亚洲精品中文字幕一二三区| 无码av不卡一区二区三区| 久久久精品人妻一区二区三区| 妺妺窝人体色www聚色窝韩国| 午夜精品人妻中字字幕| 午夜视频国产在线观看| 东京热人妻一区二区三区| 欧美日韩性视频| av免费在线手机观看| 中文字幕国产精品一二三四五区 | 大香蕉国产av一区二区三区| 久久99国产精品久久99果冻传媒 | 日本a天堂| 亚洲一区二区av偷偷| 偷拍色图一区二区三区| 国产av麻豆mag剧集| 久久久伊人影院| 日本精品啪啪一区二区| 未满十八18禁止免费无码网站| 国产影片中文字幕| 久久尤物av天堂日日综合| 亚洲av成熟国产精品一区二区| 国产精品无码av无码| 亚洲av无码资源在线观看 | 亚洲三级黄色| 丰满人妻被猛烈进入中文字幕护士| 午夜秒播久久精品麻豆| 国产激情内射在线影院| 在线观看一区二区女同| 日本一区二区三区丰满熟女| 又爽又黄又无遮挡网站| 在线高清精品第一区二区三区| 国产精品av免费网站| 亚洲成a∨人片在线观看无码 | 精品视频在线观看一区二区有| 中文字幕乱码熟女人妻在线| 撕开奶罩揉吮奶头视频| 日本加勒比东京热日韩| 国产精品亚洲一区二区三区在线看| 久久久无码精品亚洲日韩蜜臀浪潮|