胡純嚴 ,胡良平 ,2*
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在傳統(tǒng)的多重線性回歸分析中,有3個隱含的前提條件,即假定全部自變量是同時存在的、地位平等的、互相獨立的。而在許多實際問題中,某些自變量可能與另一些自變量之間并不獨立,甚至存在顯著的依賴關系[1]。因此,有必要將自變量劃分成3種類型:處理變量(T)、中介變量(M)和協(xié)變量(C)。劃分的依據、如何定義和識別變量之間的因果中介效應,是因果中介效應分析的基本內容。本文先介紹因果中介效應分析的理論基礎,再結合一個實例,分別采用傳統(tǒng)的多重線性回歸分析[2]、不考慮協(xié)變量和考慮協(xié)變量的因果中介效應分析[3],展示協(xié)變量在因果中介效應分析中的作用,并對分析結果進行比較和解釋。
在研究變量之間的依賴關系時,最簡單的做法是將全部變量劃分為自變量和因變量。這種劃分是基于前述提及的3個隱含的前提條件,但在很多實際問題中,這些前提條件并不能滿足。于是,統(tǒng)計學家將自變量劃分為處理變量、中介變量和協(xié)變量[3]。處理變量:對結果變量Y有直接和間接因果效應的變量。在流行病學中,處理變量常被稱為暴露與否。中介變量:處理變量T對其有直接因果效應,而它本身對結果變量Y又有直接因果效應。協(xié)變量:對處理變量T、中介變量M和結果變量Y都可能有影響的一組預處理或背景變量,它們混淆了觀測到的Y、T和M之間的關系。
最簡單的因果中介效應包括以下兩種因果途徑。直接途徑:T→Y;中介途徑:T→M→Y。第一個因果途徑產生T對Y的直接效應,第二個因果途徑產生T對Y的間接效應。假設Y、T和M都是連續(xù)變量,如果研究者忽略了因果關系,使用線性模型的形式構建Y關于T的回歸模型,見式(1)。
式(1)中,e是一個誤差項,其期望值為0,γ0是一個截距,則γ1被稱為T對Y的總效應。該總效應是T對Y的總效應,而不涉及特定路徑。一般來說,Y、T和M之間的關系由兩個線性回歸模型描述。見式(2)、式(3)。
式(2)和式(3)中,ε和δ是期望值為0的誤差項,這兩個回歸模型的參數如下:β0是預測M的回歸模型的截距,θ0是預測Y的回歸模型的截距,β1是T→M路徑的效應,θ1是T→Y路徑的效應,θ2是M→Y路徑的效應。將預測M的回歸模型[式(2)]代入預測Y的回歸模型[式(3)]中,得到式(4)。
回歸模型(4)是回歸模型(1)的另一種表現(xiàn)形式,故它們等號右邊的三項是對應相等的,于是,第二項的系數可寫成如下關系式,見式(5)。
假設線性回歸模型為真,則式(5)等號右側的兩個分量相加表示總效應。因為第一個分量θ1代表T→Y路徑的直接效應,第二個分量θ2β1代表T對Y的非直接效應,或者只是T對Y的間接效應。研究者也可以直觀地解釋這個間接效應(θ2β1),它是沿著間接路徑T→M→Y而產生的效應。因此,從概念上講,總效應分解可寫作式(6)。
直接和間接效應分量也由連續(xù)變量Y、T和M的線性回歸模型中的參數定義。然而,總效應分解的說明在本質上是非常特別的,它基于對連續(xù)變量的線性回歸模型進行比較,沒有直接和間接效應的先驗定義。因此,對于T和M之間存在相互作用效應的非線性模型或線性模型,式(6)將不成立。一個原因是分解中可能有2個以上的項,故直接-間接分解是不準確的;另一個原因是,在非線性模型中,各種效應會變得更加復雜,如何獲得這些直接和間接效應分量尚不清楚。
通常情況下,協(xié)變量C會成為前述提及的三類變量Y、T和M的共同原因。在觀察性研究中,Y、T和M之間的關聯(lián)分為兩部分:一部分是它們之間的實際因果關系;另一部分是C誘導的關聯(lián),這部分誘導的關聯(lián)通常被稱為混淆關聯(lián)。為了在觀察性研究中獲得因果中介和相關效應的無偏估計,統(tǒng)計分析方法必須能夠“消除”混淆關聯(lián)。
傳統(tǒng)回歸分析方法的一個問題是:缺乏一個提供因果中介和相關效應的明確定義的總體框架,故無法有效處理交互效應,無法在統(tǒng)一的框架內處理二值結果變量和二值中介變量。反事實框架為這個問題提供了解決方案[4-5]。在反事實框架內,直接和間接的效應都是根據反事實的結果來定義的。根據這些定義得出了分析結果,用于計算各種類型處理變量和結果變量的廣泛參數模型下的因果中介效應[6]。有學者將這些結果擴展到了二值中介變量和計數結果變量,這一發(fā)展路線為因果過程提供了理論基礎[7]。
反事實結果是研究者在假設干預下觀察到的結果,即可能與事實結果相反的情景。以下符號用于表示干預措施的反事實結果:Yt是處理變量的水平被設置為T=t時,受試者的結果變量Y的反事實結果;Mt是處理變量的水平被設置為T=t時,受試者的中介變量M的反事實結果;Ytm是處理變量的水平被設置為T=t以及中介變量的水平被設置為M=m時,受試者的結果變量Y的反事實結果。這些符號對變量類型沒有限制,變量Y、T和M可以是連續(xù)的,也可以是二值的。
假設處理變量是二值變量,t的取值是0或1,分別表示對照組和處理組。受試者的總效應(Total effect,TE)被定義為處理和對照水平的反事實結果的差異。見式(7)。
式(7)等號右邊的2項中,Y的第一個下標表示處理變量的具體取值(為1或0);第二個下標表示中介變量的具體取值(為M1或M0),M1為T=1條件下中介變量的取值,M0為T=0條件下中介變量的取值。
受試者的受控直接效應(controlled direct effect,CDE)被定義為兩個處理水平的反事實結果的差異,即中介變量被設置為特定水平M=m時,見式(8)。
受試者的自然直接效應(natural direct effect,NDE)被定義為兩個處理水平的反事實結果的差異,即中介變量的水平被設置為M=M0,這是沒有中介變量參與時處理變量的自然水平,見式(9)。
受試者的自然間接效應(natural indirect effect,NIE)被定義為處理變量的水平被設置為T=1時,M1和M0兩個中介水平的反事實結果的差異,見式(10)。
如果處理變量是連續(xù)的,那么必須根據感興趣的處理和控制水平來定義處理變量的水平。例如,如果t1和t0是連續(xù)變量的處理和控制水平,并且,它們代表了實質性關注的水平,則它們應分別替換定義中處理和控制水平的1和0值。
以上給出的定義有兩個重要屬性:①它們導致總效應TE的以下常規(guī)雙向分解,見式(11);②它們獨立于結果或中介模型。因此,它們和總效應分解適用于線性或非線性模型,無論T和M之間是否存在交互效應。
中介的總效應百分比(percentage of total effect that is mediated,PM)計算方法見式(12)。
VanderWeele[8]進一步介紹了總效應的以下四向分解,見式(13)。
式(13)中,CDE為受控直接效應,IRF為參考相互作用,IMD為中介相互作用,PIE為純間接效應,這4個組成部分的效應也被定義為反事實結果。
2.1.1 資料來源與背景信息
【例1】文獻[3]提供的例子:仿照Marjoribanks討論的理論教育模式[9],模擬了一組數據,旨在了解父母提供的鼓勵性環(huán)境(Encourage)是否會影響兒童的認知發(fā)展(CogPerform)。一個關鍵問題是,父母鼓勵的效應是否部分歸因于它增強了兒童的學習動機(Motivation)。父母鼓勵效應可能通過以下兩種途徑來體現(xiàn),直接途徑:Encourage→CogPerform;中介途徑:Encourage→Motivation→CogPerform。在中介分析的術語中,Encourage是處理變量或暴露變量,Motivation是中介變量,CogPerform是結果變量。假定已按照某種規(guī)則產生出300個觀測數據的模擬樣本,保存在名為Cognitive的數據集中,在此數據集中,每個觀測有六個變量值,其名稱和含義如下。CogPerform:兒童在認知測試中的得分;Encourage:問卷中關于父母鼓勵行為的三個項目的總分;FamSize:兒童所在家庭的規(guī)模;Motivation:兒童、教師和主要監(jiān)護人對兒童動機水平的評分;SocStatus:兒童的社會地位,是家庭收入、父母職業(yè)和父母受教育程度的綜合衡量標準;StudentID:兒童的編號。其中,F(xiàn)amSize和SocStatus是背景或預處理變量(簡稱協(xié)變量),研究者希望在觀測各種因果效應時對其進行控制。試基于以上資料,分析處理變量、中介變量和協(xié)變量對結果變量的因果中介效應。
2.1.2 創(chuàng)建用于因果中介效應分析的數據集
設所需要的SAS程序如下:
【說明】詳細數據見文獻[3],此處從略。
2.2.1 基于傳統(tǒng)的多重線性回歸分析方法計算
【分析與解答】設所需要的SAS程序如下:
【SAS程序說明】model語句的等號后列出了4個變量,即把協(xié)變量(FamSize和SocStatus)、處理變量(Encourage)和中介變量(Motivation)視為地位平等的自變量。
【SAS主要輸出結果及解釋】因篇幅所限,輸出結果從略。現(xiàn)將主要內容解釋如下:兩個協(xié)變量(FamSize和 SocStatus)對結果變量(CogPerform)的影響無統(tǒng)計學意義,將它們刪除后重新建模,主要輸出結果見表1。
表1 精簡后的傳統(tǒng)多重線性回歸分析結果Table 1 Simplified traditional multiple linear regression analysis results
與模型中保留2個協(xié)變量所得到的結果(此處未輸出)相比,由表1可看出:處理變量(Encourage)和中介變量(Motivation)對結果變量(CogPerform)的影響略有提升,說明被刪除的兩個協(xié)變量對處理變量(Encourage)和中介變量(Motivation)的混淆作用似乎不嚴重。
2.2.2 因果中介效應回歸分析的計算
2.2.2.1 不考慮協(xié)變量的影響
【分析與解答】以下語句調用proc causalmed來估計各種效應,而不控制協(xié)變量。設所需要的SAS程序如下:
【SAS程序說明】proc causalmed語句中的all選項顯示所有可用輸出。model語句指定了CogPerform的結果模型,該模型受Encourage和Motivation變量的影響。mediator語句指定了Motivation的中介模型,該模型僅受Encourage變量的影響。
【SAS主要輸出結果及解釋】總共有三部分輸出結果。第一部分主要輸出結果見表2。所有效應估計和百分比估計都具有統(tǒng)計學意義。總效應估計值為8.042,分解為自然直接效應(NDE=4.284)和自然間接效應(NIE=3.759)。估計的受控直接效應(CDE)為4.284,在默認情況下,以中介變量動機的平均值進行評估。在當前模型中,CDE與NDE相同。中介變量所占百分比為46.738%。表明在父母鼓勵對兒童認知發(fā)展的效應中,只有不到一半可歸因于兒童學習動機的增強。
表2 計算所得的總效應、直接效應和中介效應的匯總Table 2 Summary of calculated total,direct and mediated effects
第二部分主要輸出結果見表3。結果變量(CogPerform)模型的參數估計和假設檢驗的結果,截距項和兩個回歸系數與0之間差異均有統(tǒng)計學意義。說明處理變量和中介變量對結果變量(CogPerform)的正向影響是不可忽視的。
表3 含處理變量和中介變量的模型中參數的估計結果Table 3 Estimation results of parameters in the model with treatment variable and mediated variable
第三部分主要輸出結果見表4。由結果可知:父母的鼓勵(Encourage)對中介變量(Motivation)的積極影響是不可忽視的。
2.2.2.2 考慮協(xié)變量的影響
雖然前面的分析結果是可以解釋的,但它沒有充分利用因果中介效應分析過程中可用的因果分析技術。為了從觀測數據中得出有效的因果解釋,研究者必須對所有重要的混雜背景變量(即協(xié)變量)進行統(tǒng)計控制。假設FamSize和SocStatus是需要控制的混雜變量,設所需要的SAS過程步程序如下:
主要輸出結果見表5。由表5可知,處理變量對結果變量的總效應為6.844,比分析中不包括混雜協(xié)變量的總效應8.042(表2中的第二行第二列)低了約1.200。這種差異表明,所觀測到的處理變量和結果變量之間的關聯(lián),部分是由它們和協(xié)變量之間的關聯(lián)所致。未對協(xié)變量進行調整,導致表2中對總因果效應的估計過高。當前分析中的NDE為4.296,與之前的分析結果接近。然而,NIE為2.547,比表2中的NIE低1.212。此外,中介變量所占百分比為37.222%,比表2中的中介變量所占百分比(46.738%)低9.516%。
表5 考慮協(xié)變量的總效應、直接效應和中介效應匯總Table 5 Summary of total,direct and mediated effects considering covariates
因此,進行因果中介效應分析應考慮以下3點:①當資料中包含中介變量時,不適合采取傳統(tǒng)的多重線性回歸分析;②當資料中包含協(xié)變量時,不應在忽視協(xié)變量的情況下進行因果中介效應分析;③觀測數據的因果分析可能涉及許多其他需要關注的假設,因篇幅所限,此處從略。
在對本文例1的分析中,有一個隱含的假設,即處理變量和中介變量與結果變量之間沒有交互作用。事實上,該假設不一定成立。Proc causalmed過程支持具有交互作用的結果模型;在許多實際問題中,數據必須滿足時間條件,以便觀測處理變量對結果變量的效應、處理變量對中介變量的效應以及中介變量對結果變量的效應。有時,多重線性回歸分析顯示,協(xié)變量對結果變量的影響無統(tǒng)計學意義,而因果中介效應分析則顯示協(xié)變量的作用不可忽視。
本文介紹了因果中介效應分析的理論基礎,通過一個實例演示了如何使用SAS實現(xiàn)因果中介效應分析。理論基礎主要包括基本概念和定義因果中介效應的反事實框架兩個部分;通過采用多種方法分析例1,其結果提示應注意以下兩點:其一,當資料中存在中介變量時,不適合采用傳統(tǒng)的多重線性回歸模型進行分析;其二,在因果中介效應分析中,不應忽視協(xié)變量的作用。