魏夢(mèng)珂 周廣帥 范冰冰 呂嘉麗 張 濤△
中介分析在生物醫(yī)學(xué)、行為和社會(huì)科學(xué)研究中扮演著重要的角色,主要用來(lái)研究自變量和因變量之間的內(nèi)部作用機(jī)制。經(jīng)典的中介分析是針對(duì)單個(gè)中介變量的研究,近年來(lái),對(duì)于多元中介模型的研究也有一定的發(fā)展。隨著高通量檢測(cè)儀器和技術(shù)的發(fā)展,高維數(shù)據(jù)在許多科學(xué)領(lǐng)域變得越來(lái)越普遍,由于高維數(shù)據(jù)的特點(diǎn)(n
中介分析的基本模型見圖1(a),用Ai表示個(gè)體的暴露,其中,Ai=a(Ai=a′)表示個(gè)體暴露(未暴露)于某一研究因素,Mi表示中介變量,Yi為結(jié)果變量。傳統(tǒng)的中介分析要求研究變量為連續(xù)變量,且自變量和中介變量之間無(wú)交互作用,而實(shí)際研究數(shù)據(jù)往往難以滿足,限制了中介分析的應(yīng)用。Jo[1]和Sobel[2]提出了基于反事實(shí)理論的因果中介分析方法,該方法對(duì)研究變量的類型沒有限制,在一定程度上豐富了中介分析的應(yīng)用。
圖1 中介分析的路徑模型
同時(shí),在A和M無(wú)交互作用的情況下,按照效應(yīng)分解的原理可以將暴露A由a變?yōu)閍′時(shí)對(duì)結(jié)果的總效應(yīng)(total effect,TE)分解為自然間接效應(yīng)(natural indirect effect,NIE)和自然直接效應(yīng)(natural direct effect,NDE),表示為:TE=NDE+NIE。利用潛在結(jié)果符號(hào),可以將三種效應(yīng)定義為[4]:
NIE≡E[Yi(a,Mi(a))-Yi(a,Mi(a′))]
NDE≡E[Yi(a,Mi(a))-Yi(a′,Mi(a))]
TE≡E[Yi(a,Mi(a))-Yi(a′,Mi(a′))]
根據(jù)圖1(a)對(duì)中介變量和結(jié)果變量建模:
(1)
(2)
模型(1)中,αC為協(xié)變量C對(duì)M的效應(yīng)系數(shù),αA為暴露A對(duì)M的效應(yīng)系數(shù),εM為殘差項(xiàng);模型(2)中,βC為協(xié)變量C對(duì)Y的效應(yīng)系數(shù),βA為暴露A對(duì)Y的直接效應(yīng)系數(shù),βM為M對(duì)Y的效應(yīng)系數(shù),εY為殘差項(xiàng)。暴露通過(guò)中介變量對(duì)結(jié)果的間接效應(yīng)可以表示為αAβM,暴露對(duì)結(jié)果的直接效應(yīng)可以表示為βA,結(jié)合反事實(shí)理論可以將NIE和NDE定義為:
NIE=(a-a′)αAβM
NDE=(a-a′)βA
高維中介分析方法主要有兩種:一種是基于線性結(jié)構(gòu)方程模型(linear structural equation model,LSEM)懲罰的方法;另一種是基于主成分分析(principal components analysis,PCA)進(jìn)行降維的方法。此兩種方法都需要對(duì)中介變量和結(jié)果變量分別擬合模型。圖2為高維中介的一般模型,Ai表示個(gè)體的暴露;p維可能的中介變量Mij={Mi1,Mi2,…,Mip}(j=1,…,p),也可以表示為Mi(a)={Mi1(a),Mi2(a),…,Mip(a)},均為連續(xù)變量;Yi為結(jié)果變量,也為連續(xù)變量。εMij和εYi分別是中介變量Mij和結(jié)果變量Yi的殘差項(xiàng)。需要注意的是實(shí)際研究中還應(yīng)該考慮中介變量之間的關(guān)聯(lián)。
圖2 高維中介分析模型
因果中介分析的SUTVA、正值假設(shè)和各項(xiàng)混雜假設(shè)同樣適用于高維中介分析,且假設(shè)④在多元中介模型中較易實(shí)現(xiàn)[5]。用C表示q個(gè)觀測(cè)到的混雜變量,則可對(duì)每個(gè)研究對(duì)象擬合因變量模型(若因變量為二分類變量,則建立logistic回歸模型):
(3)
其中,βC=(βC1,…,βCq)T為協(xié)變量C對(duì)Y的效應(yīng)系數(shù);βM=(βM1,…,βMp)T為p個(gè)M對(duì)Y的效應(yīng)系數(shù);βAM=(βAM1,…,βAMp)T為暴露與中介變量之間的交互項(xiàng)系數(shù)集合。大多數(shù)研究中假設(shè)暴露與中介變量之間沒有交互作用,因此為后續(xù)的描述方便,本文假設(shè)該項(xiàng)不存在。一般認(rèn)為殘差項(xiàng)εYi服從均數(shù)為0,方差為σ2的正態(tài)分布。可以看出該結(jié)果模型納入了所有的候選中介變量,這相對(duì)于建立多個(gè)單中介模型有如下優(yōu)點(diǎn):只建立一個(gè)模型,提高了檢驗(yàn)效率;同時(shí)校正了其他的中介變量,考慮了中介變量之間的相關(guān)性,減少偏倚;可以評(píng)價(jià)特定間接效應(yīng)的大小。
(4)
Mi=(αAi⊕hiCi1⊕…⊕hqCiq)⊕εMi
hi對(duì)應(yīng)于協(xié)變量Ci,βM1k=0,1k為k個(gè)1的向量。
NDE:E[Yi(a,Mi(a′))-Yi(a′,Mi(a′))|Ci]=βA(a-a′)
這時(shí)候,他們的頭頂上已經(jīng)傳來(lái)鯤鼓翼的聲音。他們抬頭去看,宇晴師父坐在鵬背上,向他們俯沖過(guò)來(lái),李離、上官星雨、袁安三人雙足往山路上一點(diǎn),衣袂飄飄,身形如箭,向鯤鵬的翅背間跳丸飛彈般射來(lái)。正是宇晴指點(diǎn)他們練成的“點(diǎn)墨山河”擊水兮萬(wàn)里,縱翼兮排云,輕功之俊賞,與當(dāng)日宇晴在黃梁驛見到時(shí),已經(jīng)是天差地別,宇晴不由得心里一暖。
Zhao[16]和Chen[7]在利用近似彈性網(wǎng)和嶺回歸的基礎(chǔ)上也加入了增廣拉格朗日函數(shù)來(lái)增強(qiáng)約束條件:
值得注意的是,以上方法多是對(duì)回歸系數(shù)進(jìn)行懲罰估計(jì),而Zhao[16]的研究中同時(shí)對(duì)間接效應(yīng)αAjβMj進(jìn)行了懲罰。
目前文獻(xiàn)對(duì)高維中介效應(yīng)的檢驗(yàn)主要分為兩種:一種是分別檢驗(yàn)回歸系數(shù)αA和βM;另一種是對(duì)乘積項(xiàng)αAβM的直接檢驗(yàn)。對(duì)于成分?jǐn)?shù)據(jù)的中介效應(yīng)檢驗(yàn)和基于PCA分析的方法,都包括整體中介效應(yīng)(overall mediation effect,OME)檢驗(yàn)和單組分中介效應(yīng)(component-wise mediation effect,CME)檢驗(yàn)兩部分,其檢驗(yàn)方法基本是相同的,都是對(duì)乘積項(xiàng)αAβM的直接檢驗(yàn)。
1.回歸系數(shù)檢驗(yàn)法
(1)逐步法檢驗(yàn)(Baron and Kenny):多用于對(duì)單中介模型的回歸系數(shù)進(jìn)行檢驗(yàn),即首先檢驗(yàn)A對(duì)Y的總效應(yīng),若有統(tǒng)計(jì)學(xué)意義,再進(jìn)行后續(xù)檢驗(yàn);然后回歸系數(shù)αAj和βMj,二者均有統(tǒng)計(jì)學(xué)意義則認(rèn)為中介效應(yīng)存在;最后檢驗(yàn)回歸系數(shù)βAj,判斷中介效應(yīng)是完全中介還是部分中介。這種方法由于其為大眾熟知的對(duì)總效應(yīng)的限制及要求數(shù)據(jù)滿足正態(tài)分布的局限性,導(dǎo)致其檢驗(yàn)效能較低。而且對(duì)于高維數(shù)據(jù)來(lái)說(shuō)計(jì)算量很大,且未考慮中介變量之間的共線性,并不適用。
2.乘積項(xiàng)檢驗(yàn)法:
(4)貝葉斯后驗(yàn)概率法:首先用馬爾科夫鏈蒙特卡羅(MCMC)中的Hastings-within-Gibbs算法獲得聯(lián)合log后驗(yàn)分布的樣本;然后對(duì)每一個(gè)中介變量估計(jì)在有較大方差的正態(tài)分量中βM和αA的后驗(yàn)概率P(rmj=1,raj=1|Data),作為后驗(yàn)包含概率(the posterior inclusion probability),來(lái)評(píng)估貝葉斯變量選擇方法的中介效應(yīng)。rmj和raj是引入的指示βM和αA來(lái)源的變量。
① 將自變量和因變量打亂,隨機(jī)抽取置換檢驗(yàn)的樣本:A(b)和Y(b),b=1,…,B;
④ 得到P值:
該方法對(duì)總體分布的要求較自由,應(yīng)用較為廣泛。
近年來(lái),隨著高通量檢測(cè)技術(shù)和統(tǒng)計(jì)學(xué)方法的發(fā)展,醫(yī)學(xué)研究中的高維組學(xué)大數(shù)據(jù)(如基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀遺傳學(xué)、代謝組學(xué)、微生物學(xué)等)呈海量增長(zhǎng)。中介分析在疾病的病因推斷中有重要作用,可以打開系統(tǒng)流行病學(xué)的黑盒子,為疾病的機(jī)制研究、防治干預(yù)提供依據(jù)。然而由于高維組學(xué)數(shù)據(jù)具有變量多、稀疏、共線性等特點(diǎn),基于單變量的中介分析方法已經(jīng)不適用于這類數(shù)據(jù),故多位研究者對(duì)高維數(shù)據(jù)的中介分析方法進(jìn)行了探索。綜合各項(xiàng)研究可以發(fā)現(xiàn)今后對(duì)于高維中介分析的研究趨勢(shì)有以下幾點(diǎn):
1.模型發(fā)展方面,將所有的中介變量納入因變量模型是大家的共識(shí),然后對(duì)其建立LSEM,然而對(duì)于成分?jǐn)?shù)據(jù),還需要發(fā)展更合適的模型;而且大多數(shù)研究假設(shè)暴露和中介變量之間無(wú)交互,因此模型中是否納入交互項(xiàng)也需要進(jìn)一步探索。
2.效應(yīng)估計(jì)方面,目前對(duì)于效應(yīng)系數(shù)的估計(jì)主要是基于Lasso正則化及擴(kuò)展的方法,但由于Lasso估計(jì)有偏、不滿足Oracle性質(zhì)的缺點(diǎn),還需要發(fā)展更加合適的方法來(lái)篩選中介變量。
3.中介效應(yīng)的檢驗(yàn)方法,目前bootstrap和蒙特卡羅的檢驗(yàn)方法應(yīng)用較多,隨機(jī)森林和貝葉斯網(wǎng)絡(luò)的方法可能是未來(lái)的發(fā)展方向。
4.中介變量的解釋問(wèn)題,對(duì)于成分?jǐn)?shù)據(jù)和利用PCA進(jìn)行降維的中介分析,多是發(fā)現(xiàn)一組有中介效應(yīng)的變量,這對(duì)于成分?jǐn)?shù)據(jù)較為合適,但是對(duì)于為了發(fā)現(xiàn)特定中介路徑的研究來(lái)說(shuō),解釋較為困難。
5.敏感性分析,高維中介分析是在SUTVA和四項(xiàng)混雜假設(shè)的基礎(chǔ)上進(jìn)行的,由于真實(shí)數(shù)據(jù)多無(wú)法滿足這些假設(shè),故需要進(jìn)行敏感性分析,而目前只有Sohn[11]進(jìn)行了敏感性分析,故對(duì)于敏感性分析方法的探索也可能是未來(lái)的研究方向。
6.高維數(shù)據(jù)中協(xié)變量的選擇方法研究還不夠深入,對(duì)于潛變量的高維中介分析方法同樣需要進(jìn)一步研究[23],而且隨著高維縱向數(shù)據(jù)的增多,也對(duì)高維中介分析提出了新的挑戰(zhàn)。