CSCO生物統(tǒng)計學(xué)專家委員會RWS方法學(xué)組
高 雪1 薛付忠2 黃麗紅3 王 彤1△ 執(zhí)筆 陳 峰4 夏結(jié)來5 主審
隨機對照試驗(randomized controlled trial,RCT)是評價因果效應(yīng)的金標準,但由于受到倫理學(xué)、受試者依從性、研究期限等因素的制約,很多情況下難以實施。另外,RCT中納入排除標準的限制可能導(dǎo)致研究樣本與真實世界的人群出現(xiàn)異質(zhì)性,因此研究結(jié)論的外推性也有待驗證。相比之下,觀察性研究和非隨機對照研究數(shù)據(jù)更易獲得,在樣本的選擇上也更接近真實世界的情況[1]。然而,觀察性或非隨機對照研究設(shè)計需借助恰當(dāng)?shù)囊蚬P蛠硗茢啾┞兑蛩?干預(yù))與疾病結(jié)局之間的因果關(guān)聯(lián)。
孟德爾隨機化(Mendelian randomization,MR)是以遺傳變異作為工具變量的統(tǒng)計模型。MR最早由Katan在探討低血清膽固醇水平會直接增加癌癥風(fēng)險的假設(shè)中提出,近年來被廣泛應(yīng)用于因果關(guān)聯(lián)研究中[2-4]。MR利用遺傳變異在配子形成過程中隨機分裂與組合的特性模擬對人群的隨機分配過程:個體在出生時是否攜帶影響特定表型的遺傳變異是隨機的,而遺傳變異在配子形成過程中既已確定,這一過程通常與后天的環(huán)境混雜因素是不相關(guān)的。因此,攜帶該變異與不攜帶該變異的人群在某結(jié)局上的差異則可以歸因于暴露因素的變異,從而排除混雜因素的干擾[5](圖1)。利用遺傳變異作為工具變量的主要優(yōu)勢在于:遺傳變異的形成獨立于社會環(huán)境、生活習(xí)性和其他性狀,這一特性保證了各個混雜因素在遺傳變異的不同亞組間的均衡性,理論上避免了混雜因素的影響;另一方面,遺傳變異的形成先于環(huán)境暴露、混雜及疾病結(jié)局的發(fā)生及水平變化,由遺傳變異作為暴露的工具變量所解釋的暴露變異也是先于結(jié)局的,由此排除了逆向因果問題[6]。
圖1 孟德爾隨機化和隨機對照試驗的比較
MR模型作為一種能夠校正未測量混雜估計因果效應(yīng)的統(tǒng)計學(xué)方法,在醫(yī)學(xué)研究中得到廣泛的應(yīng)用,但針對模型的應(yīng)用前提、核心假設(shè)、分析步驟以及結(jié)果解釋等問題,還需進行一些必要的考慮與評價。為此中國臨床腫瘤學(xué)會(CSCO)生物統(tǒng)計學(xué)專家委員會RWS方法學(xué)小組,經(jīng)充分討論,形成以下應(yīng)用共識,以期促進MR模型的規(guī)范化應(yīng)用和規(guī)范化報道。
遺傳變異作為有效的工具變量需要滿足以下核心假設(shè)(圖2):
圖2 工具變量核心假設(shè)Z:工具變量;X:暴露;Y:結(jié)局;U:混雜
(1)關(guān)聯(lián)性:遺傳變異Z與暴露X相關(guān)(γ≠0);
(2)獨立性:遺傳變異Z與影響“暴露—結(jié)局”關(guān)聯(lián)關(guān)系的混雜因素U獨立(φ1=0);
(3)排他性:遺傳變異Z僅通過暴露X影響結(jié)局Y(φ2=0) 。
按照研究設(shè)計的不同,MR模型可以分為單樣本MR模型與兩樣本MR模型。
單樣本MR模型是指使用來自單個樣本的數(shù)據(jù)構(gòu)建MR模型,模型主要應(yīng)用個體數(shù)據(jù)(individual data)作為研究樣本,樣本中同時包含每一個體的遺傳變異、暴露以及結(jié)局的測量數(shù)據(jù)。
系數(shù)比估計量(比例估計值)的置信區(qū)間可通過正態(tài)近似法或Bootstrapping法得到。
此外,還可通過兩階段回歸法得到因果效應(yīng)的估計量。其中第一階段由暴露X對工具變量Z進行回歸,第二階段由結(jié)局Y對第一階段所得到的暴露估計值進行回歸。當(dāng)結(jié)局為連續(xù)變量且采用線性模型時,該兩階段回歸法即為兩階段最小二乘法(two stage least square,2SLS),第二階段回歸時所得到的回歸系數(shù)即為暴露對結(jié)局的因果效應(yīng)估計值[7]。當(dāng)使用多個遺傳變異作為工具變量時,2SLS估計量可以看作各工具變量所對應(yīng)的系數(shù)比估計量的加權(quán)平均,其中權(quán)重取各工具變量在第一階段回歸時與暴露的關(guān)聯(lián)強度。選用系數(shù)比估計或2SLS估計要依據(jù)所擁有的樣本數(shù)據(jù)情況來決定。當(dāng)存在多個工具變量時,還可以將多個遺傳變異整合為一個加權(quán)或非加權(quán)的等位基因得分(allele score),或稱為基因風(fēng)險得分(genetic risk score),再以得分作為工具變量構(gòu)建MR模型[8-9]。
兩樣本MR模型中使用的遺傳變異與暴露的關(guān)聯(lián)關(guān)系統(tǒng)計量以及遺傳變異與結(jié)局的關(guān)聯(lián)關(guān)系統(tǒng)計量分別來源于兩個獨立的、不重疊的樣本。模型主要應(yīng)用匯總數(shù)據(jù)作為研究樣本,樣本數(shù)據(jù)中僅包含遺傳變異與暴露及結(jié)局的關(guān)聯(lián)關(guān)系匯總統(tǒng)計量(包括關(guān)聯(lián)估計值、標準誤、顯著性P值等)。匯總數(shù)據(jù)一般來源于基于大樣本的全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS),因此保證了兩樣本MR模型對因果效應(yīng)的估計具有較高的效能,同時也提高了研究結(jié)果的可重復(fù)性。
應(yīng)用滿足核心假設(shè)的工具變量是MR模型得到有效估計的必要條件,然而,由GWAS中獲取的絕大部分與暴露具有顯著關(guān)聯(lián)的遺傳變異,并未完全掌握其關(guān)聯(lián)的生物學(xué)機制,應(yīng)用這些生物學(xué)機制尚不明確的遺傳變異作為工具變量增加了其違背核心假設(shè)的可能。除工具變量核心假設(shè)外,不同類型的MR方法還有一些特定的前提假設(shè),當(dāng)假設(shè)違背時,將會得到有偏的、不一致的估計量。以下介紹MR模型在實際應(yīng)用過程中面臨的局限性問題,以及如何克服這些局限性,從而得到有效的估計量。
應(yīng)用強度高的工具變量可以有效提高MR模型估計因果效應(yīng)的精度及效能,而當(dāng)遺傳變異與暴露關(guān)聯(lián)性較弱時,會導(dǎo)致MR模型的估計量產(chǎn)生偏倚,稱之為弱工具變量偏倚。當(dāng)構(gòu)建單樣本MR模型時,估計量將會向受到混雜影響的觀察性研究估計量的方向偏倚,且會造成Ⅰ型錯誤率(假陽性率)膨脹,當(dāng)構(gòu)建兩樣本MR模型且兩個樣本無明顯重疊時,估計量將會向效應(yīng)為零的方向偏倚[11]。
在MR模型中,常用Cragg-DonaldF統(tǒng)計量來評價工具變量的強度,弱工具變量所導(dǎo)致的偏倚大小和該統(tǒng)計量的期望值是相對應(yīng)的。一個經(jīng)驗法則是工具變量強度F統(tǒng)計量至少為10,當(dāng)F小于10時,因果效應(yīng)的估計量會出現(xiàn)嚴重的偏倚[12]。另外,F(xiàn)統(tǒng)計量與“工具變量—暴露”的關(guān)聯(lián)顯著性P值是對應(yīng)的,該P值通常作為工具變量的篩選閾值。為了保證模型中工具變量具有足夠的強度,現(xiàn)有MR模型通常將全基因組顯著性水平(P<5×10-8)作為閾值篩選工具變量,從而避免潛在的弱工具變量偏倚[12]。另外,當(dāng)MR模型中工具變量的平均強度較弱時,還可以應(yīng)用一些改進的MR模型,如基于修正權(quán)重的IVW,Egger-SIMEX等模型來校正潛在的弱工具變量偏倚[13-14]。
多效性是指遺傳變異通過多種不同的路徑對某一性狀產(chǎn)生影響[15]。當(dāng)利用多效性遺傳變異作為工具變量時,相當(dāng)于構(gòu)造了“工具變量—暴露—結(jié)局”路徑之外的其他通路,從而使得工具變量因違背核心假設(shè)而失效(圖3)。應(yīng)用存在多效性的工具變量會導(dǎo)致所研究的因果通路的效應(yīng)估計產(chǎn)生偏倚,Ⅰ型錯誤率增加[16]。遺傳變異的多效性效應(yīng)是普遍存在的,而其對于MR模型的影響又是不可忽略的,因此如何排除多效性效應(yīng)對于估計的影響是MR模型在實際應(yīng)用中不可忽視的問題[17]。
圖3 多效性工具變量Z:工具變量;X:暴露;Y:結(jié)局
針對MR模型的多效性偏倚問題,目前的校正方法主要分為兩類:第一類方法首先識別并排除存在多效性的工具變量,再利用剩余無多效性的工具變量構(gòu)建MR模型進行因果效應(yīng)估計??山梃b識別離群點的思想來識別多效性工具變量,其基本思想是:基于有效工具變量得到的比例估計值應(yīng)是同質(zhì)的,比例估計值之間的差異應(yīng)是隨機的。此時多個比例估計值應(yīng)基本分布在一條直線附近,而這條直線的斜率所代表的就是暴露與結(jié)局之間真實的因果效應(yīng)值。反之,當(dāng)某一工具變量對應(yīng)的比例估計值與其他比例估計值之間存在顯著的異質(zhì)性時,則提示該工具變量違背核心假設(shè)。比例估計值之間的異質(zhì)性主要來源于多效性工具變量,由于多效性效應(yīng)被摻入因果效應(yīng)通路中,導(dǎo)致對應(yīng)的比例估計值產(chǎn)生偏倚,從而與其他工具變量所對應(yīng)的比例估計值相比體現(xiàn)出顯著的異質(zhì)性[18]。
實際研究中,可以通過散點圖、漏斗圖等可視化方法結(jié)合統(tǒng)計檢驗方法識別多效性工具變量。常用的檢驗方法包含Q統(tǒng)計量檢驗[13,18]、MR-PRESSO異質(zhì)性檢驗(mendelian randomization pleiotropy residual sum and outlier)[19]、HEIDI檢驗(heterogeneity in dependent instrument)[20]等。識別并剔除多效性工具變量后,可采用全局Q統(tǒng)計量檢驗、全局PRESSO檢驗、MR-Egger截距項檢驗等方法來評價剩余工具變量的多效性[21]。若剩余工具變量所對應(yīng)的比例估計值已不存在異質(zhì)性,則提示無多效性工具變量,接下來則可應(yīng)用基于無多效性工具變量假設(shè)構(gòu)造的MR模型進行效應(yīng)估計[10,22]。
另一類方法為直接采用基于校正多效性偏倚的MR模型進行因果效應(yīng)估計,這類模型允許工具變量存在多效性,在此情況下校正工具變量的多效性效應(yīng),同時估計暴露對結(jié)局的因果效應(yīng)?;谛U嘈云械腗R模型中,基于個體數(shù)據(jù)的方法包含sisVIVE(some invalid some valid instrumental variable estimator)[23]、TSHT(two-stage hard thresholding)[24]、PRMR(pleiotropy-robust mendelian randomization)[25]等;基于匯總數(shù)據(jù)的方法包含MR-Egger[21]、基于中位數(shù)的估計(median-based estimate)[26]、基于眾數(shù)的估計(mode-based estimate)[27]、CAUSE(causal analysis using summary effect estimates)[28]模型等。
具體研究中,常利用基于不同假設(shè)的MR模型進行敏感性分析,并比較各種方法所得結(jié)果的差異性,從而評估研究結(jié)果對于多效性假設(shè)的穩(wěn)健程度[29]。不同方法所得到的估計量若是一致的,提示多效性工具變量所引入的潛在偏倚被有效的校正,而不同模型所得到的估計量若有顯著的差異,則提示現(xiàn)有模型對于多效性工具變量較為敏感,有必要更進一步的進行分析與校正[30]。
連鎖不平衡(linkage disequilibrium,LD)描述的是遺傳變異之間的相關(guān)性,這種相關(guān)性通常是由遺傳變異之間物理位置的臨近所導(dǎo)致的。遺傳變異之間存在LD時,每個遺傳變異提供的信息不獨立,當(dāng)利用這些不相互獨立的遺傳變異作為工具變量時,則會導(dǎo)致效應(yīng)估計產(chǎn)生偏倚。因此在構(gòu)建MR模型時應(yīng)盡量選擇相互獨立的遺傳變異作為工具變量,而當(dāng)工具變量間存在LD時,可應(yīng)用納入工具變量相關(guān)性信息的模型,如GSMR(generalized summary data-based MR)[22],從而避免連鎖不平衡問題對于模型的影響。
人群分層是指遺傳變異與表型性狀的關(guān)聯(lián)性在不同種族或者國家的子群體中的異質(zhì)性。這種異質(zhì)性會導(dǎo)致遺傳變異作為工具變量無法實現(xiàn)對于混雜因素的隨機化過程,從而產(chǎn)生有偏的效應(yīng)估計[31]。為了避免人群分層問題,在構(gòu)建MR模型時通常選擇同種族人群作為研究對象;在統(tǒng)計分析上,可以針對潛在的異質(zhì)性因素進行分層分析,或利用主成分分析方法進行校正,從而排除由于人群分層問題導(dǎo)致的虛假關(guān)聯(lián)出現(xiàn)[32]。
MR模型估計因果效應(yīng)的統(tǒng)計效能與納入模型中的工具變量所解釋的暴露變異比例相關(guān),在樣本含量一定時,工具變量對暴露變異的解釋比例越高,模型的統(tǒng)計效能越高。因此,構(gòu)建MR模型時要保證工具變量對于暴露變異的總體解釋比例在一個較高的水平,從而保證模型具有充足的統(tǒng)計效能[33]。單個遺傳變異對暴露變異的解釋作用通常是很小的,因此現(xiàn)有MR模型通常選定多個遺傳變異作為工具變量,從而增加工具變量對于暴露變異的解釋比例,提高估計的統(tǒng)計效能。在模型構(gòu)建上,Radial IVW[13]、Three-sample MR[34]、MRMix[35]等模型通過放寬工具變量與暴露關(guān)聯(lián)的顯著性閾值納入更多的工具變量,同時校正由于弱工具變量的引入導(dǎo)致的潛在偏倚,從而提高模型的統(tǒng)計效能與估計精度。
樣本含量是決定MR模型統(tǒng)計效能的另外一個主要因素。遺傳變異的個體數(shù)據(jù)通常是難以獲取的,并且由于研究經(jīng)費限制,單個研究只包含較小的樣本含量,因此基于個體數(shù)據(jù)的MR模型統(tǒng)計效能往往較低。相比之下,基于GWAS的匯總數(shù)據(jù)所構(gòu)建的MR模型在數(shù)據(jù)獲取,成本效率上具有更明顯的優(yōu)勢,而數(shù)以十萬甚至百萬計的樣本含量同時也保證了估計具有較高的統(tǒng)計效能。因此,目前研究大多利用匯總統(tǒng)計量構(gòu)建MR模型,極大程度上推動了不同性狀與疾病之間因果推斷的研究。
另外,在選定工具變量構(gòu)建MR模型進行因果效應(yīng)估計之前,可以根據(jù)數(shù)據(jù)類型、樣本含量、工具變量個數(shù)等指標選取適當(dāng)?shù)慕y(tǒng)計效能先驗估計方法來預(yù)測模型的統(tǒng)計效能[36-38]。
在對MR模型得到的因果效應(yīng)估計量進行解釋時,需要注意的一點是,遺傳變異所解釋的暴露變異只是暴露總變異中的一部分,因此利用遺傳變異作為暴露的工具變量來估計其對結(jié)局的因果效應(yīng),所得到的效應(yīng)值也只是由工具變量所決定的這一部分暴露變異對結(jié)局的效應(yīng),而由其他非遺傳因素所決定的暴露變異對于結(jié)局的效應(yīng),是無法通過MR模型獲得的。嚴格來說,由MR所得到的暴露對結(jié)局的效應(yīng)估計量不能完全等同于真實的因果效應(yīng)[39]。另外,在設(shè)計嚴謹,工具變量核心假設(shè)滿足的情況下,MR模型可以為暴露與結(jié)局之間是否具有因果關(guān)聯(lián)提供統(tǒng)計學(xué)上的線索,為后續(xù)更明確的試驗研究及機制探索提供理論依據(jù),但任何單一的研究方法都無法完全明確因果關(guān)系。真實的因果關(guān)聯(lián)應(yīng)結(jié)合疾病的生物學(xué)機制、完善的試驗及臨床研究結(jié)果等多方面證據(jù)綜合進行探討[40]。
在實證研究中,構(gòu)建MR模型進行因果效應(yīng)估計主要包含以下步驟:根據(jù)研究設(shè)計選擇合適的樣本并收集數(shù)據(jù);選擇與暴露相關(guān)的遺傳變異作為工具變量;根據(jù)樣本數(shù)據(jù)的不同類型(個體數(shù)據(jù)、匯總數(shù)據(jù))選擇合適的MR模型進行估計與推斷;根據(jù)統(tǒng)計分析結(jié)果做出客觀的、合理的解釋。上述步驟中需要注意的問題已在第二部分進行了詳細的論述,總結(jié)來說,在構(gòu)建MR模型進行實證研究時,需要對模型的假設(shè)及工具變量核心假設(shè)是否滿足進行充分的評估,并對模型進行合理的選擇與正確的應(yīng)用,以確保統(tǒng)計結(jié)論的有效性。下面以結(jié)果檢查報告表的形式給出MR模型的應(yīng)用報道指南。
表1 MR模型結(jié)果報告檢查表