徐藝耘 劉振球 樊 虹 張 欣 施婷婷 吳 聲 張鐵軍,2△
(1復旦大學公共衛(wèi)生學院流行病學教研室 上海 200032;2復旦大學義烏研究院 義烏 322000)
孟德爾隨機化(Mendelian randomization,MR)是借助遺傳變異(genetic variation)作為工具變量(instrumental variable,IV)來推斷暴露因素與結局之間因果關聯(lián)的方法,有效避免了反向因果關聯(lián)和潛在混雜因素導致的偏倚。隨著全基因組關聯(lián)研究(genome-wide association study,GWAS)的增多,孟德爾隨機化分析廣泛應用于觀察性流行病學研究中。傳統(tǒng)孟德爾隨機化分析方法,如逆方差加權法(inverse-variance weighted,IVW),假定所有的遺傳變異均滿足工具變量的3 個核心假設[1]:(1)工具變量與暴露因素之間有強相關(關聯(lián)性假設);(2)工具變量與混雜因素無關聯(lián)(獨立性假設);(3)工具變量只能通過暴露因素對結局產(chǎn)生作用,不能通過其他途徑影響結局發(fā)生(排他性假設)。當工具變量存在多效性時,因果效應的估計則會有偏[2]。MR-Egger 回歸是在IVW 的基礎上修正而來的一種基于匯總數(shù)據(jù)的多工具變量孟德爾隨機化方法。與IVW 不同的是,該方法僅需滿足工具變量多效性效應獨立于工具變量與暴露因素之間的關聯(lián)(instrument strength independent of direct effect,InSIDE)假設和無測量誤差(no measurement error,NOME)假設,不如工具變量的3 個核心假設要求嚴格。同時,該方法既能檢測多效性又能校正多效性偏倚,所以在以多個遺傳變異作為工具變量的研究中,采用MR-Egger 回歸能夠保持孟德爾隨機化方法的有效性。 本研究將對MR-Egger 回歸進行闡述,并用此方法探索高密度脂蛋白膽固醇(highdensity lipoprotein cholesterol,HDL-C)與冠狀動脈疾?。╟oronary artery disease,CAD)之間的因果關聯(lián)。
基本原理MR-Egger 回歸是由Bowden 等[3]于2015年提出,廣泛運用于采用多個單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)作為工具變量進行因果推斷的孟德爾隨機化分析中,尤其適用于遺傳變異存在定向多效性的情況。該方法的核心在于加權線性回歸時考慮截距項的存在,利用截距項來衡量工具變量間平均多效性的大小,斜率則是因果效應的無偏估計。MR-Egger 回歸的效用取決于兩個前提:第一,InSIDE 假設要求SNP 對暴露因素的影響獨立于它們對結局的多效性影響,弱化了排他性假設;第二,NOME假設要求工具變量與暴露因素的關聯(lián)中不存在測量誤差,I2統(tǒng)計量可以評估是否滿足NOME 假設,如果不滿足,則會產(chǎn)生弱工具變量偏倚[4]。
記J 個工具變量為Gj(j=1,2,…,J),暴露因素為X,結局為Y,工具變量Gj 對暴露因素X 和結局Y的效應估計值分別為β?Xj和β?Yj及其對應的標準誤為和,遺傳變異與結局之間的關聯(lián)可表示為:
其中,αj 表示工具變量Gj 對結局Y 的直接影響,當αj≠0 時,工具變量具有多效性;θ 表示暴露因素X 對結局Y 的影響;θβXj則為工具變量Gj 通過暴露因素X 對結局Y 的間接影響[5]。
對于滿足工具變量所有假設的單一遺傳變異Gj(αj = 0),暴露因素X 對結局Y 的因果效應可被一致性地估計為關聯(lián)估計的比值,比值及相應的標準誤分別為:。
由于MR-Egger 回歸并沒有限制截距項為0,回歸方程可表示為:
當InSIDE 假設和NOME 假設均滿足時,θ是因果效應的無偏估計[6]:
若滿足InSIDE 假設但不滿足NOME 假設,因果效應估計值則會有偏:
其中,s2為測量誤差,s2= 0 時才滿足NOME 假設;I2統(tǒng)計量是在Meta 分析中評估研究間異質(zhì)性的工具,的大小可用來估計,代表SNP-暴露關聯(lián)的真實方差,取值范圍為0~1,越接近1,MR-Egger回歸的估計越接近真實因果效應。其中,Cochran’s Q 統(tǒng)計量是評估工具變量間異質(zhì)性的工具,是SNP-暴露關聯(lián)的平均值。
IVW 法是由Burgess 等[2]于2013年提出的一種加權線性回歸模型。與MR-Egger 回歸不同,該方法限制回歸直線通過原點,將兩個或多個SNP 的效應值進行整合,因果效應估計值為:
實例分析HDL-C 資料來自全球脂質(zhì)遺傳學(Global Lipids Genetics Consortium,GLGC)數(shù)據(jù)庫(http://csg. sph. umich. edu/willer/public/lipids2013/),該數(shù)據(jù)庫中有關基因位點與HDL-C的GWAS 研究結果發(fā)表于2013年,該研究樣本量為94595 人,分析了2418527 個與HDL-C 相關的SNP 位 點[7]。 與HDL-C相關的SNP篩選標準:(1)達到全基因組統(tǒng)計顯著性水平,即P<5×10-8;(2)去除連鎖不平衡(linkage disequilibrium,LD)的SNPs,排除標準為r2>0.01,kb= 5000,篩選出125個與HDL-C 相關且相互獨立的SNP,提取每個SNP 的rs 編號、效應等位基因(effect allele,EA)和次要等位基因(non-effect allele,non-EA)、β 系數(shù)、P值和標準誤。 CAD 數(shù)據(jù)來源于2018年Van Der Harst 等[8]發(fā)表的GWAS 統(tǒng)計結果,該研究將CARDIoGRAMplusC4D[Coronary Artery Disease Genome wide Replication and Meta-analysis(CARDIoGRAM) plus The Coronary Artery Disease(C4D)Genetics]的數(shù)據(jù)與英國生物銀行(UK Biobank,UKBB)的CAD 數(shù)據(jù)進行GWAS分析,共包括547216 人,其中病例組122733 人,對照組424528 人,分析了69033 個與CAD 相關的SNP位點。 設置最小等位基因頻率MAF=0.01,從GLGC 數(shù)據(jù)庫篩選的SNP 在CAD 來源的GWAS研究中均存在,經(jīng)等位基因?qū)R后,rs11637365、rs3790106、rs4986970、rs6589581 和rs964184 由于存在回文結構被剔除,最終有120 個SNP 作為工具變量分析HDL-C 與CAD 的因果關聯(lián)。上述研究人群均為歐洲血統(tǒng),具有相似的年齡和性別,符合兩樣本孟德爾隨機化分析的要求。 利用R4.0.3 中的TwoSampleMR 包進行兩樣本孟德爾隨機化分析,檢驗水準α=0.05。 因果效應分析使用IVW 法和MR-Egger 回歸,對比兩者差異;敏感性分析包括利用MR-Egger 回歸進行多效性檢驗(pleiotropy test)和逐個剔除檢驗(leave-one-out sensitivity test),“l(fā)eave-one-out”是指逐一剔除SNP,分別計算剩下SNP 的合并效應,如果剔除某個SNP 后其他SNP估計出來的MR 結果和總結果相差很大,說明MR結果對該SNP 是敏感的。
本研究針對HDL-C 和CAD 選取有效SNP 作為IV,經(jīng)篩選確定了120 個SNP 作為IV,表1 列出了前10 個SNP 的相關信息。采用MR-Egger 回歸和IVW 法估計因果效應(表2)。 IVW 結果支持HDL-C 和CAD之間存在因果關系(OR=0.82,95%CI:0.75~0.89),且HDL-C 每增加1 個標準差,CAD 風險降低18%。而MR-Egger 法不支持(OR=0.96,95%CI:0.83~1.11),即HDL-C 對CAD 的發(fā)生風險沒有影響。多效性檢驗結果顯示,MR-Egger回歸的截距為-0.01,P=0.008,說明因果分析結果會受到水平多效性的影響。在水平多效性存在的情況下,傳統(tǒng)孟德爾隨機化方法IVW 的估計出現(xiàn)了偏差,MR-Egger 回歸則能識別并校正多效性,給出接近真實值的因果估計。敏感性分析結果見圖1,所有線條均在0 的左側,說明無論去除哪個SNP 都不會對結果產(chǎn)生根本影響,即孟德爾隨機化的結果穩(wěn)健。
表1 工具變量SNP 信息Tab 1 Information of the instrumental variable SNP
表2 因果效應估計Tab 2 Estimation of causal effects
圖1 逐個剔除檢驗Fig 1 Leave‐one‐out sensitivity analysis
早期孟德爾隨機化研究傾向于使用單一遺傳變異,并集中在單一研究人群中的特定危險因素與疾病的關聯(lián)研究。近年GWAS 中大量增長的基因型-表型關聯(lián)導致眾多暴露因素的大量遺傳變異被識別出來[9]。許多遺傳變異被認為具有多效性效應,要證明排他性假設的成立幾乎不可能。 MREgger 回歸區(qū)別于傳統(tǒng)孟德爾隨機化方法之處在于放寬了SNP 之間不存在水平多效性的要求,它假設在基因-暴露關聯(lián)和基因變異對結果的直接影響之間沒有相關性,是比更嚴格的排他性標準更弱的要求,即使所有工具變量是無效的,MR-Egger 回歸也能得到準確的因果效應估計[10]。因此,在工具變量存在多效性的情況下,MR-Egger 回歸是一個更好的選擇。
本研究借助GLGC 數(shù)據(jù)庫和Van Der Harst 的GWAS 統(tǒng)計結果,提取與HDL-C 和CAD 均密切相關且相互獨立的SNP 作為工具變量,利用MREgger 回歸和IVW 法進行兩樣本孟德爾隨機化分析,估計HDL-C 和CAD 的因果關聯(lián)并進行比較。IVW 結果顯示兩者之間具有因果關系,HDL-C 對于CAD 有保護作用,但IVW 法假設截距為0,未考慮所納入的工具變量的基因多效性;而MR-Egger回歸并不局限于截距為0,是在IVW 基礎上的修正,同時考慮基因多效性對結果的影響,因此給出了并不一致的估計結果,即HDL-C 與CAD 之間不存在因果關聯(lián),與以往孟德爾隨機化研究結果相吻合[11]。隨后的逐一剔除檢驗顯示MR-Egger 結果更具有穩(wěn)健性。因此,MR-Egger 回歸在孟德爾隨機化分析中有較好的應用價值。
與傳統(tǒng)孟德爾隨機化方法相比,MR-Egger 回歸的偏倚更小,而且因果無效假設的排斥率更接近名義上的5%[3]。MR-Egger 回歸的局限性是它在因果估計方面的統(tǒng)計效力較低。如果沒有證據(jù)表明IVW 和MR-Egger 之間存在系統(tǒng)性差異,那么通常采用IVW,雖然IVW 可能不那么穩(wěn)健,但在此情況下,IVW 估計值的精度更高。有研究者指出MREgger 回歸應被視為一種敏感性分析,用來檢驗是否違反工具變量假設,而不是作為上述更常見方法的替代[12]。實際應用時應結合多種方法的結果進行綜合考量,如果多種方法的結果一致,則結論更為可靠,從而更好地應用于傳統(tǒng)觀察性流行病學研究,為病因推斷提供更強有力的證據(jù),并有利于為未來疾病預防的干預目標設定優(yōu)先級。
作者貢獻聲明徐藝耘 查閱文獻,論文構思、撰寫和修訂,數(shù)據(jù)統(tǒng)計分析。劉振球,樊虹,張欣,施婷婷,吳聲 結果解釋,論文修改。 張鐵軍論文構思、指導和修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。