王 晶 張國(guó)燕 程 杉
(首都醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院醫(yī)學(xué)遺傳學(xué)與發(fā)育生物學(xué)學(xué)系,北京 100069)
2022年是被稱為“現(xiàn)代遺傳學(xué)之父”的格雷戈?duì)枴っ系聽?Gregor Mendel)誕辰200周年,他通過(guò)研究發(fā)現(xiàn)的分離規(guī)律及自由組合規(guī)律,作為遺傳學(xué)的三大基本規(guī)律之二,奠基了整個(gè)現(xiàn)代遺傳學(xué)。1986年,Katan[1]基于孟德爾發(fā)現(xiàn)的自由組合規(guī)律的思想,提出了一種遺傳流行病學(xué)研究方法,即孟德爾隨機(jī)化分析(Mendelian randomization analysis,MR),其原理基于所有的DNA在減數(shù)分裂時(shí),遺傳變異(genetic variants, G)隨機(jī)獨(dú)立地組合,因此,對(duì)于某個(gè)性狀(如:乙醇脫氫酶的酶活性),人群可以依據(jù)與其表達(dá)水平直接相關(guān)的遺傳變異(如:ALDH2基因的rs671多態(tài))的基因型進(jìn)行分類[如:AA(正常酶活性)、AG(50%酶活性)及GG(無(wú)酶活性)3組]),這種大自然的隨機(jī)化設(shè)計(jì)恰巧類似遺傳流行病學(xué)研究中常用的隨機(jī)對(duì)照試驗(yàn)(randomized controlled trial, RCT)。
因此,如果某個(gè)遺傳變異與感興趣的暴露因素(X)相關(guān),且與結(jié)果(Y)無(wú)關(guān),那么該遺傳變異可以作為“工具變量”(instrumental variable, IV)來(lái)代表暴露因素,從而推斷暴露因素對(duì)結(jié)果的因果影響[2-3]。在觀察性研究中,因果方向往往不明確,即X是否導(dǎo)致Y或Y是否導(dǎo)致X,而MR方法通過(guò)將遺傳變異作為IV,更好地幫助研究人員確定因果方向,從而解決觀察性研究中常見的混雜和反向因果問(wèn)題,得出更接近因果關(guān)系的結(jié)論[4]。
近年來(lái),MR分析在醫(yī)學(xué)研究中的應(yīng)用加速發(fā)展,得益于以下幾個(gè)方面:首先,IV選擇自由度的提升,IV與X相關(guān)度越高,因果估計(jì)越可靠。大規(guī)?;蚪M數(shù)據(jù)的公開數(shù)據(jù)庫(kù)使得全基因組關(guān)聯(lián)分析研究(genome-wide association studies,GWAS)及通過(guò)各種高通量組學(xué)技術(shù)獲得的數(shù)量性狀位點(diǎn)(quantitative trait locus,QTL)[表達(dá)數(shù)據(jù)(expressin QTL, eQTL),宏基因組數(shù)據(jù)(microbial environmental genome QTL,mbQTL)及甲基化數(shù)據(jù)(methylation QTL,mQTL)等]研究對(duì)基因組變異認(rèn)知程度的飛躍,顯著擴(kuò)展了與表現(xiàn)型相關(guān)強(qiáng)IV的選擇[5];第二,隨著全球范圍內(nèi)大規(guī)模隊(duì)列研究和生物銀行的建立,越來(lái)越多的人群遺傳數(shù)據(jù)及臨床數(shù)據(jù)可供研究人員使用,這有助于增加MR分析的統(tǒng)計(jì)功效和可靠性[6];第三,研究人員不斷改進(jìn)MR分析的統(tǒng)計(jì)方法,顯著提高了因果推斷的準(zhǔn)確性[7]。
本文將從MR分析的基本假設(shè)及常見設(shè)計(jì)類型,MR分析在具體實(shí)施方案中的關(guān)鍵挑戰(zhàn)及MR分析的應(yīng)用前景等幾個(gè)方面進(jìn)行闡述。
MR分析的根基是由遺傳變異作為IV,而有效的IV需同時(shí)滿足以下3個(gè)關(guān)鍵假設(shè)定義[8-9]:
(1)相關(guān)性假設(shè)(relevance assumption):即相關(guān)性,遺傳變異G必須與感興趣的風(fēng)險(xiǎn)因素X相關(guān)聯(lián)。這意味著這些變異可以影響暴露因素的變異。這個(gè)假設(shè)的合理性取決于G是否真的與X相關(guān),以及G對(duì)X的影響程度。
(2)獨(dú)立性假設(shè)(independence assumption):即獨(dú)立性,遺傳變異G不能與Y存在共同的原因。換句話說(shuō),G對(duì)Y的影響不能通過(guò)其他因素介導(dǎo)。這是為了避免混雜的影響,確保G對(duì)Y的影響是直接的。
(3)排除限制假設(shè)(exclusion restriction assumption):即排他性,遺傳變異G對(duì)Y的影響必須僅通過(guò)X進(jìn)行介導(dǎo)。即G不能直接影響Y,而必須通過(guò)其關(guān)聯(lián)的X來(lái)影響Y。這個(gè)假設(shè)的合理性確保了遺傳變異作為工具變量的有效性。
MR分析發(fā)展至今,有多種不同的設(shè)計(jì)類型,同類問(wèn)題的多次MR研究對(duì)比能更好地闡述MR實(shí)施方案的發(fā)展和革新,如以探究心血管疾病——冠狀動(dòng)脈粥樣硬化性心臟病(coronary artery disease,CAD)、心肌梗死(myocardial infarction,MI)等的風(fēng)險(xiǎn)因素而采用多次不同MR分析方法的研究為例:
單階段MR(one stage Mendelian randomization):為最早的MR,研究通過(guò)假設(shè)G-X關(guān)聯(lián),同時(shí)G-Y關(guān)聯(lián),推測(cè)X與Y關(guān)聯(lián),類似“黑盒算法”,研究中使用一兩個(gè)已知的遺傳變異來(lái)作為IV,通過(guò)MR分析進(jìn)行因果推斷,研究[10]利用一個(gè)遺傳變異,KIV-2 基因重復(fù),作為IV,該遺傳變異重復(fù)次數(shù)升高,與脂蛋白(a)水平降低相關(guān),同時(shí)該遺傳變異重復(fù)次數(shù)升高與MI發(fā)生的風(fēng)險(xiǎn)降低也相關(guān),由此得出了遺傳數(shù)據(jù)支持脂蛋白(a)水平升高與MI風(fēng)險(xiǎn)增加之間的因果關(guān)系的推論。然而,這種方法由于因果關(guān)聯(lián)的效應(yīng)大小無(wú)法用數(shù)值估計(jì)而未能廣泛應(yīng)用。
單樣本MR(one sample Mendelian randomization):為對(duì)于同一數(shù)據(jù)集的進(jìn)階研究方法,假設(shè)一個(gè)遺傳變異G與某個(gè)特定的表型特征暴露X相關(guān)聯(lián),那么該遺傳變異G也應(yīng)該與該表型特征的結(jié)果Y相關(guān)聯(lián),利用最小二乘法回歸模型(two-stage least squares,2SLS)統(tǒng)計(jì)分析方法進(jìn)行計(jì)算,提供因果推斷的依據(jù)。如Patrick等[11]研究,通過(guò)關(guān)聯(lián)分析確定的LDLR基因內(nèi)單核苷酸多態(tài)性(single nucleotide polymorphism, SNP) rs2228671的T等位基因可降低低密度脂蛋白膽固醇(low density lipoprotein-cholesterol,LDL-C)水平(擁有0,1,2個(gè)T等位基因的LDL-C水平分別為:基線,-3 mg/dL,-6 mg/dL),同時(shí),該等位基因與CAD的風(fēng)險(xiǎn)顯著降低相關(guān)。通過(guò)邏輯回歸及MR模型計(jì)算,表明LDLR基因座的遺傳變異與LDL-C的變化以及CAD的風(fēng)險(xiǎn)之間存在功能性聯(lián)系。但是,單樣本MR僅限于單個(gè)樣本,IV的選擇范圍比較有限,且因果關(guān)系僅來(lái)自同一數(shù)據(jù)集,容易受弱工具偏倚(weak instrument bias)[12]、水平多效性(horizontal pleiotropy)干擾影響。
兩樣本MR(two sample Mendelian randomization):以往MR分析常用的外部數(shù)據(jù)集大多來(lái)自Meta分析,但隨著技術(shù)的發(fā)展和遺傳數(shù)據(jù)的增加,尤其是隨著GWAS成為探索基因與疾病關(guān)聯(lián)的主要方法之一,大量由GWAS研究產(chǎn)生的SNP及拷貝數(shù)變異(copy number variation,CNV)等作為潛在IV的強(qiáng)大數(shù)據(jù)來(lái)源,利用這些SNP或CNV與表型特征(例如暴露因素X或疾病結(jié)果Y)之間的關(guān)聯(lián)來(lái)推斷因果關(guān)系[13-14]。而且,大量的GWAS研究數(shù)據(jù)結(jié)果的共享及全球協(xié)作組的建立,打破了單樣本MR需要在同一樣本中同時(shí)測(cè)量X(暴露因素)及Y(疾病結(jié)果)才可進(jìn)行分析的短板,研究人員可以利用分別來(lái)自相似人口背景的兩個(gè)不同數(shù)據(jù)集,一個(gè)用于分析GWAS數(shù)據(jù)中G和X(暴露因素)之間的關(guān)聯(lián),另一個(gè)用于分析G和Y(疾病結(jié)果)之間的關(guān)聯(lián),并通過(guò)樣本量?jī)?yōu)勢(shì)及優(yōu)化的統(tǒng)計(jì)分析方法保障更好的因果估計(jì)及敏感性分析,這種“借力打力”的研究方法被稱為MR。如在觀察實(shí)驗(yàn)[15]提示維生素 E 對(duì)心臟有保護(hù)作用,而干預(yù)試驗(yàn)未能證實(shí)其有益作用,甚至一些研究[16]報(bào)告了維生素 E 補(bǔ)充劑對(duì)CAD的不利影響。Wang等[17]基于GWAS研究的數(shù)據(jù)進(jìn)行了一項(xiàng)兩樣本MR研究,以調(diào)查維生素 E 與 CAD 風(fēng)險(xiǎn)之間的因果關(guān)系。根據(jù)GWAS結(jié)果,rs964184、rs2108622 和 rs11057830 作為與暴露“維生素E”關(guān)聯(lián)的IV;而與CAD/MI及LDL-C/三酰甘油(triglyceride,TG)/總膽固醇(total cholesterol,TC)關(guān)聯(lián)的IV則選自大型生物數(shù)據(jù)庫(kù)“冠狀動(dòng)脈疾病全基因組驗(yàn)證和Meta分析與冠狀動(dòng)脈疾病遺傳學(xué)聯(lián)盟”[即CARDIoGRAMplusC4D: Coronary Artery Disease Genome Wide Replication and Meta-analysis (CARDIoGRAM) Plus the Coronary Artery Disease (C4D) Genetics]及“國(guó)際脂遺傳學(xué)聯(lián)盟”(即Global Lipids Genetics Consortium),研究結(jié)果顯示,維生素E的攝入增高會(huì)同時(shí)增加LDL-C、TG和TC的濃度,且較高的維生素 E 可能會(huì)增加 CAD/MI 的風(fēng)險(xiǎn)。兩樣本MR也是在目前大數(shù)據(jù)背景下最常見的MR設(shè)計(jì)類型,但是要注意的是,由于兩樣本MR需要使用外部數(shù)據(jù),可能會(huì)引入選擇性偏倚,如使用GWAS研究結(jié)果作為IV而產(chǎn)生的勝利者效應(yīng)(Winner’s Curse),導(dǎo)致IV與X之間的關(guān)聯(lián)被高估,而因果關(guān)聯(lián)被低估[18]等問(wèn)題。
雙向MR(bidirectional Mendelian randomization,BMR):在觀察性研究中,因果關(guān)系可能是雙向的,即X可能導(dǎo)致Y,同時(shí)Y也可能導(dǎo)致X,排除反向因果也是在單樣本MR及兩樣本MR研究中的一個(gè)弱勢(shì)。與傳統(tǒng)的兩樣本MR相比,BMR分析方法可以解決潛在的“因果交織”問(wèn)題,該方法的本質(zhì)是兩樣本MR的變體,專門用于評(píng)估兩個(gè)潛在相互關(guān)聯(lián)的因素之間的因果關(guān)系。研究方案是同時(shí)在兩個(gè)方向分別進(jìn)行兩樣本MR分析,試圖確定因果關(guān)系的方向,從而避免了反向因果關(guān)系所引起的混淆,更全面地理解因果關(guān)系。如一些觀察性臨床研究提示CAD和房顫(atrial fibrillation,AF)相互加重,Tao等[19]通過(guò)雙向MR的方法評(píng)估CAD和AF之間的因果關(guān)聯(lián),根據(jù)結(jié)果提示CAD患者與AF風(fēng)險(xiǎn)升高相關(guān),而在AF患者中卻未發(fā)現(xiàn)與CAD風(fēng)險(xiǎn)的因果關(guān)聯(lián)。
兩階段MR(two step Mendelian randomization,TSMR):在因果推斷中有一個(gè)重要的概念,“Collider偏差”(Collider bias),指的是當(dāng)一個(gè)變量被作為中介因素或共同因素同時(shí)影響兩個(gè)其他變量時(shí),可能引入虛假的相關(guān)性或偏倚,如“冰淇淋消費(fèi)與溺水事件增加相關(guān)”,但實(shí)際上并不是冰淇淋與溺水之間有真正的因果關(guān)系,而是在夏季時(shí),人們更容易消費(fèi)冰淇淋和游泳,從而引發(fā)了Collider偏差。針對(duì)這個(gè)問(wèn)題,兩樣本MR的另一個(gè)變體——TSMR可以用于評(píng)估探討中介變量是否介導(dǎo)了暴露X對(duì)結(jié)果Y的影響,不僅僅局限于單一因素與某一結(jié)果的關(guān)聯(lián),適用于尋找多個(gè)因素之間的復(fù)雜關(guān)系,通過(guò)“拆包”的方法推測(cè)暴露X到結(jié)果Y的發(fā)生機(jī)制。如Lin等[20]研究采用了兩階段MR方法,以血糖和血脂風(fēng)險(xiǎn)因素為中介變量,確定血糖和血脂風(fēng)險(xiǎn)因素在體質(zhì)量指數(shù)(body mass index,BMI)對(duì)CAD的影響中是否有介導(dǎo)作用。研究分別分析了BMI對(duì)CAD、2型糖尿病、空腹血糖、胰島素、糖化血紅蛋白(hemoglobin A1c, HbA1c)、LDL-C、高密度脂蛋白膽固醇(high density lipoprotein-cholesterol,HDL-C)和TG等血糖和血脂風(fēng)險(xiǎn)因素的影響,以及血糖和血脂風(fēng)險(xiǎn)因素與CAD的因果關(guān)系。研究結(jié)果顯示,升高的TG濃度和糖代謝不良可能介導(dǎo)了BMI對(duì)CAD的影響。
以上5種MR分析就是目前主流的MR分析類型的發(fā)展趨勢(shì),每種設(shè)計(jì)類型都有其優(yōu)勢(shì)和值得改進(jìn)的地方。單階段 MR 簡(jiǎn)單易行,適用于單個(gè)暴露因素和單個(gè)結(jié)果變量的情況,但可能受到IV假設(shè)不滿足和遺傳變異的限制。單樣本 MR 操作簡(jiǎn)便,無(wú)須外部數(shù)據(jù),適用于單個(gè)暴露因素和單個(gè)結(jié)果變量,但更容易受到弱工具偏倚、水平多效性干擾等影響。兩樣本 MR 提供更豐富的數(shù)據(jù)來(lái)源選擇,能夠評(píng)估因果關(guān)系在不同群體中的一致性,更好地控制水平多效性問(wèn)題,但外部數(shù)據(jù)的引入,可能引入選擇性偏倚。雙向 MR 提供更全面的因果關(guān)系信息,可以支持因果路徑的雙向驗(yàn)證,但需要同時(shí)滿足兩個(gè)方向的IV假設(shè)。兩階段 MR 支持多個(gè)因果關(guān)系的同時(shí)評(píng)估,可以發(fā)現(xiàn)復(fù)雜的因果網(wǎng)絡(luò),但I(xiàn)V的有效性受到遺傳變異的強(qiáng)度和頻率影響,同時(shí)需要更多的數(shù)據(jù)和統(tǒng)計(jì)分析,結(jié)果的解釋更具挑戰(zhàn)。表1中將上述5種MR主要類型的基本原理、分析方法、優(yōu)勢(shì)、弱勢(shì)及潛在改進(jìn)方向進(jìn)行了歸納匯總。
表1 常見的孟德爾隨機(jī)化設(shè)計(jì)類型特點(diǎn)Tab.1 Common designs of Mendelian randomization designs and their characteristics
本文第二部分提到過(guò)MR分析的核心假設(shè)有3個(gè):相關(guān)性、獨(dú)立性和排他性。
MR分析的首要步驟是選擇滿足MR分析的核心假設(shè)的IV。在實(shí)際研究中,如果關(guān)聯(lián)的暴露是某個(gè)mRNA表達(dá)水平或循環(huán)中的某種蛋白質(zhì)時(shí),一般用單個(gè)基因的變異;而當(dāng)關(guān)聯(lián)的暴露是某個(gè)復(fù)雜性狀,也就是遺傳學(xué)概念中的多基因性狀時(shí),則IVs需要用多個(gè)基因的區(qū)域表示。確保IV與目標(biāo)表型特征X之間存在穩(wěn)健的強(qiáng)關(guān)聯(lián)是確保因果推斷可靠性的首要步驟,由于GWAS的顯著性閾值設(shè)定是根據(jù)同時(shí)檢測(cè)百萬(wàn)變異進(jìn)行顯著性矯正,即5×10-8,因此,在IV的篩選中一般以與暴露關(guān)聯(lián)P<5×10-8作為顯著性閾值。事實(shí)上,在3個(gè)核心假設(shè)中滿足相關(guān)性是最容易實(shí)現(xiàn)的,而確保滿足獨(dú)立性和排他性需要注意以下幾個(gè)關(guān)鍵點(diǎn):
1)破壞相關(guān)性和獨(dú)立性原則的“弱工具偏倚”
近年來(lái)GWAS和QTL作為復(fù)雜性狀關(guān)聯(lián)研究的熱點(diǎn),研究量井噴,這些數(shù)據(jù)集的公開共享極大的擴(kuò)充了研究人員對(duì)IV的選擇余地,但根據(jù)“常見疾病,常見變異”思想,即便達(dá)到顯著性閾值,其實(shí)篩選出的每個(gè)SNP對(duì)表型的貢獻(xiàn)都是微效的,不僅如此,對(duì)于復(fù)雜性狀來(lái)說(shuō),整體遺傳對(duì)于暴露的解釋都僅為較小的一部分,使得MR研究比傳統(tǒng)的流行病學(xué)估計(jì)具有更寬的置信區(qū)間(confidence interval,CI)[21];此外,受到混雜因素影響,即遺傳變異通過(guò)暴露外的其他因素影響結(jié)果,因此雖然IV技術(shù)在有混雜因素的情況下是近似無(wú)偏倚,但I(xiàn)V在有限的樣本量下,會(huì)出現(xiàn)遺傳變異只能解釋小部分暴露或關(guān)聯(lián)強(qiáng)度不夠的情況,被稱為“弱工具偏倚”[12-13]。
弱工具偏倚的大小取決于遺傳變異與暴露之間的關(guān)聯(lián)強(qiáng)度,單樣本MR研究中弱工具偏倚會(huì)偏向產(chǎn)生假陽(yáng)性的結(jié)果,而兩樣本MR研究中會(huì)傾向低估關(guān)聯(lián)的結(jié)果[22]。在研究中,須通過(guò)F統(tǒng)計(jì)量(F-statistic)來(lái)衡量、評(píng)估及排除。具體來(lái)說(shuō),在回歸模型中,1/F統(tǒng)計(jì)量為回歸方程中IV估計(jì)量的偏差與觀察估計(jì)量的比值,如IV估計(jì)量的偏差是觀察估計(jì)量偏差的10%時(shí),F=10。F統(tǒng)計(jì)量的值越大,說(shuō)明模型中的IV對(duì)暴露X的解釋能力越強(qiáng),因此,將F>10作為經(jīng)驗(yàn)閾值判定IV的強(qiáng)度。R2及統(tǒng)計(jì)功率等也被用于剔除弱工具變量。
2)違反獨(dú)立性原則的連鎖不平衡和人口分層
在某些基因座位上,變異位點(diǎn)可能在進(jìn)化過(guò)程中保持在一起,這種現(xiàn)象被稱為連鎖不平衡(linkage disequilibrium)。當(dāng)兩個(gè)或多個(gè)位點(diǎn)之間存在連鎖不平衡時(shí),意味著一個(gè)位點(diǎn)上的變異信息可能提供了有關(guān)另一個(gè)位點(diǎn)的信息,在作為IV候選時(shí),可能違反獨(dú)立性原則。另一個(gè)需要關(guān)注的則是人口分層(population stratification),指研究受試者群體由于地理、種族和族群差異,分為不同的亞群或亞型,這些亞群之間可能存在遺傳和/或環(huán)境上的差異。這些差異可能導(dǎo)致了不同亞群之間基因型、表型和關(guān)聯(lián)結(jié)構(gòu)的差異,干擾特征相關(guān)的遺傳因素的篩選。
為了避免這樣的影響,在MR實(shí)踐當(dāng)中,可通過(guò)使用多個(gè)獨(dú)立基因位點(diǎn)作為IV的組合,減輕單個(gè)IV的連鎖不平衡的影響,同時(shí)使用協(xié)變量(例如,如通過(guò)主成分分析獲得人口學(xué)特征)進(jìn)行協(xié)變量平衡檢測(cè)(covariate balance testing),檢測(cè)不同人口子集之間的差異,并采取合適的統(tǒng)計(jì)方法來(lái)校正差異,確保MR分析中獨(dú)立性原則的滿足,減輕連鎖不平衡和人口分層對(duì)研究結(jié)果的潛在干擾,提高因果推斷的可靠性。
3)違反獨(dú)立性和排他性原則的“水平多效性”
敏感性分析是評(píng)估結(jié)果的關(guān)鍵一步,雖然這步操作通常在流程中置于因果估計(jì)之后,但它的本質(zhì)是用于檢驗(yàn)因果估計(jì)對(duì)基礎(chǔ)假設(shè)的依賴程度,有助于評(píng)估結(jié)果的可靠性,包括:①異質(zhì)性檢驗(yàn)(heterogeneity test): 用于評(píng)估在不同基因位點(diǎn)上的效應(yīng)估計(jì)值之間是否存在顯著的異質(zhì)性(變異)。如果不同基因位點(diǎn)的效應(yīng)估計(jì)值之間存在顯著的異質(zhì)性,那么可能存在基因位點(diǎn)間的不一致性,這可能影響到因果估計(jì)的穩(wěn)健性。②水平多效性檢測(cè)(horizontal pleiotropy detection):指一個(gè)遺傳變異對(duì)多個(gè)相關(guān)性狀(包括暴露因素X和結(jié)果Y)產(chǎn)生影響,而不僅僅影響研究關(guān)注的因果路徑。如果存在水平多效性,那么IV可能不滿足MR的假設(shè),從而導(dǎo)致因果估計(jì)的偏差。③逐個(gè)剔除檢驗(yàn)(leave-one-out test):通過(guò)逐步排除每個(gè)基因位點(diǎn),重新進(jìn)行因果估計(jì),以評(píng)估每個(gè)基因位點(diǎn)對(duì)結(jié)果估計(jì)的影響。這有助于確定某個(gè)特定基因位點(diǎn)是否對(duì)因果估計(jì)產(chǎn)生重大影響,以及它是否主導(dǎo)了因果關(guān)系的估計(jì)。
一旦IV的有效性得到確認(rèn),就可以使用它們進(jìn)行因果估計(jì)。在不同的MR設(shè)計(jì)類型中的因果估計(jì)方法主要有:
1)2SLS[23]:選擇一個(gè)或多個(gè)IV,與暴露X(如表型)相關(guān),但與結(jié)果Y的因果關(guān)系較弱。利用所選的IV與X之間的關(guān)系,進(jìn)行第一階段回歸分析,IV與X的線性回歸模型,計(jì)算IV對(duì)X的影響,獲得暴露因素預(yù)測(cè)值(predicted value,P)。第二階段使用P作為因變量,對(duì)Y進(jìn)行回歸分析,估計(jì)IV對(duì)Y的影響,從而間接估計(jì)X對(duì)Y的因果效應(yīng)。
2)逆方差加權(quán)法(inverse variance weighted,IVW)[14]: 這是MR研究中最常用的方法之一。IVW方法將每個(gè)基因位點(diǎn)的效應(yīng)估計(jì)值按照其方差的倒數(shù)進(jìn)行加權(quán)平均,得到最終的因果估計(jì)值。這種方法假設(shè)基因位點(diǎn)的效應(yīng)估計(jì)值是無(wú)偏的,并且沒(méi)有遺傳變異間的相互作用。
3)加權(quán)中位數(shù)法(weighted median method,WMM)[24]:與IVW方法不同,加權(quán)中位數(shù)法并不要求所有基因位點(diǎn)的效應(yīng)估計(jì)值都是無(wú)偏的。它選擇中位數(shù)效應(yīng)估計(jì)值作為因果估計(jì)的點(diǎn)估計(jì),通過(guò)將基因位點(diǎn)的效應(yīng)估計(jì)值和方差進(jìn)行加權(quán)。這種方法在一些情況下對(duì)異常值更具魯棒性,因?yàn)樗皇軉蝹€(gè)基因位點(diǎn)的影響。
4)MR-Egger法[25]:MR-Egger方法是用于處理IVW方法中可能存在的拮抗性或放大性偏差的一種技術(shù)。它與IVW最大的區(qū)別是在回歸模型中保留“截距”,允許基因位點(diǎn)的效應(yīng)估計(jì)值存在某種程度的偏斜,可以檢測(cè)和校正因拮抗性或放大性而引起的估計(jì)偏差。MR-Egger法通過(guò)擬合一個(gè)帶有截距的回歸模型,估計(jì)因果效應(yīng)并進(jìn)行偏斜校正。
那么眾多算法的分析結(jié)果中如何取舍呢?2SLS常用于對(duì)單樣本MR進(jìn)行分析,而在兩樣本MR及其變體的分析中可遵循:①在沒(méi)有異質(zhì)性和多效性的情況下,首選使用IVW方法的估計(jì)結(jié)果;②如果存在異質(zhì)性但沒(méi)有多效性,首選使用WMM方法的結(jié)果,也可以考慮使用IVW的隨機(jī)效應(yīng)模型;③當(dāng)存在多效性時(shí),首選使用MR-Egger方法計(jì)算出的結(jié)果。
此外,研究人員還通過(guò)更新算法模型來(lái)提升結(jié)果的可靠性,如新模型MRMix通過(guò)放寬IV與X關(guān)聯(lián)的閾值納入了更多的IV進(jìn)行研究,同時(shí)通過(guò)采用正態(tài)混合模型來(lái)描述潛在效應(yīng)大小分布,提供了幾乎無(wú)偏或更小偏差的因果效應(yīng)估計(jì),提高了效能的同時(shí)也提高了精度。采用該方法的研究[26]顯示HDL-C和TG對(duì)CAD風(fēng)險(xiǎn)沒(méi)有因果效應(yīng)。
當(dāng)研究人員獲得MR分析的結(jié)果后,如何進(jìn)行結(jié)果的外推及生物學(xué)解讀仍須謹(jǐn)慎,在解讀的過(guò)程中可能涉及到以下幾個(gè)問(wèn)題:
1)時(shí)間尺度和發(fā)展補(bǔ)償:MR研究涉及的遺傳變異是終生變異的結(jié)果,而病理水平的發(fā)展是逐漸累積并不可逆的,且生物體在不同時(shí)空有不同的遺傳效應(yīng);
2)常規(guī)水平與病理水平:在使用MR研究分析結(jié)果作為藥物篩選的理論支持時(shí),需要考慮MR研究通常關(guān)注常規(guī)的暴露水平,而難以評(píng)估病理水平的短期靶向干預(yù)效果;
3)小差異的外推:由于遺傳變異引起的暴露變化通常很小,而病理變化或藥物干預(yù)的效果可能更加劇烈,所以需要更大的樣本量進(jìn)行MR分析來(lái)檢測(cè)效應(yīng),且需要依賴外推法來(lái)估計(jì)干預(yù)效果;
4)遺傳和干預(yù)效應(yīng)的不同途徑:遺傳變異和干預(yù)措施通常不會(huì)對(duì)暴露產(chǎn)生相同的影響機(jī)制,不同途徑和交互效應(yīng)可能會(huì)導(dǎo)致不同的結(jié)果。
因此,在生物學(xué)外推和解讀時(shí)需要謹(jǐn)慎考慮統(tǒng)計(jì)學(xué)和生物學(xué)的復(fù)雜性,以確保結(jié)果的生物學(xué)解釋具有可信度。
除了以上幾點(diǎn)問(wèn)題外,還有一些問(wèn)題值得考慮。由于絕大多數(shù)GWAS研究主要關(guān)注人類基因組,因此在基于GWAS結(jié)果的MR研究中,IV的選擇具有一定局限性,即只考慮了宿主基因組。那么海量的宏基因組數(shù)據(jù)可否提供IV幫助人們更好地了解疾病的全貌?剛剛提到的時(shí)間尺度和發(fā)育問(wèn)題,最直觀的就是發(fā)育和衰老研究中的表觀遺傳學(xué)范疇是否可以進(jìn)行MR研究?大多數(shù)的疾病都是基因-環(huán)境共同影響,那么如何將基因和環(huán)境因素共同融入MR研究?這就催生了基于多組學(xué)匯總數(shù)據(jù)的MR分析方法來(lái)確定疾病中相關(guān)的假定因果效應(yīng)和潛在機(jī)制,以更全面地理解疾病和健康的復(fù)雜性。如:宏基因組研究關(guān)注微生物群落、細(xì)菌、病毒等宿主以外的基因組,研究人員可以探索通過(guò)宏基因組測(cè)序獲得的mbQTL數(shù)據(jù)進(jìn)行MR研究,建立mbQTLs與健康、疾病和代謝相關(guān)的潛在關(guān)系[27];如果研究人員更關(guān)注基因表達(dá)、DNA甲基化、組蛋白修飾等表觀遺傳學(xué)變化對(duì)疾病和生理過(guò)程的影響,可利用mQTLs數(shù)據(jù)尋找合適的IV,進(jìn)行MR分析,確定表觀遺傳學(xué)變化與特定疾病或生理現(xiàn)象的因果關(guān)聯(lián)[28];群體規(guī)模足夠大的研究可以用于執(zhí)行基因-環(huán)境MR,以確定特定基因與環(huán)境因素如飲食、生活方式、藥物暴露等之間的互動(dòng),從而更好地理解這些相互作用對(duì)健康和疾病風(fēng)險(xiǎn)的影響[29]。
MR作為“大自然饋贈(zèng)的RCT”,其應(yīng)用前景在生物醫(yī)學(xué)研究和臨床實(shí)踐中具有重要的意義。盡管MR并不能完全替代RCT,但它提供了一種有用的補(bǔ)充手段,尤其適用于以下情況:①探索因果關(guān)系:MR可以幫助研究人員確定可改變的風(fēng)險(xiǎn)因素與結(jié)果之間的因果關(guān)系。通過(guò)利用自然界中存在的遺傳變異,MR可以模擬隨機(jī)對(duì)照試驗(yàn)的特性,從而提供更接近因果關(guān)系的結(jié)果[30]。②選擇治療干預(yù)靶點(diǎn):對(duì)于臨床干預(yù)的目標(biāo)選擇,MR提供了有價(jià)值的流行病學(xué)方法。通過(guò)評(píng)估某個(gè)生物標(biāo)志物或治療目標(biāo)與特定疾病之間的因果關(guān)系,研究人員可以優(yōu)先選擇有效的干預(yù)靶點(diǎn),從而提高治療效果[31-32]。③長(zhǎng)期基于人群的干預(yù):MR估計(jì)尤其適用于長(zhǎng)期基于人群的干預(yù)研究。在這種情況下,難以實(shí)施大規(guī)模的隨機(jī)對(duì)照試驗(yàn),而MR可以提供一種更可行的選擇。
然而,需要注意的是,雖然MR可以為臨床干預(yù)的效果方向提供定性信息,但遺傳推導(dǎo)的估計(jì)可能與實(shí)際干預(yù)效果大小不一致。因此,在使用MR方法時(shí),需要將估計(jì)結(jié)果與實(shí)際臨床數(shù)據(jù)相結(jié)合,進(jìn)行綜合評(píng)估。綜合來(lái)看,MR方法在探索因果關(guān)系、選擇治療干預(yù)靶點(diǎn)等方面具有廣闊的應(yīng)用前景。隨著基因組學(xué)和遺傳研究的不斷發(fā)展,MR將繼續(xù)為生物醫(yī)學(xué)研究和臨床實(shí)踐提供有力的支持和指導(dǎo)。然而,在使用MR方法時(shí),需要謹(jǐn)慎選擇工具變量,并結(jié)合實(shí)際臨床數(shù)據(jù)進(jìn)行綜合評(píng)估,以確保結(jié)果的準(zhǔn)確性和可靠性。
致謝:本文的整體思路由丁衛(wèi)教授指導(dǎo)完成,特此感謝!
利益沖突所有作者均聲明不存在利益沖突。
作者貢獻(xiàn)聲明王晶:論文撰寫;張國(guó)燕:論文修改;程杉:命題的提出、設(shè)計(jì)。
首都醫(yī)科大學(xué)學(xué)報(bào)2023年6期