皮路程 卜 濤 冀曉慧 趙 麗 李麗霞 劉 麗 郜艷暉
廣東藥科大學公共衛(wèi)生學院統(tǒng)計學教研室(510310)
【提 要】 目的 比較潛在類別模型和主成分法在稀有變異遺傳關聯(lián)研究中的統(tǒng)計性能。方法 利用GAW17數(shù)據(jù)庫,通過集合策略將同一基因中的稀有變異合并成一個新變量,以基因為分析單位,分別運用潛在類別模型和主成分法構建常見變異和集合后稀有變異的分類潛變量或主成分,再應用線性回歸模型分析基因?qū)Χ啃誀畹恼w效應,評價兩種方法的I類錯誤和效能。結果 潛在類別模型的I類錯誤(0.040~0.085)均不高于主成分法(0.040~0.190)。對強效應的稀有變異和常見變異,即使存在多個無關聯(lián)稀有變異,潛在類別模型也能很好地分類且效能(1.000)不低于主成分法(0.990~1.000);但稀有或常見變異效應弱時主成分法效能(0.635)高于潛在類別模型(0.200)。對多數(shù)非關聯(lián)基因,潛在類別模型不收斂。結論 和主成分法類似,潛在類別模型也可和稀有變異的集合策略結合,通過構建遺傳變異數(shù)據(jù)的分類潛變量,進行稀有變異的遺傳關聯(lián)研究。分析定量性狀時兩法均可識別較強效應的稀有變異和常見變異。人群中遺傳變異分布無異質(zhì)性時,潛在類別模型常不收斂,提示遺傳變異和性狀無關聯(lián)。
隨著二代測序技術的快速發(fā)展,大量含稀有變異(rare variants,RV)的遺傳數(shù)據(jù)應運而生。如次等位基因頻率(minor allele frequency,MAF)低于5%時,傳統(tǒng)關聯(lián)性分析方法效能極低[1]。近年學者提出將感興趣區(qū)域(region of interest,ROI)內(nèi)的稀有變異集合(collapsing)再進行后續(xù)分析的方法統(tǒng)稱為負擔檢驗(burden test)[2-3]。但負擔檢驗常忽視位點間的連鎖不平衡,面對存在連鎖不平衡的高維遺傳數(shù)據(jù),Kazma[4]提出潛變量(latent variable)降維的思路,將主成分與集合方法(principal components and collapsing,PCC)結合,以聚集稀有和常見變異的遺傳信息來提高分析效能。然而PCC法需假設遺傳模式,而以處理分類變量為優(yōu)勢的潛在類別模型(latent class model,LCM)[5-6]基于異質(zhì)性將人群分類,應用于遺傳關聯(lián)研究時不依賴遺傳模式假設,同時達到降維目的。本研究將集合策略與LCM結合,應用于GAW17(genetic analysis workshop 17)數(shù)據(jù)庫[7-8],并和PCC方法進行比較,為稀有變異遺傳關聯(lián)研究提供統(tǒng)計學方法的支持。
GAW17數(shù)據(jù)庫包含了697 例多種族無血緣個體的常見變異和稀有變異的真實數(shù)據(jù),及基于遺傳變異基因型和假定的表型關聯(lián)模擬了3個定量性狀(Q1、Q2和Q4)和一個二分類性狀(受累與否),協(xié)變量包括吸煙狀態(tài)、性別和年齡。每種表型模擬產(chǎn)生200個數(shù)據(jù)集。
本研究將Q1和Q4用于分析,從GAW17數(shù)據(jù)庫選取Q1的遺傳變異包括VEGF(vascular endothelial growth factor)通路上的8個基因中38個SNPs。各基因分別包含1~11個功能性變異,其MAFs的范圍從0.07%到16.5%。Q1的剩余遺傳度為0.44。Q4的遺傳度為 0.70,但不受數(shù)據(jù)庫中任何遺傳變異的影響。
分析Q1時,選擇與Q1關聯(lián)的基因用于評價效能;同時選取無關聯(lián)基因用于評價I類錯誤。由于和Q1關聯(lián)的基因與Q4無關,因此分析Q4也用于評價I類錯誤。基因的納入標準為:(1)同時含常見變異和稀有變異;(2)僅選擇包含錯義突變 SNPs 的基因。最后納入四個Q1關聯(lián)基因(ELAVL4,FLT1,HIF3A,KDR)和四個非關聯(lián)基因(TMCC1,ZNF493,AKAP7,ALDH1A2)。各基因的常見和稀有變異及效應信息見文獻[7],歸納見表1。
表1 PCA與LCM的統(tǒng)計效能和Ⅰ類錯誤
a:N(true)為納入分析的SNPs個數(shù)(有關聯(lián)的SNPs個數(shù));b:F(%):集合后的新變量頻率;c:稀有變異平均效應=稀有SNPs的效應之和/SNPs的個數(shù);d:β為常見變異效應值;e:第一主成分解釋百分比;
對每個基因中的稀有變異,先采用指示賦值的集合策略將其合并,再與該基因中常見變異一起,分別應用主成分分析(principal component analysis,PCA)和潛在類別模型,得到第一主成份和分類潛變量。將第一主成分或分類潛變量在調(diào)整協(xié)變量的條件下分別對200次模擬的Q1和Q4擬合線性回歸模型,記錄每次調(diào)整協(xié)變量后第一主成分或分類潛變量回歸分析對應的P值,分別計算效能和 I 類錯誤。
主成分分析原理和潛在類別分析原理參見文獻[5-6]。LCM最優(yōu)模型的選擇主要依據(jù)AIC(LL)和BIC(LL)指標,指標越小說明模型擬合越好,其中LL是指模型適配的對數(shù)似然值。
本研究中使用Latent GOLD 4.5[11]完成LCM,其余分析采用SAS 9.2[12]。
Q1關聯(lián)的四個基因最優(yōu)模型將人群都分為兩類(表2)。在Q1非關聯(lián)的四個基因中,僅基因ZNF493 可以將人群分為兩類,其余三個基因LCM模型不收斂(表3),提示人群在此基因上的分布無異質(zhì)性。
表2 Q1關聯(lián)基因的LCM最優(yōu)模型選擇
四個關聯(lián)基因中,基因FLT1的常見變異和KDR的稀有變異效應較高,(平均)效應值分別為0.650和0.600,但稀有變異中均混有相當數(shù)量的非關聯(lián)變異,此時PCA和LCM的效能均接近或等于1.000。而基因ELAVL4、HIF3A的常見變異均無效應,稀有變異中前者平均效應為0.28,后者為0.12,且稀有變異中混有一半以上非關聯(lián)變異,此時PCA效能為0.635和0.060,LCM為0.200和0.065。此外表1也顯示每個關聯(lián)基因中常見變異和集合后的稀有變異有較強的關聯(lián),關聯(lián)系數(shù)為0.88~0.99。
表3 非關聯(lián)基因的LCM最優(yōu)模型選擇
Q1關聯(lián)基因的主成分或分類潛變量與Q4表型的200次回歸結果顯示,兩法的Ⅰ類錯誤均不超過0.05,LCM比PCA法略低。非關聯(lián)基因中除ZNF493外,LCM結果均未收斂,提示三個基因的分布在病例與對照組中無異質(zhì)性,但PCA法將分類變量做連續(xù)變量處理,第一主成分解釋的百分比在66.27%~94.19%之間,可能高估了變異間的關聯(lián),各基因Ⅰ類錯誤見表1。
眾多GWAS(genome-wide association studies)研究表明其識別出來的常見變異對于疾病遺傳風險的解釋仍較低,尋找低頻或稀有變異對疾病的貢獻是后GWAS時代的重要任務之一,已有研究表明疾病和低頻及稀有變異存在關聯(lián),且具有很強的效應[9]。但此類遺傳數(shù)據(jù)具有頻率低、維度高、為分類變量,且變異間存在連鎖不平衡等特點,因此本研究在稀有變異集合策略的基礎上,以基因為分析單位,探討潛在類別模型在稀有變異關聯(lián)研究中的適用性。
應用集合策略將ROI內(nèi)的稀有變異合并后再進行關聯(lián)分析,從而提高稀有變異的頻率,增加關聯(lián)研究的統(tǒng)計效能。目前常用的負擔檢驗有多變異集合法(combined multivariate and collapsing,CMC)[13],考慮變異權重的加權合計檢驗(weighted sum test,w-Sum)[14]和考慮變異效應方向的SSU (sum of the squares of the marginal score statistics)和SSUw(weighted form of sum of the squares of the marginal score statistics)[15-16]方法。但負擔檢驗并沒有考慮連鎖不平衡以及基因間的交互作用,而忽視這些遺傳結構會導致其統(tǒng)計性能降低,不能很好地反映變異與疾病之間的關聯(lián)[17]。
本研究采用PCA和LCM法提取主成分或構造分類潛變量進行降維。特別是LCM以處理分類變量為優(yōu)勢,對數(shù)據(jù)降維的同時更好地了解變異分布,識別不同性狀群體間遺傳變異分布的異質(zhì)性。若群體間不存在異質(zhì)性時,模型不收斂,提示變異與疾病之間沒有關聯(lián)。目前該法在常見變異遺傳關聯(lián)研究中已有應用[18]。本研究將稀有變異的集合策略與LCM結合應用于GAW17數(shù)據(jù),結果顯示各類情況下,LCM的I類錯誤均不高于PCA。而稀有變異和常見變異強效應時,即使混有較多無關聯(lián)變異,LCM仍可很好地對觀測進行分類,且效能不低于PCA;但稀有或常見變異弱效應時效能不高,這可能與稀有變異頻率或集合時混雜較多的無關聯(lián)變異有關。本研究采取指示賦值的集合策略,并沒有考慮稀有變異的方向以及權重,此外,LCM要求滿足局部獨立性假設,即在給定的潛在類別下顯變量之間相互獨立,否則可在模型中加入直接效應變量、刪掉冗余的外顯變量或采用潛在類別因子分析構建模型等[19],更多的理論和應用需要進一步研究。