阮培峰
(復(fù)旦大學(xué)計算機(jī)科學(xué)學(xué)院 上?!?00433)
?
家系數(shù)據(jù)中罕見基因變異與疾病關(guān)聯(lián)分析的統(tǒng)計方法
阮培峰△
(復(fù)旦大學(xué)計算機(jī)科學(xué)學(xué)院上海200433)
【摘要】目的提出一種適應(yīng)家系數(shù)據(jù)的序列核關(guān)聯(lián)檢驗(sequence kernel association test,SKAT)模型,以提高家系數(shù)據(jù)中檢驗罕見變異的統(tǒng)計模型的功效。方法提出一種適應(yīng)家系數(shù)據(jù)的SKAT模型(adjusted SKAT,ADSKAT),通過對SKAT的原模型進(jìn)行修改,加入表示家系結(jié)構(gòu)的隨機(jī)作用向量,使得家系數(shù)據(jù)中親屬相關(guān)性的影響被考慮進(jìn)模型,并且得出新的檢驗統(tǒng)計量對應(yīng)的概率分布。結(jié)果在家系數(shù)據(jù)中,ADSKAT不僅有效地控制了一類錯誤的增長,并且比現(xiàn)有的識別罕見變異的GWAS統(tǒng)計模型有著更高的統(tǒng)計功效。結(jié)論ADSKAT是一種在家系數(shù)據(jù)中識別與疾病關(guān)聯(lián)的罕見變異的統(tǒng)計模型,具有廣泛的應(yīng)用前景。
【關(guān)鍵詞】罕見基因變異;全基因組關(guān)聯(lián)分析 (GWAS);家系數(shù)據(jù)
全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)自從2005年被首次應(yīng)用以來,已經(jīng)發(fā)現(xiàn)并證實了超過2 000個與疾病或者性狀關(guān)聯(lián)的基因位點[1]。然而,通過GWAS識別的常見基因變異通常只能解釋一小部分的疾病成因和性狀遺傳。而罕見變異通常指等位基因頻率小于0.1%~1%的變異,在疾病和性狀的遺傳中可以起到非常重要的作用。常規(guī)的GWAS只對單個SNP進(jìn)行檢驗,這樣的方法對罕見基因變異的檢驗就顯得效力不足[2]。針對這個問題,一些新方法被提出,比如Morgenthaler等在2007年[3]、Madsen等在2009年[4]以及Morris等在2010年[5]提出的負(fù)荷檢驗。這些方法將在事先定義的基因區(qū)域(例如基因,通路等)中所有罕見基因變異的信息壓縮成一個單一的變量,進(jìn)而進(jìn)行檢驗。但這些負(fù)荷檢驗都存在一些缺陷,它們均預(yù)設(shè)所有的罕見基因變異的作用方向和作用程度都是一致的。然而事實上,同一區(qū)域的不同變異的作用方向和程度往往是不同的。這樣就在負(fù)荷檢驗中導(dǎo)致了不必要的干擾,從而導(dǎo)致了檢驗效力的減弱。一些改進(jìn)后的負(fù)荷檢驗,如Han等[6]、Hoffman等[7]以及Zawistowski等[8]在2010年提出的改進(jìn)模型,它們不預(yù)設(shè)所有的罕見基因變異的作用方向和程度是相同的。但這些方法都引入了置換檢驗,用以檢驗統(tǒng)計顯著性。然而,置換檢驗對計算能力帶來了極大的挑戰(zhàn),尤其是在全基因組層面上進(jìn)行的檢驗。
Wu等[9]在2011年提出了序列核關(guān)聯(lián)檢驗(sequence kernel association test,SKAT)。這是一種基于回歸分析的用以檢驗罕見基因變異的方法,具有應(yīng)用靈活及計算效率高等優(yōu)點。SKAT對于基因變異的方向及作用程度沒有任何預(yù)設(shè),同時,不同于使用置換檢驗的方法,SKAT可以解析地得出檢驗的P值。SKAT既可以對連續(xù)的表型進(jìn)行關(guān)聯(lián)分析檢驗,也可以對二分的表型進(jìn)行關(guān)聯(lián)分析檢驗。仿真數(shù)據(jù)實驗和真實數(shù)據(jù)實驗已經(jīng)證明,SKAT比傳統(tǒng)的負(fù)荷檢驗有著更高的檢驗功效。
在致病基因的連鎖分析中,對于家系數(shù)據(jù)的研究是一種常見的研究手段[10-12]。然而,不加處理地將GWAS方法直接應(yīng)用于家系數(shù)據(jù)中,比如常規(guī)的一般線性回歸、Logistic回歸或是SKAT,由于對家系數(shù)據(jù)中個體間的相關(guān)性的忽視,將導(dǎo)致統(tǒng)計檢驗中一類錯誤的增長。
本文中,ADSKAT通過對SKAT中假設(shè)檢驗的原假設(shè)進(jìn)行修改,使得假設(shè)檢驗的原假設(shè)中包括家系結(jié)構(gòu)對表型產(chǎn)生的影響,進(jìn)而得出新的檢驗統(tǒng)計量對應(yīng)的概率分布。ADSKAT的基本原理依然與SKAT一致,當(dāng)不存在家系結(jié)構(gòu)時,ADSKAT和SKAT是相同的。正因如此,ADSKAT和SKAT有著同樣高度的靈活性。無需置換檢驗也使得ADSKAT有著較高的計算效率。
通過在仿真數(shù)據(jù)的實驗可以看到,當(dāng)沒有考慮家系數(shù)據(jù)中家系結(jié)構(gòu)的關(guān)系時,SKAT中出現(xiàn)了統(tǒng)計檢驗一類錯誤增長的問題。相對地,ADSKAT并不受此種問題的困擾,一類錯誤一直控制在正常的范圍內(nèi)。同時,在家系數(shù)據(jù)中,ADSKAT相對于SKAT方法也有著更高的檢驗功效。因而,在家系數(shù)據(jù)中檢驗與疾病關(guān)聯(lián)的罕見基因變異時候,ADSKAT是一種更為準(zhǔn)確高效的方法。
資 料 和 方 法
假設(shè)有n個個體,在某個遺傳區(qū)域中有p個變異位點。對于第i個個體,yi表示其表型變量,Xi=(xi1,xi2,…,xim)表示協(xié)變量,Gi=(gi1,gi2,…,gip)表示在遺傳區(qū)域內(nèi)p個變異位點的基因型。于是,對于連續(xù)型的表型,考慮如下半?yún)?shù)模型:
(1)
對于二分的表型,考慮一下如下半?yún)?shù)Logistic模型:
(2)
其中,α0為截距,α=[α1,α2,…,αm]′是協(xié)變量的回歸系數(shù),f是一個半?yún)?shù)方程,由表達(dá)定理(representer therorem)[13],f可以由半正定核函數(shù)K決定:
函數(shù)K度量了第i個和第i′個個體間同一區(qū)域中p個變異的相似程度。理論上,任意一個半正定的函數(shù)K都可以用來當(dāng)做這個核函數(shù)。若假設(shè)基因作用為線性,可以選擇線性核函數(shù)K,則:
則式(1)和式(2)分別可以表示為:
為檢驗罕見變異是否和疾病關(guān)聯(lián),考慮原假設(shè):f(Gi)=0。Liu等[14]在2008年闡明了核回歸和廣義線性混合模型之間的關(guān)系。令K為一個n×n的矩陣,第(i,j)個元素為K(Gi,Gj)??梢园l(fā)現(xiàn),f=Kγ,其中,f=[f1,f2…fn]′,則f可以被視為個體的隨機(jī)效應(yīng),服從任意均值為0、方差為τK的分布。注意到τ決定了罕見變異的效應(yīng),由此,H0:f(Gi)=0與H0:τ=0等價。參考既往文獻(xiàn)[15],檢驗H0:τ=0的統(tǒng)計量為:
另外,青海探索將繳存住房公積金事宜納入勞動合同、聘用合同文本正式條款,為自主繳存人員依法繳存住房公積金提供有力保障。同時,建立健全不繳、欠繳住房公積金“黑名單”制度,將未按規(guī)定建立住房公積金制度或拖欠繳納住房公積金的單位予以曝光,并納入人民銀行征信系統(tǒng)和政府信用信息平臺,對失信主體實施聯(lián)合懲戒。
適應(yīng)家系數(shù)據(jù)的SKAT改進(jìn)方法(adjustedSKAT,ADSKAT)在處理家系數(shù)據(jù)時,由于SKAT沒有將家系結(jié)構(gòu)中個體的關(guān)聯(lián)性考慮進(jìn)模型中,這樣的忽略會造成統(tǒng)計檢驗中一類錯誤的增長。為了避免這樣的問題出現(xiàn),一個直觀的想法是,將由于家系結(jié)構(gòu)而造成的影響包括進(jìn)統(tǒng)計檢驗的原假設(shè)中,那么,通過拒絕原假設(shè)而得到的關(guān)聯(lián)基因,就不再受到家系結(jié)構(gòu)中的相關(guān)性的影響,從而避免了一類錯誤的增長。
首先,以性狀為連續(xù)時為例,我們考慮在原半?yún)?shù)模型中加入表示家系結(jié)構(gòu)的隨機(jī)作用的項ξ:
(3)
φ為表示家系關(guān)系的親屬關(guān)系矩陣(Kinship Matrix)。
此時,表型變量yi的方差為:
此時原假設(shè)變?yōu)?
此時,使用文獻(xiàn)[9]中相同的計算方法,統(tǒng)計檢驗量依然使用:
Q所服從的概率分布變?yōu)?
當(dāng)性狀為二分的時,只要將線性模型變?yōu)長ogistic模型即可:
基于家系數(shù)據(jù)的負(fù)荷檢驗為了進(jìn)一步檢驗ADSKAT的檢驗功效,我們還將ADSKAT與另一種新穎的罕見變異關(guān)聯(lián)分析的方法(Family-basedrarevariantassociationtest,FARVAT)進(jìn)行了比較。家系數(shù)據(jù)中,FARVAT的使用負(fù)荷檢驗結(jié)合方差組分檢驗,在家系數(shù)據(jù)中對罕見變異的檢驗獲得了良好的效果[16]。
數(shù)據(jù)集本文采用基因分析研討會(geneticsanalysisworkshop)發(fā)布的高血壓全基因組測序數(shù)據(jù)集(http://www.gaworkshop.org/gaw18/index.html)。數(shù)據(jù)集中包含來自20個家系的849人的血壓、年齡、性別以及他們的全基因組測序數(shù)據(jù)。全基因組測序中包含20萬個變異位點。在其發(fā)布的由此數(shù)據(jù)得到的仿真數(shù)據(jù)中,性別、年齡等協(xié)變量保持不變,血壓表型即舒張壓(DBP)和收縮壓(SBP)則按照真實數(shù)據(jù)中的遺傳可能性進(jìn)行模擬,同時,模擬的DBP和SBP也因性別、年齡的不同而異。最后,根據(jù)淋巴細(xì)胞中的基因表達(dá)情況和血壓表型的關(guān)聯(lián)系數(shù),選出了表型仿真數(shù)據(jù)中的功能基因。數(shù)據(jù)中共包含200份仿真數(shù)據(jù)。
結(jié)果
一類錯誤ADSKAT和SKAT在不同的顯著性水平下的經(jīng)驗一類錯誤(empiricaltypeIerror)結(jié)果顯示(表1),如果直接將SKAT應(yīng)用于存在家系結(jié)構(gòu)的數(shù)據(jù)中,由于SKAT沒有考慮家系中個體的相關(guān)性,在各個顯著性水平下,一類錯誤都出現(xiàn)了增長的問題。相對應(yīng)地,將家系結(jié)構(gòu)考慮進(jìn)模型的ADSKAT和FARVAT都很好地控制了一類錯誤的增長。
表1 不同的顯著性水平下ADSKAT、SKAT和
另外,如圖1所示,ADSKAT和FARVAT的P值基本服從均勻分布,但SKAT的P值分布中,越小的P值頻率越高,從中也可以部分解釋為什么SKAT會出現(xiàn)一類錯誤增長的結(jié)果。
檢驗功效我們分別對模擬數(shù)據(jù)中的SNPs的作用方向進(jìn)行假設(shè),在第一種情況下,80%的SNPs有著正效應(yīng),20%的SNPs有著負(fù)效應(yīng);在第二種情況下,50%的SNPs有著正效應(yīng),50%的SNPs有著 負(fù)效應(yīng);在第三種情況下,20%的SNPs有著正效應(yīng),80%的SNPs有著負(fù)效應(yīng)。如表2所示,在3種假設(shè)情況下,通過對200個模擬數(shù)據(jù)集分別應(yīng)用ADSKAT、SKAT和FARVAT,在顯著水平為0.05下得到的經(jīng)驗檢驗功效都顯示,ADSKAT有著最高的檢驗功效??梢园l(fā)現(xiàn),DSKAT在控制了一類錯誤增長的同時,檢驗功效高于SKAT和FARVAT。在對存在家系結(jié)構(gòu)的數(shù)據(jù)進(jìn)行基因組關(guān)聯(lián)研究時,ADSKAT是一種更準(zhǔn)確的檢驗罕見變異和疾病關(guān)聯(lián)的方法。
ADSKAT and FARVAT control the type I error well while SKAT suffers the inflation of type I error.
圖1ADSKAT、SKAT以及FARVAT的模擬數(shù)據(jù)試驗中SNPs的P值分布
Fig 1Distribution of ADSKAT,SKAT and FARVAT’sP-values in simulation
表2 模擬數(shù)據(jù)中應(yīng)用ADSKAT、SKAT和FARVAT
Under all three scenarios,ADSKAT shows the highest empirical statistical power;both ADSKAT and FARVAT perform better than SKAT as they consider the pedigree structure in their models.
討論
本文提出了一種改進(jìn)后的SKAT方法即ADSKAT,用以檢驗家系數(shù)據(jù)中和疾病或某些性狀相關(guān)聯(lián)的罕見基因變異。我們證明了ADSKAT是一種通用的進(jìn)行罕見基因變異關(guān)聯(lián)分析的方法。當(dāng)不存在家系結(jié)構(gòu)時,ADSKAT和SKAT是等價的。正因如此,ADSKAT也繼承了SKAT靈活且計算效率較高的優(yōu)點。
在仿真b實驗中,我們證明了在相互相關(guān)的數(shù)據(jù)中直接應(yīng)用SKAT會導(dǎo)致一類錯誤的增長。這時,如果要使用SKAT,只能將相關(guān)的數(shù)據(jù)刪除,只對獨立的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。然而,這樣顯然會無謂地失去許多有用的信息,同時樣本量的減少也會導(dǎo)致檢驗功效的降低。相對地,應(yīng)用ADSKAT并不需要減少樣本量。ADSKAT在控制一類錯誤的增長的同時,也有著較高的檢驗功效??梢?在檢驗罕見基因變異與疾病的關(guān)聯(lián)時,ADSKAT是一種更好的選擇。
盡管ADSKAT是為了進(jìn)行罕見基因變異關(guān)聯(lián)分析而設(shè)計的,但它依然可以用來檢驗常見基因變異與疾病的關(guān)聯(lián),或者同時進(jìn)行常見/罕見基因變異的關(guān)聯(lián)分析。對于常見基因變異,我們可以將之視為(3)式中的固定效應(yīng),或者與罕見變異一起作為隨機(jī)效應(yīng)來檢驗。
通過對權(quán)重的選擇,可以進(jìn)一步提高ADSKAT檢驗的功效。
參考文獻(xiàn)
[1]VISSCHER PM,BROWN MA,MC CARTHY MI,etal.Five years of GWAS discovery[J].AmJHumGenet,2012,90(1):7-24.
[2]SCHORK NJ,MURRAY SS,FRAZER KA,etal.Common vs.rare allele hypotheses for complex diseases[J].CurrOpinGenetDev, 2009,19(3):212-219.
[3]MORGENTHALER S,THILLY WG.A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases:a cohort allelic sums test (CAST)[J].MutatRes, 2007,615(1-2):28-56.
[4]MADSEN BE,BROWNING SR.A groupwise association test for rare mutations using a weighted sum statistic[J].PLoSGenet,2009,5(2):e1000384.
[5]MORRIS AP,ZEGGINI E.An evaluation of statistical approaches to rare variant analysis in genetic association studies[J].GenetEpidemiol,2010,34(2):188-193.
[6]HAN F,PAN W.A data-adaptive sum test for disease association with multiple common or rare variants[J].HumHered,2010,70(1):42-54.
[7]HOFFMANN TJ,MARINI NJ,WITTE JS.Comprehensive approach to analyzing rare genetic variants[J].PLoSOne,2010,5(11):e13584.
[8]ZAWISTOWSKI M,GOPALAKRISHNAN S,DING J,etal.Extending rare-variant testing strategies:analysis of noncoding sequence and imputed genotypes[J].AmJHumGenet,2010,87(5):604-617.
[9]WU MC,LEE S,CAI T,etal.Rare-variant association testing for sequencing data with the sequence kernel association test[J].AmJHumGenet,2011,89(1):82-93.
[10]FALK CT,RUBINSTEIN P.Haplotype relative risks:an easy reliable way to construct a proper control sample for risk calculations[J].AnnHumGenet,1987,51(3):227-233.
[11]OTT J.Statistical properties of the haplotype relative risk[J].GenetEpidemiol,1989,6(1):127-130.
[12]TERWILLIGER JD,OTT J.A haplotype-based haplotype relative risk’ approach to detecting allelic associations[J].HumHered,1992,42(6):337-346.
[13]KIMELDORF G,WAHBA G.Some results on Tchebycheffian spline functions[J].JMathAnalAppl,1971,33(1):82-95.
[14]LIU D,GHOSH D,LIN X.Estimation and testing for the effect of a genetic pathway on a disease outcome using logistic kernel machine regression via logistic mixed models[J].BMCBioinformatics,2008,9(1):292.
[15]ZHANG D,LIN X.Hypothesis testing in semiparametric additive mixed models[J].Biostatistics,2003,4(1):57-74.
[16]CHOI S,LEE S,CICHON S,etal.FARVAT:a family-based rare variant association test[J].Bioinformatics, 2014,30(22):3197-3205.
A statistical method for rare variants association studies in pedigree data
RUAN Pei-feng△
(SchoolofComputerScience,FudanUniveristy,Shanghai200433,China)
【Abstract】ObjectiveTo propose an adjusted sequence kernel association test (SKAT) model in order to identify rare variants for pedigree data which has higher statistical power.MethodsIn this paper,we proposed a SKAT model fitting pedigree data (ADSKAT).The SKAT model was modified by adding a random effect vector of pedigree structure into the model.Thus the influence of kinship correlation was taken into consideration in the new model.A new distribution of test statistics was defined.ResultsSimulations demonstrated that ADSKAT well controlled the inflation of type I error and achieved better statistical power than the existed mainstream methods for identifying disease-related rare variants.ConclusionsADSKAT has broad application prospects in the fields of identifying disease related rare variants in pedigree data.
【Key words】rare variants;genome-wide association study;pedigree data
(收稿日期:2015-10-12;編輯:張秀峰)
【中圖分類號】TP399,R181.2+3
【文獻(xiàn)標(biāo)識碼】A
doi:10.3969/j.issn.1672-8467.2016.02.018
△Corresponding authorE-mail:pruan12@fudan.edu.cn