曾 平 趙 楊 陳 峰△
新一代測序數(shù)據(jù)的罕見遺傳變異關(guān)聯(lián)性統(tǒng)計方法*
曾 平1,2趙 楊1陳 峰1△
通過在基因組水平上對成千上萬的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)進(jìn)行系統(tǒng)性檢測和分析,全基因組關(guān)聯(lián)性研究(genome-wide association study,GWAS)發(fā)現(xiàn)了一系列與人類復(fù)雜性狀和疾病(比如,身高、惡性腫瘤、糖尿病和高血壓)相關(guān)的常見遺傳變異位點(diǎn)[1-3]。這些發(fā)現(xiàn)為深入研究疾病的遺傳基礎(chǔ)、發(fā)展新的診斷技術(shù)和治療方法提供了全新的視角。
現(xiàn)階段GWAS的有效性主要取決于常見疾病常見變異(common disease common variant,CDCV)的假設(shè)[4],即認(rèn)為復(fù)雜疾病是大量具有弱效應(yīng)的常見遺傳變異和環(huán)境因素的共同結(jié)果。受技術(shù)上的制約,目前的商業(yè)芯片只能精確地檢測最小等位基因頻率(minor allele frequency,MAF)大于1%~5%的SNP(稱為常見變異),而MAF<1%~5%的SNP(稱為罕見變異)分型被認(rèn)為是有問題的,通常在GWAS數(shù)據(jù)的質(zhì)量控制階段就會被刪除掉[5-6],因此無法研究罕見變異與疾病的關(guān)系。
盡管GWAS取得了成功,但是對許多復(fù)雜疾病而言,已發(fā)現(xiàn)的常見位點(diǎn)僅能解釋極少一部分的遺傳度,沒能取得預(yù)期的突破性進(jìn)展,這種現(xiàn)象被稱為遺傳缺失(missing heritability)[7-8]。雖然遺傳缺失的原因是多方面的(例如,關(guān)聯(lián)性統(tǒng)計分析方法效能低、大量弱效應(yīng)的SNP尚沒有被發(fā)現(xiàn)以及環(huán)境因素及其與基因的交互作用),并且關(guān)于常見和罕見變異在復(fù)雜疾病中的遺傳模式也存在爭議[9],但越來越多的科學(xué)研究表明罕見變異在復(fù)雜疾病的發(fā)生發(fā)展過程中同樣起著十分重要的作用,即所謂常見疾病簾見變異(common disease rave variant,CDRV)的假設(shè)[10-14]。最近的研究顯示罕見變異與復(fù)雜疾病之間的效應(yīng)往往高于常見變異[15]:常見變異的OR值多介于1.20~1.50,均值為1.36,而罕見變異的OR值一般都在2.00以上,均值為3.74。隨著下一代測序技術(shù)(next-generation sequencing technologies)的發(fā)展和應(yīng)用,科學(xué)家們已經(jīng)能夠在全基因組或全外顯子水平上進(jìn)行更高密度和更高精度的測序工作,能夠精確地檢測更低頻和罕見的遺傳位點(diǎn)[16]。許多研究顯示罕見變異對復(fù)雜疾病有實(shí)質(zhì)性的貢獻(xiàn)[14-15],例如,位于ABCA1、APOA1、LCAT、APOA5、GCKR、LPL和APOB的罕見變異被發(fā)現(xiàn)與血漿中高密度脂蛋白水平有關(guān)[17-18],位于ANGPTL4的罕見變異能夠顯著降低甘油三酯和升高高密度脂蛋白[19],著名的Framingham心臟研究顯示,通過調(diào)節(jié)腎臟對鹽的代謝,位于SLC12A3、SLC12A1和KCNJ1的罕見變異能夠有效降低血壓[20],此外一組罕見變異被證明與炎癥性腸病存在關(guān)聯(lián)[21],最近的報道表明位于染色體8q24的罕見變異位點(diǎn)rs188140481是前列腺癌的高風(fēng)險遺傳因子[22]。
這些最新的科學(xué)證據(jù)無疑表明罕見變異與復(fù)雜疾病密切相關(guān),是遺傳缺失的重要原因之一[7-8,23]。然而,遺憾的是,罕見變異的關(guān)聯(lián)研究不但面臨著與常見變異相同的挑戰(zhàn)(比如,高維度、統(tǒng)計效能低和多重比較),還具有更大的困難。從研究設(shè)計角度講,由于罕見變異的發(fā)生極其稀少,因此需要在更廣泛的人群中收集樣本,這將導(dǎo)致研究費(fèi)用和執(zhí)行難度增加;從統(tǒng)計方法角度講,即便是在大樣本的情況下,現(xiàn)有的用于常見變異的關(guān)聯(lián)分析方法對罕見變異的統(tǒng)計效能也很低或者根本不能使用[11,13,24-26]。
因此,發(fā)展高效靈活的罕見變異關(guān)聯(lián)分析方法不但有利于進(jìn)一步設(shè)計更加有效的GWAS研究,也是下一代測序工作的必然要求,更是當(dāng)前統(tǒng)計遺傳學(xué)和生物信息學(xué)面臨的迫切任務(wù)之一。過去幾年罕見遺傳變異關(guān)聯(lián)性分析方法迅速發(fā)展,本文主要對這些新出現(xiàn)的關(guān)聯(lián)性分析思維和統(tǒng)計方法做一個系統(tǒng)性的介紹,使應(yīng)用者了解這些方法背后的假設(shè)及其優(yōu)缺點(diǎn)。
設(shè)遺傳位點(diǎn)的基因型為aa、Aa和AA,其中a表示次等位基因。由于罕見遺傳變異的MAF很小,即對某個具體的罕見位點(diǎn)而言,在人群中其基因型基本上全是AA,只有極個別的個體(在小樣本研究中甚至可能沒有個體)表達(dá)為aa和Aa。這導(dǎo)致的后果是,罕見變異的關(guān)聯(lián)性分析無法像常見變異那樣基于單個位點(diǎn)進(jìn)行,如采用χ2檢驗、簡單線性回歸或logistic回歸,或者單位點(diǎn)分析對罕見變異的檢驗效能極低[13,24,27]。
最近統(tǒng)計學(xué)家們提出了專門針對罕見變異的關(guān)聯(lián)性分析方法,這些方法的基本策略是:針對一組而非單個位點(diǎn)進(jìn)行。當(dāng)對罕見遺傳位點(diǎn)無法進(jìn)行單位點(diǎn)分析或效能極低時,對一組罕見位點(diǎn)同時檢驗是很自然的選擇。相對單個位點(diǎn),基因是與疾病更加相關(guān)的功能單位,因此文獻(xiàn)中通常根據(jù)基因定義一組罕見遺傳變異。我們接下來介紹基于合并思想的檢驗方法和基于隨機(jī)效應(yīng)方差成分的檢驗方法,以及其他方法。
1.基于合并思想的方法
隊列等位基因合計檢驗(cohort allelic sum test,CAST)[28]、聯(lián)合多元合并檢驗(combined multivariate and collapsing test,CMC)[29]以及分組加權(quán)合計檢驗(group-wise weighted sum test,GWST)[30]是三種常見的基于合并的方法,也是最早提出的罕見變異關(guān)聯(lián)性分析方法。
CAST根據(jù)一組位點(diǎn)中是否包含罕見SNP建立一個新的指示變量(假設(shè)為Z):Z=1表示這組位點(diǎn)包含至少一個罕見SNP,Z=0表示不包含罕見位點(diǎn),即都是常見變異;然后采用類似χ2的方法執(zhí)行關(guān)聯(lián)性分析。CMC同樣需要建立新的變量,但與CAST略有不同,在合并的過程中CMC計數(shù)這組罕見變異的個數(shù)而非僅僅是否包含罕見位點(diǎn);然后將新的變量和常見變異一起執(zhí)行HotellingT2檢驗。GWST在合并的過程中對每個罕見變異進(jìn)行加權(quán)后求和,權(quán)重和MAF有關(guān),通常MAF越小,權(quán)重越大。
雖然在如何合并一組罕見變異及其權(quán)重選擇方面存在細(xì)微差別,但這些方法都基于樸素的思想:按照功能相近或物理位置相鄰的原則(如:同一基因或通路),將某個區(qū)域內(nèi)的罕見變異合并成單個位點(diǎn),然后對合并的位點(diǎn)進(jìn)行關(guān)聯(lián)性分析,因此統(tǒng)稱為負(fù)荷檢驗[25,31]。其合理之處在于,實(shí)際中常常觀察到一組罕見變異共同與某種疾病有關(guān),合并多個位點(diǎn)有利于關(guān)聯(lián)信號的富集和增強(qiáng)。事實(shí)上,負(fù)荷檢驗基于如下的假設(shè):該區(qū)域內(nèi)所有或絕大多數(shù)罕見變異為關(guān)聯(lián)位點(diǎn),并且對疾病或表型影響的效應(yīng)方向一致。然而這個假設(shè)存在明顯的問題:①一組罕見變異可能與疾病有關(guān)、也可能和疾病無關(guān),即使有關(guān)也可能只有少數(shù)幾個是致病位點(diǎn);②對一組罕見變異如何進(jìn)行合理合并目前觀點(diǎn)尚未統(tǒng)一;③更重要的是,致病位點(diǎn)有的可能具有保護(hù)作用,有的可能具有危險作用?,F(xiàn)實(shí)中,我們基本上無法了解疾病的遺傳模式或只有十分有限的認(rèn)識,也就無法判斷是否所有罕見位點(diǎn)的效應(yīng)總是同方向的。因此,負(fù)荷檢驗最大的缺點(diǎn)在于無法處理位點(diǎn)效應(yīng)方向性的問題,在異質(zhì)性效應(yīng)的情況下盲目進(jìn)行位點(diǎn)合并無疑稀釋了關(guān)聯(lián)信號,從而降低統(tǒng)計效能[25,27,32-34]。
Price等[35]提出的可變閾值方法(variable-threshold test,VT)和負(fù)荷方法類似,不同之處在于,VT采用一系列閾值而非選擇單個值(如0.01)來區(qū)分常見變異和罕見變異,針對每個閾值計算一個統(tǒng)計量,選擇其中最大者為最終假設(shè)檢驗統(tǒng)計量,最后采用permutation程序獲得對應(yīng)的P值。VT背后的假設(shè)在于,具有不同MAF的罕見遺傳位點(diǎn)可能對疾病的功能影響是不一樣的。其缺點(diǎn)在于,和負(fù)荷檢驗一樣在效應(yīng)異質(zhì)時效能低,并且因為采用重抽樣的方法從而計算量大。
Han和Pan[34]意識到負(fù)荷檢驗在效應(yīng)方向不同時效能低的缺點(diǎn),提出了一種基于數(shù)據(jù)的自適應(yīng)求和檢驗方法(data adaptive sum test)。為克服效應(yīng)方向的問題,該方法對每個罕見位點(diǎn)與疾病之間的關(guān)系進(jìn)行回歸分析,通過回歸系數(shù)判斷該位點(diǎn)是具有正方向(符號為正)的影響還是負(fù)方向(符號為負(fù))的影響;如果某個回歸系數(shù)的P值小于α0(比如0.10)且符號為負(fù),則對該位點(diǎn)進(jìn)行重新編碼:假設(shè)原來的基因型aa、Aa和AA分別賦值為2、1和0,則重新編碼為0、1和2;最后采用類似負(fù)荷檢驗的方法進(jìn)行位點(diǎn)合并和執(zhí)行假設(shè)檢驗。在這一過程中重新編碼會導(dǎo)致原始的無效假設(shè)分布失效,因此采用permutation程序獲得P值。該方法雖然在一定程度上克服了效應(yīng)方向性的問題,但是存在以下問題:①需要對單個位點(diǎn)進(jìn)行效應(yīng)估計和計算P值,然而如前所述在很多情況下,單位點(diǎn)罕見變異回歸分析很不穩(wěn)定或無法進(jìn)行[36],因此獲得的估計結(jié)果將嚴(yán)重影響后續(xù)的分析;②如何合適地選擇α0及其敏感性尚不明確;③由于采用permutation程序?qū)⒃龃笥嬎懔俊?/p>
2.基于混合效應(yīng)模型方差成分的方法
從上可見,針對一組罕見變異的關(guān)聯(lián)性研究,恰當(dāng)?shù)靥幚砦稽c(diǎn)效應(yīng)的方向性無疑是至關(guān)重要的?;诜讲畛煞謾z驗的提出正是出于這種認(rèn)識,與負(fù)荷檢驗不同,方差成分檢驗并不關(guān)注如何合并罕見變異,而是將一組罕見變異與疾病的關(guān)系看作服從正態(tài)分布的隨機(jī)效應(yīng),通過檢驗隨機(jī)效應(yīng)的方差成分來研究罕見變異與疾病之間的關(guān)聯(lián),因此能夠有效地避免這個問題[37]。
(1)SKAT方法
Wu等[25]提出的SKAT(sequence kernel association test,SKAT)是一類非常有效的罕見變異關(guān)聯(lián)性分析方法。在線性混合效應(yīng)模型的框架下[38-40],SKAT采用基于得分函數(shù)(score function)的方差成分檢驗來研究罕見變異和疾病之間的關(guān)系,并通過核函數(shù)(kernel function)來量化個體間的遺傳相似性[41-47]。其優(yōu)勢在于,SKAT只需要估計H0(即一組罕見變異和疾病之間無關(guān)聯(lián),等價于隨機(jī)效應(yīng)的方差成分為0)下的模型,此時混合效應(yīng)模型退化為一般的簡單線性模型或logistic回歸模型,因此SKAT在計算上很有效;在核機(jī)器學(xué)習(xí)(Kernel machine learning)的框架下,通過選擇和構(gòu)造不同的核函數(shù),研究者能夠分析遺傳位點(diǎn)與疾病之間的復(fù)雜關(guān)聯(lián)(如非線性關(guān)系或位點(diǎn)間交互作用);另外,能夠通過解析的方式獲得SKAT統(tǒng)計量的無效分布。最近,類似SKAT的思想被推廣到家系數(shù)據(jù)的罕見遺傳位點(diǎn)關(guān)聯(lián)性分析中[48-52]。
此外,Wu等[25]還證明Neale等[53]提出的C-alpha檢驗實(shí)際上是SKAT檢驗的一種特殊形式,即SKAT不包含協(xié)變量且表型為疾病狀態(tài)時(如病例-對照研究中反應(yīng)變量為0-1)的情形。
然而,SKAT也存在不足之處:①SKAT統(tǒng)計量越大并不意味這一組罕見變異的效應(yīng)越大,有可能是因為很多弱的效應(yīng)[54];②實(shí)際應(yīng)用中,遺傳學(xué)家和流行病學(xué)家不但關(guān)心罕見變異和疾病之間的P值,還更關(guān)心罕見變異和疾病之間的具體效應(yīng)大小[55-56];換句話說,他們往往更希望獲得一個定量的指標(biāo)能夠反應(yīng)一組罕見變異對疾病的貢獻(xiàn);但是,本質(zhì)上SKAT是一種得分檢驗[25,40],僅執(zhí)行假設(shè)檢驗而不進(jìn)行參數(shù)估計,因此不能給出關(guān)于罕見變異對疾病貢獻(xiàn)或效應(yīng)的度量值,實(shí)際工作中無法通過SKAT評價多組罕見變異對疾病的相對重要性;③因為SKAT得分檢驗的本質(zhì),在小樣本和顯著性檢驗水平很低的情況下可能會導(dǎo)致保守的結(jié)果[25,57-59]。針對SKAT保守的結(jié)果,最近提出了一些改進(jìn)的措施,如采用數(shù)值調(diào)整或通過permutation和bootstrap方法校正[25,60]。但目前相應(yīng)的校正僅針對病例-對照資料,針對定量數(shù)據(jù)校正方法尚不能得到。
模擬研究顯示,當(dāng)至少大部分罕見變異為關(guān)聯(lián)位點(diǎn)且效應(yīng)方向一致時,負(fù)荷檢驗的統(tǒng)計效應(yīng)高于SKAT,但在只有少部分罕見位點(diǎn)為關(guān)聯(lián)位點(diǎn)以及效應(yīng)方向不一致時,SKAT具有明顯的優(yōu)勢。然而,在實(shí)際中無法得知疾病的遺傳模型,因此應(yīng)用中對負(fù)荷檢驗和SKAT的最優(yōu)選擇將變得困難。為了解決這個問題,Lee等[60-61]提出在SKAT檢驗中納入罕見變異關(guān)系結(jié)構(gòu)的相關(guān)矩陣,稱為SKAT-O(optimal sequence kernel association test)。該相關(guān)矩陣包含一個參數(shù)ρ,當(dāng)ρ=1時SKAT-O退化為負(fù)荷檢驗,當(dāng)ρ=0時SKAT-O退化為一般的SKAT。
(2)MiST方法
與SKAT-O的策略不同,Sun等[57]提出的MiST方法(mixed effects score test)直接將在負(fù)荷檢驗中合并的變量連同多個罕見變異一起納入統(tǒng)計模型,然后構(gòu)造兩個獨(dú)立得分檢驗,分別檢驗合并的變量和罕見變異的方差成分,最后通過Fisher或Tippett合并得到最終聯(lián)合檢驗的P值。模擬研究顯示,MiST方法要優(yōu)于SKAT和SKAT-O以及負(fù)荷檢驗。研究還發(fā)現(xiàn),在通過單一的相關(guān)系數(shù)來衡量罕見變異關(guān)系結(jié)構(gòu)的做法(即SKAT-O中的思路)實(shí)際上并非是最優(yōu)的[57],因為實(shí)際單個參數(shù)基本上無法反應(yīng)罕見變異之間的復(fù)雜關(guān)系,這樣做反而會降低統(tǒng)計效能,即有時候SKAT的效能要高于SKAT-O[57]。
(3)GenRF模型
通過借用在空間統(tǒng)計中發(fā)展的隨機(jī)場理論(random field theory),He等[58]和Li等[59]提出了一種新的罕見變異關(guān)聯(lián)分析方法,稱為遺傳隨機(jī)場(genetic random field,GenRF)模型。在GenRF模型中某個具體個體的遺傳表型被當(dāng)做隨機(jī)場在歐幾里得空間中隨機(jī)實(shí)現(xiàn),并認(rèn)為受剩下其他所有個體的影響,這種影響通過一個非負(fù)的尺度參數(shù)來量化。因此對一組罕見變異關(guān)聯(lián)性的檢驗就轉(zhuǎn)化為該尺度參數(shù)的檢驗。Li等[59]認(rèn)為GenRF模型可看做一種特殊的Wald檢驗。
(4)基于似然的推斷
如前文所述,在混合效應(yīng)模型的框架下罕見變異關(guān)聯(lián)性分析可以轉(zhuǎn)化為對方差成分的假設(shè)檢驗。在統(tǒng)計推斷中,相對于得分檢驗(如SKAT、SKAT-O或MiST方法)和Wald檢驗(如GenRF模型),似然比檢驗(likelihood ratio test,LRT)和限制性似然比檢驗(restricted likelihood ratio test,ReLRT)是另一類十分重要和流行的方法[3,62-65]?;诖耍琙eng等[55-56]最近提出采用LRT和ReLRT執(zhí)行罕見變異關(guān)聯(lián)性分析,LRT和ReLRT統(tǒng)計量建立在剖面似然函數(shù)(profile log-likelihood)之上,通過抽樣算法獲得統(tǒng)計量的無效假設(shè)分布[3,55-56]。
模擬研究顯示,LRT和ReLRT一致優(yōu)于SKAT,甚至在罕見變異效應(yīng)方向相同、當(dāng)樣本量比較大時其效能與SKAT-O和負(fù)荷檢驗基本一致;此外,LRT和ReLRT還能提供反映一組罕見變異相對重要性的指示統(tǒng)計量[55-56]。然而,LRT和ReLRT的不足之處在于,要求同時估計H0和H1條件下的模型,并且依賴模擬算法計算P值,因此其速度相對較慢。為了提高LRT和ReLRT的計算速度,我們最近嘗試采用近似混合分布(mixture distribution),研究顯示該近似分布能夠在維持其高統(tǒng)計效能的基礎(chǔ)上顯著提高計算速度。
3.其他方法
雖然近年來針對罕見變異關(guān)聯(lián)性分析的統(tǒng)計方法層出不窮;然而,在實(shí)際應(yīng)用中有些方法存在明顯的局限或其理論假設(shè)不現(xiàn)實(shí)。例如,Zhan和Xu[54]提出的自適應(yīng)嶺回歸(adaptive ridge regression)被驗證不能有效控制I型錯誤,負(fù)荷檢驗不能有效處理效應(yīng)方向的問題,Lin和Tang[36]提出的EREC方法以及其他方法如VT檢驗[35]、Han和Pan自適應(yīng)檢驗[34]、加權(quán)檢驗[29]以及Liu和Leal提出的KBAC[67]都要求執(zhí)行permutation程序或Monte Carlo檢驗,因此計算復(fù)雜。基于Bayes等級模型[68]的方法雖然顯示出好的性質(zhì),但需要通過MCMC迭代抽樣以及評價Markov鏈?zhǔn)欠袷諗浚瑯泳哂杏嬎懔看蟮娜秉c(diǎn),實(shí)際應(yīng)用受限。此外,基于維度降低的策略如主成分法也受到重視,Luo等[69]比較了八種罕見變異關(guān)聯(lián)性分析方法(包括CMC、T2和主成分法等),認(rèn)為功能主成分法(functional principal component analysis)具有較高的效能,但目前功能主成分法與SKAT、似然比檢驗之間的相對效能尚不明確。
我們認(rèn)為一個好的罕見遺傳變異關(guān)聯(lián)性分析統(tǒng)計方法應(yīng)該具備一些優(yōu)良的性質(zhì):①能夠有效處理罕見變異效應(yīng)方向性的問題,即需要對異質(zhì)效應(yīng)穩(wěn)健,這也是所有性質(zhì)中最為重要的;②能夠同時考慮協(xié)變量;因為關(guān)聯(lián)研究中可能存在其他協(xié)變量需要校正,如性別、年齡或暴露水平等;另一個重要的情況是人群分層(population stratification),目前校正人群分層的常規(guī)做法是在分析中納入前幾位的主成分[70],因此校正協(xié)變量也就變得異常重要[25-26,36];③考慮到在全基因組或全外顯子規(guī)模上需要執(zhí)行成千上萬次的關(guān)聯(lián)分析,因此需要快速的計算;我們注意到,通過多核運(yùn)算或并行運(yùn)算等方式以及近似的方法能顯著提高計算速度;④能夠提供度量一組罕見變異和疾病之間效應(yīng)的客觀指標(biāo),以及能夠分析疾病和遺傳位點(diǎn)之間的復(fù)雜關(guān)系的指標(biāo)。
事實(shí)上,上面提到的SKAT、MiST、GenRF以及LRT和ReLRT都具備上述大部分性質(zhì)。它們還具有共同的特點(diǎn):將一組罕見變異關(guān)聯(lián)研究的問題轉(zhuǎn)化為對一個非負(fù)參數(shù)假設(shè)檢驗的問題,避免了多元檢驗存在的問題,如自由度消耗、多重共線性和效能低等,因此,在罕見變異個數(shù)比較多時仍然有效。
上述罕見變異檢驗方法的統(tǒng)計效能表現(xiàn)主要取決于潛在的模型假設(shè),總的罕見變異位點(diǎn)個數(shù)、位點(diǎn)效應(yīng)的方向、位點(diǎn)MAF和效應(yīng)之間的關(guān)系以及致病位點(diǎn)在所有位點(diǎn)中的比例。大量的經(jīng)驗研究顯示[25-26,71-72],已經(jīng)發(fā)展的罕見變異關(guān)聯(lián)性研究方法并沒有一種檢驗在任何情況下都是最優(yōu)的,即任何情況下總具有最高的檢驗效能,雖然有研究者宣傳他們獲得了最優(yōu)(optimal)的檢驗方法[36,53,60-61]。
考慮到罕見變異和疾病之間的復(fù)雜關(guān)系,以及現(xiàn)有方法本身效能并不高,因此需要進(jìn)一步建立更加有效的關(guān)聯(lián)性分析方法和統(tǒng)計分析策略,合理聯(lián)合不同的檢驗方法是一種有效的嘗試[57,60-61,73],這些聯(lián)合檢驗方法通常更加穩(wěn)健和高效。然而,也有研究顯示聯(lián)合檢驗方法并不總是能夠提高統(tǒng)計效能[55,57]。
對若干個不同的測序數(shù)據(jù)執(zhí)行Meta分析也是提高統(tǒng)計效能的一個潛在手段[74-77]。然而,罕見變異Meta分析可能存在的問題包括致病的罕見遺傳位點(diǎn)通常出現(xiàn)在具體的某個人群,不同的人群可能并不共享相同的罕見致病位點(diǎn)[78]。
目前的罕見變異關(guān)聯(lián)性分析方法及其分析策略多主要集中于基因內(nèi)的罕見位點(diǎn),而忽略常見位點(diǎn)。然而,大量的研究顯示致病遺傳位點(diǎn)的等位基因頻率分布廣范,既有罕見位點(diǎn),也有低頻位點(diǎn)和常見位點(diǎn)。在實(shí)際應(yīng)用中,如果僅僅局限于罕見變異無疑會導(dǎo)致統(tǒng)計效能低下,因此整合外源性信息(包括多平臺遺傳數(shù)據(jù)和環(huán)境數(shù)據(jù))以及聯(lián)合分析常見和罕見位點(diǎn)及其可能的交互作用是十分有必要的[37,79-81],但相關(guān)的文獻(xiàn)目前還很有限。
雖然已有家系數(shù)據(jù)的罕見變異關(guān)聯(lián)性分析方法,但越來越多的GWAS研究為了了解遺傳因素和疾病的因果關(guān)系而采用隊列(cohort study)的方式執(zhí)行[82-83],縱向數(shù)據(jù)(longitudinal data)本身的非獨(dú)立性會使得罕見變異關(guān)聯(lián)性分析變得更加復(fù)雜,因此迫切需要發(fā)展適合縱向測序數(shù)據(jù)的罕見變異關(guān)聯(lián)性統(tǒng)計方法。
[1]Hindorff L,Sethupathy P,Junkins H,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.Proceedings of the National Academy of Sciences of the United States of America,2009,106(23):9362-9367.
[2]Visscher P,Brown M,McCarthy M,et al.Five Years of GWAS Discovery.American Journal of Human Genetics,2012,90(1):7-24.
[3]Crainiceanu CM,Ruppert D.Likelihood ratio tests in linear mixed models with one variance component.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2004,66(1):165-185.
[4]Reich DE,Lander ES.On the allelic spectrum of human disease.Trends in Genetics,2001,17(9):502-510.
[5]Hu Z,Shi Y,Mo X,et al.A genome-wide association study identifies two risk loci for congenital heart malformations in Han Chinese populations.Nature Genetics,2013,45(7):818-821.
[6]Wellcome Trust Case Control Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls.Nature,2007,447(7145):661-678.
[7]Manolio T,Collins F,Cox N,et al.Finding the missing heritability of complex diseases.Nature,2009,461(7265):747-753.
[8]Eichler EE,Flint J,Gibson G,et al.Missing heritability and strategies for finding the underlying causes of complex disease.Nature Reviews Genetics,2010,11(6):446-450.
[9]Gibson G.Rare and common variants:twenty arguments.Nature reviews Genetics,2012,13(2):135-145.
[10]Pritchard JK.Are rare variants responsible for susceptibility to complex diseases? American Journal of Human Genetics,2001,69(1):124-137.
[11]Carvajal-Carmona LG.Challenges in the identification and use of rare disease-associated predisposition variants.Current Opinion in Genetics and Development,2010,20(3):277-281.
[12]Schork NJ,Murray SS,Frazer KA,et al.Common vs.rare allele hypotheses for complex diseases.Current Opinion in Genetics and Development,2009,19(3):212-219.
[13]Asimit J,Zeggini E.Rare variant association analysis methods for complex traits.Annual Review of Genetics,2010,44:293-308.
[14]Cirulli ET,Goldstein DB.Uncovering the roles of rare variants in common disease through whole-genome sequencing.Nature Reviews Genetics,2010,11(6):415-425.
[15]Bodmer W,Bonilla C.Common and rare variants in multifactorial susceptibility to common diseases.Nature Genetics,2008,40(6):695-701.
[16]Shendure J,Ji H.Next-generation DNA sequencing.Nature Biotechnology,2008,26(10):1135-1145.
[17]Cohen JC,Kiss RS,Pertsemlidis A,et al.Multiple Rare Alleles Contribute to Low Plasma Levels of HDL Cholesterol.Science,2004,305(5685):869-872.
[18]Johansen CT,Wang J,Lanktree MB,et al.Excess of rare variants in genes identified by genome-wide association study of hypertriglyceridemia.Nature Genetics,2010,42(8):684-687.
[19]Romeo S,Pennacchio LA,Fu Y,et al.Population-based resequencing of ANGPTL4 uncovers variations that reduce triglycerides and increase HDL.Nature Genetics,2007,39(4):513-516.
[20]Ji W,Foo J,O’Roak B,et al.Rare independent mutations in renal salt handling genes contribute to blood pressure variation.Nature Genetics,2008,40(1):592-599.
[21]Rivas M,Beaudoin M,Gardet A,et al.Deep resequencing of GWAS loci identifies independent rare variants associated with inflammatory bowel disease.Nature Genetics,2011,43(11):1066-1073.
[22]Gudmundsson J,Sulem P,Gudbjartsson DF,et al.A study based on whole-genome sequencing yields a rare variant at 8q24 associated with prostate cancer.Nature Genetics,2012,44(12):1326-1329.
[23]Maher B.Personal genomes:The case of the missing heritability.Nature,2008,456:18-21.
[24]Bansal V,Libiger O,Torkamani A,et al.Statistical analysis strategies for association studies involving rare variants.Nature Reviews Genetics,2010,11(11):773-785.
[25]Wu MC,Lee S,Cai T,et al.Rare-Variant Association Testing for Sequencing Data with the Sequence Kernel Association Test.American Journal of Human Genetics,2011,89(1):82-93.
[26]Derkach A,Lawless JF,Sun L.Pooled association tests for rare genetic variants:A review and some new results.Statistical Science,2014,29(2):302-321.
[27]Lange K,Papp JC,Sinsheimer JS,et al.Next-Generation Statistical Genetics:Modeling,Penalization,and Optimization in High-Dimensional Data.Annual Review of Statistics and Its Application,2014,1(1):279-300.
[28]Morgenthaler S,Thilly W.A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases:a cohort allelic sums test(CAST).Mutation Research,2007,615(1-2):28-56.
[29]Li B,Leal S.Methods for detecting associations with rare variants for common diseases:application to analysis of sequence data.American Journal of Human Genetics,2008,83(3):311-321.
[30]Madsen BE,Browning SR.A Groupwise Association Test for Rare Mutations Using a Weighted Sum Statistic.PLoS Genetics,2009,5(2):e1000384.
[31]Ionita-Laza I,Buxbaum JD,Laird NM,et al.A New Testing Strategy to Identify Rare Variants with Either Risk or Protective Effect on Disease.PLoS Genetics,2011,7(2):e1001289.
[32]Logsdon BA,Dai JY,Auer PL,et al.A Variational Bayes Discrete Mixture Test for Rare Variant Association.Genetic Epidemiology,2014,38(1):21-30.
[33]Pan W,Shen X.Adaptive tests for association analysis of rare variants.Genetic Epidemiology,2011,35(5):381-388.
[34]Han F,Pan W.A data-adaptive sum test for disease association with multiple common or rare variants.Human Heredity,2010,70(1):42-54.
[35]Price AL,Kryukov GV,de Bakker PI,et al.Pooled association tests for rare variants in exon-resequencing studies.American Journal of Human Genetics,2010,86(6):832-838.
[36]Lin D,Tang Z.A General Framework for Detecting Disease Associations with Rare Variants in Sequencing Studies.American Journal of Human Genetics,2011,89(3):354-367.
[37]Lee S,Abecasis Goncalo R,Boehnke M,et al.Rare-Variant Association Analysis:Study Designs and Statistical Tests.American Journal of Human Genetics,2014,95(1):5-23.
[38]Laird NM,Ware JH.Random-effects models for longitudinal data.Biometrics,1982,38(4):963-974.
[39]Breslow N,Clayton D.Approximate inference in generalized linear mixed models.J Am Stat Assoc,1993,88(421):9-25.
[40]Lin X.Variance component testing in generalised linear models with random effects.Biometrika,1997,84(2):309-326.
[41]Schaid DJ.Genomic Similarity and Kernel Methods I:Advancements by Building on Mathematical and Statistical Foundations.Human Heredity,2010,70(2):109-131.
[42]Hofmann T,Sch?lkopf B,Smola AJ.Kernel methods in machine learning.Annals of Statistics,2008,36(3):1171-1220.
[43]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical learning:Data Mining,Inference,and Prediction,2 nd edition.New York:Springer,2009.
[44]Cristianini N,Shawe-Taylor J.An introduction to support vector machines and other kernel-based learning methods.New York:Cambridge University Press,2000.
[45]Sch?lkopf B,Smola A.Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Beyond.Cambridge:The MIT Press,2001.
[46]Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis.New York:Cambridge University Press,2004.
[47]G?nen M,Alpaydin E.Multiple kernel learning algorithms.Journal of Machine Learning Research,2011,12:2211-2268.
[48]Schifano ED,Epstein MP,Bielak LF,et al.SNP Set Association Analysis for Familial Data.Genetic Epidemiology,2012,36(8):797-810.
[49]Chen H,Meigs JB,Dupuis J.Sequence kernel association test for quantitative traits in family samples.Genetic Epidemiology,2013,37(2):196-204.
[50]Oualkacha K,Dastani Z,Li R,et al.Adjusted Sequence Kernel Association Test for Rare Variants Controlling for Cryptic and Family Relatedness.Genetic Epidemiology,2013,37(4):366-376.
[51]Svishcheva GR,Belonogova NM,Axenovich TI.FFBSKAT:Fast Family-Based Sequence Kernel Association Test.PLoS ONE,2014,9(6):e99407.
[52]Chen H,Malzahn D,Balliu B,et al.Testing Genetic Association With Rare and Common Variants in Family Data.Genetic Epidemiology,2014,38(S1):S37-S43.
[53]Neale BM,Rivas MA,Voight BF,et al.Testing for an Unusual Distribution of Rare Variants.PLoS Genetics,2011,7(3):e1001322.
[54]Zhan H,Xu S.Adaptive Ridge Regression for Rare Variant Detection.PLoS ONE,2012,7(8):e44173.
[55]Zeng P,Zhao Y,Liu J,et al.Likelihood Ratio Tests in Rare Variant Detection for Continuous Phenotypes.Annals of Human Genetics,2014,78(5):320-332.
[56]Zeng P,Zhao Y,Zhang L,et al.Rare Variants Detection with Kernel Machine Learning Based on Likelihood Ratio Test.PLoS ONE,2014,9(3):e93355.
[57]Sun J,Zheng Y,Hsu L.A Unified Mixed-Effects Model for Rare-Variant Association in Sequencing Studies.Genetic Epidemiology,2013,37(4):334-344.
[58]He Z,Zhang M,Zhan X,et al.Modeling and testing for joint association using a genetic random field model.Biometrics,2014,70(3):471-479.
[59]Li M,He Z,Zhang M,et al.A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data.Genetic Epidemiology,2014,38(3):242-253.
[60]Lee S,Emond MJ,Bamshad MJ,et al.Optimal Unified Approach for Rare-Variant Association Testing with Application to Small-Sample Case-Control Whole-Exome Sequencing Studies.American Journal of Human Genetics,2012,91(2):224-237.
[61]Lee S,Wu MC,Lin X.Optimal tests for rare variant effects in sequencing association studies.Biostatistics,2012,13(4):762-775.
[62]Self SG,Liang KY.Asymptotic Properties of Maximum Likelihood Estimators and Likelihood Ratio Tests under Nonstandard Conditions.J Roy Stat Soc,B,1987,82(398):605-610.
[63]Stram DO,Lee JW.Variance Components Testing in the Longitudinal Mixed Effects Model.Biometrics,1994,50(4):1171-1177.
[64]Liang KY,Self SG.On the Asymptotic Behaviour of the Pseudolikelihood Ratio Test Statistic.Journal of the Royal Statistical Society:Series B(Statistical Methodology),1996,58(4):785-796.
[65]Greven S,Crainiceanu CM,Küchenhoff H,et al.Restricted Likelihood Ratio Testing for Zero Variance Components in Linear Mixed Models.Journal of Computational and Graphical Statistics,2008,17(4):870-891.
[66]Lippert C,Xiang J,Horta D,et al.Greater power and computational efficiency for kernel-based association testing of sets of genetic variants.Bioinfor matics,2014,30(22):3206-3214.
[67]Liu D,Leal S.A novel adaptive method for the analysis of next-generation sequencing data to detect complex trait associating with rare variants due to gene main effects and interactions.PLoS Genetics,2010,6:e1001156.
[68]Yi N,Liu N,Zhi D,et al.Hierarchical Generalized Linear Models for Multiple Groups of Rare and Common Variants:Jointly Estimating Group and Individual-Variant Effects.PLoS Genetics,2011,7(12):e1002382.
[69]Luo L,Boerwinkle E,Xiong M.Association studies for next-generation sequencing.Genome Research,2011,21:1099 - 1108.
[70]Price AL,Patterson NJ,Plenge RM,et al.Principal components analysis corrects for stratification in genome-wide association studies.Nature Genetics,2006,38(8):904-909.
[71]Basu S,Pan W.Comparison of statistical tests for disease association with rare variants.Genetic Epidemiology,2011,35(7):606-619.
[72]Ladouceur M,Dastani Z,Aulchenko YS,et al.The Empirical Power of Rare Variant Association Methods:Results from Sanger Sequencing in 1,998 Individuals.PLoS Genetics,2012,8(2):e1002496.
[73]Derkach A,Lawless JF,Sun L.Robust and Powerful Tests for Rare Variants Using Fisher’s Method to Combine Evidence of Association From Two or More Complementary Tests.Genetic Epidemiology,2013,37(1):110-121.
[74]Evangelou E,Ioannidis JPA.Meta-analysis methods for genome-wide association studies and beyond.Nature reviews Genetics,2013,14(6):379-389.
[75]Hu YJ,Berndt SI,Gustafsson S,et al.Meta-analysis of gene-level associations for rare variants based on single-variant statistics.American Journal of Human Genetics,2013,93(2):236-248.
[76]Liu DJ,Peloso GM,Zhan X,et al.Meta-analysis of gene-level tests for rare variant association.Nature Genetics,2014,46(2):200-204.
[77]Lee S,Teslovich TM,Boehnke M,et al.General framework for meta-analysis of rare variants in sequencing association studies.American Journal of Human Genetics,2013,93(1):42-53.
[78]Moutsianas L,Morris AP.Methodology for the analysis of rare genetic variation in genome-wide association and re-sequencing studies of complex human traits.Brief Funct Genomics,2014.
[79]Wang X,Epstein MP,Tzeng J.Analysis of Gene-Gene Interactions Using Gene-Trait Similarity Regression.Human Heredity,2014,78(1):17-26.
[80]Larson NB,Schaid DJ.A Kernel Regression Approach to Gene-Gene Interaction Detection for Case-Control Studies.Genetic Epidemiology,2013,37(7):695-703.
[81]Ionita-Laza I,Lee S,Makarov V,et al.Sequence Kernel Association Tests for the Combined Effect of Rare and Common Variants.American Journal of Human Genetics,2013,92(6):841-853.
[82]Fan R,Zhang Y,Albert PS,et al.Longitudinal Association Analysis of Quantitative Traits.Genetic Epidemiology,2012,36(8):856-869.
[83]Furlotte NA,Eskin E,Eyheramendy S.Genome-Wide Association Mapping With Longitudinal Data.Genetic Epidemiology,2012,36(5):463-471.
(責(zé)任編輯:郭海強(qiáng))
*:國家自然科學(xué)基金項目(81473070,81373102,81402765);國家統(tǒng)計局全國統(tǒng)計科學(xué)研究項目(2014LY112);江蘇省教育廳高校哲學(xué)社會科學(xué)研究基金項目(2013SJD790032,2013SJB790059);江蘇省普通高校研究生科研創(chuàng)新計劃項目(CXLX13_574);南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院優(yōu)勢學(xué)科建設(shè)工程項目和優(yōu)秀博士論文培育項目
1.南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(210029)
2.徐州醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)教研室(221004)
△通信作者:陳峰,E-mail:fengchen@njmu.edu.cn