劉佳宇,張麗娜,鄭紅
綜述
后全基因組病例對照研究時代的功能研究策略
劉佳宇1,2,張麗娜3,鄭紅1△
自首次報道了有關人類年齡相關性黃斑變性的全基因組關聯研究(GWAS)以來,人們通過GWAS方法發(fā)現并鑒定了大量與人類復雜性疾病關聯的遺傳變異。但是,對這些遺傳變異位點的生物學功能尚不十分清楚。本文重點介紹了在后GWAS時代,對疾病易感基因位點進行精細定位的方法和功能學研究進展。在后GWAS時代,遺傳機制研究可以幫助臨床深入地理解疾病的發(fā)病機制。
基因組;病例對照研究;多態(tài)性,單核苷酸;全基因組關聯研究;精細定位;功能研究;易感基因;綜述
全基因組關聯研究(GWAS)是一種分析全基因組范圍內的遺傳變異與性狀或疾病之間關聯的研究手段。它主要基于連鎖不平衡(LD)原理:選擇幾十萬甚至上百萬個多態(tài)性位點(SNP)代表全基因組范圍內的遺傳變異,并應用高通量基因分型平臺對這些代表位點進行檢測[1]。由于沒有預先的研究假設,實驗設計多為大樣本量、多階段、多中心的病例-對照研究,并用多個獨立的研究中心進行后期驗證,這樣可以克服先假設易感基因,再挑選SNP模式的局限性。目前發(fā)現了超過10 000個與疾病或性狀相關的SNP[2]。GWAS識別出具有統(tǒng)計學意義的疾病相關SNP可能僅僅只是功能區(qū)域單體型(haplotype)[3]的一個標簽。后續(xù)挑戰(zhàn)主要在于找到關聯最強的具有生物學功能的候選變異位點以及相關的靶基因,并闡明其中關聯的調控機制。因此,本文針對疾病相關位點,對后GWAS的精細定位以及功能研究的方法加以綜述,以期為后GWAS研究提供參考。
GWAS研究目前發(fā)現了大量的與疾病相關的位點和區(qū)域,但能明確闡述其生物學功能的位點很少,在這些所謂的“熱點”之間分布著穩(wěn)定的DNA堿基序列,它們在進化過程中經歷的重組很少,這些重組貧乏的序列被稱作單倍型,約占人類基因組的80%[4]。在一個穩(wěn)定的、所有SNP都傾向于被隔離到一起的DNA序列區(qū)域,包含一些尚未被檢測到的SNP,GWAS研究中所選用的SNP可能只是這個區(qū)域中SNP的代表,后GWAS研究關鍵的第一步就是確定與疾病易感的SNP所在區(qū)域的單體型結構,即確定這個穩(wěn)定DNA區(qū)域的范圍。之后對該區(qū)域進行精細定位(fine mapping),例如對該區(qū)域進行重測序(re-sequencing),以便查明這個區(qū)域上還存在哪些其他的SNP,并進行病例-對照樣本的驗證、基因表達分析、體內外功能學等實驗,以確定真正的致病位點。但是單體型結構受人種的影響較大[5],研究者要根據研究對象選擇合適的數據庫和工具(例如Haploview:http://www.broad. mit.edu/mpg/haploview/)對目的SNP所在的單體型結構進行分析,再獲取該單體型結構的高密度遺傳變異目錄及其基因型。
1.1重測序(re-sequencing)GWAS發(fā)現的易感位點通常來自常見變異,全基因組完整的SNP圖譜仍然是未知的。目前最新版本的人類基因組單體型圖譜計劃(HapMap)的數據(HapMap genome browser release#28)也僅僅提供了30%左右的基因組常見SNP數據[6]。因此,要獲得疾病易感區(qū)域完整的SNP信息,需要對一定數量的正常人群疾病易感基因候選區(qū)域進行重測序。重測序也有助于發(fā)現一些人群中的低頻變異以及新出現的變異,而二代測序技術的發(fā)展也使得對易感區(qū)域進行重測序變得簡單可行[7-8]。日本一項胃癌GWAS研究發(fā)現了1q22上的2個SNP位點rs2075570和rs2070803與彌漫性胃癌易感相關[9]。有研究通過對該區(qū)域的單體型分析以及相關基因的表達分析,選擇該區(qū)域上的MUC1基因進行重測序,新發(fā)現了7個SNP,其中包含真正有功能的rs4072037位點,它通過調控MUC1的剪切從而影響彌漫性胃癌易感性[10]。此外,重測序還能夠提供結構變異位點、插入缺失位點等其他遺傳變異形式的信息,這有助于對其開展后續(xù)的功能研究[11]。
1.2基因型填補(lmputation)基因型填補是一種基于已檢測位點基因型信息,根據HapMap、千人基因組計劃(1 000 genomes project)等項目提供的密度更高的參照數據,推斷未檢測位點基因型的計算機手段,其有助于對更多未檢測位點與疾病的關聯進行分析[12]。目前在后GWAS研究中,較為常用的基因型填補軟件通常分為2類:一類是計算密集型工具,例如IMPUTE和MACH,這一類在推測未知基因型時考慮到所有的已知基因型位點基因型數據;另一種是計算效率型工具,如PLINK和BEAGLE,這種分析一般只考慮位點周圍的一些已知基因型數據。前者需要更復雜的計算,但是對于缺失位點的推斷更準確,尤其是低頻的變異?;蛐吞钛a能夠增加GWAS研究的SNP密度,有助于在已經發(fā)現的關聯性位點周圍尋找疾病位點,彌補由于實驗設計或技術平臺分型失敗所缺失的一些位點信息,節(jié)省人力和物力,可作為資源有限情況下的一種有效輔助手段。
通過這2種手段,研究者就可以得到感興趣區(qū)域的一個基因輪廓,得到這個正常人群易感區(qū)域的遺傳變異目錄后,就可以選擇一定數量的病例及對照,對易感區(qū)域內的常見SNP(例如MAF>5%)進行病例-對照研究。該階段最重要的因素是檢驗效能,一般多中心的合作有助于找到與疾病關聯程度最強的SNP,進而縮小易感區(qū)域甚至確定易感基因。之后運用各類公共數據庫以及軟件工具對這個區(qū)域的易感位點進行功能注釋,從而協(xié)助研究者選取合適位點和適當的位點數量,以指導實驗方向。
2.1編碼區(qū)SNP(coding SNP)位于基因編碼區(qū)的SNP根據其變異效應可以分為錯義突變、同義突變、無義突變和移碼突變,其中無義突變和移碼突變會對蛋白的結構和功能造成較大的影響,一般都會在自然選擇過程中被淘汰[13]。同義突變的功能不影響氨基酸序列,但可以通過參與轉錄、翻譯及翻譯后修飾等環(huán)節(jié)來影響蛋白質的表達或功能,從而導致疾病的發(fā)生,其功能與非編碼SNP相似。錯義變異對于基因的影響可以從遺傳密碼中推斷出來,而其危害一般基于序列保守性和蛋白結構來預測。首先進行序列比對,從序列保守性來評估氨基酸替換的影響,比對算法是一個關鍵因素[14],這方面,PolyPhen-2網站提供了一個相對簡單友好的操作界面[15],蛋白質結構的評估也可提供重要信息,如果SNP位于重要的結構域(例如催化部位,DNA或蛋白結合部位等),可以通過計算機分析來預測這個氨基酸改變是否影響蛋白的功能或穩(wěn)定性。目前已經有很多綜合性預測的網站對錯義SNP進行功能注釋,如PolyDoms能夠利用dbSNP的各種資源預測蛋白質結構和功能的變異,同時還可通過各種數據庫獲得生物信號通路,交互作用和等位變異等信息[16]。
2.2非編碼SNP(non-coding SNP)目前GWAS發(fā)現的疾病/性狀相關位點SNP約90%存在于一些基因的非編碼區(qū)域,這些位點可能通過參與基因的轉錄,轉錄后加工,翻譯及翻譯后修飾等各種途徑影響基因的表達[17]。
非編碼SNP可以是近距離的順式作用元件或者遠距離的反式作用因子[18],這類SNP的靶基因不明確。數量性狀基因座(expression Quantitative Trait Loci,eQTL)分析成為識別靶基因的重要手段,eQTL是指能夠影響基因表達的遺傳變異位點,檢測SNP與基因表達關系的統(tǒng)計分析稱為eQTL分析[19],在資源有限的情況下可以運用公共數據庫來進行分析。Li等[20]運用TCGA(The Cancer Genome Atlas)和EN?CODE(Encyclopedia of DNA Elements)數據庫對15個乳腺癌相關的易感位點進行eQTL分析,發(fā)現了3個易感位點附近的靶基因以及3個遠距離作用的靶基因。需要注意的是基因表達具有組織特異性[21],目前公共的eQTL數據還很不健全,主要局限于單核細胞、淋巴細胞等[22],隨著Genotype Tis?sue Expression項目的進行,將會得到來自900多個個體超過60種組織的eQTL信息[23]。
非編碼SNP可以參與到基因表達的各環(huán)節(jié),SNP可能位于不同的調控區(qū),例如剪切位點、轉錄因子結合位點、miRNA靶序列種子區(qū)結合位點等這些都有各自專業(yè)預測工具,如BDGP、TRANSFAC和Targetscan。還有一些綜合性預測網站,如GWAS3D(http://jjwanglab.org/gwas3d)和UCSC(http://ge?nome.ucsc.edu/),它們集合了ENCODE、Roadmap等眾多功能數據集的綜合型網站,能夠提供變異位點對剪切、轉錄、翻譯等各環(huán)節(jié)的調控信息。此外,對于候選SNP較多時,可以一次性分析大量候選SNP及其高連鎖位點的功能,如SNPinfo。功能預示強的位點可以運用上文提到的各領域專業(yè)網站或工具再進行單獨預測驗證。
經過計算機功能分析后可以得到候選SNP的功能注釋。但那些分析工具依賴的是一些有限的數據庫,且這些數據庫的數據比如ENCODE里面納入的轉錄因子以及細胞種類也是有限的,這樣就容易使研究者丟失了部分可能具有功能的位點。同時,因為沒有考慮到組織特異性,有些功能注釋也可能出現假陽性。但是總的來說這些生物信息學工具和公共數據庫能為研究者提供很大的幫助,從而縮小實驗目標范圍,使其進一步的體內外功能研究成為可能。
計算機預測手段只能輔助研究者找到相關的突變位點和靶基因,提供易感位點可能調控基因表達的間接證據。研究者還需要通過體內和體外實驗來證實目標SNP在調控基因表達及參與疾病發(fā)生發(fā)展的分子機制,其主要是基于各種遺傳背景比較明確的細胞系,其具有均一化、可操控性強、重復性好的特點。SNP能夠評估不同遺傳背景的細胞系的基因表達情況或觀察人為改變靶基因的表達后細胞形態(tài)和行為的變化。常用的實驗方法包括報告基因轉染技術,ChIP-chip或ChIP-seq方法,染色體構象俘獲技術(3C)等。但后GWAS功能研究最大的挑戰(zhàn)在于體內功能學實驗的證實,小鼠基因與人類基因組相似,能模擬人類疾病表型,實驗手段比較成熟,因此成為運用最廣泛的模式動物。GWAS研究發(fā)現,位于NR5A2附近的SNP與胰腺癌易感相關[24]。von Figu?ra等[25]敲除小鼠胰腺NR5A2基因發(fā)現,NR5A2是胰腺腺泡可塑性的關鍵調節(jié)器,同時也通過抑制Kras原癌基因抑制胰腺癌。目前主要的體內實驗集中于在一些模式動物中進行靶基因功能的研究,但仍然缺乏SNP在體內調控靶基因的直接證據。同時,大量研究表明SNP對于疾病的易感只有中等的效應:平均OR(odds ratio)值約為1.3[26],這使得研究者在模式動物體內實驗中很難觀察到明顯的表型變化。
綜上所述,疾病相關的GWAS研究進展迅速,但由于真正SNP調控機制的后GWAS研究成果的缺乏,其臨床應用受到了很大的限制。臨床上,對于健康人群可通過遺傳檢查確定高危人群并預測疾病的發(fā)病風險,督促其開展早期篩查,預防疾病的發(fā)生;對于疾病患者,可根據個體遺傳信息制定合理的診治方案,預測患者的預后,為實現個體化醫(yī)學提供依據。同時,疾病病理分子機制的闡明有助于尋找新的藥物靶點,為疾病的治療開拓新途徑。
[1]Visscher PM,Brown MA,McCarthy MI,et al.Five years of GWAS discovery[J].Am J Hum Genet,2012,90(1):7-24.doi:10.1016/j. ajhg.2011.11.029.
[2]Welter D,MacArthur J,Morales J,et al.The NHGRI GWAS Catalog,a curated resource of SNP-trait associations[J].Nucleic Acids Res,2014,42(Database issue):D1001-1006.doi:10.1093/nar/gkt1229.
[3]Cao CC,Sun X.Accurate estimation of haplotype frequency from pooled sequencing data and cost-effective identification of rare hap?lotype carriers by overlapping pool sequencing[J].Bioinformatics,2015,31(4):515-522.doi:10.1093/bioinformatics/btu670.
[4]Reich DE,Cargill M,Bolk S,et al.Linkage disequilibrium in the human genome[J].Nature,2001,411(6834):199-204.
[5]Kemppainen P,Knight CG,Sarma DK,et al.Linkage disequilibri? um network analysis(LDna)gives a global view of chromosomal in?versions,local adaptation and geographic structure[J].Mol Ecol Re?sour,2015.doi:10.1111/1755-0998.12369.[Epubahead of print]
[6]International HapMap C,Altshuler DM,Gibbs RA,et al.Integrat?ing common and rare genetic variation in diverse human populations[J].Nature,2010,467(7311):52-58.doi:10.1038/nature09298.
[7]Sharma M,Kruger R,Gasser T.From genome-wide association studies to next-generation sequencing:lessons from the past and planning for the future[J].JAMA Neurol,2014,71(1):5-6.doi: 10.1001/jamaneurol.2013.3682.
[8]Romanel A,Lago S,Prandi D,et al.ASEQ:fast allele-specific studies from next-generation sequencing data[J].BMC Med Genomics,2015,8:84.doi:10.1186/s12920-015-0084-2.
[9]Study Group of Millennium Genome Project for Cancer,Sakamoto H,Yoshimura K,et al.Genetic variation in PSCA is associated with susceptibility to diffuse-type gastric cancer[J].Nat Genet,2008,40(6):730-740.doi:10.1038/ng.152.
[10]Saeki N,Saito A,Choi IJ,et al.A functional single nucleotide poly?morphism in mucin 1,at chromosome 1q22,determines susceptibili?ty to diffuse-type gastric cancer[J].Gastroenterology,2011,140(3): 892-902.doi:10.1053/j.gastro.2010.10.058.
[11]Korte A,Farlow A.The advantages and limitations of trait analysis with GWAS:a review[J].Plant Methods,2013,9:29.doi:10.1186/ 1746-4811-9-29.eCollection 2013.
[12]Wood AR.,Perry JR,Tanaka T,et al.Imputation of variants from the 1000 Genomes Project modestly improves known associations and can identify low-frequency variant-phenotype associations un?detected by HapMap based imputation[J].PLoS One,2013,8(5): e64343.doi:10.1371/journal.pone.0064343.
[13]Rice DP,Good BH,Desai MM.The Evolutionarily Stable Distribu?tion of Fitness Effects[J].Genetics,2015,200(1):321-329.
[14]Wei Q,Xu Q,Dunbrack RL Jr.Prediction of phenotypes of mis?sense mutations in human proteins from biological assemblies[J]. Proteins,2013,81(2):199-213.doi:10.1002/prot.24176.
[15]Adzhubei I,Jordan DM,Sunyaev SR.Predicting functional effect of human missense mutations using PolyPhen-2[J].Curr Protoc Hum Genet,2013,Chapter 7:Unit7.20.doi:10.1002/0471142905. hg0720s76.
[16]Jegga AG,Gowrisankar S,Chen J,et al.PolyDoms:a whole genome database for the identification of non-synonymous coding SNPs with the potential to impact disease[J].Nucleic Acids Res,2007,35(Database issue):D700-6.
[17]Hindorff LA,Sethupathy P,Junkins HA,et al.Potential etiologic and functional implications of genome-wide association loci for hu?man diseases and traits[J].Proc Natl Acad Sci USA,2009,106(23): 9362-9367.doi:10.1073/pnas.0903103106.
[18]Monteiro AN,Freedman ML.Lessons from postgenome-wide associ?ation studies:functional analysis of cancer predisposition loci[J].J Intern Med,2013,274(5):414-424.doi:10.1111/joim.12085.
[19]Schielzeth H,Husby A.Challenges and prospects in genome-wide quantitative trait loci mapping of standing genetic variation in natu?ral populations[J].Ann N Y Acad Sci,2014,1320:35-57.doi: 10.1111/nyas.12397.
[20]Li Q,Seo JH,Stranger B,et al.Integrative eQTL-based analyses re?veal the biology of breast cancer risk loci[J].Cell,2013,152(3): 633-641.doi:10.1016/j.cell.2012.12.034.
[21]Fu J,Wolfs MG,Deelen P,et al.Unraveling the regulatory mecha?nisms underlying tissue-dependent genetic variation of gene expres?sion[J].PLoS Genet,2012,8(1):e1002431.
[22]Stranger BE,Nica AC,Forrest MS,et al.Population genomics of hu?man gene expression[J].Nat Genet,2007,39(10):1217-1224.
[23]Consortium GT.The Genotype-Tissue Expression(GTEx)project[J].Nat Genet,2013,45(6):580-585.doi:10.1038/ng.2653.
[24]Petersen GM,Amundadottir L,Fuchs CS,et al.A genome-wide as?sociation study identifies pancreatic cancer susceptibility loci on chromosomes 13q22.1,1q32.1 and 5p15.33[J].Nat Genet,2010,42(3):224-228.doi:10.1038/ng.522.
[25]von Figura G,Morris JP 4th,Wright CV,et al.Nr5a2 maintains aci?nar cell differentiation and constrains oncogenic Kras-mediated pancreatic neoplastic initiation[J].Gut,2014,63(4):656-664.doi: 10.1136/gutjnl-2012-304287.
[26]Varghese JS,Easton DF.Genome-wide association studies in com?mon cancers--what have we learnt[J]?Curr Opin Genet Dev,2010,20(3):201-209.doi:10.1016/j.gde.2010.03.012.
(2015-02-09收稿 2015-03-27修回)
(本文編輯 陸榮展)
Research strategy of the case-control post-genome-wide association study
LIU Jiayu1,2,ZHANG Li′na3,ZHENG Hong1△
1 Department of Epidemiology and Biostatistics,Tianjin Medical University Cancer Institute and Hospital,Tianjin 300060,China;2 Graduate School,Tianjin Medical University;3 Department of Breast Cancer,National Clinical Research Center for Cancer,The Key Laboratory of Breast Cancer Prevention and Therapy,Ministry of Education,Tianjin Key Laboratory of Cancer Prevention and Therapy△
Since the first paper reported the finding of genetic variation contributing to human age-related macular de?generation by genome-wide association study(GWAS)in 2005,large number of human complex diseases associated genetic variants have been identified through GWAS method.However,the biological function of these genetic variants is not very clear.The present paper reviewed the methods of fine-mapping and the progress of the functional studies for these suscepti?bility variants.In the post GWAS Era,the study of genetic mechanisms can help us to understand the disease pathogenesis.
genome;case-control studies;polymorphism,single nucleotide;genome-wide association study;fine map?ping;functional study;susceptibility gene;review
R596
A
10.11958/j.issn.0253-9896.2015.07.030
國家自然科學基金資助項目(81470153)
1天津醫(yī)科大學腫瘤醫(yī)院,腫瘤研究所腫瘤分子流行病與生物統(tǒng)計研究室,國家腫瘤臨床研究中心,天津市腫瘤防治重點實驗室(郵編300060);2天津醫(yī)科大學研究生院;3天津醫(yī)科大學腫瘤醫(yī)院乳腺外科
劉佳宇(1989),女,碩士在讀,主要從事腫瘤分子流行病學研究
△通訊作者E-mail:zhengh64@aliyun.com