周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
?
基于基因組關(guān)聯(lián)數(shù)據(jù)識別阿爾茨海默病相關(guān)通路
周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
摘要::阿爾茨海默病又稱老年性癡呆,是一種復(fù)雜的中樞神經(jīng)系統(tǒng)退行性疾病,本文選取一套阿爾茨海默病全基因組關(guān)聯(lián)分析(GWAS)數(shù)據(jù),利用ProxyGeneLD 軟件進行基因水平上的檢驗,利用WebGestalt 數(shù)據(jù)庫進行遺傳通路分析,識別出320個顯著(P<0.05)的阿爾茨海默病相關(guān)基因、8個顯著的KEGG通路和41個顯著的GO功能類,這些研究結(jié)果對進一步揭示阿爾茨海默病潛在的發(fā)病機制具有重要意義。
關(guān)鍵詞:全基因組關(guān)聯(lián)研究;遺傳通路;阿爾茨海默病
阿爾茨海默病 (Alzheimer’s disease, AD),又稱老年性癡呆,是一種復(fù)雜的中樞神經(jīng)系統(tǒng)退行性疾病,以高級認知功能障礙為特征,以老年斑、神經(jīng)纖維纏結(jié)和神經(jīng)元丟失為主要病理改變的綜合病。阿爾茨海默病發(fā)病率與年齡呈現(xiàn)正相關(guān)性。據(jù)估計,65歲老年人發(fā)病率為4.4%,90歲以上老年人的發(fā)病率是22%[1]。隨著世界人口日趨老齡化,阿爾茨海默病已經(jīng)成為當前老年醫(yī)學面臨的最嚴峻的問題之一。在我國,人口的老年化進程不斷加快,如何對這兩種常見老年疾病進行有效地預(yù)防和早期治療,已成為我國面臨的一項關(guān)系到國家人口研究數(shù)據(jù)識別阿爾茨海默相關(guān)的風險位點和遺傳通路。
目前,歐洲和美國研究人員普遍采用全基因組關(guān)聯(lián)研究(Genome-Wide Association Studies, GWAS)和候選基因研究的方法篩選阿爾茨海默病易感基因,取得了前所未有的成就。一些新的阿爾茨海默病易感基因,例如CR1, BIN1, CLU, PICALM, MS4A4/MS4A6E, CD2AP, CD33, EPHA1和ABCA7等已經(jīng)被逐漸報道[2]。AD作為一種人類復(fù)雜性狀,涉及多個基因,但是每個基因?qū)Ρ硇椭挥休^小或微小的影響,只有若干個基因共同作用,才可對表型產(chǎn)生明顯影響,即個體表型是與多個基因相關(guān)的變異協(xié)同作用的結(jié)果。因此,利用生物信息學識別AD相關(guān)的遺傳學通路,更能揭示潛在的遺傳機制。本研究通過利用生物遺傳通路分析方法,分析基因組關(guān)聯(lián)研究AD數(shù)據(jù),識別影響AD的生物學遺傳通路,揭示AD潛在的遺傳機制。
1材料與方法
1.1遺傳關(guān)聯(lián)研究數(shù)據(jù)
選取一套AD GWAS數(shù)據(jù),該數(shù)據(jù)公開獲得。該數(shù)據(jù)包含11 789歐洲人,其中有3 941 AD 病例個體和7 848個對照個體。本套數(shù)據(jù)包含529 205個人類常染色體單核苷酸多態(tài)性(Single nucleotide polymorphism, SNP)數(shù)據(jù)。所有SNP信息來自人類基因組版本37(Human genome build 37)和SNP版本132(dbSNP build 132)。加性模型下的回歸分析用來衡量單個SNP和AD的關(guān)聯(lián)。最終,我們得到了761個P<=1.00×10-3的SNPs。更多詳細信息在文章中有描述[3]。
1.2方法
1.2.1基因水平上檢驗AD GWAS
利用ProxyGeneLD軟件進行基因水平上的檢驗。該軟件考慮到人類基因上復(fù)雜的連鎖不平衡模式,利用HapMap數(shù)據(jù)的連鎖不平衡信息[4],矯正由于基因長度所引起的顯著性膨脹問題。如果有一些SNP在HapMap數(shù)據(jù)中高度連鎖平衡 (r2>0.8),那么這些SNP歸為一類,作為單個遺傳信號。然后檢驗每個GWAS顯著的SNP是否包含在某一個類里面。最后,每個基因都賦予一個經(jīng)過多重檢驗矯正的P值。我們選取矯正后P<0.05的基因進行通路水平上的檢驗。
1.2.2通路水平檢驗AD GWAS
利用WebGestalt數(shù)據(jù)庫進行遺傳通路分析,連接地址為:http://bioi nfo.vanderbilt.edu/webgest alt/[5]。對于一個給定的通路,采用超幾何分布檢驗識別這一通路與AD關(guān)聯(lián)是否顯著。在某一個通路中觀測到K個AD相關(guān)基因的P值可以計算為:
N是所有參考基因的數(shù)據(jù), S是所有AD相關(guān)基因的數(shù)目,m是通路中含有的基因的數(shù)目,K是通路中含有的AD相關(guān)基因的數(shù)目。我們采用FDR(False discovery rate)方法進行多重檢驗校正[5]。對于任何一個通路,如果校正后的P<0.05,并且含有至少5個AD相關(guān)基因,則認為這個通路和疾病顯著相關(guān)。
2結(jié)果與分析
2.1顯著富集的KEGG通路
利用ProxyGeneLD軟件進行基因水平上的檢驗,識別出320個AD基因。根據(jù)WebGestalt進行通路水平上的檢驗,分別發(fā)現(xiàn)了8個顯著的KEGG通路(P<0.05)。其中Cell adhesion molecules,是最顯著的遺傳通路。其它通路主要包含3個心血管疾病通路(Dilated cardiomyopathy,Arrhythmogenic right ventricular cardiomyopathy和Hypertrophic cardiom-yopathy),代謝通路(Glycosaminoglycan biosynthesis-chondroitin sulfate 和Purine metabolism),神經(jīng)系統(tǒng)和疾病(5個),見表1。
表1 顯著的KEGG通路
注:NG:輸入基因列表中注釋到通路中的基因數(shù)據(jù) (輸入基因數(shù)目); NGR:通路中還有的基因數(shù)目(參考基因中的所有基因數(shù)目); O:觀測到在通路中與AD相關(guān)基因的數(shù)目,rawP:原始的P值,adjP:矯正后的P值。
Notes: NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
2.2顯著富集的GO通路
利用320個AD基因,我們得到了41個顯著的功能類P<0.05。我們進一步發(fā)現(xiàn)這些功能里都與代謝有關(guān)。主要包含reverse cholesterol transport (GO:0043691), phospholipid efflux (GO:0033700), triglyceride homeostasis (GO:0070328), activation of phospholipase C activity (GO:0007202), lipid metabolic process (GO:0006629), cholesterol efflux (GO:0033344), cholesterol homeostasis (GO:0042632), cholesterol metabolic process (GO:0008203), lipid transport (GO:0006869),和lipoprotein metabolic process (GO:0042157)。 有趣的是, cell adhesion (GO: 0007155) 依然是第三顯著的通路P=1.90×10-5。本研究中我們列出前10個顯著的功能類,見表2。
表2 前十個顯著的GO通路
注:NG:輸入基因列表中注釋到通路中的基因數(shù)據(jù) (輸入基因數(shù)目); NGR:通路中還有的基因數(shù)目(參考基因中的所有基因數(shù)目); O:觀測到在通路中與AD相關(guān)基因的數(shù)目,rawP:原始的P值,adjP:矯正后的P值。
Notes:NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
3討論與結(jié)論
生物信息學是生命科學、計算機科學和信息科學等學科逐步發(fā)展相互滲透的新興交叉學科。隨著對人類基因組計劃的深入研究,生物信息學得到了蓬勃的發(fā)展,尤其是在了解各類疾病的發(fā)生機制及遺傳基礎(chǔ)上發(fā)揮了重要作用[6]。通過識別出與疾病發(fā)生發(fā)展相關(guān)的基因和通路,再據(jù)此進行實驗驗證,將是一種高效的研究途徑。AD是一種復(fù)雜疾病,利用生物信息學識別AD相關(guān)的遺傳學通路,更能揭示AD潛在的遺傳機制。本研究我們利用生物信息學方法,采用生物遺傳通路分析了一套AD全基因組關(guān)聯(lián)研究數(shù)據(jù)。
本研究中,我們利用ProxyGeneLD軟件進行基因水平上的檢驗,檢測出320個顯著(P<0.05)的AD基因。利用WebGestalt進行通路水平上的檢驗,發(fā)現(xiàn)了8個顯著的KEGG通路和41個顯著的GO功能類(P<0.05)。其中,我們發(fā)現(xiàn)Cell adhesion molecules是KEGG中最顯著的遺傳通路,也是GO通路中第三顯著的遺傳信號。我們查閱了相關(guān)文獻,前期的研究支持了我們的發(fā)現(xiàn)。Lambert和Jones等人都使用ALIGATOR和GenGen軟件,并且都用來分析兩套AD GWAS數(shù)據(jù),但是這兩個研究卻沒有產(chǎn)生一致的結(jié)果[7]。中國科學院的研究人員認為不同的研究可能有共享的遺傳通路。為了檢驗這種假設(shè),他們應(yīng)用多重遺傳通路分析方法,分析了來自法國和美國的AD GWAS數(shù)據(jù)(9 580個樣本)。在KEGG數(shù)據(jù)庫中,發(fā)現(xiàn)了一個與阿爾茨海默病高度相關(guān)的遺傳通路(Cell adhesion molecules,CAM)。在GO數(shù)據(jù)庫,他們重復(fù)了這一發(fā)現(xiàn)[7]。進一步我們發(fā)現(xiàn),cell adhesion molecules還參與了好多自身免疫疾病[8]。
同時,我們發(fā)現(xiàn)了AD參與了3條直接與心血管病相關(guān)通路,Dilated cardiomyopathy, Arrhythmogenic right ventricular cardiomyopathy 和 Hypertrophic cardiom-yopathy。該結(jié)果也進一步驗證了早期廣東醫(yī)科大學的發(fā)現(xiàn)。研究人員對來自歐洲的14 138個樣本(6 399個AD疾病個體和7 739個對照個體) 進行了全基因組范圍內(nèi)基于基因和生物遺傳通路水平上的分析。利用基因水平上關(guān)聯(lián)檢驗的方法得到了1 458個顯著(P<0.05)的AD 基因。然后采用生物遺傳通路分析對1 458個AD相關(guān)基因進行KEGG和GO遺傳通路注釋,結(jié)果發(fā)現(xiàn)了3個與心血管疾病有關(guān)的顯著富集的KEGG通路:viral myocarditis (hsa05416), dilated cardiomyopathy(DCM)(hsa05414),hypertrophic cardiomyopathy (HCM) (hsa05410)。因此,本研究中,我們驗證支持了dilated cardiomyopathy (DCM) (hsa05414) 和 hypertrophic cardiomyopathy (HCM) (hsa05410)。
本研究中,進一步發(fā)現(xiàn)了顯著的代謝GO功能類,進一步支持了早期的研究結(jié)果。國外的研究人員Jones等分析了兩套AD GWAS數(shù)據(jù). 識別出25個顯著的GO功能類,大部分都與代謝有關(guān)[6]。本研究中,我們選用KEGG通路和GO通路,主要基于以下考慮:KEGG是通過人工文獻閱讀和提取的生物學知識數(shù)據(jù)庫,沒有明顯的分層迭代結(jié)構(gòu)[9];GO數(shù)據(jù)庫主要是基于計算預(yù)測以及人工注釋,具有明顯的分層迭代結(jié)構(gòu),而且GO分析假定每個GO功能分類是彼此獨立的,只有大約1%的功能分類是經(jīng)過試驗驗證的[10]。因此,這兩個數(shù)據(jù)庫形成了很好的補充。
盡管本研究得到了有價值的結(jié)果,但仍有其局限性。例如本研究中我們采用了多重檢驗校正,但是還不足以校正所有的偏倚,研究結(jié)果最好需要隨機擾動試驗。但是目前我們無法獲得原始的基因型數(shù)據(jù),因此我們后期的研究中還需要獲得原始基因型數(shù)據(jù),來進一步驗證研究結(jié)果。
參考文獻
[1]BETTENS K, SLEEGERS K, BROECKHOVEN C V. Current status on Alzheimer disease molecular genetics: from past, to present, to future[J].Human Molecular Genetics,2010,19(R1):R4-R11.
[2]BERTRAM L, MCQUEEN M B, MULLIN K, et al. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database[J].Nature Genetics,2007,39(1):17-23.
A V, CONSORTIUM D, INVESTIGATORS M, et al. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits[J]. Plos Genetics,2010,6(8):e1001058.
[4]CAPONE R, JANG H, KOTLER S A, et al. Probing structural features of Alzheimer's amyloid-beta pores in bilayers using site-specific amino acid substitutions[J]. Biochemistry, 2012, 51(3): 776-785.
[5]ZHANG B, KIROV S, SNODDY J. WebGestalt:an integrated system for exploring gene sets in various biological contexts[J].Nucleic Acids Research,2005,33(Web Server issue):W741-748.
[6]YOONA H, FLORES L F, KIM J. MicroRNAs in brain cholesterol metabolism and their implications for Alzheimer's disease[J]. Biochimica et Biophysica Acta (BBA)-Molecular and Cell Biology of Lipids, 2016, doi:10.1016/j.bbalip.2016.04.020.
[7]LIU G, JIANG Y, WANG P, et al. Cell adhesion molecules contribute to Alzheimer's disease: multiple pathway analyses of two genome-wide association studies[J].Journal of Neurochemistry, 2012, 120(1):190-198.
[8]LIU G, JIANG Y, CHEN X, et al. Measles contributes to rheumatoid arthritis: evidence from pathway and network analyses of genome-wide association studies[J].PLoS One,2013,8(10):e75951.
[9]JOZWIAK K, ZEKANOWSKI C, FILIPEK S. Linear patterns of Alzheimer's disease mutations along alpha-helices of presenilins as a tool for PS-1 model construction[J].Journal of Neurochemistry,2006,98(5):1560-1572.
[10]SIVAPRAKASAM K. Towards a unifying hypothesis of Alzheimer's disease: cholinergic system linked to plaques, tangles and neuroinflammation[J].Current Medicinal Chemistry,2006,13(18):2179-2188.
Identifying risk pathways of Alzheimer’s disease based on the data of genome-wide association studies
ZHOU Xiaoyu
(QuanzhouNo.2MiddleSchool,Guilin540000,China)
Abstract:Alzheimer’s disease (AD), which is also called senile dementia, is a kind of complex central nervous system degenerative diseases. In this paper, we selected a genome-wide association study dataset of AD, and conducted a gene-based test using ProxyGeneLD and a pathway analysis using WebGestalt. We identified 320 significant AD genes (P<0.05), 8 significant KEGG pathways and 41 significant GO pathways (P<0.05).These results are helpful to elucidate the potential pathogenies of Alzheimer’s disease.
Keywords:Genome-wide association studies; Genetic pathways; Alzheimer’s disease
收稿日期:2016-03-31;修回日期:2016-05-25.
*通信作者:周小禹,男,中學教師,研究方向:生物技術(shù)及數(shù)據(jù)分析;E-mail:171393516@qq.com.
doi:10.3969/j.issn.1672-5565.2016.02.10
中圖分類號:R541
文獻標志碼:A
文章編號:1672-5565(2016)02-123-04