李夢琪 黃嵐 翟光超 翟文豪 吳環(huán)
摘 要:DNA甲基化是一種常見的表觀遺傳過程,普遍存在于動植物等各種真核生物中,具有調控基因表達等功能,并影響遺傳物質的穩(wěn)定性。非甲基化的CpG雙核苷酸在基因組中一般呈現(xiàn)局部聚集模式,被稱為CpG島(CpGIsland,簡稱CGI)。CGI的非正常甲基化常與癌癥、生長異常等現(xiàn)象關聯(lián)。因此,準確識別CGI并預測其甲基化狀態(tài)具有重要意義。綜述了目前主流的CGI計算識別方法,分析其優(yōu)缺點,并討論了CGI識別算法研究的未來方向。
關鍵詞:CpG島識別;生物信息;表觀遺傳
DOI:10.11907/rjdk.173059
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2018)006-0005-03
Abstract:DNA methylation is a common epigenetic process that exists ubiquitously in eukaryotes. DNA methylation can regulate gene expression and destabilize genetic materials. While the majority of the CpGdinucleotides is methylated, the unmethylateddinucleotides tends to gather together and form dense groups locally, which are called CpG islands (i.e. CGIs). The abnormal methylation of CGIs were found related to cancer and growth abnormality. Therefore, accurate identification of CGIs and prediction of their methylation status bears great biological importance. This article reviewed the mainstream computational CGI detection algorithms, analyzed their strengths and limitations, and discussed future research directions of CGI detection algorithms.
Key Words:CpG island detection; bioinformatics; Epigenetics
0 引言
DNA甲基化是一種重要的表觀遺傳過程,且廣泛存在于動物、植物等各種真核生物中。在DNA甲基化轉移酶(DNA Methyltransferase,DNMT)的作用下,甲基基團合成到5′-CpG-3′中胞嘧啶的第5位碳原子上,形成DNA甲基化。近年來,隨著全基因組甲基化測序技術的發(fā)展和普及,DNA甲基化的生物意義逐步揭示出來。研究表明,DNA甲基化現(xiàn)象廣泛存在于基因組各元件中,包括啟動子、基因本體、增強子、沉默子和轉座子,可影響遺傳物質穩(wěn)定、基因表達、染色體活性、轉座子沉默、組蛋白修飾等生物過程。
在人類基因組中,70%~80%的CpG雙核苷酸都處于甲基化狀態(tài),且散布于基因組的各個位置。相反,非甲基化CpG則呈現(xiàn)出局部聚集的模式,稱為CpG島(CpGIsland,以下簡稱CGI)[1]。在正常生物過程中,CGI是不易被甲基化的,而其非正常的甲基化狀態(tài)往往影響基因表達[1],進而與癌癥[2]、植物生長異常[3]等表觀遺傳學現(xiàn)象相關聯(lián)。因此,識別基因組中的CGI并預測其甲基化狀態(tài)有著重要的生物學意義。此外,由于CGI與啟動子區(qū)域的強關聯(lián),CGI也被認為是能有效預測啟動子元件的基因組標記[4]。
目前,用于識別CGI的方法主要分為實驗檢測法和計算識別法兩類。實驗檢測法主要包括亞硫酸氫鈉法(Sodium Bisulfite,BS-seq)和免疫沉淀反應法(MeDIP-seq)[5]。這些方法利用不同的實驗手段將甲基化和非甲基化的胞嘧啶分離,再對分離后的DNA序列進行高通量測序或芯片檢測。其優(yōu)點是準確率高且無歧義,缺點是代價大。近年來,多種CGI計算識別法被陸續(xù)提出,這些方法通過建立CGI的計算模型進而對給定DNA序列中的CGI進行識別。CGI甲基化模式分析已成為生物信息分析中的重要組成部分。本文綜述目前主流的CGI計算識別方法,重點從計算模型、適用物種兩方面進行分析和比較。
1 CGI計算識別方法分類
雖然CGI有著重要的生物學意義,然而目前仍缺乏嚴格定義。Gardiner-Garden和Frommer[6]在1989年首次以脊椎動物的測序數(shù)據(jù)為基礎開展了CGI的大規(guī)模計算分析,并提出CGI的3個量化條件:長度大于200bp、GC含量高于50%、觀測CpG與期望CpG的比率(Obs-CpG/Exp-CpG)不低于0.6(本文稱之為GGF定義)。這些條件對后續(xù)CpG島識別算法的研究產(chǎn)生了深遠影響。實際上,目前主流CGI檢測算法大都融合了這3個因素中的1個或多個部分。
根據(jù)這些因素的組合方式,CGI檢測算法可分為兩類:基于規(guī)則的方法和基于統(tǒng)計特征的方法。基于規(guī)則的方法利用人為設定的閾值過濾并發(fā)現(xiàn)CGI區(qū)域,具有知識表示清晰且易于理解的優(yōu)點。不足之處是比較依賴于專家知識,泛化能力有限。比如,基于單一閾值的識別算法很難區(qū)分CGI和人類基因組中的Alus元件,因為Alus元件一般長度為280bp,其GC含量和Obs-CpG/Exp-CpG比率也較高,符合CGI的量化條件[6];基于統(tǒng)計特征的CGI識別方法大多應用機器學習技術挖掘CGI片段區(qū)別于其它DNA序列片段的特征,進而構建CGI識別模型,再應用模型對新序列中的CGI片段進行預測和識別。該方法的特點是泛化能力較強。根據(jù)所采用的機器學習模型類型,CGI識別方法可進一步分為基于監(jiān)督式學習和基于非監(jiān)督式學習兩類,下面依次進行分析。
2 典型的基于規(guī)則的CGI識別方法
基于規(guī)則的CGI識別方法也稱為滑窗(Sliding Window)方法,即根據(jù)預先設定的閾值對DNA序列進行滑窗式掃描和過濾,符合閾值的DNA片段即被認為是CGI。此類算法的代表有GGF[6]、CpGIS[7-8]、CpGProD[9]等。其中,Takai和Jones[7]在分析人類第21和22號染色體后,在Gardiner-Garden和Frommer方法基礎上提出更嚴格的標準:%GC≥55%,長度≥500bp并且Obs-CpG/Exp-CpG≥0.65。實驗結果表明,新閾值能有效過濾絕大多數(shù)Alus和未知序列,而基因5'端CGI的數(shù)量僅略有減少。
CpGProD仍采用基于閾值的滑窗方法,其特點是側重于識別哺乳動物基因組中與啟動子區(qū)域和轉錄起始位點(TSS)關聯(lián)的CGI。
滑窗方法的優(yōu)點是規(guī)則直觀、易于理解,不足之處是識別精度容易受閾值和滑窗大小影響,且對專家知識的依賴程度較高。因此,隨著測序技術發(fā)展和測序成本的降低,甲基化DNA序列數(shù)據(jù)日益增多,使基于統(tǒng)計分析和統(tǒng)計特征的預測方法逐漸成為CGI識別算法的主流。
3 典型的非監(jiān)督式CGI識別方法
非監(jiān)督式識別方法是指以非監(jiān)督式(Unsupervsied)機器學習模型為基礎構建的CGI識別算法。該方法通常包含兩個步驟:①采用聚類算法將相鄰CpG位點聚集形成CpG聚簇(即CpGClusters);②依據(jù)GC含量、統(tǒng)計顯著性、分布差異等條件篩選CpG聚簇,符合條件的聚簇即被認為是CpG島。
CpGCluster算法[10]是典型的無監(jiān)督式CGI識別算法。基于CGI中的CpG分布比在非CGI中分布更加緊湊的假設,CpGCluster首先使用聚類算法將相鄰CpG位點聚集形成CpG簇(CpGClusters),再根據(jù)統(tǒng)計顯著性從中篩選出CGI。其聚類過程類似于基于密度的聚類:從5端到3端掃描基因組,若兩個連續(xù)CpG位點間距離小于閾值,則要么將其合并形成一個新的CpG聚簇,要么將其合并加入一個已有的CpG聚簇中。
CpGCluster算法有兩個主要參數(shù):相鄰CpG位點聚集形成CpG聚簇的最短距離,以及CpG聚簇的統(tǒng)計顯著值,只有超過該閾值的CpG聚簇才被認定是CpG島。由于不再限定CGI的最短長度,CpGCluster往往能發(fā)現(xiàn)非常短的CGI。因此,CpG聚簇的最短距離閾值參數(shù)起著決定性作用。在人類基因組上的實驗表明,可以選擇基因組中所有相鄰CpG間距離的中位值作為閾值,這也是該算法推薦的缺省設置。
ClusterPSO[11]將CpGCluster算法與Gardiner-Garden和Frommer(GGF)定義相結合。首先應用CpGCluster算法生成CpG聚簇,再對每個CpG聚簇向上游和下游分別擴展200bp,形成符合GGF定義的候選CGI。同時,將GGF定義轉換為粒子群優(yōu)化(PSO)算法的目標函數(shù),通過搜索找到能使目標函數(shù)值最大化的CGI區(qū)域劃分。
此外,Kakumani等[12]基于CGI中核苷酸C后連接核苷酸G的概率往往大于其在非CGI中的概率,設計了基于最大化信噪比的CGI識別算法;GaussianCpG[13]在基于距離聚類形成CpG聚簇后,采用高斯模型和GC含量兩個參數(shù)篩選CpG聚簇中的CpG島。CpG_MI[14]則通過計算相鄰CpG距離的互信息發(fā)現(xiàn)CGI。
由此可見,基于非監(jiān)督式學習模型的CGI識別方法有兩個關鍵因素:一是CpG位點間的距離計算方法,其決定了CpG聚簇形態(tài);二是CpG聚簇篩選條件,其決定了CGI的最終構成。在基于規(guī)則的識別方法基礎上,此類方法能融入更多描述CGI區(qū)域的統(tǒng)計特征,表達力更強,也更加靈活。
4 典型的監(jiān)督式CGI識別方法
監(jiān)督式CGI識別方法是指利用監(jiān)督式(Supervised)機器學習算法構建CGI識別模型。與非監(jiān)督式學習相比,監(jiān)督式學習需要有標注數(shù)據(jù),即已知是CGI和不是CGI的DNA片段。學習算法根據(jù)標注數(shù)據(jù)建立識別模型,確定模型參數(shù)。在CGI識別問題上,目前主要采用的監(jiān)督式學習算法有兩種:分類和序列預測。
CGI分類是指將DNA序列片段分為CGI和非CGI兩類。比如,Bock等[15]以人類21號和22號染色體中的CGI為訓練數(shù)據(jù),應用支持向量機模型(SVM)構建了CGI分類器,同時對眾多CGI關聯(lián)特征進行評估,涵蓋DNA序列模式、重復性分布模式、DNA螺旋結構、轉錄因子結合點信息等6個方面,進而使用這些屬性預測全基因組中CGI的表觀遺傳狀態(tài)。利用監(jiān)督式學習模型的優(yōu)勢之一是能夠進行特征評估和選擇,比如與典型表觀遺傳功能和遺傳狀態(tài)相結合,往往比單純基于序列的預測模型更能揭示CGI的表觀遺傳學意義和基因表達調控機制。
近年來,隨著計算性能的提升和大數(shù)據(jù)的發(fā)展,深層神經(jīng)網(wǎng)絡模型被廣泛用于各類機器學習任務。在CGI識別問題上,Wang等[16]將染色體間交互作為特征之一,以堆疊去噪自編碼器為基礎,設計了針對人類基因組CpG位點甲基化狀態(tài)的預測算法,并重點驗證了算法在非編碼長RNA(lncRNA)中CpG位點甲基化狀態(tài)預測的有效性。該算法從甲基化測序數(shù)據(jù)中生成訓練數(shù)據(jù)集,采用留一交叉驗證法訓練并驗證算法有效性。
基于序列學習的監(jiān)督式CGI識別方法主要運用隱馬爾可夫(HMM)、條件隨機場(CRF)等序列學習算法,對DNA序列進行預測。Wu[17-18]、Spontaneo[19]先后提出基于隱馬爾可夫模型的CGI識別算法;Wu等以無脊椎動物基因組為基礎進行測試,發(fā)現(xiàn)基于規(guī)則的方法并不適用于無脊椎動物基因組;Spontaneo等仍以人類基因組為基礎進行測試,并通過提供圖形界面,簡化了人工查驗CGI的過程;劉維和陳崚[20]提出一種基于CRF的CGI識別算法。
與非監(jiān)督式學習模型相比,監(jiān)督式學習方法往往能更好地針對特定物種或組織,發(fā)現(xiàn)代表性更強的CGI特征,從而更好地揭示甲基化模式及其表觀遺傳學意義。此外,監(jiān)督式學習模型的擴展性更好,比如可通過使用不同訓練數(shù)據(jù)集將同一模型擴展到不同物種的DNA序列。
5 結語
DNA甲基化是一種廣泛存在于各類真核生物中的重要的表觀遺傳過程。CpG島的準確識別及其甲基化狀態(tài)預測有助于準確定位啟動子、識別基因,揭示甲基化與癌癥、生長異常等表觀遺傳現(xiàn)象的關聯(lián)機制,有著重要的生物學意義。本文綜述了目前主流的CpG島計算識別方法,對其機制、適用物種進行了分析和比較。分析發(fā)現(xiàn)目前CpG島的研究對象仍主要集中于脊椎動物,適用于其它物種的CpG島識別算法還有待研究。在3類方法中,監(jiān)督式CGI識別方法能更好地揭示CGI的表觀遺傳學意義,而隨著測序技術的普及應用,產(chǎn)生了大量甲基化測序數(shù)據(jù),為監(jiān)督式CGI識別模型提供了數(shù)據(jù)基礎,因此也可能是未來CGI研究的主要方向。
參考文獻:
[1] DEATON A M, BIRD A.CpG islands and the regulation of transcription[J]. Genes & Development,25(10):1010-1022.
[2] ISSA, J-P.CpG island methylator phenotype in cancer[J].Nature Reviews Cancer,2004,4:988-993.
[3] FINNEGAN E J, PEACOCK W J, DENNIS E S. DNA methylation, a key regulator of plant development and other processes[J]. Current Opinion in Genetics & Development,2000,10(2):217-223.
[4] LARSEN F, GUNDERSEN G, LOPEZ R,et al.CpG islands as gene markers in the human genome[J]. Genomics,1992,13(4):1095-1107.
[5] WEBER M, DAVIES J, WITTIG D, et al. Chromosome-wide and promoter-specific analyses identify sites of differential DNA methylation in normal and transformed human cells[J]. Nature Genetics,2005,37:853-862.
[6] GARDINER-GARDEN M, FROMMER M. CpG islands in vertebrate genomes[J]. Journal of Molecular Biology,1989,196(2):261-282.
[7] TAKAI D, JONES P A. Comprehensive analysis of CpG islands in human chromosomes 21 and 22[J]. PNAS, 2002, 99(6): 3740-3745.
[8] TAKAI D, JONES P. The CpG island searcher: a new WWW resource[J]. Silico Biology,2003,3(3):235-240.
[9] PONGER L, MOUCHIROUD D.CpGProD: identifying CpG islands associated with transcription start sites in large genomic mammalian sequences[J]. Bioinformatics,2002, 18(4):631-633.
[10] HACKENBERG M, PREVITI C, LUQUE-ESCAMILLA P L, et al. CpGcluster: a distance-based algorithm for CpG-island detection[J]. BMC Bioinformatics,2006,7:446.
[11] YANG C H, LIN Y D, CHIANG Y C, et al. A hybrid approach for CpG island detection in the human genome[J].PLoS ONE,2016,11(1):e0144748.
[12] KAKUMANI R, AHMAD O, DEVABHAKTUNI V.Identification of CpG islands in DNA sequences using statistically optimal null filters[J]. EURASIP Journal on Bioinformatics and Systems Biology,2012(1):12.
[13] YU N, GUO X, ZELIKOVSKY A,et al.GaussianCpG: a Gaussian model for detection of CpGisland in human genome sequences[J]. BMC Genomics,2017,18(Suppl 4):392.
[14] SU J, ZHANG Y, LV J,et al.CpG_MI: a novel approach for identifying functional CpG islands in mammalian genomes[J]. Nucleic Acids Research,2010,38(1): e6.
[15] BOCK C, WALTER J, PAULSEN M,et al.CpGisland mapping by epigenome prediction[J]. PLoS Computational Biology,2007,3(6): e110.
[16] WANG Y, LIU T, SHI H, et al.Predicting DNA methylation state of CpGdinucleotide using genome topological features and deep networks [J]. Scientific Reports,2016,6:19598.
[17] IRIZARRY R A, WU H, FEINBERG A P. A species-generalized probabilistic model-based definition of CpG islands[J]. Mammalian Genome: Official Journal of the International Mammalian Genome Society,2009,20(9-10):674-680.
[18] WU H, CAFFO B, JAFFEE H A,et al.Redefining CpG islands using hidden Markov models[J]. Biostatistics (Oxford, England),2010,11(3):499-514.
[19] SPONTANEO L, CERCONE N.Correlating CpG islands, motifs, and sequence variants in human chromosome 21[J]. BMC Genomics,2011,12(Suppl 2):S10.
[20] 劉維,陳崚.一種新的CpG島的位置識別算法 [J].小型微型計算機系統(tǒng),2012(7):1557-1563.
(責任編輯:黃 ?。?/p>