王麗波,王 芳,張 巖
(哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150086)
DNA甲基化是表觀遺傳的重要修飾之一,并被廣泛研究。DNA甲基化一般發(fā)生于CG相連的二核苷酸部位(CpGs),通過(guò)改變?nèi)旧|(zhì)結(jié)構(gòu)、DNA構(gòu)造和穩(wěn)定性等對(duì)基因表達(dá)具有重要的調(diào)控作用[1]。隨著表遺傳學(xué)的發(fā)展,人們認(rèn)識(shí)到腫瘤不僅是遺傳性疾病,同時(shí)也是由DNA甲基化異常引起的基因調(diào)控失常的表觀遺傳性疾?。?]。人類基因組DNA存在廣泛的甲基化修飾。在早期發(fā)育階段,甲基化和去甲基化的交替進(jìn)行是細(xì)胞得以生長(zhǎng)和分化的關(guān)鍵程序,且在細(xì)胞正常發(fā)育以及保持基因組穩(wěn)定性中起著至關(guān)重要的作用。正常細(xì)胞內(nèi),啟動(dòng)子區(qū)的CPG島呈非甲基化狀態(tài),而大部分散在分布的CpG島二核苷酸多發(fā)生甲基化[3]。腫瘤中常伴隨基因組整體甲基化水平降低和某些基因CpG島區(qū)域甲基化水平異常升高(如抑癌基因),并且這兩種變化可在一種腫瘤中同時(shí)發(fā)生?;蚪M整體甲基化水平降低可導(dǎo)致原癌基因活化等,進(jìn)一步促進(jìn)了腫瘤的發(fā)生。基因啟動(dòng)子區(qū)的CpG島發(fā)生異常高甲基化可導(dǎo)致基因轉(zhuǎn)錄沉默,使重要基因如抑癌基因等表達(dá)極度降低或不表達(dá),進(jìn)而也促進(jìn)了腫瘤細(xì)胞的形成[4-5]。P16INK4a是一種細(xì)胞周期調(diào)控蛋白,通過(guò)與細(xì)胞周期蛋白依賴激酶CDK4及CDK6結(jié)合而抑制后者的蛋白激酶活性,從而抑制細(xì)胞的增殖。而P16INK4a基因啟動(dòng)子5’端的CpG島甲基化或外顯子1α的CpG甲基化可導(dǎo)致p16表達(dá)缺失,從而導(dǎo)致該基因的失活,促進(jìn)了癌癥的形成,這一基因的滅活主要與胃癌的發(fā)生相關(guān)[6]。隨著高通量測(cè)序技術(shù)的發(fā)展,單堿基分辨率下檢測(cè)DNA甲基化的水平已經(jīng)得以實(shí)現(xiàn),促進(jìn)了全基因組范圍更高精度甲基化水平和模式的分析。重亞硫酸氫鈉測(cè)序技術(shù)的短序列片段中包含多個(gè)CpG位點(diǎn),而且這些位點(diǎn)之間的甲基化水平高度連鎖,即其中一個(gè)CpG位點(diǎn)的甲基化改變能夠通過(guò)另一CpG位點(diǎn)的甲基化變化來(lái)解釋[7]。本文基于臨近CpG位點(diǎn)之間的DNA甲基化水平高度相關(guān)這一假設(shè),挖掘DNA甲基化連鎖區(qū)域有助于挖掘基因組中有功能的甲基化區(qū)域,進(jìn)一步理解這些區(qū)域在癌癥中的改變模式,有助于挖掘癌癥的表觀遺傳學(xué)診斷標(biāo)記。
UCSC 的 encode數(shù)據(jù)庫(kù)中(http://genome.ucsc.edu/ENCODE/dataMatrix/encodeDataMatrixHuman.html)下載RRBS的DNA基甲基化數(shù)據(jù),包括52個(gè)正常樣本(胚胎干細(xì)胞、成纖維細(xì)胞、主動(dòng)脈平滑肌細(xì)胞、腎、腦、血、肝、肺、胰腺、心臟、胎盤、骨骼肌、皮膚、胃、睪丸、子宮、B-淋巴細(xì)胞、星形膠質(zhì)細(xì)胞、成骨細(xì)胞)和23個(gè)癌癥樣本(白血病、肺癌組織、子宮頸癌、肝癌、乳腺腺癌、神經(jīng)母細(xì)胞瘤、大腸腺癌、子宮內(nèi)膜腺癌、前列腺癌、胚胎性癌、卵巢腺癌、胰腺癌、腦腫瘤、神經(jīng)細(xì)胞株)[8]。在每個(gè)樣本中將多次的生物學(xué)重復(fù)進(jìn)行合并,同一個(gè)CG位點(diǎn)的甲基化水平取均值。統(tǒng)計(jì)所有CG位點(diǎn)所在的參考基因組位置(Hg19)、覆蓋度以及相應(yīng)的DNA甲基化水平。
1.2.1 皮爾森相關(guān)系數(shù)的計(jì)算
根據(jù)CpG位點(diǎn)所在的參考基因組的位置從小到大進(jìn)行排序,然后分別提取每個(gè)CpG位點(diǎn)對(duì)應(yīng)的正常和癌癥樣本中的甲基化水平,分別構(gòu)成正常和癌癥的DNA甲基化水平向量。在正常和癌癥樣本中,基于pearson相關(guān)系數(shù)計(jì)算臨近一個(gè)CpG位點(diǎn)之間的相關(guān)系數(shù),公式如下:
其中,n代表正常(癌癥)樣本的個(gè)數(shù);xi和yi分別代表第i個(gè)正常(癌癥)樣本中CpG位點(diǎn)及下一個(gè)CpG的甲基化水平;和分別代表正常(癌癥)樣本中兩個(gè)CpG位點(diǎn)DNA甲基化水平的均值。
1.2.2 相關(guān)系數(shù)閾值的確定
為了確定臨近CpG位點(diǎn)之間相關(guān)系數(shù)的閾值,本文從基因組中隨機(jī)抽取兩個(gè)CpG點(diǎn)按照上述公式計(jì)算其相關(guān)系數(shù)。定義錯(cuò)誤發(fā)現(xiàn)率(FDR)的公式如下:
其中,分子表示隨機(jī)情況下相關(guān)系數(shù)大于r0的數(shù)目;分母表示真實(shí)情況下相關(guān)系數(shù)大于r0的數(shù)目。根據(jù)FDR=0.01確定相關(guān)系數(shù)的閾值。當(dāng)CpG對(duì)之間的相關(guān)系數(shù)高于此閾值時(shí)則認(rèn)為二者的DNA甲基化水平連鎖,否則為不相關(guān)。
大量的含有少量CpG位點(diǎn)的區(qū)域被獲得。這些含有少量的CG位點(diǎn)的區(qū)域,臨近之間的相關(guān)性與樣本數(shù)量的偶然因素相關(guān),尤其是含有兩個(gè)CG位點(diǎn)的區(qū)域。我們認(rèn)為只有多個(gè)CG位點(diǎn)相鄰并且具有高度連鎖的甲基化模式的區(qū)域才具有調(diào)控的功能。為了確定區(qū)域內(nèi)含有的CG位點(diǎn)的數(shù)目的閾值,打亂了臨近CpG位點(diǎn)的樣本標(biāo)簽,重新計(jì)算r值。然后根據(jù)閾值篩選DNA甲基化區(qū)域,得到隨機(jī)情況下DNA甲基化block所含有的CG位點(diǎn)的數(shù)目的零分布。
1.2.3 DNA甲基化連鎖區(qū)域的定義
如果臨近的CpG位點(diǎn)之間甲基化水平的相關(guān)系數(shù)大于閾值,則將CpG連接然后向下一個(gè)CpG位點(diǎn)延伸,直到相關(guān)系數(shù)小于閾值則延伸停止。該區(qū)域被定義為DNA甲基化連鎖區(qū)域。計(jì)算該區(qū)域中所有CpG位點(diǎn)在所有樣本中的甲基化水平的均值,定義為DNA甲基化連鎖區(qū)域的甲基化水平。
本文分別從正常樣本和疾病樣本中獲得902 825,920 516個(gè)CpG位點(diǎn),全基因上臨近 CpG位點(diǎn)之間的距離分布顯示大部分CpG位點(diǎn)之間的距離不超過(guò)100 bp。分別計(jì)算臨近位點(diǎn)的皮爾森相關(guān)系數(shù),根據(jù)FDR=0.01確定皮爾森相關(guān)系數(shù)平方的閾值為0.75。如果臨近的CpG位點(diǎn)之間的相關(guān)系數(shù)超過(guò)閾值則將其相連并向下延伸,直到相關(guān)系數(shù)的平方小于0.75為止,得到的區(qū)域被認(rèn)為是DNA甲基化連鎖區(qū)域。最終,737個(gè)DNA甲基化連鎖區(qū)域在正常樣本中獲得,3 384個(gè)DNA甲基化連鎖區(qū)域在癌癥樣本中獲得。DNA甲基化連鎖區(qū)域發(fā)現(xiàn)在正常樣本和癌癥樣本中甲基化連鎖區(qū)域的長(zhǎng)度沒(méi)有差別(見(jiàn)圖1A),但是區(qū)域內(nèi)所含的CG位點(diǎn)的數(shù)目、平均甲基化水平以及R2存在顯著差異(見(jiàn)圖1B,1C,1D),而且區(qū)域內(nèi)的R2并沒(méi)有隨著區(qū)域長(zhǎng)度的增加而降低(見(jiàn)圖1D)。意味著在癌癥中臨近的CpG位點(diǎn)之間傾向更強(qiáng)的連鎖程度,而且這種DNA甲基化連鎖區(qū)域傾向于發(fā)生在CpG密集的區(qū)域傾向發(fā)生高甲基化變異,暗示著連鎖區(qū)域內(nèi)的CpG位點(diǎn)可能共同發(fā)生異常導(dǎo)致癌癥的發(fā)生。
圖1 DNA甲基化連鎖區(qū)域的特征Fig.1 Characteristic of DNA methylation block
為了進(jìn)一步研究DNA甲基化連鎖區(qū)域的生物學(xué)功能及意義,分別將正常樣本和癌癥樣本的DNA甲基化連鎖區(qū)域進(jìn)行基因本體論(GO)的功能富集分析。如果一個(gè)DNA甲基化連鎖區(qū)域的上下游500 bp范圍內(nèi)存在基因,則該基因被認(rèn)為是DNA甲基化連鎖區(qū)域的相關(guān)基因。我們?cè)谡颖局姓业?17個(gè)相關(guān)基因,在癌癥樣本中找到2 575個(gè)相關(guān)基因。將DNA甲基化連鎖區(qū)域的相關(guān)基因采用DAVID 工具(http://david.abcc.ncifcrf.gov/)進(jìn)行基因功能富集分析,多重檢驗(yàn)矯正之后的顯著性水平定義為0.01。癌癥樣本和正常樣本中顯著性水平最高的前10個(gè)功能(見(jiàn)圖2A,B),結(jié)果顯示正常和癌癥的DNA甲基化連鎖區(qū)域都富集到分化發(fā)育以及表達(dá)調(diào)控的功能,尤其是在癌癥中與神經(jīng)元的發(fā)育和分化相關(guān)。此外,癌癥中DNA甲基化連鎖區(qū)域的KEGG富集分析顯示富集到癌癥通路和細(xì)胞形成通路(見(jiàn)圖2C)。結(jié)果表明,癌癥中DNA甲基化連鎖區(qū)域可能促使癌癥的發(fā)生。
圖2 DNA甲基化連鎖區(qū)域的功能富集Fig.2 Functional enrichment of DNA methylation block
DNA甲基化連鎖區(qū)域盡管在正常樣本和癌癥樣本中均存在很強(qiáng)的連鎖程度,但是在兩類樣本中呈現(xiàn)的不同甲基化水平和模式。以HIC1基因?yàn)槔摶驅(qū)ιL(zhǎng)調(diào)節(jié)和腫瘤的抑制具有重要作用。位于該基因中超甲基化區(qū)域的缺失與腫瘤、Miller-Dieker綜合征存在至關(guān)重要的聯(lián)系。圖3顯示,在本研究中該基因位于chromosome 17p13.3區(qū)域,在正常樣本和癌癥樣本中存在DNA甲基化連鎖區(qū)域。該連鎖區(qū)域在正常和癌癥樣本中均呈現(xiàn)了緊密的連鎖程度(r2=0.780,0.798),然而該區(qū)域在兩類樣本中的甲基化模式存在顯著差異。該區(qū)域的甲基化水平在癌癥樣本中顯著高于正常樣本,而且連鎖程度的變異小于正常樣本。這意味著該連鎖區(qū)域的異常甲基化可能與癌癥相關(guān),甚至可以作為癌癥的表觀遺傳診斷標(biāo)記。
圖3 位于HIC1基因內(nèi)的DNA甲基化連鎖區(qū)域Fig.3 DNA methylation block located within HIC1 gene
近年來(lái),隨著表觀遺傳學(xué)的發(fā)展,越來(lái)越多的研究表明DNA甲基化的異常與癌癥的發(fā)生發(fā)展密切相關(guān)。本文的結(jié)果顯示DNA甲基化連鎖區(qū)域與癌癥的關(guān)聯(lián)不僅僅體現(xiàn)在甲基化水平上而且體現(xiàn)在甲基化模式上。挖掘DNA甲基化連鎖區(qū)域有助于挖掘基因組中有功能的甲基化區(qū)域,而這些區(qū)域在癌癥中的改變模式有助于挖掘癌癥的表觀遺傳學(xué)診斷標(biāo)記。希望能為研究者開啟一個(gè)新的角度去探索DNA的甲基化水平與癌癥發(fā)生的聯(lián)系,進(jìn)而對(duì)疾病能夠更好的進(jìn)行診斷和治療。
References)
[1] CHRISTOPHER G B,SARAH F,CECILIA M L,et al.Integrated genetic and epigenetic analysis identifies haplotype-specific methylation in the FTO type 2 diabetes and obesity susceptibility locus[J].PLoS One,2010,5(11):e14040.
[2] LUDVíKOVá M,PESTA M,HOLUBEC L J,et al.New aspectsoftumorpathobiology [J]. Ceskoslovenská Patologie,2009,45(4):94.
[3] BANERJEE,HIRENDRA N,MUKESH V.Epigenetic mechanisms in cancer[J].Biomarkers,2009,3(4):397-410.
[4] QURESHI,SOHAIL A,MUHAMMED U B,et al.Utility of DNA methylation markers for diagnosing cancer[J].International Journal of Surgery,2010,8(3):194-198.
[5] 吳川清,陶凱雄.內(nèi)皮素B受體基因甲基化與腫瘤關(guān)系的研究進(jìn)展[J].世界華人消化雜志,2010,18(23):2448-2452.WU Chuanqing,TAO Kaixiong.Research progress of endothelin B receptor gene methylation and cancer[J].World Journal of Gastroenterology,2010,18(23):2448-2452.
[6] MERLO,ADRIAN,JAMES G H,et al.5'CpG island methylation is associated with transcriptional silencing of the tumour suppressor p16/CDKN2/MTS1 in human cancers[J].Nature Medicine,1995,1(7):686-692.
[7] SHOEMAKER,ROBERT,DENG Jie,et al.Allele-specific methylation is prevalent and is contributed by CpGSNPs in the human genome [J].Genome Research,2010,20(7):883-889.
[8] ROSENBLOOM,KATE R,TIMOTHY R D,et al.ENCODE whole-genomedataintheUCSC genome browser[J].Nucleic Acids Research,2010,38(suppl 1):D620-D625.