◇內(nèi)蒙古工業(yè)大學(xué)數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院 侯 睿
隨著測(cè)序技術(shù)的不斷進(jìn)步,為了更加深入的探究癌癥產(chǎn)生和發(fā)展的分子機(jī)理,產(chǎn)生了一些針對(duì)癌癥的研究計(jì)劃,癌癥基因圖譜計(jì)劃(The Cancer Genome Atlas,TCGA)便是其中之一。該計(jì)劃包含了海量的數(shù)據(jù),DNA甲基化數(shù)據(jù)是該計(jì)劃中一種重要的表觀遺傳修飾數(shù)據(jù)。本文簡(jiǎn)要介紹了癌癥基因圖譜計(jì)劃,闡述了癌癥基因圖譜計(jì)劃的甲基化數(shù)據(jù),對(duì)癌癥基因圖譜計(jì)劃中甲基化數(shù)據(jù)的分析工具進(jìn)行了說(shuō)明,簡(jiǎn)述了450K甲基化數(shù)據(jù)的分析過(guò)程,以期對(duì)使用癌癥基因圖譜計(jì)劃開展DNA甲基化的相關(guān)研究提供相應(yīng)幫助和支持。
癌癥是人類面臨的嚴(yán)重疾病,癌癥具有其顯著的特征[1]。大多數(shù)癌癥的死亡率較高,生存期較短,人類對(duì)于癌癥開展了大量的研究,而傳統(tǒng)的癌癥研究存在著一些局限性。測(cè)序技術(shù)的發(fā)展,產(chǎn)生了大量分子層面的測(cè)序數(shù)據(jù),推動(dòng)了人類對(duì)于癌癥的認(rèn)識(shí),也產(chǎn)生了不少相關(guān)的研究。測(cè)序數(shù)據(jù)的種類繁多,DNA甲基化數(shù)據(jù)是其中的一種,DNA甲基化是非常重要的表觀遺傳修飾,DNA甲基化不改變DNA序列的內(nèi)容,且可以遺傳。DNA甲基化能夠調(diào)節(jié)基因的表達(dá),對(duì)于癌癥的發(fā)生以及發(fā)展有著重要的作用。TCGA是一個(gè)專門針對(duì)癌癥的研究項(xiàng)目,包含了多種癌癥的測(cè)序數(shù)據(jù)[2],其中也包括了DNA甲基化的測(cè)序數(shù)據(jù),而且,研究人員設(shè)計(jì)了多種分析DNA甲基化的工具[3],可以選用一些適合的工具來(lái)分析TCGA數(shù)據(jù)庫(kù)中的甲基化數(shù)據(jù)。本文對(duì)TCGA計(jì)劃及其中的甲基化數(shù)據(jù)進(jìn)行了討論,介紹了處理甲基化數(shù)據(jù)的常用工具,通過(guò)這些工具分析和挖掘TCGA中的DNA甲基化數(shù)據(jù),可以加深人類對(duì)于癌癥的認(rèn)識(shí)。
癌癥基因圖譜計(jì)劃是一項(xiàng)關(guān)于癌癥研究的重要項(xiàng)目,在研究中主要使用分子層面的數(shù)據(jù)研究癌癥,研究的數(shù)據(jù)由不同的機(jī)構(gòu)按照統(tǒng)一的協(xié)議完成,完成后提交到該計(jì)劃的數(shù)據(jù)庫(kù)中。該計(jì)劃數(shù)據(jù)庫(kù)中的的數(shù)據(jù)包含了癌癥的基因組學(xué)數(shù)據(jù),表觀組學(xué)數(shù)據(jù),轉(zhuǎn)錄組學(xué)數(shù)據(jù),蛋白組學(xué)數(shù)據(jù)等。該計(jì)劃主要針對(duì)各種癌癥展開研究,包含了33種癌癥,超過(guò)11000名患者的數(shù)據(jù),數(shù)據(jù)庫(kù)中包含癌癥數(shù)據(jù)和正常樣本數(shù)據(jù),該計(jì)劃開放了大部分?jǐn)?shù)據(jù)的使用權(quán),可以從癌癥基因圖譜計(jì)劃的網(wǎng)址下載數(shù)據(jù),也可以使用第三方的工具下載數(shù)據(jù)??蒲腥藛T針對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù),可以開展單一的癌癥研究[4],或者可以進(jìn)行多種癌癥的聯(lián)合研究。該計(jì)劃中的數(shù)據(jù)種類繁多,可以使用一種數(shù)據(jù)進(jìn)行分析,也可以使用多種數(shù)據(jù)聯(lián)合分析。分析該計(jì)劃中癌癥的相關(guān)數(shù)據(jù),可以從分子層面加深人類對(duì)于癌癥機(jī)理的了解和認(rèn)識(shí),該計(jì)劃數(shù)據(jù)庫(kù)中的甲基化數(shù)據(jù)是其中一項(xiàng)重要的研究數(shù)據(jù),展開TCGA數(shù)據(jù)庫(kù)中的DNA甲基化數(shù)據(jù)的相關(guān)研究,可以對(duì)于癌癥的預(yù)防、診斷、治療提供幫助[5]。
表觀遺傳修飾是核酸序列未改變時(shí),遺傳物質(zhì)發(fā)生了可以遺傳到下一代的改變。DNA甲基化是研究較多的一種表觀遺傳修飾,DNA甲基化與癌癥緊密聯(lián)系,DNA甲基化的異常改變會(huì)導(dǎo)致癌癥的產(chǎn)生及進(jìn)一步發(fā)展[6]。異常DNA甲基化位于基因的不同區(qū)域,對(duì)于基因表達(dá)的影響不同,通常,當(dāng)DNA高甲基化位于基因的啟動(dòng)子區(qū)域時(shí),會(huì)導(dǎo)致抑癌基因表達(dá)的下調(diào),從而促進(jìn)了癌癥的發(fā)生。
癌癥基因圖譜計(jì)劃中較為常用的DNA甲基化測(cè)序數(shù)據(jù)包括27K數(shù)據(jù)和450K數(shù)據(jù),數(shù)據(jù)使用beta值來(lái)衡量甲基化的程度,DNA甲基化測(cè)序芯片數(shù)據(jù)來(lái)源于因美納(Illumina)公司的測(cè)序平臺(tái),該測(cè)序平臺(tái)是較為常用的甲基化測(cè)序平臺(tái)。27K數(shù)據(jù)來(lái)源于因美納公司HumanMethylation27測(cè)序平臺(tái),該平臺(tái)的測(cè)序數(shù)據(jù)中包含了大于27000個(gè)DNA甲基化的位點(diǎn)。450K測(cè)序數(shù)據(jù)來(lái)源于因美納公司HumanMethylation450測(cè)序平臺(tái),該平臺(tái)的測(cè)序數(shù)據(jù)包含了大于450000個(gè)甲基化位點(diǎn),基本上覆蓋了基因的不同區(qū)域,并且覆蓋了99%的參考基因組[7],此外還覆蓋了CpG島及其相關(guān)區(qū)域。TCGA數(shù)據(jù)庫(kù)的甲基化數(shù)據(jù)中,Level1的數(shù)據(jù)為原始的測(cè)序數(shù)據(jù),level2和level3為經(jīng)過(guò)處理的數(shù)據(jù),Level3的數(shù)據(jù)將甲基化位點(diǎn)的beta值映射到了基因組上。
DNA甲基化數(shù)據(jù)需要經(jīng)過(guò)進(jìn)一步的分析,得到相應(yīng)的結(jié)果。由于DNA甲基化數(shù)據(jù)較大,進(jìn)行多個(gè)樣本分析時(shí),通常需要在服務(wù)器端開展工作,前期要將用到的程序開發(fā)環(huán)境安裝于服務(wù)器端。處理甲基化數(shù)據(jù)時(shí),根據(jù)分析的需求,可以使用相應(yīng)的工具,運(yùn)行特定的程序。
分析甲基化數(shù)據(jù)的工具,對(duì)于因美納公司來(lái)說(shuō),針對(duì)自身的甲基化測(cè)序平臺(tái),提供了相應(yīng)的處理甲基化芯片數(shù)據(jù)的軟件:GenomeStudio,該軟件是收費(fèi)軟件,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的特定分析,結(jié)果可以以圖像形式展現(xiàn)。此外,分析甲基化數(shù)據(jù)可以使用開源的軟件及其平臺(tái),一般使用R語(yǔ)言及其相應(yīng)的平臺(tái)及包,如:Bioconductor平臺(tái)。甲基化數(shù)據(jù)分析首先需要下載數(shù)據(jù),數(shù)據(jù)可以由TCGA數(shù)據(jù)庫(kù)直接下載,或者使用R語(yǔ)言的包下載,如:TCGAbiolinks[8]。甲基化數(shù)據(jù)下載完成后,通常選用R語(yǔ)言的特定甲基化處理的包進(jìn)行分析。常用的包有:Minfi、ChAMP、wateRmelon等,這些包的功能十分強(qiáng)大,包含了處理甲基化數(shù)據(jù)的基本流程,包括了數(shù)據(jù)導(dǎo)入、預(yù)處理、差異分析,圖形化等。使用人員可以按照自己的情況,選用不同的包進(jìn)行甲基化數(shù)據(jù)的處理。
要使用癌癥基因圖譜計(jì)劃的DNA甲基化450K數(shù)據(jù)開展癌癥的研究,首先需要下載450K的甲基化數(shù)據(jù),通常下載level3的數(shù)據(jù)。需要對(duì)癌癥和正常組織的數(shù)據(jù)進(jìn)行預(yù)處理,如:NA值的處理方式,是直接刪除還是使用算法補(bǔ)全,如果補(bǔ)全的話,需要考慮使用何種算法補(bǔ)全,最為常用的補(bǔ)全算法為最鄰近節(jié)點(diǎn)算法。接著就可以進(jìn)行差異甲基化位點(diǎn)的計(jì)算,并計(jì)算出高低甲基化的基因,此外,可以接著下載基因的表達(dá)數(shù)據(jù),計(jì)算高低表達(dá)的基因,然后高低甲基化位點(diǎn)結(jié)合高低表達(dá)基因進(jìn)行分析,可以對(duì)這些特定基因的通路進(jìn)行研究,獲得特定的基因。
本文重點(diǎn)討論了TCGA計(jì)劃中的甲基化數(shù)據(jù),以及使用R軟件中處理這些數(shù)據(jù)的包,通過(guò)使用R的包分析甲基化數(shù)據(jù),可以獲得癌癥和正常樣本的差異甲基化位點(diǎn)、差異甲基化區(qū)域,差異甲基化基因,從而可以開展進(jìn)一步的研究。本文的論述可以對(duì)開展相關(guān)甲基化研究的工作提供一些初步的幫助,為研究人員提供一些基本的研究思路。DNA甲基化測(cè)序數(shù)據(jù)有不少類別,TCGA數(shù)據(jù)庫(kù)的甲基化數(shù)據(jù)種類有限,在甲基化的研究中可以考慮結(jié)合其他數(shù)據(jù)庫(kù),如基因表達(dá)數(shù)據(jù)庫(kù)。使用其他數(shù)據(jù)庫(kù)中DNA甲基化位點(diǎn)覆蓋度更高的的測(cè)序數(shù)據(jù),如:全基因組甲基化測(cè)序數(shù)據(jù)[9],從而可以得到更多的DNA甲基化位點(diǎn),以期獲得更好的研究結(jié)果。