Zhifu SUN
(1 青島大學(xué)醫(yī)學(xué)部,山東 青島 266071;2 Mayo Clinic,Rochester,Minnesota,U.S.A)
通過對基因突變、基因表達(dá)以及DNA修飾等信息的分析,臨床醫(yī)生能夠?qū)膊∵M(jìn)行更為精準(zhǔn)的診斷和有效的防治。廣義上,精準(zhǔn)醫(yī)學(xué)所應(yīng)用的數(shù)據(jù)已擴(kuò)展到像電子病歷、醫(yī)學(xué)影像資料和實驗室檢查結(jié)果等其他非基因組學(xué)數(shù)據(jù),并同基因組學(xué)數(shù)據(jù)一起構(gòu)成了精準(zhǔn)醫(yī)學(xué)的大數(shù)據(jù)[1]。目前臨床最常用到的基因組學(xué)數(shù)據(jù)為胚系突變數(shù)據(jù)和腫瘤的體細(xì)胞突變數(shù)據(jù),如攜帶BRAC1或BRAC2基因突變的健康人群可進(jìn)行預(yù)防性乳房切除術(shù)以預(yù)防乳腺癌的發(fā)生,有EGFR突變的肺癌病人可進(jìn)行酪氨酸激酶抑制劑(TKI)治療等。盡管目前基因組學(xué)數(shù)據(jù)正在迅速發(fā)展,但是由于每種腫瘤中發(fā)生變異的基因數(shù)量龐大,許多疾病相關(guān)變異的臨床意義也還不能進(jìn)行明確的解釋,只是被籠統(tǒng)地歸為意義不明變異位點(VUSs),這極大地限制了基因組學(xué)信息的應(yīng)用。更為復(fù)雜的是,DNA數(shù)據(jù)只是細(xì)胞內(nèi)眾多分子數(shù)據(jù)中的一種,還有DNA修飾(CpG甲基化)、組蛋白修飾、染色質(zhì)開放區(qū)、基因轉(zhuǎn)錄(RNA或者miRNA表達(dá))和蛋白質(zhì)表達(dá)等多種分子數(shù)據(jù),這些數(shù)據(jù)對于精準(zhǔn)醫(yī)學(xué)同樣重要,統(tǒng)稱為多組學(xué)數(shù)據(jù)。盡管很多數(shù)據(jù)還沒有在臨床上得到應(yīng)用,但它們在解釋意義不明位點、研究用于診斷的檢測套餐、開發(fā)新的診斷和預(yù)后標(biāo)記物、發(fā)現(xiàn)新治療靶點等方面有著重要作用。在大數(shù)據(jù)時代,掌握如何使用這些資源對于現(xiàn)代醫(yī)學(xué)實踐和轉(zhuǎn)化醫(yī)學(xué)研究至關(guān)重要。
人類生物學(xué)系統(tǒng)高度復(fù)雜,大量分子參與其中,且相互之間發(fā)生著多種多樣的關(guān)系,因此僅研究其中一種分子會有很大的局限性,多組學(xué)數(shù)據(jù)的應(yīng)用將會很大程度上解決這一問題。近年來,多個國內(nèi)或國際大型合作項目產(chǎn)生了大量的多組學(xué)數(shù)據(jù),研究取得的數(shù)據(jù)資源已作為公開資源向公眾開放,這一舉措改變了單分子研究的局限性。使用開放數(shù)據(jù)資源進(jìn)行研究的首要優(yōu)勢在于,開放數(shù)據(jù)資源通常包含上千甚至上萬個研究樣本,可以確保能夠檢測到小到中等的基因效應(yīng),而如此大的樣本量是任何一個實驗室或研究機(jī)構(gòu)無法達(dá)到的。即便是單一的腫瘤病種的研究,異質(zhì)性也是研究者面臨的巨大挑戰(zhàn)。多而廣的樣本譜系將幫助研究者克服這一困難,進(jìn)而進(jìn)行更加全面和深入的研究,如在一組腫瘤病人中發(fā)現(xiàn)一種新突變,那么這一突變將有望成為新的治療靶點。第二點優(yōu)勢是,許多開放數(shù)據(jù)庫資源來源于多組學(xué)數(shù)據(jù),包含像基因組學(xué)及表觀基因組學(xué)數(shù)據(jù)等。通過數(shù)據(jù)庫,研究者們可以對數(shù)據(jù)內(nèi)部及數(shù)據(jù)間的關(guān)系進(jìn)行整合分析。數(shù)據(jù)的整合分析雖然極具挑戰(zhàn)性,但同時也會帶來高回報。開放數(shù)據(jù)資源的第三點優(yōu)勢是數(shù)據(jù)庫內(nèi)資源可即時獲取,因此可以快速生成假設(shè)并對其進(jìn)行檢驗。基因組學(xué)數(shù)據(jù)的獲取過程花費高、時間長,但研究人員通過挖掘開放數(shù)據(jù)資源中的多組學(xué)數(shù)據(jù),在短時間內(nèi)即可得到問題的答案。第四點優(yōu)勢是,小型實驗的研究結(jié)果很可能存在潛在偏倚,因此有必要在開放數(shù)據(jù)資源中對結(jié)果進(jìn)行驗證,進(jìn)而證實結(jié)果的有效性和通用性。第五點,近幾年對于深層機(jī)器學(xué)習(xí)以及人工智能領(lǐng)域的關(guān)注日益增加,這也離不開開放的多組學(xué)數(shù)據(jù)資源的發(fā)展,因此開放數(shù)據(jù)資源不可或缺。
開放的多組學(xué)數(shù)據(jù)庫資源龐大,且數(shù)據(jù)量日漸增長。本文只能簡單介紹一些研究人員常用或者容易獲取的數(shù)據(jù)庫,尤其是對臨床實踐指導(dǎo)作用比較大的數(shù)據(jù)庫,主要有多組學(xué)數(shù)據(jù)庫、罕見病或遺傳性疾病相關(guān)突變數(shù)據(jù)庫、群體變異數(shù)據(jù)庫以及腫瘤體細(xì)胞突變數(shù)據(jù)庫(表1)。這些數(shù)據(jù)庫的資源并不是孤立的,而是互相關(guān)聯(lián)的,或者一個數(shù)據(jù)庫的數(shù)據(jù)來源于另外一個數(shù)據(jù)庫。如腫瘤基因圖譜(TCGA)數(shù)據(jù)庫是目前最大的腫瘤多組學(xué)數(shù)據(jù)庫,其中的突變數(shù)據(jù)是腫瘤體細(xì)胞突變圖譜(COSMIC)和腫瘤突變位點臨床解讀數(shù)據(jù)庫(CIVic)的重要組成部分。這些數(shù)據(jù)均來自于大樣本量的臨床研究并且可以作為更深層次的數(shù)據(jù)挖掘的基礎(chǔ)。
多組學(xué)數(shù)據(jù)龐雜,包括原始數(shù)據(jù)、初步處理數(shù)據(jù)、高級篩選數(shù)據(jù)等多種不同處理水平數(shù)據(jù)。這些數(shù)據(jù)還與特定的參考基因組的版本有關(guān)(hg37版本或hg38版本)。根據(jù)用戶的計算機(jī)及生物信息學(xué)技能以及使用目的不同,獲取和使用數(shù)據(jù)的方法也有所不同。但幾乎所有的基因組學(xué)數(shù)據(jù)都有其原始格式,這些原始數(shù)據(jù)可能來自于微陣列掃描儀或者下一代測序儀等。原始數(shù)據(jù)需要經(jīng)過預(yù)處理才能夠成為對終端用戶有用的數(shù)據(jù)。由于在數(shù)據(jù)處理過程中存在多種選擇,因此選擇不同的分析路徑可能會產(chǎn)生不同的結(jié)果。應(yīng)用原始數(shù)據(jù)有助于不同來源數(shù)據(jù)的標(biāo)準(zhǔn)化或使其與內(nèi)部生成的數(shù)據(jù)具有可比性(如對外來數(shù)據(jù)與內(nèi)部產(chǎn)生的數(shù)據(jù)采用統(tǒng)一的序列匹配、采用序列比較工具來檢測序列變異或突變,或者采用統(tǒng)一工具對基因表達(dá)進(jìn)行定量和標(biāo)準(zhǔn)化處理)。然而原始數(shù)據(jù)數(shù)量龐大,往往需要專業(yè)生物信息人員先進(jìn)行預(yù)處理。應(yīng)用原始數(shù)據(jù)另一復(fù)雜之處在于它們包含可鏈接到研究入組人員的可識別的基因組信息。因此,大多數(shù)DNA變異原始數(shù)據(jù),如單核苷酸多肽(SNP)陣列、全基因組數(shù)據(jù)或外顯子測序數(shù)據(jù)是有使用權(quán)限的,需要得到特殊批準(zhǔn)才可以訪問和下載。如基因型和表型數(shù)據(jù)庫(dbGAP,https://www.ncbi.nlm.nih.gov/gap/)以及歐洲基因表型數(shù)據(jù)庫(EGA,https://ega-archive.org/)是最常使用的數(shù)據(jù)庫。
對于數(shù)據(jù)分析師以及有經(jīng)驗的數(shù)據(jù)分析人員來說下載預(yù)處理數(shù)據(jù)是最為靈活的選擇,比如DNA測序數(shù)據(jù)預(yù)處理產(chǎn)生的變異數(shù)據(jù)、RNA測序數(shù)據(jù)預(yù)處理產(chǎn)生的RNA表達(dá)數(shù)據(jù)、DNA甲基化數(shù)據(jù)預(yù)處理產(chǎn)生的GpG島甲基化百分比數(shù)據(jù)等,使用者可以應(yīng)用這些數(shù)據(jù)進(jìn)行任何他們想做的分析。理解原始數(shù)據(jù)的處理過程、處理中使用了哪種標(biāo)準(zhǔn)化方法,并且找到與之匹配的臨床數(shù)據(jù)以及樣本數(shù)據(jù)是實現(xiàn)這種靈活選擇的關(guān)鍵。這些數(shù)據(jù)均可以在相關(guān)資源網(wǎng)站上以文本文件的格式直接下載或者通過R語言或Python語言通過應(yīng)用程序下載(表2)。R語言和Python語言是在生物信息學(xué)和機(jī)器學(xué)習(xí)方面最常用到的編程語言。對于沒有編程技能的實驗室人員來說,可以使用已經(jīng)開發(fā)的基于網(wǎng)絡(luò)的數(shù)據(jù)訪問工具或者可視化的分析工具對原始數(shù)據(jù)進(jìn)行分析。cBioportal和GEPIA2就是最常用、最方便的兩個工具,用戶只需點擊鼠標(biāo)就可進(jìn)行各種分析。
多組學(xué)數(shù)據(jù)在精準(zhǔn)醫(yī)學(xué)中的應(yīng)用十分廣泛,可用于任何臨床學(xué)科及預(yù)防醫(yī)學(xué)領(lǐng)域。以下用一些實例來說明基因組學(xué)的數(shù)據(jù)資源以及這些資源在醫(yī)學(xué)領(lǐng)域中的應(yīng)用。
表1 主要基因組學(xué)數(shù)據(jù)庫資源
表2 訪問開放數(shù)據(jù)庫的常用工具
據(jù)估計,從遺傳角度講,人類有超過10 000種疾病是單基因疾病,也就是說這些疾病是由于人類DNA的單個基因的單一錯誤引起的[2]。現(xiàn)已明確的與罕見遺傳病相關(guān)的突變有6 528種(于2019年11月1日檢索《人類孟德爾遺傳》數(shù)據(jù)庫(OMIM)的結(jié)果),但仍有很多突變沒有被發(fā)現(xiàn)。對于這些致病原因不明的疾病,進(jìn)行外顯子或者全基因組測序是臨床上常規(guī)的處理方法。進(jìn)行大范圍基因組測序通常會發(fā)現(xiàn)非常多的突變,但從中找出真正的致病突變并不容易,需要進(jìn)行文獻(xiàn)檢索、罕見病數(shù)據(jù)庫挖掘以及將病人的突變與數(shù)據(jù)庫中報道的突變比對等一系列過程。通過基因組測序,許多疾病可以得到診斷。但如果檢測發(fā)現(xiàn)該突變以往未見報道,則意味著該病人可能患有一種新疾病或者發(fā)現(xiàn)了另一個與某種疾病相關(guān)的致病突變。但是由于目前許多臨床實驗室的數(shù)據(jù)沒有上傳,所以罕見病數(shù)據(jù)庫里數(shù)據(jù)并不集中。因此建立資源集中和數(shù)據(jù)共享的機(jī)制,將會有助于對未曾報道過的罕見病的診斷[3]。
人群風(fēng)險變異是指在人群中次等位基因頻率(MAF)>1%的基因變異,它們是常見病或者復(fù)雜多基因病的主要病因,如2型糖尿病、高血壓以及一些腫瘤等疾病。這些疾病并不是由單基因突變造成的,而是多基因突變以及與環(huán)境因素共同影響導(dǎo)致的。在過去的幾十年里,已完成超過5 000例的全基因組關(guān)聯(lián)分析(GWAS,https://www.ebi.ac.uk/gwas)。截至2018年,在GWAS目錄中已經(jīng)報道了71 673例突變-性狀關(guān)聯(lián)分析[4-5]。用戶可以通過疾病名稱、基因突變以及單核苷酸多肽編碼(SNP ID)來進(jìn)行搜索。但由于有些GWAS數(shù)據(jù)是來自于數(shù)年的多個研究,而且許多研究并沒有足夠的樣本量,因此得出的關(guān)聯(lián)關(guān)系可能不全面,從而導(dǎo)致GWAS搜索結(jié)果有時會差別較大。但令人高興的是,一些大型生物標(biāo)本庫研究項目擁有了幾十萬甚至上百萬樣本量,并將研究所得的基因型-表型關(guān)系公之于眾。例如有史以來最大的英國生物樣本庫項目(the UK biobank project)收集了452 264份志愿者的DNA樣本,對778個性狀和3 000萬個基因組變異的關(guān)聯(lián)性進(jìn)行了研究。只需搜索疾病名稱、基因名稱、基因組變異或者位點等信息就可以在英國生物標(biāo)本庫項目(GeneATLAS,http://geneatlas.roslin.ed.ac.uk)上獲取相應(yīng)數(shù)據(jù)[6]。
但是GWAS結(jié)果在預(yù)測人群風(fēng)險變異的應(yīng)用中尚存在許多問題。①只有極少數(shù)有關(guān)聯(lián)的變異或突變可以應(yīng)用于臨床,絕大多數(shù)關(guān)聯(lián)沒有發(fā)現(xiàn)臨床應(yīng)用價值。②GWAS研究中的大多數(shù)變異關(guān)聯(lián)性是通過SNP陣列技術(shù)得到的,但是其所用SNP大部分是標(biāo)簽SNP,并不是與疾病或者性狀相關(guān)的致病SNP。隨著越來越多的GWAS研究方法轉(zhuǎn)向外顯子測序或者全基因組測序,這個問題可能會被解決;然而新平臺同樣會產(chǎn)生海量的SNP或者變異數(shù)據(jù),從中尋找有意義的變異如“大海撈針”一般困難。超過95%的變異來自于基因組的非編碼區(qū),如何解釋這些變異也是一項非常困難的工作?,F(xiàn)在已經(jīng)開發(fā)了一些軟件工具對這些變異進(jìn)行解釋并同時進(jìn)行數(shù)據(jù)優(yōu)化。GWAVA是利用DNA元素百科全書計劃(ENCODE)和GENCODE計劃的非編碼元素以及全基因組序列特性,如通過進(jìn)化保守性以及GC含量,預(yù)測非編碼區(qū)變異對基因功能的影響[7];結(jié)合注釋依賴消耗評分系統(tǒng)(CADD)是另一個更全面的工具,其通過將自然選擇中保存的變體與給定變異進(jìn)行對比來進(jìn)行評分。這個評分系統(tǒng)評價人類基因組中DNA變異和插入/缺失突變的有害程度[8]。盡管這些工具非常有用,但是GWAS結(jié)果應(yīng)用于臨床還有很長的路要走。
應(yīng)用基因組學(xué)信息指導(dǎo)腫瘤治療是精準(zhǔn)醫(yī)學(xué)的核心,這一理念已被廣泛認(rèn)可并成功應(yīng)用于臨床。腫瘤的發(fā)生伴隨著各種基因組畸變,產(chǎn)生腫瘤特異性靶向分子,在這些腫瘤治療中,腫瘤標(biāo)志成為其診療的主要靶點,此外腫瘤發(fā)生、發(fā)展、生長、轉(zhuǎn)移過程中的眾多靶點、信號傳導(dǎo)通路以及異常的細(xì)胞周期、腫瘤微環(huán)境都是靶向藥物的潛在治療靶點。目前為止基因組學(xué)信息的臨床應(yīng)用仍僅局限于腫瘤DNA檢測,如DNA突變、易位、插入/缺失或者腫瘤突變負(fù)荷(TMB)等的檢測。腫瘤DNA檢測常用于特定的基因和突變來增加選定序列的基因檢測覆蓋率,以避免許多可以解讀的突變的漏檢。其中很多檢測的靶點是從TCGA這樣的大型基因圖譜計劃中獲得的。分析不同類型腫瘤的突變分布有助于鑒別出攜帶同種突變的其他腫瘤,攜帶同種突變的腫瘤患者可能會受益于相同的靶向治療方案。
目前對于檢測到的腫瘤突變?nèi)绾谓庾x以及臨床應(yīng)用的適應(yīng)證還缺乏統(tǒng)一的標(biāo)準(zhǔn)。每個機(jī)構(gòu)都有自己的測序平臺及生物信息分析團(tuán)隊,對變異的解釋也不盡相同。為了解決這一問題,專家們共同創(chuàng)建了腫瘤突變數(shù)據(jù)庫(CIViC,https://civicdb.org/home)來幫助研究人員解讀檢測到的基因突變與腫瘤發(fā)生發(fā)展的相關(guān)性,以及對病人診斷、治療、預(yù)后評估方面的應(yīng)用價值[9]。
盡管精準(zhǔn)醫(yī)學(xué)強(qiáng)調(diào)的是個體化的醫(yī)療,但是知識的獲取以及有意義突變的解讀仍需要對大規(guī)模的人群數(shù)據(jù)進(jìn)行分析,這就使得組學(xué)大數(shù)據(jù)顯得尤為重要[10]。
目前,對于基因變異以及變異對臨床的影響還知之甚少,有很多的問題仍需進(jìn)一步探索,因此基因組學(xué)大數(shù)據(jù)對開發(fā)診斷/預(yù)后標(biāo)志物和發(fā)現(xiàn)新治療靶點極為重要。開放數(shù)據(jù)庫為我們提供了實現(xiàn)這些目標(biāo)的資源。
利用數(shù)據(jù)庫中的多組學(xué)數(shù)據(jù)在一系列腫瘤中進(jìn)行單基因分析經(jīng)常會出現(xiàn)這種問題:實驗中發(fā)現(xiàn)了一個在某特定腫瘤中可能有臨床意義的突變,但無法確定該突變在大數(shù)據(jù)中或者其他腫瘤中的臨床意義如何。值得慶幸的是,現(xiàn)有的大型數(shù)據(jù)庫以及一些在線資源可以很容易地解決這些問題。使用者無需掌握編程技巧,僅需一些基本的數(shù)據(jù)分析知識就可以利用這些開放資源進(jìn)行數(shù)據(jù)分析,如通過檢測發(fā)現(xiàn),EGFR突變的肺癌病人可以使用酪氨酸激酶抑制劑進(jìn)行治療,那么攜帶EGFR突變的其他腫瘤病人會從酪氨酸激酶抑制劑靶向治療中獲益么?如果不能獲益,是否可以找到其他的基因組變異來進(jìn)行靶向治療?通過對TCGA中11 000多種腫瘤進(jìn)行cBioportal和GEPIA搜索,發(fā)現(xiàn)EGFR突變在其他腫瘤中是非常常見的,但突變功能域卻各有不同,在腦腫瘤和其他器官的鱗狀細(xì)胞癌中,EGFR擴(kuò)增或表達(dá)增加提示病人預(yù)后差,這就需要使用不同的治療策略來降低致癌基因表達(dá)。
腫瘤能否早期診斷決定著腫瘤病人的生存期長短以及能否制定合理治療方案。大多數(shù)腫瘤還沒有早期篩查手段,但一些腫瘤,如胰腺癌、卵巢癌和肺癌,如果不能早期診斷,后果將會是致命的。近幾年來,以液體活檢、無創(chuàng)血漿游離細(xì)胞、循環(huán)腫瘤細(xì)胞為基礎(chǔ)的腫瘤檢測技術(shù)已經(jīng)取得了長足進(jìn)展。幾乎所有的基因?qū)W和表觀基因?qū)W信息都可以作為這些檢測的靶點,目前最常用的方法是體細(xì)胞突變的檢測。研究發(fā)現(xiàn),某些腫瘤攜帶許多特異性的突變,檢測到一個基因突變或多個基因突變組合可以輔助這些腫瘤的確診[11-13]。由于游離DNA中腫瘤DNA比例很低,通常選擇感興趣的基因區(qū)域(突變)進(jìn)行測序來達(dá)到超高覆蓋率,以避免目標(biāo)基因突變的漏檢。大型基因組數(shù)據(jù)庫在幫助選擇臨床進(jìn)行檢測的突變位點上有重要作用。除此之外,突變檢測還可用于治療方案選擇、治療效果評估以及疾病預(yù)后評估等方面[14-15]。但由于腫瘤病人血液中腫瘤DNA量微,而且突變頻率很低,這些檢測方法的靈敏度仍需進(jìn)一步提高。與基因突變不同的是腫瘤中廣泛存在著DNA甲基化現(xiàn)象,常常是腫瘤特異性的表現(xiàn)[16]。因此檢測DNA甲基化能夠更好進(jìn)地行腫瘤早期檢測和分類[17-18]。尋找最有價值的通用的標(biāo)記物以及腫瘤特異性標(biāo)記物(或基因區(qū)域)通常需要大型泛癌或者組織基因組學(xué)數(shù)據(jù)。到目前為止,已有多項研究是通過TCGA數(shù)據(jù)資源發(fā)現(xiàn)腫瘤DNA甲基化標(biāo)記物[19-23]。另外由于健康人群血漿中游離DNA片段的長度分布非常規(guī)律,而同源序列的循環(huán)腫瘤細(xì)胞DNA片段長度雜亂無章,所以血漿中游離DNA片段的長度及其分布模式,也可以提示病人是否患有腫瘤以及腫瘤的原發(fā)灶部位[24]。來自于細(xì)胞游離DNA中的microRNA或者RNA等其他表觀基因組學(xué)數(shù)據(jù)也正逐步應(yīng)用到臨床試驗中來[25]。從基因組學(xué)大數(shù)據(jù)中挖掘信息并應(yīng)用于臨床實踐的潛力是無限的。
開放組學(xué)數(shù)據(jù)資源正在持續(xù)增長,不可能在文中一一列舉,本文篩選出一些較為重要的數(shù)據(jù)庫,并對其用法和獲取數(shù)據(jù)方法進(jìn)行簡短的介紹。了解并正確如何使用這些資源將會極大地促進(jìn)科學(xué)研究和臨床實踐的發(fā)展,這些開放資源會對項目申請、數(shù)據(jù)解讀等給予很大的幫助。除此之外對于很多沒有編程能力的研究者來說,利用在線的工具進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘會更加便捷和簡單。高效使用這些數(shù)據(jù)首先要了解數(shù)據(jù)來源、處理方法并且學(xué)會解釋這些數(shù)據(jù)的結(jié)果。隨著時間的進(jìn)展、資料不斷完善,這些資源會變得越來越有條理,越來越容易獲得。大數(shù)據(jù)正在轉(zhuǎn)變傳統(tǒng)醫(yī)療模式和生物醫(yī)學(xué)研究方法,多組學(xué)大數(shù)據(jù)在其中起到重要作用。與電子病歷、影像學(xué)資料、病理學(xué)圖片等其他大數(shù)據(jù)以及精準(zhǔn)醫(yī)療設(shè)備一樣,大數(shù)據(jù)分析也正在逐步豐富精準(zhǔn)醫(yī)學(xué)研究的內(nèi)涵。