,, ,
美國(guó)癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)計(jì)劃歷經(jīng)10年完成了階段性任務(wù)[1],推動(dòng)了癌癥基因組學(xué)研究的發(fā)展,為大規(guī)模癌癥基因組學(xué)研究計(jì)劃的實(shí)施提供了參考。2006年,在美國(guó)國(guó)立衛(wèi)生研究院(National Institutes of Health,NIH)的組織領(lǐng)導(dǎo)下,美國(guó)國(guó)立癌癥研究所(National Cancer Institute,NCI)和國(guó)立人類(lèi)基因組研究所(National Human Genome Research Institute,NHGRI)聯(lián)合啟動(dòng)了癌癥基因組圖譜計(jì)劃[2]。該計(jì)劃旨在通過(guò)大規(guī)模收集特定癌癥患者的臨床信息、影像信息、腫瘤組織及部分對(duì)應(yīng)的正常組織樣本,對(duì)其進(jìn)行全面的基因組數(shù)據(jù)分析,從而獲得一個(gè)全面的癌癥基因組“圖譜”,找到癌癥相關(guān)的基因組變異并為其編制目錄,實(shí)現(xiàn)數(shù)據(jù)共享,促進(jìn)癌癥的早期診斷和精準(zhǔn)治療,并預(yù)防癌癥的發(fā)生。
本文將從TCGA計(jì)劃的數(shù)據(jù)管理相關(guān)機(jī)構(gòu)、工作流程、數(shù)據(jù)分類(lèi)及開(kāi)放共享、數(shù)據(jù)應(yīng)用等方面對(duì)TCGA進(jìn)行調(diào)研,為建立和完善大型的開(kāi)放癌癥基因組學(xué)數(shù)據(jù)庫(kù)及其數(shù)據(jù)開(kāi)放和利用提供參考借鑒。
TCGA計(jì)劃涉及多個(gè)負(fù)責(zé)數(shù)據(jù)收集和處理分析的相關(guān)機(jī)構(gòu)(圖1),具體包括組織樣本采集站(Tissue Source Sites,TSSs)、樣本處理中心(Biospecimen Core Resource,BCR)、基因組測(cè)序中心(Genome Sequencing Centers,GSCs)、基因組特征研究中心(Genome Characterization Centers,GCCs)、數(shù)據(jù)調(diào)度中心(Data Coordinating Center,DCC)、癌癥基因組中心(Cancer Genomics Hub,CGHub)和基因組數(shù)據(jù)分析中心(Genome Data Analysis Centers,GDACs)等[2],其工作流程基本如下。
圖1 美國(guó)癌癥基因組圖譜數(shù)據(jù)管理數(shù)據(jù)流[2]
組織樣本處理:組織樣本采集站(TSSs)收集志愿者的生物樣本(腫瘤組織和正常組織)及臨床元數(shù)據(jù)并提交給樣本處理中心(BCRs),樣本處理中心(BCRs)從樣本中提取待分析的物質(zhì)(DNA、RNA、蛋白質(zhì)等),并檢測(cè)以達(dá)到數(shù)量和質(zhì)量的要求,同時(shí)為樣本編碼并去除患者隱私信息。
科學(xué)研究發(fā)現(xiàn):待分析的物質(zhì)由樣本處理中心(BCRs)分別提交給基因組特征研究中心(GCCs)和基因組測(cè)序中心(GSCs),并分別進(jìn)行基因組變異特征分析和識(shí)別特定癌癥的DNA、RNA序列變化,基因組數(shù)據(jù)分析中心(GDAC)對(duì)來(lái)源于各個(gè)序列描述平臺(tái)的數(shù)據(jù)進(jìn)行整合,研發(fā)并提供新的信息處理、分析和可視化工具,以使癌癥基因組圖譜的數(shù)據(jù)得到充分利用。
科學(xué)數(shù)據(jù)共享:TCGA計(jì)劃所收集和產(chǎn)生的各類(lèi)數(shù)據(jù)由數(shù)據(jù)調(diào)度中心(DCC)集中管理,并通過(guò)數(shù)據(jù)門(mén)戶(hù)(The TCGA Data Portal)等平臺(tái)促進(jìn)數(shù)據(jù)開(kāi)放共享,使所有研究者根據(jù)其研究目的獲取和利用所需數(shù)據(jù)。
數(shù)據(jù)驅(qū)動(dòng)的科研協(xié)作:TCGA計(jì)劃促進(jìn)交叉學(xué)科研究團(tuán)隊(duì)從不同分子層面整合不同癌癥表型信息協(xié)同開(kāi)展科學(xué)研究,共同研究癌癥發(fā)病機(jī)理,發(fā)現(xiàn)致病因素,提供精準(zhǔn)的治療方案,進(jìn)而有效降低癌癥疾病負(fù)擔(dān)[3]。
TCGA計(jì)劃收集了11 000名患者、33種癌癥的樣本數(shù)據(jù)[4](表1)。2015年,TCGA計(jì)劃所收集和產(chǎn)生的數(shù)據(jù)量已達(dá)20PB,其中包括1 000萬(wàn)個(gè)突變信息[1]。研究者可自行選擇和下載所需的癌癥數(shù)據(jù)并進(jìn)行分析。據(jù)TCGA計(jì)劃管理辦公室的不完全統(tǒng)計(jì),截至2014年底,已有2 700多篇已發(fā)表的研究文章使用了TCGA計(jì)劃所收集和產(chǎn)生的數(shù)據(jù)[4]。
表1 美國(guó)癌癥基因組圖譜(TCGA)計(jì)劃癌癥樣本數(shù)量分布
注:該表為截至日期為2016年1月14日
TCGA研究團(tuán)隊(duì)針對(duì)上述各種癌癥,收集和產(chǎn)生了多種類(lèi)型的組學(xué)和臨床相關(guān)數(shù)據(jù),主要包括基因表達(dá),外顯子表達(dá)、小RNA表達(dá)、拷貝數(shù)改變(CNV)、單核苷酸多態(tài)性(SNP)、雜合性缺失(LOH)、基因突變、DNA甲基化和蛋白質(zhì)表達(dá)等組學(xué)數(shù)據(jù),以及患者的基本資料、治療進(jìn)程、臨床分期和生存狀況等臨床相關(guān)數(shù)據(jù)。
對(duì)于每種類(lèi)型的數(shù)據(jù),TCGA研究團(tuán)隊(duì)根據(jù)其加工處理程度劃分為4個(gè)水平,使研究者可根據(jù)其研究需要選擇不同處理水平的數(shù)據(jù)。TCGA計(jì)劃的數(shù)據(jù)處理程度總體界定如表2所示。由于每一個(gè)中心和平臺(tái)都會(huì)產(chǎn)生多種類(lèi)型的數(shù)據(jù),而各中心和平臺(tái)分別根據(jù)其數(shù)據(jù)類(lèi)型和所采用的分析算法對(duì)數(shù)據(jù)水平分類(lèi)進(jìn)行界定,因此各中心和平臺(tái)之間的界定標(biāo)準(zhǔn)可能會(huì)略有不同[5]。
TCGA計(jì)劃根據(jù)數(shù)據(jù)粒度,將所收集和產(chǎn)生的數(shù)據(jù)分為匯總數(shù)據(jù)和個(gè)體數(shù)據(jù),并分別采取不同的數(shù)據(jù)共享機(jī)制,即匯總數(shù)據(jù)可開(kāi)放存取,用戶(hù)使用時(shí)不需要進(jìn)行認(rèn)證。而個(gè)體數(shù)據(jù)須受控訪(fǎng)問(wèn),用戶(hù)須填寫(xiě)數(shù)據(jù)訪(fǎng)問(wèn)申請(qǐng),經(jīng)審核同意后方可下載使用數(shù)據(jù)。這兩種數(shù)據(jù)共享機(jī)制的不同之處詳見(jiàn)表3。
表2 美國(guó)癌癥基因組圖譜(TCGA)計(jì)劃數(shù)據(jù)處理程度劃分
表3 美國(guó)癌癥基因組圖譜(TCGA)計(jì)劃的數(shù)據(jù)共享機(jī)制比較
TCGA計(jì)劃已覆蓋惡性膠質(zhì)瘤、乳腺癌、卵巢癌、肺癌、結(jié)直腸癌、腎透明細(xì)胞癌、白血病、子宮內(nèi)膜癌、膀胱移行細(xì)胞癌、胃腺癌等30多種癌癥及其亞型(表1)。TCGA研究團(tuán)隊(duì)及其他相關(guān)研究者利用其共享數(shù)據(jù)開(kāi)展了大量研究,包括癌癥特征基因的突變、染色體擴(kuò)增和缺失以及受影響的信號(hào)通路等?;诙鄠€(gè)高通量實(shí)驗(yàn)平臺(tái)產(chǎn)生的數(shù)據(jù),開(kāi)展癌癥基因組學(xué)研究,為分子水平癌癥分類(lèi)研究開(kāi)辟了新視角。下面以研究成果中的乳腺癌、前列腺癌相關(guān)發(fā)現(xiàn)及泛癌計(jì)劃為例,對(duì)TCGA計(jì)劃的數(shù)據(jù)應(yīng)用情況進(jìn)行介紹。
2012年,TCGA研究團(tuán)隊(duì)通過(guò)對(duì)乳腺癌相關(guān)的基因組DNA拷貝數(shù)陣列、DNA甲基化、外顯子測(cè)序、mRNA陣列、小RNA序列陣列和反相蛋白陣列等數(shù)據(jù)的整合分析,發(fā)現(xiàn)了4個(gè)主要的分類(lèi)亞型,且每種亞型都有顯著的分子異質(zhì)性[6]。2015年TCGA研究團(tuán)隊(duì)與瑞士洛桑大學(xué)遺傳學(xué)系、美國(guó)斯隆凱特林癌癥中心等20多個(gè)機(jī)構(gòu)的研究者合作,利用TCGA計(jì)劃的多個(gè)平臺(tái)的分析數(shù)據(jù),包括817個(gè)乳腺癌樣本,分析小葉樣乳腺癌和導(dǎo)管樣乳腺癌的分子差異,找到了其發(fā)病機(jī)制中的不同通路;同時(shí)根據(jù)細(xì)胞增殖及免疫相關(guān)基因的表達(dá)差異,定義了新的小葉樣乳腺癌亞型(reactive-like, immune-related, proliferative),發(fā)現(xiàn)潛在的治療靶點(diǎn)[7]。此外,研究者利用TCGA計(jì)劃的數(shù)據(jù)驗(yàn)證其研究結(jié)果,通過(guò)整合一個(gè)大型的小葉樣乳腺癌患者隊(duì)列中的基因組、轉(zhuǎn)錄組及蛋白質(zhì)組數(shù)據(jù),找到兩個(gè)生物學(xué)方面有顯著差異的亞型,并利用TCGA計(jì)劃乳腺癌的基因表達(dá)數(shù)據(jù),用相同的聚類(lèi)方法,顯示出類(lèi)似的生物學(xué)差異[8]。這些差異可通過(guò)相應(yīng)靶向的化療或免疫療法改善治療效果,為精準(zhǔn)治療方案的制定提供依據(jù)。
有研究通過(guò)篩查T(mén)CGA計(jì)劃所收集和產(chǎn)生的前列腺癌的差異表達(dá)的小RNA數(shù)據(jù),分析靶基因的功能和信號(hào)通路,發(fā)現(xiàn)了6種差異表達(dá)的小RNA及它們的靶基因,可以作為前列腺癌治療過(guò)程中的預(yù)后生物標(biāo)記[9]。TCGA研究團(tuán)隊(duì)對(duì)原發(fā)性前列腺癌的333個(gè)樣本的多個(gè)平臺(tái)(包括外顯子組、全基因組測(cè)序、RNA測(cè)序、小RNA測(cè)序、SNP微陣列、DNA甲基化微陣列、反相蛋白微陣列)的分析數(shù)據(jù)進(jìn)行了全面的分子學(xué)分析,發(fā)現(xiàn)74%的原發(fā)性前列腺癌可根據(jù)基因融合和突變分為7個(gè)亞型,不同亞型之間存在表觀(guān)遺傳學(xué)和激素受體活性差異。該發(fā)現(xiàn)對(duì)前列腺癌的分子診斷與靶向治療具有重要意義[10]。
隨著研究的深入和相互關(guān)聯(lián),研究者發(fā)現(xiàn)在不同的癌癥中會(huì)存在相似的分子模式。為此,TCGA計(jì)劃的研究者于2012年啟動(dòng)了泛癌計(jì)劃(Pan-Cancer Project)。根據(jù)當(dāng)時(shí)的數(shù)據(jù)可及性和完整性,計(jì)劃選取多形性成膠質(zhì)細(xì)胞瘤、急性骨髓性白血病、頭頸部鱗狀細(xì)胞癌、肺腺癌、肺鱗狀細(xì)胞癌、乳腺癌、腎透明細(xì)胞癌、卵巢癌、膀胱癌、結(jié)腸腺癌、子宮頸與子宮內(nèi)膜癌、直腸腺癌等12種癌癥,共計(jì)3 000多個(gè)樣本的基因突變(包括單核苷酸變異和結(jié)構(gòu)變異)、DNA拷貝數(shù)改變、基因表達(dá)、DNA甲基化、小RNA測(cè)序、反向蛋白陣列等組學(xué)數(shù)據(jù)和臨床相關(guān)數(shù)據(jù)進(jìn)行整合分析,探尋不同癌癥的相似生物通路[11]。
在該計(jì)劃中,來(lái)自30多個(gè)機(jī)構(gòu)的250位研究者開(kāi)展協(xié)作研究,進(jìn)行數(shù)據(jù)的處理、分析和知識(shí)發(fā)現(xiàn)[12]。該計(jì)劃的開(kāi)展,為大型協(xié)作研究提供了一個(gè)可行的模式。此外,泛癌計(jì)劃的研究結(jié)果為不同病發(fā)部位腫瘤的系統(tǒng)生物學(xué)研究提供了可行性。
美國(guó)斯隆凱特林癌癥中心的Giovanni Ciriello等人利用生物信息學(xué)算法對(duì)12種癌癥的3 299個(gè)癌癥樣本進(jìn)行了層次分類(lèi),將這些癌癥分為原發(fā)性體細(xì)胞變異類(lèi)型(M類(lèi))和原發(fā)性拷貝數(shù)改變類(lèi)型(C類(lèi)),揭示了癌癥形成中不同的致癌過(guò)程。研究發(fā)現(xiàn)的層次分類(lèi)結(jié)果表明腫瘤形成過(guò)程中存在不同的致癌標(biāo)記,為不同階段的癌癥治療提供了新思路[13]。另外有研究分析了泛癌數(shù)據(jù)集中11種癌癥的4 934個(gè)原位癌樣本的體細(xì)胞拷貝數(shù)改變(somatic copy number alteration,SCNA)情況,發(fā)現(xiàn)了不同癌癥有著相同的SCNA模式,約37%的癌癥有全基因增倍(whole-genome doubling)同時(shí)伴有相當(dāng)高的體細(xì)胞拷貝數(shù)改變[14]。
Nature雜志于2013年創(chuàng)建了 TCGA泛癌分析(TCGA Pan-Cancer Analysis)專(zhuān)欄,總結(jié)了TCGA泛癌計(jì)劃包括突變驅(qū)動(dòng)、網(wǎng)絡(luò)模型、暴露與致病因素、數(shù)據(jù)發(fā)現(xiàn)、未來(lái)方向等方面的研究成果[15]。
目前,我國(guó)的基因組學(xué)等生物科研數(shù)據(jù)共享與數(shù)據(jù)匯交工作已啟動(dòng)[16],但仍缺少與之匹配數(shù)據(jù)管理制度和技術(shù)支撐[17]。TCGA計(jì)劃的數(shù)據(jù)管理經(jīng)驗(yàn)可為國(guó)家級(jí)大型的癌癥基因組學(xué)相關(guān)數(shù)據(jù)資源管理提供參考。
人類(lèi)基因組計(jì)劃開(kāi)啟了多中心、多機(jī)構(gòu)合作模式,之后團(tuán)體合作的基因組工程隨之而來(lái),包括千人基因組計(jì)劃、TCGA計(jì)劃和人類(lèi)微生物組計(jì)劃等。合作模式下的科學(xué)研究將會(huì)使更多人獲益,各個(gè)參與其中的中心或機(jī)構(gòu),利用相同的基礎(chǔ)設(shè)施、分析工具,遵循統(tǒng)一制定的政策及數(shù)據(jù)標(biāo)準(zhǔn),用一致的共享技術(shù)開(kāi)放數(shù)據(jù),保證研究后期能夠在最大程度上實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理[18]。
TCGA計(jì)劃建立了組織樣本采集、處理、質(zhì)量控制、序列測(cè)定、變異特征分析、數(shù)據(jù)共享與研究應(yīng)用等全鏈條的癌癥基因組圖譜數(shù)據(jù)管理流程。在建立大型相關(guān)數(shù)據(jù)資源時(shí),需要對(duì)數(shù)據(jù)分析早期進(jìn)行統(tǒng)籌規(guī)劃,確保不同科研中心的數(shù)據(jù)產(chǎn)生、傳遞、存儲(chǔ)、共享及利用等操作的相互銜接與規(guī)范化,保證數(shù)據(jù)的完整性和準(zhǔn)確性。在大規(guī)模癌癥基因組學(xué)研究計(jì)劃的實(shí)施過(guò)程中,可參考其數(shù)據(jù)管理相關(guān)機(jī)構(gòu)的合作方式,各個(gè)科研中心負(fù)責(zé)鏈條中的某項(xiàng)特定工作,最終數(shù)據(jù)匯總呈現(xiàn)于數(shù)據(jù)調(diào)度中心實(shí)現(xiàn)數(shù)據(jù)共享。
實(shí)現(xiàn)生物科研數(shù)據(jù)共享是一個(gè)系統(tǒng)工程,需進(jìn)行需求分析、資源調(diào)查和分級(jí)分類(lèi)等研究。TCGA計(jì)劃從所屬癌癥、數(shù)據(jù)類(lèi)型、處理水平、數(shù)據(jù)粒度等角度對(duì)數(shù)據(jù)進(jìn)行精細(xì)分類(lèi),根據(jù)數(shù)據(jù)類(lèi)型定義不同用戶(hù)的數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限以及開(kāi)放共享數(shù)據(jù)的內(nèi)容。
TCGA計(jì)劃采用了兩級(jí)數(shù)據(jù)發(fā)布系統(tǒng),一部分?jǐn)?shù)據(jù)全面開(kāi)放,另一部分僅可用于研究性目的,研究人員和機(jī)構(gòu)得到授權(quán)后才可使用相應(yīng)數(shù)據(jù)。在充分保護(hù)患者隱私的情況下實(shí)現(xiàn)癌癥基因組數(shù)據(jù)的優(yōu)化與共享。在此方面,我國(guó)需要加大科學(xué)數(shù)據(jù)精細(xì)標(biāo)識(shí)與分級(jí)分類(lèi)管理,在保障個(gè)人隱私和信息安全的前提下,實(shí)現(xiàn)數(shù)據(jù)的開(kāi)放共享。
通過(guò)分析癌癥基因組信息了解癌癥發(fā)生發(fā)展機(jī)理,發(fā)現(xiàn)癌癥標(biāo)志物和藥物作用基因靶點(diǎn),可為癌癥的精準(zhǔn)診斷和治療提供支撐。TCGA計(jì)劃收集了大量癌癥基因組與臨床表型的數(shù)據(jù),其中蘊(yùn)藏著潛在的癌癥的分子標(biāo)記物和藥物靶點(diǎn)有待挖掘,科學(xué)的數(shù)據(jù)管理方案為癌癥基因組研究提供了保障。癌癥基因組圖譜計(jì)劃在數(shù)據(jù)管理方面的實(shí)踐探索可為精準(zhǔn)醫(yī)學(xué)等大科學(xué)計(jì)劃的開(kāi)展和實(shí)施、為數(shù)據(jù)驅(qū)動(dòng)的協(xié)作研究模式提供參考[19]。