編譯 舒愉棉
癌癥基因組研究的未來就藏身于臨床信息之中。2020年2月5日,《自然》雜志基于PCAWG成果發(fā)布的系列論文對癌癥的遺傳學(xué)原因給出了新的解釋,而這些研究結(jié)果為我們展示了人類對癌癥理解的最新進展,以及未來我們還有多遠的路要走。
科學(xué)家如今對引發(fā)癌癥的遺傳學(xué)改變有了前所未有的了解,這些癌癥里包括鱗狀細胞癌,一種常見的口腔癌
全基因組泛癌分析聯(lián)盟(PCAWG,又稱為泛癌癥全基因組分析合作項目)聯(lián)合了跨越四大洲的約750家合作單位,對代表38個癌種、超過2 600份樣本進行了全基因組測序,所獲成果刊登在《自然》雜志上。
這一項目了不起的地方在于其所具有的廣度與復(fù)雜度。從獲取樣本到把上萬億字節(jié)的數(shù)據(jù)交到研究者手中,同時還要保護病人的隱私,項目的每一步都面臨著各種挑戰(zhàn),而它的龐大規(guī)模亦是挑戰(zhàn)的來源之一。
多虧聯(lián)盟的努力以及此前的全基因組測序成果,科學(xué)家如今對引發(fā)癌癥的遺傳學(xué)改變有了前所未有的了解,對現(xiàn)有知識中的空白部分也有了更清晰的認識。通過合作,研究組找到了在癌癥基因組中反復(fù)出現(xiàn)的705個遺傳突變,并指出這些突變可能對于腫瘤生長有重要作用。在這705個突變中,有約100個突變發(fā)生在基因組蛋白質(zhì)編碼區(qū)以外。隨著對非編碼區(qū)進行分析的計算技術(shù)水平的提高,未來將會有更多這樣的突變被人發(fā)現(xiàn)??偠灾撐淖髡甙l(fā)現(xiàn)了平均每個癌癥基因組含有4~5個導(dǎo)致腫瘤生長的遺傳突變,但同時他們也發(fā)現(xiàn)有5%的病例不含有這些突變。
盡管癌癥基因組測序完成時間超過十年,研究人員及這一研究的資助者現(xiàn)在仍舊必須要克服接下來的挑戰(zhàn)。癌癥基因組測序研究的目標一直都是改善癌癥患者的生活,而測序項目積累起來的大量數(shù)據(jù)的確有所幫助。這些數(shù)據(jù)被研究人員用于尋找新的藥物靶點和合成能夠用于匹配病人與最佳治療方案的腫瘤標記物。
但是,直至今日,絕大部分的數(shù)據(jù)都在一個關(guān)鍵部分受到限制,那就是樣本捐贈者的臨床信息通常是缺失的。癌癥基因組圖譜計劃(TCGA,是一項由美國國家癌癥研究所與美國國家人類基因組研究所共同資助、2006至2018年期間開展的大規(guī)模多癌癥全基因組測序項目)收集到的第一批樣本就是典型,除了樣本捐贈者的性別、疾病診斷以及就診年齡這些信息,其他伴隨樣本而來的信息寥寥。缺失的必要信息還包括捐贈者家族史或用藥史、接受過的治療記錄以及病人對治療出現(xiàn)的反應(yīng)記錄,如果想要將癌癥基因組測序所得信息用來幫助病人,上述的信息都至關(guān)重要。
下一代癌癥基因組測序項目將致力于改變這一點,但是收集詳細的臨床信息比基因組測序更困難也更昂貴,尤其是在許多缺少統(tǒng)一醫(yī)療系統(tǒng)的國家更是如此。在那里,要獲取醫(yī)療記錄很復(fù)雜:不同的醫(yī)院分別儲存著不同的記錄;病人常常從一家醫(yī)療中心轉(zhuǎn)診到另一個;不同醫(yī)院的記錄質(zhì)量千差萬別。與此同時,更詳細的記錄在隱私遭到侵犯時也意味著個體暴露的風(fēng)險更大,因此對樣本捐贈者保護的力度也要再次加大。
這些迫在眉睫的問題不僅存在于癌癥研究之中,整個醫(yī)療研究都面臨著這些問題。人們正在努力將居民健康檔案轉(zhuǎn)化為更易獲取、更易研究,同時更安全的新格式,比如美國癌癥研究協(xié)會(AACR)的一項國際基因組和臨床數(shù)據(jù)共享項目(GENIE)就對70 000份腫瘤DNA序列信息和現(xiàn)實世界的臨床數(shù)據(jù)記錄進行了編輯,而英國的10萬人基因組計劃也旨在將DNA序列信息與臨床信息配對以供不同使用需求。協(xié)調(diào)過眾多腫瘤測序工作的國際癌癥基因組聯(lián)盟(ICGC)也啟動了新的階段性工作,這一次的工作重點將聚焦在臨床信息。
匯集大量樣本形成樣本池可以有效尋找引發(fā)癌癥的遺傳學(xué)改變,并為研究這些遺傳學(xué)改變?nèi)绾我l(fā)癌癥提供一個起跑點。然而,只有在這些數(shù)據(jù)能夠用于為病人量身定制治療方案時,所有的付出才算是真正有了回報。而為了實現(xiàn)這一點,研究對象的臨床背景信息是不可或缺的。
當(dāng)癌癥基因組測序項目首次啟動時,人們希望這一項目能提供引發(fā)癌癥的遺傳突變清單,并能夠揭示可以作為藥物研發(fā)基礎(chǔ)的普適性遺傳特征。這一任務(wù)的核心目標已經(jīng)完成,但許多癌癥被證實比人們所預(yù)期的要更為復(fù)雜??瓷先ハ嗨频陌┌Y會包含相當(dāng)不同的遺傳突變組合,沒有什么癌癥與另一個癌癥是完全一樣的。
正如生物醫(yī)學(xué)研究中經(jīng)常出現(xiàn)的情況那樣,問題的答案比最初設(shè)想的要復(fù)雜得多。不過,能夠認識到問題的復(fù)雜性,這本身就是能力的提升,而善用這一認知在尋求更好的治療方法的過程中將必不可少。
《自然》雜志2020年2月5日發(fā)布的6篇研究論文中,全基因組泛癌分析聯(lián)盟為讀者呈現(xiàn)了迄今為止最全面和最宏偉的癌癥基因組元分析成果。與過去主要集中精力投入癌癥基因組蛋白質(zhì)編碼區(qū)的研究不同,PCAWG聯(lián)盟這次對癌癥的全基因組進行了分析。每一篇論文都仔細研究了癌癥遺傳學(xué)的一個重要方向,而合在一起,這些成果將會成為全面理解癌癥遺傳學(xué)復(fù)雜性的關(guān)鍵。
首篇研究論文對PCAWG數(shù)據(jù)集的廣度與深度進行了概述。該文稱,平均每個癌癥基因組含有4~5個驅(qū)動突變,這讓癌癥細胞具有選擇性優(yōu)勢。研究中僅有5%的腫瘤樣本中未檢測出驅(qū)動突變。與之相對的,許多癌癥樣本呈現(xiàn)出基因組災(zāi)難性事件的標記,其中包括染色體重排(占腫瘤樣本17.8%)及染色體碎裂(22.3%),這些都會導(dǎo)致嚴重的基因組結(jié)構(gòu)性改變。
另外五篇論文則分別從不同方面對數(shù)據(jù)集進行了更加詳細的探討。比如在第二篇論文中,萊因巴伊(Esther Reinbay)等人就試圖在非編碼DNA中鑒定出驅(qū)動突變,這一目標可謂是雄心勃勃,畢竟要在非編碼區(qū)中準確地檢測出突變基因以及評估其重復(fù)率都要比在編碼區(qū)內(nèi)困難得多,而作者則采用了細致的模型來對非編碼區(qū)驅(qū)動突變進行排除和系統(tǒng)性鑒定。
他們的研究結(jié)果對之前報道的非編碼區(qū)驅(qū)動突變——例如名為NEAT1和MALAT1的長鏈非編碼RNA——提出了質(zhì)疑,同時他們也發(fā)現(xiàn)了一些新的驅(qū)動突變。例如,該文報道了他們一個在關(guān)鍵腫瘤抑制基因TP53的非編碼區(qū)發(fā)現(xiàn)的頻發(fā)突變,以及在端粒酶基因TERT的非編碼區(qū)發(fā)現(xiàn)的一種相對高頻的基因突變,后一種突變會導(dǎo)致端粒酶過表達(端粒酶過表達會讓腫瘤細胞不受控制地分裂增殖),這一結(jié)果與之前在轉(zhuǎn)移性腫瘤上進行的泛癌研究中發(fā)現(xiàn)的端粒酶高發(fā)突變(12%)的結(jié)果相對應(yīng)。盡管這一研究不能將其他非編碼區(qū)驅(qū)動基因的存在排除在外,它依然決定性地顯示出這類突變并不正常。
在第三篇和第四篇論文中,亞歷山德羅夫(Ludmil B. Alexandrov)等人及李(Yilong Li)等人則聚焦在名為突變標簽的基因組變異上。不同的遺傳誘變過程——例如DNA修復(fù)系統(tǒng)缺陷或者是暴露于環(huán)境誘變劑——會產(chǎn)生具有典型特征的DNA變異,如果我們想要提煉已知標簽和發(fā)現(xiàn)新標簽,那么海量的基因組數(shù)據(jù)集是必不可少的。這一次,亞歷山德羅夫等人及李等人鑒定出了97個突變標簽,這一研究成果令人印象深刻。這一在過去工作的基礎(chǔ)上進行的拓展研究不僅涵蓋了傳統(tǒng)的單核苷酸標簽,還涵蓋了涉及多核苷酸突變以及DNA短片段插入與刪除的突變標簽。
值得注意的是,李及其同事是第一批發(fā)現(xiàn)了基因組結(jié)構(gòu)變異(SVs,即基因組大范圍的結(jié)構(gòu)重組)等可復(fù)制突變標簽的研究團隊之一。由于基因組結(jié)構(gòu)變異的多樣性與復(fù)雜性,該項工作比鑒定突變標簽要更為錯綜復(fù)雜。
通過一系列突變分組操作,研究人員鑒定出了16種基因組結(jié)構(gòu)變異標簽,并由此獲得新發(fā)現(xiàn),例如他們推測出在基因片段缺失和倒位突變(即DNA片段方發(fā)生向翻轉(zhuǎn))這兩種基因組結(jié)構(gòu)變異之間可能存在聯(lián)動機制。他們還對這16種變異標簽在癌癥中所起作用有了進一步了解,在一些特定的DNA修復(fù)基因里發(fā)生的突變顯示出與典型的癌癥突變標簽存在關(guān)聯(lián)。例如,研究人員發(fā)現(xiàn)在CDK12基因上的突變與DNA串聯(lián)復(fù)制有關(guān),而DNA修復(fù)酶MBD4的截短異構(gòu)體與另一種含有CpG島(一種DNA序列)的突變標簽會同時出現(xiàn)。放在一起,這些新發(fā)現(xiàn)的突變標簽為理解癌癥發(fā)展的機制以及誘變劑暴露在突變過程中所起作用奠定了基礎(chǔ)。
“癌癥發(fā)展是一種進化的過程”這一概念最開始是在1976年被提出來的。自那兒開始,癌癥演化就一直都以隨機突變與自然選擇作為其標志性特征。獲得了高適應(yīng)性突變的癌癥細胞會迅速擴散,并將成為細胞群中占主導(dǎo)地位的細胞克隆。這一現(xiàn)象被稱為克隆清除,常發(fā)生于癌癥細胞生長時反復(fù)進行的細胞周期。癌癥演化最有效的研究方法是對腫瘤多個區(qū)域隨著時間推移進行多次測序,不過這一過程也可以通過單次活檢來進行重構(gòu),而這正是格爾斯頓(Moritz Gerstung)等人在第五篇論文中采用的方法。
該文作者引入了“分子時間”這一概念來區(qū)分克隆突變(指或早或晚都會在所有腫瘤細胞中出現(xiàn)的突變)與亞克隆突變(指僅出現(xiàn)在癌癥細胞的一種子細胞集里的突變)。他們對克隆突變進行了分類,分類的依據(jù)在于突變出現(xiàn)的時間是在細胞克隆經(jīng)歷拷貝數(shù)增益(一種基因或染色體區(qū)域拷貝數(shù)量增加的現(xiàn)象)之前還是之后,并推斷出亞克隆突變會在癌癥演化的晚期出現(xiàn)。研究人員整合了來自多種腫瘤的演化數(shù)據(jù),并由此鑒定出了諸如APC-KRASTP53突變進程等常見的突變軌跡,APCKRAS-TP53突變進程描述的正是在直腸癌中突變出現(xiàn)的典型順序。
格爾斯頓等人還發(fā)現(xiàn),在一個已知癌癥中最常出現(xiàn)的驅(qū)動突變往往也出現(xiàn)得最早。類似的,如果拷貝數(shù)增益在特定某類癌癥中高頻發(fā)生,那么其發(fā)生的時間也往往是在早期。舉例來說,5號染色體的局部拷貝數(shù)增益常見于透明細胞型腎癌,并且常出現(xiàn)于這一癌癥演化早期。反過來說,全基因組復(fù)制在這一癌癥中出現(xiàn)得相對較晚。最終,研究人員發(fā)現(xiàn)隨著時間推移,突變標簽在40%的腫瘤中發(fā)生了改變,這些改變反映出了環(huán)境暴露在疾病進程中重要性的下降以及DNA修復(fù)缺陷發(fā)生頻率及其嚴重性的上升??偟膩砜?,這些發(fā)現(xiàn)意味著驅(qū)動突變可能發(fā)生在癌癥確診的數(shù)年之前,并會對癌癥的早期篩查和生物標記物發(fā)展產(chǎn)生影響。
在最后一篇論文中,PCAWG轉(zhuǎn)錄組核心研究組及其合作者利用1 188份與轉(zhuǎn)錄組數(shù)據(jù)匹配的PCAWG樣本,將DNA改變和RNA改變功能性地聯(lián)系在了一起。研究組發(fā)現(xiàn)了600多個單核苷酸DNA突變與相鄰基因表達之間存在關(guān)聯(lián)。不過,拷貝數(shù)變化更大的突變才是癌癥細胞基因表達發(fā)生改變的主要驅(qū)動力。突變還與RNA轉(zhuǎn)錄物結(jié)構(gòu)的變化相關(guān),例如在一個非編碼區(qū)(內(nèi)含子)里形成了一個新的蛋白編碼區(qū)(外顯子)。
作者還鑒定出了橋式融合(即兩個基因由于第三個DNA片段介入而發(fā)生融合的現(xiàn)象)的發(fā)生頻率。盡管在被分析的1 188份樣品中有87份不含有DNA水平上的驅(qū)動突變,最終的研究結(jié)果顯示每一份樣品中都含有RNA水平上的改變。這些研究成果展現(xiàn)出了RNA測序分析與DNA測序分析的整合運用在癌癥研究中所具備的強大功能。
這六篇研究論文連同發(fā)表在其他地方的配套論文可謂是癌癥與云計算基因組學(xué)研究的里程碑。通過聚焦于推導(dǎo)論證,PCAWG聯(lián)盟成功地對十年來主要基于現(xiàn)象觀察的癌癥測序分析進行了詳細闡釋。值得注意的是,盡管推導(dǎo)論證分析對癌癥的研究比描述性研究開展得更深入,其研究結(jié)果所具備的不確定性也更高。
幾乎可以肯定的是,PCAWG數(shù)據(jù)集的廣泛可用性及其高質(zhì)量將會掀起生物學(xué)研究與方法學(xué)發(fā)展的浪潮,而把它與其他功能性基因組數(shù)據(jù)集整合使用(比如用于基因組三維結(jié)構(gòu)探測)更是將毫無疑問地深化人們對遺傳變異前因后果的理解。
目前研究的最大瓶頸在于缺乏與患者病情后續(xù)發(fā)展及治療手段相關(guān)的臨床數(shù)據(jù),這些數(shù)據(jù)可以讓研究人員鑒別出能夠預(yù)測臨床結(jié)果的遺傳學(xué)改變。幸運的是,名為“國際癌癥基因組聯(lián)盟-加速基因組腫瘤學(xué)研究”(ICGC-ARGO)的項目目前正在進行中,這將會為超過10萬癌癥患者創(chuàng)造一個類似的資源庫。
PCAWG聯(lián)盟讓成千上萬的科學(xué)家們聯(lián)手,為實現(xiàn)共同目標一起努力,這帶來的長期影響將不止于現(xiàn)在所發(fā)表的這些研究論文,經(jīng)過這一項目,這個全球聯(lián)盟的成員之間所建立的合作關(guān)系以及所進行的知識交換也將會產(chǎn)生深遠的影響。