不尋常的細(xì)胞系幫助測序設(shè)備讀取過往難以辨認(rèn)的DNA片段。
人類基因組測序工作一直在完善,卻始終不完整。第一版序列誕生于20年前,破譯了大部分編碼蛋白質(zhì)的區(qū)域,卻也留下8%,也就是大約2億堿基對的空白,它由高度重復(fù)、復(fù)雜的DNA片段組成,其中包含功能基因以及位于染色體中間和末端的著絲粒和端粒。在很長一段時間內(nèi),由于測序技術(shù)所限,要填上這8%的空隙看起來是一項遙不可及的任務(wù)。
現(xiàn)在,一支國際科研團隊成功破譯剩下的難解堿基,于2022年3月底在《科學(xué)》(Science)雜志發(fā)表6篇論文,公布?xì)v史首個完整無間隙的人類基因組序列。
該團隊名為“端粒到端?!保═2T)聯(lián)盟,由來自數(shù)十個研究機構(gòu)的近百名科學(xué)家組成。他們所填上的近2億堿基對包括99個可能編碼蛋白質(zhì)的基因和其中近2 000個還需進一步研究的候選基因(還剩下1 000萬堿基待解)。此外,新序列也糾正了老版本里的數(shù)千個結(jié)構(gòu)錯誤。
歐洲分子生物學(xué)實驗室副主任、曾經(jīng)的人類基因組計劃成員、生物信息學(xué)家伊萬·伯尼(Ewan Birney)表示:“我認(rèn)為我們在10年前甚至5年前都無法想象此壯舉?!盩2T聯(lián)盟的研究人員表示,新測序的片段揭示了基因組中遺傳進化的熱點,并強調(diào)了人類基因組的混亂歷史?;蚓庉嫻綢nscripta的基因組學(xué)家迪安娜·丘奇(Deanna Church)指出:“它確實讓我們對基因組內(nèi)不可見的區(qū)域有了新的了解?!?/p>
過往難辨真顏的基因組序列現(xiàn)已清晰可見:5個染色體短臂幾乎被完全揭示,眾所周知,這些短臂含有大量編碼核糖體骨架的基因,而核糖體是細(xì)胞的蛋白質(zhì)工廠;包括端粒和著絲粒在內(nèi)的高度重復(fù)序列也被摘下面紗,著絲粒肩負(fù)著協(xié)調(diào)染色體復(fù)制分離的關(guān)鍵任務(wù)。
當(dāng)伯尼、丘奇和同事在2001年介紹初版人類基因組,甚至于2004年正式發(fā)布該序列以后,測序設(shè)備和基因組組裝軟件沒能力涉足高度重復(fù)的序列區(qū)域。隨著測序技術(shù)進步及其成本下降,科學(xué)家減少了序列的間隙和錯誤組裝,最終于2017年發(fā)布人類基因組GRCh38。由于不到1 000個間隙,它成為許多人用來比較其他人類基因組的參考序列。
但凱倫·米加(Karen Miga)和亞當(dāng)·菲利普(Adam Phillippy)希望更上一層樓。米加是加州大學(xué)圣克魯斯分校的遺傳學(xué)家,長期致力于探究衛(wèi)星DNA的準(zhǔn)確序列,這些獨特的衛(wèi)星片段能幫助形成著絲粒。與此同時,美國國家人類基因組研究所的生物信息學(xué)家菲利普專注利用新型測序技術(shù)讀取很長的DNA片段,從而減少拼合較短序列的需要。他們在一次會議上相遇,并建立合作。到2019年,菲利普報告稱,他們成功完成X染色體的端到端測序。數(shù)十位學(xué)者受此鼓舞,也加入了這項研究事業(yè)。
為簡化任務(wù),他們決定使用一種匿名化細(xì)胞系。該細(xì)胞系源于20多年前某女性子宮的異常生長——精子進入缺乏染色體的卵子,由于只有精子的遺傳物質(zhì),故“受精卵”無法發(fā)育成胚胎,卻仍能復(fù)制,尤其是在精子帶去X染色體而非Y染色體的情況下。選擇此匿名化細(xì)胞系的一個優(yōu)點是,它的23對染色體,每對里的兩條都相同。
人類基因組計劃先驅(qū)之一、西雅圖華盛頓大學(xué)遺傳學(xué)家羅伯特·沃特斯頓(Robert Waterston)表示,這對消除基因組間隙“產(chǎn)生了很大影響”,因為測序設(shè)備無需解決父母染色體差異的問題。
T2T團隊結(jié)合使用了兩種先進技術(shù),一種能一次讀取10萬堿基的納米孔測序技術(shù),另一種則精確度極高,能處理差別極小的片段。此外,他們還改進后一種技術(shù),從而進一步提高了準(zhǔn)確性。最后,除了5個終極難點,他們解決了能夠解決的所有問題。沃特斯頓表示:“你只要看到他們采用的方法,就知道他們解決的都是高難度問題?!?/p>
大約2億堿基對最終以正確的順序和位置公諸于世,包含著1 900多個基因,其中大部分是已知基因的拷貝。研究人員對重復(fù)區(qū)域和可移動元素進行了編目——來自病毒的遺傳物質(zhì)被整合至基因組中。在對每個著絲粒進行測序時,他們了解到重復(fù)區(qū)域的大小差異很大,這相當(dāng)出乎意料,因為著絲粒之于每條染色體的作用都相同。
關(guān)于染色體短臂的工作帶來了另一個驚喜。正如預(yù)期的那樣,它們包含了共計400個編碼用于制造核糖體的RNA的基因拷貝。
美國斯托瓦斯醫(yī)學(xué)研究所(SIMR)的染色體生物學(xué)家詹妮弗·格頓(Jennifer Gerton)指出,染色體短臂也充滿了可移動元素、重復(fù)片段和其他類型的重復(fù)DNA序列,以及來自基因組其他部分的許多基因拷貝。用丘奇的話說:“人類基因組的動態(tài)變化令人驚訝?!备耦D表示,這5個染色體短臂信息不明確造成了極為復(fù)雜混亂的情況,使得研究人員縱已粗略了解序列,卻終難明確堿基順序。
菲利普認(rèn)為,染色體短臂很可能是基因進化的熱點,因為那里的基因拷貝能夠自由變異,產(chǎn)生新功能。研究小組所做的重復(fù)區(qū)域編目還可揭示與特定序列拷貝數(shù)變化有關(guān)的神經(jīng)和發(fā)育障礙。復(fù)雜重復(fù)區(qū)域內(nèi)DNA的化學(xué)修飾似乎也與疾病相關(guān)(這些變化已被繪制出來)。
雖然取得里程碑式突破,但人類基因組測序工作并未就此止步。人類基因組計劃聯(lián)合負(fù)責(zé)人、美國貝勒醫(yī)學(xué)院的遺傳學(xué)家理查德·吉布斯(Richard Gibbs)強調(diào),該領(lǐng)域現(xiàn)需獲取來自更多樣化人群的完整基因組序列,以尋找可能在疾病或性狀中發(fā)揮作用的短臂及其他難以閱讀區(qū)域的變異。
T2T團隊再啟征程,并取得開門紅——他們的目標(biāo)是破譯來自不同族群的350位個體和基因序列,現(xiàn)已完成70多位基因組的測序。新項目作為人類泛基因組參考聯(lián)盟(HPRC)的一部分,可謂極具挑戰(zhàn)性,因為這些待測基因組的來源不再是前文提到的匿名化細(xì)胞系,而是互不相同的正常染色體對。
資料來源 Science
本文作者伊麗莎白·彭尼西(Elizabeth Pennisi)是《科學(xué)》雜志的特約撰稿人,主要關(guān)注基因組學(xué)、演化、微生物學(xué)和有機體生物學(xué),也涉獵生態(tài)學(xué)和行為學(xué)