把人類基因組的初稿想象成一本書。這本書在世紀(jì)之交才剛剛發(fā)表,卻為變革性治療鋪平了道路?;蚓庉嫼突虔煼ìF(xiàn)在可以用來對(duì)抗以前無法治愈的疾病。比較我們與進(jìn)化過程中最親近表親中的A、T、C、G基因字母,可以揭開我們進(jìn)化和智力的根源。
但是“我們”指的是什么,或者是誰?
由于技術(shù)限制,目前的參考基因組是由少數(shù)人(主要是歐洲人和非洲人后裔)的測序DNA片段組裝而成的。盡管這本“人類之書”在尋找遺傳疾病方面是無價(jià)的,但它很難概括全球人類的遺傳多樣性。
發(fā)表在《自然》(Nature)上的一項(xiàng)新研究邁出了擴(kuò)大研究范圍的第一步。在大約十年的時(shí)間里,這項(xiàng)研究捕獲了來自亞洲、非洲、美洲和歐洲的47個(gè)人的基因組。這項(xiàng)艱巨的工作總共對(duì)94個(gè)基因組進(jìn)行了測序,每個(gè)人對(duì)應(yīng)一組染色體。
這一研究的結(jié)果形成了人類“泛基因組”的初稿——來自單個(gè)個(gè)體的基因數(shù)據(jù)的集合匯編成了一個(gè)參考系統(tǒng)。這一新的數(shù)據(jù)結(jié)構(gòu)更像是一間圖書館,而不是一本書,捕捉了世界各地人類豐富的遺傳歷史。
“這就像從黑白電視到1080p電視?!奔又荽髮W(xué)圣迭戈分校的基盧 · 福克斯(Keolu Fox)博士說。他本人沒有參與這項(xiàng)研究。
這項(xiàng)研究是人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium,HPRC)的一部分。這是一個(gè)雄心勃勃的國際項(xiàng)目,于2019年啟動(dòng),旨在將人類這個(gè)物種的多樣性納入一個(gè)全面的參考系統(tǒng)。創(chuàng)建不同的參考系統(tǒng)并不僅僅是出于學(xué)術(shù)追求,而是為了幫助科學(xué)家在不分祖先的情況下深入研究疾病的遺傳聯(lián)系。
墨西哥國立自治大學(xué)的邁沙阿爾 · 蘇海爾(Mashaal Sohail)博士沒有參與這項(xiàng)研究,他說:“這是一個(gè)非凡的進(jìn)步……它使人類基因變異的圖景更準(zhǔn)確、更完整?!?/p>
人類基因藍(lán)圖的探索
人類基因組的初稿是一個(gè)來之不易的成就,但由于遺漏了8%的細(xì)節(jié),它存在偏差。
在基因研究中,科學(xué)家經(jīng)常將患者的基因組同參考基因組作對(duì)比,以尋找致病的DNA變異。但是,與使用字典檢查拼寫錯(cuò)誤類似,如果字典不完整,或者只包含一個(gè)單詞的拼寫版本(例如,“幽默”這個(gè)單詞的美國拼法為“humor”,而英國拼法為“humour”),這個(gè)過程就會(huì)受到影響。
如果沒有完整多樣的DNA圖譜,尤其當(dāng)涉及多個(gè)基因時(shí),或者當(dāng)答案隱藏在特定人群特有的復(fù)雜DNA結(jié)構(gòu)中時(shí),就很難破譯與罕見疾病相關(guān)的基因。
然后是診斷和治療的問題。例如,癌癥預(yù)測因子可能對(duì)亞洲和非洲血統(tǒng)的人不起作用,因?yàn)殚_發(fā)時(shí)主要參考使用了歐洲基因組。
科學(xué)家很清楚這些問題,幾十年來一直在給初稿添加內(nèi)容。此前最新的GRCh38版本于2017年發(fā)布。雖然包含了20個(gè)人的DNA,但該數(shù)據(jù)庫實(shí)際上主要來自一個(gè)志愿者(貢獻(xiàn)超過70%)。去年,另一個(gè)研究小組發(fā)布了一張幾乎捕捉到人類基因組全貌的地圖——但只來自一個(gè)人。
作者說,盡管這是一個(gè)“重大成就,但來自個(gè)體的基因組并不能代表我們這個(gè)物種的遺傳多樣性”。
基因地鐵地圖
這項(xiàng)新研究是擴(kuò)大研究范圍的第一步。研究小組收集了除南極洲外各大洲共47個(gè)個(gè)體及其父母的DNA序列。因?yàn)槊總€(gè)人都有兩組染色體,他們總共對(duì)94個(gè)基因組進(jìn)行了測序。
由于技術(shù)上的限制,科學(xué)家長期以來一直在用一種生物學(xué)上復(fù)制編輯的方法來更新GRCh3的參考基因組:修復(fù)小錯(cuò)誤,填補(bǔ)空白,或者增加新的變體。大部分新數(shù)據(jù)并非來自參考基因組的個(gè)體,而是來自其他人的短DNA序列。由于這些序列的長度很短,很難將數(shù)據(jù)正確地放入?yún)⒖蓟蚪M中。
該團(tuán)隊(duì)寫道,由于這些問題,在傳統(tǒng)的全基因組測序研究中,我們可能錯(cuò)過了70% 以上的結(jié)構(gòu)變異。
然而,由于過去十年中創(chuàng)新基因工具的爆炸式增長,現(xiàn)在有可能從個(gè)體中獲取更長的DNA。這就好比同樣一塊拼圖原來分成1 000塊,現(xiàn)在分成了100塊,更長的讀數(shù)使得將這些碎片準(zhǔn)確地組裝成一個(gè)完整的基因組序列變得容易得多??偟膩碚f,這項(xiàng)新研究為GRCh38現(xiàn)有的32億個(gè)堿基對(duì)(DNA的基本單位)增加了1.19億個(gè)堿基對(duì)。
下一步是將龐大的數(shù)據(jù)集整理成可破譯的地圖集。
在這里,該團(tuán)隊(duì)使用了一種聰明的圖示方法,類似具有多個(gè)分支的地鐵地圖。共享的基因序列匯聚成一條線。在特定的“停止點(diǎn)”(各個(gè)基因序列有所不同),它們分叉成不同的線。其中一些可能最終重新匯聚成另一條共享序列的聯(lián)合線??偟膩碚f,這張圖讓我們相對(duì)容易地梳理出多個(gè)人共有的DNA區(qū)域,并捕獲每個(gè)人獨(dú)有的DNA區(qū)域。
最終的結(jié)果是人類泛基因組的初步草圖。
多樣性中的發(fā)現(xiàn)
在概念驗(yàn)證中,泛基因組通過兩項(xiàng)研究證明了它的價(jià)值。這些研究集中在以前難以探索的遺傳區(qū)域。這些遺傳物質(zhì)塊被稱為重復(fù)DNA區(qū)域,就像拼圖中令人沮喪的相似區(qū)域,很難精確地將它們放入更大的基因組集合中。
然而,這些區(qū)域也可能掌握著生殖細(xì)胞工程和人類物種進(jìn)化的關(guān)鍵。它們?cè)趲椭l(fā)育健康精子和卵子的過程中起著至關(guān)重要的作用,但以前很難對(duì)它們進(jìn)行研究。一項(xiàng)研究利用泛基因組發(fā)現(xiàn),這些基因片段在個(gè)體之間的復(fù)制和排列順序方面存在巨大差異。
“看到片段復(fù)制的準(zhǔn)確特征是令人興奮的,因?yàn)橹貜?fù)的序列可以促進(jìn)基因新功能的進(jìn)化?!睈蹱柼m國立高威大學(xué)的布雷恩 · 麥克斯泰(Brain McStay)博士和冰島雷克雅未克解碼基因公司的哈康 · 瓊森(Hákon Jónsson)這樣說。他們沒有參與這項(xiàng)研究。
泛基因組還可能揭示GRCh38參考系統(tǒng)中沒法反映的基因組“暗物質(zhì)”。通過捕捉更加多樣化的基因景觀,我們或許能夠發(fā)現(xiàn)導(dǎo)致疾病的罕見但重要的突變。
這些研究只是嘗試性研究。泛基因組對(duì)科學(xué)家而言就是一種資源,可供他們?cè)谧约旱难芯恐惺褂谩?/p>
這份“地圖”還只是初稿。該團(tuán)隊(duì)已經(jīng)在尋求擴(kuò)大數(shù)據(jù)庫,目標(biāo)是到明年達(dá)到350人。該聯(lián)盟還積極將其合作拓展到代表性不足的其他地區(qū),例如納入中東部分地區(qū)的人,以及屬于邊緣群體的人。
西奈山伊坎醫(yī)學(xué)院的研究作者艾米爾 · 肯尼(Eimear Kenny)博士表示,隨著項(xiàng)目的推進(jìn),透明度、隱私和道德是關(guān)鍵。
她說:“我們認(rèn)識(shí)到,這項(xiàng)工作處于基因組研究的前沿,具有特定的特點(diǎn),包括數(shù)據(jù)的開放獲取,(這些細(xì)節(jié))值得仔細(xì)考慮,這些應(yīng)用可能會(huì)引發(fā)道德、法律和社會(huì)問題?!?/p>
資料來源 Singularity Hub
本文作者范雪萊(Shelly Fan)是一名神經(jīng)科學(xué)家出身的科學(xué)作家。她的第一本書是2019年出版的《人工智能會(huì)取代我們嗎?》(Will AI Replace Us?)