編譯 張力 張蔚
在遺傳學研究史的大部分時間里,那些聲名顯赫的遺傳學專家均持有相同的觀點:你,你的母親,你的曾叔祖,亞伯拉罕·林肯,甚至成吉思汗蒙古大軍的每一個士兵皆攜有大量的“垃圾DNA”。2003年,人類基因組計劃落下帷幕,人類在歷經(jīng)13年的不斷努力后獲得自身的完整基因組草圖,卻又在其中發(fā)現(xiàn),約98.8%的基因組是“垃圾DNA”,剩下1.2%才是人類生存繁衍需要的蛋白質(zhì)編碼序列。從組成序列的堿基來說,每個人類個體中有大約64億個亞單位——稱為核苷酸——一些在我們的每個細胞中組成了DNA,更多的好像束之高閣的箱子,看似毫無作為,卻占據(jù)了大量空間。
圖1 人類基因組項目持續(xù)13年,目標是獲取人類基因組中的全部遺傳序列。該項目的一個特別有意思的發(fā)現(xiàn)是蛋白質(zhì)編碼基因(約22 300個)僅占人類基因組的1.2%,剩下的98.8%全是非編碼的無功能“垃圾DNA”??缥锓N的“垃圾DNA”分析正在揭示它們在產(chǎn)生基因過程中所扮演的角色
研究人員普遍認為這一類人類遺傳序列是隨機產(chǎn)生的無功能序列。事實上,我們也并不孤單。某種程度上,每一個起源于27億年前的單細胞共同祖先的真核生物都是“垃圾收藏家”。以哺乳動物為例,“垃圾”序列約占基因組的85%到99%。遺傳和演化生物學家大野乾在復制基因演化領域的研究享有盛譽,他曾經(jīng)寫到,隨機的非編碼序列沒有可能自發(fā)地演化出有功能的蛋白質(zhì)編碼序列。但是,這種經(jīng)典的闡釋留給后人一個巨大的謎團:“垃圾DNA”存在的意義是什么?
對于多數(shù)遺傳學家而言,以上問題的答案是這些DNA沒有任何功能。在中心法則的理論體系中,遺傳信息的傳遞似乎并不太多涉及我們的基因間區(qū)的序列。根據(jù)傳統(tǒng)的觀點,一個基因包含了由4種堿基組成的序列——腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)和胸腺嘧啶(T)。每三個連續(xù)的核苷酸組成一個密碼子,每個密碼子對應著蛋白終產(chǎn)物中的一個特定的氨基酸或蛋白的構(gòu)成單元。在活躍的基因里,有害的突變被選擇所淘汰,有益的突變得以保留。然而,非編碼區(qū)域并不以蛋白的形式表達,因此無法區(qū)分有害或有益突變。換句話說,自然選擇無法駕馭“垃圾DNA”的突變。
大野乾后來又相信,所有有功能的人類現(xiàn)代基因均具有一個古老的譜系,在人類演化的近親里只發(fā)現(xiàn)了這類基因經(jīng)過微調(diào)的版本。他在1972年發(fā)表文章“基因組中充斥‘垃圾’DNA”,認為非編碼序列的作用最多是用于分隔蛋白質(zhì)編碼區(qū)域。不幸的是,他逝世三年以后,人類基因組計劃才完成。我們已無法得知,他是否依然會認為人類基因組中充斥大量“垃圾DNA”,或重新審視他關(guān)于基因組“垃圾DNA”的部分觀點。
傳統(tǒng)觀點在2006年開始動搖。這一年,加州大學戴維斯分校的米婭·萊文(Mia Levine)和大衛(wèi)·比甘(David Begun)發(fā)現(xiàn)果蠅中某些基因沒有祖先序列,進而提出了從頭起源新基因的概念。蛋白質(zhì)是一類結(jié)構(gòu)復雜精巧的事物,因此不太可能由隨機組成的核苷酸序列通過積累足夠的有益突變而演化出具有完整的、折疊正確的、有功能的并且全新的蛋白質(zhì)編碼序列(圖2)。我們的研究立足于從頭起源新基因,發(fā)現(xiàn)全新蛋白質(zhì)是不斷產(chǎn)生的。例如,我們通過演化分析發(fā)現(xiàn)粳稻(一種主要的亞洲栽培稻)中至少發(fā)生了175次從頭起源新基因的事件。并且,這才僅僅是一個物種的數(shù)據(jù)。
圖2 DNA序列的突變。我們的遺傳信息以DNA序列的形式存儲在染色體中。DNA序列以雙鏈形式存在,由4種核苷酸組成,包括腺嘌呤、胞嘧啶、鳥嘌呤和胸腺嘧啶;圖中展示了自然存在或稱為野生型的DNA序列。三個連續(xù)的核苷酸組成了一個密碼子,編碼氨基酸或者終止子。核苷酸突變可能導致密碼子也就是氨基酸改變(錯義突變),但不是所有核苷酸突變都會導致氨基酸變化(同義突變)。更為極端的情況下,核苷酸會丟失或者新增,造成移碼突變,此時蛋白質(zhì)翻譯的閱讀框會發(fā)生改變
是束之高閣的箱子,還是有待解鎖的藏寶箱?這是一個從遍地沙礫中發(fā)掘豐富寶藏的故事。我們在一項大規(guī)模的國際科研合作項目中取得了革命性進展,即在全球最為廣泛分布的作物之一——水稻中發(fā)現(xiàn)了許多從頭起源新基因。短短幾個百萬年內(nèi),新基因在雜亂無章的非編碼序列中產(chǎn)生,如同隨機字母湊到一起產(chǎn)生了新的單詞(圖3)。就像我們所發(fā)現(xiàn)的,一部分從頭起源新基因是栽培稻獨有的,而在它的野生祖先中則完全沒有。這些研究中發(fā)現(xiàn)的基因,不太可能是野生稻多次獨立基因丟失事件的結(jié)果,更有可能在栽培稻起源過程中發(fā)揮了重要作用,并因此養(yǎng)活了全球相當大一部分人口。
圖3 一個演化樹展示了從頭起源新基因的產(chǎn)生。隨機產(chǎn)生的突變在基因組中到處累積,也包括那些不編碼蛋白質(zhì)的區(qū)域。雖然通常這類突變并不會對非編碼區(qū)域造成影響,但有時它們會催生一些具有蛋白編碼能力的從頭起源的新基因。對于相關(guān)物種間的非編碼遺傳序列進行演化分析,可發(fā)現(xiàn)新基因隨著時間推移而出現(xiàn)
在沒有明顯祖先起源的情況下,這些基因出現(xiàn)的唯一可能是從無到有地從頭起源。人類基因組跟水稻基因組一樣,是一個充滿了“垃圾DNA”和潛力的巨大倉庫。我們即將見證,挖掘這些“垃圾DNA”將成為解鎖生命起源的一把鑰匙,也將是揭示塑造物種形成的驅(qū)動力的關(guān)鍵。
截至2017年春末,華中農(nóng)業(yè)大學的歐陽亦聃和她的博士研究生們從水稻中收集了超過6萬份花粉及其他組織的樣本,用于研究從頭起源新基因的表達分布。歐陽期望通過分析這些樣品來確認這些從頭起源的新基因是在哪些水稻組織中發(fā)揮作用的,然而遺憾的是,她發(fā)現(xiàn)這些基因的表達很難被檢測到。
經(jīng)過數(shù)月的努力和嘗試,這個項目仍然進展緩慢。歐陽亦聃和她的研究團隊花了半年的時間等待在中國海南熱帶島嶼栽培的水稻充分地生長成熟。在確保了不同水稻品系的成功生長,并安然度過了臺風季以后,他們真正的工作終于開始了。整個團隊每天需要在清晨5點到6點間去實驗田里收集細小的雄蕊,即花中包含花粉的部分。如果采樣開始的時間晚了,很可能就會受到臺風季節(jié)壞天氣的影響。在日照最強烈的晌午,氣溫通??蛇_到40攝氏度,雄花隨時會在高溫下枯萎。整個收集工作一直持續(xù),直到他們對每個水稻物種都收集到6萬個雄蕊,大約相當于1克花粉,才能滿足檢測從頭起源新基因翻譯產(chǎn)生的蛋白質(zhì)的最低要求。然而,要開展這項檢測卻要另覓他處,檢測設備位于中國南部城市深圳。深圳華大基因組測序公司的兩位蛋白質(zhì)組學專家任艷和劉斯奇早已等候這批樣品多時,他們設計開發(fā)了一種叫作靶向蛋白質(zhì)組的先進技術(shù),專門用于檢測從頭起源的新基因是否翻譯產(chǎn)生了新的蛋白質(zhì)。
如何把樣本送到深圳是個挑戰(zhàn)。歐陽亦聃團隊計劃用液氮存儲樣本,通過飛機將樣本送往750公里以外的檢測中心。如果讀者有過運輸液氮罐的經(jīng)驗,甚至會懷疑通過航空運輸實現(xiàn)該計劃的可行性。
海南的字面意思是大海的南邊。這個描述在古代意味著世界的盡頭——一個甚至跨越了大海的地方,通往無際海洋的最后一站。筆者(指代“龍漫遠”)在高中時期也一度這么認為。1966年開始的“文化大革命”使整個中國動蕩不安,大學關(guān)閉,年輕人缺少就業(yè)機會。筆者1974年高中畢業(yè)后唯一的選擇是去鄉(xiāng)下當農(nóng)民,1977年機緣巧合來到海南種過水稻。這個地方在古代中國王朝是流放之地,也有一些賢臣名士被貶于此。最有名的當屬蘇東坡,宋朝的“莎士比亞”,在925年前曾被放逐海南。他們無處可逃,被無邊無際的大海包圍。在殘酷的政治氛圍和貧瘠的農(nóng)耕經(jīng)濟條件下,這個島嶼仿佛孤懸大海,即使與大陸最近的地區(qū)也顯得非?;臎觥9P者曾在烈日下工作,戶外溫度足以烤熟沙子里的雞蛋。盡管島嶼的土地肥沃,生存依然是個巨大的考驗。
筆者最終離開了海南島,幸運地遠離了如此艱苦的生活環(huán)境。而2017年6月,筆者滿懷希望,再次踏上這片土地,同樣惡劣的氣候這一次變成了團隊完成研究的希望所在。
事實如我們所料,這個島嶼的熱帶氣候和頻繁的颶風創(chuàng)造了適合水稻生長的理想環(huán)境,這也是我們的研究所必需的。水稻是演化生物學研究的理想物種,這得益于其一方面可以大批量種植,另一方面生長周期比哺乳動物要短很多。此外,我們還想要在經(jīng)歷馴化的物種中尋找從頭起源新基因??晒┦秤玫脑耘嗟臼嵌嗄耆斯みx擇的結(jié)果。早在13 000年前,人類就開始選育其優(yōu)良品系,并造就了農(nóng)耕社會。這段歷史意味著栽培稻與野生稻的實際分化時間并不算長,但是人工選擇加速了栽培稻的遺傳變異積累。同時,栽培稻的野生祖先也在自然界繁衍并歷經(jīng)數(shù)千載,在這個過程中積累了大量的遺傳變異。最后的結(jié)果是,栽培稻在馴化過程中產(chǎn)生了獨有的新基因。其中,雄蕊是我們重點研究的樣本之一,因為相對于老基因,新近產(chǎn)生的基因傾向于在雄性生殖器官富集表達。
遺傳學家張力,與筆者在芝加哥大學共同工作。他用了近兩年的時間對10個水稻近緣物種和假稻屬外類群基因組序列進行計算分析,在2014年首先觀察到水稻基因組的“垃圾”序列中衍生了大量新基因。張力所采用的高質(zhì)量的基因組和基因注釋是該分析得以開展的根本,而這完全得益于亞利桑那大學基因組科學家若德·翁(Rod Wong)領導的國際水稻基因組演化項目。在這么短的演化歷程中水稻產(chǎn)生了大量從頭起源新基因(圖4),這著實出乎意料,因為在這個時間尺度下,無論是人類,還是小鼠或者果蠅的“垃圾”序列似乎都陷入了休眠。無論如何,我們需要種植水稻,獲得足夠多的樣本和數(shù)據(jù)來進一步探索這個有趣的發(fā)現(xiàn)。
圖4 通過水稻及其近緣物種的比較基因組學分析可以追溯從頭起源新基因在稻屬中的起源事件。實驗用的水稻亞種粳稻(上)和相關(guān)物種都種植于中國海南。系統(tǒng)發(fā)生樹(下)展示了從頭起源新基因在栽培稻不同的祖先階段隨時間推移(右軸是物種分歧時間,以百萬年計)而產(chǎn)生的數(shù)目(左軸是從頭起源新基因的數(shù)目)
半生時光荏苒,筆者2018年從芝加哥再回到海南,此處已儼然旅游勝地,從飛機上眺望位于最南端的海濱城市三亞,坐落在銀光閃爍如一彎新月的岸邊,現(xiàn)代化大樓與海天相接,豪華游艇絡繹不絕。除此之外,島上的農(nóng)業(yè)依然是經(jīng)濟支柱產(chǎn)業(yè)之一。
盡管見證過數(shù)十載的發(fā)展變革,筆者依然很難將在海南的所見與曾經(jīng)經(jīng)歷過的艱苦歲月聯(lián)系起來。生命在地球上繁衍生息,無數(shù)次在不毛之地繁榮綻放。而歸根到底,時間終會帶來改變。
法國遺傳學家弗朗索瓦·雅各布(Fran?ois Jacob)與兩位同事共享諾貝爾生理學或醫(yī)學獎,他在十年后寫道:“最關(guān)鍵的生物化學創(chuàng)新發(fā)生在生命早期?!毖鸥鞑颊J為早期基因是在40億年前的“原生湯”中隨機產(chǎn)生的。我們無法精確重復當時的環(huán)境條件,當然也不想要重復歷史過程。當時的地球剛剛形成適合生命繁衍的環(huán)境,海洋尚且年輕,當時的大氣也與現(xiàn)今截然不同,雷電的作用使原始大氣中的氣體發(fā)生融合。
當時環(huán)境中的無機化合物形成了最初的有機物質(zhì),當然現(xiàn)在的環(huán)境已無此效用。因而,早期基因的產(chǎn)生方式也可能跟現(xiàn)在不一樣。雅各布認為,“演化不會從無到有創(chuàng)造新的功能”。事實上,時至今日,依然很難證明一個基因的確是從“垃圾”序列中從頭起源的。從頭起源新基因常常與孤兒基因混淆,而兩者并非同義詞。孤兒基因在外類群中找不到同源基因。但這并不能說明孤兒基因是從“垃圾”序列中產(chǎn)生的。準確地說,同源基因丟失或者同源基因序列分化導致序列相似性丟失,都可能產(chǎn)生孤兒基因。
科學家在25年前就已經(jīng)知道孤兒基因可通過不同途徑產(chǎn)生。許多情況下,即使遺傳學家堅信從頭起源新基因值得投入精力研究,現(xiàn)實中卻很難區(qū)分真正從頭起源新基因和孤兒基因。因為相對來說更容易證明一個基因不是從頭起源新基因,那么隨著時間推移會顯得從頭起源新基因不可信。例如,英國學者居魯士·肖塞亞(Cyrus Homi Chothia)及其他許多科學家堅信所有蛋白質(zhì)均由一套蛋白結(jié)構(gòu)域或形成蛋白的分段組成,來自大約1 500個蛋白家族,也就意味著它們由一定數(shù)量的基因家族編碼,從頭起源新基因幾乎不存在。
真正動搖了這種觀點,并推動人類試圖解碼一個物種的整個基因組的大事件還要從20世紀90年代說起。獲得第一個人類基因組花費了整整13年,自此之后,基因組測序和序列建庫技術(shù)的發(fā)展日新月異。今天的科研人員只需要連上網(wǎng)絡就可以獲取生命之樹各個支系上海量物種的完整遺傳密碼。這樣的數(shù)據(jù)資源使得研究人員有史以來第一次得以比較近緣物種基因組的同源序列,特別是基因組中的非編碼序列。
得益于這類分析,即使是在遺傳學家了若指掌的方向上也產(chǎn)生了許多重要發(fā)現(xiàn)。例如,比較基因組學研究表明在啤酒酵母基因組中50%的基因在其他酵母物種中找不到同源基因。研究表明多種機制可能造就孤兒基因,它們可能是基因水平轉(zhuǎn)移的結(jié)果,源自快速演化的細菌或者病毒供體;也可能是從頭起源的結(jié)果。此外,也有零星的例子表明從頭起源新基因在多細胞生物中被找到。
一個特別有趣的例子是北極鱈魚中的抗凍蛋白,這種蛋白可以阻止鱈魚血液在寒冷的海水中凍結(jié)。這個蛋白與南極冰魚的抗凍蛋白高度相似。南極冰魚的抗凍蛋白起源自親本基因,但是北極鱈魚的抗凍蛋白起源似乎不一樣。伊利諾伊大學香檳分校的華裔美國科學家陳慈馨團隊花了22年確定這個蛋白是從頭起源新基因。兩個非常相似的抗凍蛋白在南極和北極分別獨立起源,這再一次讓我們見證了自然選擇的強大力量。
21世紀10年代又有一些關(guān)于從頭起源新基因的零星發(fā)現(xiàn)。盡管這些發(fā)現(xiàn)非常激動人心,但是這些證據(jù)并不足以證明從頭起源新基因是意義重大的機制,從而使人相信基因組中看似無用的“垃圾DNA”實則有用。我們需要更為有力的證據(jù),而這恰恰始于我們?nèi)粘2妥揽梢姷钠胀ㄊ澄铩?/p>
一條染色體中的一段序列要被稱為基因,必須滿足一些前提條件。這些前提條件取決于具體的科學問題,也可能因人而異。如果讀者感興趣的是研究基因的起源,答案即為能生成可供翻譯為蛋白質(zhì)的信使RNA。
需要強調(diào)的是,這種非黑即白的基因定義方式略流于簡單了。從基因演化研究的角度而言,這種常見的嚴格定義方式更有幫助,因為我們希望對從頭起源新基因的估計偏向保守而更為可靠?,F(xiàn)實世界中,遺傳學研究的標準很少如此苛刻。在有功能的基因和無功能的“垃圾”之間,還存在大量假基因,它們具備部分的開放閱讀框,但實際并不編碼蛋白質(zhì)。盡管這些基因有時被認為已經(jīng)“死亡”,實際上它們還可能具備某些功能。一些假基因可能編碼不同類型的有功能的RNA,然而這些RNA并不會被翻譯產(chǎn)生蛋白質(zhì)。
因此,我們聚焦在栽培稻及其近緣物種的真正的蛋白質(zhì)編碼基因。早期的工作主要是產(chǎn)生粳稻及其他9種稻屬物種和1種假稻屬物種的全基因組序列。技術(shù)流程相當復雜,耗時費力,這也是此類研究至今很少的原因之一?,F(xiàn)今的技術(shù)發(fā)展使得我們有機會研究低表達基因,即只有非常少量的蛋白質(zhì)產(chǎn)物。這一點對我們的研究非常關(guān)鍵,因為新基因往往是低表達的。如前所述,栽培稻是人類在短期內(nèi)馴化產(chǎn)生的新物種,極有可能相當數(shù)量的新基因在其馴化過程中產(chǎn)生。高質(zhì)量的基因組序列和基因注釋讓我們能夠有效地鑒定出新基因。
圖5 從頭起源新基因的表達量通常較低并且局限在少數(shù)組織,即它們的功能很可能在演化過程中進行微調(diào)。文氏圖展示了從頭起源新基因的蛋白產(chǎn)物在植物不同組織的分布。許多從頭起源新基因在花粉囊特異性高表達,而花粉囊中含有花藥,代表了開花植物的雄性生殖器官
2012年,我們開始研究水稻基因組的從頭起源新基因,我們知道這對整個領域意義重大。粳稻是全球最重要的主糧之一。未來可能的氣候變化和糧食短缺凸顯了水稻演化研究的重要價值。但是,我們并不知道關(guān)于水稻基因演化的最終發(fā)現(xiàn)會大大超出預期。
隨著我們鑒定到175個從頭起源新基因,一些清晰的脈絡逐漸浮現(xiàn)。例如,多數(shù)粳稻的從頭起源新基因編碼框相對于老基因都比較短而簡單。這些新基因似乎還不能被細胞的轉(zhuǎn)錄和翻譯機制很好地“閱讀”。因此,這些從頭起源新基因表達量往往很低,并且只在很少的組織中表達。
圖6 與老基因相比(起源時間早于1 500萬年前),從頭起源新基因(起源時間最早不超過300萬年)長度較短(左),編碼的蛋白質(zhì)也較短(中)。這些基因的表達量較低,其中僅有少數(shù)在每單位的全部轉(zhuǎn)錄本中轉(zhuǎn)錄出10條信使RNA(右)??偠灾@些因素定義了從頭起源新基因的一個逐步的構(gòu)架演化過程,在此過程中擴增編碼長度、復雜度、表達量
盡管我們的發(fā)現(xiàn)很有意思,但是這些發(fā)現(xiàn)還停留在描述性觀察,需要對這些基因的功能了解更多。此外,不僅是從頭起源新基因,大量孤兒基因也被鑒定到。為了展示從頭起源新基因的起源細節(jié),我們需要回溯這些基因在水稻中從頭起源過程的完整細節(jié),包括開放閱讀框何時從非編碼序列起源,在演化進程的哪個節(jié)點開始被轉(zhuǎn)錄,何時首次被表達出蛋白質(zhì)產(chǎn)物。
這些信息對于理解類似“先有雞還是先有蛋”的問題是必要的,而此類問題也常被拿來質(zhì)疑從頭起源演化的真實性和重要性。我們可以將從頭起源新基因的問題歸結(jié)為:是否先產(chǎn)生完整的開放閱讀框再獲得轉(zhuǎn)錄能力,或者先產(chǎn)生沒有功能的轉(zhuǎn)錄本,再逐步演化出編碼能力?基于以上假設,我們需要考慮兩個可能的模型,“先編碼后轉(zhuǎn)錄”和“先轉(zhuǎn)錄后編碼”。前者意味著沒有自然選擇的情況下隨機產(chǎn)生完整的開放閱讀框。后者意味著在開放閱讀框完全形成之前,轉(zhuǎn)錄系統(tǒng)已經(jīng)消耗能量轉(zhuǎn)錄隨機無用序列。
我們的研究表明從頭起源新基因的起源模式非常清晰。盡管兩種模型在稻屬的演化歷史中都存在(圖7),即一些開放閱讀框在轉(zhuǎn)錄發(fā)生之前產(chǎn)生,而另一些是序列在形成開放閱讀框之前就已被轉(zhuǎn)錄。但是絕大多數(shù)情況下“先轉(zhuǎn)錄后編碼”的模型才是主流。
圖7 從頭起源新基因從祖先非編碼序列中起源遵循三種路徑。第一條路徑,非編碼序列中的突變創(chuàng)造了完整開放閱讀框,然后開放閱讀框獲得轉(zhuǎn)錄和翻譯能力。有趣的是,絕大多數(shù)基因遵循第二條路徑,非編碼序列首先獲得轉(zhuǎn)錄能力再演化出完整開放閱讀框的編碼能力。只有很少的基因能夠同時獲得轉(zhuǎn)錄能力和編碼能力
某種程度上,當目標序列還沒有完整的開放閱讀框時,轉(zhuǎn)錄系統(tǒng)已經(jīng)開始消耗能量產(chǎn)生非編碼轉(zhuǎn)錄本,看起來更像是系統(tǒng)故障。更奇怪的是,非編碼轉(zhuǎn)錄本在被轉(zhuǎn)錄之后如何能形成完整開放閱讀框?為此,我們專門研究了什么類型的突變能夠在水稻中更有效地形成編碼能力?;蜓莼ㄟ^核苷酸點突變來實現(xiàn)自其親本基因的演變。在我們研究的例子里,核苷酸點突變可能通過改變單個氨基酸密碼子進而引起蛋白質(zhì)改變。盡管這一類點突變有時會帶來非常明顯的適應性變化,但仍是一種相當保守的演化途徑:每次只改變一個氨基酸,并且核酸數(shù)目不變。這種突變模式符合漸進式演化的基本規(guī)律,而不是短期內(nèi)的劇變。然而,許多水稻從頭起源新基因的演化模式并不是這樣。
為了容易理解,我們采取類比方式。當字母E從字母表中移除,那么只剩下A、 B、 C、D、 F、 G等。當我們唱含有一個缺省字母的字母歌的時候,D之前一切正常,D之后所有字母似乎都不順。盡管我們只移除了一個字母,這個字母后的一切調(diào)子似乎都亂了,如果運氣足夠好,也許能一直唱到“LMNOP”。加上一個字母也是同樣效果。
移碼突變對于蛋白質(zhì)翻譯具有類似的效果。因為從核苷酸到氨基酸的翻譯是三聯(lián)體密碼子的形式,一個核苷酸的插入或者缺失會產(chǎn)生很大的影響,有時會改變后續(xù)所有氨基酸的類型,甚至常常會提前出現(xiàn)終止密碼子,導致蛋白質(zhì)翻譯提前終止,即后續(xù)的一段蛋白自此無法產(chǎn)生。我們發(fā)現(xiàn)移碼突變的頻率在從頭起源新基因獲得開放閱讀框的過程中遠遠大于點突變。
為什么移碼突變在從頭起源新基因產(chǎn)生過程如此重要?可能跟新基因表達水平有關(guān)。新基因傾向于有較之老基因更低的表達水平。從個體水平來看,不完整的開放閱讀框、假基因、其他基因間區(qū)序列在少數(shù)組織的低表達能夠讓新近產(chǎn)生的開放閱讀框有機會演化出新功能,同時不影響多數(shù)組織的正常功能。這種演化微調(diào)過程為新基因在整個有機體中表達并發(fā)揮作用之前提供了一種小規(guī)模試錯機制。
我們滿是“垃圾DNA”的基因組其實天賦異稟。每個人每天都在創(chuàng)造,學習,進步,奉獻。我們中的一些人,例如歐陽亦聃和她的團隊成員,為了確保來之不易的樣品能夠有效工作,連續(xù)11個小時驅(qū)車坐船,從海南趕赴深圳。
我們還不知道從頭起源新基因?qū)θ祟愖陨戆l(fā)展有多大的影響。至少,我們的研究揭示了“垃圾DNA”的兩個重要屬性。第一,“垃圾DNA”中的重復元件能夠在水稻和其他物種如極地魚類中產(chǎn)生從頭起源新基因中的重復氨基酸。第二,“垃圾DNA”中發(fā)現(xiàn)的高度隨機序列是從頭起源新基因的嶄新素材。例如,從頭起源新基因的翻譯效率比高度優(yōu)化過的老基因要低很多。這意味著這些新基因正處于演化的早期,而我們成功地捕獲了這些基因演化的節(jié)點信息。盡管只有少量從頭起源新基因在人類基因組中被鑒定到,我們并不知道這些基因?qū)θ祟愌莼挠绊?。我們可以確定的是,這些基因往往是物種獨有的,并且只在少數(shù)物種發(fā)揮 功能。這些 新基 因隨 著物 種的 演化 而演化,在 自然 選擇 的作 用下 ,將 會更 加有 效地 產(chǎn)生 蛋白質(zhì),并 逐步 發(fā)揮 更為 重要 的功能。
圖8 在絕大多數(shù)從頭起源新基因的誕生過程中,一部分基因組中“垃圾DNA”持續(xù)轉(zhuǎn)錄出非編碼“垃圾RNA”。隨著時間推移,突變在這些無意義的序列中產(chǎn)生,使其在持續(xù)被轉(zhuǎn)錄的過程中獲得較短的開放閱讀框,這個新產(chǎn)生的開放閱讀框隨之被包括進了產(chǎn)生的信使RNA。當更多的突變積累,形成更加完整的開放閱讀框時,即產(chǎn)生了功能性編碼蛋白質(zhì)的信使RNA
從頭起源新基因并非無用,只是不完美。即使在獲得完整的開放閱讀框并且達到一定表達水平以后,從頭起源新基因仍然在歷經(jīng)重大的改變,其功能依然只局限于特定的組織。當然這些“幼年”基因還在不斷演化中,也許終有一天會變得極其重要。生命無外乎如此!
資料來源American Scientist