呂寶忠
研究員,上海交通大學(xué)腫瘤研究所,上海 200032
宏演化的趨勢之一是生物由簡單到復(fù)雜。傳統(tǒng)上,這是古生物學(xué)、比較形態(tài)學(xué)和進(jìn)化-發(fā)育探討的主題。隨著基因組數(shù)據(jù)的不斷積累,當(dāng)今一支以基因組進(jìn)化年齡層分析為主要研究方法的新軍加入了進(jìn)來?;蚪M進(jìn)化年齡層就是在系統(tǒng)發(fā)育層面上新出現(xiàn)一組共同起源的奠基者基因。本文將介紹這支新軍及其在個(gè)體發(fā)育和腫瘤研究上發(fā)揮的作用。
生物進(jìn)化的趨勢之一是由簡單到復(fù)雜,這是由基因數(shù)目的增加也就是新基因的產(chǎn)生(顯然要減去一些老基因的滅絕或丟失)所引起的。奠基者基因(founder gene)是一類重要的新基因,它在生物進(jìn)化重大事件中扮演適應(yīng)性進(jìn)化角色,也就是這類事件的分子基礎(chǔ)。當(dāng)然,新基因并不都是奠基者基因,如在珠蛋白家族中分化的肌紅蛋白、神經(jīng)珠蛋白(neuroglobin)和細(xì)胞珠蛋白(cytoglobin)超家族中就只有一種是奠基者基因[1]。本文以下部分介紹的新基因僅限于奠基者基因。
基因數(shù)目是如何增加的呢?李文雄[2]提出了4條途徑:①基因倍增(gene duplication),這是最重要的一種;②域或外顯子的混排(shuffling);③基因共享(gene sharing)和④基因的水平轉(zhuǎn)移。筆者[3]曾提出第5條途徑:同工替代(analogus replacement)。晚近有人提出第6條途徑,認(rèn)為新基因可能從自身基因組中的非編碼DNA構(gòu)成,稱為孤獨(dú)基因(orphan gene),如在果蠅中就突現(xiàn)位于X染色體并在雄性表達(dá)的這種新基因[4];在靈長類中突現(xiàn)的而在非靈長類中缺失的270個(gè)新基因有部分也是這種基因[5]。
本文將對(duì)奠基者基因的出生即其進(jìn)化年齡以及它對(duì)進(jìn)化、發(fā)育和癌癥研究作一介紹。
地球存在至今已有45~46億年,目前將其分為前寒武(Precambrian)和顯生宙(Phanerozoic)兩大層次。生物的發(fā)生和進(jìn)化由表1所示。必須指出的是,不同生物發(fā)生和演化的進(jìn)化年齡都是近似的,而且往往是低估的,因?yàn)榘l(fā)現(xiàn)的化石殊難說是該物種的第一塊。從表1可見,最原始的原核類的發(fā)生可定為細(xì)胞起源之時(shí),約在39億年前;最早的真核類細(xì)胞發(fā)生在16億年前;多細(xì)胞有機(jī)體約發(fā)生在9億年前;而多細(xì)胞動(dòng)物如存在至今的海綿標(biāo)定在6.35億年前;其他各大分類單元的發(fā)生和演化見表1。
古生物學(xué)研究必須依據(jù)化石,但不是所有生物都能形成化石(事實(shí)上即使能形成化石的生物也需要在特定條件下才能存留下來,但即使如此也不一定能挖掘到),因此比較形態(tài)學(xué)和進(jìn)化-發(fā)育方法能補(bǔ)其缺失環(huán)節(jié)。如在種類繁多的單細(xì)胞真核生物中,某些傾向于進(jìn)化成植物,某些傾向于進(jìn)化成真菌,另一些則傾向于動(dòng)物。根據(jù) Cavalier-Smith等學(xué)者的研究[6-7],后兩者的親緣關(guān)系更近,并定名為Opisthokonda,而原生生物中較高級(jí)的襟鞭毛蟲(choanoflagellate,Monosiga)與多細(xì)胞動(dòng)物中原始類型海綿親緣關(guān)系密切,一般將其標(biāo)定為全動(dòng)物(Holozoa)這一大分類階元[8]。
由于傳統(tǒng)的研究宏演化手段有其局限性,如古生物學(xué)必須依據(jù)化石,雖經(jīng)好幾代古生物學(xué)家的艱辛工作,獲得了如表1所示的重大成果,但不能形成化石的生物,一旦滅絕的話,可以說是“死無對(duì)證”,因而某些缺失環(huán)節(jié)也許永遠(yuǎn)難以獲??;對(duì)比較形態(tài)學(xué)等方法而言,盡管可以推測不同物種的最近共同祖先(last common ancestor,LCA),但不僅不同學(xué)者之間爭議激烈,而且難以確定其分化的進(jìn)化年代。本世紀(jì)蓬勃發(fā)展的基因組學(xué)應(yīng)該說是研究宏演化的一支新軍,以下將予以介紹。
基因是遺傳信息的載體,也是進(jìn)化信息的保持者,通過比較基因組學(xué)和計(jì)算分子進(jìn)化學(xué)[9]可以確定直源基因(orthologous gene,指有同源關(guān)系的不同物種含有的核心功能相同的基因如細(xì)胞色素c等等)和并源基因(paralogous gene,指在同一物種中由基因倍增及其后分化形成的基因,如在人體中存在的血紅蛋白α和ζ鏈)這兩大類同源基因。
以直源關(guān)系為基礎(chǔ),Koonin研究組[13]把當(dāng)時(shí)已測序的7個(gè)基因組全序列分成革蘭氏陽性、革蘭氏陰性、藍(lán)細(xì)菌、古細(xì)菌和真核類5個(gè)分支,并認(rèn)為只要在3個(gè)支上均具有的保守基因即可確定它有直源關(guān)系,構(gòu)成一個(gè)有規(guī)定編號(hào)的COG(cluster of orthologous group)。迄今NCBI(National Center of Biotechnology Information,美國國家生物技術(shù)信息中心)網(wǎng)站上又公布了有更多真核類基因組的更新版COG[14]。新版含有比1997年版多得多的COG數(shù)目(4873個(gè),1997年版僅為720個(gè));由真核類中1種線蟲、1種果蠅、1種人類、1種植物(即擬南芥)和2種酵母(釀酒酵母,即Saccharomyces cerevisiae,和裂殖酵母,即S.pombe)和1種胞內(nèi)微孢子蟲(Encephalitozoon cuniculi)則組成了 KOG,含有4852個(gè)KOG。
表1 基于化石記錄的生物進(jìn)化[10-12]
隨著人類基因組的問世以及比較基因組學(xué)和計(jì)算分子進(jìn)化學(xué)等的興起和快速發(fā)展,Domazet-Lo?o等指出[15],目前已具備了從基因組水平充實(shí)對(duì)宏演化中適應(yīng)性進(jìn)化重大事件的一條新途徑,這就是以基因組進(jìn)化年齡層學(xué)(genomic phylostratigraphy)作為新的研究手段探索宏演化中諸多問題。在Domazet-Lo?o的文章中,插入了他們使用的新術(shù)語的詞義解釋,主要包括:
(1)奠基者基因:形成新基因譜系(gene lineage)或新基因家族中的第一個(gè)出現(xiàn)的基因;奠基者的起源標(biāo)志著新功能,即創(chuàng)新功能的突現(xiàn),如在真后生動(dòng)物(不包括海綿)中p21和p27的突現(xiàn)。
(2)基因組進(jìn)化年齡層學(xué):類似于用地層學(xué)(stratigraphy)及其包括的古生物劃分巖石各自生成年代,基因組進(jìn)化年齡層學(xué)依據(jù)奠基者基因發(fā)生和蛋白質(zhì)間斷突現(xiàn)原理建立了不同層次的重建宏演化趨勢的一種新統(tǒng)計(jì)學(xué)途徑。
(3)系統(tǒng)發(fā)育年齡層(phylostratum):在系統(tǒng)發(fā)育上屬于共同起源的一組奠基者基因,如在海綿基因組中突現(xiàn)的一組后生動(dòng)物特有而在Monosiga中缺乏的諸多基因。
他們以果蠅為材料,將13382個(gè)果蠅基因(與Lewin在Genes IX一書中所述的約13600個(gè)略有不同)通過BLAST相似性搜索確定的奠基者基因突現(xiàn)的進(jìn)化年代分配在12個(gè)系統(tǒng)發(fā)育年齡層即這些基因的出生年齡層內(nèi)(見表2)。對(duì)果蠅胚胎發(fā)育的標(biāo)本用原位雜交方法處理,發(fā)現(xiàn)上述各基因的出生年齡層均有奠基者基因表達(dá),總數(shù)已達(dá)4141個(gè)基因。表2后兩列的對(duì)比可以看出相應(yīng)層次出現(xiàn)的基因百分比極相似,表明表達(dá)譜是有意義的。此外,表2中的1~5個(gè)層次,分別相當(dāng)于表1的太古代、元古代中期、元古代上期、元古代上期約距今6.35億年前和寒武紀(jì)。表2中的后7個(gè)層次,較難找到表1中的不同層次。其間先后突現(xiàn)順次應(yīng)該說是正確無誤的。看來只能應(yīng)用計(jì)算分子進(jìn)化學(xué)中的分子進(jìn)化鐘來確定它們的進(jìn)化年齡層。然而目前確定的分子進(jìn)化鐘表述的年齡層常比古生物學(xué)方法標(biāo)定的距今更遠(yuǎn),有時(shí)候要遠(yuǎn)得多,因此這是一個(gè)亟待解決的棘手難題。
表2 果蠅基因組進(jìn)化年齡層及各層表達(dá)的基因數(shù)據(jù)[15]
上述的基因組進(jìn)化年齡層應(yīng)該說是一個(gè)有待不斷完善的框架,至今尚不如地層學(xué)那么完善,盡管地層學(xué)中的不少地層還正在不斷細(xì)化中,但Domazet-Lo?o等的基因進(jìn)化年齡層更需進(jìn)行細(xì)分。在本文的以下部分將會(huì)涉及他們的一些更新版本。然而必須指出,正如Nei所陳述的,分子進(jìn)化已將群體遺傳學(xué)中對(duì)種內(nèi)進(jìn)化或短程進(jìn)化(short-term evolution)延伸至種間進(jìn)化或長程進(jìn)化(long-term evolution)[16],而基因組進(jìn)化年齡層學(xué)則將對(duì)進(jìn)化的研究包括了基因水平和分子水平的宏演化分析,這從最根本的本質(zhì)對(duì)達(dá)爾文的物種共同起源、適應(yīng)等重大問題給出了最有力的詮釋和最有說服力的支持。此外,基因組進(jìn)化年齡層學(xué)途徑還可用于對(duì)發(fā)育遺傳學(xué)和癌癥研究上。
達(dá)爾文講過德國胚胎學(xué)家von Baer被脊椎動(dòng)物胚胎的相似性搞糊涂的故事。von Baer在給達(dá)爾文的信中寫道:
“我手里現(xiàn)有兩個(gè)泡在酒精中的小胚胎。之前由于疏忽,沒有給它們貼上標(biāo)簽?,F(xiàn)在實(shí)在沒辦法分辨它們屬于哪一類動(dòng)物。他們可能是蜥蜴,也可能是小鳥,還有可能是很小的哺乳動(dòng)物。這些動(dòng)物胚胎中頭和軀干的形成方式幾乎完全一樣[17]?!?/p>
其后的學(xué)者將上述形態(tài)上難以區(qū)別的胚胎時(shí)期稱為系統(tǒng)發(fā)育保守期(phylotypic stage)[12],并認(rèn)為可將同一門的動(dòng)物之間在形態(tài)發(fā)育上的差異比擬為古代計(jì)時(shí)用的沙漏(hourglass)即呈現(xiàn)兩頭大中間小的形態(tài)差異(中間小的階段即為系統(tǒng)發(fā)育保守期)。持反對(duì)意見的學(xué)者認(rèn)為沙漏模式僅憑主觀判斷的動(dòng)物形狀相似性,可信度差。
Domazet-Lo?o等[18]以斑馬魚和果蠅分別作為脊椎動(dòng)物和無脊椎動(dòng)物模式生物,并分別將兩者的個(gè)體發(fā)育分期。
對(duì)前者而言為:合子→卵裂→囊胚→原腸胚→體節(jié)分化期→咽鰓期(pharyngula)→孵化期→幼年期→成年期;后者則為:卵裂→囊胚→原腸胚→胚帶延伸(germ elongation)→胚帶收縮(gene retraction)→頭部卷曲(head involution)→分化期→幼蟲期→蛹期→成蟲期。
接著他們分別把兩者的系統(tǒng)發(fā)育年齡層分成14個(gè)層次(從第1層至第14層)。
前者為:細(xì)胞(所有生物的共同祖先)→真核類→Opisthokonda→全動(dòng)物→后生動(dòng)物→真后生動(dòng)物→兩側(cè)動(dòng)物→后口動(dòng)物→脊索動(dòng)物→Olfactores(有頭類和尾索動(dòng)物)→脊椎動(dòng)物(有頭類)→硬骨魚(Osteichthyes或Euteleostomi)→輻鰭魚類→斑馬魚屬;后者為:細(xì)胞→真核類→Opisthokonda→全動(dòng)物→后生動(dòng)物→真后生動(dòng)物→兩側(cè)動(dòng)物→原口動(dòng)物→節(jié)肢動(dòng)物→泛甲殼類→昆蟲→有翅類(Endopterygota)→雙翅目→果蠅屬。
他們以基因表達(dá)微陣列方法檢測了上述不同個(gè)體發(fā)育階段中相應(yīng)的系統(tǒng)發(fā)育年齡層的分布,結(jié)果表明:前者的咽鰓期和后者的胚帶延伸期均處于系統(tǒng)發(fā)育保守期,其顯著共同特點(diǎn)為古老基因高表達(dá)和年輕基因低表達(dá),而在上述時(shí)期外的各期古老基因表達(dá)下降和年輕基因表達(dá)上升,表明系統(tǒng)發(fā)育保守期果真是發(fā)育調(diào)節(jié)和發(fā)育制約(development constraint)的關(guān)鍵點(diǎn),從而保證動(dòng)物體制(body plan)的穩(wěn)定并準(zhǔn)備了為其后分化作好充分保障,以分子標(biāo)記(molecular signature)方式證實(shí)了系統(tǒng)發(fā)育保守期的客觀存在。
無獨(dú)有偶的是,Kalinka等[19]以相似方法在不同果蠅屬間(分化時(shí)間達(dá)4000萬年)的比較分析也證實(shí)了系統(tǒng)發(fā)育保守期的客觀性。兩個(gè)團(tuán)隊(duì)的研究[20]為進(jìn)一步從基因調(diào)控網(wǎng)絡(luò)和系統(tǒng)發(fā)育保守期的發(fā)育事件探索該特定胚胎時(shí)期開辟了一條新途徑,看來還可對(duì)動(dòng)物整個(gè)發(fā)育過程的分子水平分析產(chǎn)生重要作用。
在1997年,有人把癌基因分為兩大類[21]:管護(hù)基因(caretaker)和門衛(wèi)基因(gatekeeper)。前者支持了基因組的遺傳穩(wěn)定性,而后者則涉及細(xì)胞信號(hào)并與個(gè)體成長有關(guān)。如果突變發(fā)生在前者,導(dǎo)致遺傳不穩(wěn)定性的產(chǎn)生;后者的突變則與腫瘤發(fā)生發(fā)展關(guān)系密切,故更合適的可將后者譯為把關(guān)基因。癌癥的發(fā)生發(fā)展是多步驟的,因此前者積累的突變是癌變的必要條件,而后者的突變可以說是充要條件。
最近,Domazet-Lo?o等[22]應(yīng) 用基 因組進(jìn) 化年齡 層等方法,把從細(xì)胞起源至靈長類進(jìn)化過程中不斷出現(xiàn)的新基因或奠基者基因分成19個(gè)層(phylostratum,ps)。
細(xì)胞起源(ps 1)→真核類(ps 2)→Opisthokonda(ps 3)→全動(dòng)物(ps 4)→后生動(dòng)物(ps 5)→真后生動(dòng)物(ps 6)→兩側(cè)動(dòng)物(ps 7)→后口動(dòng)物(ps 8)→脊索動(dòng)物(ps 9)→Olfactores(脊椎動(dòng)物+尾索動(dòng)物,ps 10)→脊椎動(dòng)物(ps 11)→硬骨魚類(ps 12)→四足動(dòng)物(ps 13)→羊膜動(dòng)物(ps 14)→哺乳類(ps 15)→真獸類(ps 16)→胎盤動(dòng)物(Boreoeutheria,ps17)→Euarchontoglirea(兔形目、嚙齒目和靈長類的LCA,ps 18)→靈長類(ps 19)
他們將總數(shù)為20259個(gè)基因中包含的3022個(gè)癌基因,通過BLASTN等方法將它們定位在上述19個(gè)ps中。結(jié)果發(fā)現(xiàn),ps 1和ps 5中新基因或奠基者基因都是高分布的,ps 2的分布較ps 1略低,表明細(xì)胞起源、真核類發(fā)生時(shí)管護(hù)基因已經(jīng)出現(xiàn),而與癌癥密切相關(guān)的癌基因幾乎與多細(xì)胞動(dòng)物同時(shí)起源于ps 5。其后的分布是下降的,新的癌基因或奠基者基因的發(fā)生可能是機(jī)體與癌癥進(jìn)化的軍備競賽(arms race)產(chǎn)物。
上述對(duì)癌基因發(fā)生高峰的預(yù)測,不久即獲得了Srivastava等[23]對(duì)海綿基因組草圖完成和分析后意外發(fā)現(xiàn)的癌癥竟起源于迄今尚生存的這種最古老后生動(dòng)物并隨著動(dòng)物的進(jìn)化癌基因繼續(xù)出生的工作所證實(shí)。無怪乎Mann[24]在新聞欄評(píng)價(jià)Srivastava等的發(fā)現(xiàn)時(shí)引證了Domazet-Lo?o的上述論文。
由Domazet-Lo?o等開創(chuàng)的基因組進(jìn)化年齡層學(xué)問世至今僅僅不到4年,在宏演化的研究上充實(shí)了傳統(tǒng)上以古生物學(xué)、比較形態(tài)學(xué)和進(jìn)化-發(fā)育等法難以獲得的成果,尤其是該方法以新的癌基因或奠基者基因出生年齡為標(biāo)志,刻劃動(dòng)物適應(yīng)進(jìn)化重大事件的最根本即基因本質(zhì)。她對(duì)個(gè)體發(fā)育中存在的系統(tǒng)發(fā)育保守期也提供了分子內(nèi)容,而且由他人的實(shí)驗(yàn)所印證。在癌癥研究上提供了重要的進(jìn)化線索,并為其后的海綿基因組草圖的完成和分析所證實(shí)。能提供預(yù)測并為其他學(xué)者隨后工作所證實(shí)的理論或假說,不愧值得引起關(guān)注。誠然,她還很年輕,相信必將開出艷麗的花朵并碩果累累!
(2011年5月12日收到)
[1]LU B,YANG Q,PAN I-H.Evolutionary inference for globin superfamily[J].J Genet Mol Biol,2002,13:258-263.
[2]LI W H.Molecular evolution[M].Massachusetts:Sinauer Associates,1997.
[3]呂寶忠.基因組學(xué)與非線性分子進(jìn)化 [J].自然雜志,2001,23:131-134.
[4]LEVINE M T,JONES C D,KERN A D,et al.Novel genes derives from noncoding DNA in Drosophila melanogaster are frequently X-linked and show testis-biased expression [J].Proc Natl Acad Sci USA,2006,103:9935-9939.
[5]TOLL-RIERA M,BOSCH N,BELLORA N,et al.Origin of primate orphan genes:a comparative approach[J].Mol Biol Evol,2009,26:603-612.
[6]CAVALIER-SMITH T.The origin of fungi and pseudofungi[M]//In RAYNER,ALAN D M(ed).Evolutionary Biology of Fungi.Cambridge:Cambridge University Press,1987:339-353.
[7]WAINRIGHT P O,HINKLE G,SOGIN M L,et al.Monophyletic origin of the metazoan:an evolutionary link with fungi[J].Science,1993,260:340-342.
[8]KING N,JODY WESTBROOK M,YOUNG S L,et al.The genome of the choanoflagellate Monosiga brevicollis and the origin of metazoans[J].Nature,2008,451:783-788.
[9]YANG Z.Computational molecular evolution[M].Oxford:Oxford Uni Press,2007.
[10]BENTON M J.The fossil record 2[M].New York:Chapman &Hall,1993.
[11]GRAHAM L E,Origin of land plants[M].New York:John Wiley,1993.
[12]STRICKBERGER M W.Evolution[M].Boston:Johns and Barlett Publishers Inc,2000.
[13]TATUSOV R L,KOONIN E V,LIPMAN D J.A genomic perspective on protein families[J].Science,1997,278:631-637.
[14]TATUSOV R L,F(xiàn)EDOROVA N D,JACKSON J D,et al.The COG database:an updated version includes eukaryotes[J].BMC Bioinformatics,2003,4:41.
[15]DOMAZET-LO?O T,BRAJKOVI C′J,TAUTZ D.A phylostratigraphic approach to uncover the genomic history of major adaptations in metazoan lineages[J].Trends Genet,2007,23:533-539.
[16]NEI M.Molecular population genetics and evolution[M].Amsterdam:North-Holland Publishing Company,1975.
[17]COYNA J A.為什么要相信達(dá)爾文 [M].葉盛,譯.北京:科學(xué)出版社,2009.
[18]DOMAZET-LO?OT,TAUTZ D.A phylogenetically based transcriptome age index mirrors ontogenetic divergence patterns[J].Nature,2010,468:815-818.
[19]KALINKA A T,VARGA K M,GERRARD D T,et al.Gene expression divergence recapitulates the developmental hourglass model[J].Nature,2010,468:811-814.
[20]PRUD′HOMME B,GOMPEL N.Evolutionary biology:Genomic hourglass[J].Nature,2010,468:768-769.
[21]KINZLER K W,VOGELSTEIN B.Gatekeepers and caretakers[J].Nature,1997,386:761-763.
[22]DOMAZET-LO?O T,TAUTZ D.Phylostratigraphic tracking of cancer genes suggests a link to the emergence of multicellularity in metazoa[J].BMC Biol,2010,8:66.
[23]SRIVATAVA M,SIMAKOV O,CHAPMAN J,et al.The Amphimedon queenslandica genome and the evolution of animal complexity[J].Nature,2010,466:720-726.
[24]MANN A.Sponge genome goes deep [J].Nature,2010,466:673.