盡管其商業(yè)前景也許被夸大了,但破譯基因組的內(nèi)在價值卻是不可估量:我們將有能力知道我們是誰,從哪里來,我們?nèi)祟惖幕蚝彤?dāng)今世界上其他生物的基因有何相同之處
如果沒有計算機處理大量的數(shù)據(jù),包括組成我們?nèi)祟愖陨砩w基因圖譜的30億化學(xué)單元中大多數(shù)信息,那么人類基因組奧秘的破譯將不可能發(fā)生。這場“生物信息技術(shù)”革命所提供的最重要的東西,再一次以鐵一般的事實證明了地球上所有生命的進化論原理。
不論是蛋白質(zhì)還是核酸,其基因序列數(shù)據(jù),都適合由計算機來處理,因為它們很容易被數(shù)字化,并按照它們的組成單元細分。只需要簡單的計算機程序,就能比較兩個或更多這些單元串,考察他們之間的相似度,從巨大的數(shù)據(jù)庫資料中為某一個族譜圖尋找同已知的序列群所匹配的新的序列。
近半個世紀前,人們第一次對蛋白質(zhì)進行了排序,這個實驗的影響至今仍意義深遠。當(dāng)時對蛋白質(zhì)的測序規(guī)模都很小——比如胰島素只含有大約50個氨基酸——但是不同種類間的差異卻是顯而易見的。
我個人的興趣始于40年前這些簡單分子中的一個,那時我還在瑞典做博士后研究。血纖維蛋白肽是短的序列,相對容易純化,而且具有不同種間差異很顯著的優(yōu)點。所以我們所觀察到的血纖維蛋白肽序列和它的化石記錄有很強的對應(yīng)性。因此根據(jù)現(xiàn)存的基因序列,我們很容易就能推算出它的進化過程。
但是,生物技術(shù)的發(fā)展注定與計算機的發(fā)展密不可分。1965年,羅卜特·蘭德勒建立了第一個真正意義上的基因序列數(shù)據(jù)庫,即蛋白質(zhì)序列和結(jié)構(gòu)圖譜。1967年,研究人員又用數(shù)據(jù)庫描繪了一些動物和真菌的基因圖。如果讓古典生物學(xué)家來畫這些動物和真菌的分支順序的話,那結(jié)果和計算機提供的幾乎一樣,盡管計算機完全不懂比較解剖學(xué)、古生物學(xué)、胚胎學(xué),以及這些生物體其他的非分子特征。而1970年,計算機的一次卓越創(chuàng)新使之可以完成氨基酸測序的組合。
當(dāng)時基因測序數(shù)據(jù)的分析、破譯沿著兩個方面發(fā)展。第一種是,生物學(xué)家很自然就對不同生物體之間的聯(lián)系感興趣。他們的設(shè)想是,基因樹的所有分支基因都會產(chǎn)生突變,但只有很少的突變能存活下來。另一種則比較集中在所謂的橫向同源蛋白質(zhì),它們是同一生物體中由同一基因復(fù)制而產(chǎn)生的多個蛋白質(zhì)。
兩種類型的比較顯示,新蛋白質(zhì)來源于老蛋白質(zhì),就像進化論所預(yù)言的那樣。在所有生物體中,基因組中DNA片段的復(fù)制經(jīng)常發(fā)生——主要是隨機分裂和重組的后果,這些復(fù)制的片段大多數(shù)注定要消失,因為任何蛋白質(zhì)的基因突變產(chǎn)物都是多余的。偶爾有些時候,一個稍微有些改變的基因產(chǎn)物卻被證明具有適應(yīng)環(huán)境的競爭力,于是一種新的蛋白質(zhì)產(chǎn)生了。通常它的功能和老的很相似,但偶爾也會發(fā)生巨大的變異。
到了1978年,DNA測序開始廣泛應(yīng)用。很快,新的基因數(shù)據(jù)如潮水般地淹沒了現(xiàn)有的蛋白質(zhì)序列數(shù)據(jù)庫。另一種倉庫——Genbank庫誕生了(Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻著作和生物學(xué)注釋。它是由美國國立生物技術(shù)信息中心建立和維護的)。
業(yè)余愛好者很少有能力和專業(yè)人士競爭。因此我建立了自己的數(shù)據(jù)庫,主要采用已經(jīng)被破譯了的DNA序列,我稱它為新地圖。這個數(shù)據(jù)庫只有一臺非常原始的電腦和一些由一名大學(xué)生編的很簡單的程序,我們開始把新序列和以前公布的所有序列進行匹配,并由此發(fā)現(xiàn)了很多意想不到的關(guān)聯(lián)。到人類基因組計劃在20世紀80年代末啟動時,數(shù)據(jù)有限已不再是限制基因技術(shù)發(fā)展的一個因素,相反,對海量基因信息的管理突然之間倒成了瓶頸。
許多科學(xué)家對人類基因組計劃提出質(zhì)疑。他們指出:人類基因組包含的氨基酸序列是現(xiàn)有基因數(shù)據(jù)庫的好幾百倍。那么如何識別這些基因?對那些以前從未發(fā)現(xiàn)的序列又如何去匹配?
但基因組的每個基因并不完全是一個全新的結(jié)構(gòu),所有的蛋白質(zhì)都被測序也不可能——否則,不同序列的數(shù)量將遠遠超出宇宙中原子的數(shù)量。僅有很小一部分的蛋白質(zhì)會被測序,通過對最開始的一小部分基因進行復(fù)制、繁殖和修正。所以,大多數(shù)的基因和基因之間是相關(guān)的。
我以前相信,生物信息技術(shù)能使我們通過序列檢查識別所有的基因。但是當(dāng)?shù)谝慌⑸锘蚪M測序完成以后,大約還有一半的基因沒有被識別出來——在前100個基因組的測序完成的時候,包括人類基因組在內(nèi),未被識別的基因比例一直是這么多。甚至像大腸桿菌這樣已被研究很透徹的生物體,仍然有許多基因的功能從未被發(fā)現(xiàn)。
盡管如此,破譯基因組的好處是巨大的。能迅速用于治病的商業(yè)前景也許被夸大了。但其內(nèi)在的價值卻是不可估量:我們將有能力知道我們是誰,從哪里來,我們?nèi)祟惖幕蚝彤?dāng)今世界上其他生物的基因有何相同之處。