姜德杰 高停停
人類基因組中含有3 0億個字母,科學(xué)家一直都在爭論有多少字母具有功能性作用。有些字母對基因進行編碼(即人類的遺傳信息),有些字母為細胞如何使用基因提供指令。但是與數(shù)量巨大的DNA 字母相比,這些已知字母序列的數(shù)量有限。長期以來,科學(xué)家一直在爭論其余的基因有沒有作用,如果有作用,其作用究竟有多大;甚至有科學(xué)家把那些不能對蛋白質(zhì)進行編碼的基因稱作“垃圾DNA”。
現(xiàn)在,冷泉港實驗室(CSHL)研究人員已經(jīng)研發(fā)出一種新型的計算方法,用來確定人類基因組中具有重要功能的字母。這個名為fitCons 的計算機程序利用進化力量,對比了相關(guān)物種之間以及同一物種多個個體之間DNA 字母的不同。得到的結(jié)果令人吃驚:無論是亙古以來的物種,還是較近時期才把個體區(qū)別開來的人類自身,大自然“保存下來的基因組少得可憐。
“在模式生物中,比如真菌或蒼蠅,為確定某個特定基因發(fā)揮作用時需要DNA 序列中的哪些字母,科學(xué)家經(jīng)常會人為制造突變?!盋SHL 的亞當(dāng)·西格爾教授解釋說,“對人類我們不能做這樣的實驗。但當(dāng)我們仔細一想便會覺得,大自然在物種進化的過程中一直在大規(guī)模地做著類似的實驗。基因組中的誘變是無序的,但是重要的字母都在自然選擇中被保存了下來,其余字母則可以自由改變卻不會對生物體產(chǎn)生不利后果?!?/p>
這一觀點成為他們分析的基礎(chǔ),但僅此一點還不夠。西格爾說“在過去的幾年中,像‘DNA 元件百科全書’計劃(E NC OD E) 這樣的大型研究聯(lián)盟為科學(xué)界提供了大量關(guān)于基因組功能的寶貴信息。其他團隊完成了對大量人類個體和其他靈長類動物基因序列的排序。這些體量巨大的數(shù)據(jù)集第一次為我們提供了廣泛而異常詳細的基因圖,不僅包括基因組的生化活動,還包括長期以來DNA 序列發(fā)生的變化?!?/p>
基于生化標(biāo)記組合,西格爾的團隊開始整理ENCODE 聯(lián)盟的數(shù)據(jù)?!拔覀儾粏螁问褂肊NCODE 為我們提供的序列模式,以及關(guān)于基因組中DNA 讀取點及DNA 因生化標(biāo)記而變化的信息?!辈祭隆す艩柨普f。他是康奈爾大學(xué)計算機科學(xué)專業(yè)的博士生,同時也是該篇新論文的主要作者。這些生化標(biāo)記組合既顯示了基因組中數(shù)百種點位,也突顯了每個點位在基因組活動中所起到的各不相同的潛在作用。
隨后,研究人員利用他們之前研發(fā)的名為I N S I G H T 的計算方法來分析各類點位的序列在長期或短期進化中發(fā)生的變異。西格爾解釋說:“通常情況下,這種分析用來對比不同物種,比如人類、狗和老鼠等,這意味著研究人員在觀察相對較長時間內(nèi)序列的變化?!钡?,I N S I G H T 模式研究的是幾十個人類及其近親(如黑猩猩)的序列變化,這些變化為我們提供了較短時段內(nèi)的進化圖譜。
科學(xué)家發(fā)現(xiàn),人類基因組中最多只有約7%的字母具有重要功能。西格爾說:“比例如此之小,令我們印象深刻。一些僅基于ENCODE 數(shù)據(jù)的分析辯稱,8 0%以上的基因組都具有功能性,但我們的進化分析表明,事實并非如此。其他研究人員做出了類似的估計,認為只有一小部分基因組在長期的進化過程中保存了下來。我們的分析表明,人類世系的功能性序列的新發(fā)現(xiàn)也無法解釋基于ENCODE 數(shù)據(jù)的計。我們認為,大多數(shù)被ENCODE 認定為‘有生化活性’的序列很可能在人類進化的過程中并不重要。”
據(jù)西格爾所言,此項分析能讓研究人員更快地分離出引發(fā)疾病的序列。大多數(shù)全基因組研究涉及面極大,包含了成千上萬個與疾病關(guān)的字母。“我們的分析有助于精確查明序列中哪些字母有可能起作用,因為它們都具有生化活性并在進化中保存了下來?!蔽鞲駹栒f,“這為科學(xué)家了解疾病的基因基礎(chǔ)提供了強有力的資源?!?/p>