左光宏 郝柏林
分類(lèi)是人類(lèi)認(rèn)識(shí)自然、探索事物本質(zhì)及其規(guī)律的基本出發(fā)點(diǎn)之一。對(duì)生命形式最早的分類(lèi)系統(tǒng)能上朔到古希臘哲學(xué)家亞里士多德(Aristotle)。對(duì)于物種間親緣關(guān)系與分類(lèi)系統(tǒng)的研究,不僅加深人們對(duì)于自然界的認(rèn)識(shí),還能為一些與人類(lèi)生命健康有關(guān)的應(yīng)用科學(xué),如醫(yī)學(xué)微生物學(xué)與環(huán)境元基因組學(xué)等帶來(lái)重要的信息,從而改善人類(lèi)的生產(chǎn)、生活。傳統(tǒng)的物種分類(lèi)與親緣關(guān)系的研究,無(wú)論是林奈(Carolus Linnaeus)的分類(lèi)系統(tǒng),還是達(dá)爾文(Charles Robert Darwin)在《物種起源》中初次設(shè)想的來(lái)自共同祖先的親緣關(guān)系,都是根據(jù)生物的形態(tài)特征。這在動(dòng)、植物等宏觀(guān)生物的分類(lèi)中取得了比較合理的結(jié)果。然而占地球上生命物質(zhì)一半以上的原核生物[1],卻很難使用這些傳統(tǒng)的方法來(lái)實(shí)現(xiàn)分類(lèi)。這是因?yàn)楫?dāng)尺度下降到微米級(jí),不但生物形態(tài)難以刻畫(huà),并且相同的形態(tài)可能來(lái)自完全不同的物種。1985年Carl Woese和同事們分析當(dāng)時(shí)僅有的約400條16S rRNA序列,提出了基于系統(tǒng)發(fā)生的主要細(xì)菌門(mén)類(lèi)描述[2]。時(shí)至今日,基于16S rRNA序列分析的構(gòu)樹(shù)方法現(xiàn)在已經(jīng)被大多數(shù)生物學(xué)家接受。盡管16S rRNA序列分析取得了很大成功,但是它在種以下的層次缺乏分辨能力[3,4]。而環(huán)境元基因組學(xué)、醫(yī)藥微生物學(xué)等應(yīng)用,區(qū)分亞種(Subspecies)、生態(tài)型(Ecotypes)、血清型(Serotypes)、生物變種(Biovars)等菌株種以下的分類(lèi)需求卻與日俱增。
全基因組包含了生物全部的遺傳信息,其內(nèi)涵遠(yuǎn)遠(yuǎn)豐富于16S rRNA序列,所以分析全基因組數(shù)據(jù)能夠更加準(zhǔn)確與細(xì)致地研究物種的演化與分類(lèi)。要提高分辨能力,就需要更好地利用全基因組的信息[5]。而且,隨著測(cè)序技術(shù)的發(fā)展,可供研究的全基因組數(shù)據(jù)越來(lái)越多。根據(jù)美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)數(shù)據(jù)顯示,截至2015年10月,已完成測(cè)序的基因組項(xiàng)目有7 435個(gè),而正在進(jìn)行的測(cè)序計(jì)劃則多達(dá)32 976個(gè),而且這些數(shù)字還在快速增加。另外,針對(duì)某些特定問(wèn)題,還有更為龐大的測(cè)序計(jì)劃。例如,2012年8月,美國(guó)食品與藥物管理局、加州大學(xué)戴維斯分校以及安捷倫科技公司發(fā)起了旨在對(duì)10萬(wàn)種食源性致病菌全基因組的測(cè)序計(jì)劃。針對(duì)物種演化研究與分類(lèi)學(xué)的全基因組測(cè)序計(jì)劃,2007年5月,美國(guó)能源部聯(lián)合基因組中心JGI推出“細(xì)菌和古細(xì)菌基因組百科全書(shū)(GEBA)”計(jì)劃[6];2009年8月,我國(guó)深圳華大基因研究院倡導(dǎo)了“萬(wàn)種微生物基因計(jì)劃”。這些海量的全基因組數(shù)據(jù),為基于基因組的系統(tǒng)發(fā)生學(xué)與分類(lèi)學(xué)的研究提供了豐富的素材。
素材的積累為研究奠定了基礎(chǔ),同時(shí)也對(duì)研究方法提出了更高的要求。迄今對(duì)生物演化與分類(lèi)的研究,主要基于對(duì)單個(gè)或少數(shù)“同源基因”的序列聯(lián)配(Sequence alignment)。隨著基因組數(shù)目增加,這些方法變得不太適用。首先是基因組多樣性。就已測(cè)序的原核生物基因組而言,即使除去一些高度退化的細(xì)菌內(nèi)共生菌,小的基因組不到50萬(wàn)核苷酸和500個(gè)基因[7],而較大的細(xì)菌基因組則超過(guò)1300萬(wàn)核苷酸和9 380個(gè)基因[8]。這使得挑選“同源基因”變得困難。物種數(shù)的增多又使得序列聯(lián)配遇到計(jì)算瓶頸;而且,挑選“同源基因”的做法也不能最大限度地利用基因組信息。因此急需發(fā)展不僅不依靠序列聯(lián)配,同時(shí)還能最大限度地利用全基因組信息的研究方法。
我們研究組于2003年提出了基于全基因組的親緣關(guān)系與分類(lèi)研究方法——組分矢量構(gòu)樹(shù)法(Composition vector tree,簡(jiǎn)稱(chēng) CVTree)[9]。它不需要挑選同源基因,不進(jìn)行序列比對(duì),從根本上避開(kāi)了人為干預(yù)對(duì)結(jié)果可能造成的影響。除某些極端情況外,分類(lèi)結(jié)果幾乎不受基因組大小的影響,從而非常適合用來(lái)構(gòu)造跨門(mén)、跨界,甚至跨超界的生命之樹(shù)的構(gòu)建。目前CVTree方法已經(jīng)成功應(yīng)用到許多物種的分類(lèi)研究之中,包括病毒[10]、原核生物[11-15]、真菌[16]、葉綠體序列[17]及人類(lèi)的腸道元基因組[18]。研究表明,CVTree具有比傳統(tǒng)方法更高的分辨力,這使得CVTree方法有望解決過(guò)去難以區(qū)分的屬內(nèi)、種內(nèi)的親緣關(guān)系問(wèn)題。為了方便用戶(hù)使用CVTree方法,我們同時(shí)開(kāi)發(fā)了網(wǎng)絡(luò)服務(wù)器[19,20]。為了適應(yīng)當(dāng)前基因組數(shù)據(jù)的海量增加,又開(kāi)發(fā)新版的CVTree網(wǎng)絡(luò)服務(wù)器——CVTree3[21]。除了性能的提高之外,CVTree3服務(wù)器還將由CVTree方法生成的親緣關(guān)系樹(shù)與物種的分類(lèi)系統(tǒng)自動(dòng)進(jìn)行比較,并在網(wǎng)頁(yè)上以可交互作用的形式顯示,為進(jìn)一步研究原核生物的親緣關(guān)系與分類(lèi)系統(tǒng)提供方便。本文將簡(jiǎn)要介紹CVTree核心算法與CVTree3的使用流程,并利用三個(gè)典型實(shí)例來(lái)介紹CVTree3的可能應(yīng)用。
組分矢量構(gòu)樹(shù)法(CVTree)是一種基于全基因組研究物種親緣關(guān)系的方法。它首先統(tǒng)計(jì)基因組中特定長(zhǎng)度短串組,為每個(gè)物種構(gòu)造一個(gè)高維代表矢量;然后用矢量之間的夾角余弦計(jì)算物種間的遺傳距離 ;最后使用鄰接法(Neighbor-joining)[22,23]進(jìn)行構(gòu)樹(shù)。它不需要挑選同源基因,不進(jìn)行序列聯(lián)配,從根本上避開(kāi)了人為干預(yù)對(duì)結(jié)果可能造成的影響。實(shí)踐表明,基于蛋白質(zhì)序列的組分矢量方法與傳統(tǒng)的分類(lèi)系統(tǒng)能更好的吻合,下面就以蛋白質(zhì)序列為例來(lái)簡(jiǎn)要說(shuō)明CVTree算法。
假設(shè)我們需要對(duì)一個(gè)給定物種,構(gòu)造基于長(zhǎng)度的組分矢量。首先對(duì)該基因組的各個(gè)基因以長(zhǎng)度為窗口,每次滑動(dòng)一個(gè)殘基的方式從前向后移動(dòng),并求出各種串的出現(xiàn)頻度即次數(shù),記為f(a1a2…aK)。則該串的出現(xiàn)概率是:
式中,NK為K串的總數(shù)目。將其用條件概率表達(dá),
則可得:
此時(shí)做一個(gè)Markov假定,假設(shè)中K串的出現(xiàn)概率p(a1a2…aK)不依賴(lài)于第一個(gè)字母a1,則:
而對(duì)于條件概率p(aK|a2a3…aK-1),我們可以通過(guò)統(tǒng)計(jì)更短的串獲得,即:
由此,我們可以根據(jù)K-1串和K-2串來(lái)推測(cè)出K串概率:
式中,p0表示這個(gè)K串概率是由K-1串和K-2串的出現(xiàn)概率給出的估計(jì)。把直接統(tǒng)計(jì)的K串頻度f(wàn)與估計(jì)值f0之間的偏差作為考察值:
將每類(lèi)K串對(duì)應(yīng)的考察值v(a1a2…aK)作為分量構(gòu)成一個(gè)組分矢量。顯然當(dāng)估計(jì)值f0=0時(shí),真值f也為0,此時(shí)該維度上的分量設(shè)為0。所有這些分量按照統(tǒng)一的固定順序排列,就得到該物種的組分矢量 V=(v1,v2,…,vm),其中 M=20K。
對(duì)于N個(gè)物種得到N個(gè)這樣的組分矢量Vt,其中是物種的編號(hào),介于1與N之間。它們的遺傳距離矩陣D是一個(gè)對(duì)角元素為0的N×N對(duì)稱(chēng)矩陣。每個(gè)元素對(duì)應(yīng)物種間的遺傳距離,由組分矢量的夾角的余弦值給出,其數(shù)學(xué)表達(dá)如下:
最后,基于該遺傳距離矩陣D,使用鄰接法就可以構(gòu)建親緣關(guān)系樹(shù)。
1.2.1 基本功能 雖然CVTree的算法本身并不復(fù)雜,但是要從頭實(shí)現(xiàn)卻也并不容易,所以我們開(kāi)發(fā)了CVTree方法的網(wǎng)絡(luò)服務(wù)器,用戶(hù)可以通過(guò)互聯(lián)網(wǎng)方便的使用該算法。為了適應(yīng)當(dāng)前基因組數(shù)據(jù)的海量增加,我們開(kāi)發(fā)了最新的CVTree網(wǎng)絡(luò)服務(wù)器CVTree3,用戶(hù)可以通過(guò) http://tlife.fudan.edu.cn/cvtree3 訪(fǎng)問(wèn)。相對(duì)于之前的兩個(gè)版本的CVTree網(wǎng)絡(luò)服務(wù)器,CVTree3的性能顯著提升。就硬件而言,它專(zhuān)享兩臺(tái)具有四路32核、512 G內(nèi)存的高性能計(jì)算集群。同時(shí),為了充分利用計(jì)算集群的性能,我們重新設(shè)計(jì)和編寫(xiě)了核心程序,實(shí)現(xiàn)并行化,還從整體上優(yōu)化了運(yùn)算過(guò)程,從而使效率最大化。此外,為了方便用戶(hù)在本地使用CVTree方法進(jìn)行研究,我們還將CVTree3的核心程序單獨(dú)抽離出來(lái),做成開(kāi)源的軟件包。用戶(hù)可以從https://www.github.com/ghzuo/cvtree 下載和編譯本地版本的CVTree程序。
進(jìn)入上述地址即可打開(kāi)CVTree3首頁(yè)。我們提供了一個(gè)Example項(xiàng)目,用戶(hù)可以在首頁(yè)點(diǎn)擊“Example”按鍵,查看和瀏覽這個(gè)項(xiàng)目,或者選擇“Load/Create Project”新建一個(gè)自己項(xiàng)目。點(diǎn)擊之后即可得到如圖 1所示的項(xiàng)目設(shè)置頁(yè)面。對(duì)于每個(gè)新建的項(xiàng)目,系統(tǒng)自動(dòng)分配一個(gè)由數(shù)字與下劃線(xiàn)組成的項(xiàng)目號(hào)并且顯示在頁(yè)面頂部(圖 1),若從“Example”按鍵進(jìn)入,則項(xiàng)目顯示為 “example”。在此頁(yè)面,用戶(hù)可以選擇CVTree方法的基本參數(shù),如:使用DNA序列還是蛋白質(zhì)序列、短串的長(zhǎng)度K(可多選)等。在CVTree3服務(wù)器中,我們內(nèi)置了大量已知分類(lèi)信息的全基因組,目前包含338種古菌,2 850種細(xì)菌,以及8個(gè)真核生物作為外類(lèi)群備選。用戶(hù)在此頁(yè)面中部可按類(lèi)別選擇它們,若想逐條選擇則點(diǎn)擊“See Detail”進(jìn)入逐條選擇頁(yè)面。此外,用戶(hù)還可以上傳自己的基因組到CVTree3服務(wù)7 d后系統(tǒng)會(huì)自動(dòng)刪除。器,它們顯示在頁(yè)面的下部。所有參數(shù)與基因組都設(shè)置好之后,點(diǎn)擊右邊的綠色按鈕“All parameters are fine,Run Project”,即可以提交程序到服務(wù)器上運(yùn)行了。
用戶(hù)不能修改Example項(xiàng)目,若是由“Example”項(xiàng)目進(jìn)入該頁(yè)面,點(diǎn)擊該按鍵則不會(huì)有反應(yīng)。若只使用內(nèi)建的基因組數(shù)據(jù),系統(tǒng)會(huì)很快給出結(jié)果;若上傳了自己的數(shù)據(jù),則需要 等待。等待時(shí)間視上傳基因組與選擇的內(nèi)建基因組數(shù)目以及相關(guān)參數(shù)而定。項(xiàng)目在服務(wù)器上運(yùn)行時(shí),用戶(hù)可以關(guān)閉瀏覽器,這不會(huì)影響項(xiàng)目的運(yùn)行。需要查看項(xiàng)目運(yùn)行情況與計(jì)算結(jié)果時(shí),只要使用項(xiàng)目編號(hào)從首頁(yè)導(dǎo)入該項(xiàng)目即可。用戶(hù)也可以選擇在基本參數(shù)選項(xiàng)中填入Email,則當(dāng)項(xiàng)目計(jì)算完畢后系統(tǒng)會(huì)通知用戶(hù)。需要注意的是,每個(gè)項(xiàng)目在完成后,只在服務(wù)器上保持7d,
圖1 CVTree3網(wǎng)絡(luò)服務(wù)器的設(shè)置界面頂
1.2.2 親緣關(guān)系與分類(lèi)的自動(dòng)比對(duì)系統(tǒng) 除了性能的提升,將生成的親緣關(guān)系樹(shù)與分類(lèi)系統(tǒng)進(jìn)行自動(dòng)比較是CVTree3的又一個(gè)亮點(diǎn)。服務(wù)器在運(yùn)行的過(guò)程中,除了使用CVTee算法進(jìn)行親緣關(guān)系的分析以外,還會(huì)同時(shí)得到的親緣關(guān)系與分類(lèi)系統(tǒng)進(jìn)行比較。我們綜合參考了NCBI分類(lèi)數(shù)據(jù)庫(kù)與Bergey’s Manual等數(shù)據(jù),對(duì)內(nèi)建的菌株給出了譜系信息。用戶(hù)上傳的數(shù)據(jù),缺省的信息被設(shè)置為未知(Unclassified)。用戶(hù)可以結(jié)合已知的譜系信息來(lái)推測(cè)未知的分類(lèi)信息,這也是CVTree3網(wǎng)絡(luò)服務(wù)器的一項(xiàng)重要功能。另外,用戶(hù)可以在上傳基因組的方框中上傳分類(lèi)信息文件,上傳該信息文件的格式與方法請(qǐng)見(jiàn)用戶(hù)手冊(cè)。
所有的計(jì)算都進(jìn)行完畢后,圖 1右上角會(huì)顯示藍(lán)色按鈕“See Result”,可以查看計(jì)算結(jié)果。首先看到的是一個(gè)按照菌株的分類(lèi)階梯顯示的親緣關(guān)系與分類(lèi)系統(tǒng)的對(duì)比結(jié)果(圖 2)。在對(duì)比親緣關(guān)系與分類(lèi)系統(tǒng)的過(guò)程中,我們依靠的關(guān)鍵概念是“單源枝(Monophyly)”。所謂單源枝是指,若某個(gè)分類(lèi)單元?jiǎng)偤脤?duì)應(yīng)著親緣關(guān)系樹(shù)上的一個(gè)枝, 即分類(lèi)單元內(nèi)包含的菌株對(duì)應(yīng)于該分枝下的所有枝葉所代表的菌株。所以,當(dāng)某個(gè)枝為單源時(shí),則說(shuō)明親緣關(guān)系與分類(lèi)系統(tǒng)對(duì)于當(dāng)前的數(shù)據(jù)集合是一致的。除了按分類(lèi)系統(tǒng)顯示單源性,我們還按分類(lèi)級(jí)別統(tǒng)計(jì)了單源枝的數(shù)目,分別列在圖 2的兩個(gè)未顯示的Tab頁(yè)面“Monophyly”與“None”中。圖 2的第4個(gè)Tab則列出了一些分類(lèi)關(guān)系不確定即Unclassified菌株,這些菌株在統(tǒng)計(jì)過(guò)程中并沒(méi)有被計(jì)入。
圖2 按分類(lèi)階梯顯示的單源枝截圖
1.2.3 交互式親緣關(guān)系樹(shù)顯示系統(tǒng) 交互式的親緣關(guān)系樹(shù)顯示是CVTree3的第3個(gè)亮點(diǎn)。點(diǎn)擊圖 2右上角的按鈕“See Tree”即可以看到這棵親緣關(guān)系樹(shù)。圖 3是一幅CVTree3親緣樹(shù)的截圖,用戶(hù)可以從CVTree3的Example中獲得這棵親緣樹(shù),在Web頁(yè)面上它是一棵動(dòng)態(tài)的樹(shù),每個(gè)節(jié)點(diǎn)都可以打開(kāi)或收縮,從而調(diào)整樹(shù)的顯示方式。此外,與普通的親緣關(guān)系樹(shù)不同,該親緣關(guān)系樹(shù)在計(jì)算過(guò)程中,已自動(dòng)與分類(lèi)系統(tǒng)進(jìn)行了比較與標(biāo)記,所以用戶(hù)可以方便的從親緣樹(shù)查看每個(gè)枝的分類(lèi)屬性。如圖 3所示,我們將樹(shù)展開(kāi)到門(mén)的級(jí)別,其中的顏色表明,由CVTree方法得到親緣樹(shù)在 門(mén)的級(jí)別上絕大部分與傳統(tǒng)的分類(lèi)系統(tǒng)保持一致。除此之外,我們還提供了很多方便的操作方式,例如,在親緣樹(shù)上搜索自己感興趣的物種與分類(lèi)單元,系統(tǒng)會(huì)根據(jù)用戶(hù)要求自動(dòng)調(diào)整樹(shù)的顯示方式,以突出用戶(hù)感興趣的內(nèi)容;結(jié)合其它生物學(xué)知識(shí),用戶(hù)可以對(duì)菌株的譜系屬性試行調(diào)整,系統(tǒng)會(huì)根據(jù)新提交的譜系信息重新對(duì)比與標(biāo)記親緣關(guān)系樹(shù)。CVTree3服務(wù)器還可以輸出高質(zhì)量的圖以供展示和發(fā)表。有關(guān)交互操作的詳細(xì)描述與操作方法可參閱在線(xiàn)手冊(cè)。
物種親緣關(guān)系與分類(lèi)具有天然的聯(lián)系,因此CVTree的一個(gè)重要應(yīng)用:可以方便地使用親緣關(guān)系對(duì)物種進(jìn)行初步鑒定。在CVTree3服務(wù)器中,我們內(nèi)置了大量已知分類(lèi)信息的全基因組。用戶(hù)只需要上傳未知原核生物的全基因組數(shù)據(jù),將它們和我們內(nèi)置的全基因組數(shù)據(jù)混合生成親緣樹(shù),就可以通過(guò)內(nèi)置全基因組的譜系信息來(lái)推測(cè)上傳的未知菌株的分類(lèi)地位。
圖3 由CVTree方法得到的親緣樹(shù)并根 據(jù)分類(lèi)信息展開(kāi)到門(mén)一級(jí)
圖4 上傳基因組與內(nèi)部基因組的親緣關(guān)系
圖 4所示也是CVTree3中Example的親緣樹(shù)。該樹(shù)所使用的數(shù)據(jù)集與圖 3相同,通過(guò)CVTree3的交互作用,我們讓它更有效的顯示“未知”物種的基因組的分類(lèi)地位。我們從互聯(lián)網(wǎng)下載了兩個(gè)并沒(méi)有包含在內(nèi)建數(shù)據(jù)庫(kù)之中的全基因組作為“未知”物種來(lái)進(jìn)行測(cè)試。圖 4中棕色顯示的Kutzneria_albida_DSM_43870.UPLOAD{1}就是其中之一。該“未知”菌株,與Pseudonocardiaceae科的其它幾個(gè)屬的菌株同處于一個(gè)枝內(nèi),同時(shí)又與它們保持屬一級(jí)的獨(dú)立性,即與其它幾個(gè)屬相互并列。所以我們可以判定,上傳的這個(gè)“未知”菌株應(yīng)該是Pseudonocardiaceae科下的一個(gè)在CVTree3內(nèi)建數(shù)據(jù)庫(kù)中沒(méi)有反映的“新”屬。顯然,這與我們從其它渠道了解到的信息,包括它的 命名,是一致的。
基于未知菌株的全基因組序列,使用CVTree3可以對(duì)菌株進(jìn)行親緣與分類(lèi)鑒別研究。雖然使用16S rRNA序列的聯(lián)配也可以進(jìn)行類(lèi)似的研究,但是由于信息量的限制,使用16S rRNA方很難進(jìn)行種以下的分類(lèi)單元的研究,這正是CVTree方法的優(yōu)勢(shì)所在。由于CVTree方法合理的利用了全基因組信息,它的分辨率顯著高于16S rRNA,從而可以進(jìn)行種以下親緣關(guān)系的研究。下面我們以冰島硫化葉菌(Sulfolobus islandicus)來(lái)說(shuō)明這種應(yīng)用。
圖5 十個(gè)冰島硫化葉菌(Sulfolobus islandicus)菌株與其采集地
硫化葉菌是一類(lèi)極端嗜熱嗜酸古菌,多存在于地?zé)崛?、火山熱泉與泥漿噴口處。冰島硫化葉菌因最早發(fā)現(xiàn)于冰島而得名。由于環(huán)境限制,在演化上相對(duì)隔絕,所以不同采集地的菌株基因組,具有一些不同的特征。在CVTree3的內(nèi)建數(shù)據(jù)庫(kù)中,共收集了10個(gè)屬于該物種的菌株,它們來(lái)自4個(gè)不同的采集地。如圖 5所示,在由CVTree方法建立的親緣關(guān)系也顯著地表現(xiàn)出其采集地的地理位置。首先,來(lái)自美洲的4個(gè)菌株與來(lái)自歐洲的6個(gè)菌株分成兩個(gè)大枝,然后再根據(jù)其采集地的不同,進(jìn)一步分成為4個(gè)較小的分枝。也就是說(shuō),從CVTree得到的親緣關(guān)系,有效地反應(yīng)了地理隔絕帶來(lái)的演化效果[24]。除了這種由地理位置帶來(lái)的種以下的分化外,種以下的分類(lèi)單元,如亞種、生態(tài)型、血清型、生物變種等,在CVTree構(gòu)建的親緣關(guān)系樹(shù)中得以體現(xiàn)的例子,在我們的研究過(guò)程中還遇到很多。但是需要說(shuō)明的是,這些因素之間又會(huì)交互影響。例如,相同亞種的不同血清型與相同血清型的不同亞種,對(duì)于化膿性鏈球菌在CVTree上有較好的關(guān)聯(lián),而對(duì)于肺炎鏈球菌就不那么清晰,還需要結(jié)合專(zhuān)業(yè)知識(shí)有針對(duì)性地進(jìn)行研究。
在以上兩個(gè)例子中,我們使用CVTree方法作為獨(dú)立的檢測(cè)工具,重現(xiàn)了與其它研究一致的結(jié)果。實(shí)際上基于CVTree方法,我們還能對(duì)現(xiàn)有的分類(lèi)系統(tǒng)提供某些新的具有建設(shè)性的意見(jiàn)。例如,大腸桿菌(Escherichia coli)與志賀氏痢疾桿菌(Shigella),這兩類(lèi)腸道菌在形態(tài)上非常相似,都是革蘭氏陰性桿菌,但是由于志賀氏痢疾桿菌在病理學(xué)上的特異性,它們被單獨(dú)分類(lèi)為一個(gè)屬。另一方面,在基于部分基因的分類(lèi)研究中,各種志賀氏痢疾桿菌常常與埃希氏細(xì)菌屬下的大腸桿菌混雜在一起[25,26],很多人就據(jù)此認(rèn)為志賀氏痢疾桿菌與大腸桿菌應(yīng)該是同一個(gè)種下的不同菌株。
我們用CVTree研究了埃希氏菌屬與志賀氏痢疾桿菌屬。如圖 6所示,所有的志賀氏痢疾桿菌屬的菌株都插入了埃希氏桿菌的屬中,它們與大腸桿菌最靠近,但是也同所有的大腸桿菌分開(kāi)。所有的志賀氏痢疾桿菌也單獨(dú)分開(kāi)。它們之間的分界也是明確的。這就表明志賀氏痢疾桿菌與大腸桿菌并非同種,它們屬于埃希氏菌屬,是大腸桿菌的姊妹種[27]。這是與目前流行觀(guān)念不一致的看法,但它既區(qū)分了志賀氏痢疾桿菌與大腸桿菌,又反映了前者在病理上的特殊性。這說(shuō)明CVTree的高分辨力對(duì)于醫(yī)學(xué)實(shí)踐中致病菌的檢測(cè)會(huì)有所幫助。
當(dāng)前測(cè)序技術(shù)的革新帶來(lái)了海量的基因組數(shù)據(jù),為基于全因組數(shù)據(jù)的數(shù)據(jù)分析提供了豐富素材,同時(shí)也對(duì)發(fā)展合適的計(jì)算工具帶來(lái)挑戰(zhàn)。各種計(jì)算瓶頸與人為選擇所導(dǎo)致的差異促使我們?nèi)パ芯繜o(wú)參數(shù)和不依靠序列聯(lián)配的方法?;谌蚪M的CVTree方法的提出與改進(jìn),就是在這一前提下的努力結(jié)果。它合理地利用了全基因組的信息,高效地實(shí)現(xiàn)了基于全基因組的親緣關(guān)系和分類(lèi)系統(tǒng)研究。它一方面能與傳統(tǒng)的分類(lèi)系統(tǒng)保持較好的一致性,另一方面它還提供了研究種以菌株的分辨能力,并且為解決一些具有特殊分類(lèi)需求的問(wèn)題提供幫助。我們新開(kāi)發(fā)的CVTree3網(wǎng)絡(luò)服務(wù)器,運(yùn)行在并行的高性能硬件上,是一款高效與方便的基于全基因組的親緣關(guān)系與分類(lèi)系統(tǒng)的研究工具。它的使用界面非常友好,實(shí)現(xiàn)了親緣關(guān)系與分類(lèi)系統(tǒng)的自動(dòng)比較,允許用戶(hù)在瀏覽器上進(jìn)行交互式操作。隨著測(cè)序技術(shù)的提高,菌株測(cè)序的成本不久將低于鑒定它的“濕”實(shí)驗(yàn)的預(yù)算,生物工作者今后不必進(jìn)行太多的鑒定實(shí)驗(yàn),只要拿到菌株的全基因組,將它提交到CVTree3網(wǎng)絡(luò)服務(wù)器上,就可以對(duì)它的分類(lèi)特性進(jìn)行初步判定。我們更希望,CVTree方法將來(lái)能夠成為闡明原核生物親緣關(guān)系與分類(lèi)系統(tǒng)的定義性的工具。
圖6 志賀氏痢疾桿菌屬(Shigella)與埃希氏菌屬(Escherichia)的親緣關(guān)系樹(shù)
致謝:感謝戚繼、徐昭博士對(duì)CVTree網(wǎng)絡(luò)服務(wù)器2004和2009版本的貢獻(xiàn)以及參與CVTree3的討論。感謝復(fù)旦大學(xué)物理系和應(yīng)用表面物理國(guó)家重點(diǎn)實(shí)驗(yàn)室資助購(gòu)進(jìn)用于CVTree3的并行集群系統(tǒng),使得整個(gè)研究項(xiàng)目得以持續(xù)進(jìn)行。
[1]Whitman WB, Coleman DC, Wiebe WJ . Prokaryotes:the unseen majority[J]. Proc Natl Acad SciUSA, 1998, 95:6578-6583.
[2]Woese CR, Stackebrandt E, Macke TJ, Fox GE. A phylogenetic definition of the major eubacterial taxa[J]. Syst Appl Microbiol,1985, 6:143-151.
[3]Staley JT. The bacterial species dilemma and the genomicphylogenetic species concept[J]. Philos Trans R Soc Lond B Biol Sci, 2006, 361:1899-1909.
[4]Yarza P, Richter M, Peplies J, et al. The all-species living tree project:a 16S rRNA-based phylogenetic tree of all sequenced type strains[J]Syst Appl Microbiol, 2008, 31(4), 241-250.
[5]Whitman WB. Intent of the nomenclatural code and recommendations about naming new species based on genomic sequences[J]. Bull Bergey’s Int Soc Microb Syst, 2011, 2:135-139.
[6]Wu D, Hugenholtz P, Mavromatis K, et al. A Phylogeny-driven genomic encyclopaedia of Bacteria and Archaea[J]. Nature, 2009,462:1056-1060.
[7]Goffeau A. Life with 482-Genes[J]. Science, 1995, 270:445-446.
[8]Schneiker S, Perlova O, Kaiser O, et al. Complete genome sequence of the myxobacterium Sorangium cellulosum[J]. Nat Biotechnol,2007, 25:1281-1289.
[9]Qi J, Wang B, Hao B. Whole proteome prokaryote phylogeny without sequence alignment:a k-string composition approach[J]. J Mol Evol, 2004, 58:1-11.
[10]Gao L, Qi J, Wei H, et al. Molecular phylogeny of coronaviruses including human molecular phylogeny of coronaviruses including human[J]. Chinese Sci Bull, 2003, 48:1170-1174.
[11]Hao BL. A few pieces of mathematics inspired by real biological data.[M]//Ge ML, Oh CH, Phua KK. Proceedings of the Conference in Honor of C N Yang's 85th Birthday. World Scientific Pub Co Inc, 2008.
[12]Hao BL, Gao L. Prokaryotic branch of the tree of life:a composition vector approach[J]. J Syst Evol, 2008, 46:258-262.
[13]Hao BL, Long MY, Gu HY, et al. Whole-genome based prokaryotic branches in the tree of life[C]. Darwin 200 Beijing Int Conf,2010:102-103.
[14]Li QA, Xu Z, Hao B. Composition vector approach to whole-genomebased prokaryotic phylogeny:success and foundations[J]J Biotechnol, 2010, 149:115-119.
[15]Zuo G, Xu Z, Hao B. Phylogeny and taxonomy of archaea:a comparison of the whole-genome-based CVTree approach with 16S rRNA sequence analysis[J]. Life, 2015, 5:949-968.
[16]Wang H, Xu Z, Gao L, Hao B. A fungal phylogeny based on 82 complete genomes using the composition vector method[J]Bmc Evol Biol, 2009, 9:1471-2148.
[17]Chu KH, Qi J, Yu ZG, Anh V. Origin and phylogeny of chloroplasts revealed by a simple correlation analysis of complete genomes[J]. Mol Biol Evol, 2004, 21:200-206.
[18]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J].Nucleic Acids Res, 2013, 41:1-10.
[19]Qi J, Luo H, Hao B. CVTree:A phylogenetic tree reconstruction tool based on whole genomes[J]Nucleic Acids Res, 2004, 32:45-47.
[20]Xu Z, Hao BL. CVTreeUpdate:A newly designed phylogenetic study platform using composition vectors and whole genomes[J]Nucleic Acids Res, 2009, 37:W174-W178.
[21]Zuo G, Hao B. CVTree3 web server for whole genome-based and alignment-free prokaryotic phylogeny and taxonomy[J]Genomics Proteomics Bioinforma, 2015, (in press).
[22]Saitou N, Nei M. The neighbour joining method:a new method for reconstructing phylogenetic trees[J]Mol Biol Evol, 1987, 4(4):406-425.
[23]MihaescuR, Levy D, Pachter L. Why neighbor-joining works[J].Algorithmica(New York), 2009, 54:1-24.
[24]Zuo G, Hao B, Staley JT. Geographic divergence of ‘sulfolobus islandicus’ strains assessed by genomic analyses including electronic DNA hybridization confirms they are geovars[J].Antonie Van Leeuwenhoek, 2014, 105(2):431-435.
[25]Brenner DJ, Fanning GR, Miklos GV, Steigerwalt AG. Polynucleotide sequence relatedness among Shigella species[J]. Int J Syst Bacteriol, 1973, 23:1-7.
[26]Brenner DJ, Fanning GR, Skerman FJ, Falkow S. Polynucleotide sequence divergence among strains of Escherichia coli and closely related organisms[J]. J Bacteriol, 1972, 109:953-965, 1972.
[27]Zuo G, Xu Z, Hao B. Shigella strains are not clones of Escherichia coli but sister species in the genus Escherichia[J]Genomics Proteomics Bioinforma, 2013, 11:61-65.