王章群,解增言,蔡應(yīng)繁,舒坤賢,黃飛飛
1. 重慶郵電大學(xué)計算機科學(xué)與技術(shù)學(xué)院,重慶 400065;
2. 重慶郵電大學(xué)生物信息學(xué)院,重慶 400065;
3. 河南大學(xué)生命科學(xué)學(xué)院,開封 475001
在過去的幾十年中,基于單個或少數(shù)幾個基因序列構(gòu)建系統(tǒng)發(fā)育樹的方法被研究得較為透徹,并得到了廣泛應(yīng)用[1~4]。但由于存在橫向基因轉(zhuǎn)移(Horizontal gene transfer,HGT)、并系同源基因(Paralog)及類群間基因進化速率差異等因素,基于單基因構(gòu)建的基因樹有時并不能代表真實的物種樹[5~8]。利用不同基因構(gòu)建的系統(tǒng)發(fā)育樹在很多情況下并不一致[9]。另外,這些方法都需要先對基因進行多序列比對,隨著序列的增加,計算時間呈指數(shù)增長,因此在物種較多時,利用經(jīng)典方法構(gòu)建系統(tǒng)發(fā)育樹需耗費大量的時間。
基于單基因構(gòu)建系統(tǒng)發(fā)育樹存在上述缺點,新的系統(tǒng)發(fā)育方法的提出顯得十分必要。隨著一些模式生物基因組測序完成,人們陸續(xù)提出了幾種基于全基因組數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹的方法[10~13],形成了一個新的研究領(lǐng)域——系統(tǒng)發(fā)育基因組學(xué)(Phylogenomics)。這些方法盡管原理不一樣,但由于都同時利用基因組中多個基因或多數(shù)序列信息構(gòu)建系統(tǒng)發(fā)育樹,因此或多或少地解決了上述基于單基因構(gòu)建系統(tǒng)發(fā)育樹存在的問題。系統(tǒng)發(fā)育基因組學(xué)在確定一些重要類群的系統(tǒng)發(fā)育地位方面發(fā)揮著越來越重要的作用,另外該方法也可以用來闡述由基因重復(fù)導(dǎo)致的基因組進化問題,重建各種生物化學(xué)路徑的進化歷史及預(yù)測基因功能等[14]。
基于全基因組數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹的方法有很多種,根據(jù)不同的理解有不同的分類方法[14~16]。根據(jù)所采用的全基因組數(shù)據(jù)的類型,這些方法可以分為以下 5類:多基因聯(lián)合方法,基于基因含量的方法,基于基因排列信息的方法,基于序列短串含量特征信息的方法和基于代謝途徑的方法。
多基因聯(lián)合建樹方法是將基因組中不同基因的信息或建樹結(jié)果進行綜合得到一個綜合樹。綜合的方法有兩種:將多個基因串聯(lián)建樹和采用超級樹建樹。前者將不同的基因序列串聯(lián)成一個整體的序列,然后按照基于單基因建樹的方法構(gòu)建系統(tǒng)發(fā)育樹[17];后者又細分為兩大類:直接超級樹方法和間接超級樹方法。直接超級樹方法先利用每個基因構(gòu)建系統(tǒng)發(fā)育子樹,再直接根據(jù)子樹推導(dǎo)出一致樹[12]; 而間接超級樹方法[18]則通過對子樹構(gòu)建多個矩陣然后合成一個超級矩陣,再利用該超級矩陣構(gòu)建最終的系統(tǒng)發(fā)育樹[19]。如MRP[20]就是采用基于間接超級樹的方法。
多基因聯(lián)合的方法在系統(tǒng)發(fā)育分析中應(yīng)用十分廣泛。如Zhang等[21]通過將232個基因串聯(lián)的方法,將28種乳酸菌分為兩個大的類群,并發(fā)現(xiàn)與翻譯、核糖體結(jié)構(gòu)和生物合成功能相關(guān)的基因及 uvrB、polC、pbpB三基因集在進行系統(tǒng)發(fā)育分析時比其他基因效果更好。關(guān)于葉綠體起源被普遍接受的理論是內(nèi)共生假說(Endosymbiosis),該假說認為葉綠體是獨立生活的藍藻(Cyanobacteria)內(nèi)共生于不具備光合作用能力的真核生物細胞內(nèi)形成的[22],但對于葉綠體起源于哪一類藍藻目前意見并不一致。Criscuolo等[23]采用系統(tǒng)發(fā)育基因組學(xué)方法,利用22種原始的光合作用真核生物和 61種藍藻基因組中的 191種蛋白質(zhì)的分析結(jié)果,得出葉綠體的前身原始質(zhì)體(Primary plastid)出現(xiàn)的時間比當(dāng)前所有全基因組已測序的藍藻的分化時間更早的結(jié)論。Torruella等[24]利用后鞭毛生物的保守單拷貝蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)得到的結(jié)果支持蜷絲生物(Filozoa)假說,該假說認為中黏菌門(Mesomycetozoea或 Ichthyosporea)是動物總界(Holozoa)中第一個出現(xiàn)的類群,其后分別是蜷絲生物中的蜷絲球蟲綱(Filasterea)、領(lǐng)鞭毛蟲門(Choanoflagellata)和后生動物門(Metazoa)。Delsuc等[25]以24個進化緩慢的物種為外群,利用146個核基因?qū)?4個后口動物(Deuterostomia)進行系統(tǒng)發(fā)育分析,發(fā)現(xiàn)與頭索類動物(Cephalochordates)相比,被囊類動物(Tunicates)與脊椎動物(Vertebrates)的親緣關(guān)系更近。Shen等[26]篩選了一個針對脊椎動物系統(tǒng)發(fā)育研究的包含102種核蛋白編碼基因的基因集,利用PCR方法能夠快速準(zhǔn)確地得到分析所需的序列集,在蠑螈類群的系統(tǒng)發(fā)育基因組研究中,該方法比利用表達序列標(biāo)簽(EST)、轉(zhuǎn)錄組測序(Transcriptome sequencing)或基于雜交的序列捕獲(Sequence capture)獲取序列的方法具有更大優(yōu)勢。Shen等[27]和Chiari等[28]利用不同的系統(tǒng)發(fā)育基因組分析方法得出龜類(Turtles)是主龍類(Archosauria)動物(鳥類和鱷魚)姊妹群的結(jié)論。Hackett等[29]通過分析169個代表現(xiàn)存主要鳥類群體的19個獨立基因位點,并采用多種系統(tǒng)發(fā)育方法分析解決了一系列的問題并得到許多令人驚訝的結(jié)論,如證明了雀形目(Passerines)和鸚形目(Psittaciformes)之間是姊妹群關(guān)系,一些晝行鳥類的祖先是夜行鳥類等。McCormack等[30]利用基因組中的超保守序列及其側(cè)翼序列對胎盤哺乳動物進行系統(tǒng)發(fā)育分析后,得出象科(Elephantidae)和馬島猬科(Tenrecidae)是最早出現(xiàn)的胎盤哺乳動物類群的結(jié)論。Lee等[31]通過篩選直系同源基因并利用多基因聯(lián)合方法研究種子植物間的關(guān)系,結(jié)果支持買麻藤綱(Gnetopsida)與裸子植物中其他綱是姊妹群的假說。
近年來,國內(nèi)也有不少采用多基因聯(lián)合方法進行系統(tǒng)發(fā)育分析方面的研究。金逍逍等[32]通過對26種蝦虎魚(Gobies)線粒體進行全基因組分析,推斷矛尾刺蝦虎魚(Acanthogobius hasta Temminck &Schlegel)與斑尾刺蝦虎魚(A. ommaturus Richardson)、斑紋舌蝦虎魚(Glossogobius olivaceus Temminck& Schlegel)與鈍吻舌蝦虎魚(G. circumspectus Macleay)分別為同種異名。他們采用分子鐘估算結(jié)果,推測蝦虎魚科物種可能起源于始新世晚期至漸新世時段,在中新世進一步分化為具有現(xiàn)代表征的蝦虎魚種類。張麗麗等[33]通過對10種鳀科魚類(Engraulidae)的線粒體全基因組進行分析,發(fā)現(xiàn) ND4、ND2和Cytb是進行鳀科魚類系統(tǒng)發(fā)育分析的較為理想的分子標(biāo)記。鐘華明等[34]利用12個重鏈蛋白質(zhì)編碼基因?qū)Τ嗪?Vulpes vulpes L.)和其它犬科類動物進行系統(tǒng)發(fā)育分析,驗證了赤狐(V. vulpes)與北極狐(Alopex lagopus L.)是姊妹群關(guān)系,而灰狼(Canis lupus L.)、家犬(C. familiaris L.)和郊狼(C. latrans Say)屬于狼型分支,這一結(jié)論與已有的系統(tǒng)發(fā)育研究結(jié)果一致。
基于多基因聯(lián)合的系統(tǒng)發(fā)育基因組方法由于利用多個基因構(gòu)建系統(tǒng)發(fā)育樹,在一定程度上解決了橫向基因轉(zhuǎn)移和不同基因間進化速率差異對系統(tǒng)發(fā)育樹的影響,得到比單基因樹更準(zhǔn)確的結(jié)果,同時其原理簡單清楚,因此在原核和真核生物的系統(tǒng)發(fā)育研究中得到了廣泛應(yīng)用。但與單基因建樹方法一樣,該方法要求所用基因是直系同源基因[35],這在一定程度上限制了該方法的應(yīng)用。另外,超級樹的建立十分依賴子樹的準(zhǔn)確性和兼容性,如果選取的基因序列存在錯誤導(dǎo)致子樹存在偏差,在最終的一致樹中,偏差可能會被放大,影響建樹的準(zhǔn)確性[36]。不同基因進化歷程的差異也對多基因聯(lián)合方法構(gòu)建系統(tǒng)發(fā)育樹的結(jié)果有較大影響[37]。
親緣關(guān)系較近的物種,其基因組包含的基因種類也相似,因此可以利用基因含量信息構(gòu)建系統(tǒng)發(fā)育樹。基于基因含量的方法分析基因組中的直系同源基因簇[38,39]、基因[40]、基因家族[41]或蛋白質(zhì)結(jié)構(gòu)域[42,43]等的有無,得到距離矩陣,構(gòu)建系統(tǒng)發(fā)育樹。如 GeneContent[44]即為利用基因含量信息構(gòu)建系統(tǒng)發(fā)育樹常用的工具?;谌蚪MBLAST距離建樹的方法本質(zhì)上也屬于基于基因含量的方法,但該方法不必對原始序列進行預(yù)處理,而是直接對全基因組序列進行 BLAST,利用得分計算距離矩陣并構(gòu)建系統(tǒng)發(fā)育樹,因此相對于其他基于基因含量的方法更為簡潔[45]。PTreeRec[46]即為基于該方法實現(xiàn)系統(tǒng)發(fā)育樹構(gòu)建的在線工具。
Montague和 Hutchison[47]利用基于基因含量的方法得到 13種皰疹病毒(Herpesviruses)的系統(tǒng)發(fā)育關(guān)系,與其他方法得到的結(jié)果相吻合。Krupovic等[48]通過對處于熱液噴口處的不同高溫球菌屬(Thermococcus)的5類質(zhì)粒進行測序,并利用基因含量及經(jīng)典的系統(tǒng)發(fā)育方法發(fā)現(xiàn)類Pext9a質(zhì)粒與來自Methanocaldococcus vulcanius M7所包含的質(zhì)粒pMETVU01關(guān)系更近。這一數(shù)據(jù)支持類Pext9a質(zhì)粒是從熱球菌目(Thermococcales)通過橫向轉(zhuǎn)移進入甲烷球菌目(Methanococcales)的。Du等[38]開發(fā)的CGCPhy工具利用直系同源基因含量信息構(gòu)建原核生物的系統(tǒng)發(fā)育樹,其結(jié)果比其他系統(tǒng)發(fā)育基因組方法更準(zhǔn)確。
由于不需要進行多序列比對,除基于全基因組BLAST的方法外,基于基因含量的方法比多基因聯(lián)合方法需要的運算時間更少,尤其在物種數(shù)量很大時更為明顯。另外,該類方法中除了基于直系同源基因簇的方法外,通常并不要求所選基因是直系同源基因,能廣泛應(yīng)用于親緣關(guān)系較遠物種間的系統(tǒng)發(fā)育樹的構(gòu)建。值得注意的是,雖然基于基因含量的方法具備在運算速度和建樹材料選擇上的優(yōu)勢,但當(dāng)物種間基因組大小差別比較大時,可能會出現(xiàn)基因組大小相近物種聚到一起而不是親緣關(guān)系近的物種聚到一起的現(xiàn)象[49],尤其在基于距離建樹的該類方法中物種基因組大小成為影響系統(tǒng)發(fā)育樹準(zhǔn)確性的重要因素[43],這限制了該方法的應(yīng)用。Yang等[43]提出新的模型,利用較小基因組物種擁有的特異蛋白質(zhì)結(jié)構(gòu)域數(shù)量與其蛋白質(zhì)結(jié)構(gòu)域總數(shù)的比值作為兩物種間距離,該方法應(yīng)用在簡單生物如細菌中結(jié)果較好,但在構(gòu)建高等生物的系統(tǒng)發(fā)育關(guān)系時準(zhǔn)確性較差?;谌蚪MBLAST的建樹方法容易實現(xiàn),但如果加入一個新的物種,需重新進行全基因組BLAST并計算所有物種間的距離,計算量過大成為限制該方法應(yīng)用的主要因素。
染色體上的基因由于存在顛倒、轉(zhuǎn)座、反轉(zhuǎn)座等現(xiàn)象,導(dǎo)致基因在染色體上的位置和方向發(fā)生變化。在近緣物種中,可以利用這些基因排列的變化信息來確定物種間的親緣關(guān)系[11,50]。基于基因排列信息的方法主要是通過分析直系同源基因的排列順序,通過對不同物種基因的排列順序進行比較并建立相應(yīng)的數(shù)學(xué)模型,最后完成系統(tǒng)發(fā)育樹構(gòu)建[51,52]。Moret等[11,52]基于基因重排的特征,首先用斷點分析工具GRAPPA[53]獲得基因序列中成對的基因顛倒和斷點的距離,對應(yīng)的距離矩陣生成以后再通過相應(yīng)的算法(如NJ法[8])構(gòu)建系統(tǒng)發(fā)育樹。Luo等[54,55]利用該方法構(gòu)建Prochlorococcus屬藍細菌的系統(tǒng)發(fā)育樹與單基因方法和基因含量方法得到的結(jié)果一致;他們對 8種產(chǎn)甲烷菌(Methanogen)分析得到的結(jié)果支持將其分為兩大類,但與以前的分類不同的是,第二類中的甲烷嗜高熱菌目(Methanopyrales)及甲烷桿菌目(Methanobacteriales)與甲烷八疊球菌目(Methanosarcinales)而不是甲烷球菌目(Methanococcales)聚在一起。Yue等[56]在GRAPPA的基礎(chǔ)上開發(fā)的針對葉綠體基因組數(shù)據(jù)的方法GRAPPA-IR,能得到比其他方法更準(zhǔn)確的結(jié)果。Blanchette等[57]發(fā)現(xiàn)利用基因斷點距離比基因顛倒和轉(zhuǎn)座信息構(gòu)建的系統(tǒng)發(fā)育樹更準(zhǔn)確。
基于基因排列信息的系統(tǒng)發(fā)育樹能較好地反映物種間的進化關(guān)系。但由于基因排列信息的保守性只存在于親緣關(guān)系較近的物種之間[58],因此該類方法只適用于近緣物種。另外,基于基因排列信息方法中的建樹優(yōu)化問題是 NP完全問題(Non-deterministic polynomial complete problem,NP-complete)[59],即不能保證在有限的時間內(nèi)得到的結(jié)果是最優(yōu)樹。
該方法基于一定的數(shù)學(xué)模型,利用核酸或蛋白質(zhì)序列短串的頻率信息構(gòu)建系統(tǒng)發(fā)育樹。如Hao和Qi等[13,60,61]提出的組分矢量(Composition vector)法,Otu等[62]提出的基于Lempel–Ziv復(fù)雜度的建樹方法,Stuart等[63]提出的基于 SVD余弦矢量距離方法,以及 Sims等[64]提出的基于序列特征頻率(Feature frequency profiles,FFP)的方法。CVTree[65]是利用組分矢量法實現(xiàn)系統(tǒng)發(fā)育樹構(gòu)建的在線工具。
Qi等[60]利用組分矢量法分析了原核生物的系統(tǒng)發(fā)育關(guān)系,與利用 16S rDNA得到的結(jié)果較為一致。Wang等[66]利用組分矢量法對82個真菌物種進行分析,為目前尚未確定歸屬類群的物種的分類提供了信息。如:他們認為在糞殼菌綱(Sordariomycetes)中稻瘟病菌(Magnaporthe grisea (T.T. Hebert) M.E.Barr)和 Plectosphaerellaceae科分別與糞殼菌目(Sordariales)和肉座菌目(Hypocreales)親緣關(guān)系較近;在散囊菌目(Eurotiales)中,結(jié)果顯示構(gòu)巢曲霉(Aspergillus nidulans Eidam)是8種曲霉中最早出現(xiàn)的分支,而散囊菌目(Onygenales)中的組織胞漿菌屬(Histoplasma)與副球孢子菌屬(Paracoccidioides)聚在一起。華蔚穎等[67]用 CVTree方法對一個中國家庭4代共7名成員的腸道菌群和不同基因型及飲食類型的小鼠腸道菌群結(jié)構(gòu)進行比較分析,發(fā)現(xiàn)CVTree能快速有效地處理16S rRNA基因的454高通量測序數(shù)據(jù),實現(xiàn)對不同菌群結(jié)構(gòu)相似性的比較分析。Sims等[68]基于 FFP的方法對大腸桿菌(Escherichia coli Migula)和志賀氏菌屬(Shigella)進行分析,提出由于它們的基類群均為 B2,而 B2類群中包含原始的尿道致病性(Uropathogenic)大腸桿菌菌株,因而它們的祖先可能是兼性(Facultative)或機會(Opportunistic)致病菌。Jun等[69]利用全蛋白質(zhì)組FFP方法得到了原核生物較理想的系統(tǒng)發(fā)育樹。
與前面方法不同,基于序列短串含量特征信息的方法處理的對象是長度只有幾個堿基的序列短串,不需要進行多序列比對(Alignment free),因此速度很快。簡單生物如細菌和真菌利用該方法能得到較理想的結(jié)果,但復(fù)雜生物如高等動植物基因組中存在大量重復(fù)序列和可變剪接基因,會影響基于序列短串方法的準(zhǔn)確性。另外,序列短串缺乏同源基礎(chǔ),一些核苷酸短串頻率的統(tǒng)計分布也缺少論證,這在一定程度上影響了該方法的推廣應(yīng)用。
不同的物種其代謝途徑有一定的差異,而酶又在代謝途徑中起著關(guān)鍵性作用,所以通過比較物種之間對應(yīng)的酶及其底物在相應(yīng)代謝途徑中的關(guān)系,可以重建物種間的系統(tǒng)發(fā)育關(guān)系[70]。通過分析酶與酶之間的關(guān)系圖也能較好地實現(xiàn)系統(tǒng)發(fā)育樹的構(gòu)建[71]。如 Ma等[72]發(fā)現(xiàn),通過基于代謝途徑的方法與基于16S rRNA所構(gòu)建的系統(tǒng)發(fā)育樹具有良好的一致性,并且能有效地避免橫向基因轉(zhuǎn)移所帶來的影響。多種代謝途徑都可以單獨用來構(gòu)建系統(tǒng)發(fā)育樹,如碳水化合物代謝途徑[71]、糖酵解代謝途徑[73]等,或者將多種代謝途徑結(jié)合構(gòu)建系統(tǒng)發(fā)育樹[74]。KEGG數(shù)據(jù)庫中的代謝反應(yīng)網(wǎng)絡(luò)信息也被用來實現(xiàn)系統(tǒng)發(fā)育樹的構(gòu)建[75]。趙建邦等[76]在KEGG代謝通路的基礎(chǔ)上,采用圖論中“核”的概念作為理論基礎(chǔ)重新設(shè)計算法,取得了較好的效果。
該類方法得到的結(jié)果較為準(zhǔn)確。但由于生物體的代謝途徑極為復(fù)雜,很難準(zhǔn)確地獲取代謝途徑的拓撲結(jié)構(gòu)圖并從中得到合理的建樹信息,因此基于代謝途徑的方法過程較為復(fù)雜,難以推廣應(yīng)用。
上述 5類基于全基因組數(shù)據(jù)的系統(tǒng)發(fā)育樹構(gòu)建方法所用的數(shù)據(jù)類型、模型、適用范圍、計算量及結(jié)果的準(zhǔn)確性等各不相同,各有優(yōu)缺點。其中,多基因聯(lián)合的方法一方面具有單基因方法理論基礎(chǔ)較好的優(yōu)勢,另一方面又結(jié)合了全基因組方法的特征,有效地解決了橫向基因轉(zhuǎn)移問題對單基因建樹所帶來的影響,所以在原核生物和真核生物的系統(tǒng)發(fā)育分析中均被廣泛使用,是應(yīng)用最多的系統(tǒng)發(fā)育基因組方法。5類方法的特點和對應(yīng)的工具總結(jié)見表 1,在實際應(yīng)用中,可以根據(jù)情況選取合適的方法。
相對于經(jīng)典的單基因系統(tǒng)發(fā)育方法,基于全基因組數(shù)據(jù)的方法具有以下的優(yōu)勢:
(1)由于基于全基因組系統(tǒng)發(fā)育的方法利用整個基因組數(shù)據(jù)的信息,能有效抵消橫向基因轉(zhuǎn)移及基因速率差異帶來的影響,因此所構(gòu)建的系統(tǒng)發(fā)育樹通常比單基因樹更接近真實的物種樹。Rokas等[79]提出建樹的過程中加入的基因數(shù)目越多得到的結(jié)果越接近真實的物種樹,Wolf等[49]也認為只有擴大基因的規(guī)模才能更加有效地保證系統(tǒng)發(fā)育樹構(gòu)建的準(zhǔn)確性。
(2)采用單基因建樹的方法在物種數(shù)量較多的情況下會變得復(fù)雜,首先是難以找到可以同時應(yīng)用于遠緣和近緣物種的合適的基因,其次是建樹過程中多序列比對的計算時間會隨著物種數(shù)量的增加呈指數(shù)增長,限制了單基因建樹方法的使用,而多數(shù)系統(tǒng)發(fā)育基因組學(xué)方法不存在類似的問題。
但基于全基因組的系統(tǒng)發(fā)育方法仍然有難以解決的缺點:(1)沒有全基因數(shù)據(jù)的物種無法使用該方法; (2)基因組的測序和注釋質(zhì)量會影響該類方法的準(zhǔn)確性; (3)部分系統(tǒng)發(fā)育基因組學(xué)方法過程復(fù)雜,難以集成到一個軟件,只能通過基于管道的網(wǎng)站服務(wù)器提供服務(wù),限制了其推廣應(yīng)用。
盡管有一些限制,但隨著基因組數(shù)據(jù)越來越多,以及新的數(shù)學(xué)模型的提出和新工具的開發(fā),系統(tǒng)發(fā)育基因組方法將逐漸成熟并得到廣泛應(yīng)用。
與經(jīng)典的單基因建樹方法相比較,基于全基因組數(shù)據(jù)的系統(tǒng)發(fā)育基因組學(xué)方法在應(yīng)對橫向基因轉(zhuǎn)移、類群間基因進化速率差異等問題方面有較大進步,但這類方法仍然有一些問題需要解決,主要是直系同源基因識別,如何利用基因樹和基因組樹來確定物種樹以及物種自身的進化歷史對系統(tǒng)發(fā)育樹構(gòu)建的影響等。
表1 基于全基因組數(shù)據(jù)的系統(tǒng)發(fā)育方法比較
盡管有些基于全基因組的系統(tǒng)發(fā)育方法不需要判斷直系同源基因,但目前大量系統(tǒng)發(fā)育基因組學(xué)研究仍然使用多基因聯(lián)合方法,需要首先篩選直系同源基因。目前獲得直系同源基因的方法主要有 3類[80]:一類是基于序列相似性的方法[81~83]; 一類是通過構(gòu)建系統(tǒng)發(fā)育樹來實現(xiàn)直系同源基因的識別的方法[84]; 還有一類方法是通過前面兩種方法的結(jié)合來實現(xiàn)直系同源基因的識別[85]。Hulsen等[86]提出通過同等功能蛋白質(zhì)識別同源基因的最好工具是InParanoid。相關(guān)的直系同源基因數(shù)據(jù)庫有 OMA[87]和 eggNOG[88]等。但由于基因組中存在大量基因重復(fù)和丟失等事件,這些方法和數(shù)據(jù)庫并不能保證所獲得的所有直系同源基因的準(zhǔn)確性。
在有更好的直系同源基因識別工具出現(xiàn)前,開發(fā)不需要識別直系同源基因的系統(tǒng)發(fā)育基因組學(xué)方法是較好的選擇,如基于序列短串含量特征信息的方法,不需要做直系同源基因篩選和多序列比對,同樣能給出較為準(zhǔn)確的結(jié)果。
由于系統(tǒng)發(fā)育基因組學(xué)方法利用的是全部或部分基因組的數(shù)據(jù),比起單基因構(gòu)建的系統(tǒng)發(fā)育樹(基因樹),該類方法的結(jié)果(基因組樹)更能反映生物基因組整體的進化歷程,在一定程度上,基因組樹比基因樹更接近物種樹[89,90]。然而,橫向基因轉(zhuǎn)移的存在使得物種間尤其是原核生物間呈復(fù)雜的網(wǎng)狀關(guān)系,而不是簡單的樹狀關(guān)系[91],基因組樹并不等同于物種樹。但通過比較基因樹和基因組樹,可以推導(dǎo)物種的系統(tǒng)發(fā)育網(wǎng)絡(luò)及橫向基因轉(zhuǎn)移及其規(guī)模,更好地理解物種間的進化關(guān)系[92]。值得注意的是,在多基因聯(lián)合方法中,使用的基因越多隨機誤差越小,但由于不同序列在核苷酸組成及在不同位點和類群間的進化速率存在差異,系統(tǒng)誤差隨之增加[93,94]。在未來的系統(tǒng)發(fā)育基因組學(xué)研究中,如何有效的降低系統(tǒng)誤差得到更合理的系統(tǒng)發(fā)育樹將是其面臨的另一挑戰(zhàn)。
除了分析方法和技術(shù)本身存在的問題外,還有一個問題是不能忽視的,即物種基因組自身特點對系統(tǒng)發(fā)育樹構(gòu)建的影響。Jeffroy等[95]認為,采用不同的基于全基因組系統(tǒng)發(fā)育分析的方法所得到的結(jié)果并不一致,主要是因為基因組數(shù)據(jù)中核苷酸的組成偏好會影響系統(tǒng)發(fā)育樹的準(zhǔn)確構(gòu)建。某些生物類群由于特殊的進化歷史和生存環(huán)境,其成員間的關(guān)系復(fù)雜,難以推斷,基于全基因組數(shù)據(jù)的系統(tǒng)發(fā)育基因組方法對此并沒有很好的解決辦法,如被子植物由于快速的輻射進化,其內(nèi)部類群間的關(guān)系用不同的系統(tǒng)發(fā)育方法很難得到一致的結(jié)果[96]。
當(dāng)前,利用單基因構(gòu)建系統(tǒng)發(fā)育樹的技術(shù)已經(jīng)非常成熟,盡管會受到橫向基因轉(zhuǎn)移及物種間進化速率差異等的影響,該技術(shù)目前仍然是應(yīng)用最廣泛的分子系統(tǒng)發(fā)育方法?;谌蚪M數(shù)據(jù)的系統(tǒng)發(fā)育方法種類由于利用的是整個基因組的信息,能較好地解決上述問題,但大多數(shù)方法過程繁瑣,較難推廣應(yīng)用,當(dāng)前多是提供網(wǎng)絡(luò)分析服務(wù)。
系統(tǒng)發(fā)育基因組學(xué)發(fā)展初期,由于基因組數(shù)據(jù)有限,而人類和小鼠的基因組測序和注釋質(zhì)量較高,因此在脊椎動物的系統(tǒng)發(fā)育分析中應(yīng)用較多,并得到了較為可信的結(jié)果。與動物相比,早期植物基因組數(shù)據(jù)相對較少,因而限制了該類方法在植物方面的應(yīng)用研究,但是隨著植物基因組數(shù)據(jù)的增多,該類方法對植物的研究也越來越多。裸子植物挪威杉(Picea abies L.)基因組的測序完成[97],使得綠藻(萊茵衣藻Chlamydomonas reinharditii P. A. Dang.和團藻 Volvox carteri F. Stein)、苔蘚(小立碗蘚 Physcomitrella patens Bruch & W. P. Schimper)、蕨類(江南卷柏 Selaginella moellendorffii Hieron.)、裸子植物(挪威杉 P. abies)和被子植物(擬南芥 Arabidopsis thaliana (L.) Heynh.和水稻 Oryza sativa L.等)等主要植物類群都有了代表植物的基因組,必將大大促進植物系統(tǒng)基因組學(xué)研究[98]?;谌蚪M數(shù)據(jù)的系統(tǒng)發(fā)育方法為構(gòu)建整個生命之樹(Tree of life)提供了新的有力的工具[89,99]。隨著公共網(wǎng)絡(luò)數(shù)據(jù)庫中基因組數(shù)據(jù)的快速增長,基于全基因組的系統(tǒng)發(fā)育分析應(yīng)用將日益廣泛。
隨著二代測序技術(shù)的成熟,系統(tǒng)發(fā)育基因組學(xué)必將有更多的應(yīng)用。但由于新一代測序技術(shù)在序列拼接方面的困難,目前主要基于多基因聯(lián)合方法的系統(tǒng)發(fā)育基因組學(xué)會遇到很多問題,因此在新一代測序技術(shù)時代,需要開發(fā)新一代系統(tǒng)發(fā)育基因組學(xué)方法,包括不用進行序列比對的方法等[100]。
另外,蛋白質(zhì)結(jié)構(gòu)域是基因進化的基本單位,不同的基因編碼的蛋白質(zhì)可能包含相同的結(jié)構(gòu)域,利用這些基因建樹會造成干擾。如果直接利用蛋白質(zhì)結(jié)構(gòu)域信息構(gòu)建系統(tǒng)發(fā)育樹就不存在這樣的問題。目前已有成熟的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫如Pfam[101]等,利用全基因組蛋白質(zhì)結(jié)構(gòu)域構(gòu)建物種間的系統(tǒng)發(fā)育關(guān)系將是一個非常有前景的領(lǐng)域。
[1]O'Neill SL,Giordano R,Colbert AM,Karr TL,Robertson HM. 16S rRNA phylogenetic analysis of the bacterial endosymbionts associated with cytoplasmic incompatibility in insects. Proc Natl Acad Sci USA,1992,89(7): 2699–2702.
[2]Purkhold U,Pommerening-R?ser A,Juretschko S,Schmid MC,Koops HP,Wagner M. Phylogeny of all recognized species of ammonia oxidizers based on comparative 16S rRNA and amoA sequence analysis: implications for molecular diversity surveys. Appl Environ Microb,2000,66(12): 5368–5382.
[3]Hedges SB,Moberg KD,Maxson LR. Tetrapod phylogeny inferred from 18S and 28S ribosomal RNA sequences and a review of the evidence for amniote relationships. Mol Biol Evol,1990,7(6): 607–633.
[4]李建伏,郭茂祖. 系統(tǒng)發(fā)生樹構(gòu)建技術(shù)綜述. 電子學(xué)報,2006,34(11): 2047–2052.
[5]Doolittle WF,Logsdon JM Jr. Archaeal genomics: do archaea have a mixed heritage? Curr Biol,1998,8(6): R209–R211.
[6]Doolittle WF. Phylogenetic classification and the universal tree. Science,1999,284(5423): 2124–2128.
[7]Huynen MA,Bork P. Measuring genome evolution. Proc Natl Acad Sci USA,1998,95(11): 5849–5856.
[8]Degnan JH,Rosenberg NA. Discordance of species trees with their most likely gene trees. PLoS Genet,2006,2(5):e68.
[9]Song S,Liu L,Edwards SV,Wu SY. Resolving conflict in eutherian mammal phylogeny using phylogenomics and the multispecies coalescent model. Proc Natl Acad Sci USA,2012,109(37): 14942–14947.
[10]Snel B,Bork P,Huynen MA. Genome phylogeny based on gene content. Nat Genet,1999,21(1): 108–110.
[11]Moret BM,Wang LS,Warnow T,Wyman SK. New approaches for reconstructing phylogenies from gene order data. Bioinformatics,2001,17(Suppl.1): S165-S173.
[12]Semple C,Steel M. A supertree method for rooted trees.Discrete Appl Math,2000,105(1-3): 147–158.
[13]Hao BL,Qi J. Prokaryote phylogeny without sequence alignment: from avoidance signature to composition distance. J Bioinform Comput Biol,2004,2(1): 1–19.
[14]于黎,張亞平. 系統(tǒng)發(fā)育基因組學(xué)——重建生命之樹的一條迷人途徑. 遺傳,2006,28(11): 1445–1450.
[15]Coenye T,Gevers D,Van de Peer Y,Vandamme P,Swings J. Towards a prokaryotic genomic taxonomy. FEMS Microbiol Rev,2005,29(2): 147–167.
[16]傅靜,孫嘯. 基于全基因組的系統(tǒng)發(fā)生分析. 生物技術(shù),2003,13(6): 53-56.
[17]Wu M,Eisen JA. A simple,fast,and accurate method of phylogenomic inference. Genome Biol,2008,9(10): R151.
[18]Ragan MA. Phylogenetic inference based on matrix representation of trees. Mol Phylogenet Evol,1992,1(1):53–58.
[19]Bininda-Emonds OR,Gittleman JL,Steel MA. The (super)tree of life: procedures,problems,and prospects. Annu Rev Ecol Syst,2002,33: 265–289.
[20]Baum BR. Combining trees as a way of combining data sets for phylogenetic inference,and the desirability of combining gene trees. Taxon,1992,44(1): 3–10.
[21]Zhang ZG,Ye ZQ,Yu L,Shi P. Phylogenomic reconstruction of lactic acid bacteria: an update. BMC Evol Biol,2011,11: 1.
[22]Keeling PJ. The endosymbiotic origin,diversification and fate of plastids. Philos Trans R Soc Lond B Biol Sci,2010,365(1541): 729–748.
[23]Criscuolo A,Gribaldo S. Large-scale phylogenomic analyses indicate a deep origin of primary plastids within cyanobacteria. Mol Biol Evol,2011,28(11): 3019–3032.
[24]Torruella G,Derelle R,Paps J,Lang BF,Roger AJ,Shalchian-Tabrizi K,Ruiz-Trillo I. Phylogenetic relationships within the Opisthokonta based on phylogenomic analyses of conserved single-copy protein domains. Mol Biol Evol,2012,29(2): 531–544.
[25]Delsuc F,Brinkmann H,Chourrout D,Philippe H. Tunicates and not cephalochordates are the closest living relatives of vertebrates. Nature,2006,439(7079): 965–968.
[26]Shen XX,Liang D,Feng YJ,Chen MY,Zhang P. A versatile and highly efficient toolkit including 102 nuclear markers for vertebrate phylogenomics,tested by resolving the higher level relationships of the caudata. Mol Biol Evol,2013,30(10): 2235–2248.
[27]Shen XX,Liang D,Wen JZ,Zhang P. Multiple genome alignments facilitate development of NPCL markers: a case study of tetrapod phylogeny focusing on the position of turtles. Mol Biol Evol,2011,28(12): 3237–3252.
[28]Chiari Y,Cahais V,Galtier N,Delsuc F. Phylogenomic analyses support the position of turtles as the sister group of birds and crocodiles (Archosauria). BMC Biol,2012,10(1): 65.
[29]Hackett SJ,Kimball RT,Reddy S,Bowie RCK,Braun EL,Braun MJ,Chojnowski JL,Cox WA,Han KL,Harshman J.A phylogenomic study of birds reveals their evolutionary history. Science,2008,320(5884): 1763–1768.
[30]McCormack JE,Faircloth BC,Crawford NG,Gowaty PA,Brumfield RT,Glenn TC. Ultraconserved elements are novel phylogenomic markers that resolve placental mammal phylogeny when combined with species-tree analysis.Genome Res,2012,22(4): 746–754.
[31]Lee EK,Cibrian-Jaramillo A,Kolokotronis SO,Katari MS,Stamatakis A,Ott M,Chiu JC,Little DP,Stevenson DW,McCombie WR,Martienssen RA,Coruzzi G,Desalle R. A functional phylogenomic view of the seed plants. PLoS Genet,2011,7(12): e1002411.
[32]金逍逍,孫悅娜,王日昕,湯達,趙盛龍,徐田軍. 蝦虎魚類線粒體全基因組序列結(jié)構(gòu)特征分析及系統(tǒng)發(fā)育關(guān)系探討. 遺傳,2013,35(12): 1391–1402.
[33]張麗麗,程起群. 鳀科魚類線粒體全基因組序列結(jié)構(gòu)特征及系統(tǒng)發(fā)育信息分析. 海洋漁業(yè),2012,34(1): 7–14.
[34]鐘華明,張洪海,沙未來,張承德,陳玉才. 赤狐線粒體全基因組及系統(tǒng)發(fā)育分析. 動物學(xué)研究,2010,31(2):122–130.
[35]Snel B,Huynen MA,Dutilh BE. Genome trees and the nature of genome evolution. Annu Rev Microbiol,2005,59:191–209.
[36]Gadagkar SR,Rosenberg MS,Kumar S. Inferring species phylogenies from multiple genes: concatenated sequence tree versus consensus gene tree. J Exp Zool B Mol Dev Evol,2005,304(1): 64–74.
[37]Kubatko LS,Degnan JH. Inconsistency of phylogenetic estimates from concatenated data under coalescence. Systematic Biol,2007,56(1): 17–24.
[38]Du W,Cao ZB,Wang Y,Sun Y,Blanzieri E,Liang YC.Prokaryotic phylogenies inferred from whole-genome sequence and annotation data. Biomed Res Int,2013,2013:409062.
[39]Bolshoy A,Volkovich Z. Whole-genome prokaryotic clustering based on gene lengths. Discrete Appl Math,2009,157(10): 2370–2377.
[40]Huson DH,Steel M. Phylogenetic trees based on gene content. Bioinformatics,2004,20(13): 2044–2049.
[41]Gu X,Zhang HM. Genome phylogenetic analysis based on extended gene contents. Mol Biol Evol,2004,21(7):1401–1408.
[42]Yang S,Bourne PE. The evolutionary history of protein domains viewed by species phylogeny. PLoS ONE,2009,4(12): e8378.
[43]Yang S,Doolittle RF,Bourne PE. Phylogeny determined by protein domain content. Proc Natl Acad Sci USA,2005,102(2): 373–378.
[44]Gu X,Huang W,Xu DP,Zhang HM. GeneContent: software for whole-genome phylogenetic analysis. Bioinformatics,2005,21(8): 1713–1714.
[45]Auch AF,Henz SR,Holland BR,G?ker M. Genome BLAST distance phylogenies inferred from whole plastid and whole mitochondrion genome sequences. BMC bioinformatics,2006,7(1): 350.
[46]Deng RQ,Huang MS,Wang JW,Huang YS,Yang J,Feng JH,Wang XZ. PTreeRec: Phylogenetic Tree Reconstruction based on genome BLAST distance. Comput Biol Chem,2006,30(4): 300–302.
[47]Montague MG,Hutchison CA. Gene content phylogeny of herpesviruses. Proc Natl Acad Sci USA,2000,97(10):5334–5339.
[48]Krupovic M,Gonnet M,Hania WB,Forterre P,Erauso G.Insights into dynamics of mobile genetic elements in hyperthermophilic environments from five new Thermococcus plasmids. PLoS ONE,2013,8(1): e49044.
[49]Wolf YI,Rogozin IB,Grishin NV,Tatusov RL,Koonin EV.Genome trees constructed using five different approaches suggest new major bacterial clades. BMC Evol Biol,2001,1(1): 8.
[50]Wang LS,Warnow T,Moret BM,Jansen RK,Raubeson LA. Distance-based genome rearrangement phylogeny. J Mol Evol,2006,63(4): 473–483.
[51]Korbel JO,Snel B,Huynen MA,Bork P. SHOT: a web server for the construction of genome phylogenies. Trends Genet,2002,18(3): 158–162.
[52]Moret BME,Tang JJ,Wang LS,Warnow T. Steps toward accurate reconstructions of phylogenies from gene-order data. J Comput Syst Sci,2002,65(3): 508–525.
[53]Moret BME,Wyman S,Bader DA,Warnow T,Yan M. A new implementation and detailed study of breakpoint analysis. Pac Symp Biocomput,2001: 583–594.
[54]Luo HW,Shi J,Arndt W,Tang JJ,Friedman R. Gene order phylogeny of the genus Prochlorococcus. PLoS ONE,2008,3(12): e3837.
[55]Luo HW,Sun ZY,Arndt W,Shi J,Friedman R,Tang JJ.Gene order phylogeny and the evolution of methanogens.PLoS ONE,2009,4(6): e6069.
[56]Yue F,Cui LY,de Pamphilis CW,Moret BME,Tang JJ.Gene rearrangement analysis and ancestral order inference from chloroplast genomes with inverted repeat. BMC Genomics,2008,9 (Suppl.1): S25.
[57]Blanchette M,Kunisawa T,Sankoff D. Gene order breakpoint evidence in animal mitochondrial phylogeny. J Mol Evol,1999,49(2): 193–203.
[58]Tamames J,Casari G,Ouzounis C,Valencia A. Conserved clusters of functionally related genes in two bacterial genomes. J Mol Evol,1997,44(1): 66–73.
[59]Pe’er I,Shamir R. The median problems for breakpoints are NP-complete. P El C Comp Compl,1998,71: 1–16.
[60]Qi J,Wang B,Hao BL. Whole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach. J Mol Evol,2004,58(1): 1–11.
[61]Xu Z,Hao BL. CVTree update: a newly designed phylogenetic study platform using composition vectors and whole genomes. Nucleic Acids Res,2009,37(Suppl.2):W174–W178.
[62]Otu HH,Sayood K. A new sequence distance measure for phylogenetic tree construction. Bioinformatics,2003,19(16): 2122–2130.
[63]Stuart GW,Moffett K,Baker S. Integrated gene and species phylogenies from unaligned whole genome protein sequences. Bioinformatics,2002,18(1): 100–108.
[64]Sims GE,Jun SR,Wu GA,Kim SH. Alignment-free genome comparison with feature frequency profiles (FFP)and optimal resolutions. Proc Natl Acad Sci USA,2009,106(8): 2677–2682.
[65]Qi J,Luo H,Hao BL. CVTree: a phylogenetic tree reconstruction tool based on whole genomes. Nucleic Acids Res,2004,32(Web Server issue): W45–W47.
[66]Wang H,Xu Z,Gao L,Hao BL. A fungal phylogeny based on 82 complete genomes using the composition vector method. BMC Evol Biol,2009,9(1): 195.
[67]華蔚穎,徐昭,張夢暉,李旻,張晨虹,趙立平. CVTree在454高通量測序分析菌群結(jié)構(gòu)中的應(yīng)用. 中國微生態(tài)學(xué)雜志,2010,22(4): 312–316.
[68]Sims GE,Kim SH. Whole-genome phylogeny of Escherichia coli/Shigella group by feature frequency profiles(FFPs). Proc Natl Acad Sci USA,2011,108(20): 8329–8334.
[69]Jun SR,Sims GE,Wu GA,Kim SH. Whole-proteome phylogeny of prokaryotes by feature frequency profiles:An alignment-free method with optimal feature resolution.Proc Natl Acad Sci USA,2010,107(1): 133–138.
[70]Forst CV,Schulten K. Phylogenetic analysis of metabolic pathways. J Mol Evol,2001,52(6): 471–489.
[71]Heymans M,Singh AK. Deriving phylogenetic trees from the similarity analysis of metabolic pathways. Bioinformatics,2003,19 (Suppl.1): 138–146.
[72]Ma HW,Zeng AP. Phylogenetic comparison of metabolic capacities of organisms at genome level. Mol Phylogenet Evol,2004,31(1): 204–213.
[73]Clemente JC,Satou K,Valiente G. Reconstruction of phylogenetic relationships from metabolic pathways based on the enzyme hierarchy and the gene ontology. Genome Inform,2005,16(2): 45–55.
[74]Mano A,Tuller T,Béjà O,Pinter RY. Comparative classification of species and the study of pathway evolution based on the alignment of metabolic pathways. BMC Bioinform,2010,11(Suppl.1): S38.
[75]Wan P,Che DS. Constructing phylogenetic trees using interacting pathways. Bioinformation,2013,9(7): 363–367.
[76]趙建邦,高琳,宋佳. 一種基于代謝路徑構(gòu)建系統(tǒng)發(fā)生樹的有效方法. 電子學(xué)報,2009,37(8): 1633–1638.
[77]Creevey CJ,McInerney JO. Clann: investigating phylogenetic information through supertree analyses. Bioinformatics,2005,21(3): 390–392.
[78]Desper R,Gascuel O. Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle. J Comput Biol,2002,9(5): 687–705.
[79]Rokas A,Williams BL,King N,Carroll SB. Genome-scale approaches to resolving incongruence in molecular phylogenies. Nature,2003,425(6960): 798–804.
[80]楊婧,黃原,汪曉陽. 直系同源基因的識別方法與數(shù)據(jù)庫. 生命科學(xué)研究,2013,17(3): 274–277.
[81]Li L,Stoeckert CJ Jr.,Roos DS. OrthoMCL: identification of ortholog groups for eukaryotic genomes. Genome Res,2003,13(9): 2178–2189.
[82]Remm M,Storm CEV,Sonnhammer ELL. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J Mol Biol,2001,314(5): 1041–1052.
[83]Tatusov RL,Fedorova ND,Jackson JD,Jacobs AR,Kiryutin B,Koonin EV,Krylov DM,Mazumder R,Mekhe-dov SL,Nikolskaya AN,Rao BS,Smirnov S,Sverdlov AV,Vasudevan S,Wolf YI,Yin JJ,Natale DA. The COG database: an updated version includes eukaryotes. BMC Bioinform,2003,4(1): 41.
[84]Kristensen DM,Wolf YI,Mushegian AR,Koonin EV.Computational methods for Gene Orthology inference.Brief Bioinform,2011,12(5): 379–391.
[85]Linard B,Thompson JD,Poch O,Lecompte O. Ortho-Inspector: comprehensive orthology analysis and visual exploration. BMC Bioinform,2011,12: 11.
[86]Hulsen T,Huynen MA,de Vlieg J,Groenen PMA. Benchmarking ortholog identification methods using functional genomics data. Genome Biol,2006,7(4): R31.
[87]Altenhoff AM,Schneider A,Gonnet GH,Dessimoz C.OMA 2011: orthology inference among 1000 complete genomes. Nucleic Acids Res,2011,39(Suppl.1): D289-D294.
[88]Muller J,Szklarczyk D,Julien P,Letunic I,Roth A,Kuhn M,Powell S,von Mering C,Doerks T,Jensen LJ,Bork P.eggNOG v2.0: extending the evolutionary genealogy of genes with enhanced non-supervised orthologous groups,species and functional annotations. Nucleic Acids Res,2010,38(Database issue): D190–D195.
[89]Wolf YI,Rogozin IB,Grishin NV,Koonin EV. Genome trees and the tree of life. Trends Genet,2002,18(9): 472–479.
[90]Burleigh JG,Bansal MS,Eulenstein O,Hartmann S,Wehe A,Vision TJ. Genome-scale phylogenetics: inferring the plant tree of life from 18,896 gene trees. Syst Biol,2011,60(2): 117–125.
[91]Kelk S. Phylogenetic networks: concepts,algorithms and applications. Syst Biol,2012,61(1): 174–175.
[92]Ge F,Wang LS,Kim J. The cobweb of life revealed by genome-scale estimates of horizontal gene transfer. PLoS Biol,2005,3(10): e316.
[93]Rodriguez-Ezpeleta N,Brinkmann H,Roure B,Lartillot N,Lang BF,Philippe H. Detecting and overcoming systematic errors in genome-scale phylogenies. Syst Biol,2007,56(3): 389–399.
[94]鄒新慧,葛頌. 基因樹沖突與系統(tǒng)發(fā)育基因組學(xué)研究.植物分類學(xué)報,2008,46(6): 795–807.
[95]Jeffroy O,Brinkmann H,Delsuc F,Philippe H. Phylogenomics: the beginning of incongruence? Trends Genet,2006,22(4): 225–231.
[96]Smith SA,Beaulieu JM,Stamatakis A,Donoghue MJ.Understanding angiosperm diversification using small and large phylogenetic trees. Am J Bot,2011,98(3): 404–414.
[97]Nystedt B,Street NR,Wetterbom A,Zuccolo A,Lin YC,Scofield DG,Vezzi F,Delhomme N,Giacomello S,Alexeyenko A,Vicedomini R,Sahlin K,Sherwood E,Elfstrand M,Gramzow L,Holmberg K,Hallman J,Keech O,Klasson L,Koriabine M,Kucukoglu M,Kaller M,Luthman J,Lysholm F,Niittyla T,Olson A,Rilakovic N,Ritland C,Rossello JA,Sena J,Svensson T,Talavera-Lopez C,Theissen G,Tuominen H,Vanneste K,Wu ZQ,Zhang B,Zerbe P,Arvestad L,Bhalerao R,Bohlmann J,Bousquet J,Garcia Gil R,Hvidsten TR,de Jong P,MacKay J,Morgante M,Ritland K,Sundberg B,Thompson SL,Van de Peer Y,Andersson B,Nilsson O,Ingvarsson PK,Lundeberg J,Jansson S. The Norway spruce genome sequence and conifer genome evolution. Nature,2013,497(7451):579–584.
[98]Soltis PS,Soltis DE. A conifer genome spruces up plant phylogenomics. Genome Biol,2013,14(6): 122.
[99]Delsuc F,Brinkmann H,Philippe H. Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet,2005,6(5): 361–375.
[100]Chan CX,Ragan MA. Next-generation phylogenomics.Biol Direct,2013,8: 3.
[101]Punta M,Coggill PC,Eberhardt RY,Mistry J,Tate J,Boursnell C,Pang N,Forslund K,Ceric G,Clements J,Heger A,Holm L,Sonnhammer ELL,Eddy SR,Bateman A,Finn RD. The Pfam protein families database. Nucleic Acids Res,2012,40(Database issue): D290–D301.