任愛珍,白東義,趙一萍,侯 娜,芒 來*
(1. 內(nèi)蒙古農(nóng)業(yè)大學(xué)理學(xué)院,呼和浩特 010018; 2. 內(nèi)蒙古農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院內(nèi)蒙古自治區(qū)蒙古馬遺傳資源保護(hù)及馬產(chǎn)業(yè)工程實(shí)驗(yàn)室,呼和浩特 010018)
各種分子系統(tǒng)進(jìn)化樹的構(gòu)建方法只給出了一個(gè)真實(shí)進(jìn)化樹的點(diǎn)估計(jì),需要對(duì)其可靠性給出概率描述[1]。目前提出的常用的基于評(píng)價(jià)最大似然樹的可靠性方法有:自助法、下平-長谷川法(shimodaira-hasegawa method,SH)、多尺度自助法(multiscale bootstrap method,MBP)、雙倍自助法(double bootstrap method,DBP)、高速雙倍自助法(speedy double boostrap method,SDBM)[2-5],其中利用自助法計(jì)算出的P-值用自助P-值(bootstrapP-value,BP)表示。但是楊子恒[6-7]在其有關(guān)分子進(jìn)化樹的綜述和著作中總結(jié)并指出,理論研究和計(jì)算機(jī)模擬比較都表明,BP與它所估計(jì)的“重建的樹是真實(shí)樹的概率”間存在著較大的差距,利用BP進(jìn)行檢驗(yàn)在統(tǒng)計(jì)上是保守的,即不易得出“估計(jì)的系統(tǒng)樹受資料顯著支持”的結(jié)論[8-9]。因此,提出了幾種復(fù)雜的自助法以得到更高精度的研究結(jié)果,其中之一是多尺度自助法,Shimodaira[4]用漸近無偏(approximately unbiased,AU)表示其計(jì)算的P-值。這個(gè)方法具有3次精度,計(jì)算量是O(MB),其中M是重抽樣的自助樣本尺度的個(gè)數(shù)(重抽樣的自助樣本尺度是原樣本容量n除以重抽樣本容量m的比值),B是重新采樣的樣本個(gè)數(shù)。這個(gè)方法已成功地在許多實(shí)際問題中得到應(yīng)用[4]。然而,問題是它的計(jì)算量比較大。因此,研究者提出了高速雙倍自助法[5],用高速雙倍自助P-值(speedy double boostrapP-value,SDBP)表示其P-值。這個(gè)方法克服了計(jì)算AU速度慢和因外插估計(jì)出的數(shù)值不穩(wěn)定的缺陷,解決了為獲得3次精度P-值所需計(jì)算量大的難題,且也是具有3次精度而計(jì)算量僅為O(B)。在哺乳動(dòng)物系統(tǒng)樹的應(yīng)用研究表明,3次精度P-值中SDBP計(jì)算速度是最快的[5]。
國外關(guān)于馬系統(tǒng)發(fā)育的研究較早,但是對(duì)于蒙古馬系統(tǒng)全面的研究比較少[10-14]。國內(nèi)有關(guān)馬和蒙古馬的進(jìn)化與遺傳多態(tài)性的研究比較多[15-21]。2006年李金蓮[19]對(duì)內(nèi)蒙古錫尼河馬、巴爾虎馬、烏審馬、烏珠穆沁馬4個(gè)類型的蒙古馬及引入品種純血馬、培育品種三河馬和地方品種廣西矮馬共309個(gè)樣品的mtDNA D-loop序列利用非加權(quán)組平均法(unweighted pair-group method with arithmetic means, UPGMA)進(jìn)行聚類分析得出,烏珠穆沁馬和烏審馬親緣關(guān)系最近,錫尼河馬和巴爾虎馬親緣關(guān)系較近,與二者次近的是三河馬,它們與廣西矮馬和純血馬親緣關(guān)系都較遠(yuǎn)。2010年王小斌等[21]對(duì)蒙古馬與世界范圍內(nèi)的家馬、古馬、普氏野馬的mtDNA D-loop序列進(jìn)行系統(tǒng)發(fā)育分析,并根據(jù)鄰接法(neighbor joining,NJ)分析結(jié)果,共分出A、B、C、D、E、F、G 7個(gè)分支,其中蒙古馬分在A、B、C、D、E、F 6個(gè)分支中。2013年陳建興等[20]針對(duì)亞歐馬、蒙古馬、普氏野馬的ND4基因序列進(jìn)行了遺傳多樣性分析,并根據(jù)NJ樹分析結(jié)果得出,普氏野馬和蒙古家馬聚在一起,用數(shù)據(jù)證明了普氏野馬和蒙古家馬具有較近的親緣關(guān)系。我國對(duì)于蒙古馬系統(tǒng)發(fā)育分析研究有一定的成果,但是建樹方法多采用UPGMA法和NJ法。楊子恒[6]指出,由于對(duì)絕大多數(shù)資料來講分子鐘的假定都不能成立,所以UPGMA法在使用中存在缺陷。另外,楊子恒[6]還指出,最大似然法由于計(jì)算量龐大,僅在少量研究中進(jìn)行了比較,不過這些研究都表明其效率在現(xiàn)有方法中較高,比使用相同模型的NJ法或最小二乘距離矩陣法效率要高[22-24]。因此可以利用最大似然法估計(jì)蒙古馬系統(tǒng)進(jìn)化樹,對(duì)估計(jì)出的系統(tǒng)進(jìn)化樹進(jìn)行可靠性評(píng)價(jià),因此,可靠性檢驗(yàn)方法也需要進(jìn)一步完善,推斷出更精確的進(jìn)化關(guān)系。
本研究以最大似然法估計(jì)蒙古馬的系統(tǒng)發(fā)育樹,然后對(duì)估計(jì)出的系統(tǒng)樹利用高速雙倍自助法計(jì)算其可靠度SDBP值,并給出了SDBP值最大的系統(tǒng)發(fā)育樹。這將為蒙古馬的適應(yīng)性進(jìn)化以及基因結(jié)構(gòu)和功能的研究奠定基礎(chǔ)。
本研究從美國國家生物技術(shù)信息中心(National center of biotechnology information,NCBI)網(wǎng)站中獲取了30匹中國蒙古家馬與6匹普氏野馬的mtDNA D-loop全序列(GenBank登錄號(hào)見表1),這些序列包含巴爾虎馬、三河馬、烏審馬、烏珠穆沁馬以及錫尼河馬5個(gè)類群。從每個(gè)類群中選取了6個(gè)樣本。此外,普氏野馬(P)有6個(gè)樣本,共計(jì)36匹馬。
設(shè)有一組生物種類數(shù)為S,每種生物DNA的長度為n的堿基序列見表2,為了一般性和簡單明了,利用了虛擬的DNA堿基序列。在統(tǒng)計(jì)學(xué)中,記S種生物DNA堿基序列為矩陣Xs×n=(x1,…,xn),其中xi(i=1,…,n)表示表2中DNA堿基序列的第i位點(diǎn)。S種(不包含外群的種數(shù))生物可有K=(2S-3)!!棵候補(bǔ)無根系統(tǒng)樹(本研究所建的樹都是無根樹),每棵系統(tǒng)樹記為Tk(k=1,…,K),第k棵系統(tǒng)樹的概率函數(shù):
表1蒙古馬D-loop區(qū)堿基序列的GenBank登錄號(hào)
Table1GenBankaccessionnumbersofMongolianhorseD-loopsequences
品種Breed數(shù)量/匹QuantityGenBank登錄號(hào)GenBank accession number巴爾虎馬Baerhu 6JN790867~ JN790872三河馬Sanhe6JN790879~JN790884烏審馬Wushen 6JN790885~JN790890烏珠穆沁馬Ujimqin6JN790897~JN790902錫尼河馬Xinihe6JN790891~JN790896普氏野馬Przewalski’s6DQ017347、DQ017373、GU565340、GU565529、JN398402、JN395403
fk(x;θk)
(1)
其中,k表示第k棵系統(tǒng)樹,θk表示第k棵系統(tǒng)樹的概率函數(shù)參向量,其包含堿基置換模型中的參數(shù)和樹狀拓?fù)渲械娜舾蓚€(gè)樹枝長度參數(shù),x為DNA堿基序列中的一個(gè)位點(diǎn)所表示的堿基列。
表2S種生物DNA堿基序列
Table2DNAbasesequencesofSspecies
生物的序號(hào)Number of speciesDNA堿基序列DNA base sequence12345678…n1TCACCTATG2TCACTTAT…G3TCATCTAT…G……………………………STCACCTAT…G
表中列的“1,2,3,…,S”表示生物的序號(hào);行的“1,2,3,…,n”表示DNA堿基序列的位點(diǎn)序號(hào)
The "1, 2, 3,…, S" in the columns denote the serial number of species; the "1, 2, 3,…, n" in the rows denote the serial number of sites
根據(jù)以往的研究報(bào)道設(shè)定堿基置換模型中的參數(shù),所以堿基置換模型是已知的,只有樹枝長度是未知。本研究中的S種生物指的是S=5個(gè)類群的蒙古馬,而K=(2·5-3)!!=105是5個(gè)類群蒙古馬的所有候補(bǔ)樹,5個(gè)類群蒙古馬的DNA堿基序列矩陣為X5×309,其中位點(diǎn)總數(shù)n=309(以下計(jì)算步驟中都設(shè)成S=5,K=105,X5×309)。求解最大似然系統(tǒng)發(fā)育樹有如下4個(gè)步驟。
步驟1:計(jì)算每棵系統(tǒng)發(fā)育樹的最大似然值。在實(shí)際的計(jì)算中先利用Mega6對(duì)表2的DNA堿基序列和外群的DNA堿基序列一同進(jìn)行多重比對(duì),比對(duì)后去掉有空位的列,然后得到處理后的DNA堿基序列,建一個(gè)文件夾作為輸入文件。S種(不包含外群的種數(shù))生物的(2S-3)!!棵不同樹形拓?fù)浒碞ewick格式全部手寫出來,建一個(gè)文件夾作為另一個(gè)輸入文件。利用軟件PAML4.9以最大似然估計(jì)法計(jì)算每棵系統(tǒng)樹的對(duì)數(shù)似然函數(shù):
(2)
(3)
步驟2:建立最大似然矩陣。利用軟件PAML4.9計(jì)算每棵系統(tǒng)樹對(duì)于每個(gè)位點(diǎn)的對(duì)數(shù)似然估計(jì)值,按行的形式擺放,得到最大對(duì)數(shù)似然矩陣:
簡記為
步驟3:計(jì)算最大對(duì)數(shù)似然向量。利用軟件CONSEL將公式(4)中每行數(shù)據(jù)相加,可得最大對(duì)數(shù)似然向量:
(5)
對(duì)BP以及AU的計(jì)算步驟這里省略掉。系統(tǒng)樹可靠性評(píng)價(jià)首先要提出如下的假設(shè),這個(gè)假設(shè)是屬于多元假設(shè)檢驗(yàn)問題。
…
第1棵系統(tǒng)樹為真實(shí)系統(tǒng)樹的假設(shè)檢驗(yàn):
原假設(shè)H1的概率值SDBP的計(jì)算步驟:
(6)
(2)重抽樣
(7)
(8)
(9)
(10)
(3)計(jì)算SDBP值
(11)
其中d是公式(6)表示的量。
將獲取的36匹馬的D-loop堿基全序列導(dǎo)入Mega6軟件中,對(duì)所有馬匹D-loop區(qū)片段序列進(jìn)行多重序列比對(duì),比對(duì)后把空位的位點(diǎn)全部刪除,結(jié)果每匹馬的堿基長度為309 bp。
2.1.1 PAML4.9軟件輸出最大似然進(jìn)化樹 將多重比對(duì)之后的堿基序列和所有的105棵候補(bǔ)樹組成的兩個(gè)文件夾輸入PAML4.9軟件中的baseml程序,并選擇REV堿基替換模型分析。運(yùn)行程序baseml后可得105棵樹每個(gè)位點(diǎn)的對(duì)數(shù)似然值,即公式(4)。這些對(duì)數(shù)似然值可得出105棵樹中的最大似然樹的序號(hào)。
2.1.2 CONSEL、R3.0中SDBP包給出各系統(tǒng)樹的可靠度 將所得105棵樹的每個(gè)位點(diǎn)的對(duì)數(shù)似然值,利用CONSEL軟件,計(jì)算各個(gè)系統(tǒng)樹的AU值和BP值。最后利用R3.0中SDBP包計(jì)算各個(gè)樹的SDBP值,可得SDBP值最大的蒙古馬系統(tǒng)發(fā)育進(jìn)化樹。
表3展示了SDBP值大于等于0.05的60棵系統(tǒng)進(jìn)化樹的SDBP值,旁邊的數(shù)值是AU值和BP值。表3中“排序”表示按每棵系統(tǒng)進(jìn)化樹的最大對(duì)數(shù)似然值降序生成的樹的排序,“樹形”表示PAML4.9軟件中輸入105棵系統(tǒng)進(jìn)化樹建立的樹文件中系統(tǒng)樹的序號(hào)。綜合考察結(jié)果,按系統(tǒng)樹的SDBP值分析系統(tǒng)樹,序號(hào)為100的系統(tǒng)樹的SDBP值最大為0.980。而按系統(tǒng)樹的AU值和BP值分析進(jìn)化樹,序號(hào)為66和19的可靠度最大,分別為0.717和0.215。采用最大似然法結(jié)合SDBP值分析蒙古馬的系統(tǒng)拓?fù)潢P(guān)系是較最大似然法結(jié)合漸近無偏(approximately unbiased,AU) 值以及結(jié)合自助(bootstrapP-value,BP)值分析蒙古馬系統(tǒng)拓?fù)潢P(guān)系更有效。將t100號(hào)、t66號(hào)以及t19號(hào)系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)畫成二分系統(tǒng)樹的樹形,得到圖1、圖2、圖3。
表330匹蒙古馬的60棵候選樹SDBP、AU以及BP值的計(jì)算結(jié)果
Table3TheresultsofSDBP,AUandBPvaluesof60candidatephylogenetictreesfor30Mongolianhorses
排序Rank樹形TreeSDBP值SDBP valueAU值A(chǔ)U valueBP值BP value排序Rank樹形TreeSDBP值SDBP valueAU值A(chǔ)U valueBP值BP value11000.9800.6970.0263140.4400.0120.0002660.9330.7170.09632790.3480.0930.0003190.7510.5630.21533700.3510.0970.0004890.7770.5700.161341020.3450.0980.0005300.7690.4990.10135410.3530.0950.0006780.7760.4970.1013690.3390.0810.0007430.7780.4980.10137530.3520.0960.00081030.7680.3660.0033850.3480.0590.0009370.7710.4960.10139630.3270.0000.10110240.7800.1600.00540420.3290.0000.00511490.7740.4960.10141350.3290.0000.10112990.6490.4460.21042520.3370.0000.21013730.6490.4470.20943500.3390.0000.20914820.5960.3740.14844580.3370.0000.14815770.6780.1540.00345930.3400.0000.00316160.5390.1440.0094660.3310.0000.00917550.5580.2340.05047210.3350.0000.05018320.5590.2380.05148830.3360.0000.05119740.5650.2370.05149170.3260.0000.05120760.5590.2370.05150220.3360.0000.05121130.5640.1990.00251200.3330.0000.00222440.5570.1280.00152690.3070.0000.00123940.5580.1340.00053600.3000.0000.00024250.5820.2260.00054230.2960.0000.00025260.5770.2210.00055870.3060.0330.00026920.5730.0020.00056980.3130.0310.00027340.5760.0020.00057720.3120.0320.00028950.5840.2320.00058100.3160.0320.0002970.5800.2310.00059140.3090.0320.00030620.5830.2350.00060120.3120.0320.000
圖1 SDBP值最大系統(tǒng)樹t100拓?fù)浣Y(jié)構(gòu)Fig.1 The topology of tree t100 with the highest SDBP (speedy double bootstrap P-value) value
圖2 AU值最大系統(tǒng)樹t66拓?fù)浣Y(jié)構(gòu)Fig.2 The topology of tree t66 with the highest AU (approximately unbiased) value
圖3 BP值最大系統(tǒng)樹t19拓?fù)浣Y(jié)構(gòu)Fig.3 The topology of tree t19 with the highest BP (bootstrap P-value) value
SDBP值最大的蒙古馬系統(tǒng)樹(圖1)共有3個(gè)分支,巴爾虎馬與烏審馬合并為一個(gè)分支,具有較近的遺傳關(guān)系;烏珠穆沁馬與錫尼河馬具有較近的遺傳關(guān)系;三河馬與其他4種蒙古馬獨(dú)立地分出來構(gòu)成一個(gè)系統(tǒng)發(fā)育分支。SDBP值最大的蒙古馬系統(tǒng)樹與三河馬和其他4類蒙古馬具有較遠(yuǎn)的預(yù)測血緣關(guān)系是一致的,同時(shí)此結(jié)果的系統(tǒng)樹也具有最大似然值。
將多重比對(duì)之后的36個(gè)堿基序列輸入Mega6軟件中,利用Mega6軟件工具欄中Data下的Setup/Select Taxa and Groups標(biāo)簽對(duì)36個(gè)堿基序列按表1分組,結(jié)果得到帶有6組分組信息的36個(gè)堿基序列并保存。然后對(duì)帶有分組信息的36個(gè)堿基序列,利用工具欄中Data下的Setup/Compute Between and Groups Means標(biāo)簽計(jì)算6組間的距離。其次對(duì)組間距離的結(jié)果利用工具欄中Phylogeny下的Construct Phylogeny標(biāo)簽采用NJ方法和UPGMA方法分別建立系統(tǒng)樹。最后得到蒙古馬的NJ系統(tǒng)樹和UPGMA系統(tǒng)樹,把它們畫成二分系統(tǒng)樹的樹形,得到圖4和圖5。結(jié)合SDBP值分析蒙古馬的系統(tǒng)拓?fù)潢P(guān)系較非加權(quán)組平均法(unweighted pair-group method with arithmetic means,UPGMA) 有效,而與鄰接法(neighbor joining,NJ)得到了相近的結(jié)論。
圖4 5個(gè)蒙古馬類群的NJ樹拓?fù)浣Y(jié)構(gòu)Fig.4 The topology of NJ trees of 5 Mongolian horse subspecies
這次的試驗(yàn)對(duì)進(jìn)化時(shí)間沒有做分析,只是對(duì)拓?fù)浣Y(jié)構(gòu)做的分析。所有105棵樹都是以普氏野馬為外群的無根樹,所以圖1~圖5中的進(jìn)化樹是沒有時(shí)間標(biāo)尺和時(shí)間方向的進(jìn)化系統(tǒng)樹。
圖5 5個(gè)蒙古馬類群的UPGMA樹拓?fù)浣Y(jié)構(gòu)Fig.5 The topology of UPGMA tree of 5 Mongolian horse subspecies
從統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)理論來判斷,每棵系統(tǒng)發(fā)育樹的SDBP值相當(dāng)于原假設(shè)Hk的P-值,k=1,…,105。所以如果以顯著性水平檢驗(yàn)各原假設(shè)的話,各原假設(shè)的SDBP值大于或等于0.05的60個(gè)系統(tǒng)樹都不被拒絕。如何從這60個(gè)系統(tǒng)樹中找出真實(shí)的系統(tǒng)樹是分子進(jìn)化學(xué)中的一個(gè)重要問題。一般采用生物學(xué)等其他信息在選擇過的范圍里再選擇。在SDBP值大于或等于0.05的60個(gè)系統(tǒng)樹都不被拒絕的情況下,我們認(rèn)為結(jié)合一個(gè)或幾個(gè)種群馬與其他種群馬的遺傳關(guān)系的已知信息,從60棵系統(tǒng)樹中判斷出一個(gè)符合這個(gè)已知信息的系統(tǒng)樹作為蒙古馬的系統(tǒng)進(jìn)化樹在邏輯與統(tǒng)計(jì)學(xué)方法上都是正確的。所以根據(jù)已有研究報(bào)道,三河馬的血緣主要是在后貝加爾馬和其雜種馬的基礎(chǔ)上,混入呼倫貝爾草原蒙古馬的血液,經(jīng)幾十年精心培育而成[28]。根據(jù)三河馬這樣的血緣關(guān)系,預(yù)測三河馬應(yīng)該從系統(tǒng)進(jìn)化發(fā)育樹首先分離出來獨(dú)立作為一個(gè)分支,而其他4種 蒙古馬種群作為另一個(gè)分支。從t100、t66以及t19 3個(gè)系統(tǒng)樹看符合這一條件的只有t100,而t100是最大似然樹,其SDBP值也是最大的。所以,筆者認(rèn)為t100比較真實(shí)地反映了蒙古馬的系統(tǒng)進(jìn)化關(guān)系。對(duì)比3次精度AU值最大的系統(tǒng)樹t66與SDBP 值最大的t100,它們都有以烏珠穆沁馬與錫尼河馬為葉子組成的一個(gè)獨(dú)立小分支,而在BP值最大的t19里沒有這樣的獨(dú)立小分支。
對(duì)比2006年李金蓮[19]用UPGMA的結(jié)果與本研究中3次精度SDBP值最大的t100,它們沒有共同的由兩個(gè)葉子組成的獨(dú)立小分支,在拓?fù)浣Y(jié)構(gòu)上也不一樣。2006年李金蓮[19]用UPGMA的結(jié)果與3次精度的AU值最大的系統(tǒng)樹t66以及BP值最大的t19相比,無論在拓?fù)浣Y(jié)構(gòu)還是獨(dú)立分支上也沒有相似之處。由于2010年王小斌等[21]是把蒙古馬與世界范圍內(nèi)的家馬、古馬、普氏野馬一起進(jìn)行系統(tǒng)發(fā)育分析,即沒有進(jìn)行分類分析,所以本研究結(jié)果與王小斌等[21]的NJ樹結(jié)果沒有可比性,陳建興等[20]的結(jié)果也存在同樣的問題,因而也無可比性。對(duì)比本研究用NJ方法與UPGMA分析出的結(jié)果(圖4與圖5)可知,蒙古馬的NJ樹與SDBP值最大的t100樹,它們的分支在系統(tǒng)樹中的順序完全一樣,只是系統(tǒng)樹拓?fù)浣Y(jié)構(gòu)上有些差異。而蒙古馬的UPGMA樹拓?fù)潢P(guān)系與BP值最大的t19樹非常接近。這說明在每匹馬序列長度比較少的情況下NJ樹的結(jié)果要比UPGMA樹的結(jié)果更接近SDBP值最大的系統(tǒng)樹。綜上所述,本研究通過利用30匹蒙古馬線粒體DNA中的D-loop高變區(qū)序列對(duì)5類蒙古馬的105個(gè)候補(bǔ)系統(tǒng)發(fā)育樹進(jìn)行分析,結(jié)果表明,采用最大似然法結(jié)合SDBP值分析生物的系統(tǒng)拓?fù)潢P(guān)系是較最大似然法結(jié)合AU值以及結(jié)合BP值分析生物的系統(tǒng)拓?fù)潢P(guān)系更有效的方法。同時(shí)也比UPGMA法有效,而與NJ法得到的結(jié)論相似。
本研究利用30匹蒙古馬的線粒體DNA中的D-loop高變區(qū)序列對(duì)蒙古馬的105個(gè)候補(bǔ)系統(tǒng)發(fā)育樹進(jìn)行了分析,采用最大似然法,并利用生物信息軟件Mega6、PAMAL4.9等估計(jì)出蒙古馬的最大似然樹。最后利用CONSEL和R3.0中的SDBP軟件包等計(jì)算了105個(gè)候補(bǔ)系統(tǒng)發(fā)育樹的SDBP值。結(jié)合三河馬的特殊血緣關(guān)系分析出:除去普氏野馬共有3個(gè)分支,巴爾虎馬與烏審馬合并為一個(gè)分支,具有較近的遺傳關(guān)系;烏珠穆沁馬與錫尼河馬具有較近的遺傳關(guān)系;三河馬與其他4種蒙古馬獨(dú)立地分出來構(gòu)成一個(gè)系統(tǒng)發(fā)育分支。通過對(duì)蒙古馬的分析表明,采用最大似然法結(jié)合SDBP值分析生物的系統(tǒng)拓?fù)潢P(guān)系是較最大似然法結(jié)合AU值以及結(jié)合BP值分析生物的系統(tǒng)拓?fù)潢P(guān)系更有效的方法。同時(shí)也比UPGMA法有效,而與NJ法得到相似的結(jié)論。