馬巍威,劉依明,董丙君,楊寶田(沈陽(yáng)師范大學(xué)生命科學(xué)學(xué)院,遼寧沈陽(yáng) 110034)
DNA條形碼不同分析方法對(duì)鹿類動(dòng)物識(shí)別效果的比較
馬巍威,劉依明,董丙君,楊寶田
(沈陽(yáng)師范大學(xué)生命科學(xué)學(xué)院,遼寧沈陽(yáng) 110034)
DNA條形碼技術(shù)的任務(wù)是根據(jù)線粒體COI基因的小片段序列來(lái)識(shí)別樣本到指定物種。本研究采用11種指派分析方法對(duì)8種鹿科動(dòng)物30個(gè)樣本序列進(jìn)行分析,分別檢測(cè)各分析方法的性能。結(jié)果表明,采用隨機(jī)森林法和支持向量機(jī)法對(duì)鹿類動(dòng)物DNA條形碼分類最為可靠。沒(méi)有可以適用任何情況的單一方法,對(duì)表現(xiàn)性能影響最大的因素是分子數(shù)據(jù)多態(tài)性。通過(guò)增加基因位點(diǎn)、增加測(cè)序長(zhǎng)度和樣本量可以改進(jìn)多數(shù)方法的預(yù)測(cè)性能,另外,選擇對(duì)分類樣本最適用的分析方法可以提高分析質(zhì)量。
COI;DNA條形碼;鹿科動(dòng)物;物種識(shí)別
DNA條形碼技術(shù)旨在應(yīng)用線粒體、核或質(zhì)體DNA的一個(gè)較短片段作為標(biāo)記,在物種水平上對(duì)現(xiàn)存生物類群和未知生物材料進(jìn)行識(shí)別和鑒定[1]。DNA條形碼具有可靠性強(qiáng)、成本低廉和簡(jiǎn)便易行等特性,可以在沒(méi)有分類學(xué)專家參與的情況下,提供物種識(shí)別功能。線粒體細(xì)胞色素C氧化酶亞單元I(COI)是公認(rèn)的動(dòng)物識(shí)別DNA條形碼候選基因[2]。生命條形碼數(shù)據(jù)系統(tǒng)(Barcode of life data system,BOLD)是挖掘、儲(chǔ)存和應(yīng)用DNA條形碼的全球數(shù)據(jù)庫(kù)[3],截至目前,該數(shù)據(jù)庫(kù)共記錄偶蹄目動(dòng)物210種,條形碼序列3254條,其中鹿科動(dòng)物40種,條形碼序列804條。
DNA條形碼技術(shù)能夠有效鑒別和分類許多動(dòng)物物種和類群[4-10],但這個(gè)目標(biāo)的實(shí)現(xiàn)需要可靠的數(shù)學(xué)運(yùn)算和分析方法。DNA條形碼分析方法概括起來(lái)有基于系統(tǒng)樹的方法(Tree-based methods)[11-13]、基于相似性的方法(Similarity-based methods)[5, 14]、基于特征(字符或堿基)的方法(Character-based methods)[15-18]、統(tǒng)計(jì)方法(Statistical methods)[19-21]、人工智能方法(Artificial intelligence-based methods)[22-23]和模糊集合理論方法(Fuzzy set theory-based methods)[24]。Weitschek等(2014)[25]提出監(jiān)督分類法(Supervised classification methods)概念,也就是通過(guò)對(duì)已知物種的DNA條形碼參考序列(reference library)分析將需要識(shí)別的未知樣本序列(query set)指定到現(xiàn)存物種庫(kù)。監(jiān)督分類法包括最近鄰法(1-Nearest neighbour,1-NN)、隨機(jī)森林法(Random forest,RF)、基于函數(shù)的支持向量機(jī)法(Support vector machines,SVM)、內(nèi)核函數(shù)法(Kernel functions)、基于規(guī)則的RIPPER法(Jrip)、決策樹(Decision tree,J48)法等。
中國(guó)有18種鹿科(Cervidae)動(dòng)物分布[26],它們?cè)谏锒鄻有院蜕鷳B(tài)系統(tǒng)中占有非常重要的地位。受生態(tài)環(huán)境的破壞、棲息地喪失和非法捕獵等因素的影響,其野生種群數(shù)量在急劇減少,有的甚至已經(jīng)滅絕,許多鹿類動(dòng)物已被列為瀕危物種[27]。為有效保護(hù)鹿類野生動(dòng)物,促進(jìn)資源的可持續(xù)發(fā)展,需要對(duì)這些動(dòng)物種類及其產(chǎn)品進(jìn)行有效的分子鑒定。由于需要分類的生物類群不同或采用的DNA條形碼基因位點(diǎn)及序列長(zhǎng)度不同,在物種識(shí)別能力和效果上存在一定的差異。本文選取DNA條形碼11種分析方法對(duì)8種鹿科動(dòng)物進(jìn)行鑒別,以檢測(cè)不同方法在鹿類動(dòng)物分子識(shí)別中的有效性。
1.1 樣本收集
動(dòng)物樣本分為糞便樣本和皮毛樣本。以河麂(Hydropotesinermis,朝鮮亞種5個(gè))、西伯利亞狍(Capreoluspygargus,7個(gè))、梅花鹿(Cervusnippon,3個(gè))、馬鹿(Cervuselaphus,7個(gè))、馴鹿(Rangifertarandus,1個(gè))、麋鹿(Elaphurusdavidianus,3個(gè))、黇鹿(Damadama,3個(gè))和小麂(Muntiacusreevesi,1個(gè))共8種鹿科動(dòng)物30個(gè)樣本作為研究對(duì)象。借助全國(guó)第二次陸生野生動(dòng)物資源調(diào)查工作,在遼寧東部桓仁縣和寬甸縣采集朝鮮河麂糞便樣本3份,其余2份為皮毛樣本,采自老禿頂子國(guó)家級(jí)自然保護(hù)區(qū)標(biāo)本館館藏河麂標(biāo)本。其余動(dòng)物糞便樣本采自遼寧省遼陽(yáng)縣特種動(dòng)物養(yǎng)殖場(chǎng)。糞便樣本采集用一次性手套,裝入塑料自封袋中置于液氮罐中冷凍帶回,于-25℃冰箱中冷藏備用。
在GenBank和BOLD下載43條COI參考序列,除包括上述8個(gè)物種外,還有歐洲狍(Capreoluscapreolus)、黑麂(Muntiacuscrinifrons)、赤麂(Muntiacusmuntjak)3種鹿科動(dòng)物以及馬麝(Moschuschrysogaster)和林麝(Moschusberezovskii)2個(gè)麝科(Moschidae)物種在系統(tǒng)樹構(gòu)建中作為外群。
1.2 基因組DNA的提取、PCR擴(kuò)增及測(cè)序
基因組提取試劑盒分別購(gòu)自上海生工及QIAGEN、TIANGEN、AXYGEN公司,TaqDNA聚合酶購(gòu)自大連寶生物工程公司,引物由北京華大基因公司合成。毛皮樣本利用TIANGEN、AXYGEN試劑盒提取基因組,糞便樣本用上海生工生產(chǎn)的磁珠法土壤試劑盒和QIAGEN糞便試劑盒提取基因組,-20℃條件下保存?zhèn)溆谩?/p>
COI基因片段擴(kuò)增采用一對(duì)通用引物(COI-F:5’-TTCATTAACCGCTGATTATTTTCAAC-3’;COI-R:5’-CACGATATGAGAAATTATACCAAACC-3’)和簡(jiǎn)并引物(DCIF15:5’-CGCAGGRGCTTCAGTAGAC-3’;DCIR12:5’-TRCCTCCRTGRAGTGTTGCT-3’)完成。PCR反應(yīng)體積為25μl,其中Premix TaqTM(Ex TaqTM Version 2.0)混合液12.5μl,上下游引物各0.5μl、BSA 2.5μl、DNA模板2μl、超純水7μl。PCR反應(yīng)條件:95℃預(yù)變性7min,95℃變性45s,54℃退火45s,72℃延伸1min,36個(gè)循環(huán)。最后72℃延伸7min。每次PCR設(shè)立不含模板DNA的空白對(duì)照。在ABI2720 PCR儀上進(jìn)行擴(kuò)增,擴(kuò)增產(chǎn)物經(jīng)1%瓊脂糖凝膠電泳檢測(cè)后送北京華大基因有限公司測(cè)序。
1.3 DNA條形碼序列分析
所測(cè)得COI序列經(jīng)Blast搜索驗(yàn)證其可靠性,用MEGA 5軟件[28]進(jìn)行序列片段的拼接組裝和多重比對(duì),并將序列翻譯成氨基酸以檢驗(yàn)是否出現(xiàn)終止密碼。把驗(yàn)證比對(duì)后的43條參考序列(reference)和30條查詢序列(query)用于11種算法進(jìn)行分析:條形碼空隙探查法(ABGD)、鄰接樹法(NJ)、條形碼邏輯公式法(BLOG)、最近鄰法(1-NN)、決策樹法(J48)、規(guī)則算法(Jrip)、隨機(jī)森林法(RF)、支持向量機(jī)法(SVM)、反向傳播算法(BP-based)、模糊集合算法(fuzzy set-based)和貝葉斯法(Bayesian-based)。
(1)NJ樹:用MEGA 5軟件構(gòu)建基于K2P模型的NJ樹,并進(jìn)行1000次重復(fù)抽樣的自展值檢驗(yàn)。(2)ABGD:用ABGD軟件估計(jì)分子可操作分類單元[29]。將查詢序列以及由參考序列和查詢序列組成的全部序列(reference+query)分別提交給在線軟件(http://wwwabi.snv.jussieu.fr/public/abgd/abgdweb.html),選擇K2P模型計(jì)算遺傳距離,其余參數(shù)使用默認(rèn)值?;谶z傳距離對(duì)樣本進(jìn)行劃分,將劃分在同一組的樣本認(rèn)定為1個(gè)物種。(3)BLOG:將參考序列和查詢序列按照文件格式要求分別輸入BLOG 2.0軟件[15],SCTYPE參數(shù)設(shè)為2,其余參數(shù)為缺省值。(4)1-NN、J48、Jrip、RF和SVM等5種分析方法在Weka 3.8.0軟件[30]上運(yùn)行。用Weka軟件包中的fasta2weka程序?qū)⒖夹蛄形募筒樵冃蛄形募謩e轉(zhuǎn)換為ARFF格式,后在Weka軟件的Explorer模塊下將參考序列文件輸入程序,選擇1-NN、J48、Jrip、RF和SVM等5種分類器分別對(duì)查詢序列進(jìn)行分析。(5)BP-based、Fuzzy set-based和Bayesian-based等3種分析方法用基于R的BarcodingR軟件[31]進(jìn)行。在ape程序包[32]下讀入序列數(shù)據(jù)集并對(duì)參考序列與查詢序列分布進(jìn)行設(shè)置,用“bpNewTraining”“fuzzyId”和“Bayesian”命令進(jìn)行相應(yīng)分析。為評(píng)估種內(nèi)以及種間遺傳距離邊界值,用BarcodingR軟件進(jìn)行了條形碼空隙分析。
30個(gè)樣本中的鹿類動(dòng)物線粒體COI基因部分序列經(jīng)比對(duì)分析得到長(zhǎng)度為700bp的片段。
2.1 NJ樹
NJ樹顯示種間序列分歧明顯大于種內(nèi)分歧(圖1),與目前鹿科動(dòng)物分類系統(tǒng)一致。但其中馬鹿樣本被聚類為2個(gè)枝,表明馬鹿種內(nèi)COI基因存在較高的變異。
2.2 ABGD
以0.001~0.100的先驗(yàn)值P區(qū)間對(duì)查詢序列30個(gè)樣本進(jìn)行劃分,顯示初始劃分(initial partition)和遞歸劃分(recursive partition)兩種情況(圖2)。初始劃分較為穩(wěn)定,30個(gè)樣本均被分成7個(gè)組,而遞歸劃分出現(xiàn)過(guò)度劃分的情況。初始劃分可操作分類單元數(shù)目除了將馬鹿與梅花鹿合并為1個(gè)外,其余樣本與采樣物種一一對(duì)應(yīng),物種劃分準(zhǔn)確率87.5%。查詢序列樣本正確識(shí)別率90%。
圖1 30個(gè)樣本13個(gè)物種的NJ樹
2.3 BLOG
BLOG可成功識(shí)別所有參考序列特征堿基(表1)。對(duì)于查詢序列BLOG成功識(shí)別21個(gè)樣本,正確識(shí)別率為70%。未能識(shí)別序列9條,占查詢序列的30%。未能識(shí)別序列來(lái)自馬鹿5條、西伯利亞狍2條、河麂2條。
表1 基于43條COI參考序列的特征堿基診斷結(jié)果
2.4 1-NN
優(yōu)化選擇1-NN分類器模型對(duì)查詢序列進(jìn)行分類評(píng)估,成功識(shí)別分類26個(gè)樣本,正確辨識(shí)率86.67%。3個(gè)黇鹿序列分類錯(cuò)誤,被識(shí)別為馬鹿,1個(gè)小麂樣本被識(shí)別為梅花鹿,誤報(bào)率為13.33%。
2.5 J48
基于決策樹的J48算法正確識(shí)別查詢序列中18個(gè)樣本,占查詢序列樣本總數(shù)的60%。5個(gè)西伯利亞狍樣本、1個(gè)黇鹿樣本、3個(gè)麋鹿樣本、2個(gè)河麂樣本和1個(gè)馴鹿樣本未能正確識(shí)別,占比40%。
2.6 Jrip
Jrip方法設(shè)定了8項(xiàng)規(guī)則,正確識(shí)別分類10個(gè)查詢序列樣本,包括2個(gè)西伯利亞狍樣本、3個(gè)梅花鹿樣本、2個(gè)黇鹿樣本和3個(gè)河麂樣本,正確識(shí)別率為33.33%。
2.7 RF
RF計(jì)算采用100次迭代抽樣分析,正確識(shí)別了所有查詢序列樣本,正確辨識(shí)率100%。
2.8 SVM
SVM采用Linear Kernel模型,正確識(shí)別分類30個(gè)查詢序列樣本,正確識(shí)別率100%。
2.9 BP-based
采用人工智能的BP-based算法正確識(shí)別26個(gè)查詢序列樣本,正確識(shí)別率86.67%。識(shí)別錯(cuò)誤的為3個(gè)黇鹿樣本和1個(gè)小麂樣本。
2.10 Fuzzy set-based
模糊數(shù)據(jù)集算法正確識(shí)別了3個(gè)河麂樣本、3個(gè)梅花鹿樣本和2個(gè)馬鹿樣本共8條查詢序列,正確識(shí)別率26.67%。
2.11 Bayesian-based
貝葉斯算法的識(shí)別率很低,只有3個(gè)河麂和2個(gè)馬鹿的查詢序列樣本被成功分類,僅占全部查詢序列的16.67%。
本研究以8種鹿科動(dòng)物為例,比較DNA條形碼不同分析方法在該類動(dòng)物分類中的解析能力和準(zhǔn)確性。結(jié)果顯示,11種分析方法在鹿類動(dòng)物分類中的解析能力和準(zhǔn)確性存在較大差異。NJ樹分析除馬鹿外,其它各物種的樣本都能夠獨(dú)立聚類為一枝,而馬鹿樣本被分割為2個(gè)亞枝。馬鹿與梅花鹿親緣關(guān)系密切,屬于近期分離物種,對(duì)二者的分子識(shí)別鑒定存在一定的復(fù)雜性和難度,這與Cai等(2015)[33]研究結(jié)果一致。其余10種可量化準(zhǔn)確率的分析結(jié)果見圖3,RF和SVM方法正確分類了全部30個(gè)查詢序列樣本,正確率達(dá)到100%,且二者間無(wú)顯著差異(p>0.05)。ABGD、1-NN和BP-based 3種方法也有較強(qiáng)的解析能力,正確率達(dá)到或接近90%。而其他5種方法對(duì)鹿科動(dòng)物DNA條形碼的鑒別能力較弱,正確識(shí)別率小于(或等于)70%。RF和SVM法與其他方法鑒別結(jié)果存在顯著差異(p<0.001)。
圖3 可量化準(zhǔn)確率的10種DNA條形碼分析方法效果比較
DNA條形碼分析方法不同,其機(jī)理和運(yùn)算手段存在差異。SVM算法是具有較強(qiáng)識(shí)別力的分類器,它能夠轉(zhuǎn)化多維向量中的參考數(shù)據(jù)對(duì)象并定義對(duì)象中的分類超平面邊界,以此作為不同分類標(biāo)準(zhǔn)。來(lái)自于查詢序列的新對(duì)象按照這個(gè)分類超平面被評(píng)估分類。該方法最為重要的特性之一是它能夠通過(guò)線性核函數(shù)進(jìn)行有效的輸入空間非線性轉(zhuǎn)換,以實(shí)現(xiàn)高分類準(zhǔn)確性[25,34-35]。在DNA條形碼分類運(yùn)算上,RF方法從參考序列中無(wú)重復(fù)地抽取多態(tài)位點(diǎn)作為子集建立大批量分類樹,再用標(biāo)記物種的多數(shù)一致樹將查詢序列樣本分類到物種。上述2種方法實(shí)現(xiàn)了對(duì)檢測(cè)樣本的正確鑒別,顯示其對(duì)鹿類動(dòng)物分子識(shí)別的適用性。
ABGD自動(dòng)探查DNA條形碼序列對(duì)之間遺傳距離分布的空隙,并找到空隙位置的距離值[29],將導(dǎo)入的查詢序列分組到幾個(gè)假定物種中。該方法對(duì)于有重疊分布的數(shù)據(jù)也能夠有效分配,但要求有適當(dāng)?shù)淖畲蠓N內(nèi)分歧先驗(yàn)值,這個(gè)值一般在1%~3%之間,本研究為3%。少數(shù)情況下ABGD會(huì)出現(xiàn)多重物種臆測(cè),即一個(gè)物種被分成2個(gè)(或相反),如遞歸劃分的過(guò)度劃分和馬鹿與梅花鹿的并組現(xiàn)象。當(dāng)數(shù)據(jù)中不存在條形碼空隙時(shí)ABGD就不能作出基本的分類單元?jiǎng)澐帧?/p>
BLOG診斷方法以DNA條形碼關(guān)鍵核苷酸位點(diǎn)作為物種簡(jiǎn)單特征,形成邏輯規(guī)則并以此作為分類依據(jù)診斷查詢序列樣本的物種歸屬。如麋鹿的識(shí)別:如果348位點(diǎn)是C,那么這個(gè)序列樣本就是麋鹿。BLOG診斷方法對(duì)查詢序列樣本有較高的正確識(shí)別率[36]。
1-NN方法把參考序列與查詢序列按照K2P距離遠(yuǎn)近排序,將查詢序列中最近鄰樣本歸類到所屬物種,如果有2個(gè)以上查詢序列樣本具有相同距離時(shí)則將它們歸為一組同級(jí)別類群[14]。Jrip算法通過(guò)對(duì)數(shù)據(jù)集進(jìn)行重復(fù)增量修剪來(lái)構(gòu)建一套初始規(guī)則,再利用這套優(yōu)化規(guī)則對(duì)查詢序列樣本逐一分類,直到對(duì)所有樣本的全覆蓋。J48分類法按照信息增益為樹的每個(gè)節(jié)點(diǎn)尋找最佳分裂點(diǎn)和最優(yōu)特征,但所謂決策樹并非終結(jié)的頂點(diǎn),其結(jié)構(gòu)簡(jiǎn)單,僅代表著1個(gè)或幾個(gè)檢驗(yàn)屬性。由于參考序列變異性會(huì)產(chǎn)生不同屬性特征,因而決策樹有不穩(wěn)定的弱點(diǎn)。
BP-based算法借鑒最新人工智能技術(shù),通過(guò)定義神經(jīng)網(wǎng)絡(luò)對(duì)參考序列網(wǎng)絡(luò)進(jìn)行驗(yàn)證,最后利用經(jīng)培訓(xùn)的網(wǎng)絡(luò)對(duì)查詢序列樣本進(jìn)行識(shí)別分類。模糊集合是經(jīng)典數(shù)據(jù)集概念的擴(kuò)展,不同于二進(jìn)制評(píng)估經(jīng)典理論,模糊集理論對(duì)數(shù)據(jù)中各元素逐級(jí)評(píng)估,對(duì)于數(shù)據(jù)不完整或不精確的生物信息分析有很好的應(yīng)用價(jià)值。該方法通過(guò)定義物種從屬函數(shù),搜索查詢序列樣本最鄰近的潛在物種。
DNA條形碼技術(shù)的目的是利用小DNA片段數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)查詢序列樣本的物種分類[37],這個(gè)小片段必須有高信息含量。由于不同物種間可能會(huì)共享許多多態(tài)位點(diǎn)(它們?cè)谧嫦任锓N中或許是多態(tài)的),這些多態(tài)位點(diǎn)的固定以及突變?cè)诟髯晕锓N中的特異體現(xiàn)都需要相當(dāng)長(zhǎng)的時(shí)間,因而對(duì)現(xiàn)生的近期分離物種用DNA條形碼進(jìn)行物種鑒定存在一定困難。本研究選取的11種分析方法在近期與遠(yuǎn)古分離物種識(shí)別能力上就存在差異,總體上看對(duì)近期分離物種的識(shí)別能力低于遠(yuǎn)古物種。另外,由于不完全的世系排序或低突變率以及缺少條形碼特征位點(diǎn)[37],DNA條形碼的識(shí)別能力會(huì)受到很大限制。這些問(wèn)題可以通過(guò)增加取樣數(shù)量、增加測(cè)序長(zhǎng)度或增加基因位點(diǎn)(如核基因)等手段,適當(dāng)增加信息含量加以解決。
本研究證明,基于COI基因的DNA條形碼能夠有效和準(zhǔn)確識(shí)別大多數(shù)鹿科動(dòng)物。從比較結(jié)果看,沒(méi)有普遍適用的方法,RF和SVM法識(shí)別正確率最高。對(duì)識(shí)別檢測(cè)性能影響最大的是DNA分子的多態(tài)性程度,通過(guò)增加DNA條形碼信息含量或選擇對(duì)分類樣本最為適用的分析方法,提高多數(shù)分析方法的預(yù)測(cè)性能。
[1]Hebert PDN,Cywinska A,Ball SL,et al.Biological identifications through DNA barcodes[J].Proc. R.Soc.Lond. B,2003,270(1512):313-321.
[2]Hebert PDN,Ratnasingham S,deWaard JR.Barcoding animal life:cytochrome c oxidase subunit 1 divergences among closely related species[J].Proc.R.Soc. Lond. B(Suppl.)2003,270(Suppl_1):S96-S99.
[3]Ratnasingham S,Hebert PDN.BOLD:The barcode of life data system(www.barcodinglife.org)[J].Molecular Ecology Notes,2007,7(3):355-364.
[4]Dellicour S,Flot JF.Delimiting species-poor data sets using single molecular markers: A study of barcode gaps, haplowebs and GMYC[J].Systematic Biology,2015,64(6):900-908.
[5]Meier R,Shiyang K,Vaidya G,et al.DNA barcoding and taxonomy in Diptera:a tale of high intraspecific variability and low identification success[J].Syst Biol,2006,55(5):715-728.
[6]Schmidt S,Schmid-Egger C,Morinière J,et al.DNA barcoding largely supports 250 years of classical taxonomy: identifications for Central European bees (Hymenoptera, Apoidea partim)[J].Molecular Ecology Resources,2015, 15(4):985-1000.
[7]Li J,Zheng X,Cai Y,et al.DNA barcoding of Murinae (Rodentia: Muridae) and Arvicolinae(Rodentia:Cricetidae) distributed in China[J].Molecular Ecology Resources,2014,15(1):153-167.
[8]Clare EL,Lim BK,Engstrom MD,et al.DNA barcoding of Neotropical bats:species identification and discovery within Guyana[J].Molecular Ecology Notes,2007,7(2):184-190.
[9]何鍇,王文智,李權(quán),等.DNA 條形碼技術(shù)在小型獸類鑒定中的探索:以甘肅蓮花山為例[J].生物多樣性,2013,21(2): 197-205.
[10]馬英,李海龍,魯亮,等.DNA 條形碼技術(shù)在青海海東地區(qū)小型獸類鑒定中的應(yīng)用[J].生物多樣性,2012,20(2):193-198.
[11]Saitou N,Nei M.The neighbour-joining method: a new method for reconstructing phylogenetic trees[J].Mol Biol Evol Appl,1987,4(4):406-425.
[12]Farris JS.Estimating phylogenetic trees from distance matrices[J].Am Nat,1972,106(951):645-668.
[13]Munch K,Boomsma W,Huelsenbeck JP,et al.Statistical assignment of DNA sequences using Bayesian phylogenetics [J].Systematic Biology,2008,57(5):750-757.
[14]Austerlitz F,David O,Schaeffer B,et al.DNA barcode analysis: a comparison of phylogenetic and statistical classification methods[J].BMC Bioinformatics,2009,10(14):S10.
[15]Weitschek E,Velzen R,Felici G,et al.BLOG 2.0: a software system for character-based species classification with DNA barcode sequences.What it does,how to use it[J].Molecular Ecology Resources,2013,13(6):1043-1046.
[16]Dasgupta B,Konwar KM,Ndoiu II,et al.DNA-BAR:distinguisher selection for DNA barcoding[J].Bioinformatics, 2005,21(16):3424-3426.
[17]Little DP.DNA barcode sequence identification incorporating taxonomic hierarchy and within taxon variability [J].PLoS ONE,2011,6(8):e20552.
[18]Little DP.BRONX2:Barcode recognition obtained with nucleotide eXposés [R].2012.
[19]Nielsen R,Matz M.Statistical approaches for DNA barcoding[J].Systematic Biology,2006,55(1):162-169.
[20]Matz MV,Nielsen R.A likelihood ratio test for species membership based on DNA sequence data[J].Phil.Trans.R.Soc.B,2005,360(1462):1969-1974.
[21]Abdo Z,Golding GB.A Step toward barcoding life:a model-based,decision-theoretic method to assign genes to preexisting species groups[J].Systematic Biology,2007,56(1):44.
[22]Zhang AB.Inferring species membership using DNA sequences with back-propagation neural networks[J].Systematic Biology,2008,57(2):202-215.
[23]Zhang AB,Feng J,Ward RD,et al.A new method for species identification via protein-coding and non-coding DNA barcodes by combining machine learning with bioinformatic methods[J].PLoS ONE,2012,7(2):e30986.
[24]Zhang AB,Muster C,Liang HB,et al.A fuzzy-set-theory-based approach to analyse species membership in DNA barcoding[J].Molecular Ecology,2012,21(8):1848-1863.
[25]Weitschek E,Fiscon G,Felici G.Supervised DNA barcodes species classification:analysis,comparisons and results[J].BioData Mining,2014,7(1):4.
[26]王應(yīng)祥.中國(guó)哺乳動(dòng)物種和亞種分類明錄與分布大全[M].北京:中國(guó)林業(yè)出版社,2003.
[27]蔣志剛,江建平,王躍招,等.中國(guó)脊椎動(dòng)物紅色名錄[J].生物多樣性,2016,24(5):500-551.
[28]Tamura K,Peterson D,Peterson N,et al.MEGA5: Molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance, and maximum parsimony methods[J].Molecular Biology and Evolution,2011, 28(10):2731-2739.
[29]Puillandre N,Lambert A,Brouillet S,et al.ABGD,Automatic barcode gap discovery for primary species delimitation[J].Molecular Ecology,2012,21(8):1864-1877.
[30]Hall M,Frank E,Holmes G,et al.The WEKA data mining software: an update[J].SIGKDD Explorations, 2009,11(1):10-18.
[31]Zhang AB,Hao MD,Yang CQ,et al.Barcoding R:an integrated R package for species identification using DNA barcodes[J].Methods in Ecology and Evolution,2016,DOI:10.1111/2041-210X.12682.
[32]Paradis E,Claude J,Strimmer K.APE:Analyses of phylogenetics and evolution in R language[J]. Bioinformatics, 2004,20(2):289-290.
[33]Cai Y,Zhang L,Wang Y,et al.Identification of deer species(Cervidae,Cetartiodactyla) in China using mitochondrial cytochrome c oxidase subunit I(mtDNA COI)[J].Mitochondrial DNA,2015:1-4.
[34]Fischetti M.Fast training of support vector machines with gaussian kernel[J].Discrete Optimization,2015(22):183-194.
[35]Kuksa P,Pavlovic V.Fast kernel methods for SVM sequence classifiers[J].Lecture Notes in Computer Science,2007,4645:228-239.
[36]Van Velzen R,Weitschek E,Felici G,et al.DNA barcoding of recently diverged species:relative performance of matching methods[J].PLoS ONE,2012,7(1):e30490.
[37]Meusnier I,Singer G,Landry JF,et al.A universal DNA mini-barcode for biodiversity analysis [J].BMC Genomics, 2008,9(1):214.
DNA Barcode Analysis: A Comparison of Performance Between Different Classification Methods in Deer Species
MA Wei-wei, LIU Yi-ming, DONG Bing-jun, YANG Bao-tian
(College of Life Science, Shenyang Normal University, Shenyang Liaoning 110034,China)
DNA barcoding aims to assign individuals to given species according to their sequence at a small locus, generally part of the COI gene. In this context, we examined 11 assignation methods in 8 deer species and investigated the ability of each method to correctly classify 30 query sequences. The results indicated that both of random forest and support vector machines were found to be the most reliable with respect to the data sets from deer. No method was found to be the best in all cases. The element most influencing the performance of the various methods was molecular diversity of the data. All of addition of genetically independent loci, lengthening sequences and increasing the sample size improved the predictive performance of most methods. The study implies that the quality of analyses was enhanced by choosing a method best-adapted to the sample.
COI;DNA barcoding;Cervidae;species identification
2016-12-20
遼寧省自然科學(xué)基金指導(dǎo)計(jì)劃項(xiàng)目“東北林蛙個(gè)體分子鑒別與群體遺傳學(xué)研究”(201602677)。
馬巍威(1990- ),男,碩士研究生,從事分子生態(tài)學(xué)研究。
楊寶田(1963- ),男,副教授,碩士生導(dǎo)師,博士,從事野生動(dòng)物保護(hù)及分子生態(tài)學(xué)研究。
Q959.5+3
A
2095-7602(2017)04-0054-07