石林春+姚輝+謝麗芳+朱英杰+宋經(jīng)元+張輝+陳士林
[摘要]課題組聯(lián)合相關(guān)研究者開(kāi)展動(dòng)物藥材DNA條形碼分子鑒定研究,并結(jié)合分析GenBank序列,采用BLAST分析防錯(cuò)、系統(tǒng)樹(shù)分析防錯(cuò)和Barcoding Gap檢驗(yàn)防錯(cuò)等方法核驗(yàn)序列的可靠性,構(gòu)建了中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)。該庫(kù)由樣品數(shù)據(jù)庫(kù)、序列數(shù)據(jù)庫(kù)和文獻(xiàn)數(shù)據(jù)庫(kù)組成,包含800余種動(dòng)物藥材和大量動(dòng)物藥材混偽品及密切相關(guān)物種。中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)可以通過(guò)中藥材DNA條形碼鑒定系統(tǒng)(www.tcmbarcode.cn)進(jìn)行網(wǎng)絡(luò)訪問(wèn)并實(shí)現(xiàn)未知?jiǎng)游飿颖镜腄NA條形碼鑒定。該研究首次構(gòu)建統(tǒng)一的中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù),對(duì)動(dòng)物藥材鑒定、資源可持續(xù)利用和瀕危物種保護(hù)均有重要意義。
[關(guān)鍵詞]動(dòng)物藥材;數(shù)據(jù)庫(kù);COI;鑒定
DNA條形碼技術(shù)是動(dòng)物藥材鑒定的新工具[1],國(guó)家藥典委員會(huì)已討論通過(guò)在《中國(guó)藥典》增補(bǔ)本中列入中藥材DNA條形碼分子鑒定指導(dǎo)原則[2]。本課題組聯(lián)合相關(guān)研究者開(kāi)展了大量的動(dòng)物藥材DNA條形碼分子鑒定研究工作。鄢丹等對(duì)包含羚羊角、鹿角的傳統(tǒng)角類(lèi)藥材進(jìn)行DNA條形碼研究[3],并以此為基礎(chǔ)提出了瀕危動(dòng)物藥材的貿(mào)易監(jiān)控和替代品尋找策略[4]。張輝等對(duì)《中國(guó)藥典》45種動(dòng)物藥材及其混偽品進(jìn)行DNA條形碼研究,結(jié)果表明45種動(dòng)物藥材的正品來(lái)源與其混偽品均可相互區(qū)分[5]。崔麗娜等利用COI序列對(duì)金錢(qián)白花蛇及其常見(jiàn)混偽品進(jìn)行DNA條形碼鑒別研究,結(jié)果表明,金錢(qián)白花蛇COI序列可以明確地與混偽品區(qū)分開(kāi)[6]。胡嶸等對(duì)海馬、海龍及其混偽品共14個(gè)種20份樣品的COI條形碼序列進(jìn)行研究,結(jié)果表明運(yùn)用COI序列能夠準(zhǔn)確鑒定海馬、海龍的基原動(dòng)物及其混偽品[7]。此外,還開(kāi)展了龜甲、鱉甲、鹿茸以及蛤殼等的DNA條形碼研究工作[8-11]。動(dòng)物DNA條形碼分子鑒定研究工作的大量開(kāi)展,為構(gòu)建中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)奠定了基礎(chǔ)。
DNA條形碼數(shù)據(jù)庫(kù)不僅是存儲(chǔ)樣品信息和DNA條形碼序列的工具,而且是DNA條形碼研究和物種鑒定分析的生物信息學(xué)平臺(tái),對(duì)推動(dòng)DNA條形碼研究發(fā)展具有重要意義[12]。第一個(gè)國(guó)際DNA條形碼數(shù)據(jù)系統(tǒng)(BOLD)由國(guó)際生命條形碼聯(lián)盟(CBOL)于2007年建立[13]。此外,國(guó)際上還有多個(gè)針對(duì)特定動(dòng)物類(lèi)群的條形碼數(shù)據(jù)庫(kù),如:Fish Barcode of Life Campaign (FISH-BOL,http://www.fishbol.org/),Lepidoptera Barcode of Life(http://lepbarcoding.org/),Mammalia Barcode of Life Campaign(http://www.mammaliabol.org/)。此外,邵鵬柱等初步構(gòu)建了傳統(tǒng)藥物DNA條形碼數(shù)據(jù)庫(kù)(http://137.189.42.34/mherbsdb/),包含1 661個(gè)物種,36 679條序列[14]。當(dāng)前,我國(guó)尚未構(gòu)建統(tǒng)一的動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù),制約了DNA條形碼技術(shù)在動(dòng)物藥材鑒定、資源可持續(xù)利用和瀕危物種保護(hù)中的進(jìn)一步應(yīng)用。
1 材料
中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)中的序列來(lái)自于課題組聯(lián)合相關(guān)研究者所開(kāi)展的動(dòng)物藥材DNA條形碼分子鑒定研究及GenBank,包含800余種動(dòng)物藥材和大量動(dòng)物藥材混偽品及密切相關(guān)物種(表1)。
2 方法
對(duì)包含測(cè)序峰圖的樣品,根據(jù)Q值進(jìn)行單堿基和序列質(zhì)量檢測(cè)。對(duì)不包含測(cè)序峰圖的樣品,使用EMBOSS Transeq將核酸序列翻譯為蛋白序列,利用隱馬爾可夫模型(hidden Markov model,HMM)進(jìn)行COI條形碼區(qū)域核驗(yàn)[13]。采用BLAST分析防錯(cuò)、系統(tǒng)樹(shù)分析防錯(cuò)和Barcoding Gap檢驗(yàn)防錯(cuò)等核驗(yàn)COI序列的可靠性[2],使用Muscle 3.8 進(jìn)行多序列比對(duì)[15],使用Paup 4.0進(jìn)行遺傳距離計(jì)算[16],使用MEGA 6.0構(gòu)建NJ(鄰接法)系統(tǒng)聚類(lèi)樹(shù)[17]。使用BLAST方法進(jìn)行物種鑒定分析,使用MySQL進(jìn)行數(shù)據(jù)庫(kù)管理,通過(guò)MySQLdb連接MySQL數(shù)據(jù)庫(kù)。
3 結(jié)果與討論
3.1 數(shù)據(jù)庫(kù)構(gòu)成 中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)由樣品數(shù)據(jù)庫(kù)、序列數(shù)據(jù)庫(kù)和文獻(xiàn)數(shù)據(jù)庫(kù)構(gòu)成。樣品數(shù)據(jù)庫(kù)包含完整的樣品采集和鑒定信息,即:樣品編號(hào)、分類(lèi)信息、憑證信息、采集者、采集地、鑒定者、1張到數(shù)張樣品及生境照片等。從GenBank中下載GB格式文件,利用BioPython進(jìn)行解析。僅保留物種分類(lèi)地位清晰,拉丁名不包含“sp.”,“spp.”等字符的Record。提取Record注釋中基因名稱(chēng)為“COI”或“CO1”區(qū)域的序列,如Record來(lái)自于已發(fā)表的文獻(xiàn),收集該文獻(xiàn)的PubMed ID、題目、作者、期刊、摘要等信息構(gòu)成文獻(xiàn)數(shù)據(jù)庫(kù)。此外,文獻(xiàn)數(shù)據(jù)庫(kù)還包含本課題組聯(lián)合相關(guān)研究者所開(kāi)展的動(dòng)物藥材DNA條形碼分子鑒定研究文獻(xiàn)。中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)包含2010年版《中國(guó)藥典》[18]和《中國(guó)藥用動(dòng)物志》(第2版)[19]所載800余種動(dòng)物藥材和大量動(dòng)物藥材的混偽品和密切相關(guān)物種的COI序列。此外,中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)還包含樣品采集、樣品處理、DNA提取、PCR 擴(kuò)增、測(cè)序、序列拼接及結(jié)果判定等的標(biāo)準(zhǔn)操作方法和技術(shù)流程(圖1)。
3.2 數(shù)據(jù)庫(kù)動(dòng)態(tài)管理 中國(guó)動(dòng)物藥材DNA條形碼數(shù)據(jù)庫(kù)每6個(gè)月更新1次。新增加樣品如包含測(cè)序峰圖,則依照中藥材DNA條形碼分子鑒定指導(dǎo)原則去除測(cè)序峰圖兩端的低質(zhì)量區(qū)域[2],即:以20 bp的窗口分別從序列5′端和3′端進(jìn)行滑動(dòng),如果窗口內(nèi)有多于2個(gè)堿基的Q值<20,則刪除1個(gè)堿基,窗口繼續(xù)滑動(dòng)1個(gè)堿基;如果窗口內(nèi)堿基Q值小于20的數(shù)目≤2,窗口停止滑動(dòng)。測(cè)序峰圖的剩余部分須≥300 bp,平均Q值≥30。拼接結(jié)果長(zhǎng)度須大于500 bp,Q值小于20的堿基數(shù)須≤1%,平均Q值須≥40。新增加樣品如不包含測(cè)序峰圖,使用EMBOSS Transeq將新增加COI序列翻譯為蛋白序列,使用隱馬爾可夫模型進(jìn)行COI條形碼區(qū)域核驗(yàn),序列中COI條形碼區(qū)域的長(zhǎng)度須≥500 bp,且Ns≤1%。最后將序列與已有參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì),去除可能的外源污染,例如螨蟲(chóng)、人等的COI序列。endprint
中國(guó)中藥雜志2014年12期