張慧,何帥兵,孔繁德,陳海梅,唐泰山,徐淑菲,苗麗,劉昶*
(1.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院,藥用植物研究所,北京 100193;2.廈門出入境檢驗(yàn)檢疫局技術(shù)中心,廈門 361026;3.江蘇出入境檢驗(yàn)檢疫局,江蘇 南京 210001;4.河南出入境檢驗(yàn)檢疫局,河南 鄭州 450003)
益母草(Leonurusartemisia(Lour.)S.Y.Hu)為唇形科(Lamiaceae)益母草屬1年或2年生草本植物,具有活血化瘀、調(diào)經(jīng)利水的功能[1]。作為臨床常用中藥,益母草素有“婦科要藥”之稱?,F(xiàn)代研究表明,益母草不僅在婦科疾病治療方面發(fā)揮著重要作用,而且對包括心血管疾病、免疫系統(tǒng)疾病在內(nèi)的多種其他疾病也都有很好的治療效果[2]??梢哉f益母草不僅具有重要的藥用價(jià)值,同時(shí)也具有良好的社會效益。
益母草屬植物全球分布23種,我國有12種和2個(gè)變種,廣泛分布于全國各地[3]。在實(shí)際應(yīng)用中,益母草屬不同物種之間存在混用、誤用的現(xiàn)象。而物種的分類與精準(zhǔn)鑒定能夠有效避免這一現(xiàn)象的發(fā)生,對保障臨床用藥的有效性具有重要意義。近年來,隨著基因測序技術(shù)的快速發(fā)展,越來越多植物的葉綠體基因組信息得以解析。目前,基于葉綠體基因組的植物精準(zhǔn)鑒定和系統(tǒng)發(fā)育學(xué)研究得到了越來越多研究者的青睞,被認(rèn)為是植物鑒定與系統(tǒng)發(fā)育關(guān)系研究的一種有效手段。自1986年首個(gè)植物葉綠體基因組——煙草葉綠體基因組測序完成,研究者對植物葉綠體基因組的關(guān)注逐漸升溫[4]。截至目前,GenBank數(shù)據(jù)庫已經(jīng)收錄了包括陸地植物,海洋植物在內(nèi)的2 470種植物的葉綠體基因組信息。然而,益母草屬植物葉綠體基因組信息尚且無人提供,這在一定程度上阻礙了該屬植物的精準(zhǔn)鑒定。本研究以益母草為研究對象,通過對其葉綠體基因組的組裝和分析,探討益母草葉綠體基因組的結(jié)構(gòu)信息,旨在為益母草種質(zhì)資源的開發(fā)和利用提供科學(xué)依據(jù),同時(shí)也為今后益母草屬植物的系統(tǒng)進(jìn)化關(guān)系和植物分類學(xué)研究提供具有參考意義的線索。
益母草新鮮葉片采自中國醫(yī)學(xué)科學(xué)院藥用植物研究所藥用植物園。經(jīng)中國醫(yī)學(xué)科學(xué)院藥用植物研究所張昭研究員鑒定為益母草(Leonurusartemisia(Lour.)S.Y.Hu)。利用植物DNA提取試劑盒(TIANGEN,北京)提取益母草新鮮葉片總DNA。利用瓊脂糖凝膠,NanoDrop2000微量分光光度計(jì)(Thermo Scientific,美國)和Qubit 3.0檢測總DNA的濃度和質(zhì)量,各項(xiàng)檢測指標(biāo)滿足測序要求后,最終交由測序公司完成測序。采用Illumina Miseq PE300雙末端測序策略進(jìn)行建庫測序,測序所得數(shù)據(jù)量為5.8 G。
首先,以GenBank數(shù)據(jù)庫下載的的1 688條葉綠體基因組作為參考序列。利用BLASTN程序,設(shè)置閾值E-value為1e-5篩選出與參考序列相似的reads,并用SPAdes (v3.10.1)軟件進(jìn)行組裝。然后使用Python腳本對第一輪組裝結(jié)果進(jìn)行延伸,從而完成完整葉綠體基因組序列的組裝。為了驗(yàn)證序列組裝的正確性,應(yīng)用Bowtie 2(v2.0.1)13軟件將原始reads映射(mapping)到益母草葉綠體基因組序列上來檢測葉綠體基因組序列覆蓋度和各contig連接處的正確性。最后,通過Cpgavas軟件實(shí)現(xiàn)葉綠體基因組的自動注釋,并通過Apollo軟件手工調(diào)整、校正基因邊界位置[5-6]。在完成益母草葉綠體基因組的注釋與校正之后,利用sequin軟件提交益母草葉綠體基因組數(shù)據(jù)至GeneBank數(shù)據(jù)庫(注冊號:MG673937)。最終,基于OrganellarGenomeDRAW軟件實(shí)現(xiàn)益母草葉綠體基因組的可視化[7]。
利用TRF 4.04(http://tandem.bu.edu/trf/trf.html)軟件預(yù)測串聯(lián)重復(fù)序列,參數(shù)采用軟件默認(rèn)參數(shù);基于MISA軟件(http://pgrc.ipk-gatersleben.de/misa/)檢測葉綠體基因組簡單重復(fù)序列(simple sequence repeats, SSR),參數(shù)設(shè)置為:1)1-8、2-4、3-4、4-3、5-3和6-3,即1個(gè)堿基重復(fù)≥8次、2/3個(gè)堿基重復(fù)≥4次、4/5/6個(gè)堿基重復(fù)≥3次;2)2個(gè)SSR之間的最小距離設(shè)置為100 bp,若距離小于100 bp,則2個(gè)SSRs序列組成一個(gè)復(fù)合微衛(wèi)星。最終,利用EMBOSS軟件包中的的Cusp和Compseq程序分析益母草葉綠體基因組密碼子相對使用度和GC含量分布情況。
為了確定益母草的系統(tǒng)發(fā)育關(guān)系,本研究基于APG IV系統(tǒng)選擇了17種被子植物的完整葉綠體基因組序列,以煙草和擬南芥為外類群,利用65個(gè)共有蛋白序列構(gòu)建最大似然(maximum-likelihood, ML)系統(tǒng)發(fā)育樹。通過ClustalW軟件完成多重序列比對[8],利用Raxmal軟件構(gòu)建ML系統(tǒng)進(jìn)化樹。參數(shù)設(shè)置如下:“raxmlHPC-PTHREADS-SSE3 -f a -N 1000 -m PROTGAMMACPREV/GTRGAMMA -x 551314260 -p 551314260 -o Buxus_microphylla, Pachysandra_terminalis -T 20”。
益母草葉綠體基因組為典型的的環(huán)狀雙鏈分子??傞L度為151 610 bp,呈典型的四分狀結(jié)構(gòu),包括一對反向重復(fù)區(qū)(inverted repeat,IR)、一個(gè)大單拷貝區(qū)(large single copy region,LSC)和一個(gè)小單拷貝區(qū)(small single copy region,SSC),其長度分別為25 634 bp、82 827 bp和17 515 bp。益母草葉綠體基因組的整體GC含量為38.41%,低于IR區(qū)的GC含量(43.37%)但高于SSC區(qū)(32.23%)和LSC區(qū)(36.65%),這主要是由于IR區(qū)存在4個(gè)高GC含量的rRNA基因造成的[9]。蛋白編碼序列包含了27 013種密碼子,其中使用頻率最高的為亮氨酸密碼子,使用頻率高達(dá)2 894(10.71%)次。與之相反,半胱氨酸密碼子的使用頻率最低,其使用頻率為310次(1.15%)。密碼子的第一位,第二位和第三位的A/T含量分別為59.71%、60.66%、和62.69%。與其他大多數(shù)陸地植物中觀察到的現(xiàn)象相一致,密碼子第三位的A/T含量偏高[10]。
表1 益母草葉綠體基因組堿基組成
圖1 益母草葉綠體基因組環(huán)形基因圖注:內(nèi)側(cè)基因順時(shí)針轉(zhuǎn)錄;外側(cè)基因逆時(shí)針轉(zhuǎn)錄;不同功能的基因以不同顏色表示
益母草葉綠體基因組共編碼基因134個(gè),去除重復(fù)基因后共有115個(gè)基因。其中83個(gè)基因編碼蛋白,28個(gè)基因編碼tRNAs,4個(gè)基因編碼rRNAs。位于IR區(qū)的基因包括7個(gè)(rpl2, rpl23, ycf2, ycf15, ndhB, rps7, rps12)蛋白編碼基因、7個(gè)tRNA基因和所有的4個(gè)rRNA基因。益母草葉綠體基因組中共有20個(gè)基因含有內(nèi)含子,包括13個(gè)蛋白編碼基因和7個(gè)tRNA基因。其中,clpP和ycf3基因分別含有2個(gè)內(nèi)含子。此外,在益母草葉綠體基因組中,蛋白編碼序列、tRNAs序列和rRNAs序列分別占整個(gè)基因組序列長度的53.65%、6.84%和6.19%。而其他33.32%的序列,為包括內(nèi)含子、基因間區(qū)和假基因在內(nèi)的非編碼序列。
表2 益母草葉綠體基因組編碼的基因
注:括號中的數(shù)字代表基因重復(fù)的次數(shù),CDS代表編碼序列
表3 益母草基因組中包含內(nèi)含子基因及內(nèi)含子、外顯子長度
注:括號中數(shù)字代表基因重復(fù)的次數(shù)
在益母草葉綠體基因組中共預(yù)測到49個(gè)串聯(lián)重復(fù)序列(tandem repeat sequences),包括19個(gè)正向重復(fù)、24個(gè)回文重復(fù)、5個(gè)反向重復(fù)和一個(gè)互補(bǔ)重復(fù)。串聯(lián)重復(fù)序列長度均在18~41 bp之間,占葉綠體基因組序列的0.77%。在49個(gè)重復(fù)序列中,33個(gè)分布在基因間區(qū),14個(gè)位于基因編碼區(qū),另外2個(gè)在內(nèi)含子區(qū)。此外,益母草葉綠體基因組中共含有166個(gè)簡單重復(fù)序列(SSR),包括122個(gè)單核苷酸重復(fù),35個(gè)雙核苷酸重復(fù),3個(gè)三核苷酸重復(fù)和6個(gè)四核苷酸重復(fù)。在單核苷酸重復(fù)中,約96% (117)的重復(fù)是由T/A堿基重復(fù)組成的。該研究結(jié)果與既往文獻(xiàn)報(bào)道的SSRs通常由polyA或者polyT重復(fù)組成而很少包含G或C重復(fù)是一致的[11]。同時(shí),研究結(jié)果也表明SSRs在益母草葉綠體基因組上的分布是不均勻的,LSC區(qū)段含有110個(gè)SSRs,而SSC區(qū)段和IR區(qū)段分別僅有30個(gè)和26個(gè)SSRs。該研究得到的重復(fù)序列將為分子標(biāo)記開發(fā)和種群進(jìn)化研究提供具有參考意義的線索。
表4 益母草葉綠體基因組中的重復(fù)序列
續(xù)表4
注:P:回文重復(fù),F(xiàn):正向重復(fù),R:反向重復(fù)。IGS:基因間區(qū),CDS:RNA或蛋白編碼序列
表5 不同類型SSR在益母草葉綠體基因組中的出現(xiàn)次數(shù)
葉綠體基因組數(shù)據(jù)為植物進(jìn)化、分類和系統(tǒng)發(fā)育研究提供了豐富的數(shù)據(jù)基礎(chǔ)。在過去的幾十年里,完整的葉綠體基因組及其蛋白編碼基因已經(jīng)被用于揭示任何分類級別系統(tǒng)進(jìn)化關(guān)系[12]。在本研究中,筆者為了確定益母草在野芝麻亞科中的進(jìn)化位置,利用15個(gè)野芝麻亞科和2個(gè)外類群物種的65個(gè)共有蛋白序列構(gòu)建ML系統(tǒng)進(jìn)化樹。結(jié)果表明,益母草和水蘇屬的親緣關(guān)系較近,在所有15個(gè)節(jié)點(diǎn)中有11個(gè)支持率為100%。進(jìn)化樹的高支持率表明葉綠體基因組可以有效的解決該科的系統(tǒng)進(jìn)化關(guān)系。
圖2 利用17個(gè)物種的65個(gè)共有蛋白序列構(gòu)建的分子進(jìn)化樹
本研究基于二代測序技術(shù)首次獲得了益母草屬第一個(gè)完整的葉綠體基因組。并在此基礎(chǔ)上,對益母草葉綠體基因組的結(jié)構(gòu)進(jìn)行了系統(tǒng)的分析。最終基于既往文獻(xiàn)報(bào)道的14種野芝麻亞科植物的葉綠體基因組信息探討了益母草的系統(tǒng)發(fā)育關(guān)系。研究結(jié)果表明,益母草葉綠體基因組的結(jié)構(gòu)和基因組成具有高度的保守性,不存在類似豆科、桔??频瓤茖買R區(qū)缺失、收縮或擴(kuò)張的現(xiàn)象[13-14]。通過系統(tǒng)發(fā)育關(guān)系分析,本研究確定了益母草在野芝麻亞科中的系統(tǒng)進(jìn)化位置,結(jié)果表明益母草屬與水蘇屬進(jìn)化關(guān)系比較近。益母草作為臨床常用中藥,具有重要的藥用和經(jīng)濟(jì)價(jià)值。通過對其葉綠體基因組的測序和分析,不僅為益母草屬進(jìn)化關(guān)系和物種鑒定提供數(shù)據(jù)基礎(chǔ),同時(shí)也為唇形科系統(tǒng)進(jìn)化關(guān)系和植物分類學(xué)研究提供了重要的參考信息。