富 貴,劉 晶,李軍喬*
密花香薷葉綠體基因組結(jié)構(gòu)及系統(tǒng)進化分析
富 貴1, 2, 3,劉 晶1,李軍喬1, 2, 3*
1. 青海民族大學(xué)生態(tài)環(huán)境與資源學(xué)院,青海 西寧 810007 2. 青海省生物技術(shù)與分析測試重點實驗室,青海 西寧 810007 3. 青海民族大學(xué) 青藏高原蕨麻研究中心,青海 西寧 810007
基于高通量測序獲得藥用資源植物密花香薷葉綠體基因組序列,分析了葉綠體基因組結(jié)構(gòu)及特征,為研究密花香薷資源分類及系統(tǒng)進化奠定了基礎(chǔ)。以密花香薷葉片為材料,利用改良的CTAB法提取DNA;采用二代測序技術(shù)Illumina NovaSeq平臺對葉綠體基因組進行測序;以廣藿香葉綠體基因組為參考序列,進行序列組裝和矯正,得到完整葉綠體基因組序列;利用生物信息學(xué)方法分析密花香薷葉綠體基因組特征并進行系統(tǒng)發(fā)育分析。獲得密花香薷完整葉綠體基因組序列全長149 095 bp,GC含量37.92%,注釋到130個基因,其中包括85個蛋白質(zhì)編碼基因,8個rRNA基因和37個tRNA基因;密花香薷葉綠體基因組中共檢測到28個散在重復(fù)序列,串聯(lián)重復(fù)序列共檢測到191個,單核苷酸重復(fù)序列最多,共114個;系統(tǒng)發(fā)育結(jié)果表明,密花香薷和其他唇形科植物聚合在一起形成一個分支結(jié)構(gòu),紫蘇屬植物和香薷屬植物親緣關(guān)系較近。建立了適于香薷屬植物葉綠體基因組測序及其特征分析的方法,豐富了唇形科植物遺傳資源,為密花香薷分子標記開發(fā)及唇形科屬種間系統(tǒng)發(fā)育分析研究提供了理論基礎(chǔ)。
密花香薷;葉綠體;基因組;分子標記;系統(tǒng)發(fā)育
葉綠體是綠色植物特有細胞器,是細胞能量轉(zhuǎn)換和儲存的場所,遺傳方式以母系為主,所以在植物中具有種的特異性,其自身擁有一套完整的基因組,重組率低,后代遺傳穩(wěn)定[1-2]。葉綠體基因組在被子植物中具有獨立的蛋白表達系統(tǒng),大小介于1.20×105~1.80×105bp,一般為共價閉合的環(huán)狀結(jié)構(gòu),其結(jié)構(gòu)由4部分組成:包含2個反向重復(fù)區(qū)(inverted repeats,IRs)、大單拷貝區(qū)(large single copy,LSC)和小單拷貝區(qū)(small single copy,SSC)4個部分[3]。葉綠體基因組相比核基因組包含信息量較小,由于進化模式和分布區(qū)域的差異,不同類群物種間基因組有時會發(fā)生插入/缺失、重復(fù)、倒位、重排等多種類型的結(jié)構(gòu)變異和基因丟失現(xiàn)象,但是,從組成結(jié)構(gòu)、基因類型和數(shù)目及排列順序來看,葉綠體基因組較穩(wěn)定,具有保守性,長度較小,易于測序,而且葉綠體基因組核苷酸進化速率較低,因此在植物不同分類階段的系統(tǒng)發(fā)育分析中具有廣發(fā)的應(yīng)用,葉綠體基因組和其CDS基因片段變異分析常被用于分析物種種群遺傳結(jié)構(gòu)分化及動態(tài)歷史發(fā)展規(guī)律[4-7]。煙草L.[8]和地錢L.[9]2個物種葉綠體基因組測序報道,是人類首次獲得綠色植物葉綠體基因組序列信息。二代測序技術(shù)的不斷完善和推廣,為植物葉綠體基因組相關(guān)研究提供了技術(shù)支持,為后續(xù)植物資源分類和鑒定、系統(tǒng)發(fā)育、譜系地理學(xué)、及野生植物資源利用和保護方面的研究提供了有效的途徑[10-12]。
密花香薷Benth.在中國西北地區(qū),如陜西、四川、云南、甘肅、青海、西藏等地廣泛分布,其外觀形態(tài)和紫蘇接近,所以又稱之為野紫蘇,屬唇形科(Labiatae)香薷屬L.一年生草本植物,生境多樣化,農(nóng)田、林緣、高山、草地邊緣、林下、河邊、荒地等海拔1800~4200 m的范圍內(nèi)均有分布[13-14]。經(jīng)研究發(fā)現(xiàn),密花香薷全草可入藥,具有發(fā)汗解暑、行水散濕、溫胃調(diào)中的功效,且據(jù)現(xiàn)代藥理研究,香薷類植物揮發(fā)油具有廣譜抗菌和殺菌作用,并有直接抑制流感病毒的作用[15-16]。密花香薷亦可作為蜜源,養(yǎng)蜂價值極高[17]。所以密花香薷具有重要的藥用和經(jīng)濟價值。
目前,有關(guān)密花香薷生藥學(xué)或化學(xué)成分提取和分離相關(guān)研究較多[16, 18-24],蜜腺的解刨學(xué)結(jié)構(gòu)研究比較古老[25],但關(guān)于密花香薷資源分類、居群分布規(guī)律、生理特性,尤其是分子生物學(xué)方面的相關(guān)研究還無人涉及。本研究以分布在青藏高原的密花香薷為材料,使用二代測序技術(shù)獲得密花香薷葉綠體全基因組序列信息,利用生物信息學(xué)相關(guān)軟件,分析其葉綠體基因組構(gòu)成和特征,不僅可豐富唇形科植物遺傳信息,也為后續(xù)密花香薷資源分類和鑒定、遺傳多樣性、種群歷史動態(tài)發(fā)展和香薷屬植物間的系統(tǒng)發(fā)育與親緣關(guān)系研究奠定了基礎(chǔ)。
用于本研究的密花香薷樣本,采于青海省共和縣青海湖二郎劍景區(qū)(N100.4911°,E36.5785°,海拔3194 m),采取生長狀況良好的幼嫩葉片,液氮冷存,帶回青海民族大學(xué)于?80 ℃冷凍保存,用于DNA提取。植物憑證樣本保存于青海民族大學(xué)生態(tài)環(huán)境與資源學(xué)院(FGE20197201)。
經(jīng)典CTAB法用于樣品DNA提取,瓊脂糖凝膠電泳判斷樣本DNA的完整性,微量核酸測定儀(NanoDrop 2000)檢測其質(zhì)量和DNA含量。若樣品基因組DNA檢測結(jié)果符合實驗要求,對基因組DNA進行片段化處理,用到的方法一般為機械打斷法即超聲波法,下一步是對片段化DNA進行純化和末端修復(fù),還需在3′端加A、連接測序接頭,對上述處理完的DNA片段需進行片段長度分選,最后進行PCR擴增構(gòu)建測序文庫,對測序完成的文庫需進行質(zhì)量檢測,質(zhì)檢合格的文庫用Illumina NovaSeq平臺進行測序,測序讀長為PE150。
為確保序列組裝過程中的準確性,必須對原始獲得的raw reads序列進行一系列處理,主要是去除測序時連接的接頭以及擴增時的引物序列;篩選出高質(zhì)量的數(shù)據(jù),保證數(shù)據(jù)質(zhì)量(質(zhì)量值≤5的堿基數(shù)占整個read的50%以上的reads)。通過前期處理和質(zhì)量控制之后最終獲得高質(zhì)量的clean data。
使用bowtie2 v2.2.4(http://bowtie-bio. sourceforge.net/bowtie2/index.shtml)比對南京集思慧遠公司自建的葉綠體基因組數(shù)據(jù)庫,將比對上的測序序列當作樣品的葉綠體基因組測序序列(cpDNA序列)。組裝核心模塊采用SPAdes v3.10.1(http://cab.spbu.ru/software/spades/)軟件組裝葉綠體基因組,組裝不依賴參考基因組。使用 SPAdes 軟件對上述clean reads進行基因組拼接,將拼接結(jié)果與Benth.葉綠體基因組(MF287372.1)進行blast比對,基因組比對參考序列,查看基因組的保守與重排等共線性分析;基因組比對參考序列結(jié)構(gòu)信息,比較兩者間的差異。
使用blast v2.2.25(https://blast.ncbi.nlm. nih.gov/Blast.cgi)軟件比對NCBI數(shù)據(jù)庫的葉綠體基因組cds序列,手工校正后得到葉綠體基因組基因注釋結(jié)果。使用hmmer v3.1b2(http://www. hmmer.org/)軟件比對NCBI數(shù)據(jù)庫葉綠體基因組rRNA序列,得到葉綠體基因組的rRNA注釋信息。使用aragorn v1.2.38 (http://130.235.244.92/ ARAGORN/)軟件對葉綠體基因組序列進行tRNA的預(yù)測,得到葉綠體基因組tRNA注釋信息。最后使用OGDRAW(https://chlorobox.mpimp-golm. mpg.de/OGDraw.html)制作葉綠體基因組完整圖譜。利用CodonW1.4.2 (http://mobyle.pasteur. fr/cgi-bin/portal.py?form=codonw)軟件對密花香薷葉綠體基因組密碼子偏好性(RSCU,relative synonymous codon usage)進行分析和統(tǒng)計。
葉綠體基因組中的重復(fù)序列根據(jù)不同的分布模式分為2種類型即散在重復(fù)序列和串聯(lián)重復(fù)序列,散在重復(fù)序列多是失活的轉(zhuǎn)座元件,在基因組中呈分散式分布,簡單重復(fù)序列(simple sequence repeats,SSR)標記,是一類由幾個核苷酸(一般為1~6個)為重復(fù)單位組成的長達幾十個核苷酸的串聯(lián)重復(fù)序列。使用vmatch v2.3.0(http://www. vmatch.de/)軟件鑒定散在重復(fù)序列。葉綠體基因組中含有不同重復(fù)類型的串聯(lián)重復(fù)序列,一般稱之為稱之為cpSSR。使用MISA v1.0(MIcroSAtellite identification tool,http:// pgrc.ipk-gatersleben.de/misa/ misa.html)軟件進行cpSSR的分析,參數(shù)1-8(單堿基重復(fù)8次及以上)、2-5、3-3、4-3、5-3、6-3,2個SSR序列之間的最小距離設(shè)置為100 bp。
搜索NCBI數(shù)據(jù)庫,選取已公開的唇形科,不同屬植物共18種[虎尾紫蘇var. hirtella Makino et Nemoto(KT220691.1)、檸檬紫蘇Nakai(KT220690.1)、G. Honda (KT220692.1);海州香薷Nakai ex F. Maekawa (MH700782.1);L.(NC 043873.1)、羅勒L.(NC 035143.1);丹參Bge.(JX312195.1)、鼠尾草Thunb. (NC 035233);夏枯草L.(NC 039654.1);掌葉青蘭C. Y. Wu(NC 031874.1);留蘭香L.(NC 037247.1)、歐薄荷L.(NC 032054.1)、黃芩Georgi(MF521633.1)、Nakai(NC 028533.1);廣霍香Benth. (MF287372.1);棉毛水蘇C. Koch NC 029825.1)、林地水蘇L.(NC 029824.1、紅花水蘇Jacq. (NC 029823.1),下載其序列,以茄科的黑果枸杞Murr.(NC 039651.1)為外類群。物種間多個序列比對用MAFFT軟件(http://mafft.cbrc.jp/ alignment/ software/)進行,比對后的序列進行矯正,使用MEGA 6.0軟件(https://www. megasoftware.net/)構(gòu)建Neighbor-Joining(NJ)進化樹,Bootstrap置信度重復(fù)1000次。
密花香薷葉綠體基因組經(jīng)測序,去掉低質(zhì)量 reads后得到clean reads 22 864 493個片段,20為96.91%,GC含量為39.64%[26]。GC含量也可反應(yīng)葉綠體基因組組成特征,本研究檢測到密花香薷葉綠體基因組GC含量37.92%,遠低于AT含量(62.08%),說明具有綠色植物葉綠體基因組普遍AT偏向性的特征[26]。其中IR區(qū)序列包含有4個編碼rRNA的基因,所以GC含量(43.16%)明顯高于LSC區(qū)(35.96%)和SSC區(qū)(31.92%)[26](表1)。使用SPAdes軟件進行基因組片段的拼接,拼接完成的序列與參考序列(accession:MF287372.1)比對,進行組裝完成后的質(zhì)量檢控。最終得到密花香薷葉綠體基因組,全長149 095 bp,其結(jié)構(gòu)與大多數(shù)被子植物相同,為環(huán)狀雙鏈分子,呈典型的四段式結(jié)構(gòu)(圖1)。其中,LSC結(jié)構(gòu)區(qū)長度為81 497 bp,SSC結(jié)構(gòu)區(qū)長度為17 364 bp,2個反向互補重復(fù)區(qū)IR分別長25 117 bp[26]。
密花香薷葉綠體基因組共檢測到129個基因,其中包括84個蛋白質(zhì)編碼基因,8個rRNA基因和37個tRNA基因(圖1)。其中有17個基因在IRs區(qū)重復(fù),包含6個蛋白編碼基因(、、、、、),4個rRNAs基因(、、、)7個tRNA基因(、、、、、、);SSC區(qū)包括12個蛋白編碼基因,1個tRNA基因;LSC區(qū)包含60個蛋白編碼基因,22個tRNA基因。密花香薷葉綠體基因組中大多數(shù)蛋白質(zhì)編碼基因由1個外顯子組成,共有15個基因(、、、、、、、、、、、、、、)包含1個內(nèi)含子,3個基因(、、)包含2個內(nèi)含子。編碼基因根據(jù)其產(chǎn)物功能的不同分為以下幾種類型:(1)光合作用相關(guān)基因;(2)自身翻譯相關(guān)基因;(3)其他基因;(4)未知功能相關(guān)基因(表2)。
表1 密花香薷葉綠體基因組結(jié)構(gòu)組成
Table 1 Structure and composition of chloroplast genome in E.densa
不同結(jié)構(gòu)區(qū)段A/%C/%G/%(T/U)/%大小/bpGC/% LSC31.3618.5017.4632.68 81 49735.96 SSC34.1316.8015.1233.96 17 36431.92 IRA28.4820.8222.3428.36 25 11743.16 IRB28.3622.3420.8228.48 25 11743.16 合計30.6919.3418.5831.39149 09537.92
內(nèi)側(cè)基因順時針,外側(cè)基因逆時針
Fig .1 Gene map of chloroplast genome in
對密花香薷葉綠體密碼子研究發(fā)現(xiàn),共檢測到26 160個密碼子,其中編碼亮氨酸(Leu)的密碼子數(shù)量最多,有3397個,占總密碼子數(shù)的12.99%;編碼半胱氨酸Cys的最少,有299個,占總密碼子數(shù)的1.15%。相對同義密碼子(relative synonymous codon usage,RSCU)使用度最高的為AUG (2.990 1),最低的是CUG/GUG(0.004 8)。32個密碼子RSCU值大于1.00,其中,29個密碼子堿基構(gòu)成以A或U結(jié)尾,其余4個以G或C結(jié)尾(圖2)。
表2 密花香薷葉綠體基因組注釋基因歸類
Table 2 Classified list of annotation gene of chloroplast genome in E.densa
基因功能及類別基因名稱 光合作用相關(guān)基因 自身表達相關(guān)基因 其他基因 未知功能相關(guān)基因光系統(tǒng)I光系統(tǒng)II 細胞色素b/f復(fù)合體ATP合酶NADH脫氫酶 二磷酸核酮糖羧化酶大亞基ATP 蛋白酶基因RNA聚合酶核糖體蛋白(SSU) 核糖體蛋白(LSU) 轉(zhuǎn)運RNAs 核糖體成熟酶基因C型細胞色素合成基因乙酰輔酶A 羧化酶亞基囊膜蛋白基因假定葉綠體開放性閱讀框(ycf)psaA、psaB、psaC、psaI、psaJpsbA、psbB、psbC、psbD、psbE、psbF、psbH、psbI、psbJ、psbK、psbL、psbM、psbN、psbT、psbZpetA、petB1、petD 1、petG、petL、petNatpA、atpB、atpE、atpF 1、atpH、atpI、ndhA 1、*ndhB 1、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhKrbcLClpP2rpoA、rpoB、rpoC11、rpoC2rps2、rps3、rps4、*rps7、arps8、rps11、*rps122、rps14、rps15、rps18、rps19*rpl2 1、rpl14、rpl16 1、rpl20、rpl22、*rpl23、rpl32、rpl33、rpl36trnY-GUA、trnW-CCA、trnV-UAC 1、*trnV-GAC、trnT-UGU、trnT-GGU、trnS-UGA、trnS-GGA、trnS-GCU、trnR-UCU、*trnR-ACG、trnQ-UUG、trnP-UGG、*trnN-GUU、trnM-CAU、trnL-UAG、trnL-UAA 1、*trnL-CAA、trnK-UUU 1、*trnI-GAU 1、*trnI-CAU、trnH-GUG 1、trnG-UCC 1、trnG-GCC、trnfM-CAU、trnF-GAA、trnE-UUC、trnD-GUC、trnC-GCA、*trnA-UGC 1*rrn4.5、*rrn5、*rrn16、*rrn23matKccsAaccDcemAycf1、*ycf22、ycf32、ycf4
*代表多拷貝基因,1、2分別指包含有1個內(nèi)含子和2個內(nèi)含子的基因
*duplicated genes, superscript1-2indicates one intron gene and two intron genes, respectively
圖2 密花香薷葉綠體基因組相對同義密碼子使用度
28個散在重復(fù)序列在密花香薷葉綠體基因組中被檢測到。串聯(lián)重復(fù)序列共檢測到191個,單核苷酸重復(fù)序列最多,共114個,主要以A(51)和T(56)堿基重復(fù)為主,單核苷酸T重復(fù)序列最長,為14 bp,單核苷酸串聯(lián)重復(fù)序列長度占總序列長度的0.685 5%,3堿基串聯(lián)重復(fù)序列總數(shù)為55個,2堿基重復(fù)序列和4堿基重復(fù)序列最少為5個,復(fù)合型重復(fù)序列12個,串聯(lián)重復(fù)序列長度介于8~26 bp,串聯(lián)序列總長度為1885 bp,占葉綠體基因組序列總長度的1.264 3%。基因編碼區(qū)包含的SSR序列位點總數(shù)達84個和分布于基因間隔區(qū)(IGS)的SSR序列位點數(shù)相同,位于內(nèi)含子區(qū)域(Intron)的為21個,其余2個分布于間隔區(qū)和基因編碼區(qū)(表3)。密花香薷SSRs 位點在葉綠體基因組中分布不均勻,多態(tài)性較高,為后續(xù)SSR分子標記的開發(fā)提供了理論依據(jù)。
表3 密花香薷葉綠體基因檢測到的簡單重復(fù)序列
Table 3 Information of SSRs identified in the chloroplast genome of E.densa
序號重復(fù)序列長度/bp起始終止所在位置序號重復(fù)序列長度/bp(bp)起始終止所在位置 1(AAGA)31297108IGS45(C)9(A)112034 69434 713IGS 2(A)9 918431851Intron46(TAA)3 934 82534 833IGS 3(T)8 821272134Intron47(ATG)3 937 19037 198psaB 4(A)8 827692776Intron48(ATG)3 939 41439 422psaA 5(T)8 840124019Intron49(T)101040 43340 442IGS 6(A)111142954305IGS50(T)8 840 56340 570IGS 7(A)9 943284336IGS51(TA)51040 66740 676IGS 8(C)8 849404947IGS52(T)101040 91640 925IGS ycf3 9(A)9 949874995IGS53(T)8 841 63641 643ycf3 10(ATA)3 962066214IGS54(T)9 941 77441 782ycf4 11(A)9 963476355IGS55(A)111142 14842 158Intron 12(T)111165346544IGS56(A)8 842 97242 979IGS 13(TTG)3 969836991IGS57(T)121244 17244 183IGS 14(T)9 974767484psbK58(TAT)4(ATA)32144 32844 348IGS 15(AAT)3 975347542IGS59(A)101044 93044 939IGS 16(A)101081068115IGS60(T)8 846 36946 376IGS 17(TA)51083278336IGS61(AAC)3 947 98347 991ndhK 18(A)8 884108417IGS62(G)111148 82748 837IGS 19(T)8 884998506IGS63(T)8 849 35749 364IGS 20(A)131392609272Intron64(TTA)3 949 42549 433Intron 21(AT)6(TAT)42197299749IGS65(T)8 849 47249 479Intron 22(A)9 911 61111 619IGS66(T)101052 32352 332atpB 23(T)8 812 34612 353Intron67(ATA)41252 37752 388Intron 24(C)8ttttattc(T)92512 98313 007IGS68(T)101052 40952 418IGS 25(AAT)3 914 18514 193IGS69(TCA)3 952 83752 845IGS 26(T)121214 22514 236IGS70(TTG)3 953 14453 152IGS 27(AAC)3 914 51314 521atpI71(GA)51054 19954 208rbcL 28(A)8tcgaactt(A)92515 13315 157IGS72(A)9 955 00255 010IGS 29(TTA)3 915 34915 357IGS73(A)101055 24955 258IGS 30(A)111116 09416 104IGS74(GGA)3 956 20656 214accD 31(TA)51017 21917 228rpoC275(TAT)3 956 59656 604accD 32(T)111118 32218 332rpoC276(TAA)3 957 41557 423IGS 33(A)9 918 46518 473rpoC277(A)9 957 48657 494IGS 34(TA)51019 68819 697rpoC278(T)111157 67157 681IGS 35(TTA)3 920 74420 752rpoC179(T)8 858 26358 270ycf4 36(A)8 820 92120 928rpoC180(T)8 858 88858 895IGS 37(TTC)3 921 94421 952rpoC181(T)8 858 95558 962IGS 38(A)8 822 12822 135rpoC182(A)8 860 67460 681petA 39(T)101022 44422 453Intron83(A)8 861 27561 282IGS 40(T)8 826 05226 059rpoB84(A)8 861 54161 548IGS 41(TTA)3t(TTA)31926 89926 917IGS85(ATT)3(T)81562 14662 160IGS 42(T)8 826 99226 999IGS86(A)8 862 34962 356psbF 43(ATAG)31228 66728 678IGS87(T)9aggaa(T)92363 07363 095IGS 44(TTC)41233 67233 683psbC88(AAT)3 963 29163 299IGS
續(xù)表3
序號重復(fù)序列長度/bp起始終止所在位置序號重復(fù)序列長度/bp(bp)起始終止所在位置 89(CCT)3 9 64 01564 023IGS141(A)101010 8872108 881IGS 90(GAA)3 9 64 11064 118IGS142(A)9 9108 905108 913IGS 91(ATA)3 9 64 57164 579IGS143(T)16ag(A)826109 094109 119IGS 92(T)1212 64 91964 930IGS144(T)8 8109 139109 146IGS 93(AAC)3 9 65 82865 836rps18145(A)8 8110 483110 490ccsA 94(A)1010 66 06166 070IGS146(T)9 9110 718110 726ccsA 95(A)8 8 66 08166 088IGS147(T)8 8110 821110 828ccsA 96(A)1414 66 82366 836IGS148(A)8 8111 413111 420ndhD 97(T)9 9 67 13667 144IGS149(AATA)312111 607111 618ndhD 98(T)1111 67 28367 293IGS150(T)8 8111 998112 005ndhD 99(T)8 8 67 56367 570IGS151(A)8 8112 494112 501ndhD 100(T)8 8 68 21768 224Intron152(A)8 8112 839112 846ndhD 101(A)9 9 68 37968 387Intron153(TTC)3 9115 907115 915ndhA 102(G)8 8 69 00469 011Intron154(A)8 8116 288116 295Intron 103(TCT)3 9 71 41671 424psbB155(A)8 8116 435116 442Intron 104(A)9tcaaatg(A)925 71 69271 716IGS156(A)9 9116 993117 001Intron 105(T)8 8 71 82171 828psbT157(TAA)3 9119 235119 243IGS 106(TTC)3 9 75 68575 693rpoA158(T)1010119 874119 883ycf1 107(TGC)3 9 76 64676 654rps11159(G)8 8120 670120 677ycf1 108(T)1010 78 03178 040IGS160(A)9 9121 003121 011ycf1 109(A)8 8 78 56478 571IGS161(T)9 9121 117121 125ycf1 110(A)9 9 79 20579 213Intron162(A)8 8121 485121 492ycf1 111(A)8 8 79 85779 864Intron163(T)8 8121 565121 572ycf1 112(T)8 8 80 38680 393rps3164(T)9 9121 843121 851ycf1 113(TGC)3 9 80 95580 963rpl22165(T)9 9121 914121 922ycf1 114(T)8 8 81 43481 441rps19166(T)8 8122 097122 104ycf1 115(T)9 9 81 46681 474rps19167(T)1111122 131122 141ycf1 116(CTT)3 9 81 60381 611rpl2168(T)1010122 190122 199ycf1 117(A)9 9 86 88486 892ycf2169(T)8 8122 695122 702ycf1 118(TCT)3 9 87 57687 584ycf2170(CTT)3 9122 748122 756ycf1 119(CTT)3 9 87 68287 690ycf2171(A)8 8122 836122 843ycf1 120(TGA)3 9 88 17388 181ycf2172(T)8 8123 389123 396ycf1 121(GAA)3 9 89 38589 393ycf2173(T)9 9123 983123 991ycf1 122(G)8 8 90 59890 605IGS174(TTG)3 9124 538124 546ycf1 123(C)8(A)816 91 01991 034IGS175(TCT)3 9124 854124 862ycf1 124(T)9 9 91 28991 297IGS176(A)8 8125 815125 822IGS 125(AGA)3 9 91 98891 996ndhB177(CAG)3 9129 516129 524rrn23 126(AGA)3 9 93 42293 430ndhB178(A)1111131 301131 311Intron 127(CCCT)312 95 25295 263IGS179(A)8 8135 036135 043IGS 128(T)8 8 95 55095 557IGS180(AGGG)312135 330135 341IGS 129(T)1111 99 28299 292Intron181(TTC)3 9137 162137 170ndhB 130(CTG)3 9101 069101 077rrn23182(TCT)3 9138 597138 605ndhB 131(T)8 8104 771104 778IGS183(A)9 9139 296139 304IGS 132(AGA)3 9105 731105 739IGS184(T)8(G)816139 559139 574IGS 133(CAA)3 9106 047106 055IGS185(C)8 8139 988139 995IGS 134(A)9 9106 602106 610ndhF186(TTC)3 9141 200141 208ycf2 135(C)8 8107 238107 245IGS ndhF187(TCA)3 9142 412142 420ycf2 136(A)9 9107 286107 294ndhF188(AAG)3 9142 903142 911ycf2 137(AAT)3 9107 733107 741ndhF189(AGA)3 9143 009143 017ycf2 138(TAA)3 9108 230108 238ndhF190(T)9 9143 701143 709ycf2 139(A)8 8108 352108 359ndhF191(GAA)3 914 8981148 989rpl2 140(AAG)3 9108 719108 727ndhF
總共選取了唇形科10個屬,共18種植物葉綠體全基因組序列(括號內(nèi)為物種數(shù)目),紫蘇屬(3)、香薷屬(1)、羅勒屬(2)、鼠尾草屬(2)、夏枯草屬(1)、青蘭屬(1)、薄荷屬(2)、黃芩屬(2)、刺蕊草屬(1)、水蘇屬(3),外類群1個,加上本研究所測密花香薷葉綠體基因組共20個種,構(gòu)建了NJ系統(tǒng)發(fā)育樹。系統(tǒng)發(fā)育樹結(jié)果顯示,“密花香薷”與其他唇形科植物聚在一起形成一個大的分支。19種唇形科植物形成2個大亞支,且分支支持率高(BP=100),第I大亞支(BP=100)由2個分支構(gòu)成,其中一個分支包含2個亞支,一個亞支由2個分支構(gòu)成,紫蘇屬3個物種形成一個單獨分支聯(lián)合海州香薷和密花香薷形成1個分支,另一分支由羅勒屬2個物種單獨構(gòu)成;另一亞支由鼠尾草屬2個物種單獨形成的一個分支和夏枯草屬、青蘭屬和薄荷屬6個物種形成的另一分支構(gòu)成。第II大亞支(BP=100)由黃芩屬2個物種單獨形成的一個分支和刺蕊草屬1個物種、水蘇屬3個物種聯(lián)合形成的另一姐妹分支構(gòu)成。除密花香薷和海洲香薷外,同屬物種均匯聚在一起形成姐妹分支(圖3)。
圖3 基于葉綠體基因組構(gòu)建的唇形科19個物種系統(tǒng)發(fā)育樹
被子植物質(zhì)體DNA通常為母系遺傳,因其在進化過程中不經(jīng)歷基因重組,通過對其序列結(jié)構(gòu)組成,特征及變異分析,可以很好地揭示物種系統(tǒng)發(fā)育過程[27]。尤其二代高通量測序技術(shù)的不斷優(yōu)化,極大地提高了測序效率,降低了測序費用,使植物葉綠體基因組測序在許多物種遺傳研究中被頻繁使用。有報道研究表明,葉綠體基因組結(jié)構(gòu)為雙鏈環(huán)狀DNA分子結(jié)構(gòu),由4部分構(gòu)成,包含LSC、SSC和2個IR,其中2個IR區(qū)序列相同,方向相反[8]。測序獲得的基因組長度介于1.20×105~1.80×105bp,檢測到的編碼基因數(shù)為100~130,蛋白編碼基因數(shù)最多為70~80,30~32種不同類型的tRNA編碼基因被檢測到,rRNA編碼基因數(shù)比較穩(wěn)定,通常有4種[28]。本研究所獲得密花香薷葉綠體基因組大小和結(jié)構(gòu)與上述被子植物研究結(jié)果相符。香薷屬植物約有40余種,我國分布有33種,但是有關(guān)本屬葉綠體基因組測序的報道較少,目前只有2個物種被報道,一個是海州香薷,另一個是本研究所測得密花香薷,比較兩個物種葉綠體基因組組成和特征發(fā)現(xiàn),各個區(qū)段組成及GC含量差異不大。密花香薷基因組GC含量為37.92%,海州香薷為37.8%[29],葉綠體基因組的總體進化速度較慢,在同屬內(nèi)植物表現(xiàn)出保守性。
對測得的葉綠體基因組進行了基因功能注釋,共注釋到130個基因,檢測到了84個蛋白編碼基因,其中有4種rRNA基因被檢測到。密花香薷tRNAs基因數(shù)(37)與海州香薷(38)僅相差1個。前人研究表明,不同植物所檢測到的tRNAs基因數(shù)變異較大,同一科內(nèi)其tRNA基因數(shù)目存在較大差異,如殼斗科(Fagacea)植物葉綠體基因tRNA基因數(shù)目介于29~46[4],五加科(Araliaceae)植物葉綠體基因組tRNA基因數(shù)目介于29~38[30],但rRNA基因數(shù)目比較保守,如裸子植物臭柏Ant.[5]、惠水金橘Hort. ex Tan.[31]、鹽樺Ching ex P. C. Li[32]、殼斗科(Fagacea)植物[4]等rRNA基因數(shù)目和類型相同,均為為4種(、、、),分布在IRs區(qū),先前報道的海州香薷和本研究檢測到的密花香薷rRNA基因數(shù)目和類型與上述研究相同。葉綠體基因組差異主要是由反向重復(fù)區(qū)的變異引起的,而IR在穩(wěn)定葉綠體基因組結(jié)構(gòu)和影響葉綠體基因組大小方面起著非常重要的作用[5]。位于IRs的、、基因編碼區(qū)內(nèi)有終止密碼子,所以被稱為假基因[33],這幾個假基因在不同種之間表現(xiàn)出廣泛的變異性,密花香薷和海州香薷主要差異也分布在IRs區(qū),本研究密花香薷未檢測到、2個基因,但在海州香薷中被檢測到。密花香薷基因分布和很多被子植物研究結(jié)果一致,編碼基因主要分布在LSC區(qū),大多數(shù)的基因只含有一個外顯子,單拷貝基因居多,17個基因在IRs區(qū)重復(fù)。編碼蛋白和其他被子植物一樣,根據(jù)其功能主要分為3類,(1)光合作用相關(guān)基因;(2)自身翻譯相關(guān)基因;(3)其他基因;(4)未知功能相關(guān)基因[34]。
唇形科(Lamiaceae)全球分布有245屬7500余種,被認為是被子植物的第6大科,其中包含許多常見的芳香族植物和藥用植物,具有巨大的經(jīng)濟價值。葉綠體基因組因具有較強的穩(wěn)定性和保守性,所以常被用于系統(tǒng)發(fā)育樹的構(gòu)建。Li等[35]基于葉綠體基因組對Harley等2004年提出的唇形科的分類進行了糾正,但是唇形科內(nèi)部的許多種屬系統(tǒng)進化關(guān)系還需進一步得到解決。目前有關(guān)唇形科植物葉綠體全基因組測序報道較少,相關(guān)科及亞科內(nèi)部系統(tǒng)進化關(guān)系構(gòu)建主要利用葉綠體基因組內(nèi)部的個別功能基因如、、本研究以已測得的密花香薷葉綠體基因組聯(lián)合NCBI下載的18種唇形科植物葉綠體基因組序列構(gòu)建了NJ進化樹,結(jié)果表明,該進化樹的分辨率較高,各節(jié)點也獲得了較高的支持率,唇形科內(nèi)屬間呈現(xiàn)出較為明確的發(fā)育關(guān)系,同一屬內(nèi)物種呈明顯的姐妹關(guān)系。本研究所下載的18個物種序列中,除羅勒屬2個物種為羅勒亞科(Ocimoideae)外,其余均為野芝麻亞科(Lamioideae),進化樹上并沒有將2個亞科明顯區(qū)分,羅勒屬2個物種和紫蘇屬及香薷屬聚合形成一個分支,表現(xiàn)出較近的親緣關(guān)系,但分支支持率較低(BP=75)。沈立群[36]對唇形科藥用植物葉綠體基因組進行系統(tǒng)進化分析時發(fā)現(xiàn),羅勒L. 和L.(紫蘇屬植物)兩者之間呈姐妹關(guān)系,ML分析及MP分析給出的支持率均不高(LB=75,PB=75),這一結(jié)論與本研究相同。香薷屬和紫蘇屬2個物種表現(xiàn)出較近的親緣關(guān)系,這一結(jié)果和已報道海州香薷葉綠體基因組系統(tǒng)進化關(guān)系分析一致。海州香薷和密花香薷雖為同一屬物種,但并未形成姐妹分支,可能是2個種形態(tài)和分布差異較大的原因。本研究首次對密花香薷葉綠體基因組進行測序組裝,并對其基因結(jié)構(gòu)、密碼子偏好性、SSRs數(shù)量及分布和基因功能等進行了分析,結(jié)合已公布的唇形科物種葉綠體基因組序列,構(gòu)建了系統(tǒng)發(fā)育樹,闡明了密花香薷和唇形科內(nèi)不同屬物種之間的系統(tǒng)發(fā)育關(guān)系,不僅豐富了唇形科植物的遺傳資源,也為從分子水平進行植物分類和深入了解植物進化和系統(tǒng)發(fā)育提供了有效的途徑,這對于密花香薷植物的分類和開發(fā)研究提供了理論依據(jù)。
利益沖突 所有作者均聲明不存在利益沖突
[1] Douglas S E. Plastid evolution: Origins, diversity, trends [J]., 1998, 8(6): 655-661.
[2] Birky C W Jr. Uniparental inheritance of mitochondrial and chloroplast genes: Mechanisms and evolution [J]., 1995, 92(25): 11331-11338.
[3] 蔣達和. 葉綠體基因組的結(jié)構(gòu)研究進展 [J]. 生物化學(xué)與生物物理進展, 1990, 17(1): 10-14.
[4] 張妍彤, 黃劍, 宋菊, 等. 殼斗科植物葉綠體基因組結(jié)構(gòu)及變異分析 [J]. 植物研究, 2018, 38(5): 757-765.
[5] 路東曄, 張磊, 郝蕾, 等. 臭柏葉綠體基因組結(jié)構(gòu)與系統(tǒng)進化分析 [J]. 西北植物學(xué)報, 2018, 38(8): 1464-1475.
[6] Nock C J, Waters D L, Edwards M A,. Chloroplast genome sequences from total DNA for plant identification [J]., 2011, 9(3): 328-333.
[7] 王玲, 董文攀, 周世良. 被子植物葉綠體基因組的結(jié)構(gòu)變異研究進展 [J]. 西北植物學(xué)報, 2012, 32(6): 1282-1288.
[8] Shinozaki K, Ohme M, Tanaka M,. The complete nucleotide sequence of the tobacco chloroplast genome: Its gene organization and expression [J]., 1986, 5(9): 2043-2049.
[9] Ohyama K, Fukuzawa H, Kohchi T,. Chloroplast gene organization deduced from complete sequence of liverwortchloroplast DNA [J]., 1986, 322(6079): 572-574.
[10] Moore M J, Bell C D, Soltis P S,. Using plastid genome-scale data to resolve enigmatic relationships among basal angiosperms [J]., 2007, 104(49): 19363-19368.
[11] Nock C J, Waters D L, Edwards M A,. Chloroplast genome sequences from total DNA for plant identification [J]., 2011, 9(3): 328-333.
[12] Nie X J, Lv S Z, Zhang Y X,. Complete chloroplast genome sequence of a major invasive species, crofton weed () [J]., 2012, 7(5): e36869.
[13] 中國科學(xué)院中國植物志編輯委員會. 中國植物志-第六十六卷 [M]. 北京: 科學(xué)出版社, 1977: 263.
[14] 中國科學(xué)院西北高原生物研究所. 藏藥志 [M]. 西寧: 青海人民出版社, 1991: 236.
[15] 石晉麗, 朱甘培. 中國香薷屬植物的藥用及開發(fā)前景 [J]. 中藥材, 1994, 17(12): 10-13.
[16] 張彥, 郭增軍, 張新新, 等. 密花香薷揮發(fā)油促進黃芩苷透皮吸收的研究 [J]. 中國現(xiàn)代應(yīng)用藥學(xué), 2018, 35(2): 222-224.
[17] 李萍, 謝鶴. 論密花香薷在寧夏六盤山區(qū)蜂業(yè)生產(chǎn)中的價值 [J]. 中國蜂業(yè), 2013, 64(31): 32-33.
[18] 孫麗萍, 尹作棟, 傅正生, 等. 密花香薷的化學(xué)成分 [J]. 植物學(xué)報, 1996, 38(8): 672-676.
[19] 王笳, 趙聯(lián)甲, 韓基明, 等. 密花香薷精油的化學(xué)成分研究 [J]. 中國野生植物資源, 1996, 15(2): 35-36.
[20] Xue X J, Guo Z J, Zhang H,. Chemical composition,antioxidant activity and α-glucosidase inhibitory effects of the essential oil and methanolic extract ofBenth [J]., 2016, 30(23): 2707-2711.
[21] Chauhan A, Venkatesha K T, Padalia R C,. Essential oil composition of leaves and inflorescences ofBenth. from western Himalaya [J]., 2019, 31(3): 217-222.
[22] Liu Y, Si J Y, Cao L,. Chemical composition, antimicrobial and antiviral activities of the essential oil ofBenth [J]. 天然產(chǎn)物研究與開發(fā), 2012, 24(8): 1070-1074.
[23] Ren Q R, Li J, Wang Y N,.antioxidant, antibacterial and anti-tumor activities of total flavonoids fromBenth [J]., 2018, 16(12): 2935.
[24] 鄭尚珍, 楊紅澎, 許先芳, 等. GC/MS法測定超臨界流體CO2萃取萼果香薷精油的化學(xué)成分 [J]. 藥物分析雜志, 2004, 24(1): 20-23.
[25] 姜彥成, 鄧彥斌, 楊箴, 等. 密花香薷花蜜腺的解剖學(xué)研究 [J]. 西北植物學(xué)報, 1996, 16(3): 239-244.
[26] Fu G, Liu J, Li J Q. The complete chloroplast genome sequence of, a herb with volatile aroma component [J]., 2020, 5(1): 595-596.
[27] 張慶瀅, 陳璇, 郭孟璧, 等. 野生大麻葉綠體基因組分子多態(tài)標記的篩選與開發(fā) [J]. 分子植物育種, 2017, 15(3): 979-985.
[28] Zhang T W, Fang Y J, Wang X M,. The complete chloroplast and mitochondrial genome sequences of: Insights into the evolution of plant organellar genomes [J]., 2012, 7(1): e30531.
[29] Ding L L, Zhao X M, Su L,. The complete chloroplast genome of copper-tolerance plant[J]., 2019, 4(2): 2729-2730.
[30] 宋菊, 龍月紅, 林麗梅, 等. 五加科植物葉綠體基因組結(jié)構(gòu)與進化分析 [J]. 中草藥, 2017, 48(24): 5070-5075.
[31] 王小柯, 鄭乾明, 羅懌, 等. ‘惠水金橘’的葉綠體基因組特征分析 [J]. 果樹學(xué)報, 2019, 36(3): 257-265.
[32] 于濤, 張宇陽, 高健, 等. 極小種群瀕危植物鹽樺葉綠體基因組特征分析 [J]. 林業(yè)科學(xué), 2019, 55(2): 41-49.
[33] Yang J B, Tang M, Li H T,. Complete chloroplast genome of the genus: Lights into the species identification, phylogenetic implications and population genetic analyses [J]., 2013, 13: 84.
[34] 劉玉萍, 呂婷, 朱迪, 等. 青藏高原特有種—藏扇穗茅葉綠體基因組測序及序列分析 [J]. 植物研究, 2018, 38(4): 518-525.
[35] Li B, Cantino P D, Olmstead R G,. A large-scale chloroplast phylogeny of the Lamiaceae sheds new light on its subfamilial classification [J]., 2016, 6: 34343.
[36] 沈立群. 唇形科三種藥用植物葉綠體全基因組及科內(nèi)的比較與進化分析 [D]. 杭州: 浙江大學(xué), 2018.
Characterization of chloroplast genome structure and phyletic evolution of
FU Gui1, 2, 3, LIU Jing1, LI Jun-qiao1, 2, 3
1. College of Ecological Environmental and Resources, Qinghai Nationalities University, Xining 810007, China 2. Key Laboratory of Biotechnology and Analysis of Qinghai Province, Xining 810007, China 3. Centre for Juema Studies, Qinghai University for Nationalities, Xining 810007, China
The choroplast genome sequence ofin medicinalplants was obtained through high-throughput sequencing, and characterization of chloroplast genome structure was analyzed. This study laysthegroundwork for resourceclassification and phyletic evolution ofThe total genomic DNA was extracted from the leaves ofusingimprovedCTABmethod, and the sequencing processwas performed bythe platform of Illumina NovaSeq which was from second generation sequencing technique. After sequence assembly and correction was executed bychloroplast genome as a reference, the complete chloroplast genome sequence was obtained. The characterization of chloroplas genome inand phyletic evolution were analyzed with the method of bioinformatics.The complete chloroplast genome ofwas 149 095 bp in length and the total GC content of the genome was 37.92%. A number of 130 genes were detected, including 85 protein-coding genes, 37 tRNA genes and eight ribosomal RNA genes. A total of 28 interspersed repetitive sequence and 191 polymorphic simple-sequence repeat loci were identified. The single nucleotide repeats had the greatest number of 114. The result of phylogenetic tree showed that plants inhad a close relationship withand all species inwere grouped into one branch in this study.The suitable approach for studying sequencing and characterization of chloroplast genome inwas established, and all research findings in this study not only enriched the genetic resources of,but also laid the theoretical basis foundation for the development of molecular markers and studying on the systematic evolution of interspecific in
Benth.; chloroplast; genome; molecular markers; phylogenesis
R282.12
A
0253 - 2670(2022)06 - 1844 - 10
10.7501/j.issn.0253-2670.2022.06.028
2021-09-06
青海民族大學(xué)校級理工科項目(2019XJY02)
富 貴(1987—),男,講師,研究方向為系統(tǒng)進化與分子生物學(xué)。Tel: 13997286190 E-mail: qhmdfg@163.com
李軍喬(1968—),女,教授,研究方向為植物栽培學(xué)。Tel: 13997278171 E-mail: ljqlily2002@126.com
[責任編輯 時圣明]