蘇玥, 劉娟娟, 完斌, 張鵬舉, 陳正根, 宿俊吉, 王彩香
(甘肅農(nóng)業(yè)大學生命科學技術學院, 蘭州 730070)
乳苣(Mulgediumtataricum)又名蒙山萵苣、紫花山萵苣,為菊科(Compositae)乳苣屬(Mulgedium)多年生草本植物。其廣泛分布在俄羅斯、阿富汗、印度、伊朗等國,我國主要分布在甘肅、山西、青海、新疆等北部省區(qū),生長于海拔1 200—4 300 m的河灘、湖邊、草甸、田邊、固定沙丘以及礫石地[1]。中國學者石鑄以“總苞寬鐘狀或圓柱狀,果期不為卵球狀;總苞片通常為紫紅色舌狀小花藍色或紫紅色,舌片頂端截形,五齒裂,瘦果紡錘狀,每面有5~7條高起的鈍縱肋,頂端漸尖成喙,喙絕不為絲狀”等特征將其與萵苣屬分開,獨立成屬[2]。乳苣富含蛋白質(zhì)、糖類、脂肪、膳食纖維、氨基酸、礦物質(zhì)、維生素、微量元素等營養(yǎng)物質(zhì),具有清熱、殺菌、消炎、止痛等功效,民間多作為野菜食用[3]。乳苣中含有豐富的天然黃酮類化合物,具有抗心血管疾病、抗氧化、抗腫瘤等醫(yī)學價值[4]。
葉綠體基因組(cpDNA)中含有大量功能基因,在物種鑒定及系統(tǒng)進化中具有重要研究價值。葉綠體基因組以共價閉合的雙鏈形式存在,由四個區(qū)域組成:一對反向重復序列區(qū)(inverted repeat region, IR)、一個大單拷貝序列區(qū)(large single-copy region, LSC)和一個小單拷貝序列區(qū)(small single-copy region, SSC)[5-6]。葉綠體基因組序列具有高度保守、結構穩(wěn)定、分子進化速率慢且分子量小等特點,使其在胞質(zhì)遺傳、植物系統(tǒng)發(fā)育、DNA條形碼的開發(fā)、遺傳多樣性和親緣關系等方面發(fā)揮著重要作用[7]。因此,葉綠體基因組已成為研究植物系統(tǒng)發(fā)育最有效的工具之一。自1986年煙草(Nicotianatabacum)和地錢(Marchantiapolymorpha)葉綠體基因組完整序列報道以來[8-9],植物葉綠體基因組測序工作進入快速發(fā)展階段。2007年,菊科植物萵苣(Lactucasativa)和向日葵(Helianthusannuus)的葉綠體基因組組裝完成[10];2018年,GenBank數(shù)據(jù)庫已收錄了12個屬27種菊科植物[11]。然而有關菊科乳苣屬植物葉綠體基因組序列的研究還未見報道。本研究基于高通量測序技術獲得了乳苣葉綠體基因組全長序列,比較了乳苣屬與近緣屬葉綠體基因組序列,并探討了乳苣的系統(tǒng)進化與親緣關系,以期為菊科植物葉綠體基因組的變異和分子系統(tǒng)進化發(fā)育等提供證據(jù)。
乳苣于2019年4月采自甘肅省蘭州市安寧區(qū)(36.10°N、103.72°E)黃河岸邊,選擇健康植株,取正常發(fā)育的幼嫩葉片100 mg,用錫箔紙包裹后液氮速凍,-80 ℃冷凍保存。
1.2.1DNA提取及測序 將乳苣樣品送至南京集思慧遠生物科技有限公司,用改良的CTAB法[12]提取葉片DNA,經(jīng)1%瓊脂糖凝膠電泳和Nanodrop分光光度計對其濃度、純度進行檢測。合格DNA經(jīng)超聲波片段化后進行PCR擴增,形成測序文庫,文庫質(zhì)檢合格后用Illumina Novaseq平臺進行測序,雙末端(Paired-end,PE)測序讀長為150 bp。
1.2.2葉綠體基因組的組裝與注釋 測序完成后得到7 283 Mb的原始數(shù)據(jù)(raw read),過濾低質(zhì)量值數(shù)據(jù),確保數(shù)據(jù)質(zhì)量reads(質(zhì)量值Q≤5的堿基數(shù)占整個read的50%以上的reads),得到約24 Mb高質(zhì)量reads(clean data)。將clean data參考物種寬果蒲公英(Taraxacumplatycarpum, KU736960)的cpDNA序列進行序列組裝,為了降低序列組裝的復雜度,使用bowtie2 v2.2.4(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml),與本地化構建的葉綠體基因組數(shù)據(jù)庫進行比對,將比對上的序列作為測試樣品的cpDNA序列。利用blast v2.2.25軟件(https://blast.ncbi.nlm.nih.gov/Blast.cgi)將乳苣cpDNA與參考物種葉綠體基因組CDS序列比對并進行注釋,再經(jīng)過手工校正后得到cpDNA的注釋結果;利用SPAdes v3.10.1軟件(http://cab.spbu.ru/software/spades/)組裝cpDNA序列[13]。然后用hmmer v3.1b2軟件(http://www.hmmer.org/)比對參考基因組的rRNA序列,獲得乳苣cpDNA的rRNA注釋信息[14]。利用aragorn v1.2.38軟件(http://130.235.244.92/ARAGORN/)對cpDNA序列進行tRNA預測,獲得cpDNA的tRNA注釋信息[15]。再用OGDRAW軟件(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)繪制乳苣cpDNA物理圖譜[16]。將注釋完整的乳苣cpDNA序列用BankIt向NCBI在線提交,獲得序列GenBank登錄號(MT845217)。
1.2.3重復序列和SSR分析 利用Vmatch v2.3.0軟件(http://www.vmatch.de/),結合Perl腳本鑒定串聯(lián)重復序和散在重復序列[17],其中散在重復序列包括正向、反向、回文和互補四部分。參數(shù)設置為:最小長度(minimum length)30 bp,海明距離(hamming distance)3。利用MISA v1.0軟件(http://pgrc.ipk-gatersleben.de/misa/misa.html)鑒定乳苣cpDNA中的簡單重復序列(SSR)[18],搜索參數(shù)設置為:1-8、2-5、3-3、4-3、5-3、6-3(前面數(shù)字代表重復堿基數(shù)量,后面數(shù)字代表最低重復次數(shù),如1-8為單堿基重復8次及以上)。
1.2.4邊界和共線性分析 從NCBI數(shù)據(jù)庫下載苦苣菜(Sonchusoleraceus, MG878405)、加納利苦苣菜(Sonchuscanariensis, NC_042381)、Sonchuswebbii(NC_042383)、寬果蒲公英(Taraxacumplatycarpum, KU736960)和萵苣(Lactucacativa, NC_007578)5個菊科菊苣族物種cpDNA序列,分析乳苣和上述5個菊科菊苣族物種IR和SC區(qū)域間的邊界和共線性。使用IRscope軟件(https://irscope. shinyapps. io/irapp/)繪制出IR邊界對比圖[19]。使用Mauve(v2.3.1)軟件默認參數(shù)進行基因組比對[20],對上述6個物種的葉綠體序列共線性進行分析。
1.2.5系統(tǒng)發(fā)育分析 從NCBI數(shù)據(jù)庫下載已公布的32個菊科代表屬物種完整的cpDNA序列,同時以十字花科擬南芥(Arabidopsisthaliana, NC_000932)為外類群,用MAFFT v7軟件對共有序列進行多重比對后用最大似然法(maximum likelihood, ML)對系統(tǒng)進化關系進行分析[21],利用RAxML v8.2.10軟件GTR模型(bootstrap=1 000)生成系統(tǒng)發(fā)育進化樹[22]。
組裝結果顯示,乳苣葉綠體基因組總長為152 401 bp,其中反向重復序列區(qū)(IRs)的長度為25 010 bp,大單拷貝區(qū)(LSC)和小單拷貝區(qū)(SSC)的長度分別為83 833和18 548 bp,GC含量為37.59%(圖1)。乳苣葉綠體基因組中共注釋132個基因(表1),其中包含8個rRNA基因(9.20%)、37個tRNA基因(28.03%)和87個mRNA基因(65.91%)。按照功能可將這些基因分為四類:第一類為與自我復制有關的基因(總計45個),包含rrn16、rrn23、rrn4.5等8個rRNA和trnH-GUG、trnK-UUU、trnQ-UUG等37個tRNA;第二類為與光合作用有關的基因(總計75個),包含14個核糖體小亞基基因、11個核糖體大亞基基因、4個DNA依賴核酸聚合酶基因、12個NADH脫氫酶亞基基因、7個亞光系統(tǒng)Ⅰ基因、14個亞光系統(tǒng)Ⅱ基因、6個細胞色素復合物b/f亞基基因、6個ATP合酶亞基基因和1個Rubisco酶大亞基基因;第三類為其他蛋白基因(6個),包括轉錄起始因子infA、成熟酶matK、蛋白酶clpP等;第四類功能未知,包含ycf2、ycf15、ycf1等8個基因。
通過SSR位點分析(圖2),共檢測到197個串聯(lián)重復序列和21個散在重復序列。從圖2可以看出,在197個串聯(lián)重復序列中,100個位點(50.76%)位于基因編碼區(qū)(exon)、12個位點(6.09%)位于基因內(nèi)含子區(qū)(intron)、85個位點(43.15%)位于基因間隔區(qū)(intergenic)。在這些串聯(lián)重復序列中,120個(60.90%)位于LSC區(qū)域,39個(19.80%)位于SSC區(qū)域,38個(19.30%)位于IR區(qū)域。按照堿基重復位點數(shù)目分類,這些串聯(lián)重復序列可分為單堿基重復位點(P1,124個)、雙堿基重復序列(P2,6個)、三堿基重復序列(P3,65個)和四堿基重復序列(P4,2個),其中單核苷酸重復最多,占到62.94%,四核苷酸重復數(shù)量最少, 占到1.01%。在21個散在重復序列中,包含10個正向重復序列(forward repeat sequence,F(xiàn))、2個反向重復序列(reverse repeat sequence,R)、11個回文重復序列(palindromic repeat sequence, P),無互補重復序列。在這些重復序列中,AT基序占據(jù)優(yōu)勢,具有堿基偏好性,這與前面的在葉綠體基因序列中AT含量較高的結果保持一致。
注:正向編碼的基因位于圈外側而反向編碼的基因位于圈內(nèi)側,內(nèi)部的深、淺灰色的區(qū)域分別代表GC、AT含量。Note: Genes inside the circle are transcribed clockwise, and those outside are transcribed counter clockwise. Darker and lighter areas in the inner circle indicate GC content and AT content, respectively.圖1 乳苣葉綠體基因組圖譜Fig.1 Gene map of Mulgedium tataricum chloroplast genome
圖2 乳苣葉綠體基因組SSR位點分布Fig.2 SSR distribution of chloroplast genome from Mulgedium tataricum
通過比較乳苣和5個菊苣族物種cpDNA的IR與SC邊界區(qū)域基因的分布狀況,分析乳苣在進化過程中IR/SC邊界上是否存在擴張與收縮現(xiàn)象。借助IRscope工具生成6個菊苣族植物物種的邊界圖(圖3),發(fā)現(xiàn)這6個菊苣族植物物種的葉綠體基因組長度差異較小(分布在151 307~152 765 bp之間),其序列整體上高度相似,但不同物種間邊界基因的類型和位置有所差異(圖3)。第一個邊界LSC-IRb位于rps19基因內(nèi)部,邊界上僅分布一個基因,基因類型相同;而rps19基因分布在IRb中的長度在6個菊苣族物種間存在明顯差異,分別為66、89、89、87、67和60 bp。第二邊界IRb-SSC上分布的基因類型和大小在物種間均存在較大的差異,在苦苣菜和寬果蒲公英中,ycf1基因橫跨IRb-SSC邊界,在SSC中長度分別為44和3 bp;在乳苣和寬果蒲公英中,ndhF基因橫跨IRb-SSC邊界,在IRb中的長度分別為2和18 bp;在加納利苦苣菜、萵苣和Sonchuswebbii3個物種中,ndhF基因沒有橫跨IRb-SSC邊界。在第三個邊界SSC-IRa上,基因類型和大小都存在差異。除萵苣外,5個物種均有ycf1基因橫跨該邊界,但ycf1基因分布在IRa中的長度物種間存在差異。在第四個邊界IRa-LSC上,6個物種中均無基因橫跨,但是該邊界離trnH基因的距離在6個物種間存在71和75 bp兩種類型。上述邊界分析結果表明,乳苣與其他5個菊科萵苣族物種在邊界基因上存在一定差異,且IR/SC區(qū)存在明顯擴張和收縮現(xiàn)象。
圖3 6個菊苣族物種葉綠體基因組LSC、SSC和IR邊界比較Fig.3 Comparison of LSC, SSC and IR borders among six chloroplast genomes of Lactuceae species
為了評估乳苣與其他5個菊苣族物種在進化上的差異程度,利用Mauve軟件[20]對乳苣和上述5種菊苣族物種的葉綠體基因進行對照分析,結果如圖4所示??梢钥闯觯@6個物種的葉綠體基因高度相似,沒有檢測到大片段的倒位或基因重排現(xiàn)象,基因的排列順序基本一致并且具有較高的保守性。從葉綠體基因組4個組分上看,IR區(qū)序列變異最低,SSC區(qū)的變異程度最高。
圖4 6個菊苣族物種葉綠體基因組的共線性分析Fig.4 Collinearity analysis of chloroplast genomes from six Lactuceae species
為了揭示乳苣與32個菊科物種之間的系統(tǒng)發(fā)育關系,以擬南芥為外類群,將乳苣和32個菊科物種的葉綠體基因組序列進行聚類分析。結果(圖5)顯示,菊科14個屬的33個物種之間存在較為明確的系統(tǒng)進化關系,它們可聚為兩大分支。第一分支由蒲公英屬(Taraxacum)、萵苣屬(Lactuca)、乳苣屬(Mulgedium)、苦苣菜屬(Sonchus)、香青屬(Anaphalis)、火絨草屬(Leontopodium)、茼蒿屬(Chrysanthemum)、蒿屬(Artemisia)、紫菀屬(Aster)和向日葵屬(Helianthus)10個屬的26個物種組成。第二分支由薊屬(Cirsium)、紅花屬(Carthamus)、風毛菊屬(Saussurea)和蒼術屬(Atractylodes)4個屬7個物種構成,它們均屬于菜薊族(Cynareae)植物。乳苣屬位于系統(tǒng)進化樹的第一分支中,緊鄰萵苣屬,說明乳苣與萵苣屬植物(NC_007578和DQ383816)的親緣關系最近,這與前人通過分子系統(tǒng)學分類方法[2]和分支分析方法[23]獲得的研究結果一致,同時也證明通過葉綠體基因組序列可以有效進行系統(tǒng)發(fā)育關系研究。
圖5 基于34種植物葉綠體基因組序列的系統(tǒng)發(fā)育樹Fig.5 Phylogenetic tree based on complete chloroplast genomes sequences from 34 species
菊科是被子植物中較大的科,適應多種生態(tài)環(huán)境。由于菊科是一個較年輕的科,正處在分化強烈階段,加之種類繁多,形態(tài)變異復雜,使得對其科內(nèi)等級的劃分和系統(tǒng)學研究產(chǎn)生極大困難,因此研究菊科植物的系統(tǒng)進化關系是植物學的研究熱點[24]。傳統(tǒng)分類方法主要依據(jù)外部形態(tài)、內(nèi)部解剖特征,結合地理分布和古生物學等進行。由于傳統(tǒng)分類方法研究周期較長,主觀因素較大,嚴重影響分類系統(tǒng)開展。而利用分子生物學手段獲取植物各種DNA序列,通過分析DNA序列遺傳變異,可以推斷植物類群之間的演化,探討植物的系統(tǒng)發(fā)育關系,對于揭示植物系統(tǒng)與進化有著重要作用[24]。
葉綠體是所有綠色植物和藻類微生物細胞進行光合作用的細胞器,自身具有相對獨立的遺傳物質(zhì)且基因組結構穩(wěn)定,大多數(shù)屬于母系遺傳[25]。與核基因組DNA相比,cpDNA具有分子量小、多拷貝和結構簡單的特點,這些都有利于對其進行分析(包括物理圖譜的構建及特定基因的分離、鑒定和序列測定)[26]。其中,非編碼區(qū)的進化速度快,適用于較低分類階元(如科、屬)的系統(tǒng)研究;編碼區(qū)的進化速度慢,適用于較高分類階元(如科、目及更高的分類單位)的系統(tǒng)研究[27]。1986年,煙草(Nicotinanatabacum)和地錢(Marchantiapolymorpha)的葉綠體基因組測序完成,這是最早被報道的葉綠體全基因組序列[8-9]。此后,國內(nèi)外研究者開始對一些植物的葉綠體基因組進行研究,現(xiàn)已廣泛應用于植物物種鑒定、系統(tǒng)進化、遺傳多樣性等多個領域。目前已有多種菊科植物的葉綠體全基因組被報道,2018年,GenBank數(shù)據(jù)庫已登錄了菜薊屬、蒿屬、紫菀屬等12個屬27種菊科植物[11],除此之外,苦苣菜屬葉綠體基因組同樣被報道[28-29]。本研究采用第二代高通量測序技術對乳苣進行葉綠體全基因組測序,構建了乳苣葉綠體基因組物理圖譜,注釋132個基因,明確了乳苣葉綠體基因組結構與特征,為后續(xù)深入研究菊科植物的系統(tǒng)進化提供理論基礎。前期研究認為,菊科植物葉綠體基因組長度分布在149.51~153.20 kb之間[11]。本研究中組裝的乳苣葉綠體基因組全長為152.40 kb,分布在已報道的菊科植物葉綠體全基因組大小范圍之內(nèi),且乳苣同樣呈典型的環(huán)狀四分體結構,GC含量為37.59%。菊科植物的IR區(qū)的長度在20~28 kb[11],而乳苣IR區(qū)長度為25 010 bp,同樣與菊科植物IR區(qū)長度相吻合。
植物葉綠體基因組的擴張和收縮是植物比較基因組學中的重要數(shù)據(jù),它們被認為是葉綠體基因組變異的主要機制[30]。葉綠體基因組大小與非編碼區(qū)域的收縮和擴張有關,且IR區(qū)域是葉綠體基因組中最保守的。梁鳳萍等[11]對27個菊科植物葉綠體基因組進行研究,發(fā)現(xiàn)基因的位置除了trnH基因之外,rps19、ycf1、ndhF等基因均十分保守。盡管葉綠體基因組結構和大小高度保守,但是IR與SC的邊界區(qū)域仍會有細微差別。Cho等[29]對苦苣菜屬3個物種葉綠體基因組LSC、SSC和IR區(qū)域進行了邊界分析,發(fā)現(xiàn)rps19、ycf1、ndhF、rpl2和trnH基因在位置或大小上物種間存在一些細微差異。本研究對乳苣和其他5個菊科萵苣族物種葉綠體基因組進行邊界和共線性比較分析,發(fā)現(xiàn)6個物種的葉綠體基因組序列整體上高度相似,但其仍存在明顯差異,主要表現(xiàn)為rps19、rpl2、ycf1、trnN、ndhF、trnH和rpl23等基因的擴張和收縮。
近年來,有不少學者通過葉綠體重建了部分菊科植物的系統(tǒng)發(fā)生關系。例如,梁鳳萍等[11]完成27種菊科植物葉綠體基因組特征及系統(tǒng)進化分析,證明萵苣屬與矢車菊屬植物存在較近的親緣關系。Cho等[29]利用葉綠體基因組通過對32種菊科植物的系統(tǒng)發(fā)育分析,揭示了4種苦苣屬植物(苦苣菜、無莖苦苣菜、加納利苦苣菜、Sonchuswebbii)與萵苣(DQ383816)、Taraxacumobtusifrons具有較近的親緣關系。乳苣屬、萵苣屬、蒲公英屬和苦苣菜屬均屬于菊科菊苣族植物,該族植物存在一個最易辨認的表型特征,具有大而鮮艷的舌狀花和牛奶狀的白色乳汁使它們?nèi)徊煌诰湛浦腥魏我粋€特別的族。系統(tǒng)進化樹結果表明,乳苣屬、萵苣屬、蒲公英屬和苦苣菜屬存在最近的親緣關系,本研究從分子上證明了菊苣族的4個屬具有較近的親緣關系(圖5)。同時也發(fā)現(xiàn),相對于菜薊族植物,菊苣族與旋覆花族、春黃菊族、紫菀族和向日葵族存在較近的親緣關系(圖5)。本研究通過對乳苣葉綠體基因組測序及分析,補充了菊科植物葉綠體基因組缺失的屬種,為今后全面揭示菊科植物系統(tǒng)進化關系奠定基礎。