錢方 高作敏 胡利娟 王洪程
(貴州師范大學(xué)生命科學(xué)學(xué)院,貴陽 550001)
海 甘 藍(lán)(Crambe abyssinica Hochst. ex R.E.Fr.)是十字花科(Brassicaceae)海甘藍(lán)屬(Crambe)的一年生草本植物,主要分布在地中海、西伯利亞和中亞等地區(qū)[1]。海甘藍(lán)種子中的芥酸(erucic acid)含量高達(dá)55%-62.5%,而芥酸是重要的工業(yè)用油,可用于機(jī)械潤滑、脫膜劑和燃料橡膠添加劑,又可用作化妝品、香料、高級工程塑膠等化工原料[2]。此外,芥酸還可進(jìn)一步衍生為芥酸醜胺、山崳酸等,這些衍生物在醫(yī)藥、農(nóng)業(yè)、工業(yè)等行業(yè)均具有廣泛的應(yīng)用前景,因此海甘藍(lán)被認(rèn)為是一種新型的、可再生工業(yè)油用資源,受到越來越廣泛的重視[3-5]。此外,海甘藍(lán)還具有抗旱、抗病等特點[2],科研人員曾嘗試將海甘藍(lán)的優(yōu)異性狀轉(zhuǎn)移到蕓薹屬(Brassica)作物中,以提高蕓薹屬作物的品質(zhì)和豐富蕓薹屬種質(zhì)資源[6-7]。因此闡明海甘藍(lán)在十字花科植物中的系統(tǒng)發(fā)育位置及與十字花科重要經(jīng)濟(jì)作物的親緣關(guān)系,將為海甘藍(lán)的遺傳改良及優(yōu)良性狀轉(zhuǎn)育到蕓薹屬作物的可能性提供有力的分子支撐。
葉綠體(chloroplast,cp)是綠色植物進(jìn)行光合作用的場所,擁有獨立的遺傳物質(zhì)[8]。關(guān)于其起源,被廣泛接受的是“內(nèi)共生起源學(xué)說(endosymbiotic theory)”[9]。在高等植物中,細(xì)胞核(nucleus,nr)、葉綠體和線粒體(mitochondria,mt)各自擁有自己的一套遺傳物質(zhì),即核基因組(nuclear genome,nrDNA)、葉 綠 體 基 因 組(chloroplast genome,cp genome)以及線粒體基因組(mitochondrial genome,mtDNA)[10]。葉綠體基因組一般是以共價雙鏈閉合環(huán)的形式存在,只有極少數(shù)部分為線型或多聚體形式。通常葉綠體基因組大小為120-160 kb,編碼110-130個基因[11-12],由兩個單拷貝區(qū)(large single copy,LSC;small single copy,SSC)和兩個反向重復(fù)區(qū)(inverted repeat,IRa和IRb)組成的典型四分體結(jié)構(gòu)。其中IRa和IRb區(qū)方向相反,序列相同。相比于核基因組與線粒體基因組,葉綠體基因組的結(jié)構(gòu)和編碼區(qū)基因相對保守[13],進(jìn)化速率適中,介于核基因組和線粒體基因組之間[14],因此葉綠體基因組被廣泛應(yīng)用于物種間的系統(tǒng)進(jìn)化關(guān)系研究[15-17]。
自1986年首次完成地錢(Marchantia polymorpha)和煙草(Nicotiana tabacum)的葉綠體基因組測序以來[18-19],越來越多的植物葉綠體基因組數(shù)據(jù)被公布于公共基因組數(shù)據(jù)庫中。目前在GenBank數(shù)據(jù)庫中公布了數(shù)千物種的葉綠體基因組信息,但尚未有海甘藍(lán)葉綠體基因組系統(tǒng)的研究發(fā)表,且海甘藍(lán)在十字花科植物中的系統(tǒng)發(fā)育地位亦不明晰。本研究通過Illumina測序平臺對海甘藍(lán)的葉綠體基因組進(jìn)行測序和組裝,并對海甘藍(lán)及其近緣物種的葉綠體基因組進(jìn)行系統(tǒng)比較。此外,還根據(jù)海甘藍(lán)與已報道的50個十字花科物種葉綠體基因組進(jìn)行了系統(tǒng)發(fā)育分析,確定了海甘藍(lán)在十字花科植物中的系統(tǒng)發(fā)育位置。
海甘藍(lán)種子經(jīng)水引發(fā)后種植于貴州師范大學(xué)生命科學(xué)學(xué)院光照培養(yǎng)室,光照條件為16 h/8 h的光照/黑暗周期,生長溫度為22℃/16℃的光照/黑暗周期。
1.2.1 DNA提取、測序和組裝 待幼苗生長至五葉期時,收集幼嫩的葉片,通過植物DNA提取試劑盒(天根)提取總DNA。DNA經(jīng)過純化后,構(gòu)建400 bp的文庫,然后通過二代測序平臺(Illumina HiSeq X-Ten)進(jìn)行高通量測序。數(shù)據(jù)過濾以后,以擬南芥(Arabidopsis thaliana;NC_000932.1)葉綠體基因組為參考基因組,通過BLASR軟件(默認(rèn)參數(shù))比對出與葉綠體基因組相關(guān)的reads,然后使用NOVOPlasty v3.7 軟件進(jìn)行組裝(默認(rèn)參數(shù))[20]。通過 GeSeq軟件進(jìn)行基因預(yù)測[21],采用人工比對近緣物種(擬南芥)進(jìn)行校正。最后,通過軟件OGDRAW[22]繪制海甘藍(lán)葉綠體基因組的物理圖譜。測序產(chǎn)生的原始數(shù)據(jù)(https://www.ncbi.nlm.nih.gov/;Submission ID:SUB9605680;BioProject ID:PRJNA728550)和組裝完成的葉綠體基因組信息(GenBank accession number:MZ153236)均上傳至NCBI(National Center for Biotechnology In-formation)數(shù)據(jù)庫。
1.2.2 重復(fù)序列分析 通過在線軟件REPuter(https://bibiserv.cebitec.uni-bielefeld)對海甘藍(lán)葉綠體基因組進(jìn)行長重復(fù)序列分析[23],重復(fù)序列包含同向重復(fù)(forward)、反向重復(fù)(reverse)、互補(bǔ)重復(fù)(complement)和回文重復(fù)(palindromic)。參數(shù)設(shè)置如下:最大重復(fù)長度(maximum computed repeats)設(shè)置為1 000,最小重復(fù)長度(minimal repeat size)設(shè)置為30,漢明距離(Hamming distance)設(shè)置為3(表示一對重復(fù)序列的相似度不能小于90%),其余均為默認(rèn)參數(shù)。
通 過 在 線 軟 件MISA(https://webblast.ipkgatersleben.de/misa/)檢測海甘藍(lán)葉綠體基因組的簡單重復(fù)序列(simple sequence repeat,SSR)[24],參數(shù)設(shè)置如下:單核苷酸(mononucleotide)、二核苷酸(dinucleotide)、三核苷酸(trinucleotide)、四核苷酸(tetranucleotide)、五核苷酸(pentanucleotide)、六核苷酸(hexanucleotide)的重復(fù)次數(shù)分別設(shè)置為10、5、4、3、3和3,其余均為默認(rèn)參數(shù)。
1.2.3 密碼子偏好性分析 通過CodonW1.4.2(http://downloads.fyxm.net/CodonW-76666.html)軟 件對海甘藍(lán)葉綠體基因組進(jìn)行密碼子偏好性分析,為了減小誤差,選擇長度不小于300 bp的編碼基因(53個),同時對海甘藍(lán)葉綠體蛋白編碼基因的相對同義密碼子使用度(relative synonymous codon usage,RSCU)進(jìn)行了計算,所有參數(shù)均為默認(rèn)值。
1.2.4 葉綠體基因組的比較分析 為分析海甘藍(lán)葉綠體基因組與近緣物種之間的差異,通過在線軟件mVISTA(http://genome.lbl.gov/vista/mvista/submit.shtml)中的Shuffle-LAGAN模型[25]比較海甘藍(lán)與5個近緣物種:克拉里克海甘藍(lán)(Crambe kralikii)、甘藍(lán)型油菜(Brassica napus)、白菜(Brassica rapa)、蘿卜(Raphanus sativus)和擬南芥的葉綠體基因組序列差異;此外,還使用在線軟件IRscope(https://irscope.shinyapps.io/irapp/)比較海甘藍(lán)及上述5個近緣物種的IR邊界(LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC)信息。
通過MUMmer v3.0軟件檢測了海甘藍(lán)與其5個近緣物種中的SNPs(單核苷酸多態(tài)性)和InDels(插入/缺失),以海甘藍(lán)葉綠體基因組為參考,maxgap=500,mincluster=100,其余為默認(rèn)參數(shù)。
1.2.5 分子進(jìn)化與系統(tǒng)進(jìn)化分析 為評估海甘藍(lán)葉綠體基因組中蛋白編碼基因(protein-coding genes,PCGs)的同義(synonymous,Ks)和非同義(nonsynonymous,Ka)替換率,我們通過MAFFT[26]比對了海甘藍(lán)與其5個近緣種(克拉里克海甘藍(lán)、甘藍(lán)型油菜、白菜、蘿卜和擬南芥)的75個共有編碼基因序列,采用KaKs_calculator 2.0[27]計算了75個共有編碼基因的Ka/Ks值。
同時,為闡明海甘藍(lán)與十字花科其他物種的系統(tǒng)發(fā)育關(guān)系,我們從GenBank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genome/organelle/)中下載了十字花科的50個物種的葉綠體基因組全序列,以Aethio- nema cordifolium 和 Aethionema grandiflorum 為外類群,采用MAFFT軟件比對葉綠體基因組全序列,使用MEGA7.0[28]基于Tamura-Nei模型的最大似然法(maximum likelihood,ML)構(gòu)建系統(tǒng)發(fā)育樹,bootstrap值設(shè)置為1 000,以此推斷各節(jié)點的支持率。
本研究基于Illumina HiSeq X-Ten測序平臺,以擬南芥葉綠體基因組信息為參考進(jìn)行組裝和注釋,得到了全長為153 754 bp 的海甘藍(lán)葉綠體基因組(圖1)。海甘藍(lán)葉綠體基因組呈典型的四分體結(jié)構(gòu),由一對長度為26 176 bp的IR區(qū)(IRa和IRb)以及將它們分開的長度分別為83 622 bp的LSC區(qū)和17 780 bp的SSC區(qū)組成。在該葉綠體基因組中,4種堿基數(shù)量的百分比含量為T(32.28%)>A(31.35%)> C(18.51%)> G(17.86%),GC堿基含量占堿基總數(shù)的36.37%(表1),遠(yuǎn)低于AT堿基含量(63.63%)。在LSC、SSC和IR區(qū)中,GC含量分別為34.14%、29.29%和42.36%,AT含量分別為65.86%、72.71%和60.64%。在IR區(qū)中,其GC含量的百分比明顯高于其它兩個單拷貝區(qū)。
海甘藍(lán)葉綠體基因組中一共注釋到111個基因,其中蛋白編碼基因78個,tRNA基因29個,rRNA基因4個,大多數(shù)基因都是單拷貝,只有19個基因為雙拷貝(表1,圖1)。在LSC和SSC區(qū)中,分別包含81和13個基因(包含雙拷貝);在兩個IR區(qū)中,一共檢測到36個基因,rRNA基因全部位于IR區(qū)。在這111個基因中,大多數(shù)基因都與光合作用相關(guān),部分基因與自身復(fù)制相關(guān),只有極少部分的基因(ycf類)功能尚未明確(表2)。此外,共有18個基因含有內(nèi)含子,其中15個基因(petB,petD,atpF,ndhA,ndhB,trnA-UGC,trnG-GCC,trnI-GAU,trnKUUU,trnL-UAA,trnV-UAC,rps16,rpl16,rpl2和rpoC1)含有1個內(nèi)含子,3個基因(rps12,clpP和ycf3)含有2個內(nèi)含子,其中rps12是一個5′端位于LSC區(qū),3′端位于IR區(qū)的反式剪接基因。
圖1 海甘藍(lán)葉綠體全基因組圖譜 Fig.1 Circle gene map of the C. abyssinica cp genome
在海甘藍(lán)葉綠體基因組中,我們共檢測到41個長度范圍在30-42 bp的長重復(fù)序列,其中包括13個正向重復(fù)、23個回文重復(fù)、3個倒置重復(fù)和2個互補(bǔ)重復(fù)(附表1)。這些重復(fù)序列分布較為廣泛,大部分位于基因間區(qū)(intergenic spacer,IGS)和內(nèi)含子區(qū)域,有18個重復(fù)序列(8個正向重復(fù)和10個回文重復(fù))位于ndhA、petD、psaB、psbJ、rrn4.5S、trnS-UGA、ycf2和ycf3基因上;最大的長重復(fù)序列(回文重復(fù),42 bp)位于IGS區(qū)(psbE-petL),rrn4.5S、ycf2和ycf3基因上均檢測到4個重復(fù)序列;此外,3個倒置重復(fù)和2個互補(bǔ)重復(fù)存在于trnS-GCU和trnGUCC基因的IGS區(qū)域。
表1 海甘藍(lán)葉綠體基因組的詳細(xì)特征Table 1 Detailed characteristics of the chloroplast genome of C. abyssinica
在海甘藍(lán)的葉綠體基因組中,共鑒定到13種不同類型的59個SSR位點(附表2),包含 40個單核苷酸、10個二核苷酸、3個三核苷酸、4個四核苷酸和2個五核苷酸重復(fù),大多數(shù)的SSRs位于IGS區(qū)域,也有部分SSR在基因上被檢測到。所有的單核苷酸重復(fù)均表現(xiàn)為A或T類型,其中最長的單核苷酸(T)長度為21 bp;所有的二核苷酸重復(fù)為AT或TA類型,其中最長的二核苷酸重復(fù)(AT)長度為18 bp;三核苷酸(AAG、GGT和TAT)和四核苷酸重復(fù)(AAAT、ACTT、CAAA和TAAA)的長度均為12 bp;五核苷酸重復(fù)(AACAT和ATATA)為15 bp;未檢測到六核苷酸重復(fù)。
表2 海甘藍(lán)葉綠體基因組基因功能總結(jié)Table 2 Summary of assembled gene functions of C. abyssinica chloroplast genome
通過對海甘藍(lán)葉綠體基因組中的53個蛋白編碼序列(>300 bp)進(jìn)行密碼子偏性分析,發(fā)現(xiàn)此53個蛋白編碼基因全長為63 795 bp,包含21 265個密碼子。在這些密碼子中,有2 232個(10.50%)密碼子編碼亮氨酸(leucine,Leu),而僅有244個(1.15%)密碼子編碼半胱氨酸(cysteine,Cys)(附表3),表明在海甘藍(lán)葉綠體基因組中使用最多和最少的氨基酸分別是亮氨酸和半胱氨酸。RSCU分析顯示,在海甘藍(lán)葉綠體基因組中,UUA和CUC分別是使用頻率最高和最低的密碼子,其中有30種密碼子的RSCU值大于1,這些密碼子使用頻繁,此外這RSCU>1的密碼子中,除編碼亮氨酸的UUG之外,其余29種密碼子的第3位均為A/U結(jié)尾。
為了比較海甘藍(lán)與其近緣物種的葉綠體基因組差異,我們比較了海甘藍(lán)與本屬的克拉里克海甘藍(lán)、蕓薹屬的甘藍(lán)型油菜和白菜、蘿卜屬(Raphanus)的蘿卜以及模式作物擬南芥的葉綠體基因組基本信息(表3),海甘藍(lán)與其5個近緣種的葉綠體基因組高度相似,6個物種的葉綠體基因組全長范圍在152 860 bp(甘藍(lán)型油菜)-154 478 bp(擬南芥),均為典型的四分體結(jié)構(gòu),并且GC含量也十分接近(36.29%-36.37%),除海甘藍(lán)的葉綠體基因組和丟失了2個基因(ycf15和trnfM-CAU)外,其余物種在基因組成和數(shù)量上基本一致。
表3 6種十字花科物種葉綠體基因組特征比較Table 3 Comparison of six chloroplast genomes of Brassicaceae species
以海甘藍(lán)葉綠體基因組信息為參照,利用mVISTA 中的Shuffle-LAGAN模型比較了海甘藍(lán)與其5個近緣物種(克拉里克海甘藍(lán)、甘藍(lán)型油菜、白菜、蘿卜和擬南芥)的葉綠體基因組序列差異(圖2)。6個物種的葉綠體基因組在LSC區(qū)和SSC區(qū)序列變異較大,IR區(qū)相對較為保守。物種之間的葉綠體基因組具有高度的保守性(>90%),且編碼區(qū)、tRNA 和 rRNA 區(qū)域的變異低于非編碼區(qū)。此外,IGS變異也比較大,如trnK-UUV和rps16基因之間、rpoB和trnC-GCA基因之間、petA和psbJ基因之間、rps12和trnV-GAC基因之間、ndhF和rpl32基因之間存在較大的序列差異。值得注意的是,雖然編碼區(qū)的變異一般都較小,但是ycf1基因在此6個物種之間的變異較大。
圖2 以海甘藍(lán)為參考與其他5個近緣物種的序列比對結(jié)果Fig.2 Sequence alignment of 5 chloroplast genomes of Brassicaceae,with the annotation of C. abyssinica as reference
通過在線網(wǎng)站IRscope比較分析了海甘藍(lán)6個物種的LSC、SSC和IR區(qū)的邊界位置,在此6個物種葉綠體基因組4個區(qū)域中,IR區(qū)較為保守,序列大小在26 035-26 264之間。如圖3所示,海甘藍(lán)葉綠體基因組IR邊界處與其他5個物種基本類似,LSC/IRb、IRb/SSC和SSC/IRa三個邊界分別位于rps19、ndhF和ycf1基因內(nèi),僅IRa/LSC邊界位于IGS(rpl2-trnH)。在LSC/IRb邊界處,擬南芥、蘿卜、甘藍(lán)型油菜和白菜的邊界基因rps19均有166 bp位于LSC區(qū),113 bp位于IRb區(qū),克拉里克海甘藍(lán)存在1 bp的微小差異,而在海甘藍(lán)中rps19基因只有93 bp位于IRb區(qū);在IRb/SSC邊界處的ndhF基因,除甘藍(lán)型油菜外(進(jìn)入IRb區(qū)36 bp),其余5個物種均有37 bp進(jìn)入IRb區(qū);在SSC/IRa 邊界,6個物種均橫跨 ycf1基因,橫跨進(jìn)入SSC區(qū)的長度大小從4 274 bp-4 331 bp不等,其中,擬南芥的 ycf1 基因在 SSC 區(qū)的片段長度最大,蘿卜和海甘藍(lán)最??;僅有IRa/LSC邊界處于rpl2和trnH基因的IGS,靠近trnH基因,擬南芥、蘿卜和白菜距離trnH基因僅有3 bp,克拉里克海甘藍(lán)有4 bp,而B. napus和海甘藍(lán)距離trnH基因分別為30 bp和23 bp。
圖3 六個十字花科物種葉綠體基因組邊界序列及接頭附近基因的比較分析Fig.3 Comparative analysis of the boundaries of chloroplast genomes and adjacent genes among six Brassicaceae
海甘藍(lán)與其5個近緣物種的葉綠體基因組比較保守,其編碼基因數(shù)目、基因組大小和基因組結(jié)構(gòu)等方面較為相似,為檢測海甘藍(lán)與其近緣種葉綠體基因組間的分化差異,我們以海甘藍(lán)葉綠體基因組信息為參考,比較了這6種物種葉綠體基因組的SNP及InDel的數(shù)目及分布差異(圖4,附表4-9)。結(jié)果顯示,海甘藍(lán)與擬南芥之間檢測到的SNPs和InDels最 多(5 269個SNPs,671個InDels)(圖4,附表4);與同屬的克拉里克海甘藍(lán)之間檢測到的SNPs和InDels數(shù)量最少(206個SNPs,789個InDels)(圖4,附表7);與蕓薹屬(甘藍(lán)型油菜和白菜)和蘿卜屬(蘿卜)之間檢測到的SNPs和InDels數(shù)量較為相似(圖4,附表5-6、8)。此外海甘藍(lán)與擬南芥、甘藍(lán)型油菜、白菜、克拉里克海甘藍(lán)和蘿卜之間檢測到的SNPs和InDels位于LSC區(qū)的數(shù)量分別為4 212(70.91%)、2 061(71.07%)、2 025(70.48%)、707(71.06%)和1 913(69.92%),而位于IR區(qū)的數(shù)量僅分別為588(9.00%)、243(8.38%)、244(8.5%)、90(9.05%)和240(8.77%)(附表9)。由此可見,海甘藍(lán)葉綠體基因組在種間的變異要遠(yuǎn)小于屬間的變異,且變異主要發(fā)生在葉綠體基因組的LSC區(qū),在IR區(qū)的變異較小。
圖4 海甘藍(lán)與其近緣物種葉綠體基因組間的SNPs和InDelsFig.4 SNPs and InDels between C. abyssinica and its closely related species chloroplast genomes
本研究對海甘藍(lán)葉綠體基因組及其5個近緣種的75個蛋白編碼基因進(jìn)行了Ka/Ks計算(圖5)??傮w上看,平均Ka/Ks值為0.164,說明海甘藍(lán)葉綠體基因組基因受到強(qiáng)烈的純化選擇壓力。相比于克拉里克海甘藍(lán),ccsA基因的Ka/Ks值為1.708,與擬南芥相比,rps14基因的Ka/Ks值為1.222,而對比于其他物種對應(yīng)的ccsA和rps14基因,Ka/Ks均小于。而ndhF基因與5個物種相比,其Ka/Ks的平均值為1.459。ycf2基因與蘿卜、白菜和甘藍(lán)型油菜相比,Ka/Ks均大于1,表明ndhF和ycf2基因受到了極強(qiáng)的正選擇。
圖5 海甘藍(lán)與十字花科5個近緣物種葉綠體基因組中75個蛋白編碼基因的Ka/Ks值Fig.5 Ka/Ks ratios of 75 PCGs of the C. abyssinica chloroplast genome versus 5 closely related species of Brassicaceae
本研究基于海甘藍(lán)及其50個十字花科物種的葉綠體基因組,以巖芥菜屬(Aethionema)的A. cordifolium和A. grandiflorum 為外內(nèi)群,采用最大似然法(maximum likelihood,ML)構(gòu)建系統(tǒng)發(fā)育樹。如圖6所示,遺傳變異度為0.005,共包含49個節(jié)點,其中有46(93.88%)個節(jié)點的bootstrap值都為100,1個節(jié)點為94,僅有2個節(jié)點低于94(分別為42和56)。海甘藍(lán)與海甘藍(lán)屬、蕓薹屬、蘿卜屬、Cakile arabica、白芥屬(Sinapis)和諸葛菜屬(Orychophragmus)的物種(共14個物種)聚在一個分支上,從這14個親緣關(guān)系較近的物種來看,諸葛菜屬系統(tǒng)發(fā)生位置位于較遠(yuǎn)的地方;Cakile arabica單獨為一支;海甘藍(lán)與其同屬的克拉里克海甘藍(lán)聚在一起,與白芥屬的物種構(gòu)成一個分支,形成兩個姊妹類群;蕓薹屬的黑芥(B. nigra)也與白芥屬聚在一起;蘿卜屬的蘿卜與蕓薹屬的白菜、甘藍(lán)、甘藍(lán)型油菜和芥菜型油菜以bootstrap值為100聚在一個分支上。
圖6 基于51個十字花科物種葉綠體全基因組序列的系統(tǒng)發(fā)育樹Fig.6 Phylogenetic tree based on chloroplast genome sequences of 51 Brassicaceae species
在光合植物中,葉綠體基因組以單性遺傳的方式傳遞遺傳物質(zhì),一般來說,大多數(shù)被子植物是母系遺傳(maternal inheritance),而大多數(shù)裸子植物卻為父系遺傳[12,29]。葉綠體基因組的大小范圍在120-160 kb,相對保守[30]。海甘藍(lán)葉綠體基因組全長153 754 bp,呈現(xiàn)出與大多數(shù)被子植物一樣的典型四分體結(jié)構(gòu)[13,31],與大多數(shù)已發(fā)表的十字花科物種葉綠體基因組相似[32-33]。此外,與海甘藍(lán)的近緣物種比較發(fā)現(xiàn)它們之間序列相似性很高,在LSC區(qū)和SSC區(qū)序列變異較大,編碼區(qū)比非編碼區(qū)保守。值得注意的是,雖然編碼區(qū)的變異一般都較小,但是ycf1基因在此6個物種之間的變異較大,在獼猴桃科(Actinidiaceae)和唇形科(Labiatae)中也存在序列差異較大的現(xiàn)象[34-35]。除海甘藍(lán)葉綠體基因組丟失了ycf15和trnfM-CAU基因外,其余物種在基因組成和數(shù)量上基本一致。在白芥和芝麻菜(Eruca sativa)中也觀察到了缺失ycf15基因的現(xiàn)象[36-37],表明該基因在十字花科植物中存在廣泛的變異。
在十字花科植物葉綠體基因組中,IR區(qū)的GC含量遠(yuǎn)高于LSC區(qū)和SSC區(qū),這種GC含量的差異分布是被子植物的典型特征[38-39],造成這種現(xiàn)象的主要原因是由于IR區(qū)含有4個高 GC 含量的 rRNA 基因[40]。植物IR區(qū)邊界處的基因種類相對保守,即在LSC/IRb處的基因大都為rpl22、rps19和rpl2基因,十字花科物種在此邊界橫跨了rps19基因,但在楊屬(Populus)的多個物種中橫跨了rpl22基因[41],據(jù)此推測十字花科物種相較于楊屬植物IR區(qū)發(fā)生了明顯的收縮;IRb/SSC處的基因是ndhF和一個因拷貝不完整在此形成的假基因(ycf1)[10],而在SSC/IRa邊界附近只有ycf1基因(該基因在此正??截悾?,且大多數(shù)物種此邊界均落在ycf1基因上;IRa/LSC邊界多數(shù)情況下都處于rpl2與trnH的IGS區(qū)內(nèi),而在貝母屬(Fritillaria)多個物種中,trnH基因全部位于IR區(qū)[42],表明IR區(qū)的收縮與擴(kuò)張廣泛存在于不同的科屬中,而IR區(qū)的收縮與擴(kuò)張可能與葉綠體基因組的大小變化有一定的關(guān)聯(lián),因此對不同物種間的差異進(jìn)行評估可以揭示相關(guān)類群的進(jìn)化演變過程。
海甘藍(lán)葉綠體基因組包含了重復(fù)序列的4種類型,大部分位于 IGS和內(nèi)含子區(qū)域,對于分析葉綠體基因組堿基替換、基因組進(jìn)化、基因重排以及系統(tǒng)發(fā)育的研究有重要的作用[43-44]。SSR廣泛存在于整個基因組中,常被用于遺傳多樣性分析、物種鑒別、連鎖作圖及分子標(biāo)記輔助選擇育種等方面[45-46]。在海甘藍(lán)葉綠體基因組中檢測到59個SSRs位點,與白芥、芝麻菜和豆瓣菜(Nasturtium officinale)中檢測到的SSR類似[36-37,47],單核苷酸均表現(xiàn)為A/T型,具有很強(qiáng)的A/T偏性,主要是原因是SSR通常由短聚腺嘌呤(polyA)或多胸腺嘧啶(polyT)重復(fù)序列組成[48]??梢曰谌~綠體基因組中的重復(fù)序列和SSR位點開發(fā)用于海甘藍(lán)種類鑒別的特異性標(biāo)記。
密碼子的使用偏性廣泛存在于葉綠體中,一些基因的密碼子偏性使用可以反應(yīng)該物種對外界環(huán)境的選擇壓力,被廣泛認(rèn)為在葉綠體基因組的重塑中起著關(guān)鍵作用[49-50]。海甘藍(lán)葉綠體基因組中密碼子使用最多的是編碼亮氨酸的密碼子(2 232,占10.50%),最少的是編碼半胱氨酸的密碼子(244,占1.15%)。RSCU分析是一種用于測量密碼子使用偏倚程度的相對直觀的方法,RSCU>1,代表該密碼子使用更頻繁[51-52]。RSCU分析顯示,UUA和CUC分別是使用頻率最高和最低的密碼子,其中有30種密碼子的RSCU值大于1,除編碼亮氨酸的UUG之外,其余29種密碼子的第3位均為A/U結(jié)尾,表明這些密碼子的使用更加頻繁且具有很強(qiáng)的A/U偏性,這一現(xiàn)象廣泛存在于大多數(shù)被子植物中。同義和非同義核苷酸替換模式是基因進(jìn)化的重要指標(biāo),常用Ka/Ks的比值評估蛋白編碼基因是否存在選擇壓力或評估基因分化率[53]。Ka/Ks<1,表示該基因經(jīng)歷了純化選擇,Ka/Ks=1,表示該基因受到中性選擇,Ka/Ks>1,表示該基因受到正選擇。在大多數(shù)基因中,Ks核苷酸替換比Ka核苷酸替換發(fā)生得更頻繁,因此Ka/Ks值通常小于1[54]??傮w上看,海甘藍(lán)葉綠體基因組平均Ka/Ks值為0.164,說明海甘藍(lán)葉綠體基因組基因受到強(qiáng)烈的純化選擇壓力。ndhF基因在葉綠體的發(fā)育過程中其重要作用[55],ycf2是被子植物中報道的最大的質(zhì)體基因[56],ndhF和ycf2基因的Ka/Ks均大于1,表明ndhF和ycf2基因受到了極強(qiáng)的正選擇。
葉綠體基因組的遺傳方式是母系遺傳,堿基替代率與基因組結(jié)構(gòu)重排事件低,因此常被用于探究物種系統(tǒng)發(fā)育關(guān)系的重要工具[36-37,47,57-58]。一些研究以較高bootstrap值的系統(tǒng)進(jìn)化樹闡明了十字花科部分植物的親緣關(guān)系,如Du等[37]在對白芥親緣關(guān)系解析時構(gòu)建的系統(tǒng)進(jìn)化樹中57(73.08%)個節(jié)點的bootstrap值都為100,以此揭示了白芥與蕓薹屬和蘿卜屬植物之間密切的親緣關(guān)系;此后Zhu等[36]在解析芝麻菜親緣關(guān)系時,同樣構(gòu)建的系統(tǒng)發(fā)育樹中42(77.78%)個節(jié)點的bootstrap值都為100,闡明了芝麻菜與蕓薹屬之間的親緣關(guān)系較近。本研究基于海甘藍(lán)及其近緣物種的葉綠體基因組全序列構(gòu)建的系統(tǒng)發(fā)育樹中,46(93.88%)個節(jié)點的bootstrap值都為100,這些結(jié)果都證實了基于葉綠體基因組信息揭示物種分類地位的可靠性。Warwick等[59]基于葉綠體限制酶位點多態(tài)性、核糖體內(nèi)轉(zhuǎn)錄間隔區(qū)和葉綠體trnL內(nèi)含子序列對十字花科進(jìn)行系統(tǒng)發(fā)育分析,發(fā)現(xiàn)海甘藍(lán)與黑芥之間有著密切的親緣關(guān)系,本研究中以較高節(jié)點bootstrap值支持了海甘藍(lán)與蕓薹屬和蘿卜屬之間的密切關(guān)系。在該進(jìn)化樹中海甘藍(lán)與海甘藍(lán)屬、蕓薹屬、蘿卜屬、Cakile arabica、白芥屬和諸葛菜屬的物種(共14個物種)聚在一個分支上,從這14個親緣關(guān)系較近的物種來看,諸葛菜屬系統(tǒng)發(fā)生位置位于較遠(yuǎn)的地方,相比于其他5個屬的物種是親緣關(guān)系較遠(yuǎn)的類群;海甘藍(lán)屬與白芥屬的物種構(gòu)成一個分支,形成兩個姊妹類群;有趣的是,蕓薹屬的黑芥也被聚在了白芥屬內(nèi),這在之前的許多系統(tǒng)發(fā)生研究上發(fā)現(xiàn)了相同的現(xiàn)象[36-37,47];蘿卜屬的蘿卜與蕓薹屬的白菜、甘藍(lán)、甘藍(lán)型油菜和芥菜型油菜聚在一個分支上,表現(xiàn)出與蕓薹屬的親密關(guān)系?;诖耍P(guān)于蘿卜與蕓薹屬的遠(yuǎn)緣雜交研究得以展開[60]。這些結(jié)果表明海甘藍(lán)屬、蕓薹屬、蘿卜屬、Cakile、白芥屬和諸葛菜屬有著類似的祖先,或者在物種形成過程中,這些物種之間的母系遺傳信息發(fā)生了交流。
通過Illumina HiSeq 測序平臺從頭組裝了海甘藍(lán)的完整葉綠體基因組,全長為153 754 bp,呈典型的四分體結(jié)構(gòu),一共注釋到111個基因(78個蛋白編碼基因、29個tRNA基因和4個rRNA基因);密碼子偏好性分析表明海甘藍(lán)偏愛使用A/U結(jié)尾的密碼子;共檢測到41個重復(fù)序列和59個SSR位點,以單堿基重復(fù)A/T為主;除ndhB和ycf2基因外,其余蛋白編碼基因普遍存在純化選擇壓力;此外,系統(tǒng)發(fā)育分析發(fā)現(xiàn),海甘藍(lán)與蕓薹屬作物親緣關(guān)系密切,與白芥屬植物形成姊妹類群。本研究結(jié)果為今后海甘藍(lán)優(yōu)異性狀的轉(zhuǎn)移、親緣關(guān)系解析以及遺傳多樣性分析提供了分子依據(jù)。
文章所有附圖附表數(shù)據(jù)請到本刊網(wǎng)站下載(http://biotech.aiijournal.com)。