馬孟莉,張 薇,孟衡玲,王田濤,李春燕,盧丙越*
1.云南省高校滇南特色生物資源研究與利用重點(diǎn)實(shí)驗(yàn)室,云南 蒙自 661199
2.紅河學(xué)院 生物科學(xué)與農(nóng)學(xué)學(xué)院,云南 蒙自 661199
豆蔻屬AmomumRoxb.是姜科第2 大屬,全球150 余種,主要分布在亞洲和大洋洲的熱帶地區(qū),我國(guó)有26 種,其中包括2 個(gè)變種,主要分布在西藏、云南、貴州、廣西、廣東、福建等省區(qū),本屬植物大多可作藥用或香料,有祛風(fēng)止痛、健胃消食之功效[1]。《中國(guó)藥典》2015年版收錄的豆蔻屬物種有草果Amomum tsao-koCrevost et Lemaire、陽(yáng)春砂Amomum villosumLour.、綠殼砂Amomum villosumLour.var.xanthioidesT.L.Wu et Senjen、海南砂仁Amomum longiligulareT.L.Wu、白豆蔻AmomurnkravanhPierre ex Gagnep.和爪哇白豆蔻Amomum compactumSoland ex Maton,其中陽(yáng)春砂、綠殼砂和海南砂的干燥成熟果實(shí)做砂仁用,白豆蔻和爪哇白豆蔻干燥成熟果實(shí)做豆蔻使用[2]。2020年2月4日印發(fā)的《新型冠狀病毒感染的肺炎診療方案(試行第五版)》中,草果被用于新冠肺炎臨床治療初期和中期推薦的中藥處方,而恢復(fù)期推薦中藥處方中含有砂仁,說(shuō)明豆蔻屬藥用植物在抗病毒治療中也發(fā)揮著重要作用。
葉綠體是調(diào)節(jié)植物光合作用的主要細(xì)胞器,具有感知外界環(huán)境脅迫信號(hào)的能力[3]。此外像氨基酸、蛋白質(zhì)、脂類、萜類、酚類等多種物質(zhì)與植物生命活動(dòng)相關(guān)的代謝過(guò)程均需葉綠體的參與[4],揮發(fā)油是豆蔻屬植物重要的化學(xué)成分,其揮發(fā)油主要由單萜、倍半萜和二萜等萜類物質(zhì)構(gòu)成[5]。隨著高通量DNA 測(cè)序技術(shù)的發(fā)展及葉綠體測(cè)序技術(shù)成熟,越來(lái)越多的藥用植物已完成葉綠體基因組的組裝,包括姜科的姜、蜂窩姜、艷山姜、益智、觀音姜、黃花姜黃、山柰、紫花山柰等,其中姜科豆蔻屬的爪哇白豆蔻、白豆蔻、草果、陽(yáng)春砂、綠殼砂和海南砂也已完成測(cè)序(https://www.ncbi.nlm.nih.gov/ genome/)。
DNA 攜帶的遺傳信息在從RNA 轉(zhuǎn)移到蛋白質(zhì)的過(guò)程中以三聯(lián)子密碼的形式傳遞,每種氨基酸至少對(duì)應(yīng)1 個(gè)密碼子,最多對(duì)應(yīng)6 個(gè)密碼子。編碼相同氨基酸的密碼子稱為同義密碼子,在蛋白質(zhì)合成過(guò)程中,使用同義密碼子的頻率是不同的,把一個(gè)物種或一個(gè)基因傾向于使用一個(gè)或多個(gè)特定的同義密碼子的現(xiàn)象稱為密碼子使用偏性(Codon usage bias,CUB)[6],這一現(xiàn)象被認(rèn)為是生物為適應(yīng)環(huán)境而表現(xiàn)出的一種進(jìn)化行為[7]。已有研究表明,選擇、突變和漂變是導(dǎo)致密碼子偏性的主要原因[8],而對(duì)于哪種因素起主導(dǎo)作用仍是研究的熱點(diǎn)和爭(zhēng)論的焦點(diǎn)。對(duì)生物密碼子使用偏性的分析,有助于理解物種的分子進(jìn)化和環(huán)境適應(yīng)性,研究物種間的進(jìn)化關(guān)系[9],而且對(duì)研究基因表達(dá)也具有重要意義[10],最近王茹茹等[11]利用α-法尼烯合酶基因在葉綠體中過(guò)表達(dá)的擬南芥轉(zhuǎn)基因株系實(shí)現(xiàn)了萜類代謝揮發(fā)物含量的增加,認(rèn)為葉綠體是萜類代謝工程一個(gè)理想的亞細(xì)胞空間,這為通過(guò)基因工程手段提高豆蔻屬藥用植物精油含量、改良精油品質(zhì)提供了一個(gè)新的思路。而目前未見(jiàn)關(guān)于豆蔻屬葉綠體基因組密碼子偏性研究的詳細(xì)報(bào)道,本研究系統(tǒng)分析了豆蔻屬4 個(gè)藥用植物草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻的葉綠體基因組密碼子使用模式和變異來(lái)源,結(jié)果可為豆蔻屬藥用植物葉綠體的深入研究和應(yīng)用奠定基礎(chǔ)。
草果和陽(yáng)春砂植株采自云南省紅河哈尼族彝族自治州金平苗族瑤族傣族自治縣金河鎮(zhèn)大老塘村(22°73′99.86″N,103°21′43.19″E),經(jīng)云南省高校滇南特色生物資源研究與利用重點(diǎn)實(shí)驗(yàn)室張薇教授鑒定為姜科豆蔻屬植物草果A.tsao-koCrevost et Lemaire 和陽(yáng)春砂A.villosumLour.。草果和陽(yáng)春砂葉綠體全基因組序列已上傳至GenBank,GenBank 收錄號(hào)分別為MK926774 和MN931250,此外從GenBank 數(shù)據(jù)庫(kù)下載白豆蔻(收錄號(hào)NC_036935)和爪哇白豆蔻(MG000589)葉綠體基因組序列。草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻葉綠體基因組大小分別為163 648、164 069、162 766、163 553 bp,分別包括無(wú)重復(fù)蛋白質(zhì)編碼基因序列79、79、80、80 條。為保證結(jié)果的準(zhǔn)確性和可比性,篩選的各基因需滿足以ATG 為起始密碼子,以TAA、TAG、TGA 為終止密碼子,并且編碼區(qū)序列長(zhǎng)度超過(guò)300 bp 的條件,最終確定50 條基因序列用于CUB 分析。
利用 CUSP 在線程序(http://www.Bioin formatics.nl/emboss-explorer/)計(jì)算各基因編碼區(qū)總GC 含量(GCall)以及密碼子第1 位(GC1)、第2位(GC2)、第3 位(GC3)的GC 含量。利用CodonW1.4.2 軟件計(jì)算有效密碼子數(shù)(ENC)和同義密碼子的相對(duì)使用頻率(relative synonymous codon usage,RSCU),并進(jìn)行對(duì)應(yīng)性分析(correspondence analysis,COA)。通過(guò)Microsoft Excel和IBM SPSS19.0軟件對(duì)分析數(shù)據(jù)進(jìn)行整理和作圖。
中性繪圖分析是衡量密碼子偏性影響因素的方法之一,同義密碼子的突變通常發(fā)生在第3 堿基,而第1 或第2 堿基的突變是非同義密碼子的突變,非同義密碼子的突變率較低。在中性圖中,以每個(gè)基因的GC12(GC1 和GC2 的平均值)為縱坐標(biāo)(Y),GC3 為橫坐標(biāo)(X),每個(gè)點(diǎn)都被認(rèn)為是一個(gè)獨(dú)立的基因,如果所有的點(diǎn)都沿對(duì)角線分布,說(shuō)明密碼子3 個(gè)位置的堿基沒(méi)有明顯差異,只受突變壓力的影響;如果GC12 和GC3 變異的相關(guān)性很低,則表明自然選擇是密碼子使用模式的主要決定因素[12]。
有效密碼子數(shù)(ENC)反映的是密碼子偏離隨機(jī)選擇的程度[13],被廣泛用于衡量密碼子偏好性水平,ENC 值從20(極偏好,每個(gè)氨基酸只使用一個(gè)密碼子)到61(無(wú)偏好,每個(gè)氨基酸均勻使用所有同義密碼子),當(dāng)ENC 值≤35 時(shí),認(rèn)為密碼子使用有非常顯著的偏差。通過(guò)給定的GC3 含量,可以計(jì)算出理論ENC 值。
ENC=2+GC3+29/[GC32+(1-GC3)2]
以GC3 為橫坐標(biāo),ENC 為縱坐標(biāo),用Microsoft Excel 繪制ENC-plot 圖。如果密碼子使用偏性受到突變壓力的很大影響,基因?qū)⑽挥跇?biāo)準(zhǔn)曲線上或略低于標(biāo)準(zhǔn)曲線,相反,如果基因低于標(biāo)準(zhǔn)曲線,則受到選擇和其他因素的影響較大。
PR2 偏倚分析(PR2-bias plot analysis)是為了避免由密碼子第3 位堿基A/T 和C/G 之間突變不平衡,僅對(duì)4 種密碼子編碼的氨基酸進(jìn)行密碼子第3 位上4種堿基組成情況的分析[14]。本研究選擇了包括編碼亮氨酸(Leu)的CTT、CTC、CTA、CTG,編碼纈氨酸(Val)的GTT、GTC、GTA、GTG,編碼蘇氨酸(Thr)的TCT、TCC、TCA、TCG,編碼脯氨酸(Pro)的CCT、CCC、CCA、CCG,編碼絲氨酸(Ser)的ACT、ACC、ACA、ACG,編碼丙氨酸(Ala)的GCT、GCC、GCA、GCG,編碼精氨酸(Arg)的CGT、CGC、CGA、CGG 和編碼甘氨酸(Gly)的GGT、GGC、GGA、GGG 的8 個(gè)氨基酸密碼子用于PR2 偏倚分析。分別以A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo)制作散點(diǎn)圖,通過(guò)各點(diǎn)偏離中心點(diǎn)(A=T,C=G)判斷堿基偏移的程度和方向。
對(duì)應(yīng)性分析(COA)從多維空間中提取最具影響的軸和方向,通過(guò)分析COA 軸分離出的基因能識(shí)別影響密碼子使用偏性的主要原因[15]。利用CodonW1.4.2 軟件進(jìn)行COA 分析,根據(jù)相對(duì)同義密碼子使用度(RSCU)值將所有基因繪制在59 維的向量空間中,產(chǎn)生了一系列可以用來(lái)表示豆蔻屬植物葉綠體基因組密碼子使用變異的正交軸,根據(jù)基因在多維空間中的同義密碼子使用情況,來(lái)分析密碼子使用變化的主要來(lái)源。
參照劉慶坡等[16]的方法確定最優(yōu)密碼子。根據(jù)ENC值大小,將4個(gè)豆蔻屬物種50個(gè)候選基因中ENC值最高(10%)和最低(10%)的作為高表達(dá)組(5個(gè))和低表達(dá)組(5 個(gè)),分別計(jì)算高表達(dá)組和低表達(dá)組的RSCU,并計(jì)算高低組的RSCU 差值(ΔRSCU),以ΔRSCU 大于0.08 的密碼子作為高表達(dá)密碼子;將高表達(dá)密碼子與高頻密碼子(RSCU>1)取交集,共有的密碼子作為最優(yōu)密碼子。
豆蔻屬4 個(gè)物種葉綠體基因組的GC 含量見(jiàn)表1。50 個(gè)基因整個(gè)編碼區(qū)的GC 含量(GCall)在37.22%~37.31%,葉綠體基因組3 個(gè)位點(diǎn)的GC1、GC2 和 GC3 含量分別為 45.68%~45.93%、38.08%~38.24%和27.72%~28.03%,其中GC1>GC2>GC3,平均GC 含量均小于50%,表明4 個(gè)物種葉綠體基因組傾向于使用A/T 堿基和A/T 結(jié)尾密碼子。草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻葉綠體基因組編碼區(qū)的ENC 值分別在35.28(rps18)~55.08(ndhC)、35.27(rps18)~56.00(ndhC)、38.94(rps18)~56.08(ndhC)和35.27(rps18)~56.08(ndhC),4 個(gè)物種50 個(gè)基因ENC 值均在35 以上,表明豆蔻屬物種葉綠體基因密碼子偏性較弱。
表1 豆蔻屬葉綠體基因組密碼子不同位置的GC 含量Table 1 GC content of different positions of codon in chloroplast genome of Amomum Roxb.
4 個(gè)豆蔻屬物種各基因的GC1、GC2、GC3、GCall、ENC 和密碼子數(shù)(codon counts,CC)相關(guān)性分析見(jiàn)表2。GCall 與GC1、GC2 和GC3 呈極顯著相關(guān)(P<0.01),GC1 和GC2 之間也呈極顯著相關(guān),表明密碼子第1 位堿基和第2 位堿基組成相似,但與第3 位堿基組成存在顯著差別;ENC 值與GC3相關(guān)性呈極顯著水平,而與GC1 和GC2 相關(guān)性不顯著,表明密碼子第3 位堿基的組成對(duì)密碼子使用偏性有重要影響;4 個(gè)物種的ENC 值與基因密碼子數(shù)CC 之間的相關(guān)系數(shù)為0.199(草果)~0.211(爪哇白豆蔻),物種間差異較小,且相關(guān)性均未達(dá)到顯著水平,表明CC 對(duì)ENC 的影響較弱,豆蔻屬物種葉綠體基因長(zhǎng)度對(duì)密碼子使用偏性無(wú)干擾。
表2 各基因相關(guān)參數(shù)的相關(guān)性分析Table 2 Correlation analysis of each gene's related parameters
為了進(jìn)一步分析密碼子使用模式,利用CodonW1.4.2 軟件計(jì)算4 個(gè)物種的RSCU 值,結(jié)果表明4 個(gè)物種的RSCU 值相近,RSCU>1 的密碼子共有30 個(gè),其中只有1 個(gè)密碼子(TTG)以G 結(jié)尾,其余29 個(gè)密碼子都以A、T 結(jié)尾,說(shuō)明豆蔻屬葉綠體基因組中A 或T 出現(xiàn)頻率較高,是該屬葉綠體基因組偏好的密碼子。RSCU<1 的密碼子中除CTA 和ATA 以A 結(jié)尾外,其余均以C 或G 結(jié)尾,說(shuō)明以C、G 結(jié)尾的密碼子出現(xiàn)頻率比較低,是非偏好密碼子(表3)。
表3 豆蔻屬葉綠體同義密碼子的使用頻率Table 3 RSCU analysis of protein coding region in the chloroplast of Amomum Roxb.
豆蔻屬葉綠體基因中性繪圖見(jiàn)圖1。草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻葉綠體基因組各基因的GC3 分別為17.27%~36.82%、16.55%~36.32%、16.55%~36.77%和16.55%~36.19%,GC3 含量最低的基因?yàn)閞ps11基因,最高的為ycf2基因;GC12的取值范圍分別為草果(33.14%~56.12%)、陽(yáng)春砂(32.95%~56.48%)、白豆蔻(32.95%~55.76%)和爪哇白豆蔻(32.95%~55.76%)。4 個(gè)物種的GC12與GC3 的相關(guān)系數(shù)分別為0.240(草果)、0.213(陽(yáng)春砂)、0.211(白豆蔻)和0.204(爪哇白豆蔻),相關(guān)性均未達(dá)到顯著水平(P=0.05),說(shuō)明突變壓力對(duì)密碼子使用偏倚的影響較小。此外,中性圖斜率顯示,4 個(gè)葉綠體基因組密碼子使用模式的突變壓力僅占25.61%~31.04%,而自然選擇占68.96%~74.39%。這些結(jié)果表明自然選擇在密碼子使用模式中起著重要作用。
圖1 中性繪圖分析Fig.1 Analysis of neutrality plot
4 個(gè)豆蔻屬植物葉綠體基因組的ENC 和GC3分布相似(圖2)。只有少數(shù)幾個(gè)點(diǎn)位于曲線附近,偏性較弱,而大多數(shù)ENC 值低于預(yù)期值的基因位于曲線下方,偏性較強(qiáng),表明突變壓力對(duì)葉綠體基因組密碼子使用偏好性影響不大,更多地受到選擇效應(yīng)的影響,這也與中性分析的結(jié)果一致。
圖2 ENC-plot 分析Fig.2 Analysis of ENC-plot
PR2-plot 分析表明,草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻的AT 偏向分別為0.451、0.448、0.448 和0.449,GC 偏向分別為0.455、0.450、0.450 和0.450。各編碼基因不均勻地分布于平面圖的4 個(gè)區(qū)域內(nèi),平面圖左下方基因分布較多(圖3),說(shuō)明豆蔻屬葉綠體基因密碼子的第3 位密碼子存在T/C 偏向,豆蔻屬葉綠體基因組密碼子使用模式不僅受到突變影響,同時(shí)還受到如選擇壓力等其他因素的影響。
圖3 PR2-plot 分析Fig.3 Analysis of PR2-blot
基于4 個(gè)物種的50 個(gè)葉綠體基因的RSCU 值進(jìn)行對(duì)應(yīng)性分析(COA)(圖4),前4 個(gè)軸累計(jì)解釋的變異分別占總變異的37.27%、36.46%、34.91%和36.40%,第1 軸可解釋的變異分別占總變異的11.27%、11.07%、10.43%和10.80%;4 個(gè)物種第2~4 軸可解釋的變異分別為草果(10.54%、7.96%和6.09%)、陽(yáng)春砂(9.58%、8.17%和7.64%)、白豆蔻(8.73%、8.28%和7.48%)和爪哇白豆蔻(9.84%、8.13%和7.63%),由于第1 軸僅解釋了豆蔻屬植物cp 基因組中密碼子使用的部分變異,表明豆蔻屬植物葉綠體的密碼子使用變異來(lái)源并不單一,可能與幾個(gè)主要因素有關(guān)。
圖4 基于RSCU 的對(duì)應(yīng)性分析Fig.4 Corresponding analysis based on RSCU
根據(jù)高低庫(kù)中密碼子的RSCU 值和ΔRSCU 值來(lái)確定豆蔻屬葉綠體的最優(yōu)密碼子(表4),草果、陽(yáng)春砂、白豆蔻和爪哇白豆蔻分別確定了18、16、16、18 個(gè)最優(yōu)密碼子。4 個(gè)物種共有的高頻密碼子有13 個(gè)(TTT、TTA、ATT、GTA、ACT、CAA、AAA、GAA、TGT、CGT、CGA、AGT、GGT),在13 個(gè)共有密碼子中ΔRSCU 均大于0.5 的有4 個(gè),分別為編碼亮氨酸的TTA、編碼蘇氨酸的ACT、編碼精氨酸的CGA 和編碼絲氨酸的AGT。除TTG 外,所有的最優(yōu)密碼子均以A/T 結(jié)尾。
表4 豆蔻屬葉綠體基因組最優(yōu)密碼子分析Table 4 Putative optimal codons in the chloroplast genome of Amomum Roxb.
密碼子使用偏性是生物基因組進(jìn)化的一個(gè)重要特征,對(duì)研究分子進(jìn)化和外源蛋白表達(dá)有重要意義[17-18]。前人對(duì)真核生物和原核生物的密碼子使用偏向進(jìn)行了大量的研究,發(fā)現(xiàn)密碼子使用偏向與GC 組成、tRNA 豐度、基因表達(dá)水平、基因長(zhǎng)度等有關(guān)[6]。密碼子的使用模式與GC 含量密切相關(guān),本研究中4 個(gè)豆蔻屬植物葉綠體基因組3 個(gè)位點(diǎn)的
GC1(45.68%~45.93%)、GC2(38.08%~38.24%)、GC3(27.72%~28.03%)含量和總GC(37.22%~37.31%)含量均小于50%,說(shuō)明4 個(gè)葉綠體基因組傾向于使用A/T 堿基和A/T 結(jié)尾的密碼子,這與已報(bào)道的籽粒莧[19]、糜子[20]、刺榆[21]、大戟科[22]、茶樹(shù)[23]、茄科[24]等植物葉綠體基因組研究結(jié)果一致,也說(shuō)明高等植物在葉綠體基因GC 含量及密碼子使用上具有相似性。
4 個(gè)豆蔻屬物種的葉綠體基因組中均有30 個(gè)密碼子的RSCU>1,其中29 個(gè)密碼子以A/T 結(jié)尾,而RSCU<1 的32 個(gè)密碼子中有29 個(gè)密碼子以C/G結(jié)尾,這也與前人對(duì)葉綠體基因密碼子偏性分析的結(jié)果相似[25-26]。相比較而言,核基因組中高頻密碼子的數(shù)量和密碼子第3 位堿基變化很大,像雙子葉植物大豆、擬南芥和番茄分別有29、26 和25 個(gè)高頻密碼子,且絕大多數(shù)高頻密碼子以A 或T 結(jié)尾,而像單子葉植物玉米、水稻和小麥分別有28、27和25 個(gè)高頻密碼子,大多以G 或C 結(jié)尾[27]。本研究中4 個(gè)豆蔻屬植物葉綠體基因組RSCU 值的變異范圍相似,分別為0.29~2.01、0.29~2.06、0.29~2.02 和0.28~2.07,均以TTA(編碼亮氨酸)的RSCU值最高和AGC(編碼絲氨酸)最低,表明在豆蔻屬物種中TTA 使用頻率最高,而AGC 使用頻率最低,相似的密碼子使用情況在菊科植物[18]、陸地棉[28]、沙棗[29]、刺五加[30]等物種中也存在,而柿屬植物編碼Arg 的AGA 和CGC 的RSCU 值最高和最低[31],蒺藜苜蓿也以編碼Arg 的AGA 的RSCU 最高,但RSCU 最低的是編碼Arg 的CGG[32],表明不同物種在氨基酸和密碼子使用上存在差異。
中性繪圖分析是通過(guò)密碼子3 個(gè)位點(diǎn)堿基組成的相關(guān)性來(lái)判斷影響密碼子偏性原因的常用方法,在隨機(jī)突變或一定方向突變壓力的情況下,密碼子3 個(gè)位點(diǎn)的堿基含量應(yīng)該相似,當(dāng)存在選擇壓力的情況下密碼子3 個(gè)位點(diǎn)的堿基組成會(huì)出現(xiàn)差異。本研究中4 個(gè)豆蔻屬物種GC3 和GC12 之間沒(méi)有顯著的相關(guān)性,密碼子第3 位受到隨機(jī)突變的影響較弱,表明選擇壓力可能是影響豆蔻屬葉綠體基因核苷酸組成的重要因素,ENC-plot 分析也證實(shí)了這一點(diǎn),4 個(gè)物種都只有少部分基因位于標(biāo)準(zhǔn)曲線上或附近,更多的基因則落于標(biāo)準(zhǔn)曲線下方,說(shuō)明在豆蔻屬葉綠體基因組中只有少部分基因的密碼子偏性是由突變主導(dǎo),而更多的基因密碼使用受選擇作用主要影響。進(jìn)一步的PR2-plot 分析也證實(shí)了密碼子第3 位堿基的組成并非隨機(jī)突變形成,大部分基因位于平面圖的左下方(圖3),而沒(méi)有集中在中心點(diǎn)位置(隨機(jī)突變情況下A/T 和G/C 所占比例相當(dāng)),其中個(gè)別基因偏離中心點(diǎn)很遠(yuǎn),表明除突變外,其它因素(如選擇)對(duì)豆蔻屬葉綠體密碼子使用模式影響較大,此外對(duì)應(yīng)性分析前4 軸可解釋總變異的37.27%、36.46%、34.91%和36.40%,第1 軸是主要的變異來(lái)源,約占總變異量的11%,這也表明密碼子的使用除受自然選擇外,還受到其它因素的影響。綜合分析表明豆蔻屬物種密碼偏性受多種因素影響,其中以選擇壓力為主。本研究在草果和爪哇白豆蔻中提取到18 個(gè)最優(yōu)密碼子,而陽(yáng)春砂和白豆蔻都為16 個(gè),其中共有最優(yōu)密碼子有13 個(gè)。鑒于最優(yōu)密碼子與基因的表達(dá)水平有關(guān),在后續(xù)的豆蔻屬物種基因工程研究,可有針對(duì)性的改造外源基因密碼子,以提高基因的表達(dá)量,來(lái)實(shí)現(xiàn)改良物種重要性狀的目的。
利益沖突所有作者均聲明不存在利益沖突