張 揚,孫曙光,李 晴,魏 珍
(1. 河南省農(nóng)業(yè)科學(xué)院,河南 鄭州 450002;2. 河南省作物分子育種研究院,河南 鄭州 450002;3. 鄭州大學(xué) 生命科學(xué)學(xué)院,河南 鄭州 450001)
栽培萵苣(Lactuca sativaL.)是世界范圍內(nèi)栽培較廣和食用較多的蔬菜,我國常見的萵苣品種有萵筍、油麥菜、結(jié)球生菜、奶油生菜等類型。栽培萵苣在植物分類學(xué)上屬于菊科菊苣族萵苣亞族萵苣屬,該屬有70~80 個野生種[1]。野生萵苣L.aculeataBoiss.、L.serriolaL.、L.salignaL.和L.virosaL.是與L.sativa系統(tǒng)發(fā)育關(guān)系較近的野生種,后3種常被用于L.sativa雜交育種、品種改良和遺傳資源研究[2]。
生物在自然選擇和突變的共同作用下,在編碼氨基酸的過程中傾向于使用一種或幾種特定密碼子的現(xiàn)象叫作密碼子偏好性(Codon usage bias)[3]。密碼子偏好性同時受到基因表達程度及表達模式、基因長度、相關(guān)基因間的密碼子偏好性、tRNA 豐度及其互作、mRNA 二級結(jié)構(gòu)、選擇作用下的DNA 變異及蛋白質(zhì)翻譯效率等多種因素影響[3-6]。
植物線粒體(Mitochondrion,mt)作為植物細(xì)胞重要的細(xì)胞器,基因組有獨立進行復(fù)制的能力,且可以編碼多種rRNA、tRNA及蛋白質(zhì),其主要功能是通過氧化磷酸化產(chǎn)生ATP,從而為細(xì)胞提供能量。此外,還參與植物細(xì)胞中多種重要的生理活動和物質(zhì)合成代謝活動。近年的一些研究發(fā)現(xiàn),植物線粒體與細(xì)胞質(zhì)雄性不育(Cytoplasmic male sterility,CMS)有密切的關(guān)系。植物線粒體上的育性恢復(fù)基因(Restorer-of-fertility,Rf,如COX11)、不育誘導(dǎo)因子基因(Sterility-inducing factors,Orfs,如atp6、cox3、nad7、mttB、ccmFc和rpl5)等與細(xì)胞核上的基因互作,參與調(diào)控CMS[7]。植物選育中常使用雄性不育的品種與可育品種進行雜交,來獲得具有高產(chǎn)量與抗逆性等優(yōu)良性狀的植株,在實際生產(chǎn)中具有成本低、易實現(xiàn)等特點。對高粱和油菜等作物不同品系和雄性不育系的線粒體基因組研究表明,線粒體易位和重復(fù)區(qū)造成的變異可能與雄性不育性有關(guān)[8-9]。此外,敲除線粒體上的三角狀五肽重復(fù)(Pentatricopeptide repeat,PPR)基因會使擬南芥幼苗的生長受到抑制甚至導(dǎo)致死亡[10],表明線粒體上的PPR基因是擬南芥生長發(fā)育的必需基因。
目前,針對萵苣屬植物的核基因及葉綠體基因組的研究較多,盡管栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的線粒體基因組已經(jīng)完成測序[11],但針對它們的線粒體編碼基因的密碼子使用偏好性卻未見報道。鑒于此,對栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的線粒體基因組中的編碼基因的密碼子堿基組成特點及使用偏好性進行比較分析,為栽培萵苣和野生萵苣線粒體基因表達,與CMS 相關(guān)的Rf和Orfs基因挖掘、載體構(gòu)建及栽培萵苣和野生萵苣線粒體基因組進化研究提供基礎(chǔ)和依據(jù),并可為栽培萵苣分子育種和新基因資源的創(chuàng)制提供參考。
供試栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的線粒體基因組序列下載自NCBI,登錄號分別為MK642355 和MK759657[11]。使用Genieous 10.2.2(https://www. geneious. com)對L.sativa‘Salinas’和L.saligna線粒體基因組的編碼基因進行提取,分別獲得39、37 個編碼基因。選取長度>300 bp,以ATG為起始密碼子,以TAA、TAG、TGA為終止密碼子的編碼基因,然后去掉重復(fù)基因,最終獲得27 個L.sativa‘Salinas’和30 個L.saligna編碼基因進行后續(xù)分析。
1.2.1 密碼子相關(guān)參數(shù)計算 使用Win32CodonW(http://codonw. sourceforge. net/)和 EMBOSS(The European Molecular Biology Open Software Suite)[12]中的CUSP 分別計算編碼序列(Coding sequence,CDS)的密碼子第3個堿基組成(以CT3、CC3、CA3、CG3表示),統(tǒng)計27 個L.sativa‘Salinas’和30 個L.saligna編碼基因總GC含量和密碼子第1、2、3位堿基的GC含量(分別用GC、CGC1、CGC2、CGC3表示),統(tǒng)計密碼子適應(yīng)指數(shù)(Codon adaption index,CAI)、最優(yōu)密碼子使用頻率(Frequency of optimal codons,F(xiàn)op)及有效密碼子數(shù)(The effective number of codons,ENC)。采用SPSS Statistics 21 對相關(guān)參數(shù)之間進行相關(guān)性分析和顯著性檢驗。
1.2.2 中性繪圖分析 分別以每個線粒體CDS 的CGC1、CGC2的平均值(記為CGC12)為縱坐標(biāo),以CGC3為橫坐標(biāo)繪制散點圖,分析CGC12與CGC3的相關(guān)性,并分析可能影響密碼子偏好性的因素。如果CGC12與CGC3顯著相關(guān),則表明萵苣線粒體編碼基因密碼子對不同堿基使用無差異,突變是影響密碼子偏好性的主要因素;如果CGC12與CGC3不顯著相關(guān),且斜率接近0,則表明第1、2 位密碼子與第3 位密碼子使用存在差異,選擇壓力對密碼子偏性影響較大[13]。
1.2.3 PR2-plot 繪圖分析 通過PR2-plot 繪圖分析來研究自然選擇和突變對密碼子偏好性的影響[14]。分別分析2 種萵苣CDS 第3 位堿基的T3、C3、A3、G3的組成情況,并以A3/(A3+T3)為縱坐標(biāo),以G3/(G3+C3)為橫坐標(biāo)繪制散點圖。中心點代表無偏度使用時的密碼子使用狀態(tài),每一個散點與中心點的矢量距離代表其偏倚程度和方向[15]。
1.2.4 ENC-plot繪圖分析 通過以2種萵苣線粒體編碼基因的ENC 和CGC3為縱、橫坐標(biāo)做散點圖,并與ENC 期望值(標(biāo)準(zhǔn)曲線公式ENC=2+CGC3+29/[+(1-CGC3)2])進行比較[16],來研究堿基組成對密碼子偏好性的影響。若散點分布于期望值曲線上方,其密碼子偏好性僅受突變影響;若散點與期望值曲線重合,則代表密碼子偏好性僅受堿基組成的影響;若散點分布于期望值曲線下方,表明密碼子偏好性主要受選擇影響[17]。
1.2.5 相對同義密碼子使用度(RSCU)分析RSCU 表示特定密碼子在編碼對應(yīng)氨基酸同義密碼子間的相對使用概率[18]。當(dāng)RSCU>1 的時候,表明該密碼子偏好性較強;當(dāng)RSCU=1時,表明該密碼子使用無偏好性;當(dāng)RSCU<1時,表示該密碼子偏好性較弱。
1.2.6 最優(yōu)密碼子分析 以ENC 為偏好性標(biāo)準(zhǔn),選取ENC 值最高和最低的10%基因構(gòu)建高、低表達基因庫,分別計算對應(yīng)的密碼子RSCU 值,篩選高、低表達基因庫內(nèi)對應(yīng)密碼子ΔRSCU≥0.08 的作為優(yōu)越高表達密碼子,且同時RSCU>1 的密碼子為最優(yōu)密碼子[19-20]。
通過對栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna線粒體基因組的27 條和30 條CDS 進行密碼子使用偏好性分析,發(fā)現(xiàn)2 種萵苣的線粒體編碼基因在CDS數(shù)量,密碼子數(shù)量,密碼子第3位堿基組成,密碼子第1、2、3位堿基的GC含量和編碼基因總GC含量,CAI,F(xiàn)op及ENC等方面均具有一定的差異(表1)。
表1 2種萵苣線粒體基因組編碼基因密碼子偏好性參數(shù)Tab.1 Codon usage bias parameters of mitochondrial genomes from two species of lettuces
栽培萵苣L.sativa‘Salinas’的線粒體編碼基因比野生萵苣L.saligna少3 個,分別是dpo、psaB、rpo等3 個質(zhì)體來源基因(表2),同時密碼子數(shù)量少2 744 個,具有較大差異。從整體來看,L.sativa‘Salinas’和L.saligna的編碼基因密碼子第3位堿基含 量CT3、CA3分 別 為41.20%、36.26% 和40.08%、36.18%,2 種萵苣線粒體編碼基因第3 位堿基以A/T結(jié)尾為主。在堿基GC 含量方面,L.sativa‘Salinas’和L.saligna編碼基因的總GC 含量為43.43%和42.54%,第1、2、3 位堿基的GC 含量依次降低,分別為48.51%、43.14%、38.65% 和47.79%、41.38%、38.44%,表明2 種萵苣線粒體基因富含A/T 堿基。2種萵苣的CAI和Fop值較為一致。
表2 2種萵苣線粒體編碼基因密碼子GC含量及有效密碼子數(shù)Tab.2 GC contents and ENC of mitochondrial genes in the two lettuces
2 種萵苣線粒體基因的ENC 都在36.61~61.00,范圍較為一致,其中大部分編碼基因的ENC 都在50.00 以上,密碼子偏好性較弱(表2)。2 種萵苣線粒體基因中ENC 最大的基因都是atp4,為61.00,說明密碼子使用平均,沒有表現(xiàn)出偏好性。L.sativa‘Salinas’有3個基因atp8、rps12、rps13的ENC 低于50,分別為49.01、46.06 和36.61,而L.saligna則是psaB、rps12、rps13的ENC 最低,分別為48.86、46.06和36.61,這幾個基因表現(xiàn)出一定的密碼子偏好性。
從單個基因來看,2 種萵苣總GC 含量范圍一致,都在37.45%~51.98%(L.saligna的rpo基因總GC 含量為37.43%),不同基因3 個位點的堿基GC含量具有較大的差異(表2)。2 種萵苣密碼子CGC1、CGC2、CGC3、GC、ENC 和序列長度(SL)等參數(shù)在相關(guān)性分析中也有一定的差異(表3)。在L.sativa‘Salinas’中,GC 分別與CGC1、CGC2、CGC3之間極顯著相關(guān),說明總GC 含量與3 個位點的堿基GC 含量都有關(guān)系;ENC 與GC 和CGC3極顯著相關(guān),說明密碼子第3 位堿基GC 含量和總GC 含量對L.sativa‘Salinas’密碼子使用偏好性影響較大;SL與GC和CGC3也表現(xiàn)出了顯著相關(guān)性,說明序列長度與GC和CGC3也有關(guān)系。而在L.saligna中,GC同樣分別與CGC1、CGC2、CGC3之間呈極顯著相關(guān),CGC1與CGC2顯著相關(guān),卻都與CGC3之間沒有顯著相關(guān)性;ENC 與GC 和CGC3同樣呈極顯著相關(guān),說明密碼子第3 位堿基GC 含量和總GC 含量也對L.saligna密碼子使用偏好性影響較大;SL 與其他參數(shù)都沒有顯著相關(guān)性??傮w而言,對2 種萵苣來說,GC 和CGC3對密碼子使用偏好性影響較大。
表3 2種萵苣線粒體編碼基因密碼子參數(shù)的相關(guān)性分析Tab.3 Correlation coefficient of codon usage bias parameters of mitochondrial genes in the two lettuces
栽 培 萵 苣L.sativa‘Salinas’的CGC12與CGC3為0.387 5~0.516 2 和0.239 3~0.579 3,而野生萵苣L.saligna的CGC12與CGC3為0.372 9~0.516 7 和0.239 3~0.579 3,兩者之間的差異主要在前2位堿基的GC含量上,但總體范圍較為一致,說明線粒體編碼基因的堿基GC 含量較為保守(圖1)。栽培萵苣和野生萵苣的CGC12與CGC3的Pearson 相關(guān)系數(shù)分別為-0.171 和-0.206,均不顯著,說明CGC1、CGC2與CGC3相關(guān)性不大,密碼子偏好性主要受到第3 位堿基影響。栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的回歸曲線斜率分別為-0.097 8和-0.129 4,且大部分散點都在對角線之外,表明選擇是2 種萵苣線粒體基因密碼子使用偏好性的主要影響因素。需要注意的是,在2 種萵苣中,mttB和nad6兩個基因都落在了對角線上,說明它們的密碼子使用偏好性主要受到突變的影響。
圖1 中性繪圖分析Fig.1 Analysis of neutrality plot
PR2-plot 分析主要是對密碼子第3 位堿基組成進行的分析,如果第3位堿基A=T和C=G時,散點分布在中心點上,表示突變是影響密碼子偏好的唯一因素[21]。2 種萵苣的大部分線粒體基因都分布在下方區(qū)域(圖2),表明T 的使用頻率高于A;而左下方的基因略多于右下方,表明2 種萵苣線粒體基因第3 位堿基使用C 多于G??傮w來說,2 種萵苣線粒體基因第3位堿基更偏好使用嘧啶堿基。
圖2 PR2-plot繪圖分析Fig.2 Analysis of PR2-plot
在ENC-plot 分析中,2 種萵苣的大部分線粒體基因都偏離ENC 期望值標(biāo)準(zhǔn)曲線(圖3),在標(biāo)準(zhǔn)曲線下分布的基因更多,說明2 種萵苣的線粒體基因密碼子偏好性主要受到選擇壓力影響,其次受到突變影響。ENC 與期望值偏離最大的前6 個基因,有5 個是2 種萵苣共有的基因,按偏離距離由大到小排列分別是atp8、rps13、nad6、rps12和mttB,而dpo基因是L.saligna獨有的,偏離范圍在rps13和nad6兩個基因之間。
圖3 ENC-plot繪圖分析Fig.3 Analysis of ENC-plot
對2 種萵苣的RSCU 分析(表4)表明,栽培萵苣有28 個高頻密碼子(RSCU>1),野生萵苣有29 個高頻密碼子(RSCU>1),除UUG(Leu 亮氨酸)外,2 種萵苣的高頻密碼子均以A/U 結(jié)尾,2 種萵苣之間的密碼子使用偏好性較一致。
將2 種萵苣ENC 值最大和最小的10%基因作為標(biāo)準(zhǔn),篩選出2 種萵苣的高、低表達基因庫,然后在Win32CodonW 中分別計算高低表達基因庫的RSCU(表4)。2 種萵苣的高表達基因相同,分別為atp4、ccmFc和nad9,栽培萵苣L.sativa‘Salinas’的低表達基因為atp8、rps12和rps13,而野生萵苣L.saligna的低表達基因為psaB、rps12和rps13。分別計算高、低表達基因庫的ΔRSCU 值,選出ΔRSCU≥0.08 且線粒體編碼基因整體RSCU>1 的密碼子為最優(yōu)密碼子。從結(jié)果可以看出,2 種萵苣的線粒體編碼基因的最優(yōu)密碼子存在較大的差異,栽培萵苣有12 個最優(yōu)密碼子,其中8 個最優(yōu)密碼子為其獨有,另外4 個與野生萵苣共有,而野生萵苣僅有4 個最優(yōu)密碼子,均與栽培萵苣共有。這些差異可能是因為2種萵苣的低表達基因庫有差異造成的。
表4 2種萵苣線粒體基因RSCU及最優(yōu)密碼子Tab.4 RSCU of mitochondrial genes and the optimal codons in the two lettuces
續(xù)表4 2種萵苣線粒體基因RSCU及最優(yōu)密碼子Tab.4(Continued) RSCU of mitochondrial genes and the optimal codons in the two lettuces
續(xù)表4 2種萵苣線粒體基因RSCU及最優(yōu)密碼子Tab.4(Continued) RSCU of mitochondrial genes and the optimal codons in the two lettuces
基于葉綠體和核DNA 序列的系統(tǒng)發(fā)育研究表明,野生萵苣L.saligna與栽培萵苣L.sativa‘Salinas’的親緣關(guān)系較近[22],是L.sativa‘Salinas’重要的野生遺傳資源,并且對霜霉病具有一定的抗性,被用來創(chuàng)制新的萵苣品系[23]。近年來,有關(guān)植物線粒體基因組與細(xì)胞核上的基因互作,參與調(diào)控CMS 的報道越來越多[7]。本研究對栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的線粒體編碼基因密碼子使用偏好性進行了分析,發(fā)現(xiàn)兩者的密碼子使用雖然有相似之處,但整體上看各項具體參數(shù)均具有一定的差異。
2 種萵苣的線粒體編碼基因都富含A/T 堿基,第3 位堿基以A/T 結(jié)尾為主,這與栽培大豆、野生大豆以及野生稻線粒體基因密碼子偏好性的研究結(jié)果一致[24-25],并且也與沙棗、胡蘿卜、梧桐、云南藍果樹等多種植物的葉綠體基因密碼子偏好性研究結(jié)果一致[13,26-29],反映出植物細(xì)胞器基因組的堿基組成進化趨勢是較為一致的。2種萵苣的ENC數(shù)量范圍較為一致,密碼子偏好性較弱,主要受到第3位堿基影響,第3 位堿基更偏好使用嘧啶堿基。它們的CAI和Fop也非常接近。
栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的CDS 數(shù)量、密碼子數(shù)量差異較大。栽培萵苣有30條CDS,而野生萵苣有32條CDS,經(jīng)過篩選,符合密碼子偏好性分析的分別是27 條和30 條。CDS 數(shù)量和類別的差異可能是導(dǎo)致密碼子數(shù)量差異大的原因。
本研究結(jié)果表明,選擇壓力是2 種萵苣線粒體基因密碼子使用偏好性的主要影響因素。需要注意的是,在中性繪圖分析的結(jié)果中,2種萵苣的mttB和nad6基因的密碼子使用偏好性主要受到突變的影響;而在ENC-plot 分析中,主要受到選擇壓力影響的前6個基因分別是atp8、rps13、dpo(L.saligna獨有,其余5個為共有)、nad6、rps12和mttB。2種萵苣的mttB和nad6基因同時受到突變和選擇壓力的影響。mttB是編碼一種跨膜轉(zhuǎn)運蛋白的基因,在菜豆中使用ACG 作為起始密碼子,隨后通過RNA 編輯轉(zhuǎn)變成標(biāo)準(zhǔn)的AUG 起始密碼子[30];而nad6是編碼NADH(還原型輔酶Ⅰ)脫氫酶第6 亞基的基因,曾被報道與哈克尼西棉和向日葵等農(nóng)作物的細(xì)胞核雄性不育有關(guān)[31-32]。FENG 等[33]對豆科植物線粒體基因的研究發(fā)現(xiàn),正選擇壓力作用于atp8、ccmFn、matR和mttB等4 個基因,表明這幾個基因可能在豆科植物線粒體基因組進化的過程中有較重要的作用。2種萵苣的atp8基因是編碼ATP 合酶一個亞基的基因,rps12和rps13是核糖體蛋白小亞基編碼基因,為葉綠體和線粒體共有的基因,dpo基因是來源于植物的DNA 聚合酶編碼基因[34]。rps12基因被認(rèn)為與陸地棉耐鹽性相關(guān)[35],也常用來作為分子標(biāo)記研究植物的遺傳多樣性和系統(tǒng)進化[36-37]。因此,2種萵苣中密碼子使用偏好性主要受到選擇壓力影響的6 個基因atp8、rps13、dpo(L.saligna獨有,其余5個為共有)、nad6、rps12和mttB,可能在萵苣線粒體基因組進化和CMS 研究中有較重要的作用,不僅可作為萵苣CMS 研究的備選基因,也可用于研究不同萵苣栽培品系和野生萵苣間的遺傳多樣性和系統(tǒng)發(fā)育關(guān)系。
RSCU 分析表明,栽培萵苣和野生萵苣分別有28 個和29 個高頻密碼子(RSCU>1),除Leu 外,兩者的基因密碼子都偏好以A/U 結(jié)尾。2 種萵苣的3個高表達基因(atp4、ccmFc和nad9)及2 個低表達基因(rps12和rps13)相同。不同之處在于,栽培萵苣L.sativa‘Salinas’有一個低表達基因為atp8,而野生萵苣L.saligna有一個低表達基因為psaB(光系統(tǒng)Ⅰ反應(yīng)中心蛋白亞基基因)。這幾個低表達基因的密碼子偏好性要略高于其他的基因。栽培萵苣有12 個最優(yōu)密碼子,其中8 個最優(yōu)密碼子為其獨有,另外4個與野生萵苣共有,而野生萵苣有且僅有4 個最優(yōu)密碼子。最優(yōu)密碼子的差異可能是因為2種萵苣的低表達基因庫差異造成的,也可能是由于自然選擇或人工育種對栽培萵苣線粒體基因組進化的影響,造成了它比野生萵苣有更多的最優(yōu)密碼子。
本研究對栽培萵苣L.sativa‘Salinas’和野生萵苣L.saligna的線粒體基因組編碼基因的密碼子使用偏好性進行了研究,發(fā)現(xiàn)2 種萵苣在密碼子使用偏好性方面既有相似之處(如堿基含量、第3位堿基偏好性、ENC 數(shù)量范圍及選擇壓力是影響2 種萵苣線粒體基因密碼子使用偏好性的主要因素等特征),也有存在明顯差異的地方(如最優(yōu)密碼子)。研究結(jié)果不僅提供了2種萵苣線粒體基因的最優(yōu)密碼子及密碼子使用偏好性的數(shù)據(jù),為未來栽培萵苣的分子育種改良、雄性不育研究及新品種創(chuàng)制提供了基礎(chǔ)數(shù)據(jù),也為萵苣線粒體基因組進化和遺傳多樣性研究中分子標(biāo)記的選擇提供了依據(jù)。