楊祥燕 蔡元保 譚秦亮 覃旭 黃顯雅 吳密
摘? 要:葉綠體基因組密碼子偏好性影響基因的表達(dá)效率,對(duì)于葉綠體基因工程應(yīng)用及物種遺傳改良具有重要的科學(xué)意義。為了明確菠蘿葉綠體基因組密碼子偏好性的使用特征及主要影響因素,本研究以菠蘿葉綠體基因組為研究對(duì)象,利用生物信息學(xué)軟件分析其密碼子的使用模式和偏好性。密碼子偏好性相關(guān)參數(shù)分析顯示:(1)菠蘿葉綠體基因密碼子的GC含量平均值為38.31%,密碼子第1~3位的GC含量平均值分別為46.78%、39.61%、28.53%,密碼子前兩位的GC平均含量明顯高于第3位;(2)有效密碼子數(shù)(ENC)的取值范圍為38.48~61.00,平均值為47.21,其密碼子偏性較弱。相關(guān)性分析顯示:(1)GC1與GC2顯著相關(guān),GC與GC1、GC2、GC3都極顯著正相關(guān),GC3與GC1、GC2都不顯著相關(guān);(2)ENC與GC1不顯著相關(guān),但與GC2和GC3分別顯著和極顯著相關(guān);(3)密碼子數(shù)(N)只與GC3顯著相關(guān),說明密碼子3個(gè)位置中第3位堿基組成主要影響著密碼子數(shù)。RSCU分析顯示,29個(gè)RSCU>1的密碼子中以A結(jié)尾有12個(gè)、以U結(jié)尾有16個(gè)、以G結(jié)尾有1個(gè)。中性繪圖分析顯示,GC12與GC3的相關(guān)系數(shù)和回歸系數(shù)分別為0.065和0.085,二者不顯著相關(guān)。ENC-plot繪圖分析顯示,大多數(shù)基因分布于標(biāo)準(zhǔn)曲線附近,多數(shù)ENC比值分布在–0.05~0.05區(qū)間。PR2-plot繪圖分析顯示,所有基因不均勻分布在平面圖的4個(gè)區(qū)域內(nèi),密碼子第3位嘧啶T/C的使用頻率高于嘌呤A/G。這3種繪圖分析綜合表明,自然選擇和突變作為主要因素,相對(duì)均衡地影響菠蘿葉綠體基因組的密碼子偏好性。最優(yōu)密碼子和RSCU分析顯示,29個(gè)RSCU>1的密碼子及篩選的18個(gè)最優(yōu)密碼子絕大多數(shù)偏好以A或U結(jié)尾。這些研究結(jié)果可為外源基因的密碼子優(yōu)化及提高其表達(dá)效率提供科學(xué)依據(jù)。
關(guān)鍵詞:菠蘿;葉綠體基因組;密碼子偏好性;最優(yōu)密碼子中圖分類號(hào):S668.3 ?????文獻(xiàn)標(biāo)識(shí)碼:A
Analysis of Codon Usage Bias in the Chloroplast Genome of
YANG Xiangyan, CAI Yuanbao, TAN Qinliang, QIN Xu, HUANG Xianya, WU Mi
Guangxi Subtropical Crops Research Institute / Guangxi Academy of Agricultural Sciences, Nanning, Guangxi 530001, China
The codon usage bias of chloroplast genome affects the genes expression efficiency, which provides important information for chloroplast genetic engineering and species genetic improvement. To determine the codon usage characteristic of the chloroplast genome and its main influencing factors in pineapple (), the codon usage pattern and its preference of pineapple chloroplast genome were analyzed using bioinformatics softwares. The average GC content of codons of pineapple chloroplast genes was 38.31%, the average GC content of codons from the first position to the third position was 46.78%, 39.61% and 28.53%, respectively, and the average GC contents at the first and second positions of codons were significantly higher than that at the third position. The value range of effective number of codons (ENC) was 38.48—61.00, and its average value was 47.21, indicating weak codon bias. GC1 was significantly correlated with GC2, GC was significantly positively correlated with GC1, GC2 and GC3, and GC3 was not significantly correlated with GC1 and GC2. ENC was not significantly correlated with GC1, but significantly and extremely significantly correlated with GC2 and GC3, respectively. Codon number (N) was only significantly correlated with GC3, which indicating that the base composition of the third position in the three positions of the codon mainly affects codon number. RSCU analysis showed that among the 29 codons with RSCU>1, 12 codons ended with A, 16 codons ended with U, and 1 codon ended with G. Neutrality plot analysis showed that there was not significant correlation between GC12 and GC3, and the correlation coefficient and regression coefficient was 0.065 and 0.085, respectively. ENC-plot analysis showed most genes were distributed near the standard curve, and most ratios were distributed in the interval of –0.05—0.05. PR2-plot analysis showed that all genes were unevenly distributed in the four regions of the PR2 plan, and the use frequency of pyrimidine T/C at the third position of codon was higher than that of purine A/G. Bias analysis of Neutrality plot, ENC-plot and PR2-plot suggested that natural selection and mutation as the main factors affect the codon usage bias of pineapple chloroplast genome. Analysis of optimal codons and RSCU showed that most of the 29 codons with RSCU>1 and the 18 optimal codons ended with A or U. The results provide scientific basis for codon optimization of exogenous genes and improvement of their expression efficiency.
pineapple (); chloroplast genome; codon usage bias; optimal codons
10.3969/j.issn.1000-2561.2022.03.001
葉綠體基因組是細(xì)胞核以外相對(duì)獨(dú)立的遺傳物質(zhì),具有母系遺傳方式,其分子結(jié)構(gòu)穩(wěn)定、簡(jiǎn)單,分子量較小;且拷貝數(shù)較多,進(jìn)化速率適中,已廣泛用于植物的系統(tǒng)發(fā)育研究、遺傳多樣性分析、基于DNA條形碼的物種鑒定等,尤其是葉綠體基因工程。基于葉綠體基因組的獨(dú)特結(jié)構(gòu)與遺傳方式,使得葉綠體基因工程可以實(shí)現(xiàn)外源基因的定點(diǎn)整合與高效表達(dá),并有效避免花粉飄逸所引起生態(tài)環(huán)境的污染問題。植物葉綠體基因組編碼蛋白過程中,普遍存在密碼子偏好性,即偏好使用一種或幾種特定的密碼子。已有研究表明,在長(zhǎng)期進(jìn)化中物種的密碼子偏好性受到堿基突變、自然選擇等主要因素的影響,這種密碼子偏好性又會(huì)影響到外源基因在葉綠體中的表達(dá)水平。而且,密碼子的偏好性在不同的物種間卻有著較大的差異。因此,通過葉綠體基因組的密碼子偏好性研究,可以優(yōu)化外源基因在葉綠體中的表達(dá)水平,對(duì)于推進(jìn)葉綠體基因工程的應(yīng)用及物種遺傳改良具有重要意義。
隨著現(xiàn)代高通量測(cè)序技術(shù)的快速發(fā)展,物種葉綠體基因組序列陸續(xù)公開,國(guó)內(nèi)外對(duì)葉綠體基因組的密碼子偏好性研究均有報(bào)道,如水稻(Oryza sativa)、棉花(spp)和小麥()等。菠蘿()是世界三大草本果樹之一,其營(yíng)養(yǎng)價(jià)值高,風(fēng)味獨(dú)特,深受廣大消費(fèi)者的青睞。目前,REDWAN等利用高通量測(cè)序技術(shù)獲得菠蘿卡因類MD-2品種的葉綠體全基因組序列。陳哲等分析了菠蘿核基因組的密碼子偏好性,但有關(guān)菠蘿葉綠體基因組的密碼子偏好性研究在國(guó)內(nèi)外還未見報(bào)道?;诒菊n題組的前期研究工作,本研究利用菠蘿葉綠體基因組的蛋白編碼區(qū)序列,分析其密碼子偏好性的影響因素及使用特征,篩選出最優(yōu)密碼子,以期通過葉綠體基因工程優(yōu)化外源基因的表達(dá)效率,為菠蘿重要農(nóng)藝性狀的遺傳改良打下堅(jiān)實(shí)的基礎(chǔ)。
? 材料
從NCBI數(shù)據(jù)庫(kù)中下載菠蘿()葉綠體基因組序列,GenBank登錄號(hào)為NC_026220.1。該基因組序列全長(zhǎng)159 636 bp,共有86條編碼蛋白的CDS序列。為了提高密碼子偏好性分析的準(zhǔn)確性,剔除重復(fù)的CDS序列及小于300 bp的CDS序列,將剩余的52個(gè)CDS序列作為后續(xù)分析的樣本序列。
? 方法
1.2.1 ?密碼子偏好性相關(guān)參數(shù)分析? 利用CodonW 1.4.2軟件分析菠蘿葉綠體基因組52個(gè)CDS序列的相對(duì)同義密碼子使用度(RSCU)、有效密碼子數(shù)(ENC)、密碼子數(shù)(N)等。利用CUSP軟件分析52個(gè)CDS序列的密碼子總GC含量、第1、2、3位的GC含量(分別以GC、GC1、GC2、GC3表示)。采用SPSS 18.0軟件對(duì)密碼子偏好性相關(guān)參數(shù)進(jìn)行相關(guān)性分析。
1.2.2? 密碼子堿基組成的差異性分析? 通過中性繪圖分析用Excel軟件以GC3為橫坐標(biāo),GC1和GC2的平均值GC12為縱坐標(biāo)繪制散點(diǎn)圖和回歸曲線,圖中每個(gè)點(diǎn)代表相應(yīng)基因的位置。采用SPSS 18.0軟件分析GC3與GC12的差異顯著性和相關(guān)性,以此推測(cè)密碼子偏好性的主要影響因素。如果二者顯著相關(guān),則密碼子偏好性主要受到突變壓力的影響;如果二者不顯著相關(guān),則密碼子偏好性更多地受到自然選擇的影響。
1.2.3? 堿基組成對(duì)密碼子偏好性分析? 利用ENC-plot繪圖分析方法,在Excel中以各基因的GC3為橫坐標(biāo),ENC實(shí)際值為縱坐標(biāo),繪制二維散點(diǎn)圖;并根據(jù)公式ENC=2+GC3+29/[GC3+ (1-GC3)]計(jì)算ENC期望值,以GC3為橫坐標(biāo),ENC期望值為縱坐標(biāo)繪制其標(biāo)準(zhǔn)曲線。如果各基因的散點(diǎn)分布于標(biāo)準(zhǔn)曲線上或其附近,則密碼子偏好性受到突變壓力的影響;如果各散點(diǎn)分布于標(biāo)準(zhǔn)曲線下方較遠(yuǎn)的地方,則其偏好性主要受到自然選擇的影響。根據(jù)公式ENC比值=(ENC期望-ENC實(shí)際)/ENC期望計(jì)算ENC比值頻率,更直觀地判斷密碼子偏好性的主要影響因素。
1.2.4? 堿基奇偶偏好分析? 利用CodonW 1.4.2軟件計(jì)算各基因8種氨基酸(絲氨酸、亮氨酸、精氨酸、脯氨酸、蘇氨酸、纈氨酸、丙氨酸和甘氨酸)的密碼子第3位上的A、T、C、G含量(分別以A3、T3、C3、G3表示)。在Excel中以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)為縱坐標(biāo)進(jìn)行PR2偏倚分析作圖。從圖的中心點(diǎn)(A=T且C=G,即密碼子偏好性全部受突變的影響)發(fā)出的矢量距離則表示各基因的偏倚方向與程度。
1.2.5? 最優(yōu)密碼子篩選? 對(duì)菠蘿52個(gè)葉綠體基因的ENC值進(jìn)行排序,分別選取兩端基因各5個(gè),構(gòu)建高表達(dá)基因庫(kù)(ENC值?。┖偷捅磉_(dá)基因庫(kù)(ENC值大),并計(jì)算二者的RSCU差值(ΔRSCU)。篩選ΔRSCU≥0.08的高表達(dá)密碼子,且RSCU>1的高頻率密碼子定義為菠蘿葉綠體基因組的最優(yōu)密碼子。
?密碼子偏好性相關(guān)參數(shù)分析
利用CodonW 1.4.2軟件和CUSP軟件分析菠蘿葉綠體基因組密碼子偏好性相關(guān)參數(shù)可知(表1),52個(gè)基因密碼子的GC含量平均值為38.31%,其中,密碼子第1~3位的GC含量平均值分別為46.78%、39.61%、28.53%,可見,密碼子3個(gè)不同位置GC含量不是均勻分布,且絕大多數(shù)基因密碼子前兩位的GC含量明顯高于第3位,
表明菠蘿葉綠體基因組密碼子末位堿基偏好使用A或U。此外,菠蘿52個(gè)葉綠體基因ENC的取值范圍為38.48~61.00,平均值為47.21,表明菠蘿葉綠體基因組編碼區(qū)的密碼子偏性較弱。
相關(guān)性分析可見(表2),GC1與GC2顯著相關(guān),GC與GC1、GC2、GC3都極顯著正相關(guān),GC3與GC1、GC2都不顯著相關(guān),說明菠蘿葉綠體基因組密碼子中,前2位堿基相似度很高,但與第3位差異較大;ENC與GC1不顯著相關(guān),但與GC2和GC3分別顯著和極顯著相關(guān),說明密碼子第2、3位(尤其是第3位)堿基組成會(huì)影響密碼子使用的偏好性;密碼子數(shù)(N)只與GC3顯著相關(guān),說明密碼子3個(gè)位置中第3位堿基組成主要影響著密碼子數(shù);密碼子數(shù)(N)與ENC不顯著相關(guān),說明基因序列長(zhǎng)度影響密碼子的使用偏好性很小。
RSCU分析可見(表3),29個(gè)RSCU>1的密碼子中以A結(jié)尾有12個(gè)、以U結(jié)尾有16個(gè)、以G結(jié)尾有1個(gè),說明菠蘿葉綠體基因組密碼子偏好以A或U結(jié)尾。
?密碼子堿基組成的差異性分析
菠蘿葉綠體基因組52個(gè)基因的中性繪圖分析結(jié)果顯示(圖1),GC12的取值范圍為0.3294~ 0.5468,GC3的取值范圍為0.2014~0.3729;在圖中除了基因、和接近于對(duì)角線,其余49個(gè)基因都偏離對(duì)角線,并分布在對(duì)角線上方。GC12與GC3的相關(guān)性分析顯示,其相關(guān)系數(shù)為0.065,二者不顯著相關(guān),回歸系數(shù)(即對(duì)角線斜率)為0.085。說明在菠蘿葉綠體基因組中絕大多數(shù)基因的密碼子前兩位的堿基組成與第3位顯著差異,因此,其密碼子偏好性除了受突變影響外,更多地受到自然選擇的影響。
? 堿基組成對(duì)密碼子偏好性分析
ENC-plot繪圖分析結(jié)果顯示(圖2),大多數(shù)基因分布于標(biāo)準(zhǔn)曲線附近,即這些基因密碼子偏好性受到突變壓力的影響;基因、和距離標(biāo)準(zhǔn)曲線最遠(yuǎn),其偏好性更多地受到自然選擇的影響。通過ENC比值頻率分析進(jìn)一步顯示(表4),32個(gè)基因(占總基因數(shù)的61.5%)的ENC比值分布在–0.05~0.05區(qū)間,說明這些基因的ENC實(shí)際與ENC期望值差異很小,即大多數(shù)基因密碼子的偏性受到了突變的影響,這與ENC-plot繪圖分析結(jié)果相一致。
堿基奇偶偏好分析
由菠蘿葉綠體基因的PR2-plot繪圖分析可知(圖3),52個(gè)基因不均勻分布在平面圖的4個(gè)區(qū)域內(nèi),右上方區(qū)域幾乎無基因分布,大部分基因分布在左下方區(qū)域,說明這些基因密碼子第3位的T>A且C>G,即嘧啶T/C的使用頻率高于嘌呤A/G;且基因、和偏離中心點(diǎn)(A=T且C=G)的矢量距離最遠(yuǎn)。因此,這4種堿基的不均衡使用說明菠蘿葉綠體基因組密碼子使用模式受到突變壓力、自然選擇等因素的綜合影響。
?最優(yōu)密碼子篩選
RSCU分析顯示(表3),RSCU>1的密碼子有29個(gè),并作為菠蘿葉綠體基因組的高頻密碼子。根據(jù)ENC值分別構(gòu)建高表達(dá)基因庫(kù)(基因、、、和)和低表達(dá)基因庫(kù)(基因、、、和)。2個(gè)基因庫(kù)的RSCU分析顯示(表3),ΔRSCU≥0.08的密碼子有23個(gè),并作為菠蘿葉綠體基因組的高表達(dá)密碼子。同時(shí)滿足高頻密碼子和高表達(dá)密碼子確定為菠蘿葉綠體基因組的最優(yōu)密碼子,即UUU、UUA、UUG、AUU、GUA、UCC、AGU、CCU、ACA、GCA、CAU、CAA、AAA、GAA、UGU、CGU、AGA、GGU等18個(gè)密碼子。這些最優(yōu)密碼子絕大多數(shù)以U或A結(jié)尾(各有8個(gè)),以G和C結(jié)尾各1個(gè)。
葉綠體基因組密碼子偏好性是物種長(zhǎng)期適應(yīng)外界環(huán)境的進(jìn)化結(jié)果,主要受到堿基突變、基因表達(dá)水平、自然選擇等因素的影響。與密碼子前兩位堿基相比,第3位堿基突變所受到的自然選擇壓力小,且又決定氨基酸的種類特征,對(duì)于研究密碼子偏好性具有重要作用。本研究的菠蘿葉綠體基因組中絕大多數(shù)基因密碼子的第3位GC含量明顯低于前兩位堿基,偏好使用A或U。這與水稻、棉花和小麥、燈盞花()等多種植物葉綠體基因組密碼子的使用偏好性很相似,也表明在長(zhǎng)期進(jìn)化過程中這些植物葉綠體基因組密碼子的使用模式相對(duì)保守且高度相似。
已有研究表明,堿基突變和自然選擇是影響葉綠體基因組密碼子偏好性的2個(gè)主要因素。本研究中菠蘿葉綠體基因組的編碼區(qū)存在較弱的密碼子偏性;中性繪圖分析表明其密碼子偏好性更多地受到自然選擇的影響;而ENC-plot繪圖分析表明突變是絕大多數(shù)基因密碼子偏好性形成的主要因素。可見,自然選擇和突變作為主要因素,相對(duì)均衡地影響著菠蘿葉綠體基因組密碼子偏好性。本研究的PR2-plot分析結(jié)果也進(jìn)一步驗(yàn)證了該結(jié)論。不少植物葉綠體基因組的密碼子使用特性在漫長(zhǎng)進(jìn)化中也受到了類似的影響因素,如陸地棉()、巨桉()、芒果()等。這些研究結(jié)論表明,堿基突變和自然選擇綜合影響這些植物葉綠體基因組的密碼子偏性,但其具體的分子作用機(jī)制還有待于深入研究。
大多數(shù)單子葉植物葉綠體基因組密碼子偏好以G或C結(jié)尾,也有少數(shù)植物偏好以A或U結(jié)尾。本研究中菠蘿作為單子葉草本植物,其葉綠體基因組密碼子和最優(yōu)密碼子偏好以A或U結(jié)尾,這和其他少數(shù)單子葉植物的密碼子偏好性一致,如糜子()、文心蘭(Gower Ramsey)、蒙古韭( Regel)等。而且,植物葉綠體基因組最優(yōu)密碼子可以有效提高氨基酸的翻譯準(zhǔn)確性與效率,從而促進(jìn)基因的表達(dá)。本研究篩選出的18個(gè)菠蘿葉綠體基因組最優(yōu)密碼子,符合大多數(shù)植物葉綠體基因組的最優(yōu)密碼子以NNA或NNU為使用模式。通過對(duì)菠蘿葉綠體基因組密碼子偏好性分析及最優(yōu)密碼子確定,為下一步外源基因的密碼子優(yōu)化,從而提高該基因在菠蘿葉綠體中的表達(dá)效率提供重要的參考依據(jù)。
參考文獻(xiàn)