李 清,羅永堅,葛 蓉,劉 軍
(廣東省農業(yè)科學院農業(yè)生物基因研究中心/廣東省農作物種質資源保存與利用重點實驗室,廣東 廣州 510640)
【研究意義】遺傳密碼是連接核酸和蛋白質的紐帶,在生物體遺傳信息的傳遞中起重要作用,其中mRNA 共有64 個密碼子,編碼20 個氨基酸和3 個終止信號,除Met 和Trp 僅由1 個密碼子編碼外,大多數(shù)氨基酸由多個同義密碼子編碼[1]。然而,蛋白質合成過程中不同密碼子的使用概率并不相同。一個物種或者一個基因更傾向于使用一個或多個特定的同義密碼子,這被稱為同義密碼子使用偏好性(Synonymous Codon Usage Bias,SCUB)[2]。密碼子使用偏好性的特征在原核生物和真核生物中普遍存在。大量研究表明,密碼子使用偏好模式可能由于基因在基因組進化過程中受到多種因素影響引起,包括自然選擇、組成突變模式、翻譯選擇、基因長度、tRNA 豐度和mRNA 二級結構等[3-5]。因此,密碼子使用偏好性的研究不僅可以揭示一個物種或相關物種基因之間的起源、進化和突變方式,而且密碼子的優(yōu)化可以提高外源序列在轉基因研究中的表達效率,進而提高轉基因位點的準確性[6]?!厩叭搜芯窟M展】葉綠體是調節(jié)植物光合作用的主要細胞器,具有感知外界環(huán)境脅迫信號的能力[7]。由于葉綠體基因組的小尺寸和大拷貝數(shù),其功能受到廣泛關注[8]。與核基因轉化相比,葉綠體基因組具有外源基因表達效率高、定點整合無位置效應現(xiàn)象、遺傳穩(wěn)定、不隨花粉漂移等優(yōu)點,現(xiàn)已被廣泛應用于分子進化、系統(tǒng)發(fā)育和遺傳表達等領域[9-10]。隨著高通量測序技術的快速發(fā)展,目前已有許多植物的葉綠體基因組完成測序,并且完成了密碼子特征的分析,包括木薯(Manihot esculentaL.)[11]、菠蘿(Ananas comosusL.)[12]、稷(Panicum miliaceumL.)[13]、芝麻(Sesamum indicumL.)[14]等。
【本研究切入點】顯齒蛇葡萄(Ampelopsis grossedentata),是葡萄科(Vitaceae)蛇葡萄屬(Ampelopsis)中的一種藤本植物,其嫩莖葉富含二氫楊梅素等黃酮類化合物,具有抗氧化、抗腫瘤、護肝、降血糖和調血脂等多種功效,開發(fā)利用前景廣闊[15]。目前,關于顯齒蛇葡萄的研究主要集中在抗氧化活性、二氫楊梅素測定、藥理作用等方面,有關質量標準、指紋圖譜等方面也有所報道[16],然而關于顯齒蛇葡萄葉綠體基因組密碼子偏好性方面的還未見相關研究報道?!緮M解決的關鍵問題】本研究分析顯齒蛇葡萄葉綠體基因組的密碼子使用偏好、變異來源和篩選最優(yōu)密碼子,并利用多元統(tǒng)計分析方法探討顯齒蛇葡萄葉綠體基因組的密碼子使用模式以及分析其影響因素,不僅對提高顯齒蛇葡萄葉綠體基因的外源表達水平具有指導意義,同時也為顯齒蛇葡萄的后續(xù)基因組研究及其遺傳改良育種提供理論基礎。
從NCBI 數(shù)據庫下載顯齒蛇葡萄完整葉綠體基因組(GenBank 登錄號:MT267294),序列全長為162 147 bp,為了提高分析密碼子偏好性的準確性,首先從82 個CDS 中剔除長度小于300 bp 的序列,其次選擇以ATG 為起始密碼子,TAA、TAG 或TGA 為終止密碼子的CDS 序列,最終篩選出59 條序列進行后續(xù)數(shù)據分析[17]。
1.2.1 密碼子堿基組成分析 使用CodonW 1.4.2軟件分析59 個顯齒蛇葡萄葉綠體基因組CDS 的同義密碼子相對使用度(Relative Synonymous Codon Usage,RSCU)、有效密碼子數(shù)(Effective Number of Codon,ENC)、密碼子適應指數(shù)(Codon Adaptation Index,CAI)、氨基酸長度(Length of Amino Acid,Laa)、第3 位堿基上A、T、C、G 含量以及最優(yōu)密碼子使用頻率(Frequency of Optimal Codons,FOP),使用在線軟件工具EMBOSS(http://www.bioinformatics.nl/emboss-explorer)分析各基因密碼子上第1、2、3 位堿基的GC 含量(GC1、GC2、GC3),并計算各基因的總GC 含量(GCall),并利用SPSS 計算GC1、GC2、GC3、Laa、ENC 的相關性。
1.2.2 中性繪圖分析 中性繪圖是一種可初步判別影響密碼子偏好性因素的方法,以GC12(GC1和GC2的均值)為縱坐標,GC3為橫坐標繪制散點圖,圖中每一個點代表一個基因的位置,并對GC12和GC3進行相關性分析,推斷影響密碼子使用偏好性的因素。若GC12和GC3呈顯著相關,則說明密碼子3 個位點的堿基具有相同變異模式,密碼子使用偏好性主要受突變影響,若相關性不顯著,則說明3 個位點的堿基變異模式較大,主要受自然選擇影響[18]。
1.2.3 ENC-plot 分析 為探究密碼子使用偏好性與基因堿基組成之間的關系,以GC3為橫坐標、ENC 為縱坐標繪制散點圖,以基因與ENC 標準曲線的距離衡量影響密碼子偏好性的主要因素,ENC 的期望值ENCexp=2+GC3+29/﹝GC32+(1-GC3)2﹞[19]。
1.2.4 PR2-plot 分析 通過偏倚分析密碼子第3 位堿基A、T 和C、G 之間突變是否平衡,計算密碼子第3 位堿基上A、T、C、G 的含量,以A3/(A3+T3)為縱坐標,G3/(G3+C3)為橫坐標進行偏倚分析,在平面圖上顯示各密碼子第3 位堿基的組成狀態(tài)[20]。
1.2.5 最優(yōu)密碼子分析 將59 個基因按照CAI值從高到低排列,分別選擇兩端10%基因數(shù)(共12 個)作為高、低表達庫并計算。RSCU值≥1 的為高頻密碼子,ΔRSCU(RSCU高表達-RSCU低表達)值>0.08 為高表達密碼子;若該密碼子ΔRSCU ≥0.0 8 且RSCU ≥1,則被確定為最優(yōu)密碼子[21]。
通過利用Codon W 1.4.2 軟件分析59條顯齒蛇葡萄葉綠體中的編碼蛋白基因,由表1 可知,有核糖體基因11 個(rps11、rps12-1、rps14、rps16、rps18、rps2、rps3、rps4、rps7、rps7、rps8),光合作用基因9 個(petA、petB、petD、psaA、psaB、psbA、psbB、psbC、psbD),煙堿脫氫酶基因12 個(ndhA、ndhB、ndhB、ndhC、ndhD、ndhE、ndhF、ndhG、ndhH、ndhI、ndhJ、ndhK),ATP 基因6 個(accD、atpA、atpB、atpE、atpF、atpI),其他基因21 個;平均GC含量為37.98%,其中密碼子的3 位堿基的平均GC 含量分別為GC1(44.88%)>GC2(38.13%)>GC3(29.45%),顯齒蛇葡萄葉綠體基因密碼子末尾堿基偏好以A/T(U)結尾。表1 顯示,ENC取值范圍為37.39~57.12,平均值為48.48,可見顯齒蛇葡萄葉綠體基因組密碼子偏好性較弱。
表1 顯齒蛇葡萄葉綠體基因組密碼子的主要參數(shù)GC1、GC2、GC3、GCall 和ENCTable 1 Main parameters (GC1,GC2,GC3,GCall and ENC) of chloroplast genome codons in Ampelopsis grossedentata
基因密碼子各參數(shù)之間的相關性分析結果(圖1)表明,GC1與GC2、GC 為極顯著相關,與GC3和ENC 為顯著負相關,GC2與GC3為極顯著相關,說明葉綠體基因組中,第1 位堿基與第2 位堿基組成具有較大的相似性,但均與第3 位堿基具有較大差異;GC3與ENC 和Laa 為極顯著相關,說明第3 位堿基組成的變化對密碼子的使用偏好性影響較大,且基因長度影響第3 位堿基的組成,ENC 與Laa 均達到極顯著相關,表明序列長度對密碼子使用偏好性造成較大影響。
圖1 顯齒蛇葡萄葉綠體基因組密碼子各參數(shù)間的相關分析Fig.1 Correlation analysis between the indexes of chloroplast genome codon in Ampelopsis grossedentata
使用CodonW 計算59 條編碼蛋白序列的相對同義密碼子使用度RSCU,結果(圖2)顯示,29個密碼子的RSCU>1、為高頻密碼子,其中12 個以U 結尾、14 個以A 結尾、2 個以G 結尾和 1 個以C 結尾,A/U 結尾的密碼子占89.65%,表明顯齒蛇葡萄葉綠體基因組密碼子更偏向A/U 結尾,以G/C 結尾的密碼子偏少。
圖2 顯齒蛇葡萄葉綠體基因組的RSCU 分析Fig.2 RSCU analysis of chloroplast genome in Ampelopsis grossedentata
中性繪圖分析結果(圖3)顯示,GC12的平均值為32.63%~56.12%,GC3的取值范圍為21.57%~41.73%。圖中各基因均位于對角線上方,且標準曲線斜率為-0.2401,表明第3 位密碼子堿基與第1、2 位堿基組成不同。GC12和GC3的相關系數(shù)為0.0608,相關性不顯著,表明顯齒蛇葡萄葉綠體基因密碼子3 個位點的堿基組成存在較大差異,且顯齒蛇葡萄葉綠體基因組的密碼子偏好性主要受自然選擇因素影響,然而有3 個基因(clpP、rps16、rpl16)位于對角線下方,說明這3 個基因受突變影響造成。
圖3 中性繪圖分析結果Fig.3 Analysis result of neutral plot
以GC3為橫坐標、ENC 為縱坐標繪制散點圖(圖4),并與ENC 的期望值ENCexp進行比較,ENC<35 表示密碼子偏性較強,而ENC>35則表示密碼子偏性較弱[19]。ENCexp取值范圍為42.95~58.43,說明密碼子使用偏好性較弱。計算ENC/ENCexp比值(表2)發(fā)現(xiàn),比值在-0.05~0.05間有39 個,占基因總數(shù)的66.2%,說明基因落在標準曲線附近,表明突變對密碼子偏好性的形成起重要作用。
表2 ENC/ENCexp 頻數(shù)分布Table 2 Distribution of ENC/ENCexp ratio
圖4 ENC-plot 分析結果Fig.4 Analysis result of ENC-plot
偏倚分析可探究突變和自然選擇對密碼子使用偏好的影響,PR2-plot 分析結果(圖5)表明,基因位點在4 個平面中分布并不均勻,從使用頻率上看T>A、G>C,其基因密碼子主要分布在右下方區(qū)域(23 個),表明顯齒蛇葡萄葉綠體基因組密碼子第3 位堿基T、G 的使用頻率高于A、C,說明顯齒蛇葡萄葉綠體基因組密碼子使用偏好性主要由自然選擇因素決定,但同時也受到自身內部堿基突變因素的影響。
圖5 PR2-plot 分析結果Fig.5 Analysis result of PR2-plot
以RSCU>1 為標準共篩選出28 個高頻密碼子(表2);通過CAI 值對編碼蛋白基因降序排序,取高低兩端前10%序列(分別各取8 條)進行最優(yōu)密碼子計算,以ΔRSCU>0.08 為標準確定了31個高表達密碼子,其中12 個以A/T 結尾,19 個以C/G 結尾;以ΔRSCU>0.08、且RSCU>1 為標準共確定13 個最優(yōu)密碼子(UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA、GGG),其中12 個以A/U 結尾、1 個以G 結尾。
表2 顯齒蛇葡萄葉綠體基因組的最優(yōu)密碼子Table 2 Optimal codons in chloroplast genome of Ampelopsis grossedentata
同義密碼子使用偏好是生物群中一種不可避免的現(xiàn)象,生物獲得特定的密碼子使用模式以適應起源、進化、自然選擇和突變壓力等多種因素[22]。密碼子第3 個堿基的同義突變不能改變氨基酸的類型,但被認為是決定氨基酸類型的重要特征,因此GC3經常被用作密碼子偏向的重要指標[23-24]。本研究對密碼子堿基組成的分析表明,顯齒蛇葡萄葉綠體基因組的CDS 序列GC3含量為29.45%,更傾向于使用A/T 密碼子,這與王義華[25]分析葡萄屬葉綠體基因組的研究結果一致。RSCU 值分析結果也證實了這一點,顯齒蛇葡萄的葉綠體基因組中存在A/T 密碼子使用偏向,這與大多數(shù)高等植物的模式一致[26]。當密碼子的使用受到自然選擇的影響時,GC3值往往分布在一個較小的范圍內,GC12和GC3之間沒有顯著的相關性[27]。中性繪圖結果顯示,GC12和GC3之間的相關性較弱,前2 個堿基的組成與密碼子的第3 個堿基的組成不同,而各參數(shù)相關性分析也證實了這一點,說明所分析的顯齒蛇葡萄葉綠體基因組的密碼子使用模式主要受自然選擇的影響。這一結果與許多物種葉綠體基因組的密碼子使用情況一致,如肖蒲桃(Syzygium acuminatissimum)[28]、朝文心蘭(Oncidium gower ramsey)[29]、木薯[11]等。此外,結合ENC-Plot 和PR2-Plot 分析的結果推測,顯齒蛇葡萄葉綠體基因組的密碼子使用偏好性受多種因素影響,包括突變壓力、堿基組成和基因長度,其中主要的影響因素是自然選擇,重要影響因素是突變。
密碼子偏好性可以通過調節(jié)基因翻譯的準確性和效率影響基因表達,基因表達水平越高,密碼子偏好性越強[30-31]。本研究挖掘到顯齒蛇葡萄葉綠體基因組共31 個高頻密碼子,其中13 個被確定為最優(yōu)密碼子。篩選到的最優(yōu)密碼子可以用于設計葉綠體基因表達載體以提高葉綠體基因組中基因的表達水平,也可以利用已知密碼子的使用偏好來推測和預測未知基因的表達和功能[32-33],可為今后從遺傳水平上進行顯齒蛇葡萄育種改良提供參考。
本研究從顯齒蛇葡萄葉綠體基因組中共篩選出59 條蛋白編碼序列,基于顯齒蛇葡萄的葉綠體基因組數(shù)據進行密碼子使用偏好分析,結果表明,顯齒蛇葡萄葉綠體基因組的GC 含量為37.98%,說明AT 含量略高;共篩選出13 個最優(yōu)密碼子,分別為UUU、CUA、AUA、UCA、CCA、ACA、GCA、CAU、GAU、UGA、AGA、GGA 和GGG,除GGG 外大多數(shù)密碼子以A 或U 結尾。顯齒野葡萄葉綠體基因組的密碼子使用偏好受核苷酸組成、自然選擇、突變壓力和基因表達水平的影響,最主要影響因素為自然選擇。本研究結果為顯齒蛇葡萄的密碼子使用模式研究提供了新的視角,為顯齒蛇葡萄的分子育種奠定了基礎。