李魁印, 張海玲, 張 鴻, 從春雷, 宋曉慧,陳薇薇, 龐 麗, 常向彩, 田山君
(1.安順學院農學院, 貴州 安順 561000; 2.貴州大學農學院, 貴陽 550025;3.清鎮(zhèn)市第一中學, 貴州 清鎮(zhèn) 551400)
密碼子是DNA或mRNA上的三聯(lián)體核苷酸殘基序列,每一個三聯(lián)體密碼子對應一個氨基酸。在DNA翻譯為蛋白質的生物學過程中,同義密碼子的使用存在不均衡的現(xiàn)象。同一物種編碼相同氨基酸的不同密碼子也有著不同的使用頻率,即密碼子的使用具有偏好性[1]。葉綠體是具有一套完整復制和翻譯系統(tǒng)的細胞器,具有遺傳信息保守,表達效率高等特點[2-3]。與植物葉綠體基因組相關的研究已在分子進化和系統(tǒng)發(fā)育等領域[4-5]廣泛應用。研究表明,DNA復制位點[6]、自然選擇、突變、基因序列的長度[7]等均會影響葉綠體基因組密碼子的偏好性。針對植物葉綠體基因組密碼子偏好性的相關研究已經在金蓮花、苦蕎、巨桉葉等多種植物[8-10]中展開。本研究通過對蕁麻葉綠體基因組進行中性繪圖分析(neutral plot analysis)、ENC繪圖分析(ENC analysis)及PR 2繪圖分析(PR 2-bias analysis),表明自然選擇是影響蕁麻葉綠體基因組密碼子偏好性的主要因素。這可為蕁麻葉綠體外源基因的改良優(yōu)化,以及提高其基因表達水平等方面的研究提供參考。
根據登錄號(GenBank登陸編號:MZ 313540)從NCBI數(shù)據庫(http://www.ncbi.nlm.gov)下載得到蕁麻科蕁麻屬蕁麻(UrticafissaL.)的基因組及其注釋信息,其序列全長為146 829 bp,其中含有86條CDS(Coding DNA Sequence)序列。
使用Python 3.8.0將文件從Genbank格式中獲取86條DNA序列,并處理成fasta格式文件,在Codon W 1.4.1[11]中運行,對得到的數(shù)據進行整理及分析。
用Python 3.8.0分別統(tǒng)計密碼子3個位置的GC含量,GC1,GC2,GC3分別表示密碼子第1、2、3位的GC比,GC表示全部序列的GC比。在EMBOSS(https://www.bioinformatics.nl/emboss-explorer)[12]中分析各基因的有效密碼子數(shù)(Effective Number of Codon,ENC),利用軟件SPSS 26.0對所得數(shù)據進行處理。
相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)。RSCU表示該密碼子實際使用值與理論使用值之間的比值[13]。用Python 3.8.0去除30條長度小于300 bp的CDS[14],剩余56條符合條件的CDS在軟件Codon W 1.4.1中進行RSCU統(tǒng)計分析。
以各基因的GC12(GC1和GC2的平均值)為縱坐標,GC3為橫坐標作散點圖(擬合得到GC3-GC12的方程)(圖3)。分析密碼子第1、2位和第3位堿基組成的相關性,可以得到影響密碼子偏好性的有效因素[15]。若GC12與GC3顯著相關,表明3個位置上的堿基組成差異較小,即密碼子的使用偏好性更多地受突變影響;若GC12與GC3之間相關性不顯著,表明3個位置上的堿基組成存在差異,蕁麻葉綠體基因組GC含量高度保守,密碼子的使用偏好性更多地受自然選擇影響[16]。
以各基因的ENC值為縱坐標,GC3為橫坐標構建二維散點圖(圖4)。并在ENC-GC3散點圖中繪制ENC值標準曲線以分析堿基組成對密碼子偏好性的影響[17]。ENC值是反映同義密碼子非均衡使用偏好程度的重要指標[18]。若基因位于標準曲線下方,表示自然選擇更多地影響該基因密碼子偏好性,基因位于標準曲線附近表示突變更多地影響該基因密碼子偏好性。密碼子偏好性的強弱通常以35為區(qū)分標準。一般認為,當ENC<35時,編碼氨基酸的密碼子使用性較強,反之則弱。標準曲線方程[19]如下:
自然選擇和突變二者對密碼子偏好性的影響程度并不能通過ENC繪圖分析準確區(qū)分。因此通過計算ENC期望值(ENCexp)與ENC觀察值(ENCobs)之間的差異得到ENC比值頻數(shù),從而更有效地評估二者對密碼子偏好性的影響程度。ENC比值頻數(shù)的計算公式為:
(ENCexp-ENCobs)/ENCexp
通過ENC繪圖分析和ENC比值頻數(shù)這兩種分析結果對自然選擇和突變二者之間的差異進行量化分析[20]。
PR 2偏倚分析[21]是分析各密碼子第3位堿基A、T和C、G之間突變是否平衡。針對由同義密碼子編碼的不同氨基酸,統(tǒng)計分析其所有密碼子第3位上堿基的數(shù)量,分析并計算得到每個基因G3/(G3+C3)和A3/(A3+T3)的比值。以G3/(G3+C3)為橫坐標,A3/(A3+T3)為縱坐標作散點圖(圖5)。散點圖中心點的位置表示密碼子第3位的堿基含量為A=T且C=G,其余的點與中心點之間的矢量表示該基因的偏性方向和偏移程度[22]。
對56條長度大于300 bp的CDS的ENC值進行排序,兩極各選10%的基因構建高低偏性庫[23],取偏性庫中ΔRSCU≥0.08(ΔRSCU=RSCU高表達-RSCU低表達)[24]的密碼子作為高表達密碼子。蕁麻葉綠體基因組的最優(yōu)密碼子需同時滿足高頻率和高表達這兩個要求[25]。
對比蕁麻(U.fissa)和裂葉蕁麻(U.lobatifolia)的基因組(表1),發(fā)現(xiàn)二者大單拷貝區(qū)(Large Single Copy,LSC)、小單拷貝區(qū)(Small Single Copy,SSC)、tRNA、rRNA和反向重復區(qū)(Inverted Repeats,IR)無較大差異,而CDS差異較大。二者的序列長度和比例分別為:蕁麻(77 772 bp,52.96%);裂葉蕁麻(68 508 bp,46.66%),蕁麻的CDS大于裂葉蕁麻,說明蕁麻的注釋可能更完整。
表1 裂葉蕁麻和蕁麻基因組特征
使用葉綠體圈圖在線繪制工具OGDRAW繪制蕁麻葉綠體基因組圈圖[26](Organellar GenomeDRAW,https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)。圈內的基因正向轉錄,圈外的基因反向轉錄[27]。蕁麻葉綠體基因組大小為146 837 bp,共有葉綠體基因115個,其中CDS共81個,tRNA共30個,rRNA共4個(圖1)。
圖1 蕁麻葉綠體基因組序列圈圖
統(tǒng)計蕁麻葉綠體基因組不同位置的GC含量及ENC值(表2)。所有CDS密碼子的平均GC含量為37.40%。密碼子第3位GC的平均含量為27.61%,明顯低于第1位和第2位的45.73%和38.87%。絕大多數(shù)密碼子前兩位的GC含量通常高于第3位密碼子,說明密碼子第3位堿基組成多為A和T。ENC值的大小反映了密碼子偏性的強弱,原則上ENC的取值范圍為20~61。按照慣例,以35作為偏性強弱的區(qū)分標準[28]。蕁麻56個葉綠體基因組密碼子ENC值在35.68~61之間,平均值為47.41,所以蕁麻葉綠體基因密碼子偏性較弱。
表2 蕁麻葉綠體基因組密碼子不同位置的GC含量及ENC值
蕁麻葉綠體基因組GC1,GC2,GC3,GC、ENC和密碼子數(shù)目(Codon Number)間的相關性分析詳見圖2。GC分別與GC1,GC2,GC3的相關性達到極顯著水平,而GC3與GC1、GC2之間均未達到顯著水平,說明蕁麻葉綠體基因組密碼子第1,2位的堿基組成與第3位的堿基存在差異。ENC與GC1、GC2相關性不顯著,但與GC3含量顯著相關。密碼子數(shù)目與ENC二者間的相關系數(shù)R2為0.276,說明密碼子偏好性受基因序列長度影響較大。
圖2 蕁麻葉綠體基因組各基因相關參數(shù)的相關性分析
各種氨基酸的RSCU值分析見表3。當RSCU>1時,表示該密碼子的使用頻率高于其同義密碼子的使用頻率;當RSCU=1時,表示該密碼子沒有偏好性;當RSCU<1時,表示該密碼子的使用頻率低于其他同義密碼子的使用頻率。從表3可以看出,RSCU值大于1.00的密碼子數(shù)量為33,其中以A結尾的14個,T結尾的16個,G結尾的3個。密碼子以A和T為結尾的出現(xiàn)頻率比較高,說明A和T是基因組偏好的密碼子。
表3 蕁麻各氨基酸相對同義密碼子使用度
蕁麻葉綠體基因組各基因中性繪圖分析及結果見圖3,根據中性繪圖分析可以看出回歸系數(shù)R為0.151,GC3與GC12的決定系數(shù)R2=0.041,GC12的取值范圍為0.29~0.53,GC3的取值范圍為0.18~0.39。中性繪圖分析的結果說明第1,2和第3位堿基組成無較大差異,兩者的相關性較低。圖中絕大多數(shù)基因落在對角線(圖3中藍色直線)下方,說明蕁麻密碼子偏好性形成的主要因素是自然選擇,而不是突變。
圖3 中性繪圖分析
ENC與GC3的關聯(lián)分析及結果見圖4。由ENC-GC3關聯(lián)分析可以看出,標準曲線下方匯集了大部分基因,這一結果說明自然選擇對蕁麻葉綠體基因組密碼子偏好性的影響較大。同時結合ENC比值頻數(shù)(表4)統(tǒng)計不同組段的頻率得到結果:ENC比值分布在-0.05~0.05這一區(qū)間的基因頻率為0.392 9,比值分布在0.05~0.15這一區(qū)間的基因頻率為0.446 4,大多數(shù)的ENC比值分布在0.05~0.15之間,說明ENCexp與ENCobs差異較大,即離標準曲線較遠,因此蕁麻葉綠體基因組密碼子的偏好性更多地受自然選擇的影響。
表4 蕁麻葉綠體基因組ENC比值頻數(shù)分布
圖4 ENC繪圖分析
PR 2繪圖分析是分析蕁麻葉綠體基因組中氨基酸嘌呤(A和G)與嘧啶(T和C)之間的關系。由PR 2繪圖分析可以得到結論:大部分基因位于第四象限,這說明嘧啶T的使用頻率高于嘌呤A的使用頻率,嘌呤G的使用頻率高于嘧啶C的使用頻率。若蕁麻葉綠體基因組密碼子的偏好性完全受突變的影響,那A和T以及G和C的使用頻率應當相等。因此可以得出結論:不僅自然突變對蕁麻葉綠體基因組密碼子的使用有一定的影響,自然選擇也影響了其密碼子的使用偏好。
根據56條CDS的ENC值對各基因進行排序,根據其數(shù)值大小在兩極各選取6個基因構建高、低表達基因庫,并計算高低表達基因庫中密碼子的ΔRSCU值(表5)。高表達基因為psbA、ndhC、rpl 16、rps 18、petB和ndhJ;低表達基因為ycf 1、rps 4、petA、ycf 3、rps 2和cemA。在表3中選出共計33個相對同義密碼子使用度值大于1密碼子為高頻密碼子。進一步根據ΔRSCU值篩選出ΔRSCU大于等于0.08的高表達密碼子,共計22個。其中以T結尾的密碼子有10個,以A結尾的密碼子有4個,以G結尾的密碼子有3個,以C結尾的密碼子有5個。最終確定15個密碼子為蕁麻葉綠體基因組的最優(yōu)密碼子,分別為CAA、AGT、GCT、CGT、CGA、GAT、TGT、GGT、ATT、CCT、TCT、ACT、GTA、TTA、TTG。
表5 蕁麻葉綠體基因組氨基酸的RSCU值
葉綠體是植物中遺傳信息保守的細胞器,其基因組的結構也較為穩(wěn)定。在葉綠體基因中,同義密碼子的使用也同核基因一樣存在不均等的現(xiàn)象,即密碼子存在偏好性??偨Y前人的研究發(fā)現(xiàn),除自然選擇和突變這兩個因素對密碼子使用偏性有一定的影響外[29],葉綠體基因組密碼子的偏好性還與堿基組成差異[30]、tRNA豐度[31]等因素有關。其中,最普遍的影響因素為密碼子的堿基組成。密碼子第3位的改變對氨基酸的影響較小,即密碼子的改變通常不會引起氨基酸的變化,且密碼子第3位的堿基突變受到的選擇壓力比較小。綜合考慮以上兩種因素發(fā)現(xiàn),研究密碼子第3位堿基的組成對探究密碼子偏好性有重要意義。本文計算了蕁麻葉綠體基因組第3位密碼子的組成,發(fā)現(xiàn)其中T>A,G>C。結合中性繪圖分析、ENC繪圖分析及PR 2繪圖分析后得出結論:自然選擇是影響蕁麻葉綠體基因組密碼子偏好性的主要因素。結合蕁麻葉綠體基因組最優(yōu)密碼子分析,最終確定了CAA、AGT、GCT、CGT、CGA、GAT、TGT、GGT、ATT、CCT、TCT、ACT、GTA、TTA、TTG共15個密碼子為蕁麻葉綠體基因組的最優(yōu)密碼子。
植物葉綠體密碼子偏好性是多個因素共同作用的結果,密碼子的偏好性是物種對其生存環(huán)境及自然進化的適應性選擇的結果。從進化角度上看,這種適應性選擇的不同可能與物種對自然環(huán)境的適應性調節(jié)有關。密碼子使用的偏好性及使用模式能夠反映物種間的進化關系,因此更深層次的研究在探究密碼子偏好性對物種系統(tǒng)發(fā)育方面具有積極意義。