李江平,秦 政,國(guó)春策,楊光耀,張文根
(1.江西農(nóng)業(yè)大學(xué) 江西省竹子種質(zhì)資源與利用重點(diǎn)實(shí)驗(yàn)室,江西 南昌330045;2.江西省林業(yè)科學(xué)院,江西 南昌330032)
密碼子(codon)作為自然界中生命信息的基本遺傳單位,除甲硫氨酸(methionine)、酪氨酸(tyrosine)只有一個(gè)對(duì)應(yīng)密碼子以外,其它氨基酸均對(duì)應(yīng)2~6個(gè)同義密碼子;同義密碼子在生物體內(nèi)的使用頻率的差異形成了密碼子偏好性(codon usage bias)[1]。早期有學(xué)者認(rèn)為,密碼子使用頻率的不均等是由于基因組中的核苷酸突變具有非隨機(jī)性,使得一些密碼子更容易發(fā)生突變偏好性而導(dǎo)致的[2]。后來(lái)又衍生了一系列針對(duì)密碼子偏好性在不同物種、基因組以及基因內(nèi)部的形成機(jī)制的假說(shuō),其中以“選擇一突變一漂移”假說(shuō)和“中性理論”假說(shuō)最具說(shuō)服性[3]。在對(duì)一些細(xì)菌和真核生物基因組研究中,不同物種的密碼子使用模式有所不同[4],影響密碼子偏好性的因素除了選擇壓力和突變之外還有其他因素,如tRNA豐度、密碼子親水性等[5]。而密碼子偏好性不僅影響著翻譯過(guò)程的準(zhǔn)確度和速度[6],還影響翻譯折疊[7]、RNA穩(wěn)定性[8]和轉(zhuǎn)錄[9]等過(guò)程。葉綠體是植物特有的細(xì)胞器,因其基因組十分保守、進(jìn)化速率低而被廣泛用于植物進(jìn)化和物種鑒定等研究[10]。葉綠體作為植物體內(nèi)的半自主細(xì)胞器,在進(jìn)化上屬于內(nèi)共生細(xì)菌,擁有自己的一套基因組,且其在遺傳上屬細(xì)胞質(zhì)遺傳,花粉精細(xì)胞中也不含葉綠體的基因,因此將葉綠體基因組作為受體進(jìn)行的基因工程(轉(zhuǎn)基因),可以避免核轉(zhuǎn)基因系統(tǒng)中由花粉逃逸帶來(lái)的生物安全性問(wèn)題;再者葉綠體基因組還有目的基因表達(dá)量高、定點(diǎn)整合等優(yōu)點(diǎn),成為植物基因工程新的研究熱點(diǎn)[11]。但相對(duì)于核基因組研究來(lái)說(shuō),葉綠體基因組的研究滯后,目前關(guān)于葉綠體密碼子使用模式的研究在大麥(Hordeum vulgare)[12]、玉米(Zea mays)[13]、萵苣(Lactuca sativa)[14]等植物上被相繼報(bào)道。
抽筒竹(Gelidocalamus tessellatus T.H.Wen et C.C.Chang)為多年生小型木本禾草類,隸屬于竹亞科(Bambusoideae)井岡寒竹屬(Gelidocalamus T.H.Wen),其竹型亭立,一枝一葉,枝葉瀟灑,是優(yōu)良的園林觀賞植物。然而,其分布范圍較為狹窄,僅在廣西西北部和貴州東南區(qū)域有所發(fā)現(xiàn),目前對(duì)其相關(guān)研究較少。為了更好地了解該種群及改良其性狀,本文以抽筒竹葉綠體基因組密碼子作為材料,進(jìn)行了密碼子偏好性分析。
登陸NCBI數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/),根據(jù)GenBank登錄號(hào)NC_024719.1搜索并下載抽筒竹葉綠體基因組序列[15],序列長(zhǎng)度為139,712 bp,其中共有82條編碼蛋白的CDS(Coding DNA Sequence)。由于重復(fù)和過(guò)短序列會(huì)影響密碼子偏好性指標(biāo)的測(cè)定[16],因此剔除5條重復(fù)序列和25條小于300 bp的CDS,將剩余的52條CDS作為研究的分析材料。
1.2.1 密碼子偏好性參數(shù)計(jì)算 使用Codon W 1.4.2和在線程序CUSP()、CHIPS(http://imed.med.ucm.es/EMBOSS/)等對(duì)選取的CDS進(jìn)行密碼子偏好性參數(shù)計(jì)算,如有效密碼子數(shù)(Effective Number of Codon,ENC)、相對(duì)同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)、GC、GC1、GC2、GC3等。其中,GC、GC1、GC2、GC3分別表示CDS的GC總含量和密碼子的各個(gè)對(duì)應(yīng)位置上的GC含量。
1.2.2 中性繪圖分析 中性繪圖分析是一種可用于初步判斷影響密碼子偏好性因素的方法[17]。首先統(tǒng)計(jì)密碼子3個(gè)位置上的GC含量,以GC1、GC2、GC3、GC12分別表示密碼子第1位、第2位、第3位的GC含量以及前兩位GC含量的平均值;再分別將GC12和GC3作為縱坐標(biāo)和橫坐標(biāo)進(jìn)行散點(diǎn)繪圖,圖中的一個(gè)點(diǎn)即代表一個(gè)基因的位置;最后通過(guò)分析密碼子第1、2位與第3位堿基的相關(guān)性,推斷密碼子偏好性的影響因素。若GC12與GC3之間呈顯著相關(guān),則3個(gè)位置的堿基組成無(wú)差異,密碼子偏好性主要受突變的影響;若GC12與GC3之間呈不顯著相關(guān),則說(shuō)明第1、2位于第3位的堿基組成存在差異,密碼子的偏好性主要受選擇的影響。
1.2.3 ENC-plot繪圖分析 以GC3為橫坐標(biāo),ENC為縱坐標(biāo),構(gòu)建散點(diǎn)圖,并在圖中畫(huà)出ENC值的標(biāo)準(zhǔn)曲線,以此來(lái)探討各基因密碼子使用偏好性情況和檢測(cè)堿基組成對(duì)密碼子偏好性的影響,圖中一個(gè)點(diǎn)即代表一個(gè)基因。若散點(diǎn)沿標(biāo)準(zhǔn)曲線分布或落在標(biāo)準(zhǔn)曲線附近,則說(shuō)明該基因密碼子偏性僅受突變影響;若散點(diǎn)落在標(biāo)準(zhǔn)曲線下方較遠(yuǎn)的位置,則說(shuō)明該基因密碼子偏性受到選擇影響。
標(biāo)準(zhǔn)曲線的計(jì)算公式如下:
1.2.4 最優(yōu)密碼子確定 將各個(gè)基因按ENC值大小排序,再?gòu)?段各選出10%的基因,分別建立高低偏性庫(kù),然后取兩庫(kù)中△基SCU>0.08的密碼子作為高表達(dá)優(yōu)越密碼子[18]。最后通過(guò)比較高表達(dá)優(yōu)越密碼子與高頻密碼子,取交集即可確定最優(yōu)密碼子[19]。
1.2.5 抽筒竹與毛竹(Phyllostachys edulis)的葉綠體基因組密碼子偏好性比較 登陸NCBI數(shù)據(jù)庫(kù)通過(guò)登錄號(hào)HQ337796.1搜索并下載毛竹的葉綠體基因組序列[20],經(jīng)處理后計(jì)算其各密碼子的使用頻率并與抽筒竹進(jìn)行比較。若頻率比值在0.5~2.0之間,則表明兩者對(duì)該密碼子的偏好性較接近;若頻率比值落在0.5~2.0兩側(cè),則表明偏好性差異較大[21]。
通過(guò)Codon W 1.4.2軟件和CUSP程序?qū)?jīng)過(guò)篩選后的52條CDS進(jìn)行分析,結(jié)果表明(表1),抽筒竹葉綠體基因組密碼子的ENC值在38.85~61.00之間,平均值為49.66。根據(jù)ENC值小于35則偏好性強(qiáng)、大于35則偏好性弱的標(biāo)準(zhǔn)[20],可以得知抽筒竹葉綠體基因組密碼子偏性較弱。而且,密碼子3個(gè)位置上的平均GC含量分別為47.25%、40.00%、31.01%,說(shuō)明密碼子偏好以A或U結(jié)尾。
相關(guān)分析(表2)顯示,GC與GC1、GC2、GC3的相關(guān)系數(shù)分別為0.788、0.688和0.656,均達(dá)到極顯著相關(guān)水平;ENC與GC3的相關(guān)系數(shù)為0.398,達(dá)到極顯著相關(guān)水平,說(shuō)明密碼子第3位堿基的組成對(duì)密碼子偏好性有影響;密碼子數(shù)目N與ENC的相關(guān)系數(shù)為-0.001,說(shuō)明基因序列長(zhǎng)度對(duì)密碼子偏好性沒(méi)有影響。RSCU分析(表3)表明,RSCU值大于1.00密碼子數(shù)目為28個(gè),其中16個(gè)以U結(jié)尾、11個(gè)以A結(jié)尾、1個(gè)以G結(jié)尾,說(shuō)明抽筒竹葉綠體基因組密碼子偏好以A或U結(jié)尾。
表1 抽筒竹葉綠體基因組不同位置的GC含量Tab.1 GC content of different positions of codon on the chloroplast genome of Gelidocalamus tessellatus
表2 各基因相關(guān)參數(shù)的相關(guān)性分析Tab.2 Correlation analysis between parameters of each gene
在抽筒竹葉綠體基因組中性繪圖分析(圖1)中,GC12的取值范圍為0.3792~0.5382,GC3的取值范圍為0.222 2~0.354 8,兩者的相關(guān)系數(shù)為0.281,回歸系數(shù)為0.3576 3,說(shuō)明兩者的相關(guān)性微弱,突變對(duì)密碼子第1、2位和對(duì)第3位堿基的組成的影響不同。而且,絕大多數(shù)基因落在對(duì)角線的上方,表明突變不是影響密碼子偏好性形成的主要因素。因此,抽筒竹葉綠體基因組密碼子偏好性形成的過(guò)程中可能更多地受到選擇的影響。
圖1 中性繪圖分析圖Fig.1 Neutrality plot analysis
圖2 ENC-plot繪圖分析Fig.2 ENC-plot analysis
以GC3為X軸、ENC為Y軸作散點(diǎn)圖(圖2),圖中的每一個(gè)點(diǎn)代表一個(gè)基因。ENC與GC3的分布范圍較廣,說(shuō)明不同的基因密碼子偏好性相差較大。為了進(jìn)一步顯示差異,根據(jù)公式計(jì)算ENC比值,進(jìn)行了頻數(shù)分布分析(表4)。結(jié)果顯示,44%的基因的ENC比值分布在0.05~0.15之間,35%的基因的ENC比值分布在-0.05~0.05之間。ENCexp與ENCobs接近表明基因的密碼子受突變影響[21],而本文中的ENCexp與ENCobs分布存在差異,因此抽筒竹葉綠體基因組密碼子偏好性更多受到選擇的影響。
以ENC值為標(biāo)準(zhǔn)對(duì)抽筒竹葉綠體各個(gè)基因進(jìn)行排序,兩端各選出5個(gè)基因作為高低偏性庫(kù);然后使用Codon W 軟件計(jì)算偏性庫(kù)中的RSCU值,并用高偏性庫(kù)的RSCU值減去低偏性庫(kù)的RSCU值得到△RSCU(表5);最后,確定了22個(gè)帶星號(hào)的密碼子為高表達(dá)密碼子。
將22個(gè)高表達(dá)密碼子與表3中的28個(gè)高頻密碼子(即RSCU>1.00)相比較,取它們的交集,即得到10個(gè)最優(yōu)密碼子,它們分別為UUU、UCA、UGU、CCC、CAU、AGA、ACA、AAU、GAA和以及GGA。
表3 抽筒竹葉綠體基因組各氨基酸相對(duì)同義密碼子使用度Tab.3 RSCU analysis on protein coding region in Gelidocalamus tessellatus
表4 ENC比值頻數(shù)分布Tab.4 Distribution of ENC ration
抽筒竹與毛竹的葉綠體基因組密碼子使用頻率比值中,兩者呈現(xiàn)出高度一致的密碼子偏好性,它們的密碼子使用頻率比值均在0.5~2.0之間(表6)。
表5 抽筒竹葉綠體基因組高/低偏性庫(kù)的密碼子用法Tab.5 Codon usage of high/low bias library of chloroplast genome of Gelidocalamus tessellatus
表6 抽筒竹與毛竹的葉綠體基因組密碼子偏好性比較Tab.6 Comparison of codon bias of chloroplast genomes between G.tessellatus and Ph.edulis
變異和自然選擇是影響密碼子偏好性的主要因素[22]。在中性繪圖分析和ENC-plot繪圖分析中,大部分基因受到自然選擇的影響,同時(shí)也有少數(shù)基因受到突變的影響,這表明抽筒竹葉綠體基因組密碼子的偏好性并不是單一因素影響的結(jié)果,可能同時(shí)受到突變和選擇等多重因素的影響,這與Zhou和Wei[25]、Morton[26]以及劉慶坡[22]等人的研究結(jié)果一致。而且,抽筒竹葉綠體基因組密碼子第3位的GC含量表明,其密碼子多以A和U結(jié)尾,小麥、二穗短柄草等禾本科作物的葉綠體基因組密碼子也多以A和U結(jié)尾[12],說(shuō)明這類植物可能具有高度一致的密碼子偏好性及使用模式。在抽筒竹與毛竹的葉綠體基因組密碼子偏好性的比較中,兩者具有高度一致的密碼子偏好性,毛竹的葉綠體基因組密碼子也多以A和U結(jié)尾,這一定程度上表明葉綠體基因組在竹亞科中非常保守。然而,在毛竹全基因組的密碼子偏好性研究中,其密碼子多以G、C結(jié)尾,且最優(yōu)密碼子均以G、C結(jié)尾[27],這與抽筒竹葉綠體基因組中的最優(yōu)密碼子有明顯不同,反映了葉綠體基因組和核基因組在密碼子偏好性方面的不同。
在低等生物如細(xì)菌和古細(xì)菌中,GC含量高的物種通常擁有GC含量較高的最優(yōu)密碼子;反之AT含量高的物種,其最優(yōu)密碼子中的AU含量較高[28]。后人基于全基因組進(jìn)行研究,發(fā)現(xiàn)在高等植物中并沒(méi)有出現(xiàn)這種特征[27-28]。然而,但在一些橫跨多個(gè)科屬的高等植物,如蒺藜(Tribulus terrester)、苜蓿(Medicago sativa)[19]、文心蘭(Oncidium hybridum)[31]、蕎麥(Fagopyrum esculentum)[32]的葉綠體基因組中,這種特征又表現(xiàn)得非常明顯。這一定程度上可以支持葉綠體是通過(guò)內(nèi)共生方式從藍(lán)細(xì)菌進(jìn)化而來(lái)的觀點(diǎn)[33-34]。而密碼子偏好性及其使用模式,一定程度上反映了物種間的進(jìn)化關(guān)系,更深層次的研究還有待進(jìn)一步開(kāi)展。