張艷艷,江賢章*
(1.福建師范大學(xué) 生命科學(xué)學(xué)院,福建福州 350117;2.工業(yè)微生物發(fā)酵技術(shù)國家地方聯(lián)合工程研究中心,福建福州 350117)
密碼子是核苷酸三聯(lián)體,而遺傳密碼是指遺傳物質(zhì)存儲(chǔ)遺傳信息的生化指令,由64 個(gè)密碼子組成。遺傳密碼具有簡并性,所有的氨基酸都由2 ~6 個(gè)密碼子以不同的使用頻率進(jìn)行編碼(色氨酸和甲硫氨酸除外),這種現(xiàn)象被稱為密碼子使用偏倚[1]。這種密碼子使用的差異在使蛋白質(zhì)序列保持一致的同時(shí),也可以調(diào)節(jié)蛋白質(zhì)生產(chǎn)的效率與準(zhǔn)確性[2]。造成密碼子使用差異的影響因素有很多,如自然選擇(tRNA豐度、蛋白質(zhì)折疊、基因長度等)、突變壓力(包括GC 含量和堿基的突變位置)以及隨機(jī)遺傳漂變。密碼子使用偏倚在預(yù)測(cè)外源基因的最佳宿主方面具有重要作用,可通過密碼子優(yōu)化來提高外源基因的表達(dá)水平[3]。
類球紅細(xì)菌(Rhodobacter sphaeroides)屬于紫色非硫細(xì)菌,是目前研究最深入的光合微生物之一,可以產(chǎn)生輔酶Q10 等,已被廣泛應(yīng)用于食品、農(nóng)業(yè)、醫(yī)藥等多個(gè)領(lǐng)域,擁有巨大的工業(yè)化開發(fā)潛力[4]。同時(shí),類球紅細(xì)菌經(jīng)常被用來表達(dá)外源蛋白,廣泛應(yīng)用于基因表達(dá)研究中。本研究以R. sphaeroides基因組為研究對(duì)象,對(duì)其密碼子使用偏好性進(jìn)行分析,對(duì)在類球紅細(xì)菌中開展合成生物學(xué)研究、改造基盤細(xì)胞、表達(dá)外源基因等具有重要的意義。
在NCBI(美國國家生物信息中心,https://www.ncbi.nlm.nih.gov/genome/)公共數(shù)據(jù)庫中檢索獲得類球紅細(xì)菌2.4.1 基因組,基因組數(shù)據(jù)編號(hào)GCA_000012905.2。主要使用的軟件有Galaxy生物信息學(xué)分析平臺(tái)(https://usegalaxy.org/)、Python 3.9、CodonW 1.4.2、Origin 9.0 等。
利用Galaxy 的腳本過濾長度小于300 bp 的CDS,收集到3 921 個(gè)CDS。利用中性圖估計(jì)和表征3 個(gè)密碼子(GC1、GC2、GC3)位置之間的密碼子使用模式。以ENC 為縱坐標(biāo),GC3 為橫坐標(biāo)繪制ENC-plot 進(jìn)行分析。以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)為縱坐標(biāo)繪圖分析[5]。中心點(diǎn)代表無偏度使用時(shí)密碼子的狀態(tài),其余點(diǎn)與中心點(diǎn)的矢量距離代表其偏倚程度和方向[6]。
RSCU(同義密碼子相對(duì)使用度)代表一個(gè)密碼子的實(shí)際使用頻率與無偏好性時(shí)理論使用頻率間的比值。運(yùn)用CodonW 1.4.2 軟件分析相對(duì)同義密碼子使用度,將RSCU >1 的密碼子作為高頻密碼子[7]。根據(jù)ENC 值的大小,取兩極(最大值和最小值)10%的基因建立高、低表達(dá)基因庫,計(jì)算兩庫的差值,將ΔRSCU ≥0.08 的密碼子視為高表達(dá)優(yōu)越密碼子[8]。結(jié)合統(tǒng)計(jì)結(jié)果篩選RSCU >1 且ΔRSCU ≥0.08 的密碼子確定為最優(yōu)密碼子[9]。
利用CodonW 分別計(jì)算類球紅細(xì)菌與常見的基盤微生物,如大腸桿菌(Escherichia coli)、谷氨酸棒桿菌(Corynebacterium glutamicum)以及釀酒酵母(Saccharomyces cerevisiae)的密碼子使用頻率并進(jìn)行比較。
構(gòu)建了類球紅細(xì)菌2.4.1基因組編碼序列的中性圖,結(jié)果顯示多數(shù)基因分布在對(duì)角線下方(圖1)。GC12的含量分布在0.389 ~0.741 2,GC3 的含量分布在0.411 ~0.957,基因大多分布在對(duì)角線下方,密碼子中GC12 和GC3 之間相關(guān)系數(shù)r為0.128 5。結(jié)果表明類球紅細(xì)菌基因組密碼子受到突變的影響很弱,而自然選擇壓力是導(dǎo)致密碼子偏好性產(chǎn)生的主要原因。
圖1 中性繪圖分析
由圖2 可知,大部分基因的ENC 觀察值落在曲線下方,偏好性顯著,表明類球紅細(xì)菌密碼子的偏好性主要受自然選擇壓力的影響。為更準(zhǔn)確地估計(jì)觀測(cè)ENC 值和期望值之間的偏差,計(jì)算了(ENCexp-ENCobs)/ENCexp,結(jié)果發(fā)現(xiàn)ENC 值略小于GC3s 的預(yù)期ENC 值,說明突變可能是類球紅細(xì)菌2.4.1 進(jìn)化史上的一個(gè)影響較弱的因素,自然選擇壓力可能在影響密碼子使用模式中發(fā)揮重要作用。
圖2 ENC-plot 曲線
利用PR2-plot 繪圖分析了類球紅細(xì)菌2.4.1 基因中氨基酸家族中密碼子第三位堿基A 與T 或G 與C 之間的關(guān)系,結(jié)果如圖3 所示,大部分基因分布在圖的右上方(直線表示中位數(shù)),表明密碼子第3 位A的使用頻率高于T,G 的使用頻率高于C。理論上,如果密碼子的使用模式僅受到突變的影響,則A 與T、G 與C 堿基使用頻率相等。然而,圖3 結(jié)果顯示A 和T、G 和C 的使用存在不均衡,表明類球紅細(xì)菌2.4.1基因組密碼子的使用模式除了受到突變的影響外,還可能受到其他因素,如選擇壓力等的影響。
圖3 PR2-plot 分析
為了分析類球紅細(xì)菌2.4.1 基因組中不同氨基酸的相對(duì)密碼子的使用度,確定同義密碼子的使用模式以及C/G 末端密碼子的首選程度,本實(shí)驗(yàn)計(jì)算了RSCU 值,繪制了RSCU 堆積圖(圖4)。分析表明RSCU >1 的密碼子有27 個(gè),其中G 或C 結(jié)尾的密碼子占85.19%,以G 結(jié)尾的有10 個(gè),以C 結(jié)尾的有13 個(gè),說明類球紅細(xì)菌偏愛使用以G 或C 結(jié)尾的同義密碼子。以ENC 值為偏好性標(biāo)準(zhǔn),構(gòu)建高、低表達(dá)庫,分別計(jì)算高表達(dá)和低表達(dá)基因中各密碼子的RSCU 值和ΔRSCU 值,結(jié)果發(fā)現(xiàn)ΔRSCU 值>0.3 的共有19 個(gè)密碼子是高表達(dá)優(yōu)越密碼子。選取高表達(dá)優(yōu)越密碼子與高頻密碼子結(jié)合分析,將其共有的密碼子定義為最優(yōu)密碼子,共有15 個(gè)(CUC、CUG、AUC、GUG、CCG、ACC、GCC、CAG、AAC、AAG、GAC、GAG、UGC、UGA 和GGC)。在這15個(gè)最優(yōu)密碼子中,除了UGA 是終止密碼子外,其余密碼子全都以G 或C 結(jié)尾,進(jìn)一步表明了類球紅細(xì)菌中的密碼子使用偏向于G 或C 結(jié)尾的同義密碼子。
圖4 相對(duì)密碼子使用堆積圖
將類球紅細(xì)菌基因組密碼子使用頻率分別與常見的基盤微生物,如大腸桿菌、谷氨酸棒桿菌及釀酒酵母的密碼子使用頻率進(jìn)行比較,結(jié)果發(fā)現(xiàn)大腸桿菌和谷氨酸棒狀桿菌中分別有27 個(gè)和26 個(gè)密碼子使用頻率與類球紅細(xì)菌2.4.1 密碼子使用頻率差異倍數(shù)大于2 或者小于1/2,而密碼子使用頻率差異倍數(shù)大于3 或者小于1/3 的密碼子分別有16 個(gè)(占25.0%)和17 個(gè)(占26.6%)。以類球紅細(xì)菌為基盤細(xì)胞,表達(dá)來自大腸桿菌、谷氨酸棒桿菌的基因時(shí),需注意對(duì)Glu、Arg、Pro、Ser 以及Gly 等幾個(gè)氨基酸密碼子的優(yōu)化。釀酒酵母中有38 個(gè)密碼子的使用頻率與類球紅細(xì)菌密碼子使用頻率差異倍數(shù)大于2 或者小于1/2(占59.4%),有27 個(gè)密碼子的使用頻率差異倍數(shù)大于3 或者小于1/3(占42.2%),有9 個(gè)密碼子使用頻率差異倍數(shù)大于10 或者小于1/10。結(jié)果說明類球紅細(xì)菌與釀酒酵母的密碼子使用頻率差異較大,在表達(dá)類球紅細(xì)菌中表達(dá)來自釀酒酵母的基因時(shí),需要考慮整體密碼子偏好性對(duì)基因表達(dá)的影響,反之亦然。
隨著合成生物學(xué)的興起,在基盤細(xì)胞中表達(dá)多個(gè)外源基因,構(gòu)建新的代謝通路,調(diào)控關(guān)鍵基因的表達(dá)水平,成為合成生物學(xué)研究的主要方向。類球紅細(xì)菌具有重要的開發(fā)前景,因此研究類球紅細(xì)菌密碼子使用偏好性,對(duì)人工合成外源基因,使之在類球紅細(xì)菌中高效地表達(dá),具有重要的意義。本文通過對(duì)類球紅細(xì)菌基因組進(jìn)行分析,發(fā)現(xiàn)在類球紅細(xì)菌使用頻率較高的27 個(gè)密碼子中,以G 或C 結(jié)尾的密碼子占85.19%。同時(shí),在15 個(gè)高表達(dá)優(yōu)越密碼子中,除了終止密碼子外,其余密碼子全都以G 或C 結(jié)尾,說明類球紅細(xì)菌偏愛使用以G 或C 結(jié)尾的密碼子。通過研究分析得到類球紅細(xì)菌基因組密碼子使用的偏好性主要受到選擇壓力的影響。最后經(jīng)過ENC 差異分析構(gòu)建了類球紅細(xì)菌高低表達(dá)基因庫,確定了19 個(gè)高表達(dá)優(yōu)越密碼子和15 個(gè)高表達(dá)最優(yōu)密碼子。