段祥光,于 濤,曹 萌,馬文寶
(1.信陽(yáng)師范學(xué)院 旅游學(xué)院,河南 信陽(yáng) 464000;2.中節(jié)能生態(tài)產(chǎn)品發(fā)展研究中心,北京 100089; 3.中國(guó)消防救援學(xué)院,北京 102202;4.四川省林業(yè)科學(xué)研究院 森林和濕地生態(tài)恢復(fù)與保育四川重點(diǎn)實(shí)驗(yàn)室,四川 成都 610081)
已知密碼子使用模式會(huì)影響mRNA折疊、翻譯延伸率和蛋白質(zhì)折疊,從而影響基因表達(dá),自然界中存在有20種氨基酸,與之匹配的密碼子共61種,由于遺傳密碼的簡(jiǎn)并性,除蛋氨酸(Met)和色氨酸(Trp)由一個(gè)密碼子編碼外,大多數(shù)氨基酸由多個(gè)密碼子編碼。這些由多個(gè)密碼子編碼相同的氨基酸的形式,稱為同義密碼子(synonymous codon)[1-2]。在沒有基因突變與自然選擇等因素的作用下,同義密碼子的使用頻率應(yīng)為相等狀態(tài),然而,某一特定氨基酸的同義密碼子不一定以相同的頻率使用。這種特定密碼子比其他同義密碼子使用更頻繁的現(xiàn)象稱為密碼子使用偏性(codon usage bias,CUB)[3]。目前,普遍接受的假說(shuō)認(rèn)為,CUB的出現(xiàn)是由于3種進(jìn)化力量的聯(lián)合作用:突變、選擇和遺傳漂變[3]。CUB在每個(gè)被研究的物種中都有發(fā)現(xiàn),在系統(tǒng)發(fā)育關(guān)系較遠(yuǎn)的物種之間可能存在根本的差異,因此利用不同物種與組織的密碼子使用偏性以及選擇合適的密碼子進(jìn)行轉(zhuǎn)基因研究,可以提高外源基因的表達(dá)效率,并為后續(xù)研究植物對(duì)環(huán)境變化的適應(yīng)性分子機(jī)制奠定基礎(chǔ)[4]。葉綠體在植物光合作用和生物合成發(fā)揮著重要作用,且為半自主性細(xì)胞器,具有一套獨(dú)立于核的基因組。因葉綠體基因組規(guī)模小、在植物細(xì)胞中拷貝數(shù)多,易于測(cè)序拼接,突變速率適中,在系統(tǒng)發(fā)育領(lǐng)域應(yīng)用較為廣泛[2,5-6]。且葉綠體在植物中為單親遺傳,多數(shù)植物花粉中不含葉綠體,由此轉(zhuǎn)基因利用葉綠體基因組為受體進(jìn)行可避免花粉逃逸而引發(fā)的生物安全問(wèn)題[7]。對(duì)葉綠體基因組蛋白編碼序列特征與密碼子使用模式研究,對(duì)于闡明植物物種間的系統(tǒng)發(fā)育關(guān)系和葉綠體基因工程等研究提供基礎(chǔ)資料[8]。
樟葉槭(Acercinnamomifolium)為無(wú)患子科(Sapindaceae)槭屬(Acer) 植物,主要分布于我國(guó)長(zhǎng)江以南地區(qū),常綠樹種,葉密集,樹蔭濃密,是槭屬物種之中優(yōu)良的庭園樹與行道樹種[9]。目前槭屬中多個(gè)物種的葉綠體基因組全長(zhǎng)序列已經(jīng)測(cè)定完成,但尚無(wú)對(duì)槭屬物種開展密碼子使用偏好性分析的相關(guān)研究[10-11]。本研究通過(guò)對(duì)樟葉槭葉綠體基因組蛋白編碼序列密碼子使用模式進(jìn)行分析,探討影響其密碼子使用偏性特征,以期為樟葉槭與槭屬植物葉綠體分子進(jìn)化、明確系統(tǒng)發(fā)育重建、優(yōu)質(zhì)種質(zhì)資源確定提供基礎(chǔ)數(shù)據(jù)。
樟葉槭葉綠體基因組數(shù)據(jù)在NCBI數(shù)據(jù)庫(kù)中下載,NCBI登錄號(hào)為:MK479220。為減少分析誤差,在后續(xù)分析中刪除長(zhǎng)度小于300 bp的序列與重復(fù)序列,最終在樟葉槭葉綠體基因組中篩選獲得53條序列用于后續(xù)分析。
統(tǒng)計(jì)樟葉槭53條蛋白編碼基因(coding DNA sequences,CDSs)序列的RSCU(relative synonymous codon usage)、ENC(effective number of codons)及GCall(3個(gè)位置的平均GC含量),GC1,GC2和GC3(第1、2、3位密碼子的GC含量)等參數(shù),主要利用CodonW 1.4.2 (http://codonw.sourceforge.net/)和EMBOSS提供的cusp程序(http://www.bioinformatics.nl/emboss-explorer/)[12],并利用R語(yǔ)言對(duì)上述相關(guān)性及顯著性分析和繪圖。
采用中性繪圖分析(GC12vs.GC3)研究了突變壓力和自然選擇對(duì)密碼子使用模式的影響程度[13]。GC12為密碼子第1位和第2位GC含量的平均值,GC3為密碼子第3位GC含量的平均值。剔除3個(gè)終止密碼子(TAA、TAG、TGA)和3個(gè)合成異亮氨酸的密碼子(ATT、ATC、ATA)后計(jì)算GC3。
ENC-plot可反映葉綠體基因密碼子使用偏離隨機(jī)選擇的程度,它描述了特定物種基因或基因組中同義密碼子使用不平衡的程度,并能顯示堿基組成對(duì)密碼子偏好性的影響。設(shè)置GC3值和ENC值為橫縱坐標(biāo),并繪制標(biāo)準(zhǔn)曲線,參考公式為ENC=2+GC3s+29/[GC3s2+(1-GC3s)2]?;螂x標(biāo)準(zhǔn)曲線遠(yuǎn)近,顯示密碼子偏好性受突變與選擇的影響[13]。
PR2-plot用來(lái)分析密碼子第3位4個(gè)堿基的組成。以G3/(G3+C3)為橫坐標(biāo),以A3/(A3+T3)為縱坐標(biāo)進(jìn)行圖形分析,散點(diǎn)圖中心原點(diǎn)位置(A=T,G=C)表示密碼子不具有偏好性,距離中心點(diǎn)矢量距離表示偏性的方向和程度[5]。
以ENC值為密碼子偏好性選擇標(biāo)準(zhǔn),選擇樟葉槭葉綠體基因組中ENC值最高和最低的5個(gè)基因,分別構(gòu)建高低偏性基因庫(kù),并分別整合到fasta文件中,計(jì)算其RSCU值。將密碼子ΔRSCU(RSCU的差值)≥0.08確立為高表達(dá)密碼子。如果樟葉槭葉綠體基因組中的密碼子既是高頻密碼子又是高表達(dá)密碼子,則被認(rèn)為是最優(yōu)密碼子[1]。
從NCBI GenBank數(shù)據(jù)庫(kù)中下載了帶有基因注釋的樟葉槭完整葉綠體基因組(MK479220),序列全長(zhǎng)為149 126 bp,包含88個(gè)CDS,葉綠體基因組的每個(gè)CDS應(yīng)遵循一定的規(guī)則,即每個(gè)CDS的堿基數(shù)應(yīng)為3的倍數(shù);編碼基因的序列長(zhǎng)度必須大于300 bp;包含A、T、G和C堿基的高質(zhì)量序列;每個(gè)CDS包含適當(dāng)?shù)钠鹗济艽a子(ATG)和終止密碼子(TAG、TGA和TAA);沒有中間終止密碼子的序列,經(jīng)過(guò)這些條件的篩選,剩余CDS全長(zhǎng)64 749 bp(占葉綠體基因組全長(zhǎng)的43.42%)。樟葉槭葉綠體基因組各個(gè)密碼子的RSCU值是利用Codon W 1.4.2軟件計(jì)算的,結(jié)果顯示有28個(gè)密碼子的RSCU>1(表1)。蛋白編碼基因GC含量的變化范圍為0.30~0.45,平均值為0.39;GC1、GC2、GC3平均含量分別為47.04%、39.56%與29.66%,GCall平均含量為38.75%,說(shuō)明樟葉槭葉綠體基因密碼子不同位置上的 GC 含量不一,GC3含量最低,說(shuō)明第3位偏好使用A/U 結(jié)尾密碼子。ENC范圍在 37.60~57.16,平均值為48.76。其中大于45的有42個(gè),說(shuō)明樟葉槭葉綠體基因組密碼子存在較弱的偏性[8]。
表1 樟葉槭葉綠體基因組不同位置的GC含量
利用R 3.6.1分析了各個(gè)樟葉槭葉綠體CDS之間的 GC1、GC2、GC3含量、密碼子數(shù)目(N)和ENC的相關(guān)性。相關(guān)性結(jié)果顯示(表2),GCall與GC1、GC2、GC3呈極顯著相關(guān)[13],相關(guān)系數(shù)分別為0.842,0.784,0.393,但與 ENC,N無(wú)顯著相關(guān)性。GC3與GC1、GC2并無(wú)顯著相關(guān)性,ENC與GC3之間有顯著相關(guān)關(guān)系,其相關(guān)系數(shù)為0.382,顯示GC3對(duì)密碼子偏好性可能受到選擇作用較大[13]。ENC與N的相關(guān)系數(shù)為0.168,無(wú)顯著相關(guān)關(guān)系,表明編碼區(qū)長(zhǎng)度不是影響密碼子偏好性的主要因素。
樟葉槭葉綠體基因組密碼子中性繪圖分析表明(圖1),GC3處于21.15%~36.73%,GC12處于32.85%~57.56%。大多數(shù)基因在中性圖的對(duì)角線上方并且距離對(duì)角線距離較遠(yuǎn)。GC12與GC3相關(guān)性較弱(r=0.092),且無(wú)顯著相關(guān)。突變壓力對(duì)樟葉槭葉綠體基因組密碼子使用模式的影響僅占13.2%,表明在樟葉槭葉綠體基因組中密碼子第1、2和3位的堿基組成沒有顯著差異,樟葉槭的密碼子偏好主要受選擇壓力的影響。
表2 樟葉槭葉綠體基因組密碼子各參數(shù)的相關(guān)性分析
圖1 密碼子使用的中性繪圖分析
樟葉槭葉綠體基因組ENC-plot結(jié)果見圖2,其密碼子多數(shù)位于標(biāo)準(zhǔn)曲線的下方且與預(yù)期ENC值存在較大差異。根據(jù)ENC比值頻率表發(fā)現(xiàn)(表3),組限在-0.5~0.5只存在21個(gè)基因,顯示外界選擇效應(yīng)對(duì)樟葉槭葉綠體基因組密碼子使用偏性存在更大的影響。
表3 ENC比值頻率分布
樟葉槭PR2-plot繪圖分析結(jié)果見圖3,在坐標(biāo)系內(nèi)各基因并未均勻分布,主要集中于下方,且右下方基因較多,樟葉槭葉綠體基因組在堿基使用頻率上T大于A且G大于C,在密碼子第3位堿基存在偏好性。上述結(jié)果顯示在樟葉槭葉綠體基因組密碼子的使用模式上,除突變影響外,還受到自然選擇等其他因素共同作用。
圖2 ENC-plot分析
圖3 奇偶偏差繪圖分析
由表4可見,按照ΔRSCU≥0.08的標(biāo)準(zhǔn)篩選,共有22個(gè)高表達(dá)優(yōu)越密碼子(表4中用*標(biāo)記),其中以C、G、U、A結(jié)尾的密碼子分別為5個(gè)、2個(gè)、10個(gè)和5個(gè)。ΔRSCU≥0.30的密碼子有11個(gè),ΔRSCU≥0.50的密碼子有8個(gè)。結(jié)合高頻密碼子表,選取同時(shí)滿足ΔRSCU≥0.08和 RSCU≥1的密碼子為最優(yōu)密碼子,篩選得到15個(gè)密碼子(UGU,CAA,GUU,GUA,GGU,UUA,UUG,CUU,CGA,CCU,GCU,UCU,AGU,AAA和ACU)為樟葉槭葉綠體基因組的最優(yōu)密碼子,其中以U結(jié)尾的密碼子形式最多,共有9個(gè),其次是以A結(jié)尾,共有5個(gè),以G結(jié)尾的密碼子形式僅出現(xiàn)1次,未出現(xiàn)以C結(jié)尾的最優(yōu)密碼子形式。
遺傳密碼子關(guān)聯(lián)著DNA與蛋白質(zhì),而其偏好性則是物種與基因演化的結(jié)果。在基因工程相關(guān)研究中,葉綠體基因組具有高表達(dá)、不易污染環(huán)境等優(yōu)點(diǎn)。因此,葉綠體密碼子偏好的研究可以為更好地利用葉綠體基因組作為基因工程的靶標(biāo)提供理論依據(jù)。本研究對(duì)樟樹葉綠體基因組中的53個(gè)蛋白質(zhì)編碼序列進(jìn)行了中性繪圖、ENC-plot與奇偶偏好性分析,主要利用Codon W 1.4.2與CUSP。結(jié)果表明,樟葉槭葉綠體基因組的蛋白質(zhì)編碼序列ENC表現(xiàn)出弱偏好性,這可能與葉綠體基因功能較為保守有關(guān),ENC-plot結(jié)果顯示組限在-0.5~0.5有21個(gè)基因,大多數(shù)基因與標(biāo)準(zhǔn)曲線距離較遠(yuǎn),顯示其密碼子偏好性主要受選擇的影響,這種現(xiàn)象與灰毛漿果楝(Cipadessabaccifera),蒙古韭(Alliummongolicum),黃芩(Scutellariabaicalensis)等植物葉綠體基因組研究一致[14-16]。其中樟葉槭葉綠體基因組中GC含量顯示GC1(47.04%)>GC2(39.56%)>GC3(29.66%)與RSCU分析都顯示了偏好使用U與A密碼子結(jié)尾。
表4 樟葉槭葉綠體基因組最優(yōu)密碼子確定
樟葉槭葉綠體基因組相關(guān)性分析結(jié)果顯示,GC3與GC1、GC2并無(wú)顯著相關(guān)性,與ENC、GCall呈顯著相關(guān),表明樟葉槭葉綠體基因組密碼子偏好性主要受到自然選擇的影響[15]。這與已經(jīng)報(bào)道的大花香水月季(Rosaodoratavar.gigantea),黃芩(Scutellariabaicalensis)[16],普通油茶(Camelliaoleifera)[17]等的葉綠體基因組特征相同。本研究同時(shí)篩選了15個(gè)最優(yōu)密碼子,符合高等植物最優(yōu)密碼子“NNA”和“NNU”模,這與灰毛漿果楝[14]、香花枇杷(Eriobotryafragrans)[18]及普通油茶[17]等物種葉綠體基因組最優(yōu)密碼分析結(jié)果一致。本研究揭示了樟葉槭葉綠體基因組蛋白編碼基因進(jìn)化的基礎(chǔ)信息,這些信息將為今后開展槭屬適應(yīng)性、分子系統(tǒng)進(jìn)化及葉綠體基因工程等研究提供參考依據(jù),同時(shí),也將為在葉綠體基因組水平上建立新的槭屬植物分類方法提供重要依據(jù)。