周濤,楊林,舒軍霞,沈蓮文,夏晞,王大瑋
(1.西南林業(yè)大學(xué) 云南省高校林木遺傳改良與繁育重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650224;2.西南林業(yè)大學(xué) 西南山地森林資源保育與利用教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650224)
葉綠體是植物體內(nèi)進(jìn)行光合作用的重要細(xì)胞器,在物種演化過(guò)程中起著重要作用[1-2]。因葉綠體中含有大量自我調(diào)節(jié)的編碼及功能基因,且具有序列長(zhǎng)度適中、基因直系同源、進(jìn)化速率適中等優(yōu)勢(shì)被廣泛應(yīng)用于系統(tǒng)發(fā)育、物種分類鑒定和遺傳表達(dá)等研究[3-5]。隨著高通量測(cè)序技術(shù)的發(fā)展,越來(lái)越多的植物葉綠體基因組序列得到測(cè)序和組裝,為種間親緣關(guān)系、基因工程載體設(shè)計(jì)、提高轉(zhuǎn)化后同質(zhì)化效率等方面的研究提供理論依據(jù)[6-8]。
密碼子是連接DNA和蛋白質(zhì)之間的紐帶,是遺傳信息的序列單位及蛋白質(zhì)翻譯過(guò)程中信息傳遞的重要元件[9]。密碼子的使用偏好性是指某一物種或某一基因在蛋白質(zhì)翻譯過(guò)程中傾向于使用一種或幾種特定的同義密碼子的現(xiàn)象[10]。研究密碼子使用偏好性可為提高遺傳轉(zhuǎn)化效率、優(yōu)化異源基因載體、提高外源基因表達(dá)量等研究提供理論依據(jù)[4,11-12],因此,對(duì)密碼子偏好性的分析可為后續(xù)提供該物種的密碼子偏好性優(yōu)化策略,進(jìn)而為利用基因工程技術(shù)改良植物重要性等研究奠定理論基礎(chǔ)[13]。
含笑屬(Michelia)是木蘭科(Magnoliaceae)的常綠喬木,主要分布于熱帶及亞熱帶地區(qū),是我國(guó)重要的藥用、景觀植物[14-17]。其中,香子含笑(M.hypolampra)的葉、花含有半萜類、單萜類及酸酯類等物質(zhì),可以做植物源防腐劑[18];壯麗含笑(M.lacei)的花、葉、根中可提取分離其有效成分抗菌活性,醫(yī)藥學(xué)可開(kāi)發(fā)為抗菌抑制劑[19-20];醉香含笑(M.macclurei)的花、葉中可提取出揮發(fā)油,其富含生物活性化合物,具有抗纖維化疾病功效,在醫(yī)藥行業(yè)有重要用途[21-22]。本研究基于高通量測(cè)序?qū)ο阕雍?、壯麗含笑、醉香含?種含笑屬植物的葉綠體基因組密碼子的使用模式進(jìn)行分析,明確3種含笑屬植物的葉綠體基因組密碼子偏好性及影響其密碼子偏好性的因素,為后續(xù)3種含笑屬植物的葉綠體基因組外源蛋白表達(dá)載體的構(gòu)建及優(yōu)化等方面的研究提供理論依據(jù)。
采自云南省昆明市植物園(102°10′E、24°23′N,海拔為1 891 m)的香子含笑、壯麗含笑、醉香含笑,其由西南林業(yè)大學(xué)劉江華副教授鑒定,標(biāo)本現(xiàn)存于西南林業(yè)大學(xué)林木遺傳改良與繁育重點(diǎn)實(shí)驗(yàn)室。采取新鮮幼嫩葉片在液氮中速凍,最后冷藏于-80 ℃冰箱中備用。將樣品送至安諾優(yōu)達(dá)基因科技(北京)公司進(jìn)行葉綠體基因組測(cè)序,3種含笑屬植物的葉綠體基因組序列已提交至美國(guó)國(guó)家生物技術(shù)中心(National Center for Biotechnology Information,NCBI)數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/)。
利用生物信息學(xué)軟件(GENEIOUS軟件),選取長(zhǎng)度>300 bp以及起始密碼子和終止密碼子正確的蛋白質(zhì)編碼區(qū)(CDS)完整序列用于后續(xù)分析。以3種含笑屬植物篩選得到的150條CDS序列進(jìn)行分析,使用CodonW 1.4.2、CUSP、SPSS、CUSP(http://imed.med.ucm.es/EMBOSS/)等軟件進(jìn)行數(shù)據(jù)分析以及圖表繪制。
ENC-plot繪圖分析 有效密碼子(effective number of codons,ENC)可用于明確的分析密碼子的偏好性,ENC-plot則可直觀的分析密碼子的使用模式和偏好性形成受到自然選擇及突變的影響程度,ENC值理論范圍為20~61,當(dāng)ENC值越接近20時(shí),表示該基因受到自然選擇的影響較弱,反之則受到自然選擇的影響較大。以含笑屬葉綠體基因組中篩選出的每一條CDS序列的ENC值為縱坐標(biāo),GC3含量為橫坐標(biāo),繪制散點(diǎn)圖,并在圖中計(jì)算出ENC值期望曲線(ENC=2+GC3+29/[GC32+(1- GC3)2])。
PR2-plot分析 以A3/(A3+T3)值為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo),繪制散點(diǎn)圖,圖中的“十”字交叉中心點(diǎn)代表A=T且C=G,以該點(diǎn)發(fā)出的矢量表示堿基偏移的程度和方向。
中性繪圖分析 可以初步分析影響密碼子使用偏好性的因素。以GC12(GC1與GC2的平均值)為縱坐標(biāo),GC3為橫坐標(biāo)利用 Excel繪制散點(diǎn)圖,該分析可以明顯看出GC12與GC3之間的關(guān)系,GC12和GC3的相關(guān)性越顯著,且回歸系數(shù)越接近1,則說(shuō)明密碼子偏好性更受突變的影響,反之,則說(shuō)明偏好性更多受自然選擇的影響。
最優(yōu)密碼子分析 以密碼子的ENC值作為偏好性參考的重要指標(biāo),選取升序排列后的ENC值的前后兩端10%的基因,并依此建立高、低表達(dá)基因庫(kù)。根據(jù)CodonW軟件計(jì)算兩個(gè)表達(dá)庫(kù)中密碼子的RSCU值和△RSCU值(△RSCU=RSCU高表達(dá)-RSCU低表達(dá)),確定3種含笑屬植物葉綠體基因組的高表達(dá)密碼子(RSCU>1)和高頻密碼子(△RSCU≥0.08),同時(shí)滿足兩個(gè)條件的密碼子為最優(yōu)密碼子。
系統(tǒng)發(fā)育分析 從NCBI數(shù)據(jù)庫(kù)下載已報(bào)道的木蘭科15個(gè)屬16個(gè)種的葉綠體基因組并以楊柳科(Salicaceae)楊屬(Populus)的毛白楊(Populustomentosa)作為外類群,與3種含笑屬植物的葉綠體基因組進(jìn)行聚類分析,并研究其系統(tǒng)發(fā)育關(guān)系。使用MAFFT對(duì)序列進(jìn)行比對(duì),利用IQ-TREE v1.6.12軟件并使用最大似然法(maximum likelihood,ML)進(jìn)行系統(tǒng)發(fā)育樹(shù)的構(gòu)建,選擇最佳模型K3Pu+F+R4,進(jìn)化樹(shù)用1 000次重復(fù)bootstrap檢驗(yàn),構(gòu)建系統(tǒng)發(fā)育樹(shù)[23]。并對(duì)3種含笑屬植物系統(tǒng)進(jìn)化關(guān)系進(jìn)行分析。具體所選物種見(jiàn)表1。
表1 用于系統(tǒng)發(fā)育分析的17物種信息
利用CodonW1.4.2和CUSP在線軟件對(duì)香子含笑(MW470944)、壯麗含笑(MW470942)、醉香含笑(MW470941)共150條CDS序列進(jìn)行分析,結(jié)果見(jiàn)表2。
表2 3種含笑屬植物葉綠體基因組堿基組成
香子含笑、壯麗含笑、 醉香含笑的GC含量和ENC含量分別為39.3%、38.9%、39.2%;50.5%、50.9%、50.48%,表明3種含笑屬植物的GC含量和ENC含量相近(表3)。隨后分別對(duì)3種含笑屬植物各葉綠體基因組密碼子的GC含量進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖1所示??傮w來(lái)看,各基因的GC1、GC2和GC3含量都各有不同,3個(gè)含笑屬植物的ENC值分別為:36.22~57.89(香子含笑)、 36.22~57.91(壯麗含笑)、36.22~57.89(醉香含笑),且大部分的ENC值都在45以上,3種含笑屬基因的GC含量和ENC值存在一定差異,但差異較小。
表3 3種含笑屬密碼子數(shù)各位置GC含量、數(shù)量與ENC值的相關(guān)性分析
圖1 3種含笑屬植物葉綠體編碼基因密碼子GC 含量
2.2.1 中性繪圖分析
中性繪圖分析結(jié)果(圖2)顯示,香子含笑GC12、GC3的數(shù)值范圍分別為:0.345 9~0.553 9、0.224 4~0.392 7;壯麗含笑GC12、GC3的數(shù)值范圍分別為:0.345 9~0.553 9、0.230 2~0.508 6;醉香含笑GC12、GC3的數(shù)值范圍分別為:0.345 9~0.553 9、0.224 4~0.369 7。3種含笑屬植物的分布范圍基本類似,說(shuō)明3種含笑屬植物的葉綠體基因組較為保守。香子含笑、壯麗含笑、醉香含笑的Pearson相關(guān)系數(shù)分別為0.02、0.022、0.091,進(jìn)一步說(shuō)明GC12和GC3的相關(guān)性不顯著。香子含笑、壯麗含笑、醉香含笑的回歸系數(shù)分別為0.025 7、0.022 1、0.124 4,表明GC12和GC3的相關(guān)性微弱,表明3種含笑屬植物受自然選擇影響壓力較大。
2.2.2 ENC-plot繪圖分析
ENC-plot繪圖分析見(jiàn)圖3,結(jié)果顯示大部分部分基因離標(biāo)準(zhǔn)曲線有一定的距離,ENC實(shí)際值和ENC期望值存在一定的差異,表明自然選擇作用對(duì)密碼子的影響較大;但其中部分基因位于標(biāo)準(zhǔn)曲線周圍,ENC實(shí)際值和ENC期望值基本相似,說(shuō)明突變對(duì)這些密碼子影響較大。ENC比值計(jì)算分析內(nèi)容見(jiàn)表4,結(jié)果顯示ENC頻數(shù)比值分布在-0.05~0.05間的各自有18個(gè),且與預(yù)期ENC值較為接近,而香子含笑、壯麗含笑、醉香含笑分別有35、36、33個(gè)基因則分布在這個(gè)區(qū)間以外,且離預(yù)期ENC值較遠(yuǎn),表示離標(biāo)準(zhǔn)曲線較遠(yuǎn),表明其偏好性主要受到選擇壓力的影響。以上說(shuō)明,含笑屬密碼子偏好性同時(shí)受到突變和自然選擇的影響,但是更多的還是受自然選擇的影響。
表4 ENC比值頻率分布
2.2.3 PR2-plot繪圖分析
若PR2-plot平面圖內(nèi)的基因均勻分布,則說(shuō)明各密碼子堿基的A、T、C和G的使用頻率相同。由圖4可知,大部分基因分布在圖中左下角,表明密碼子最后一位堿基的使用具有偏好性,且使用頻率T>A,G>C,含笑屬葉綠體基因組密碼子的使用受到自然選擇影響的同時(shí)仍受到其他因素的影響。
分別對(duì)3種含笑屬植物的ENC值進(jìn)行排序,隨后選出兩端各10%的基因作為高、低基因表達(dá)庫(kù),并對(duì)3種含笑屬植物的RSCU以及△RSCU值進(jìn)行計(jì)算,結(jié)果見(jiàn)表5。以RSCU>1為篩選高頻密碼子的標(biāo)準(zhǔn),RSCU>1且△RSCU值≥0.08為篩選高表達(dá)密碼子的標(biāo)準(zhǔn),同時(shí)將表現(xiàn)為高頻和高表達(dá)的密碼子定義為含笑屬葉綠體基因組的最優(yōu)密碼子。結(jié)果顯示香子含笑有11個(gè)最優(yōu)密碼子,5個(gè)以U結(jié)尾,5個(gè)以A結(jié)尾,1個(gè)以G結(jié)尾;在壯麗含笑中篩選出9個(gè)最優(yōu)密碼子,以U結(jié)尾的4個(gè),以A結(jié)尾的5個(gè);醉香含笑中有10個(gè)最優(yōu)密碼子,其中5個(gè)以U結(jié)尾,5個(gè)以A結(jié)尾。3種含笑屬植物的最優(yōu)密碼子絕大多數(shù)都以A和U結(jié)尾,只有香子含笑中有1個(gè)密碼子以G結(jié)尾。
本研究為確定3種含笑屬植物在木蘭科的系統(tǒng)位置,從NCBI上下載16個(gè)木蘭科各屬物種的葉綠體基因組作為參考進(jìn)行全局比對(duì),并以楊柳科楊屬的毛白楊為外類群,構(gòu)建ML系統(tǒng)發(fā)育樹(shù)(圖5)。
結(jié)果表明,聚類的支持率較高,全部分支的檢驗(yàn)值均達(dá)到100%。所有木蘭科物種聚為一支,楊柳科楊屬的毛白楊獨(dú)成一支。木蘭科物種分為四大進(jìn)化支,第一支由含笑屬的深山含笑(Micheliamaudiae)、醉香含笑、樂(lè)昌含笑(Micheliachapensis)、黃蘭含笑(Micheliachampaca)、香子含笑、石碌含笑(Micheliashiluensis)、觀光木(Micheliaodora)、云南含笑(Micheliayunnanensis)、壯麗含笑聚在一起,說(shuō)明其親緣關(guān)系較近;第二支由華蓋木屬(Manglietiastrum)的華蓋木(Manglietiastrumsinicum)獨(dú)成一支;第三分支為木蘭屬(Magnolia)的望春木蘭(Magnoliabiondii)、黃山木蘭(Magnoliacylindrica)、皺葉木蘭(Magnoliapraecocissima)聚成一支;第四分支為木蓮屬(Manglietia)的川滇木蓮(Manglietiaduclouxii)、大果木蓮(Manglietiagrandis)、毛果木蓮(Manglietiahebecarpa)組成。聚類分析結(jié)果表明,醉香含笑、香子含笑、壯麗含笑這3種植物與其他含笑屬聚為一枝,關(guān)系較近,其他屬植物各自聚為一枝,關(guān)系較近。
本研究利用CUPS對(duì)3種含笑屬植物葉綠體基因組密碼子進(jìn)行分析,結(jié)果顯示其ENC值均大于45%,表明密碼子偏好性較弱。對(duì)3種含笑屬植物葉綠體基因組進(jìn)行中性繪圖、相關(guān)性分析,結(jié)果顯示GC2>GC1>GC3,且GC3與GC1、GC2相關(guān)性不顯著,表明密碼子GC3與GC1、GC2有差異,且密碼子偏向以A/G堿基結(jié)尾,此結(jié)果與白蘭(Micheliaalba)、香木蓮(Magnoliaaromaticavoucher)、長(zhǎng)蕊木蘭(Magnoliacathcartii)、玉蘭(Magnoliadenudata)等植物的研究結(jié)果相似[24],這可能與植物葉綠體基因組在進(jìn)化過(guò)程中密碼子偏好性相對(duì)保守有關(guān)[4]。
表5 含笑屬葉綠體基因組最優(yōu)密碼子分析
圖5 基于葉綠體基因組序列用ML法構(gòu)建的17個(gè)物種的系統(tǒng)進(jìn)化樹(shù)
本研究對(duì)3種含笑屬植物葉綠體基因組密碼子進(jìn)行ENC-plot、PR2-plot分析,ENC實(shí)際值和ENC期望值存在一定的差異,表明自然選擇作用對(duì)密碼子的影響較大;各編碼基因不均勻的分布于平面圖的4個(gè)區(qū)域內(nèi),使用頻率T>A、G>C;說(shuō)明影響其密碼子偏好性形成的主要因素是自然選擇,這與石碌含笑[25]的結(jié)果相似,但與杜梨(Pyrusbetulifolia)[26]、巨桉(Eucalyptusgrandis)[27]、杧果(Mangiferaindica)[28]等受突變和自然選擇的影響相對(duì)均衡的結(jié)論不一致,推測(cè)存在多種因素影響植物密碼子的偏好性,不同物種間影響密碼子偏好性的主要因素也有所不同[29]。
對(duì)3種含笑屬植物的最優(yōu)密碼子進(jìn)行分析,確定其最優(yōu)密碼子共30個(gè),以A結(jié)尾的有15個(gè),以U結(jié)尾的有14個(gè),以G結(jié)尾的有1個(gè),其中有6個(gè)(UAU、CAU、CAA、AAU、AAA、GGA)為共同最優(yōu)密碼子,大多數(shù)以A/U結(jié)尾,這與川滇木蘭[30]、華蓋木[31]、觀光木[32]等研究結(jié)果類似。說(shuō)明高等植物葉綠體基因組具有相似的使用模式,其偏好性在進(jìn)化上較為保守。
使用最大似然法對(duì)近緣種的葉綠體基因組與3種含笑屬植物葉綠體基因組進(jìn)行聚類分析。由構(gòu)成的ML系統(tǒng)發(fā)育樹(shù)可得,各分支支持率均較高。聚類結(jié)果表明:醉香含笑、香子含笑、壯麗含笑這3種植物與其他含笑屬植物聚為一個(gè)支,但最終并沒(méi)有完全聚在一個(gè)小的分組中,說(shuō)明這3種含笑屬植物的葉綠體基因組各不相同,這可能是受到環(huán)境的影響,與前人對(duì)含笑屬植物所作的聚類結(jié)果一致[33-35],說(shuō)明以該方法得到的聚類分析結(jié)果是可靠的。該研究結(jié)果為進(jìn)一步確定含笑屬植物的起源及親緣關(guān)系提供了一定的依據(jù)。
本研究對(duì)3種含笑屬植物葉綠體基因組密碼子的特征及偏性進(jìn)行了分析,密碼子偏好性對(duì)蛋白的表達(dá)有著直接的影響,轉(zhuǎn)運(yùn)核糖核酸(tRNA)在翻譯水平上能夠改變蛋白的翻譯速度。編碼同種氨基酸的密碼子在頻率上占主導(dǎo)地位,該密碼子通常由tRNA的同種受體讀取,并且濃度越高讀取頻率越快[36]。密碼子偏好性策略主要基于高頻密碼子對(duì)應(yīng)的tRNA濃度較高,可直接加快蛋白的翻譯速率,將供體密碼子與宿主基因組中具有最高頻率的同義密碼子進(jìn)行替換,利用宿主中最豐富的密碼子來(lái)編碼優(yōu)化序列中的氨基酸,宿主細(xì)胞內(nèi)的密碼子頻率越高,相應(yīng)的tRNA水平也越高,翻譯速率較快,更利于蛋白含量的表達(dá)[37]。利用密碼子偏好性策略來(lái)提高異源蛋白的表達(dá)水平已得到人們的廣泛認(rèn)可,目前,在畢赤酵母(Pichiapastoris)、大腸桿菌(Escherichiacoli)、向日葵(Helianthusannuus)、香蕉(Musanana)、香菇(Lentinusedodes)中都有相關(guān)研究,尤其是在人體內(nèi)翻譯速率實(shí)驗(yàn)中得到證明:相同的tRNA可以解碼不同的密碼子[38],在生物醫(yī)藥方面具有重要應(yīng)用[39]。對(duì)3種含笑屬植物葉綠體基因組密碼子的特征及偏性進(jìn)行分析,篩選出最優(yōu)密碼子,為后期制定密碼子優(yōu)化策略來(lái)提高異源蛋白在含笑屬植物中的表達(dá)量從而改良含笑屬植物重要性狀奠定堅(jiān)實(shí)基礎(chǔ),同時(shí),為3種含笑屬植物種質(zhì)資源鑒定及遺傳育種提供理論依據(jù),進(jìn)一步闡明其遺傳結(jié)構(gòu)和遺傳機(jī)制,豐富遺傳信息資源。