梁湘蘭,郭 松,2*
(1.廣西科技師范學(xué)院 食品與生化工程學(xué)院,廣西 來(lái)賓 546199;2.廣西科技師范學(xué)院 特色瑤藥資源研究與開發(fā)重點(diǎn)實(shí)驗(yàn)室,廣西 來(lái)賓 546199)
苦馬豆(Sphaerophysasalsula)是中亞西北荒漠區(qū)重要的豆科植物。目前僅有2個(gè)種,其中一個(gè)產(chǎn)自我國(guó),在海拔960~3 180 m的戈壁綠洲、山坡、荒地、草原、沙灘、溝渠旁及鹽池周圍可見其蹤跡。苦馬豆耐鹽耐堿、耐瘠耐澇,是改良鹽堿地的先鋒植物。從苦馬豆的同一根瘤中分離出的非共生內(nèi)生細(xì)菌可以與根瘤菌協(xié)同作用,有助于改善豆類植物的根瘤和固氮作用[1-2]??囫R豆蛋白質(zhì)含量較高,除了可以提高土壤肥力外還可以在冬季用作牧草,是極具開發(fā)和利用價(jià)值的經(jīng)濟(jì)植物。在天然產(chǎn)物的研究方面,苦馬豆中存在2個(gè)新的芪類化合物[3],且富含黃酮類化合物[4],民間常被用作為治療高血壓的藥物[5]?,F(xiàn)代藥理學(xué)表明,苦馬豆具有抗病毒[6]、抗肝炎[7]、抗腫瘤[8]等作用,具有重要的藥用開發(fā)和研究?jī)r(jià)值。
密碼子又稱遺傳密碼,編碼不同氨基酸密碼子的準(zhǔn)確識(shí)別對(duì)于遺傳信息正確表達(dá)至關(guān)重要。密碼子具有簡(jiǎn)并性,除了甲硫氨酸和色氨酸外其余氨基酸一般是由2~6個(gè)同義密碼子編碼。經(jīng)過(guò)長(zhǎng)期的進(jìn)化,不同的生物體在編碼氨基酸的過(guò)程中傾向于使用一種或幾種特定的密碼子,將該現(xiàn)象稱為密碼子的偏好性[9]。研究表明,同義密碼子在生物體內(nèi)普遍存在使用具有偏好性的現(xiàn)象和特點(diǎn)。物種在長(zhǎng)期進(jìn)化的過(guò)程中,其基因等會(huì)受到環(huán)境選擇和堿基突變等因素的綜合作用,同時(shí)還受到基因組大小、tRNA豐富度和基因表達(dá)水平等各種外在和內(nèi)在因素的影響[10]。密碼子偏好性通過(guò)對(duì)基因翻譯準(zhǔn)確性和效率的調(diào)節(jié)影響基因的表達(dá)水平。植物葉綠體的規(guī)模較小,在植物中存在拷貝數(shù)多的現(xiàn)象,在基因結(jié)構(gòu)上具有相對(duì)保守的特點(diǎn)[11]。因此,從葉綠體基因組中選擇最優(yōu)密碼子,并設(shè)計(jì)葉綠體基因的表達(dá)載體,對(duì)于迅速提高特定基因在葉綠體中的表達(dá)量具有一定的作用。根據(jù)已知的密碼子使用模式,推斷未知基因的表達(dá)模式,或預(yù)測(cè)未知基因的功能也是分析葉綠體基因組密碼子偏好性的一個(gè)作用。分析苦馬豆葉綠體基因組密碼子的偏好性,對(duì)苦馬豆葉綠體基因組工程具有重要意義。
本文將通過(guò)對(duì)苦馬豆葉綠體基因組蛋白編碼基因密碼子的偏好性進(jìn)行分析,并對(duì)密碼子偏好性形成的原因進(jìn)行探究,研究篩選最優(yōu)密碼子,為苦馬豆葉綠體基因組的改良、目的基因的優(yōu)化等提供科學(xué)依據(jù)。
苦馬豆(S.salsula)葉綠體基因組下載于NCBI數(shù)據(jù)庫(kù)(GenBank號(hào)為MW122834)。苦馬豆葉綠體基因組中篩選得到76條可以編碼蛋白質(zhì)的基因序列(Coding DNA Sequence,CDS),排除長(zhǎng)度小于300 bp和重復(fù)的24條基因序列,其余52條CDS用于后續(xù)的分析。
1.2.1 相關(guān)參數(shù)計(jì)算及偏性強(qiáng)弱判斷 將52條CDS整合到一個(gè)fasta文件中,運(yùn)用Codon W 1.4.2軟件進(jìn)行分析,獲得相對(duì)同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)信息,并將RSCU>1的密碼子確定為高頻密碼子。使用在線軟件CUSP計(jì)算不同基因中各個(gè)密碼子第1、第2、第3位GC含量(分別用GC1、GC2、GC3表示)以及該基因中堿基GC的含量(GCall);使用Chips計(jì)算有效密碼子數(shù)(Effective Number of Codon,ENC)。ENC值的高低可以推斷密碼子偏好性的強(qiáng)弱。ENC理論取值為20~61,越靠近20,密碼子偏好性越強(qiáng);越靠近61,每個(gè)密碼子被均衡使用,密碼子偏好性較弱,并將45作為判斷密碼子偏好性強(qiáng)弱的標(biāo)準(zhǔn)[12]。
1.2.2 偏向有無(wú)分析 使用SPSS 23.0將GC1、GC2、GC3、GCall、ENC以及每個(gè)基因的密碼子數(shù)目(N)進(jìn)行相關(guān)性分析。對(duì)于葉綠體蛋白編碼基因的密碼子偏好性而言,相關(guān)性分析的結(jié)果能夠初步判斷選擇或突變對(duì)密碼子偏好性的影響較為突出。密碼子堿基第3位的改變通常為同義突變,而密碼子第1、第2位的改變通常會(huì)改變基因的功能或活性。以GC3為橫坐標(biāo),GC1、GC2的平均值(用GC12表示)為縱坐標(biāo),一個(gè)基因用1個(gè)散點(diǎn)表示,進(jìn)行中性繪圖分析。在中性分析的圖中,若所有基因都沿著對(duì)角線分布,或GC12與GC3相關(guān)性顯著時(shí),密碼子3個(gè)位置的堿基組成無(wú)明顯差異,選擇壓力弱,但受突變影響大。
ENC-plot分析使用R語(yǔ)言程序,以GC3s為橫坐標(biāo),ENC為縱坐標(biāo),ENC=2+GC3s2+[29/GC3s+(1-GC3s)2]為標(biāo)準(zhǔn)曲線進(jìn)行繪圖。ENC-plot圖用于分析突變?cè)诿艽a子使用模式中的作用,當(dāng)實(shí)際ENC值與預(yù)期ENC值差異較小時(shí),基因分布于曲線附近,密碼子偏性受突變影響。基因多分布于曲線下方較遠(yuǎn)的位置時(shí)密碼子偏性較多受選擇因素的影響[13]。
PR2偏好性分析僅由4種密碼子編碼的氨基酸進(jìn)行分析,以G3/(G3+C3)、A3/(A3+U3)分別為橫、縱坐標(biāo),G3/(G3+C3)=A3/(A3+U3)=0.5的點(diǎn)為中心點(diǎn)繪制散點(diǎn)圖。為了避免密碼子第3位堿基之間的突變不平衡,在無(wú)選擇壓力情況下,A、U、G、C的分布是均勻的。
1.2.3 最優(yōu)密碼子確立 以ENC為參考指標(biāo),從兩端各選取10%的基因構(gòu)建高低表達(dá)基因庫(kù),將高低基因表達(dá)庫(kù)的基因利用Codon W 1.4.2分別計(jì)算RSCU值,計(jì)算高低基因表達(dá)庫(kù)之間的差值,△RSCU≥0.08的密碼子篩選為高表達(dá)優(yōu)越密碼子。若一密碼子既為高頻密碼子,也為高表達(dá)優(yōu)越密碼子,則將該密碼子確定為最優(yōu)密碼子。
利用在線軟件CUSP和Chips分析篩選的蛋白編碼基因的GC含量,以及ENC結(jié)果得到密碼子第1~第3位的平均GC含量分別為46.30%,38.39%,27.14%,除了基因rps11、rps18、ycf1外,其他基因的各個(gè)位置GC的含量均為GC1>GC2>GC3,密碼子在3個(gè)位置上GC含量差距較大,第3位堿基的GC含量最低,密碼子主要偏好A、U結(jié)尾。由Codon W 1.4.2測(cè)得RSCU(表1),同時(shí),RSCU>1的密碼子有29個(gè),除了密碼子UUG外,其他密碼子均以A、U結(jié)尾。判斷偏好性強(qiáng)弱的ENC值測(cè)得在38.729~56.534,平均值為47.110,而ENC>45的基因有41個(gè)。若將45作為分界線來(lái)判斷密碼子偏好性強(qiáng)弱,分析結(jié)果顯示出苦馬豆葉綠體基因組密碼子偏好性較弱的特點(diǎn)。
表1 苦馬豆葉綠體基因組中各氨基酸的RSCU分析
利用SPSS 23.0測(cè)得各個(gè)位置的GC含量(GC1,GC2,GC3)GCall、ENC和密碼子數(shù)目(N)的相關(guān)性如表2所示。由表2可知,GC1、GC2與GC3之間并無(wú)顯著相關(guān)性,3位密碼子之間堿基組成存在差異。GC3與ENC相關(guān)性顯著,說(shuō)明GC3對(duì)密碼子偏好性存在影響。而密碼子數(shù)目與其他因素都不存在相關(guān)性,說(shuō)明密碼子數(shù)目對(duì)密碼子偏好性的影響較小。
表2 苦馬豆葉綠體基因組密碼子各位置GC含量、數(shù)量及ENC值相關(guān)性分析
中性繪圖分析結(jié)果如圖1所示,GC12與GC3的相關(guān)系數(shù)為r=0.265 7(R2=0.070 6),相關(guān)性不顯著,且基因均位于對(duì)角線的上方,密碼子的3個(gè)堿基存在差異,密碼子偏好性主要受到選擇因素的影響。
由R語(yǔ)言程序繪制的ENC-plot圖(圖2)可知,密碼子較為均勻?qū)Ψ植加谇€的兩側(cè),根據(jù)ENC比值=(ENC實(shí)際-ENC期望)/ENC實(shí)際得到結(jié)果(表3),由表3可知,比值在-0.05~0.05的基因有27個(gè),占0.519。以此可以初步分析認(rèn)為,苦馬豆葉綠體基因組密碼子的偏好性同時(shí)受到選擇和突變作用的影響。
表3 ENC比值頻數(shù)分布
PR2-plot結(jié)果表明(圖3),基因的分布并不均勻,位于左下方的基因數(shù)量最多,說(shuō)明密碼子第3位堿基U的使用頻率大于A、C的使用頻率大于G。當(dāng)突變?yōu)槲ㄒ挥绊懸蛩貢r(shí),4種堿基的使用頻率應(yīng)該相等。但此時(shí)的結(jié)果表明,苦馬豆葉綠體基因組蛋白編碼基因密碼子偏好性受到選擇因素的影響可能較為突出。
通過(guò)構(gòu)建高低基因表達(dá)庫(kù)(表4),得到21個(gè)△RSCU≥0.08的密碼子,并將該密碼子確立為高表達(dá)優(yōu)越密碼子。將既屬于高表達(dá)優(yōu)越密碼子,又屬于高頻密碼子的確立為最優(yōu)密碼子。最終得到16個(gè)最優(yōu)密碼子,分別為GUU、UCA、UUAAUU、CCA、、UUG、ACU、UAU、GCU、GAU、GAA、CAU、CGA、CAA、AAA、GGU。
表4 苦馬豆葉綠體基因組最優(yōu)密碼子分析
密碼子是體內(nèi)遺傳信息傳遞的基礎(chǔ)部分,密碼子的使用偏好性對(duì)于外源基因的表達(dá)具有重要意義。近年來(lái),隨著基因組測(cè)序的不斷增加,關(guān)于密碼子偏好性分析的論文也越來(lái)越多[14-18]。之前已有小球藻(Chlorellasorokiniana)[19]、蒺藜苜蓿(Medicagotruncatula)[20]、云南藍(lán)果樹(Nyssayunnanensis)[17]、秋茄(Kandeliaobovata)[18]等物種的密碼子偏好性分析,相關(guān)研究為重要經(jīng)濟(jì)和藥用植物的基因工程改良奠定了基礎(chǔ)。
本研究通過(guò)分析苦馬豆葉綠體基因組密碼子52個(gè)CDS,得到密碼子3位堿基的GC含量分布情況為GC1>GC2>GC3,該結(jié)果與已經(jīng)研究的大多數(shù)物種籽粒莧(Amaranthushypochondriacus)[21]、酸棗(Ziziphusjujubavar.spinosa)[22]、美國(guó)紅梣(Fraxinuspennsylvanica)[23]得出的結(jié)果一致,GC3的含量均為最低,密碼子偏好以A、U結(jié)尾。在RSCU>1的密碼子中,僅有密碼子UUA的RSCU>2,該密碼子的偏好性較強(qiáng)。判斷密碼子偏好性強(qiáng)弱的ENC值為38.729~56.534,大多數(shù)的密碼子更偏向于61,其中52個(gè)基因中>45的有41個(gè),密碼子偏好性較弱。在現(xiàn)在已發(fā)表的葉綠體基因組密碼子偏好性論文中[20,22-25],關(guān)于密碼子偏好性的強(qiáng)弱問(wèn)題,大多數(shù)都傾向于偏好性較弱。密碼子的使用偏性是物種對(duì)自身基因組成和外界環(huán)境選擇長(zhǎng)期適應(yīng)的結(jié)果。由于密碼子第3位的堿基受到的壓力比第1、2位小,因此GC3常常是用來(lái)分析密碼子偏好性的重要參數(shù)。以GC12為縱坐標(biāo),GC3為橫坐標(biāo)的中性繪圖分析得到,堿基第1、第2位堿基存在差異,密碼子偏好性主要受到選擇因素的影響,與紫花苜蓿(Medicagosativa)[14]、美國(guó)紅梣(Fraxinuspennsylvanica)[23]的結(jié)果一致。ENC-plot圖分析結(jié)果表明,密碼子偏好性除了受到選擇因素影響外還受到突變因素的影響,該分析結(jié)果與西南樺葉(Betulaalnoides)[26]、紫花苜蓿(Medicagosativa)[14]的分析結(jié)果相同。PR2-plot分析可以說(shuō)明4個(gè)堿基的使用情況,分析結(jié)果表明,4個(gè)堿基的分布并不均勻,主要分布于左下角,U的使用頻率大于A,C的使用頻率較G的使用頻率高,說(shuō)明其偏好性同時(shí)受到突變和自然選擇的影響,密碼子使用模式較為復(fù)雜。
通過(guò)建立高低表達(dá)庫(kù)的對(duì)比,計(jì)算這2個(gè)庫(kù)間的△RSCU值,采用高頻密碼子與高表達(dá)優(yōu)越密碼子相結(jié)合的方法,最終確立了16個(gè)最優(yōu)密碼子,其中以A結(jié)尾的有7個(gè),以U結(jié)尾的有8個(gè),僅有1個(gè)密碼子以G結(jié)尾,無(wú)以C結(jié)尾的最優(yōu)密碼子。同時(shí)再次證實(shí)了苦馬豆葉綠體基因組密碼子偏好以A、U結(jié)尾,與大多數(shù)物種的密碼子偏好以A、U結(jié)尾一致。在構(gòu)建基因表達(dá)載體的時(shí)候,選取最優(yōu)密碼子,可以提高基因的表達(dá)效率。
本研究通過(guò)生物信息學(xué)的方法,對(duì)苦馬豆葉綠體基因組的使用模式有了一定的了解,對(duì)將來(lái)開發(fā)苦馬豆資源利用、外源基因能夠在苦馬豆中高效表達(dá)提供有利的依據(jù)。