李丁寧,吳進(jìn)樟,李白楊,曹世江
(1.福建農(nóng)林大學(xué)林學(xué)院;2.福建農(nóng)林大學(xué)植物保護(hù)學(xué)院,福建 福州 350002)
GOLDEN2-LIKE(GLK)是植物特有的一類轉(zhuǎn)錄因子,在葉綠體發(fā)育、果實(shí)品質(zhì)、生物脅迫和非生物脅迫、植物衰老和激素影響等方面有著重要作用[1].GLK轉(zhuǎn)錄因子屬于GARP超家族中的一員,此外該超家族還包括擬南芥中的ARR-B蛋白和衣藻中的PSR1(磷酸鹽匱乏響應(yīng)子)[2].GLK基因家族與GARP超家族其他成員的區(qū)別在于它有兩個(gè)高度保守的結(jié)構(gòu)域[3].GLK最先在玉米中作為能夠引起植株黃化的基因而被發(fā)現(xiàn)[4],隨后在小立碗蘚(Physcomitrellapatens)、擬南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、辣椒(CapsicumannuumL.)、番茄(Solanumlycopersicum)的核基因組中均發(fā)現(xiàn)GLK轉(zhuǎn)錄因子參與調(diào)控核定位的葉綠體蛋白以及與光合作用相關(guān)基因的表達(dá)[3,5-8].GLK基因在不同類型植物光合細(xì)胞中的表達(dá)是不同的,在C4植物中GLK基因主要在葉片中的維管束細(xì)胞(bundle sheath)和葉肉細(xì)胞(mesophyll)中表達(dá),而 在C3植物中該基因只在葉肉細(xì)胞中表達(dá)[3,8].研究發(fā)現(xiàn)GLK基因是通過基因?qū)Φ男问焦餐{(diào)控葉綠體的發(fā)育,且在擬南芥和苔蘚中GLK基因功能表達(dá)存在冗余現(xiàn)象,單個(gè)基因突變導(dǎo)致缺少的功能由另外一條基因補(bǔ)充[5,7-8].擬南芥中GLK轉(zhuǎn)錄因子調(diào)控長角果果色和葉片發(fā)育,并且過表達(dá)該轉(zhuǎn)錄因子可以影響擬南芥根部葉綠體的發(fā)育[5,9].辣椒中GLK基因通過調(diào)節(jié)葉綠體大小來控制葉綠素含量,同時(shí)調(diào)控未成熟果實(shí)顏色自然變化的數(shù)量性狀位點(diǎn)[10].在番茄中,GLK基因通過調(diào)控葉綠體的發(fā)育來改變成熟果實(shí)中糖類和類胡蘿卜素的含量,影響果實(shí)的品質(zhì)[11],而過表達(dá)SlGLK1和SlGLK2兩個(gè)基因均可提高成熟番茄的營養(yǎng)價(jià)值[12],但是SlGLK2轉(zhuǎn)錄因子會(huì)與CUL4-DDB1-DET1E3復(fù)合物發(fā)生反應(yīng),導(dǎo)致SlGLK2蛋白被降解[13].
桉樹(Eucalyptus)作為世界三大速生樹種之一,具有重要的經(jīng)濟(jì)、生態(tài)和社會(huì)價(jià)值[14],為造紙和木材工業(yè)提供了大量的原材料,具有成為新型生物質(zhì)能源樹種的潛力.桉樹在生長過程中常因遭受不良環(huán)境因素影響而造成木材生長速度、質(zhì)量以及抗逆性等方面的不足.據(jù)報(bào)道[15],桉樹焦枯病對(duì)桉樹幼苗和人工幼林造成極大危害,嚴(yán)重時(shí)會(huì)導(dǎo)致整株枯死,而GLK蛋白在植物逆境應(yīng)答和生長發(fā)育方面發(fā)揮著極其重要的作用.目前,還未見有關(guān)巨桉(Eucalyptusgrandis)中GLK基因家族功能的報(bào)道.本研究利用生物信息學(xué)方法在全基因組水平對(duì)巨桉GLK基因家族進(jìn)行染色體定位、蛋白質(zhì)理化性質(zhì)、基因結(jié)構(gòu)特征、蛋白質(zhì)結(jié)構(gòu)、系統(tǒng)進(jìn)化以及組織表達(dá)模式等全方面分析,為巨桉GLK基因功能的進(jìn)一步解析提供依據(jù).
從Phytozome數(shù)據(jù)庫下載巨桉和番茄的基因序列信息.
首先從Pfam數(shù)據(jù)庫獲得結(jié)構(gòu)域PF00249.31,并在HMMER中對(duì)巨桉所有蛋白質(zhì)序列進(jìn)行保守序列篩選,標(biāo)準(zhǔn)e值小于1,大致篩選出含有Myb_DNA-binding結(jié)構(gòu)域的序列,然后用SMART再次篩選,最終得到40條巨桉GLK的蛋白質(zhì)序列.利用ExPASy在線網(wǎng)站(https://web.expasy.org/protparam)預(yù)測(cè)GLK蛋白的一些基本理化性質(zhì).根據(jù)JGI數(shù)據(jù)庫獲得的基因在染色體上的定位信息,采用MG2C在線軟件繪制染色體定位圖.
通過Clustal X對(duì)巨桉和番茄GLK蛋白的序列進(jìn)行多序列比對(duì),利用MEGA6軟件鄰接法構(gòu)建GLK基因家族系統(tǒng)進(jìn)化樹,校驗(yàn)參數(shù)Bootstrap設(shè)定為1 000.利用Phytozome數(shù)據(jù)庫獲得巨桉GLK的基因組序列以及CDS序列,通過在線軟件GSDS(http://gsds.cbi.pku.edu.cn/)對(duì)其基因結(jié)構(gòu)進(jìn)行分析.利用SOPMA分析蛋白序列二級(jí)結(jié)構(gòu).利用SWISS-MODEL(https://swissmodel.expasy.org/)在線建模得到巨桉GLK蛋白三級(jí)結(jié)構(gòu).
通過Phytozome數(shù)據(jù)庫(https://phytozome.jgi.doe.gov)下載巨桉未成熟木質(zhì)部、成熟木質(zhì)部、韌皮部、成熟葉、新葉和莖尖的GLK家族基因的表達(dá)數(shù)據(jù),繪制基因表達(dá)熱圖.
采用生物信息學(xué)方法,從巨桉全基因組中鑒定出40個(gè)GLK基因,并命名為EgG1~EgG40(表1).GLK基因編碼101~688個(gè)氨基酸,其中EgG37的分子質(zhì)量最大,為74.964 ku;而EgG15的分子質(zhì)量最小,為11.690 ku.40個(gè)GLK蛋白的等電點(diǎn)為4.77~10.22,有12個(gè)堿性蛋白(EgG2、EgG8、EgG9、EgG12、EgG15、EgG16、EgG17、EgG18、EgG19、EgG26、EgG31和EgG32),中性蛋白只有一個(gè)(EgG34),其余均為酸性蛋白.由親水性指數(shù)分析可知,GLK基因家族編碼的蛋白均為親水蛋白.亞細(xì)胞定位預(yù)測(cè)結(jié)果表明,EgGLK基因家族主要在細(xì)胞質(zhì)和細(xì)胞核中表達(dá).
表1 巨桉GLK轉(zhuǎn)錄因子家族的基本信息Table 1 Basic information of the GLK transcription factor family in E.grandis
從圖1可知:40個(gè)GLK基因非均勻地分布于11條染色體上,基因數(shù)目分別為9、3、2、4、5、3、4、3、1、2和4個(gè).根據(jù)基因在進(jìn)化樹上的位置及序列間的同源性分析得到6個(gè)旁系同源基因?qū)Γ篍gG7/EgG34、EgG5/EgG20、EgG31/EgG36、EgG18/EgG19、EgG1/EgG39和EgG37/EgG38.只有EgG18/EgG19在同一條染色體上,其余5個(gè)同源基因?qū)辉谕粭l染色體上.根據(jù)這些旁系同源基因?qū)υ谌旧w上的位置分布,推測(cè)這6個(gè)旁系同源基因?qū)Χ紒碓从谄螐?fù)制.
為了進(jìn)一步了解巨桉GLK家族基因的功能和特征,對(duì)鑒定到的40個(gè)巨桉和已經(jīng)報(bào)道的番茄(54個(gè))GLK基因的氨基酸序列構(gòu)建系統(tǒng)進(jìn)化樹(圖2).結(jié)果表明,GLK家族基因明顯聚類于5個(gè)亞族(Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ),其中Ⅰ~Ⅴ每個(gè)亞族中均有巨桉和番茄分布,分別包含13、8、4、5、10個(gè)巨桉GLK蛋白和19、12、6、4、9個(gè)番茄GLK蛋白,但是Ⅵ亞族只有4個(gè)番茄家族成員.此外,EgG14和SlG26、EgG28和SlG29、EgG24和SlG41、EgG27和SlG10、EgG12和SlG6、EgG15和SlG3、EgG32和SlG16、EgG22和SlG9、EgG29和SlG1、EgG25和SlG4、EgG26和SlG11、EgG13和SlG40、EgG11和SlG19、EgG4與SlG21蛋白進(jìn)化關(guān)系極為接近,由此可知兩物種的這些GLK基因序列的同源性較高.
圖1 巨桉GLK基因在染色體上的分布Fig.1 Location of the GLK genes on E.grandis chromosome
基因結(jié)構(gòu)分析表明(圖3),巨桉GLK家族各成員基因外顯子的數(shù)量、長度以及位置存在差異.這些基因大多數(shù)長度在1~9 kb,且這些基因的上游非編碼區(qū)均不超過1 kb,其中EgG19長度最長,該基因存在8 kb左右的內(nèi)含子.EgG11、EgG8和EgG35只有一個(gè)外顯子,屬于內(nèi)含子缺失類型.EgG40外顯子最多(11個(gè)),EgG5有2個(gè),EgG15、EgG20和EgG32有3個(gè),EgG13有4個(gè),其余基因有5~7個(gè).同一亞族的基因結(jié)構(gòu)呈現(xiàn)出較大的相似性,推測(cè)其可能具有相似的生物學(xué)功能.
實(shí)心圓(●)與空心圓(○)分別代表番茄和巨桉,分支上數(shù)字代表在Bootstrap驗(yàn)證中基于1 000次重復(fù)的該節(jié)點(diǎn)可信度;不同大類的分枝具有不同的顏色,每一段弧形代表一個(gè)亞族(Ⅰ~Ⅵ).
通過預(yù)測(cè)分析發(fā)現(xiàn)巨桉GLK編碼的蛋白質(zhì)二級(jí)結(jié)構(gòu)由α-螺旋、β-轉(zhuǎn)角、延伸鏈和無規(guī)則卷曲組成(表2).EgGLK蛋白的無規(guī)則卷曲占比最高,其次為α-螺旋,且EgG4、EgG16和EgG22的無規(guī)則卷曲占比大于70%.利用MEME軟件分析巨桉GLK基因家族成員的蛋白保守基序(圖4),共發(fā)現(xiàn)15個(gè)保守序列:Motif 2、Motif 1、Motif 3、Motif 13、Motif 12、Motif 9、Motif 6、Motif 10、Motif 5、Motif 14、Motif 4、Motif 8、Motif 7、Motif 11和Motif 15.利用SWISS-MODEL在線建模得到5個(gè)GLK轉(zhuǎn)錄因子蛋白保守結(jié)構(gòu)域3D結(jié)構(gòu)(圖5),圖5Ⅰ~5Ⅴ分別是EgG17、EgG5、EgG18、EgG26、EgG8.結(jié)果表明,GLK家族成員的蛋白在三級(jí)結(jié)構(gòu)上是比較保守的,具有非常相似的三維結(jié)構(gòu),大多由多個(gè)螺旋、延伸鏈及轉(zhuǎn)角結(jié)構(gòu)組成,推測(cè)巨桉GLK蛋白三維結(jié)構(gòu)的相似性可能導(dǎo)致部分功能相同.
從圖4可看出,每個(gè)亞族內(nèi)多數(shù)Motif 排列順序相同,但位置不盡相同.GLK蛋白所有成員都有Motif 2和Motif 1,說明兩個(gè)基序是GLK蛋白的核心組件.GroupⅠ特有的基序是Motif 3和Motif 13,而GroupⅡ基序最少,只有Motif 2和Motif 1.GroupⅢ、Ⅳ和Ⅴ特有的基序分別是Motif 12和Motif 9、Motif 5和Motif 14、Motif 4、Motif 7和Motif 15.每個(gè)亞族GLK蛋白的基序類型有一定的相似性,不同亞族之間有一定的差異性.在GroupⅠ和GroupⅡ中均有部分基因所有Motif的位置出現(xiàn)后移現(xiàn)象,這可能是由于在進(jìn)化過程中基因前端插入一段外顯子,推測(cè)這些現(xiàn)象可能與該基因家族功能有關(guān).
圖3 巨桉GLK家族基因結(jié)構(gòu)Fig.3 Structural diagram of the GLK gene family in E.grandis
蛋白質(zhì)α-螺旋氨基酸長度/個(gè)占比/%β-轉(zhuǎn)角氨基酸長度/個(gè)占比/%延伸鏈氨基酸長度/個(gè)占比/%無規(guī)則卷曲氨基酸長度/個(gè)占比/%EgG114121.11284.19608.9843965.72EgG28156.25139.03106.944027.78EgG313127.07122.48316.4031064.05EgG49620.5681.71357.4932870.24EgG57443.27105.85137.607443.27EgG66229.25125.663215.0910650.00EgG713736.3492.39266.9020554.38EgG89229.77185.83289.0617155.34EgG99424.4882.08318.0725165.36EgG1010628.5771.89246.4723463.07EgG118124.11113.27185.3622667.26EgG129232.1793.15186.2916758.39EgG1312325.68112.30377.7230864.30EgG149430.5292.92134.2219262.34
續(xù)表2
圖4 巨桉GLK轉(zhuǎn)錄因子家族的基序Fig.4 Motifs of the GLK transcription factors in E.grandis
圖5 巨桉GLK蛋白家族成員的三級(jí)結(jié)構(gòu)Fig.5 Tertiary structures of the members of GLK protein family in E.grandis
根據(jù)GLK基因在巨桉未成熟木質(zhì)部、成熟木質(zhì)部、韌皮部、成熟葉、新葉和莖尖的表達(dá)數(shù)據(jù),繪制了GLK基因家族在不同組織的表達(dá)熱圖(圖6).從圖6可知,巨桉GLK基因在不同組織中的表達(dá)存在差異.EgG36、EgG5和EgG31在成熟葉中表達(dá)量較高,EgG20、EgG6和EgG15在莖尖表達(dá)量偏高,表明這些基因可能在植物的成熟葉和莖尖生長過程中起著積極的作用.EgG9和EgG35分別在韌皮部和木質(zhì)部有較高的表達(dá)量,說明這兩個(gè)基因可能在韌皮部和木質(zhì)部的發(fā)育過程中發(fā)揮著重要作用.而EgG29、EgG26、EgG37和EgG17在未成熟木質(zhì)部的表達(dá)量很低,EgG18和EgG33在成熟木質(zhì)部的表達(dá)量較低,EgG23、EgG40和EgG30在韌皮部表達(dá)量很低,這意味著這些基因可能在特殊條件下或在其他未受試植物部位表達(dá).從以上分析可以得出這40個(gè)巨桉GLK基因在未成熟木質(zhì)部、成熟木質(zhì)部和韌皮部中表達(dá)量最少,在新葉中表達(dá)量適中,但在成熟葉和莖尖具有較高的表達(dá)量.
紅黃藍(lán)代表基因表達(dá)水平,紅色越亮表達(dá)越強(qiáng),藍(lán)色越亮表達(dá)越弱.圖6 GLK基因在巨桉不同組織中的表達(dá)Fig.6 Expressions of the GLK gene in different tissues of E.grandis
本研究從基因組水平鑒定出40個(gè)巨桉GLK基因,并分為5個(gè)亞族(GroupⅠ~GroupⅤ),分析發(fā)現(xiàn)該基因家族在進(jìn)化過程中具有較高的保守性.染色體定位分析表明巨桉GLK家族基因相對(duì)分散地分布在巨桉11條染色體上,且有6個(gè)均來自于片段復(fù)制的旁系同源基因?qū)?,說明片段復(fù)制可能是該基因家族擴(kuò)增的主要方式.巨桉GLK基因結(jié)構(gòu)相對(duì)復(fù)雜,大多數(shù)基因外顯子的數(shù)量以及位置均不相同.同一亞族基因具有相似的外顯子數(shù)目和長度,表明進(jìn)化關(guān)系相近的基因具有相似的結(jié)構(gòu).此外,該基因家族還存在內(nèi)含子缺失類型(EgG8、EgG11和EgG35),表明這些基因可能在轉(zhuǎn)錄時(shí)只需要進(jìn)行一些簡單的剪切便可以直接翻譯成蛋白質(zhì).巨桉和番茄GLK基因的聚類分析結(jié)果表明,位于同一亞族或分枝的基因可能具有相似的功能,這為預(yù)測(cè)巨桉GLK家族中基因功能提供了重要的參考依據(jù).
通過分析巨桉GLK基因表達(dá)數(shù)據(jù),發(fā)現(xiàn)不同GLK家族成員在不同組織中表達(dá)具有一定的特異性,表明不同GLK家族成員之間可能存在功能分化.一些基因在某些組織中異常高表達(dá),如EgG5、EgG31和EgG36在成熟葉中表達(dá)量較高,EgG6、EgG15和EgG20在莖尖表達(dá)量偏高,表明這些基因可能參與調(diào)控老葉和莖尖的葉綠體發(fā)育過程.