隋心意,趙小剛,毛 欣,李亞靈,溫祥珍
(山西農(nóng)業(yè)大學(xué)園藝學(xué)院,山西太谷 030801)
bHLH轉(zhuǎn)錄因子是廣泛存在于動(dòng)物、植物中的轉(zhuǎn)錄因子超家族,因其含有‘螺旋-環(huán)-螺旋’結(jié)構(gòu)域而得名[1]。bHLH結(jié)構(gòu)域由50~60個(gè)氨基酸組成,包括N端的堿性區(qū)(Basic region)和C端HLH區(qū)(Helix Loop Helix)[2]。其中N端的堿性區(qū)域由10~15個(gè)氨基酸組成,植物中50%以上的堿性氨基酸區(qū)含有高度保守的H5-E9-R13(His5-Glu9-Arg13)序列,該序列通過和特定DNA的順式作用元件結(jié)合激發(fā)基因轉(zhuǎn)錄;HLH區(qū)域主要由40個(gè)左右的疏水性氨基酸組成,有利于HLH區(qū)域二聚體的形成和蛋白質(zhì)二級(jí)結(jié)構(gòu)的穩(wěn)定[3-4]。依據(jù)進(jìn)化關(guān)系、基因功能、與DNA的結(jié)合模式,動(dòng)物中bHLH轉(zhuǎn)錄因子被分為 6個(gè)組(A、B、C、D、E、F),45個(gè)家族[5]。與動(dòng)物相比,植物的bHLH蛋白較少,大多數(shù)植物bHLH蛋白在動(dòng)物家族分類中屬于B組[6]。目前在擬南芥中鑒定出了162個(gè)bHLH家族轉(zhuǎn)錄因子,與水稻中的bHLH轉(zhuǎn)錄因子一起被分成了25個(gè)亞家族[7-9];將水稻中的165個(gè)轉(zhuǎn)錄因子分為22個(gè)亞家族[9],將擬南芥中161個(gè)轉(zhuǎn)錄因子分為21個(gè)亞家族[10];PIRES等[11]利用對(duì)來源于藻類和陸生植物的500多個(gè)bHLH蛋白的分析,將植物bHLH蛋白分為26個(gè)亞家族。隨著全基因組測(cè)序技術(shù)的發(fā)展,越來越多物種中的bHLH轉(zhuǎn)錄因子正在被鑒定出來。
在擬南芥中的大量研究表明,bHLH轉(zhuǎn)錄因子參與了形態(tài)建成、生長(zhǎng)發(fā)育、抗逆反應(yīng)、信號(hào)轉(zhuǎn)導(dǎo)和次生代謝等多種生物學(xué)過程[2,12],比如PIF4參與調(diào)控?cái)M南芥下胚軸的伸長(zhǎng)過程[13],GL3和EGL3基因控制根表皮的細(xì)胞分化[14],EMBRYO1基因控制胚胎發(fā)育[15],DYTl控制絨氈層的分化和發(fā)育[16],SPATULA基因控制雌蕊的發(fā)育[17];同時(shí)有研究表明AtbHLH112對(duì)抗鹽、抗旱和抗?jié)B透脅迫有正調(diào)控作用,但抑制根系發(fā)育[18-19],OsHLH013和OsHLH016調(diào)控花青素的生物合成,PIF3和PIF4在光敏色素信號(hào)傳導(dǎo)中起調(diào)控作用[13,20]。在水稻的大量研究中表明bHLH轉(zhuǎn)錄因子在氣孔發(fā)育、腋芽原基形成、胚乳發(fā)育、種皮顏色、鐵元素吸收利用、耐鹽性和抗旱性方便也發(fā)揮著非常重要的作用。
生菜(Lactuca sativa L.)又名葉用萵苣,為菊科菊苣屬一年生草本植物,富含維生素C、維生素E、葉酸、多酚、膳食纖維、生育酚和類胡蘿卜素等營(yíng)養(yǎng)物質(zhì),是日常生活不可或缺的蔬菜之一[21]。隨著生菜全基因組數(shù)據(jù)的公布,有必要對(duì)生菜bHLH家族基因進(jìn)行全基因組挖掘和全面、系統(tǒng)分析。因此本研究計(jì)劃使用生物信息學(xué)的方法,從基因組水平上對(duì)生菜bHLH家族的蛋白特性、保守域結(jié)構(gòu)、內(nèi)含子與外顯子數(shù)量、motif分布和功能分化等方面進(jìn)行研究,以期為生菜bHLH家族基因的克隆、功能解析提供理論基礎(chǔ)。
從NCBI(https://www.ncbi.nlm.nih.gov/)數(shù)據(jù)庫(kù)中下載生菜基因組數(shù)據(jù)和蛋白組數(shù)據(jù),通過Pfam(http://pfam.xfam.org/)數(shù)據(jù)庫(kù)中下載bHLH結(jié)構(gòu)域的隱馬氏模型(登錄號(hào)為:PF00010)。利用HMMER3.0軟件,以隱馬氏模型文件PF00010對(duì)生菜蛋白組數(shù)據(jù)進(jìn)行搜索,獲得生菜中含有bHLH結(jié)構(gòu)域的候選蛋白家族成員的蛋白序列。用SMART(http://smart.emblheidelberg.de/)數(shù)據(jù)庫(kù)比對(duì)得到的蛋白序列,將無bHLH結(jié)構(gòu)域的序列剔除,確定最終候選基因。
通過ExPASy ProtParam tool(https://web.expasy.org/protparam/)預(yù)測(cè)bHLH蛋白氨基酸序列的基本信息,包括氨基酸數(shù)量、相對(duì)分子量、等電點(diǎn)、疏水性和不穩(wěn)定性等理化性質(zhì)。通過在線軟件Cell Ploc 2.0進(jìn)行亞細(xì)胞定位預(yù)測(cè)(http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc/);通過在線軟件THHMM 2.0(http://www.cbs.dtu.dk/services/TMHMM/)進(jìn)行跨膜結(jié)構(gòu)分布和數(shù)量的預(yù)測(cè)。
利用序列分析軟件DNAMAN 5.0和在線軟件WebLogo(http://weblogo.berkeley.edu/logo.cgi)對(duì)生菜bHLH蛋白的保守結(jié)構(gòu)域分析。
將生菜bHLH家族的蛋白序列提交到在線網(wǎng)站MEME 4.11.4(http://web.mit.edu/meme_v4.11.4/share/doc/overview.html)進(jìn)行motif預(yù)測(cè)分析,搜索基序設(shè)置為10,基序長(zhǎng)度介于6~50之間,導(dǎo)出meme.xml結(jié)果文件。將生菜bHLH基因家族每個(gè)成員的CDS序列和其對(duì)應(yīng)的基因組序列進(jìn)行比對(duì),利用GSDS(http://gsds.cbi.pku.edu.cn/)在線軟件進(jìn)行內(nèi)含子和外顯子圖譜的繪制。
將最終獲得的135個(gè)生菜bHLH轉(zhuǎn)錄因子用ClustalX進(jìn)行比對(duì),序列比對(duì)的結(jié)果用MEGA 7.0的NJ法(Neighbor Joining)構(gòu)建系統(tǒng)發(fā)育樹,其中檢驗(yàn)參數(shù)為Bootrap 1000次,模式設(shè)置為Poisson model,缺口設(shè)置為pair gap deletion。將制作好的進(jìn)化樹導(dǎo)出,利用ITOL網(wǎng)站進(jìn)行美化和豐富顏色(https://itol.embl.de/)。
從Pfam數(shù)據(jù)庫(kù)中下載bHLH家族的隱馬氏模型文件(Pfam碼PF00010),搜索生菜的全基因組蛋白數(shù)據(jù)庫(kù),共得到163條bHLH類似基因;用SMART數(shù)據(jù)庫(kù)和hammer網(wǎng)站結(jié)構(gòu)域分析工具鑒定得到的蛋白序列,檢查序列缺失、去除冗余,最終獲得135條bHLH序列。利用expasy在線程序?qū)ι薭HLH蛋白的理化性質(zhì)進(jìn)行分析,bHLH蛋白特性分析表明,最長(zhǎng)的bHLH蛋白有685個(gè)蛋白質(zhì)殘基,而最短的只有162個(gè)蛋白質(zhì)殘基;它們的等電點(diǎn)分布在0.63~9.51之間,其中有92個(gè)酸性蛋白,43個(gè)堿性蛋白;相對(duì)分子量在17843.82~75409.15 Da之間;不穩(wěn)定指數(shù)分布在32.5~76.39之間,其中有123個(gè)蛋白的不穩(wěn)定系數(shù)大于40,說明大部分bHLH蛋白為不穩(wěn)定蛋白;135個(gè)蛋白的疏水性指數(shù)均小于0,為親水性蛋白。cell plot的預(yù)測(cè)表明有100個(gè)蛋白屬于細(xì)胞核蛋白,是生菜bHLH家族中數(shù)目最多的一部分,有16個(gè)蛋白定位于葉綠體,有3個(gè)蛋白定位于細(xì)胞質(zhì),有1個(gè)蛋白定位于內(nèi)質(zhì)網(wǎng),有1個(gè)蛋白定位于細(xì)胞膜;有1個(gè)蛋白定位于線粒體??缒そY(jié)構(gòu)域分析表明,有134個(gè)蛋白無跨膜結(jié)構(gòu)域,有1個(gè)蛋白有1個(gè)跨膜結(jié)構(gòu)域。但目前這些轉(zhuǎn)錄因子還未被定位于染色體上。
使用DNAMAN 5.0對(duì)135個(gè)生菜bHLH蛋白結(jié)構(gòu)域進(jìn)行鑒定和分析,并用WebLogo 3獲得生菜bHLH蛋白的結(jié)構(gòu)域序列標(biāo)簽。分析發(fā)現(xiàn)135個(gè)生菜bHLH基因保守域基本由50個(gè)氨基酸組成,最長(zhǎng)為53個(gè)氨基酸,最短為43個(gè)氨基酸;該保守域由N端堿性結(jié)構(gòu)域和C端HLH結(jié)構(gòu)域組成;其中N端堿性結(jié)構(gòu)域由10~15個(gè)氨基酸組成,該區(qū)域富含堿性氨基酸精氨酸(R)、賴氨酸(K)、組氨酸(H)和酸性氨基酸谷氨酸(E),谷氨酸可以和DNA的大溝結(jié)合。DNAMAN分析表明有103條bHLH序列同時(shí)在9位點(diǎn)和12位點(diǎn)同時(shí)為E和R,該序列組成可以結(jié)合E-Box,有59條bHLH序列同時(shí)在5位點(diǎn)、9位點(diǎn)和13位點(diǎn)同時(shí)為H、E和R,主要有結(jié)合G-Box的功能。C端的HLH結(jié)構(gòu)域的α螺旋富含疏水性氨基酸纈氨酸(V)、亮氨酸(L)、異亮氨酸(I)、脯氨酸(P)、丙氨酸(A),其中第23位點(diǎn)的L高度保守,這對(duì)維持bHLH蛋白二級(jí)結(jié)構(gòu)的穩(wěn)定有重要作用(圖1、圖2)。
圖1 生菜bHLH結(jié)構(gòu)域的氨基酸序列比對(duì)
圖2 生菜bHLH轉(zhuǎn)錄因子家族的保守結(jié)構(gòu)域
為了研究生菜bHLH家族成員間的進(jìn)化關(guān)系,利用MEGA7.0對(duì)135個(gè)蛋白的序列進(jìn)行進(jìn)化樹分析,結(jié)果表明135個(gè)bHLH基因被分為10個(gè)亞家族(圖3),其中第Ⅷ、Ⅳ和Ⅶ亞家族的bHLH蛋白成員最多,分別包含43、27和15個(gè)bHLH蛋白;第Ⅰ、Ⅲ、Ⅵ、Ⅸ、Ⅱ、Ⅹ亞家族的bHLH蛋白成員為5~10個(gè);而第Ⅴ亞家族的成員最少,只含有1個(gè)bHLH蛋白。
圖3 生菜中bHLH蛋白家族的系統(tǒng)進(jìn)化樹
為了進(jìn)一步研究生菜中bHLH蛋白質(zhì)結(jié)構(gòu)的多樣性,通過MEME在線軟件對(duì)135個(gè)bHLH蛋白質(zhì)進(jìn)行了保守基序分析,搜索參數(shù)設(shè)置為50,共獲得10條保守基序。由圖4可知,135個(gè)bHLH蛋白含有2~4個(gè)基序,相同家族的bHLH蛋白傾向于有相同的基序,不同的家族間bHLH蛋白基序數(shù)量和類型存在差異,推測(cè)正是由于這些特異motif的存在導(dǎo)致了bHLH家族基因功能的分化。但不同的家族均包含基礎(chǔ)基序motif 1和motif 2,在Inter Pro Scan中這兩個(gè)基序被注釋為Helix-loop-helix DNA-binding domain。在同一家族間內(nèi)根據(jù)motif的差異和基因長(zhǎng)度的不同劃分為不同的亞家族,一些基序僅存在于特定基因中,這些基序可能有助于形成這些基因的特定功能。其中motif 3特異分布于Ⅷ亞家族,該基序被注釋為Basic helix-loophelix leucine zipper transcription factor;motif 4分布于Ⅱ、Ⅲ、Ⅳ、Ⅵ、Ⅶ和Ⅹ六個(gè)亞家族;motif 5特異分布于Ⅱ亞家族;motif 6特異分布于Ⅷ亞家族;motif 7分布于Ⅶ和Ⅷ兩個(gè)亞家族;motif 8特異分布于Ⅷ亞家族;motif 9特異分布于Ⅳ亞家族;motif 10特異分布于Ⅹ亞家族,motif 4-10在Inter Pro Scan中均被注釋為未知結(jié)構(gòu)。
基因家族各成員的基因結(jié)構(gòu)往往呈現(xiàn)多樣性,其中內(nèi)含子和外顯子的數(shù)量是基因家族進(jìn)化過程中的重要標(biāo)志,本研究根據(jù)生菜基因組信息獲取了每一個(gè)基因的CDS序列信息,并繪制了外顯子—內(nèi)含子基因結(jié)構(gòu)圖,結(jié)果顯示生菜bHLH基因家族內(nèi)含子數(shù)目變化差異較大,介于0~10之間,且內(nèi)含子的數(shù)量在不同的家族間差異較大。由圖5可知,生菜bHLH基因家族分為內(nèi)含子富集和內(nèi)含子缺失2類,其中XP_023753528.1、XP_023733363.1、XP_023736226.1、XP_023750890.1、XP_023742628.1、PLY63858.1、PLY992 56.1、XP_023753746.1、XP_023751742.1、PLY91151.1、PLY63479.1、 PLY77525.1、 XP_023737733.1、 XP_023748410.1、PLY66263.1無內(nèi)含子,PLY67254.1、XP_023746624.1、 XP_023736955.1、 XP_023737512.1、PLY62526.1、XP_023748593.1、XP_023735519.1、XP_023756084.1、XP_023750458.1、XP_023762189.1 僅 1個(gè)內(nèi)含子,以上成員均屬于內(nèi)含子缺失組;PLY86498.1、XP_023767110.1含10個(gè)內(nèi)含子(占比1.5%);XP_023754083.1、XP_023759112.1含9個(gè)內(nèi)含子(占比1.5%),PLY73746.1、PLY96464.1含8個(gè)內(nèi)含子(占比 1.5%),XP_023756964.1、XP_023748571.1、XP_023748493.1、 PLY67087.1、 PLY74352.1、 XP_023767039.1、 XP_023771981.1、 PLY62734.1、 XP_023736669.1、 XP_023746595.1、 XP_023751248.1、PLY79054.1含7個(gè)內(nèi)含子(占比8.9%),含6個(gè)內(nèi)含子的bHLH基因18個(gè)(占比13.3%),含5個(gè)內(nèi)含子的bHLH基因15個(gè)(占比13.3%),以上成員均屬內(nèi)含子富集組。其中含有2個(gè)內(nèi)含子的bHLH基因高達(dá)25個(gè),所占成員總數(shù)最多,占比18.5%。
圖5 生菜bHLH家族基因外顯子與內(nèi)含子基因結(jié)構(gòu)分布
植物bHLH蛋白參與抗逆、生長(zhǎng)發(fā)育、生物合成及信號(hào)傳導(dǎo)等生理生化過程[22-23]。目前已從一些植物如擬南芥[8]、水稻[9]、人參[24]、西瓜[25]、茶樹[26]、葡萄[27]、蘋果[28]等分別鑒定出162、167、169、96、120、110、188個(gè)bHLH蛋白,但生菜bHLH家族的研究鮮見報(bào)道。本研究基于生菜全基因組數(shù)據(jù),利用生物信息學(xué)的手段鑒定了生菜bHLH轉(zhuǎn)錄因子家族,并且對(duì)它們的理化性質(zhì)、保守結(jié)構(gòu)域、基因結(jié)構(gòu)和系統(tǒng)進(jìn)化和等情況進(jìn)行了詳細(xì)的分析。
通過驗(yàn)證,去除冗余,共鑒定到135個(gè)bHLH蛋白。這些bHLH蛋白的蛋白質(zhì)殘基介于162~685之間,它們的等電點(diǎn)分布在0.63~9.51之間,相對(duì)分子量在17843.82~75409.15之間;不穩(wěn)定指數(shù)分布在32.5~76.39之間。這135個(gè)蛋白包括100個(gè)細(xì)胞核蛋白,16個(gè)葉綠體蛋白,3個(gè)細(xì)胞質(zhì)蛋白,1個(gè)內(nèi)質(zhì)網(wǎng)蛋白,1個(gè)細(xì)胞膜蛋白,1個(gè)線粒體蛋白;其中僅有1個(gè)蛋白有跨膜結(jié)構(gòu)域。
生菜bHLH蛋白bHLH保守結(jié)構(gòu)域由兩部分組成,堿性氨基酸區(qū)和HLH區(qū)。堿性氨基酸區(qū)位于N端,HLH區(qū)位于C端[7,29-30]。堿性氨基酸區(qū)含有高度保守的His5-Glu9-Arg13序列,第10位和第12位的Arg也高度保守,而HLH區(qū)第23位和第55位的Leu高度保守,且保守位點(diǎn)與西瓜[25]、蓮[31]和芒果[32]bHLH蛋白的分析結(jié)果相似。135個(gè)生菜bHLH蛋白中的103個(gè)具有E-box的結(jié)合功能,59個(gè)具有結(jié)合G-box的結(jié)合功能,該結(jié)果與擬南芥(60.54%)和水稻(56.89%)[9]的分析結(jié)果相似。
聚類分析表明,135個(gè)bHLH蛋白被劃分為10個(gè)亞家族,共獲得10條保守基序。由圖可知,135個(gè)bHLH蛋白含有2~4個(gè)基序,相同家族的bHLH蛋白傾向于有相同的基序,不同的家族間bHLH蛋白基序數(shù)量和類型存在差異,推測(cè)正是由于這些特異motif的存在導(dǎo)致了bHLH家族基因功能的分化。外顯子—內(nèi)含子基因結(jié)構(gòu)圖,結(jié)果顯示生菜bHLH基因家族內(nèi)含子數(shù)目變化差異較大,介于0~10之間,且內(nèi)含子的數(shù)量在不同的家族間差異較大。
本研究在生菜全基因組中共鑒定出135個(gè)bHLH家族蛋白,共發(fā)掘出10條保守基序,其中基序motif 1和motif 2是生菜bHLH家族成員均包含的保守基序,為今后生菜bHLH家族蛋白的研究提供了基礎(chǔ)。但本研究?jī)H對(duì)生菜bHLH蛋白進(jìn)行了功能預(yù)測(cè),其具體功能還需進(jìn)一步驗(yàn)證。