呂亮杰,陳希勇,胡夢蕓,劉玉平,孫麗靜,馬 樂,李 輝
(河北省農(nóng)林科學(xué)院 糧油作物研究所,河北省作物遺傳育種實(shí)驗(yàn)室,河北 石家莊 050035)
SBP(Squamosa promoter binding protein)基因家族是植物所特有的一類重要轉(zhuǎn)錄因子,含有一段保守的核苷酸序列(SBP-box),編碼的蛋白質(zhì)序列(SBP-domain)含79個(gè)氨基酸殘基,并具有高度保守性,最初在金魚草(AntirrhinummajusL.)植物中發(fā)現(xiàn)[1]。SBP基因家族的蛋白具有鋅指結(jié)構(gòu),能識(shí)別并結(jié)合MAD-box基因SQUAM-OSA (SQUA)啟動(dòng)子,參與植物生長發(fā)育、抗逆以及多種生理生化過程。通過與啟動(dòng)子區(qū)域的順式元件相互作用,轉(zhuǎn)錄因子能夠激活或者抑制下游基因表達(dá)。1996年首次在金魚草中發(fā)現(xiàn)SBP基因[2],后續(xù)在玉米[3-4]、擬南芥[5-6]、大豆[7]、番茄[8]、水稻[9-10]、土豆[11]和葡萄[12]等植物物種中也發(fā)現(xiàn)該基因家族成員[13-14]。SBP作為綠色植物特有的轉(zhuǎn)錄因子,在植物花和果實(shí)的發(fā)育[11]、赤霉素介導(dǎo)的發(fā)育[15]以及銅應(yīng)答過程[16]的調(diào)控中發(fā)揮重要作用。Cardon等[17]在擬南芥的花和葉片中發(fā)現(xiàn),SBP基因(SPL3)高度表達(dá)。Gandikota等[18]發(fā)現(xiàn),SPL8基因參與擬南芥花粉發(fā)育的調(diào)控,SPL3、SPL4和SPL5中含有mi R156的調(diào)控位點(diǎn)。Moreno等[19]研究發(fā)現(xiàn),SBP轉(zhuǎn)錄因子Liguleless1(LG1)對(duì)玉米舌葉和葉耳的發(fā)育有較大影響,LG1基因的缺失導(dǎo)致不能形成舌葉和葉耳。L?nnenp??等[20]研究發(fā)現(xiàn),BpSPL1基因特異結(jié)合BpMADS5啟動(dòng)子參與白樺樹的花發(fā)育過程。曹雪等[21]發(fā)現(xiàn)葡萄的SBP基因(SPL9、SPL10)在不同組織的表達(dá)存在消長關(guān)系。Manning等[11]發(fā)現(xiàn)在番茄植株生發(fā)育長過程中SBP基因(LeSPL-CNR)是控制番茄果實(shí)成熟的關(guān)鍵基因。
隨著模式植物擬南芥、水稻、小麥等重要農(nóng)作物基因組數(shù)據(jù)的釋放,通過生物信息學(xué)方法剖析基因家族序列特征和進(jìn)化關(guān)系成為研究熱門[22-23]。小麥?zhǔn)俏覈匾募Z食作物之一,小麥的產(chǎn)量和品質(zhì)嚴(yán)重影響了我國小麥的發(fā)展。因此,研究小麥SBP家族對(duì)于研究小麥的生長發(fā)育具有重要意義。小麥基因組是由3個(gè)亞基因組整合在一起形成的異源六倍體(AABBDD),其基因組大小約為17 Gb,重復(fù)序列達(dá)85%。高質(zhì)量的小麥基因組序列已釋放(http://www.wheat genome.org/)[24],小麥A基因組供體烏拉爾圖小麥(Triticumurartu)和D基因組供體粗山羊草(Aegliopstauschii)的基因組測序工作也已由中國完成[25-27],這為篩選小麥生長發(fā)育基因及其進(jìn)化過程奠定了基礎(chǔ)。目前,小麥中還未見關(guān)于SBP基因家族生物信息學(xué)和表達(dá)譜分析的報(bào)道,因此,有必要利用最新公布的小麥基因組數(shù)據(jù)對(duì)SBP基因家族進(jìn)行系統(tǒng)研究分析。
本研究利用最新的小麥基因組數(shù)據(jù)通過生物信息學(xué)方法對(duì)小麥SBP基因進(jìn)行篩選,并對(duì)其基因結(jié)構(gòu)、蛋白結(jié)構(gòu)、染色體分布、分子進(jìn)化、串聯(lián)重復(fù)片段及表達(dá)譜進(jìn)行分析,旨在為進(jìn)一步探討小麥SBP基因的功能奠定基礎(chǔ),為利用分子生物學(xué)技術(shù)改良小麥性狀提供理論依據(jù)。
從EnsemblPlants數(shù)據(jù)庫(http://plants.ensembl.org/index.html/)下載小麥的基因組序列、基因注釋和蛋白序列文件,利用NCBI(National center for biotechnology information) (https://www.ncbi.nlm.nih.gov/) Blast已報(bào)道的SBP蛋白序列并與Pfam數(shù)據(jù)庫(http://pfam.xfam.org/)進(jìn)行比對(duì)(e-value<1e-5),獲得SBP基因家族的Pfam ID及其序列。搜索小麥SBP基因家族的同源蛋白,刪除重復(fù)序列,利用在線軟件Pfam(http://www.sanger.ac.uk/Software/Pfam/search.shtml)進(jìn)行保守結(jié)構(gòu)域分析驗(yàn)證[28],剔除冗余蛋白。將SBP基因家族成員按照染色體順序編號(hào)命名并映射到不同染色體上,將散在的非染色體序列合并為U染色體。同時(shí)Blast各物種的蛋白序列與相應(yīng)基因家族Pfam進(jìn)行比對(duì),得到每個(gè)物種SBP基因家族序列和蛋白序列。借助ProtParam(https://web.expasy.org/protparam/)對(duì)SBP基因家族蛋白進(jìn)行分子量、等電點(diǎn)、氨基酸信息預(yù)測[29]。
根據(jù)EnsemblPlants數(shù)據(jù)庫中的DNA數(shù)據(jù)庫檢索小麥SBP基因的內(nèi)含子、外顯子、染色體位置等信息,利用GSDS 2. 0(Gene Structure Display Server)(http://gsds. cbi.pku.edu.cn /)在線繪制SBP基因的內(nèi)含子和外顯子組成及基因家族進(jìn)化樹[30]。利用Inparanoid分析小麥的同源蛋白(Orthologous groups,OG),使用circos基于基因注釋信息對(duì)OG關(guān)系進(jìn)行作圖,刪除OG聚類過程中沒有同源關(guān)系的基因,使得同源基因在圖片中顯示。
從EnsemblPlants數(shù)據(jù)庫下載大麥(Hordeumvulgare)、擬南芥(Arabidopsisthaliana)、二穗短柄草(Brachypodiumdistachyum)、水稻(Oryzasativa)、玉米(Zeamays)、高粱(Sorghumbicolor)基因組和蛋白序列數(shù)據(jù);利用 MUSCLE對(duì)小麥、大麥、短柄草、水稻、玉米、高粱、擬南芥SBP蛋白序列進(jìn)行多重比對(duì),將結(jié)果輸入MEGA 7.0[31],采用鄰接法(Neighbor-joining,NJ)分別構(gòu)建小麥SBP基因家族進(jìn)化樹及小麥、大麥、短柄草、水稻、玉米、高粱、擬南芥的系統(tǒng)進(jìn)化樹,其中,校驗(yàn)參數(shù)(Bootstrap)設(shè)置為1 000,其余均為默認(rèn)值[22]。借助FigTree繪制小麥SBP基因家族進(jìn)化樹及小麥、大麥、短柄草、水稻、玉米、高粱、擬南芥的系統(tǒng)進(jìn)化樹。
基于The MEME suite的在線工具M(jìn)EME(http://meme-suite.org/tools/meme)對(duì)小麥SBP基因家族的 motif序列進(jìn)行分析;小麥的SBP基因家族的蛋白質(zhì)空間模型利用在線軟件ExPaSy提供的SWISS-MODEL(https://swissmodel.expasy.org/interactive)進(jìn)行三維結(jié)構(gòu)同源建模。
利用已公布的小麥RNA-seq數(shù)據(jù),檢索小麥SBP基因的表達(dá)譜(http://www.plexdb.org/modules/tools/plexdb_blast.php)。數(shù)據(jù)庫中提供了Chinese Spring的13個(gè)不同組織器官的表達(dá)數(shù)據(jù),包括胚芽鞘、胚芽根、胚乳、根、花冠、葉、幼穗、花苞、雌蕊、花藥、3~5 DAP穎果、22 DAP胚、22 DAP胚乳,F(xiàn)PKM(Fragments Per Kilobase of transcript per Millionmapped reads)值作為SBP基因的表達(dá)譜數(shù)據(jù),用Heatmapper構(gòu)建基因表達(dá)熱圖(http://www.heatmapper.ca/)。
經(jīng)EMBL-EBI確認(rèn),SBP基因家族的Pfam號(hào)為PF03110,利用HMM程序搜索得到小麥的SBP基因家族,結(jié)合已報(bào)道的水稻SBP基因、擬南芥SBP基因和葡萄SBP基因序列在Ensembl Plants數(shù)據(jù)庫中進(jìn)行BlastP比對(duì),得到71個(gè)小麥候選SBP基因;利用Pfam(http: //www.ranger.ac.uk/Soft-ware/Pfam/search.shtml)分析比對(duì)的蛋白質(zhì)序列保守結(jié)構(gòu)域,剔除非典型SBP結(jié)構(gòu)域的冗余蛋白后,獲得50個(gè)家族成員,按照染色體順序分別命名為TaSBP1~TaSBP50(表1)。對(duì)50個(gè)TaSBP基因綜合分析發(fā)現(xiàn),這50個(gè)小麥SBP基因分布于除4B、4D染色體外的其余19條染色體上,7D、7A、7B上含有的基因數(shù)目最多,分別為8,7,5個(gè),其次為6A、6B、6D和2D,均為3個(gè),1A、3A、4A、5A、1B、3B、1D和3D上含有的SBP基因數(shù)目最少,僅有1個(gè)。序列分析顯示,50個(gè)TaSBP基因編碼長度為192~1 104個(gè)氨基酸的蛋白質(zhì),其中TaSBP26所含氨基酸數(shù)目最多(1 104個(gè)),而TaSBP2和TaSBP18最少(192個(gè));蛋白質(zhì)的相對(duì)分子質(zhì)量為20 117.43~120 626.35 ku,TaSBP26的相對(duì)分子質(zhì)量最大(120 626.35 ku),而TaSBP32最小(20 117.43 ku);等電點(diǎn)為5.73~9.87,TaSBP5預(yù)測的等電點(diǎn)最低(5.73),而TaSBP2和TaSBP18的等電點(diǎn)最高(9.87)(表1)。
片段復(fù)制和串聯(lián)重復(fù)是家族基因擴(kuò)張的主要模式,為了分析小麥SBP家族基因與祖先材料的同源進(jìn)化關(guān)系,采用生物信息學(xué)方法將SBP基因定位到不同染色體,并對(duì)串聯(lián)重復(fù)片段進(jìn)行分析,具有同源關(guān)系的基因進(jìn)行相關(guān)的連線說明(圖1)。從同源關(guān)系來看,TaSBP1、TaSBP2、TaSBP7、TaSBP8等26個(gè)基因具有同源關(guān)系,而TaSBP3、TaSBP4、TaSBP16、TaSBP19等基因與其他染色體上的基因沒有同源對(duì)應(yīng)關(guān)系。7A染色體上的TaSBP12、TaSBP14基因與7B染色體上的TaSBP27、TaSBP28基因和7D染色體上的TaSBP41、TaSBP42基因串聯(lián)重復(fù),說明這6個(gè)基因具有一定的同源關(guān)系。1A染色體的TaSBP1、2A染色體的TaSBP2和6A染色體的TaSBP9僅有一個(gè)串聯(lián)重復(fù),分別對(duì)應(yīng)1B染色體的TaSBP17、2B染色體的TaSBP18和6B的染色體的TaSBP23,說明這3類SBP基因分別在D基因組沒有拷貝。
表1 50個(gè)小麥TaSBP基因的基本信息Tab.1 The basic information of 50 wheat TaSBP genes
表1(續(xù))
圖1 小麥TaSBP基因同源進(jìn)化分析Fig.1 Homologous evolution analysis of TaSBP genes in wheat
利用本研究中小麥TaSBP全長蛋白序列構(gòu)建小麥系統(tǒng)進(jìn)化樹,結(jié)果顯示(圖2),在50個(gè)編碼小麥TaSBP蛋白的基因中檢測到了11個(gè)旁系同源基因?qū)?,即TaSBP30和TaSBP47、TaSBP15和TaSBP49、TaSBP27和TaSBP43、TaSBP7和TaSBP25、TaSBP40和TaSBP24、TaSBP11和TaSBP28、TaSBP37和TaSBP5、TaSBP26和TaSBP44、TaSBP20和TaSBP4、TaSBP36和TaSBP6、TaSBP12和TaSBP29?;蚪Y(jié)構(gòu)分析表明,小麥50個(gè)SBP基因外顯子數(shù)量變化從2個(gè)(TaSBP2、TaSBP18、TaSBP32)到11個(gè)(TaSBP5、TaSBP11、TaSBP26、TaSBP28、TaSBP37、TaSBP42),小麥TaSBP基因家族蛋白進(jìn)化樹顯示,同一類之間的結(jié)構(gòu)較為相似??傮w來看,SBP基因家族結(jié)構(gòu)較為簡單,多數(shù)還有2~3個(gè)外顯子,這些基因可能產(chǎn)生或分化的時(shí)間較晚,推測其功能相對(duì)專一。具有相似外顯子和內(nèi)含子的結(jié)構(gòu),在蛋白進(jìn)化樹上也具有很高的同源性,表明親緣關(guān)系近的基因在進(jìn)化過程中其外顯子、內(nèi)含子具有一定的相似性。小麥(50個(gè))、大麥(16個(gè))、短柄草(18)、玉米(102個(gè))、水稻(18個(gè))、高粱(39個(gè))及擬南芥(17個(gè)) SBP基因的系統(tǒng)進(jìn)化樹分析表明,來自7種作物的260個(gè)SBP基因分為4個(gè)類別(圖3),而本研究中得到的50個(gè)小麥TaSBP基因可以歸于3個(gè)類別(圖2)。
圖2 小麥TaSBP基因家族的蛋白系統(tǒng)進(jìn)化樹和基因結(jié)構(gòu)Fig.2 Phylogenetic tree and gene structures of wheat TaSBP genes family
圖3 小麥與其他物種SBP基因的系統(tǒng)進(jìn)化樹Fig.3 The phylogenetic analysis of SBP genes in wheat and other species
模體(motif)是蛋白質(zhì)分子結(jié)構(gòu)中介于二級(jí)結(jié)構(gòu)與三級(jí)結(jié)構(gòu)之間的結(jié)構(gòu)層次,又稱超二級(jí)結(jié)構(gòu),是蛋白質(zhì)分子具有特定功能或作為獨(dú)立結(jié)構(gòu)域一部分的二級(jí)結(jié)構(gòu)聚合體?;蚣易逅械幕蛘叽蠖鄶?shù)成員共有的motif極可能是該家族執(zhí)行重要功能或組成結(jié)構(gòu)不可缺少的部分,如一些具有序列特異性的蛋白的結(jié)合位點(diǎn)(轉(zhuǎn)錄因子)或者是涉及重要生物過程的RNA起始、終止、剪切等。識(shí)別基因家族共同的motif就能刻畫該基因家族的特征,從而可以利用這些特征來進(jìn)行發(fā)掘基因家族新成員,所以,motif的識(shí)別對(duì)基因家族尤為重要。本研究中,小麥50個(gè)TaSBP基因家族含有10個(gè)motif,其中,TaSBP30、TaSBP13、TaSBP45等10個(gè)基因含有最多的motif結(jié)構(gòu)(9個(gè)),其次,TaSBP39、TaSBP9、TaSBP23分別含有7,6,6個(gè)motif,最少的27個(gè)TaSBP基因都含有3個(gè)motif;50個(gè)TaSBP都含有motif1、motif2、motif4模型,僅TaSBP11、TaSBP37、TaSBP1等11個(gè)基因含有motif5,僅TaSBP30、TaSBP39、TaSBP13等11個(gè)基因含有motif7和motif9,且motif7和motif9大多數(shù)都是一起出現(xiàn)(圖4)。分析結(jié)果說明,TaSBP基因家族應(yīng)都含有motif1、motif2、motif4,TaSBP30、TaSBP13、TaSBP45、TaSBP39、TaSBP9、TaSBP23是TaSBP基因家族具有特異性功能的基因。這個(gè)預(yù)測有助于發(fā)現(xiàn)TaSBP基因家族的新成員。
本研究通過對(duì)小麥50個(gè)TaSBP基因家族的氨基酸序列進(jìn)行三維結(jié)構(gòu)同源建模,利用Swiss-Model分析顯示,50個(gè)TaSBP氨基酸序列的三級(jí)結(jié)構(gòu)相似性較高。從中選取4條最具代表性的序列(TaSBP5、TaSBP12、TaSBP15、TaSBP31)進(jìn)行同源三級(jí)結(jié)構(gòu)建模(圖5)。這4種序列都至少含有1個(gè)α-螺旋和2個(gè)β-折疊,但其三級(jí)結(jié)構(gòu)不完全相同,TaSBP12、TaSBP15都含有2個(gè)α-螺旋和3個(gè)β-折疊,TaSBP31含有1個(gè)α-螺旋和3個(gè)β-折疊,而TaSBP5含有9個(gè)α-螺旋和2個(gè)β-折疊。這些α-螺旋、β-折疊的長度不同及無規(guī)則卷曲不同可能導(dǎo)致它們功能上相似或不同。
圖4 小麥TaSBP基因家族的motif分析Fig.4 motif analysis of the wheat TaSBP genes family
A.TaSBP12;B.TaSBP15;C.TaSBP31;D.TaSBP5.
小麥品種Chinese Spring 13個(gè)組織器官的RNA-seq數(shù)據(jù)分析結(jié)果顯示,50個(gè)TaSBP基因都在13個(gè)組織器官中檢測到了轉(zhuǎn)錄本。如圖6所示,TaSBP8、TaSBP31、TaSBP1、TaSBP26、TaSBP17、TaSBP44在13個(gè)組織器官中均具有較高的表達(dá)量,TaSBP30、TaSBP45、TaSBP38、TaSBP47、TaSBP49在13個(gè)組織器官中均具有較低的表達(dá)量;TaSBP19、TaSBP43、TaSBP32等42個(gè)基因在幼穗和花苞均具有最高的表達(dá)量,這與Manning等[11]研究的SBP基因(LeSPL-CNR)是控制番茄果實(shí)成熟的結(jié)果基本一致。除TaSBP5、TaSBP21、TaSBP24、TaSBP37、TaSBP40在花藥中表達(dá)較低外,其他45個(gè)基因均具有較高的表達(dá)量,這與Schmid等[32]研究擬南芥SBP基因(SPL8)參與花粉發(fā)育的調(diào)控的結(jié)果基本一致,說明小麥的TaSBP基因可能與小麥的籽粒發(fā)育相關(guān);TaSBP19、TaSBP43、TaSBP32等31個(gè)基因在22 DAP胚乳中均具有較低的表達(dá)量,說明小麥的TaSBP基因可能在小麥籽粒成熟后期表達(dá)量較低;TaSBP9、TaSBP14、TaSBP29等45個(gè)TaSBP基因在葉中的表達(dá)均不低,這與Moreno等[19]研究的SBP轉(zhuǎn)錄因子LG1能夠影響玉米舌葉和葉耳的發(fā)育結(jié)果基本一致。
1.胚芽鞘;2.胚芽根;3.胚乳;4.根;5.花冠;6.葉;7.幼穗;8.花苞;9.雌蕊;10.花藥;11.3~5 DAP穎果;12.22 DAP胚;13.22 DAP胚乳。1.Coleoptile; 2.Seed root; 3.Embryo; 4.Root; 5.Crown; 6.Leaf; 7.Immature inflorescence; 8.Floral bracts; 9.Pistil; 10.Anthers; 11.3-5 DAP caryopsis; 12.22 DAP embryo; 13.22 DAP endosperm.
高等植物中存在數(shù)千種轉(zhuǎn)錄因子,其中部分已被證明與生長發(fā)育[33]、抗逆性相關(guān),調(diào)控高鹽、低溫、干旱、激素及發(fā)育相關(guān)的轉(zhuǎn)錄因子相繼被克隆[34],這些轉(zhuǎn)錄因子增加植物的逆境抵抗力和適應(yīng)力,調(diào)控果實(shí)生長發(fā)育。小麥SBP基因家族的研究起步較晚,但對(duì)其功能的研究受到廣泛重視。目前,SBP基因家族在模式植物擬南芥中的研究較為深入,同時(shí)構(gòu)建了擬南芥轉(zhuǎn)錄因子數(shù)據(jù)庫(DATF),為小麥轉(zhuǎn)錄因子的研究提供了很多經(jīng)驗(yàn)和信息資源。從小麥最新數(shù)據(jù)庫中篩選SBP轉(zhuǎn)錄因子相應(yīng)的蛋白序列,結(jié)合生物信息學(xué)網(wǎng)站和分析軟件,對(duì)小麥SBP家族基因結(jié)構(gòu)、染色體定位和系統(tǒng)進(jìn)化樹等進(jìn)行分析,得到小麥SBP基因家族不同成員之間的相互關(guān)系和演化歷程。
利用NCBI Blast已報(bào)道的SBP蛋白序列并與Pfam數(shù)據(jù)庫進(jìn)行比對(duì),獲得SBP基因家族的Pfam ID及其序列。搜索小麥SBP基因家族的同源蛋白,刪除重復(fù)序列,利用在線軟件Pfam進(jìn)行保守結(jié)構(gòu)域分析驗(yàn)證,剔除冗余蛋白,最終在擬南芥、玉米和高粱中分別得到 17,102,39個(gè)SBP 基因。前人研究發(fā)現(xiàn),擬南芥、高粱[35]和玉米[3]中分別有 16,18,42 個(gè)SBP基因。二者比較顯示,本研究鑒定的 SBP 基因較多,原因是本研究采用最新的基因組數(shù)據(jù)庫,進(jìn)行全基因組多序列比對(duì)和隱馬爾科夫模型查找。與擬南芥、大麥和水稻中的SBP基因相比,小麥中含有更多SBP基因,說明小麥SBP基因家族可能經(jīng)歷丟失、擴(kuò)張以及進(jìn)化導(dǎo)致基因家族成員增加。系統(tǒng)進(jìn)化分析表明,小麥與擬南芥SBP基因間具有較高的保守性,同一類之間的結(jié)構(gòu)較為相似,不同類間氨基酸組成和蛋白結(jié)構(gòu)的區(qū)別可能導(dǎo)致SBP基因家族成員功能上的差異。在小麥基因組中存在 11對(duì)SBP旁系同源基因,并對(duì)具有代表性的SBP蛋白進(jìn)行三維結(jié)構(gòu)建模,這可為小麥全基因組加倍事件提供有利證據(jù)。本研究通過生物信息學(xué)的方法對(duì)小麥SBP基因家族進(jìn)行分析,預(yù)測基因的結(jié)構(gòu)與功能,并進(jìn)行了相關(guān)的同源進(jìn)化分析,這為SBP基因在小麥生長發(fā)育過程中基因的挖掘和利用提供了理論與試驗(yàn)依據(jù),為下一步研究小麥SBP轉(zhuǎn)錄因子的生物學(xué)功能提供參考。