劉汝瑩,王 冕,韓守萍,陳 娜,潘麗娟,陳明娜,許 靜,遲曉元*,王 通*
(1.山東省花生研究所/農(nóng)業(yè)部花生生物學(xué)與遺傳育種重點(diǎn)實(shí)驗(yàn)室,山東 青島266100;2.中南林業(yè)科技大學(xué)食品科學(xué)與工程學(xué)院,湖南 長沙410004;3.青島市黃島區(qū)農(nóng)業(yè)農(nóng)村局,山東 青島266400)
萌發(fā)素(germins)是從小麥和大麥萌發(fā)胚中鑒定出的一類具有草酸氧化酶(oxalate oxidase,OXO)活性的植物早期發(fā)育標(biāo)記蛋白[1],特異存在于單子葉植物中[2],氨基酸序列同源性在90%以上。而類萌發(fā)素(germin-like proteins,GLPs)是一類與germin同源性在30%~70%之間的多家族糖基化蛋白,廣泛存在于各類陸生植物,包括裸子植物和苔蘚中[3]。盡管GLPs與germins的保守結(jié)構(gòu)域特性高度相似,但GLPs均無OXO活性[4-5]。GLPs的平均氨基酸長度約220 aa,分子量平均約23.0k Da。GLPs的多聚體結(jié)構(gòu)可顯著增強(qiáng)其對(duì)蛋白酶、高溫、SDS和p H等變性劑的穩(wěn)定性[4]。
根據(jù)序列進(jìn)化關(guān)系,GLPs可分為6個(gè)亞家族,各亞家族均表現(xiàn)出一致的酶活性特性[6],其中真germin亞家族均具有OXO活性,其主要參與植物組織發(fā)育和植物的不同生理過程(如木質(zhì)化、感知環(huán)境、體細(xì)胞與合子胚胎發(fā)生等)的調(diào)節(jié)[4,7]。 其他GLPs主要以酶、結(jié)構(gòu)蛋白質(zhì)和受體的形式存在于植物體內(nèi),參與調(diào)控植物的逆境脅迫(干旱、鹽害和重金屬等)反應(yīng)[8-10],并提高植物的廣譜性防衛(wèi)反應(yīng)[3-4,6]。大量研究表明,GLPs主要通過OXO、SOD和H2O2活性促發(fā)氧化反應(yīng)進(jìn)而引起植物對(duì)生物和非生物脅迫的防衛(wèi)作用。
對(duì)NCBI數(shù)據(jù)庫中GLPs基因序列統(tǒng)計(jì)發(fā)現(xiàn),60多個(gè)雙子葉植物和近10個(gè)單子葉植物已有相關(guān)序列報(bào)道,其中GLPs基因序列較多的植物主要有雙子葉植物擬南芥118個(gè)[11]、大豆55個(gè)[12]、苜蓿44個(gè)[13]、向日葵54個(gè)[14],單子葉植物水稻152個(gè)[15]、大麥47個(gè)[5]、小麥27個(gè)[1]、玉米18個(gè)[16]。而花生中僅有11個(gè)GLPs家族基因已有報(bào)道,顯著低于同為蝶形花科的大豆中GLP數(shù)量。這些花生GLPs基因均是通過轉(zhuǎn)錄組測(cè)序和同源克隆獲得基因序列[17-18]。雖然各植物種間GLP家族基因數(shù)量不盡相同,由于前期實(shí)驗(yàn)設(shè)計(jì)和技術(shù)的局限性,已報(bào)道的花生GLPs家族基因數(shù)量存在一定差異,使得全面研究花生GLPs家族基因的功能進(jìn)展緩慢,因此有必要對(duì)其進(jìn)行重新鑒定和分析。
現(xiàn)代生物信息學(xué)分析技術(shù)的不斷成熟和花生全基因組測(cè)序的完成[19-20]將加快從全基因組水平認(rèn)知花生基因的生物學(xué)功能、解析其復(fù)雜生物學(xué)現(xiàn)象,改變花生分子生物學(xué)研究相對(duì)滯后的局面。本研究在全基因組水平上對(duì)花生GLP基因進(jìn)行全基因組挖掘和分析,全面、系統(tǒng)地解析花生GLP家族基因的基本信息、保守域結(jié)構(gòu)、進(jìn)化關(guān)系、基因結(jié)構(gòu)、染色體定位和組織時(shí)空表達(dá)分析等信息,為花生GLP基因的克隆和功能解析提供一定的理論、信息基礎(chǔ)。
利用已報(bào)道的栽培種花生和其他植物中的GLP蛋白質(zhì)序列[17,21],通過BLASTP分別對(duì)Arachis duranensis的AA基因組和Arachis ipaensis的BB基因組(http://www.peanutbase.org/)進(jìn)行同源搜索。然后,利用SMART(http://smart.embl-heidelberg.de/)檢測(cè)候選蛋白質(zhì)序列,剔除不含cupin基序的蛋白序列,最后得到野生種花生中編碼GLP蛋白的基因序列。利用在線工具GSDS(http://gsds.cbi.pku.edu.cn/index.php)分析目的基因的內(nèi)含子、外顯子等結(jié)構(gòu)信息。通過MEME(http://meme-suite.org/tools/meme)等工具對(duì)已報(bào)道和候選花生GLP成員進(jìn)行氨基酸序列結(jié)構(gòu)分析,MEME的參數(shù)設(shè)置fd為:①基序重復(fù)的數(shù)量為“any”;②基序的長度為6~200;③預(yù)測(cè)基序的數(shù)量為20。
用在線工具Protparam(https://web.expasy.org/protparam/)對(duì)野生種花生GLPs蛋白質(zhì)序列進(jìn)行等電點(diǎn)和分子量預(yù)測(cè)。用ProtComp(http://www.softberry.com/berry.phtml?topic=protcomppl&group=programs&subgroup=proloc)對(duì)GLPs蛋白質(zhì)進(jìn)行亞細(xì)胞定位預(yù)測(cè)分析,用SignaIP分析GLPs蛋白質(zhì)是否具有信號(hào)肽序列。
利用MEGA7(http://www.megasoftware.net)軟件對(duì)花生GLP家族成員的蛋白質(zhì)序列進(jìn)行多重比對(duì),采用鄰接法(Neighbor-Joining,NJ)構(gòu)建同系進(jìn)化樹,執(zhí)行參數(shù)Poission correction、pairwise deletion和bootstrap,重復(fù)1000次,其他參數(shù)為默認(rèn)。
在花生基因組數(shù)據(jù)庫(https://www.peanutbase.org)中下載花生GLP家族各基因在染色體組中的位置信息,用chromPlot(R語言包)軟件生成每個(gè)花生GLP基序基因在染色體組上的位置,得到各GLP基序基因在基因組中的分布狀況圖。
根據(jù)PeanutBase數(shù)據(jù)庫Gene Expression Resources Available for Peanut中公布的野生種花生轉(zhuǎn)錄組數(shù)據(jù),利用其pfkm(Reads of kilobase per million mapped)值[22]分析野生種花生GLPs家族基因的組織表達(dá)情況,以pfkm值大于2為篩選閾值,使用heatmap2(R3.5.1軟件包)對(duì)GLP基序基因在花生不同組織器官的表達(dá)模式聚類,并繪制熱圖。
表1 花生中GLP基因家族基本信息Table 1 The information of GLP family genes in peanut
利用已知GLP典型保守序列,通過同源搜索和生物信息學(xué)分析,從野生種花生的AA和BB基因組中分別鑒定出22條和16條GLP家族基因序列(圖1,表1)。對(duì)花生GLP家族基因的氨基酸編碼區(qū)、分子量及等電點(diǎn)等生化屬性分析表明,花生GLP家族基因編碼的氨基酸長度在184氨基酸(HF645、VA8CB和RTN15)至512氨基酸(KQ845)之間,分子量在18.07 kD(QIV9F)至55.78 kD(F3HB9)之間,等電點(diǎn)范圍從4.66(F1HJA)到10.06(WB5CY)(表1),其中有4個(gè)GLP成員(013F5、UNX5Q、J6PP8和F3HB9)的N-端第一個(gè)氨基酸不是Met。
通過SignaIP對(duì)野生種花生38個(gè)GLPs蛋白分別進(jìn)行N-端信號(hào)肽序列分析,僅24個(gè)GLP家族成員的N-端有信號(hào)肽序列。利用ProtComp進(jìn)行亞細(xì)胞定位分析發(fā)現(xiàn),GLP家族成員均定位在Extracellular(細(xì)胞外基質(zhì)),推測(cè)野生種花生GLP蛋白質(zhì)N-端均有幫助蛋白質(zhì)跨膜的信號(hào)肽(表1)。
如圖1所示,38條花生野生種GLP家族基因分布在17個(gè)染色體上,呈不均勻分布,且大多位于染色體的兩端。其中染色體A06上分布最多,為9個(gè)基因,其次是染色體B06有6個(gè)基因,這兩個(gè)染色體上的GLP基因大部分屬于Subfamly I,呈現(xiàn)基因簇分布。A01含有4個(gè)GLP基因,A02、A08、B03、B08和 B10各含有2個(gè)GLP基因,染色體 A03、A04、A05、A09、A10、B01、B02、B04和B10各含有1個(gè)GLP基因。而染色體B05、A07和B07上無GLP基因分布。
利用鑒定的38個(gè)野生種GLP基因序列,結(jié)合已報(bào)道的栽培種花生和其他模式植物GLP家族基因序列構(gòu)建系統(tǒng)進(jìn)化樹。結(jié)果表明,野生種花生中該家族基因分為3個(gè)亞家族:Subfamily I、Subfamily II和Gymosperm subfamily,分別含有20、10和8個(gè)成員。這與栽培種花生GLP基因主要分布于Subfamily1、2、3和 Gymosperm subfamily亞家族的特點(diǎn)不同(圖2和圖3A)。
利用MEME在線軟件分析野生種花生38個(gè)GLP蛋白保守基序(Motif),預(yù)測(cè)出5個(gè)保守基序(圖2B)。其中motif 1存在于所有基因中,屬GLP家族典型保守結(jié)構(gòu)域。36個(gè)基因含有motif 2,33個(gè)基因含有motif 3,28個(gè)基因含有motif 4,27個(gè)基因含有motif 5。在Subfamily I和II中,3SF2D無motif 5,F1HJA和MA69I無motif 4和motif 5,而其余27個(gè)GLP基因均含有一致的motif數(shù)量和順序。然而Gymosperm subfamily的8個(gè)基因中,B1NGL、Q61XZ和QK4SE只含有mitif 1、motif 2和motif 3,且motif順序與野生花生其他GLP基因不同;RTN15、HF645和VA 8C8只含有motif 1和motif 2;QIV9F和19KPD僅含有motif 1。
圖1 花生GLP家族基因在野生種花生AA(a)和BB(b)染色體上的定位情況Fig.1 Distribution of peanut GLP family genes on chromosome AA(a)and BB(b)
圖2 花生GLP家族基因蛋白保守區(qū)分析Fig.2 The conserved motif logo statistic of 52 peanut GLPs
圖3 花生GLP基因家族進(jìn)化樹和基因結(jié)構(gòu)Fig.3 The phylogenetic tree and gene structures of peanut GLP gene family
圖3C顯示,Subfamily I中各成員外顯子/內(nèi)含子結(jié)構(gòu)較為相似,除KQ845有2個(gè)內(nèi)含子,其余成員僅有1個(gè)內(nèi)含子,所有內(nèi)含子長度均小于1 kb。Subfamily II各基因的內(nèi)含子數(shù)量差異最大,其中R9ZWQ無內(nèi)含子,F3HB9有5個(gè)內(nèi)含子,79I5D的內(nèi)含子最長(約3.5 kb)。Gymosperm subfamily各基因的內(nèi)含子長度差異最大,RTN15、HF645、VA8CB和19KPD無內(nèi)含子,QIV9F有1個(gè)內(nèi)含子,B1NGL、Q61XZ和QK4SE有2個(gè)內(nèi)含子,且內(nèi)含子較長,其中QK4SE的內(nèi)含子最長(達(dá)6.3 kb)。
綜上,推測(cè)基因內(nèi)含子—外顯子結(jié)構(gòu)關(guān)系以及蛋白質(zhì)保守基序的數(shù)量、排列等在花生GLP家族的系統(tǒng)進(jìn)化中起到重要作用。
對(duì)不同組織中GLP家族基因的時(shí)空表達(dá)進(jìn)行分析,結(jié)果顯示,僅8個(gè)基因在22個(gè)組織中呈現(xiàn)差異表達(dá)模式,其中6個(gè)基因?qū)儆趕ubfamily I,2個(gè)基因(79I5D和J6PP8)屬于subfamily II。subfamily I中的0HB4B和WB5CY有相似的表達(dá)模式,僅在Vegetative Shoot Tip(營養(yǎng)莖尖)、Reproductive Shoot Tip(生殖莖尖)和Roots(根)中有相對(duì)較高的表達(dá)。subfamily I中B0Q1D、UJ97I、K66PA和W274M呈現(xiàn)較一致的表達(dá)模式,其在Roots(根)、Nodule Roots(結(jié)瘤根)、Stamens(雌蕊)、AerialGyn-Tip(懸空果針尖)、SubGyn Tip(入土果針尖)、PodPt1(果 1)、StalkPt1(莖1)、PodPt3(果 3)和PericarpPt5(果皮5)中有較高表達(dá)。subfamily II中的79I5D和J6PP8主要在Roots(根)、AerialGyn Tip(懸空果針尖)、SubGyn Tip(入土果針尖)、PodPt3(果3)、PericarpPt5(果皮5)和Pericarp_Pattee6(果皮6)中有較高表達(dá)。而野生種其他GLP基因在22個(gè)組織中無表達(dá)(圖4)。
圖4 花生GLP家族基因的組織表達(dá)模式Fig.4 Tissues expression profiles of peanut GLP family genes
大量研究表明,GLP基因家族參與調(diào)控植物的多重生理過程,模式植物擬南芥、大豆、小麥和水稻GLP家族基因的相關(guān)特征和生物學(xué)功能已得到廣泛的挖掘和鑒定[17,21]。隨著一些植物基因組測(cè)序的完成,已經(jīng)在70多種植物中鑒定出GLP基因家族。本研究利用花生全基因組鑒定出38個(gè)野生種花生GLP基因,其數(shù)量接近大豆的GLP數(shù),明顯多于前期通過同源克隆和轉(zhuǎn)錄組測(cè)序鑒定得到的8個(gè)GLP基因數(shù)[17]。除少數(shù)花生GLP基因序列不完整導(dǎo)致個(gè)別基因結(jié)構(gòu)域缺失,總體上花生GLP家族基因核心結(jié)構(gòu)域是高度保守的。根據(jù)系統(tǒng)進(jìn)化分析,38個(gè)花生GLPs分為subfamily I、subfamily II和Gymosperm subfamily等3個(gè)亞類,這與已報(bào)道的大豆、擬南芥、苜蓿、茶樹和向日葵等雙子葉植物GLP分類關(guān)系一致[21],與單子葉植物中GLP家族的3~5個(gè)亞家族分類關(guān)系存在較大差異[2,10]。說明花生GLP家族與其他雙子葉植物一樣具有相同的進(jìn)化模式和特點(diǎn)。然而,栽培種花生GLP家族基因的3個(gè)亞家族分別是subfamily I、II和III,無Gymosperm subfamily,這與野生種花生GLP明顯不同,推測(cè)野生種和栽培種花生間GLP家族在系統(tǒng)進(jìn)化過程中出現(xiàn)分離。
在基因的系統(tǒng)進(jìn)化中,同一亞家族中各基因的保守性基序、內(nèi)含子、外顯子等的結(jié)構(gòu)和順序都相似,因此這些基因可能也具有類似的功能活性[23]。本研究中,處在相同亞家族的花生GLP基因大部分具有相似的內(nèi)含子—外顯子結(jié)構(gòu),其中subfamily II的內(nèi)含子數(shù)量差異最顯著,最多可達(dá)5個(gè)內(nèi)含子,Gymosperm subfamily的內(nèi)含子長度差異最大,而subfamily I各成員的內(nèi)含子在數(shù)量和長度上無明顯差異(圖3)。這是首次發(fā)現(xiàn)花生GLP基因家族成員編碼的GLP外顯子呈現(xiàn)此規(guī)律,對(duì)于研究花生及其他植物中GLP基因家族進(jìn)化過程提供了重要信息。
基因復(fù)制包括串聯(lián)復(fù)制、片段復(fù)制和全基因組復(fù)制等形式,其在基因組擴(kuò)張基因功能多樣化和基因家族成員的增加等過程中都起到重要作用[24]。比如蘋果WRKY基因家族[23]、大豆Abhydrolase3基因家族[25]以及中苜蓿SBP-box基因家族[23]等,均在基因組進(jìn)化過程中通過基因復(fù)制來增加家族基因數(shù)量。通過對(duì)花生GLPs家族基因的染色體定位分析表明(圖3),在A01/06/08和B06/08中可能分別發(fā)生過串聯(lián)復(fù)制和片段復(fù)制事件,從而增加subfamily I和Gymosperm
subfamily的成員,并在A06、B06、A09和B09上形成基因簇,而花生其他A/B染色體上的GLP高度同源基因可能主要通過片段復(fù)制產(chǎn)生。
以往對(duì)栽培種花生8個(gè)GLP基因組織表達(dá)研究表明[17-18],其表達(dá)模式與本研究中野生種花生GLP的表達(dá)結(jié)果不同,栽培種花生GLP基因在根中均有較高表達(dá),而野生種GLP在不同組織中具有顯著差異表達(dá)的基因僅有8個(gè)(圖4),在根部表達(dá)量較高的僅有subfamily II的4個(gè)基因(B0Q1D、UJ97I、K66PA和W274M)。 同時(shí)這4個(gè)基因在野生種花生各組織中的總表達(dá)量最高,且在Pericarp_Pattee6(果皮6)中的表達(dá)顯著高于其他組織。而Subfamily I成員在野生種花生各組織中均無表達(dá)。以上說明野生種花生GLP和栽培種花生GLP在不同組織中的表達(dá)功能存在較大差異,這可能與其系統(tǒng)進(jìn)化差異有關(guān)??傊?對(duì)花生GLP家族基因表達(dá)模式的分析表明,花生GLP家族基因的組織表達(dá)模式與其系統(tǒng)進(jìn)化發(fā)生具有一定的關(guān)聯(lián)性,這為探索基因家族的分子進(jìn)化機(jī)制提供了一定的參考。
本研究通過生物信息學(xué)技術(shù)方式對(duì)花生GLP基因家族進(jìn)行全基因組鑒定,獲得38個(gè)家族基因,分為3個(gè)不同的亞家族,分布于17條不同的染色體上,基因的進(jìn)化關(guān)系與其結(jié)構(gòu)變化可能有一定關(guān)系,這種關(guān)系又決定了基因表達(dá)的一定組織特異性。