鐘雅珠,馬伯軍,范海闊,陳析豐,弓淑芳,劉 蕊,竇雅靜,孫熹微,肖 勇
(1 浙江師范大學(xué),浙江金華,321000;2 海南省熱帶油料生物學(xué)重點(diǎn)實(shí)驗(yàn)室/中國熱帶農(nóng)業(yè)科學(xué)院椰子研究所,海南文昌,571339)
Squamosa promoter binding protein like(SPL)基因又稱為Squamosa promoter binding protein (SBP)-box proteins,是植物特有的一類轉(zhuǎn)錄因子,是植物生長(zhǎng)發(fā)育過程中重要的調(diào)節(jié)基因。它們的翻譯產(chǎn)物能夠特異地與DNA分子結(jié)合,并通過激活或抑制下游靶基因的轉(zhuǎn)錄對(duì)基因表達(dá)進(jìn)行調(diào)控。1996年Klein等最早在金魚草中發(fā)現(xiàn)并分離出該基因,即AmSBP1和AmSBP2。因這兩個(gè)基因能夠能識(shí)別花發(fā)育基因SQUAMOSA的啟動(dòng)子結(jié)合位點(diǎn),被命名為Squamosa promoter binding protein[1]。SPL基因家族蛋白含有1個(gè)高度保守的SBP-box結(jié)構(gòu)域,是SPL蛋白和DNA分子特異性結(jié)合所必需的。它由大約76個(gè)氨基酸組成,一般包括兩個(gè)鋅指結(jié)構(gòu)域(Zinc-finger domain)[2],即Cys-Cys-His-Cys(C2HC)、Cys-Cys-Cys-His(C3H),以及1個(gè)位于C末端的保守核定位信號(hào)(Nuclear localization signal,NLS)[3]。
SPL基因家族是多基因家族,在植物的生長(zhǎng)發(fā)育過程中發(fā)揮重要的調(diào)控作用。目前已在很多物種中被鑒定和報(bào)道。擬南芥共鑒定出17個(gè)SPL基因,Cardon等在1997年發(fā)現(xiàn)AtSPL基因參與開花時(shí)間的調(diào)控,擬南芥中存在Squamosa基因的同源基因AP1,AtSPL3能識(shí)別AP1的啟動(dòng)子序列,AtSPL3過量表達(dá)會(huì)導(dǎo)致開花提前[4]。水稻共鑒定出19個(gè)SPL基因,其主要功能是參與花發(fā)育的調(diào)控。將近一半的OsSPL基因能夠在愈傷組織中表達(dá),表明這些基因可能參與植物的形態(tài)構(gòu)成過程[5]。OsSPL14 和OsSPL16有減少分蘗,提高產(chǎn)量的作用[6-7]。另外,miRNA與SPL基因之間也有聯(lián)系,miR156過量表達(dá)可以影響部分SPL成員的表達(dá)水平[8]。白樺中共鑒定出18個(gè)SPL基因,BpSPL基因可能是頂芽和雄花序生長(zhǎng)發(fā)育的調(diào)節(jié)基因[9]。葡萄中共鑒定出19個(gè)SPL基因,VvSPL家族成員參與特定時(shí)期果實(shí)生長(zhǎng)發(fā)育與成熟的調(diào)控[10]。高粱中共鑒定出18個(gè)SPL基因,SbSPL與產(chǎn)量、籽粒發(fā)育、植株葉舌發(fā)育相關(guān)[11]。小麥中共鑒定出19個(gè)SPL基因,其中TaSPL3過量表達(dá)可以使擬南芥提前開花[12]。獼猴桃中共鑒定出25個(gè)SPL基因,部分AcSPL基因可以提高獼猴桃對(duì)細(xì)菌性潰瘍病的抗性[13]。陸地棉中共鑒定出24個(gè)SPL基因,其中有18個(gè)GhSPL基因是miR156的靶基因,GhSPL3和GhSPL18可能與葉片、側(cè)枝和花發(fā)育相關(guān),過量表達(dá)這兩個(gè)基因能夠提早開花[14]等。
世界各國收集的椰子CocosnuciferaL.種質(zhì)共1 316份[15]。全世界有90多個(gè)熱帶國家和地區(qū)種植椰子,種植面積已超1 200萬hm2,有8 000多萬人口以椰業(yè)為生[16],椰子是一種非常重要的熱帶油料作物和果樹。椰子為多年生木本作物,從定植到開花需要相當(dāng)長(zhǎng)的周期。SPL基因家族在植物花期調(diào)控、產(chǎn)量、抗逆性等發(fā)面發(fā)揮重要作用,但目前鮮見椰子SPL基因家族的相關(guān)報(bào)道。分離鑒定椰子SPL基因,有助于種質(zhì)改良,從而降低椰子前期投入成本。本研究利用生物信息學(xué),鑒定出椰子CnSPL基因家族,分析其序列基礎(chǔ)信息、內(nèi)含子與外顯子結(jié)構(gòu)、保守序列、保守基序、系統(tǒng)發(fā)育樹及其在椰子各組織的表達(dá)量,為進(jìn)一步探討椰子CnSPL基因家族在其生長(zhǎng)發(fā)育過程中發(fā)揮的生物學(xué)功能提供參考。
從(GIGA)nDB(http://gigadb.org/dataset/100347)下載椰子轉(zhuǎn)錄組序列信息,從RGAP數(shù)據(jù)庫(http://rice.plantbiology.msu.edu/index.shtml)下載水稻的Squamosa promoter binding protein (SBP)-box proteins基因家族的蛋白序列信息。利用SSH Secure Shell Client軟件將水稻OsSPL基因家族蛋白序列與椰子轉(zhuǎn)錄組序列信息進(jìn)行tblastn比對(duì),e值為1e-10,得到椰子CnSPL基因家族的CDs序列信息。將所得序列信息進(jìn)一步處理,用MEGA軟件將獲得CDs序列翻譯成為蛋白序列,利用HMMER(https://www.ebi.ac.uk/Tools/hmmer/)的蛋白結(jié)構(gòu)域預(yù)測(cè)功能,去除預(yù)測(cè)CnSPL基因家族中不含SBP-box結(jié)構(gòu)域的冗余序列,最終鑒定出椰子CnSPL基因家族成員。
通過ExPASy-ProtParam(https://web.expasy.org/protparam/)在線計(jì)算椰子CnSPL基因家族蛋白質(zhì)的氨基酸數(shù)、分子量和理論等電點(diǎn),并通過WoLF PSORT網(wǎng)站(https://wolfpsort.hgc.jp/)在線對(duì)CnSPL基因家族成員進(jìn)行亞細(xì)胞定位的預(yù)測(cè)。
通過GeneDoc軟件對(duì)椰子24個(gè)CnSPL基因家族成員的蛋白序列進(jìn)行多序列比對(duì)分析,隨后通過Weblogo3(http://weblogo.threeplusone.com/)網(wǎng)站根據(jù)所得椰子CnSPL家族成員的保守結(jié)構(gòu)域繪制對(duì)應(yīng)的logo,通過MEME(http://meme-suite.org/tools/meme)在線對(duì)比分析椰子CnSPL家族蛋白的保守基序。
在(GIGA)nDB(http://gigadb.org/dataset/100347)下載CoConut.gene.gff文件以獲得椰子CnSPL基因家族成員內(nèi)含子與外顯子的相關(guān)數(shù)據(jù),并通過Gene Structure Display Server(GSDS,http://gsds.cbi.pku.edu.cn/)在線預(yù)測(cè)椰子CnSPL基因家族成員的內(nèi)含子與外顯子的結(jié)構(gòu)組成,并繪制其組成圖。在MEGA軟件中使用鄰接法(Neighbor-Joining)對(duì)椰子CnSPL基因家族蛋白質(zhì)成員進(jìn)行系統(tǒng)發(fā)育進(jìn)化樹的構(gòu)建,并進(jìn)行聚類分析。
從NCBI上下載椰子不同組織的轉(zhuǎn)錄組數(shù)據(jù),包括葉片、胚乳、胚、胚愈傷組織。計(jì)算CnSPL家族成員在各組織的Reads Per Kilobase per Million mapped reads(RPKM),并將所得數(shù)據(jù)錄入Mev軟件進(jìn)行熱圖的繪制。RPKM=total exon reads/(mapped reads×exon length)。其中,total exon reads表示某樣品映射在基因外顯子讀取的所有reads;mapped reads表示這個(gè)樣品的所有reads總和,單位為millions;exon length表示基因外顯子的長(zhǎng)度,單位為kb。
通過SSH Secure Shell Client軟件將釋放的椰子轉(zhuǎn)錄組數(shù)據(jù)跟水稻OsSPL基因家族的蛋白序列比對(duì),得到26個(gè)椰子CnSPL基因的CDs序列,將其翻譯成為蛋白序列后利用HMMER的在線預(yù)測(cè)結(jié)構(gòu)域功能,預(yù)測(cè)結(jié)果中有兩個(gè)CnSPL基因不含SBP-box結(jié)構(gòu)域,去除之后最終鑒定出椰子CnSPL基因家族成員24個(gè),并分別命名為CnSPL1~CnSPL24(見表1)。
表1 椰子CnSPL基因家族的理化性質(zhì)
通過ExPASy-ProtParam網(wǎng)站在線計(jì)算椰子這24個(gè)CnSPL基因家族蛋白質(zhì)的氨基酸數(shù)、分子量和理論等電點(diǎn),并通過WoLF PSORT預(yù)測(cè)CnSPL基因家族成員的亞細(xì)胞定位。結(jié)果看出,24個(gè)CnSPL基因的分子量19 289.3~282 837.07。氨基酸數(shù)172~2 541個(gè),氨基酸長(zhǎng)度差異較大,其中CnSPL20氨基酸數(shù)最少,只有172個(gè),而CnSPL4氨基酸數(shù)最多,為2 541個(gè)。其理論等電點(diǎn)在4.71~9.91之間,其中CnSPL2、CnSPL3、CnSPL4、CnSPL8、CnSPL17和CnSPL24的PI小于7,為酸性蛋白質(zhì);而其余18個(gè)CnSPL基因的PI均大于7,為堿性蛋白質(zhì)。說明24條CnSPL基因序列存在較大差異,可能導(dǎo)致CnSPL家族基因在椰子不同生物學(xué)過程中發(fā)揮不同功能。亞細(xì)胞定位預(yù)測(cè)表明CnSPL基因家族均主要存在于細(xì)胞核中。
分析處理CoConut.gene.gff中椰子CnSPL基因家族成員內(nèi)含子與外顯子的相關(guān)數(shù)據(jù),并通過GSDS在線繪制椰子CnSPL基因家族成員的內(nèi)含子與外顯子的結(jié)構(gòu)組成圖(見圖1)。24個(gè)CnSPL家族成員外顯子數(shù)大多為2~12個(gè),CnSPL4比較特殊,含有32個(gè)外顯子。隨后使用MEGA軟件對(duì)24個(gè)椰子CnSPL基因家族和19個(gè)水稻OsSPL基因家族蛋白質(zhì)成員進(jìn)行系統(tǒng)發(fā)育進(jìn)化樹構(gòu)建,并進(jìn)行聚類分析(見圖1和圖2)。我們將椰子和水稻的SPL基因家族分成6個(gè)亞族(G1~G6),大部分處在相同亞族間的椰子CnSPL基因具有相同的外顯子數(shù)目。其中G1包括水稻的OsSPL7、OsSPL14、OsSPL17和椰子的CnSPL12、CnSPL14、CnSPL15、CnSPL16、CnSPL18、CnSPL23,除CnSPL23有12個(gè)外顯子外,其余亞族成員含有3個(gè)外顯子。G2包括水稻的OsSPL3、OsSPL4、OsSPL11、OsSPL12和椰子的CnSPL10、CnSPL17、CnSPL19,除CnSPL17有11個(gè)外顯子外,其余亞族成員含有4個(gè)外顯子。G3包括水稻的OsSPL5、OsSPL8、OsSPL10、OsSPL13和椰子的CnSPL5、CnSPL7、CnSPL9、CnSPL11、CnSPL13、CnSPL20,含有2~3個(gè)外顯子。G4包括水稻的OsSPL2、OsSPL16、OsSPL18、OsSPL19和椰子的CnSPL6、CnSPL8、CnSPL22,除CnSPL8有5個(gè)外顯子外,其余亞族成員含有3個(gè)外顯子。G5包括水稻的OsSPL1、OsSPL6、OsSPL15和椰子的CnSPL1、CnSPL2、CnSPL3、CnSPL4,除CnSPL4有32個(gè)外顯子外,其余亞族成員含有10~11個(gè)外顯子。G6包括水稻的OsSPL9和椰子的CnSPL21、CnSPL24,含有2個(gè)外顯子。
圖1 椰子CnSPL基因家族結(jié)構(gòu)及聚類分析
注:CnSPL為椰子基因, OsSPL為水稻基因。圖2 椰子和水稻SPL基因家族的系統(tǒng)發(fā)育樹
通過GeneDoc軟件對(duì)椰子24個(gè)CnSPL基因家族蛋白序列進(jìn)行多序列比對(duì)分析。結(jié)果看出,除了CnSPL20、CnSPL22、CnSPL24這3個(gè)基因,其中CnSPL20缺少C2HC鋅指結(jié)構(gòu),CnSPL22缺少C3H鋅指結(jié)構(gòu),CnSPL24缺少C2HC鋅指結(jié)構(gòu)和C末端的核定位信號(hào),大部分的CnSPL家族蛋白都包含有長(zhǎng)度大約為76個(gè)氨基酸的SBP-box結(jié)構(gòu)域(見圖3a)。隨后通過Weblogo3網(wǎng)站在線繪制所得椰子CnSPL家族成員的保守結(jié)構(gòu)域的對(duì)應(yīng)logo,包含兩個(gè)鋅指結(jié)構(gòu)C3H、C2HC和1個(gè)核定位信號(hào)NLS(見圖3b)。通過MEME在線對(duì)比分析椰子CnSPL家族蛋白的保守基序,發(fā)現(xiàn)CnSPL家族的10個(gè)保守基序,其中最為保守的基序是motif1和motif2,分別是SBP-box的鋅指結(jié)構(gòu)和核定位信號(hào)。另外,相同亞族間的CnSPL基因擁有相似的基序(見圖4)。
注:a.椰子CnSPL家族成員的多序列比對(duì),標(biāo)注出SBP-box的保守結(jié)構(gòu)域,即兩個(gè)鋅指結(jié)構(gòu)C3H、C2HC和1個(gè)核定位信號(hào)NLS;b.椰子CnSPL家族保守結(jié)構(gòu)域?qū)?yīng)的logo。圖3 椰子CnSPL家族成員的保守序列分析
注:a.CnSPL家族不同亞族間蛋白的保守基序分析;b. a所預(yù)測(cè)保守基序相應(yīng)的logo。圖4 椰子CnSPL家族蛋白的保守基序分析
從NCBI上下載椰子葉片、胚乳、胚、胚愈傷組織的轉(zhuǎn)錄組數(shù)據(jù),通過計(jì)算CnSPL家族成員在各組織的RPKM,得到CnSPL家族成員在各組織的表達(dá)量信息,并將所得數(shù)據(jù)錄入Mev軟件繪制熱圖(見圖5)。
圖5 椰子CnSPL家族24個(gè)基因在椰子葉片、胚乳、胚和胚愈傷組織中的表達(dá)量分析
不同椰子CnSPL家族基因在不同組織中的表達(dá)水平不同,但在胚愈傷組織中均有較高表達(dá),說明CnSPL家族基因很可能都參與了椰子的早期分化過程。其中CnSPL1、CnSPL2、CnSPL3、CnSPL4、CnSPL7在各個(gè)組織中都有高水平表達(dá),CnSPL5、CnSPL7、CnSPL11、CnSPL13、CnSPL22在各個(gè)組織中都是低表達(dá)水平,這幾個(gè)基因可能是組成型表達(dá)基因;而在本研究聚類分析中,CnSPL1、CnSPL2、CnSPL3、CnSPL4聚為一個(gè)亞族G5,CnSPL5、CnSPL7、CnSPL11、CnSPL13聚在同一個(gè)亞族G3中。CnSPL9和CnSPL20在葉片的表達(dá)水平最高,推測(cè)這兩個(gè)基因在椰子葉片生長(zhǎng)發(fā)育過程起作用。
本研究中,我們成功鑒定出24個(gè)椰子CnSPL基因家族成員并對(duì)其進(jìn)行生物學(xué)分析。24個(gè)椰子CnSPL家族成員的理論等電點(diǎn)在4.71~9.91之間,其中18個(gè)CnSPL基因的PI均大于7,為堿性蛋白質(zhì)。根據(jù)有關(guān)SPL家族的研究,其大部分成員的理論等電點(diǎn)大于7[9,12-14],本試驗(yàn)結(jié)果與之相符。
椰子CnSPL家族基因同樣具有高度保守的SBP-box結(jié)構(gòu)域。很多研究表明,水稻OsSPL基因家族可被分成6個(gè)亞族[5,11-12],在本研究中,我們同樣將24個(gè)椰子CnSPL基因家族分成6個(gè)亞族(G1~G6)。
SPL家族基因可能與植物的抗性相關(guān),Stone等研究表明,在擬南芥中AtSPL14能夠抵抗由真菌伏馬毒素B1所導(dǎo)致的程序性死亡[17]。在楊澤峰對(duì)水稻SPL基因家族的研究中,水稻OsSPL15基因與AtSPL14處于系統(tǒng)發(fā)育樹的同一分枝中[5]。而在本研究中,椰子CnSPL3、CnSPL4與水稻OsSPL15基因處于系統(tǒng)發(fā)育樹的同一分枝中,因此推測(cè)椰子CnSPL3、CnSPL4基因和水稻OsSPL15基因跟擬南芥AtSPL14基因一樣會(huì)與真菌伏馬毒素B1導(dǎo)致的程序性死亡的抗性相關(guān)。
SPL家族基因可能與植物的開花時(shí)間調(diào)控相關(guān),在花發(fā)育和成花過程中發(fā)揮重要的作用。很多研究表明,擬南芥SPL基因家族的生物學(xué)功能跟花期相關(guān)miRNA的表達(dá)有關(guān)。擬南芥SPL家族成員的多條基因上具有miR156的識(shí)別位點(diǎn),miR156可以調(diào)控它們的表達(dá)[18-20]。17個(gè)AtSPL基因中有10個(gè)AtSPL基因(AtSPL2、AtSPL3、AtSPL4、AtSPL5、AtSPL6、AtSPL9、AtSPL10、AtSPL11、AtSPL13、AtSPL15)是miR156的靶基因[3,21-22]。另有研究表明,miR156 可以通過AtSPL9和AtSPL10來調(diào)節(jié)miR172的表達(dá)[23-24]。在系統(tǒng)發(fā)育樹中,擬南芥AtSPL2、AtSPL3、AtSPL4、AtSPL5、AtSPL6、AtSPL9、AtSPL10、AtSPL11、AtSPL13、AtSPL15跟水稻OsSPL2、OsSPL3、OsSPL12、OsSPL14、OsSPL16、OsSPL17、OsSPL18、OsSPL19這8個(gè)基因處于同一分枝中[5]。在本研究中,水稻這些基因跟椰子CnSPL6、CnSPL8、CnSPL10、CnSPL17、CnSPL19、CnSPL22、CnSPL23這7個(gè)基因處于同一分枝中,因此推測(cè)椰子這7個(gè)SPL基因、水稻這8個(gè)SPL基因跟擬南芥的10個(gè)SPL基因一樣與miR156的表達(dá)相關(guān)。水稻OsSPL14、OsSPL17這兩個(gè)基因跟擬南芥AtSPL9、AtSPL10在系統(tǒng)發(fā)育樹中處于同一分枝[5],椰子CnSPL23跟水稻OsSPL14、OsSPL17處于同一分枝,因此推測(cè)CnSPL23、OsSPL14、OsSPL17跟擬南芥AtSPL9、AtSPL10一樣與miR156對(duì)miR172 的表達(dá)調(diào)節(jié)相關(guān)。
本研究采用2008年Ali Mortazavi等提出的以RPKM來估計(jì)基因表達(dá)量的方法,獲得24個(gè)椰子CnSPL基因的表達(dá)量信息,較RNA-seq方法更為準(zhǔn)確合理[25]。相同亞族間的CnSPL基因有相似的表達(dá)模式,G5亞族的CnSPL1、CnSPL2、CnSPL3和CnSPL4基因在各個(gè)組織中都呈現(xiàn)高水平表達(dá),而G3亞族中CnSPL5、CnSPL7、CnSPL11和CnSPL13基因在各組織中都呈低水平表達(dá)。椰子CnSPL家族基因在不同組織中表達(dá)水平不同,但在胚愈傷組織中均有較高表達(dá),說明CnSPL家族基因很可能都參與了椰子的早期分化過程。
本研究利用生物信息學(xué),鑒定出椰子CnSPL基因家族,分析其序列基礎(chǔ)信息、內(nèi)含子與外顯子結(jié)構(gòu)、保守序列、保守基序、系統(tǒng)發(fā)育樹及其在椰子各組織表達(dá)量,為進(jìn)一步探討椰子CnSPL基因家族在植物生長(zhǎng)發(fā)育過程中所發(fā)揮的生物學(xué)功能提供參考。