周光怡,李魁印,,李志友,姚茂星,王 睿,陳薇薇,吳傳喜,任明見,2
(1.貴州大學,貴陽 550025;2.國家小麥改良中心貴州分中心, 貴陽 550025;3.安順學院農學院, 貴州 安順 561000;4.桐梓縣貴粱農業(yè)發(fā)展有限責任公司, 貴州 遵義 563200)
高粱[Sorghumbicolor(L.) Moench]是世界第五大糧食作物,僅次于玉米、小麥、水稻和大麥。籽粒高粱按總淀粉的含量以及支鏈淀粉所占的比例可分為粳高粱和糯高粱,支鏈淀粉占比高的糯高粱是貴州醬香型白酒的主要釀酒原料之一,總淀粉含量與支鏈淀粉所占比例對醬香型白酒的風味、品質有著決定性作用[1]。淀粉以淀粉粒的形式存在于胚乳中,是禾谷類作物產量、品質形成的重要組分[2-3]。淀粉的生物合成包括兩種形式,一種是在光合組織葉綠體中進行瞬時淀粉的合成,另一種是在造粉體中完成貯藏淀粉的合成[4]。
Cao H等[5]根據(jù)淀粉合成酶基因的保守序列進行分類,認為禾谷類作物胚乳中至少含有5種SS同工酶,即GBSS、SSⅠ、SSⅡ、SSⅢ和SSⅣ,根據(jù)理化性質可分為顆粒結合型淀粉合成酶(Granule-bound starch synthase,GBSS)和可溶性淀粉合成酶(Soluble starch synthase,SSS)兩類。李祥棟等[2]研究發(fā)現(xiàn),GBSS基因直接參與胚乳中直鏈淀粉的生物合成途徑。此外,淀粉的生物合成代謝還需要多種酶及其同工酶的相互調控,主要包括二磷酸腺苷葡萄糖焦磷酸化酶(ADP-glucose pyrophosphorylase,AGPase)、淀粉分支酶(Starch branching enzyme,SBE)、淀粉去分支酶(Starch debranching enzyme,DBE)和質體淀粉磷酸化酶(Plastidial starch phosphorylase,Pho)等[6]。
前人在水稻、玉米、谷子等物種中都鑒定出淀粉合成酶基因家族,并對其進行詳細報道,但對高粱淀粉合成酶基因家族的相關研究較少。本研究通過生物信息學方法,對高粱淀粉合成酶基因家族的理化性質、系統(tǒng)進化樹、蛋白結構和順式作用元件等方面進行研究,并通過轉錄組數(shù)據(jù)對該家族基因進行表達模式分析,為高粱淀粉合成酶分子水平上的進一步研究和貴州酒用糯高粱的分子選擇育種提供一定的參考依據(jù)。
以水稻和玉米的淀粉合成酶家族基因序列作為參考,在NCBI(https://www.ncbi.nlm.nih.gov/)和Phytozome(https://phytozome-next.jgi.doe.gov/)兩個數(shù)據(jù)庫進行BlastP比對[7],根據(jù)NCBI的注釋功能篩選出11個高粱淀粉合成酶基因家族成員。
將蛋白序列提交至在線蛋白質分析網(wǎng)站ExPASy(https://web.expasy.org/protparam/),對該基因家族做蛋白長度、分子量、等電點、不穩(wěn)定系數(shù)、脂溶系數(shù)以及蛋白親疏水性的預測[8],采用Softberry分析軟件(http://www.softberry.com/)對11個基因進行亞細胞定位。
利用MAGA 11軟件對高粱淀粉合成酶家族基因的蛋白序列進行Clustal W比對[9],將比對結果采用最大似然法(Maximum likelihood,ML)構建系統(tǒng)進化樹,通過1 000次校驗來增加分析的可靠性,進行系統(tǒng)進化樹分析,導出NWK文件,用在線進化樹美化軟件EVOLVIEW(https://www.evolgenius.info/evolview-v 2)對進化樹進行美化[10]。
根據(jù)已比對篩選出的高粱淀粉合成酶家族的基因號和基因組注釋文件,找到該家族成員的染色體位點,并利用在線繪圖軟件MG 2 C(http://mg2c.iask.in/mg2c_v2.1/)繪制高粱淀粉合成酶家族基因的染色體分布圖[11]。
利用SOPMA(https://npsa-prabi.ibcp.fr/)對高粱淀粉合成酶基因家族蛋白質的二級結構進行預測分析[12];提交家族基因的蛋白序列至蛋白質三級結構在線預測網(wǎng)站SwissModel(https://swissmodel.expasy.org/interactive)構建模型[13],對SOPMA預測的二級結構的準確性進行檢驗。
利用GSDS 2.0在線分析網(wǎng)站(http://gsds.gao-lab.org/)繪制基因結構圖[14];利用在線工具MEME(https://meme-suite.org/meme/org)對高粱淀粉合成酶基因家族保守基序進行分析[15],設置motif數(shù)為8,其余為默認參數(shù)。
利用TBtools軟件提取起始密碼子上游2 000 bp的基因序列[16],上傳至PlantCARE數(shù)據(jù)庫(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/),進行啟動子順式作用元件分析[17],在TBtools軟件進行可視化繪圖。
通過ArrayExpress數(shù)據(jù)庫[18](https://www.ebi.ac.uk/arrayexpress/)查詢已公布的高粱轉錄組數(shù)據(jù),分析了Wang B等[19]在Btx 623不同發(fā)育階段取樣的轉錄組數(shù)據(jù)(數(shù)據(jù)代碼:E-MTAB-5956),包括萌發(fā)后14 d的根、莖、葉和幼苗,授粉后20 d的胚、胚乳和果實,9~10周階段的花粉和3種不同長度的花序時期。數(shù)據(jù)整理后用在線繪圖工具BioLadder(https://www.bioladder.cn/)繪制表達模式熱圖。
為全面了解高粱淀粉合成酶的進化歷程及其在高粱淀粉合成中的重要性,為高粱淀粉合成酶基因家族進行全面分析。以水稻和玉米淀粉合成酶基因家族為參考,經(jīng)過對比與篩選,在高粱上遴選出11個淀粉合成酶基因,參考水稻淀粉合成酶基因家族名稱及NCBI上對應基因的描述,發(fā)現(xiàn)高粱該家族中除了SSⅠ和SSⅤ沒有同工酶外,GBSS、SSⅢ和SSⅣ都有兩種同工酶,SSⅡ有三種同工酶,家族成員基因命名及基因基本信息如表1所示。
表1 高粱淀粉合成酶基因家族基本信息Table 1 Information of sorghum starch synthase gene family
對以上11個淀粉合成酶家族基因所編碼的蛋白進行理化性質分析,結果(表2)表明,氨基酸殘基數(shù)目在607(SbGBSSⅡ)~1 680(SbSSⅢa)之間,分子量在66 073.95(SbGBSSⅠ)~190 017.22(SbSSⅢa)之間,可見顆粒結合型淀粉合成酶(SbGBSSⅠ、SbGBSSⅡ)的序列長度與分子量明顯小于可溶性淀粉合成酶(SbSSⅠ~SbSSⅤ)。在可溶性淀粉合成酶中,SbSSⅢ兩個基因編碼的蛋白(XP_021320945.1和XP_021318466.1)長度和分子量都顯著大于其他9個基因。家族基因的蛋白質等電點介于5.01(SbSSⅢa)和6.37(SbGBSSⅠ)之間,說明高粱淀粉合成酶基因家族所編碼的蛋白均為酸性蛋白;蛋白不穩(wěn)定系數(shù)在29.02(SbGBSSⅡ)~53.58(SbSSⅢa)之間,除GBSS和SSⅠ兩個亞家族中的三個蛋白(SbGBSSⅠ、SbGBSSⅡ、SbSSⅠ)為穩(wěn)定蛋白外,其余的8個蛋白不穩(wěn)定系數(shù)均大于40,蛋白穩(wěn)定性較差;基因家族蛋白的脂溶系數(shù)在73.21(SbSSⅢb)~91.01(SbSSⅤ)之間,親水系數(shù)平均值均小于0,表明高粱淀粉合成酶基因家族蛋白為親水蛋白,且流動性較好。對已知的高粱淀粉合成酶基因家族成員進行亞細胞定位,結果表明,SbGBSS Ⅰ、SbGBSS Ⅱ、SbSS Ⅲ a、SbSS Ⅲ b和SbSS Ⅳ a等5個蛋白定位在細胞外,SbSS Ⅰ、SbSS Ⅱ a、SbSS Ⅱ b、SbSSⅡc、SbSSⅣb和SbSSⅤ等6個蛋白定位在葉綠體上。
表2 高粱淀粉合成酶蛋白質理化性質Table 2 Physicochemical properties of sorghum starch synthase protein
為了探究高粱淀粉合成酶基因家族的進化關系,對部分單子葉禾本科植物和雙子葉模式植物的淀粉合成酶家族基因進行聚類分析,包括9個玉米淀粉合成酶基因、11個水稻淀粉合成酶基因、9個谷子淀粉合成酶基因和6個擬南芥淀粉合成酶基因。各物種間的淀粉合成酶的進化關系如圖1所示,46個不同物種的淀粉合成酶基因被劃分為5個分支,各同工酶間相互存在同源性,其中,GBSSⅠ與GBSSⅡ、SSⅣ與SSⅤ的進化距離較近,基因都可以聚類同一分支;再者,ZmGBSSⅠ與SbGBSSⅠ、ZmGBSSⅡ與SbGBSSⅡ、SiSSⅡa與SbSSⅡa、ZmSSⅡb與SbSSⅡb、ZmSSⅡc與SbSSⅡc、ZmSSⅢa與SbSSⅢa、ZmSSⅢb與SbSSⅢb、OsSSⅣb與SbSSⅣb互為直系同源基因,可以看出,玉米與高粱的淀粉合成酶基因在進化過程中的同源關系最近,其次是谷子和水稻,而擬南芥與單子葉植物的淀粉合成酶家族基因之間的進化距離較遠。
圖1 淀粉合成酶基因家族的系統(tǒng)進化樹分析Fig.1 Phylogenetic tree analysis of the starch synthase gene family
圖2 高粱淀粉合成酶基因的染色體分布Fig.2 Chromosome distribution of sorghum starch synthase gene
通過對高粱淀粉合成酶11個基因進行染色體定位分析,發(fā)現(xiàn)各基因并未均勻分布在高粱的10條染色體上,在Chr 3、Chr 5、Chr 8染色體上均未見該基因家族成員基因的分布,在其余7條染色體中分布也不均勻(圖2),在Chr 4、Chr 10染色體上各分布3個基因,Chr 1、Chr 2、Chr 6、Chr 7和Chr 9染色體上各分布1個基因。該家族基因均分布在各染色體的兩端,各同工酶基因并沒有映射到同一條染色體上,而是散布在各染色體中。
2.5 高粱淀粉合成酶基因家族蛋白二
級結構分析及三級結構預測
高粱淀粉合成酶基因家族蛋白的二級結構以α-螺旋和無規(guī)則卷曲為主,二者在各蛋白質中所占核苷酸數(shù)量均大于70%,延伸鏈與β-轉角占比較少(表3),可知高粱淀粉合成酶基因家族蛋白是由α-螺旋和無規(guī)則卷曲支撐,而延伸鏈和β-轉角則散布在整個蛋白中。
利用在線網(wǎng)站SwissModel對基因蛋白模型進行預測,圖3為高粱淀粉合成酶基因家族的蛋白三級結構預測結果,可以直觀地看出,11個蛋白均以α-螺旋和無規(guī)則卷曲為主要結構元件,與其二級結構結果吻合。家族中11個蛋白的結構相似,SSⅠ、SSⅡ中4個基因的蛋白三級結構相似度較高,GBSS、SSⅢ、SSⅣ和SSⅤ中的7個基因的蛋白三級結構相似度較高。
圖3 高粱淀粉合成酶基因蛋白三級結構預測Fig.3 Prediction of protein tertiary structure of sorghum starch synthase gene
圖4 高粱淀粉合成酶基因結構Fig.4 Gene structure of sorghum starch synthase
表3 高粱淀粉合成酶基因蛋白二級結構預測Table 3 Prediction of protein secondary structure of sorghum starch synthase gene
高粱淀粉合成酶基因家族的基因結構如圖4所示,除了SbSSⅡc沒有下游非編碼區(qū),其余每個基因均有長短不一的上下游非編碼區(qū)。CDS(Coding sequence)是指可以被翻譯成蛋白質的編碼序列區(qū)域,即外顯子;Intorn是編碼區(qū)域間沒有編碼作用的序列,即內含子。大部分基因的外顯子數(shù)目在8~19個之間,SbGBSS、SbSSⅡ和SbSSⅢ中的基因成員分別有13、8個和16個外顯子,可以看出各同工酶基因在外顯子數(shù)目、長度和分布位置上在一定程度相似。
圖5 高粱淀粉合成酶家族保守基序Fig.5 Conserved motifs of sorghum starch synthase family
對高粱淀粉合成酶家族基因的蛋白質序列進行保守基序分析(圖5),結果顯示,高粱淀粉合成酶基因家族共有8種保守基序,保守基序的氨基酸殘基數(shù)在29~40之間。其中4個保守基序(motif 1、motif 2、motif 5和motif 8)在11個基因成員蛋白質序列中都有分布,motif 4分布在GBSS、SSⅠ和SSⅡ中,motif 7分布在SSⅢ、SSⅣ和SSⅤ中,motif 6在除GBSS外的其他基因中都有分布,motif 3在除SbSSⅣa和SbSSⅤ外的基因中都有分布。從motif的分布位置來看,高粱淀粉合成酶的基序特征與系統(tǒng)進化樹分析結果吻合,各同工酶間motif位置分布情況幾乎一致。
圖6 高粱淀粉合成酶啟動子順式作用元件Fig.6 Sorghum starch synthase promoter cis-acting element
為更好地探索高粱淀粉合成酶基因調控表達,提取高粱淀粉合成酶基因家族起始密碼子上游2 000 bp的序列,對這部分序列進行順式作用元件分析,發(fā)現(xiàn)該區(qū)域存在35種順式元件,主要分為三類,包括光響應元件、激素響應元件和脅迫響應元件,如圖6所示。在SbGBSSⅡ和SbSSⅢa的啟動子區(qū)域發(fā)現(xiàn)與淀粉合成直接相關的順式調節(jié)元件GCN 4_motif,在SbSSⅢa發(fā)現(xiàn)參與晝夜節(jié)律控制的順式調節(jié)元件circadian;光響應元件在高粱淀粉合成酶基因家族中廣泛分布,SbSSⅡc存在26個光響應元件,SbSSⅣb只有6個。家族中還存在一定數(shù)量的激素響應元件,包括參與脫落酸反應的順式作用元件ABRE、調控赤霉素反應元件P-box和GARE-motif、調控生長素反應元件TGA-element等,另外在可溶性淀粉合成酶SSI~SSIV中都發(fā)現(xiàn)了參與低溫反應的順式作用元件LTR,但在顆粒型淀粉合成酶GBSS兩個基因中并未發(fā)現(xiàn)該元件。
在高粱不同發(fā)育階段的轉錄組數(shù)據(jù)中篩選出淀粉合成酶基因家族的基因表達數(shù)據(jù),并繪制熱圖進行分析,該家族基因在高粱不同發(fā)育階段中都有表達,但FPKM值差異較大。如圖7所示,SbGBSSⅠ、SbSSⅡc和SbSSⅠ在授粉20 d的胚、胚乳和果實中高表達,其中SbGBSSⅠ在胚乳中的FPKM值最大,平均為1 579.2;SbSSⅠ、SbGBSSⅡ和SbSSⅢb在開花14 d的根、莖、葉和幼苗中高表達,其中在葉片中的FPKM值最大;SbSSⅠ、SbGBSSⅡ、SbSSⅢb在花序展開的三個時期高表達,SbSSⅡc和SbSSⅣa兩個基因在不同時期不同部位的FPKM值都較低。
圖7 高粱淀粉合成酶基因表達熱圖Fig.7 Heat map of sorghum starch synthase gene expression
對高粱基因組進行對比、篩選,鑒定出了11個高粱淀粉合成酶基因家族成員,與玉米[20]、水稻[21]、谷子[22]、莧菜[23]等植物的鑒定結果一致。通過對高粱淀粉合成酶基因家族理化性質的分析,發(fā)現(xiàn)11個高粱淀粉合成酶基因家族所編碼的蛋白均為酸性蛋白,且均是親水性蛋白,整體穩(wěn)定性較差,但流動性較好。對高粱、玉米、水稻、谷子和擬南芥的淀粉合成酶基因進行系統(tǒng)進化樹分析,發(fā)現(xiàn)以上5個物種的同工酶可以聚類在一起,說明植物淀粉合成酶基因在進化過程中高度保守。其次,進化樹聚類分成兩個分支,一個分支包括GBSS、SSⅢ、SSⅣ和SSⅤ,另一個分支包括SSⅠ和SSⅡ,推測淀粉合成酶家族基因可能是來自于2個祖先基因。高粱淀粉合成酶基因家族與玉米的親緣關系最近,谷子次之,而擬南芥與單子葉植物淀粉合成酶家族成員間的進化距離較遠,推測淀粉合成酶在植物進化過程中的某一時期出現(xiàn)了單雙子葉之分。
蛋白質復雜的組成和結構是其多樣性生物學功能的基礎,不同蛋白結構決定著高粱淀粉合成酶功能的多樣性[24]。對家族成員的蛋白二級結構和三級結構進行了預測和分析,結果都與系統(tǒng)進化樹的結果一致,通過基因結構與motif分析,再次驗證了各同工酶之間的進化關系。順式作用元件本身不編碼蛋白,但它們參與基因表達的調控,對高粱淀粉合成酶家族基因啟動子區(qū)域的順式作用元件進行分析,發(fā)現(xiàn)該區(qū)域存在大量光響應元件和激素響應元件,但高粱淀粉合成酶與脫落酸之間存在的關系并不清晰,有待進一步研究。在除顆粒結合型淀粉合成酶外的9個基因中均發(fā)現(xiàn)LTR元件(參與低溫反應的順式作用元件),推測可溶性淀粉合成酶可能參與了高粱低溫介導的信號通路,在高粱耐低溫機制中起著一定的調節(jié)作用[25]。
對各基因在不同部位間的FPKM值繪制熱圖分析,發(fā)現(xiàn)高粱淀粉合成酶基因主要在葉片和胚乳中高表達,這與植物淀粉合成場所和貯藏部位吻合。李曉兵[20]在玉米淀粉合成酶基因家族的時空表達分析中認為,玉米淀粉合成酶基因在授粉后隨時間推移整體呈上升趨勢,在葉片中的相對表達量最大。本研究結果與之相似。
淀粉合成酶在谷物胚乳淀粉生物合成過程中發(fā)揮關鍵作用,在與其他淀粉合成相關酶的相互作用下,進而影響谷物的質量與產量[6]。本研究對高粱淀粉合成酶基因家族成員的系統(tǒng)進化樹、亞細胞定位、蛋白結構和表達模式等進行了較為全面的分析,以期為高粱淀粉合成酶分子水平上的進一步研究和貴州酒用糯高粱的分子選擇育種提供一定的參考依據(jù)。