陳 剛,徐秉良*,白江平
(1.甘肅農業(yè)大學草業(yè)學院、草業(yè)生態(tài)系統(tǒng)教育部重點實驗室、中-美草地畜牧業(yè)可持續(xù)發(fā)展研究中心、甘肅省草業(yè)工程實驗室,甘肅蘭州730070;2.甘肅省干旱生境作物學重點實驗室-甘肅省作物遺傳改良與種質創(chuàng)新重點實驗室,甘肅蘭州730070)
木質素是一種具有芳香族特性的三維高分子化合物。作為地球上含量僅次于纖維素的天然有機物,木質素具有重要的生理功能,特別是在植物抗倒伏、抗病和抗逆境方面發(fā)揮著重要的作用[1]。木質素在植物體內的生物合成途徑尚不完全清楚,但普遍認為大致包括莽草酸途徑、苯丙氨酸途徑及木質素特異合成途徑3個主要階段,目前對于木質素生物合成途徑的研究越來越多的集中在木質素的特異合成途徑上[2]。
肉桂酰輔酶 A還原酶(CCR)作為催化木質素特異途徑的第一個關鍵酶,催化3種羥基肉桂酸的CoA酯還原生成相應的肉桂醛,可能對木質素合成途徑的碳流具有潛在的調控作用,是調節(jié)碳素流向木質素潛在的控制關節(jié)點,對木質素單體的生物合成起著重要作用[3]。因此對CCR的研究將有助于對植物木質素生物合成途徑的進一步研究。
到目前為止,已從擬南芥、大麥、小麥、番茄等多種植物中克隆得到了CCR基因的全長或部分編碼序列[4],但對CCR基因缺乏系統(tǒng)的生物信息學分析和研究報道,特別是CCR基因編碼氨基酸序列的保守區(qū)域、CCR蛋白導肽、信號肽、亞細胞定位、跨膜結構域、功能位點及三級結構的研究尚未見報道。為此,本研究擬采用生物信息學工具與分析方法,對NCBI數(shù)據(jù)庫中分別來自裸子植物、單子葉植物及雙子葉植物的35條CCR基因完整cDNA及其編碼的氨基酸序列進行數(shù)據(jù)挖掘,旨在為對CCR基因的進一步研究和利用提供一定的理論依據(jù)。
數(shù)據(jù)資料來源于NCBI數(shù)據(jù)庫中已注冊的,分別來自裸子植物、單子葉植物及雙子葉植物共計35條CCR基因的核酸及其編碼的氨基酸序列(表1)。
利用NCBI中的ORF Finder和BioXM 2.6軟件對CCR基因完整cDNA序列的GC含量進行分析;采用ClustalX和Mega4軟件構建CCR基因的系統(tǒng)發(fā)生樹;通過NCBI的Conserved Domains數(shù)據(jù)庫,對CCR基因編碼的氨基酸序列進行保守區(qū)分析;采用ExPASy、SMART、Post Prediction、TargetP 1.1 Server、SignalP 4.0 Server、TMHMM Server v.2.0、ProtScale及Cn3D對CCR基因編碼的主要氨基酸的平均含量、理化性質、CCR蛋白結構域、亞細胞定位、導肽、信號肽、跨膜結構域、親/疏水性以及CCR基因編碼的氨基酸的活性位點、NADP結合位點及底物結合位點進行預測和分析;最后采用Swiss-Model對CCR基因編碼蛋白質的三級結構進行同源建模,并用PyMOL對建模結果進行處理。
2.1.1 CCR 基因 GC含量的分析
采用 NCBI中 ORF Finder和 BioXM 2.6對 35條CCR基因完整cDNA序列進行GC含量分析[5](表2),結果表明,單子葉植物CCR基因的GC含量,尤其是編碼區(qū)GC含量遠高于雙子葉植物。單子葉植物中甘蔗CCR的GC含量最高,達69.89%;黑麥草CCR2的GC含量最低,為61.34%,平均為66.92%;而雙子葉植物中GC含量最高為大葉相思,達 53.71%,苜蓿的最低,為 41.27%,平均48.84%。
2.1.2 CCR基因系統(tǒng)發(fā)育樹的構建
采用ClustalX程序對35條CCR基因的完整cDNA序列進行多重比對(采用默認的IUB記分矩陣),采用Mega4程序對產生的多重比對結果構建系統(tǒng)發(fā)育樹(采取最大簡約法),并采用隨機逐步比較的方式搜索最佳系統(tǒng)樹,對生成的系統(tǒng)發(fā)育樹進行Bootstrap校正,最終生成系統(tǒng)發(fā)育樹[6](圖1)。
表1 不同植物CCR基因cDNA及其編碼氨基酸的序列號Table1 The sequence number of cDNA and the corresponding amino acid of CCR in different plants物種
表2 CCR基因ORF長度及GC含量Table 2 The ORF length and GC content of CCR geneCCR基因
圖1 CCR基因系統(tǒng)發(fā)育樹Fig.1 Phylogenetic tree of CCR gene
由圖1可以看出,植物CCR基因在進化樹中大致可分為二大類、三小類,這與植物在進化的過程中分化為被子植物和裸子植物,被子植物又進一步分化成單子葉植物和雙子葉植物的進化方式相一致,但雙子葉植物中的擬南芥、板藍根和甘蔗的CCR基因與單子葉植物的CCR基因聚在一類,麻風樹、丹參、油茶及大葉相思的CCR基因與裸子植物銀杏,火炬松的CCR基因聚在一類,其余雙子葉植物的CCR基因全部聚在一類中。這表明在植物分化之前,CCR基因已經存在于植物中,而且在植物的進化時間上超前于植物的分化時間。在分類地位上,雖然擬南芥、板藍根、甘蔗與單子葉植物差異較大,但其CCR基因與單子葉植物的CCR基因聚在同一類中,麻風樹、丹參、油茶及大葉相思的CCR基因和裸子植物的CCR基因關系較近,這種基因的聚類和植物分類存在沖突的現(xiàn)象在植物中已被廣泛發(fā)現(xiàn)[7]。通過構建 CCR基因系統(tǒng)發(fā)育樹,CCR基因的聚類與植物的分類大體一致,表明CCR基因的進化和植物的進化基本是一致的,CCR基因和植物的進化過程密切相關。
2.2.1 CCR基因編碼氨基酸序列保守區(qū)的分析
采用ClustalX(v1.83)軟件對CCR基因編碼氨基酸序列的保守區(qū)域進行分析[6],結果表明,從蛋白質的N端到C端,依次發(fā)現(xiàn)了以下9個氨基酸保守區(qū)(圖略):①VCVTGAGGFIASWLVKLLL;②GYTVKGTVRNP;③GVFHTASP;④VTDDPEQMVEPAV;⑤VRRVVFTSSIGAV;⑥TKNWYCYGKAVAE;⑦GVDLVVVNPVLVIGPLLQ;⑧ASGRYLCAE;⑨TVKSLQEKGHL。在 NCBI的 Conserved Domains數(shù)據(jù)庫中,對上述9個保守區(qū)域進行分析[6],結果表明9個保守區(qū)域共同構成了NADB_Rossmann Superfamily氨基酸保守區(qū),功能注釋為 Rossmannfold NAD(P)(+)-binding proteins,在反應中起催化還原的作用。
2.2.2 CCR基因編碼主要氨基酸平均含量的分析
利用ExPASy ProtParam對35條CCR基因編碼的含量較高的氨基酸進行統(tǒng)計[8],發(fā)現(xiàn)不論單子葉植物、雙子葉植物、還是裸子植物,CCR基因編碼的含量最高的氨基酸均為Ala、Val及Leu(麻風樹中包括Ala和Val),但單子葉、雙子葉植物中以Val的平均含量最高,裸子植物中中以Leu的平均含量最高。植物CCR基因編碼的含量較高的氨基酸在單子葉植物中為:Val(11.83%) >Ala(11.79%) >Leu(8.58%) > Asp(6.56%) > Gly(6.52%);雙子葉植物中為:Val(10.20%) > Leu(9.40%) > Ala(8.45%) > Lys(7.47%) > Glu(6.55%);裸子植物中為:Leu(10.25%) > Val(10.05%) > Ala(8.65%)> Lys(7.90%) > Glu(6.20%)=Gly(6.20%),其中 Val、Ala、Leu,Gly 均為非極性氨基酸,Glu、Asp 均為酸性氨基酸,Lys為堿性氨基酸。
對木質素生物合成途徑中另外兩種基因4CL和C3H所編碼的主要氨基酸進行統(tǒng)計分析,結果表明,不論在單子葉植物、雙子葉植物還是裸子植物中,4CL和C3H所編碼的最主要的氨基酸均為Val、Ala 與 Gly[9-10],均屬非極性氨基酸,與 CCR 編碼的主要氨基酸的種類一致,但4CL、C3H及CCR所編碼的含量最高的氨基酸的種類并不相同,CCR編碼的含量最高的氨基酸為Val,4CL編碼的含量最高的氨基酸為Ala,而C3H編碼的含量最高的氨基酸為Leu。
2.2.3 CCR基因編碼氨基酸理化性質的分析
采用ExPASy ProtParam對35條CCR基因編碼氨基酸的理化性質進行分析[8],結果表明,不同植物CCR基因編碼的氨基酸殘基數(shù)、分子質量、酸性/堿性氨基酸比例、蛋白質不穩(wěn)定性指數(shù)基本一致。在蛋白質的穩(wěn)定性中,除水稻的CCR蛋白為不穩(wěn)定蛋白外,其他植物的CCR蛋白均為穩(wěn)定性蛋白。
2.3.1 CCR蛋白導肽、信號肽的預測和分析
導肽是一段新合成的肽鏈攜帶的通過細胞膜進入細胞器的所必須的識別序列。采用TargetP 1.1 Server對35條CCR基因編碼的氨基酸序列進行預測和分析[11],結果表明其序列含葉綠體轉運肽及線粒體目標肽的分值均較低,無氨基酸殘基裂解位點,可靠性Ⅳ級,說明CCR蛋白不存在上述2種導肽。
信號肽位于蛋白質的N端,指導分泌性蛋白到內質網膜上合成,在蛋白質合成結束之前被切除,一般有16~26個氨基酸殘基,其中包括疏水核心區(qū)、信號肽的C端和N端。采用SignalP 4.0 Server對CCR蛋白的信號肽進行分析[12],結果表明,植物CCR蛋白無信號肽。
2.3.2 CCR蛋白跨膜結構域、亞細胞定位的預測和分析
跨膜結構域通常由20個左右的疏水性氨基酸殘基組成,主要形成α螺旋。采用TMHMM Server v.2.0軟件對35條CCR基因編碼氨基酸的跨膜結構域進行預測和分析[13]。結果表明,CCR蛋白不存在跨膜蛋白,大部分蛋白質位于膜內,但有一部分氨基酸殘基的肽段嵌入膜內。
對35條CCR基因編碼的氨基酸采用Post Prediction進行亞細胞定位[14],結果表明,65.7% 的CCR蛋白定位于質膜上、22.9%的定位于細胞質中、8.6%的定位于內質網上,另有2.9%的定位于細胞核上。由此推斷,在不同的植物體中,雖然CCR蛋白的定位有所不同,但絕大多數(shù)定位于質膜上,少數(shù)定位于細胞質中。
2.3.3 CCR蛋白親/疏水性的預測及分析
采用ExPASy ProtScale對35條CCR基因編碼的氨基酸序列分析[11],結果表明,其氨基酸序列中親水性氨基酸、疏水性氨基酸均勻的分布于整個肽鏈中,親水性氨基酸多于疏水性氨基酸,因此可認為CCR蛋白屬于親水性蛋白。
2.3.4 CCR基因編碼蛋白結構域的預測及分析
在NCBI的Conserved Domains數(shù)據(jù)庫中,對35條CCR基因進行分析,結果表明,與提交的序列最匹配的保守結構域模型為FR_SDR_e,其在相同的蛋白質序列中生成的重疊為NADB_Rossmann Superfamily(功能注釋為 Rossmann-fold NAD(P)(+)-binding proteins)。
同時,采用SMART對CCR蛋白氨基酸序列的功能結構域進行分析[15],結果表明,在蛋白的N端存在一個脫氫酶/差向異構酶/NAD結合蛋白的結構域,即與3Beta_HSD/Epimerase/NAD_binding_4等保守域具有很高的同源性(圖2)。
圖2 CCR蛋白結構域的預測Fig.2 Predicted domain sites of CCR
2.3.5 CCR蛋白活性位點、NADP結合位點及底物結合位點的預測和分析
酶的特殊催化能力只局限在大分子的一定區(qū)域,只有少數(shù)特殊的氨基酸殘基參與底物結合及催化作用,這些特異的氨基酸殘基比較集中的區(qū)域,即與酶活力直接相關的區(qū)域稱為酶的活性部位。酶的活性部位通常又分為結合部位和催化部位[5]。為了進一步了解CCR蛋白活性位點、NADP結合位點及底物結合位點在CCR中的分布,利用Cn3D對FR_SDR_e模型進行分析[16](圖3),結果表明擬南芥CCR1的活性位點分別位于第98位(A)、第122位(S)、第156位(Y)和第160位(K);NADP結合位點分別位于第12位(G)、第14位(G)、第15位(G)、第16位(F)、第17 位(I)、第36 位(V)、第 37位(R)、第62位(A)、第63位(D)、第 64 位(L)、第83位(T)、第84位(A)、第85位(S)、第86位(P)、第87位(M)、第120位(T)、第121位(S)、第156位(Y)、第 160位(K)、第 183位(P)、第 184位(V)、第185位(L)、第186位(V)和第198位(S);底物結合位點分別位于第87位(M)、第89位(D)、第122位(S)、第123位(I)、第124位(G)、第127位(Y)、第 156位(Y)、第 183位(P)、第 184位(V)、第185 位(L)、第198 位(S)、第201 位(H)、第215位(N)、第219位(V)和第285位(F)。
圖3 CCR蛋白活性位點、NADP結合位點及底物結合位點的預測A:FR_SDR_e模型;B:黃色表示活性位點;C:黃色表示NADP結合位點;D:黃色表示底物結合位點。Fig.3 The actice sites,NADP-building sites and substrate-building sites of CCR protein A:The model of FR_SDR_e;B:Yeoolow show active sites.C:Yellow shows NADP binding sites.D:Yellow shows substrate binding sites.
2.3.6 CCR蛋白三級結構的預測和分析
蛋白質要實現(xiàn)其催化等活性首先要正確的完成折疊,因此對蛋白多肽構成以及一級結構的分析遠遠不能滿足對蛋白酶功能的了解。蛋白質三級結構的分析,對理解蛋白質結構和功能之間的關系起了至關重要的作用。目前的X-ray和NMR等實驗技術預測蛋白質的結構代價相當高,隨著生物信息學的發(fā)展,用生物軟件預測蛋白質的結構變成現(xiàn)實[17]。采用Swiss-Model對植物CCR基因編碼蛋白質的三級結構進行同源建模,并用PyMOL對建模結果進行處理[18]。結果表明CCR蛋白的三維結構以α-螺旋和無規(guī)卷曲為主要的結構元件,延伸鏈分布于整個肽鏈之中(圖4)。
圖4 CCR蛋白三維結構模型的預測紅色:α-螺旋;黃色:β-折疊延伸鏈;綠色:無視卷曲Fig.4 Three-dimensional structure prediction of CCR protein Red:Alpha helix;Yelllow:Beta sheet extended strand;Green:Random coil
采用Swiss-Pdb Viewer分析擬南芥CCR1的同源建模結果,結果表明,預測的蛋白質殘基的二面角(ψ和φ)位于黃色核心區(qū)域(圖5),表明其空間結構穩(wěn)定,所以用同源建模的方法對植物CCR基因編碼的氨基酸序列進行上述建模的結果非常可靠。
圖5 擬南芥CCR1蛋白模型的拉氏構象圖Fig.5 Ramachandran plot prediction of CCR1 protein in Arabidopsis thaliana
本研究應用生物信息學手段,對NCBI數(shù)據(jù)庫中分別來自裸子植物、單子葉植物及雙子葉植物的35條CCR基因完整cDNA及其編碼氨基酸序列的組成成分、理化性質、保守序列、導肽、信號肽、跨膜結構域、親/疏水性,結構域及CCR蛋白的三級結構進行了預測和分析,構建了CCR基因的系統(tǒng)進化樹和CCR蛋白三級結構的模型。
分析結果表明,單子葉植物CCR基因GC含量,尤其是編碼區(qū)的GC含量較雙子葉植物的普遍偏高,這種現(xiàn)象不僅在CCR基因中如此,在對其他基因的研究中亦有發(fā)現(xiàn)[9-10],因此推測高的 GC含量可能是單子葉植物基因區(qū)別于雙子葉植物基因的一個典型特征。CCR基因GC含量在兩大類植物中的明顯差異可能與植物的進化過程和生存環(huán)境的差異有一定聯(lián)系[9];CCR基因的進化與植物的進化基本一致,但少數(shù)CCR基因的聚類和植物分類存在沖突,有研究表明基因的倍增和重組、水平的基因轉移等都是這種差異存在的原因[10];CCR基因編碼的氨基酸從N端到C端依次發(fā)現(xiàn)了9個保守區(qū)域,在反應中共同起催化還原的作用,但目前大多數(shù)的文獻中對KNWYCYGK這一保守區(qū)域報道較多,且認為這一區(qū)域在超二級結構上可形成βαβ結構,并推測它可能是CCR的催化位點,也可能是其輔因子NADPH的結合區(qū)域,尤其是其上的兩個賴氨酸殘基(K)可能直接與底物結合,但本文通過對已報道的35條CCR蛋白二級結構以及上述功能位點的分析發(fā)現(xiàn)KNWYCYGK在超二級結構上并不能形成βαβ結構,僅能形成一段α-螺旋和部分無規(guī)卷曲,其中僅有Y(N-端)、K(C-端)與CCR蛋白的催化位點、NADPH結合位點及底物結合位點K(C-端)有關。
CCR基因編碼氨基酸的理化性質基本一致,但不同植物中CCR基因編碼的主要氨基酸的種類和含量存在著差異;CCR基因與木質素合成過程中C3H、4CL基因與所編碼的主要氨基酸種類相同,均為Val、Ala及Gly,因此推測這3種氨基酸可能與木質素合成過程中相關的酶有重要聯(lián)系;不同植物CCR基因編碼的氨基酸殘基數(shù)、分子質量、酸性/堿性氨基酸比例、蛋白質不穩(wěn)定性指數(shù)基本一致;CCR蛋白無導肽、信號肽及跨膜結構域,屬親水性蛋白;主要定位于質膜上,少數(shù)定位于細胞質中,且通過對CCR蛋白跨膜結構的預測和分析結果可知,定位于質膜上的蛋白質主要以外在蛋白或脂錨定蛋白的形式存在,少數(shù)以整合蛋白的形式部分嵌入質膜中,另外,CCR蛋白質在核糖體上合成后,可能并不進行蛋白轉運,而是直接與質膜結合,或保留在細胞質基質中起催化還原的作用;CCR蛋白的N端存在一個脫氫酶/差向異構酶/NAD結合蛋白結構域,是其進行催化還原反應的主要部位;CCR蛋白三級結構模型的空間結構穩(wěn)定,建模結果可靠。分析結果對于深入研究CCR蛋白在木質素合成中的作用具有一定的指導意義。
References)
[1] Hano C,Addi M,Bensaddek L.Differential accumulation of monolignol-derived compounds in elicited flax(Linum usitatissimum)cell suspension cultures[J].Planta,2006,223(5):975 -989.
[2] 耿颯,徐存拴,李玉昌.木質素的生物合成及其調控研究進展[J].西北植物學報,2003,23(1):171 -181.
[3] Lacombe E,Hawkins S.Cinnamoyl CoA reductase,the first committed enzyme of the lignin branch biosynthetic pathway:cloning,expression and phylogenetic relationships[J].Plant Journal,1997,11(3):429 -441.
[4] 李金花,張綺紋,牛正田,盧孟柱,Carl J Douglas.木質素生物合成及其基因調控的研究進展[J].世界林業(yè)研究,2007,20(1):29-37.
[5] 薛慶中主編,DNA和蛋白質序列數(shù)據(jù)分析工具[M].第二版.北京:科學出版社,2009,72 -100.
[6] Kumar S,Tamura K,Nei M.Integrated software for molecular evolutionary genetics analysis and sequence alignment[J].Briefings in Bioinformatics,2004,5:150 -163.
[7] Doyle J J.Trees within trees:genes and species,molecules and morphology[J].Syst Biol,1997,46:537 -553.
[8] Kyce J,and Doolittle RF.A simple method for displaying the hydropathic character of a protein[J].Mol Biol,1982,157(6):105-132.
[9] 黃勝雄,胡尚連,孫 霞,曹 穎,盧學琴,蔣 瑤.木質素生物合成酶4CL基因的遺傳進化分析[J].西北農林科技大學學報(自然科學版),2008,36(10):199 -206.
[10] 薛永常,聶會忠,劉長斌.木質素合成酶C3H基因的生物信息學分析[J].生物信息學,2009,7(1):13-17.
[11] Emanuelsson O,Nielsen H,and Brunak S.Predicting subcellular localization of proteins based on their N-terminsl smino acid sequence[J].Mol Biol,2000,300(4):1005 -1016.
[12] Bendtsen J D,Nielsen H and Von Heijne G.Improved prediction of signal peptides:SingalP 4.0 [J].Mol Biol.,2004,340(4):783-795.
[13] Iked A M,Arai M,and Lao D M.Transmembrane topology prediction methods:a reassessment and improvement by a consensus method using a dataset of experimentally characterized transmembrane topologies[J].In Silico Biol,2002,2(1):19 -33.
[14] 劉旭光,張 杰編著,分子生物學軟件應用[M],第一版.北京:北京大學醫(yī)學出版社,2007:178.
[15] Page R D M,Charleston M A.From gene to organismal phylogeny:reconciled trees and the gene tree/species tree problem[J].Mol Phylogenet Evol,1997,7:231 -240.
[16] 付海輝,辛培堯,許玉蘭,劉 巖,韋援教,董 嬌,曹有龍,周,軍.幾種經濟植物UFGT基因的生物信息學分析[J].基因組學與應用生物學,2010,30(1):92 -102.
[17] Arnold K,Bordoli L,Kopp J,Schwede T.The SWISS - MODEL workspace:A web-based environment for protein structure homology modeling[J].Bioinformatics,2006,22(2):195 -201.
[18] Laskowski R A,Macarthur M W,Moss D S,Thornton J M.PROCHECK:A program to check the stereo chemical quality of protein structures[J].Appl.Cryst.,1993,26(2):283 -291.