趙志新,鹿鵬鵬,2,王 通
(1.商洛學(xué)院生物醫(yī)藥與食品工程學(xué)院,陜西 商洛 726000;2.海南大學(xué)熱帶農(nóng)林學(xué)院,海南 ???570228)
【前人研究進(jìn)展】作為植物次生代謝的重要產(chǎn)物,三萜皂苷在自然界中廣泛存在,尤其是以雙子葉植物中的分布最多,目前主要在人參[1]、桔梗[2]等植物中的研究比較成熟。而在動物體內(nèi)也發(fā)現(xiàn)少數(shù)三萜類成分,并且在海洋生物中如海參、軟珊瑚中也得到各種類型的三萜類化合物[3]。三萜皂苷也是部分中藥材中的重要主要成分,極具有很大的藥用商業(yè)價值[4]。三萜皂苷的結(jié)構(gòu)與生物合成過程比較復(fù)雜,在植物中的合成關(guān)鍵酶也比較多,已經(jīng)成為研究三萜皂苷中的一個熱點(diǎn),其中之一的重要關(guān)鍵酶就是細(xì)胞色素P450 (Cytochrome P450, CYP450),同時也是植物三萜皂苷合成代謝中的一個重要的限速酶[5]。利用當(dāng)今的生物手段對該系列關(guān)鍵酶序列進(jìn)行生物信息學(xué)分析,從基因的水平進(jìn)行研究已成為了一種趨勢[6]?!狙芯恳饬x】作為三萜合成通路關(guān)鍵酶,細(xì)胞色素P450基因的克隆使植物內(nèi)代謝調(diào)控機(jī)制和植物抗病機(jī)理深入到分子水平,為在分子水平探討三萜皂苷生物合成機(jī)理及其在植物中的應(yīng)用具有重要意義[7]。【本研究切入點(diǎn)】本文主要是利用生物信息學(xué)工具,查找已經(jīng)公布的植物中的細(xì)胞色素P450基因數(shù)據(jù),對其理化性質(zhì)、開放閱讀框、蛋白質(zhì)信號肽、蛋白二級結(jié)構(gòu)、保守結(jié)構(gòu)域及進(jìn)化關(guān)系等方面進(jìn)行研究。【擬解決的關(guān)鍵問題】以便更加深入的理解細(xì)胞色素P450的蛋白特性,并預(yù)測不同植物之間細(xì)胞色素P450的親緣關(guān)系,為以后研究細(xì)胞色素P450酶學(xué)特征及三萜皂苷代謝提供借鑒。
檢索有關(guān)植物細(xì)胞色素P450的文獻(xiàn)資料,并從NCBI中查找并下載已公布的植物的相關(guān)基因序列,共獲得包括白菜等21種植物的23條序列(表1)。
細(xì)胞色素P450氨基酸序列的理化性質(zhì)分析使用Expasy網(wǎng)站提供的的ProtParam在線工具(https://web.expasy.org/protparam/);ORF預(yù)測分析利用NCBI中的ORF查詢工具ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder/);同時利用SignalP4.1在線工具(http://www.cbs.dtu.dk/services/SignalP/)分析研究細(xì)胞色素P450是否含有信號肽;利用SOPMA軟件預(yù)測分析細(xì)胞色素P450的潛在二級結(jié)構(gòu)(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html);CYP450保守結(jié)構(gòu)域的預(yù)測分析使用NCBI數(shù)據(jù)庫中的CDD工具(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi);最后通過MEGA6.0軟件構(gòu)建系統(tǒng)進(jìn)化樹。
表1 獲得的植物細(xì)胞色素P450信息
由表2可以看出,這23條序列的長度除擬南芥(>3000 bp)外,其余均在1000~2800 bp;氨基酸數(shù)目除人參(709)外,其余的大多在500左右;pI值除人參為5.29和擬南芥3為5.11以外,其余均大于6;不穩(wěn)定指數(shù)都在40左右;脂肪指數(shù)在92左右;Leu、Ala、Glu、Lys、Gly是所有植物中含量最為豐富的氨基酸,而Pyl和Sec為所選植物中都不存在的氨基酸。
表2 細(xì)胞色素P450的氨基酸理化性質(zhì)
續(xù)表2 Continued table 2
植物種類基因全長(bp)氨基酸數(shù)目原子總數(shù)分子量(KD)正電荷殘基(Arg+Lys)負(fù)電荷殘基(Asp+Glu)pI含量最豐富氨基酸(%)不含有氨基酸穩(wěn)定指數(shù)脂肪指數(shù)秈稻1690516817857.8462627.28Leu(12.6) Ala(11.0) Arg(10.1)Pyl Sec51.57(不穩(wěn)定)97.77煙草2759517838559.3164666.59Leu(10.3) Lys(7.5) Val(7.2)Pyl Sec30.63(穩(wěn)定)90.87擬南芥14980525842259.3664666.55Leu(10.3) Glu(7.4) Ile(7.4) Pyl Sec49.86(不穩(wěn)定)94.47擬南芥23028491799056.1564549.26Leu(11.2) Ser(9.0) Lys(8.1) Pyl Sec49.54(不穩(wěn)定)95.44擬南芥347026921074576.77761065.11Leu(9.2) Ala(9.0) Glu(8.2) Pyl Sec33.15(穩(wěn)定)83.18銀杏2025485770154.8457606.59Leu(10.9) Ala(7.8) Glu(7.8) Pyl Sec38.89(穩(wěn)定)82.91紫茉莉1485495791455.8854576.44Leu(11.5)Ile(6.9) Val(6.7) Pyl Sec39.77(穩(wěn)定)97.29
利用ORFfinder在線工具對不同植物細(xì)胞色素P450核酸序列進(jìn)行ORF(開放閱讀框)預(yù)測,結(jié)果見表3。
除了擬南芥(<400 bp)和人參(2130 bp)以外,其余植物的細(xì)胞色素P450的ORF長度均在1000~1600 bp,而擬南芥可能由于蛋白編輯剪切不同,所以稍有差異。從上面這些也可以看出,細(xì)胞色素P450的ORF也存在一定的保守性。
表3 不同植物的細(xì)胞色素P450核酸序列的ORF分析
圖1 龍膽的信號肽預(yù)測Fig.1 Signal peptide prediction in G. rigescens
圖2 胡椒薄荷的信號肽預(yù)測Fig.2 Signal peptide prediction in M. piperita
使用Signal P 4.1 Server在線工具首先對龍膽的細(xì)胞色素P450序列中的信號肽進(jìn)行分析(圖1)。龍膽的細(xì)胞色素P450蛋白序列中不存在信號肽,并且從圖1中可以看出,S值和Y值都是比較低的,所以推斷龍膽的細(xì)胞色素P450蛋白經(jīng)過核糖體合成后,所得到的蛋白質(zhì)為非分泌蛋白。同時其它10條序列(大麥、陸地棉、羅漢果、落葵、擬南芥1-3、人參、蕪菁和彩虹菊)的預(yù)測分析結(jié)果與龍膽類似,即都不具有信號肽。
圖3 美洲商陸的信號肽預(yù)測Fig.3 Signal peptide prediction in P. Americana
從圖2可知,雖然S-score在20~30氨基酸位置在閾值(粉色的橫線)上方,但C-score和Y-score不顯著,故軟件顯示胡椒薄荷CYP450的細(xì)胞色素P450蛋白中也無信號肽。通過對另外的8條序列(金銀花、梨果仙人掌、羅勒、秈稻、煙草、銀杏、紫茉莉和白菜)進(jìn)行分析得到與胡椒薄荷相近的結(jié)果,即無信號肽。
由圖3可以看出,S值和Y值以及C值在20~30的區(qū)間中均超出所設(shè)定的閥值, 軟件顯示在氨基酸22~23位置存在信號肽。因此可以進(jìn)一步推測美洲商陸的細(xì)胞色素P450蛋白通過核糖體合成之后,生成的蛋白質(zhì)屬于分泌蛋白。另外有2條序列(甜菜和甜椒)分析得到的結(jié)果與美洲商陸相近,即有信號肽。
表4 不同植物細(xì)胞色素P450二級結(jié)構(gòu)元件比例
續(xù)表4 Continued table 4
植物α-螺旋(%)無規(guī)則卷曲(%)延伸鏈(%)β-轉(zhuǎn)角(%)甜椒53.8030.8010.534.87彩虹菊49.7133.2711.745.28蕪菁52.4732.8910.274.37秈稻49.2233.9111.825.04煙草43.9138.3014.123.68擬南芥145.0437.2113.174.58擬南芥247.2536.0512.634.07擬南芥343.7938.4413.584.19銀杏46.3934.8514.234.54紫茉莉49.4033.5411.315.25
從表4可以看出,這23條序列的二級結(jié)構(gòu)具有明顯的一致性,即α-螺旋最高為50 %左右,其次為無規(guī)則卷曲為35 %左右,然后是延伸鏈15 %~8 %,最低的為β-轉(zhuǎn)角5 %左右。從而可知,α-螺旋和無規(guī)則卷曲是植物細(xì)胞色素P450多肽鏈中主要存在的結(jié)構(gòu)元件,并且分散在整個多肽鏈中。
利用NCBI提供的CDD(Conserved Domain Database)在線工具對23條序列的蛋白質(zhì)保守結(jié)構(gòu)域進(jìn)行分析。
表5 不同植物的細(xì)胞色素P450保守結(jié)構(gòu)域
圖4 Maximum Likelihood算法所構(gòu)建的進(jìn)化樹Fig.4 The phylogenic tree based on Maximum Likelihood algorithm
由表5可以看出,植物細(xì)胞色素P450主要為P450超家族,除了人參和擬南芥3,后二者屬于FNR和FMN超家族,同時大麥有段序列(428~530)為Atrophin-1超家族。并且E-值具有極大的統(tǒng)計顯著性,故可以判斷大多數(shù)植物細(xì)胞色素P450其實(shí)同屬于P450超家族,這與細(xì)胞色素P450具有較高的保守性相一致。
使用MEGA6.0系統(tǒng)進(jìn)化樹,分別使用4種不同算法(Maximum Likelihood、Neighbor-joining、Minimum Evolution Tree和Maximum Parsimony算法)以便比較所構(gòu)建的進(jìn)化樹,更進(jìn)一步地明確它們之間的親緣進(jìn)化關(guān)系。
2.6.1 Maximum Likelihood Tree算法 依據(jù)Maximum Likelihood算法(圖4),21種植物的23條序列可以劃分為4類,分別為彩虹菊與大麥、擬南芥1、人參和銀杏及剩余的18條序列。除了這彩虹菊等5條序列距離差異較大之外,剩余的18條序列距離差異都較小,顯示這18條序列進(jìn)化上差異較小,說明細(xì)胞色素P450在進(jìn)化上有較高的保守性。
2.6.2 Neighbor-joining Tree與Minimum Evolution Tree算法 從圖5和圖6可以看出,這2種算法所構(gòu)建的進(jìn)化樹一致,說明這2種算法所得進(jìn)化樹對這21種植物的23條序列沒有差異。同時可以看出,這23條序列遺傳距離差異不大,綜合來看可以分為4類,第一類為白菜、蕪菁、人參、擬南芥1和擬南芥3,第二類包括陸地棉、羅漢果、大麥、龍膽、胡椒薄荷和秈稻,第三類為落葵、擬南芥2、甜椒和銀杏,最后一類有彩虹菊、金銀花、羅勒、甜菜、美洲商陸、梨果仙人掌和紫茉莉。
圖5 Neighbor-joining算法所構(gòu)建的進(jìn)化樹Fig.5 The phylogenic tree based on Neighbor-joining algorithm
圖6 Minimum Evolution Tree算法所構(gòu)建的進(jìn)化樹Fig.6 The phylogenic tree based on Minimum Evolution algorithm
圖7 Maximum Parsimony算法所構(gòu)建的進(jìn)化樹Fig.7 The phylogenic tree based on Maximum Parsimony algorithm
2.6.3 Maximum Parsimony Tree(s) 算法 使用Maximum Parsimony算法(圖7)可以看出,這23條序列中梨果仙人掌和紫茉莉、羅勒和甜菜、白菜和蕪菁、擬南芥1和擬南芥3、落葵和甜椒它們兩兩之間距離最近,而擬南芥2與其余22條序列距離最遠(yuǎn)。
但綜合來看,這23條序列總體距離比較接近,并且Maximum Parsimony算法所得結(jié)果與Neighbor-joining Tree和Minimum Evolution Tree算法結(jié)果比較相近,說明細(xì)胞色素P450序列總體變異不大,進(jìn)化上比較保守。而Maximum Likelihood Tree算法所得結(jié)果與其他3種算法差異較大,說明此算法可能不太適合于植物細(xì)胞色素P450系統(tǒng)進(jìn)化樹的構(gòu)建,同時也表明算法對進(jìn)化樹構(gòu)建結(jié)果影響較大,要審慎選擇不同的進(jìn)化樹構(gòu)建算法。
本文首先檢索并收集了21種植物共23條細(xì)胞色素P450序列,然后利用生物信息學(xué)工具對細(xì)胞色素P450理化性質(zhì)、蛋白特性及進(jìn)化親緣關(guān)系進(jìn)行了較為全面的分析。從理化特性方面可以看出,這23條序列在基因序列長度、氨基酸數(shù)目,pI及富含與不含有的氨基酸方面,均表現(xiàn)出較強(qiáng)的一致性,顯示細(xì)胞色素P450在植物中具有高度的保守性,這與細(xì)胞色素P450為三萜皂苷代謝的關(guān)鍵酶的特性相符合[8]。對于ORF(開放閱讀框)的分析顯示,大多數(shù)植物的ORF在1000~1600 bp,說明細(xì)胞色素P450的表達(dá)蛋白長度較接近,這與理化性質(zhì)分析的結(jié)果也相一致。蛋白信號肽預(yù)測分析表明,23條序列中只有3條序列(美洲商陸、甜菜和甜椒)具有明確的信號肽,推測這3種植物的細(xì)胞色素P450蛋白通過核糖體合成之后,生成的蛋白質(zhì)屬于分泌蛋白;同時研究發(fā)現(xiàn)細(xì)胞內(nèi)的細(xì)胞色素P450主要存在于合成蛋白質(zhì)的平滑內(nèi)質(zhì)網(wǎng)和線粒體上,并且主要負(fù)責(zé)內(nèi)源性底物和外源性化合物的氧化還原過程[9],說明大多數(shù)細(xì)胞色素P450不需要分泌轉(zhuǎn)運(yùn)到外部,這與我們的分析結(jié)果相符合。二級結(jié)構(gòu)預(yù)測表明這23條序列具有明顯的一致性,并且α-螺旋和無規(guī)則卷曲是細(xì)胞色素P450多肽鏈中主要存在的結(jié)構(gòu)元件,并且分散在整個多肽鏈中。保守結(jié)構(gòu)域結(jié)果顯示大多數(shù)植物細(xì)胞色素P450其實(shí)同屬于P450超家族,這與其他人的研究結(jié)果相一致[8]。雖然這23條序列來源于不同的植物科屬,并且系統(tǒng)進(jìn)化樹呈現(xiàn)較多的小分支,但由于氨基酸序列總體比較相似,因此進(jìn)化樹在也表現(xiàn)出距離差異較小的特點(diǎn)。這些較小距離的出現(xiàn)可能是在植物進(jìn)化過程中存在著核苷酸的變異,從而使氨基酸產(chǎn)生了一定的轉(zhuǎn)變,但總的來說細(xì)胞色素P450序列是比較保守的[10]。因?yàn)槊傅墓δ鼙憩F(xiàn)最終是催化代謝反應(yīng),對于藥用植物來說與有效成分的生成或積累相關(guān),本研究顯示細(xì)胞色素P450在保守結(jié)構(gòu)域和進(jìn)化中都顯示較高的保守性,因此建議下一步研究與該酶表達(dá)相關(guān)的三萜皂苷產(chǎn)物是否也有類似的特性,以指導(dǎo)人們開發(fā)和利用相近的植物資源。
綜合6種不同的生物信息學(xué)工具對21種植物的23條細(xì)胞色素P450的研究表明,這21種植物的細(xì)胞色素P450蛋白特性差別不大,進(jìn)化距離也比較近,顯示細(xì)胞色素P450具有較高的保守性和穩(wěn)定性。同時許多基因組數(shù)據(jù)表明,糖基轉(zhuǎn)移酶基因在進(jìn)化上不是獨(dú)立的,而是與其他基因有較強(qiáng)的關(guān)聯(lián)性;同時代謝途徑中存在基因共調(diào)節(jié)和蛋白相互作用[11]。對細(xì)胞色素P450蛋白特性及親緣關(guān)系的解析能夠更清楚的揭示酶的保守結(jié)構(gòu)域及進(jìn)化變異,為進(jìn)行基因工程改造和分子進(jìn)化研究提供借鑒。本文對細(xì)胞色素P450的生物信息學(xué)分析,也可為研究細(xì)胞色素P450酶學(xué)特征及三萜皂苷代謝提供幫助。