李欣穎,白鳳蘭
(大連交通大學(xué)理學(xué)院,遼寧 大連116028)
本文從文獻(xiàn)[15-18]中選取了83個蛋白質(zhì),氨基酸序列從PDB庫取得[19]。在選取44個蛋白質(zhì)中包括13個全α類蛋白質(zhì),18個全β類蛋白質(zhì)和13個混合類蛋白質(zhì),以及39個未分類蛋白質(zhì)。
氨基酸的標(biāo)準(zhǔn)化屬性Pnorm(i)的計算公式為:
其中,Pnorm(i)是氨基酸的標(biāo)準(zhǔn)化屬性,P(i)是氨基酸序列中第i個殘基的屬性,Pmax和Pmin分別表示氨基酸屬性中的最大值和最小值。
蛋白質(zhì)序列中氨基酸的平均屬性Pave的計算公式:
其中,Pave是蛋白質(zhì)的氨基酸平均屬性,P(j)是氨基酸序列中第j個殘基的屬性,N是氨基酸序列的殘基數(shù)。
蛋白質(zhì)序列的復(fù)雜度LZc計算公式:
蒙牛在2012年的經(jīng)營活動中發(fā)現(xiàn)到自己在乳制品方面最大的短板就是嬰幼兒奶粉,在2012年中國嬰幼兒奶粉的市場里,雅士利排第七名,在2012年雅士利擁有5.8%的市場份額,嬰幼兒奶粉產(chǎn)品發(fā)展已經(jīng)非常成熟,擁有成熟的技術(shù)、產(chǎn)品和市場,蒙牛在擴(kuò)大自己經(jīng)營規(guī)模的時候,打開了自己在奶粉產(chǎn)品的市場,基本上把自己的缺陷彌補(bǔ)了,同時蒙牛又可以彌補(bǔ)雅士利在企業(yè)管理上的不足。蒙牛與雅士利的合并控股是一個雙贏的局面,整體的價值都得到了提升。
其中,S表示的是序列,c(S)是序列S的復(fù)雜度[11]。
20 個氨基酸 αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、Mu、El屬性利用公式(1)計算出標(biāo)準(zhǔn)化后的值。
其中,αc是 α 螺旋的 C 端動力[20-21],Cα是 α螺旋接觸面積[15],K0是可壓縮性[22-23],Pβ是 β 折疊趨勢[21],Ra是在溶劑中的收縮率[24],ΔASA 是溶劑可及表面積[25],PI(at 25℃)表示氨基酸的等電點[26],ΔGhD是吉布斯自由能變性蛋白水化的變化Nm是平均中程接觸,Mu是折射率,EL是長距離的非鍵能[15]。
利用20個氨基酸標(biāo)準(zhǔn)化后的值和公式(2)、(3)計算了13個全α類蛋白質(zhì),18個全β類蛋白質(zhì)和 13 個混合類蛋白質(zhì) αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、LZc、Mu、EL 的特征值,以及 39 個蛋白質(zhì)的 K0、Rα、ΔASA、Mu、El的特征值,由于數(shù)據(jù)多沒列在文章里。
首先,利用多元線性回歸函數(shù)分別計算了13個全α類蛋白質(zhì)、18個全β類蛋白質(zhì)、13個混合類蛋白質(zhì)和未分類的39個蛋白質(zhì)的12種特征值與折疊速率之間的相關(guān)性,實驗值與預(yù)測值之間的相關(guān)系數(shù)分別達(dá)到了 0.99、0.96、0.99、0.865,但是用 Jackknife方法檢驗,都得出p>0.05。由此可知,12種特征值當(dāng)中某些特征值對蛋白質(zhì)的折疊速率沒有影響,這樣經(jīng)過多次試驗,對于全α類蛋白質(zhì)選取有效特征值Cα、Ra、LZc,對于全 β 類蛋白質(zhì)選取有效特征值 K0、Pβ、Ra、ΔASA、Nm,對于混合類蛋白質(zhì)選取有效特征值K0、ΔASA、PI,對于未分類的蛋白質(zhì)選取有效特征值 K0、Rα、ΔASA、Mu、El,計算這些特征值與折疊速率ln(kf)之間的相關(guān)性。
其次,分別對全α類蛋白質(zhì)、全β類蛋白質(zhì)、混合類蛋白質(zhì)和未分類的蛋白質(zhì)的有效特征值與折疊速率做相關(guān)性分析,并與其它方法進(jìn)行比較。
選取13個全α類蛋白質(zhì)Cα、Ra、LZc3個特征值與折疊速率ln(kf)做回歸方程:
用p值檢驗了方程(4)每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗,得出R=0.77、t=4.04、p <0.05。
Gromiha文章中選取了6個全α類蛋白質(zhì)的1個特征值αc作線性回歸,本文在6個數(shù)據(jù)的基礎(chǔ)上增加到13個全α類蛋白質(zhì),用特征值αc作線性回歸,得到回歸方程:
本文用p值檢驗了得到的方程(5),p>0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.03,t=-0.097。在選取13個全α類蛋白質(zhì)的Cα、Ra、LZc3個特征值中,得到回歸方程的相關(guān)系數(shù)為0.89,說明選取的特征值Cα、Ra、LZc對全α類蛋白質(zhì)有影響。對比結(jié)果見表1。
表1 全α類蛋白質(zhì)回歸分析結(jié)果Table 1 The results of all-α proteins regression analysis
選取 18 個全 β 類蛋白質(zhì)的 K0、Pβ、Ra、ΔASA、Nm5個特征值與折疊速率ln(kf)做回歸方程:
用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.93。用Jack-knife方法檢驗,得出 R=0.78、t=4.93、p <0.001。
同樣18個全β類蛋白質(zhì),選取Gromiha文章中的 K0、Pβ、Ra、ΔASA4 個特征值作線性回歸,得到方程:
用p值檢驗了以上方程的每一項特征值,其對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗,得出R=0.73、t=4.28、p < 0.001。這說明本文選取的特征值 K0、Pβ、Ra、ΔASA、Nm對全 β 類蛋白質(zhì)有影響。對比結(jié)果見表2.
表2 全β類蛋白質(zhì)回歸分析結(jié)果Table 2 The results of all-β proteins regression analysis
選取13個混合類蛋白質(zhì) K0、ΔASA、PI三個特征值與折疊速率ln(kf)做回歸方程:
用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.98。用Jack-knife方法檢驗,得出R=0.97、t=13.46、p <0.001。
同樣的13個混合類蛋白質(zhì),選取Gromiha文章中的 K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸,得到方程:
用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.96。用Jack-knife方法檢驗,得出 R=0.91、t=7.07、p <0.001。這說明本文選取的特征值K0、ΔASA、PI對混合類蛋白質(zhì)有影響。對比結(jié)果見表3。
表3 混合類蛋白質(zhì)回歸分析結(jié)果Table 3 The results of mixed class proteins regression analysis
對于未分類的39個蛋白質(zhì),選取5個特征值K0、Rα、ΔASA、Mu、El與折疊速率 ln(kf)作回歸方程:
用p值檢驗了以上方程的每一項特征值,每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.86,用 Jack-knife 方法檢驗,得出 R=0.81、t=8.32、p<0.001。
同樣的39個未分類蛋白質(zhì),選取Gromiha文章中的K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸,得到方程:
用p值檢驗了以上方程的每一項特征值,其對應(yīng)的p值都大于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.697。用 Jack-knife 方法檢驗,得出 R=0.48、t=3.37、p > 0.001。這說明選取的特征值 K0、Rα、ΔASA、Mu、El對未分類蛋白質(zhì)有影響。對比結(jié)果見表4。
表4 未分類蛋白質(zhì)回歸分析結(jié)果Table 4 The results of unclassified proteins regression analysis
通過實驗計算得出,對于未分類蛋白質(zhì)選取5個特征值 K0、Rα、ΔASA、Mu、El計算蛋白質(zhì)折疊速率預(yù)測值,與ln(kf)有良好的相關(guān)性。
對于不同類別的蛋白質(zhì),其折疊速率有很大的區(qū)別。本文研究不同的特征值對不同類別的蛋白質(zhì)折疊速率的影響,以及特征值對未分類蛋白質(zhì)折疊速率的影響。從本文的實驗結(jié)果發(fā)現(xiàn),Cα、Ra、LZc3個特征值對全α類蛋白質(zhì)折疊有一定的影響,對于全β類蛋白質(zhì),在Gromiha文章選取的4個特征值基礎(chǔ)上增加了Nm特征值,使得全β類蛋白質(zhì)的折疊速率有所提高,相關(guān)系數(shù)達(dá)到0.93。為了說明Nm特征值對全β類蛋白質(zhì)的折疊速率有影響,本文又選取了13個數(shù)據(jù)進(jìn)行驗證。由實驗結(jié)果可知,在增加Nm特征值后全β類蛋白質(zhì)的折疊速率確實有所提高(見表2)。由此可見,增加的特征值是有效特征值。對于混合類蛋白質(zhì),本文選取了3個特征值K0、ΔASA、PI其相關(guān)系數(shù)比Gromiha文章選取特征值得到的相關(guān)系數(shù)要高(見表3)。由研究結(jié)果發(fā)現(xiàn),特征值K0、ΔASA對全β類蛋白質(zhì)和混合類蛋白質(zhì)的折疊速率都有影響。選取 K0、Rα、ΔASA、Mu、El5個特征值對未分類的蛋白質(zhì)的折疊有一定的影響。
蛋白質(zhì)在生物體內(nèi)占有重要的地位,是一個生物大分子,由20個氨基酸以肽鍵的形式形成肽鏈。肽鏈在空間結(jié)構(gòu)中通過卷曲形成特定的空間結(jié)構(gòu),如二級結(jié)構(gòu)和三級結(jié)構(gòu)。氨基酸殘基及周圍介質(zhì)之間的相互作用決定了蛋白質(zhì)的結(jié)構(gòu)和折疊速率。由于蛋白質(zhì)折疊速率對蛋白質(zhì)功能有一定的影響,近些年來,已有很多方法來預(yù)測蛋白質(zhì)折疊速率。有很多研究工作者從蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)來進(jìn)行預(yù)測蛋白質(zhì)的折疊速率,但是由于蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)影響因子單一,結(jié)構(gòu)復(fù)雜,因此越來越多的研究工作者們開始從蛋白質(zhì)的一級結(jié)構(gòu)來預(yù)測蛋白質(zhì)的折疊速率。本文就是研究蛋白質(zhì)的一級結(jié)構(gòu)信息對蛋白質(zhì)折疊速率的影響,運用生物統(tǒng)計學(xué)和生物信息學(xué)的方法,選取了蛋白質(zhì)編碼序列的一些特征值,通過實驗驗證了這些特征值對不同類別的蛋白質(zhì)折疊速率的影響不同。
本文對于全α類蛋白質(zhì),全β類蛋白質(zhì),混合類蛋白質(zhì)和未分類蛋白質(zhì)分別得到4個線性回歸方程。利用這些回歸方程研究了所選取的特征值與蛋白質(zhì)折疊速率之間的相關(guān)性,得到了較好的結(jié)果,比Gromiha文章選取的特征值相關(guān)系數(shù)都有所提高。不同的數(shù)據(jù)集對結(jié)果有一定的影響,如何減少數(shù)據(jù)集對結(jié)果的影響會在后續(xù)工作中進(jìn)行更深入研究。
References)
[1] GUO Jianxiu,MA Binguang,ZHANG Hongyu.Progress in protein folding rate prediction[J],Acta Biophysica Sinica,2006,22(2):89 -95.郭建秀,馬彬廣,張紅雨.蛋白質(zhì)折疊速率預(yù)測研究進(jìn)展[J],生物物理學(xué)報,2006,22(2):89-95.
[2] GROMIHA M M,SELVARAJ S.Bioinformatics approaches for understanding and predicting protein folding rates[J].Current Bioinformatics,2008,3(1):1-9.
[3] PLAXCO K W,SIMONS K T,BAKER D.Contact order,transition state placement and the refolding rates of single domain proteins[J].Journal of Molecular Biology,1998,277(4):985-944.
[4] ZHOU H,ZHOU Y.Folding rate prediction using total contact distance[J].Biophysical Journal,2002,829(1),458-463.
[5] GONG H,ISOM D G,SRINIVASAN R,et al.Local secondary structure content predicts folding rates for simple two-state proteins[J].J Mol Biol,2003,327(5):1149-1154.
[6] IVANKOV D N,F(xiàn)INKELSTEIN A V.Prediction of protein folding rates from the amino acid sequence-predicted secondary structure[J].Proc Nat Acad Sci USA,2004,101(24):8942-8944.
[7] SHAO H,PENG Y,ZENG Z H.A simple parameter relating sequences with folding rates of small helical proteins[J].Protein Pept Lett,2003,10(3):277 -280.
[8] GALZITSKAYA O V,GARBUZYNSKIY S O,IVANKOV D N,et al.Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics[J].Proteins,2003,51(2):162 -166.
[9] 徐宏睿,馬彬廣.蛋白質(zhì)折疊速率決定因素與預(yù)測方法的研究進(jìn)展[J],生物物理學(xué)報,2013,29(3):192-202.XU Hongrui,MA Binguang.Progress in the study on determinants of protein folding rate and method of folding rate prediction[J].Acta Biophysica Sinica,2013,29(3):192-202.
[10] MA B G,GUO J X,ZHANG H Y.Direct correlation between proteins'folding rates and their amino acid compositions:an ab initio folding rate prediction[J].Proteins,2006,65(2):362 -372.
[11] HUANG J T,XING D J,HUANG W.Relationship between protein folding kinetics and amino acid properties[J].Amino Acids,2012,43:567 -572.
[12] GROMIHAM M,THANGAKANI A M,SELVARAJ S.FOLD-RATE:prediction of protein folding rates from amino acid sequence[J].Nucleic Acids Res,2006,34(suppl_2):70-74.
[13] HUANG L T,GROMIHA M M.Analysis and prediction of protein folding rates using quadratic response surface models[J].J Comput Chem,2008,29(10):1675 -1683.
[14] GOU J X,RAO N N,LIU G X,et al.Predicting protein folding rate from amino acid sequence[J].Prog Biochem Biophys,2011,37(12):1331 -1338.
[15] GROMIHA M M.A statistical model for predicting protein folding rates from amino acid sequence with structural class information[J].Chem Inf Model,2005,45(2):494-501.
[16]于志芬,李瑞芳.同義密碼子的使用偏好性對蛋白質(zhì)折疊速率的影響[J],生物物理學(xué)報,2013,29(8):603-613.YU Zhifen,LI Ruifang.The influence of synonymous codon bias on protein folding rates[J].Acta Biophysica Sinica,2013,29(8):603 -613.
[17]胡睿,史小紅,李晉惠.基于序列疏水值震蕩的折疊速率預(yù)測[J].生物信息學(xué),2013,11(2):86 -89.HU Rui,SHI Xiaohong,LI Jinhui.Prediction of protein folding-rate based on the hydrophobic value vibration[J].Chinese Journal of Bioinformatics,2013,11(2):86 -89.
[18]胡睿,史小紅,基于殘基接觸數(shù)的蛋白質(zhì)折疊速率預(yù)測[J].西安工業(yè)大學(xué)學(xué)報,2013,33(2):146 -150.HU Rui,SHI Xiaohong.Prediction of protein folding-rate based on the residues contact numbei[J].Journal of Xi’an Technological University,2013,33(2):146 -150.
[19] BEMAN H M,WESTBROOK J,F(xiàn)ENG Z,et al.The protein Databank[J].Nucleic Acids Res,2000,28(1):235-242.
[20]GROMIHA M M,SARAI O A.Important amino acid properties for enhanced thermostability from mesospheric to hemophilic protein[J].Biophys Chem,1999,82:51 -67.
[21] CHOU P Y,F(xiàn)ASMAN G D.Prediction of the secondary structure of proteins from their amino acid sequence[J].Adv Enzym,1978,47:45 -148.
[22] IQBAL M,VERRALL R E.Implications of protein folding.Additivity schemes for volumes and compressibilities[J].Biol Chem,1988,263(9):4159 -4165.
[23]GEKKO K,NOGUCHI H.Compressibility of globular proteins in water at 25 degree C[J].Phys Chem,1979,83(21):2706-2714.
[24] PONNUSWAMY P K,PRABHAKARAN M,MANAVALAN P.Hydrophobic packing and spatial arrangement of amino acid residues in globular proteins[J].Biochim Biophys Acta,1980,623(2):301 -316.
[25] OOBATAKE M,OOI T.Hydration and heat stability effects on protein unfolding[J].Prog Biophys Mol Biol,1993,59(3):237 -284.
[26]李丹,基于蛋白質(zhì)圖形表示的膜蛋白跨膜區(qū)預(yù)測[D].杭州:浙江理工大學(xué),2012.LI Dan.The prediction oftransmembrane domains based on the graphical representation of protein sequences[D].HANG zhou:Zhejiang Sci-Tech University,2012.