亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

蛋白質(zhì)序列的混合特征值對折疊速率的影響

2014-11-14 07:11:06李欣穎白鳳蘭

生物信息學(xué) 2014年3期

關(guān)鍵詞：回歸方程特征值預(yù)測值

李欣穎，白鳳蘭

(大連交通大學(xué)理學(xué)院，遼寧大連116028)

1 材料和方法

1.1 數(shù)據(jù)

本文從文獻(xiàn)［15－18］中選取了83個蛋白質(zhì)，氨基酸序列從PDB庫取得［19］。在選取44個蛋白質(zhì)中包括13個全α類蛋白質(zhì)，18個全β類蛋白質(zhì)和13個混合類蛋白質(zhì)，以及39個未分類蛋白質(zhì)。

1.2 蛋白質(zhì)編碼序列的特征值提取

氨基酸的標(biāo)準(zhǔn)化屬性Pnorm(i)的計算公式為:

其中，Pnorm(i)是氨基酸的標(biāo)準(zhǔn)化屬性，P(i)是氨基酸序列中第i個殘基的屬性，Pmax和Pmin分別表示氨基酸屬性中的最大值和最小值。

蛋白質(zhì)序列中氨基酸的平均屬性Pave的計算公式:

其中，Pave是蛋白質(zhì)的氨基酸平均屬性，P(j)是氨基酸序列中第j個殘基的屬性，N是氨基酸序列的殘基數(shù)。

蛋白質(zhì)序列的復(fù)雜度LZc計算公式:

蒙牛在2012年的經(jīng)營活動中發(fā)現(xiàn)到自己在乳制品方面最大的短板就是嬰幼兒奶粉，在2012年中國嬰幼兒奶粉的市場里，雅士利排第七名，在2012年雅士利擁有5.8%的市場份額，嬰幼兒奶粉產(chǎn)品發(fā)展已經(jīng)非常成熟，擁有成熟的技術(shù)、產(chǎn)品和市場，蒙牛在擴(kuò)大自己經(jīng)營規(guī)模的時候，打開了自己在奶粉產(chǎn)品的市場，基本上把自己的缺陷彌補(bǔ)了，同時蒙牛又可以彌補(bǔ)雅士利在企業(yè)管理上的不足。蒙牛與雅士利的合并控股是一個雙贏的局面，整體的價值都得到了提升。

其中，S表示的是序列，c(S)是序列S的復(fù)雜度［11］。

20 個氨基酸 αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、Mu、El屬性利用公式(1)計算出標(biāo)準(zhǔn)化后的值。

其中，αc是 α 螺旋的 C 端動力［20－21］，Cα是 α螺旋接觸面積［15］，K0是可壓縮性［22－23］，Pβ是 β 折疊趨勢［21］，Ra是在溶劑中的收縮率［24］，ΔASA 是溶劑可及表面積［25］，PI(at 25℃)表示氨基酸的等電點［26］，ΔGhD是吉布斯自由能變性蛋白水化的變化Nm是平均中程接觸，Mu是折射率，EL是長距離的非鍵能［15］。

利用20個氨基酸標(biāo)準(zhǔn)化后的值和公式(2)、(3)計算了13個全α類蛋白質(zhì)，18個全β類蛋白質(zhì)和 13 個混合類蛋白質(zhì) αc、Cα、K0、Pβ、Ra、ΔASA、PI、ΔGhD、Nm、LZc、Mu、EL 的特征值，以及 39 個蛋白質(zhì)的 K0、Rα、ΔASA、Mu、El的特征值，由于數(shù)據(jù)多沒列在文章里。

2 結(jié)果與討論

首先，利用多元線性回歸函數(shù)分別計算了13個全α類蛋白質(zhì)、18個全β類蛋白質(zhì)、13個混合類蛋白質(zhì)和未分類的39個蛋白質(zhì)的12種特征值與折疊速率之間的相關(guān)性，實驗值與預(yù)測值之間的相關(guān)系數(shù)分別達(dá)到了 0.99、0.96、0.99、0.865，但是用 Jackknife方法檢驗，都得出p＞0.05。由此可知，12種特征值當(dāng)中某些特征值對蛋白質(zhì)的折疊速率沒有影響，這樣經(jīng)過多次試驗，對于全α類蛋白質(zhì)選取有效特征值Cα、Ra、LZc，對于全 β 類蛋白質(zhì)選取有效特征值 K0、Pβ、Ra、ΔASA、Nm，對于混合類蛋白質(zhì)選取有效特征值K0、ΔASA、PI，對于未分類的蛋白質(zhì)選取有效特征值 K0、Rα、ΔASA、Mu、El，計算這些特征值與折疊速率ln(kf)之間的相關(guān)性。

其次，分別對全α類蛋白質(zhì)、全β類蛋白質(zhì)、混合類蛋白質(zhì)和未分類的蛋白質(zhì)的有效特征值與折疊速率做相關(guān)性分析，并與其它方法進(jìn)行比較。

選取13個全α類蛋白質(zhì)Cα、Ra、LZc3個特征值與折疊速率ln(kf)做回歸方程:

用p值檢驗了方程(4)每一項特征值，每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗，得出R=0.77、t=4.04、p ＜0.05。

Gromiha文章中選取了6個全α類蛋白質(zhì)的1個特征值αc作線性回歸，本文在6個數(shù)據(jù)的基礎(chǔ)上增加到13個全α類蛋白質(zhì)，用特征值αc作線性回歸，得到回歸方程:

本文用p值檢驗了得到的方程(5)，p＞0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.03，t=－0.097。在選取13個全α類蛋白質(zhì)的Cα、Ra、LZc3個特征值中，得到回歸方程的相關(guān)系數(shù)為0.89，說明選取的特征值Cα、Ra、LZc對全α類蛋白質(zhì)有影響。對比結(jié)果見表1。

表1 全α類蛋白質(zhì)回歸分析結(jié)果Table 1 The results of all-α proteins regression analysis

選取 18 個全 β 類蛋白質(zhì)的 K0、Pβ、Ra、ΔASA、Nm5個特征值與折疊速率ln(kf)做回歸方程:

用p值檢驗了以上方程的每一項特征值，每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.93。用Jack-knife方法檢驗，得出 R=0.78、t=4.93、p ＜0.001。

同樣18個全β類蛋白質(zhì)，選取Gromiha文章中的 K0、Pβ、Ra、ΔASA4 個特征值作線性回歸，得到方程:

用p值檢驗了以上方程的每一項特征值，其對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.89。用Jack-knife方法檢驗，得出R=0.73、t=4.28、p ＜ 0.001。這說明本文選取的特征值 K0、Pβ、Ra、ΔASA、Nm對全 β 類蛋白質(zhì)有影響。對比結(jié)果見表2.

表2 全β類蛋白質(zhì)回歸分析結(jié)果Table 2 The results of all－β proteins regression analysis

選取13個混合類蛋白質(zhì) K0、ΔASA、PI三個特征值與折疊速率ln(kf)做回歸方程:

用p值檢驗了以上方程的每一項特征值，每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.98。用Jack-knife方法檢驗，得出R=0.97、t=13.46、p ＜0.001。

同樣的13個混合類蛋白質(zhì)，選取Gromiha文章中的 K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸，得到方程:

用p值檢驗了以上方程的每一項特征值，每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.96。用Jack-knife方法檢驗，得出 R=0.91、t=7.07、p ＜0.001。這說明本文選取的特征值K0、ΔASA、PI對混合類蛋白質(zhì)有影響。對比結(jié)果見表3。

表3 混合類蛋白質(zhì)回歸分析結(jié)果Table 3 The results of mixed class proteins regression analysis

對于未分類的39個蛋白質(zhì)，選取5個特征值K0、Rα、ΔASA、Mu、El與折疊速率 ln(kf)作回歸方程:

用p值檢驗了以上方程的每一項特征值，每一特征值對應(yīng)的p值都小于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.86，用 Jack-knife 方法檢驗，得出 R=0.81、t=8.32、p＜0.001。

同樣的39個未分類蛋白質(zhì)，選取Gromiha文章中的K0、Ra、ΔASA、ΔGhD4 個特征值作線性回歸，得到方程:

用p值檢驗了以上方程的每一項特征值，其對應(yīng)的p值都大于0.05。實驗值與預(yù)測值之間的相關(guān)系數(shù)R=0.697。用 Jack-knife 方法檢驗，得出 R=0.48、t=3.37、p ＞ 0.001。這說明選取的特征值 K0、Rα、ΔASA、Mu、El對未分類蛋白質(zhì)有影響。對比結(jié)果見表4。

表4 未分類蛋白質(zhì)回歸分析結(jié)果Table 4 The results of unclassified proteins regression analysis

通過實驗計算得出，對于未分類蛋白質(zhì)選取5個特征值 K0、Rα、ΔASA、Mu、El計算蛋白質(zhì)折疊速率預(yù)測值，與ln(kf)有良好的相關(guān)性。

對于不同類別的蛋白質(zhì)，其折疊速率有很大的區(qū)別。本文研究不同的特征值對不同類別的蛋白質(zhì)折疊速率的影響，以及特征值對未分類蛋白質(zhì)折疊速率的影響。從本文的實驗結(jié)果發(fā)現(xiàn)，Cα、Ra、LZc3個特征值對全α類蛋白質(zhì)折疊有一定的影響，對于全β類蛋白質(zhì)，在Gromiha文章選取的4個特征值基礎(chǔ)上增加了Nm特征值，使得全β類蛋白質(zhì)的折疊速率有所提高，相關(guān)系數(shù)達(dá)到0.93。為了說明Nm特征值對全β類蛋白質(zhì)的折疊速率有影響，本文又選取了13個數(shù)據(jù)進(jìn)行驗證。由實驗結(jié)果可知，在增加Nm特征值后全β類蛋白質(zhì)的折疊速率確實有所提高(見表2)。由此可見，增加的特征值是有效特征值。對于混合類蛋白質(zhì)，本文選取了3個特征值K0、ΔASA、PI其相關(guān)系數(shù)比Gromiha文章選取特征值得到的相關(guān)系數(shù)要高(見表3)。由研究結(jié)果發(fā)現(xiàn)，特征值K0、ΔASA對全β類蛋白質(zhì)和混合類蛋白質(zhì)的折疊速率都有影響。選取 K0、Rα、ΔASA、Mu、El5個特征值對未分類的蛋白質(zhì)的折疊有一定的影響。

3 結(jié)論

蛋白質(zhì)在生物體內(nèi)占有重要的地位，是一個生物大分子，由20個氨基酸以肽鍵的形式形成肽鏈。肽鏈在空間結(jié)構(gòu)中通過卷曲形成特定的空間結(jié)構(gòu)，如二級結(jié)構(gòu)和三級結(jié)構(gòu)。氨基酸殘基及周圍介質(zhì)之間的相互作用決定了蛋白質(zhì)的結(jié)構(gòu)和折疊速率。由于蛋白質(zhì)折疊速率對蛋白質(zhì)功能有一定的影響，近些年來，已有很多方法來預(yù)測蛋白質(zhì)折疊速率。有很多研究工作者從蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)來進(jìn)行預(yù)測蛋白質(zhì)的折疊速率，但是由于蛋白質(zhì)的二級結(jié)構(gòu)和三級結(jié)構(gòu)影響因子單一，結(jié)構(gòu)復(fù)雜，因此越來越多的研究工作者們開始從蛋白質(zhì)的一級結(jié)構(gòu)來預(yù)測蛋白質(zhì)的折疊速率。本文就是研究蛋白質(zhì)的一級結(jié)構(gòu)信息對蛋白質(zhì)折疊速率的影響，運用生物統(tǒng)計學(xué)和生物信息學(xué)的方法，選取了蛋白質(zhì)編碼序列的一些特征值，通過實驗驗證了這些特征值對不同類別的蛋白質(zhì)折疊速率的影響不同。

本文對于全α類蛋白質(zhì)，全β類蛋白質(zhì)，混合類蛋白質(zhì)和未分類蛋白質(zhì)分別得到4個線性回歸方程。利用這些回歸方程研究了所選取的特征值與蛋白質(zhì)折疊速率之間的相關(guān)性，得到了較好的結(jié)果，比Gromiha文章選取的特征值相關(guān)系數(shù)都有所提高。不同的數(shù)據(jù)集對結(jié)果有一定的影響，如何減少數(shù)據(jù)集對結(jié)果的影響會在后續(xù)工作中進(jìn)行更深入研究。

References)

［1］ GUO Jianxiu，MA Binguang，ZHANG Hongyu.Progress in protein folding rate prediction［J］，Acta Biophysica Sinica，2006，22(2):89 －95.郭建秀，馬彬廣，張紅雨.蛋白質(zhì)折疊速率預(yù)測研究進(jìn)展［J］，生物物理學(xué)報，2006，22(2):89－95.

［2］ GROMIHA M M，SELVARAJ S.Bioinformatics approaches for understanding and predicting protein folding rates［J］.Current Bioinformatics，2008，3(1):1－9.

［3］ PLAXCO K W，SIMONS K T，BAKER D.Contact order，transition state placement and the refolding rates of single domain proteins［J］.Journal of Molecular Biology，1998，277(4):985－944.

［4］ ZHOU H，ZHOU Y.Folding rate prediction using total contact distance［J］.Biophysical Journal，2002，829(1)，458－463.

［5］ GONG H，ISOM D G，SRINIVASAN R，et al.Local secondary structure content predicts folding rates for simple two-state proteins［J］.J Mol Biol，2003，327(5):1149－1154.

［6］ IVANKOV D N，F(xiàn)INKELSTEIN A V.Prediction of protein folding rates from the amino acid sequence-predicted secondary structure［J］.Proc Nat Acad Sci USA，2004，101(24):8942－8944.

［7］ SHAO H，PENG Y，ZENG Z H.A simple parameter relating sequences with folding rates of small helical proteins［J］.Protein Pept Lett，2003，10(3):277 －280.

［8］ GALZITSKAYA O V，GARBUZYNSKIY S O，IVANKOV D N，et al.Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics［J］.Proteins，2003，51(2):162 －166.

［9］徐宏睿，馬彬廣.蛋白質(zhì)折疊速率決定因素與預(yù)測方法的研究進(jìn)展［J］，生物物理學(xué)報，2013，29(3):192－202.XU Hongrui，MA Binguang.Progress in the study on determinants of protein folding rate and method of folding rate prediction［J］.Acta Biophysica Sinica，2013，29(3):192－202.

［10］ MA B G，GUO J X，ZHANG H Y.Direct correlation between proteins'folding rates and their amino acid compositions:an ab initio folding rate prediction［J］.Proteins，2006，65(2):362 －372.

［11］ HUANG J T，XING D J，HUANG W.Relationship between protein folding kinetics and amino acid properties［J］.Amino Acids，2012，43:567 －572.

［12］ GROMIHAM M，THANGAKANI A M，SELVARAJ S.FOLD-RATE:prediction of protein folding rates from amino acid sequence［J］.Nucleic Acids Res，2006，34(suppl_2):70－74.

［13］ HUANG L T，GROMIHA M M.Analysis and prediction of protein folding rates using quadratic response surface models［J］.J Comput Chem，2008，29(10):1675 －1683.

［14］ GOU J X，RAO N N，LIU G X，et al.Predicting protein folding rate from amino acid sequence［J］.Prog Biochem Biophys，2011，37(12):1331 －1338.

［15］ GROMIHA M M.A statistical model for predicting protein folding rates from amino acid sequence with structural class information［J］.Chem Inf Model，2005，45(2):494－501.

［16］于志芬，李瑞芳.同義密碼子的使用偏好性對蛋白質(zhì)折疊速率的影響［J］，生物物理學(xué)報，2013，29(8):603－613.YU Zhifen，LI Ruifang.The influence of synonymous codon bias on protein folding rates［J］.Acta Biophysica Sinica，2013，29(8):603 －613.

［17］胡睿，史小紅，李晉惠.基于序列疏水值震蕩的折疊速率預(yù)測［J］.生物信息學(xué)，2013，11(2):86 －89.HU Rui，SHI Xiaohong，LI Jinhui.Prediction of protein folding-rate based on the hydrophobic value vibration［J］.Chinese Journal of Bioinformatics，2013，11(2):86 －89.

［18］胡睿，史小紅，基于殘基接觸數(shù)的蛋白質(zhì)折疊速率預(yù)測［J］.西安工業(yè)大學(xué)學(xué)報，2013，33(2):146 －150.HU Rui，SHI Xiaohong.Prediction of protein folding-rate based on the residues contact numbei［J］.Journal of Xi’an Technological University，2013，33(2):146 －150.

［19］ BEMAN H M，WESTBROOK J，F(xiàn)ENG Z，et al.The protein Databank［J］.Nucleic Acids Res，2000，28(1):235－242.

［20］GROMIHA M M，SARAI O A.Important amino acid properties for enhanced thermostability from mesospheric to hemophilic protein［J］.Biophys Chem，1999，82:51 －67.

［21］ CHOU P Y，F(xiàn)ASMAN G D.Prediction of the secondary structure of proteins from their amino acid sequence［J］.Adv Enzym，1978，47:45 －148.

［22］ IQBAL M，VERRALL R E.Implications of protein folding.Additivity schemes for volumes and compressibilities［J］.Biol Chem，1988，263(9):4159 －4165.

［23］GEKKO K，NOGUCHI H.Compressibility of globular proteins in water at 25 degree C［J］.Phys Chem，1979，83(21):2706－2714.

［24］ PONNUSWAMY P K，PRABHAKARAN M，MANAVALAN P.Hydrophobic packing and spatial arrangement of amino acid residues in globular proteins［J］.Biochim Biophys Acta，1980，623(2):301 －316.

［25］ OOBATAKE M，OOI T.Hydration and heat stability effects on protein unfolding［J］.Prog Biophys Mol Biol，1993，59(3):237 －284.

［26］李丹，基于蛋白質(zhì)圖形表示的膜蛋白跨膜區(qū)預(yù)測［D］.杭州:浙江理工大學(xué)，2012.LI Dan.The prediction oftransmembrane domains based on the graphical representation of protein sequences［D］.HANG zhou:Zhejiang Sci-Tech University，2012.