王雅男,白鳳蘭,劉立偉,王華
(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)
基于序列特征組合與核非線性回歸預(yù)測蛋白質(zhì)折疊速率
王雅男,白鳳蘭,劉立偉,王華
(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)
選取可壓縮性、LZ復(fù)雜度等特征值,將它們和20種氨基酸屬性Ca,K0,Pβ,Ra,ΔASA,PI,Ht,Mμ,Esm進(jìn)行組合,表征蛋白質(zhì)序列 .建立多元核非線性回歸模型,用核非線性回歸模型計算了 83個蛋白質(zhì)的折疊速率預(yù)測值 .由 Jack-knife檢驗(yàn)方法得知在不同的結(jié)構(gòu)中不同組合特征值與相應(yīng)折疊速率有較好的相關(guān)性 .實(shí)驗(yàn)結(jié)果表明:多元核非線性回歸模型其預(yù)測精度及可行性高于線性回歸模型,計算復(fù)雜度低和方便易操作等優(yōu)點(diǎn),具有良好的應(yīng)用前景 .
核非線性回歸;特征組合;蛋白質(zhì)序列;相關(guān)系數(shù);折疊速率
蛋白質(zhì)是生命活動的主要承擔(dān)者,是生命的物質(zhì)基礎(chǔ),也是構(gòu)成細(xì)胞的基本有機(jī)物.自然狀態(tài)下,蛋白質(zhì)能從未折疊狀態(tài)到達(dá)其特定的具有三維結(jié)構(gòu)的天然構(gòu)象.蛋白質(zhì)折疊是一個非常復(fù)雜的過程,許多國內(nèi)外科研工作者對蛋白質(zhì)折疊速率問題進(jìn)行了深入研究,不僅發(fā)現(xiàn)了很多影響蛋白質(zhì)折疊速率的參數(shù)還相繼提出各種預(yù)測蛋白質(zhì)折疊速率的方法.已有預(yù)測方法的關(guān)鍵步驟:首先利用序列結(jié)構(gòu)特征和氨基酸的物化性表征蛋白質(zhì),其次建立回歸模型.例如,用接觸序CO、總接觸序ACO和有效接觸序ECO等[1-3]表征蛋白質(zhì)的預(yù)測方法,但是不能進(jìn)行快速預(yù)測因?yàn)樾枰玫街芷陂L、成本高的三級結(jié)構(gòu)信息.用二級結(jié)構(gòu)含量SSC、有效長度Leff等[4-5]表征蛋白質(zhì)的預(yù)測方法,但是受到二級結(jié)構(gòu)的限制[6-10]因?yàn)樾枰ㄟ^分子實(shí)驗(yàn)或者通過一級序列預(yù)測才能得到二級結(jié)構(gòu)信息.用蛋白質(zhì)肽鏈長度、氨基酸的物理化學(xué)性質(zhì)、氨基酸的組成信息、氨基酸相互作用[11-14]表征蛋白質(zhì)的預(yù)測方法,但是這些信息對蛋白質(zhì)折疊速率的研究不全面,因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)非常復(fù)雜.蛋白質(zhì)按折疊類型分為二態(tài)、多態(tài)和混態(tài)三種,按結(jié)構(gòu)類型分為全α、全β、混合型三種[15-16].考慮到蛋白質(zhì)折疊具有復(fù)雜性、非線性和不確定性,本文選取和蛋白質(zhì)折疊速率相關(guān)性比較好的蛋白質(zhì)序列的多種特征值,在已有的蛋白質(zhì)序列的特征參數(shù)值對蛋白質(zhì)折疊速率基礎(chǔ)上,提出了基于MATLAB技術(shù)的支持向量回歸機(jī)(SVR)模型對蛋白質(zhì)折疊速率進(jìn)行預(yù)測.首先將蛋白質(zhì)進(jìn)行分類,然后通過核非線性回歸求出擬合的最佳參數(shù),進(jìn)而求出預(yù)測值.再通過Jack-knife檢驗(yàn)的方法從多方面驗(yàn)證蛋白質(zhì)序列的特征值對蛋白質(zhì)折疊速率的影響.
1.1 材料
本文從Gromiha[17]文中提取83個蛋白質(zhì),在PDB 數(shù)據(jù)庫(http://www.rcsb. org/pdb/home/home.do)中查到相關(guān)的氨基酸序列.含有39個未分類的蛋白質(zhì)和44個已分類的蛋白質(zhì).44個已分類的蛋白質(zhì)包含全類蛋白質(zhì)13個,全類蛋白質(zhì)18個,混合類蛋白質(zhì)13個.
1.2 提取序列特征值
首先,提取20種氨基酸的一些屬性:α螺旋接觸面積Cα,可壓縮性K0,β折疊趨勢Pβ,在溶劑中的收縮率Ra,溶劑可及表面積ΔASA,氨基酸的等電點(diǎn)PI(25℃),熱力學(xué)疏水性轉(zhuǎn)移Ht,折射率Mu,短程和中程非保稅能源Esm等.
其次,將組成蛋白質(zhì)序列的氨基酸屬性標(biāo)準(zhǔn)化和平均化.
計算公式:
(1)
其中,氨基酸屬性中的最小值和最大值分別為Pmin和Pmax,氨基酸的標(biāo)準(zhǔn)化屬性為Pnorm(i),氨基酸序列中第i個殘基的屬性為P(i).
計算公式:
(2)
其中,氨基酸序列中第j個殘基的屬性為P(j),氨基酸序列的殘基數(shù)為N,蛋白質(zhì)的氨基酸平均屬性為Pave.
利用氨基酸的標(biāo)準(zhǔn)化式(1)計算出20個氨基酸屬性的值.用式(1)、(2)和20個氨基酸標(biāo)準(zhǔn)化后的值利用MATLAB分別計算39個未分類蛋白質(zhì)以及13個全α類蛋白質(zhì),18個全β類蛋白質(zhì)和13個混合類蛋白質(zhì)的特征值,得到的數(shù)據(jù)多文中沒表示.
最后,計算了83個蛋白質(zhì)序列的序列復(fù)雜度[7,18].
計算公式:
(3)
其中,序列為S,序列S的復(fù)雜度為c(S).
1.3 方法
1.3.1 核非線性回歸 (SVR)模型
核函數(shù)主要有四類,分別是:線性核函數(shù)(linear kernel)、多項(xiàng)式核函數(shù)(ploynomial kernel)、徑向基核函數(shù)(radical basis kernel)、神經(jīng)元的非線性作用核函數(shù)(neurons nonlinear interaction kernel).雖然一些實(shí)驗(yàn)表明在分類中不同的核函數(shù)能夠產(chǎn)生幾乎同樣的結(jié)果,但在回歸分析中,不同的核函數(shù)往往對擬合結(jié)果有較大的影響.通過大量實(shí)驗(yàn)本文選擇徑向基函數(shù)(RBF)作為核函數(shù).基于序列特征與全部樣本構(gòu)建核非線性回歸(SVR)模型[19-22].
用Matlab程序算法和SVR_GUI界面可以快速的得到預(yù)測結(jié)果.為了盡可能得到最好的預(yù)測準(zhǔn)確度,選擇使用網(wǎng)格搜索策略選擇參數(shù)c和g的值,并對每一個數(shù)據(jù)集,基于5倍交叉驗(yàn)證,當(dāng)參數(shù)尋優(yōu)完畢后,得到bestc和bestg,當(dāng)訓(xùn)練和預(yù)測完畢后得到蛋白質(zhì)折疊速率的預(yù)測值和均方誤差與相關(guān)系數(shù).
1.3.2 模型評估
由于已知折疊速率的蛋白質(zhì)樣本數(shù)量較少,采用Jack-knife檢驗(yàn)進(jìn)行模型評估.評價指標(biāo)為折疊速率預(yù)測值與實(shí)驗(yàn)值間的相關(guān)系數(shù)r和標(biāo)準(zhǔn)誤差σ:
用SVR模型分別計算了13個全α類蛋白質(zhì)、18個全β類蛋白質(zhì)、13個混合類蛋白質(zhì)和未分類的39個蛋白質(zhì)的10種特征值與折疊速率之間的相關(guān)性.特征值的不同組合,使實(shí)驗(yàn)值與預(yù)測值之間的相關(guān)性有好有壞,即10種特征值當(dāng)中某些特征值組合對蛋白質(zhì)的折疊速率沒有影響,為此經(jīng)過多次試驗(yàn)可知,特征值組合Cα,Ra,LZc,Ht對于全α類蛋白質(zhì)折疊速率有影響;特征值組合K0、Pβ、ΔASA、LZc、PI對于全β類蛋白質(zhì)折疊速率有影響;特征值組合K0,ΔASA,PI,對于混合類蛋白質(zhì)折疊速率有影響;特征值組合K0、Ra、ΔASA、Mu、Esm對于未分類的蛋白質(zhì)折疊速率有影響.用SVR模型得出實(shí)驗(yàn)值與預(yù)測值之間的相關(guān)系數(shù)分別為0.88,0.91,0.99,0.99,均方誤差分別為2.165 08、1.141 29、0.010 033、0.159 45.實(shí)驗(yàn)值與預(yù)測值之間的關(guān)系直觀圖分別為圖1所示.
(a) 未分類蛋白質(zhì)
(b) α類蛋白質(zhì)
(c) β類蛋白質(zhì)
(d) 混合類蛋白質(zhì)
為了驗(yàn)證核非線性回歸方法的可靠性,本文在已有的數(shù)據(jù)基礎(chǔ)上又尋找了一些其它屬性的數(shù)據(jù),經(jīng)過多次試驗(yàn),對于未分類蛋白質(zhì)、全α類蛋白質(zhì)、全β類蛋白質(zhì)、混合類蛋白質(zhì)選取了以上所述的特征值分別進(jìn)行核非線性回歸,將得出的結(jié)果用Jack-knife方法進(jìn)行檢驗(yàn)并與 Gromiha方法的結(jié)果進(jìn)行比較,發(fā)現(xiàn)相關(guān)系數(shù)都比其有所提高,見表 1.另外,由直觀圖 1也可知,用本文的方法得到的預(yù)測值與蛋白質(zhì)折疊速速率實(shí)驗(yàn)值具有良好的相關(guān)性.
由表1可見,兩種方法中特征值組合不盡相同,經(jīng)過多次試驗(yàn),選取了使實(shí)驗(yàn)值與預(yù)測值具有最好的相關(guān)性的特征值組合.不論在我們的方法和Gromiha方法中,可壓縮性除全α類蛋白質(zhì)外,對于其它類型的蛋白質(zhì)折疊速率均有影響,其次,在溶劑中的收縮率除全α類和混合類蛋白質(zhì)外,對于其它類型的蛋白質(zhì)折疊速率也均有影響;在我們的方法中,序列復(fù)雜度LZc對全α、β類的蛋白質(zhì)折疊速率有影響,短程和中程非保稅能源Esm、只對未分類的蛋白質(zhì)有影響.由此可知,特征值的不同組合,對蛋白質(zhì)折疊速率的影響大小不同.經(jīng)多次實(shí)驗(yàn)得知,基于序列特征組合建立的SVR模型非線性回歸很顯著.經(jīng)Jack-knife檢驗(yàn)可知蛋白質(zhì)折疊速率預(yù)測值與實(shí)驗(yàn)值ln(kf)有良好的相關(guān)性,獲得了優(yōu)于Gromiha方法的預(yù)測精度.
表1 蛋白質(zhì)核非線性回歸分析結(jié)果比對
組成蛋白質(zhì)的20種氨基酸的物理化學(xué)屬性有很多種,其中哪些屬性對不同類別的蛋白質(zhì)折疊速率預(yù)測有影響是本文研究的關(guān)鍵所在.本文提取13個全α類蛋白質(zhì)、18個全β類蛋白質(zhì)、13個混合類蛋白質(zhì)和未分類的39個蛋白質(zhì)的10種特征值,用核非線性回歸方法和Jack-knife檢驗(yàn)進(jìn)行多次特征組合驗(yàn)證,特征值K0、Ra、 ΔASA、Mu、Esm,對于未分類的蛋白質(zhì)折疊速率有影響,特征值Cα,Ra,LZc,Ht對于全α類蛋白質(zhì)折疊速率有影響,特征值K0、Pβ、Ra、ΔASA、LZc、PI對于全β類蛋白質(zhì)折疊速率有影響,特征值K0,ΔASA,PI,對于混合類蛋白質(zhì)折疊速率有一定的影響.而這種特征組合得到的結(jié)果優(yōu)于Gromiha方法的結(jié)果.
蛋白質(zhì)折疊是一個非常復(fù)雜的過程.本文只是研究蛋白質(zhì)的一級結(jié)構(gòu)信息對蛋白質(zhì)折疊速率的影響,運(yùn)用生物信息學(xué)的方法,選取了蛋白質(zhì)編碼序列的一些特征值,通過實(shí)驗(yàn)驗(yàn)證了這些特征值對不同類別的蛋白質(zhì)折疊速率的影響不同.不同的樣本集對研究結(jié)果有一定的影響,因此需要大量樣本驗(yàn)證支持.
[1]GALZITSKAYA O V, GARBUZYNSKIY S O, IVANKOV D N, et al. Chain length is the main determinant of the folding rate for proteins with three-state folding kinetics[J]. Proteins: Structure, Function, and Bioinformatics, 2003, 51(2): 162-166.
[2]IVANKOV D N, FINKELSTEIN A V. Prediction of protein folding rates from the amino acid sequence-predicted secondary structure[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(24): 8942-8944.
[3]IVANKOV D N, BOGATYREVA N S, LOBANOV M Y, et al. Coupling between properties of the protein shape and the rate of protein folding[J]. PLoS One, 2009, 4(8): 6476.
[4]CHANG L, WANG J, WANG W. Composition-based effective chain length for prediction of protein folding rates[J]. Physical Review E, 2010, 82(5): 051930.
[5]MA B G, GUO J X, ZHANG H Y. Direct correlation between proteins' folding rates and their amino acid compositions: an ab initio folding rate prediction[J]. Proteins: Structure, Function, and Bioinformatics, 2006, 65(2): 362-372.
[6]MA B G, CHEN L L, ZHANG H Y. What determines protein folding type? An investigation of intrinsic structural properties and its implications for understanding folding mechanisms[J]. Journal of molecular biology, 2007, 370(3): 439-448.
[7]HUANG J T, XING D J, HUANG W. Relationship between protein folding kinetics and amino acid properties[J]. Amino acids, 2012, 43(2): 567-572.
[8]LIN G N, WANG Z, XU D, et al. SeqRate: sequence-based protein folding type classification and rates prediction[J]. BMC bioinformatics, 2010, 11(Suppl 3): S1.
[9]GROMIHA M M, THANGAKANI A M, SELVARAJ S. FOLD-RATE: prediction of protein folding rates from amino acid sequence[J]. Nucleic acids research, 2006, 34(Suppl 2): 70-74.
[10]HUANG L T, GROMIHA M M. Analysis and prediction of protein folding rates using quadratic response surface models[J]. Journal of computational chemistry, 2008, 29(10): 1675-1683.
[11]JIANG Y, IGLINSKI P, KURGAN L. Prediction of protein folding rates from primary sequences using hybrid sequence representation[J]. Journal of computational chemistry, 2009, 30(5): 772-783.
[12]OUYANG Z, LIANG J. Predicting protein folding rates from geometric contact and amino acid sequence[J]. Protein Science, 2008, 17(7): 1256-1263.
[13]LI H Y, WANG J H. Folding rate prediction using complex network analysis for proteins with two-and three-state folding kinetics[J]. Journal of Biomedical Science and Engineering, 2009, 2(8): 644.
[14]CHENG X, XIAO X, WU Z, et al. Swfoldrate: Predicting protein folding rates from amino acid sequence with sliding window method[J]. Proteins: Structure, Function, and Bioinformatics, 2013, 81(1): 140-148.
[15]HUANG J T, CHENG J P, CHEN H. Secondary structure length as a determinant of folding rate of proteins with two-and three-state kinetics[J]. PROTEINS: Structure, Function, and Bioinformatics, 2007, 67(1): 12-17.
[16]GALZITSKAYA O V, GLYAKINA A V. Nucleation-based prediction of the protein folding rate and its correlation with the folding nucleus size[J]. Proteins: Structure, Function, and Bioinformatics, 2012, 80(12): 2711-2727.
[17]GROMIHA M M. A statistical model for predicting protein folding rates from amino acid sequence with structural class information[J]. Journal of chemical information and modeling, 2005, 45(2): 494-501.
[18]LIU L, LI C, BAI F, et al. An optimization approach and its application to compare DNA sequences[J]. Journal of Molecular Structure, 2015, 1082: 49-55.
[19]VAPNIK V. The nature of statistical learning theory[M]. USA:Springer Science & Business Media, 2013.
[20]VAPNIK V, GOLOWICH S E, SMOLA A. Support vector method for function approximation, regression estimation, and signal processing[C]//Advances in Neural Information Processing Systems 9,1996.
[21]CASTRO NETO M, JEONG Y S, JEONG M K, et al. Online-SVR for short-term traffic flow prediction under typical and atypical traffic conditions[J]. Expert systems with applications, 2009, 36(3): 6164-6173.
[22]YUAN Z. Better prediction of protein contact number using a support vector regression analysis of amino acid sequence[J]. BMC bioinformatics, 2005, 6(1): 248.
Protein Folding Rate Prediction based on Sequence Features Combined with Nuclear Non-Linear Regression
WANG Yanan ,BAI Fenglan ,LIU Liwei ,WANG Hua
(School of Mathematics, Dalian Jiaotong University, Dalian 116028, China)
Compressibility, LZ complexity and other characteristic values are selected and combined with twenty kinds of amino acid propertiesCa,K0,Pβ,Ra,ΔASA,PI,Ht,Mμ,Esmto characterize the protein sequence. Multiple nuclear non-linear regression model is established and used to calculate the folding rate prediction value of 83 proteins. By Jack-knife test, it is found that in different structures there is a good correlation between different combinations of characteristic values and the corresponding folding rate. The results show that the multiple nuclear non-linear regression model prediction accuracy and feasibility are higher than linear regression model, because it has the advantages of instancy low computational complexity and convenient and easy operation.
nuclear non-linear regression; combinations of features; protein sequences; correlation coefficient; folding rate
1673- 9590(2017)04- 0206- 05
2016- 04-11
王雅楠( 1990- ),女,碩士研究生;白鳳蘭(1963-),女,教授,博士,主要從事生物分子信息學(xué)的研究E- mail:569594280@qq.com.
A