使用多特征預測蛋白質棕櫚化位點
張?zhí)锢?,王睿1,徐暉2
(1.陜西理工學院 化學與環(huán)境科學學院, 陜西 漢中 723000;2.漢中市產(chǎn)品質量監(jiān)督檢驗所, 陜西 漢中 723000)
[摘要]采用改進的氨基酸組成、SARAH1疏水尺度值、改進的二肽頻率特征、間隔氨基酸對組成特征、蛋白質物理化學性質的自相關函數(shù)特征值表征給定的蛋白質序列段,然后用小波頻譜來提取特征參數(shù)值,用支持向量機來預測棕櫚酰化位點。模型查準率為0.880,查全率為0.859,F(xiàn)值為0.869,ROC曲線的面積為0.87。研究結果表明,使用多特征預測蛋白質棕櫚化位點方法達到了現(xiàn)有預測算法的水平,能夠較準確地預測蛋白質棕櫚化位點。
[關鍵詞]棕櫚化;位點;蛋白質
[文章編號]1673-2944(2015)05-0054-06
[中圖分類號]O643.32+2
收稿日期:2015-01-23
基金項目:陜西理工學院校級人才啟動項目(SLGQD13(2)-4)
作者簡介:張?zhí)锢?1982—),男,山西省朔州市人,陜西理工學院講師,博士,主要研究方向為理論與計算化學。
DOI[7]MCCORMICK P J,DUMARESQ-RON K,PLUVIOSE A S,et al.Palmitoylation controls recycling in lysosomal sorting and trafficking[J].Traffic,2008,9(11):1984-1997.
棕櫚?;且环N最普遍且唯一可逆的翻譯后修飾形式,能增加蛋白質的疏水性,對蛋白質的轉運、細胞器定位和功能具有重要的作用,并賦予蛋白質多樣化的生理功能[1-3]。棕櫚酰化蛋白質參與組成各種細胞膜脂質結構域,促進自身或其蛋白質定位膜脂筏(富含膽固醇、鞘磷脂和GPI微結構域)中;蛋白質棕櫚化還與特定的疾病相關,參與腫瘤的發(fā)生發(fā)展[1-8]。
近年來,國內外許多有影響的研究小組分別圍繞棕櫚化位點的預測,棕櫚基化反應機理、抑制蛋白質棕櫚化修飾及其對人體的影響等科學問題開展了大量的實驗和部分理論研究。Linder等[9]通過實驗證實棕櫚化影響蛋白質的穩(wěn)定性和蛋白膜之間物質的運輸,棕櫚化的蛋白質的存在影響了蛋白質與脂質和蛋白膜之間的作用,棕櫚化的可逆性允許不同膜之間物質運輸?shù)哪J讲煌籋emsley等[10]的實驗表明;蛋白質突觸的棕櫚化的動態(tài)變化,局部控制了蛋白突觸與受體之間的相互作用,在突觸的可塑性方面起了很大的作用。理論計算方面,薛宇等[11]基于貝葉斯算法發(fā)展了NBA-Palm方法,對文獻搜集的254個棕櫚化位點進行了預測,預測精度達到85.79%;Ren等[12]基于聚類和打分函數(shù)發(fā)展了CSS-Palm方法。王小波等[13]采用間距氨基酸組成配對法來預測棕櫚化位點。施少平等[14]人發(fā)展了WAP-Palm方法,融合了權重氨基酸組成、自相關函數(shù)和位置特異性打分矩陣來預測棕櫚化位點。盡管國內外學者對棕櫚化位點的預測及其反應機理進行了不少實驗和理論探索,但到目前為止,也只有少數(shù)的棕櫚?;稽c被確定,且其分子機制仍難以捉摸。因此計算識別棕櫚化位點是當前一個急迫任務,并可為進一步的實驗設計提供有用的數(shù)據(jù)資源。
本研究關注的是通過蛋白質序列開發(fā)一個精確的預測方法來計算識別棕櫚化位點,以豐富對棕櫚?;鞍踪|組學的認識,還可以對某些疾病診斷治療和腫瘤治療等具有深遠意義。
1方法
通過適當?shù)剡x擇函數(shù)集,支持向量機方法[15]可以有效地避免經(jīng)典學習方法中存在的“過學習”、“維數(shù)災難”以及局部極小點等問題。該理論最大的優(yōu)點是在小樣本情況下依然可以保持很好的泛化性能,這是傳統(tǒng)的機器學習方法所不具備的。支持向量機的基本思想可用圖1的兩維情況說明。
圖1 支持向量機基本思想示意圖
實心點和空心點代表兩類樣本,H為超平面,H1,H2分別為各類中離超平面最近的樣本且平行于超平面的平面,它們之間的距離叫做分類間隔(margin)。所謂最優(yōu)超平面就是要求超平面不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大[15]。超平面方程可以表示為xw+b=0,對它進行歸一化,使得對線性可分的樣本集(xi,yi),i=1,2,…,n,xi∈Rd,yi∈{+1,-1},滿足約束條件:
此時分類間隔等于2/‖w‖,間隔最大等價于使‖w‖2/2最小。滿足條件公式且使‖w‖2/2最小的分類面就叫做最優(yōu)分類面,H1,H2上的訓練樣本點稱作支持向量。
因此,求最優(yōu)分類面的問題轉化為在不等的約束下的優(yōu)化問題:
(1)
利用Lagrange優(yōu)化方法可以把上述求最優(yōu)分類問題轉化為其對偶問題,即求下式的最大值:
(2)
約束條件為:
(3)
其中αi為Lagrange乘子。這是一個不等式約束下二次函數(shù)尋優(yōu)的問題,存在唯一解。解上述問題后得到的最優(yōu)分類函數(shù):
(4)
式中的求和實際上只對支持向量進行。α*為αi的最優(yōu)解,b*是分類閾值,可以用任一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。
上面的最優(yōu)分類面是在線性可分的前提下討論的,對線性不可分的情況下,考慮到可能存在一些樣本不能被超平面正確分類,因此引入松弛變量ξi≥0,這樣公式(1)的線性約束條件變?yōu)閇15]:
(5)
此時優(yōu)化問題變?yōu)椋?/p>
(6)
約束條件為:
(7)
常數(shù)C起著對錯分樣本的懲罰作用,實現(xiàn)的是學習機器泛化能力和錯分樣本數(shù)目之間的折中。轉化為其對偶問題,此時求解最優(yōu)分類面的問題變?yōu)榍蠼馍厦婀?6)的最大值,只是約束條件變?yōu)椋?/p>
(8)
表1 支持向量機預測評價指標
TP是真陽性的樣品個數(shù),是被判定為正樣本,事實上也是正樣本的個數(shù);TN是真陰性的樣品個數(shù),是被判定為負樣本,事實上也是負樣本的個數(shù);FP是假陽性的樣品個數(shù),是被判定為正樣本,但事實上是負樣本的個數(shù);FN是假陰性的樣品個數(shù),是被判定為負樣本,但事實上是正樣本的個數(shù)。Precision:查準率,即在檢索后返回的結果中,真正正確的個數(shù)占整個結果的比例。Recall:查全率,即在檢索結果中真正正確的個數(shù)占整個數(shù)據(jù)集(檢索到的和未檢索到的)中真正正確個數(shù)的比例。Accuracy:正確率,即在檢索后返回的結果中,檢索到的正樣本和負樣本總共所占總樣本數(shù)的比率。F-Measure又稱為F-Score,是機器學習領域的常用的一個評價標準,F(xiàn)值即為正確率和召回率的調和平均值。ROC曲線在機器學習、數(shù)據(jù)挖掘等領域中廣泛應用,用來評判分類、檢測結果的好壞。ROC曲線指受試者工作特征曲線(receiver operating characteristic curve),是反映敏感性和特異性連續(xù)變量的綜合指標,是用構圖法揭示敏感性和特異性的相互關系,它通過將連續(xù)變量設定出多個不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標、特異性為橫坐標繪制成曲線,曲線下面積越大,診斷準確性越高[16-17]。在ROC曲線上,最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。為了更好地衡量ROC所表達結果的好壞,Area Under Curve(AUC)被提了出來,簡單來說就是曲線右下角部分占正方形格子的面積比例,通常,AUC的值介于0.5到1.0之間,較大的AUC代表了較好的性能。計算ROC曲線下的面積,就是計算AUC的值。首先對得分從大到小排序,然后令最大得分對應的樣本排序號為n,第二大得分對應樣本的排序號為n-1,以此類推。然后把所有的正類樣本的排序號相加,再減去正類樣本的得分為最小的第M個值的情況。得到的就是所有的樣本中有多少對正類樣本的得分大于負類樣本的得分,然后再除以M×N。特別需要注意的是,存在得分相等的情況時,對相等得分的樣本,需要賦予相同的排序號(無論這個相等的得分是出現(xiàn)在同類樣本還是不同類的樣本之間,都需要這樣處理)[16-17]。具體操作就是再把所有這些得分相等的樣本的排序號取平均。
2結果與討論
從Swiss-Prot數(shù)據(jù)庫(http://web.expasy.org/docs/swiss-prot_guideline.html)中提取所有來自實驗的棕櫚化位點,共有417個被實驗確定的棕櫚化位點被收集。每個位點由41個氨基酸序列片段組成:棕櫚化位點K加上游20個氨基酸殘基和下游20個氨基酸殘基。為了所有片段有一個統(tǒng)一的長度,當殘基不足時,在蛋白肽鏈的N-端或C-羧基端指定一個不存在的殘基“O”填寫相應的位置,添加了虛擬殘基“O”。從相同序列隨機選取相同數(shù)量的負樣本和正樣本。
針對蛋白翻譯后修飾位點與調節(jié)機制研究的現(xiàn)狀,設計出一套基于氨基酸頻率、疏水性及氨基酸物理化學性質等的蛋白序列描述新方法。
氨基酸組成是蛋白序列的重要特性,已被成功的應用于確定蛋白結構類別,膜蛋白類別分類,預測亞細胞定位。使用了改進后的氨基酸組成,每個蛋白片段可以用20個氨基酸發(fā)生頻率的平方根表示。已有實驗證實使用這種改進的氨基酸組成特征,對不同的數(shù)據(jù)集總體預測精度可以提高3%~5%[18]。
疏水性對蛋白的穩(wěn)定性具有重要意義,在蛋白的結構預測中,許多研究者均在蛋白質的眾多物理化學性質中選擇疏水性作為研究的主要特性。Korenberg[19]檢驗了各種疏水尺度,最后得出結論,在蛋白結構預測中,Rose尺度優(yōu)于所有其他疏水尺度。然而這不是一對一的映射,所以不同的氨基酸序列可以有相同的疏水尺度值。同時尺度范圍太狹窄會導致一些氨基酸權重比其它氨基酸更高。為了克服這些問題,Korenberg[19]等人提出了SARAH1尺度,這種尺度將20種氨基酸按照Rose疏水尺度排列,并且將每個氨基酸按其二進制代碼值的降序排列表示成一個5位碼(如表2所示)。定義虛擬殘基“O”的SARAH1尺度為“0,0,0,0,0”。
表2 SARAH1疏水尺度值
不同位置改進后的二肽頻率使用以下方法計算fk(akak+1) 或fk-1(akak-1),這里fk(akak+1)指的是棕櫚化位點右邊區(qū)域的二肽頻率;左側區(qū)域用fk-1表示。
通過使用一個新的編碼方案[20],間距氨基酸對的組成(CKSAAP),可以將蛋白結構預測的精度提高到83.1%。CKSAAP可以定義為
CKSAAP=f(i,i+k),
(9)
這里f(i,i+k)是位置i和i+k氨基酸對的頻率,k=1,2,…N,其中N是樣本的長度。
將物理化學性質也考慮在內,用AA Index數(shù)據(jù)庫收集和整理的20種氨基酸的物理化學性質、生物學性質和二級結構信息的數(shù)值構造特征的自相關函數(shù)。
使用CFS(Correlation-based Feature Selection)特征選擇算法對特征子集的優(yōu)劣性進行了評估,該算法不但考慮了單一特征的優(yōu)劣性,同時也考慮了各個特征之間的相關性。應用小波頻譜(WFS頻譜)[21]來表征大量的特征參數(shù)值。WFS頻譜不僅可以描述蛋白質序列特征在各種頻率上的信號,還可以大大縮減特征值維數(shù),從而大大縮短了利用大量特征值進行預測的時間。支持向量機(SVM;Vapnik,1995)作為分類器。
表3給出了數(shù)據(jù)集上支持向量機預測的結果??梢钥吹?17個棕櫚化位點中有367個被準確預測出,假陽性比率為0.118,還有49個棕櫚化位點未預測出來,查準率為0.880,查全率為0.859,F(xiàn)值為0.869,ROC曲線的面積為0.87。對非棕櫚化位點預測而言,假陽性比率為0.141,查準率為0.862,查全率為0.882,ROC曲線的面積為0.87。結果表明,本文提出的方法達到了現(xiàn)有預測算法的水平,能夠較準確預測出蛋白質棕櫚化位點。
表3 支持向量機預測的結果
3結論
預測棕櫚化位點的位置是生物信息學的研究任務之一。本文提取了蛋白質序列改進的氨基酸組成、SARAH1疏水尺度值、改進的二肽頻率特征、間隔氨基酸對組成特征、蛋白質物理化學性質的自相關函數(shù)特征值,然后用小波頻譜來提取特征參數(shù)值,基于支持向量機訓練模型預測棕櫚?;稽c。模型查準率為0.880。研究結果表明這種方法能夠準確地預測棕櫚化位點的位置,預測達到了現(xiàn)有預測算法預測的精度。因此這種方法有望成為研究棕櫚化位點的一種有力的新工具。
[參考文獻]
[1]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nat Rev Mol Cell Biol,2007,8(1):74-84.
[2]KüMMEL D,HEINEMANN U,VEIT M.Unique self-palmitoylation activity of the transport protein particle component Bet3:a mechanism required for protein stability[J].Proceedings of the National Academy of Sciences,2006,103(34):12701-12706.
[3]ROTH A F,WAN J,BAILEY A O,et al.Global analysis of protein palmitoylation in yeast[J].Cell,2006,125(5):1003-1013.
[4]GREAVES J,CARMICHAEL J A,CHAMBERLAIN L H.The palmitoyl transferase DHHC2 targets a dynamic membrane cycling pathway:regulation by a C-terminal domain[J].Molecular biology of the cell,2011,22(11):1887-1895.
[5]GREAVES J,CHAMBERLAIN L H.DHHC palmitoyl transferases: substrate interactions and (patho) physiology[J].Trends in biochemical sciences,2011,36(5):245-253.
[6]MISAKI R,MORIMATSU M,UEMURA T,et al.Palmitoylated Ras proteins traffic through recycling endosomes to the plasma membrane during exocytosis[J].The Journal of cell biology,2010,191(1):23-29.
[8]EL-HUSSEINI A E D,BREDT D S.Protein palmitoylation: a regulator of neuronal development and function[J].Nature Reviews Neuroscience,2002,3(10):791-802.
[9]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nature reviews Molecular cell biology,2007,8(1):74-84.
[10]HEMSLEY P A,GRIERSON C S.Multiple roles for protein palmitoylation in plants[J].Trends in plant science,2008,13(6):295-302.
[11]XUE Yu,CHEN Hu,JIN Chang-jiang,et al.NBA-Palm:prediction of palmitoylation site implemented in Naive Bayes algorithm[J].Bmc Bioinformatics,2006,7(1):101-110.
[12]REN Jian,WEN Long-ping,GAO Xin-jiao,et al.CSS-Palm 2.0:an updated software for palmitoylation sites prediction[J].Protein Engineering Design & Selection Peds,2008,21(11):639-644.
[13]WANG Xiao-bo,WU Ling-yun,WANG Yong-cui,et al.Prediction of palmitoylation sites using the composition of k-spaced amino acid pairs[J].Protein Engineering Design & Selection,2009,22(11):707-712.
[14]SHI Shao-ping,SUN Xing-yu,QIU Jian-ding,et al.The prediction of palmitoylation site locations using a multiple feature extraction method[J].Journal of Molecular Graphics & Modelling,2013,40(1):125-130.
[15]CORTES C,VAPNIK V.Support-vector networks[J].Machine learning,1995,20(3):273-279.
[16]ZHANG Chun-ting,CHOU Kuo-chen.An optimization approach to predicting protein structural class from amino acid composition[J].Protein Science,1992,1(3):401-408.
[17]PUNTERVOLL P,LINDING R,GEMüND C,et al.ELM server:a new resource for investigating short functional sites in modular eukaryotic proteins[J].Nucleic acids research,2003,31(13):3625-3630.
[18]FENG Zhi-ping.Prediction of the subcellular location of prokaryotic proteins based on a new representation of the amino acid composition[J].Biopolymers,2001,58(5):491-499.
[19]KORENBERG M J,DAVID R,HUNTER I W,et al.Automatic classification of protein sequences into structure/function groups via parallel cascade identification:a feasibility study[J].Annals of Biomedical Engineering,2000,28(7):803-811.
[20]CHEN Yong-zhi,TANG Yu-rong,SHENG Zhi-ya,et al.Prediction of mucin-type O-glycosylation sites in mammalian proteins using the composition of k-spaced amino acid pairs[J].BMC bioinformatics,2008,9(1):101.
[21]LIU A K,PENG C Y,CHANG Y S.Wavelet analysis of satellite images for coastal watch[J].IEEE Journal of Oceanic Engineering,1997,22(1):9-17.
[責任編輯:李 莉]
Prediction of palmitoylation sites using multiple protein sequence characteristics
ZHANG Tian-lei1,WANG Rui1,XU Hui2
(1.School of Chemistry and Environment Science, Shaanxi University of Technology,Hanzhong 723000, China;2.Hanzhong City Product Quality Supervision and Inspection, Hanzhong 723000, China)
Abstract:Palmitoylation is an important post-translational modification, which participates many cellular processes, including antigen processing, DNA transcription and repair, apoptosis, immune reaction and inflammation, regulating cell surface receptors, ion channels and secretor pathway, nerve and muscle degeneration, viral infections and so on. Hence, the accurate prediction of palmitoylation sites can be of help in understanding the molecular mechanism of palmitoylation and also in designing various related experiments. Here we present an accurate method to identify palmitoylation sites from protein sequence information using a support vector machine model. It has achieved an accuracy of 88%, which shows that this method will be a useful tool to find palmitoylation sites in a protein.
Key words:palmitoylation;sites;protein