高光芹,黃家榮,周俊朝,謝鵬芳(河南農(nóng)業(yè)大學(xué),鄭州450002)
doi:10.3969/j.issn.1672-5565.2015.03.04
楊樹蛋白質(zhì)磷酸化位點(diǎn)預(yù)測
高光芹,黃家榮?,周俊朝,謝鵬芳
(河南農(nóng)業(yè)大學(xué),鄭州450002)
以小黑楊磷酸化蛋白質(zhì)組為研究對(duì)象,用人工神經(jīng)網(wǎng)絡(luò)表達(dá)絲氨酸、蘇氨酸等殘基位點(diǎn)的磷酸化與氨基酸序列的結(jié)構(gòu)特征之間的非線性關(guān)系,建立了BP人工神經(jīng)網(wǎng)絡(luò)模型,并用磷酸化數(shù)據(jù)對(duì)所建模型進(jìn)行訓(xùn)練和分析,得適宜的結(jié)構(gòu)為21×16∶8∶4,擬合準(zhǔn)確度為90%,Acc、Sn、Sp、MCC分別為78%、89%、67%、0.57,對(duì)比分析結(jié)果表明,所建模型具有較強(qiáng)的預(yù)測能力。
小黑楊;磷酸化蛋白質(zhì);磷酸化位點(diǎn);人工神經(jīng)網(wǎng)絡(luò)
在生物體內(nèi),由RNA翻譯形成的蛋白質(zhì)都要經(jīng)過翻譯后修飾才具有生物活性,致使生物蛋白質(zhì)分子具有某些功能位點(diǎn)、活性部位或功能結(jié)構(gòu)域[1]。磷酸化位點(diǎn)是最重要的蛋白質(zhì)功能位點(diǎn),對(duì)細(xì)胞功能起著重要的調(diào)節(jié)作用。蛋白質(zhì)磷酸化是在蛋白激酶催化作用下,磷酸基團(tuán)由供體分子轉(zhuǎn)移到蛋白質(zhì)的含有羥基的氨基酸側(cè)鏈上的過程,是一個(gè)可逆的過程,幾乎調(diào)節(jié)著生命活動(dòng)的所有過程。真核與原核生物的蛋白質(zhì)磷酸化位點(diǎn)殘基不同,前者主要是絲氨酸(Serine,S)、蘇氨酸(Threonine,T)和酪氨酸(Tyrosine,Y)等殘基;后者主要是天冬氨酸(Aspartic acid,D)、谷氨酸(Glycine,G)和組氨酸(Histidine,H)等殘基。通過在磷酸化位點(diǎn)發(fā)生的酯化作用,改變蛋白質(zhì)的結(jié)構(gòu)、活性及其與其他分子相互作用的能力,在信號(hào)傳導(dǎo)、基因表達(dá)、細(xì)胞分裂等許多生物學(xué)過程的調(diào)控中起著重要作用[2-3]。隨著高通量鑒定磷酸化蛋白質(zhì)技術(shù)的發(fā)展,尤其是質(zhì)譜技術(shù)在蛋白質(zhì)組學(xué)中的應(yīng)用,磷酸化修飾數(shù)據(jù)不斷積累,將計(jì)算方法引入磷酸化蛋白質(zhì)組學(xué)的研究中,將有利于發(fā)現(xiàn)新的磷酸化修飾規(guī)律,并為生物學(xué)實(shí)驗(yàn)提供驗(yàn)證信息?,F(xiàn)在,磷酸化位點(diǎn)預(yù)測方法,已從過去通過氨基酸序列預(yù)測發(fā)展出一系列新的算法[4-5],如人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī)等。當(dāng)前,已有大量的蛋白質(zhì)磷酸化位點(diǎn)預(yù)測研究[6-10],也有專門針對(duì)特定物種的蛋白質(zhì)磷酸化位點(diǎn)預(yù)測分析[11],但針對(duì)楊樹蛋白質(zhì)磷酸化位點(diǎn)的預(yù)測研究尚未見報(bào)道。本文以小黑楊(Populus simonii×P nigra)磷酸化蛋白質(zhì)組為研究對(duì)象,用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建磷酸化位點(diǎn)預(yù)測模型,為相關(guān)研究奠定基礎(chǔ)。
1.1 樣本收集與組織
從文獻(xiàn)[12]鑒定提供的目前最大的木本植物磷酸化位點(diǎn)數(shù)據(jù)集下載小黑楊葉片蛋白質(zhì)磷酸化位點(diǎn)(只有S和T殘基)前后各10個(gè)氨基酸殘基的序列106段,構(gòu)成正樣本集;再從擬南芥磷酸化數(shù)據(jù)庫[13]按1∶1的比例下載對(duì)應(yīng)的非磷酸化序列106段,構(gòu)成負(fù)樣本集,樣式如表1。按樣本集順序每4個(gè)樣本抽取1個(gè)(共54段)組成檢驗(yàn)樣本,剩下的3/4(共158段)作為訓(xùn)練樣本。應(yīng)用一種表2所示的新型氨基酸描述子[6,8]表征樣本的氨基酸結(jié)構(gòu),并自編MATLAB程序,將字符串樣本轉(zhuǎn)換為數(shù)值樣本。
表1 樣本集樣式Table 1 Type of sam ple set
表2 氨基酸描述子V樣式Table 2 Vscales for am ino acids
1.3 模型構(gòu)建
以樣本序列的21個(gè)氨基酸殘基、每個(gè)殘基m個(gè)描述子變量構(gòu)成的21×m個(gè)V變量串聯(lián)表征作為輸入向量,以關(guān)系式n=log2m計(jì)算隱含層應(yīng)取的神經(jīng)元數(shù),以樣本序列的中心殘基(S/T)是否被磷酸化構(gòu)成的分類向量作為輸出向量,構(gòu)建了結(jié)構(gòu)為21×m∶n∶4楊樹蛋白質(zhì)磷酸化位點(diǎn)神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
模型的圖形表達(dá)如圖1,圖中符號(hào)●、→、①、□、∫依次表示輸入層節(jié)點(diǎn)、信息流、輸入值為1的節(jié)點(diǎn)、神經(jīng)元、對(duì)數(shù)S型作用函數(shù)。
模型的數(shù)學(xué)表達(dá)為:式中,Co為輸出層第o神經(jīng)元的輸出變量;Hk為隱層第k神經(jīng)元的輸出變量;Vi,j為輸入層第i殘基第j描述子節(jié)點(diǎn)的輸k神入經(jīng)變?cè)康模贿B接權(quán)表示輸入層第(i,jk)節(jié)神點(diǎn)與隱層第;表示隱層第經(jīng)元與輸出層第o神經(jīng)元的連接權(quán);、分別為隱層第k神經(jīng)元、輸出層第o神經(jīng)元的閾值;log sig()為MATLAB的對(duì)數(shù)S形函數(shù)。
1.4 模型訓(xùn)練與檢驗(yàn)
在進(jìn)行模型訓(xùn)練時(shí),首先要在MATLAB系統(tǒng)中用氨基酸描述子對(duì)前面組織的字符串訓(xùn)練樣本量化為數(shù)值樣本。因數(shù)據(jù)量很大,用MATLAB語言編程進(jìn)行處理。處理得到的訓(xùn)練樣本——輸入矩陣V和輸出矩陣C分別是(21×m)×L和4×158的數(shù)值矩陣。將定義好的訓(xùn)練樣本導(dǎo)入圖形用戶界面(GUI),并按圖1進(jìn)行網(wǎng)絡(luò)設(shè)置后,就可進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,最后將名為“network N”的網(wǎng)絡(luò)對(duì)象等訓(xùn)練結(jié)果導(dǎo)出GUI并保存。模型的擬合性能檢驗(yàn),用測量學(xué)的精度計(jì)算方法;預(yù)測性能檢驗(yàn)用生物信息學(xué)中常用的評(píng)價(jià)指標(biāo)——準(zhǔn)確率Acc、靈敏度Sn、特異度Sp、馬修斯相關(guān)系數(shù)MCC[11,14],其算式如下:式中,TP—被正確分類的正(Positive)樣本數(shù)目;TN—被正確分類的負(fù)(Negative)樣本數(shù)目;FP—被錯(cuò)誤分類的正樣本數(shù)目;FN—被錯(cuò)誤分類的負(fù)樣本數(shù)目;T—總樣本數(shù)目。L
圖1 楊樹蛋白質(zhì)磷酸化位點(diǎn)神經(jīng)網(wǎng)絡(luò)預(yù)測模型(21×m∶n∶4)Fig.1 Neural network model forecasting phosphorylation sites of pop lar protein(21×m∶n∶4)
以158段和54段氨基酸序列的描述子量化數(shù)據(jù)作為訓(xùn)練和檢驗(yàn)樣本,對(duì)所建模型按輸入向量分為三種類型(Network1、Network2、Network3)進(jìn)行訓(xùn)練、檢驗(yàn)和對(duì)比分析(見表3),得最好的模型為network3,其結(jié)構(gòu)為21×16∶8∶4,擬合準(zhǔn)確度為90%,預(yù)測的正確率Acc、靈敏度Sn、特異度Sp、馬修斯相關(guān)系數(shù)MCC等預(yù)測評(píng)價(jià)指標(biāo)分別為78%、89%、67%、0.57。文獻(xiàn)[5]用SVM研究的結(jié)果依次為74%,72%,77%,0.49;文獻(xiàn)[6]基于SVM的氨基酸頻率計(jì)算預(yù)測水稻蛋白質(zhì)磷酸化位點(diǎn)的結(jié)果依次為75%,76%,67%,0.47。對(duì)比結(jié)果表明,除Sp指標(biāo)外,其余指標(biāo)都明顯大于前人的研究結(jié)果,說明本文提出的模型network3也具有理想的蛋白質(zhì)磷酸化位點(diǎn)預(yù)測能力。將network3重命名為NNFPSPP (Neural Network Forecasting Phosphorylation Site of Poplar Protein),其權(quán)值、閾值見表4,將其代入式(1),得楊樹蛋白質(zhì)磷酸化位點(diǎn)神經(jīng)網(wǎng)絡(luò)預(yù)測模型作用函數(shù)表達(dá)式,因輸入變量和權(quán)值、閾值個(gè)數(shù)多,不便在此列出。在實(shí)際應(yīng)用時(shí),直接調(diào)用其MATLAB仿真函數(shù)表達(dá)式:
式中,sum()為MATLAB的仿真函數(shù);NNFPSPP為訓(xùn)練好的網(wǎng)絡(luò)對(duì)象,它儲(chǔ)存了網(wǎng)絡(luò)結(jié)構(gòu)、屬性等全部參數(shù);V、C為模型的輸入、輸出向量。
表3 評(píng)價(jià)模型預(yù)測性能的指標(biāo)Table 3 Indicators evaluating predict performance of themodel
表4 NNFPSPP的訓(xùn)練結(jié)果Table 4 Straining results of NNFPSPP
在論文的研究過程中,從磷酸化位點(diǎn)數(shù)據(jù)庫下載、組建樣本集是一個(gè)相當(dāng)費(fèi)事的工作,需要輔助于計(jì)算機(jī)的數(shù)據(jù)處理功能。我們自編的將字符串樣本轉(zhuǎn)換為數(shù)值樣本的MATLAB程序,是一個(gè)有益的參考。
在準(zhǔn)備好樣本集的基礎(chǔ)上,以樣本序列的21個(gè)氨基酸殘基、每個(gè)殘基m個(gè)描述子變量構(gòu)成的21xm個(gè)V變量串聯(lián)表征作為輸入向量,以關(guān)系式n=log2m計(jì)算隱含層應(yīng)取的神經(jīng)元數(shù),以樣本序列的中心殘基(S/T)是否被磷酸化構(gòu)成的分類向量作為輸出向量,構(gòu)建了結(jié)構(gòu)為21×m∶n∶4楊樹蛋白質(zhì)磷酸化位點(diǎn)神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
以158段和54段氨基酸序列的描述子量化數(shù)據(jù)為訓(xùn)練和檢驗(yàn)樣本,對(duì)所建模型按輸入向量分三種類型(Network1、Network2、Network3)進(jìn)行訓(xùn)練、檢驗(yàn)和對(duì)比分析,得適宜的模型結(jié)構(gòu)為21×16∶8∶4,模型的擬合準(zhǔn)確度為90%,Acc、Sn、Sp、MCC分別為78%、89%、67%、0.57,除Sp指標(biāo)外,其余指標(biāo)值都明顯優(yōu)于前人的研究。
本文的研究特色:(1)針對(duì)木本植物建立蛋白質(zhì)磷酸化位點(diǎn)預(yù)測模型,將林木生物信息資源作為森林資源的重要組成部分,將林木生物信息學(xué)納入森林資源信息化管理研究,這對(duì)林學(xué)學(xué)科的發(fā)展將具有較大的促進(jìn)作用;(2)將氨基酸序列片段與BP人工神經(jīng)網(wǎng)絡(luò)整合在一起的楊樹蛋白質(zhì)磷酸化位點(diǎn)神經(jīng)網(wǎng)絡(luò)預(yù)測模型,簡單直觀,通俗易懂,數(shù)形統(tǒng)一;(3)用MATLAB的仿真函數(shù)表達(dá)的預(yù)測函數(shù)式,是一種超常規(guī)數(shù)學(xué)表達(dá),形式簡捷,應(yīng)用方便;(4)首次在木本植物中應(yīng)用一種新型氨基酸描述子表征氨基酸性質(zhì)與結(jié)構(gòu),使所建模型具有較強(qiáng)的預(yù)測能力。
應(yīng)用的楊樹蛋白質(zhì)磷酸化實(shí)驗(yàn)數(shù)據(jù),只有S、T的磷酸化,沒有Y的磷酸化。這是否為楊樹生物信息的特性之一,有待進(jìn)一步驗(yàn)證。氨基酸性質(zhì)與結(jié)構(gòu)的新型描述子表征,可否明顯提高楊樹蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確度[15],正作進(jìn)一步研究。
前人對(duì)鑒定得到的磷酸化蛋白進(jìn)行了細(xì)胞組件、分子功能及其所涉及的生物學(xué)途徑分類研究[12],結(jié)果表明,小黑楊蛋白質(zhì)的磷酸化廣泛存在于細(xì)胞內(nèi)的任何亞細(xì)胞結(jié)構(gòu),參與了幾乎全部生命活動(dòng)過程。由此可以按結(jié)構(gòu)與功能的關(guān)系判定,所收集和組織的建模樣本不會(huì)有很高的相似度,不會(huì)過高估計(jì)模型精度。
[1] 李伍舉,吳加金.蛋白質(zhì)功能位點(diǎn)預(yù)測[J].生物化學(xué)與生物物理進(jìn)展,1993,20(1):60-62. LIWuju,WU Jiajin.Prediction of protein function site [J].Progress of Biochemistry and Biophysics,1993,20 (1):60-62.
[2] GLADIASM,TERESA F.Protein phosphorylation path?ways disruption by pesticides[J].Advances in Biological Chemistry,2013,3,460-474.
[3] ELLEN D,F(xiàn)REEK G B,DIDIER V,et al.Detection of cardiacmyosin binding protein?C(cMyBP?C)by a phos?pho?specific PKD antibody in contracting rat cardiomyo?cytes[J].Advances in Bioscience and Biotechnology,2013,4,1-6.
[4] QUE S,WANG Y,CHEN P,et a1.Evaluation of protein phosphorylation site predictors[J].Protein and Peptide Letters,2010,17:64-69.
[5] 胡敏菁,吳建盛,施識(shí)帆,等.面向蛋白質(zhì)功能位點(diǎn)識(shí)別的機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建[J].生物信息學(xué),2010,8(1):12-15. HU Minjing,WU Jiansheng,SHI Shifan,et al.Machine learning platform for protein function sites prediction[J]. China Journal of Bioinformatics,2010,8(1):12-15.
[6] 李志良,李根容,舒茂,等.一種新型氨基酸拓?fù)浣Y(jié)構(gòu)信息矢量及在肽定量構(gòu)效關(guān)系研究中的應(yīng)用[J].中國科學(xué)B輯:化學(xué),2008,38(8):745-754. LIZhiliang,LIGenrong,SHU Mao,et a1.A new type of amino acid topology information vector and application in research of peptide quantitative structure?activity relation?ship[J].China Science B:Chemistry,2008,38(8):745-754.
[7] 周鵬,周原,吳世容,等.一種基于三維原子場相互作用矢量的新型氨基酸結(jié)構(gòu)信息描述子[J].科學(xué)通報(bào),2008,51(1):34-39. ZHOU Peng,ZHOU Yuan,WU Shirong,et al.A new type of structure information descriptor for amino acid based on interaction vector in three dimensional atom field [J].Chinese Science Bulletin,2008,51(1):34-39.
[8] 舒茂.新型氨基酸結(jié)構(gòu)表征方法及其在定量構(gòu)效關(guān)系中應(yīng)用研究[D].重慶:重慶大學(xué),2009. SHU Mao.New Type of Characterization Method of Amino Acid Structure and its Application Research in Quantita?tive Structure?Activity Relationship[D].Chongqing:Chongqing University,2009.
[9] GAO J,THELEN J J,DUNKER A K,et al.Musite,a tool for global prediction of general and kinase specific phos?phorylation sites[J].Mol Cell Proteomics,2010,9(12):2586-600.
[10]NAKAGAMIH,SUGIYAMA N,MOCHIDA K,et al. Large?scale comparative hosphoproteomics identifies con?served phosphorylation sites in plants[J].Plant Physiolo?gy,2010,153:1161-1174.
[11]王偉,何華勤.基于SVM的氨基酸頻率計(jì)算預(yù)測水稻蛋白質(zhì)磷酸化位點(diǎn)[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,30(3):11-13. WANGWei,HE Huaqin.Prediction of rice protein phos?phorylation site based on amino acid frequency calculation with SVM[J].Journal of Chifeng University(Natural Sci?ence Edition),2014,30(3):11-13.
[12]劉曉羽.小黑楊葉片磷酸化蛋白質(zhì)組及類囊體膜蛋白復(fù)合體的鑒定與分析[D].哈爾濱:東北林業(yè)大學(xué),2010. LIU Xiaoyu.Identification and Analysis of Phosphopro?teome and Thylakoid Membrane Protein Complex in Leaf Blade of Populus[D].Harbin:Northeast Forestry Univer?sity,2010.
[13]HEAZLEWOOD J L,DUREK P,HUMMEL J,et al.Phos?PhAt:a database of phosphorylation sites in Arabidopsis thaliana and a plant?specific phosphorylation site predictor [J].Nucleic Acids Research,2007,36:D1015-1021.
[14]白海艷,呂軍,張穎,等.蛋白質(zhì)磷酸化位點(diǎn)的識(shí)別[J].內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào),2011,30(2):108-115. BAIHaiyan,LV Jun,ZHANG Ying,et al.Identification of protein phosphorylation sites[J].Journal of Inner Mon?golia University of Technology,2011,30(2):108-115.
[15]高光芹,孟慶玲,黃家榮.楊樹蛋白質(zhì)二級(jí)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)預(yù)測[J].西北林學(xué)院學(xué)報(bào),2014,29(5):59-63. GAO Guangqin,MENG Qingling,HUANG Jiarong.Predic?tion of poplar protein secondary structure with artificial neural networks[J].Journal of Northwast Forestry Univer?sity,2014,29(5):59-63.
Predicting phosphorylation sites of Poplar protein
GAO Guangqin,HUANG Jiarong?,ZHOU Junchao,XIE Pengfang
(Henan Agricultural University,Zhengzhou 450002,China)
In this paper,the phosphoproteome of Populus simonii×P nigra was used as the research object.The nonlinear relationship between the structure characteristics of amino acid sequence and phosphorylation of serine and threoninewas expressed by artificial neural network.A BP artificial neural networkmodelwas established and trained by using the real data on phosphorylation.The appropriate structure is 21 x 16∶8∶4,the fitting accuracy is 90%,and the Acc,Sn,Sp,MCC are 78%,89%,67%,and 0.57,respectively.The comparative results show that the model has strong prediction ability.
Populus simonii×Pnigra;Phosphoproteome;Phosphorylation site;Artificial neural network
Q51
A
1672-5565(2015)03-165-05
2015-05-06;
2015-06-03.
河南省高等學(xué)校重點(diǎn)科研項(xiàng)目。
高光芹,女,碩士研究生,實(shí)驗(yàn)師,研究方向:化學(xué)生物信息學(xué);E?mail:sckdggq@163.com.
?
黃家榮,男,博士,教授,研究方向:森林資源信息化管理;E?mail:huangjiarong137@163.com.