陳霞 陳浩文
摘要蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)是大多數(shù)細(xì)胞過(guò)程和生物功能的基礎(chǔ)。該研究基于蛋白質(zhì)功能注釋方法(FNM)首次提出了結(jié)合蛋白的重要性的方法、結(jié)構(gòu)域相互作用、基因本體論注釋序列和注釋?zhuān)蝗缓笕诤喜煌牟呗?,分別建立了3種方法結(jié)合的蛋白質(zhì)序列特征與FNM功能注釋功能。利用蛋白質(zhì)相互作用預(yù)測(cè)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)是進(jìn)一步理解蛋白質(zhì)功能的必要前提,也是理解細(xì)胞新陳代謝及復(fù)雜疾病形成發(fā)生的基礎(chǔ)和關(guān)鍵。
關(guān)鍵詞蛋白質(zhì)相互作用;多源信息融合;功能預(yù)測(cè);本體注釋
中圖分類(lèi)號(hào)S126文獻(xiàn)標(biāo)識(shí)碼
A文章編號(hào)0517-6611(2015)28-352-02
Sequence and Functional Annotationsbased Prediction of Proteinprotein Interactions
CHEN XiaCHEN Haowen2*(1.Changsha Aeronautical Vocational and Technical College,Changsha,Hunan410124; 2.School of Information Science and Engineering,Hunan University,Changsha,Hunan 410082)
AbstractProtein protein interaction (PPI) is the basis of most cellular processes and biological functions.This paper first proposed the method of binding proteins by protein functional annotation method (FNM) for the first time.And then,three methods of combining the characteristics of protein sequences and the function of FNM were established.Prediction of proteinprotein interaction network is a necessary prerequisite for understanding the function of proteins,which is the basis and key to understand the formation of cell metabolism and complex diseases.
Key wordsProtein interaction; Multisource information fusion; Functional prediction; Ontology annotation
研究人員可以從實(shí)驗(yàn)檢測(cè)方法或者計(jì)算生物學(xué)2個(gè)角度研究蛋白質(zhì)的相互作用。盡管生物實(shí)驗(yàn)檢測(cè)方法可以得到大量的PPI數(shù)據(jù),但這些實(shí)驗(yàn)方法的成本昂貴,并且實(shí)驗(yàn)所導(dǎo)致的高假陽(yáng)性等缺陷使得它們不能作為標(biāo)準(zhǔn)使用。而計(jì)算生物學(xué)方法具有低成本、效率高等優(yōu)點(diǎn),從而被研究人員廣泛關(guān)注,該方法可以通過(guò)分析大規(guī)模數(shù)據(jù)來(lái)分析PPI網(wǎng)絡(luò)隨時(shí)間變化的特性。
2001年Bock等[1]首先提出利用支持向量機(jī)預(yù)測(cè)蛋白質(zhì)相互作用方法,該方法僅依靠蛋白質(zhì)序列本身的數(shù)據(jù)即可以預(yù)測(cè)其相互作用,隨后更多的研究者也提出了基于序列保守型的改進(jìn)方法。但是隨著數(shù)據(jù)的不斷增加,新預(yù)測(cè)的蛋白質(zhì)相互作用中存在大量的假陽(yáng)性數(shù)據(jù),因此,一些基于文本挖掘、蛋白質(zhì)空間結(jié)構(gòu)、基因功能注釋等多源信息的方法相繼被提出[2-3]。
1基于蛋白質(zhì)序列信息及本體注釋信息融合的預(yù)測(cè)方法
單獨(dú)利用某一種信息可能難以獲得最優(yōu)的效果,而將多種互補(bǔ)的信息融合能最大限度地預(yù)測(cè)蛋白質(zhì)相互作用網(wǎng)絡(luò)[4-6]。該研究綜合利用蛋白質(zhì)序列信息、結(jié)構(gòu)信息、基因本體注釋以及序列注釋等,預(yù)測(cè)蛋白質(zhì)相互作用。
圖1顯示了該研究融合策略方法的研究框架。從圖1可看出,該方法融合了4種類(lèi)型的先驗(yàn)知識(shí)如蛋白質(zhì)重要性、域相互作用、基因及序列的本體注釋。融合策略方法基于一個(gè)重要假設(shè)即蛋白質(zhì)序列信息與其他信息(基因本體注釋信息等)是互補(bǔ)的。根據(jù)不同的融合策略,該研究設(shè)計(jì)了多種蛋白質(zhì)預(yù)測(cè)方法。該研究中蛋白質(zhì)序列信息采用CT方法[9]獲取,以下分別詳細(xì)介紹4種功能注釋方法及3種融合策略。
1.1蛋白質(zhì)功能注釋方法
為了從基因功能等角度獲取蛋白質(zhì)相關(guān)的先驗(yàn)信息以彌補(bǔ)蛋白質(zhì)序列信息的局限性,以下采用了4種功能注釋方法:
(1)重要程度??紤]到蛋白質(zhì)對(duì)某個(gè)組織器官的作用,每個(gè)蛋白質(zhì)可以被劃分為重要的或者不重要的。利用公式(1)的編碼方案可以將該信息描述為一個(gè)1維向量:
fEP=vEP=當(dāng)2個(gè)蛋白質(zhì)都重要時(shí)
只有1個(gè)蛋白質(zhì)重要時(shí)0,其他T1(1)
(2)蛋白質(zhì)域相互作用。蛋白質(zhì)域是蛋白質(zhì)序列的一部分,是蛋白質(zhì)結(jié)構(gòu)的子單元及進(jìn)化模塊,它們一定程度上決定了蛋白質(zhì)的功能。利用公式(2)將其編碼為一個(gè)1維向量:
fDDI=vDDI=如果存在DDI
0,否則T1(2)
(3)基因本體注釋?;虮倔w由3個(gè)部分組成,描述了生物過(guò)程、分子功能以及細(xì)胞組成等知識(shí)。該研究采用Resnik度量[7]。從公式(3)可以看出,這里需要使用一個(gè)3維向量用于描述2個(gè)蛋白質(zhì)之間的基因注釋相似性。
fGO=[gosim_bp(pp2),gosim_mf(pp2),gosim_cc(pp2)]T3 (3)
(4)序列注釋?;诘鞍踪|(zhì)序列自身的多個(gè)角度特征,如空間結(jié)構(gòu)、功能性質(zhì)等,39個(gè)不同特征如激活位點(diǎn)、beta折疊、結(jié)合位點(diǎn)等被用于注釋蛋白質(zhì)序列。利用方差分析進(jìn)一步驗(yàn)證這些特征是否與蛋白質(zhì)相互作用相關(guān),最終選出26個(gè)特征用于分析:
fSN=[v…,vi,…,v26]T26 (4)
1.2注釋信息融合
為了驗(yàn)證該研究中4種注釋的先驗(yàn)知識(shí)有效性,利用公式(5)將每個(gè)蛋白質(zhì)表示為31維的向量,該注釋信息的融合被稱(chēng)為FNM:
fFNM=[fEP,fDDI,fGO,fSN]T31(5)
1.3序列信息及注釋信息融合
該研究將利用3種融合模型以集成序列信息及先驗(yàn)注釋信息。第一種融合策略JFM利用公式(6)將2類(lèi)特征融合為一個(gè)特征;而第二種策略ELM是利用2個(gè)基分類(lèi)器構(gòu)成集成學(xué)習(xí)模型,其中一個(gè)分類(lèi)器利用CT方法提取的序列信息,一個(gè)分類(lèi)器用于學(xué)習(xí)注釋信息,如公式(7)所示;第三種融合策略WELM引入了一個(gè)權(quán)重因子,通過(guò)調(diào)節(jié)參數(shù)p以獲得最大的預(yù)測(cè)準(zhǔn)確度,如公式(8)所示。
fJFM=[fCT,fEP,fDDI,fGO,fSN]T717(6)
dec_ELM=0.5×dec_CT+0.5×dec_FNM(7)
dec_WELM=(maxp×dec_CT+(1-maxp)×dec-FNM)where maxp=arg maxp∈[0,1](accuracy)(8)
2數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
2.1數(shù)據(jù)集
采用了2種規(guī)模的數(shù)據(jù)集用于評(píng)估該研究改進(jìn)方法(融合策略方法)的性能。第一個(gè)數(shù)據(jù)集是GUO數(shù)據(jù)集[8],該數(shù)據(jù)集是已經(jīng)存在的。該研究從多個(gè)數(shù)據(jù)集中收集蛋白質(zhì)相互作用而構(gòu)建了第二個(gè)數(shù)據(jù)集。前者僅僅包含酵母菌數(shù)據(jù),而后者同時(shí)包含了酵母菌數(shù)據(jù)和人類(lèi)數(shù)據(jù),利用數(shù)據(jù)預(yù)處理方法最終得到5 594個(gè)蛋白質(zhì)相互作用數(shù)據(jù)集。
2.2評(píng)價(jià)指標(biāo)
以下采用準(zhǔn)確度(ACC),敏感度(SN)、陽(yáng)性精確度(PE)以及Matthews 關(guān)聯(lián)系數(shù)(MCC)評(píng)價(jià)該研究中的融合策略方法,如以公式(8)~(11)所示。同時(shí),利用ROC曲線直觀描述。
ACC=TP+TNTP+FP+TN+FN(8)
SN=TPTP+FN (9)
PE=TPTP+FP (10)
MCC=
TP×TN-FP×FN(TP+FN)×(TN+FP)×(TP+FP)×(TN+FN) (11)
式中,TP表示真陽(yáng)性;FP表示假陽(yáng)性;TN表示真陰性;FN表示假陰性。
3結(jié)果與分析
表2中列出了6個(gè)基于序列信息的方法以及該研究提出的4個(gè)策略(FNM、JFM、ELM以及WELM)分別在GUO數(shù)據(jù)集上的試驗(yàn)結(jié)果。前6個(gè)方法中CT方法具有最好的性能。因此,該研究后續(xù)的融合過(guò)程中選擇采用該方法的信息作為序列特征。FNM由于只包含了31維的特征,從而導(dǎo)致信息不足,但是它的計(jì)算復(fù)雜度較小。而同時(shí)融合了注釋信息以及序列信息的JFM、ELM以及WELM大大提高了性能。圖2是所有方法的ROC曲線性能圖。如圖2所示,同時(shí)融合序列信息以及注釋信息的3個(gè)方法的性能最優(yōu),并且這種優(yōu)勢(shì)貫穿所有FP上。這現(xiàn)象表明該研究改進(jìn)的基于序列功能注釋的蛋白質(zhì)相互作用預(yù)測(cè)方法的假陽(yáng)性和假陰性都得以降低,從而提高了真陽(yáng)性和真陰性。
4結(jié)語(yǔ)
該研究詳細(xì)闡述了一種基于融合信息的蛋白質(zhì)相互作用預(yù)測(cè)方法,該方法利用序列信息和功能注釋信息的互補(bǔ)性,設(shè)計(jì)不同的融合方案,然后在不同數(shù)據(jù)集上進(jìn)行了試驗(yàn)比較。試驗(yàn)結(jié)果從多個(gè)準(zhǔn)則上驗(yàn)證了該研究改進(jìn)的融合策略方法具有較好的泛化能力,且假陽(yáng)性率較低。
參考文獻(xiàn)
[1] BOCK J R,GOUGH D A.Predicting protein-protein interactions from primary structure[J].Bioinformatics,20017(5):455-460.
[2] BUI Q C,KATRENKO S,SLOOT P M A.A hybrid approach to extract protein-protein interactions[J].Bioinformatics,20127(2):259-265.
[3] ZHANG Y,LIN H,YANG Z,et al.Hash subgraph pairwise kernel for protein-protein interaction extraction[J].IEEE/ACM transactions on computational biology and bioinformatics (TCBB),2019(4):1190-1202.
[4] SCHAEFER M H,LOPES T J S,MAH N,et al.Adding protein context to the human protein-protein interaction network to reveal meaningful interactions[J].PLoS Comput Biol,2013,9(1):1002860.
[5] CHEN G,LI J,WANG J.Evaluation of gene ontology semantic similarities on protein interaction datasets[J].International journal of bioinformatics research and applications,2013,9(2):173-183.
[6] XENARIOS I,SALW NSKI L,DUAN X J,et al.The database of interacting proteins:A research tool for studying cellular networks of protein interactions[J].Nucleic acids research,20030(1):303-305.
[7] RESNIK P.Semantic similarity in a taxonomy:An informationbased measure and its application to problems of ambiguity in natural language[J].Journal of artificial intelligence research,1999,11(7):95-130.
[8] GUO Y,YU L,WEN Z,et al.Using support vector machine combined with auto covariance to predict proteinprotein interactions from protein sequences[J].Nucleic acids research,2008,36(9):3025-3030.
[9] SHEN J,ZHANG J,LUO X,et al.Predicting proteinprotein interactions based only on sequences information[J].Proceedings of the national academy of sciences,2007,104(11):4337-4341.