許睿,金松林,王廷雨
(河南科技學院信息工程學院,河南新鄉(xiāng)453003)
一種新型的蛋白質(zhì)復合物挖掘算法
許睿,金松林,王廷雨
(河南科技學院信息工程學院,河南新鄉(xiāng)453003)
隨著人類基因組計劃的完成,如何從蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)特性出發(fā),有效地識別蛋白質(zhì)復合物和功能模塊正成為蛋白質(zhì)組學研究的重點.提出一種新型的蛋白質(zhì)復合物挖掘算法,首先分析蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)特征,依據(jù)每個蛋白質(zhì)的GO術(shù)語相似性對蛋白質(zhì)網(wǎng)絡(luò)進行加權(quán),再通過不斷地迭代傳播,將各節(jié)點劃分到穩(wěn)定的集合中,從而識別出蛋白質(zhì)復合物.該算法與CPM算法(k=3)及Core-Attachment算法進行對照實驗,結(jié)果表明該算法在預(yù)測得到的蛋白質(zhì)復合物的匹配程度和復合物的功能富集性等方面更有優(yōu)勢.
蛋白質(zhì)網(wǎng)絡(luò);GO術(shù)語;蛋白質(zhì)相互作用;蛋白質(zhì)復合物
隨著人類基因組序列測序的完成,現(xiàn)代生物學研究已經(jīng)進入了后基因時代,課題研究的重點也將轉(zhuǎn)移到基因的功能表達問題,大多數(shù)基因最終是通過對應(yīng)的蛋白質(zhì)進行表達的[1].在蛋白質(zhì)組學的大量研究中,發(fā)現(xiàn)一個復雜的生物活動不可能只是單獨的生物分子來操縱的,往往是由多個生物分子相互配合所表達出來的,如何透過生命現(xiàn)象,觀察生命的本質(zhì)以及發(fā)現(xiàn)基因的全部功能是一個重要的挑戰(zhàn)[2].
研究表明蛋白質(zhì)網(wǎng)絡(luò)中各節(jié)點的度服從冪率分布[3],大部分節(jié)點的度較低而少數(shù)節(jié)點的度卻很高,而且大部分節(jié)點只與少數(shù)節(jié)點有相互作用,少數(shù)節(jié)點卻與多數(shù)節(jié)點有相互作用.具體的蛋白質(zhì)網(wǎng)絡(luò)在實現(xiàn)某種功能的過程中,節(jié)點間的交互是有條不紊地進行的.研究表明蛋白質(zhì)網(wǎng)絡(luò)中存在著簇結(jié)構(gòu),該簇結(jié)構(gòu)是由具有相似功能的蛋白質(zhì)節(jié)點組成,這些節(jié)點間的交互程度明顯高于非簇結(jié)構(gòu)的節(jié)點間的交互程度,蛋白質(zhì)網(wǎng)絡(luò)中大部分生命活動都是由多個簇之間的相互作用來完成[4].由于生物系統(tǒng)的功能復雜,通過挖掘蛋白質(zhì)網(wǎng)絡(luò)中的簇結(jié)構(gòu),有助于了解蛋白質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)和功能特性.
1.1基因本體(Gene Ontology)
基因本體是“基因本體聯(lián)盟”所建立的數(shù)據(jù)庫.基因本體使各種數(shù)據(jù)庫中基因產(chǎn)物功能描述相一致,統(tǒng)一了各種數(shù)據(jù)庫中關(guān)于基因的定義,使研究者能夠進行統(tǒng)一的歸納、處理、共享基因以及基因產(chǎn)物的數(shù)據(jù).基因本體包括分子功能(molecular function)、生物學過程(biological process)、細胞組件(cellular component).分子功能描述在個體分子生物學上的活性,如催化活性或結(jié)合活性.生物學過程是由分子功能有序地組成并具有多個步驟的一個過程.細胞組件指細胞的每個部分和細胞外環(huán)境,揭示了基因產(chǎn)物是在什么地方起作用.
GO術(shù)語的結(jié)構(gòu)如圖1所示,是一個有向無環(huán)圖.節(jié)點表示術(shù)語,邊表示兩術(shù)語間的關(guān)系,其中“I”表示繼承關(guān)系,“P”表示從屬關(guān)系,“R”表示前者調(diào)節(jié)控制后者.如果一個節(jié)點術(shù)語A被另一個節(jié)點術(shù)語B所包含或者繼承,則稱節(jié)點A為節(jié)點B的父節(jié)點,節(jié)點B為節(jié)點A的子節(jié)點.在圖1中,從上而下,GO術(shù)語語義逐漸具體,子節(jié)點擁有其祖先節(jié)點的注釋信息,因此下層節(jié)點所擁有的語義信息量比父節(jié)點要更大.
圖1GO術(shù)語結(jié)構(gòu)Fig.1 Structure diagramofGOterms
1.2 P-value值
在蛋白質(zhì)網(wǎng)絡(luò)中,處在同一蛋白質(zhì)功能模塊內(nèi)部的蛋白質(zhì)往往具有相似的結(jié)構(gòu)和功能特性,它們之間相互作用,共同實現(xiàn)某種生物功能.通過計算具有共同功能的蛋白質(zhì)在預(yù)測蛋白質(zhì)復合物中出現(xiàn)的概率的P-value值,來判斷蛋白質(zhì)功能模塊的主要功能或者預(yù)測新功能.P-value值的定義如式(1)所示
式(1)中,N表示蛋白質(zhì)網(wǎng)絡(luò)的節(jié)點數(shù),C表示蛋白質(zhì)復合物中的蛋白質(zhì)數(shù),k表示蛋白復合物中具有某個功能的蛋白質(zhì)數(shù),F表示蛋白質(zhì)網(wǎng)絡(luò)的全部擁有該功能的蛋白質(zhì)數(shù).一般認為在蛋白質(zhì)網(wǎng)絡(luò)中, P-value值越低,蛋白質(zhì)復合物隨機出現(xiàn)這種功能的可能性就越低,因此這樣預(yù)測蛋白質(zhì)復合物具有更高的統(tǒng)計意義.通常將預(yù)測蛋白質(zhì)復合物對應(yīng)P-value值最小的功能作為其主要功能或者注釋功能.
2.1 GO術(shù)語的相似性
蛋白質(zhì)復合物的GO語義相似性是指所有蛋白質(zhì)間的平均關(guān)聯(lián)程度,可以通過所有蛋白質(zhì)復合物的加權(quán)平均計算實現(xiàn).通常,蛋白質(zhì)復合物具有較高的GO語義相似性,表明復合物內(nèi)的蛋白質(zhì)表達相似功能的概率越大.在計算兩個GO術(shù)語間的相似度的時候,如果兩個GO術(shù)語共享的信息越多,則兩者就越相似.在本文中,采用Lin[5]提出的計算方法,兩個GO術(shù)語的相似性由它們所共有的最近祖先的信息量和每個GO術(shù)語包含的信息量共同決定.式(2)如下所示
式(2)中,C1和C2分別表示兩個GO術(shù)語,p(c)表示該術(shù)語C在數(shù)據(jù)集中出現(xiàn)的概率,CT(C1,C2)表示C1、C2共同祖先的集合.
2.2 蛋白質(zhì)相互作用
通過研究發(fā)現(xiàn),在蛋白質(zhì)網(wǎng)絡(luò)中,每一個蛋白質(zhì)都有多條GO注釋信息,本文計算兩個蛋白質(zhì)之間相似性的最大值來衡量這兩者的相互作用.因此兩個蛋白質(zhì)之間的蛋白質(zhì)相互作用E(u,v)可以用蛋白質(zhì)u、蛋白質(zhì)v的GO語義相似來衡量,如式(3)所示
式(3)中,Fu表示蛋白質(zhì)u的GO注釋集,Fv表示蛋白質(zhì)v的GO注釋集.文本用蛋白質(zhì)間相似性來衡量兩個蛋白質(zhì)之間的相互作用,將蛋白質(zhì)網(wǎng)絡(luò)從無權(quán)圖轉(zhuǎn)化為有權(quán)圖,在轉(zhuǎn)化的過程中,用GO術(shù)語作為參考,突出了蛋白質(zhì)之間的生物學特性.
2.3 算法描述
在蛋白質(zhì)網(wǎng)絡(luò)中,用兩蛋白質(zhì)間的GO術(shù)語的相似性強弱量化這兩者間的相互作用,進而把無權(quán)的蛋白質(zhì)網(wǎng)絡(luò)轉(zhuǎn)化為有權(quán)網(wǎng).將初始時刻每個蛋白質(zhì)節(jié)點當作單獨的蛋白質(zhì)模塊,由于每個模塊只含有一個節(jié)點,則模塊的唯一信號就由該節(jié)點來表示.本算法設(shè)定模塊間的信號只允許在直接連接的相鄰節(jié)點間進行傳播,各節(jié)點依據(jù)相互作用關(guān)系將自己的信號傳到相鄰節(jié)點集合中,并且該節(jié)點也能收到相鄰節(jié)點集反饋給自己的信號,而且每個蛋白質(zhì)節(jié)點在傳播過程中都會將信號強度最大的信號類型來替換自己原先的類型.按照這一設(shè)定,經(jīng)過一系列迭代過程,蛋白質(zhì)網(wǎng)絡(luò)中會形成一些節(jié)點集合,通過分析,發(fā)現(xiàn)每個節(jié)點集合中的節(jié)點具有相同的信號類型,而且他們在結(jié)構(gòu)上是緊密連接的.隨著迭代過程的不斷進行,節(jié)點集合會將具有結(jié)構(gòu)相似以及信號類型一致的單獨節(jié)點加入其中.當整個蛋白質(zhì)網(wǎng)絡(luò)中的各節(jié)點集合的信號類型趨于穩(wěn)定的時候,算法終止.最后,分析各蛋白質(zhì)節(jié)點的信號類型,具有相同的信號類型的節(jié)點預(yù)測會具有相似的功能特性,劃為同一個蛋白質(zhì)復合物中.
算法的具體描述如下:
為每個節(jié)點分配唯一的信號類型
計算該節(jié)點的相鄰節(jié)點的信號量
用最強相鄰節(jié)點的信號類型替換自己原有的信號類型
until蛋白質(zhì)網(wǎng)絡(luò)中的信號類型穩(wěn)定
f
or所有信號類型
輸出具有該信號類型的節(jié)點
end for
通過分析所有生物物種的蛋白質(zhì)相互作用的數(shù)據(jù),發(fā)現(xiàn)酵母蛋白質(zhì)網(wǎng)絡(luò)的數(shù)據(jù)較為完備,所以本文選擇酵母蛋白質(zhì)網(wǎng)絡(luò)作為本實驗的測試對象.實驗選取Krogan數(shù)據(jù)庫[6],先對數(shù)據(jù)集進行預(yù)處理,過濾掉自環(huán)邊和多邊作用等,最終得到的測試網(wǎng)絡(luò)包括了3 672個節(jié)點和14 317條邊.為了驗證本算法的有效性,將實驗結(jié)果與另兩個基于稠密子圖的蛋白質(zhì)復合物挖掘算法(CPM[7]、Core-Attachment[8])的實驗結(jié)果做對照分析.為了有效地評價預(yù)測得到的蛋白質(zhì)復合物,從已發(fā)布的小規(guī)模實驗數(shù)據(jù)[9]中人工提取了408個蛋白質(zhì)復合物并生成了詳細目錄.形成該目錄的標準是復合物的規(guī)模大于3,選取了236個標準復合物,其平均規(guī)模為6.6.
表1 參數(shù)P在不同值下的聚類結(jié)果Tab.1 Clusteringresult in different value ofparameter P
在表1中,當衰減因子P值不斷增大時,本算法識別的蛋白質(zhì)復合物的個數(shù)隨之增加,尤其在P值從0到0.2這一階段,識別得到的復合物數(shù)量增長最為迅速.同時蛋白質(zhì)復合物的平均規(guī)模在不斷減小,復合物中所包含的節(jié)點數(shù)量也在不斷減小.在P值為0時,在蛋白質(zhì)網(wǎng)絡(luò)中形成節(jié)點規(guī)模很大的蛋白質(zhì)復合物.研究表明,當匹配閾值設(shè)定為0.2時,就可以將此時識別的蛋白質(zhì)復合物標記為已知蛋白質(zhì)復合物.但是為了找到最適合酵母蛋白質(zhì)網(wǎng)絡(luò)的參數(shù)P值,將參數(shù)P設(shè)置從0到1,步長為0.1,進行算法有效性分析.統(tǒng)計本算法在不同參數(shù)P的條件下,識別出的蛋白質(zhì)復合物在已知復合物中所占的比例,如圖2所示.
在圖2中,通過分析,發(fā)現(xiàn)本算法在參數(shù)P為0.4時,預(yù)測準確率最高,也就是預(yù)測得到的蛋白質(zhì)復合物標識正確的比例最高.因此,本實驗將參數(shù)P設(shè)定為0.4.Core-Attachment算法、CPM算法(k=3)和本算法分別預(yù)測得到的蛋白質(zhì)復合物被標識的比例見圖3.
從圖3中可以看出,在不同匹配閾值下,本算法預(yù)測得到的復合物被標識的比例都要略高于CPM算法(k=3)得到的結(jié)果,而且明顯高于Core-Attachment算法得到的結(jié)果.一般認為當匹配閾值大于0.2時,可以將此時識別的蛋白質(zhì)復合物標記為已知蛋白質(zhì)復合物.本算法預(yù)測到的蛋白質(zhì)復合物中有約40%的匹配閾值大于0.2,而CPM算法(k=3)和Core-Attachment算法預(yù)測得到的蛋白質(zhì)復合物匹配閾值大于0.2復合物的比例分別為38%和18%,本算法比其他兩種算法分別提高了2個和22個百分點.
對本算法、CPM算法(k=3)和Core-Attachment算法預(yù)測得到的蛋白質(zhì)復合物分別進行功能富集性分析.比較這3種不同算法得到的蛋白質(zhì)復合物的P-value分布,將P-value按(-∞,E-10)、[E-10,E-5)、[E-5,0.01)、[0.01,+∞)的從小到大分為4個區(qū)間,分別統(tǒng)計各區(qū)間上蛋白質(zhì)復合物的數(shù)量與比例,各算法的P-value分布如表2所示.
表2 不同算法識別的蛋白質(zhì)復合物的功能富集性分析Tab.2 Functional enrichment ofprotein complexes predicted bydifferent algorithms
研究表明,當P-value<0.01時,所對應(yīng)的蛋白質(zhì)復合物功能表現(xiàn)更加明顯,具有生物學意義.從表2中可以看出,本算法預(yù)測得到的蛋白質(zhì)復合物中有約64.5%的復合物具有相應(yīng)的生物學意義,高于CPM算法(56.9%)和Core-Attachment算法(35.7%).本算法在P-value值小于E-10時所占蛋白質(zhì)復合物比例達到11.1%,比Core-Attachment算法對應(yīng)的比值提高近一倍,比CPM算法略低.但是在P-value值在[E-10,E-5)和[E-5,0.01)時,本算法得到的結(jié)果均優(yōu)于CPM算法和Core-Attachment算法.實驗結(jié)果表明本算法在功能富集性方面比其他兩種算法有一定的優(yōu)越性.
本文提出了一種新型的蛋白質(zhì)復合物挖掘算法,首先利用GO術(shù)語相似性對蛋白質(zhì)網(wǎng)絡(luò)進行加權(quán)處理,然后通過蛋白質(zhì)節(jié)點迭代傳播,每個蛋白質(zhì)節(jié)點都會從鄰居節(jié)點集合中選取信號最強的信號類型來更新自己,直到整個蛋白質(zhì)網(wǎng)絡(luò)趨于穩(wěn)定,算法終止.在實驗中,本算法通過與CPM算法(k=3)和Core-Attachment算法對照,本算法在功能富集性方面和蛋白質(zhì)復合物的匹配程度方面都有提高,說明本算法在識別蛋白質(zhì)復合物上具有比較好的效果.
[1]WILKINS M R,SANEHEZ J C,GOOLEY A A,et al.Progress with proteome projects:why all proteins expressed by a genome should be identified and howtodoit[J].Biotechnologyand Genetic EngineeringReviews,1996,13(1):19-50.
[2]GARRELS J I.Yeast genomic databases and the challenge of the post-genomic era[J].Functional&Integrative Genomics,2002, 2(4):212-237.
[3]BARABASI AL,ALBERTR.Emergence ofscalingin randomnetworks[J].Seience,1992,86(5439):509-512.
[4]趙靜,俞鴻,駱建華,等.應(yīng)用復雜網(wǎng)絡(luò)理論研究代謝網(wǎng)絡(luò)的進展[J].科學通報,2006,51(11):1241-1245.
[5]LIN D.An information-theoretic definition of similarity[J].Proceedings of the Fifteenth International Conference on Machine Learning,1998,1(2):296-304.
[6]KROGAN N,CAGNEY G,YU H,et al.Global landscape of protein complexes in the yeast Saccharomyces cerevisiae[J].Nature, 2006,440(7084):637-643.
[7]PALLA G,DERENYI I,FARKAS I,et al.Uncovering the overlapping community structure of complex networks in nature and society[J].Nature,2005,435(7043):814-818.
[8]RZHETSKY A,GOMEZ S M.Birth of scale-free molecular networks and the number of distinct DNA and protein domains per genome[J].Bioinformatics,2001,17(10):988-996.
[9]PUS,WONGJ,TUMER B,et al.Up-to-date catalogues ofyeast protein complexes[J].Nucleic Acids Res,2009,37(3):825-831.
(責任編輯:盧奇)
Novel algorithm for mining of protein complexes
XU Rui,JIN Songlin,WANG Tingyu
(School ofInformation Engineering,Henan Institute ofScience and Technology,Xinxiang453003,China)
With the completion of the Human Genome Project,through analysis of structure characteristic of protein networks,identifying protein complexes or function modules is becoming the focus of current proteomics research.A novel algorithm for the mining of protein complexes was proposed.Based on an in-depth analysis of structure characteristics of protein networks,initially the protein network was weighted by GO terms of protein nodes, furthermore each protein node was divided into a stable protein set through the constant iteration of the nodes,finally protein complexes was identified in protein network.Compared with the algorithm CPM(k=3)and algorithm Core-Attachment,our method has a better performance in matching degree and functional enrichment of predicted protein complexes.
protein network;GO terms;protein interaction;protein complex
TP301.6
A
1008-7516(2017)01-0060-05
10.3969/j.issn.1008-7516.2017.01.012
2016-10-08
許睿(1987―),男,河南新鄉(xiāng)人,碩士,助教.主要從事數(shù)據(jù)挖掘和生物信息學研究.