萬 杰, 武子惠, 彭雨萱, 李 羚, 李子正, 丁彥蕊
(江南大學(xué) 理學(xué)院信息與計算科學(xué)系,江蘇, 無錫 214122)
識別關(guān)鍵蛋白質(zhì)對疾病治療、藥物設(shè)計等領(lǐng)域有重要作用。生物實驗方法確定關(guān)鍵蛋白質(zhì)具有實驗周期長、成本高和研究成功率低等弊端。借助計算機技術(shù)識別關(guān)鍵蛋白質(zhì)越來越成為生物研究方法的有效輔助,尤其體現(xiàn)在從復(fù)雜的蛋白質(zhì)-蛋白質(zhì)相互作用(protein protein interaction, PPI)中確定關(guān)鍵蛋白質(zhì)方面。結(jié)合復(fù)雜網(wǎng)絡(luò)理論來分析PPI網(wǎng)絡(luò)[1],通過PPI網(wǎng)絡(luò)的拓?fù)涮卣髯R別關(guān)鍵蛋白質(zhì)是研究蛋白質(zhì)功能的有效方法。
在PPI網(wǎng)絡(luò)中,每個蛋白質(zhì)是網(wǎng)絡(luò)的1個節(jié)點,蛋白質(zhì)間的相互作用是網(wǎng)絡(luò)的邊。為了識別關(guān)鍵蛋白質(zhì)節(jié)點,Jeong等人[2]提出了中心性-致死性法則,指出蛋白質(zhì)節(jié)點在網(wǎng)絡(luò)中的中心性越高,成為關(guān)鍵蛋白質(zhì)的可能性越大?;谠摲▌t,較多學(xué)者將復(fù)雜網(wǎng)絡(luò)中的一系列節(jié)點重要性排序算法[3-5]用于研究蛋白質(zhì)的重要性,例如,Hahn等人通過度中心性(degree centrality, DC)[6]發(fā)現(xiàn)3種真核蛋白質(zhì)相互作用網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì);Joy等人將介數(shù)中心性 (betweenness centrality, BC)[7]應(yīng)用到酵母菌蛋白質(zhì)相互作用網(wǎng)絡(luò)中;Manimaran等人將度中心性、介數(shù)中心性和接近中心性 (closeness centrality, CC)[8]用于分析基因網(wǎng)絡(luò)中的關(guān)鍵節(jié)點。不同的節(jié)點重要性指標(biāo)分別從不同角度衡量節(jié)點的重要性。度中心性是基于節(jié)點鄰居的排序方法,介數(shù)中心性和接近中心性是基于最短路徑的排序方法,特征向量中心性( eigenvector centrality, EC)是基于特征向量的排序方法[9],k-殼分解法(k-shell)是基于節(jié)點位置的排序方法[10-14]。由于采用不同的衡量指標(biāo)可以獲得互補的信息,因此,綜合考慮以上5種指標(biāo)是有必要的。本文以Nature期刊報道的Gavin、Babu、Krogan(LCMS)和Krogan(MALDI) 4種酵母菌PPI網(wǎng)絡(luò)為研究對象[15-17],采取度中心性、介數(shù)中心性、接近中心性、特征向量中心性以及k-殼分解法這5種節(jié)點重要性評估指標(biāo),對PPI網(wǎng)絡(luò)的節(jié)點進行重要性排序,挖掘關(guān)鍵蛋白質(zhì)。
通過中心性指標(biāo),本文篩選出了4種網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì),并構(gòu)建了關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng)。為了進一步篩選出子網(wǎng)中緊密關(guān)聯(lián)的關(guān)鍵蛋白質(zhì)對,引入杰卡德相似度指標(biāo)(Jaccard index)[15],計算分析子網(wǎng)中的關(guān)鍵蛋白質(zhì)之間的相似性,得到拓?fù)浣Y(jié)構(gòu)相似的關(guān)鍵蛋白質(zhì)對,并獲得核心子網(wǎng)以發(fā)現(xiàn)不同的酵母菌 PPI 網(wǎng)絡(luò)中蛋白質(zhì)相互作用的異同。
本文使用了4個高質(zhì)量的酵母菌PPI網(wǎng)絡(luò)作為研究對象[15-17],分別為Gavin、Babu、Krogan(LCMS)和Krogan(MALDI)酵母菌PPI網(wǎng)絡(luò)。Gavin網(wǎng)絡(luò)是第1個全基因組水平上的PPI網(wǎng)絡(luò),包含有膜蛋白質(zhì)的相互作用。Babu網(wǎng)絡(luò)是膜蛋白相互作用網(wǎng)絡(luò),包含有1 726個膜蛋白質(zhì)的相互作用。LCMS和MALDI網(wǎng)絡(luò)來自Krogan等的研究,MALDI網(wǎng)絡(luò)采用MALDI-TOF質(zhì)譜方法測定,共有2 708個蛋白質(zhì)的7 123個相互作用。LCMS通過LC-MS/MS方法測定,網(wǎng)絡(luò)中含有更多的小蛋白質(zhì)。
針對上述4種酵母菌PPI網(wǎng)絡(luò),通過度中心性、介數(shù)中心性、接近中心性、特征向量中心性和k-殼分解法這5個指標(biāo)對關(guān)鍵蛋白質(zhì)進行識別。
介數(shù)中心性是用最短路徑的思想對圖進行評價的一種度量。對于酵母菌PPI網(wǎng)絡(luò)中的每一對節(jié)點,在節(jié)點之間至少存在一條最短路徑,使得路徑通過的邊數(shù)(未加權(quán)圖)或者邊權(quán)重的和(加權(quán)圖)最小。酵母菌PPI網(wǎng)絡(luò)節(jié)點的介數(shù)中心性即為經(jīng)過該節(jié)點的最短路徑的數(shù)量。介數(shù)中心性反映了某節(jié)點在圖中的關(guān)鍵程度,某節(jié)點的介數(shù)中心性越大,意味著該節(jié)點在整個網(wǎng)絡(luò)中越重要。對于一個節(jié)點i,其介數(shù)中心性計算式為:
接近中心性用于發(fā)現(xiàn)可通過圖高效傳播信息的節(jié)點。對于每個酵母菌PPI網(wǎng)絡(luò)的蛋白質(zhì)節(jié)點,在計算所有節(jié)點對之間的最短路徑的基礎(chǔ)上,再計算它到其他各節(jié)點的最短路徑之和,然后對得到的和求倒數(shù),得到節(jié)點的接近中心性數(shù)值。節(jié)點的接近中心性計算公式為:
其中:u為待計算接近中心性的節(jié)點,v為圖中除u外的任意一個節(jié)點,d(u,v)表示節(jié)點u和節(jié)點v的最短路徑。
特征向量中心性是基于網(wǎng)絡(luò)鄰接矩陣的特征向量和特征值的概念衡量重要性的方法。它表明1個節(jié)點的重要性既取決于其鄰居節(jié)點的數(shù)量,也取決于其鄰居節(jié)點的重要性。與之相連的鄰居節(jié)點越重要,則該節(jié)點就越重要。特征向量中心性的計算公式為:
其中,c為比例常數(shù),xi表示網(wǎng)絡(luò)中節(jié)點i的重要性,N為網(wǎng)絡(luò)節(jié)點總數(shù),aij等于1當(dāng)且僅當(dāng)節(jié)點i 與j相連,否則為0。
村小在李打油眼里,是李灣唯一的最高學(xué)府。帶我去報到那天,他當(dāng)著全校師生鄭重宣布,學(xué)?!敖桢X做衫褲——一身是債”的日子一去不復(fù)返啦!而且,當(dāng)場給每位師生發(fā)一套服裝。我記得很清楚,當(dāng)時有二百五十三個學(xué)生,十九位老師,無論男女、師生,一律的白襯衣藍長褲。是的確良的,大家都美滋滋地叫真涼快。
k-殼分解法迭代地移除度值低于k的節(jié)點,直到所有剩余節(jié)點的度值至少為k。根據(jù)連接到的剩余節(jié)點的數(shù)量,為每個步驟移除的節(jié)點分配“殼指數(shù)”或“k-殼指數(shù)”。因此,具有高殼層索引的節(jié)點與網(wǎng)絡(luò)中的剩余節(jié)點高度連接,對于維持網(wǎng)絡(luò)的整體連接性和結(jié)構(gòu)非常重要,對網(wǎng)絡(luò)的行為和功能具有更大的影響力。
相關(guān)研究表明,度中心性指標(biāo)篩選關(guān)鍵節(jié)點時在大規(guī)模網(wǎng)絡(luò)中應(yīng)用受限;介數(shù)中心性無法準(zhǔn)確區(qū)分不在最短路徑上的節(jié)點重要性;接近中心性對于大型網(wǎng)絡(luò)計算時間復(fù)雜度較高;特征向量中心性篩選的網(wǎng)絡(luò)收斂速度較慢,傾向于關(guān)注節(jié)點在網(wǎng)絡(luò)中的局部結(jié)構(gòu);k-殼分解法對同層的節(jié)點的重要程度無法區(qū)分。因此,本研究采用綜合5種節(jié)點中心性評估指標(biāo)的方法來篩選關(guān)鍵節(jié)點。計算每個網(wǎng)絡(luò)的節(jié)點的度中心性、介數(shù)中心性、接近中心性、特征向量中心性和k-殼分解值,發(fā)現(xiàn)4種酵母菌PPI網(wǎng)絡(luò)的k-殼分解中k值達到上百層,說明蛋白質(zhì)網(wǎng)絡(luò)中存在相當(dāng)多層級結(jié)構(gòu),并且有一些高度連接的核心節(jié)點。因此,在通過不斷嘗試后認(rèn)為選取前4種中心性指標(biāo)降序排列后都處于前2%,且k殼位于內(nèi)10層的節(jié)點為關(guān)鍵節(jié)點較為合適,便于研究分析,并將由所有關(guān)鍵節(jié)點構(gòu)成的網(wǎng)絡(luò)作為關(guān)鍵子網(wǎng)。
為了篩選出關(guān)鍵子網(wǎng)中緊密聯(lián)系的關(guān)鍵蛋白質(zhì)對,本文引入了杰卡德相似度指標(biāo)。杰卡德相似度指標(biāo)是一種常用于數(shù)據(jù)挖掘、機器學(xué)習(xí)和網(wǎng)絡(luò)分析的相似性度量,用于比較網(wǎng)絡(luò)中兩組數(shù)據(jù)或2個節(jié)點的相似性。在PPI網(wǎng)絡(luò)中,由于高度連接的蛋白質(zhì)通常有更多共同的相鄰邊,因此,杰卡德相似度指標(biāo)可基于2種蛋白質(zhì)相互作用的其他蛋白質(zhì)的數(shù)量來測量2種蛋白質(zhì)之間的相似性。杰卡德相似度指標(biāo)的計算公式如下:
J(A,B)=|A∩B|/|A∪B|
若a、b 為酵母菌PPI網(wǎng)絡(luò)中的2個蛋白質(zhì),A表示基于與蛋白質(zhì)a相互作用的其他蛋白質(zhì)的集合,B表示基于與蛋白質(zhì)b相互作用的其他蛋白質(zhì)的集合,∩表示共同基于與a、b 2個蛋白質(zhì)相互作用的蛋白質(zhì)數(shù)量,∪表示基于與a、b 2個蛋白質(zhì)相互作用的所有蛋白質(zhì)數(shù)量。通過杰卡德相似度指標(biāo)計算并分析關(guān)鍵蛋白質(zhì)之間的相似性,以獲得關(guān)鍵的節(jié)點對。
本文對Gavin、Babu、LCMS和MALDI 4種酵母菌PPI網(wǎng)絡(luò)進行度中心性、介數(shù)中心性、接近中心性、特征向量中心性、k-殼分解法5個指標(biāo)的計算,獲得前4種中心性指標(biāo)處于前2%和k殼位于內(nèi)10層的節(jié)點,并將此作為關(guān)鍵蛋白質(zhì)篩選條件。
隨后提取網(wǎng)絡(luò)中滿足關(guān)鍵蛋白質(zhì)篩選條件的節(jié)點,并分析酵母菌PPI網(wǎng)絡(luò)之間共有的關(guān)鍵蛋白質(zhì),發(fā)現(xiàn)不存在4個PPI網(wǎng)絡(luò)共有的蛋白質(zhì),但3個PPI網(wǎng)絡(luò)中存在共有的關(guān)鍵蛋白質(zhì),見韋恩圖(Fig.1)。由Fig.1顯示,在Babu、MALDI、LCMS網(wǎng)絡(luò)中以及在Gavin、MALDI、LCMS網(wǎng)絡(luò)中各共有1個關(guān)鍵蛋白質(zhì);在Babu、Gavin、MALD網(wǎng)絡(luò)中共有5個關(guān)鍵蛋白質(zhì);Gavin、Babu、LCMS未見共有的關(guān)鍵蛋白質(zhì)。
Fig.1 Venn diagram of the distribution of essential proteins shared between the three yeast PPI networks Each color represents a network, and the overlapping parts of the different colors represent essential proteins shared by the different networks
進一步構(gòu)建關(guān)鍵蛋白質(zhì)子網(wǎng),結(jié)果正如Fig.2 A-D。分析結(jié)果表明,Babu、MALDI、LCMS網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)為YOR204W;Gavin、MALDI、LCMS網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)為YER165W;Babu、Gavin、MALDI網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)則有5個,它們分別是YOR063W、YPL198W、YGL076C、YDR012W和YBR031W。結(jié)合關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng)分析發(fā)現(xiàn)(Fig.2),它們的連接性和中心性較高,均占據(jù)著網(wǎng)絡(luò)的重要位置,是網(wǎng)絡(luò)中信息流動的關(guān)鍵樞紐。
Fig.2 The subnetworks of essential proteins of the four yeast PPI network Orange, red, and green represent essential proteins that are repeated in different networks
對Fig.2中關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng),本文通過計算關(guān)鍵蛋白質(zhì)之間的杰卡德相似度指標(biāo),選取閾值在0.55以上的蛋白質(zhì)對,獲得了拓?fù)浣Y(jié)構(gòu)相似的關(guān)鍵蛋白質(zhì)對,這些關(guān)鍵蛋白質(zhì)對構(gòu)成酵母菌PPI網(wǎng)絡(luò)的核心子網(wǎng)。
Fig.3分別是Gavin, Babu, LCMS和MALDI 4種酵母菌PPI網(wǎng)絡(luò)的核心子網(wǎng)。
Fig.3 The core subnetworks of the four yeast PPI network The edge between the nodes indicates the Jaccard index above 0.55 between the two proteins
對于Gavin網(wǎng)絡(luò),由Fig.3 A顯示:YGL076C、YPL131W、YPL198W、 YLR340W、YOR312C和YBR031W構(gòu)成了一個聯(lián)系緊密的關(guān)鍵蛋白質(zhì)組,而YLL024C和YDL229W為另一組,將前一組稱為Gavin核心蛋白質(zhì)組1,簡寫為Gavin-EPG 1(essential protein group),后一組稱為Gavin-EPG 2。
對于Babu網(wǎng)絡(luò),由Fig.3 B顯示:YBR031W、 YPL198W、YPL249C-A、YLR448W、YGL030W、YIL133C、YLR029C、YGL076C、YDR471W、 YOR063W、YML073C、YIL018W、和YMR242C是一組聯(lián)系緊密的蛋白質(zhì)組,YNL132W、YHR203C、YBR048W、YBL072C和YJR145C 為另一組,前一組稱為Babu-EPG 1,后一組稱為Babu-EPG 2。
對于LCMS網(wǎng)絡(luò),由Fig.3 C的結(jié)果表明:YDR064W、YGR027C、YBR181C、YOL040C、YNL302C、YOR096W、YDR174W和YHL015W是一組相互作用很強的蛋白質(zhì)組,稱為LCMS-EPG。
對于MALDI網(wǎng)絡(luò),由Fig.3 D的結(jié)果顯示:YGL076W、YPL198W、YLL045C、YOR063W、YBR031W、YDR012W、YMR229C和YDL014W是一組相互作用很強的蛋白質(zhì)組,稱為MALDI-EPG。
這些核心蛋白質(zhì)組中的蛋白質(zhì)間有著緊密連接,處在網(wǎng)絡(luò)中的核心地位,它們共同作用影響著網(wǎng)絡(luò)的穩(wěn)定性。
通過Fig.2的結(jié)果發(fā)現(xiàn),YOR204W、YER165W、YOR063W、YPL198W、YGL076C、YDR012W和YBR031W是不同網(wǎng)絡(luò)共有的關(guān)鍵蛋白質(zhì),其功能見Table 1。
從Table 1可知,Babu、MALDI、LCMS共有的關(guān)鍵蛋白質(zhì)是依賴ATP的RNA解旋酶,Gavin、MALDI、LCMS共有的關(guān)鍵蛋白質(zhì)是PolyA的結(jié)合蛋白質(zhì),Babu、Gavin、MALD網(wǎng)絡(luò)共有的5個關(guān)鍵蛋白質(zhì)都是核糖體60S大亞基的組成蛋白質(zhì)。這些關(guān)鍵蛋白質(zhì)都參與了蛋白質(zhì)合成過程中將mRNA轉(zhuǎn)化為多肽鏈[24]。
通過2.2節(jié)分析發(fā)現(xiàn),Gavin和Babu網(wǎng)絡(luò)各有2個核心蛋白質(zhì)組Gavin-EPG 1和Gavin-EPG 2,Babu-EPG 1和Babu-EPG 2;LCMS和MALDI網(wǎng)絡(luò)各有1個核心蛋白質(zhì)組LCMS-EPG和MALDI-EPG,具體結(jié)果見Table 2。
Table 2的結(jié)果表明,Gavin-EPG 1和Babu-EPG 1全部由屬于大亞基的核糖體蛋白質(zhì)組成。盡管這些蛋白質(zhì)都是細胞質(zhì)核糖體蛋白質(zhì),但是不同的核糖體蛋白質(zhì)在不同的酵母菌PPI網(wǎng)絡(luò)中形成了不同的核心蛋白質(zhì)組。Gavin-EPG 2是由細胞質(zhì)ATP酶和HSP70家族ATP-結(jié)合蛋白質(zhì)構(gòu)成,2個蛋白質(zhì)都參與新生肽鏈的折疊[25]。Babu-EPG 2中除了YNL132W,其他都是屬于小亞基的核糖體蛋白質(zhì),LCMS-EPG中除了YDR174W,其他也都屬于小亞基的核糖體蛋白質(zhì)。YNL132W是小核糖體亞基生物發(fā)生所必需的乙酰轉(zhuǎn)移酶[26],YDR174W是染色質(zhì)相關(guān)高遷移基團((high-mobility group,HMG)家族成員,其對染色質(zhì)的組裝很重要[27]。MALDI-EPG中除了屬于大亞基的核糖體蛋白質(zhì),還有YMR229C和YDL014W,前者是DNA結(jié)合蛋白質(zhì),參與18S和5.8S rRNAs的合成[28],后者是組蛋白谷氨酰胺甲基轉(zhuǎn)移酶,參與pre-18S rRNA的加工[29]。
Table 1 Essential proteins and their functions
Table 2 The core protein groups
To the next page
Continued Table 2
本文對4個酵母菌PPI網(wǎng)絡(luò)進行了關(guān)鍵蛋白質(zhì)和核心蛋白質(zhì)組的識別,發(fā)現(xiàn)不同酵母菌PPI網(wǎng)絡(luò)中共有的7個關(guān)鍵蛋白質(zhì)和6個核心蛋白質(zhì)組,這些關(guān)鍵蛋白質(zhì)均在將mRNA轉(zhuǎn)化為多肽鏈的過程中發(fā)揮著重要作用。通過采用5種節(jié)點重要性排序算法識別關(guān)鍵蛋白質(zhì),本文能夠準(zhǔn)確捕捉到蛋白質(zhì)在網(wǎng)絡(luò)中的位置和影響力,成功識別出在維持網(wǎng)絡(luò)功能和結(jié)構(gòu)穩(wěn)定性方面起關(guān)鍵作用的蛋白質(zhì)。面對大規(guī)模蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析,本文能夠高效地篩選出潛在的重要蛋白質(zhì)。通過杰卡德相似度指標(biāo)識別核心蛋白質(zhì)組,本文能夠比較蛋白質(zhì)間的相似性與差異性,捕捉到具有高相似性的蛋白質(zhì)組成員。然而,本研究忽略了蛋白質(zhì)的生物學(xué)特征和功能信息,僅基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來進行分析,可能遺漏了一些在生物學(xué)上具有重要功能的蛋白質(zhì)。
本文揭示了關(guān)鍵蛋白質(zhì)在細胞代謝和調(diào)控中的關(guān)鍵作用,并構(gòu)建了關(guān)鍵蛋白質(zhì)對應(yīng)的核心蛋白質(zhì)組,為進一步研究這4個酵母菌PPI網(wǎng)絡(luò)提供了具體的蛋白質(zhì)組合。這些關(guān)鍵蛋白質(zhì)和核心蛋白質(zhì)組為深入研究核糖體上蛋白質(zhì)相互作用對肽鏈合成和折疊的影響提供了重要的理論基礎(chǔ)。