盧鵬麗, 陳云天
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院, 甘肅 蘭州 730050)
關(guān)鍵蛋白質(zhì)是指通過(guò)基因剔除式突變將其移除后,造成生物體相關(guān)功能缺失,如衰竭、異常生長(zhǎng)或喪失生命力的蛋白質(zhì)[1].關(guān)鍵蛋白質(zhì)的準(zhǔn)確鑒定和分析,對(duì)生物學(xué)進(jìn)化、疾病的預(yù)防和新藥物的研發(fā)有著重要意義[2].在生物醫(yī)學(xué)中,依靠生物實(shí)驗(yàn)識(shí)別關(guān)鍵蛋白質(zhì)的方法有單基因敲除[3]、RNA干擾和條件基因敲除[4].通過(guò)生物學(xué)實(shí)驗(yàn)預(yù)測(cè)關(guān)鍵蛋白質(zhì)雖然成果有效且準(zhǔn)確性高,但是需要耗費(fèi)大量的成本和資源.
由于“中心性-致死性”[5]的提出,許多中心性方法[6]被用于關(guān)鍵蛋白質(zhì)的識(shí)別.目前基于蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)拓?fù)涮匦蕴岢龅闹行男运惴ò?度中心性(DC)通過(guò)計(jì)算鄰居節(jié)點(diǎn)的個(gè)數(shù)判斷節(jié)點(diǎn)的重要性[7];介數(shù)中心性(BC)通過(guò)經(jīng)過(guò)該節(jié)點(diǎn)最短路徑的數(shù)目判斷其重要性,如果BC值較高,說(shuō)明該節(jié)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)信息傳輸產(chǎn)生的影響較大,節(jié)點(diǎn)處于關(guān)鍵樞紐位置[8];子圖中心性(SC)通過(guò)網(wǎng)絡(luò)局部特征分析節(jié)點(diǎn)重要性[9];特征向量中心性(EC)表明節(jié)點(diǎn)重要性不僅依賴于鄰居節(jié)點(diǎn)的數(shù)量,而且與每一個(gè)鄰居的重要性也有關(guān)[10];局部平均度(LAC)考慮了節(jié)點(diǎn)在誘導(dǎo)子圖中的特性[11];網(wǎng)絡(luò)中心性(NC)基于邊聚類系數(shù),通過(guò)復(fù)雜的連邊關(guān)系判斷節(jié)點(diǎn)重要性[12].
僅依賴網(wǎng)絡(luò)節(jié)點(diǎn)的拓?fù)涮匦圆蛔阋詼?zhǔn)確地識(shí)別關(guān)鍵蛋白質(zhì),不少研究者利用生物信息來(lái)提高識(shí)別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率[13].目前用于識(shí)別關(guān)鍵蛋白質(zhì)的生物信息包括蛋白質(zhì)的基因本體論[14]、亞細(xì)胞定位[15]、基因表達(dá)序列[16]和蛋白質(zhì)復(fù)合物信息[17]等.隨后提出了一系列結(jié)合生物信息的識(shí)別方法.如GEG方法同時(shí)利用了語(yǔ)義相似性和基因表達(dá)序列來(lái)豐富蛋白質(zhì)的信息[18].聯(lián)合復(fù)合物中心性(UC)考慮了蛋白質(zhì)出現(xiàn)在不同蛋白質(zhì)復(fù)合物中的頻率,并結(jié)合了邊聚類系數(shù)提升識(shí)別的準(zhǔn)確率[17].局部相互作用密度中心性(LIDC)基于網(wǎng)絡(luò)拓?fù)浜蛷?fù)合物信息[19].PEC和WDC都基于邊聚類系數(shù)和基因表達(dá)序列[20-21]來(lái)識(shí)別關(guān)鍵蛋白質(zhì).
本文基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和多源生物信息提出了關(guān)鍵蛋白質(zhì)識(shí)別算法.首先,通過(guò)考慮節(jié)點(diǎn)自身特性以及節(jié)點(diǎn)與鄰居節(jié)點(diǎn)間存在的三角形個(gè)數(shù)來(lái)衡量網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對(duì)節(jié)點(diǎn)的影響,當(dāng)?shù)鞍踪|(zhì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不能區(qū)分蛋白質(zhì)的關(guān)鍵性時(shí),考慮蛋白質(zhì)的生物特性.本文根據(jù)不同亞細(xì)胞中的蛋白質(zhì)參與不同生命活動(dòng)這一特性[22],計(jì)算亞細(xì)胞定位分值,利用亞細(xì)胞定位分值為每個(gè)蛋白質(zhì)賦予權(quán)值,提出了SNC(subcell_nodecentrality)方法.經(jīng)過(guò)分析,發(fā)現(xiàn)網(wǎng)絡(luò)中一些結(jié)構(gòu)為星型的蛋白質(zhì)的SNC值為零,為更準(zhǔn)確地區(qū)分蛋白質(zhì)節(jié)點(diǎn)的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC(subcell_indegree centrality)方法.最后,通過(guò)賦予不同比重的SNC和SIDC,提出了CTB(combinationtopology_bioinformation)算法來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源信息融合去識(shí)別關(guān)鍵蛋白質(zhì).比重的賦予是通過(guò)分析網(wǎng)絡(luò)的局部拓?fù)浣Y(jié)構(gòu),按照鄰居間是否存在連邊,將節(jié)點(diǎn)劃分為三角形類Ttype(鄰居間存在連邊)和星型類Stype(鄰居間不存在連邊)兩種,最終計(jì)算Ttype類型的節(jié)點(diǎn)在網(wǎng)絡(luò)中的占比來(lái)賦予比重.文中所對(duì)比的九種算法中,前六種僅依賴網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),忽略了蛋白質(zhì)自身攜帶的生物屬性.算法PEC和WDC僅使用一種生物信息,結(jié)果不夠精確.相比于問(wèn)題中涉及到的對(duì)比算法,本文提出的CTB算法有兩方面優(yōu)勢(shì):一方面,從網(wǎng)絡(luò)拓?fù)涑霭l(fā),解決了部分蛋白質(zhì)由于自身結(jié)構(gòu)特殊導(dǎo)致不可對(duì)其進(jìn)行關(guān)鍵性判斷的問(wèn)題;另一方面,通過(guò)融合生物信息,解決了當(dāng)?shù)鞍踪|(zhì)擁有相同拓?fù)浣Y(jié)構(gòu)而不能明確區(qū)分其關(guān)鍵性的問(wèn)題.為了評(píng)估CTB算法的性能,在YDIP、YMIPS和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過(guò)與已有的九種算法(BC、DC、SC、LAC、EC、UC、NC、PEC和WDC)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明CTB算法能夠更有效地識(shí)別關(guān)鍵蛋白質(zhì).
蛋白質(zhì)相互作用網(wǎng)絡(luò)可以看作是一個(gè)簡(jiǎn)單圖G(V,E),其中V(G)={v1,v2,…,vn}表示頂點(diǎn)集,E(G)={e1,e2,…,em}表示邊集,圖G的頂點(diǎn)數(shù)n=|V(G)|,邊數(shù)e=|E(G)|.Z(u,v)表示由u、v及其公共鄰居節(jié)點(diǎn)形成的三角形的數(shù)量.蛋白質(zhì)對(duì)應(yīng)圖中的頂點(diǎn),蛋白質(zhì)之間的相互作用對(duì)應(yīng)圖中的邊.dv表示節(jié)點(diǎn)v的度,記作dv=|Nv|,Nv表示節(jié)點(diǎn)v的鄰居集合.
(1) 度中心性DC(degree centrality)[7]:
(2) 介數(shù)中心性BC(betweenness centrality)[8]:
其中:σst是指從節(jié)點(diǎn)s出發(fā)到達(dá)終止節(jié)點(diǎn)t的最短路徑數(shù)目;σst(v)表示從節(jié)點(diǎn)s出發(fā)到達(dá)終止節(jié)點(diǎn)t,且通過(guò)節(jié)點(diǎn)v的最短路徑數(shù)目.
(3) 特征向量中心性EC(eigenvector centrality)[10]:
EC(v)=αmax(v)
其中:αmax是對(duì)應(yīng)于網(wǎng)絡(luò)鄰接矩陣的最大特征值λmax的特征向量;αmax(v)是αmax的第v個(gè)分量.
(4) 網(wǎng)絡(luò)中心性NC(network centrality)[12]:
(5) 聯(lián)合復(fù)合物中心性UC(united complex centrality )[17]:
其中:fu表示節(jié)點(diǎn)u在不同復(fù)合物中出現(xiàn)的次數(shù);fM表示蛋白質(zhì)節(jié)點(diǎn)在復(fù)合物中出現(xiàn)的最大次數(shù).
通過(guò)綜合衡量節(jié)點(diǎn)自身在網(wǎng)絡(luò)中的拓?fù)涮匦砸约班従庸?jié)點(diǎn)之間的復(fù)雜連邊關(guān)系,提出了點(diǎn)-邊中心性方法NAEC.該方法考慮了節(jié)點(diǎn)間緊密程度,且利用節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)間構(gòu)成的三角形個(gè)數(shù)來(lái)量化節(jié)點(diǎn)間邊的重要性,具有更全面的拓?fù)涮卣?公式如下:
其中:E(v)表示節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)間實(shí)際具有的邊數(shù).一個(gè)節(jié)點(diǎn)的NAEC(v)值越大,則表示節(jié)點(diǎn)v與鄰居節(jié)點(diǎn)間的連接更緊密,進(jìn)一步表明節(jié)點(diǎn)越傾向于形成高度連接的簇,更有可能成為關(guān)鍵的蛋白質(zhì).
亞細(xì)胞定位信息是指定位生物大分子如蛋白質(zhì)在細(xì)胞內(nèi)的存在的具體位置.生物體中存在十一種亞細(xì)胞,不同亞細(xì)胞中的蛋白質(zhì)功能不同,因而蛋白質(zhì)的重要程度也不同.出現(xiàn)在越多亞細(xì)胞中的蛋白質(zhì)表明它參與越多的生物進(jìn)程,成為關(guān)鍵蛋白質(zhì)的概率更大.亞細(xì)胞定位分值(subcellular score,SC)作為一種衡量蛋白質(zhì)關(guān)鍵性的測(cè)度指標(biāo),由下式計(jì)算得出:
其中:SC(i)表示蛋白質(zhì)網(wǎng)絡(luò)中的所有節(jié)點(diǎn)出現(xiàn)在第i個(gè)亞細(xì)胞中的數(shù)目,i∈{1,2,3,…,11};SCtotal表示整個(gè)網(wǎng)絡(luò)中的所有節(jié)點(diǎn)出現(xiàn)在11種亞細(xì)胞中的總數(shù).
若兩個(gè)蛋白質(zhì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相同,則其對(duì)應(yīng)NAEC值相同,因此不能區(qū)分其重要性.文中提出SNC采用網(wǎng)絡(luò)拓?fù)涮匦耘c亞細(xì)胞定位信息相融合的方式來(lái)解決這一問(wèn)題.若兩個(gè)蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)相同,可通過(guò)SC得到對(duì)應(yīng)的蛋白質(zhì)亞細(xì)胞定位分值,從而提升識(shí)別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率,公式如下:
SNC(v)=SC(v)*NAEC(v)
通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)網(wǎng)絡(luò)中一些結(jié)構(gòu)為星型的蛋白質(zhì)的SNC值為零,為更準(zhǔn)確地區(qū)分蛋白質(zhì)節(jié)點(diǎn)的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC方法.該方法不僅考慮了蛋白質(zhì)在復(fù)合物中的局部度中心性以及出現(xiàn)頻率,也考慮了蛋白質(zhì)在亞細(xì)胞定位信息中的全局屬性.由于復(fù)合物中的蛋白質(zhì)是可以在相同時(shí)間和空間上相互協(xié)作特定功能的蛋白質(zhì),本文結(jié)合蛋白質(zhì)在復(fù)合物中子集中的特性,更加全面地挖掘蛋白質(zhì)的生物特性.公式如下:
其中:ComplexSet(v)表示所有包含蛋白質(zhì)v的復(fù)合物子集;In-Degree(v)i表示蛋白質(zhì)v在第i個(gè)復(fù)合物中的度值,定義為
In-Degree(v)i=DC(v)i
DC(v)i是蛋白質(zhì)v在第i個(gè)復(fù)合物中的度值.利用復(fù)合物構(gòu)成的社團(tuán)結(jié)構(gòu)中節(jié)點(diǎn)較網(wǎng)絡(luò)全局節(jié)點(diǎn)更加稠密這一特性,可以提升度中心性的性能.
為了實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源生物信息的融合,將不同比重的SNC與SIDC方法相結(jié)合提出了關(guān)鍵蛋白質(zhì)識(shí)別算法CTB.為合理分配兩種方法的比重,基于節(jié)點(diǎn)的局部拓?fù)浣Y(jié)構(gòu),按照鄰居節(jié)點(diǎn)間是否存在連邊將蛋白質(zhì)節(jié)點(diǎn)分為三角形類Ttype和星型類Stype兩類.通過(guò)計(jì)算兩種類型蛋白質(zhì)在網(wǎng)絡(luò)中的占比來(lái)獲得參數(shù),若網(wǎng)絡(luò)中Ttype類蛋白質(zhì)數(shù)量多,則SNC算法對(duì)應(yīng)的參數(shù)值較大,即SNC算法更能影響蛋白質(zhì)的關(guān)鍵性,反之SIDC更能影響蛋白質(zhì)的關(guān)鍵性.CTB算法表示如下:
其中:SNCmax表示SNC(v)的最大值;SIDCmax表示SIDC(v)的最大值.在YDIP、YMIPS和Krogan這三種不同的網(wǎng)絡(luò)中,三角形類Ttype和星型類Stype的蛋白質(zhì)占比不同,分別對(duì)應(yīng)不同的β值.β的值由如下公式得到:
其中:|Ttype|表示網(wǎng)絡(luò)中三角形類Ttype蛋白質(zhì)的數(shù)量;n表示網(wǎng)絡(luò)中的蛋白質(zhì)總數(shù).
(1) PPI網(wǎng)絡(luò)數(shù)據(jù):選擇相對(duì)完整可靠的蛋白質(zhì)相互作用網(wǎng)絡(luò)作為實(shí)驗(yàn)數(shù)據(jù),包括YDIP[24]、YMIPS[25]和Krogan[26].通過(guò)去除重邊和自相互作用后,得到的網(wǎng)絡(luò)數(shù)據(jù)如表1所列.
表1 蛋白質(zhì)網(wǎng)絡(luò)YDIP、YMIPS和KroganTab.1 The PPI network YDIP、YMIPS、Krogan
(2) 標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù):來(lái)自數(shù)據(jù)集MIPS[25]、SGD[27]、DEG[28]和SGDP[1].
(3) 蛋白質(zhì)復(fù)合物信息:選擇來(lái)自CM270[25]、CM425[29]、CYC408[30]和CYC428[31]的745個(gè)蛋白質(zhì)復(fù)合物子集.
(4) 亞細(xì)胞定位信息:下載自COMPARTMENTS數(shù)據(jù)庫(kù),包含11種亞細(xì)胞定位信息[32].
3.2.1使用六種評(píng)估方法對(duì)比分析
為了評(píng)估算法的性能,首先通過(guò)CTB算法判斷蛋白質(zhì)的重要性并降序排列,選取前20%的蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì),剩余的80%作為候選非關(guān)鍵蛋白質(zhì).通過(guò)對(duì)比標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù),可以得到候選關(guān)鍵蛋白質(zhì)中被正確識(shí)別為關(guān)鍵蛋白質(zhì)的數(shù)目.使用了六種評(píng)估方法,包括準(zhǔn)確率(ACC)、F-度量(F-measure)、陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)、陰性預(yù)測(cè)值(negative predictive value,NPV)、敏感度(sensitivity,SN)和特異性(specificity,SP),計(jì)算方式如下:
其中:真正例(TP,true positive)指候選關(guān)鍵蛋白質(zhì)中被正確識(shí)別為關(guān)鍵蛋白質(zhì)的數(shù)目;假正例(FP,false positive)指候選非關(guān)鍵蛋白質(zhì)被錯(cuò)誤識(shí)別為關(guān)鍵蛋白質(zhì)的數(shù)目;假反例(FN,false negative)指候選關(guān)鍵蛋白質(zhì)被錯(cuò)誤識(shí)別為非關(guān)鍵蛋白質(zhì);真反例(TN,true negative)指候選非關(guān)鍵蛋白質(zhì)被正確識(shí)別為非關(guān)鍵蛋白質(zhì)的數(shù)目.
以上六種統(tǒng)計(jì)指標(biāo)可以綜合評(píng)估CTB的性能,若算法對(duì)應(yīng)的指標(biāo)值越大,說(shuō)明算法性能越優(yōu).通過(guò)對(duì)比BC、DC、SC、LAC、EC、UC、NC、PEC和WDC九種方法評(píng)估算法性能,實(shí)驗(yàn)結(jié)果見(jiàn)表2,結(jié)果表明CTB算法的六項(xiàng)評(píng)估指標(biāo)均優(yōu)于其他方法.
表2 六種統(tǒng)計(jì)指標(biāo)對(duì)比結(jié)果Tab.2 Comparison results of six statistical indicators
3.2.2關(guān)鍵蛋白質(zhì)識(shí)別數(shù)目比較
在YDIP、YMIPS和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)上實(shí)現(xiàn)了BC、DC、SC、LAC、EC、UC、NC、PEC、WDC和CTB算法,并將網(wǎng)絡(luò)中的蛋白質(zhì)按照其重要性排序.選取前100~600的蛋白質(zhì)作為候選集,再對(duì)比標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì),得出候選關(guān)鍵蛋白質(zhì)中真正的關(guān)鍵蛋白質(zhì)數(shù)量,實(shí)驗(yàn)結(jié)果如圖1~3所示,圖中橫坐標(biāo)1~10分別代表DC、BC、EC、SC、LAC、NC、UC、PEC、WDC和CTB算法.
圖1 CTB與已有算法在YMIPS網(wǎng)絡(luò)中的對(duì)比Fig.1 Comparison of CTB and existing algorithms in YMIPS networks
圖2 CTB與已有算法在YDIP網(wǎng)絡(luò)中的對(duì)比Fig.2 Comparison of CTB and existing algorithms in YDIP networks
圖3 CTB與已有算法在Krogan網(wǎng)絡(luò)中的對(duì)比Fig.3 Comparison of CTB and existing algorithms in Krogan networks
CTB算法識(shí)別出真正的關(guān)鍵蛋白質(zhì)數(shù)量明顯多于其他算法,尤其在YMIPS網(wǎng)絡(luò)中,CTB在前600個(gè)候選蛋白質(zhì)中,正確識(shí)別出337個(gè)關(guān)鍵蛋白質(zhì),較PEC算法多出118個(gè).因而,CTB算法具備更高效準(zhǔn)確的性能.
3.2.3參數(shù)β和亞細(xì)胞定位信息對(duì)算法的影響
本文提出的算法CTB受到參數(shù)β和亞細(xì)胞定位信息的影響,本節(jié)分析這兩種因素對(duì)算法CTB性能的影響.將不含參數(shù)β的CTB算法記作CTB-1,將不考慮亞細(xì)胞定位信息的CTB算法記作CTB-2,將不含參數(shù)、亞細(xì)胞定位信息的CTB算法記作CTB-3.在Krogan、YDIP和YMIPS網(wǎng)絡(luò)中,選取前100~600候選關(guān)鍵蛋白質(zhì),對(duì)比CTB、CTB-1、CTB-2、CTB-3的性能,實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 參數(shù)及亞細(xì)胞定位信息的影響Fig.4 The influence of parameters and subcellular localization information
由實(shí)驗(yàn)結(jié)果可以看出,融合亞細(xì)胞定位信息且考慮到參數(shù)影響后,算法CTB的性能較其他三種情況有明顯提升.
3.2.4P-R曲線評(píng)估
查準(zhǔn)率(Precision)-查全率(Recall)曲線(P-R曲線)的x軸代表查全率,y軸代表查準(zhǔn)率.該評(píng)估方法中,曲線越高,表明算法性能越優(yōu).本文在三種網(wǎng)絡(luò)上利用精準(zhǔn)召回曲線比較算法的性能,實(shí)驗(yàn)結(jié)果如圖5所示.在三種網(wǎng)絡(luò)中,由CTB算法計(jì)算得到的P-R曲線均高于其他九種方法,表明CTB算法的性能優(yōu)于其他算法.查全率和查準(zhǔn)率計(jì)算方式如下:
圖5 P-R曲線在三種網(wǎng)絡(luò)中的對(duì)比Fig.5 Comparison of P-R curves in three networks
關(guān)鍵蛋白質(zhì)的研究能夠促進(jìn)生物醫(yī)學(xué)的發(fā)展.為更加準(zhǔn)確地識(shí)別關(guān)鍵蛋白質(zhì),首先考慮節(jié)點(diǎn)自身及其復(fù)雜的連邊關(guān)系來(lái)表征網(wǎng)絡(luò)的拓?fù)涮匦?并結(jié)合亞細(xì)胞定位信息,提出了SNC方法.為更好地區(qū)分蛋白質(zhì)節(jié)點(diǎn)的關(guān)鍵性,將復(fù)合物信息與亞細(xì)胞定位信息相結(jié)合提出了SIDC方法.最后,通過(guò)不同比重的SNC和SIDC方法來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渑c多源信息融合,提出了CTB算法來(lái)識(shí)別關(guān)鍵蛋白質(zhì).本文選用YMIPS、YDIP和Krogan三種蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù),運(yùn)用多種評(píng)估方法與已有算法BC、DC、SC、LAC、EC、UC、NC、PEC和WDC進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,CTB算法識(shí)別蛋白質(zhì)的性能高于已有的九種識(shí)別方法,能夠有效提高識(shí)別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率.