薛曉麗,劉俊宏,張偉
(華東交通大學(xué)理學(xué)院,江西 南昌 330013)
蛋白質(zhì)是構(gòu)成細(xì)胞和組織結(jié)構(gòu)必不可少的成分,它是生理功能的執(zhí)行者,也是生命活動(dòng)的體現(xiàn)者.關(guān)鍵蛋白質(zhì)在生物體的生命活動(dòng)中占據(jù)著舉足輕重的地位,它的缺失或者功能失常都將導(dǎo)致機(jī)體特定功能的喪失,甚至死亡[1-2].因此,識(shí)別關(guān)鍵蛋白質(zhì)能夠促進(jìn)對(duì)細(xì)胞的生長(zhǎng)過(guò)程的認(rèn)識(shí)以及診斷疾病、設(shè)計(jì)藥物和治療疾病等工作的進(jìn)行與發(fā)展[3].傳統(tǒng)的預(yù)測(cè)方法,如RNA干擾[4]、單基因敲除[5]、條件性基因剔除[6]等,這些生物學(xué)實(shí)驗(yàn)方法雖然預(yù)測(cè)準(zhǔn)確率高,但其成本高昂、效率較低,而且僅能用于有限的物種,顯然已無(wú)法滿足日益增長(zhǎng)的需求.隨著生物信息學(xué)和高通量技術(shù)的不斷發(fā)展與創(chuàng)新,蛋白質(zhì)之間相互作用的數(shù)據(jù)不斷累積,將蛋白質(zhì)之間的相互作用抽象成復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,借助復(fù)雜網(wǎng)絡(luò)相關(guān)理論識(shí)別關(guān)鍵蛋白質(zhì)已成為一個(gè)有效的途徑.
最早提出的關(guān)鍵蛋白質(zhì)識(shí)別算法是依據(jù)蛋白質(zhì)相互作用(protein-protein interaction,簡(jiǎn)稱PPI,下同)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),如度中心性(degree centrality,DC)[7]、接近度中心性(closeness centrality,CC)[8]、鄰居中心性(neighborhood centrality,NC)[9]、介數(shù)中心性(betweenness centrality,BC)[10]和子圖中心性(subgraph centrality,SC)[11],這些方法的識(shí)別精度嚴(yán)重依賴PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)的準(zhǔn)確性.由于現(xiàn)有的高通量測(cè)序技術(shù)的限制,獲得的蛋白質(zhì)相互作用數(shù)據(jù)具有很高的陽(yáng)性率,即使是廣泛使用的釀酒酵母PPI網(wǎng)絡(luò)[12-13]也深受噪聲的影響.例如,通過(guò)“酵母兩次雜交”(Y2H)分析獲得的數(shù)據(jù)的假陽(yáng)性率可能高達(dá)64%,而假陰性率則可能在43%到71%之間[14].因而,僅基于挖掘PPI網(wǎng)絡(luò)的拓?fù)湫再|(zhì)來(lái)識(shí)別關(guān)鍵蛋白質(zhì)很難達(dá)到滿意的精確度.
隨著高通量生物學(xué)技術(shù)的快速發(fā)展,各種類型的生物學(xué)數(shù)據(jù)不斷豐富,如蛋白質(zhì)復(fù)合物信息[15-16]、基因本體注釋信息(gene ontology annotation,GO)[17-19]、基因表達(dá)數(shù)據(jù)[20-22]、蛋白質(zhì)同源性信息[23-24]、亞細(xì)胞定位數(shù)據(jù)(subcellular localization)[25-26]、蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)(protein domain)[27-28]等.因此,結(jié)合PPI網(wǎng)絡(luò)的拓?fù)湫再|(zhì)和蛋白質(zhì)的其他生物學(xué)數(shù)據(jù)共同挖掘關(guān)鍵蛋白質(zhì)成為了新的研究重點(diǎn).例如,Pec[20]算法結(jié)合PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)屬性和蛋白質(zhì)對(duì)應(yīng)的基因表達(dá)相關(guān)性來(lái)預(yù)測(cè)關(guān)鍵蛋白質(zhì).WDC[22]算法在Pec基礎(chǔ)上改進(jìn),過(guò)濾PPI網(wǎng)絡(luò)中的假陽(yáng)性數(shù)據(jù).LBCC[29]算法結(jié)合局部密度、介數(shù)中心性和蛋白質(zhì)復(fù)合物的內(nèi)度中心性有效地提高了預(yù)測(cè)精度.NIE[30]算法首先通過(guò)融合基因本體信息與RNA序列數(shù)據(jù)的相關(guān)性來(lái)構(gòu)建加權(quán)網(wǎng)絡(luò),然后通過(guò)刻畫網(wǎng)絡(luò)中二階鄰居信息以及復(fù)合物和亞細(xì)胞定位信息的信息熵來(lái)度量蛋白質(zhì)的關(guān)鍵性.TEO[19]、TEGS[25]和CEGSO[31]等算法通過(guò)有效融合基因本體信息注釋信息、蛋白質(zhì)同源性信息、基因時(shí)序表達(dá)數(shù)據(jù)等多種生物學(xué)信息,通過(guò)挖掘不同數(shù)據(jù)源的特征大大提高了預(yù)測(cè)準(zhǔn)確度.例如,TEO不僅應(yīng)用了PPI網(wǎng)絡(luò)的拓?fù)湫再|(zhì),還使用了基因表達(dá)信息和基因本體注釋數(shù)據(jù),從而提高了預(yù)測(cè)關(guān)鍵蛋白質(zhì)的預(yù)測(cè)數(shù)目;TEGS在此基礎(chǔ)上融入了亞細(xì)胞定位信息,認(rèn)為只有處在同一場(chǎng)所的蛋白質(zhì)之間才可能存在相互作用.生物學(xué)信息與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的巧妙融合有效的彌補(bǔ)了中心性預(yù)測(cè)算法的不足,而利用多源信息設(shè)計(jì)出來(lái)的算法,有效地避免了單一數(shù)據(jù)自身噪聲對(duì)預(yù)測(cè)效果的影響,也能夠更加全面的來(lái)度量蛋白質(zhì)的關(guān)鍵性.
蛋白質(zhì)結(jié)構(gòu)域是構(gòu)成蛋白質(zhì)三級(jí)結(jié)構(gòu)的基本單位,是蛋白質(zhì)生理功能的基礎(chǔ),不同結(jié)構(gòu)域的重組和排列產(chǎn)生了自然界中眾多蛋白質(zhì)[32-33].Deng[34]等指出,盡管有些蛋白質(zhì)屬于關(guān)鍵蛋白質(zhì),但并不是該蛋白質(zhì)包含的所有結(jié)構(gòu)域都具有關(guān)鍵性.基于上述研究結(jié)果,Peng[27]等通過(guò)假設(shè)驗(yàn)證關(guān)鍵蛋白質(zhì)往往含有其他蛋白質(zhì)很少出現(xiàn)的蛋白質(zhì)結(jié)構(gòu)域類型,而非關(guān)鍵蛋白質(zhì)則更有可能由頻繁出現(xiàn)的結(jié)構(gòu)域構(gòu)成,提出了一種結(jié)合蛋白質(zhì)結(jié)構(gòu)域信息和PPI網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的特征來(lái)識(shí)別關(guān)鍵蛋白質(zhì)的UDoNC算法,雖然UDoNC算法一定程度上提高了關(guān)鍵蛋白質(zhì)的預(yù)測(cè)率,但該算法挖掘的生物特性有限,而且嚴(yán)重依賴于PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),導(dǎo)致識(shí)別正確率有限.
為了進(jìn)一步提高關(guān)鍵蛋白質(zhì)的預(yù)測(cè)正確率,本文中基于PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),結(jié)合應(yīng)用廣泛的基因本體注釋數(shù)據(jù)和亞細(xì)胞定位數(shù)據(jù),并恰當(dāng)?shù)厝谌氲鞍踪|(zhì)結(jié)構(gòu)域信息,提出一種新的算法TGSD來(lái)識(shí)別關(guān)鍵蛋白質(zhì).TGSD算法首先結(jié)合邊聚類系數(shù)、基因本體注釋信息和亞細(xì)胞定位信息來(lái)量化蛋白質(zhì)的關(guān)鍵性,然后融入蛋白質(zhì)結(jié)構(gòu)域信息數(shù)據(jù),利用蛋白質(zhì)結(jié)構(gòu)域信息來(lái)減小噪聲對(duì)數(shù)據(jù)的影響.數(shù)值模擬結(jié)果表明,TGSD的預(yù)測(cè)效果與DC,BC,NC,Pec,WDC,LBCC,TEGS相比都有很大程度的提升.
1.1 蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)域是構(gòu)成蛋白質(zhì)的基本單位,一個(gè)蛋白質(zhì)通常包含一個(gè)或多個(gè)結(jié)構(gòu)域信息,為了度量蛋白質(zhì)中結(jié)構(gòu)域的重要性,我們結(jié)合已知的關(guān)鍵蛋白質(zhì)信息來(lái)統(tǒng)計(jì)分析蛋白質(zhì)結(jié)構(gòu)域的重要性,定義第i個(gè)蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性值 (protein domain value,PDV)為:
PDV(i)=VK(i)*VU(i)/Max(PDV)
(1)
其中,
(2)
其中,PDV(i)表示蛋白質(zhì)結(jié)構(gòu)域i的分?jǐn)?shù),分?jǐn)?shù)高的蛋白質(zhì)結(jié)構(gòu)域關(guān)鍵性更強(qiáng),N表示該網(wǎng)絡(luò)中蛋白質(zhì)的總數(shù),N(key)表示該網(wǎng)絡(luò)中關(guān)鍵蛋白質(zhì)的數(shù)目.DP(i)由所有包含蛋白質(zhì)結(jié)構(gòu)域i的蛋白質(zhì)構(gòu)成,KKP是由已知的關(guān)鍵蛋白質(zhì)構(gòu)成的集合,P是由所有已知蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)的蛋白質(zhì)構(gòu)成的集合.
根據(jù)蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性值,定義蛋白質(zhì)u的結(jié)構(gòu)重要性(relative critical index,RCI)為:
(3)
其中,PD(u)表示包含蛋白質(zhì)u的蛋白質(zhì)結(jié)構(gòu)域集合.
1.2 新的算法TGSD文獻(xiàn)[19,25,30]表明,關(guān)鍵蛋白質(zhì)在分子網(wǎng)絡(luò)中并不是隨機(jī)分布,而是趨向于聚集在一起形成稠密的子網(wǎng)絡(luò),相互連接的關(guān)鍵蛋白質(zhì)之間具有較高的共表達(dá)特性和相似的生物學(xué)功能.為了刻畫這些特性,我們采用邊聚類系數(shù)(edge clustering coefficient,ECC)來(lái)度量?jī)蓚€(gè)相互連接的蛋白質(zhì)對(duì)在拓?fù)浣Y(jié)構(gòu)上的緊密程度.相互作用的蛋白質(zhì)對(duì)(u,v)之間的邊聚類系數(shù)定義為:
(4)
其中D(u)和D(v)分別表示表示蛋白質(zhì)u和v的度,N3(u,v)表示PPI網(wǎng)絡(luò)中以(u,v)為一條邊構(gòu)成的三元組的數(shù)目.即該邊在網(wǎng)絡(luò)中實(shí)際參與構(gòu)成的三元組個(gè)數(shù)與該邊最多可能參與構(gòu)成的三元組個(gè)數(shù)之比.
基因本體注釋信息是描述基因和基因產(chǎn)品之間功能相似性的工具,基于基因本體的語(yǔ)義相似性度量常被用于從基因?qū)用婵坍嫷鞍踪|(zhì)之間的功能相似性.本文中采用Wang[35]等提出的方法分別計(jì)算了在“生物過(guò)程(biological process,BP)”、“細(xì)胞組件(cellular component,CC)”和“分子功能(molecular function,MF)”3種本體下的基因本體語(yǔ)義相似性值,并取其三者的平均值作為最終的基因本體語(yǔ)義相似性值.
假設(shè)基因X,Y的功能注釋語(yǔ)義信息集合分別為:
GOX={gox1,gox2,…,goxm}
GOY={goy1,goy2,…,goym}
(5)
其中,goxi、goyi分別表示注解基因X和基因Y的術(shù)語(yǔ),m表示這個(gè)集合中術(shù)語(yǔ)的個(gè)數(shù),詳情請(qǐng)見參考文獻(xiàn)[35].
基因X,Y對(duì)應(yīng)的GO語(yǔ)義集合之間的相似性定義為:
(6)
其中,TX、TY分別是基因X,Y對(duì)應(yīng)的GO語(yǔ)義構(gòu)成的集合.SX(r)是基因X中GO術(shù)語(yǔ)r對(duì)應(yīng)的S值,SY(r)是基因Y中GO術(shù)語(yǔ)r對(duì)應(yīng)的S值.
基因X,Y之間的GO功能相似性定義為:
(7)
其中,
(8)
同時(shí),我們假設(shè)只有處于同一亞細(xì)胞位置的蛋白質(zhì)對(duì)才能發(fā)生相互作用,采用文獻(xiàn)[31]中刻畫蛋白質(zhì)所處亞細(xì)胞定位信息的度量SLL(u,v)來(lái)刻畫蛋白質(zhì)對(duì)(u,v)是否真正存在相互作用關(guān)系,
(9)
其中,SL(u)、SL(v)分別表示蛋白質(zhì)u和v所處的亞細(xì)胞位置.
綜合上述3種度量,采用如下指標(biāo)(functional critical index,FCI)來(lái)度量蛋白質(zhì)u的功能重要性:
(10)
其中,Nu是由蛋白質(zhì)u的鄰居構(gòu)成的集合.
結(jié)合前面定義的結(jié)構(gòu)重要性RCI,本研究提出一種新的計(jì)算蛋白質(zhì)u關(guān)鍵性值的算法TGSD,
TGSD(u)=α×FCI(u)+(1-α)×RCI(u)
(11)
其中,參數(shù)α∈[0,1],用來(lái)調(diào)整兩部分所占的比例.當(dāng)α取1時(shí),該算法考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、基因注釋信息和亞細(xì)胞定位信息;當(dāng)α取0時(shí),則只考慮蛋白質(zhì)結(jié)構(gòu)域信息.FCI用于量化蛋白質(zhì)的功能重要性,RCI則通過(guò)蛋白質(zhì)結(jié)構(gòu)域的重要性來(lái)刻畫蛋白質(zhì)的關(guān)鍵性.
2.1 PPI網(wǎng)絡(luò)數(shù)據(jù)酵母的蛋白質(zhì)相互作用在所有物種中研究最為廣泛,而且積累了大量實(shí)驗(yàn)驗(yàn)證的關(guān)鍵蛋白質(zhì)數(shù)據(jù)信息.因此,本文中選取YDIP、DIP-PPI、Krogan和Krogan-Extended這4個(gè)酵母PPI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).刪除原始數(shù)據(jù)中的孤立節(jié)點(diǎn)和重復(fù)相互作用關(guān)系數(shù)據(jù)后得到的數(shù)據(jù)集的詳細(xì)信息如表1所示.
表1 數(shù)據(jù)集的詳細(xì)信息
2.2 生物信息數(shù)據(jù)本實(shí)驗(yàn)所用到的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)從PFAM數(shù)據(jù)庫(kù)[32]中下載 (版本為Pfam 31.0,2017年3月更新),并按照楊增光等[28]提出的方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理后的數(shù)據(jù)集中包含3 630個(gè)蛋白質(zhì),這些蛋白質(zhì)涉及1 107個(gè)蛋白質(zhì)域的信息數(shù)據(jù),構(gòu)成了4 936條蛋白質(zhì)對(duì)應(yīng)的結(jié)構(gòu)域的數(shù)據(jù)集合.基因本體注釋數(shù)據(jù)下載自酵母Gene Ontology Annotation Database數(shù)據(jù)庫(kù)(2020年9月10日版本).亞細(xì)胞定位數(shù)據(jù)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)從文獻(xiàn)[31]中獲得.
為了評(píng)估新提出的算法TGSD的有效性,分別計(jì)算TGSD與7種代表性算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在4組酵母測(cè)試數(shù)據(jù)集下蛋白質(zhì)的關(guān)鍵性值,然后按照蛋白質(zhì)的關(guān)鍵性值從大到小的順序排序,認(rèn)為排序越靠前的蛋白質(zhì)是關(guān)鍵蛋白質(zhì)的概率越大.分別統(tǒng)計(jì)8種方法在排序前N個(gè)蛋白質(zhì)中識(shí)別正確關(guān)鍵蛋白質(zhì)的數(shù)目、識(shí)別精度、準(zhǔn)確率等,比較各種方法的識(shí)別效果.
3.1 比較TGSD算法與其他算法的預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì)數(shù)目圖1中給出了TGSD算法與7種比較算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在預(yù)測(cè)排序前100,200,…,600的蛋白質(zhì)中識(shí)別正確的關(guān)鍵蛋白質(zhì)的個(gè)數(shù).
圖1 TGSD算法和其他7種算法在排序前100,200,300,400,500,600的蛋白質(zhì)中識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目
圖1 (a)展示了在YDIP數(shù)據(jù)集下的預(yù)測(cè)效果,圖像顯示,TGSD算法預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì)個(gè)數(shù)最多,特別是在排序前100和200的蛋白質(zhì)情況下,關(guān)鍵蛋白質(zhì)的預(yù)測(cè)準(zhǔn)確率達(dá)到了92%和90.5%,相比DC算法的預(yù)測(cè)準(zhǔn)確率46%和41%以及TEGS算法的預(yù)測(cè)準(zhǔn)確率79%和79%,TGSD算法具有明顯的優(yōu)勢(shì),并且在排序前600的蛋白質(zhì)中,TGSD算法的正確識(shí)別數(shù)目是420,遠(yuǎn)超過(guò)識(shí)別數(shù)目為391的TEGS算法.
圖1(b)給出了在DIP-PPI數(shù)據(jù)集下各種算法的預(yù)測(cè)結(jié)果.從圖中可以看到,在排序前600的蛋白質(zhì)中,相較于TEGS實(shí)現(xiàn)的390個(gè)正確預(yù)測(cè)值、WDC實(shí)現(xiàn)的350個(gè)正確預(yù)測(cè)值,TGSD算法正確預(yù)測(cè)出422個(gè)關(guān)鍵蛋白質(zhì),預(yù)測(cè)準(zhǔn)確率較TEGS方法提高了8.9%.
類似地,圖2中給出了Krogan和Krogan- Extended數(shù)據(jù)集下8種方法分別在排序前100-600的蛋白質(zhì)中識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目.在這兩個(gè)數(shù)據(jù)集中,我們同樣看到,TGSD算法的預(yù)測(cè)數(shù)目相較其他7種算法都有很大提升,這也說(shuō)明在改進(jìn)TEGS算法的基礎(chǔ)上,融入蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)是一個(gè)正確的選擇.
圖2 TGSD算法和其他7種方法在排序前100,200,300,400,500,600的蛋白質(zhì)中識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目
3.2 使用Jackknife方法進(jìn)行驗(yàn)證使用Jackknife方法繪制曲線來(lái)來(lái)評(píng)估TGSD算法的有效性.
仿真結(jié)果如圖3所示,圖3(a)和圖3(b)分別表示Krogan和DIP-PPI數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果.其中,y軸表示排序靠前的蛋白質(zhì)數(shù)量,y軸表示累計(jì)識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目.從圖中可以看出,在8種預(yù)測(cè)算法中,TGSD算法的曲線排在最高,意味著該方法識(shí)別正確的數(shù)目最多,這也說(shuō)明TGSD算法的識(shí)別效果最好.
圖3 TGSD算法和其他7種算法Jackknife曲線比較結(jié)果
3.3 ROC(receiver operating characteristic)曲線ROC曲線分析是評(píng)價(jià)診斷性試驗(yàn)優(yōu)劣以及確定臨界值的一種方法.其中,x軸表示假陽(yáng)性率,也稱作靈敏度,即非關(guān)鍵蛋白質(zhì)被錯(cuò)誤識(shí)別的比例;y軸表示真陽(yáng)性率,也可看作是1-特異度,即關(guān)鍵蛋白質(zhì)被正確識(shí)別的比例,曲線下方面積越大意味著該方法預(yù)測(cè)準(zhǔn)確度越高.假設(shè)每個(gè)數(shù)據(jù)集在相應(yīng)的8種算法下排序前25%的是關(guān)鍵蛋白質(zhì),其余的均為非關(guān)鍵蛋白質(zhì).在Krogan和YDIP兩個(gè)數(shù)據(jù)集下,如圖4所示,TGSD算法對(duì)應(yīng)的ROC曲線所圍面積AUC都是最大的,這也意味著TGSD算法的預(yù)測(cè)效果優(yōu)于其他7種方法.
圖4 TGSD算法和其他7種算法下的ROC曲線和所圍面積
3.4 統(tǒng)計(jì)評(píng)價(jià)指標(biāo)為了進(jìn)一步評(píng)價(jià)TGSD算法的性能,本文中采用如下6個(gè)統(tǒng)計(jì)指標(biāo)來(lái)度量該方法的預(yù)測(cè)效果并和其他7種算法的預(yù)測(cè)效果進(jìn)行比較.這6個(gè)統(tǒng)計(jì)指標(biāo)分別為:
1) 靈敏度(sensitivity,SN)表示正確識(shí)別關(guān)鍵蛋白質(zhì)的比例.
(12)
其中,TP(true positive)表示正確識(shí)別關(guān)鍵蛋白質(zhì)的數(shù)量,F(xiàn)N(false negative)表示關(guān)鍵蛋白質(zhì)被誤判為非關(guān)鍵蛋白質(zhì)的數(shù)量.
2) 特異性(specificity, SP)表示正確排除非關(guān)鍵蛋白質(zhì)的比例.
(13)
其中,FP(false positive)表示非關(guān)鍵蛋白質(zhì)被錯(cuò)誤預(yù)測(cè)為關(guān)鍵蛋白質(zhì)的數(shù)量,TN(true negative)表示非關(guān)鍵蛋白質(zhì)被正確識(shí)別的數(shù)量.
3) 陽(yáng)性預(yù)測(cè)值(positive prediction value, PPV)表示把候選蛋白質(zhì)集中的蛋白質(zhì)正確識(shí)別為關(guān)鍵蛋白質(zhì)的比例.
(14)
4) 陰性預(yù)測(cè)值(negative prediction value, NPV)表示把排除的蛋白質(zhì)正確識(shí)別為非關(guān)鍵蛋白質(zhì)的比例.
(15)
5)F-測(cè)度(F-measure,F)表示敏感度和陽(yáng)性預(yù)測(cè)值的調(diào)和平均值.
(16)
6) 正確率(accuracy, ACC)表示正確識(shí)別結(jié)果的比例.
(17)
以YDIP數(shù)據(jù)集為例,同樣將每種算法下排在前25%的看作是關(guān)鍵蛋白質(zhì),其余的看作非關(guān)鍵蛋白質(zhì),計(jì)算SN、SP、PPV、NPV、F和ACC這6種統(tǒng)計(jì)指標(biāo). 從表2中可以看出TGSD算法在這6種指標(biāo)下的識(shí)別精度比其他7種算法更高,這進(jìn)一步說(shuō)明本研究提出的TGSD算法能夠更準(zhǔn)確、更有效地識(shí)別關(guān)鍵蛋白質(zhì).
表2 YDIP數(shù)據(jù)集下TGSD與其他7種方法的統(tǒng)計(jì)指標(biāo)比較
3.5 參數(shù)敏感性分析由于所定義的計(jì)算公式(11)中涉及權(quán)重參數(shù),選擇一個(gè)合理的參數(shù)值是一個(gè)具有挑戰(zhàn)性的工作,參數(shù)值的大小將直接影響蛋白質(zhì)結(jié)構(gòu)域信息在TGSD算法中所占的比重.為了驗(yàn)證參數(shù)對(duì)算法的影響,本文中設(shè)置α∈[0,1],步長(zhǎng)為0.1,使用Kappa[36]指標(biāo)作為準(zhǔn)則來(lái)尋找最優(yōu)參數(shù)值.Kappa指標(biāo)是檢測(cè)模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致的準(zhǔn)則.
(18)
其中,TP、FP、TN、FN定義如上文中所示.
圖5 Kappa指標(biāo)隨參數(shù)α變化曲線圖
同樣地,以YDIP數(shù)據(jù)集為例,選擇TGSD算法識(shí)別出的排序前25%的為關(guān)鍵蛋白質(zhì),結(jié)合已知的關(guān)鍵蛋白質(zhì)信息,計(jì)算相應(yīng)的Kappa指標(biāo),做出Kappa指標(biāo)隨參數(shù)α變化的曲線圖.從圖5中可以直觀地看出,在參數(shù)α取0.1時(shí),TGSD的預(yù)測(cè)結(jié)果與實(shí)際分類結(jié)果契合度最高.同樣,在其他3個(gè)數(shù)據(jù)集中也做出Kappa指標(biāo)隨參數(shù)變化的曲線圖,結(jié)果發(fā)現(xiàn)在參數(shù)α取0.1或者0.2時(shí),預(yù)測(cè)結(jié)果與實(shí)際分類結(jié)果契合度最高.
表3和表4分別展示了在YDIP和Krogan-Extended測(cè)試集上,在參數(shù)α的變化范圍內(nèi),TGSD算法在排序前100~600的蛋白質(zhì)中預(yù)測(cè)正確的關(guān)鍵蛋白質(zhì)數(shù)目.從表3中可以看出在α取值較小時(shí),正確預(yù)測(cè)的關(guān)鍵蛋白質(zhì)數(shù)目較多,特別是在α取0.1時(shí),排序前300~600的蛋白質(zhì)中識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目最多.在表4中可以看到類似的結(jié)果.因此,設(shè)置參數(shù)α的取值為0.1.
表3 YDIP數(shù)據(jù)集下TGSD在不同參數(shù)α下識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目
表4 Krogan-Extended數(shù)據(jù)集下TGSD在不同參數(shù)α下識(shí)別正確的關(guān)鍵蛋白質(zhì)數(shù)目
設(shè)計(jì)有效的計(jì)算方法從PPI網(wǎng)絡(luò)中預(yù)測(cè)關(guān)鍵蛋白質(zhì)是近些年來(lái)計(jì)算生物學(xué)領(lǐng)域的研究熱點(diǎn).雖然已有學(xué)者提出了一系列的算法來(lái)預(yù)測(cè)分子網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì),但是由于高通量技術(shù)得到的數(shù)據(jù)具有較高的假陽(yáng)性且容易受到噪聲的影響,目前已有的方法在預(yù)測(cè)關(guān)鍵蛋白質(zhì)的精度和效率方面仍有待提高.
本文中將PPI網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息與蛋白質(zhì)亞細(xì)胞定位信息、基因本體注釋信息以及蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)進(jìn)行有效整合,提出了一種識(shí)別關(guān)鍵蛋白質(zhì)的新算法TGSD.為了測(cè)試TGSD算法的有效性,選取常用的酵母PPI數(shù)據(jù)集作為測(cè)試集,并將TGSD與其他7種算法進(jìn)行比較.結(jié)果表明無(wú)論是正確識(shí)別數(shù)目還是其他統(tǒng)計(jì)指標(biāo),TGSD算法都具有明顯的優(yōu)勢(shì).因此,將蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)融入到識(shí)別關(guān)鍵蛋白質(zhì)的方法中是一個(gè)正確的選擇.隨著蛋白質(zhì)結(jié)構(gòu)域資源的增加,今后我們可以方便地利用結(jié)構(gòu)域信息、蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)以及其他生物學(xué)信息來(lái)識(shí)別其他物種的關(guān)鍵蛋白質(zhì).