亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模塊度函數(shù)的加權(quán)蛋白質(zhì)復(fù)合物識(shí)別算法

        2020-01-17 01:40:46毛伊敏劉銀萍

        毛伊敏,劉銀萍

        江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000

        1 引言

        在蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)網(wǎng)絡(luò)中,蛋白質(zhì)復(fù)合物是指在相同時(shí)間和空間通過(guò)相互作用組成一個(gè)多分子機(jī)制的蛋白質(zhì)集合[1]。大量的生物實(shí)驗(yàn)和計(jì)算方法實(shí)驗(yàn)產(chǎn)生了許多高質(zhì)量、大規(guī)模的PPI 網(wǎng)絡(luò)數(shù)據(jù),這些數(shù)據(jù)為識(shí)別蛋白質(zhì)復(fù)合物奠定了基礎(chǔ),而蛋白質(zhì)復(fù)合物的識(shí)別能夠幫助人類(lèi)預(yù)測(cè)未知的蛋白質(zhì)功能,解釋特定的生物進(jìn)程,并為研究疾病的發(fā)生機(jī)理,尋找新的藥物靶標(biāo),提供重要的理論基礎(chǔ)[2]。因此,識(shí)別蛋白質(zhì)復(fù)合物是生物信息領(lǐng)域中的一項(xiàng)研究熱點(diǎn)。

        迄今為止,早期識(shí)別蛋白質(zhì)復(fù)合物的方法是生物實(shí)驗(yàn)方法。雖然生物實(shí)驗(yàn)方法挖掘復(fù)合物的精度較高,但是該方法不僅費(fèi)時(shí)費(fèi)力,檢測(cè)效率也已經(jīng)不能滿足后基因組時(shí)代的發(fā)展。隨著高通量生物蛋白信息學(xué)的發(fā)展,產(chǎn)生了許多高質(zhì)量和大規(guī)模的蛋白質(zhì)相互作用數(shù)據(jù),這些數(shù)據(jù)為采用計(jì)算方法識(shí)別蛋白質(zhì)復(fù)合物奠定了基礎(chǔ)[3]。因此,出現(xiàn)了大量基于計(jì)算方法識(shí)別復(fù)合物的算法。由于生物網(wǎng)絡(luò)中每個(gè)蛋白質(zhì)有著不同的功能,不同的邊的重要性也不同,為了更真實(shí)、詳盡地表達(dá)出蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性和多樣性,目前從加權(quán)PPI網(wǎng)絡(luò)中識(shí)別蛋白質(zhì)復(fù)合物越來(lái)越受到人們的關(guān)注[4]。Dimitrakopoulos等人[5]提出一種從加權(quán)蛋白質(zhì)網(wǎng)絡(luò)之中預(yù)測(cè)重疊蛋白質(zhì)復(fù)合物的算法GENA(Gradually expanding dense neighborhoods)?;贑OACH(Core-attachment method)方法,Kouhsar 等人[6]提出一種快速高性能的預(yù)測(cè)加權(quán)蛋白質(zhì)復(fù)合體檢測(cè)算法WCOACH。Ama 等人[7]提出一種跨模塊中心移除的加權(quán)蛋白質(zhì)復(fù)合物識(shí)別算法IMHRC(Inter module hub removal clustering)。雖然這些加權(quán)網(wǎng)絡(luò)蛋白質(zhì)復(fù)合物檢測(cè)算法具有一定的成效,但是由于相互作用數(shù)據(jù)中存在著較高比例的假陽(yáng)性和假陰性,以及蛋白質(zhì)相互作用數(shù)據(jù)中包含不穩(wěn)定或發(fā)生在不同時(shí)間點(diǎn)的相互作用,導(dǎo)致識(shí)別蛋白質(zhì)復(fù)合物的精確度不高[8]。為了進(jìn)一步提高識(shí)別的準(zhǔn)確性,研究者們開(kāi)始結(jié)合蛋白質(zhì)相互作用以及多元生物數(shù)據(jù)來(lái)識(shí)別復(fù)合物。例如,在蛋白質(zhì)相互作用網(wǎng)絡(luò)中,胡偉等人[9]提出蛋白質(zhì)復(fù)合物識(shí)別ICMDS算法(Predicting complexes based on multiple biological data sources)。該算法整合了基因表達(dá)譜、關(guān)鍵蛋白信息和蛋白質(zhì)相互作用數(shù)據(jù)?;诘鞍踪|(zhì)相互作用數(shù)據(jù)以及異構(gòu)生物數(shù)據(jù),趙碧海等人[10]提出一種基于多關(guān)系網(wǎng)絡(luò)中關(guān)鍵模塊挖掘的蛋白質(zhì)功能預(yù)測(cè)算法PEFM(Prediction of protein functions based on essential functional modules mining)。多元生物數(shù)據(jù)整合能夠有效地彌補(bǔ)相互作用網(wǎng)絡(luò)不完整性和噪聲的問(wèn)題,使得識(shí)別蛋白質(zhì)復(fù)合物的精確度得到提高。除此之外,由于模塊度函數(shù)充分考慮PPI網(wǎng)絡(luò)的節(jié)點(diǎn)分布情況,可以通過(guò)優(yōu)化該函數(shù)將連接緊密的節(jié)點(diǎn)聚到相同的模塊中,符合蛋白質(zhì)復(fù)合物的結(jié)構(gòu)特征,因此研究者提出了許多基于模塊度函數(shù)的蛋白質(zhì)復(fù)合物挖掘算法[11]。Becker 等人[12]提出基于層次聚類(lèi)的OCG(Overlapping cluster generator)算法,該算法根據(jù)Newman 的模塊度函數(shù)將初始的重疊類(lèi)迭代地融合到層次結(jié)構(gòu)中,進(jìn)而實(shí)現(xiàn)蛋白質(zhì)聚類(lèi)過(guò)程,然而該算法對(duì)復(fù)合物的模塊規(guī)模較敏感,難以識(shí)別規(guī)模較小的復(fù)合物。郭茂祖等人[13]首先將識(shí)別稠密子圖作為初始模塊,然后根據(jù)模塊度函數(shù)來(lái)合并初始模塊,提出了復(fù)合物識(shí)別算法BMM(Based on protein complexes modularity function for merging modules)。Shen 等人[14]在引入外部緊密關(guān)聯(lián)度和內(nèi)部模塊緊密關(guān)聯(lián)度的基礎(chǔ)上,設(shè)計(jì)了一種基于自適應(yīng)密度模塊化的蛋白質(zhì)功能模塊檢測(cè)算法ADM(Adaptive density modularity)。在這個(gè)算法中,蛋白質(zhì)可以自適應(yīng)地選擇留在當(dāng)前的模塊還是轉(zhuǎn)移到另一個(gè)模塊中。Shen 等人[15]設(shè)計(jì)了一種基于最佳鄰節(jié)點(diǎn)和全局量化的復(fù)合物檢測(cè)算法BN-LGQ(Best neighbour and local-global quantification)。該算法通過(guò)搜索當(dāng)前簇的最佳鄰節(jié)點(diǎn)和計(jì)算模塊函數(shù)增量,進(jìn)而確定是否將最佳鄰節(jié)點(diǎn)加入簇中來(lái)擴(kuò)展復(fù)合物。雖然基于模塊度函數(shù)的蛋白質(zhì)復(fù)合物挖掘算法已有了很大的進(jìn)步,但是這些算法僅僅考慮了網(wǎng)絡(luò)的拓?fù)涮匦?,未考慮到PPI網(wǎng)絡(luò)中富含的生物信息;且難以識(shí)別出重疊和規(guī)模較小的蛋白質(zhì)復(fù)合物,算法的識(shí)別精度較低。雖然基于加權(quán)PPI網(wǎng)絡(luò)的復(fù)合物識(shí)別取得了一定的成效,但是如何有效地構(gòu)建加權(quán)PPI網(wǎng)絡(luò),如何降低復(fù)合物識(shí)別效果受假陽(yáng)性和噪聲數(shù)據(jù)的影響;如何解決基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息,以及難以識(shí)別出重疊和規(guī)模較小的復(fù)合物等導(dǎo)致的準(zhǔn)確率、召回率不高以及執(zhí)行效率低等缺陷,仍是亟待解決的問(wèn)題。

        針對(duì)以上問(wèn)題,本文提出了一種基于模塊度函數(shù)的加權(quán)蛋白質(zhì)復(fù)合物識(shí)別算法IWPC-MF(Algorithm for identifying weighted protein complexes based on modularity function)。主要工作為:(1)融合點(diǎn)聚集系數(shù)改進(jìn)邊聚集系數(shù),將改進(jìn)后的邊點(diǎn)聚集系數(shù)與基因共表達(dá)的皮爾遜相關(guān)系數(shù)相結(jié)合來(lái)構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò);(2)基于節(jié)點(diǎn)權(quán)重選取種子節(jié)點(diǎn),遍歷種子的鄰居節(jié)點(diǎn),設(shè)計(jì)節(jié)點(diǎn)間的相似度度量和蛋白質(zhì)附著度來(lái)獲取初始聚類(lèi)模塊;(3)設(shè)計(jì)基于緊密度的蛋白質(zhì)復(fù)合物模塊度函數(shù)來(lái)合并初始模塊,并最終完成復(fù)合物的識(shí)別。實(shí)驗(yàn)結(jié)果表明本文算法運(yùn)行效率高,聚類(lèi)結(jié)果的準(zhǔn)確率以及召回率較高。

        2 相關(guān)定義

        定義1(加權(quán)蛋白質(zhì)網(wǎng)絡(luò))[16]設(shè)G=( )V,E,P 代表加權(quán)PPI 網(wǎng)絡(luò),V=( v1,v2,…,vn)代表蛋白質(zhì)節(jié)點(diǎn)E=(e1,)代表蛋白質(zhì)之間的相互作用,P=(p( e1),p( e2),…,是每條邊存在的概率權(quán)重。

        定義2(邊聚集系數(shù))[17]設(shè)無(wú)向圖G=(V ,E,P ),其中表示節(jié)點(diǎn)u 和v 所共有的鄰居節(jié)點(diǎn)數(shù),Nu和Nv分別代表節(jié)點(diǎn)u 和v 的包括自身的鄰居節(jié)點(diǎn)集合。則對(duì)于無(wú)向圖中(u,v)的邊聚集系數(shù)(Edge Clustering Coefficient,ECC)定義為:

        定義3(皮爾遜相關(guān)系數(shù))[18]給定k 個(gè)不同時(shí)刻的基因表達(dá)數(shù)據(jù)樣本,則兩個(gè)蛋白質(zhì)節(jié)點(diǎn)u 和v 之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)計(jì)算方式如式(2)所示:

        定義4(模塊度函數(shù))[19]給定PPI 網(wǎng)絡(luò)G=(V ,E ),其中Aij表示節(jié)點(diǎn)i 和j 鄰接關(guān)系,θ( ci,cj)表示節(jié)點(diǎn)i和j 的模塊關(guān)系,di和dj分別代表節(jié)點(diǎn)i 和j 節(jié)點(diǎn)的度。則模塊度函數(shù)(Modularity Function,MF)的定義如式(3)所示:

        3 IWPC-MF算法

        3.1 算法思想

        針對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)存在不穩(wěn)定性,復(fù)合物的識(shí)別效果容易受到假陽(yáng)性和噪聲數(shù)據(jù)的影響;基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識(shí)別出重疊和規(guī)模較小的復(fù)合物等問(wèn)題,為提高算法的準(zhǔn)確率、召回率、執(zhí)行效率和降低假陽(yáng)性的影響,本文提出了一種加權(quán)蛋白質(zhì)復(fù)合物識(shí)別算法IWPC-MF。具體IWPC-MF算法思想為:首先以蛋白質(zhì)相互作用網(wǎng)絡(luò)為框架,融合點(diǎn)聚集系數(shù)改進(jìn)邊聚集系數(shù)得到邊點(diǎn)聚集系數(shù),利用邊點(diǎn)聚集系數(shù)與基因共表達(dá)的皮爾遜相關(guān)系數(shù)衡量相互作用邊的可靠性進(jìn)而構(gòu)建加權(quán)網(wǎng)絡(luò);其次利用節(jié)點(diǎn)權(quán)重選取種子節(jié)點(diǎn),遍歷種子節(jié)點(diǎn)的鄰域節(jié)點(diǎn),利用本文設(shè)計(jì)的節(jié)點(diǎn)間的相似度度量和蛋白質(zhì)附著度來(lái)獲取初始聚類(lèi)模塊;最后基于節(jié)點(diǎn)緊密度改進(jìn)模塊度函數(shù),進(jìn)而利用模塊度函數(shù)將有重疊的初始模塊進(jìn)行合并,并最終完成復(fù)合物識(shí)別。

        3.2 加權(quán)網(wǎng)絡(luò)的構(gòu)建

        針對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)存在不穩(wěn)定性,復(fù)合物的識(shí)別效果容易受到假陽(yáng)性假陰性和噪聲數(shù)據(jù)的影響,本文基于PPI網(wǎng)絡(luò)的拓?fù)涮匦?,結(jié)合基因共表達(dá)的皮爾遜相關(guān)系數(shù),對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行加權(quán),并且添加新的相互作用,能一定程度上增加蛋白質(zhì)相互作用的可信度。

        3.2.1 PPI網(wǎng)絡(luò)的拓?fù)涮匦?/p>

        由于蛋白質(zhì)相互作用網(wǎng)絡(luò)具有小世界特性和稀疏性,且存在一定比例的假陽(yáng)性和假陰性,若兩個(gè)蛋白質(zhì)都同時(shí)第三個(gè)蛋白質(zhì)發(fā)生相互作用,則這兩個(gè)蛋白質(zhì)間相互作用假陽(yáng)性的可能性比較小,共同參與模塊執(zhí)行相同功能的概率比較大,因此,一對(duì)蛋白質(zhì)之間相互作用的概率可以通過(guò)它們共有的鄰居節(jié)點(diǎn)數(shù)量確定[20]?;诠?jié)點(diǎn)間共有的鄰居數(shù)量的邊聚集系數(shù)是PPI 網(wǎng)絡(luò)中重要的拓?fù)涮匦裕梢杂糜诤饬繙y(cè)度圖中的邊聚集在一起的程度,還可以評(píng)估節(jié)點(diǎn)鄰居之間的緊密程度。但是邊聚集系數(shù)僅僅考慮邊的重要性,沒(méi)有考慮節(jié)點(diǎn)的重要性。因此,引入能夠反映節(jié)點(diǎn)聚集程度的點(diǎn)聚集系數(shù)[21]對(duì)邊聚集系數(shù)加以改進(jìn),提出一種融合節(jié)點(diǎn)和邊的雙重拓?fù)涮匦缘倪咟c(diǎn)聚集系數(shù),則邊點(diǎn)聚集系數(shù)度量如式(4)所示:

        式(4)中,| Nu∩Nv|表示集合Nu除去和集合Nv的交集部分所剩余的蛋白質(zhì)個(gè)數(shù),| Nv-Nu|表示集合Nv除去和集合Nu的交集部分所剩余的蛋白質(zhì)個(gè)數(shù),Cu和Cv分別表示節(jié)點(diǎn)u 和v 的點(diǎn)聚集系數(shù),其度量方式如式(5)所示:

        式(5)中,i 可分別代表節(jié)點(diǎn)u 和v,| |Ni代表節(jié)點(diǎn)u 或v 的度,| |Ei表示由節(jié)點(diǎn)u 或v 的鄰居節(jié)點(diǎn)之間組成的邊的數(shù)目。

        3.2.2 蛋白質(zhì)的皮爾遜相關(guān)系數(shù)

        由于高通量實(shí)驗(yàn)獲得的蛋白質(zhì)相互作用數(shù)據(jù)中存在著一定比例的假陽(yáng)性和噪聲數(shù)據(jù),如果僅僅用網(wǎng)絡(luò)的拓?fù)涮匦詠?lái)衡量?jī)蓚€(gè)蛋白質(zhì)之間的相互作用程度是比較片面的,因此本文引入定義3的基因共表達(dá)皮爾遜相關(guān)系數(shù)來(lái)衡量?jī)蓚€(gè)蛋白質(zhì)之間的共表達(dá)程度進(jìn)而增強(qiáng)相互作用之間的可靠性。

        3.2.3 蛋白質(zhì)網(wǎng)絡(luò)的加權(quán)

        基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)涮匦?,整合皮爾遜相關(guān)系數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行加權(quán),該加權(quán)策略不僅考慮了邊和點(diǎn)聚集的重要性,還考慮到相互作用的蛋白質(zhì)之間的基因共表達(dá)程度,共同體現(xiàn)蛋白質(zhì)相互作用的可信度,其邊加權(quán)的權(quán)重越大,可信度就越高。則對(duì)于PPI網(wǎng)絡(luò)中任意兩個(gè)蛋白質(zhì)之間的相互作用(u,v)的權(quán)重計(jì)算如式(6)所示:

        本文根據(jù)網(wǎng)絡(luò)的拓?fù)涮匦院蜕锘蚬脖磉_(dá)皮爾遜相關(guān)系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò),將邊權(quán)值為0的邊刪除來(lái)降低噪聲數(shù)據(jù)對(duì)挖掘蛋白質(zhì)復(fù)合物檢測(cè)結(jié)果造成的負(fù)面影響。

        權(quán)值為0的邊刪除的必要性分析如下:

        大量研究表明,通過(guò)高通量的生物實(shí)驗(yàn)方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)中包含著較高比例的假陽(yáng)性和假陰性,為了減少假陽(yáng)性和假陰性造成的負(fù)面影響,本文通過(guò)綜合考慮蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦约吹鞍踪|(zhì)相互作用邊之間的緊密聯(lián)系以及節(jié)點(diǎn)的聚集系數(shù)來(lái)降低假陽(yáng)性的影響,以及生物數(shù)據(jù)即皮爾遜相關(guān)數(shù)據(jù)來(lái)添加新的蛋白質(zhì)相互作用,進(jìn)而減少假陰性的影響。綜合分析蛋白質(zhì)相互作用的拓?fù)涮匦院蜕锾匦詠?lái)構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò),故將邊權(quán)值為0的邊作為假陽(yáng)性而進(jìn)行刪除。

        降低噪聲數(shù)據(jù)對(duì)挖掘蛋白質(zhì)復(fù)合物檢測(cè)結(jié)果造成的負(fù)面影響等方面的作用分析:

        為了進(jìn)一步分析降低噪聲數(shù)據(jù)對(duì)挖掘蛋白質(zhì)復(fù)合物檢測(cè)結(jié)果造成的負(fù)面影響,分別將邊權(quán)重為0的邊刪除以及不刪除邊權(quán)重為0的邊,利用本文改進(jìn)的方法來(lái)挖掘蛋白質(zhì)復(fù)合物,具體識(shí)別出的復(fù)合物的基本信息如表1所示。

        表1 復(fù)合物的基本信息

        從表1 可以看出,未刪除邊權(quán)重為0 的邊的蛋白質(zhì)復(fù)合物的平均蛋白質(zhì)的個(gè)數(shù)為11.6,比刪除邊權(quán)重為0的邊挖掘的復(fù)合物的平均個(gè)數(shù)要少,以及識(shí)別出的復(fù)合物比刪除邊權(quán)重為0 的復(fù)合物的個(gè)數(shù)要少。這是由于未刪除邊權(quán)重為0 的邊中存在噪聲數(shù)據(jù)實(shí)驗(yàn)結(jié)果容易受到假陽(yáng)性的影響。故本文方法將邊權(quán)重為0 的邊刪除可以有效地減少和控制噪聲對(duì)于蛋白質(zhì)復(fù)合物檢測(cè)所產(chǎn)生的負(fù)面影響。

        3.3 初始模塊的形成

        初始模塊的形成過(guò)程主要包括節(jié)點(diǎn)種子的選取,根據(jù)節(jié)點(diǎn)間的相似性,遍歷種子節(jié)點(diǎn)的鄰域,計(jì)算蛋白質(zhì)間的附著度進(jìn)而形成初始模塊。

        基于蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院推栠d相關(guān)系數(shù)構(gòu)建的加權(quán)網(wǎng)絡(luò),節(jié)點(diǎn)u 所有關(guān)聯(lián)的邊點(diǎn)聚集系數(shù)之和即節(jié)點(diǎn)權(quán)重定義如式(7)所示:

        基于蛋白質(zhì)復(fù)合物成簇出現(xiàn)且高度共表達(dá),則蛋白質(zhì)間的相似度度量如式(8)所示:

        式(8)中,PCC( i,j )表示節(jié)點(diǎn)間的皮爾遜相關(guān)系數(shù),PECC( i,j )表示節(jié)點(diǎn)i 和j 之間的結(jié)構(gòu)相似性,Ni代表節(jié)點(diǎn)i 的鄰居節(jié)點(diǎn)集合。PCC( i,j )和PECC( i,j )的差值表示節(jié)點(diǎn)共表達(dá)程度與拓?fù)浣Y(jié)構(gòu)相似性的差異,差異越小,說(shuō)明這兩個(gè)蛋白質(zhì)無(wú)論是拓?fù)浣Y(jié)構(gòu)還是基因共表達(dá)信息的相似度都很接近,模塊劃分結(jié)構(gòu)越加穩(wěn)定。其值越大,說(shuō)明這兩個(gè)節(jié)點(diǎn)越有可能在同一模塊內(nèi)。

        根據(jù)蛋白質(zhì)節(jié)點(diǎn)之間的相似度度量,綜合考慮節(jié)點(diǎn)與鄰域節(jié)點(diǎn)間以及節(jié)點(diǎn)與鄰域節(jié)點(diǎn)的鄰接節(jié)點(diǎn)的相似度,設(shè)計(jì)出蛋白質(zhì)附著度度量公式。

        給定加權(quán)蛋白質(zhì)子網(wǎng)絡(luò)WG1=( )V1,E1,P1和節(jié)點(diǎn)i ∈V1,SM( )i,j 為節(jié)點(diǎn)間的相似性度量,加權(quán)網(wǎng)絡(luò)G2=(V2,E2,P2)是包含G1中所有節(jié)點(diǎn)的鄰居節(jié)點(diǎn)以及對(duì)應(yīng)的相互作用邊。則節(jié)點(diǎn)i 的的附著度計(jì)算如式(9)所示:

        初始模塊的形成思想如下:首先,基于蛋白質(zhì)復(fù)合物是成簇出現(xiàn)且傾向于共表達(dá)的事實(shí),利用式(6)來(lái)計(jì)算邊的存在概率,構(gòu)建加權(quán)網(wǎng)絡(luò);接著充分考慮節(jié)點(diǎn)之間的緊密程度以及共表達(dá)程度,對(duì)于加權(quán)網(wǎng)絡(luò)中的任意一個(gè)節(jié)點(diǎn),利用式(7)來(lái)計(jì)算該節(jié)點(diǎn)在其鄰居圖中的節(jié)點(diǎn)的權(quán)重,將加權(quán)網(wǎng)絡(luò)中的邊權(quán)值為0 和節(jié)點(diǎn)權(quán)重為0的作為噪聲移除,同時(shí)按照WP( )u 值進(jìn)行降序排列作為擴(kuò)張的種子節(jié)點(diǎn);最后遍歷種子節(jié)點(diǎn)的鄰域,根據(jù)相似度度量式(8)來(lái)計(jì)算節(jié)點(diǎn)間的相似性,同時(shí)根據(jù)式(9)計(jì)算蛋白質(zhì)節(jié)點(diǎn)的附著度,將附著度大于閾值的節(jié)點(diǎn)加入到種子節(jié)點(diǎn)中,重復(fù)進(jìn)行操作形成初始模塊。

        初始模塊的形成過(guò)程形式化如下:

        輸入:蛋白質(zhì)網(wǎng)絡(luò)G( )

        V,E ,附著度閾值δ,基因表達(dá)數(shù)據(jù)

        輸出:初始模塊集合EM(1)構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)

        ①For each ( u,v )∈E do

        ② Compute PECC( u,v )by Eq(.4)

        ③ Compute PCC( u,v )by Eq(.2)④ Compute P( u,v )by Eq(.6)

        ⑤ If P( u,v )=0 do

        ⑥ Remove()//除去權(quán)值為0的相互作用邊

        ⑦ End if

        ⑧End for

        (2)選取種子節(jié)點(diǎn)

        ①L=? //種子節(jié)點(diǎn)集合

        ②For each vi∈V do

        ③ Compute WP( vi)by Eq(.7)

        ④ Sort()//將蛋白質(zhì)節(jié)點(diǎn)按照WP( vi)值非遞減排序WP( v1)≥WP( v2)≥…≥WP( vk)進(jìn)入種子節(jié)點(diǎn)集合L 中。

        ⑤End for

        (3)初始模塊形成

        ①EM=?,L={v1,v2,…,vk}

        ②For each vi∈L do

        ③G1={vi|dis( vi,va=1) }∪{vi}

        ④ If DS( vi,G1)>δ do

        ⑤ EM=EM ∪{vi}

        ⑥ End if

        ⑦End for

        ⑧ Return EM //輸出蛋白質(zhì)初始模塊

        3.4 初始模塊的合并

        大量研究發(fā)現(xiàn),不同的蛋白質(zhì)復(fù)合物之間可能存在重疊;大多數(shù)蛋白質(zhì)復(fù)合物所包含的蛋白質(zhì)節(jié)點(diǎn)數(shù)目較少;而且蛋白質(zhì)復(fù)合物往往是傾向于成簇和高度共表達(dá)出現(xiàn)[13]。然而基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法存在僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識(shí)別出重疊和規(guī)模較小的復(fù)合物等問(wèn)題,為提高算法的準(zhǔn)確率和召回率,基于蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院突蚬脖磉_(dá)皮爾遜相關(guān)系數(shù)構(gòu)建的加權(quán)網(wǎng)絡(luò),考慮到蛋白質(zhì)復(fù)合物是節(jié)點(diǎn)緊密連接的稠密子圖和蛋白質(zhì)網(wǎng)絡(luò)本身具有的小世界特性,提出基于緊密度[22]的蛋白質(zhì)復(fù)合物合并模塊度函數(shù),若相鄰的模塊能夠使模塊度函數(shù)增加,則對(duì)模塊進(jìn)行合并進(jìn)而得到蛋白質(zhì)復(fù)合物。

        緊密度是保證形成高內(nèi)聚復(fù)合物的形成條件之一,則一個(gè)蛋白質(zhì)節(jié)點(diǎn)v 到模塊S 的緊密度F(v)的計(jì)算方式如式(10)所示:

        基于緊密度的模塊度函數(shù)計(jì)算公式如式(11)所示:

        式(11)中,網(wǎng)絡(luò)中邊的數(shù)目為 ||E ,當(dāng)前網(wǎng)絡(luò)的模塊數(shù)為| EM |,Si和Sj分別表示節(jié)點(diǎn)i 和j 所在的模塊。

        為了能夠識(shí)別出更多規(guī)模較小和重疊的蛋白質(zhì)復(fù)合物進(jìn)而提高識(shí)別的精度,基于改進(jìn)后的模塊度函數(shù),若初始兩個(gè)模塊合并能使模塊度函數(shù)值增加,則合并這兩個(gè)模塊,并更新模塊度函數(shù)值。

        基于緊密度的模塊度函數(shù),具體模塊合并過(guò)程形式化如下:

        輸入:加權(quán)蛋白質(zhì)網(wǎng)絡(luò)WG(V,E),初始模塊集合EM

        輸出:蛋白質(zhì)復(fù)合物集合C

        (1)C=?

        (2)For i =1 to| EM |-1

        (3)Compute DMF( EM′ )//計(jì) 算EMi和EMi+1合并后的EM′的模塊度函數(shù)值

        (4) If FMF( EM′ )>FMF( EM )do

        (5) EMi=EMi∪EMi+1//刪除EMi+1

        (6) FMF( EM )=FMF( EM′)

        (7) C=EM

        (8) End if

        (9)End for

        (10)Return C //輸出蛋白質(zhì)復(fù)合物

        3.5 IWPC-MF算法步驟

        IWPC-MF算法具體的實(shí)現(xiàn)步驟如下所示:

        輸入:蛋白質(zhì)網(wǎng)絡(luò)G(V,E,基因表達(dá)數(shù)據(jù)

        輸出:蛋白質(zhì)復(fù)合物C

        (1)初始化參數(shù):附著度閾值δ

        (2)蛋白質(zhì)復(fù)合物的挖掘

        ①For each ( u,v )∈E do

        ② 調(diào)用加權(quán)網(wǎng)絡(luò)形成過(guò)程,獲得加權(quán)網(wǎng)絡(luò)WG(V,E)

        ③ For each vi∈V do

        ④ 調(diào)用種子節(jié)點(diǎn)形成過(guò)程,獲得種子節(jié)點(diǎn)集合L

        ⑤ For each vi∈L do

        ⑥ 調(diào)用初始模塊形成過(guò)程,獲得初始模塊集合EM

        ⑦For i=1 to| EM |-1

        ⑧調(diào)用初始模塊合并過(guò)程,獲得蛋白質(zhì)復(fù)合物集合C

        ⑨End for

        ⑩ End for

        ? End for

        ?End for

        ?Return C //得到蛋白質(zhì)復(fù)合物

        3.6 算法的時(shí)間復(fù)雜度

        IWPC-MF 算法的計(jì)算復(fù)雜度由以下幾個(gè)步驟構(gòu)成:假設(shè)PPI 網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)目為n,依據(jù)邊點(diǎn)聚集系數(shù)以及基因表達(dá)數(shù)據(jù)構(gòu)建加權(quán)PPI 網(wǎng)路的時(shí)間復(fù)雜度為O(n2);基于節(jié)點(diǎn)權(quán)重來(lái)選取種子節(jié)點(diǎn)的時(shí)間復(fù)雜度為O(n2);遍歷種子節(jié)點(diǎn)的鄰域,通過(guò)計(jì)算蛋白質(zhì)節(jié)點(diǎn)之間的相似性,采用蛋白質(zhì)附著度來(lái)形成初始模塊的時(shí)間復(fù)雜度為O(n2);假設(shè)初始的模塊數(shù)為h,則模塊合并的時(shí)間復(fù)雜度為O(h2)。因此,IWPC-MF算法的時(shí)間復(fù)雜度為O(n2+h2)。由于h <n,所以IWPC-MF 算法的時(shí)間復(fù)雜度近似為O(n2)。而在GENA 算法中,算法的時(shí)間復(fù)雜度主要取決于初始化以及優(yōu)化集群的過(guò)程,即O(Bn3);在WCOACH 算法中,算法的時(shí)間復(fù)雜度主要取決于初始核的檢測(cè)和添加附件形成蛋白質(zhì)復(fù)合物的過(guò)程,即O(τn3);在IMHRC 算法中,算法的時(shí)間復(fù)雜度主要取決于主要蛋白質(zhì)集群形成以及合并修復(fù)集群的過(guò)程,即O(pγβn2);在ICMDS 算法中,算法的時(shí)間復(fù)雜度主要取決于復(fù)合核的形成以及冗余過(guò)濾,即O(n3);在OCG 算法中,算法的時(shí)間復(fù)雜度主要取決于極大團(tuán)的形成以及合并模塊的過(guò)程,即O(hn2);在BMM算法中,算法的時(shí)間復(fù)雜度主要取決于初始模塊的形成以及合并模塊的過(guò)程,即O(n2+h2),雖然該算法的復(fù)雜度和本文算法的時(shí)間復(fù)雜度一樣,但該算法的識(shí)別精度以及匹配率較低;在ADM算法中,算法的時(shí)間復(fù)雜度主要取決于外部和內(nèi)部緊密關(guān)聯(lián)度的計(jì)算以及合并模塊的過(guò)程,即O(n3);在BN-LGQ算法中,算法的時(shí)間復(fù)雜度主要取決于模塊化增量計(jì)算以及模塊形成過(guò)程,即O(n+φn+)。上述提及的nc、T 、τ、γ、β、B、φ 和χ 分別表示最大的復(fù)合物的蛋白質(zhì)數(shù)目、基因表達(dá)時(shí)刻數(shù)、鄰域親和力閾值、中心獲取閾值、中心移除閾值、預(yù)測(cè)到的模塊數(shù)目、復(fù)合物形成前的數(shù)量和合并過(guò)程中蛋白質(zhì)復(fù)合物減少的數(shù)量。

        4 實(shí)驗(yàn)結(jié)果以及分析

        4.1 實(shí)驗(yàn)環(huán)境

        IWPC-MF 算法實(shí)驗(yàn)的編程環(huán)境為Python3.5.2;操作系統(tǒng)為Windows10 家庭中文版;內(nèi)存12 GB;處理器為Intel?CoreTMi5-4200H CPU @ 2.8 GHz。

        4.2 實(shí)驗(yàn)數(shù)據(jù)集

        為驗(yàn)證本文提出算法的有效性,選用蛋白質(zhì)相互作用數(shù)據(jù)相對(duì)完整和可靠的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。具體實(shí)驗(yàn)數(shù)據(jù)如下所示:

        (1)酵母PPI網(wǎng)絡(luò)數(shù)據(jù)來(lái)源于DIP數(shù)據(jù)庫(kù)[23],去除重復(fù)以及自相互作用,該數(shù)據(jù)庫(kù)包含4 995個(gè)蛋白質(zhì)和21 554對(duì)相互作用。

        (2)實(shí)驗(yàn)采用的時(shí)序基因表達(dá)數(shù)據(jù)為GSE3431[24],包含7 079個(gè)蛋白質(zhì)和36個(gè)時(shí)刻下的基因表達(dá)值。

        (3)本文采用CYC2008[25]作為標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含408個(gè)通過(guò)生物實(shí)驗(yàn)預(yù)測(cè)得到的蛋白質(zhì)復(fù)合物。

        4.3 評(píng)價(jià)指標(biāo)

        4.3.1 精度、召回率和F-measure 度量

        為了評(píng)價(jià)本文算法的有效性,采用文獻(xiàn)[26]的基于鄰域親和評(píng)分的精度(Precision)、召回率(Recall)和F度量(F-measure)指標(biāo)來(lái)評(píng)價(jià)算法性能。鄰域親和評(píng)分是用來(lái)衡量預(yù)測(cè)的復(fù)合物與實(shí)際復(fù)合物的匹配度即重疊率,當(dāng)重疊率OS(p,b)≥ω,輸出最終的復(fù)合物,否則將該復(fù)合物刪除,其定義為:

        綜合考慮精度和召回率對(duì)聚類(lèi)結(jié)果的影響,采用F-measure 綜合評(píng)估整體算法的性能。其計(jì)算公式如下:

        4.3.2P-value值度量

        隨著蛋白質(zhì)組學(xué)研究的深入,使得一個(gè)蛋白質(zhì)與其功能注釋相對(duì)應(yīng)成為可能,蛋白質(zhì)簇發(fā)生對(duì)于一個(gè)給定功能注釋在統(tǒng)計(jì)學(xué)上的意義就可以通過(guò)一個(gè)超幾何分布的等式來(lái)進(jìn)行計(jì)算[28]:

        其中,V 代表PPI 網(wǎng)絡(luò)中包含的蛋白質(zhì)總數(shù),C 為預(yù)測(cè)挖掘出的復(fù)合物數(shù)目,F(xiàn) 為一個(gè)功能組數(shù)量,k 為C 中包含F(xiàn) 中的蛋白質(zhì)數(shù)目。

        4.4 參數(shù)選擇

        IWPC-MF 算法中,由于參數(shù)δ 的取值影響實(shí)驗(yàn)的聚類(lèi)效果,因此本文在不同的δ 參數(shù)取值上獨(dú)立運(yùn)行20次實(shí)驗(yàn),取20次實(shí)驗(yàn)的平均值進(jìn)行分析。在圖1中展示了δ 在不同取值下的F-measure 值和被識(shí)別匹配的蛋白質(zhì)復(fù)合物比例變化情況,具體的實(shí)驗(yàn)結(jié)果如圖1所示。

        圖1 F-measure 值和匹配的蛋白質(zhì)復(fù)合物比例變化圖

        圖1 可知,隨著δ 從0 到0.2 逐漸增大,F(xiàn)-measure的值在δ 不同取值之下也逐漸增大,且F-measure 達(dá)到最大值0.482 9,實(shí)驗(yàn)識(shí)別的復(fù)合物和已知的復(fù)合物的匹配比例也逐漸增加,且達(dá)到最大值65.51%;隨著δ 從0.2到1逐漸增大,F(xiàn)-measure 的值在δ 不同取值之下逐漸降低,實(shí)驗(yàn)識(shí)別出的復(fù)合物和已知的復(fù)合物的匹配比例也逐漸降低。這是因?yàn)楸疚娜诤线咟c(diǎn)聚集系數(shù)與基因表達(dá)數(shù)據(jù)構(gòu)建加權(quán)網(wǎng)絡(luò),同時(shí)利用節(jié)點(diǎn)權(quán)重來(lái)選取種子節(jié)點(diǎn),遍歷種子節(jié)點(diǎn)的鄰居時(shí),計(jì)算節(jié)點(diǎn)之間的相似度,根據(jù)蛋白質(zhì)附著度來(lái)形成初始模塊,充分考慮了內(nèi)部節(jié)點(diǎn)與外部節(jié)點(diǎn)之間的聯(lián)系即全局一致性。隨著附著度閾值的增大,算法識(shí)別的聚類(lèi)數(shù)目逐漸增加,每個(gè)復(fù)合物中包含的蛋白質(zhì)數(shù)目越少,相對(duì)應(yīng)復(fù)合物的個(gè)數(shù)就會(huì)增加,但是當(dāng)閾值增大到一定值時(shí),擴(kuò)展的種子鄰域節(jié)點(diǎn)和種子節(jié)點(diǎn)之間的相互作用要求提高,導(dǎo)致挖掘復(fù)合物的精度逐漸增加,對(duì)挖掘出的蛋白質(zhì)復(fù)合物會(huì)更嚴(yán)格,導(dǎo)致算法F-measure 值和匹配比例先增加后降低。通過(guò)觀察發(fā)現(xiàn)存在一對(duì)合理取值即δ=0.2,使F-measure達(dá)到最大值0.482 9且匹配比例達(dá)到65.51%。故本文設(shè)置δ=0.2。

        4.5 邊點(diǎn)聚集系數(shù)度量的有效性分析

        為了驗(yàn)證IWPC-MF 算法使用邊點(diǎn)聚集系數(shù)PECC度量公式的有效性,分別基于使用邊點(diǎn)聚集系數(shù)度量和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC加權(quán)的IWPC-MF算法和未使用邊點(diǎn)聚集系數(shù)即使用邊聚集系數(shù)ECC和皮爾遜相關(guān)系數(shù)IWPC-MF-ECC-PCC加權(quán)的IWPC-MF算法,比較在算法識(shí)別的復(fù)合物與已知的復(fù)合物的匹配重疊率不同閾值下得到的F-measure 值和匹配比例,具體的實(shí)驗(yàn)結(jié)果如圖2所示。

        圖2 不同加權(quán)策略挖掘的復(fù)合物對(duì)比結(jié)果

        由圖2 顯示,使用邊點(diǎn)聚集系數(shù)度量的IWPC-MF算法的F-measure 取值和匹配的蛋白質(zhì)復(fù)合物比例都比未使用邊點(diǎn)聚集系數(shù)的取值要高。在本文取值重疊率閾值為0.2 時(shí),F(xiàn)-measure 的取值比未使用邊點(diǎn)聚集系數(shù)提高3.62%,匹配的蛋白質(zhì)復(fù)合物比未使用邊點(diǎn)聚集系數(shù)度量加權(quán)提高4.65%。實(shí)驗(yàn)結(jié)果說(shuō)明,使用改進(jìn)的邊點(diǎn)聚集系數(shù)的算法的聚類(lèi)效果得到了提高。這是因?yàn)椋夯趶?fù)合物內(nèi)部節(jié)點(diǎn)之間的緊密聯(lián)系,IWPC-M算法在充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎蚬脖磉_(dá)程度時(shí),還考慮到節(jié)點(diǎn)的聚集程度對(duì)復(fù)合物挖掘的影響,利用邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)對(duì)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行加權(quán),進(jìn)而利用種子節(jié)點(diǎn)實(shí)現(xiàn)復(fù)合物的挖掘。也進(jìn)一步證明利用種子蛋白質(zhì)能很好擴(kuò)展為一個(gè)復(fù)合物。

        為進(jìn)一步檢驗(yàn)邊點(diǎn)聚集系數(shù)的有效性,分別使用不同加權(quán)方法與本文的IWPC-MF-PECC-PCC加權(quán)方法進(jìn)行對(duì)比實(shí)驗(yàn),圖3是采用不同加權(quán)方法檢測(cè)到蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的對(duì)比結(jié)果。從圖3可以看出,使用IWPC-MF-ECC 加權(quán)的方法未識(shí)別出YHR081W 和YOL142W 兩個(gè)蛋白質(zhì),是因?yàn)檫吘奂禂?shù)只考慮節(jié)點(diǎn)間邊的緊密度,對(duì)網(wǎng)絡(luò)的拓?fù)湫苑治霰容^單一;使用IWPC-MF-PECC 加權(quán)的方法未識(shí)別出一個(gè)蛋白質(zhì),這是因?yàn)檫咟c(diǎn)聚集系數(shù)不僅考慮了節(jié)點(diǎn)間邊的緊密關(guān)系,還考慮到了每個(gè)節(jié)點(diǎn)的重要性,對(duì)蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦钥紤]得較全面,但忽略了蛋白質(zhì)之間的生物特性;使用IWPC-MF-PECC-PCC加權(quán)的方法既考慮到網(wǎng)絡(luò)的拓?fù)涮匦?,同時(shí)又結(jié)合基因共表達(dá)的皮爾遜相關(guān)系數(shù),對(duì)蛋白質(zhì)網(wǎng)絡(luò)的分析比較全面,能夠更加貼近真實(shí)網(wǎng)絡(luò),因此最終的聚類(lèi)效果較好。

        4.6 加權(quán)蛋白質(zhì)網(wǎng)絡(luò)的性能分析

        為了進(jìn)一步分析IWPC-MF算法結(jié)合邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò)的性能,分別基于邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC加權(quán)的蛋白質(zhì)網(wǎng)絡(luò)、邊點(diǎn)聚集系數(shù)IWPC-MF-PECC 構(gòu)建的加權(quán)網(wǎng)絡(luò)和皮爾遜相關(guān)系數(shù)IWPC-MF-PCC 構(gòu)建的加權(quán)網(wǎng)絡(luò)來(lái)挖掘蛋白質(zhì)復(fù)合物,比較算法識(shí)別的復(fù)合物與已知的復(fù)合物在不同匹配重疊率閾值之下的匹配比例,具體的實(shí)驗(yàn)結(jié)果如圖4所示。

        由圖4顯示,本文使用邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)挖掘復(fù)合物的檢測(cè)效果明顯優(yōu)于其他加權(quán)策略,尤其在匹配重疊率閾值為0.2時(shí),IWPC-MF算法使用IWPC-MF-PECCPCC加權(quán)識(shí)別的蛋白質(zhì)復(fù)合物匹配比例分別比使用PECC加權(quán)和PCC加權(quán)識(shí)別的匹配比例高3.00%和5.83%。實(shí)驗(yàn)結(jié)果說(shuō)明,結(jié)合邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)的算法的聚類(lèi)效果得到了提高。這是因?yàn)椋夯谶咟c(diǎn)聚集系數(shù)加權(quán)的蛋白質(zhì)網(wǎng)絡(luò)僅僅整合了邊聚集系數(shù)和點(diǎn)聚集系數(shù),因此只能反映PPI 網(wǎng)絡(luò)的拓?fù)涮匦?,考慮得比較單一;基于皮爾遜相關(guān)系數(shù)加權(quán)的網(wǎng)絡(luò)僅僅只考慮到基因共表達(dá)程度,沒(méi)有考慮網(wǎng)絡(luò)的拓?fù)涮匦?,?shí)驗(yàn)結(jié)果存在較高的假陽(yáng)性和假陰性數(shù)據(jù);而基于復(fù)合物內(nèi)部節(jié)點(diǎn)之間的緊密聯(lián)系,IWPC-MF 算法在充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎蚬脖磉_(dá)程度時(shí),還考慮到節(jié)點(diǎn)的聚集程度對(duì)復(fù)合物挖掘的影響,結(jié)合邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)對(duì)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行加權(quán),有效地減少假陰性和假陽(yáng)性帶來(lái)的負(fù)面影響,因此本文的加權(quán)蛋白質(zhì)網(wǎng)絡(luò)的性能較好。

        圖3 不同加權(quán)方法識(shí)別nuclear exosome complex復(fù)合物

        圖4 不同加權(quán)網(wǎng)絡(luò)策略的蛋白質(zhì)匹配比例值的對(duì)比分析

        為了減少假陽(yáng)性和假陰性造成的負(fù)面影響,本文通過(guò)綜合考慮蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦约吹鞍踪|(zhì)相互作用邊之間的緊密聯(lián)系以及節(jié)點(diǎn)的聚集系數(shù)來(lái)降低假陽(yáng)性的影響,以及生物數(shù)據(jù)即皮爾遜相關(guān)數(shù)據(jù)來(lái)添加新的蛋白質(zhì)相互作用,進(jìn)而減少假陰性的影響。綜合分析蛋白質(zhì)相互作用的拓?fù)涮匦院蜕锾匦詠?lái)構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)。為了進(jìn)一步分析本文方法PPI 網(wǎng)絡(luò)任意兩個(gè)蛋白質(zhì)之間的相互作用權(quán)重計(jì)算方式設(shè)計(jì)的準(zhǔn)確性,采用本文的加權(quán)方式以及采用邊點(diǎn)聚集系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò)來(lái)挖掘蛋白質(zhì)復(fù)合物,具體檢測(cè)結(jié)果如圖5所示。通過(guò)具體實(shí)例分析DNA-directed RNA polymerase II complex復(fù)合物中任意邊的相互作用,發(fā)現(xiàn)本文加權(quán)識(shí)別的復(fù)合物更加貼近真實(shí)網(wǎng)絡(luò)。本文設(shè)計(jì)的加權(quán)方法更加準(zhǔn)確。

        4.7 優(yōu)化的模塊度函數(shù)的有效性分析

        為了驗(yàn)證IWPC-MF算法使用優(yōu)化的模塊度函數(shù)FMF的有效性,分別基于優(yōu)化的模塊度函數(shù)FMF 的IWPCMF算法和未使用該優(yōu)化函數(shù)即使用MF函數(shù)的IWPCMF算法,在DIP數(shù)據(jù)庫(kù)獨(dú)立執(zhí)行20次進(jìn)行復(fù)合物的識(shí)別,實(shí)驗(yàn)檢測(cè)結(jié)果對(duì)比分析如圖6所示。

        圖6 顯示的是使用優(yōu)化的模塊度函數(shù)FMF 的IWPC-MF算法在precision、recall、F-measure 取值和匹配的蛋白質(zhì)復(fù)合物比例與未使用該優(yōu)化函數(shù)即使用MF函數(shù)的對(duì)比情況,其中使用FMF的precision 的取值比使用MF函數(shù)提高6.73%,recall 的取值比使用MF函數(shù)提高7.80%,F(xiàn)-measure 的取值比使用MF 函數(shù)提高7.40%,匹配的蛋白質(zhì)復(fù)合物比使用MF函數(shù)提高6.73%。這是因?yàn)椋疚母鶕?jù)使用FMF 函數(shù)來(lái)對(duì)初始模塊進(jìn)行合并,充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎虮磉_(dá)程度的同時(shí),也考慮到復(fù)合物的重疊性以及復(fù)合物規(guī)模較小的性質(zhì),使得挖掘的復(fù)合物較準(zhǔn)確,避免存在較高比例的復(fù)合物之間功能相似的模塊,實(shí)驗(yàn)結(jié)果說(shuō)明,使用FMF函數(shù)的算法的聚類(lèi)效果較優(yōu)。

        圖5 蛋白質(zhì)邊權(quán)重的準(zhǔn)確性對(duì)比分析

        在PPI 網(wǎng)絡(luò)中,通過(guò)對(duì)蛋白質(zhì)復(fù)合物的結(jié)構(gòu)分析,可以發(fā)現(xiàn)多數(shù)蛋白質(zhì)復(fù)合物的規(guī)模較小[13];而且同一個(gè)蛋白質(zhì)可能屬于不同功能的復(fù)合物,這些蛋白質(zhì)往往具有多個(gè)生物功能,即蛋白質(zhì)復(fù)合物之間可能會(huì)存在重疊。

        圖6 優(yōu)化的模塊度函數(shù)的對(duì)比分析

        在標(biāo)準(zhǔn)408個(gè)復(fù)合物中,根據(jù)文獻(xiàn)[13]的記錄,標(biāo)準(zhǔn)復(fù)合物實(shí)際體積大于20 的只有不到10 個(gè),半數(shù)以上的蛋白質(zhì)復(fù)合物體積不大于3。為了驗(yàn)證本文識(shí)別蛋白質(zhì)復(fù)合物的改進(jìn)方法對(duì)規(guī)模較小復(fù)合物的識(shí)別能力,采用復(fù)合物體積來(lái)表示復(fù)合物中包含的蛋白質(zhì)的個(gè)數(shù),具體的蛋白質(zhì)復(fù)合物體積分布直方圖如圖7所示。

        圖7 蛋白質(zhì)復(fù)合物體積分布直方圖

        從圖7可以看出,利用本文改進(jìn)的方法檢測(cè)到的體積大于21的不到9個(gè),但是半數(shù)以上的復(fù)合物的體積不大于6。這說(shuō)明多數(shù)蛋白質(zhì)復(fù)合物的規(guī)模較小,且本文改進(jìn)的方法可以識(shí)別出規(guī)模較小的復(fù)合物。

        圖8 蛋白質(zhì)復(fù)合物體積分布直方圖

        從圖8可以看出蛋白質(zhì)復(fù)合物的重疊分布情況,其中重疊的蛋白質(zhì)個(gè)數(shù)為2個(gè)和3個(gè)的蛋白質(zhì)復(fù)合物數(shù)目最多,分別達(dá)到了124個(gè)和121,分別占本文識(shí)別的374個(gè)復(fù)合物的33.16%和32.35%。從圖7和圖8可知,本文改進(jìn)的方法對(duì)規(guī)模較小和重疊蛋白質(zhì)復(fù)合物的識(shí)別能力較優(yōu)。這是因?yàn)楸疚木C合考慮網(wǎng)絡(luò)的拓?fù)涮匦潞蜕锾匦?,以及使用基于緊密度的改進(jìn)的模塊度函數(shù)來(lái)合并初始模塊,能夠識(shí)別出重疊和規(guī)模較小的復(fù)合物。

        4.8 算法性能的比較分析

        本節(jié)將IWPC-MF 算法分別從精度、召回率和F-measure 的比較分析、聚類(lèi)效果的比較分析和功能富集的比較分析與GENA[5]、WCOACH[6]、IMHRC[7]、ICMDS[9]、OCG[12]、BMM[13]、ADM[14]、BN-LGQ[15]算法進(jìn)行比較分析。重復(fù)迭代次數(shù)20次。實(shí)驗(yàn)使用到的參數(shù)設(shè)置δ=0.2。

        (1)精度、召回率和F-measure 的比較分析

        為了驗(yàn)證本文算法的性能,將IWPC-MF 算法與其他8種算法在DIP數(shù)據(jù)上獨(dú)立運(yùn)行20次,取實(shí)驗(yàn)結(jié)果的平均值進(jìn)行分析,得到各個(gè)算法識(shí)別的復(fù)合物基本信息以及實(shí)驗(yàn)評(píng)價(jià)指標(biāo)對(duì)比分析如表2和圖9所示。

        表2 各算法識(shí)別的復(fù)合物的基本信息

        圖9 算法性能比較關(guān)系圖

        在表2 中,PM 表示算法識(shí)別出的復(fù)合物總數(shù),average 是指每個(gè)簇中的蛋白質(zhì)平均個(gè)數(shù)。由表2可以知道,IWPC-MF 算法共識(shí)別374 個(gè)復(fù)合物,每個(gè)復(fù)合物平均包含13.5 個(gè)蛋白質(zhì),其中245 個(gè)預(yù)測(cè)結(jié)果較準(zhǔn)確,標(biāo)準(zhǔn)集合中的156個(gè)復(fù)合物可以被算法準(zhǔn)確識(shí)別到,是所有算法中識(shí)別匹配最多的。這是因?yàn)镮WPC-MF算法在構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)的時(shí)候不僅考慮了蛋白質(zhì)網(wǎng)絡(luò)本身的拓?fù)涮匦?,還考慮到蛋白質(zhì)之間的基于共表達(dá)程度,這樣降低了假陽(yáng)性和噪聲數(shù)據(jù)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生的負(fù)面影響;同時(shí)利用優(yōu)化后的模塊度函數(shù)合并初始模塊時(shí),充分考慮蛋白質(zhì)復(fù)合物之間的重疊性以及大多數(shù)復(fù)合物規(guī)模較小的特性,這樣可以提高識(shí)別的準(zhǔn)確性。因此,本文提出的IWPC-MF算法的挖掘效果較好。

        圖9顯示了各種算法在DIP數(shù)據(jù)集中識(shí)別的復(fù)合物的結(jié)果。從圖中可以清晰地發(fā)現(xiàn)IWPC-MF 算法在精度、召回率和F 度量指標(biāo)上取得較好的結(jié)果。具體來(lái)說(shuō),IWPC-MF 算法的精度為65.51%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BNLGQ 算法分別提高了39.69%、57.75%、14.17%、3.74%、43.93%、40.44%、44.66%和40.67%;召回率為38.24%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BN-LGQ 算法分別提高了79.31%、90.24%、52.94%、8.33%、65.96%、59.18%、83.53%和54.46%;F 值度量為48.29%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BN-LGQ 算法分別提高了64.71%、78.27%、38.65%、6.64%、57.84%、52.27%、69.21%和49.38%。實(shí)驗(yàn)結(jié)果表明,使用本文算法挖掘蛋白質(zhì)復(fù)合物的聚類(lèi)精度、召回率和F-measure 相比較其他8種算法都得到了提高。這是因?yàn)?,在GENA算法中,使用貪婪方法初始化集群,在聚類(lèi)系數(shù)的基礎(chǔ)上選取種子節(jié)點(diǎn),僅僅考慮了網(wǎng)絡(luò)的拓?fù)涮匦?,挖掘的效果存在大量的重疊模塊;在WCOACH 算法中,僅僅利用GO 信息來(lái)構(gòu)建加權(quán)網(wǎng)絡(luò),缺乏考慮蛋白質(zhì)網(wǎng)絡(luò)本身的拓?fù)涮匦砸约疤卣鳎以诰垲?lèi)的時(shí)候,若選取的核心節(jié)點(diǎn)較為相似,則會(huì)挖掘出大量重疊的模塊,最終導(dǎo)致挖掘的準(zhǔn)確性降低;在IMHRC算法中,構(gòu)建加權(quán)PPI網(wǎng)絡(luò)時(shí),僅僅考慮節(jié)點(diǎn)度即網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),沒(méi)有融合生物信息,考慮構(gòu)建的加權(quán)PPI 網(wǎng)絡(luò)比較單一,使得挖掘聚類(lèi)效果不佳。在ICMDS 算法中,基于邊聚集系數(shù)和皮爾遜相關(guān)系數(shù),在計(jì)算相互作用的功能相似性時(shí)引入了自定義的參數(shù),導(dǎo)致挖掘效果受參數(shù)的影響比較大;在OCG、BMM、ADM和BN-LGQ算法中,僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識(shí)別出重疊和規(guī)模較小的復(fù)合物。而本文是綜合考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和生物基因表達(dá)信息,基于邊點(diǎn)聚集系數(shù)和皮爾遜相關(guān)系數(shù)來(lái)構(gòu)建加權(quán)網(wǎng)絡(luò);同時(shí)根據(jù)節(jié)點(diǎn)權(quán)重選擇種子節(jié)點(diǎn),遍歷種子節(jié)點(diǎn)的鄰域,利用蛋白附著度來(lái)形成初始模塊;最后利用改進(jìn)的模塊度函數(shù)合并有重疊的模塊,可以較為精確和快速地挖掘出蛋白質(zhì)復(fù)合物。因此,本文提出的算法的聚類(lèi)效果較好。

        (2)聚類(lèi)效果的比較分析

        為了評(píng)估本文提出的IWPC-MF 算法的聚類(lèi)效果,將本文算法與其他8種算法挖掘的Elongator holoenzyme復(fù)合物可視化,對(duì)比分析聚類(lèi)效果,聚類(lèi)聚類(lèi)結(jié)果的對(duì)比如圖10所示。

        圖10 各個(gè)算法的復(fù)合物挖掘可視化比較圖

        圖10 顯示了不同算法檢測(cè)到的Elongator holoenzyme復(fù)合物結(jié)果,圖(a)是該標(biāo)準(zhǔn)復(fù)合物所包含的蛋白質(zhì)相互作用情況;圖(b)是本文算法的檢測(cè)結(jié)果;圖(c)是GENA 算法的檢測(cè)結(jié)果;圖(d)是算法WCOACH 的檢測(cè)結(jié)果;圖(e)是IMHRC算法的檢測(cè)結(jié)果;圖(f)是算法ICMDS的檢測(cè)結(jié)果;圖(g)是OCG算法的檢測(cè)結(jié)果;圖(h)是BMM算法的檢測(cè)結(jié)果;圖(i)是ADM算法的檢測(cè)結(jié)果;圖(j)是BN-LGQ 算法的檢測(cè)結(jié)果。通過(guò)圖10顯示,本文算法能夠準(zhǔn)確地識(shí)別蛋白質(zhì)復(fù)合物;GENA算法識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6個(gè)蛋白質(zhì),但是也包含了2 個(gè)非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);算法WCOACH 識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的5 個(gè)蛋白質(zhì);算法IMHRC識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6個(gè)蛋白質(zhì),但是也包含了3 個(gè)非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);ICMDS算法也正確識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6個(gè)蛋白質(zhì);OCG 算法識(shí)別出標(biāo)準(zhǔn)復(fù)合物,但是也包含了4 個(gè)非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì);BMM算法識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6 個(gè)蛋白質(zhì),但是也包含了5 個(gè)非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì);ADM算法識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6 個(gè)蛋白質(zhì),但是包含了4 個(gè)非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);BN-LGQ 算法識(shí)別出標(biāo)準(zhǔn)復(fù)合物中的6 個(gè)蛋白質(zhì),但是也包含了1個(gè)非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì)。實(shí)驗(yàn)結(jié)果表明,本文算法挖掘的蛋白質(zhì)復(fù)合物聚類(lèi)效果較好。這是因?yàn)?,本文通過(guò)蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院突虮磉_(dá)信息來(lái)構(gòu)建加權(quán)網(wǎng)絡(luò),可以降低假陽(yáng)性和噪聲數(shù)據(jù)的負(fù)面影響;同時(shí)根據(jù)節(jié)點(diǎn)權(quán)重選擇種子節(jié)點(diǎn),遍歷種子節(jié)點(diǎn)的鄰域,利用蛋白質(zhì)附著度來(lái)形成初始模塊,綜合考慮蛋白質(zhì)復(fù)合物是稠密且內(nèi)部緊密連接的特性,以及蛋白質(zhì)復(fù)合物成簇出現(xiàn)和高度共表達(dá)的特性;將得到的初始模塊利用改進(jìn)的模塊度函數(shù)進(jìn)行合并,充分考慮到蛋白質(zhì)復(fù)合物的重疊性以及規(guī)模較小的特性,同時(shí)也避免算法重復(fù)的挖掘過(guò)程。實(shí)驗(yàn)結(jié)果表明,本文算法在識(shí)別蛋白質(zhì)復(fù)合物上具有較好的聚類(lèi)效果。

        (3)功能富集的比較分析

        為了測(cè)試算法識(shí)別的復(fù)合物的生物學(xué)意義,采用復(fù)合物的低P-value 值的功能富集分析。 P-value 值越小表明該復(fù)合物具有很高的統(tǒng)計(jì)學(xué)意義。若一個(gè)模塊的P-value <0.01,則認(rèn)為這個(gè)復(fù)合物是顯著的[29]。顯著的復(fù)合物數(shù)量在識(shí)別出的復(fù)合物總數(shù)中所占的比例可以很好地評(píng)價(jià)各個(gè)算法的整體性。具體各個(gè)算法性能比較如表3所示。

        表4 IWPC-MF算法識(shí)別的復(fù)合物實(shí)例

        表3 各個(gè)算法識(shí)別的復(fù)合物的顯著性統(tǒng)計(jì)信息

        在表3中,PM 表示算法識(shí)別出的復(fù)合物總數(shù),SC表示具有生物顯著意義的蛋白質(zhì)復(fù)合物數(shù)目。IWPCMF算法識(shí)別的復(fù)合物數(shù)目中顯著性復(fù)合物的比例達(dá)到85.29%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、AD 和BN-LGQ 算法分別提高了83.22%、14.81%、73.42%、3.19%、82.24%、70.58%、77.28%和53.62%。由此可見(jiàn),IWPC-MF 算法識(shí)別出的復(fù)合物具有很強(qiáng)的生物統(tǒng)計(jì)學(xué)意義。這是因?yàn)楸疚乃惴ㄔ跇?gòu)建加權(quán)網(wǎng)絡(luò)的時(shí)候,綜合考慮網(wǎng)絡(luò)的拓?fù)涮匦院突蚬脖磉_(dá)程度,同時(shí)根據(jù)蛋白質(zhì)附著度利用種子節(jié)點(diǎn)形成初始模塊,最后綜合考慮復(fù)合物的重疊性和規(guī)模較小的性質(zhì),利用基于緊密度的模塊度函數(shù)實(shí)現(xiàn)復(fù)合物的挖掘。最終導(dǎo)致聚類(lèi)效果較好,執(zhí)行效率高,挖掘的生物蛋白質(zhì)復(fù)合物更具有生物統(tǒng)計(jì)意義。

        表4具體給出本文IWPC-MF算法識(shí)別出的復(fù)合物實(shí)例,其中OA 表示算法識(shí)別復(fù)合物的匹配率,OM 表示的是正確匹配的蛋白質(zhì)個(gè)數(shù),Predicted protein 表示組成復(fù)合物的所有蛋白質(zhì),加粗部分表示被匹配的蛋白質(zhì)。從表4 可以看出,當(dāng)P-value=2.22E-18 時(shí),本文算法識(shí)別的NatC 復(fù)合物的匹配率達(dá)到了0.82,正確匹配的蛋白質(zhì)個(gè)數(shù)是9,這是因?yàn)閅GR134W和YNL288W蛋白質(zhì)與復(fù)合物內(nèi)部連接比較松散。由此可見(jiàn),IWPCMF算法識(shí)別的蛋白質(zhì)復(fù)合物效果更好。

        5 結(jié)束語(yǔ)

        本文在結(jié)合邊點(diǎn)聚集系數(shù)與基因表達(dá)數(shù)據(jù)構(gòu)建的加權(quán)蛋白質(zhì)網(wǎng)絡(luò)基礎(chǔ)上,提出一種基于模塊度函數(shù)的加權(quán)蛋白質(zhì)復(fù)合物識(shí)別算法IWPC-MF?;诠?jié)點(diǎn)權(quán)重選取種子節(jié)點(diǎn),遍歷種子的鄰居節(jié)點(diǎn),設(shè)計(jì)節(jié)點(diǎn)間的相似度度量和蛋白質(zhì)附著度來(lái)獲取初始聚類(lèi)模塊;設(shè)計(jì)基于緊密度的蛋白質(zhì)復(fù)合物模塊度函數(shù)來(lái)合并初始模塊,并最終完成復(fù)合物的識(shí)別。為了評(píng)估算法的性能,本文將IWPC-MF算法與其他8種算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明,IWPC-MF 算法具有更高的準(zhǔn)確率、召回率,識(shí)別的復(fù)合物具有更強(qiáng)的生物統(tǒng)計(jì)意義。今后可以將IWPC-MF算法應(yīng)用于疾病預(yù)測(cè)和關(guān)鍵蛋白質(zhì)識(shí)別等相關(guān)研究中。

        国产在线视频一区二区天美蜜桃 | 亚洲中文无码av永久| 农村欧美丰满熟妇xxxx| 亚洲男人的天堂网站| 国产亚洲精品综合99久久| 国产免费一区二区在线视频| 青青草国产精品一区二区| 这里有精品可以观看| 亚洲av综合色区在线观看| 精品一区二区三区人妻久久福利| 精品久久久久久久久午夜福利| 好大好硬好爽免费视频| 亚洲欧洲美洲无码精品va| 久久久熟女一区二区三区| 青娱乐极品视觉盛宴国产视频| 免费av片在线观看网站| 中文字幕日韩精品美一区二区三区 | 亚洲av高清在线观看一区二区| 色欲av亚洲一区无码少妇| 国产亚洲欧美另类久久久| 久草中文在线这里只有精品| 久久亚洲精品成人av无码网站| 亚洲av无码资源在线观看| 日韩精品免费在线视频| 一区在线视频免费播放| 2021国产精品国产精华| 国产精品美女久久久久久大全| 亚洲香蕉久久一区二区| 日韩大片高清播放器大全| 男人边吃奶边做好爽免费视频| 大伊香蕉精品视频一区| 色播视频在线观看麻豆| 国产在线观看无码免费视频| 狠狠久久精品中文字幕无码| 久久精品国产福利亚洲av| 久久久亚洲av波多野结衣| 中文字幕人妻偷伦在线视频| 亚洲区一区二区中文字幕| 美腿丝袜诱惑一区二区| 韩国无码av片在线观看网站| 欧美日韩高清一本大道免费|