亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的動態(tài)PPI網(wǎng)絡(luò)構(gòu)建與蛋白質(zhì)功能預(yù)測算法

        2020-12-16 02:41:08羅愛靜瞿昊宇許家祺
        計(jì)算機(jī)工程 2020年12期
        關(guān)鍵詞:蛋白質(zhì)動態(tài)預(yù)測

        李 鵬,閔 慧,羅愛靜,瞿昊宇,伊 娜,許家祺

        (1.中南大學(xué)湘雅三醫(yī)院,長沙 410006; 2.湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410208; 3.醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)),長沙 410006; 4.湖南信息職業(yè)技術(shù)學(xué)院 軟件學(xué)院,長沙 410200)

        0 概述

        隨著人類基因組計(jì)劃以及多個物種全基因組測序工作的完成,目前生命科學(xué)研究的重點(diǎn)已經(jīng)轉(zhuǎn)變?yōu)榈鞍捉M學(xué)[1]。蛋白質(zhì)是指由多種氨基酸按照某一規(guī)律采用多肽鍵所構(gòu)成的一種多分子化合物,其是生物體中細(xì)胞的重要成分,也是生物體完成生命活動最重要的物質(zhì)基礎(chǔ)[2]。一個生物體內(nèi)所有蛋白質(zhì)的相互作用構(gòu)成了蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-Protein Interaction Network,PPIN),簡稱蛋白質(zhì)網(wǎng)絡(luò)[3]。值得注意的是,蛋白質(zhì)之間的相互作用是動態(tài)的,它會隨著時間環(huán)境、蛋白質(zhì)的存在和降解、細(xì)胞的不同生理狀態(tài)等因素的變化而變化。但由于PPIN本身的復(fù)雜性、可利用蛋白質(zhì)相互作用數(shù)據(jù)的不完全性和噪聲等諸多因素,準(zhǔn)確且高效地衡量蛋白質(zhì)相互作用的動態(tài)性還存在很多挑戰(zhàn)[4],這也直接限制了PPIN領(lǐng)域內(nèi)其他問題(如復(fù)合物挖掘[5]、關(guān)鍵蛋白識別[6]、網(wǎng)絡(luò)比對[7]等)的研究進(jìn)展。

        文獻(xiàn)[8]從表達(dá)動態(tài)性、多狀態(tài)下表達(dá)及相關(guān)性變化和時空動態(tài)變化3個角度討論了動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題,在此基礎(chǔ)上介紹動態(tài)蛋白質(zhì)網(wǎng)絡(luò)在復(fù)合物識別、疾病基因檢測等方面的應(yīng)用,并指出未來動態(tài)蛋白質(zhì)網(wǎng)絡(luò)所面臨的挑戰(zhàn)。文獻(xiàn)[9]考慮到酵母物種中蛋白質(zhì)的基因表達(dá)具有時間周期性這一特性,將PPI網(wǎng)絡(luò)數(shù)據(jù)和時間序列基因表達(dá)數(shù)據(jù)相結(jié)合構(gòu)建動態(tài)蛋白質(zhì)交互網(wǎng)絡(luò)(Dynamic Protein Interaction Network,D-PIN),并提出一種蛋白質(zhì)功能預(yù)測方法。該文主要通過基于時間的采樣來構(gòu)建D-PIN,但對不同物種而言,如何合理地選擇一個合適的時機(jī)進(jìn)行采樣仍缺乏理論指導(dǎo)。文獻(xiàn)[10]針對蛋白質(zhì)功能標(biāo)簽數(shù)量龐大且標(biāo)簽關(guān)聯(lián)性較高的特點(diǎn),提出一種基于布爾矩陣分解的蛋白質(zhì)功能預(yù)測框架PFP-BMD,然而該框架在降低數(shù)據(jù)噪聲影響方面的效果欠佳。文獻(xiàn)[11]提出一種基于多關(guān)系網(wǎng)絡(luò)中關(guān)鍵功能模塊挖掘的蛋白質(zhì)功能預(yù)測算法PEFM。該算法以高內(nèi)聚低耦合的原則尋找關(guān)鍵功能模塊,并利用這些功能模塊中的鄰居蛋白質(zhì)信息來注釋未知蛋白質(zhì)的功能。然而由于需要在多個關(guān)系網(wǎng)絡(luò)中進(jìn)行查找,一旦蛋白質(zhì)之間的相互作用發(fā)生改變(如蛋白質(zhì)降解),則預(yù)測效果直線下降,不適用于動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。文獻(xiàn)[12]針對現(xiàn)有蛋白質(zhì)功能預(yù)測方法預(yù)測精度不高、易受數(shù)據(jù)噪聲影響等問題,提出一種基于機(jī)器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法HPMM,主要采用層次聚類、主成分分析和多層感知器等技術(shù)來實(shí)現(xiàn)功能預(yù)測。然而該方法在訓(xùn)練多層感知器過程中需要估計(jì)的參數(shù)較多,時間復(fù)雜度較高,且僅適用于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)。

        針對以上方法的不足,本文對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題進(jìn)行研究,基于進(jìn)化圖提出一種改進(jìn)的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,在此基礎(chǔ)上設(shè)計(jì)蛋白質(zhì)功能預(yù)測算法IPA-PF,并通過仿真實(shí)驗(yàn)驗(yàn)證算法的有效性。

        1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法

        由于蛋白質(zhì)之間的相互作用并不是一成不變的,因此本文采用進(jìn)化圖[13]對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模。為便于描述,給出建模過程中用到的定義:

        定義2(蛋白質(zhì)的活性周期) 對于任意給定的一個蛋白質(zhì)P,如果在一個給定的時間周期T內(nèi)P的基因表達(dá)平均值u(P)都不低于閾值ε,則稱T(P)為P的活性周期。

        1.1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建

        根據(jù)上述定義,動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建主要包含以下3個步驟:

        步驟1根據(jù)蛋白質(zhì)基因表達(dá)數(shù)據(jù)的平均值計(jì)算所有蛋白質(zhì)的活性周期。

        步驟2根據(jù)所有蛋白質(zhì)的不同活性周期劃分出多個時間片,擁有相同活性周期的蛋白質(zhì)屬于同一個時間片。對于處于同一時間片的所有蛋白質(zhì),根據(jù)它們之間的連接強(qiáng)度構(gòu)成一個蛋白質(zhì)子網(wǎng)。

        步驟3對步驟2得到的各個時間片的子網(wǎng),采用進(jìn)化圖進(jìn)行建模,最終得到一個全局的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。

        1.1.1 活性周期計(jì)算

        (1)

        (2)

        進(jìn)一步地,本文采用F(P)反映蛋白質(zhì)P基因表達(dá)曲線的波動性:

        (3)

        可以看出,標(biāo)準(zhǔn)差越大,F越小,F的范圍為[0,1]。活性閾值ε的選取參考文獻(xiàn)[14]中提出的3-sigma準(zhǔn)則,如下所示:

        ε=u(P)×F(P)+(u(P)+3σ(P))×(1-F(P))

        (4)

        如果在某一時間片Tx內(nèi)有u(Pi)≥ε,i=1,2,…,k,則認(rèn)為這k個蛋白質(zhì)具有相同的活性周期,可用于構(gòu)建同一個蛋白質(zhì)子網(wǎng)。通過活性周期的計(jì)算可以得到一個關(guān)于所有蛋白質(zhì)活性周期的集合S_T={T1,T2,…,Tk}。本文根據(jù)S_T中元素的個數(shù)決定劃分出時間片的個數(shù),即構(gòu)建子網(wǎng)的個數(shù)。

        1.1.2 蛋白質(zhì)子網(wǎng)構(gòu)建

        以某一個子網(wǎng)為例來闡述其構(gòu)建過程,其余子網(wǎng)的構(gòu)建與此類似。設(shè)P_S={P1,P2,…,Pn}表示具有相同活性周期(同一時間片)的所有蛋白質(zhì)集合,要在這n個蛋白質(zhì)之間構(gòu)造一個子網(wǎng),即要找到n個蛋白質(zhì)之間的相互作用關(guān)系。本文通過考查這些蛋白質(zhì)之間的連接強(qiáng)度來判斷它們之間是否具有相互作用,如果認(rèn)為它們之間有相互作用,則在這兩個蛋白質(zhì)之間添加一條邊。

        連接強(qiáng)度主要從兩方面衡量,即直接連接數(shù)和間接連接數(shù)。直接連接數(shù)主要是指兩個蛋白質(zhì)之間擁有的共同鄰居節(jié)點(diǎn)數(shù),如果兩個蛋白質(zhì)有更多共同鄰居,則表明這兩個節(jié)點(diǎn)之間的關(guān)系更為緊密,更有可能發(fā)生相互作用;間接連接數(shù)指兩個蛋白質(zhì)之間直接相連的邊數(shù)和節(jié)點(diǎn)的度最小值的比值,它也可以用來衡量蛋白質(zhì)之間相互作用的強(qiáng)弱。因此,連接強(qiáng)度的定義如下所示:

        定義3(連接強(qiáng)度) 蛋白質(zhì)Pi和蛋白質(zhì)Pj之間的連接強(qiáng)度JS(Pi,Pj)計(jì)算公式如下:

        (5)

        1.2 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型

        動態(tài)蛋白質(zhì)網(wǎng)絡(luò)與靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)的本質(zhì)區(qū)別在于網(wǎng)絡(luò)拓?fù)湟驎r間、外界環(huán)境等因素的動態(tài)變化而導(dǎo)致連通性動態(tài)變化。如何利用合適的模型來刻畫這種動態(tài)性是對蛋白質(zhì)網(wǎng)絡(luò)準(zhǔn)確建模的關(guān)鍵。考慮到蛋白質(zhì)的基因表達(dá)值具有時間周期性,本文首先將整個蛋白質(zhì)網(wǎng)絡(luò)的運(yùn)行時間劃分為多個時間片,刻畫出每個時間片內(nèi)的連通情況,然后利用進(jìn)化圖的時間演化特性將連續(xù)時間片內(nèi)的多個子圖構(gòu)建為運(yùn)行時間內(nèi)的進(jìn)化圖模型。

        圖1給出了蛋白質(zhì)網(wǎng)絡(luò)工作過程中不同時刻節(jié)點(diǎn)相互作用的動態(tài)變化情況。其中,頂點(diǎn)是蛋白質(zhì),邊表示蛋白質(zhì)之間的相互作用。假設(shè)T1~T4為整個網(wǎng)絡(luò)生命周期內(nèi)任意4個連續(xù)的時間片,分別可以構(gòu)建得到這4個連續(xù)時間片內(nèi)的網(wǎng)絡(luò)快照。

        圖1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)連續(xù)時間片快照Fig.1 Snapshots of continuous time slices ofdynamic protein network

        根據(jù)定義1,將圖1所示的連續(xù)時間片快照建模為進(jìn)化圖模型。圖1所示時間片快照中的蛋白質(zhì)(A,B,C,D,E,F,G,H,I,J,K,L)對應(yīng)于定義1中的頂點(diǎn)集合V,邊集合對應(yīng)于定義1中的邊集合E,時間序列集合(T1,T2,T3,T4)對應(yīng)于定義1中的有序時間序列TS。建模過程如下:

        1)構(gòu)造T1時間片內(nèi)蛋白質(zhì)網(wǎng)絡(luò)連通情況所對應(yīng)的進(jìn)化圖子圖G1,并在新出現(xiàn)的每條邊上增加時間序列元素T1。

        2)在G1的基礎(chǔ)上累加構(gòu)造T2時間片內(nèi)蛋白質(zhì)網(wǎng)絡(luò)連通情況所對應(yīng)的進(jìn)化圖子圖G2,并在T2時間片內(nèi)出現(xiàn)的邊上增加時間序列元素T2。

        3)以此類推,直到全部的時間片所對應(yīng)的進(jìn)化圖子圖構(gòu)造完成,得到的進(jìn)化圖模型如圖2所示。其中,每條邊上的數(shù)字序列代表該相互作用存在對應(yīng)的時間序列,標(biāo)識該相互作用在第幾個時間片中出現(xiàn),例如蛋白質(zhì)A和蛋白質(zhì)D只在第1個、第2個和第4個時間片內(nèi)存在相互作用。

        圖2 基于進(jìn)化圖的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型Fig.2 Dynamic protein network model based onevolutionary graph

        本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法描述如下:

        算法1動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法

        輸入蛋白質(zhì)相互作用數(shù)據(jù),閾值th,基因表達(dá)數(shù)據(jù)

        步驟1根據(jù)所有蛋白質(zhì)的基因表達(dá)數(shù)據(jù),結(jié)合式(1)~式(3)計(jì)算所有蛋白質(zhì)的活性周期T(P),然后對計(jì)算結(jié)果進(jìn)行降序排列并采用列表存儲,記為:T(P)=[T1(P),T2(P),…,Tk(P)]。

        步驟2根據(jù)蛋白質(zhì)的活性周期構(gòu)造子網(wǎng):

        ForTi(P),i=1,2,…,kinT(P):

        在Ti(P)中計(jì)算JS(Pi,Pj);

        步驟3重復(fù)執(zhí)行步驟2,直到列表T(P)為空,算法結(jié)束。

        2 蛋白質(zhì)功能預(yù)測算法

        在上文構(gòu)建得到的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)基礎(chǔ)上,提出一種改進(jìn)的蛋白質(zhì)未知功能預(yù)測算法IPA-PF。首先對待預(yù)測功能的蛋白質(zhì)在T個蛋白質(zhì)子網(wǎng)中出現(xiàn)的鄰居節(jié)點(diǎn)進(jìn)行統(tǒng)計(jì),然后根據(jù)其鄰居蛋白質(zhì)的功能已知與否,分情況進(jìn)行處理。

        1)如果待預(yù)測功能的蛋白質(zhì)其所有鄰居節(jié)點(diǎn)的全部功能或部分功能已知,則根據(jù)待預(yù)測功能的蛋白質(zhì)與鄰居蛋白質(zhì)之間的連接強(qiáng)度來篩選參與功能預(yù)測的鄰居蛋白質(zhì)數(shù)目,然后通過計(jì)算候選功能得分和排序等操作實(shí)現(xiàn)蛋白質(zhì)的未知功能預(yù)測。相關(guān)定義及具體過程如下:

        定義4(功能關(guān)聯(lián)得分) 設(shè)SG={G1,G2,…,GT}是基于進(jìn)化圖構(gòu)建得到的T個蛋白質(zhì)子網(wǎng),Gi=(Vi,Ei,ti)。α是一個待預(yù)測的功能未知的蛋白質(zhì),β是一個功能已知的蛋白質(zhì),則β在預(yù)測α功能時的功能關(guān)聯(lián)得分為:

        (6)

        設(shè)NS={P1,P2,…,Pn}是根據(jù)式(6)預(yù)測α的功能時形成的鄰居蛋白質(zhì)集合,F={f1,f2,…,fm}是NS集合中所有蛋白質(zhì)的已知功能集合。設(shè)fi是F中某一蛋白質(zhì)的候選功能,fi的得分為:

        (7)

        其中,j=1,2,…,m。對NS中所有蛋白質(zhì)的候選功能根據(jù)式(7)的得分進(jìn)行降序排列,并從中選取前R項(xiàng)功能作為蛋白質(zhì)α的未知功能列表。本文算法統(tǒng)計(jì)NS中每一個蛋白質(zhì)擁有的功能注釋數(shù)量,取其中所有蛋白質(zhì)的功能注釋數(shù)量的最小值作為R的取值。最后,將各個鄰居蛋白質(zhì)的已知功能注釋的交集作為待預(yù)測蛋白質(zhì)α的功能。例如,對于α的鄰居蛋白質(zhì){P1,P2,P3,P4}而言,蛋白質(zhì)P1擁有功能{f2,f3,f7,f8},蛋白質(zhì)P2擁有功能{f1,f2,f3,f6},蛋白質(zhì)P3擁有功能{f2,f3,f5,f9},蛋白質(zhì)P4擁有功能{f2,f3,f11,f13},因此,可以預(yù)測α擁有的功能為{f2,f3}。

        2)如果待預(yù)測功能的蛋白質(zhì)其所有鄰居蛋白質(zhì)節(jié)點(diǎn)的全部功能未知,則通過構(gòu)建一個三層神經(jīng)網(wǎng)絡(luò)[16](包含輸入層、隱藏層和輸出層)模型來進(jìn)行功能預(yù)測,如圖3所示。

        圖3 基于三層神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測過程Fig.3 Process of protein function prediction based onthree-layer neural network

        本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)蛋白質(zhì)未知功能預(yù)測算法描述如下:

        算法2蛋白質(zhì)未知功能預(yù)測算法IPA-PF

        輸出未知蛋白的功能注釋

        步驟1對于每一個待預(yù)測功能的蛋白質(zhì)α,統(tǒng)計(jì)其在SG中出現(xiàn)的鄰居蛋白質(zhì)節(jié)點(diǎn),記為集合NS={P1,P2,…,Pk}。

        步驟2如果NS中蛋白質(zhì)的全部功能或部分功能已知,則:

        1)根據(jù)式(6)和式(7)計(jì)算NS中所有蛋白質(zhì)的候選功能得分,并對得分進(jìn)行降序排列,取前R項(xiàng)。

        2)計(jì)算NS中所有蛋白質(zhì)前R項(xiàng)功能的交集,然后轉(zhuǎn)步驟4。

        步驟3如果NS中蛋白質(zhì)的全部功能未知,則訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)功能預(yù)測:

        1)數(shù)據(jù)預(yù)處理:采用丟棄、填充、替換或去重等操作對蛋白質(zhì)的特征做歸一化處理。

        2)在(0,1)區(qū)間內(nèi)隨機(jī)初始化網(wǎng)絡(luò)中的所有連接權(quán)值和閾值。

        3)根據(jù)蛋白質(zhì)的特征,采用累積誤差逆?zhèn)鞑ニ惴╗18]進(jìn)行訓(xùn)練,得到一個連接權(quán)值與閾值確定的三層前饋神經(jīng)網(wǎng)絡(luò)(3-FNN)。

        4)采用3-FNN進(jìn)行蛋白質(zhì)功能預(yù)測。

        步驟4輸出未知蛋白質(zhì)的功能注釋。

        3 實(shí)驗(yàn)

        實(shí)驗(yàn)利用Python語言實(shí)現(xiàn)本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和蛋白質(zhì)未知功能預(yù)測算法IPA-PF。為驗(yàn)證動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法的合理性和IPA-PF的有效性,在多個數(shù)據(jù)集上將IPA-PF算法與目前較為典型的蛋白質(zhì)功能預(yù)測算法D-PIN[9]、PFP-BMD[10]、PEFM[11]和HPMM[12]進(jìn)行性能比較。在一臺8核16線程的計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)。其中,CPU型號為Intel Core i9-9960X@3.10 GHz,內(nèi)存為16 GB,操作系統(tǒng)為Ubuntu 16.04 LTS 64位系統(tǒng),采用GPU加速技術(shù)和TensorFlow框架來訓(xùn)練文中用到的神經(jīng)網(wǎng)絡(luò),GPU型號為GeForce RTX 2070。

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文采用DIP數(shù)據(jù)集、MIPS數(shù)據(jù)集、GO數(shù)據(jù)庫[19]和CYC數(shù)據(jù)集[20]作為測試數(shù)據(jù)集。其中,DIP數(shù)據(jù)集記錄了通過生物實(shí)驗(yàn)測定的蛋白質(zhì)之間的相互作用,它將來自各種來源的信息相互結(jié)合,形成一組單一、一致的蛋白質(zhì)-蛋白質(zhì)相互作用。本文使用的DIP數(shù)據(jù)是DIP20170205版本,選取其中的酵母蛋白質(zhì)網(wǎng)絡(luò)來進(jìn)行實(shí)驗(yàn)。用UniProtKB/Swiss-Prot[21]對PPI網(wǎng)絡(luò)中的蛋白質(zhì)進(jìn)行ID轉(zhuǎn)換,然后去除網(wǎng)絡(luò)中自相互作用、重復(fù)相互作用及無法轉(zhuǎn)換的蛋白質(zhì)后,該網(wǎng)絡(luò)中還有4 995個蛋白質(zhì)和21 554條邊。MIPS數(shù)據(jù)集源自慕尼黑蛋白質(zhì)序列信息中心,本文采用和上述相同的方法進(jìn)行數(shù)據(jù)預(yù)處理,最終得到的相互作用網(wǎng)絡(luò)包括4 546個酵母蛋白質(zhì)和12 319對可靠的相互作用。下載基因本體(Gene Ontology,GO)數(shù)據(jù)庫的最新版本來測試不同算法在蛋白質(zhì)功能預(yù)測方面的性能。其中包含細(xì)胞組件、分子功能和生物過程3個獨(dú)立的子本體。為保證功能預(yù)測的全面性和高效性,本文保留未被GO術(shù)語注釋的蛋白質(zhì),并且保留功能注釋數(shù)目不超過200個蛋白質(zhì)的GO Term來進(jìn)行算法驗(yàn)證。此外,將CYC2008作為基準(zhǔn)數(shù)據(jù)集來評估蛋白質(zhì)復(fù)合物的識別結(jié)果。該數(shù)據(jù)集中包含408個通過生物方法預(yù)測到的蛋白質(zhì)復(fù)合物,每個復(fù)合物包含兩個或兩個以上蛋白質(zhì)。

        3.2 評價指標(biāo)

        本文采用以下指標(biāo)來評價不同算法的性能:

        1)查全率、查準(zhǔn)率和F-measure值。查全率(Recall)為預(yù)測的蛋白質(zhì)功能與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋的最大匹配數(shù)目與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋總數(shù)的比值,查準(zhǔn)率(Precision)為預(yù)測的蛋白質(zhì)功能與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋的最大匹配數(shù)目與實(shí)驗(yàn)測得的蛋白質(zhì)功能注釋總數(shù)的比值,這兩個指標(biāo)的計(jì)算公式如下:

        (8)

        (9)

        其中:ER表示本文算法預(yù)測的蛋白質(zhì)功能;RR表示實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋;MNM(ER,RR)表示ER和RR之間的最大匹配數(shù)目。綜合考慮查全率和查準(zhǔn)率兩方面,可得F-measure的計(jì)算公式為:

        (10)

        2)魯棒性。目前能夠獲得的蛋白質(zhì)相互作用數(shù)據(jù)都在一定程度上存在假陽性和假陰性的問題。因此,一個優(yōu)秀的蛋白質(zhì)構(gòu)建算法和功能預(yù)測算法應(yīng)對數(shù)據(jù)中存在的假陽性和假陰性具有很好的魯棒性。

        3)時間開銷。在多個數(shù)據(jù)集上衡量動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和蛋白質(zhì)功能預(yù)測算法運(yùn)行所耗費(fèi)的時間,比較不同算法的運(yùn)行效率。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        3.3.1 IPA-PF算法與其他算法的比較

        為全面分析本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和IPA-PF算法的性能,將IPA-PF算法與D-PIN[9]、PFP-BMD[10]、PEFM[11]和HPMM[12]在DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集上進(jìn)行比較。采用十折交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn)評估,即將DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集分別分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),將1份作為測試數(shù)據(jù)。為進(jìn)一步降低實(shí)驗(yàn)誤差,重復(fù)進(jìn)行100次實(shí)驗(yàn),取其平均值作為最終的結(jié)果。表1和表2分別列出了不同算法在DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集上的性能比較。

        表1 不同算法在DIP數(shù)據(jù)集上的性能比較Table 1 Performance comparison of different algorithmson DIP dataset

        表2 不同算法在MIPS數(shù)據(jù)集上的性能比較Table 2 Performance comparison of different algorithmson MIPS dataset

        從表1和表2的結(jié)果可以看出,本文算法在兩種數(shù)據(jù)集上的查全率和查準(zhǔn)率都要優(yōu)于其他4種算法,并且在DIP數(shù)據(jù)集上,本文算法的F-measure值較HPMM、D-PIN、PEFM和PFP-BMD分別提高約40%、30%、26%和16%,在MIPS數(shù)據(jù)集上,本文算法的F-measure值較HPMM、D-PIN、PEFM和PFP-BMD分別提高約39%、26%、25%和11%,主要原因如下:

        1)本文算法在構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的過程中考慮了蛋白質(zhì)基因表達(dá)的活性周期,能夠更好地模擬蛋白質(zhì)“合成-降解-凋亡”這一個生物過程,避免了網(wǎng)絡(luò)構(gòu)建的片面性。

        2)通過引入連接強(qiáng)度這一概念,從物理位置上對蛋白質(zhì)節(jié)點(diǎn)之間的相互作用進(jìn)行評價,從而有效過濾了蛋白質(zhì)相互作用數(shù)據(jù)中所隱含的假陽性和假陰性。

        3)在未知蛋白的功能預(yù)測方面,本文對D-PIN算法的不足之處進(jìn)行了改進(jìn),對待預(yù)測蛋白質(zhì)節(jié)點(diǎn)的鄰居蛋白質(zhì)節(jié)點(diǎn)分情況(有功能注釋/無功能注釋)進(jìn)行處理,并考慮蛋白質(zhì)的多種特征來訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行功能預(yù)測,解決了當(dāng)鄰居蛋白質(zhì)節(jié)點(diǎn)的功能集合全部未知時無法進(jìn)行預(yù)測這一難題,因此,本文算法能夠更全面地預(yù)測蛋白質(zhì)的未知功能。

        3.3.2 參數(shù)th對蛋白質(zhì)復(fù)合物識別性能的影響分析

        在動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建過程中,參數(shù)th對于衡量兩個蛋白質(zhì)之間是否具有相互作用起到關(guān)鍵作用,下面以CYC2008數(shù)據(jù)集為實(shí)驗(yàn)對象,測試th取不同數(shù)值時構(gòu)建出的網(wǎng)絡(luò)在蛋白質(zhì)復(fù)合物上的識別性能,選取兩種典型的蛋白質(zhì)復(fù)合物識別算法(MPC-TPW[22]和DPC-NADPIN[23])來分析本文構(gòu)建網(wǎng)絡(luò)算法的可靠性,實(shí)驗(yàn)結(jié)果如圖4所示??梢钥闯?隨著th取值增大,MPC-TP算法和DPC-NADPIN算法的F-measure值呈現(xiàn)不斷增加的趨勢,這表明兩種算法能夠準(zhǔn)確識別的蛋白質(zhì)復(fù)合物數(shù)量越來越多;但在th取值達(dá)到0.7之后,MPC-TP算法和DPC-NADPIN算法的性能趨于穩(wěn)定,這表明本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法對于輸入?yún)?shù)不敏感,能夠應(yīng)用到不同的蛋白質(zhì)復(fù)合物識別算法中。

        圖4 不同蛋白質(zhì)復(fù)合物識別算法的參數(shù)敏感性比較Fig.4 Parameter sensitivity comparison of differentprotein complex recognition algorithms

        3.3.3 魯棒性分析

        測試IPA-PF算法對于包含假陰性和假陽性的蛋白質(zhì)相互作用數(shù)據(jù)的魯棒性。以DIP數(shù)據(jù)集為測試用例,在實(shí)驗(yàn)中通過隨機(jī)增加和刪除一定比例的邊來模擬蛋白質(zhì)網(wǎng)絡(luò)的假陽性和假陰性。其中:假陽性是指能夠被實(shí)驗(yàn)技術(shù)檢測到但在細(xì)胞中并不存在的蛋白質(zhì)相互作用;假陰性是指不能被實(shí)驗(yàn)技術(shù)檢測到但在細(xì)胞中確實(shí)存在的蛋白質(zhì)相互作用。以每20個百分點(diǎn)為一個間隔,隨機(jī)地增加邊的比例從20%到100%,共得到5組數(shù)據(jù),從這些具有較高假陽性的數(shù)據(jù)中識別蛋白質(zhì)復(fù)合物,得到IPA-PF算法的查全率和查準(zhǔn)率,如圖5所示。可以看出,隨著假陽性的增強(qiáng),IPA-PF算法預(yù)測蛋白質(zhì)功能的查全率基本保持不變,而查準(zhǔn)率有輕微下降,這表明IPA-PF算法具有較強(qiáng)的抗噪能力,能夠應(yīng)對那些被算法檢測得到但在數(shù)據(jù)集中并不存在的蛋白質(zhì)相互作用。

        圖5 數(shù)據(jù)包含假陽性時IPA-PF算法的性能指標(biāo)Fig.5 Performance indexes of IPA-PF algorithmwith false positive data

        以每20個百分點(diǎn)為一個間隔,隨機(jī)地刪除邊的比例從15%到90%,共得到6組數(shù)據(jù),重復(fù)上述工作,得到IPA-PF算法的查全率和查準(zhǔn)率,如圖6所示??梢钥闯?當(dāng)刪除邊的比例小于45%時,IPA-PF算法預(yù)測蛋白質(zhì)功能的查全率和查準(zhǔn)率基本保持不變;在刪除邊的比例超過40%后,IPA-PF算法的性能開始呈現(xiàn)直線下降趨勢,這是因?yàn)殡S著假陰性的增強(qiáng),數(shù)據(jù)集中那些未被IPA-PF算法檢測到但又真實(shí)存在的相互作用會被大量刪除,理論上會使算法能夠預(yù)測的蛋白質(zhì)功能數(shù)量急劇減少,而IPA-PF算法反映在查全率和查準(zhǔn)率上的變化就是這兩種指標(biāo)直接降低,這也恰好驗(yàn)證了IPA-PF算法對于假陰性具有較好的魯棒性。

        圖6 數(shù)據(jù)包含假陰性時IPA-PF算法的性能指標(biāo)Fig.6 Performance indexes of IPA-PF algorithm withfalse negative data

        3.3.4 不同算法的效率分析

        為進(jìn)一步衡量本文算法的優(yōu)越性,在上述實(shí)驗(yàn)環(huán)境下對不同蛋白質(zhì)功能預(yù)測算法的時間開銷進(jìn)行測試。以DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集作為測試用例,表3給出了不同算法在進(jìn)行蛋白質(zhì)未知功能預(yù)測時的運(yùn)行時間??梢钥闯?IPA-PF算法在兩種數(shù)據(jù)集上的運(yùn)行時間均不超過11 s,低于D-PIN、PEFM和HPMM算法,略高于PFP-BMD算法。但通過上文的實(shí)驗(yàn)分析結(jié)果可知,IPA-PF算法的預(yù)測質(zhì)量遠(yuǎn)超其他預(yù)測算法。從性能折中的角度來看,以目前計(jì)算機(jī)的算力而言,在保證蛋白質(zhì)功能預(yù)測準(zhǔn)確性的前提下,犧牲算法的部分效率完全是可以接受的??傮w而言,本文提出的IPA-PF算法具有較高的運(yùn)行效率,可適用于大規(guī)模的蛋白質(zhì)網(wǎng)絡(luò)。

        表3 不同算法的運(yùn)行時間比較Table 3 Running time comparison ofdifferent algorithms s

        4 結(jié)束語

        蛋白質(zhì)相互作用網(wǎng)絡(luò)是目前蛋白組學(xué)的研究熱點(diǎn)。針對現(xiàn)有蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建和功能預(yù)測方法存在的不足,本文提出一種基于進(jìn)化圖的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,在此基礎(chǔ)上設(shè)計(jì)一種新的蛋白質(zhì)功能預(yù)測算法,并在多個公開的生物數(shù)據(jù)庫上驗(yàn)證算法的有效性。本文研究有利于從微觀層面解釋細(xì)胞內(nèi)蛋白質(zhì)之間的復(fù)雜關(guān)系,為生物學(xué)和醫(yī)學(xué)領(lǐng)域研究者理解生命復(fù)雜網(wǎng)絡(luò)的內(nèi)在組織和生物過程提供了新的途徑,并可用于藥物標(biāo)靶設(shè)計(jì)、疾病診治和預(yù)測等多個方面。下一步將分析影響動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建的諸多因素,并采用深度學(xué)習(xí)技術(shù)對關(guān)鍵蛋白質(zhì)的識別進(jìn)行建模,設(shè)計(jì)基于圖卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)識別算法。

        猜你喜歡
        蛋白質(zhì)動態(tài)預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        國內(nèi)動態(tài)
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        國內(nèi)動態(tài)
        國內(nèi)動態(tài)
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        動態(tài)
        不必預(yù)測未來,只需把握現(xiàn)在
        中文字幕五月久久婷热| 男女啪啪免费体验区| 91热这里只有精品| 久久久久久久波多野结衣高潮| 伊人久久大香线蕉综合网站| 99视频这里有精品| 亚洲av色香蕉一区二区三区蜜桃| 性感熟妇被我玩弄到高潮| 国产手机在线观看一区二区三区| 国产精品区一区二区三在线播放| 国产婷婷色综合av蜜臀av| 欧美激情五月| 国产人妖在线免费观看| 亚洲熟女av在线观看| 久久久久国色av免费观看性色| 亚洲加勒比久久88色综合 | 亚洲精品岛国av一区二区| 欧美老妇多毛xxxxx极瑞视频| 久久精品国产www456c0m| 精品国产福利在线观看网址2022| 亚欧同人精品天堂| 风韵丰满妇啪啪区老老熟女杏吧 | 国产精品自线在线播放| 男女啪啪在线视频网站| 扒开腿狂躁女人爽出白浆| 青青久在线视频免费观看| 国产精品久久1024| 国产伦一区二区三区久久| 免费观看人妻av网站| 中文精品久久久久人妻不卡| 人成午夜免费大片| 无码人妻丰满熟妇区免费| 亚洲日产乱码在线中文字幕| 久久96国产精品久久久| 最近高清中文在线字幕观看| 亚洲av天堂久久精品| 中文字幕国产精品一二三四五区| 天天做天天爱天天综合网2021| 国产精品一区二区 尿失禁| 久久久国产精品ⅤA麻豆百度| 国产精品又爽又粗又猛又黄 |