劉飛
(寶雞文理學(xué)院 物理與光電技術(shù)學(xué)院,陜西 寶雞 721016)
?
一種改進(jìn)的時延動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建算法研究
劉飛
(寶雞文理學(xué)院 物理與光電技術(shù)學(xué)院,陜西 寶雞 721016)
從大規(guī)模實驗數(shù)據(jù)中構(gòu)建的網(wǎng)絡(luò)可以反向發(fā)掘網(wǎng)絡(luò)結(jié)點之間潛在的相互作用關(guān)系,可以更深層次解釋網(wǎng)絡(luò)結(jié)點間復(fù)雜的作用機(jī)理,因此產(chǎn)生了很多網(wǎng)絡(luò)構(gòu)建的理論建模方法。在一些實驗數(shù)據(jù)中某個時間點的樣本值表達(dá)減少或者被敲除,這會影響網(wǎng)絡(luò)構(gòu)建的精度。為了克服這個問題提出了相對變化率的策略來識別結(jié)點間潛在的作用關(guān)系。在時序?qū)嶒灁?shù)據(jù)中,用策略融合時延動態(tài)貝葉斯方法來進(jìn)行網(wǎng)絡(luò)構(gòu)建。可以縮減貝葉斯的搜索空間,以此來獲得較高的網(wǎng)絡(luò)構(gòu)建性能和精度。DREAM(Dialogue for Reverse Engineering Assessments and Methods)競賽項目最早被提出用來嚴(yán)格檢測結(jié)點間網(wǎng)絡(luò)構(gòu)建模型方法的性能和優(yōu)劣。在這個數(shù)據(jù)集上推測出來的網(wǎng)絡(luò)在AUROC(area under the ROC curve)和AUPR (area under the precision recall curve)指標(biāo)上和其它方法進(jìn)行了比較,實驗結(jié)果驗證算法在網(wǎng)絡(luò)構(gòu)建過程中總體性能略勝一籌。
復(fù)雜網(wǎng)絡(luò);網(wǎng)絡(luò)構(gòu)建;相對變化率;時延;貝葉斯網(wǎng)絡(luò)
隨著高通量數(shù)據(jù)的產(chǎn)生和計算機(jī)技術(shù)的發(fā)展,對這些大數(shù)據(jù)的處理和挖掘已經(jīng)成為研究的熱點。一個網(wǎng)絡(luò)可以抽象為由結(jié)點和邊組成的一個圖,結(jié)點表示現(xiàn)實網(wǎng)絡(luò)中的一些研究對象,邊可以理解為結(jié)點之間潛在的相互作用關(guān)系。如在疾病基因網(wǎng)絡(luò)中,一些疾病基因可以看成網(wǎng)絡(luò)中的結(jié)點,基因之間的相互作用關(guān)系可以理解為網(wǎng)絡(luò)中的邊,那么就可以通過網(wǎng)絡(luò)的手段知道哪些基因作用關(guān)系密切,可能會成為致病因素,這就對藥物設(shè)計和疾病治療起到一定的理論意義。因此構(gòu)建的網(wǎng)絡(luò)可以系統(tǒng)地研究網(wǎng)絡(luò)中結(jié)點之間的調(diào)配關(guān)系,為深入挖掘結(jié)點之間的復(fù)雜關(guān)系及作用機(jī)制提供理論模型。
現(xiàn)今已經(jīng)誕生了很多數(shù)學(xué)模型和計算機(jī)方法來推斷網(wǎng)絡(luò)構(gòu)建,這些模型方法主要包括布爾網(wǎng)絡(luò)模型(Boolean networks)[1],常微分方程模型[2],信息論模型[3-4],線性規(guī)劃[5]模型和貝葉斯網(wǎng)絡(luò)模型[6-7]。這些方法能夠?qū)W(wǎng)絡(luò)系統(tǒng)動態(tài)行為提供更深層次的理解,但是構(gòu)建方法的精度對模型中參數(shù)的依賴性非常大,且算法的時間復(fù)雜度非常大,這就使得構(gòu)建大規(guī)模網(wǎng)絡(luò)變得異常困難[8]。由于基因調(diào)控過程的復(fù)雜性、調(diào)控的方向性、網(wǎng)絡(luò)的規(guī)模性以及基因表達(dá)數(shù)據(jù)的噪聲等因素的影響,這些都會影響基因調(diào)控網(wǎng)絡(luò)構(gòu)建性能。如基于互信息的方法不能檢測網(wǎng)絡(luò)的方向,不能區(qū)分直接和間接調(diào)控;基于優(yōu)化模型的方法很難解決高維低樣本數(shù)據(jù);基于貝葉斯網(wǎng)絡(luò)的方法具有較高的計算復(fù)雜度,且很難處理大規(guī)模網(wǎng)絡(luò)等。如何克服這些模型和方法中的缺點,是基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法提高其性能的關(guān)鍵所在。
貝葉斯網(wǎng)絡(luò)模型是一種圖形概率模型,利用貝葉斯規(guī)則建立結(jié)點間的聯(lián)合概率分布來構(gòu)造調(diào)控網(wǎng)絡(luò)的。貝葉斯網(wǎng)絡(luò)模型是基于統(tǒng)計理論的,并且能夠應(yīng)用到各種類型的生物數(shù)據(jù)中,因此能夠捕捉到表達(dá)數(shù)據(jù)中固有的噪聲,而且準(zhǔn)許在決定結(jié)點間相互作用關(guān)系的過程中可以利用貝葉斯規(guī)則來結(jié)合一些先驗生物學(xué)知識。動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)是貝葉斯網(wǎng)絡(luò)的擴(kuò)展版,既可以使用穩(wěn)態(tài)數(shù)據(jù),也可以應(yīng)用到基因表達(dá)時間序列數(shù)據(jù)中。當(dāng)構(gòu)建的調(diào)控網(wǎng)絡(luò)包含大量的基因結(jié)點時,DBN需要花費大量時間來學(xué)習(xí)條件依賴關(guān)系。為此我們提出了一種數(shù)據(jù)相對變化率的策略來預(yù)處理隨機(jī)結(jié)點數(shù)據(jù),以此來識別出網(wǎng)絡(luò)中一些關(guān)鍵的結(jié)點,在這個基礎(chǔ)之上我們再采用時延的動態(tài)貝葉斯方法和一些先驗知識來構(gòu)建網(wǎng)絡(luò),所構(gòu)建網(wǎng)絡(luò)的優(yōu)劣用性能指標(biāo)AUPR和AUROC值來評估。試驗結(jié)果驗證我們的方法取得了良好的網(wǎng)絡(luò)構(gòu)建性能,在網(wǎng)絡(luò)的構(gòu)建準(zhǔn)確率和精度方面都取得了較好的結(jié)果。
1.1 相對變化率
網(wǎng)絡(luò)中的邊表示結(jié)點之間潛在的相互作用關(guān)系,在給定的網(wǎng)絡(luò)中,一個結(jié)點的表達(dá)水平值發(fā)生變化會影響那些和它有相互作用關(guān)系的結(jié)點的表達(dá)值。如果結(jié)點在整個網(wǎng)絡(luò)中扮演了一個非常重要的角色,那么它的變化會引起其周圍近鄰結(jié)點的變化,我們也稱這些點為中心結(jié)點或者關(guān)鍵結(jié)點(Hub Node)。因此一些結(jié)點值的表達(dá)類型不同(如原態(tài)數(shù)據(jù),表達(dá)缺失數(shù)據(jù),表達(dá)值減小數(shù)據(jù)和帶有噪聲的數(shù)據(jù)等)就會影響網(wǎng)絡(luò)構(gòu)建的精度。這里我們引入相對變化率的數(shù)據(jù)預(yù)處理策略來識別出一些中心結(jié)點,為進(jìn)一步網(wǎng)絡(luò)構(gòu)建減小時間復(fù)雜度。
對于給定實驗數(shù)據(jù)集中的每一個結(jié)點數(shù)據(jù),我們以它的原態(tài)表達(dá)數(shù)據(jù)作為參照點,然后計算每個數(shù)據(jù)結(jié)點的相對變化率,數(shù)據(jù)的相對變化率公式定義如下:
i=1,…,n;j=1,…,n
其中Ri,j表示結(jié)點j在結(jié)點i表達(dá)值敲除情況下的相對變化率,Gi,j表示結(jié)點j在結(jié)點i表達(dá)值敲除情況下的表達(dá)值,Wj表示結(jié)點j原態(tài)表達(dá)值,Max(G:,j)-Min(G:,j)表示結(jié)點j對所有結(jié)點表達(dá)值變化范圍,如果i=j,則相對變化率Ri,j為零。
如果結(jié)點的變化率大于給定的一個閾值,我們就認(rèn)為這個結(jié)點是關(guān)鍵結(jié)點,在整個網(wǎng)絡(luò)中扮演非常重要的角色。當(dāng)結(jié)點的表達(dá)值相對于參照結(jié)點的變化小于給定的一個閾值時,我們認(rèn)為它是噪聲,把它從潛在的調(diào)控結(jié)點表單中剔除。如圖1所示,計算結(jié)點1到10對于結(jié)點1的相對變化率,其中結(jié)點2,4,5,7,8明顯高出閾值,那么我們就認(rèn)為這些節(jié)點潛在的被結(jié)點1調(diào)控,結(jié)點1在整個網(wǎng)絡(luò)中是一個關(guān)鍵結(jié)點。
圖1 相對變率的事例框圖
1.2 動態(tài)貝葉斯網(wǎng)絡(luò)
圖2 動態(tài)貝葉斯網(wǎng)絡(luò)
1.3 時延動態(tài)貝葉斯網(wǎng)絡(luò)
K Murphy[11-12]提出了動態(tài)貝葉斯的表示方法,網(wǎng)絡(luò)推斷及結(jié)構(gòu)學(xué)習(xí),但是這個模型有兩個主要的缺陷。第一,這個算法的時間復(fù)雜度非常大,對于網(wǎng)絡(luò)中某結(jié)點,其父節(jié)點可能是剩余結(jié)點的一個或者多個,其算法的時間復(fù)雜度會隨著網(wǎng)絡(luò)規(guī)模成指數(shù)級增長。由于計算的時間太長一般認(rèn)為一個結(jié)點的父節(jié)點數(shù)量限制在30個以內(nèi)。第二,這個算法沒有考慮相關(guān)性的延時問題,這會降低網(wǎng)絡(luò)構(gòu)建的精度。
為了克服這個缺陷,Conzen[7]74提出了基于時序數(shù)據(jù)的帶有時延的動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建算法,這種方法能夠有效地降低算法的時間復(fù)雜度和提高算法的準(zhǔn)確性。在網(wǎng)絡(luò)中相互作用的兩個結(jié)點,它們的時序表達(dá)值都有一個相應(yīng)的延時趨勢或者同時發(fā)生變化,那么用這種方法就可以限制一個結(jié)點的父節(jié)點的數(shù)量,以此來降低算法的時間復(fù)雜度。還發(fā)現(xiàn)在生物分子網(wǎng)絡(luò)中,調(diào)控結(jié)點和被調(diào)控結(jié)點之間都會存在一個轉(zhuǎn)錄時延周期,那么結(jié)點表達(dá)值的延遲就代表了生物相對延時周期。這種方法考慮了結(jié)點變量間的相對關(guān)系,借助表達(dá)值的變化來估計調(diào)控結(jié)點和被調(diào)控結(jié)點之間的關(guān)系。那么用這種帶有延遲的動態(tài)貝葉斯方法就可以直接從時序的基因表達(dá)數(shù)量識別出其對應(yīng)的網(wǎng)絡(luò)。
在我們的方法中,首先用相對變化率從時序數(shù)據(jù)中找出那些關(guān)鍵的網(wǎng)絡(luò)結(jié)點,這些結(jié)點比其它結(jié)點更可能成為其它節(jié)點的父節(jié)點,在生成的網(wǎng)絡(luò)中這些結(jié)點會扮演非常重要的角色,用相關(guān)性給這些關(guān)鍵結(jié)點先構(gòu)建出一個調(diào)控網(wǎng)絡(luò)。其次用時延的動態(tài)貝葉斯網(wǎng)絡(luò)方法再從這些時序數(shù)據(jù)中構(gòu)建另一個調(diào)控網(wǎng)絡(luò),把兩個網(wǎng)絡(luò)中都存在的那些邊保留成為我們構(gòu)建的最終網(wǎng)絡(luò),用DREAM[13]人工合成數(shù)據(jù)和真實網(wǎng)絡(luò)數(shù)據(jù)來對我們的算法進(jìn)行檢測,證明我們方法的有效性和準(zhǔn)確性。
2.1 構(gòu)建的網(wǎng)絡(luò)和標(biāo)準(zhǔn)網(wǎng)絡(luò)比對結(jié)果
網(wǎng)絡(luò)預(yù)測的性能可以用如下參數(shù)來評估,用真陽性(true positive, TP),假陽性(false positiv, FP),真陰性(true negative, TN),假陰性(flase negative, FN),召回率(Recall)也叫真陽性率(true positive rate, TPR),假陽性率(flase positive rate, FPR),精確度(Precision)也叫查準(zhǔn)率(Positive Predictive Value, PPV)和準(zhǔn)確率(accuracy, ACC)來對構(gòu)建的網(wǎng)絡(luò)進(jìn)行檢測,它們的公式定義如下:TPR=TP/(TP+FN),F(xiàn)PR=FP/(FP+TN),PPV=TP/(TP+FP),ACC=(TP+TN)/(TP+FP+TN+FN)。除了上述指標(biāo)外還有受試者工作特性曲線(Receiver Operation Characteristic Curve, ROC曲線)和其曲線下的面積(Area under ROC, AUROC),精度召回率曲線(Precision and Recall Curve, PR曲線)和其曲線下的面積(Area under PR, AUPR)來衡量構(gòu)建算法的優(yōu)劣性。
我們的方法成功地應(yīng)用到了人工合成數(shù)據(jù)集上[14-15],在E.coli數(shù)據(jù)集上,真實網(wǎng)絡(luò)有10個結(jié)點,10條邊。我們預(yù)測出來的網(wǎng)絡(luò)共有11條邊,其中7條正確,精度達(dá)到70%。在另外一個酵母(yeast)數(shù)據(jù)中,有50個結(jié)點,77條邊,我們的方法預(yù)測的帶有方向的網(wǎng)絡(luò)如圖3所示,其中預(yù)測正確的邊有52條,準(zhǔn)確率達(dá)到了68%。實驗驗證了我們的方法取得了較好的性能。
圖3 50個結(jié)點的預(yù)測網(wǎng)絡(luò)
2.2 相對變化率在網(wǎng)絡(luò)構(gòu)建中的作用
在三個不同的實驗數(shù)據(jù)集上用我們的方法來構(gòu)建網(wǎng)絡(luò),在10個結(jié)點的實驗數(shù)據(jù)集上,只用相對變化率的方法來構(gòu)建網(wǎng)絡(luò);在50個結(jié)點的實驗數(shù)據(jù)集上,用相對變化率結(jié)合時延動態(tài)貝葉斯的方法來構(gòu)建網(wǎng)絡(luò);在100個結(jié)點的實驗數(shù)據(jù)集上,只用動態(tài)貝葉斯網(wǎng)絡(luò)的方法來構(gòu)建網(wǎng)絡(luò),以此來測試這三種網(wǎng)絡(luò)構(gòu)建方法的性能。
結(jié)果顯示在10個結(jié)點和50個結(jié)點的網(wǎng)絡(luò)構(gòu)建中效果明顯好于100個節(jié)點的網(wǎng)絡(luò)構(gòu)建,在E.coli數(shù)據(jù)集上構(gòu)建網(wǎng)絡(luò)的效果明顯好于在yeast數(shù)據(jù)集上,具體參數(shù)如表1所示。結(jié)果顯示采用了相對變化率策略可以比單獨使用延遲動態(tài)貝葉斯方法取得更高的網(wǎng)絡(luò)構(gòu)建性能,這就可以解釋為什么在100個結(jié)點的網(wǎng)絡(luò)構(gòu)建中,AUPR和AUROC值都相對偏低,在10個結(jié)點和50個結(jié)點的網(wǎng)絡(luò)構(gòu)建中,AUPR和AUROC值都相對偏高。這是因為在100個結(jié)點的網(wǎng)絡(luò)構(gòu)建中只采用了延遲的動態(tài)貝葉斯方法,在10個和50個結(jié)點的網(wǎng)絡(luò)構(gòu)建中都有相對變率策略的干預(yù),由此可見,相對變化率的策略能提高網(wǎng)絡(luò)構(gòu)建的精度。
為了進(jìn)一步說明相對變化率策略在網(wǎng)絡(luò)構(gòu)建中所起的作用,在10個結(jié)點的數(shù)據(jù)集上分別采用延遲動態(tài)貝葉斯方法,相對變化率策略方法和它們二者結(jié)合的方法來構(gòu)建網(wǎng)絡(luò),這三種網(wǎng)絡(luò)構(gòu)建方法所獲得的AUPR值如圖4所示。實驗結(jié)果說明采用相對變化率策略的方法和它們二者相結(jié)合的方法性能都優(yōu)于單獨使用時延動態(tài)貝葉斯方法,這充分說明相對變化率策略在網(wǎng)絡(luò)構(gòu)建中起著比較重要的作用。動態(tài)時延貝葉斯網(wǎng)絡(luò)構(gòu)建方法在計算結(jié)點潛在調(diào)控的父節(jié)點時,選取范圍偏大導(dǎo)致網(wǎng)絡(luò)中有較高的假陽性邊,以致降低了網(wǎng)絡(luò)構(gòu)建的精度,如何把相對變化率策略和時延動態(tài)貝葉斯網(wǎng)絡(luò)更好的結(jié)合,以提高網(wǎng)絡(luò)構(gòu)建的精度將是我們將來繼續(xù)研究的問題。
表1 預(yù)測三種網(wǎng)絡(luò)取得的參數(shù)性能
圖4 三種不同方法在三個網(wǎng)絡(luò)上的AUPR值比較圖
文中提出了一種數(shù)據(jù)相對變化率的策略來預(yù)處理隨機(jī)結(jié)點數(shù)據(jù),以此來識別出網(wǎng)絡(luò)中一些關(guān)鍵的結(jié)點,為后續(xù)的網(wǎng)絡(luò)構(gòu)建提供幫助,這些關(guān)鍵結(jié)點在生成的網(wǎng)絡(luò)中會扮演一個非常重要的角色,它們會潛在地調(diào)控網(wǎng)絡(luò)中的其它結(jié)點。在這個基礎(chǔ)之上我們再采用時延的動態(tài)貝葉斯方法和一些先驗知識來構(gòu)建網(wǎng)絡(luò),所構(gòu)建網(wǎng)絡(luò)的優(yōu)劣用性能指標(biāo)AUPR和AUROC值來評估。試驗結(jié)果驗證我們的方法取得了良好的網(wǎng)絡(luò)構(gòu)建性能,在網(wǎng)絡(luò)的構(gòu)建準(zhǔn)確率和精度都取得了較好的結(jié)果。如何把相對變化率策略和時延動態(tài)貝葉斯網(wǎng)絡(luò)更好地結(jié)合,以提高網(wǎng)絡(luò)構(gòu)建的精度將是我們將來繼續(xù)研究的問題。
[1] SHMULEVICH I,DOUGHERTY E R, KIM S, et al. Probabilistic Boolean networks: a rule-based uncertainty model for gene regulatory networks[J]. Bioinformatics, 2002, 18(2): 261-274.
[2] CASTELO R, ROVERATO A. Reverse engineering molecular regulatory networks from microarray data with qp-graphs[J]. Journal of Computational Biology, 2009, 16(2): 213-227.
[3] MEYER P E, LAFITTE F,BONTEMPI G. AR/bioconductor package for inferring large transcriptional networks using mutual information[J]. BMC bioinformatics, 2008, 9(1): 461.
[4] ZHANG X, ZHAO X M, HE K, et al. Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information[J]. Bioinformatics, 2012, 28(1): 98-104.
[5] SAKAMOTO E, IBA H. Inferring a system of differential equations for a gene regulatory network by using genetic programming[C]. Evolutionary Computation, 2001. Proceedings of the 2001 Congress on. IEEE, 2001, 1: 720-726.
[6] YOUNG W C, RAFTERY A E, YEUNG K Y. Fast bayesian inference for gene regulatory networks using ScanBMA[J]. BMC Systems Biology, 2014, 8(1): 47.
[7] ZOU M, CONZEN S D. A new dynamic bayesian network (DBN) approach for identifying gene regulatory networks from time course microarray data[J]. Bioinformatics, 2005, 21(1): 71-79.
[8] MADHAMSHETTIWAR P B, MAETSCHKE S R, DAVIS M J, et al. Gene regulatory network inference: evaluation and application to ovarian cancer allows the prioritization of drug targets[J]. Genome Medicine, 2012, 4(5): 1-16.
[10] FRIEDMAN N, MURPHY K,RUSSELL S. Learning the structure of dynamic probabilistic networks[C]. Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., 1998: 139-147.
[11] MURPHY K P. Dynamic bayesian networks: representation, inference and learning[D].University of California, Berkeley, 2002.
[12] MURPHY K, MIAN S. Modelling gene expression data using dynamic Bayesian networks[R]. Technical Report, Computer Science Division,University of California, Berkeley, CA, 1999.
[13] MARBACH D, SCHAFFTER T, MATTIUSSI C, et al. Generating realistic in silico gene networks for performance assessment of reverse engineering methods[J]. Journal of Computational Biology, 2009, 16(2): 229-239.
[14] MARBACH D, PRILL R J, SCHAFFTER T, et al. Revealing strengths and weaknesses of methods for gene network inference[J]. Proceedings of the National Academy of Sciences, 2010, 107(14): 6286-6291.
[15] PRILL R J, MARBACH D, SAEZ-RODRIGUEZ J, et al. Towards a rigorous assessment of systems biology models: the DREAM3 challenges[J]. PloS One, 2010, 5(2):9202.
The Study on an Improved Time-delayed Dynamic Bayesian Network Construction Algorithm
Liu Fei
(Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji Shaanxi 721016, China)
Networks constructed from large-scale experimental data can reversely explore potential interaction among network nodes and help us understand at a deeper level the complex functional mechanism among these nodes. In this context, many theoretical approaches have been presented for network construction. The reduction or knockout of sample values at a certain time point in some experimental data would affect the accuracy of network construction. To solve this problem, we present the strategy of relative variation ratio to recognize potential interaction among the nodes. In the time sequence experimental data, this strategy and time-delayed dynamic Bayesian method are integrated for network construction. Our approach can reduce Bayesian searching space so as to obtain better performance and accuracy in network construction. The Dialogue for Reverse Engineering Assessments and Methods (DREAM) competitive event was first proposed for rigorous assessment of the performance and advantages/disadvantages of modeling methods for inter-node network construction. The network speculated with our data set is compared with other methods in two metrics: area under the ROC curve (AUROC) and area under the precision-recall curve (AUPR). Experimental results show that overall performance of our algorithm is slightly better than others in the process of network construction.
complex network; network construction; relative variation ratio; time delay; Bayesian network
國家自然科學(xué)基金(11547247,11105003);寶雞市科技計劃項目 (15RKX-1-5-18,14GYGG-5-2);寶雞文理學(xué)院科研項目(ZK16009,ZK16028)資助;陜西省科技攻關(guān)計劃項目(2014K08-17);陜西省教育廳科研計劃項目(15JK1043)。
10.3969/j.issn.1000-3886.2016.04.011
TP391
A
1000-3886(2016)04-0033-03
劉飛,男(1981-),陜西榆林人,碩士,講師,主要研究方向為復(fù)雜網(wǎng)絡(luò)和數(shù)據(jù)挖掘。
定稿日期: 2015-12-28