劉飛
摘 要: 大量調控網(wǎng)絡重構的模型和方法被研究,但是數(shù)據(jù)大小對算法精度的影響問題涉及很少。通過研究數(shù)據(jù)尺寸大小對延遲信息論方法構建基因調控網(wǎng)絡精度的影響,表明基因調控網(wǎng)絡構建的精度會在一定數(shù)據(jù)尺寸規(guī)模下達到一個穩(wěn)態(tài)。為了克服互信息的一些缺點,引入了多時延互信息值計算兩個基因之間的調控關系,構建的基因調控網(wǎng)絡取得了很好的查全率和查準率。并用真實的生物分子網(wǎng)絡進行測試,實驗表明,基于多時延的策略在構建基因調控網(wǎng)絡中扮演了一個重要角色。
關鍵詞: 延遲效應; 網(wǎng)絡重構; 信息論; 基因表達數(shù)據(jù)
中圖分類號: TN711?34 文獻標識碼: A 文章編號: 1004?373X(2015)17?0124?03
Research on network construction algorithm with delayed effect
LIU Fei
(Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji 721016, China)
Abstract: Since a large number of models and methods of gene regulatory network (GRN) construction have been studied, the problem of data size influencing on the accuracy of the algorithm involved little. Data size influencing on the accuracy of GRN constructed by delayed information theory is studied. The experimental results show that the accuracy the GRN construction can reach the steady state in a certain data size. To overcome some defects of mutual information, the mutual information value with multi?delay is introduced to calculate the regulatory relations between two genes. The constructed GRN obtained better recall ratio and precision ratio. The actual biology molecular network is tested. The experimental results verify that the multi?delay scheme plays an important role in constructing GRN.
Keywords: delayed effect; network reconfiguration; information theory; gene expression data
0 引 言
基因調控網(wǎng)絡(Gene Regulatory Network,GRN)是目前生物信息學研究的一個熱門領域。GRN的構建對揭示基因功能,解析基因間的相互作用,理解支配基因表達,認識生命活動的規(guī)律和一些疾病發(fā)病機理和相關藥物設計上有很重要的意義。大量基因調控網(wǎng)絡的構建方法被提出,如:動態(tài)的貝葉斯網(wǎng)絡[1]、偏微分方程模型[2]、信息論模型[3]、統(tǒng)計回歸模型等。文獻[4]首次提出了動態(tài)貝葉斯網(wǎng)絡的概念,用它來分析構建GRN發(fā)現(xiàn)基因之間存在著一定的時延調控,一些研究還表明,不同的基因之間存在不同的時延調控。本文首先研究了基因時序數(shù)據(jù)尺寸大小對網(wǎng)絡構建精度的影響,使其在最小的數(shù)據(jù)尺寸下得出最大的網(wǎng)絡構建精度,以此來降低算法的時間和空間復雜度。其次,研究采用多時延的策略,用互信息和延時的互信息方法構建基因調控網(wǎng)絡,結果顯示延時的互信息方法對構建基因調控網(wǎng)絡在精度上有明顯的提高。
1 實驗數(shù)據(jù)集和理論方法
本文基因數(shù)據(jù)來自文獻[5],其實驗數(shù)據(jù)提供了完整的酵母細胞周期基因表達數(shù)據(jù),數(shù)據(jù)包含了elutriation,alpha?factor,cdc28和cdc15四種時序表達基因數(shù)據(jù),它們分別有14,18,17和24個時間點,其中alpha?factor數(shù)據(jù)集的時間點比cdc28和elutriation的都多一些,而且它的數(shù)據(jù)相對比較完整,綜合考慮,本文選取alpha?factor的實驗數(shù)據(jù)集構建基因調控網(wǎng)絡。
1.1 時延效應的度量
文獻[6]研究了基因之間的互信息值越大,則在生物學意義上它們的調控關系越密切?;虻霓D錄表達數(shù)據(jù)往往是在同一個時刻進行測量的,但是不同的基因之間調控可能存在不同的時間延遲。給定基因[X,Y]的時序表達譜數(shù)據(jù)分別為:[X=(x[1], x[2], … , x[m]),Y=][(y[1], y[2], … , y[m])],這里[m]代表時間點數(shù)。假定[τ]為基因[X]和[Y]之間的時間延遲,[τ=0, 1, 2, … ,m-1。]取[X(τ)=(x[1], x[2], … , x[m-τ]),][Y(τ)=(y[τ+1], y[τ+2], … , y[m]),]根據(jù)互信息的公式,在給定[m]值的情況下,可計算出基因[X,Y]之間的互信息[I(X(τ):Y(τ))],當互信息[I(X(τ):Y(τ))]的值最大時,[τ]值作為基因[X,Y]之間的調控轉錄時延。
1.2 互信息的定義
信息熵是一個隨機變量的平均不確定性,它用[H]表示,[p(Xi)]為[Xi]出現(xiàn)的概率,其公式如下:[H(X)=-p(Xi)logp(Xi)] (1)
基因的時序數(shù)據(jù)表示為[(X1, X2, …, Xm),]一般計算熵時所有的數(shù)據(jù)時間點都被采用,而本文中采用了多時延的概念,計算時只采用了[m-τ]個時間點,基因[X]和[Y]計算熵時采用的數(shù)據(jù)為[X(τ)=(x[1], x[2], … , ][x[m-τ])],[Y(τ)=(y[τ+1], y[τ+2], … , y[m])]。
基因[X]和[Y]之間的聯(lián)合熵(Joint Entropy)被定義為:
[H(X,Y)=-p(Xi, Yi)logp(Xi, Yi)] (2)
基因[X]和[Y]之間的互信息(Mutual Information)被定義為:
[I(X,Y)=H(X)+H(Y)-H(X,Y)] (3)
2 結果仿真
2.1 數(shù)據(jù)量大小和網(wǎng)絡構建精度的關系
采用文獻[7]的網(wǎng)絡基因時序數(shù)據(jù)構建網(wǎng)絡,并和原始的真實網(wǎng)絡進行比對,得出構建網(wǎng)絡的查準率和查全率。不同基因數(shù)用不同時間點構建網(wǎng)絡得到的查準率和查全率如圖1,圖2所示。在圖1中20個基因的網(wǎng)絡查準率一直在增加;在40個時間點時達到最大值;在50個時間點以后查準率一直處于一個平穩(wěn)的狀態(tài);30個基因點的網(wǎng)絡查準率在整個過程中一直波動緩慢上升;50個基因點的網(wǎng)絡查準率在45個時間點以后基本處于平穩(wěn)狀態(tài),圖2亦然。
為了進一步說明基因時序數(shù)據(jù)尺寸大小對網(wǎng)絡推斷精度的影響,提出用查全率和查準率的比值來度量網(wǎng)絡構建的精度,如圖3所示。20個基因的網(wǎng)絡查全率和查準率的比率一直在下降,當取50個時間點時其比率基本趨于穩(wěn)定狀態(tài)。對于40個基因的網(wǎng)絡構建來說,當時間點取到50個以上時,其網(wǎng)絡構建的精度基本保持不變,時間點取得越多只會增加算法的時間和空間復雜度。這樣就可以在基因時序數(shù)據(jù)尺寸最小的情況下取得網(wǎng)絡構建的最大精度。
2.2 真實網(wǎng)絡模擬
由完整的酵母細胞周期基因表達數(shù)據(jù)來構建基因調控網(wǎng)絡,如圖4所示,分別列出了用互信息構建的網(wǎng)絡和用時延互信息構建的網(wǎng)絡,實線表示預測正確的邊,虛線表示預測錯誤的邊,箭頭表示基因調控的方向。網(wǎng)絡預測的結果用敏感度(Sn),特異度(Sp)和精確度(Acc)指標來衡量,其公式定義為:[Sn=TP(TP+FN),][Sp=TN(FP+TN),][Acc=(TP+TN)(TP+FP+TN+FN) 。]網(wǎng)絡中用TLMI方法識別出正確的邊數(shù)多了1條,識別出錯誤的邊數(shù)少了3條,因此它的特異度從88.05%增加到89.53%,精確度從73.64%增加到77.27%。因此得出用TLMI方法比MI方法在基因調控網(wǎng)絡構建精度上明顯提高,TLMI對基因調控網(wǎng)絡構建精度是一個更好的衡量指標。
3 結 論
本文首先研究了基因時序數(shù)據(jù)尺寸大小對網(wǎng)絡構建精度的影響,研究顯示,數(shù)據(jù)尺寸的大小在網(wǎng)絡構建精度中扮演了一個很重要的角色。目標是在最小的數(shù)據(jù)尺寸下得出最大的網(wǎng)絡構建精度,以此降低算法的時間和空間復雜度。其次研究了用互信息和延時互信息方法構建基因調控網(wǎng)絡,結果顯示,采用多時延的策略下,基因之間多時延的轉錄調控對網(wǎng)絡構建有很大影響,延時的互信息方法對構建基因調控網(wǎng)絡在特異度和精確度上都有明顯的提高。
參考文獻
[1] YOUNG W C, RAFTERY A E, YEUNG K Y. Fast Bayesian inference for gene regulatory networks using ScanBMA [J]. BMC Systems Biology, 2014, 8(47): 324?335.
[2] LI Z, LI P, KRISHNAN A, et al. Large?scale dynamic gene regulatory network inference combining differential equation models with local dynamic Bayesian network analysis [J]. Bioinformatics, 2011, 27(19): 2686?2691.
[3] ZHANG X, ZHAO X M, HE K, et al. Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information [J]. Bioinforma?tics, 2012, 28(1): 98?104.
[4] MURPHY K, MIAN S. Modelling gene expression data using dynamic Bayesian networks [R]. Berkeley: University of California, 1999.
[5] SPELLMAN P T, SHERLOCK G, ZHANG M Q, et al. Comprehensive identification of cell cycle?regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization [J]. Molecular biology of the cell, 1998, 9(12): 3273?3297.
[6] BUTTE A J, KOHANE I S. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements [J]. Pacific Symposium Biocomputing. 2000, 5(2): 415?426.
[7] ZHAO W, SERPEDIN E, DOUGHERTY E R. Inferring gene regulatory networks from time series data using the minimum description length principle [J]. Bioinformatics, 2006, 22(17): 2129?2135.