摘 要:利用互信息理論和布爾網(wǎng)絡(luò)共同建立基因調(diào)控網(wǎng)絡(luò)模型,并且通過舉例說明該方法,用此方法相應(yīng)地可推導(dǎo)出多個基因決定某個或多個基因的表達(dá)值的邏輯規(guī)則,根據(jù)得到的邏輯規(guī)則建立基因電路網(wǎng)絡(luò),再對得到的基因邏輯電路網(wǎng)絡(luò)依據(jù)分析邏輯電路網(wǎng)絡(luò)的方法建立基因調(diào)控網(wǎng)絡(luò)動態(tài)轉(zhuǎn)換,從而分析基因間的調(diào)控關(guān)系。
關(guān)鍵詞:基因調(diào)控網(wǎng)絡(luò);熵互信息;布爾網(wǎng)絡(luò);反向工程
中圖分類號:TP393文獻(xiàn)標(biāo)識碼:B
文章編號:1004-373X(2008)07-151-03
Reconstructing Genetic Regulatory Boolean Network and Dynamic Analysis
WANG Liqin1,2,ZHANG Ling2,LI Jiangeng1
(1.College of Computer Science and Technology,Beijing University of Technology,Beijing,100022,China;
2.Zhangjiakou Vocational College of Technology,Zhangjiakou,075000,China)
Abstract:This article first uses the method to establish the gene regulationnetwork model together by mutually the information theory and the Boolean network,and through explains with examples this method,correspondingly may infer many genes with this method to decide some or many genes expression value logical rule,according to the logicalrule establishment gene electric network which obtains,again to genelogic circuit network basis analysis logic circuit network method establishment gene regulation network dynamic transformation,thus regulative relations between analysis gene.
Keywords:genetic regulatory network;mutual information of entropy;Boolean network;opposite direction engineering
1 引 言
基因網(wǎng)絡(luò)的研究最初是在20世紀(jì)60年代,Rater 描述了控制原核生物的分子基因系統(tǒng)組織的特點。另一項研究是Kauffman通過簡單的邏輯規(guī)則研究基因網(wǎng)絡(luò)動力學(xué),提出了簡單布爾網(wǎng)絡(luò)理論[1]。20世紀(jì)90年代實驗數(shù)據(jù)的增加,更加加速了基因網(wǎng)絡(luò)理論的研究。到目前為止已發(fā)展了很多研究基因網(wǎng)絡(luò)的方法,如隨機(jī)模型、布爾網(wǎng)絡(luò)、邏輯方法、門限模型以及基于微分方程的方法等[2]。全基因組測序后展現(xiàn)在科學(xué)家面前的是浩瀚的DNA序列信息,這就要求人們要“讀懂”他,也就是要了解基因是如何表達(dá)的,以及基因的表達(dá)是如何受到調(diào)控的,并在全基因組水平上系統(tǒng)闡述這些基因的表達(dá)調(diào)控規(guī)律,進(jìn)而來揭示生命的奧秘。一個基因的表達(dá)受其他基因的影響,而這個基因又影響其他基因的表達(dá),這種相互影響相互制約的關(guān)系構(gòu)成了復(fù)雜的基因表達(dá)調(diào)控網(wǎng)絡(luò)(gene regulatory networks)。從表達(dá)譜數(shù)據(jù)出發(fā),可以建立基因或蛋白質(zhì)相互作用的網(wǎng)絡(luò)模型,這種方法也稱反向工程(reverse engineering)[3]。全基因組基因表達(dá)調(diào)控網(wǎng)絡(luò)的研究必將促進(jìn)個性化醫(yī)療的發(fā)展和重大復(fù)雜疾病的預(yù)測和治療,并最終揭示出人類生老病死的奧秘。關(guān)于基因表達(dá)調(diào)控網(wǎng)絡(luò)目前人們做了很多研究,本文提出用熵互信息的數(shù)學(xué)理論尋求基因間關(guān)系的邏輯函數(shù),有了基因之間的邏輯關(guān)系函數(shù),就可以構(gòu)建基因邏輯電路網(wǎng)絡(luò)(gene logic circuit networks),再利用基因邏輯電路網(wǎng)絡(luò)與邏輯函數(shù)得到基因在不同時間的基因狀態(tài),由得到的基因狀態(tài)就可以畫出基因調(diào)控網(wǎng)絡(luò)的動態(tài)轉(zhuǎn)換圖,可以從基因調(diào)控網(wǎng)絡(luò)的動態(tài)轉(zhuǎn)換圖中研究網(wǎng)絡(luò)的變化,可以把此方法用在生物基因調(diào)控網(wǎng)絡(luò)的分析和研究中,尋找變異基因網(wǎng)絡(luò)與正?;蚓W(wǎng)絡(luò)動態(tài)變化的差異,試圖找到引起疾病的原因。本文提出一個新觀點,基因網(wǎng)絡(luò)可以分為抑制型和非抑制型兩類。提出一個新方法用邏輯電路網(wǎng)絡(luò)表示基因調(diào)控網(wǎng)絡(luò),把邏輯電路的分析方法用到基因網(wǎng)絡(luò)的動態(tài)網(wǎng)絡(luò)分析中。
2 利用熵確定基因調(diào)控布爾網(wǎng)絡(luò)邏輯關(guān)系
要想構(gòu)建基因調(diào)控布爾網(wǎng)絡(luò),關(guān)鍵是找到基因之間的布爾邏輯關(guān)系函數(shù),現(xiàn)在關(guān)于確定基因調(diào)控關(guān)系也是后基因時代的一個研究熱點,在這里考慮應(yīng)用熵的互信息理論去尋找基因之間的邏輯關(guān)系函數(shù)。首先由基因表達(dá)序列(其中基因表達(dá)用1表示,基因不表達(dá)用0表示)根據(jù)下面所定義的公式得到熵與互信息熵,再由得到的熵與互信息熵確定基因之間的邏輯關(guān)系。
H(X)=-∑PXlog PX,H(Y)=-∑PYlog PY
H(X,Y)=-∑PX,Ylog PX,Y
M(X,Y)=H(X)+H(Y)-H(X,Y)
現(xiàn)在考慮三個基因X1,X2,X3的情況,利用熵互信息理論找到三個基因的邏輯關(guān)系函數(shù),三個基因的基因表達(dá)序列(其中基因表達(dá)用1表示,基因不表達(dá)用0表示)如表1所示。
表1 基因表達(dá)序列
在表中X1,X2,X3為輸入基因表達(dá),X1′, X2′,X3′為輸出基因表達(dá),可以利用上面所提到的熵互信息公式得到基因X1,X2,X3,X3′的熵和互信息熵。
H(X1)=1.00,H(X2)=1.00,H(X3)=1.00,H(X1,X2)=2.00,H(X2,X3)=2.00,H(X1,X3)=2.00,H(X1,X2,X3)=3.00,H(X3′)=1.00
有了基因X1,X2,X3的熵和互信息熵,下面詳細(xì)介紹尋找輸入基因X1,X2,X3與輸出基因X3′的邏輯關(guān)系過程:
H(X3′,X1)=1.81, M(X3′,X1)=0.19
M(X3′,X1)/H(X3′)=0.19
H(X3′,X2)=1.81, M(X3′,X2)=0.19
M(X3′,X2)/H(X3′)=0.19
H(X3′,X3)=1.81, M(X3′,X3)=0.19
M(X3′,X3)/H(X3′)=0.19
H(X3′,[X1,X2])=2.50, M(X3′,[X1,X2])=0.50
M(X3′,[X1,X2])/H(X3′)=0.50
H(X3′,[X2,X3])=2.50, M(X3′,[X2,X3])=0.50
M(X3′,[X2,X3])/H(X3′)=0.50
H(X3′,[X1,X3])=2.50, M(X3′,[X1,X3])=0.50
M(X3′,[X1,X3])/H(X3′)=0.50
H(X3′,[X1,X2,X3])=3.00
M(X3′,[X1,X2,X3])=1.00
M(X3′,[X1,X2,X3])/H(X3′)=1.00
由以上分析可以得到其邏輯關(guān)系為:
X3′=(X1 and X2)or(X2 and X3)or(X1 and X3)
由同樣的方法可以得到:
X1′=X2
X2′=X1 or X3
其中:or為或邏輯,and為與邏輯。
上述介紹了用熵互信息理論找到基因之間邏輯關(guān)系的方法,通過用此方法編輯軟件可以對多個基因進(jìn)行處理,找到基因之間的邏輯關(guān)系函數(shù)。有了基因之間的邏輯關(guān)系函數(shù)就可以構(gòu)建基因布爾網(wǎng)絡(luò),從而了解基因之間的關(guān)系。
3 基因布爾網(wǎng)絡(luò)的分析
基因布爾網(wǎng)絡(luò)[4,5]是一個有N個節(jié)點(基因),并且對每個節(jié)點如果給予i個輸入(用二進(jìn)制0或1表示)在任意時間t被定義為xi(t),當(dāng)xi(t)=0時基因沒有表達(dá),xi(t)=1時基因被表達(dá),全部輸入在時間t的表達(dá)水平可以用行向量表示x(t)=[x1(t),x2(t),…xn(t)],任一節(jié)點的輸出依賴于所給定的布爾函數(shù)及其輸入節(jié)點的布爾值。該網(wǎng)絡(luò)類似一個被控制的布爾電路網(wǎng)絡(luò)所有的節(jié)點。同時受輸入和布爾函數(shù)決定,然后產(chǎn)生下一個狀態(tài)。
對于基因調(diào)控的布爾網(wǎng)絡(luò)從結(jié)構(gòu)上應(yīng)該認(rèn)為可以有兩種:基因網(wǎng)絡(luò)分為抑制型和非抑制型兩類。
抑制型 [HTSS]該基因網(wǎng)絡(luò)表示為抑制型的(見圖1)。這是一種特殊的基因布爾網(wǎng)絡(luò),每個基因只是單向傳輸?shù)摹τ谶@樣的基因調(diào)控網(wǎng)絡(luò),可以用一個簡單的邏輯電路網(wǎng)絡(luò)來表示(見圖2),從邏輯電路網(wǎng)絡(luò)可以看到該網(wǎng)絡(luò)有4個輸入,1個輸出。其中cdk7與cyclinlt是邏輯與,P21/WAF1是一個邏輯非,到最后Rb輸出的是一個邏輯與非,到Rb輸出時網(wǎng)絡(luò)被抑制(2000年被Rzhetsky等提出)[6-8]。
圖1 基因調(diào)控
非抑制型 [HTSS]該基因網(wǎng)絡(luò)是未被抑制的,該基因網(wǎng)絡(luò)在時間t+1的狀態(tài)是由時間t提供的。假設(shè)一個三個基因的未被抑制型的布爾網(wǎng)絡(luò)用邏輯電路網(wǎng)絡(luò)來表示(見圖3)。其中三個基因滿足的邏輯關(guān)系可以用以下的邏輯關(guān)系函數(shù)式表示:
x1(t+1)=x2(t)
x2(t+1)=x1(t) or x3(t)
x3(t+1)[WB]=(x1(t) and x2(t)) or (x2(t) and x3(t)) or
圖2 邏輯電路網(wǎng)絡(luò)
圖3 基因邏輯電路網(wǎng)絡(luò)
表2 邏輯真值表
依據(jù)真值表里的狀態(tài)可以繪制出邏輯狀態(tài)轉(zhuǎn)換圖(見圖4),進(jìn)而就得到了基因調(diào)控網(wǎng)絡(luò)的動態(tài)轉(zhuǎn)換的過程。從得到的基因調(diào)控網(wǎng)絡(luò)的動態(tài)轉(zhuǎn)換的過程可以了解以下知識:
(1) 把系統(tǒng)經(jīng)歷部分狀態(tài),最后圍繞一個反復(fù)出現(xiàn)的狀態(tài)周而復(fù)始地進(jìn)行的行為稱為狀態(tài)循環(huán),在圖4中010,100就是一個狀態(tài)循環(huán)。
圖4 基因調(diào)控網(wǎng)絡(luò)動態(tài)轉(zhuǎn)換
(2)傾向于狀態(tài)循環(huán),但又沒有處于循環(huán)之中的狀態(tài)稱為暫態(tài),如圖4中001,101,011,110都屬于暫態(tài)。
(3) 吸引子是系統(tǒng)被吸引并最終固定于某一狀態(tài)的性態(tài),在圖4中111就是一個吸引子。
(4) 流向狀態(tài)循環(huán)吸引子的狀態(tài)加上狀態(tài)循環(huán)合起來稱之為吸引子的吸引盆,在圖4中101到011到吸引子111,110到吸引子111就是一個吸引盆。如果吸引子的吸引盆區(qū)域越大,則說明吸引子有足夠的影響力,該吸引盆網(wǎng)絡(luò)的穩(wěn)定性越強(qiáng)。
4 布爾基因調(diào)控網(wǎng)絡(luò)的進(jìn)一步研究
根據(jù)給出的方法得到布爾基因調(diào)控網(wǎng)絡(luò)的邏輯關(guān)系函數(shù),然后用得到的邏輯關(guān)系函數(shù)找到基因調(diào)控網(wǎng)絡(luò)的動態(tài)變化過程,根據(jù)動態(tài)變化找到基因的變化。可以看到任何一個基因發(fā)生變化或任何一個狀態(tài)發(fā)生變化,都會引起整個動態(tài)網(wǎng)絡(luò)變化??梢园汛朔椒ㄓ糜谏锘蚓W(wǎng)絡(luò)的分析,可以利用通過比較正?;蚓W(wǎng)絡(luò)動態(tài)變化與變異基因網(wǎng)絡(luò)動態(tài)變化,在基因調(diào)控網(wǎng)絡(luò)中找到引起疾病的原因。布爾基因調(diào)控網(wǎng)絡(luò)在確定過程中有時受基因表達(dá)的不準(zhǔn)確性,導(dǎo)致得到的邏輯關(guān)系有問題。邏輯關(guān)系出現(xiàn)問題,后邊的邏輯狀態(tài)轉(zhuǎn)換過程有誤,不容易得到準(zhǔn)確的結(jié)論,對于疾病的研究會帶來不準(zhǔn)確性,再者基因調(diào)控網(wǎng)絡(luò)是一個動態(tài)網(wǎng)絡(luò),本來就具有不確定性,所以為了更好地研究基因調(diào)控網(wǎng)絡(luò),進(jìn)一步的研究工作是用概率布爾網(wǎng)絡(luò)來解決基因調(diào)控網(wǎng)絡(luò)的不確定性。
參 考 文 獻(xiàn)
[1]Kauffman S A.The Large-seale Structure and Dynamics of Gene Control Circuits[J].Anensemble Approach.Theor.,44:167-190.
[2]雷耀山,史定華,王翼飛.基因調(diào)控網(wǎng)絡(luò)的生物信息學(xué)研究[J].自然雜志,2004,26(1):7-12.
[3]王正華,王勇獻(xiàn).后基因組時代生物信息學(xué)的新進(jìn)展[J].國防科技大學(xué)學(xué)報,2003,25(1):1-6.
[4]張國偉,邵世煌,張穎.布爾基因網(wǎng)絡(luò)及其研究[J].東華大學(xué)學(xué)報:自然科學(xué)版,2006,32(2):127-130.
[5]Davidson E.A Genomic Regulation Network for Development[J].Science,2002,295:1 669-1 678.
[6]Shmulevich I,Dougherty E R,Kim S.Probabilistic Boolean Networks:A Rule-based Uncertainty Model for Gene Regulatory Networks[J].Bioinformatics,2002,18:261-274.
[7]Pal R.Generating Boolean Networks with a Pprescribed Attractor Structure[J].Bioinformatics,2005,21:4 021-4 025.
[8]Rzhetsky A,Koike T,Kalachikov S.A Knowledge Model for Analysis and Simulation of Regulatory Networks[J].Bioinformatics,2000,16:1 120-1 128.
作者簡介
王麗琴 女,1973年出生,河北張家口人,碩士研究生,講師。研究方向為生物信息學(xué)。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。