王麗琴,劉思琦
(張家口職業(yè)技術學院電氣工程系,河北張家口075051)
電子電路研究具有悠久的歷史,目前電路理論研究已經(jīng)非常成熟。由于電路網(wǎng)絡與基因網(wǎng)絡具有很強的類比性,所以可以依據(jù)成熟電路理論中的一些分析方法,作為分析基因網(wǎng)絡結構和其功能的一種有效的分析方法。另外,也可以把電路網(wǎng)絡中一些比較成功的設計技術用到基因網(wǎng)絡的人工合成方面。電路理論中用來分析和設計邏輯電路有一種方法叫做布爾代數(shù),利用布爾代數(shù)中布爾邏輯關系函數(shù)的知識可以尋找基因之間的關系。DNA中表現(xiàn)出的整個信息集稱為基因組(genome),它具有一定的生理功能,能夠復制產(chǎn)生,可以控制生命現(xiàn)象?;蚪M是指含有若干個基因的生物體,即包含生存、發(fā)育、活動和繁殖所需要的全部遺傳信息的整套核酸?;蛘{(diào)控網(wǎng)絡一般是由若干個基因組成,而且每一個基因又與其它基因相作用產(chǎn)生關系,互相之間形成一定的調(diào)控關系。電路網(wǎng)絡中基本元件是晶體管元件,元件之間產(chǎn)生一定的邏輯關系。考慮到這種類比性,可以利用電路理論分析基因網(wǎng)絡的調(diào)控關系。
基因調(diào)控系統(tǒng)基本變化規(guī)律:一個系統(tǒng)在需要時被打開,不需要時被關閉。而系統(tǒng)中的一個基因的表達受其它基因的表達的牽制,這種基因之間相互影響、相互制約的關系構成復雜的基因調(diào)控網(wǎng)絡[1]?;蛘{(diào)控網(wǎng)絡的變化關系也與電路理論中的布爾網(wǎng)絡非常相似。電路理論中用1、0表示電路中的閉合、斷開;基因網(wǎng)絡中基因的表達和不表達也可以用1、0來類比表示?;蛑g的牽制關系可以利用電路理論中的布爾代數(shù)進行分析,從而得到基因之間的調(diào)控關系。
布爾邏輯代數(shù)中所提到的布爾網(wǎng)絡由節(jié)點組成,并對布爾網(wǎng)絡[2][3]中的所有節(jié)點分別用二進制數(shù)值0和1表示,該布爾網(wǎng)絡輸出狀態(tài)可以用其輸入狀態(tài)決定其輸出的布爾值。在基因調(diào)控網(wǎng)絡中可以把布爾代數(shù)中的節(jié)點看成基因,如果基因被表達用1表示,基因沒有被表達用0表示,輸入如果用xi(t)表示,基因被表達xi(t)=1,基因沒有被表達xi(t)=0,此時的輸出狀態(tài)x(t+1)=[x1(t),x2(t),…xn(t)]。
為了更好地研究基因網(wǎng)絡模型,在此討論一下對基因布爾網(wǎng)絡圖的研究(如圖1所示)。此基因布爾網(wǎng)絡圖中的所有基因類似于一個電路網(wǎng)絡的所有節(jié)點。該基因布爾網(wǎng)絡圖中的輸出狀態(tài)按照一定的布爾邏輯函數(shù)受輸入狀態(tài)的決定,其布爾邏輯函數(shù)表達式為(如公式1所示):
在該基因布爾網(wǎng)絡圖中每一個節(jié)點類似一個基因,基因彼此之間的關系具有電路理論所描述的邏輯關系,受該邏輯關系的決定得出基因的輸出狀態(tài)。可以把這個狀態(tài)的變化看成是一個系統(tǒng),系統(tǒng)中的基因由布爾邏輯關系確定下一時刻基因的取值是1或0(如圖2所示)??梢园严到y(tǒng)中基因變化關系用真值表給出(如表1所示)。列出當節(jié)點X1、X2、X3在t時刻的狀態(tài),它們決定其在 t+1時刻的狀態(tài)[4]。
圖1 基因布爾網(wǎng)絡圖
表1 基因表達邏輯真值表
圖2 布爾網(wǎng)絡模型狀態(tài)轉換圖
在基因布爾網(wǎng)絡圖中X1、X2、X3的狀態(tài)由某一個初始值開始,由一定的布爾邏輯規(guī)則決定狀態(tài)之間的轉換,直到最后達到一定的狀態(tài)而終止。如果布爾網(wǎng)絡中的初始狀態(tài)不一樣,基因布爾網(wǎng)絡以不同的穩(wěn)定狀態(tài)終止;如果這些變化狀態(tài)與細胞聯(lián)系在一起,就可以得到不同的基因活動的過程變化關系。根據(jù)分析可以了解,基因的穩(wěn)定狀態(tài)分兩種情況:一種是單穩(wěn)態(tài),也就是說系統(tǒng)中的單個狀態(tài)在此循環(huán)圈中變化不再進入其它狀態(tài)。如圖2(a)所示,初始狀態(tài)取值(1,1,1),以它為起點開始發(fā)生變化,變化到狀態(tài)(1,0,1)以后就在(1,0,1) 內(nèi)變化而不再進入其它狀態(tài)。另一種是多穩(wěn)態(tài)狀態(tài),就是說系統(tǒng)狀態(tài)不是單一的穩(wěn)定,而是在一個循環(huán)圈里算是穩(wěn)定,許多基因所決定的狀態(tài)在系統(tǒng)循環(huán)圈里不斷地變化。如圖2(b)所示,系統(tǒng)由(0,1,1) 或(0,0,1) 進入到由(0,0,0)、(0,1,0)、(1,1,0)和(1,0,0)決定的循環(huán)圈里往返變化。
表2 關于D'的學習函數(shù)真值表
研究基因或蛋白質(zhì)的調(diào)控網(wǎng)絡,可以采用以表達譜數(shù)據(jù)噪音作為樣本,根據(jù)啟發(fā)式搜索[5][6],構成一個搜索的過程,從搜索中建立基因調(diào)控網(wǎng)絡。
下面可以通過一個例子說明這種方法。四個基因的布爾網(wǎng)絡模型(如圖3所示)中,V={A,B,C,D}表示是四個布爾網(wǎng)絡中基因的集合,V'={A',B',C',D'} 表示狀態(tài)發(fā)生改變以后的四個基因狀態(tài)的集合。通過上述的搜索辦法,利用基因表達譜數(shù)據(jù)中的噪音,可以找到模型的布爾邏輯函數(shù)[9]。首先,先搜索第一層,把第一層中的子集分類,根據(jù)公式H(X)=-∑PXlog2PX,分別可以得到{A},{B},{C},{D},{D'} 所對應的熵,由互信息公式 I(X;Y)=H(X)+H(Y)-H(X|Y)分別確定{A},{B},{C},{D}與{D'}的互信息;由于在第一層子集中{A}與D'享有最大的互信息,所以找到了{A};然后,在第二層繼續(xù)搜索,這時的搜索是建立在{A}的基礎上,分別在{A,B}{A,C}{A,D}中搜索。依據(jù)同樣的方法找到{A,C};然后,在第三層繼續(xù)搜索,這時只在{A,B,C}{A,C,D} 中搜索,找到{A,C,D};最后在第四層可以搜索到靶集合{A,B,C,D}。
圖3 啟發(fā)式搜索圖
上述算法中,由于表達譜數(shù)據(jù)中有噪音,在真值表中0111值所對應的輸出值出現(xiàn)了0或1兩個值(如表2所示)。這種情況在電路理論卡諾圖中為不確定項,在人類研究基因調(diào)控網(wǎng)絡的各種方法中,這樣的輸入值0111所對應的輸出究竟是0還是1無法分析。這里可以引入一個系數(shù)ε,來克服噪音的存在。通過引入一個系數(shù)ε,然后把基因或蛋白質(zhì)數(shù)據(jù)中的噪音確定為不確定的項,像在電路理論中創(chuàng)建一個卡諾圖,然后用建立的卡諾圖去尋找蛋白質(zhì)或基因之間所存在的邏輯關系,進而分析基因或蛋白質(zhì)之間的狀態(tài)變化關系。
卡諾圖[7]由美國工程師卡諾首先提出,它作為邏輯函數(shù)的圖形表示法,不但可以表示邏輯函數(shù),同時可以完成邏輯函數(shù)的化簡。卡諾圖與真值表一一對應,即真值表的某一行對應著卡諾圖的某一個小方格。如果真值表中的某一行函數(shù)值為“1”,卡諾圖中對應的小方格填“1”;如果真值表的某一行函數(shù)值為“0”,卡諾圖中對應的小方格填“0”。即可以得到邏輯函數(shù)的卡諾圖。在用卡諾圖表示和化簡邏輯函數(shù)時,無關項既可以取0,也可以取1,恰好與基因表達數(shù)據(jù)中的噪音項(表中標記“*”的項)類似。用卡諾圖表示基因或蛋白質(zhì)邏輯函數(shù)之后,利用含有無關項卡諾圖的邏輯函數(shù)化簡規(guī)則,在卡諾圖上圈出可以合并的項(如圖4所示),這時不但可以找到含有噪音存在的基因或蛋白質(zhì)的邏輯關系,而且是最簡的邏輯函數(shù)關系。
圖4 D'含有無關項的卡諾圖
前面的研究中,基因數(shù)據(jù)中如果有噪音出現(xiàn),則使基因的分析過程增添很多麻煩。這里通過引入一個系數(shù)ε,然后利用電路理論中的卡諾圖來得到布爾邏輯規(guī)則的函數(shù)。在例子中研究搜索D'關于集合V={A,B,C,D}的布爾邏輯規(guī)則。D'關于ABCD之間的邏輯規(guī)則,其邏輯真值表如表1所示。表中輸入值為0111,卻有1和0兩個輸出值,可以看到該輸入值有噪音,表中“*”表示基因數(shù)據(jù)的噪音。在這里討論用互信息熵作為理論依據(jù)分析此基因網(wǎng)絡的布爾邏輯規(guī)則,因為在真值表中基因表達譜有16種狀態(tài),所以認為其錯誤率即噪音率是1/17,這里選擇互信息熵為依據(jù)的系數(shù)ε=0.26,就是利用卡諾圖找到D'關于集合V={A,B,C,D}的布爾邏輯規(guī)則。一般系數(shù)ε的確定是依據(jù)數(shù)據(jù)噪音的情況考慮一個比較符合要求的值,利用數(shù)據(jù)表達譜中的噪音(不確定項)建立一個卡諾圖(如圖4所示),其中基因數(shù)據(jù)中的噪音在卡諾圖中作為一個不確定項用“×”表示,依據(jù)邏輯代數(shù)中的卡諾圖把基因表達譜數(shù)據(jù)描述出來,根據(jù)邏輯代數(shù)卡諾圖很容易找到布爾邏輯規(guī)則。利用卡諾圖不但可以清楚地描述基因表達數(shù)據(jù)之間輸入和輸出之間的關系,還可以完成基因數(shù)據(jù)之間的邏輯規(guī)則化簡,輕松找到基因之間的邏輯規(guī)則。D'關于集合V={A,B,C,D}的布爾邏輯函數(shù)是D'=AB+CD。用同樣的辦法,對于含有噪音數(shù)據(jù)的基因表達數(shù)據(jù)輸出分別為A'、B'以及C',可以得到它們關于集合V={A,B,C,D}的布爾邏輯函數(shù)。
本文提到利用電路理論中的卡諾圖建立基因調(diào)控網(wǎng)絡的新方法,特別是在基因數(shù)據(jù)出現(xiàn)噪音時并沒有給該方法帶來困擾;提出利用噪音去建立基因之間的邏輯關系。實際問題中有些基因網(wǎng)絡含有成千上萬個基因。由于單獨的算法不足以用來解決這種實際問題,所以文中提到兩種方法聯(lián)合起來建立基因調(diào)控網(wǎng)絡。但是從生物學立場來說,也并不是完全可靠,因為實際的基因調(diào)控網(wǎng)絡含有的基因數(shù)要遠大于實驗中的基因數(shù)。從基因表達數(shù)據(jù)來預測潛在的基因調(diào)控模型,是人類對生命現(xiàn)象的重要理解。
[1] E.Davidson. A genomic regulation network for development,Science[J].2002,295:1669-1678.
[2]張國偉,邵世煌,張穎 等.布爾基因網(wǎng)絡及其研究[J].東華大學學報(自然科學版),2006,32(2):127~129.
[3]朱雪龍.應用信息論基礎[M].北京:清華大學出版社,2000.14-35.
[4]Y.zheng,K.C.Kwoh.Identifying Decision Lists with the Discrete Function Learning Algorithm CSB2002[J].2002.
[5]S.Liang,S.Fuhrman,R.Somogyi.A general reverse engineering algorithms for genetic network architectures Biocomputing 98[J].1998,VOL.3:18-29.
[6]王麗琴,李建更,王煥文.構建基因調(diào)控布爾網(wǎng)絡的一種方法[J].中國西部科技(學術),2007,(4):7-9.
[7]李艷新,任中民,李源生 等.數(shù)字電子技術[M].北京:清華大學出版社,2005.12-17.