王夙加劉云奇孫啟軒高任飛王之瓊
(1.東北大學(xué)醫(yī)學(xué)與生物信息工程學(xué)院;2.東北大學(xué)理學(xué)院;3.東北大學(xué)軟件學(xué)院)
基因本身蘊含著非常龐大且復(fù)雜的生物信息[1],通過建立基因調(diào)控網(wǎng)絡(luò)可以直觀地了解基因之間的相互作用機(jī)制,基因?qū)M織細(xì)胞的調(diào)控機(jī)理等除此之外,我們通過對基因?qū)用娴难芯?,可以更加深入地了解疾病的發(fā)生與發(fā)展,從而可以針對疾病的診斷和治療采取更為適當(dāng)且有效的手段,達(dá)到治療疾病、造福人類的目的[2]。特別是近幾年的在癌癥治療上的應(yīng)用,例如靶向藥的研發(fā)與使用就達(dá)到很好的治療效果。它可以針對癌細(xì)胞特異性的給藥,相對于傳統(tǒng)的化療等癌癥治療手段來說可以極大地減輕患者治療時的痛苦。這種靶向藥物的研發(fā)很大程度上依賴于準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)的分析與研究,因此,基因調(diào)控網(wǎng)絡(luò)優(yōu)化的研究成為了重要的研究內(nèi)容。近些年來,人們提出了許多基因調(diào)控網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的方法,Jamshid等人[3]基于卡爾曼濾波和線性回歸方法改進(jìn)了貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的搜索策略,并且利用條件互信息對構(gòu)建好的網(wǎng)絡(luò)進(jìn)行了結(jié)構(gòu)優(yōu)化。Margolin等人[4]提出了基于信息論的ARACNE算法來構(gòu)建基因調(diào)控網(wǎng)絡(luò),消除了大多數(shù)由共表達(dá)方法得出的間接交互,從而推斷轉(zhuǎn)錄調(diào)控蛋白與靶點基因間的直接調(diào)控關(guān)系,Liu等人[5]提出了一種利用最小冗余網(wǎng)絡(luò)(MRNET)算法減少冗余邊的優(yōu)化方法,通過減少基因的非調(diào)控和弱間接調(diào)控來減少基因間冗余關(guān)系進(jìn)而獲取優(yōu)化網(wǎng)絡(luò)。Xing等人[6]提出了洪水-修剪-爬坡算法(FPHC)作為一種基于貝葉斯網(wǎng)絡(luò)的基因調(diào)控網(wǎng)絡(luò)重建的新型混合方法。
以上這些優(yōu)化方法雖然取得了一定的研究進(jìn)展,但當(dāng)前仍有待深入地研究與探索更為有效且精確性高的優(yōu)化算法。想要達(dá)到高效準(zhǔn)確地優(yōu)化基因調(diào)控網(wǎng)絡(luò)的目的,就必須要準(zhǔn)確地尋找出基因間的冗余關(guān)系并刪除它們?;诖耍覀儗⑷蹰g接調(diào)控關(guān)系的分析與判斷作為尋找冗余邊的重點并開展了相關(guān)研究。首先,利用互信息(MI)來計算任意兩個基因間的相關(guān)性,通過這種方法可以對基因間的相關(guān)程度進(jìn)行量化評估。接著使用洪水—剪枝算法,把目標(biāo)基因進(jìn)行數(shù)據(jù)處理等級劃分(DPI),劃分出的目標(biāo)基因間的弱關(guān)聯(lián)調(diào)控關(guān)系作為待刪除的邊。此外,引入了聚類算法的思想,首先采用重要程度評分(IDS)對基因間的相關(guān)聯(lián)程度進(jìn)行評估,然后結(jié)合使用k-means聚類算法,其中表現(xiàn)較差的類也歸為待刪除的邊。最后,將兩種方式同時尋找并確定為待刪除的邊進(jìn)行刪除。最終經(jīng)過實驗對此優(yōu)化算法的準(zhǔn)確性等進(jìn)行進(jìn)一步驗證對比,發(fā)現(xiàn)此方法在敏感性、特異性、精確性、準(zhǔn)確性等評估指標(biāo)上均優(yōu)于其他傳統(tǒng)方法,可提高優(yōu)化效率,具有很好的應(yīng)用性。
通過分析基因芯片探測基因表達(dá)數(shù)據(jù),可以構(gòu)建基因調(diào)控網(wǎng)絡(luò)。關(guān)聯(lián)網(wǎng)絡(luò)與關(guān)聯(lián)性背景相似性是基于信息論的基因調(diào)控網(wǎng)絡(luò)構(gòu)建常用方法。然而,使用這兩種方法很容易引入由間接調(diào)控引起的假性陽邊。
面向基因調(diào)控網(wǎng)絡(luò)的弱關(guān)聯(lián)調(diào)控優(yōu)化方法主要可以分為以下三個步驟:計算基因間的相關(guān)性,分別采用洪水—剪枝算法和K-means算法計算弱關(guān)聯(lián)調(diào)控邊,根據(jù)兩種算法綜合判斷弱關(guān)聯(lián)調(diào)控關(guān)系并刪除。步驟一,計算基因間相關(guān)性。根據(jù)輸入的基因表達(dá)數(shù)據(jù),計算基因間的互信息值。步驟二,計算弱關(guān)聯(lián)調(diào)控邊。通過基因之間的互信息值對基因調(diào)控邊進(jìn)行重要程度打分,然后利用K-means算法(類別設(shè)為4),選出重要程度打分較低的一類作為待刪邊集合A。使用洪水—剪枝算法對每個基因進(jìn)行操作,找到每個基因相關(guān)的待刪邊集合B。步驟三,已經(jīng)計算出洪水—剪枝算法和K-means算法分別計算出的待刪邊集合,查詢其中共同判斷為弱關(guān)聯(lián)調(diào)控的邊并刪除,更新基因的調(diào)控網(wǎng)絡(luò)。
查找目標(biāo)基因相關(guān)基因集沿用了“關(guān)聯(lián)背景相似性方法”的思想:若某些基因的互信息呈一定的概率分布,他們之間可能會存在聯(lián)系,于是本算法首先對于每一個目標(biāo)基因與其他基因的互信息進(jìn)行升序排序,并且設(shè)置斷點K,將集合分為兩個部分。數(shù)據(jù)處理不等式存在一定的局限性,所以本算法可以設(shè)定數(shù)據(jù)處理級別,根據(jù)數(shù)據(jù)處理不等式對相關(guān)點集中的基因進(jìn)行級別定義與閾值的設(shè)定,找出閾值以上的基因集合set 1。同一類事物往往具有相似的性質(zhì),所以本項目算法基于聚類技術(shù)選擇弱調(diào)控基因,首先對基因的重要程度進(jìn)行特定的打分,再利用K-means算法對打分結(jié)果進(jìn)行聚類,與目標(biāo)基因同一類的被選為弱調(diào)控基因,其中與set1集合的交集為與目標(biāo)基因存在假陽邊關(guān)系的基因集合set2。算法的總體框架如圖1所示。
圖1 面向基因調(diào)控網(wǎng)絡(luò)的弱關(guān)聯(lián)調(diào)控優(yōu)化方法整體算法框圖
已知目標(biāo)節(jié)點X和所有其他節(jié)點的互信息向量M={T1,T2,......,Tm},m=n-1,并將所有互信息按升序排列。根據(jù)以上分析,零假設(shè)和備選假設(shè)如下:
零假設(shè):沒有斷點存在
備選假設(shè):一個重要的斷點存在,即在向量M中存在一點將集合分為相關(guān)節(jié)點和其他節(jié)點兩部分。在零假設(shè)下,若所有互信息均來自相同分布,則概率為。在備選假設(shè)下,在向量中存在目標(biāo)節(jié)點X的一個斷點,位于K∈[1,m]的位置,故兩類節(jié)點來自兩個不同的分布,可以定義如下式:
之后使用數(shù)據(jù)處理等級(DPI)對目標(biāo)節(jié)點X的假陽性邊進(jìn)行修剪。節(jié)點Ti∈Rx的數(shù)據(jù)處理級別定義如下:
如果Ti是第一個節(jié)點,定義數(shù)據(jù)處理等級為1;如果不是,對于每個在Ti前的節(jié)點定義一個三元組,Ti的數(shù)據(jù)處理等級被定義為的最大數(shù)據(jù)處理等級,如滿足數(shù)據(jù)處理等級不等式,則i+1。數(shù)據(jù)處理不等式如下:
在計算了互信息(MI)和重要程度打分(IDS)后,得到每個基因與其他基因的相關(guān)性系數(shù),通過此系數(shù),刪除那些相關(guān)性較差的基因關(guān)系[8]。我們使用K-means聚類算法,將每個基因與其它基因的相關(guān)系數(shù)進(jìn)行聚類,經(jīng)過百余次試驗發(fā)現(xiàn),將結(jié)果聚為4類,能得到最好的結(jié)果。刪去4類中結(jié)果最差的一類,保留余下的3類,得到最后的網(wǎng)絡(luò)結(jié)構(gòu)。
流程如下所述:首先,讀取通過IDS算法得到的IDS矩陣(隨機(jī)設(shè)置4個聚類中心),分配數(shù)據(jù)點,并計算數(shù)據(jù)的平均誤差,若最終仍有結(jié)果為空,則重新隨機(jī)設(shè)置4個聚類中心,再進(jìn)行計算,直到結(jié)果不為空;逐步更新聚類的中心,計算平均誤差,比較前后兩次的平均誤差是否相同,直到兩次的誤差相同,得到最終的分類結(jié)果。我們選擇最差的一類,作為最終的刪邊矩陣。
實驗所選用帶金標(biāo)準(zhǔn)網(wǎng)絡(luò)的大腸桿菌Dream4中的基因表達(dá)微陣列數(shù)據(jù)multifactorial數(shù)據(jù),此數(shù)據(jù)共有五個網(wǎng)絡(luò),每個網(wǎng)絡(luò)各有100個基因數(shù)據(jù),我們選取了其中更具代表性的網(wǎng)絡(luò)一進(jìn)行分析。分別對本算法、ARANCNE算法和GRNInfer算法的性能進(jìn)行評價,在對算法進(jìn)行評價時,選用了敏感性、特異性、精確性、準(zhǔn)確性、馬修斯相關(guān)系數(shù)5個指標(biāo),各指標(biāo)說明如表1所示。
表1 各評估指標(biāo)說明表
其中,TP表示真陽邊,即邊實際為陽性邊且被判斷為陽性的邊;FP表示假陽邊,即邊實際為陰性邊卻被判斷為陽性的邊;TN表示真陰邊,即邊實際為陰性邊且被判斷為陰性的邊;FN表示假陰邊,即邊實際為陽性邊卻被判斷為陰性的邊。
實驗結(jié)果顯示了三種算法的五個評估指標(biāo)對比,如表2所示。
表2 各算法的五項評估指標(biāo)對比
從表2中的信息我們可以得知,WRO算法五項評估指標(biāo)優(yōu)于ARANCNE和GRNInfer算法,在基因調(diào)控網(wǎng)絡(luò)中的優(yōu)化效果更加優(yōu)良。在準(zhǔn)確率的方面,WRO算法的準(zhǔn)確率可以達(dá)到98%以上,比ARANCNE和GRNInfer算法的準(zhǔn)確率提高2%-4%。特異性水平達(dá)到99%,為進(jìn)一步研究基因調(diào)控網(wǎng)絡(luò)的優(yōu)化打下基礎(chǔ)。在精確性、敏感性和MCC評估指標(biāo)上,相較于ARANCNE和GRNInfer算法,WRO算法提升36%-45%,假陽邊比例顯著降低,篩選掉的假陽邊數(shù)量和準(zhǔn)確度較大幅度提升,從而使最終真陽邊所占比例明顯升高,實現(xiàn)了在正確刪除假陽邊的同時減少錯誤刪除真陽邊概率的目標(biāo)。馬修斯相關(guān)系數(shù)MCC的評估結(jié)果提升,也表示預(yù)測的結(jié)果與實際結(jié)果之間的誤差減小,可以更加準(zhǔn)確地預(yù)測優(yōu)化結(jié)果。此外,WRO算法可操作性強(qiáng),具有廣闊的應(yīng)用發(fā)展前景。
為進(jìn)一步提高基因調(diào)控網(wǎng)絡(luò)的精確度,提升優(yōu)化網(wǎng)絡(luò)效率,本文提出了面向基因調(diào)控網(wǎng)絡(luò)的弱關(guān)聯(lián)調(diào)控優(yōu)化方法,該方法將洪水—剪枝算法和K-means聚類算法合理有效的相互結(jié)合,準(zhǔn)確地判斷出基因調(diào)控網(wǎng)絡(luò)中的弱關(guān)聯(lián)調(diào)控關(guān)系。通過實驗證明,該方法有效地提高了分析和判斷弱間接調(diào)控關(guān)系的能力,減少了錯誤刪除冗余邊的概率,同時,對比其他先進(jìn)方法,本方法在五項評估指標(biāo)上均較優(yōu)。