郁 湧,顧 捷,趙 娜,駱永軍,闞世林
(云南大學軟件學院,云南省軟件工程重點實驗室 昆明 650091)
人類第三代測序技術(shù)的迅速發(fā)展,讓生命系統(tǒng)組成元件間的相互作用關(guān)系信息得到更加快速的積累?;驍?shù)據(jù)的不斷豐富,表型數(shù)據(jù)的不斷增加,為理解疾病與致病基因之間的關(guān)系提供了大量有效的數(shù)據(jù)。在生物數(shù)據(jù)大量涌現(xiàn)的前提下,利用相關(guān)計算技術(shù)和模型對數(shù)據(jù)進行分析與挖掘,加快了生物學研究前進的步伐,可以深層次挖掘疾病表型與致病基因之間的關(guān)系,為了解疾病發(fā)病機理、疾病臨床診斷和疾病預(yù)防與治療提供了便利。
通過幾十年的努力,人類已經(jīng)發(fā)現(xiàn)了一些疾病的致病基因,如BRCA1 和BRCA2 基因在乳腺癌的發(fā)生中發(fā)揮重要的作用[1],EGFR 在肺癌的發(fā)生中發(fā)揮重要作用[2]。如果能夠知道更多疾病的致病基因,則可以在發(fā)病前期進行基因檢測預(yù)防,在發(fā)病過程中進行相應(yīng)的治療,后續(xù)也可以將發(fā)病機理應(yīng)用到藥物設(shè)計中,從而有效提高疾病的控制與治愈能力。通過疾病表型和致病基因關(guān)系的挖掘,使得疾病發(fā)病機理一目了然,在疾病發(fā)現(xiàn)過程中能直擊疾病發(fā)病原因,后續(xù)治療能做到藥到病除。
目前,挖掘疾病表型與致病基因的關(guān)聯(lián)關(guān)系是一個極具挑戰(zhàn)的課題。如果能夠設(shè)計出高精度的致病基因預(yù)測方法,對于生物學家、臨床醫(yī)師和遺傳學家等相關(guān)人員來說具有非常重要的意義。這不但有助于提高發(fā)現(xiàn)致病基因的準確率,縮短發(fā)現(xiàn)致病基因的周期,節(jié)省大量的人力物力,同時也為將來的生物醫(yī)學和基因治療診斷等技術(shù)的發(fā)展奠定重要基礎(chǔ)。
隨著計算機和生物技術(shù)的迅猛發(fā)展,大量的生物信息數(shù)據(jù)的產(chǎn)生,疾病和基因知識的可用性大幅度提高,科研人員也相應(yīng)提出了一系列疾病與基因預(yù)測的計算方法。其中,隨機游走是疾病與基因關(guān)聯(lián)關(guān)系預(yù)測中較為常見的辦法,主要包括重啟隨機游走和雙向隨機游走等幾種類型。文獻[3]在雙層耦合網(wǎng)絡(luò)上提出了重啟隨機游走,用于推斷潛在的miRNA與疾病的相關(guān)性。文獻[4]開發(fā)了BiRWHMDA的計算模型,通過在雙層耦合網(wǎng)絡(luò)上的雙向隨機游走來預(yù)測潛在的微生物與疾病關(guān)聯(lián)。文獻[5]提出在雙層耦合網(wǎng)絡(luò)上基于多路徑的雙向隨機游走預(yù)測微生物與疾病相關(guān)性。文獻[6]結(jié)合表型相似網(wǎng)絡(luò)、基因相似網(wǎng)絡(luò)和表型基因關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)成表型基因雙層耦合網(wǎng)絡(luò),并在其上采用重啟隨機游走算法,推出了一種新的預(yù)測疾病致病基因的方法。文獻[7]采用了帶重啟的隨機游走算法和最短路徑這兩種廣泛使用的算法,構(gòu)造了兩種參數(shù)化計算方法,即基于RWR 的方法和基于SP 的方法,并在此基礎(chǔ)上構(gòu)建了一種新的疾病基因識別的集成方法。
利用矩陣預(yù)測疾病與基因關(guān)系也是一個不錯的辦法。文獻[8]提出了一種基于歸納式矩陣補全預(yù)測潛在lncRNA 與疾病相關(guān)性的方法(predict lncRNAdisease associations from known data using IMC,SIMCLDA)。文獻[9]開發(fā)了一種利用協(xié)同矩陣因子分解預(yù)測人類微生物疾病相關(guān)性的模型(collaborative matrix factorization for human microbe-disease association, CMFHMDA)。文獻[10]提出一種基于Katz 方法的預(yù)估計和基于歸納型矩陣補全方法的精化估計兩步驟的Katz 增強歸納型矩陣補全的基因?疾病關(guān)聯(lián)預(yù)測模型。
把高斯相互作用應(yīng)用于預(yù)測之中,文獻[11]應(yīng)用高斯相互作用輪廓核相似測度確定微生物相似性和疾病相似性。文獻[12]建立了用于miRNAs與疾病相關(guān)性預(yù)測的雙層耦合網(wǎng)絡(luò)推理的計算模型,通過整合miRNAs 功能相似性、疾病語義相似性、高斯相互作用來揭示潛在的miRNAs 與疾病相關(guān)性。
將路徑作為預(yù)測分數(shù),文獻[13]引入PBHMDA(path-based human microbe-disease association),通過對微生物與疾病之間的所有路徑進行評估,得出每個候選微生物與疾病對的預(yù)測得分。
研究人員還提出了其他一些疾病與基因關(guān)系預(yù)測的辦法。文獻[14]提出了一種基于SimRank 和密度聚類推薦模型的miRNA 與疾病相關(guān)性預(yù)測方法(based on the SimRank and density-based clustering recommender model for miRNA-disease associations prediction, SRMDAP)。文獻[15]基于miRNA 與疾病關(guān)聯(lián)預(yù)測評分模型(within and between score for MiRNA-disease association prediction, WBSMDA)預(yù)測與各種復雜疾病關(guān)聯(lián)的miRNAs。文獻[16]采用拉普拉斯正則化最小二乘分類器(Laplacian regularized least squares for human microbe–disease association,LRLSHMDA)建立預(yù)測模型。文獻[17]將鏈路預(yù)測的思想引入到長非編碼RNA?疾病關(guān)聯(lián)預(yù)測中。文獻[18]提出一種基于密度聚類的二分網(wǎng)絡(luò)投影算法(bipartite network projection based on density clustering to predict miRNA-disease associations,BNPDCMDA)來預(yù)測miRNA?疾病關(guān)聯(lián)。
以隨機游走為主導思想的預(yù)測方法能夠擴大候選基因的范圍,可以避免遺漏連接度低和網(wǎng)絡(luò)邊緣的節(jié)點,尤其是在多基因疾病的預(yù)測中,可以大大提高預(yù)測候選致病基因方法的性能;在矩陣預(yù)測中,數(shù)據(jù)的稀疏對預(yù)測有很大的影響,PU 問題也是需要面對的另一個問題,加入Katz 方法也只緩解部分影響;使用高斯相互作用預(yù)測將疾病或者基因的相互作用信息作為特征向量,引入高斯核函數(shù),計算疾病或基因間的相似度后在進行疾病和基因之間的相似預(yù)測,但是對高斯相互作用相似度參數(shù)標準化后,基因或疾病高斯核相互作用相似值就不在依賴于數(shù)據(jù)集;路徑預(yù)測利用了生物信息節(jié)點之間的拓撲結(jié)構(gòu),在拓撲結(jié)構(gòu)的基礎(chǔ)上預(yù)測;其他一些算法都是基于機器學習的一些思想進行關(guān)聯(lián)預(yù)測的,然而有監(jiān)督的機器學習算法,需要假設(shè)與疾病相關(guān)的基因和不相關(guān)的基因是不關(guān)聯(lián)的,但是被證明與疾病相關(guān)的基因數(shù)量較少,且很少有實驗?zāi)軌蜃C明那些關(guān)系是不存在的。
進行多種算法比較研究后,可知基于隨機游走的方法相比矩陣預(yù)測或聚類的方法存在一定優(yōu)越性。本文根據(jù)疾病表型和疾病基因數(shù)據(jù)節(jié)點屬于不同類型節(jié)點這一特點,基于疾病表型和疾病基因數(shù)據(jù)來構(gòu)成雙層耦合網(wǎng)絡(luò),提出了在表型?基因的雙層耦合網(wǎng)絡(luò)基礎(chǔ)上進行帶有元路徑的隨機游走,從而實現(xiàn)關(guān)聯(lián)關(guān)系的預(yù)測與分析算法。
復雜網(wǎng)絡(luò)的研究大多局限于單個網(wǎng)絡(luò),而事實上單個網(wǎng)絡(luò)僅僅是更大復雜系統(tǒng)中的一個子集,復雜系統(tǒng)往往是由許多具有不同結(jié)構(gòu)與功能的網(wǎng)絡(luò)耦合而成的[19]。多層耦合網(wǎng)絡(luò)由多個子網(wǎng)絡(luò)構(gòu)成,網(wǎng)絡(luò)中每一層通過一些共享節(jié)點而耦合在一起,各層的節(jié)點具有不同的屬性,并且各層之間的節(jié)點存在耦合關(guān)系,一般分為相互依賴和相互協(xié)作兩種關(guān)系。例如,在線購物交易平臺依賴于因特網(wǎng),因特網(wǎng)又依賴于電力網(wǎng);公路網(wǎng)和鐵路網(wǎng)組成的雙層協(xié)作網(wǎng)絡(luò),兩者相互協(xié)作保障了人們出行的方便快捷。作為結(jié)果,一個網(wǎng)絡(luò)中的信息傳播可能出現(xiàn)在另一個網(wǎng)絡(luò)擴散,并最終導致一個信息級聯(lián)效應(yīng)。
本文利用小鼠的已知疾病表型之間的關(guān)聯(lián)關(guān)系、已知致病基因之間的關(guān)聯(lián)關(guān)系和已知疾病表型與致病基因之間的關(guān)聯(lián)關(guān)系,構(gòu)建出表型?基因的雙層耦合網(wǎng)絡(luò)。在表型?基因的雙層耦合網(wǎng)絡(luò)中,上層為表型關(guān)聯(lián)網(wǎng)絡(luò),下層為基因關(guān)聯(lián)網(wǎng)絡(luò),上下網(wǎng)絡(luò)之間通過表型與基因的關(guān)聯(lián)關(guān)系進行耦合。
信息網(wǎng)絡(luò)[20]是一個帶有對象類型的映射函數(shù)τ:V →A和 鏈接類型映射函數(shù) ?:E →R 的圖G=(V,E), 其中每個對象 v ∈V屬于一個特定的對象類型 τ(v)∈A ,每個鏈接 e ∈ε屬于一個特定的關(guān)系?(e)∈R,如果兩個鏈接屬于同一個關(guān)系類型,那么這兩個鏈接具有相同類型的開始對象和結(jié)束對象。
表型關(guān)聯(lián)網(wǎng)絡(luò)是一種信息網(wǎng)絡(luò),可以定義為NP=(P,EPP,WPP) ,其中 P={p1,p2,···,pm}表示表型節(jié)點的集合, EPP表示表型之間的關(guān)聯(lián)關(guān)系,WPP表 示關(guān)聯(lián)關(guān)系權(quán)重值,如果表型i與 表型 j有關(guān)聯(lián)關(guān)系,則權(quán)重值為1,否則為0。表示如下:
本文中表型關(guān)聯(lián)網(wǎng)絡(luò)需要的數(shù)據(jù)從MGI 數(shù)據(jù)庫中獲取得到,表型關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖1 所示。
圖1 表型關(guān)聯(lián)網(wǎng)絡(luò)示意圖
基因關(guān)聯(lián)網(wǎng)絡(luò)定義為 NG=(G,EGG,WGG),其中G={g1,g2,···,gn}表 示基因節(jié)點的集合, EGG表示基因之間的關(guān)聯(lián)關(guān)系, WGG表示關(guān)聯(lián)關(guān)系權(quán)重值,基因i與 基因 j有關(guān)聯(lián)關(guān)系則權(quán)重值為數(shù)據(jù)庫中所給數(shù)值,用α 表示,否則為0。表示如下:
文中基因關(guān)聯(lián)網(wǎng)絡(luò)需要的數(shù)據(jù)從MouseNet 下載,基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖2 所示。
圖2 基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖
表型?基因網(wǎng)絡(luò)數(shù)據(jù)來源于MGI 數(shù)據(jù)庫,定義為:NPG=(P∪G,EPG,WPG), 其中:P∪G={p1,p2,···,pm,g1,g2,···,gn}表示表型和基因節(jié)點的集合,EPG表示表型與基因之間的關(guān)聯(lián)關(guān)系, WPG表示關(guān)聯(lián)關(guān)系權(quán)重值,如果表型i與 基因 j有關(guān)聯(lián)關(guān)系則權(quán)重值為1,否則為0。表示如下:
表型?基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖如圖3 所示。
圖3 表型-基因關(guān)聯(lián)網(wǎng)絡(luò)示意圖
表型?基因雙層耦合網(wǎng)絡(luò)就是在表型關(guān)聯(lián)網(wǎng)絡(luò)NP、基因關(guān)聯(lián)網(wǎng)絡(luò) NG和表型?基因關(guān)聯(lián)網(wǎng)絡(luò) NPG基礎(chǔ)上,上層為表型網(wǎng)絡(luò) NP, 下層為基因網(wǎng)絡(luò) NG,表型?基因關(guān)聯(lián)網(wǎng)絡(luò) NPG節(jié)點間的關(guān)系作為上下層間的耦合關(guān)系而得到,可以定義為:NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG), 其 中V=P∪G表示包括表型與基因的所有節(jié)點,E=EPP∪EPG∪EGG表 示 節(jié) 點 間 的 鏈 接 關(guān) 系,W=WPP∪WPG∪WGG表示節(jié)點鏈接關(guān)系的權(quán)重值,表型?基因雙層耦合網(wǎng)示意圖如圖4 所示。
圖4 表型?基因雙層耦合網(wǎng)示意圖
圖4 中,實線部分為已知存在的關(guān)聯(lián)關(guān)系,包括了表型與表型的關(guān)聯(lián)、基因與基因的關(guān)聯(lián)和表型與基因的關(guān)聯(lián);虛線部分為待預(yù)測的表型與基因的關(guān)系是否關(guān)聯(lián)。
在2.1 節(jié)定義的基礎(chǔ)上,如果對象類型|A|>1或者關(guān)系類型 |R|>1時,該信息網(wǎng)絡(luò)為異構(gòu)信息網(wǎng)絡(luò)。從圖4 中可以看出在表型?基因雙層耦合網(wǎng)NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG)中 ,表型關(guān)聯(lián)網(wǎng)絡(luò) NP和基因關(guān)聯(lián)網(wǎng)絡(luò)NG的節(jié)點分屬兩個類型,通過表型?基因關(guān)聯(lián)網(wǎng)絡(luò)NPG進行耦合,整體上看表型?基因雙層耦合網(wǎng)為一個異構(gòu)網(wǎng)絡(luò)。
在表型?基因雙層耦合網(wǎng)絡(luò) NP?G中兩個節(jié)點之間就存在不同類型不同長度的元路徑,以圖4 為例,可以有 P →P →G 、 P →P →G →G、 P →P →P →P →G等。對于一個給定的網(wǎng)絡(luò),可能存在的元路徑數(shù)目與路徑長度成指數(shù)增長[21]。選擇不同的元路徑,表型與基因之間的關(guān)聯(lián)性也不同,同時,文獻[20]指出很長的元路徑并不是很有意義,反而路徑長度越大,關(guān)系越弱,預(yù)測也越模糊。因此,在表型與基因的關(guān)聯(lián)預(yù)測中,本文主要考慮如下4 條元路徑,如表1 所示。
表1 元路徑表
隨機游走(random walk)又稱隨機游動或隨機漫步,是一種數(shù)學統(tǒng)計模型,在金融、物理和社交媒體等復雜網(wǎng)絡(luò)分析中都有廣泛應(yīng)用。隨機游走模型是從圖上一個或一組節(jié)點開始,通過迭代隨機的訪問圖中的每一個節(jié)點。每一次移動時,當前節(jié)點都以一定的概率移動到他們的鄰居節(jié)點。因此,圖中每個節(jié)點都會獲得一個經(jīng)計算得到的當前節(jié)點游走到該節(jié)點的概率分布值[22]。文獻[23]提出了基于雙層耦合網(wǎng)絡(luò)的隨機游走RWRH 算法。RWRH 算法在不同的網(wǎng)絡(luò)中游走,從網(wǎng)絡(luò)G1或 者網(wǎng)絡(luò)G2的某一節(jié)點開始進行隨機游走,在游走過程中,以一定的概率停留在網(wǎng)絡(luò)G1的 下一個節(jié)點或者網(wǎng)絡(luò)G2的一個節(jié)點。
在表型?基因雙層耦合網(wǎng)絡(luò) NP?G中選定了元路徑,隨機游走將基于元路徑進行游走,但是,游走到元路徑中指定類型節(jié)點中的哪一個節(jié)點是未知的,即規(guī)定了下一步游走的節(jié)點類型但不固定某個節(jié)點。那么,表型?基因雙層耦合網(wǎng)絡(luò) NP?G中節(jié)點在既定的元路徑 P →P →G 、 P →G →G 、P →P →G →G和P →G →P →G下由上一個節(jié)點游走到下一個節(jié)點的跳轉(zhuǎn)概率有如下4 種表示:
式中,i表 示第i步跳轉(zhuǎn)。
將上式用矩陣形式表示如下:
因此,在表型-基因雙層耦合網(wǎng)絡(luò)NP?G=(V=P∪G,E=EPP∪EPG∪EGG,W=WPP∪WPG∪WGG)中,基于元路徑 MP1:P →P →G的 表型 pi到 基因 gi的跳轉(zhuǎn)概率矩陣 XPPG可表示為:
基于元路徑 MP2:P →G →G 的表型 pi到基因gi的 跳轉(zhuǎn)概率矩陣 XPGG可表示為:
基于元路徑 MP3:P →P →G →G的 表型 pi到基因 gi的 跳轉(zhuǎn)概率矩陣 XPPGG,可以表示為:
基于元路徑 MP4:P →G →P →G的 表型 pi到基因 gi的 跳轉(zhuǎn)概率矩陣 XPPGG可表示為:
在得到的跳轉(zhuǎn)概率矩陣X 中,其對應(yīng)的取值就是表型 pi到 基因 gi的關(guān)聯(lián)值大小,值越大,關(guān)聯(lián)越緊密;反之亦然。
MGI 是實驗室小鼠的國際數(shù)據(jù)庫資源,包含:小鼠基因組數(shù)據(jù)庫(MGD)、基因表達數(shù)據(jù)庫(GXD)、小鼠腫瘤生物學(MTB)數(shù)據(jù)庫、基因本體(GO)項目等。本文用到的表型數(shù)據(jù)和表型-基因數(shù)據(jù)集從MGI 數(shù)據(jù)庫資源下載獲得。其中,表型數(shù)據(jù)集包含了12 838 個疾病表型,構(gòu)成了16 108對表型與表型關(guān)聯(lián)對;表型-基因數(shù)據(jù)集共有表型與基因的關(guān)聯(lián)數(shù)據(jù)對37 246 對。
MouseNet V2 是許多生物醫(yī)學研究選擇的一種改進的實驗小鼠功能基因網(wǎng)絡(luò)。MouseNet V2 為2008 年MouseNet 的改進版本,加入了大量來自不同生物的新微陣列數(shù)據(jù)。MouseNet V2 現(xiàn)在覆蓋88%的編碼基因組,具有更高的準確性。本文使用基因數(shù)據(jù)即從MouseNet V2 中獲得,共有17 710個基因,構(gòu)成了關(guān)聯(lián)基因?qū)?88 081 對。
在4 條 元 路 徑 MP1:P →P →G 、MP2:P →G →G 、MP3:P →P →G →G和 MP4:P →G →P →G中進行隨機游走得到了表型在4 條元路徑下游走到基因的跳轉(zhuǎn)概率矩陣,即 XPPG、 XPGG、XPPGG和 XPGPG。 在所得到的 XPPG、 XPGG、 XPPGG和XPGPG數(shù)據(jù)中,找出4 個數(shù)據(jù)都同時存在的表型到基因的概率,在此前提下使用主成分分析的辦法,即通過變量變換的方法把相關(guān)的變量變?yōu)槿舾刹幌嚓P(guān)的綜合指標變量,從而實現(xiàn)對數(shù)據(jù)集的降維,在過程中求出綜合評價函數(shù)而得到不同元路徑下的權(quán)重值,即是X=αPPGXPPG+αPGGXPGG+αPPGGXPPGG+αPGPGXPGPG中 αPPG、 αPGG、 αPPGG和 αPGPG的 值。最后進行表型到基因在元路徑下按權(quán)重累加,并選出前 k名為最終結(jié)果,作為表型與基因關(guān)聯(lián)關(guān)系的預(yù)測值。
為了評價本文算法預(yù)測表型與基因關(guān)聯(lián)關(guān)系的性能,采用留一交叉驗證法(leave-one-out cross validation, LOO)實驗。在數(shù)據(jù)的N 個樣本中,每次實驗將一個樣本作為測試集,剩下的N?1 個樣本作為訓練集,直到所有的樣本都被作為測試集,即得到N 個模型,在此過程中利用接收者操作特征(ROC)曲線[24]對預(yù)測性能進行評價,繪制截止時的真陽性率(TPR、敏感性或召回)與假陽性率(FPR、1-特異性)的關(guān)系曲線。
在ROC 曲線繪制和AUC 面積的計算時,使用到如下的定義:
其中,條件正(P):數(shù)據(jù)中實際正案例數(shù);條件負(N):數(shù)據(jù)中的實際負案例數(shù);TP 和TN 代表正確預(yù)測的真正和真負數(shù)量;FP 和FN 代表錯誤預(yù)測的假陽性和假陰性。
將本文算法與其他3 種相關(guān)預(yù)測算法RWR[25]、LPIHN[26]和PRINCE[27]進行測試比較。RWR 算法從已知的致病基因以相同的概率出發(fā),隨機走向鄰居節(jié)點,當前后兩次游走的概率向量相同或者前后兩次游走的概率差值小于某個閥值時,認為游走達到平衡,然后將概率值從大到小排序,排名靠前的說明基因與疾病的相關(guān)性較大,認為該基因是該疾病的致病基因。LPIHN 是一種在異構(gòu)網(wǎng)絡(luò)上實現(xiàn)隨機游走的方法。PRINCE 是一種基于對優(yōu)先級函數(shù)的約束的全局方法,從某個查詢疾病表型出發(fā)游走至整個網(wǎng)絡(luò),通過計算在基因節(jié)點鄰居中與查詢疾病關(guān)聯(lián)的基因的優(yōu)先次序后,合并相似性信息中分數(shù)高的基因作為致病基因。RWR 方法中的重啟概率 r經(jīng)過多次試驗,對試驗結(jié)果影響不大,所以設(shè)置 r=0.5;LPIHN 的參數(shù)根據(jù)[26]文中提及參數(shù)值特設(shè)置如下: γ=0.5, β=0.5, δ=0.3;PRINCE 的參數(shù)根據(jù)[27]文中提及數(shù)值而設(shè)置如下: α=0.5,c=?15, d=lg(9 999),傳播迭代次數(shù)為10。所得結(jié)果如圖5 所示,其中THIS 代表本文提出的算法。
圖5 不同算法測試ROC 曲線
結(jié)果表明,在所給數(shù)據(jù)實驗中,本文提出的算法的AUC 得分為93%,高于RWR、LPIHN 和PRINCE的AUC 值,分別為79%、88%和82%。
隨著基因數(shù)據(jù)和表型數(shù)據(jù)的不斷增加,為理解疾病與致病基因之間的關(guān)系提供了大量有效的數(shù)據(jù),也為利用數(shù)據(jù)分析與挖掘的手段找出疾病表型與致病基因之間的關(guān)系提供了便利。為此,旨在設(shè)計一種算法來找到表型節(jié)點與基因節(jié)點的更多關(guān)聯(lián)關(guān)系。本文在經(jīng)典的隨機游走方法上加入了元路徑的概念,充分利用先驗知識及網(wǎng)絡(luò)中包含的生物關(guān)系來預(yù)測發(fā)現(xiàn)表型與基因的關(guān)聯(lián)關(guān)系。從實驗結(jié)果可以看出,本文算法的正確率高于RWR、LPIHN和PRINCE 等算法,能夠得到較好的預(yù)測效果。
在后續(xù)的工作中,有如下幾方面可以做進一步研究:1) 整合更可靠的生物網(wǎng)絡(luò)數(shù)據(jù)。生物信息知識的缺乏和實驗數(shù)據(jù)的假陽性都會對實驗的預(yù)測結(jié)果造成誤差,整合其他有用的生物數(shù)據(jù)將會提高生物網(wǎng)絡(luò)數(shù)據(jù)的可靠性。2) 整合多重生物網(wǎng)絡(luò)數(shù)據(jù)。如將序列相似性、功能注釋、微陣列表達、蛋白質(zhì)域、通路成員等數(shù)據(jù)庫整合為一個完整數(shù)據(jù)進行相應(yīng)的預(yù)測。3) 改變生物網(wǎng)絡(luò)的拓撲特征??梢赃m當改變網(wǎng)絡(luò)的拓撲特征,如介數(shù)中心性、緊密中心性、聚類系數(shù)等,再進行關(guān)聯(lián)預(yù)測。