亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信息熵的加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)融合方法

2018-03-26 02:30:20伍度志

電子科技大學(xué)學(xué)報(bào) 2018年2期

伍度志，楊帆，趙靜

(1.重慶工商大學(xué)融智學(xué)院重慶巴南區(qū) 401320；2.陸軍勤務(wù)學(xué)院數(shù)學(xué)教研室重慶沙坪壩區(qū) 401331；3.上海中醫(yī)藥大學(xué)交叉科學(xué)研究院上海浦東新區(qū) 201203)

加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)(weighted gene association network, WGAN)是表示基因間功能相關(guān)關(guān)系的復(fù)雜網(wǎng)絡(luò)[1]，其中節(jié)點(diǎn)代表基因，邊代表基因間的相互作用，權(quán)重代表相互作用的可信度。WGAN網(wǎng)絡(luò)的構(gòu)建是為了克服目前已有的生物學(xué)實(shí)驗(yàn)數(shù)據(jù)與實(shí)際存在的基因功能相關(guān)關(guān)系相比嚴(yán)重不足、以及高通量實(shí)驗(yàn)的結(jié)果存在嚴(yán)重噪聲的問題。通常采用計(jì)算方法整合與基因的功能聯(lián)系相關(guān)的各種生物學(xué)特征的數(shù)據(jù)源，推斷基因之間的關(guān)聯(lián)關(guān)系，并對(duì)每一對(duì)關(guān)聯(lián)關(guān)系賦予置信分，作為網(wǎng)絡(luò)中邊的權(quán)重，從而構(gòu)建加權(quán)的基因關(guān)聯(lián)網(wǎng)絡(luò)。因此這類網(wǎng)絡(luò)既包含了一些特定類型的基因或蛋白間的相互作用信息，如蛋白-蛋白相互作用[2](PPI)、基因共表達(dá)[3]、轉(zhuǎn)錄調(diào)控[4]、信號(hào)通路[5]等，又比特定類型的分子網(wǎng)絡(luò)包含更廣泛的信息。

目前，基因相關(guān)關(guān)系的數(shù)據(jù)融合方法主要分為主觀打分融合方法、相似性融合方法和統(tǒng)計(jì)推斷打分方法3種類型。通過這些方法已經(jīng)構(gòu)建了一些WGAN網(wǎng)絡(luò)，就人類基因組而言，有HIPPIE[6]、HumanNet[7]、STRING[8]以及FunCoup[9]網(wǎng)絡(luò)等。文獻(xiàn)[6]收集了現(xiàn)有的蛋白-蛋白相互作用數(shù)據(jù)庫(kù)BioGrid[10]、IntAct[11]、MINT[12]、DIP[13]、BIND[14]等中的數(shù)據(jù)，基于試驗(yàn)方法的先進(jìn)性、支持基因間關(guān)聯(lián)關(guān)系的文獻(xiàn)數(shù)目以及在非人類物種中存在該連接的基因?qū)?shù)目3種不同的信息，自定義了一種基因?qū)Φ拇蚍址椒ǎ瑢?duì)每一對(duì)基因間的關(guān)聯(lián)關(guān)系的可靠性進(jìn)行打分，從而構(gòu)建了HIPPIE網(wǎng)絡(luò)。文獻(xiàn)[7]基于概率似然比提出一種統(tǒng)一的網(wǎng)絡(luò)邊權(quán)打分方法，該方法以基因本體注釋數(shù)據(jù)庫(kù)GO(gene ontology)[15]為背景網(wǎng)絡(luò)，對(duì)21個(gè)基因功能數(shù)據(jù)集中的每一條邊進(jìn)行重新打分，得到了HumanNet網(wǎng)絡(luò)。文獻(xiàn)[8]通過建立樸素貝葉斯分類器模型方法，融合多種與基因關(guān)聯(lián)關(guān)系相關(guān)的生物學(xué)數(shù)據(jù)源，得到了一個(gè)加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)STRING網(wǎng)絡(luò)。文獻(xiàn)[9]選取了八大真核生物體的大規(guī)模數(shù)據(jù)，通過樸素貝葉斯模型方法融合得到了FunCoup網(wǎng)絡(luò)。

基于網(wǎng)絡(luò)的復(fù)雜疾病病理學(xué)和藥理學(xué)的研究，廣泛應(yīng)用人類全基因組加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)作為背景網(wǎng)絡(luò)，以識(shí)別疾病相關(guān)基因、探測(cè)藥物對(duì)應(yīng)的網(wǎng)絡(luò)藥靶，從而加深復(fù)雜疾病的醫(yī)學(xué)認(rèn)識(shí)、改進(jìn)復(fù)雜疾病的治療?？梢韵胍?，背景網(wǎng)絡(luò)的質(zhì)量，與相關(guān)研究結(jié)果的精確度是相關(guān)的?，F(xiàn)有的人類全基因組基因關(guān)聯(lián)網(wǎng)絡(luò)如HumanNet、STRING和FunCoup等，各自在生物學(xué)基礎(chǔ)研究及疾病研究中都有成功應(yīng)用的案例[16-18]。然而，這些網(wǎng)絡(luò)間卻存在著巨大差異。它們雖然包含了80%以上相同的基因，但擁有的相同的關(guān)聯(lián)邊卻很少，低于各自總邊數(shù)的10%。如果在這些已有的WGAN的基礎(chǔ)上，進(jìn)一步識(shí)別其中包含的正確信息，將它們?nèi)诤铣梢粋€(gè)信息更全、更準(zhǔn)確的加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)，對(duì)于更好地從系統(tǒng)水平理解細(xì)胞內(nèi)部生物學(xué)過程、以及研究復(fù)雜疾病的病理,都是很有意義的。

本文利用信息熵[19]刻畫基因連邊權(quán)重的不確定度，提出了基于信息熵理論的融合策略，在現(xiàn)有4個(gè)人類全基因組WGAN基礎(chǔ)上，充分利用多個(gè)網(wǎng)絡(luò)中所有連邊的信息來構(gòu)造包含更多節(jié)點(diǎn)和邊的WGAN。本文將原有網(wǎng)絡(luò)及新構(gòu)建的網(wǎng)絡(luò)分別用于肥胖癥的疾病基因預(yù)測(cè)[20]，以檢驗(yàn)新網(wǎng)絡(luò)的應(yīng)用價(jià)值。

1 WGAN網(wǎng)絡(luò)融合模型

1.1 網(wǎng)絡(luò)邊權(quán)的不確定度刻畫

熵是衡量某一個(gè)體系混亂程度的變量，它在不同領(lǐng)域被引申為更為具體的解釋。在研究隨機(jī)現(xiàn)象的過程中，熵用來描述隨機(jī)現(xiàn)象發(fā)生的平均不確定度，為評(píng)估隨機(jī)現(xiàn)象發(fā)生的不確定程度提供了一個(gè)定量的指標(biāo)。同樣，這一指標(biāo)也被廣泛應(yīng)用于信息理論的研究領(lǐng)域，被稱為信息熵。

對(duì)于某一隨機(jī)現(xiàn)象X，若X包含n種可能的結(jié)果，且分布率為則隨機(jī)現(xiàn)象X發(fā)生的不確定程度可以通過信息熵定義如下：

本文擬將此方法應(yīng)用于WGAN網(wǎng)絡(luò)的融合。對(duì)于WGAN網(wǎng)絡(luò)，可以通過適當(dāng)?shù)臍w一化方法，使它的邊權(quán)取之于區(qū)間(0,1]。因此，在后面的描述中，總假設(shè)WGAN網(wǎng)絡(luò)中的邊權(quán)取之于區(qū)間(0,1]。假設(shè)現(xiàn)有m個(gè)WGAN網(wǎng)絡(luò)N1,N2,…,Nm，它們具有相同的基因，其中網(wǎng)絡(luò)Nk中i、j基因節(jié)點(diǎn)的連邊權(quán)重記為則融合這m個(gè)WGAN網(wǎng)絡(luò)就是要將網(wǎng)絡(luò)中任意基因?qū)、j的連邊權(quán)重融合成一個(gè)新的權(quán)重，作為融合后網(wǎng)絡(luò)中基因?qū)、j的連邊權(quán)重W(ij)。由于現(xiàn)有的融合算法主要限于線性融合，因此，上面的融合問題轉(zhuǎn)化為尋找融合系數(shù)使：

為了尋找合理的融合系數(shù)，需要對(duì)每一組基因?qū)B邊進(jìn)行深入分析。由于WGAN網(wǎng)絡(luò)中的邊權(quán)取之于區(qū)間(0,1]，因此，W(ij)可以理解為WGAN網(wǎng)絡(luò)中基因i、j連邊的概率，由此可以定義如下隨機(jī)現(xiàn)象Y：

因此，WGAN網(wǎng)絡(luò)中基因i、j連邊的不確定程度可以通過式(3)來刻畫。顯然，式(2)中融合系數(shù)的設(shè)計(jì)與連邊自身的不確定程度密切相關(guān)，這為融合系數(shù)設(shè)計(jì)提供了有價(jià)值的途徑。

1.2 WGAN網(wǎng)絡(luò)連邊權(quán)重預(yù)處理

在實(shí)際情況中，同一對(duì)基因可能在一些網(wǎng)絡(luò)中存在連邊，而在另一些網(wǎng)絡(luò)中不存在連邊，對(duì)于后者，用式(3)來刻畫其連邊的不確定性顯然是不合適的，因?yàn)槭?3)中要求連邊概率W(ij)大于零。為了處理這種情況，需要對(duì)基因?qū)Φ倪B邊做適當(dāng)?shù)奶幚?，從而使得融合更加合理。本文先求得背景網(wǎng)絡(luò)的連邊并集N，則N中的每一條連邊都對(duì)應(yīng)著h個(gè)權(quán)重且h≤m，對(duì)于那些在一些網(wǎng)絡(luò)中存在連邊，而在另一些網(wǎng)絡(luò)中不存在連邊的基因?qū)?，假設(shè)其在對(duì)應(yīng)背景網(wǎng)絡(luò)上也存在連邊并將其權(quán)重設(shè)為一個(gè)非常小的數(shù)值ε。通過這種處理，N中每一條連邊都存在m個(gè)權(quán)值，從而可以利用式(3)來設(shè)計(jì)融合系數(shù)。同時(shí)，如果網(wǎng)絡(luò)的一組基因?qū)Φ倪B邊權(quán)重為1，則重新修改它的權(quán)重為1?ε。從而，通過預(yù)處理后的各WGAN網(wǎng)絡(luò)中的基因?qū)B邊的最小權(quán)值為ε。

1.3 基于信息熵的WGAN網(wǎng)絡(luò)數(shù)據(jù)融合模型

圖1 網(wǎng)絡(luò)融合過程簡(jiǎn)略圖

對(duì)第k個(gè)WGAN網(wǎng)絡(luò)Nk的每一組基因?qū)、j的連邊權(quán)重利用式(3)，可以定義該連邊的不確定程度越大，則該連邊的不確定程度越大，因此，在確定融合系數(shù)時(shí)，應(yīng)該賦以相應(yīng)連邊的融合系數(shù)一個(gè)比較小的值，反之則賦以一個(gè)比較大的融合系數(shù)。為此，對(duì)各網(wǎng)絡(luò)的每一組基因?qū)、j的連邊，引入如下函數(shù)：

式中，θ>0為調(diào)整因子，主要用于調(diào)整基因?qū)、j連邊的不確定程度對(duì)函數(shù)的影響程度。在實(shí)際應(yīng)用中，可以通過訓(xùn)練的方法來選擇適當(dāng)?shù)膮?shù)θ(見1.4節(jié))。不難分析出，函數(shù)是基因?qū)、j連邊的不確定程度單調(diào)遞減函數(shù)，因此可以利用它來定義相應(yīng)的融合系數(shù)。通過對(duì)函數(shù)做歸一化處理，定義m個(gè)WGAN網(wǎng)絡(luò)中基因?qū)、j連邊的融合系數(shù)為：

則對(duì)這m個(gè)WGAN網(wǎng)絡(luò)融合后的網(wǎng)絡(luò)中基因?qū)、j連邊的連邊權(quán)重為。圖1為兩個(gè)網(wǎng)絡(luò)的融合過程簡(jiǎn)略圖。

1.4 模型參數(shù)確定

根據(jù)基因本體注釋數(shù)據(jù)庫(kù)GO中全體人類基因的功能信息，構(gòu)建GO網(wǎng)絡(luò)，并將它作為測(cè)試網(wǎng)絡(luò)，確定融合模型的參數(shù)。GO數(shù)據(jù)庫(kù)是基因本體聯(lián)合會(huì)(Gene Onotology Consortium)所建立的數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)對(duì)大量物種中的每個(gè)基因和蛋白質(zhì)的功能用標(biāo)準(zhǔn)的生物學(xué)詞匯條目(GO term)進(jìn)行描述。本文構(gòu)建的GO網(wǎng)絡(luò)中節(jié)點(diǎn)代表人類基因，若兩個(gè)基因至少有一個(gè)共同的GO term, 則它們對(duì)應(yīng)的節(jié)點(diǎn)有連邊，連邊的權(quán)重為這兩個(gè)基因共有的GO term的數(shù)目，并將其歸一化到(0,1]區(qū)間。因此GO網(wǎng)絡(luò)中基因的連邊代表兩個(gè)基因在生物功能上有相關(guān)性，邊權(quán)則代表這個(gè)相關(guān)性的強(qiáng)弱程度。

θ為調(diào)節(jié)信息熵對(duì)融合系數(shù)影響程度的調(diào)整因子。為了選擇較為合適的調(diào)整區(qū)間，本文通過分析式(4)的函數(shù)模型，分別選取不同的θ(0～5，以0.1為步長(zhǎng))以及不同的信息熵值H(0.05～1，以0.05為步長(zhǎng))作為自變量，觀測(cè)比較了θ和H對(duì)融合系數(shù)的影響程度，如圖2所示。

圖2 θ和H對(duì)融合系數(shù)的影響

由圖2可以看出，當(dāng)邊權(quán)的信息熵值H比較小時(shí)，θ只有取值略小，才能使融合系數(shù)具有有效的區(qū)分度；當(dāng)邊權(quán)的信息熵值H比較大時(shí)，θ只有取值稍大，才能使融合系數(shù)具有有效的區(qū)分度；由于加權(quán)基因網(wǎng)絡(luò)的邊權(quán)信息熵值大小分布不均，為了使融合系數(shù)都具有有效的區(qū)分度，因此建議選擇θ的調(diào)整區(qū)間為(0,3)。

本文將把融合后網(wǎng)絡(luò)的權(quán)值與GO網(wǎng)絡(luò)的權(quán)值進(jìn)行比較分析，計(jì)算其共同連邊權(quán)值對(duì)應(yīng)的差平方和，并且在這個(gè)值達(dá)到最小時(shí)選取對(duì)應(yīng)的模型參數(shù)θ，從而將模型參數(shù)的確定轉(zhuǎn)化為優(yōu)化的求解問題：

式中，Wθ表示參數(shù)條件下的融合后網(wǎng)絡(luò)連邊權(quán)值；WGONet表示GO網(wǎng)絡(luò)連邊權(quán)值。

2 融合算法實(shí)例

2.1 原始網(wǎng)絡(luò)預(yù)處理

本文針對(duì)提出的網(wǎng)絡(luò)融合模型，對(duì)4個(gè)現(xiàn)有的人類全基因組加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)，即HIPPIE、HumanNet、FunCoup和STRING進(jìn)行融合。將這4個(gè)原始WGAN網(wǎng)絡(luò)分別記為4個(gè)網(wǎng)絡(luò)的基因數(shù)和連邊信息如表1所示。

表1 4個(gè)原始網(wǎng)絡(luò)的基本信息

因?yàn)?個(gè)網(wǎng)絡(luò)的連邊信息和節(jié)點(diǎn)信息各不相同，因此首先需要按照1.2節(jié)中的方法處理。先求得4個(gè)基因網(wǎng)絡(luò)的并集網(wǎng)絡(luò)N，再按照1.2節(jié)中的方法來補(bǔ)充定義某些基因?qū)Φ倪B邊權(quán)重。經(jīng)過這種處理，4個(gè)網(wǎng)絡(luò)的每一條連邊都對(duì)應(yīng)著4個(gè)權(quán)值，即分別為4個(gè)子網(wǎng)絡(luò)所對(duì)應(yīng)的權(quán)值。截取并集網(wǎng)絡(luò)的一部分表2所示。

表2 并集網(wǎng)絡(luò)N的部分?jǐn)?shù)據(jù)

表2中，Gene ID表示某個(gè)基因的Entrez ID，W表示各背景網(wǎng)絡(luò)中對(duì)應(yīng)邊的權(quán)重。本文研究中，取ε=0.001。

2.2 4個(gè)WGAN網(wǎng)絡(luò)的融合

根據(jù)式(4)、式(5)，需要計(jì)算各網(wǎng)絡(luò)中每一組基因?qū)、j連邊的函數(shù)和融合系數(shù)為了選取比較合適的調(diào)整因子，本文選取了GO網(wǎng)絡(luò)作為訓(xùn)練網(wǎng)絡(luò)，分步長(zhǎng)對(duì)融合系數(shù)函數(shù)中的θ參數(shù)進(jìn)行訓(xùn)練。通過比較分析，實(shí)驗(yàn)結(jié)果得到的θ和f(θ)變化關(guān)系如圖3所示。

由圖3可以看出，f(θ)隨θ的變化先呈現(xiàn)遞減后遞增的趨勢(shì)，在θ取0.3時(shí)，f(θ)達(dá)到最小。

在取θ為0.3的情況下，利用式(4)、式(5)，可以將4個(gè)網(wǎng)絡(luò)每一組基因?qū)Φ膇、j連邊進(jìn)行融合，從而得到一個(gè)新的網(wǎng)絡(luò)FN, 其節(jié)點(diǎn)數(shù)為19 490，邊數(shù)為7 092 510。

圖3 參數(shù)θ的訓(xùn)練

然后，比較融合前后網(wǎng)絡(luò)與GO網(wǎng)絡(luò)的共同連邊數(shù)以及共同連邊權(quán)重的Person相關(guān)系數(shù)，得到圖4。

圖4 融合前后網(wǎng)絡(luò)與GO網(wǎng)絡(luò)的比較

從圖4可以看出，相比原始網(wǎng)絡(luò)，融合后的網(wǎng)絡(luò)FN連邊信息更加豐富，并且其權(quán)重經(jīng)過融合后，與GO共同連邊權(quán)重的Person相關(guān)系數(shù)相比原始網(wǎng)絡(luò)有顯著提高，說明FN的邊權(quán)比原始網(wǎng)絡(luò)的邊權(quán)有更強(qiáng)的生物學(xué)相關(guān)性。

3 肥胖癥的疾病基因預(yù)測(cè)

生物系統(tǒng)是由多分子和基因相互作用的結(jié)果。復(fù)雜疾病的基因不是孤立存在的，基因與基因之間有相互作用。加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)的研究為系統(tǒng)生物學(xué)和疾病分子預(yù)測(cè)提供了一個(gè)嶄新的平臺(tái)，對(duì)預(yù)測(cè)疾病相關(guān)基因做出了較大的貢獻(xiàn)。由于相同的疾病基因在基因關(guān)聯(lián)網(wǎng)絡(luò)中具有鄰近性，因此基于網(wǎng)絡(luò)的預(yù)測(cè)方法被廣泛應(yīng)用于疾病基因預(yù)測(cè)研究中。為了檢驗(yàn)融合后網(wǎng)絡(luò)的實(shí)用性，本文分別將融合前后的網(wǎng)絡(luò)作為背景網(wǎng)絡(luò)，進(jìn)行肥胖癥的疾病基因預(yù)測(cè)。

3.1 預(yù)測(cè)方法概述

基于網(wǎng)絡(luò)的疾病基因預(yù)測(cè)方法將已知的疾病基因作為先驗(yàn)信息組成種子集，根據(jù)候選基因與種子基因在網(wǎng)絡(luò)上的拓?fù)潢P(guān)系，預(yù)測(cè)候選基因是疾病基因的可能性。本文采用直接鄰居法[21]，該方法是把與已知疾病致病基因直接相連的基因作為疾病的可能致病基因，基于全網(wǎng)絡(luò)對(duì)每一個(gè)基因進(jìn)行打分，得出其與已知致病基因直接相連的總得分Si，即與致病基因直接相連的邊的權(quán)重總和。其模型為：

式中，Wij表示基因i和致病基因j的連邊權(quán)重；seed表示已知致病基因集。由此可得全網(wǎng)絡(luò)中的每一個(gè)基因的得分值，再將所有基因依據(jù)其分值由大到小進(jìn)行排序。本文截?cái)喑雠琶皀個(gè)基因，計(jì)算預(yù)測(cè)準(zhǔn)確值，即測(cè)試集中的基因在這n個(gè)基因中所占的比例。

本文從人類孟德爾遺傳在線數(shù)據(jù)庫(kù)OMIM(online Mendelian inheritance in man, OMIM)[22]和文獻(xiàn)中收集已知的肥胖癥(obesity)的致病基因。其中從OMIM數(shù)據(jù)庫(kù)獲得24個(gè)肥胖癥致病基因，從文獻(xiàn)[23]中獲得與肥胖癥相關(guān)的373個(gè)基因。

3.2 預(yù)測(cè)效果分析

本文用兩種方法檢驗(yàn)疾病基因的預(yù)測(cè)效果，一種是留一交互驗(yàn)證法[24], 另一種是模擬尋找疾病基因的方法[21]。

圖5 用留一交叉驗(yàn)證比較融合前后網(wǎng)絡(luò)的疾病基因預(yù)測(cè)效果

在留一交叉驗(yàn)證法中，將OMIM中的24個(gè)疾病基因與文獻(xiàn)中的373個(gè)疾病基因合并，得到已知的肥胖癥疾病基因集合。每次利用此集合中的一個(gè)疾病基因構(gòu)成測(cè)試集，剩余的疾病基因構(gòu)成種子集。用式(7)對(duì)背景網(wǎng)絡(luò)中的每個(gè)基因打分，驗(yàn)證算法是否能夠成功地預(yù)測(cè)測(cè)試基因?yàn)橹虏』?。圖5顯示了按分值排名截取不同比例的網(wǎng)絡(luò)基因組總基因數(shù)時(shí)，以不同網(wǎng)絡(luò)為背景網(wǎng)絡(luò)所得到的預(yù)測(cè)準(zhǔn)確率，即在不同的比例下，合并疾病基因集中被預(yù)測(cè)到的疾病基因占集合總基因數(shù)的比值?？梢钥闯?，融合后的網(wǎng)絡(luò)FN與網(wǎng)絡(luò)STRING取得了最好的預(yù)測(cè)準(zhǔn)確率。

在模擬尋找疾病基因的方法中，本文以O(shè)MIM中的24個(gè)疾病基因構(gòu)成種子集，文獻(xiàn)[23]中的373個(gè)疾病相關(guān)基因作為測(cè)試集，對(duì)網(wǎng)絡(luò)進(jìn)行打分。分別選擇得分最高的20和200個(gè)基因?yàn)轭A(yù)測(cè)的疾病基因，比較融合前后背景網(wǎng)絡(luò)下被預(yù)測(cè)到的疾病相關(guān)基因所占比例。以排名的截?cái)嘀禐闄M坐標(biāo)，以預(yù)測(cè)準(zhǔn)確值為縱坐標(biāo)將融合前的4個(gè)網(wǎng)絡(luò)HIPPIE、HumanNet、FunCoup、STRING和融合后的網(wǎng)絡(luò)FN做疾病基因預(yù)測(cè)效果對(duì)比分析，如圖6所示。

圖6 融合前后的網(wǎng)絡(luò)預(yù)測(cè)效果比較

由圖6可以看出，當(dāng)截?cái)嘀禐?0時(shí)，融合后的網(wǎng)絡(luò)FN的預(yù)測(cè)準(zhǔn)確值比4個(gè)原始網(wǎng)絡(luò)高；當(dāng)截?cái)嘀禐?00時(shí)，融合后的網(wǎng)絡(luò)FN的預(yù)測(cè)準(zhǔn)確值和STRING相當(dāng)，顯著高于其他3個(gè)網(wǎng)絡(luò)的預(yù)測(cè)效果。

這些結(jié)果說明，本文融合后的網(wǎng)絡(luò)FN可以成功地用于疾病基因預(yù)測(cè)。

4 結(jié)束語

本文研究是加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)融合方面的一個(gè)新的嘗試，提出了一種基于信息熵的WGAN網(wǎng)絡(luò)數(shù)據(jù)融合方法，將現(xiàn)有的人類加權(quán)基因關(guān)聯(lián)網(wǎng)絡(luò)的信息進(jìn)行整合。通過此方法，本文構(gòu)建了一個(gè)包含現(xiàn)有網(wǎng)絡(luò)所有節(jié)點(diǎn)和邊信息的融合網(wǎng)絡(luò)FN。通過與GO網(wǎng)絡(luò)對(duì)比顯示，F(xiàn)N的邊權(quán)比原始網(wǎng)絡(luò)中的邊權(quán)有更強(qiáng)的生物學(xué)相關(guān)性。將FN與原始網(wǎng)絡(luò)同時(shí)用于肥胖癥的疾病基因預(yù)測(cè)，發(fā)現(xiàn)FN的預(yù)測(cè)效果高于或相當(dāng)于效果最好的原始網(wǎng)絡(luò)STRING，說明此網(wǎng)絡(luò)可以用于疾病基因預(yù)測(cè)。此工作在生物網(wǎng)絡(luò)數(shù)據(jù)整合以及疾病基因預(yù)測(cè)的研究方面都有重要的價(jià)值。

[1]周濤, 張子柯, 陳關(guān)榮, 等.復(fù)雜網(wǎng)絡(luò)研究的機(jī)遇與挑戰(zhàn)[J].電子科技大學(xué)學(xué)報(bào), 2014, 43(1): 1-5.ZHOU Tao, ZHANG Zi-ke, CHEN Guan-rong, et al.The opportunities and challenges of complex network research[J].Journal of University of Electronic Science and Technology of China, 2014, 43(1): 1-5.

[2]WILLIAMSON M P, SUTCLIFFE M J.Protein-protein interactions[J].Biochemical Society Transactions, 2010,38(4): 875-878.

[3]ZHANG B, HORVATH S.A general framework for weighted gene co-expression network analysis[J].Statistical Applications in Genetics and Molecular Biology, 2005, 4(1):1128.

[4]CILIBERTO G, COLANTUONI V, DE FRANCESCO R, et al.Transcriptional control of gene expression in hepatic cells[M]//KARIN M.Gene Eexpression: General and Cell-Type-Specific.[S.l.]: Birkh?user, 1993.

[5]MARTINI P, SALES G, MASSA M S, et al.Along signal paths: an empirical gene set approach exploiting pathway topology[J].Nucleic Acids Research, 2013, 41(1): e19.

[6]SCHAEFER M H, FONTAINE J F, VINAYAGAM A, et al.HIPPIE: Integrating protein interaction networks with experiment based quality scores[J].PloS One, 2012, 7(2):e31826.

[7]LEE I, BLOM U M, WANG P I, et al.Prioritizing candidate disease genes by network-based boosting of genome-wide association data[J].Genome Research, 2011, 21(7):1109-1121.

[8]FRANCESCHINI A, SZKLARCZYK D, FRANKILD S, et al.STRING v9.1: Protein-protein interaction networks, with increased coverage and integration[J].Nucleic Acids Research, 2013, 41(D1): D808-D815.

[9]ALEXEYENKO A, SONNHAMMER E L.Global networks of functional coupling in eukaryotes from comprehensive data integration[J].Genome Research, 2009, 19(6): 1107-1116.

[10]CHATR-ARYAMONTRI A, BREITKREUTZ B J,OUGHTRED R, et al.The BioGRID interaction database:2015 update[J].Nucleic Acids Research, 2015, 43(D1):D470-D478.

[11]HERMJAKOB H,MONTECCHI‐PALAZZI L,LEWINGTON C, et al.IntAct: an open source molecular interaction database[J].Nucleic Acids Research, 2004,32(suppl 1): D452-D455.

[12]CHATR-ARYAMONTRI A, CEOL A, PALAZZI L M, et al.MINT: the molecular INTeraction database[J].Nucleic Acids Research, 2007, 35(suppl 1): D572-D574.

[13]XENARIOS I, SALWINSKI L, DUAN X J, et al.DIP, the database of interacting proteins: a research tool for studying cellular networks of protein interactions[J].Nucleic Acids Research, 2002, 30(1): 303-305.

[14]BADER G D, BETEL D, HOGUE C W V.BIND: the biomolecular interaction network database[J].Nucleic Acids Research, 2003, 31(1): 248-250.

[15]Gene Ontology Consortium.The gene ontology (GO)database and informatics resource[J].Nucleic Acids Research, 2004, 32(suppl 1): D258-D261.

[16]RE M, VALENTINI G.Random walking on functional interaction networks to rank genes involved in cancer[C]//IFIP International Conference on Artificial Intelligence Applications and Innovations.Berlin,Heidelberg: Springer, 2012: 66-75.

[17]TABOADA B, VERDE C, MERINO E.High accuracy operon prediction method based on STRING database scores[J].Nucleic Acids Research, 2010, 38(12): e130.

[18]ZHAO J, WANG C L, YANG T H, et al.A comparison of three weighted human gene functional association networks[C]//2012 IEEE 6th International Conference on Systems Biology (ISB).[S.l.]: IEEE, 2012: 26-31.

[19]COVER T M, THOMAS J A.Elements of information theory[M].[S.l.]: John Wiley & Sons, 2012.

[20]呂琳媛.復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)[J].電子科技大學(xué)學(xué)報(bào),2010, 39(5): 651-661.Lü Lin-yuan.Link prediction on complex network[J].Journal of University of Electronic Science and Technology of China, 2010, 39(5): 651-661.

[21]LINGHU B, SNITKIN E S, HU Z, et al.Genome-wide prioritization of disease genes and identification of disease-disease associations from an integrated human functional linkage network[J].Genome Biology, 2009,10(9): 1-17.

[22]HAMOSH A, SCOTT A F, AMBERGER J S, et al.Online mendelian inheritance in man (OMIM), a knowledgebase of human genes and genetic disorders[J].Nucleic Acids Research, 2005, 33(suppl 1): D514-D517.

[23]HANCOCK A M, WITONSKY DB, GORDON A S, et al.Adaptations to climate in candidate genes for common metabolic disorders[J].PLoS Genetics, 2008, 4(2): e32.

[24]REFAEILZADEH P, TANG L, LIU H.Crossvalidation[M]//Encyclopedia of Database Systems.[S.l.]:Springer US, 2009: 532-538.