亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于蛋白質(zhì)互作知識(shí)的生物學(xué)通路擴(kuò)充新方法

        2014-05-10 01:25:02趙小蕾左曉宇覃繼恒梁巖張乃尊欒奕昭饒紹奇
        遺傳 2014年4期
        關(guān)鍵詞:生物學(xué)蛋白質(zhì)通路

        趙小蕾,左曉宇,覃繼恒,梁巖,張乃尊,欒奕昭,饒紹奇.

        1. 廣東醫(yī)學(xué)院醫(yī)學(xué)系統(tǒng)生物學(xué)研究所與公共衛(wèi)生學(xué)院,東莞 523808;

        2. 中山大學(xué)公共衛(wèi)生學(xué)院,廣州 510080;

        3. 茂名市人民醫(yī)院,茂名 525000

        京都基因與基因組百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)中的通路數(shù)據(jù)庫(kù)(KEGG PATHWAY database)是系統(tǒng)性分析和闡釋基因功能的重要知識(shí)庫(kù),涵蓋了從基本細(xì)胞過(guò)程到人類復(fù)雜疾病等重要生命過(guò)程中分子間的相互作用和網(wǎng)絡(luò)關(guān)系[1,2],已成為研究細(xì)胞生化過(guò)程如代謝、膜轉(zhuǎn)運(yùn)、信號(hào)傳遞和細(xì)胞周期以及人類復(fù)雜疾病致病分子機(jī)制的重要參考工具[3~5]。KEGG通路通過(guò)描述分子間的相互互作和反應(yīng)的信息以闡釋基因及其產(chǎn)物的功能。KEGG通路數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)對(duì)象也被稱為是廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò),包括基因產(chǎn)物(節(jié)點(diǎn))和3種類型的相互作用和關(guān)系(邊):酶-酶關(guān)系、直接的蛋白質(zhì)-蛋白質(zhì)互作、基因表達(dá)關(guān)系[6,7]。隨著分子生物學(xué)研究的不斷深入,KEGG通路數(shù)據(jù)庫(kù)得到快速地積累和擴(kuò)充,已從 2001年的201個(gè)通路約6000個(gè)基因產(chǎn)物節(jié)點(diǎn)[6]增加到2010年的300多個(gè)通路約17000多個(gè)蛋白質(zhì)節(jié)點(diǎn)[8]。盡管如此,對(duì)于復(fù)雜的生命過(guò)程而言,該數(shù)據(jù)庫(kù)掌握的知識(shí)仍只是冰山一角,亟需進(jìn)一步進(jìn)行知識(shí)擴(kuò)充和完善。但是,受限于實(shí)驗(yàn)成果發(fā)表周期以及數(shù)據(jù)庫(kù)管理人員手工擴(kuò)充通路信息造成的滯后,傳統(tǒng)的基于實(shí)驗(yàn)室技術(shù)的通路擴(kuò)充方法已然不能滿足當(dāng)前分子生物學(xué)研究的需求。生物信息學(xué)預(yù)測(cè)方法為通路擴(kuò)充提供了一種有效和便利的途徑。

        既往的通路(網(wǎng)絡(luò))擴(kuò)充、重構(gòu)和預(yù)測(cè)方法多基于基因表達(dá)數(shù)據(jù)提取基因間相互作用的關(guān)系[9,10]。例如:Markus等[11]提出可以利用基于相關(guān)的方法擴(kuò)充現(xiàn)有的調(diào)控網(wǎng)絡(luò); Luo等[12]利用基于三方互信息的方法推斷轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。此外,概率布爾網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)的方法也被廣泛用于生物學(xué)通路的重構(gòu)和擴(kuò)充[13,14]。然而,這些方法存在以下幾個(gè)缺陷:首先,需要借助高通量基因表達(dá)譜數(shù)據(jù),這些數(shù)據(jù)往往不能滿足理論模型依賴的統(tǒng)計(jì)分布假設(shè)條件; 其次,這些方法沒(méi)有充分利用到日益積累的蛋白質(zhì)-蛋白質(zhì)互作和基因功能注釋等先驗(yàn)生物學(xué)知識(shí),其結(jié)果缺乏合理的生物學(xué)解釋,難以被廣泛接受。

        為了克服上述缺陷,本文提出了一種基于蛋白質(zhì)-蛋白質(zhì)互作(Protein-protein interaction,PPI)和基因本體論(Gene Ontology,GO)[15]數(shù)據(jù)庫(kù)知識(shí)的通路擴(kuò)充方法。該方法主要通過(guò)利用目標(biāo)基因的互作鄰居的功能學(xué)信息,預(yù)測(cè)其可能參與的生物學(xué)通路以實(shí)現(xiàn)通路擴(kuò)充的目的。PPI數(shù)據(jù)庫(kù)主要存儲(chǔ)通過(guò)實(shí)驗(yàn)方法或者計(jì)算生物學(xué)方法獲得的蛋白質(zhì)-蛋白質(zhì)互作信息[16,17],已被廣泛應(yīng)用于分子網(wǎng)絡(luò)的構(gòu)建[18]、功能分類[19]以及基因功能預(yù)測(cè)[20]等生物學(xué)研究。GO數(shù)據(jù)庫(kù)是目前應(yīng)用最廣泛的基因功能注釋體系之一,旨在建立基因及其產(chǎn)物知識(shí)的標(biāo)準(zhǔn)詞匯體系,從基因的細(xì)胞組分(Cellular component,CC)、分子功能(Molecular function,MF)和生物學(xué)過(guò)程(Biological process,BP)3個(gè)方面闡釋基因的功能歸屬。

        1 材料和方法

        1.1 蛋白質(zhì)互作數(shù)據(jù)來(lái)源

        本文所用到的蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)來(lái)源于Human Protein Reference Database (HPRD)[21]數(shù)據(jù)庫(kù)和Biological General Repository for Interaction Datasets (BioGRID)數(shù)據(jù)庫(kù)[22]。HPRD數(shù)據(jù)庫(kù)包含了利用體內(nèi)、體外實(shí)驗(yàn)和酵母雙雜交等技術(shù)獲得的人類蛋白質(zhì)-蛋白質(zhì)互作知識(shí),涉及 9616個(gè)人類基因間的39240個(gè)互作對(duì)子。BioGRID數(shù)據(jù)庫(kù)包含了利用酵母雙雜交實(shí)驗(yàn)獲得的人類蛋白質(zhì)-蛋白質(zhì)互作關(guān)系,涉及12582個(gè)人類基因間的101925個(gè)互作對(duì)子。為便于方法學(xué)評(píng)價(jià),本文對(duì)目標(biāo)基因進(jìn)行了以下篩選,去掉符合下列條件之一的基因:(1)不能注釋到任何KEGG通路; (2)不能注釋到任何GO節(jié)點(diǎn);(3)與其互作的基因不能注釋到任何KEGG通路。經(jīng)篩選,在HPRD和BioGRID數(shù)據(jù)庫(kù)中,分別有3417個(gè)和3912個(gè)人類基因納入分析。本文利用Bioconductor R軟件包對(duì)基因進(jìn)行KEGG和GO功能注釋[23]。

        1.2 目標(biāo)基因候選通路的識(shí)別

        首先通過(guò)蛋白質(zhì)-蛋白質(zhì)互作信息確定與某一目標(biāo)基因存在直接互作的鄰居; 然后,將互作鄰居基因映射到 KEGG數(shù)據(jù)庫(kù)中,查找其注釋到的所有通路。目標(biāo)基因的候選通路定義為與其存在蛋白質(zhì)-蛋白質(zhì)互作的所有鄰居基因所能被注釋到的一系列KEGG通路。

        1.3 目標(biāo)基因的通路預(yù)測(cè)

        蛋白質(zhì)-蛋白質(zhì)互作通常與特定的生物學(xué)途徑有聯(lián)系[19]。研究表明,相互作用的一對(duì)蛋白質(zhì)傾向于共同參與特定的生物學(xué)過(guò)程,因此 KEGG通路可以看作一個(gè)廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)。通路中的基因之間更傾向于存在較強(qiáng)的生物學(xué)關(guān)系,它們往往共同參與特定的生物學(xué)過(guò)程并具有類似的生物學(xué)功能。因此,如果一條通路中的基因傾向于富集在目標(biāo)基因所注釋到的 GO節(jié)點(diǎn)上,則可逆向推測(cè)該目標(biāo)基因可能歸屬于此通路。給定一個(gè)目標(biāo)基因和他的一個(gè)候選 KEGG通路,首先,得到目標(biāo)基因所注釋到的GO節(jié)點(diǎn)列表; 其次,針對(duì)每一個(gè)GO節(jié)點(diǎn),對(duì)候選通路中的所有基因(不包括目標(biāo)基因)進(jìn)行GO富集分析,以α = 0.05為檢驗(yàn)水準(zhǔn)。對(duì)于一個(gè)GO節(jié)點(diǎn)A和一個(gè)KEGG通路B,富集分析的P值可通過(guò)以下超幾何分布公式計(jì)算[24]:

        其中t是通路B中可以注釋到GO節(jié)點(diǎn)A的基因個(gè)數(shù),N為 KEGG數(shù)據(jù)庫(kù)中的全部基因個(gè)數(shù),m為KEGG數(shù)據(jù)庫(kù)中所有能注釋到GO節(jié)點(diǎn)A的基因個(gè)數(shù),S為通路B中的基因個(gè)數(shù)。最后,考慮到GO涵蓋了3個(gè)方面,如果在目標(biāo)基因所有的BP節(jié)點(diǎn)或者CC節(jié)點(diǎn)或者M(jìn)F節(jié)點(diǎn)顯著富集,則預(yù)測(cè)該目標(biāo)基因?qū)儆诖送?稱為預(yù)測(cè)通路)。

        1.4 預(yù)測(cè)效果評(píng)估

        [25],本文采用兩個(gè)指標(biāo)評(píng)估預(yù)測(cè)效果,分別是平均準(zhǔn)確率(CR)和相對(duì)準(zhǔn)確率(RP)。本文定義,如果目標(biāo)基因的預(yù)測(cè)通路中至少有一個(gè)與其已知的注釋通路一致,則稱該基因可被成功預(yù)測(cè)。對(duì)于目標(biāo)基因k,Pk為其預(yù)測(cè)通路的集合,Tk為其已知的注釋通路集合。假設(shè)有n個(gè)目標(biāo)基因,則CR值的計(jì)算公式如下:

        | · | 表示集合中的元素個(gè)數(shù)。CR值越大,表示方法的預(yù)測(cè)性能越好。

        給定一個(gè)成功的預(yù)測(cè),RP值衡量該預(yù)測(cè)是完全正確(目標(biāo)基因注釋的所有通路都被預(yù)測(cè)正確)的可能性,即預(yù)測(cè)的相對(duì)準(zhǔn)確率。假設(shè)目標(biāo)基因中有l(wèi)個(gè)基因被成功預(yù)測(cè),其中s個(gè)被完全預(yù)測(cè)正確,則RP = s/l。

        對(duì)于GO功能節(jié)點(diǎn)的BP、CC和MF類,本文設(shè)計(jì)了 4 種方案:GPPI-BP、GPPI-CC、GPPI-MF 和GPPI-BOCOM,以探討各 GO功能類對(duì)預(yù)測(cè)結(jié)果的影響。GPPI-BP只考慮bp節(jié)點(diǎn),GPPI-CC只考慮CC 節(jié)點(diǎn); GPPI-MF只考慮 MF 節(jié)點(diǎn); GPPI-BOCOM綜合了所有3種GO功能類的結(jié)果,即只要在某一類節(jié)點(diǎn)達(dá)到富集即可。

        2 結(jié)果與分析

        2.1 4種方案的預(yù)測(cè)結(jié)果

        4種方案的預(yù)測(cè)結(jié)果見(jiàn)表1。基于3種GO功能類的方案(GPPI-BP、GPPI-CC 和 GPPI-MF)預(yù)測(cè)效果相近。在HPRD數(shù)據(jù)中,3種方案的CR值分別為75.8%、72.1%和74.6%,RP值分別為79.6%、74.5%和77.3%; 在BioGRID數(shù)據(jù)中,3種方案的CR值分別為55.8%、53.6%和54.5%,RP值分別為74.0%、70.2%和 71.0%。對(duì)比利用 BioGRID數(shù)據(jù)進(jìn)行預(yù)測(cè)的結(jié)果,利用 HPRD數(shù)據(jù)進(jìn)行預(yù)測(cè)得到了更高的平均準(zhǔn)確率和相對(duì)準(zhǔn)確率。對(duì)3種方案進(jìn)行比較發(fā)現(xiàn),GPPI-BOCOM 的預(yù)測(cè)效果最好,在 HPRD 和BioGRID數(shù)據(jù)中,CR值分別為81.7%和60.3%,RP值分別為 86.7%和 80.2%。因此,后續(xù)僅報(bào)告基于GPPI-BOCOM的結(jié)果。

        表1 基于不同GO功能類的通路預(yù)測(cè)效果比較

        2.2 互作鄰居個(gè)數(shù)(k)對(duì)預(yù)測(cè)效果的影響

        本文探討了不同 k值下對(duì)目標(biāo)基因進(jìn)行通路預(yù)測(cè)的效果。圖1給出了在不同k值下(k = 1,2,…,22)可被預(yù)測(cè)目標(biāo)基因數(shù)目的分布以及部分預(yù)測(cè)正確和完全預(yù)測(cè)正確的基因數(shù)目的分布情況。在HPRD和BioGRID兩套數(shù)據(jù)中,可被預(yù)測(cè)的目標(biāo)基因的絕對(duì)數(shù)目均隨互作鄰居數(shù)目的增加而逐漸下降(分別從434和655(k = 1)減少到32和35 (k = 22)),而完全預(yù)測(cè)正確的基因個(gè)數(shù)占可被預(yù)測(cè)的目標(biāo)基因的比例卻呈現(xiàn)上升趨勢(shì),說(shuō)明互作鄰居數(shù)目與目標(biāo)基因的通路預(yù)測(cè)效果存在很強(qiáng)的關(guān)聯(lián)。與BioGRID數(shù)據(jù)庫(kù)相比,HPRD數(shù)據(jù)庫(kù)中可被預(yù)測(cè)的目標(biāo)基因的絕對(duì)數(shù)目少一些,但其中完全預(yù)測(cè)正確的基因比例卻高許多,盡管兩個(gè)數(shù)據(jù)間的這些差異隨著互作鄰居個(gè)數(shù)的增加而逐漸消失。

        圖2描繪了在不同k值下目標(biāo)基因通路歸屬預(yù)測(cè)的變化趨勢(shì),并與隨機(jī)情況進(jìn)行了對(duì)比。在兩套數(shù)據(jù)中(圖2A和2B),CR值及RP值均呈現(xiàn)持續(xù)上升的趨勢(shì),但BioGRID的上升趨勢(shì)更為明顯。當(dāng)互作鄰居個(gè)數(shù)達(dá)到22時(shí),CR值分別達(dá)到了96.2% (HPRD)和96.3% (BioGRID),而RP分別為93.3%(HPRD)和84.1%(BioGRID)。值得注意的是,在 HPRD數(shù)據(jù)中當(dāng)互作鄰居個(gè)數(shù) ≥ 5時(shí),CR值已達(dá)到90%。為了進(jìn)一步評(píng)估提出的基于蛋白質(zhì)-蛋白質(zhì)互作知識(shí)的通路擴(kuò)充方法的有效性,本文與隨機(jī)的預(yù)測(cè)方法進(jìn)行了比較。對(duì)每個(gè)目標(biāo)基因,隨機(jī)選取與實(shí)際互作鄰居數(shù)目相同的基因(為避免混淆,稱為“互作鄰居”),計(jì)算隨機(jī)情況下的預(yù)測(cè)效果(其RP值和CR值隨“互作鄰居”個(gè)數(shù)的變化趨勢(shì)見(jiàn)圖2A和2B中下部的兩條曲線)。在HPRD數(shù)據(jù)中,CR值介于2.9%~37.9%之間,RP值介于12.0%~51.4%之間; 在BioGRID數(shù)據(jù)中,CR值介于 3.5%~21.9%之間,RP值介于4.8%~50.0%之間。從圖中可以看出,隨機(jī)情況下,兩套數(shù)據(jù)中的RP值隨“互作鄰居”個(gè)數(shù)增大呈現(xiàn)小幅度的上升趨勢(shì),而CR值無(wú)明顯變化趨勢(shì)。結(jié)果證明,利用真實(shí)互作基因的預(yù)測(cè)效果要遠(yuǎn)好于利用隨機(jī)挑選的基因的預(yù)測(cè)效果。

        2.3 利用知識(shí)更新驗(yàn)證提出的通路預(yù)測(cè)方法的有效性

        圖1 不同互作鄰居個(gè)數(shù)(k)下可被預(yù)測(cè)目標(biāo)基因的分布

        圖2 不同互作鄰居個(gè)數(shù)(k)下目標(biāo)基因通路歸屬預(yù)測(cè)的效果

        作為對(duì)預(yù)測(cè)方法進(jìn)行驗(yàn)證的另外一種方式,本文對(duì)新舊兩個(gè)版本的KEGG通路數(shù)據(jù)庫(kù)進(jìn)行了數(shù)據(jù)收集,分別為2011年3月15日發(fā)布的版本和2012年3月18日發(fā)布的版本。定義在新版數(shù)據(jù)庫(kù)中更新的基因通路為驗(yàn)證的對(duì)象。先用舊版數(shù)據(jù)庫(kù)數(shù)據(jù)對(duì)被更新通路注釋的基因進(jìn)行預(yù)測(cè),然后根據(jù)新版數(shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)其預(yù)測(cè)的正確性進(jìn)行評(píng)估。新版數(shù)據(jù)庫(kù)共更新了89個(gè)基因,利用HPRD數(shù)據(jù)中的蛋白質(zhì)-蛋白質(zhì)互作知識(shí),提出的 GPPI方法成功地預(yù)測(cè)了其中的50個(gè)基因(表2),其中43個(gè)基因的所有更新通路被全部預(yù)測(cè)出來(lái),預(yù)測(cè)的相對(duì)準(zhǔn)確率為86.0%。從預(yù)測(cè)結(jié)果可以看出,更新基因的部分預(yù)測(cè)通路在新版通路數(shù)據(jù)庫(kù)中得到了驗(yàn)證,且達(dá)到了較高的相對(duì)準(zhǔn)確率,證明了方法的有效性。

        3 討 論

        本文提出了一種通過(guò)整合蛋白質(zhì)-蛋白質(zhì)互作知識(shí)和 GO數(shù)據(jù)庫(kù)對(duì)目標(biāo)基因進(jìn)行通路預(yù)測(cè)的新思路?;?KEGG通路是一個(gè)廣義的蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)這一背景[6],從蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)出發(fā),利用功能富集分析進(jìn)行基因的通路預(yù)測(cè)。對(duì)利用蛋白質(zhì)-蛋白質(zhì)互作數(shù)據(jù)得到的目標(biāo)基因的候選通路進(jìn)行 GO功能富集分析,成功預(yù)測(cè)出了目標(biāo)基因所注釋到的部分或者全部通路,達(dá)到了良好的預(yù)測(cè)效果。進(jìn)一步利用新舊版本數(shù)據(jù)庫(kù)的更新信息,對(duì) KEGG數(shù)據(jù)庫(kù)中的更新基因進(jìn)行預(yù)測(cè),部分預(yù)測(cè)結(jié)果在更新數(shù)據(jù)庫(kù)中得到了驗(yàn)證,從而證明了本文

        表2 50個(gè)基因的預(yù)測(cè)結(jié)果

        提出的方法的有效性和可靠性。通過(guò)與隨機(jī)情況相比較,我們較全面地評(píng)估了本文提出的方法的統(tǒng)計(jì)顯著性。較之現(xiàn)有的基于基因表達(dá)譜數(shù)據(jù)及模型方法,本方法的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:第一,不需要很強(qiáng)的理論假設(shè)。對(duì)于表達(dá)譜數(shù)據(jù)來(lái)說(shuō),現(xiàn)有方法所作的假設(shè)有時(shí)并不一定能夠得到滿足,造成通路預(yù)測(cè)的可靠性差; 第二,本研究充分利用了蛋白質(zhì)-蛋白質(zhì)互作知識(shí),與 KEGG通路的構(gòu)建背景相吻合,方法學(xué)更具有合理的生物學(xué)解釋;第三,本方法不需要事先定義一個(gè)基因族(或者子網(wǎng))進(jìn)行通路擴(kuò)充,避免了基因族(或者子網(wǎng))定義的隨意性; 第四,從預(yù)測(cè)效果上看,本文提出的方法顯著優(yōu)于之前基于數(shù)據(jù)采礦的方法。例如,Luo等[12]利用合成數(shù)據(jù)評(píng)估其提出的三方互信息法在推斷轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)關(guān)系的效果時(shí),正確率為 77.0%,而基于HPRD數(shù)據(jù),當(dāng)互作基因個(gè)數(shù) ≥ 5時(shí),本文提出的方法正確率達(dá) 90.0%,其他方法[10,14]多是根據(jù)基因歸屬于某個(gè)通路的可能性大小對(duì)基因進(jìn)行排序。

        從預(yù)測(cè)結(jié)果來(lái)看,BioGRID數(shù)據(jù)的預(yù)測(cè)結(jié)果稍遜于 HPRD數(shù)據(jù)的結(jié)果,這可能是由如下原因造成的:BioGRID數(shù)據(jù)庫(kù)中的蛋白質(zhì)-蛋白質(zhì)互作僅通過(guò)酵母雙雜交實(shí)驗(yàn)得到,而HPRD數(shù)據(jù)庫(kù)的蛋白質(zhì)-蛋白質(zhì)互作是通過(guò)體內(nèi)、體外和酵母雙雜交實(shí)驗(yàn)中的至少一種實(shí)驗(yàn)得到的。因此,與 HPRD中的互作相比,BioGRID的假陽(yáng)性率更高。除本文所研究的KEGG通路數(shù)據(jù)庫(kù)外,還有一些其他常用的通路數(shù)據(jù)庫(kù)值得探索,如Reactome和BioCarta。Reactome通路數(shù)據(jù)庫(kù)的基本單元是一個(gè)生化反應(yīng),反應(yīng)之間根據(jù)因果關(guān)系鏈組合起來(lái)形成生物途徑來(lái)描述代謝、信號(hào)傳導(dǎo)、DNA修復(fù)和細(xì)胞周期調(diào)控等生物學(xué)過(guò)程,已與KEGG數(shù)據(jù)庫(kù)建立了廣泛的交叉應(yīng)用[26]。如何融合 Reactome通路的構(gòu)建背景和蛋白質(zhì)-蛋白質(zhì)互作知識(shí)對(duì)其進(jìn)一步擴(kuò)充將是我們進(jìn)一步的研究方向。BioCarta數(shù)據(jù)庫(kù)在其公共網(wǎng)站上提供了用于繪制生物學(xué)通路的模板,研究者可以把符合標(biāo)準(zhǔn)的生物學(xué)通路提供給 BioCarta數(shù)據(jù)庫(kù),但它不會(huì)檢驗(yàn)這些生物學(xué)通路的質(zhì)量,故其中的資料質(zhì)量參差不齊,受數(shù)據(jù)庫(kù)本身質(zhì)量的影響,對(duì)其進(jìn)行預(yù)測(cè)的可靠性可能會(huì)降低。

        作為一種探索性研究,本研究受到數(shù)據(jù)庫(kù)信息量完整性的影響。從預(yù)測(cè)結(jié)果可以看出,大部分預(yù)測(cè)通路在更新的數(shù)據(jù)庫(kù)中得到了證實(shí),但仍有部分預(yù)測(cè)通路未被現(xiàn)有的知識(shí)所證實(shí)。然而,這些新發(fā)掘的通路很可能是進(jìn)行生物學(xué)通路歸屬預(yù)測(cè)的價(jià)值所在,為探索生物學(xué)通路未知的空間提供了一個(gè)行之有效的方法,同時(shí)也為進(jìn)一步開(kāi)展?jié)駥?shí)驗(yàn)驗(yàn)證研究指明了方向。當(dāng)然,在實(shí)際預(yù)測(cè)時(shí)可通過(guò)整合幾種分子互作數(shù)據(jù)庫(kù)得到可信度更高更完善的蛋白質(zhì)-蛋白質(zhì)互作證據(jù),以達(dá)到更好更可靠地預(yù)測(cè)效果。本方法具有很好的推廣性,可以應(yīng)用于其他類型的分子互作數(shù)據(jù)分析以及對(duì)其他生物的KEGG通路擴(kuò)充研究中。此外,本方法另一個(gè)不足之處是將每個(gè)GO節(jié)點(diǎn)同等對(duì)待。事實(shí)上,一些GO節(jié)點(diǎn)之間是存在緊密聯(lián)系的,形成了一種層次結(jié)構(gòu)[27],在未來(lái)的研究中我們也將進(jìn)一步利用層次結(jié)構(gòu)信息研發(fā)預(yù)測(cè)效能更佳的算法。

        參考文獻(xiàn)

        [1]Kanehisa M,Goto S,Sato Y,Furumichi M,Tanabe M.KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res,2012,40(Database issue): D109–D114.

        [2]Kanehisa M,Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res,2000,28(1): 27–30.

        [3]Chen L,Zhang LC,Zhao Y,Xu LD,Shang YK,Wang Q,Li W,Wang H,Li X. Prioritizing risk pathways: a novel association approach to searching for disease pathways fusing SNPs and pathways. Bioinformatics,2009,25(2):237–242.

        [4]Lee E,Chuang HY,Kim JW,Ideker T,Lee D. Inferring pathway activity toward precise disease classification.PLoS Comput Biol,2008,4(11): e1000217.

        [5]Li Y,Agarwal P. A pathway-based view of human diseases and disease relationships. PLoS ONE,2009,4(2): e4346.

        [6]Kanehisa M,Goto S,Kawashima S,Nakaya A. The KEGG databases at GenomeNet. Nucleic Acids Res,2002,30(1):42–46.

        [7]Kanehisa M. The KEGG database. Novartis Found Symp,2002,247: 91–101,discussion 101–103,119–128,244–152.

        [8]Li J. Linking UniProtKB/Swiss-Prot Proteins to Pathway Information. Switzerland: University of Geneva,2010.

        [9]Dale JM,Popescu L,Karp PD. Machine learning methods for metabolic pathway prediction. BMC Bioinformatics,2010,11: 15.

        [10]Chung TS,Kim J,Kim K,Kim JH. Biological Pathway Extension Using Microarray Gene Expression Data. Genomics & Informatics,2008,6(4): 202–209.

        [11]Herrgard MJ,Covert MW,Palsson BO. Reconciling gene expression data with known genome-scale regulatory network structures. Genome Res,2003,13(11): 2423–2434.

        [12]Luo WJ,Hankenson KD,Woolf PJ. Learning transcriptional regulatory networks from high throughput gene expression data using continuous three-way mutual information. BMC Bioinformatics,2008,9: 467.

        [13]Hashimoto RF,Kim S,Shmulevich I,Zhang W,Bittner ML,Dougherty ER. Growing genetic regulatory networks from seed genes. Bioinformatics,2004,20(8): 1241–1247.

        [14]Hodges AP,Woolf P,He Y. BN+1 Bayesian network expansion for identifying molecular pathway elements.Commun Integr Biol,2010,3(6): 549–554.

        [15]Harris MA,Clark J,Ireland A,Lomax J,Ashburner M,Foulger R,Eilbeck K,Lewis S,Marshall B,Mungall C,Richter J,Rubin GM,Blake JA,Bult C,Dolan M,Drabkin H,Eppig JT,Hill DP,Ni L,Ringwald M,Balakrishnan R,Cherry JM,Christie KR,Costanzo MC,Dwight SS,Engel S,Fisk DG,Hirschman JE,Hong EL,Nash RS,Sethuraman A,Theesfeld CL,Botstein D,Dolinski K,Feierbach B,Berardini T,Mundodi S,Rhee SY,Apweiler R,Barrell D,Camon E,Dimmer E,Lee V,Chisholm R,Gaudet P,Kibbe W,Kishore R,Schwarz EM,Sternberg P,Gwinn M,Hannick L,Wortman J,Berriman M,Wood V,de la Cruz N,Tonellato P,Jaiswal P,Seigfried T,White R,Gene Ontology Consortium. The Gene Ontology (GO) database and informatics resource. Nucleic Acids Res,2004,32(Database issue): D258–D261.

        [16]McDowall MD,Scott MS,Barton GJ. PIPs: human protein-protein interaction prediction database. Nucleic Acids Res,2009,37(Database issue): D651–D656.

        [17]Schaefer MH,Fontaine JF,Vinayagam A,Porras P,Wanker EE,Andrade-Navarro MA. HIPPIE: Integrating protein interaction networks with experiment based quality scores.PLoS ONE,2012,7(2): e31826.

        [18]楊勝利. 系統(tǒng)生物學(xué)研究進(jìn)展. 中國(guó)科學(xué)院院刊,2004,19(1): 31–34.

        [19]孫景春,徐晉麟,李亦學(xué),石鐵流. 大規(guī)模蛋白質(zhì)相互作用數(shù)據(jù)的分析與應(yīng)用. 科學(xué)通報(bào),2005,50(19): 2055–2060.

        [20]Xiao GH,Pan W. Gene function prediction by a combined analysis of gene expression data and protein-protein interaction data. J Bioinform Comput Biol,2005,3(6): 1371–1389.

        [21]Goel R,Muthusamy B,Pandey A,Prasad TSK. Human protein reference database and human proteinpedia as discovery resources for molecular biotechnology. Mol Biotechnol,2011,48(1): 87–95.

        [22]Stark C,Breitkreutz BJ,Chatr-Aryamontri A,Boucher L,Oughtred R,Livstone MS,Nixon J,Van Auken K,Wang XD,Shi XQ,Reguly T,Rust JM,Winter A,Dolinski K,Tyers M. The BioGRID Interaction Database: 2011 update.Nucleic Acids Res,2011,39(Database issue): D698–D704.

        [23]Reimers M,Carey VJ. Bioconductor: an open source framework for bioinformatics and computational biology.Methods Enzymol,2006,411: 119–134.

        [24]Zhou DS. An approach to the statistical treatment of multiple groups of small frequencies in medical research--hypergeometric probability distribution and its application(author's transl). Chinese Journal of Preventive Medicine,1980,14(4): 211–213.

        [25]Yu H,Gao L,Tu K,Guo Z. Broadly predicting specific gene functions with expression similarity and taxonomy similarity. Gene,2005,352: 75–81.

        [26]Vastrik I,D'Eustachio P,Schmidt E,Joshi-Tope G,Gopinath G,Croft D,de Bono B,Gillespie M,Jassal B,Lewis S,Matthews L,Wu GM,Birney E,Stein L. Reactome: a knowledge base of biologic pathways and processes. Genome Biol,2007,8(3): R39.

        [27]Ogren PV,Cohen KB,Acquaah-Mensah GK,Eberlein J,Hunter L. The compositional structure of Gene Ontology terms. Pacific Symposium on Biocomputing,2004,214–225.

        猜你喜歡
        生物學(xué)蛋白質(zhì)通路
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        谷稗的生物學(xué)特性和栽培技術(shù)
        初中生物學(xué)糾錯(cuò)本的建立與使用
        初中生物學(xué)糾錯(cuò)本的建立與使用
        蛋白質(zhì)計(jì)算問(wèn)題歸納
        Kisspeptin/GPR54信號(hào)通路促使性早熟形成的作用觀察
        PEDF抗腫瘤的生物學(xué)作用
        proBDNF-p75NTR通路抑制C6細(xì)胞增殖
        通路快建林翰:對(duì)重模式應(yīng)有再認(rèn)識(shí)
        久久久久人妻精品一区三寸| 超短裙老师在线观看一区| 久久国产精品国语对白| 人人超碰人人爱超碰国产| 亚洲精品无码专区在线| 国内精品一区二区2021在线| 亚洲一区二区日韩在线| 丰满人妻久久中文字幕| 国产精品免费精品自在线观看| 人妻无码一区二区在线影院| 久久本道久久综合一人| 亚洲综合极品美女av| 亚洲精品无码av中文字幕| 亚洲五月激情综合图片区| 亚洲一区二区岛国高清| 中文字幕无线码一区二区| 最近日本中文字幕免费完整| 国产九九在线观看播放| 蜜桃在线高清视频免费观看网址 | 国产情侣一区二区| 国产av精国产传媒| 日韩在线观看网址| 成人爽a毛片在线播放| 亚洲av无码国产精品草莓在线| 鲁一鲁一鲁一鲁一澡| 中文字幕色视频在线播放| 精品国产中文字幕久久久| 免费人成网ww555kkk在线| 国产成人亚洲综合无码精品| 国产又色又爽的视频在线观看91 | 日本japanese丰满多毛| 亚洲中文字幕在线一区二区三区| 久久亚洲av熟女国产| 日本在线 | 中文| 五十路熟妇亲子交尾| 国产熟女乱综合一区二区三区 | 国内自拍第一区二区三区| 亚洲女人毛茸茸粉红大阴户传播 | 亚洲国产一区二区三区最新| 亚洲成人av一区免费看| 色费女人18毛片a级毛片视频|