亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向疾病分類的人類互作網(wǎng)絡(luò)拓?fù)淠K的功能同質(zhì)性分析

        2016-09-29 18:09:19高盼盼王寧周雪忠劉光明王惠欣
        計算機應(yīng)用 2016年8期

        高盼盼 王寧 周雪忠 劉光明 王惠欣

        摘要:鑒于網(wǎng)絡(luò)醫(yī)學(xué)中尚未有對疾病分類與功能蛋白模塊功能同質(zhì)性分析之間關(guān)系的研究,展開以下研究工作:首先,利用Mesh、String9等數(shù)據(jù)庫中的數(shù)據(jù)構(gòu)建了基因關(guān)系網(wǎng)絡(luò);其次,采用基于優(yōu)化模塊度的模塊劃分方法(如BGLL、非負(fù)矩陣分解(NMF)等聚類算法)對基因關(guān)系網(wǎng)絡(luò)進(jìn)行了劃分;再次,對劃分出來的模塊進(jìn)行了GO富集分析,通過對高致病拓?fù)淠K和低致病拓?fù)淠K的GO富集分析的比較,發(fā)現(xiàn)了疾病分類和蛋白模塊功能特性在生物過程、細(xì)胞組分、分子功能等方面存在重要的生物學(xué)提示;最后,分析了疾病分類的拓?fù)淠K的功能特性,通過對網(wǎng)絡(luò)拓?fù)湫再|(zhì)如平均度、密度、平均最短路徑長度等方面的分析得到了各模塊的功能特點數(shù)據(jù),進(jìn)一步揭示了疾病分類和功能模塊之間的相關(guān)關(guān)系。

        關(guān)鍵詞:網(wǎng)絡(luò)醫(yī)學(xué);疾病分類;GO富集分析;蛋白功能模塊;拓?fù)淠K;Mesh;String9

        中圖分類號:TP399

        文獻(xiàn)標(biāo)志碼:A

        0引言

        近年來,隨著復(fù)雜網(wǎng)絡(luò)在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用逐步廣泛,網(wǎng)絡(luò)醫(yī)學(xué)為疾病分子層面的研究提供了平臺。隨著遺傳學(xué)和基因組學(xué)的進(jìn)步和發(fā)展,高通量蛋白質(zhì)相互作用數(shù)據(jù)的產(chǎn)生推進(jìn)了疾病和致病基因之間的關(guān)聯(lián)研究。由于人類細(xì)胞內(nèi)的分子組件間在功能上具有相互依賴性,所以很少有疾病是由單一基因異常而導(dǎo)致的結(jié)果,現(xiàn)在大量的研究發(fā)現(xiàn)疾病是各組織器官系統(tǒng)間的細(xì)胞內(nèi)和細(xì)胞間各種復(fù)雜的網(wǎng)絡(luò)的局部異常導(dǎo)致的。所以網(wǎng)絡(luò)醫(yī)學(xué)的發(fā)展不僅方便研究者可以借助生物分子網(wǎng)絡(luò)比較系統(tǒng)地去探索導(dǎo)致某一疾病的分子復(fù)雜性,也可用于探索截然不同的表型疾病間潛在的分子關(guān)系,同時網(wǎng)絡(luò)醫(yī)學(xué)的研究發(fā)展也可以用于識別疾病目前尚未發(fā)現(xiàn)的致病基因。

        網(wǎng)絡(luò)醫(yī)學(xué)在最近幾十年已經(jīng)得到越來越多的生物醫(yī)學(xué)研究者的關(guān)注。Barabasi等[1]對人類疾病網(wǎng)絡(luò)的特性進(jìn)行了相關(guān)的研究,提出了拓?fù)淠K、功能模塊、疾病模塊這三種模塊存在共同的元素,同時還分析了如何利用網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行基因預(yù)測,提出了基于邊的方法、疾病模塊的方法和隨機傳播算法;Sharan等[2]從蛋白質(zhì)的近鄰分析、馬爾可夫隨機場和基于模塊的方法三個方面進(jìn)行了蛋白質(zhì)功能的預(yù)測;Lin等[3]對擴張心臟病進(jìn)行了動態(tài)蛋白致病模塊的分析,提出了一種新的框架來分析蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)數(shù)據(jù),并且成功找到了該病的蛋白功能模塊。

        我們發(fā)現(xiàn)上述研究主要集中在:對單個蛋白功能的預(yù)測,預(yù)測某個疾病的致病基因,為特定疾病尋找致病模塊。目前還沒有針對疾病分類進(jìn)行功能蛋白模塊的研究。通用的疾病分類體系是Mesh主題詞分類,Zhou等[4]構(gòu)建了人類疾病的表型網(wǎng)絡(luò)并進(jìn)行了詳細(xì)的分析。在網(wǎng)絡(luò)醫(yī)學(xué)領(lǐng)域中還存在著如下的問題:

        1)蛋白模塊在基因本體(Gene Ontology,GO)上的分析;

        2)疾病分類與蛋白功能模塊關(guān)聯(lián)關(guān)系的研究;

        3)網(wǎng)絡(luò)拓?fù)涮匦耘c疾病分類之間的關(guān)系。

        本文將在人類蛋白相互作用網(wǎng)絡(luò)基礎(chǔ)上運用基于模塊度的優(yōu)化算法,如:BGLL[5]、非負(fù)矩陣分解(Nonnegtive Matrix Factorization, NMF),從Mesh疾病分類的角度結(jié)合拓?fù)淠K富集的GO術(shù)語、致病基因相對比Ratio值以及一些常用的拓?fù)涮匦詫θ祟惣膊》诸惡腿祟惢プ骶W(wǎng)絡(luò)拓?fù)淠K的功能進(jìn)行同質(zhì)性分析。

        1基本概念及常用聚類算法

        2數(shù)據(jù)的來源及整理

        采用Mesh給出的疾病名稱為標(biāo)準(zhǔn)名稱,基因部分采用National Center for Biotechnology Information(NCBI)提供的人類基因數(shù)據(jù),Comparative Toxicogenomics Database(CTD)、ClinVar、DisGeNet和DiseaseConnect四個數(shù)據(jù)源整合疾病與基因之間的關(guān)系,最后去掉重復(fù)數(shù)據(jù),得到137308條關(guān)系數(shù)據(jù),包括2896個疾病及15735個基因。

        STRING 9.1 提供了蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系,并使用Score值量化,篩選出與人類有關(guān)且Score大于700的記錄,然后將其映射到NCBI中,最終得到436326條記錄,基因數(shù)是13734?;蜿P(guān)系網(wǎng)絡(luò)生成過程如圖1。

        3疾病分類相關(guān)拓?fù)淠K的GO功能分析

        本章利用BGLL和NMF算法對基因關(guān)系網(wǎng)絡(luò)進(jìn)行劃分,通過BGLL劃分后得到314個模塊,通過NMF得到301個模塊,并計算了兩種方式劃分下的模塊的一致性,結(jié)果如圖2所示。所謂模塊的一致性就是指用不同的劃分方法劃分網(wǎng)絡(luò),然后計算模塊的一致性,也就是說對于基因A、B、C,用BGLL劃分在一個模塊中,而用NMF也被劃分也在一個模塊中,這就叫模塊的一致性。

        從圖2中可以看到,用不同方法劃分的模塊的一致性大于0.6的有78.095%,可以認(rèn)為用不同聚類算法得到的模塊具有一致性。下面只對BGLL劃分的模塊進(jìn)行詳細(xì)的疾病分類和蛋白質(zhì)功能同質(zhì)性分析。

        3.1基于人類互作網(wǎng)絡(luò)的BGLL社區(qū)劃分

        使用BGLL算法將基因基因網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,得到314個拓?fù)淠K。該算法的最終劃分結(jié)果的模塊度是0.378,模塊劃分算法比較合理。圖3是模塊4的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

        分析圖4、5可以發(fā)現(xiàn),人類疾病在拓?fù)淠K功能方面有明顯的表達(dá)傾向,人類疾病與拓?fù)淠K之間的多樣性一致,通過社團(tuán)劃分方法得到的人類互作網(wǎng)絡(luò)拓?fù)淠K能夠有效地反映出其在人類疾病方面的功能性特征。

        3.3高致病拓?fù)淠K的GO富集分析

        為了更好地探究人類疾病與網(wǎng)絡(luò)劃分的拓?fù)淠K之間的關(guān)系,從Ratio特殊值入手,分析拓?fù)淠K在人類疾病表達(dá)中所起的作用。由3.2節(jié)可知,Ri=1.409的模塊{55,59,82,95,102,109,111,123,127,132,144,163,192,201,218,232,237,250,251,257,261},表示模塊Mi的基因全是致病基因,將Ri=1.409的模塊稱為“高致病拓?fù)淠K”。然后對這些模塊進(jìn)行GO富集分析,表1是對這些模塊的基因富集在GO術(shù)語上的情況,其中“null”代表這些模塊沒有富集到GO term上,故其后一列的P-value無計算值。

        觀察表1可知,模塊95和模塊257在GO上三個分支的富集P-value都大于0.01,即GO富集效果不好,因此說明這兩個模塊在GO上沒有進(jìn)行顯著的富集。但是除此以外,其他的模塊的GO富集效果都比較好,而且這些模塊大部分都與重要的功能特性相關(guān),并且在基因的表達(dá)和拓?fù)淠K功能性的表達(dá)方面也有重要的表現(xiàn)。因此可以說明致病基因相對比值(Ratio)較大時,拓?fù)淠K的功能與人類疾病緊密相關(guān)。

        表2~4分別是從生物過程(biological process, bp)、細(xì)胞組分(cellular component, cc)、分子功能(molecular function, mf)三個方面對高致病拓?fù)淠K的GO分析的部分模塊在GO術(shù)語上的情況的結(jié)果展示。從表中可以看出,這些拓?fù)淠K富集的GO與重要的功能特性相關(guān),比如模塊55,生物過程方面,該拓?fù)淠K富集到GO:0006590,且P-value為3.91E-10,遠(yuǎn)小于0.01,很有代表性,表明模塊55是與甲狀腺激素產(chǎn)生的過程有密切聯(lián)系的功能模塊;在細(xì)胞組分方面,拓?fù)淠K富集到GO:0016021,且P-value為0.005631863,小于0.01,與整合膜有密切關(guān)系;分子功能方面,拓?fù)淠K富集到GO:0016174,P-value為3.09E-05,遠(yuǎn)小于0.01,在分子功能NAD(P)H氧化酶發(fā)揮作用中起到至關(guān)重要的作用。

        如果模塊55的基因發(fā)生突變,將對與之緊密相關(guān)的生物過程、細(xì)胞組分、分子功能產(chǎn)生影響,因而人類疾病與55模塊有很大可能性的關(guān)聯(lián)。其他高致病拓?fù)淠K也有類似的關(guān)系,因此可以說明,拓?fù)淠K與重要的生物功能特性有密切關(guān)聯(lián)。

        3.4低致病拓?fù)淠K的GO富集分析

        本節(jié)分析Ratio的取值等于0的模塊在人類疾病表達(dá)中所起的作用。模塊{155,158,260,262,280,286,296,297,

        311,312,313}致病基因相對比值Ri=0,表示拓?fù)淠K的基

        因全部為非致病基因,稱這些模塊為低致病拓?fù)淠K。然后對這些模塊進(jìn)行GO富集分析,以便去探究拓?fù)淠K內(nèi)基因富集在GO術(shù)語上的情況。GO分析從生物過程、細(xì)胞組分、分子功能三個方面進(jìn)行,表5中P-value加下劃線的值是小于0.01的值,其余的都是大于0.01的P-value值。

        表5中,“null”代表這些模塊沒有富集到GO term上,觀察可知只有模塊272的GO分析三個方面的P-value值均小于0.01,說明三個方面富集效果較好的只有模塊272,模塊272與化學(xué)刺激參與嗅覺感知檢測的功能、等離子體膜、電壓門控離子通道的活性有關(guān),從而說明該拓?fù)淠K在生物功能上的意義比較明顯,對人類疾病的影響比較大;但是在實際數(shù)據(jù)中該模塊中包含的致病基因很少,我們推斷出現(xiàn)這種現(xiàn)象是因為目前蛋白互作數(shù)據(jù)的缺失和與疾病相關(guān)的基因的不完整,因此可以根據(jù)272模塊中的蛋白為現(xiàn)在未知疾病基因的預(yù)測提供理論支持。拓?fù)淠K富集到GO上的比較少,而大部分P-value小于0.01,說明該拓?fù)淠K在GO過程的三個方面的功能性特征基本關(guān)系一般,并不能代表模塊在其相應(yīng)的GO富集的功能特性,因而,這些拓?fù)淠K在人類疾病中起不到關(guān)鍵的功能作用。

        3.5較高與較低致病拓?fù)淠K的功能比較

        表6記錄的是Ratio值大于1.2和Ratio值小于0.8的拓?fù)淠K對應(yīng)的GO術(shù)語的P-value小于0.01在其范圍內(nèi)的比例。比如,R>1.2時bp比例為0.877193指的是在R>1.2范圍內(nèi)的模塊中GO分析的生物過程中P-value小于0.01的模塊的數(shù)量占R>1.2的模塊數(shù)量的比例。

        從表6中可以看出,拓?fù)淠K在R>1.2和R<0.8范圍內(nèi),GO分析在生物過程bp、細(xì)胞組學(xué)cc、分子功能mf方面的富集比例有非常明顯的差別。這種情況說明,較高致病拓?fù)淠K的功能富集度比較低致病模塊的功能富集度要高,同時也就說明了人類疾病與較高致病拓?fù)淠K的功能具有較高的同質(zhì)性。

        4人類互作網(wǎng)絡(luò)拓?fù)湫再|(zhì)的功能同質(zhì)性分析

        現(xiàn)在的PPI數(shù)據(jù)和疾病基因數(shù)據(jù)只發(fā)現(xiàn)了大概10%左右,由于數(shù)據(jù)的不完整性和噪聲數(shù)據(jù)的影響,所以在對疾病進(jìn)行深層次研究時借助于疾病網(wǎng)絡(luò)可以有效地幫助我們?nèi)ヌ剿魅祟惣膊〉姆肿由餀C制。

        目前有研究表明人類疾病的致病基因在PPI網(wǎng)絡(luò)中并不是隨機分布的,而是趨向于集中在某個連接相對緊密的局部模塊中,也就是疾病模塊,這也說明一旦發(fā)現(xiàn)了疾病的部分致病基因,那么從網(wǎng)絡(luò)醫(yī)學(xué)的角度就可以推論出現(xiàn)在已經(jīng)發(fā)現(xiàn)的基因的鄰居也有很大的可能是致病基因。

        為了更好地理解疾病模塊,對疾病模塊的幾個拓?fù)涮匦赃M(jìn)行了分析,以便分析疾病模塊的功能特性與拓?fù)涮匦灾g的相互關(guān)系。本文主要使用了平均度、密度、平均最短路徑、closeness中心性和betweenness中心性幾個主要的網(wǎng)絡(luò)屬性應(yīng)用于人類互作網(wǎng)絡(luò)來探索疾病分類的功能特性與人類互作網(wǎng)絡(luò)拓?fù)涮匦灾g的相互關(guān)系。

        4.1平均度

        度是衡量網(wǎng)絡(luò)中節(jié)點的一個重要屬性,是指連接到某個節(jié)點的總的邊數(shù)。在PPI網(wǎng)絡(luò)中,度比較高的節(jié)點稱為hub節(jié)點,是由疾病的必須基因進(jìn)行編碼的。平均度是衡量網(wǎng)絡(luò)中節(jié)點與其他節(jié)點連接的程度的統(tǒng)計量。

        在人類互作網(wǎng)絡(luò)劃分出的314個模塊中,平均度的值分布如圖6所示。

        圖6中:橫軸是平均度值,縱軸是平均度對應(yīng)的模塊度數(shù)。從圖6中可以看出,平均度明顯大于一般值的模塊只有一個,其對應(yīng)的為模塊271,其他較大平均度值依次對應(yīng)的是模塊145、143、172、303、167,而其余大部分模塊的平均度值都比較小,均小于50。這說明人類互作網(wǎng)絡(luò)的拓?fù)淠K中hub模塊相對于普通模塊少得多,并且在不同范圍的介數(shù)中心性有明顯的差別,總體呈冪律分布,體現(xiàn)了人類互作網(wǎng)絡(luò)劃分出的拓?fù)淠K有多樣性的特征。也說明不同的疾病模塊、疾病分類在拓?fù)涔δ艿谋磉_(dá)中具有明顯差異性,而hub模塊271對于疾病的影響非常大,該模塊可用于對多種疾病的研究。

        4.2密度

        網(wǎng)絡(luò)的密度表示網(wǎng)絡(luò)中節(jié)點間的邊與同樣節(jié)點數(shù)目的網(wǎng)絡(luò)中的節(jié)點數(shù)的比例,體現(xiàn)的是網(wǎng)絡(luò)的邊密度。在人類互作網(wǎng)絡(luò)劃分出的314個模塊中,密度的值分布如圖7所示。

        圖7中:橫坐標(biāo)代表的是密度分布值,縱坐標(biāo)代表的是坐標(biāo)值為某一值的模塊數(shù),從圖7中可看出,不同密度范圍的模塊數(shù)目具有多樣性,大部分模塊密度比較小,明顯較大密度的拓?fù)淠K不多。密度大于0.8的拓?fù)淠K依次是模塊34、144、271、39、205、227、19、260、286、311,而其余大部分模塊的密度值都比較小,均小于0.50。這說明人類互作網(wǎng)絡(luò)的拓?fù)淠K中高密度模塊相對于普通模塊少得多,并且在不同范圍的密度有明顯的差別,總體分布不規(guī)律,體現(xiàn)了人類互作網(wǎng)絡(luò)劃分出的拓?fù)淠K有多樣性的特征。

        4.3平均最短路徑長度

        平均最短路徑描述了網(wǎng)絡(luò)中節(jié)點間的平均分離程度,模塊中的平均最短距離值越小說明該模塊內(nèi)的節(jié)點連接越緊密,模塊所對應(yīng)的子網(wǎng)的直徑越小。劃分出的314個模塊的平均最短路徑的值分布如圖8所示。

        圖8中:橫坐標(biāo)代表的是平均最短路徑長度值,縱坐標(biāo)代表的是平均最短路徑為某個值的模塊數(shù),

        從圖8中可看出,不同平均最短路徑長度取值范圍的模塊數(shù)目具有多樣性,大部分模塊平均最短路徑長度在(1.7,3.3)范圍,模塊平均最短路徑長度明顯較大和明顯較小的拓?fù)淠K并不多,總體呈正態(tài)分布。而網(wǎng)絡(luò)中明顯較小(小于1.5)的平均最短路徑長度比網(wǎng)絡(luò)中明顯較大(大于3.5)的拓?fù)淠K數(shù)量要多,說明網(wǎng)絡(luò)中模塊內(nèi)的節(jié)點連接緊密的拓?fù)渖鐖F(tuán)相對較多。

        5結(jié)語

        本文針對疾病所關(guān)聯(lián)的拓?fù)淠K功能同質(zhì)性問題,采用MeSH疾病分類術(shù)語本體,采用比較成熟的聚類算法對來自整合的人類全局基因關(guān)系網(wǎng)絡(luò)進(jìn)行了了拓?fù)淠K劃分,并采用基因本體(GO)富集分析方法。最后通過比較分析發(fā)現(xiàn),相較沒有疾病相關(guān)的拓?fù)淠K,具有顯著疾病相關(guān)的拓?fù)淠K在生物過程、細(xì)胞組分、分子功能等方面具有顯著差異,從而為疾病的分子網(wǎng)絡(luò)研究提供了重要啟示。另外,對于疾病分類的拓?fù)淠K的功能同質(zhì)性分析,只進(jìn)行了GO同質(zhì)性分析,還可以進(jìn)行更多的功能分析;同時對于網(wǎng)絡(luò)的拓?fù)涮匦?,可以將其結(jié)合相應(yīng)的疾病分類、同質(zhì)性結(jié)果等進(jìn)行多角度的聯(lián)合分析來共同輔助拓?fù)淠K的功能同質(zhì)性分析。

        參考文獻(xiàn):

        [1]BARABSI A-L, GULBAHCE N, LOSCALZO J. Network medicine: a network-based approach to human disease [J]. Nature Reviews Genetics, 2011, 12(1): 56-68.

        [2]SHARAN R, ULITSKY I, SHAMIR R. Network-based prediction of protein function [J]. Molecular Systems Biology, 2007, 3(1): 88.

        [3]LIN C-C, HSIANG J-T, WU C-Y, et al. Dynamic functional modules in co-expressed protein interaction networks of dilated cardiomyopathy [J]. BMC Systems Biology, 2010, 4(4): 138.

        [4]ZHOU X, MENCHE J, BARABSI A-L, et al. Human symptoms-disease network [J]. Nature Communications, 2014, 5: 4212.

        [5]BLONDEL V D, GUILLAUME J-L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks [J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008: P10008

        [6]NEWMAN M E, GIRVAN M. Finding and evaluating community structure in networks [J]. Physical Review E, 2004, 69(2): 026113.

        [7]李樂,章毓晉.非負(fù)矩陣分解算法綜述[J].電子學(xué)報,2008,36(4):737-743. (LI L, ZHANG Y J. A survey algorithms of non-negative matrix factorization [J]. Acta Electronica Sinica, 2008, 36(4): 737-743.)

        [8]LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization [J]. Nature, 1999, 401(6755): 788-791.

        [9]CAI D, HE X, HAN J, et al. Graph regularized non-negative matrix factorization for data representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(8): 1548-1560.

        [10]黃鋼石,陸建江,張亞非.基于NMF的文本聚類方法[J].計算機工程,2004,30(11):113-114. (HUANG G S, LU J J, ZHANG Y F. Text clustering method based on non-negative matrix factorization[J].Computer Engineering, 2004, 30(11): 113-114.)

        [11]YANG S, YE M. Multistability of α-divergence based NMF algorithms [J]. Computers & Mathematics with Applications, 2012, 64(2): 73-88.

        欧美情侣性视频| 国产亚洲成人av一区| 女人被狂躁c到高潮视频| 久久国产精久久精产国| 中国丰满熟妇av| 国产精品玖玖玖在线资源| 精品国产乱码一区二区三区 | 国产精品久久久三级18| 人妻少妇精品无码专区动漫| 伊人网视频在线观看| 国产精品一区二区久久精品蜜臀| 91精品国产福利在线观看麻豆| 爆乳熟妇一区二区三区霸乳| 久草视频国产| 国产成版人性视频免费版| 不卡一区二区黄色av| 国产精品v欧美精品v日韩精品 | 人妻被黑人粗大的猛烈进出| 亚洲精品有码在线观看| 亚洲中出视频| 成人国产高清av一区二区三区| 国产成人a∨激情视频厨房| 国产精品对白交换视频| 亚洲红杏AV无码专区首页| 国产伦一区二区三区久久| 水蜜桃男女视频在线观看网站| 国产精品国产三级国产a | 在线观看免费人成视频| 农村国产毛片一区二区三区女| 日韩亚洲在线观看视频| 欧美不卡一区二区三区| 日日摸夜夜添狠狠添欧美| 亚洲女同精品久久女同| 99人中文字幕亚洲区三| 毛多水多www偷窥小便| 一个人免费观看在线视频播放| 日本免费一区二区久久久| 人妻精品久久无码区| 亚洲香蕉视频| 美女被搞在线观看一区二区三区| 欧美性xxxxx极品老少|