亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在篩選致病候選基因上的優(yōu)勢(shì)分析

        2013-10-27 02:30:57汪偉平汪曉銀華中農(nóng)業(yè)大學(xué)理學(xué)院湖北武漢430070
        關(guān)鍵詞:共表達(dá)相似性表型

        王 駿,汪偉平,汪曉銀 (華中農(nóng)業(yè)大學(xué)理學(xué)院,湖北 武漢 430070)

        周 磊 (華中農(nóng)業(yè)大學(xué)生命科學(xué)技術(shù)學(xué)院,湖北 武漢 430070)

        加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在篩選致病候選基因上的優(yōu)勢(shì)分析

        王 駿,汪偉平,汪曉銀 (華中農(nóng)業(yè)大學(xué)理學(xué)院,湖北 武漢 430070)

        周 磊 (華中農(nóng)業(yè)大學(xué)生命科學(xué)技術(shù)學(xué)院,湖北 武漢 430070)

        面對(duì)多基因疾病的致病基因篩選的難題,加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)模型作為一種新的基于圖論和統(tǒng)計(jì)學(xué)的生物信息挖掘方法,較其他傳統(tǒng)方法以其較好的預(yù)測(cè)精確度,完備的生物學(xué)理論以及實(shí)現(xiàn)的簡(jiǎn)潔可行,有著較好應(yīng)用前景。重點(diǎn)將加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)與基于網(wǎng)絡(luò)距離和基于疾病表性相似性這2大主流方法進(jìn)行實(shí)例對(duì)比分析,以體現(xiàn)加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)在致病候選基因篩選上的優(yōu)勢(shì)性。

        加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò);基于網(wǎng)絡(luò)距離法;基于疾病表性相似性;致病候選基因

        人類疾病的基因組學(xué)研究已進(jìn)入到多基因疾病這一難點(diǎn)。由于多基因疾病既是最常見(jiàn)的又是人們了解最少的人類遺傳疾病,它們是多個(gè)基因相互作用所致,往往又不遵循孟德?tīng)栠z傳規(guī)律。這方面的研究需要在人群和遺傳標(biāo)記的選擇、數(shù)學(xué)模型的建立、統(tǒng)計(jì)方法的改進(jìn)等方面進(jìn)行艱苦的努力[1]。

        多基因疾病的遺傳異質(zhì)性,基因上位顯性,低外顯率,表達(dá)多變性和基因多效性,以及環(huán)境因素的影響,這些因素使得尋找復(fù)雜疾病基因異常困難[2]。同時(shí)傳統(tǒng)疾病基因識(shí)別方法存在諸多局限性。一方面需要耗費(fèi)大量人力物力搜集樣本并獲取數(shù)據(jù),而另一方面在實(shí)際中其定位精度往往難以滿足要求。

        以真實(shí)生物系統(tǒng)為對(duì)象,通過(guò)建立一個(gè)能夠很好地反映生物系統(tǒng),具有有限參數(shù)的數(shù)學(xué)模型,并提供有效的計(jì)算方法,對(duì)限定關(guān)聯(lián)基因組區(qū)域的基因進(jìn)行排序,篩選出與給定疾病最相關(guān)的基因,是目前解決這一問(wèn)題的有效途徑。

        1 基于網(wǎng)絡(luò)的疾病基因預(yù)測(cè)方法

        由于基因與疾病關(guān)系在生物學(xué)上的復(fù)雜性,基于網(wǎng)絡(luò)的疾病基因預(yù)測(cè)模型被越來(lái)越多的學(xué)者所認(rèn)可和接受?;诰W(wǎng)絡(luò)的疾病基因預(yù)測(cè)方法大體分為2類:基于網(wǎng)絡(luò)距離的方法和基于疾病表性相似性的網(wǎng)絡(luò)方法。這些方法的不同之處在于其基本假設(shè)和具體實(shí)現(xiàn)。

        致病基因預(yù)測(cè)的一般框架如下:對(duì)給定的n個(gè)候選基因,其中包含一個(gè)或多個(gè)致病基因,預(yù)測(cè)的目標(biāo)是通過(guò)某種模型賦予每個(gè)候選基因一個(gè)得分,使得致病基因得分盡量高。

        1.1基于網(wǎng)絡(luò)距離的方法

        基于網(wǎng)絡(luò)距離的方法的基本假設(shè)如下:同種疾病的致病基因在網(wǎng)絡(luò)中相互靠近。如果已知部分致病基因,則可根據(jù)其他基因到致病基因的距離對(duì)其他基因進(jìn)行排序。如果沒(méi)有已知疾病基因,則需要依賴更多的數(shù)據(jù)[3]。

        1)依賴已知致病基因 由于大約一半的人類疾病有至少一個(gè)已知的致病基因,對(duì)于這類疾病,對(duì)候選基因的打分可以看作一個(gè)信號(hào)在網(wǎng)絡(luò)中傳播的過(guò)程:已知致病基因作為信號(hào)源發(fā)出信號(hào),信號(hào)沿著網(wǎng)絡(luò)中的路徑從一個(gè)節(jié)點(diǎn)傳播到相鄰節(jié)點(diǎn),并且隨著傳播的進(jìn)行即距離的增加,信號(hào)逐漸減弱。網(wǎng)絡(luò)中其他節(jié)點(diǎn)接收到的信號(hào)強(qiáng)弱則可以作為基因與疾病關(guān)系強(qiáng)度的一個(gè)估計(jì)。于是問(wèn)題轉(zhuǎn)化為如何定義和使用網(wǎng)絡(luò)中的距離,方法有最近鄰近法和最短路徑法2種。

        最近鄰近法僅考慮直接相互作用的基因,即一階鄰居之間距離為 1,而其余為無(wú)窮,實(shí)質(zhì)是一種“數(shù)鄰居”的策略:如果一個(gè)基因周圍有很多致病基因,則該基因也很有可能是致病基因。該策略的性能依賴于相互作用數(shù)據(jù)(基因網(wǎng)絡(luò))的選取,不同基因網(wǎng)絡(luò)數(shù)據(jù)之間的差別很大,但都大大優(yōu)于隨機(jī)挑選的結(jié)果。

        最短路徑法更適用與不同基因在同一個(gè)蛋白復(fù)合體中,而不是同一個(gè)通路中。以最短路徑長(zhǎng)度作為距離可以考慮到所有聯(lián)通的節(jié)點(diǎn)之間的影響。修正了最近鄰方法中的一些局限性,2個(gè)能相關(guān)的基因并不一定直接相互作用。這2個(gè)可能在同一個(gè)生物過(guò)程的不同時(shí)刻起作用,但仍然導(dǎo)致相同的疾病。

        2)不依賴已知致病基因 基于網(wǎng)絡(luò)距離的方法在沒(méi)有'先驗(yàn)基因'情況下雖然可依據(jù)同樣的假設(shè),即疾病的致病基因相互之間存在緊密關(guān)聯(lián),來(lái)預(yù)測(cè)其致病基因。前提是至少有2個(gè)存在致病基因的連鎖區(qū)間,同時(shí)需要依賴更多的數(shù)據(jù),在預(yù)測(cè)的精確度上可能效果不如已知致病基因的情形。

        1.2基于疾病表性相似性的網(wǎng)絡(luò)方法

        基于疾病表性相似性的網(wǎng)絡(luò)方法的基本假設(shè)如下:功能相關(guān)的基因?qū)е卤硇拖嗨频募膊?。即不僅同一種疾病的致病基因傾向于緊密相關(guān),相似疾病的致病基因之間也存在一定程度的關(guān)聯(lián)[4]。

        一個(gè)疾病可以用一組描述其臨床癥狀的詞匯來(lái)表示。基于這點(diǎn),可以通過(guò)量化2個(gè)疾病之間癥狀的重合來(lái)量化其相似性,稱之為疾病的表型相似性。van Driel[5]等通過(guò)文本挖掘的方式計(jì)算了5080 種人類疾病之間兩兩的表型相似性。Lage[6]等提出了一種加權(quán)的最近鄰法,將表型相似性與最近鄰法相結(jié)合,即待研究基因致病的可能性由最近鄰所包含的致病基因決定,每個(gè)致病基因的權(quán)重為該基因?qū)е碌募膊∨c所研究的疾病之間的表型相似性。

        2 加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)

        使用網(wǎng)絡(luò)模型分析的思想雖已達(dá)到共識(shí),但傳統(tǒng)方法中也存在著很多不完善的地方,致病基因預(yù)測(cè)的一般輸入數(shù)據(jù):疾病表型即疾病臨床表現(xiàn)、蛋白質(zhì)相互作用關(guān)系以及疾病與基因的關(guān)聯(lián)信息數(shù)據(jù)。而以上研究中使用的網(wǎng)絡(luò)基本為基因網(wǎng)絡(luò)和疾病網(wǎng)絡(luò),還有它們的關(guān)聯(lián)網(wǎng)絡(luò)。在基因網(wǎng)絡(luò)中,節(jié)點(diǎn)代表基因,而邊代表基因或其編碼的蛋白質(zhì)之間的相互作用。在疾病網(wǎng)絡(luò)中,節(jié)點(diǎn)代表疾病,邊代表疾病之間的表型重疊[7]。

        但在實(shí)際中,蛋白質(zhì)相互作用關(guān)系數(shù)據(jù)并不算完備,疾病與基因的關(guān)聯(lián)信息只是部分目前已知的有顯著關(guān)系的基因與疾病。即其方法最終的精確度一定程度上取決于作為輸入的已知信息量的大小。也正如基于網(wǎng)絡(luò)距離的方法,必須依賴至少一個(gè)已知的致病基因才有較好的應(yīng)用?;诩膊”硇韵嗨菩缘木W(wǎng)絡(luò)方法,其預(yù)先輸入的表型相似性矩陣也是較主觀的,雖然給最近鄰法加了權(quán)重,但仍避免不了最近鄰法的局限性。

        新的已知信息的補(bǔ)充和完善有一定的客觀性,對(duì)于科學(xué)研究來(lái)說(shuō),用已知或先驗(yàn)來(lái)預(yù)測(cè)未知,其實(shí)現(xiàn)過(guò)程方法不論如何改進(jìn),已知或先驗(yàn)的信息量大小及其客觀性對(duì)預(yù)測(cè)精度有較大影響的事實(shí)是不會(huì)變的。那么不需要過(guò)多的已知或先驗(yàn)信息,僅提高樣本量就能提高精度,并且理論完備符合生物學(xué)原理的方法是有待探討的。加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)正是這樣一種方法[8-9],以下結(jié)合實(shí)例說(shuō)明。

        3 實(shí)例分析

        3.1數(shù)據(jù)預(yù)處理

        所需數(shù)據(jù)為目標(biāo)疾病的所有n個(gè)致病候選基因在不同個(gè)體樣本上的基因表達(dá)譜,近年來(lái)隨著DNA微陣列技術(shù)的發(fā)展,在基因表達(dá)譜的提取上帶來(lái)了便利。由此得到矩陣X=(xij)n×m,n表示致病候選基因數(shù)目,m為樣本數(shù),每個(gè)基因即為網(wǎng)絡(luò)結(jié)點(diǎn)。另外樣本特征T=(tk)1×m,tk可取一定范圍內(nèi)的實(shí)數(shù),表示疾病狀態(tài)。

        由于相似性變換與通過(guò)實(shí)驗(yàn)得到的基因表達(dá)譜具有一致性,即能在盡量小的信息損失下生成基因間的相似性矩陣,具體可以使用Pearson或Jacknife的相關(guān)性檢驗(yàn)系數(shù),最后得到相似性矩陣(Sij)n×n。

        3.2鄰接陣轉(zhuǎn)換

        加權(quán)網(wǎng)絡(luò)的實(shí)質(zhì)從圖論的觀點(diǎn)來(lái)說(shuō)為賦權(quán)圖,即表現(xiàn)為基因的鄰接矩陣,將(Sij)n×n向鄰接陣轉(zhuǎn)換,轉(zhuǎn)化函數(shù)一般采用Sigmoid和Power,得到鄰接矩陣(aij)n×n。

        值得說(shuō)明的是,上述轉(zhuǎn)化函數(shù)的參數(shù)的選取是依據(jù)構(gòu)建出的網(wǎng)絡(luò),符合最佳貼近無(wú)尺度拓?fù)渚W(wǎng)絡(luò)的原則,即選參中使用了回歸的方法,這也是該方法的創(chuàng)新之一。

        近年來(lái)很多復(fù)雜網(wǎng)絡(luò)被發(fā)現(xiàn)有無(wú)尺度拓的特性,表現(xiàn)為在其結(jié)點(diǎn)度分布沒(méi)有一個(gè)特定的平均值指標(biāo),即大多數(shù)節(jié)點(diǎn)的度在此附近,度分布時(shí),其遵守冪律分布。在視圖中表現(xiàn)為大部分節(jié)點(diǎn)只有少數(shù)幾個(gè)連結(jié),而某些節(jié)點(diǎn)卻擁有與其他節(jié)點(diǎn)的大量連結(jié)。目前已證實(shí)生物代謝網(wǎng)絡(luò)也具有上述性質(zhì)。即該基因共表達(dá)網(wǎng)絡(luò)建立時(shí)應(yīng)以滿足生物網(wǎng)絡(luò)具有的無(wú)尺度拓?fù)涞臉?biāo)準(zhǔn),否則建立的網(wǎng)絡(luò)是違背生物學(xué)原理。在此假設(shè)下采用冪律分布的表征特點(diǎn)經(jīng)行回歸的方法選取構(gòu)建網(wǎng)絡(luò)時(shí)的參數(shù)。

        3.3拓?fù)渲丿B差異性量度矩陣

        3.4網(wǎng)絡(luò)聚類和模塊識(shí)別

        對(duì)差異性度量矩陣采用系統(tǒng)聚類或?qū)哟尉垲惖姆椒?,進(jìn)行模塊識(shí)別。模塊是指具有高度拓?fù)渲丿B性質(zhì)的集群。生物學(xué)解釋為導(dǎo)致外部病癥急劇變化的基因會(huì)聚集在一起。

        圖1 基因的聚類分析及模塊顏色標(biāo)注

        圖2 模塊與致病特性的相關(guān)性

        圖1是以糖尿病致病基因篩選為例,依據(jù)基因的差異性量度矩陣進(jìn)行層次聚類的樹狀圖,圖1的顏色標(biāo)注表示不同樹狀分支所屬的模塊。實(shí)例所選基因數(shù)為7023個(gè),最終得到13個(gè)模塊,說(shuō)明基因的聚類效果好,很好的構(gòu)建出了符合生物代謝網(wǎng)絡(luò)無(wú)尺度的特性。即模型既符合生物學(xué)假設(shè),并且對(duì)原始數(shù)據(jù)經(jīng)行變換后,使其變成了易于反映數(shù)據(jù)內(nèi)部本質(zhì)特征的形式,對(duì)后續(xù)的數(shù)據(jù)分析工作帶來(lái)了便利。

        3.5關(guān)聯(lián)外部信息

        模塊核心基因E定義為該模塊內(nèi)的基因的表達(dá)矩陣的第一主成份基因。

        模塊關(guān)系指數(shù)MMblue(i):

        MMbiue(i)=cor(xi,Eblue)

        描述基因i與blue模塊的模塊核心基因Eblue的相關(guān)性。模塊重要性度量即為該模塊的核心基因與樣本特征T的相關(guān)性,即不同基因的致病可能性的得分。

        為了區(qū)分方便,分別為模塊命名并計(jì)算其樣本特征T的相關(guān)性(見(jiàn)圖2),找到與外部病癥相關(guān)最高的模塊,同時(shí)可以得出該模塊中各基因的致病得分,得到數(shù)目比其他方法少的致病基因,為后續(xù)進(jìn)一步的生物實(shí)驗(yàn)設(shè)計(jì)提供了依據(jù)。

        4 結(jié) 語(yǔ)

        綜上所述,加權(quán)關(guān)聯(lián)共表達(dá)網(wǎng)絡(luò)與傳統(tǒng)基因網(wǎng)絡(luò)方法相比,不需要過(guò)多的已知或先驗(yàn)信息,僅提高樣本量就能提高精度,并且采用最新生物網(wǎng)絡(luò)的無(wú)尺度特性的假設(shè)建立簡(jiǎn)單可行模型,通過(guò)事實(shí)證明了其在致病候選基因篩選上的優(yōu)勢(shì)。

        [1]龐樂(lè)君.基因組學(xué)和蛋白質(zhì)組學(xué)對(duì)新藥研發(fā)的影響[D].中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院,2005.

        [2]范巍.基因分型錯(cuò)誤對(duì)病例對(duì)照方法估計(jì)疾病外顯率的影響研究[D]. 楊凌:西北農(nóng)林科技大學(xué),2011.

        [3]彭佳揚(yáng).代謝網(wǎng)絡(luò)中功能模塊挖掘和進(jìn)化分析研究[D].長(zhǎng)沙:中南大學(xué),2011.

        [4]王宗堯.基于蛋白質(zhì)網(wǎng)絡(luò)的人類遺傳致病基因預(yù)測(cè)算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.

        [5]van Driel M A. A new web-based data miningtool for the identification of candidate genes for human genetic disorders[J].EurJ Hum Genet,2003,11: 57-63.

        [6]Lage K, Karlberg E O, Storling Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007, 25: 309-316.

        [7]Zhang B, Horvath S.A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology,2005,4(1):1128-1128.

        [8]Langfelder P,Horvath S.WGCNA: an R package for weighted correlation network analysis[J].BMC Bioinformatics,2008,9(1):559-559.

        [9]Li A, Horvath S.Network neighborhood analysis with the multi-node topological overlap measure[J]. Bioinformatics,2007, 23(2): 222-231.

        2012-11-26

        湖北省自然科學(xué)基金項(xiàng)目(2011CDB152);國(guó)家大學(xué)生創(chuàng)新性實(shí)驗(yàn)計(jì)劃項(xiàng)目(1210504024)。

        王駿(1990-),男,碩士生,現(xiàn)主要從事數(shù)學(xué)建模方面的研究工作。

        汪曉銀(1971-),男,博士,教授,現(xiàn)主要從事數(shù)學(xué)建模方面的教學(xué)與研究工作;E-mail:wxywxq@163.com。

        O29

        A

        1673-1409(2013)04-0036-04

        [編輯] 洪云飛

        猜你喜歡
        共表達(dá)相似性表型
        一類上三角算子矩陣的相似性與酉相似性
        侵襲性垂體腺瘤中l(wèi)ncRNA-mRNA的共表達(dá)網(wǎng)絡(luò)
        淺析當(dāng)代中西方繪畫的相似性
        建蘭、寒蘭花表型分析
        膀胱癌相關(guān)lncRNA及其共表達(dá)mRNA的初步篩選與功能預(yù)測(cè)
        低滲透黏土中氯離子彌散作用離心模擬相似性
        中國(guó)流行株HIV-1gag-gp120與IL-2/IL-6共表達(dá)核酸疫苗質(zhì)粒的構(gòu)建和實(shí)驗(yàn)免疫研究
        GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
        慢性乙型肝炎患者HBV基因表型與血清學(xué)測(cè)定的臨床意義
        胃癌患者癌組織HIF-1α、TGF-β共表達(dá)及其臨床意義
        亚洲AV成人无码天堂| 国产一区二区内射最近更新| 亚洲日本va午夜在线电影| 尤物无码一区| 青青草好吊色在线视频| 国产精品亚洲第一区二区三区 | 五十路一区二区中文字幕| 久久国产精品亚洲婷婷片| 国产98在线 | 日韩| 久久半精品国产99精品国产| 午夜一区二区在线视频| 狠狠综合久久av一区二区蜜桃 | 人妻在卧室被老板疯狂进入国产| 东京热无码人妻中文字幕| 男女做那个视频网站国产| 免费人成激情视频在线观看冫| 推油少妇久久99久久99久久| 黄片在线观看大全免费视频| 国产一区二区三区免费精品视频| 人人妻人人狠人人爽天天综合网| 中文字幕在线免费| 日本一区二区在线看看| 国产一区二区三区视频网| 日韩人妻无码一区二区三区| 久久国产国内精品对话对白| 五十路在线中文字幕在线中文字幕| 亚洲精品宾馆在线精品酒店| 好大好深好猛好爽视频免费| 久久久久成人精品免费播放| 日韩美腿丝袜三区四区| 国产精品中文久久久久久久| 亚洲综合性色一区| 三级黄片一区二区三区| 久久亚洲中文字幕精品一区| 亚洲av无码第一区二区三区| 亚洲中文字幕日产喷水| 国产自拍视频在线观看免费 | 日韩 亚洲 制服 欧美 综合| 亚洲精品字幕在线观看| 在线观看av片永久免费| 人妖一区二区三区视频|