亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于互信息的顯著基因提取及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)構(gòu)建

        2016-07-19 02:15:21牟曉陽(yáng)
        關(guān)鍵詞:互信息患病調(diào)控

        孔 薇 支 星 牟曉陽(yáng)

        1(上海海事大學(xué)信息工程學(xué)院 上海 201306)2(羅文大學(xué)生物化學(xué)系 新澤西 08028 美國(guó))

        ?

        基于互信息的顯著基因提取及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)構(gòu)建

        孔薇1支星1牟曉陽(yáng)2

        1(上海海事大學(xué)信息工程學(xué)院上海 201306)2(羅文大學(xué)生物化學(xué)系新澤西 08028 美國(guó))

        摘要傳統(tǒng)特征基因提取方法往往只注重單個(gè)基因在不同樣本中的表達(dá)差異,忽視了基因之間的關(guān)聯(lián)性以及多個(gè)致病基因作為一個(gè)基因模塊與復(fù)雜疾病的聯(lián)系。針對(duì)這種情況,提出基于互信息MI(Mutual Information)的特征基因提取算法,提取在健康對(duì)照和阿爾茨海默癥AD(Alzheimer’s disease)患病樣本中關(guān)聯(lián)度具有明顯差異變化的基因作為特征基因。在此基礎(chǔ)上,結(jié)合轉(zhuǎn)錄因子TF(Transcription factor)對(duì)靶基因TG(Target gene)調(diào)控的生物學(xué)先驗(yàn)信息,利用網(wǎng)絡(luò)成分分析NCA(Network Component Analysis)算法分析轉(zhuǎn)錄因子的表達(dá)活性及其對(duì)靶基因的調(diào)控強(qiáng)度,構(gòu)建AD特征基因的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。分子生物學(xué)分析表明,它們?cè)谟薪z分裂、細(xì)胞周期、免疫反應(yīng)以及炎癥反應(yīng)過(guò)程中的變化對(duì)AD的退化過(guò)程具有重要作用。

        關(guān)鍵詞阿爾茨海默癥(AD)互信息(MI)轉(zhuǎn)錄因子(TF)網(wǎng)絡(luò)成分分析(NCA)

        0引言

        阿爾茨海默癥[1]AD是以進(jìn)行性認(rèn)知障礙和記憶力損害為主的中樞神經(jīng)系統(tǒng)退行性病變。在過(guò)去的幾十年中,雖然已經(jīng)提出了多種假說(shuō)和許多公認(rèn)的AD易感基因,但是AD的遺傳學(xué)機(jī)制和發(fā)病機(jī)制仍不清楚。對(duì)于探尋基因表達(dá)水平,轉(zhuǎn)錄因子TF活性以及轉(zhuǎn)錄調(diào)控機(jī)制變化,表現(xiàn)出的轉(zhuǎn)錄因子和靶基因TG的協(xié)調(diào)動(dòng)態(tài)響應(yīng),將對(duì)于研究AD的致病機(jī)理具有重大意義。

        近年來(lái),隨著高通量技術(shù)的飛速發(fā)展,如DNA微陣列技術(shù)和統(tǒng)計(jì)學(xué)計(jì)算工具[2]使得生物信號(hào)大規(guī)模的測(cè)量,發(fā)現(xiàn)了AD有關(guān)的許多重要基因、共調(diào)控基因群以及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。此外,為了克服微陣列技術(shù)的基本缺點(diǎn),如小樣本、基因數(shù)量大、測(cè)量誤差以及信息不全。一些其他的高通量技術(shù),如蛋白質(zhì)相互作用數(shù)據(jù)PPI(protein-proteininteraction)、轉(zhuǎn)錄因子和microRNA信息數(shù)據(jù)也相繼被整合,使得對(duì)于AD致病機(jī)理的研究有了更加充分的信息數(shù)據(jù)量。傳統(tǒng)的基因網(wǎng)絡(luò)分析模型如獨(dú)立成分分析[3]ICA(independentcomponentanalysis)并不能運(yùn)用一些轉(zhuǎn)錄調(diào)控信息,并且只是純粹的基于調(diào)控信號(hào)的數(shù)學(xué)和統(tǒng)計(jì)特性,因此它們并不能準(zhǔn)確地構(gòu)建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。網(wǎng)絡(luò)成分分析[4]NCA是一種用來(lái)確定轉(zhuǎn)錄因子對(duì)靶基因調(diào)控影響和其活性強(qiáng)度的方法,算法思想是通過(guò)預(yù)先輸入基因表達(dá)數(shù)據(jù)和先驗(yàn)給定的轉(zhuǎn)錄因子和其靶基因的連接信息,將基因表達(dá)數(shù)據(jù)轉(zhuǎn)化成TF活性水平和轉(zhuǎn)錄因子對(duì)其靶基因的調(diào)控影響。NCA已被用于許多研究,例如,應(yīng)用于酵母細(xì)胞周期過(guò)程中,識(shí)別此前被忽視的振蕩活性模式[4]。

        傳統(tǒng)的差異基因提取方法,往往是基于單條基因在健康對(duì)照和患病樣本中的表達(dá)水平差異,表達(dá)差異的大小表明了該基因與疾病的相關(guān)性大小。但是卻忽視了基因之間的關(guān)聯(lián)性以及多個(gè)致病基因作為一個(gè)基因模塊與復(fù)雜疾病的相關(guān)性。張煥萍等人基于互信息(MI)和最大團(tuán)(clique)相結(jié)合的方法,挖掘出有關(guān)結(jié)腸癌(Colon)的差異共表達(dá)致病基因模塊[5]。本文從基因之間的關(guān)聯(lián)性角度出發(fā),基于互信息方法,提取出在健康組樣本中關(guān)聯(lián)度低甚至沒(méi)有關(guān)聯(lián)性,而在患病樣本中關(guān)聯(lián)度高的基因,并將它們作為特征基因。該算法旨在通過(guò)計(jì)算任意兩條基因表達(dá)譜在兩類(lèi)不同樣本中的互信息值,得出對(duì)應(yīng)的互信息矩陣,然后圍繞這兩個(gè)互信息矩陣去構(gòu)建一個(gè)圖的鄰接矩陣,最終通過(guò)這個(gè)鄰接矩陣挖掘出有關(guān)特征基因。該算法避免了傳統(tǒng)特征基因提取方法的單一性和片面性,從基因之間的關(guān)聯(lián)性出發(fā),使結(jié)果具有生物學(xué)意義。在此基礎(chǔ)上,考慮到基因表達(dá)數(shù)據(jù)無(wú)法體現(xiàn)基因調(diào)控轉(zhuǎn)錄信息,所以將以上特征基因表達(dá)數(shù)據(jù)和轉(zhuǎn)錄因子調(diào)控靶基因信息數(shù)據(jù)進(jìn)行整合,運(yùn)用到NCA中得出了轉(zhuǎn)錄因子的表達(dá)活性及其對(duì)靶基因的調(diào)控強(qiáng)度,最終本文構(gòu)建了在健康對(duì)照樣本和AD患病樣本中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。分子生物學(xué)分析表明,TF活性的變化及其對(duì)TG的調(diào)控影響在AD的發(fā)病和惡化過(guò)程里起著重要作用,可通過(guò)這些成果為探索AD的發(fā)病機(jī)制增加新的思路和依據(jù)。

        1算法

        1.1基于互信息的特征基因提取

        對(duì)于復(fù)雜的基因關(guān)系,熵和互信息的方法能有效抓住基因與基因之間的關(guān)聯(lián)性,能有效提取出復(fù)雜疾病的致病基因[6]。在信息論中,熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值。設(shè)基因變量X=[x1,x2,…,xs]是一個(gè)基因表達(dá)模式,S代表基因表達(dá)數(shù)據(jù)中的樣本的數(shù)量,則該基因表達(dá)模式的熵就是該模式所包含的信息量的度量?;蜃兞縓的熵為:

        (1)

        聯(lián)合熵是指一對(duì)基因變量X和Y的不確定的度量,即:

        (2)

        對(duì)于兩個(gè)隨機(jī)變量X和Y,其互信息I(X,Y)就是其中一個(gè)變量能提供給另一個(gè)變量的信息量,即:

        (3)

        根據(jù)上述公式得出互信息最終公式為:

        I(X,Y)=H(X)+H(Y)-H(X,Y)

        (4)

        根據(jù)互信息值分析2個(gè)基因變量間的關(guān)聯(lián)性,若互信息值較大,表明2個(gè)基因變量之間相關(guān)性較大,可認(rèn)為這2條基因在生物學(xué)上存在著較強(qiáng)的關(guān)聯(lián)性;反之,若互信息值為0或者較小,則表明這兩條基因變量不相互包含任何信息,即在生物學(xué)上不存在關(guān)聯(lián)性。對(duì)于基因變量間的互信息計(jì)算,本文借助直方圖的思想[7],首先將基因表達(dá)數(shù)據(jù)全部離散化,分別求出基因的熵和基因之間的聯(lián)合熵,再根據(jù)式(4)就能得出基因變量間的互信息。

        說(shuō)起幫襯二字,那當(dāng)然是寶玉爹首先幫了寶剛爹的。沒(méi)有寶玉爹的李代桃僵,就不會(huì)有寶剛爹一輩子的美滿婚姻。真的,盡管在鄉(xiāng)黨們的眼里,寶剛爹是個(gè)怕老婆的標(biāo)兵,在香娭毑面前,從沒(méi)挺起胸抬起頭做過(guò)人,可俗話說(shuō)得好,鞋合不合腳,只有自己知道,寶剛爹對(duì)香娭毑,是打自心眼里敬畏和滿意的。唯獨(dú)不滿意的一次,就是那次賽詩(shī)會(huì),也就是香娭毑朗誦了愛(ài)毛主席的詩(shī)遭到寶剛爹的當(dāng)場(chǎng)嗆白之后,香娭毑賭氣回南縣老家侄兒那里住了好些日子,還是寶剛爹親自去接才回到白家灣來(lái)。至于二狗伢說(shuō)香娭毑與寶玉爹有那么一腿之事,鄉(xiāng)黨們似乎抱的是一種無(wú)所謂的態(tài)度,真也罷,假也罷,都有可能,都有道理,在鄉(xiāng)下,是沒(méi)有誰(shuí)去認(rèn)真追究的。

        對(duì)于基因表達(dá)數(shù)據(jù)的微陣列矩陣E=(eij)N×S,其中N和S分別表示的基因的數(shù)量和數(shù)據(jù)樣本數(shù),eij代表的是第i條基因在第j個(gè)樣本下的表達(dá)水平值。對(duì)于只包含兩類(lèi)狀態(tài)的樣本,可將E分為Econtrol和Eaffected兩部分,即健康組和患病組樣本下的基因表達(dá)數(shù)據(jù)。通過(guò)計(jì)算Econtrol和Eaffected中的每對(duì)基因間的互信息,最終分別得到形狀為N×N的互信息矩陣Icontrol和Iaffected?;诨バ畔⒌男再|(zhì),本文認(rèn)為在健康組樣本里和其它基因相關(guān)性較小,即互信息值較小的基因稱(chēng)為與其他基因失聯(lián),而在患病樣本下該基因又與其他基因產(chǎn)生較大的相關(guān)性,即互信息值較高稱(chēng)之為與其他基因密切關(guān)聯(lián),則可以認(rèn)為此類(lèi)基因在疾病產(chǎn)生過(guò)程中從失聯(lián)狀態(tài)變化為表達(dá)異常且發(fā)揮著關(guān)聯(lián)作用勢(shì)必對(duì)疾病的產(chǎn)生具有重要作用,因此將此類(lèi)基因作為特征基因。另外在疾病產(chǎn)生過(guò)程中,有些基因和其他基因的關(guān)系是從關(guān)聯(lián)狀態(tài)變化到失聯(lián)狀態(tài),也將這些基因作為是特征基因,本文只考慮前者。提取此類(lèi)特征基因的具體方法為:選擇2個(gè)閾值Tcontrol和Taffected(Tcontrol>Taffected),并對(duì)Icontrol和Iaffected進(jìn)行如下算法操作:

        ifi==j,thenIcontrol(i,j)=0else ifIcontrol(i,j)≥Tcontrol,thenIcontrol(i,j)=1elseIcontrol(i,j)=0

        (5)

        ifi==j,thenIaffected(i,j)=0else ifIaffected(i,j)≤Taffected,thenIaffected(i,j)=1elseIaffected(i,j)=0

        (6)

        I(i,j)=Icontrol(i,j)&Iaffected(i,j)

        (7)

        式(5)和式(6)的目的是將互信息矩陣Icontrol和Iaffected進(jìn)行二值化運(yùn)算。為了剔除基因的自相關(guān)干擾,可以發(fā)現(xiàn)兩式首先都對(duì)矩陣中的對(duì)角線元素進(jìn)行了歸0。為了更好地看出兩類(lèi)樣本中基因之間的關(guān)聯(lián)性變化,利用式(7)對(duì)兩類(lèi)互信息矩陣進(jìn)行元素之間的邏輯“與”運(yùn)算構(gòu)建出了矩陣I,借助這個(gè)矩陣去挖掘特征基因。為了更形象化的分析,將矩陣I類(lèi)比為圖的鄰接矩陣,顯然每條基因就對(duì)應(yīng)于圖的一個(gè)頂點(diǎn)。若元素I(i,j)=1,即Icontrol(i,j)=1且Iaffected(i,j)=1也就是Icontrol(i,j)≥Tcontrol且Iaffected(i,j)≤Taffected,表明第i條基因和第j基因在健康對(duì)照樣本中關(guān)聯(lián)性較大,而在患病樣本中關(guān)聯(lián)性較小,即認(rèn)為在圖中表示這兩點(diǎn)有線段連接。反之,若元素I(i,j)=0,則認(rèn)為在圖中表示這兩點(diǎn)無(wú)線段連接,互相孤立。本文為了提取出在健康組樣本中和其他基因關(guān)聯(lián)度較小,而在患病樣本中關(guān)聯(lián)度較大的基因作為特征基因,很顯然是挑出圖中的這些孤立點(diǎn)。因?yàn)檫@些孤立點(diǎn)即基因,絕大部分是屬于先在健康組樣本中和其他基因關(guān)聯(lián)度低甚至失聯(lián),而在患病樣本關(guān)聯(lián)度高的基因。通過(guò)對(duì)這些基因的研究,對(duì)探尋AD致病基因、信號(hào)傳導(dǎo)通路及其轉(zhuǎn)錄調(diào)控過(guò)程具有重要意義。

        1.2網(wǎng)絡(luò)成分分析算法原理

        由于提取的特征基因表達(dá)數(shù)據(jù)無(wú)法體現(xiàn)出基因調(diào)控轉(zhuǎn)錄信息,本文結(jié)合轉(zhuǎn)錄因子對(duì)靶基因調(diào)控的生物學(xué)先驗(yàn)知識(shí),基于網(wǎng)絡(luò)成分分析算法,構(gòu)建基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。網(wǎng)絡(luò)成分分析NCA是一種用來(lái)分析轉(zhuǎn)錄網(wǎng)絡(luò)基因表達(dá)數(shù)據(jù)的算法,算法實(shí)質(zhì)是根據(jù)基因表達(dá)數(shù)據(jù)和轉(zhuǎn)錄因子-靶基因調(diào)控關(guān)系的連通性網(wǎng)絡(luò),推導(dǎo)出轉(zhuǎn)錄因子活性TFAs(transcriptionfactoractivities)和轉(zhuǎn)錄因子對(duì)其靶基因的調(diào)控強(qiáng)度CS(controlstrengths)。轉(zhuǎn)錄調(diào)控模型如下:

        (8)

        式中Ei(t)代表基因表達(dá)水平,TFAi(t)(j=1,2,…,L)表示的是轉(zhuǎn)錄因子活性,CSij表示的是轉(zhuǎn)錄因子j對(duì)基因i的調(diào)控強(qiáng)度,(t)和(0)分別表示的是指定條件t和參考條件0。將對(duì)數(shù)-線性變換作為標(biāo)準(zhǔn)化方法來(lái)近似此非線性系統(tǒng),通過(guò)對(duì)數(shù)轉(zhuǎn)換后,式(8)的矩陣形式表示為:

        [E]=[C][P]+Γ

        (9)

        式中矩陣[E](N×M)代表N個(gè)基因在M個(gè)樣本下的基因表達(dá)矩陣,矩陣[C](N×L)表示的是轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控強(qiáng)度矩陣以及矩陣[P](L×M)表示的是L個(gè)轉(zhuǎn)錄因子在M個(gè)樣本下的表達(dá)活性矩陣,N表示基因數(shù)量,M表示實(shí)驗(yàn)樣本個(gè)數(shù)以及L表示的是轉(zhuǎn)錄因子個(gè)數(shù),此外Γ該模型的殘差矩陣。若基因i不被轉(zhuǎn)錄因子j所調(diào)控,那么就將調(diào)控矩陣[C]中的元素Cij初始值設(shè)置為零;反之,則將元素Cij初始值設(shè)置為非零值。

        由于基因表達(dá)矩陣[E]分解成因子矩陣并不具有唯一性,文獻(xiàn)[4]已證明,若矩陣[C]和[P]滿足唯一性條件,NCA算法能確保得到唯一解,來(lái)達(dá)到對(duì)任何給定的殘差矩陣Γ的比例因子。此條件很明確地將NCA結(jié)果銜接到生物系統(tǒng)上,使解釋簡(jiǎn)單明了。為了找出式(9)的最優(yōu)解,最小二乘法約束被運(yùn)用:

        min‖[E]-[C][P]‖2s.tC∈Z0

        (10)

        式中矩陣Z0是連接模式矩陣,[C]和[P]的實(shí)際估計(jì)是通過(guò)兩步交替最小二乘算法實(shí)現(xiàn),該算法利用的是線性分解的雙凸性。最小二乘約束法等價(jià)于具有獨(dú)立同分布成分的高斯噪聲存在下的最大似然方法。對(duì)于NCA算法,詳見(jiàn)文獻(xiàn)[4]。

        2仿真結(jié)果與分析

        2.1基于互信息算法的特征提取結(jié)果分析

        本文選用的實(shí)驗(yàn)數(shù)據(jù)是來(lái)自美國(guó)國(guó)立生物技術(shù)信息中心NCBI(nationalcenterforbiotechnologyinformation)網(wǎng)站的基因表達(dá)綜合數(shù)據(jù)庫(kù)GEO(geneexpressionomnibus,http://www.ncbi.nlm.nih.gov/gds/)中的數(shù)據(jù)集GSE5281。該AD數(shù)據(jù)集是由LiangWS等人提供的,包含了161組不同大腦皮層組織樣本的基因表達(dá)數(shù)據(jù)[8],本文選用的是海馬區(qū)HIP(Hippocampus)基因表達(dá)數(shù)據(jù),它擁有13個(gè)健康對(duì)照樣本和10個(gè)患病樣本及每組樣本包括54 675個(gè)基因探針?biāo)鶎?duì)應(yīng)基因表達(dá)數(shù)據(jù)。

        對(duì)于數(shù)據(jù)的預(yù)處理,本文首先將數(shù)據(jù)進(jìn)行歸一化,目的是將所有基因表達(dá)數(shù)據(jù)值都映射到[-1,1]區(qū)間中,然后通過(guò)公式(1)計(jì)算每條基因的信息熵,挑出信息熵值大的基因。將信息熵應(yīng)用于基因表達(dá)數(shù)據(jù),如某基因信息熵越大,表明該基因在樣本中含有的信息量越大,分類(lèi)貢獻(xiàn)率也就越大;反之,信息熵越小,該基因信息量越小,分類(lèi)貢獻(xiàn)率越低。最終通過(guò)計(jì)算,選擇了5000條基因。分別計(jì)算這5000條基因在健康對(duì)照樣本和患病樣本中的互信息值,得到了兩個(gè)互信息矩陣,既Icontrol和Iaffected。對(duì)于閾值Tcontrol和Taffected的選取是本文基于互信息方法提取特征基因的關(guān)鍵。若Tcontrol值選取過(guò)大同時(shí)Taffected值選取過(guò)小,會(huì)造成得到的特征基因數(shù)量過(guò)多;若Tcontrol值選取過(guò)小同時(shí)Taffected值選取過(guò)大,會(huì)造成得到的特征基因數(shù)量過(guò)少,甚至提取不到AD易感基因。這些問(wèn)題都將直接影響本文后面基于NCA算法調(diào)控網(wǎng)絡(luò)的構(gòu)建。對(duì)得到的這兩個(gè)互信息矩陣進(jìn)行式(5)-式(7)處理,經(jīng)過(guò)多次驗(yàn)證,最終設(shè)定Tcontrol=2.3,Taffected=1.7得到實(shí)對(duì)稱(chēng)矩陣I,通過(guò)對(duì)該鄰接矩陣的每行或每列進(jìn)行求和運(yùn)算。和值越大,表明這條基因在健康組樣本中和許多基因關(guān)聯(lián),反之和值為0的基因,則說(shuō)明它們?cè)诮】到M樣本中并不和其它基因關(guān)聯(lián),且它們絕大部分是在患病樣本中和許多基因關(guān)聯(lián)的。通過(guò)剔除和值非0的點(diǎn),本文挖掘出了493個(gè)基因作為特征基因。這些基因中絕大部分是在健康對(duì)照樣本里與其它基因失聯(lián),而在AD患病樣本中卻和其他基因強(qiáng)關(guān)聯(lián)。

        2.2NCA結(jié)果分析

        通過(guò)NCA算法推斷轉(zhuǎn)錄因子的活性和轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控強(qiáng)度,目的是為了挖掘出在健康對(duì)照和AD患病樣本中的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。本文選用網(wǎng)站BIOBASE(http://www.gene-regulation.com)中的TRANSFAC公共數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)擁有許多現(xiàn)有的轉(zhuǎn)錄因子調(diào)控靶基因的信息。為了找尋AD有關(guān)的關(guān)鍵轉(zhuǎn)錄因子,本文將前面互信息提取方法所得到的重要特征基因和該TF-TG調(diào)控關(guān)系數(shù)據(jù)庫(kù)進(jìn)行匹配,選擇了調(diào)控特征基因數(shù)量最多的前17個(gè)轉(zhuǎn)錄因子。表1給出了這17個(gè)轉(zhuǎn)錄因子及其所對(duì)應(yīng)調(diào)控的靶基因。對(duì)健康對(duì)照和AD患病樣本數(shù)據(jù),分別運(yùn)行NCA之前,需要建立兩個(gè)輸入:一個(gè)是矩陣[E],它表示的是原始AD基因表達(dá)數(shù)據(jù)所提供的在健康對(duì)照或患病樣本中的靶基因基因表達(dá)譜;另一個(gè)是預(yù)定義的初始連接矩陣[C0],它表示的是轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控關(guān)系,若TF調(diào)控TG,則令其對(duì)應(yīng)的連接矩陣[C0]中的元素值為1,反之值為0。通過(guò)NCA算法,最終篩選出了17個(gè)轉(zhuǎn)錄因子和46個(gè)靶基因,并且由此得出了轉(zhuǎn)錄因子分別在健康組樣本和患病樣本下的表達(dá)活性和其對(duì)靶基因的調(diào)控強(qiáng)度。

        基因的轉(zhuǎn)錄是通過(guò)一小部分轉(zhuǎn)錄因子控制的,通過(guò)翻譯后修飾或配體結(jié)合過(guò)程,它們的表達(dá)活性對(duì)于基因的表達(dá)水平來(lái)說(shuō)是決定性的因素。一般而言,轉(zhuǎn)錄因子活性水平(TFAs)并不總是和它們的基因表達(dá)譜TFEV(geneexpressionvaluesofTF)呈現(xiàn)出正相關(guān)。圖1給出了所有轉(zhuǎn)錄因子的表達(dá)活性和它們?cè)贏D原始微陣列數(shù)據(jù)中的基因表達(dá)譜的變化對(duì)比,其中端點(diǎn)帶有圓形標(biāo)注的線段表示的是轉(zhuǎn)錄因子在不同樣本中的表達(dá)活性變化;而帶有上三角形標(biāo)注的線段表示的是轉(zhuǎn)錄因子在不同樣本中的基因表達(dá)水平變化。另外圖1,X軸中點(diǎn)“1”對(duì)應(yīng)健康對(duì)照樣本,點(diǎn)“2”對(duì)應(yīng)患病樣本及Y軸對(duì)應(yīng)轉(zhuǎn)錄因子活性或基因表達(dá)水平值。圖1每個(gè)子圖都顯示了轉(zhuǎn)錄因子在不同病程樣本里的活性和基因表達(dá)強(qiáng)度,可以明顯發(fā)現(xiàn)從健康樣本到患病樣本過(guò)程中,表達(dá)活性明顯下降的轉(zhuǎn)錄因子有:ANAPC5,BUB3,DRAP1,MCM4,NAT13,THOC4,ZNF317;表達(dá)活性明顯上升的轉(zhuǎn)錄因子有:G3BP1,HNRPD,MRPL44,MRPS12,NLRP1,RFC5,ZBTB20。另外從轉(zhuǎn)錄因子的活性和基因表達(dá)強(qiáng)度的相關(guān)性分析,呈現(xiàn)正相關(guān)性的有:ANAPC5,BUB3,DRAP1,G3BP1,MCM4,MRPL44,MRPS12,NAT13,NLRP1,ZNF317,THOC4,ZBTB20;呈現(xiàn)負(fù)相關(guān)性的有:HNRPD,RFC5。

        表1 選取的轉(zhuǎn)錄因子與其對(duì)應(yīng)的靶基因

        續(xù)表1

        2.3AD動(dòng)態(tài)調(diào)控網(wǎng)絡(luò)分析

        基于NCA算法所得到的轉(zhuǎn)錄因子活性矩陣[P],調(diào)控矩陣[C]以及原始微陣列靶基因表達(dá)數(shù)據(jù),本文構(gòu)建了在健康對(duì)照樣本和AD患病樣本下的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖,如圖2和圖3所示。為了更加形象地看出所有轉(zhuǎn)錄因子及靶基因的動(dòng)態(tài)變化趨勢(shì),對(duì)構(gòu)建調(diào)控網(wǎng)絡(luò)所用到的數(shù)據(jù)首先都進(jìn)行了歸一化,其中靶基因的表達(dá)值由矩陣[E]中基因在對(duì)應(yīng)樣本中取均值所得,轉(zhuǎn)錄因子的表達(dá)活性由矩陣[P]中轉(zhuǎn)錄因子在對(duì)應(yīng)樣本中取均值所得,而轉(zhuǎn)錄因子對(duì)靶基因的正負(fù)調(diào)控作用由矩陣[C]中轉(zhuǎn)錄因子對(duì)靶基因的調(diào)控值的正負(fù)來(lái)定性表示。圖2和圖3中圓形節(jié)點(diǎn)表示轉(zhuǎn)錄因子,方形節(jié)點(diǎn)表示靶基因,三角形節(jié)點(diǎn)表示AD易感基因;節(jié)點(diǎn)顏色越深表示其表達(dá)水平越高或越低;連線則表示轉(zhuǎn)錄因子對(duì)靶基因有正負(fù)調(diào)控作用。

        圖2 健康對(duì)照樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖

        圖3 AD患病樣本轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖

        從構(gòu)建的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)圖以及表1可見(jiàn),多個(gè)轉(zhuǎn)錄因子可以共同調(diào)控一個(gè)靶基因,多個(gè)靶基因也可以被一個(gè)轉(zhuǎn)錄因子共同調(diào)控,即靶基因的表達(dá)受到一個(gè)或多個(gè)轉(zhuǎn)錄因子的表達(dá)活性的綜合影響。如圖中轉(zhuǎn)錄因子DRAP1,G3BP1,MRPL44,NAT13,RNGTT共同調(diào)控靶基因IDE,與健康組樣本對(duì)照,可以看出IDE的表達(dá)水平下降(顏色從深色到淺色),而轉(zhuǎn)錄因子G3BP1在患病樣本中被極大的激活(顏色深度加重),其中IDE是目前已知的AD易感基因[9],G3BP1對(duì)肺癌和乳腺癌擴(kuò)散具有中介效應(yīng)[10,11],并且文獻(xiàn)[11]指出RAS-GAPSH3結(jié)構(gòu)域結(jié)合蛋白(G3BP)是基因USP10的調(diào)制器,巧合的是網(wǎng)絡(luò)中G3BP1調(diào)控的多個(gè)靶基因中就包括基因USP10,與健康組樣本對(duì)照,可以看出USP10的表達(dá)水平升高。從中可以推斷,G3BP1與AD的發(fā)生密切相關(guān)。轉(zhuǎn)錄調(diào)控圖中如靶基因TFAM被轉(zhuǎn)錄因子THOC4,BUB3,MCM4,RNGTT共同調(diào)控,與健康組樣本對(duì)照,可以看出TFAM的表達(dá)水平升高(顏色從深色到淺色),BUB3在AD患病樣本中活性明顯降低;其中線粒體轉(zhuǎn)錄因子(TFAM)多態(tài)性與AD有關(guān)[12],BUB3是構(gòu)成有絲分裂紡錘體配置復(fù)合物的關(guān)鍵組成部分,能生成其他重要蛋白復(fù)合物[13]。在健康對(duì)照和AD患病網(wǎng)絡(luò)圖中特定的轉(zhuǎn)錄因子對(duì)于同一個(gè)靶基因的調(diào)控影響作用不一定相同,如轉(zhuǎn)錄因子NLRP1對(duì)于靶基因GPR12的調(diào)控一直都是促進(jìn)作用;然而轉(zhuǎn)錄因子ANAPC5對(duì)于靶基因ACTR2的調(diào)控作用,在健康組樣本中對(duì)其是抑制的,而在患病樣本中對(duì)其表達(dá)起促進(jìn)作用。其中基因GPR12涉及到細(xì)胞增殖和存活的調(diào)控[14],ACTR2又名ARP2,文獻(xiàn)[15]指出ARP2/3的丟失會(huì)導(dǎo)致趨化信號(hào)傳導(dǎo)中的NF-κB依賴(lài)性,是非自治的影響。炎性體(Inflammasomes)是專(zhuān)門(mén)的信令平臺(tái),對(duì)于先天免疫和炎癥反應(yīng)的調(diào)節(jié)至關(guān)重要,各種NLR家族成員(如NLRP1,NLRP3和IPAF等)以及PYHIN家族成員AIM2可形成炎性體復(fù)合物。ChoiAJ等人發(fā)現(xiàn)了激活NLRP3炎性信號(hào)通路的調(diào)控機(jī)制,并討論了在代謝和認(rèn)知性疾病,包括肥胖癥、2型糖尿病、阿爾茨海默癥(AD)和抑郁癥中NLRP3的潛在作用[16]。對(duì)于轉(zhuǎn)錄因子ANAPC5,與健康組樣本對(duì)照發(fā)現(xiàn),其在患病樣本中活性被抑制,它是APC的一個(gè)亞基,并且APC對(duì)于細(xì)胞在分裂后期退出有絲分裂過(guò)程以及防止其過(guò)早進(jìn)入DNA合成期(S期)有著重要作用[17]。通過(guò)在線基因分析網(wǎng)站DAVID(http://david.abcc.ncifcrf.gov/)對(duì)涉及到的所有靶基因和轉(zhuǎn)錄因子進(jìn)行定性分析,該網(wǎng)站包括許多基因分析數(shù)據(jù)庫(kù),如常見(jiàn)的KEGG[18](KyotoEncyclopediaofGenesandGenomes)和GO[19](geneontology)數(shù)據(jù)庫(kù)。針對(duì)KEGG通路發(fā)現(xiàn),ANAPC5不僅和BUB3,MCM4,E2F3形成了細(xì)胞周期通路,也和其它基因參與了泛素介導(dǎo)的蛋白水解過(guò)程通路,這也進(jìn)一步證明了ANAPC5對(duì)于AD的發(fā)病機(jī)理可能起著重要作用。

        此外,對(duì)于轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的定性分析,也發(fā)現(xiàn)了許多與常見(jiàn)癌癥密切相關(guān)的靶基因和轉(zhuǎn)錄因子。如轉(zhuǎn)錄因子HNRPD又名AUF1,它的表達(dá)與肝癌的惡化過(guò)程有著密切關(guān)系、對(duì)于在淋巴結(jié)陽(yáng)性乳腺癌患者中EIF4E的高表達(dá)可能是全身擴(kuò)散的標(biāo)志和抑制素(PHB)表現(xiàn)為細(xì)胞增殖的負(fù)調(diào)節(jié)劑以及是一種腫瘤抑制劑以及SIRT3是作為乳腺癌腫瘤抑制蛋白等。針對(duì)以上這些分析結(jié)果可知,AD與癌癥或者其它疾病之間其實(shí)并不是彼此孤立的,它們的致病機(jī)理可能是有內(nèi)在聯(lián)系的。本文通過(guò)對(duì)AD調(diào)控網(wǎng)絡(luò)的全面生物學(xué)分析,發(fā)現(xiàn)了一些AD致病原因,其中發(fā)現(xiàn)它們中有一些都與有絲分裂、細(xì)胞生長(zhǎng)、免疫反應(yīng)和炎癥反應(yīng)有著密切關(guān)系。在以后的研究里,將集中圍繞與AD有關(guān)的有絲分裂、細(xì)胞生長(zhǎng)、免疫反應(yīng)和炎癥反應(yīng)過(guò)程,為的是去發(fā)現(xiàn)真正的AD致病機(jī)理。

        3結(jié)語(yǔ)

        微陣列高通量技術(shù)的運(yùn)用,使得所有mRNA轉(zhuǎn)錄產(chǎn)物可以同時(shí)測(cè)量,從而讓構(gòu)建基因調(diào)控網(wǎng)絡(luò)成為可能。傳統(tǒng)的基因網(wǎng)絡(luò)分析模型如ICA并不能運(yùn)用轉(zhuǎn)錄調(diào)控信息,并且只是純粹的基于調(diào)控信號(hào)的數(shù)學(xué)和統(tǒng)計(jì)特性,因此它們并不能準(zhǔn)確地構(gòu)建調(diào)控網(wǎng)絡(luò)。本文從基因之間的關(guān)聯(lián)性出發(fā),首先利用互信息(MI)提取特征基因,探尋AD發(fā)病過(guò)程中明顯發(fā)生關(guān)聯(lián)作用的基因組;然后將所得的特征基因與轉(zhuǎn)錄調(diào)控信息進(jìn)行融合挖掘出AD關(guān)鍵轉(zhuǎn)錄因子;最后通過(guò)NCA算法推斷出轉(zhuǎn)錄因子在不同樣本下的活性和其對(duì)靶基因的調(diào)控強(qiáng)度,并成功構(gòu)建出轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。通過(guò)對(duì)AD調(diào)控網(wǎng)絡(luò)的分子生物學(xué)分析,發(fā)現(xiàn)了與AD密切相關(guān)的基因IDE和TFAM;與細(xì)胞周期有關(guān)的基因ANAPC5,BUB3 等;與炎癥反應(yīng)有關(guān)的基因NLRP1等。這些基因以及生物過(guò)程都與AD的致病機(jī)理有著緊密的聯(lián)系。另外,通過(guò)AD調(diào)控網(wǎng)絡(luò)分析,本文也發(fā)現(xiàn)了許多與癌癥有關(guān)的基因。這些發(fā)現(xiàn)可能有助于為AD致病機(jī)理的研究提供新的依據(jù)和方法。

        參考文獻(xiàn)

        [1]BrookmeyerR,JohnsonE,Ziegler-GrahamK,etal.ForecastingtheglobalburdenofAlzheimer’sdisease[J].Alzheimer’s&dementia,2007,3(3):186-191.

        [2]KaissiO,NimpayeE,SinghTR,etal.GenesSelectionComparativeStudyinMicroarrayDataAnalysis[J].Bioinformation,2013,9(20):1019.

        [3]Hyv?rinenA,OjaE.Independentcomponentanalysis:algorithmsandapplications[J].Neuralnetworks,2000,13(4):411-430.

        [4]LiaoJC,BoscoloR,YangYL,etal.Networkcomponentanalysis:reconstructionofregulatorysignalsinbiologicalsystems[J].ProceedingsoftheNationalAcademyofSciences,2003,100(26):15522-15527.

        [5] 張煥萍,王惠南,盧光明,等.基于互信息的差異共表達(dá)致病基因挖掘方法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,39(1):151-155.

        [6] 孫嘯,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].清華大學(xué)出版社有限公司,2005.

        [7]SteuerR,KurthsJ,DaubCO,etal.Themutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].Bioinformatics,2002,18(suppl2):S231-S240.

        [8]LiangWS,ReimanEM,VallaJ,etal.Alzheimer’sdiseaseisassociatedwithreducedexpressionofenergymetabolismgenesinposteriorcingulateneurons[J].ProceedingsoftheNationalAcademyofSciences,2008,105(11):4441-4446.

        [9]CuiPJ,CaoL,WangY,etal.Theassociationbetweentwosinglenucleotidepolymorphismswithintheinsulin-degradingenzymegeneandAlzheimer’sdiseaseinaChineseHanpopulation[J].JournalofClinicalNeuroscience,2012,19(5):745-749.

        [10]WinslowS,LeanderssonK,LarssonC.RegulationofPMP22mRNAbyG3BP1affectscellproliferationinbreastcancercells[J].Molecularcancer,2013,12(1):156.

        [11]SonciniC,BerdoI,DraettaG.Ras-GAPSH3domainbindingprotein(G3BP)isamodulatorofUSP10,anovelhumanubiquitinspecificprotease[J].Oncogene,2001,20(29):3869-3879.

        [12]ZhangQ,YuJT,WangP,etal.MitochondrialtranscriptionfactorA(TFAM)polymorphismsandriskoflate-onsetAlzheimer’sdiseaseinHanChinese[J].Brainresearch,2011,1368:355-360.

        [13]KumarA,RajendranV,SethumadhavanR,etal.CEPproteins:theknightsofcentrosomedynasty[J].Protoplasma,2013,250(5):965-983.

        [14]LuX,ZhangN,MengB,etal.InvolvementofGPR12intheregulationofcellproliferationandsurvival[J].Molecularandcellularbiochemistry,2012,366(1-2):101-110.

        [15]WuC,HaynesEM,AsokanSB,etal.LossofArp2/3inducesanNF-κB-dependent,nonautonomouseffectonchemotacticsignaling[J].TheJournalofcellbiology,2013,203(6):907-916.

        [16]ChoiJS,RyterSW.Inflammasomes:MolecularRegulationandImplicationsforMetabolicandCognitiveDiseases[J].Moleculesandcells,2014,37(6):441-448.

        [17]LatchmanDS.Transcriptionfactors:anoverview[J].Internationaljournalofexperimentalpathology,1993,74(5):417.

        [18]KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome[J].Nucleicacidsresearch,2004,32(suppl1):D277-D280.

        [19]YangAC,HsuHH,LuMD.Applyinggeneontologytomicroarraygeneexpressiondataanalysis[C]//SystemScienceandEngineering(ICSSE),2010InternationalConferenceon.IEEE,2010:421-426.

        SIGNIFICANT GENES EXTRACTION BASED ON MUTUAL INFORMATION ANDTRANSCRIPTIONALREGULATORYNETWORKRECONSTRUCTION

        Kong Wei1Zhi Xing1Mou Xiaoyang2

        1(Information Engineering College,Shanghai Maritime University,Shanghai 201306,China)2(Department of Chemistry and Biochemistry,Rowan University,NJ 08028,USA)

        AbstractTraditional feature genes extraction methods tend to focus only on the expression difference of a single gene in different samples, but ignore the correlation among genes as well as the links between multiple pathogenic genes as one gene module and complex diseases. In view of this, we proposed a mutual information-based feature genes extraction algorithm, it is used to extract those genes that have the most significant differences and changes in correlation between the healthy controls and Alzheimer’s disease (AD) samples. On this basis, in combination with the biological priori information about the regulatory of transcription factors (TF) on target gene (TG), we applied network component analysis algorithm (NCA) in analysing TF’s expression activities and their regulatory strengths on TGs, and constructed the transcriptional regulatory networks of AD feature genes. Molecular biology analysis showed that the changes of them in mitosis, cell cycle, immune response and inflammation play an important role in deterioration of AD.

        KeywordsAlzheimer’s disease (AD)Mutual information (MI)Transcription factor (TF)Network component analysis (NCA)

        收稿日期:2014-12-31。國(guó)家自然科學(xué)基金項(xiàng)目(61271446)。孔薇,教授,主研領(lǐng)域:生物信息處理,模式識(shí)別。支星,碩士生。牟曉陽(yáng),教授。

        中圖分類(lèi)號(hào)TP391.9Q343.1

        文獻(xiàn)標(biāo)識(shí)碼A

        DOI:10.3969/j.issn.1000-386x.2016.06.057

        猜你喜歡
        互信息患病調(diào)控
        為照顧患病家父請(qǐng)事假有何不可?
        野生動(dòng)物與人獸共患病
        科學(xué)(2020年3期)2020-11-26 08:18:20
        如何調(diào)控困意
        經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
        順勢(shì)而導(dǎo) 靈活調(diào)控
        “glifo”幫助患病兒童圓提筆之夢(mèng)
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        SUMO修飾在細(xì)胞凋亡中的調(diào)控作用
        改進(jìn)的互信息最小化非線性盲源分離算法
        精品久久人人爽天天玩人人妻| 日本精品一级二区三级| 国产精华液一区二区三区| 久久久久亚洲av无码麻豆| 无遮无挡三级动态图| 欧美一级视频在线| 日本亚洲视频免费在线看| 亚洲午夜精品一区二区| 精品国产av最大网站| 久久久精品电影| 中文字幕色一区二区三区页不卡| 国模gogo无码人体啪啪| 久久久久久久岛国免费观看| 在线视频一区二区日韩国产| 美女人妻中文字幕av| 狠狠躁夜夜躁av网站中文字幕| 性欧美牲交xxxxx视频欧美 | 青青草视频在线免费视频| 水蜜桃在线观看一区二区 | 日本大片免费观看完整视频| 国产对白刺激在线观看| 亚洲岛国一区二区三区| 亚洲中文字幕无码中文字| 好爽…又高潮了毛片免费看| 中文字幕一二区中文字幕| 人妻制服丝袜中文字幕| 久久精品国产色蜜蜜麻豆 | 久久久久久好爽爽久久| 无码一区久久久久久久绯色AV| 久久亚洲综合亚洲综合| 国产精品免费无遮挡无码永久视频| 伊人蕉久中文字幕无码专区| 久久丁香花综合狼人| 日韩人妻久久中文字幕| 国产三级久久久精品麻豆三级| 伊人久久大香线蕉免费视频| 天堂av在线播放观看| 亚洲人成在线播放网站| 午夜丰满少妇性开放视频| 精品视频在线观看一区二区三区| 中文av字幕一区二区三区|