亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大量ChIP數(shù)據(jù)集的果蠅順式調(diào)控模塊的從頭預(yù)測

        2018-05-07 03:50:20張少強(qiáng)
        關(guān)鍵詞:模體元件聚類

        李 婷,張少強(qiáng)

        (天津師范大學(xué) 計算機(jī)與信息工程學(xué)院,天津 300387)

        隨著新技術(shù)的快速發(fā)展,基因組測序的成本下降,特別是轉(zhuǎn)錄因子的ChIP-seq技術(shù)的廣泛使用[1],使得很多后生動物和植物產(chǎn)生了海量的ChIP-seq數(shù)據(jù)集.盡管目前已有大量的預(yù)測順式調(diào)控元件和模塊的工具,但在大型基因組中,整合指數(shù)級增長的ChIP數(shù)據(jù)集,并在全基因組范圍預(yù)測順式調(diào)控元件和模塊,卻一直是具有挑戰(zhàn)性的計算問題[1-4].一定數(shù)量的轉(zhuǎn)錄因子常常組合起來,共同調(diào)控不同細(xì)胞類型、組織、發(fā)育階段和生理?xiàng)l件下的不同基因[5],與這些共同調(diào)控的轉(zhuǎn)錄因子相結(jié)合的非編碼DNA位點(diǎn)(即順式調(diào)控元件)構(gòu)成了其順式調(diào)控模塊.大量的ChIP數(shù)據(jù)集中包含著一定的模塊組合信息,這些信息是由不同轉(zhuǎn)錄因子共同轉(zhuǎn)錄調(diào)控而形成的[6-7].因此,利用不同細(xì)胞類型、組織、發(fā)育階段和生理?xiàng)l件下的不同轉(zhuǎn)錄因子的大量ChIP數(shù)據(jù)集,就有可能通過對模體進(jìn)行整合以尋找共現(xiàn)模式,進(jìn)而對某種真核生物全基因組范圍順式調(diào)控模塊進(jìn)行從頭預(yù)測.

        本文基于果蠅已有的ChIP數(shù)據(jù)集,采用模體發(fā)現(xiàn)算法FisherNet及高性能并行的模體聚類算法CLIMP對果蠅的順式調(diào)控模塊進(jìn)行從頭預(yù)測,并與較新的DePCRM算法[8]進(jìn)行了比較.本文研究方法的流程如圖1所示.

        圖1 順式調(diào)控模塊預(yù)測流程圖Fig.1 Flow chart of predicting CRMs

        1 數(shù)據(jù)來源與預(yù)處理

        1.1 數(shù)據(jù)來源

        由于果蠅常被用來研究動物基因的轉(zhuǎn)錄調(diào)控,大量的順式調(diào)控元件和模塊已被實(shí)驗(yàn)驗(yàn)證,而且在過去的幾年中該生物已經(jīng)產(chǎn)生了大量的ChIP-chip和ChIP-seq數(shù)據(jù),因此本文使用果蠅作為模式生物評估算法.為此,整理了來自56個不同轉(zhuǎn)錄因子的168個ChIP-chip和ChIP-seq數(shù)據(jù)集,這些數(shù)據(jù)集包含不同的發(fā)育階段(胚胎、幼蟲期1~3、蛹和雌雄成蟲)和不同實(shí)驗(yàn)條件下(熱休克等)的結(jié)果,其中:42個ChIP-chip和42 個 ChIP-seq 數(shù)據(jù)集來自 modENCODE 項(xiàng)目[6,9],38個ChIP-chip數(shù)據(jù)集來自Berkeley果蠅轉(zhuǎn)錄網(wǎng)絡(luò)項(xiàng)目(BDTNP)[10],46個ChIP-chip數(shù)據(jù)集來自文獻(xiàn)[8].

        1.2 數(shù)據(jù)預(yù)處理

        利用peak-calling工具[11]查找ChIP數(shù)據(jù)中結(jié)合峰的序列,這些序列包含豐富的對應(yīng)轉(zhuǎn)錄因子的順式調(diào)控元件.將較短的結(jié)合峰從兩端延伸到3 000個堿基長的序列(這個長度與典型順式調(diào)控模塊的長度相當(dāng)),使得結(jié)合最高峰正好位于序列中部.除了ChIP實(shí)驗(yàn)的轉(zhuǎn)錄因子的順式調(diào)控元件外,擴(kuò)展的結(jié)合峰更可能包含輔助調(diào)控轉(zhuǎn)錄因子(在順式調(diào)控模塊中共同作用的轉(zhuǎn)錄因子)的順式調(diào)控元件.

        2 算法步驟

        數(shù)據(jù)預(yù)處理后的具體算法流程見圖2.

        圖2 數(shù)據(jù)預(yù)處理后的具體算法流程圖Fig.2 Flow chart of detailed algorithm after data preprocessing

        2.1 構(gòu)建模體相似多部圖

        對于每組延伸后的結(jié)合峰序列數(shù)據(jù)集,運(yùn)用模體發(fā)現(xiàn)工具FisherNet算法[12]尋找大量的假定模體.對每個數(shù)據(jù)集輸出前k個最優(yōu)的模體,見圖2(a),k默認(rèn)值為20.

        對于預(yù)處理的每個數(shù)據(jù)集輸出的前20個最優(yōu)模體,以每個模體做為頂點(diǎn),考慮到2個模體的頻率矩陣和位置權(quán)重矩陣,本文使用位置信息含量相似度量法 SPIC(similarity with position information contents)[13]計算不同數(shù)據(jù)集間模體的相似性(閾值為0.7),SPIC度量法已被證實(shí)優(yōu)于其他度量公式[13],若2個模體的相似度大于閾值,則連接2個模體,從而構(gòu)建模體相似多部圖,見圖2(b).數(shù)據(jù)集內(nèi)部模體之間不連邊,只計算不同數(shù)據(jù)集間模體的兩兩相似性.

        構(gòu)建模體相似多部圖后,運(yùn)用雙向最佳匹配BDBM(bi-directional best match)算法尋找模體配對,見圖2(c),其中,若一個模體與另外一個數(shù)據(jù)集中多個模體都最相似,則選取靠前的模體進(jìn)行配對.

        2.2 模體相似多部圖的CLIMP聚類

        對于配對后的模體相似多部圖,運(yùn)用CLIMP算法[14]進(jìn)行團(tuán)(即每對頂點(diǎn)均連接的子圖)融合聚類,并形成聚類編號,見圖2(d).每個聚類中高度相似的模體分別來自于不同的數(shù)據(jù)集,這些相似的模體可能是同一轉(zhuǎn)錄因子在不同數(shù)據(jù)集的同一模體.因?yàn)橥晦D(zhuǎn)錄因子可能在多個ChIP數(shù)據(jù)集中作為輔調(diào)控因子或主調(diào)控因子出現(xiàn),因此對應(yīng)的模體會在多個數(shù)據(jù)集中被反復(fù)識別.

        2.3 構(gòu)建模體共現(xiàn)多部圖

        對得到的團(tuán)融合聚類構(gòu)建模體共現(xiàn)多部圖,計算不同聚類中屬于相同數(shù)據(jù)集的每對模體的共現(xiàn)分?jǐn)?shù).對于數(shù)據(jù)集Md中的模體Md(i)和Md(j),共現(xiàn)分?jǐn)?shù)Sc為

        其中:|Md(i)|和|Md(j)|分別為模體Md(i)和Md(j)含有順式調(diào)控元件結(jié)合峰的數(shù)量;o(Md(i),Md(j))代表這2個模體中都含有的順式調(diào)控元件的結(jié)合峰的數(shù)量.若共現(xiàn)分?jǐn)?shù)不小于閾值α,則視其為共現(xiàn)模體,將之連接,最終形成模體共現(xiàn)多部圖,見圖2(e).基于REDfly數(shù)據(jù)庫[15]已有順式調(diào)控模塊的訓(xùn)練,閾值α的取值為0.7.

        2.4 模體共現(xiàn)多部圖的CLIMP聚類

        對模體共現(xiàn)多部圖進(jìn)行CLIMP聚類,得到模塊類.聚類結(jié)果即為順式調(diào)控模塊,并按下式由小到大進(jìn)行排序

        其中:M為聚類后的模塊;|M|為M中含有模體的數(shù)量;m為模塊中的模體;i(m)為模體m在團(tuán)融合聚類后的聚類編號.SM的值越小,則順式調(diào)控模塊M就越可能是真實(shí)的.將少于2個模體的聚類舍棄.見圖2(f).

        3 實(shí)驗(yàn)結(jié)果

        結(jié)合峰長度分布密度見圖3.圖中,虛線為結(jié)合峰長度分布密度,實(shí)線為結(jié)合峰長度的累積分布,可見結(jié)合峰的大部分長度約為1 000,有0.62%的結(jié)合峰長度大于5 000,由于其質(zhì)量不高,所以不使用這部分?jǐn)?shù)據(jù).由FisherNet查找的模體的信息含量分布密度見圖4.由圖4可見,162個數(shù)據(jù)集中的模體(有6個數(shù)據(jù)集包含模體少于2個,被丟棄)具有較高信息含量.在各個數(shù)據(jù)集輸出的前20個模體中,包含99個已知模體,并且被FisherNet程序優(yōu)先識別.

        圖3 結(jié)合峰長度分布密度Fig.3 Distribution density of binding peak length

        圖4 模體信息含量分布密度Fig.4 Distribution density of information content of motifs

        將本算法(A)和DePCRM算法(B)應(yīng)用于162個ChIP數(shù)據(jù)集,模體和順式調(diào)控模塊預(yù)測結(jié)果見表1.其中,已知順式調(diào)控模塊數(shù)量為1 330個(REDfly數(shù)據(jù)庫).若一個已知的順式調(diào)控模塊與預(yù)測的順式調(diào)控模塊有至少一半長度是重疊的,則將其視為全覆蓋.

        表1 本研究算法(A)和DePCRM算法(B)預(yù)測結(jié)果Tab.1 Predictions of algorithms of this research(A)and DePCRM(B)

        由表1可見,在模體發(fā)現(xiàn)中,本算法輸出每個數(shù)據(jù)集中最優(yōu)的模體,得到了3 240個模體,其中包含1 214個已知的順式調(diào)控模塊(占已知數(shù)量的91.28%);而DePCRM算法由于并未考慮模體的優(yōu)劣,因此輸出模體數(shù)量較多,為17890個,其中包含1 061個已知的順式調(diào)控模塊(占已知數(shù)量的79.77%).在順式調(diào)控模塊預(yù)測中,本算法得到的1 346個模塊中有1 103個已知模塊(占已知數(shù)量的82.93%);而DePCRM算法得到的115 932個模塊中有947個已知模塊(占已知數(shù)量的71.20%).以上數(shù)據(jù)說明,本算法在順式調(diào)控模塊的預(yù)測中較DePCRM有更高的覆蓋率和敏感性.

        順式調(diào)控模塊長度和相鄰順式調(diào)控元件間距離分布密度見圖 5(a)和(b).由圖 5(a)可見,本算法預(yù)測的順式調(diào)控模塊比已知的順式調(diào)控模塊的長度短.由圖5(b)可見,預(yù)測結(jié)果的相鄰順式調(diào)控元件間距離與已知的順式調(diào)控元件比較相似,一部分距離比已知的短.這表明可能遺漏了順式調(diào)控模塊中的某些順式調(diào)控元件,尤其是兩端的,這可能是由于ChIP數(shù)據(jù)沒有足夠多樣化的信息.

        圖5 順式調(diào)控模塊長度預(yù)測結(jié)果Fig.5 Prediction results of CRM length

        4 結(jié)論

        本文利用大量的ChIP數(shù)據(jù)集實(shí)現(xiàn)了全基因組范圍的順式調(diào)控模塊的從頭預(yù)測.通過識別最優(yōu)表達(dá)的、組合的模體,完成了對順式調(diào)控模塊的預(yù)測.預(yù)測結(jié)果覆蓋了數(shù)據(jù)集中已知順式調(diào)控模塊的82.93%.這些預(yù)測的順式調(diào)控模塊比隨機(jī)選擇的序列更保守,更有可能具有調(diào)控功能.

        與已有的DePCRM算法相比,本文采用了2個多部圖和2次CLIMP聚類,比DePCRM算法更簡便快速.本算法不采用共現(xiàn)對的概念,克服了模體以偶數(shù)對出現(xiàn)的缺點(diǎn).當(dāng)有足夠多數(shù)量的、不同種類的其他真核生物ChIP數(shù)據(jù)集時,本算法可推廣到該類真核生物,用來預(yù)測其順式調(diào)控模塊.

        參考文獻(xiàn):

        [1]PEPKE S,WOLD B,MORTAZAVI A.Computation for ChIP-seq and RNA-seq studies[J].Nature Methods,2009,6(11):22-32.

        [2]PARK P J.ChIP-seq:Advantages and challenges of a maturing technology[J].Nature Reviews Genetics,2009,10(10):669-680.

        [3]HAWKINS R D,HON G C,REN B.Next-generation genomics:An integrativeapproach[J].NatureReviewsGenetics,2010,11(7):476-486.

        [4]LAIRD P W.Principles and challenges of genome-wide DNA methylation analysis[J].Nature Reviews Genetics,2010,11(3):191-203.

        [5]MASTON G A,EVANS S K,GREEN M R.Transcriptional regulatory elements in the human genome[J].Annual Review of Genomics and Human Genetics,2006,7(1):29-59.

        [6]NEGRE N,BROWN C D,MA L J,et al.A cis-regulatory map of the drosophila genome[J].Nature,2011,471(7339):527-531.

        [7]GERSTEIN M B,LU Z J,NOSTRAND E L V,et al.Integrative analysis of the Caenorhabditis elegans genome by the modENCODE project[J].Science,2010,330(6012):1775-1786.

        [8]MENG N,TABARI E S,SU Z C.De novo prediction of cis-regulatory elements and modules through integrative analysis of a large number of ChIP datasets[J].BMC Genomics,2014,15(1):1047-1066.

        [9]CONSORTIUM T M,ROY S,ERNST J,et al.Identification of functional elements and regulatory circuits by Drosophila modENCODE[J].Science,2010,330(6012):1787-1797.

        [10]LI X Y,MACARTHUR S,BOURGON R,et al.Transcription factors bind thousands of active and inactive regions in the Drosophila blastoderm[J].Plos Biology,2008,6(2):365-388.

        [11]ZHANG Y,LIU T,MEYER C A,et al.Model-based analysis of ChIP-seq(MACS)[J].Genome Biology,2008,9(9),DOI:10.1186/gb-2008-9-9-r137.

        [12]張志紅.基于ChIP-seq數(shù)據(jù)集的順式調(diào)控模塊發(fā)現(xiàn)算法研究[D].天津:天津師范大學(xué),2017.ZHANG Z H.Algorithm for Finding Cis-Regulatory Module Based on ChIP-seq Datasets[D].Tianjin:Tianjin Normal University,2017(in Chinese).

        [13]ZHANG S Q,ZHOU X,et al.SPIC:A novel similarity metric for comparing transcription factor binding site motifs based on information contents[J].BMC Systems Biology,2013,7(2):1-8.

        [14]ZHANG S Q,CHEN Y.CLIMP:Clustering motifs via maximal cliques with parallel computing design[J].Plos One,2016,11(8):1-17.

        [15]IVAN A,HALFON M S,SINHA S.Computational discovery of cisregulatory modules in Drosophila,without prior knowledge of motifs[J].Genome Biology,2008,9(1):1-17.

        猜你喜歡
        模體元件聚類
        基于Matrix Profile的時間序列變長模體挖掘
        植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
        QFN元件的返工指南
        基于模體演化的時序鏈路預(yù)測方法
        基于改進(jìn)的遺傳算法的模糊聚類算法
        在新興產(chǎn)業(yè)看小元件如何發(fā)揮大作用
        寶馬i3高電壓元件介紹(上)
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        国产精品一区二区三区黄片视频 | 国产精品三级国产精品高| 国产高清一区二区三区三州| 呦系列视频一区二区三区| 色婷婷久久综合中文久久蜜桃av| 99久久久无码国产精品9| 国产精品美女一级在线观看| 久久亚洲网站中文字幕| 一本色道久久综合狠狠躁篇 | 青青草极品视频在线播放| 天涯成人国产亚洲精品一区av| 精品日韩一级免费视频| 久久精品国产成人| 国模欢欢炮交啪啪150 | 女人体免费一区二区| 国产亚洲精选美女久久久久 | 中文字幕日韩精品亚洲精品| 国产护士一区二区三区| av无码电影一区二区三区| 亚洲永久精品ww47| 日韩精品电影在线观看| 亚洲AVAv电影AV天堂18禁| 三级网站亚洲三级一区| 中文字幕女同系列在线看一| 黑人巨大精品欧美一区二区| 98色花堂国产精品首页| 亚洲精品国产精品系列| 性人久久久久| 日本丰满人妻xxxxxhd| 国产精彩刺激对白视频| 日本九州不卡久久精品一区| 精品区2区3区4区产品乱码9| 456亚洲人成影视在线观看| 亚洲欧洲精品国产二码| 国产一区二区三区蜜桃| 天天做天天爱夜夜爽女人爽| 男女性高爱潮免费观看| 亚洲天堂无码AV一二三四区| 国产一区二区三区在线观看黄 | 中字幕久久久人妻熟女| 亚洲青涩在线不卡av|