亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hi-c數(shù)據(jù)的酵母染色體三維結(jié)構(gòu)重構(gòu)

        2019-09-04 12:20:48豐繼華郭亞茹
        生物信息學(xué) 2019年3期
        關(guān)鍵詞:數(shù)據(jù)分布酵母梯度

        豐繼華, 牟 錦, 郭亞茹

        (云南民族大學(xué) 電氣信息工程學(xué)院, 昆明 650500)

        Dekker等人于2002年就利用3c技術(shù)[1]用于重構(gòu)酵母染色體的空間結(jié)構(gòu),由于受限于當(dāng)時(shí)的技術(shù)條件,他們只進(jìn)行了染色體區(qū)域內(nèi)一對(duì)一的相互作用研究。近年來(lái)基于此技術(shù)發(fā)展出了4C[2],5C[3],Hi-c以及TCC技術(shù)[4],為染色體三維結(jié)構(gòu)研究奠定了基礎(chǔ)。4C是將DNA利用連接酶連接成環(huán)狀后用特異PCR引物進(jìn)行反向PCR,再對(duì)其產(chǎn)物進(jìn)行分析得到染色體相互作用數(shù)據(jù);5C技術(shù)是在3c基礎(chǔ)上增加了測(cè)序通量,主要用于研究染色體高頻率的空間結(jié)構(gòu)。而Hi-c技術(shù)[5]就是一種在3C基礎(chǔ)上發(fā)展的高通量測(cè)序染色體全基因組的交互數(shù)據(jù)的生物信息學(xué)技術(shù)。隨著基因組學(xué)的深入研究,人們發(fā)現(xiàn)染色體的相互作用數(shù)據(jù)在一定程度上可以反應(yīng)基因組在三維空間的表達(dá)狀況[6]。另一方面,相較于其他的3C衍生技術(shù),利用Hi-c技術(shù)捕獲到的全基因組交互數(shù)據(jù)為利用二維接觸矩陣構(gòu)建三維空間結(jié)構(gòu)提供了可能。通過(guò)基因空間結(jié)構(gòu)解析與傳統(tǒng)轉(zhuǎn)錄數(shù)據(jù)相結(jié)合,研究人員可以更深入的闡釋生物在基因調(diào)控以及表觀遺傳中的真實(shí)性狀[7]。因此預(yù)測(cè)和重構(gòu)染色體的三維結(jié)構(gòu)對(duì)于后基因組時(shí)代研究具有指導(dǎo)意義。盡管目前部分染色體的組織結(jié)構(gòu)可以通過(guò)電子顯微鏡進(jìn)行研究。顯微鏡提供了單個(gè)細(xì)胞的信息,但分辨率相對(duì)較低;而染色體構(gòu)象捕獲能獲得高分辨率的染色體三維信息,極大拓展了我們對(duì)基因組的全面認(rèn)識(shí)。

        文中使用Duan等人研究使用的酵母數(shù)據(jù)樣本[8],根據(jù)酵母16條染色體Hi-c數(shù)據(jù)構(gòu)建了數(shù)據(jù)統(tǒng)計(jì)分布模型,在此基礎(chǔ)上利用梯度優(yōu)化算法預(yù)測(cè)并繪制了酵母染色體的三維結(jié)構(gòu)圖。

        1 理論與方法

        利用Hi-c技術(shù)獲得的基因組高通量染色體交互頻率數(shù)據(jù),通過(guò)特定數(shù)學(xué)模型預(yù)測(cè)基因組空間結(jié)構(gòu)是重構(gòu)染色體三維結(jié)構(gòu)普遍采取的方法。其預(yù)測(cè)流程主要分為:Hi-c數(shù)據(jù)歸一化處理;Hi-c數(shù)據(jù)轉(zhuǎn)化為距離接觸矩陣;染色體三維重構(gòu)模型;和模型結(jié)果分析等。其中,Lieberman-Aiden等人曾對(duì)染色體上兩個(gè)片段的接觸頻率和基因線性以及空間距離做了開(kāi)創(chuàng)性研究,發(fā)現(xiàn)染色體片段之間的接觸頻率值與兩個(gè)片段之間空間的距離成反比關(guān)系,即空間越接近則接觸頻率值越大,空間距離越遠(yuǎn)接觸頻率越小[9],在此原理上提出了以下距離轉(zhuǎn)換關(guān)系式:

        (1)

        式(1)中,Dij是表示酵母染色體上兩個(gè)片段之間的通過(guò)轉(zhuǎn)換的空間距離值,F(xiàn)ij表示酵母染色體片段間的接觸頻率值。

        1.1 酵母染色體Hi-c數(shù)據(jù)分布擬合函數(shù)模型

        首先,需要對(duì)根據(jù)酵母染色體交互數(shù)據(jù)建立統(tǒng)計(jì)分布模型,為此,分別對(duì)酵母16條染色體的Hi-c數(shù)據(jù)分布情況進(jìn)行高斯擬合,對(duì)每條染色體的數(shù)據(jù)我們都分別與高斯8個(gè)線性組合核函數(shù)進(jìn)行擬合,再最終選取出擬合指標(biāo)SSE,RMSE,R-square最優(yōu)的高斯核函數(shù),最終選取核函數(shù)的擬合指標(biāo)結(jié)果如表1所示。

        表1 16條染色體擬合情況表Table 1 Fitting of 16 chromosomes

        在最終確定了每條染色體擬合出對(duì)應(yīng)的高斯核函數(shù)后,繪制了16條染色體Hi-c數(shù)據(jù)分布的擬合曲線(見(jiàn)圖1)。

        通過(guò)與酵母16條染色體交互數(shù)據(jù)分布擬合后,獲得目標(biāo)函數(shù)如下:

        (2)

        1.2 染色體三維模型建立

        在似然估計(jì)中,用S表示酵母染色體結(jié)構(gòu),D表示從染色體交互數(shù)據(jù)導(dǎo)出的接觸矩陣,似然函數(shù)P(Di|S) 表示在結(jié)構(gòu)S條件下D中數(shù)據(jù)點(diǎn)概率[11],在此,真實(shí)的Hi-c數(shù)據(jù)分布由擬合得到的組合高斯模型代替,因此P(Di|S)可以表示為:

        (3)

        我們的目的是找到一個(gè)最大化似然函數(shù)的結(jié)構(gòu)S*。式(3)中的目標(biāo)函數(shù)僅依賴染色體結(jié)構(gòu)中的(x,y,z)坐標(biāo)。

        1.3梯度上升優(yōu)化算法

        利用梯度上升算法對(duì)式(3)進(jìn)行迭代優(yōu)化,直到算法收斂為止。具體過(guò)程:如果使用新的(x,y,z)坐標(biāo)計(jì)算的似然函數(shù)值和前一步的差值小于一個(gè)閾值,就認(rèn)為算法收斂[11]。

        梯度上升迭代優(yōu)化中。利用等式 (3)計(jì)算偏導(dǎo)數(shù),再根據(jù)偏導(dǎo)采用梯度上升優(yōu)化算法對(duì)各坐標(biāo)進(jìn)行調(diào)整,并按下式更新似然概率:

        S(t+1)=S(t)+λ(t)L(S(t))

        (4)

        式(4)中t是迭代索引指標(biāo),S(t)是迭代索引指標(biāo)t的結(jié)構(gòu)坐標(biāo),λ(t)是在t處的學(xué)習(xí)速率,隨著迭代的進(jìn)行可能發(fā)生變化,L(S(t))是結(jié)構(gòu)中坐標(biāo)的似然偏導(dǎo)數(shù)。式(5)表示的是在時(shí)間步長(zhǎng)t處參數(shù)Si的似然梯度。因此,式(4)中的隨機(jī)梯度上升可以用式(6)表示。Si是S中的參數(shù)。

        gt,i=(Si(t))

        (5)

        (6)

        在Ada Grad的迭代規(guī)則中,根據(jù)式(7),在參數(shù)Si的之前計(jì)算的梯度基礎(chǔ)上,修正了每個(gè)參數(shù)Si在每一時(shí)間步長(zhǎng)上的學(xué)習(xí)速率 。

        (7)

        式中,Gt是一個(gè)對(duì)角元素為i的對(duì)角矩陣,i是Si的梯度平方和,如式(8)所示。其中Gt,ii是Gt中染色體片段i對(duì)應(yīng)的值,而ε是一個(gè)平滑項(xiàng),它是避免函數(shù)除以零(通常是1×10-6)。

        (8)

        Ada Grad的主要優(yōu)點(diǎn)之一是它不需要在每次迭代時(shí)手動(dòng)調(diào)整學(xué)習(xí)速率。

        表2 酵母染色體Hi-c數(shù)據(jù)分布模型參數(shù)Table 2 Parameters of yeast chromosome Hi-c data distribution model

        2 模型評(píng)價(jià)

        為了評(píng)估染色體三維結(jié)構(gòu)模型的準(zhǔn)確性,我們使用Pearson相關(guān)系數(shù)(PCC)、Spearman相關(guān)系數(shù)(SCC)這兩個(gè)參數(shù)作為評(píng)價(jià)指標(biāo)。假設(shè)兩個(gè)模型的成對(duì)距離數(shù)據(jù)集,其中{di,...,dn}有n個(gè)值,另一數(shù)據(jù)集{Di,...,Dn}也含n個(gè)值,那么DPCC、DSCC可以使用以下公式來(lái)計(jì)算。

        (1)距離Pearson相關(guān)系數(shù)(DPCC)

        定義為:

        (9)

        (2)距離Spearman相關(guān)系數(shù)(DSCC)

        定義為:

        (10)

        DSCC測(cè)量了兩個(gè)三維結(jié)構(gòu)距離剖面的相似性。DSCC值在-1.0和1.0之間變化,DSCC值越高,這兩個(gè)結(jié)構(gòu)就越相似。

        3 實(shí)驗(yàn)結(jié)果

        根據(jù)酵母16條染色體的Hi-c數(shù)據(jù)建立特定的分布函數(shù),在此基礎(chǔ)上構(gòu)建目標(biāo)函數(shù),然后利用梯度上升算法對(duì)每條染色體Hi-c數(shù)據(jù)目標(biāo)函數(shù)進(jìn)行迭代,迭代的最大次數(shù)為2 000次,而收斂閾值設(shè)置為0.000 01,酵母16條染色體目標(biāo)函數(shù)收斂曲線如圖2所示。

        圖2 酵母16條染色體目標(biāo)函數(shù)收斂曲線Fig.2 Convergence curve of 16 chromosome objective functions in yeast

        從圖2中可以看出酵母16條染色體目標(biāo)函數(shù)最終都達(dá)到收斂,說(shuō)明該目標(biāo)函數(shù)模型是有效可行的。文中使用梯度上升優(yōu)化算法對(duì)酵母16條染色體數(shù)據(jù)進(jìn)行三維空間結(jié)構(gòu)重構(gòu),其模型的評(píng)價(jià)指標(biāo)如表3所示。

        表3 16條染色體結(jié)構(gòu)Spearman和Pearson系數(shù)Table 3 Spearman and Pearson coefficients of 16 chromosomal structures

        從表中可以看出,經(jīng)過(guò)對(duì)每條染色體的Hi-c數(shù)據(jù)分布特征進(jìn)行擬合出具體函數(shù)作為目標(biāo)函數(shù)的模型的Spearman系數(shù)都達(dá)到了0.95以上,Pearson系數(shù)平均值也能達(dá)到0.71以上,說(shuō)明對(duì)每條染色體進(jìn)行Hi-c數(shù)據(jù)分布特征進(jìn)行擬合出不同目標(biāo)函數(shù)的方法來(lái)預(yù)測(cè)其結(jié)構(gòu)是有效可行的。通過(guò)不同目標(biāo)函數(shù)模型預(yù)測(cè)出的染色體結(jié)構(gòu)如圖3所示。

        4 結(jié)論與展望

        目前,利用染色體Hi-c交互數(shù)據(jù)預(yù)測(cè)三維空間結(jié)構(gòu)大多根據(jù)單一分布模型,并沒(méi)有考慮每條染色體數(shù)據(jù)的具體分布情況,而本文通過(guò)分析酵母16條染色體Hi-c數(shù)據(jù)的實(shí)際分布,從而擬合出更真實(shí)的分布模型,在此基礎(chǔ)上利用梯度優(yōu)化算法預(yù)測(cè)出較準(zhǔn)確的染色體三維結(jié)構(gòu)。但是為了分析方便,在對(duì)酵母16條染色體Hi-c數(shù)據(jù)進(jìn)行距離轉(zhuǎn)換時(shí)使用了統(tǒng)一的參數(shù),后續(xù)我們將會(huì)針對(duì)具體染色體不同數(shù)據(jù)對(duì)轉(zhuǎn)換函數(shù)的參數(shù)進(jìn)行優(yōu)化,增強(qiáng)模型的自適應(yīng)性,從而進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確性。

        猜你喜歡
        數(shù)據(jù)分布酵母梯度
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類(lèi)扭積形式的梯度近Ricci孤立子
        酵母抽提物的研究概況
        酵母魔術(shù)師
        人CyclinD1在畢赤酵母中的表達(dá)
        一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
        試論大數(shù)據(jù)之“大”
        生物量高的富鋅酵母的開(kāi)發(fā)應(yīng)用
        91偷自国产一区二区三区| 亚洲国产夜色在线观看| 超碰观看| 亚洲Va中文字幕无码毛片下载| 中文字幕日本女优在线观看| 青青草视频在线免费视频| 91精品国产九色综合久久香蕉| 日韩夜夜高潮夜夜爽无码| 欧美午夜精品一区二区三区电影 | 亚洲免费观看| 美女爽好多水快进来视频| 国产精品自产拍av在线| 人妻一区二区三区在线看| 无码人妻精品一区二区三区9厂| 欧美国产日韩a在线视频| 丰满人妻一区二区乱码中文电影网| 色噜噜精品一区二区三区 | 中文字幕亚洲入口久久| 国内精品久久久久久久97牛牛| vr成人片在线播放网站| 水蜜桃一二二视频在线观看免费| 精彩亚洲一区二区三区| 色欲av蜜桃一区二区三| 国产日韩欧美在线| 男女啦啦啦视频在线观看| 亚洲熟妇av一区二区在线观看| 天堂网www资源在线| 国产男女猛烈视频在线观看| 亚洲免费视频播放| 久久精品人妻无码一区二区三区| 无码国产精品一区二区av| 一本久久a久久精品亚洲| 亚洲av无码一区二区乱子伦as| 色窝窝手在线视频| 中文字幕一区二区三区四区| 狠狠色综合7777久夜色撩人ⅰ| 亚洲男人精品| 久久精品女人天堂av麻| 少妇夜夜春夜夜爽试看视频| 精品一区二区三区在线观看| 99久久国产一区二区三区|