亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一個(gè)深度學(xué)習(xí)DNA序列特異性的預(yù)測(cè)模型

        2018-11-14 10:27:42黃立群丁雪松張步忠
        關(guān)鍵詞:深度實(shí)驗(yàn)方法

        黃立群,丁雪松,張步忠,呂 強(qiáng),2

        1(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006 2(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

        1 引 言

        DNA序列上存在一些特殊區(qū)域能夠讓特異性蛋白(轉(zhuǎn)錄因子)結(jié)合在該區(qū)域上,這就是DNA序列特異性.獲知這種序列特異性對(duì)轉(zhuǎn)錄和選擇性剪切這類基因調(diào)控過(guò)程有至關(guān)重要的作用.通常情況下,這種序列特異性是通過(guò)費(fèi)時(shí)費(fèi)力的生物實(shí)驗(yàn)獲得.如今,像一些人類基因組庫(kù)或者蛋白質(zhì)庫(kù)等數(shù)據(jù)樣本變得越來(lái)越龐大,而且生物特征的維度也在不斷的增加.這兩點(diǎn)使得傳統(tǒng)的生物實(shí)驗(yàn)手段受到極大的挑戰(zhàn),科學(xué)家們可能要花費(fèi)大量的時(shí)間去挑選數(shù)據(jù),做重復(fù)耗費(fèi)資金的實(shí)驗(yàn).但是大量的生物數(shù)據(jù)卻能夠給深度學(xué)習(xí)[1]模型提供充足的訓(xùn)練樣本,驗(yàn)證樣本,以及測(cè)試樣本.近幾年深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)[2](Convolutional Neural Network,CNN)由于其提取邊緣特征的能力使其在圖像視覺領(lǐng)域表現(xiàn)優(yōu)異,遞歸神經(jīng)網(wǎng)絡(luò)[3](Recurrent Neural Network,RNN)在基于序列化問(wèn)題的自然語(yǔ)言處理[4]方面取得了顯著效果.那么遞歸神經(jīng)網(wǎng)絡(luò)在序列化的生物領(lǐng)域可能也存在很大的優(yōu)勢(shì).

        除去生物領(lǐng)域方法,目前預(yù)測(cè)DNA序列特異性的方法主要有以gkmSVM[5]為代表的傳統(tǒng)機(jī)器學(xué)習(xí)和以DeepBind[6]為代表的深度學(xué)習(xí)這兩大類方法,DeepBind和DeepSEA[7]是兩款基于深度學(xué)習(xí)算法框架的軟件.這兩款軟件將深度學(xué)習(xí)應(yīng)用到特異性蛋白質(zhì)序列結(jié)合問(wèn)題上,并且在ENCODE[8]數(shù)據(jù)庫(kù)上和傳統(tǒng)的實(shí)驗(yàn)方法相比,DeepBind和DeepSEA表現(xiàn)得更好.2016年DK Gifford[9]等人利用卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)框架,在只有 DNA序列和標(biāo)簽的條件下進(jìn)行了DNA和蛋白質(zhì)的是否結(jié)合的實(shí)驗(yàn),同樣取得了很好的結(jié)果.

        DeepBind是一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,該模型的輸入是一條DNA序列,將輸入的序列看作一張圖,利用卷積層和池化層在輸入序列上進(jìn)行特征提取,再通過(guò)多層感知器網(wǎng)絡(luò)對(duì)提取的特征進(jìn)行運(yùn)算輸出,如果DNA能結(jié)合蛋白質(zhì)就輸出1,否則就輸出0,類似圖像領(lǐng)域中的二分類問(wèn)題.

        gkmSVM是一種基于支持向量機(jī)的分類打分模型,該模型可以用來(lái)檢測(cè)DNA在細(xì)胞中的可及性,訓(xùn)練好的模型能夠?qū)θ魏蜠NA序列的可及性進(jìn)行分類打分.gkmSVM方法首先通過(guò)輸入的正樣本集和負(fù)樣本集計(jì)算出核矩陣,然后通過(guò)計(jì)算出的核矩陣以及兩類樣本數(shù)據(jù)訓(xùn)練模型,最后利用訓(xùn)練好的模型對(duì)DNA序列進(jìn)行分類打分.LS-GKM[10]是gkmSVM在訓(xùn)練集容量上的一次升級(jí),gkmSVM只能訓(xùn)練小于等于5000的樣本數(shù),當(dāng)樣本集大于5000條時(shí)軟件會(huì)運(yùn)行失敗,LS-GKM解決了這一問(wèn)題.

        本文使用基于序列詞向量的深度學(xué)習(xí)方法對(duì)DNA序列是否結(jié)合蛋白質(zhì)進(jìn)行預(yù)測(cè),所有的實(shí)驗(yàn)數(shù)據(jù)來(lái)自ENCODE項(xiàng)目的690個(gè)測(cè)定實(shí)驗(yàn)使用的數(shù)據(jù).每個(gè)實(shí)驗(yàn)數(shù)據(jù)包含若干條長(zhǎng)度為101的DNA字母序列,并且每條DNA序列對(duì)應(yīng)一個(gè)標(biāo)簽0或者1.如果DNA不能結(jié)合特異性蛋白就將標(biāo)簽設(shè)置為0,否則為1.將DNA序列看作自然語(yǔ)言處理中的一條句子序列,將DNA序列中的一些堿基的組合類比成單詞,對(duì)蛋白質(zhì)序列的處理就類似于自然語(yǔ)言對(duì)語(yǔ)句的處理.本文先用一種算法對(duì)DNA序列進(jìn)行分詞操作,然后利用詞向量模型[11]對(duì)分詞后的DNA序列訓(xùn)練生成序列詞向量.將生成的序列詞量作為本文深度學(xué)習(xí)模型的輸入,再利用卷積神經(jīng)網(wǎng)絡(luò)提取序列中的高層特征,然后將卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向LSTM[12]的輸入,隨后通過(guò)雙向LSTM對(duì)特征進(jìn)行運(yùn)算累積輸出,最后進(jìn)行分類.我們把本文方法簡(jiǎn)稱為Biovect_CNN_LSTM.本文將訓(xùn)練好的模型在ENCODE的690測(cè)定測(cè)試集上做了測(cè)試,并且和DeepBind方法和LS-GKM方法做了比較.

        本文模型憑借序列詞向量,以及雙向LSTM在空間、時(shí)間上的優(yōu)勢(shì),使得模型結(jié)果AUC的分布要優(yōu)于LS-GKM和DeepBind方法.

        2 Biovect_CNN_LSTM模型設(shè)計(jì)

        2.1 序列詞向量的預(yù)訓(xùn)練

        傳統(tǒng)方法利用one-hot方法對(duì)組成DNA序列的4種堿基A,C,G,T進(jìn)行編碼,這僅僅是單純的將字母轉(zhuǎn)成數(shù)字,而在生物領(lǐng)域不同堿基可以組合成具有生物特性的區(qū)域.本文將實(shí)驗(yàn)中的所有DNA序列按照生物領(lǐng)域中對(duì)序列分析經(jīng)常使用的k-mer方法對(duì)DNA序列進(jìn)行切分.在計(jì)算基因組學(xué)中,k-mer是指所有通過(guò)DNA序列測(cè)序讀到的所有可能的子序列.這樣一條長(zhǎng)度為n的DNA序列經(jīng)過(guò)k-mer算法切分后就會(huì)生成一條新的復(fù)雜序列,新序列以每k個(gè)堿基為一組一共n-k+1組的形式存在.k-mer算法過(guò)程就是利用一個(gè)游標(biāo)從左往右滑動(dòng),每次選取k個(gè)堿基將這k個(gè)堿基存入新序列中,并將游標(biāo)繼續(xù)向右滑動(dòng),直至序列末尾.

        k-mer通常被用作序列比對(duì)之前的第一步分析方法.特異性蛋白可以通過(guò)轉(zhuǎn)錄因子綁定到DNA特定區(qū)域,考慮到三個(gè)堿基編碼一個(gè)氨基酸,因此本文的k選取3.

        經(jīng)過(guò)上述步驟將每條長(zhǎng)度為101的DNA序列切分成3個(gè)堿基一詞,一共99個(gè)詞的新序列,每個(gè)序列詞相當(dāng)于由3個(gè)字母組的一個(gè)單詞,99個(gè)序列詞相當(dāng)于99個(gè)單詞組成的一條句子,這樣每個(gè)序列詞之間可能存在生物相關(guān)性.再利用詞向量模型訓(xùn)練所有的處理后的序列語(yǔ)料庫(kù),生成序列詞向量.文中使用的詞向量模型是CBOW模型,根據(jù)上下文預(yù)測(cè)目標(biāo)詞出現(xiàn)的概率,每個(gè)目標(biāo)詞用16維的向量表示.經(jīng)過(guò)若干輪的迭代,將原先每條長(zhǎng)度為99的堿基組序列,訓(xùn)練生成(99,16)的張量數(shù)據(jù).

        2.2 模型結(jié)構(gòu)描述

        本文使用的深度網(wǎng)絡(luò)模型如圖2所示.深度網(wǎng)絡(luò)模型的輸入是N×T,T是每條DNA序列中含有的序列詞向量的個(gè)數(shù),本文實(shí)驗(yàn)每條序列的詞向量個(gè)數(shù)是99,N是CBOW模型生成的序列詞向量的維度.

        圖1 深度模型結(jié)構(gòu)

        圖1中模型的輸入是一個(gè)序列Xt,此處t是99,對(duì)應(yīng)每條序列由99個(gè)序列詞構(gòu)成,每個(gè)X是通過(guò)上文方法提取的16維的序列詞向量. 將序列詞向量序列輸入模型第一層的1D卷積層,利用p×m的卷積核去掃描輸入的序列,其中p是卷積核的個(gè)數(shù),m是一維卷積核的長(zhǎng)度,每次對(duì)m個(gè)序列詞向量進(jìn)行卷積.該卷積層相當(dāng)于一個(gè)特征掃描器,目的是希望能在生物詞向量的基礎(chǔ)上提取出隱含的高層特征,挖掘更多的生物特征.

        網(wǎng)絡(luò)的第二層與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,此處利用批規(guī)范化層(Batch Normalization)[13]代替?zhèn)鹘y(tǒng)的池化層(pooling).使用批規(guī)范化層能避免在訓(xùn)練過(guò)程中落入飽和區(qū)域?qū)е碌奶荻认?,加速網(wǎng)絡(luò)訓(xùn)練,使得網(wǎng)絡(luò)收斂速度加快.也能避免因?yàn)槭褂贸鼗髞G失部分特征這一缺點(diǎn).批規(guī)范化層將每個(gè)隱藏層的輸出結(jié)果在batch上進(jìn)行批規(guī)范化后再將結(jié)果輸入下一層,就像我們?cè)跀?shù)據(jù)預(yù)處理中將χ進(jìn)行規(guī)范化后送入網(wǎng)絡(luò)的第一層一樣.

        第三層是一個(gè)雙向的LSTM層,之所以使用雙向LSTM是因?yàn)镈NA是有兩條鏈組成的雙螺旋結(jié)構(gòu).雙向LSTM每個(gè)神經(jīng)元的輸出是由當(dāng)前神經(jīng)元的輸入和該神經(jīng)元左右鄰居神經(jīng)元經(jīng)過(guò)計(jì)算得到.最后將所有的特征累計(jì)到序列的最后一位,作為全連接層的輸入.

        本文還在全連接層之間加入了Dropout層.Dropout的作用是隨機(jī)的屏蔽一定比例的神經(jīng)元,這些被屏蔽的神經(jīng)元不參與層的計(jì)算,這樣可以有效的防止模型過(guò)擬合.最后的輸出層只有一個(gè)神經(jīng)元,對(duì)應(yīng)分類的兩種結(jié)果0和1,如果DNA序列能和蛋白質(zhì)綁定那么模型就輸出1,否則模型輸出0.

        2.3 訓(xùn)練模型

        本文的深度學(xué)習(xí)模型利用keras框架搭建,在CentOS7環(huán)境下進(jìn)行訓(xùn)練和測(cè)試,硬件資源使用的是兩塊K20GPU.通過(guò)兩塊K20并行來(lái)加速訓(xùn)練.

        模型的輸入是由生物詞向量組成的DNA序列,模型的minibatch是1024條DNA序列.訓(xùn)練集包含15960000條DNA序列,驗(yàn)證集的DNA序列條數(shù)是1773469條,總的測(cè)試集DNA序列條數(shù)是5113218條,通過(guò)監(jiān)測(cè)模型的val_loss來(lái)判斷模型是否可以提前結(jié)束訓(xùn)練,本文當(dāng)val_loss在6次迭代都沒有一點(diǎn)下降時(shí)提前結(jié)束訓(xùn)練.模型訓(xùn)練時(shí)間超過(guò)100小時(shí).

        模型使用Adam[14]優(yōu)化器指導(dǎo)模型訓(xùn)練,這樣在訓(xùn)練過(guò)程中無(wú)須復(fù)雜的調(diào)參過(guò)程.且計(jì)算高效占用內(nèi)存小.

        3 結(jié) 果

        3.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)

        本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自ENCODE項(xiàng)目的690個(gè)不同的測(cè)定實(shí)驗(yàn)使用的數(shù)據(jù),每個(gè)實(shí)驗(yàn)數(shù)據(jù)都有各自的訓(xùn)練集和測(cè)試集,本文利用所有的訓(xùn)練集訓(xùn)練模型,并且將訓(xùn)練集中的10%的數(shù)據(jù)劃分為驗(yàn)證集,然后將訓(xùn)練好的模型分別在690個(gè)測(cè)試集上進(jìn)行測(cè)試.每條DNA序列都是由A,C,G,T四個(gè)字母組成的字符串,4種字母代表生物領(lǐng)域中的4種堿基.所有數(shù)據(jù)由正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集組成,標(biāo)簽為1是正樣本,標(biāo)簽為0是負(fù)樣本.這些數(shù)據(jù)是本文的方法和其他方法比較的基礎(chǔ).

        二分類的指標(biāo)很多,ACC、Sec、Pec、recall、MCC等,但是最能綜合反映模型性能是AUC(Area Under Curve).指標(biāo).所以,本文在AUC指標(biāo)上進(jìn)行了總體比較,并在幾個(gè)典型的數(shù)據(jù)集上進(jìn)行了個(gè)案比較.

        (1)

        M是正類樣本的數(shù)目,N是負(fù)類樣本的數(shù)目,通過(guò)對(duì)樣本score從大到小排序,最小score對(duì)應(yīng)樣本的rank1,以此類推ranki.

        3.2 總體性能分析

        統(tǒng)計(jì)690個(gè)測(cè)試數(shù)據(jù)集上的AUC分布來(lái)評(píng)價(jià)本文模型的好壞,并且和DeepBind,LS-GKM的結(jié)果做了比較,結(jié)果如圖2所示.

        圖2 三種方法的AUC分布

        圖2是三種方法的總體比較,縱坐標(biāo)是AUC,橫坐標(biāo)是三種比較的方法.從圖中可以看出LS-GKM方法的AUC結(jié)果主體分布在0.74~0.91之間,DeepBind方法的AUC主體分布在0.78~0.94之間,而本文模型的AUC主體分布在0.89~0.95之間.三個(gè)模型的AUC最高都接近1.這說(shuō)明本文的模型訓(xùn)練結(jié)果要優(yōu)于另外兩個(gè)模型.

        3.3 部分轉(zhuǎn)錄組數(shù)據(jù)集對(duì)比

        本文從690個(gè)ENCODE測(cè)定實(shí)驗(yàn)數(shù)據(jù)中隨機(jī)挑選5個(gè)實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行比較,這5個(gè)實(shí)驗(yàn)集都是DNA綁定蛋白中的轉(zhuǎn)錄實(shí)驗(yàn),轉(zhuǎn)錄是以DNA中的一條單鏈為模板,游離堿基為原料,在DNA依賴的RNA聚合酶催化下合成RNA鏈的過(guò)程.轉(zhuǎn)錄是蛋白質(zhì)合成的第一步,對(duì)研究遺傳有著起著舉足輕重的作用,結(jié)果如圖3所示,圖3是三種方法在AUC指標(biāo)上的性能比較,數(shù)據(jù)集描述見表1.在測(cè)試集4上DeepBind的AUC小于0.85,LS-GKM小于0.9,本文的方法已經(jīng)接近0.95,

        圖3 5個(gè)實(shí)驗(yàn)數(shù)據(jù)集的結(jié)果

        測(cè)試集5上DeepBind方法的AUC略低于0.9,LS-GKM的AUC略高于0.9,本文的方法依然接近0.95,其余三個(gè)樣本集上三者方法AUC差距不大都接近1,由此可見本文的方法優(yōu)于其他兩種方法,尤其在測(cè)試集4,5上,本文的方法有著巨大的優(yōu)勢(shì).

        表1 5個(gè)實(shí)驗(yàn)數(shù)據(jù)集合名表

        3.4 小結(jié)

        上述實(shí)驗(yàn)結(jié)果表明,本文的基于序列詞向量的深度學(xué)習(xí)模型在預(yù)測(cè)DNA和蛋白質(zhì)結(jié)合要優(yōu)于DeepBind和LS-GKM.原因在于本文的深度學(xué)習(xí)模型中,用一層雙向LSTM層,LSTM通過(guò)門的機(jī)制解決梯度消失問(wèn)題,而且LSTM能夠捕捉長(zhǎng)距離堿基的相互作用.

        在DNA和蛋白質(zhì)結(jié)合問(wèn)題上,本文提出一種新的深度學(xué)習(xí)模型.實(shí)驗(yàn)結(jié)果表明,該方法的性能要好于目前的LS-GKM和DeepBind兩種方法.

        未來(lái)進(jìn)一步研究可以著手于以更大規(guī)模的全基因序列庫(kù)訓(xùn)練更加準(zhǔn)確的序列詞向量.另外在深度學(xué)習(xí)模型的設(shè)計(jì)中,嘗試更加簡(jiǎn)化模型結(jié)構(gòu),提升模型的可解釋性;可視化并解釋模型提取的中間層特征等.

        猜你喜歡
        深度實(shí)驗(yàn)方法
        記一次有趣的實(shí)驗(yàn)
        深度理解一元一次方程
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        深度觀察
        深度觀察
        深度觀察
        可能是方法不對(duì)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲乱码中文字幕视频| 国产精品久久久久久2021| 日韩精人妻无码一区二区三区| 美女视频在线观看一区二区三区| 蜜臀一区二区三区精品| 亚洲精品成人网线在线播放va| 亚洲综合婷婷久久| 蜜桃av噜噜一区二区三区香| 阴唇两边有点白是怎么回事| 无码孕妇孕交在线观看| 天天躁人人躁人人躁狂躁| 国产精品成人无码a 无码| 精品少妇人妻av一区二区蜜桃 | 亚洲av无码专区首页| 性导航app精品视频| 午夜日本理论片最新片| 人妻少妇精品中文字幕专区| 亚洲精品无码久久久久秋霞| 国产精品一区二区资源| 国产精品成年人毛片毛片| 亚洲成a∨人片在线观看无码 | 最新国产毛2卡3卡4卡| 久久精品国内一区二区三区| 欧洲亚洲色一区二区色99| 一区视频免费观看播放| 羞涩色进入亚洲一区二区av| 在线视频观看国产色网| 亚洲av无码av制服另类专区| 9久久精品视香蕉蕉| 丰满少妇av一区二区三区| 久久精品中文字幕无码绿巨人| 男女肉粗暴进来120秒动态图 | 日韩高清在线观看永久| 熟女人妻丰满熟妇啪啪| 久久婷婷综合色一区二区| 国产精品成人免费视频一区| 无码AV高潮喷水无码专区线| 精品国产亚洲av成人一区| 日本一区二区三区视频在线观看| 国产一女三男3p免费视频| 亚洲国产成人资源在线桃色|