亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的無序蛋白質(zhì)功能模體的識別

        2018-06-26 04:35:34,
        關(guān)鍵詞:模體無序殘基

         , , , ,

        (1. 山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 山東 淄博 255049; 2. 山東大學(xué) 山東省軟件工程重點(diǎn)實(shí)驗(yàn)室, 山東 濟(jì)南 250000)

        天然無序蛋白質(zhì)是一類柔性極強(qiáng)的蛋白質(zhì),它們在未綁定到其他分子時,處于不折疊的松散狀態(tài)卻具有正常的生物學(xué)功能,不僅廣泛參與各種重要的生理與病理過程, 而且與神經(jīng)退行性疾病和癌癥的關(guān)系非常密切[1-2]。天然無序蛋白質(zhì)在生物體內(nèi)普遍存在,并且生命形式越高級其含量越多[1-2],特別是在人類細(xì)胞中,大約30%~50%的蛋白質(zhì)完全無序或包含顯著無序片段[3]。雖然無序蛋白質(zhì)在單獨(dú)存在狀態(tài)下無折疊,但是當(dāng)綁定到其分子伴侶上時,其中的某些片段會發(fā)生從無折疊到折疊的狀態(tài)改變,通常把這些能改變狀態(tài)的片段稱為分子識別特征(molecular recognition features,MoRF)[4],也稱功能模體。同一個MoRF可以與多個不同的分子對象綁定而呈現(xiàn)不同的二級結(jié)構(gòu)折疊狀態(tài)。MoRF很容易形成蛋白質(zhì)相互作用網(wǎng)絡(luò)中的“集線器”[5],是蛋白質(zhì)相互作用網(wǎng)絡(luò)中的關(guān)鍵點(diǎn),因此,識別MoRF在無序蛋白質(zhì)序列中的位置,對理解蛋白質(zhì)的功能,研究蛋白質(zhì)折疊機(jī)制和相關(guān)疾病的致病機(jī)理及尋找藥物靶點(diǎn)至關(guān)重要。

        物理實(shí)驗(yàn)方法識別無序蛋白質(zhì)功能模體具有難度大、 成本高、 耗時長(無序片段在X射線晶體衍射圖上電子密度缺失)的缺陷, 而計(jì)算機(jī)輔助方法能極大地降低成本和縮短耗費(fèi)時間, 并且為在大數(shù)據(jù)的基礎(chǔ)上進(jìn)行分析提供可能, 是必不可少的方法。 天然無序蛋白質(zhì)和MoRF沒有固定的折疊結(jié)構(gòu), 能用的結(jié)構(gòu)特征信息有限, 因此, 基于序列特征的預(yù)測方法受到了廣泛關(guān)注。 目前人們提出一些基于序列特征來預(yù)測無序蛋白質(zhì)MoRF序列位置的方法, 其中, 代表性的方法有MoRFpred[6]、 ANCHOR[7]、 MFSPSSMpred[8]、 Retro-MoRFs[9]、 MoRFCHiB[10]和MoRFPred-plus[11]。這些方法將從其他預(yù)測工具得到的大量結(jié)果作為輸入特征,例如,預(yù)測的殘基無序傾向概率、二級結(jié)構(gòu)特征、溶劑可及表面面積和二面轉(zhuǎn)角等。大量采用預(yù)測的特征值進(jìn)行串聯(lián)后再次作為輸入,容易造成特征空間的高維稀疏而導(dǎo)致“過擬合”問題,并且極大地增加了算法的復(fù)雜度。另外,傳統(tǒng)算法將特征抽取和機(jī)器學(xué)習(xí)訓(xùn)練作為2個獨(dú)立的過程進(jìn)行,先采用各種統(tǒng)計(jì)分析方法提取特征并人工進(jìn)行預(yù)處理,再進(jìn)行二次編碼來生成特征向量作為機(jī)器學(xué)習(xí)的輸入,然后進(jìn)行學(xué)習(xí)訓(xùn)練,沒有考慮特征抽取和機(jī)器學(xué)習(xí)過程之間存在著潛在的不匹配效應(yīng),而且人工特征工程也容易導(dǎo)致特征抽取的不全面,因此,有必要提出更加簡單、高效的算法來改進(jìn)無序蛋白質(zhì)功能模體的預(yù)測。

        先前的研究[7,12]表明,無序蛋白質(zhì)功能模體具有特定的序列保守性模式,它是由高度保守殘基夾雜著高度可變的殘基構(gòu)成的。高度保守是為了維護(hù)特定的功能,而高度可變是為了維護(hù)無序結(jié)構(gòu)的靈活性。在結(jié)合分子伴侶時,并不是所有殘基貢獻(xiàn)都一樣,只有一些特定的殘基模式在分子識別中有貢獻(xiàn),因此,功能模體在蛋白質(zhì)序列的特征表達(dá)中具有特定的模式。

        目前,隨著人工智能熱潮的到來,深度學(xué)習(xí)受到了高度關(guān)注,而深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks, DCNN)被視為深度學(xué)習(xí)的支柱。DCNN最初是被設(shè)計(jì)用來處理圖像像素矩陣中的空間局部關(guān)聯(lián)性[13]。它直接以原始圖像作為輸入,避開傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程,隱式地從訓(xùn)練數(shù)據(jù)中自行抽取特征進(jìn)行學(xué)習(xí)。DCNN取得成功的關(guān)鍵是卷積算子能夠充分利用圖像像素矩陣中密集表示的數(shù)據(jù)的空間局部相關(guān)性[13]。因?yàn)檫@種局部相關(guān)性不是圖像數(shù)據(jù)所特有的,任何能表示成矩陣形式的其他類型的數(shù)據(jù)也具有這類屬性,所以DCNN在自然語言、聲音、視頻等多個領(lǐng)域的應(yīng)用取得了巨大成功。另外,DCNN不像傳統(tǒng)算法那樣把特征提取和模型學(xué)習(xí)作為2個獨(dú)立的步驟進(jìn)行,而是交織在一起同時進(jìn)行,這樣可以減少特征提取和模型學(xué)習(xí)之間潛在的不匹配效應(yīng)[13]。

        本文中采用類似于圖像的表示方法(像素矩陣)來表示蛋白質(zhì)序列(特征矩陣),序列中的功能模體的模式信息也必然包含在該序列所對應(yīng)的特征矩陣中,所以DCNN也適用于蛋白質(zhì)中功能模體的序列模式識別問題?;诖吮疚闹刑岢鲆环N簡單的序列表示方法來描述蛋白質(zhì)的序列信息,并采用DCNN構(gòu)建模型進(jìn)行無序蛋白質(zhì)功能模體MoRF的預(yù)測。

        1 數(shù)據(jù)和方法

        1.1 數(shù)據(jù)集

        本文中所使用的數(shù)據(jù)集分為3個部分,即訓(xùn)練集、驗(yàn)證集和測試集,均來自于文獻(xiàn)[6]中所使用的數(shù)據(jù)集。其中訓(xùn)練集取自于421條蛋白質(zhì)多肽鏈,包含了5 396個正樣本(MoRF殘基) 和240 588個負(fù)樣本(非MoRF殘基)。為了解決正、負(fù)樣本的嚴(yán)重不平衡問題,從負(fù)樣本中隨機(jī)抽取了與正樣本等量的樣本數(shù)與正樣本合并到一起組成訓(xùn)練集。驗(yàn)證集由419條包含MoRF的蛋白質(zhì)多肽鏈構(gòu)成,測試集由45條包含MoRF的蛋白質(zhì)多肽鏈構(gòu)成。驗(yàn)證集、測試集與訓(xùn)練集的序列相似度均小于30%。上述數(shù)據(jù)集的統(tǒng)計(jì)見表1。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)

        1.2 蛋白質(zhì)序列特征表示

        本文中使用了2類特征來表示蛋白質(zhì)序列,即位置性特異性打分矩陣(position specific scoring matrix,PSSM)和氨基酸特征系數(shù)。

        1)PSSM。本文中使用PSI-BLAST (position specific iterative basic local alignment search tool)命令[14],設(shè)置迭代次數(shù)為3,比對美國國家生物技術(shù)信息中心的非冗余序列數(shù)據(jù)庫來生成PSSM文件。每條長度為l的蛋白質(zhì)肽鏈可得到一個l×20型的矩陣(l為蛋白質(zhì)序列的長度)。該矩陣主要用來代表序列中氨基酸的保守性特征,其元素值分布在[-16,16]之間,元素?cái)?shù)值越大,表示保守性越強(qiáng)。

        2)氨基酸特征系數(shù)。本文中使用了3類特征系數(shù)來表示氨基酸特征(圖1),分別來自文獻(xiàn)[15]中的10種木寺系數(shù)(k1—k10)、文獻(xiàn)[16]中的5種特征系數(shù)(f1—f5)和文獻(xiàn)[17]中的7種特征系數(shù)(p1—p7)。這些特征系數(shù)在相關(guān)文獻(xiàn)里被認(rèn)為是能比較豐富地表達(dá)氨基酸的各種理化特征信息和微觀結(jié)構(gòu)特征信息。這樣,每條蛋白質(zhì)序列可表示為一個l×(10+5+7)型,即l×22型的矩陣。

        黃色背景的k1—k10、綠色背景的f1—f5和藍(lán)色背景的p1—p7分別代表了不同類的特征系數(shù),每類分別包含了3×20個、5×20個和7×20個系數(shù)常量。圖1 3類氨基酸的特征系數(shù)

        1.3 蛋白質(zhì)序列的編碼方式

        用PSSM及3組氨基酸特征系數(shù)矩陣橫向連接到一起來表示蛋白質(zhì)序列特征,每條長度為l的蛋白質(zhì)序列對應(yīng)到一個l×(20+10+5+7)型,即l×42型的矩陣。采用滑動窗口切分該矩陣,為每個殘基產(chǎn)生一個特征矩陣作為神經(jīng)網(wǎng)絡(luò)模型的輸入。無序蛋白質(zhì)MoRF片段的長度一般分布在5~25個殘基之間,為了讓每個殘基可能對應(yīng)的MoRF片段的信息都完整地包含在該滑動窗口內(nèi),本文中采用長度為51的滑動窗口(每個殘基兩側(cè)各取25個殘基)來切分序列所對應(yīng)的特征矩陣。通過這種編碼方式,每個殘基的特征信息即被表示成一個51×42型的矩陣。

        1.4 方法的流程圖

        本算法的流程圖如圖2所示。 首先, 由蛋白質(zhì)序列得到PSSM, 并計(jì)算序列對應(yīng)的3類特征系數(shù)(k1—k10、f1—f7和p1—p5)。 用上述PSSM和各種特征系數(shù)橫向連接來表示蛋白質(zhì)序列, 使每條長度為l的蛋白質(zhì)序列對應(yīng)于一個l×42型的矩陣; 然后, 通過滑動窗口提取每個殘基對應(yīng)的特征矩陣塊作為DCNN模型的輸入; 最后, 將DCNN模型的輸出概率值進(jìn)一步通過平滑處理, 產(chǎn)生最終的預(yù)測結(jié)果。

        1.5 深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

        本文中采用的DCNN結(jié)構(gòu)如圖3所示,3個卷積層(卷積核大小為3×3)、3個丟失層(丟失率為0.2)和3個下采樣層(窗口大小為2×2)分別交織在一起,最后再接上2個全連接層,并在全連接層中間也插入1個丟失層(丟失率為0.2)。除了輸出層的激活函數(shù)為Sigmoid, 用來產(chǎn)生預(yù)測概率值外, 其他各層的激活函數(shù)均為Relu,模型訓(xùn)練時損失函數(shù)為Binary_crossentropy,優(yōu)化函數(shù)為RMSProp。

        1.6 評價(jià)指標(biāo)

        本研究屬于二分類問題,即判斷某個氨基酸殘基是否屬于無序蛋白質(zhì)的MoRF片段。感受性曲線(receiver operating characteristic curve, ROC)及曲線下的面積(area under curve, AUC)值被用來作為算法的評價(jià)指標(biāo)。AUC值越大,即ROC下的面積值越大,說明該分類器的性能越好。在ROC圖中,每個點(diǎn)的橫坐標(biāo)為假陽性率(FPR),代表將負(fù)樣本錯分為正樣本的概率;縱坐標(biāo)為真陽性率(TPR),代表將正樣本分對的概率。另外, 正確指數(shù)又稱約登(Youden)指數(shù),也被用來作為評價(jià)指標(biāo)之一。該指數(shù)為正樣本分對的概率與負(fù)樣本分對的概率之和減去1,表示分類器對樣本預(yù)測正確的總能力,指數(shù)越大,性能越好。

        2 結(jié)果與分析

        2.1 平均化處理滑動窗口的優(yōu)化

        因?yàn)闊o序蛋白中的功能模體是一個連續(xù)的序列片段而不是單個的氨基酸, 所以本文中采用滑動窗口對DCNN模型的輸出概率值進(jìn)行平滑的優(yōu)化處理, 即對每個殘基取包含其兩側(cè)一定長度內(nèi)的殘基預(yù)測概率的平均值作為該中心殘基的最終預(yù)測結(jié)果。 為了優(yōu)化平均化滑動窗口的大小, 本文中在驗(yàn)證集上進(jìn)行了分析比較。該算法根據(jù)不同滑動窗口

        conv2d、max_pooling2d、dense、dropout和activation分別表示對應(yīng)的卷積層、下采樣層、全連接層、丟失層和激活層;input和output表示各層網(wǎng)絡(luò)對應(yīng)的輸入和輸出參數(shù)。圖3 本文中使用的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖

        大小所得到的ROC曲線如圖4所示。當(dāng)窗口長度大于9后,算法性能趨于穩(wěn)定,因此,本文中選擇最佳的滑動窗口長度13來進(jìn)行結(jié)果的優(yōu)化。

        圖4 根據(jù)不同平均化滑動窗口大小所得到的感受性曲線

        2.2 基于不同特征的方法的性能比較

        在驗(yàn)證集上, 本文中對使用不同特征表示蛋白質(zhì)序列的方法的性能進(jìn)行了比較。 主要對比了以下4種方法: 1)打分矩陣方法僅使用了PSSM來表示蛋白質(zhì)序列特征; 2)特征系數(shù)方法僅使用了3類氨基酸特征系數(shù)來表示蛋白質(zhì)序列特征; 3)打分矩陣-特征系數(shù)方法同時使用了PSSM和3類氨基酸特征系數(shù)來表示蛋白質(zhì)序列特征,但沒有采用最后的平滑處理來優(yōu)化結(jié)果;4)本文中提出的方法。上述4種方法在驗(yàn)證集上進(jìn)行測試得到的ROC曲線如圖5所示,本文中提出的方法AUC值達(dá)到0.708,優(yōu)于其他方法的性能。

        圖5 4種基于不同特征的方法在驗(yàn)證集上的感受性曲線

        2.3 與其他方法的比較

        目前已有的方法中,Retro-MoRFs[9]、MoRFCHiB[10]和MoRFPred-plus[11]的性能主要依賴于組合多個分類器的預(yù)測結(jié)果,它們的精確度在很大程度上是“以量取勝”,而本文中提出的方法是基于單個機(jī)器學(xué)習(xí)模型的,因此,只與3個有代表性的單模型方法進(jìn)行了比較,即MoRFpred[6]、ANCHOR[7]和MFSPSSMpred[8],這些方法也經(jīng)常在其他文獻(xiàn)中作為比較對象。經(jīng)過在測試集上進(jìn)行測試,各方法的ROC曲線圖如圖6所示,詳細(xì)的正確指數(shù)、TPR、FPR和AUC值列于表2中。從圖6和表2中可以看出,本文中提出的方法在測試集上取得最好的性能,即正確指數(shù)值達(dá)到0.444,AUC值達(dá)到0.760。

        圖6 不同方法在測試集上的感受性曲線

        方法名稱正確指數(shù)真陽性率假陽性率線下面積值文獻(xiàn)[6]中的方法0.1920.2360.0450.697文獻(xiàn)[7]中的方法0.1980.4330.2360.638文獻(xiàn)[8]中的方法0.3700.5460.1760.706本文中提出的方法0.4440.7320.2880.760

        3 結(jié)語

        本文中利用一種深度學(xué)習(xí)方法來預(yù)測天然無序蛋白質(zhì)中的功能模體在序列中的位置。采用位置特異性打分矩陣和3類氨基酸特征系數(shù)來描述蛋白質(zhì)序列信息,將每條序列編碼成類似于圖像像素矩陣的二維數(shù)值矩陣形式,并用DCNN來搭建模型進(jìn)行預(yù)測。 另外, 本文中把無序蛋白質(zhì)中的功能模體預(yù)測作為一個片段識別來對待, 而不是像傳統(tǒng)方法那樣作為單個的殘基分類, 所以在DCNN的輸出上加了一個段平均化的平滑處理步驟來進(jìn)一步優(yōu)化結(jié)果。 在相同數(shù)據(jù)集上進(jìn)行測試和比較, 結(jié)果表明,本文中提出的方法顯著優(yōu)于其他方法, AUC值和正確指數(shù)值均大于其他方法的,說明本算法能有效地識別功能模體在無序蛋白質(zhì)序列中的隱藏信息模式。本方法也適用于其他聚集型蛋白質(zhì)功能位點(diǎn)的預(yù)測。

        馮曉英等學(xué)者研究的結(jié)論說明:“經(jīng)過20年的發(fā)展,混合式教學(xué)的實(shí)踐與研究已經(jīng)漸趨成熟;混合式教學(xué)被普遍看好,被認(rèn)為是未來教學(xué)的主要形式;政府和教育機(jī)構(gòu)也對混合式教學(xué)給予越來越多的戰(zhàn)略和政策支持?!本唧w來講:

        猜你喜歡
        模體無序殘基
        車身無序堆疊零件自動抓取系統(tǒng)
        基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動力學(xué)與關(guān)鍵殘基*
        基于Matrix Profile的時間序列變長模體挖掘
        “殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
        植入(l, d)模體發(fā)現(xiàn)若干算法的實(shí)現(xiàn)與比較
        張博庭:煤電不能再這么無序發(fā)展下去了
        能源(2017年11期)2017-12-13 08:12:30
        基于網(wǎng)絡(luò)模體特征攻擊的網(wǎng)絡(luò)抗毀性研究
        高速路上右行規(guī)則與無序行駛規(guī)則的比較研究
        無序體系中的國際秩序
        基于模體演化的時序鏈路預(yù)測方法
        亚洲成色www久久网站夜月| 粉嫩极品国产在线观看免费一区 | 国内精品人妻无码久久久影院导航 | 内射中出无码护士在线| 男人阁久久| 久久av一区二区三区黑人| 波多野结衣中文字幕一区二区三区| 无码人妻精一区二区三区| 精品国产福利片在线观看| 久久久噜噜噜噜久久熟女m| 欧美性xxxxx极品老少| 色伦专区97中文字幕| 国产欧美日韩专区毛茸茸| 色婷婷亚洲一区二区三区在线| 欧美 日韩 人妻 高清 中文| 台湾佬综合网| 久久99久久99精品观看| 精品女厕偷拍视频一区二区| 国产产区一二三产区区别在线| 国产精品成人va| 国产精品国产三级国产专区51区| 久久精品国产亚洲av超清| 无码人妻av一区二区三区蜜臀| 亚洲an日韩专区在线| 国产精品美女主播在线| 亚洲欧洲成人a∨在线观看| 国产亚洲视频在线观看网址| 国产精品国产午夜免费看福利| 国产传媒精品成人自拍| 天下第二社区在线视频| 樱花AV在线无码| 视频一区中文字幕在线观看| 亚洲中文字幕无码爆乳app| 亚洲欧洲日产国码高潮αv| 日韩国产自拍精品在线| 亚洲av无一区二区三区久久蜜桃| 国产高清在线精品一区二区三区| 国产无码十八禁| 国产91极品身材白皙| 好男人社区影院www| 美女啪啪国产|