亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合的DNA- 蛋白質(zhì)結合位點預測

        2020-06-28 14:20:40薛廣富
        科學技術創(chuàng)新 2020年16期

        薛廣富

        (景德鎮(zhèn)陶瓷大學,江西 景德鎮(zhèn)333000)

        1 概述

        蛋白質(zhì)與DNA 的相互作用是分子生物學的核心問題之一,在基因調(diào)控、轉(zhuǎn)錄、DNA 復制和DNA 修復等一系列基生命物活動中發(fā)揮著重要作用[1]。了解DNA 結合殘基的結合特異性和親和力不僅有助于理解蛋白質(zhì)-DNA 復合物的識別機制,還可以為蛋白質(zhì)功能注釋提供線索[2]。

        為了了解蛋白質(zhì)-DNA 復合物的識別機理,研究者往往將研究重點放在蛋白質(zhì)-DNA 結合位點,特別是與DNA 結合的殘基上。例如電泳移動性測定分析(EMSAs),常規(guī)染色質(zhì)免疫沉淀(ChIP)等。然而這些實驗方法既耗時又昂貴,隨著大量的蛋白質(zhì)序列數(shù)據(jù)的可用,迫切需要開發(fā)從蛋白質(zhì)序列中識別DNA- 蛋白質(zhì)結合位點的計算方法。

        現(xiàn)如今,DNA 和蛋白質(zhì)相互作用的機理尚未明確,因此使用生物信息學的方法從海量的蛋白質(zhì)序列中提取有用的信息,并解釋DNA 和蛋白質(zhì)相互作用的機理不失為有效的途徑[3]。盡管已經(jīng)進行了大量研究,但是準確識別蛋白質(zhì)-DNA 結合位點的問題仍然有很大的改進空間。由于蛋白質(zhì)中與DNA 結合的和非結合的氨基酸殘基數(shù)量極不平衡,因此存在訓練樣本不平衡的問題,這將導致模型在預測時的過度擬合從而導致較差的性能[4]。

        2 數(shù)據(jù)集和特征提取方法

        2.1 數(shù)據(jù)集。為了測試特征提取方法的有效性,使用了PDNA-224 蛋白質(zhì)序列數(shù)據(jù)集。它包括224 個蛋白質(zhì)序列,并以25%的序列相似性作為指標,去除了任意兩個序列之間的冗余度。該數(shù)據(jù)集中有3778 個DNA 結合位點和53570 個非DNA 結合位點。

        2.2 特征提取。使用兩種特征提取方法:位置特異性打分矩陣(Position Specific Scoring Matrix,PSSM)以及獨熱(One-hot)編碼來提取每個蛋白質(zhì)序列的特征。同時采用滑窗的方法分割序列的特征矩陣。

        通過設定固定大小的滑窗大小K,可以把長短不一的氨基酸序列分割成固定的長度?;暗闹行奈恢米鳛榘悬c,從第一個氨基酸開始,將其作為靶點,則左邊周期性補齊末端的氨基酸序列,從而得到一個長度為K 的氨基酸序列。由此,一個長度為L 的氨基酸序列,可以得到L 個長度為K 的樣本。若靶點位置為DNA-蛋白質(zhì)結合位點,則將該樣本設為正樣本,靶點位置非結合位點則全都設為負樣本?;斑^程如圖所示。

        滑窗處理氨基酸序列示意圖

        PSSM被廣泛的應用在基于蛋白質(zhì)序列的相關預測模型中,作為蛋白質(zhì)序列的描述矩陣,PSSM能夠表示某個特定的氨基酸占據(jù)蛋白質(zhì)序列中某個位置的頻率,因此在PSSM中,每個序列位置都由20 個值表示。

        通過運行PSI-BLAST 程序?qū)Ψ侨哂啵∟R)數(shù)據(jù)庫進行三次迭代,設E 值為0.001,從而獲得蛋白質(zhì)序列的PSSM方面的進化信息。每一條蛋白質(zhì)序列都被由L×20 大小的PSSM矩陣表示,L是蛋白質(zhì)序列的長度。

        One-Hot 編碼也被稱為一位有效編碼,表示某個數(shù)據(jù)點屬于某一個類別,或具有某一種類的特性。其使用了N 位狀態(tài)寄存器來對N 個狀態(tài)進行編碼,每個狀態(tài)都有獨立的寄存器位,并且在任意時候只有一位有效。這首先要求將所有的狀態(tài)值映射到某一個整數(shù)值。然后將每一個整數(shù)值編碼為一個二進制向量,除了狀態(tài)的索引之外,它都是零值,它被標記為1。

        本文中,將二十種氨基酸作為20 種狀態(tài),分別進行One-Hot編碼,各個氨基酸由一個二十位的二進制向量表示。通過One-Hot 編碼,可以將蛋白質(zhì)序列編碼成L×20 大小的矩陣。

        本文設定滑窗大小為23,因此無論是用PSSM 矩陣和One-Hot 編碼提取氨基酸的特征,每一條序列進過滑窗處理后得到的樣本維數(shù)為23×20。

        在此,提出特征融合方法,通過對每個樣本的PSSM 和One-Hot 編碼進行拼接,可以得到一個維數(shù)為23×40 的特征融合矩陣來表示每一個樣本。

        3 結果評估

        近年來,深度學習技術與其他機器學習方法相比,已經(jīng)顯示出了提高識別力的能力,并在生物信息學領域得到了廣泛的應用[5]。

        使用全連接層神經(jīng)網(wǎng)絡和經(jīng)典的LeNet-5 卷積神經(jīng)網(wǎng)絡對樣本進行訓練和預測。同時采用五折交叉驗證來劃分訓練集和測試集。

        本文采用Keras 框架進行模型構建和訓練,使用的全連接層神經(jīng)網(wǎng)絡包含三個隱藏層,隱藏層的節(jié)點數(shù)量分別為512、256 和128,采用Adam 梯度下降算法,迭代次數(shù)為30,批次大小為256;在LeNet-5 卷積神經(jīng)網(wǎng)絡中,第一個卷積層的卷積核數(shù)量為16且大小為3×3,第一個池化層的池化大小為,第二個卷積層的卷積核數(shù)量為32 且大小為5×5,第二個池化層的池化大小為,緊接著的三個全連接層的節(jié)點數(shù)量分別為800、120 和84,采用Adam 梯度下降算法,迭代次數(shù)為30,批次大小為256。

        在二分類問題中,通常使用六個典型的指標來評估模型的訓練效果:靈敏度(SN)、特異性(SP)、準確性(ACC)、F1 分數(shù)Matthews 相關系數(shù)(MCC)。這五個指標可以通過以下公式計算:

        在這些等式中,TP,F(xiàn)P,TN 和FN 分別表示真陽性的數(shù)目,假陽性的數(shù)目,真陰性的數(shù)目和假陰性的數(shù)目。由于數(shù)據(jù)集中的不平衡問題,主要用靈敏度(SN)和特異性(SP)進行模型的評估。

        不同網(wǎng)絡結構模型的預測結果如下:

        表1 全連接神經(jīng)網(wǎng)絡模型的預測結果

        表2 LeNet-5 卷積神經(jīng)網(wǎng)絡模型的預測結果

        由以上結果可以看出,無論是使用全連接神經(jīng)網(wǎng)絡還是使用LeNet-5 卷積神經(jīng)網(wǎng)絡,融合了One-hot 編碼與PSSM矩陣兩個序列特征的結果優(yōu)于單個特征。

        4 結論

        在這項研究中,提出了一種新的基于序列的DNA- 蛋白質(zhì)結合位點預測方法。該方法在PDNA-224 數(shù)據(jù)集上使用PSSM、One-Hot 編碼進行特征提取。通過構建全連接神經(jīng)網(wǎng)絡和LeNet-5 卷積神經(jīng)網(wǎng)絡,在訓練數(shù)據(jù)集上的實驗結果表明了該特征融合方法的有效性。在今后的工作中,將進一步研究用不同的特征融合方法對DNA- 蛋白質(zhì)結合位點進行預測。

        日本免费三片在线播放| 国产av日韩a∨亚洲av电影| 亚洲三级香港三级久久| 国产精品视频白浆免费看| 亚洲综合色区一区二区三区| 色橹橹欧美在线观看视频高清| 亚洲区小说区图片区qvod伊| 亚洲色图在线视频观看| 国产不卡在线视频观看| 少妇无码av无码一区| 日韩成人精品在线| 国产视频在线播放亚洲| 国产一区二区黄色录像| 天堂中文在线资源| 亚洲精品成人av一区二区| 一区二区三区高清视频在线| 国产精品二区一区二区aⅴ污介绍 少妇伦子伦情品无吗 | 国产白浆一区二区三区佳柔| 真人抽搐一进一出视频| 蜜臀aⅴ国产精品久久久国产老师| 午夜爽毛片| 国产精品成人av一区二区三区| 欧美牲交a欧美牲交aⅴ免费真| 国产主播福利一区二区| 蜜桃在线观看免费高清| 少妇激情av一区二区三区| 越猛烈欧美xx00动态图| 人妻无码一区二区19P| 日本a爱视频二区三区| 专干老肥熟女视频网站300部| 欧美国产亚洲精品成人a v| 亚洲国产精品av麻豆一区| 久久无码字幕中文久久无码| 99亚洲精品久久久99| 青青青伊人色综合久久| 国产精品一区二区三区自拍| 国产尤物精品福利视频| 国产视频不卡在线| 风韵人妻丰满熟妇老熟女视频| a级毛片免费观看在线| 日韩中文字幕一区二区高清 |