張 蕾,李 征,鄭逢斌,楊 偉
(河南大學(xué) 計算機與信息工程學(xué)院,河南 開封 475004)
基于深度學(xué)習(xí)的八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法
張 蕾,李 征,鄭逢斌,楊 偉*
(河南大學(xué) 計算機與信息工程學(xué)院,河南 開封 475004)
(*通信作者電子郵箱yang0sun@gmail.com)
蛋白質(zhì)二級結(jié)構(gòu)預(yù)測是結(jié)構(gòu)生物學(xué)中的一個重要問題。針對八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測,提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)預(yù)測算法。該算法通過雙向遞歸神經(jīng)網(wǎng)絡(luò)建模氨基酸間的局部和長程相互作用,遞歸神經(jīng)網(wǎng)絡(luò)的隱層輸出進一步送入到三層的前饋神經(jīng)網(wǎng)絡(luò)以便進行八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測。實驗結(jié)果表明,提出的算法在CB513數(shù)據(jù)集上達(dá)到了67.9%的Q8預(yù)測精度,顯著地優(yōu)于SSpro8和SC-GSN。
深度學(xué)習(xí);遞歸神經(jīng)網(wǎng)絡(luò);前饋神經(jīng)網(wǎng)絡(luò);蛋白質(zhì)二級結(jié)構(gòu)預(yù)測
理解蛋白質(zhì)的氨基酸序列與其結(jié)構(gòu)之間的潛在關(guān)系是結(jié)構(gòu)生物信息學(xué)中的一個基本問題[1]。蛋白質(zhì)二級結(jié)構(gòu)是氨基酸殘基在蛋白質(zhì)多肽鏈中的局部空間構(gòu)象,其具有8種類型[2],分別是α-螺旋(H)、β-橋(B)、折疊(E)、螺旋-3(G)、螺旋-5(I)、轉(zhuǎn)角(T)、卷曲(S)和環(huán)(L)。每個二級結(jié)構(gòu)類型都是由其所在蛋白質(zhì)鏈中氨基酸殘基間的局部和長程相互作用共同決定的。蛋白質(zhì)二級結(jié)構(gòu)預(yù)測任務(wù)就是把一個由20種氨基酸A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y 組成的氨基酸序列映射為對應(yīng)的二級結(jié)構(gòu)序列。與蛋白質(zhì)二級結(jié)構(gòu)預(yù)測相關(guān)的問題有蛋白質(zhì)折疊預(yù)測[3]和蛋白質(zhì)三級結(jié)構(gòu)預(yù)測。特別地,蛋白質(zhì)的二級結(jié)構(gòu)預(yù)測信息不僅有助于確定蛋白質(zhì)的三維結(jié)構(gòu),而且能夠用于蛋白質(zhì)的功能預(yù)測與互作預(yù)測[4]。
早期的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測研究主要集中在粗粒度的三類二級結(jié)構(gòu)預(yù)測,即把八類二級結(jié)構(gòu)粗略地歸類為螺旋、折疊和卷曲三類, 代表的算法有PHD[5]、PSIPRED[6]和JPred[7]等。相對于三類二級結(jié)構(gòu)預(yù)測,細(xì)粒度的八類二級結(jié)構(gòu)預(yù)測能夠提供更為豐富的信息,并且更具有挑戰(zhàn)性。針對八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測,文獻[8]基于雙向樸素遞歸神經(jīng)網(wǎng)絡(luò)提出了預(yù)測算法SSpro8??紤]到SSpro8不能建模相鄰殘基二級結(jié)構(gòu)類型之間的依賴關(guān)系,文獻[9]提出采用條件神經(jīng)場構(gòu)建二級結(jié)構(gòu)預(yù)測模型。此外,基于結(jié)構(gòu)模板,文獻[10]提出了八類二級結(jié)構(gòu)預(yù)測算法C8-SCORPION。通過采用帶卷積的生成隨機網(wǎng)絡(luò)(Generative Stochastic Network, GSN),文獻[11]獲得了66.4%的Q8預(yù)測精度。
深度學(xué)習(xí)是一種通過多個非線性處理層來建模數(shù)據(jù)中抽象信息的機器學(xué)習(xí)技術(shù)。由于深度學(xué)習(xí)具有較強的建模能力并且能夠基于數(shù)據(jù)自適應(yīng)地進行參數(shù)學(xué)習(xí),因此其已成功地應(yīng)用于圖像分類[12]、物體檢測[13]、人臉識別[14]、人類行為識別[15]、圖像識別[16]和圖像描述生成[17]等多個領(lǐng)域。為此,本文提出了一種基于深度模型的八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法,并與其他八類蛋白質(zhì)二級結(jié)構(gòu)算法進行了比較。實驗結(jié)果表明,提出的算法能夠獲得較好的預(yù)測精度。
為了基于氨基酸序列預(yù)測蛋白質(zhì)二級結(jié)構(gòu),需要為序列中的每個氨基酸構(gòu)造數(shù)值編碼。當(dāng)前常用的編碼是正交編碼和位置特異性計分矩陣(Position-Specific Scoring Matrices, PSSM)譜編碼。圖1給出了氨基酸的21位正交編碼。圖中的前20個字母A、C、E、D、G、F、I、H、K、M、L、N、Q、P、S、R、T、W、V和Y是構(gòu)成蛋白質(zhì)鏈的基本氨基酸,冒號后面0和1組成的序列是對應(yīng)的正交編碼。顯然,任意兩個氨基酸編碼向量的內(nèi)積都為0。除了上述20個字母以外,在蛋白質(zhì)序列數(shù)據(jù)庫中額外地引入了字母X表示氨基酸的具體類型未知,這是由于實驗方法有時不能確定一個氨基酸的具體類型。圖1也給出了X對應(yīng)的21位正交編碼。
圖1 氨基酸的正交編碼Fig. 1 Orthogonal encoding of amino acids
PSSM譜編碼是通過把目標(biāo)蛋白質(zhì)鏈與蛋白質(zhì)序列數(shù)據(jù)庫中的蛋白質(zhì)鏈進行多序列比對獲得的。為了生成目標(biāo)蛋白質(zhì)鏈的PSSM譜編碼,需要把NCBI nr(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/)數(shù)據(jù)庫下載到本機。在NCBI nr數(shù)據(jù)庫中,有基于序列一致性閾值100%、90%和50%分別構(gòu)造的三種非冗余蛋白質(zhì)數(shù)據(jù)庫,本文采用序列一致性為50%的數(shù)據(jù)庫uniref50.fasta。對于uniref50.fasta,需要首先調(diào)用pfilt程序?qū)ζ涞鞍踪|(zhì)序列數(shù)據(jù)進行過濾,以便刪除卷曲-卷曲片段、跨膜區(qū)域和低復(fù)雜性區(qū)域; 然后調(diào)用makeblastdb程序?qū)ζ溥M行格式化生成便于多序列比對的數(shù)據(jù)和索引文件。在處理完uniref50.fasta數(shù)據(jù)庫后,可調(diào)用3次迭代的psiblast程序把目標(biāo)蛋白質(zhì)鏈的氨基酸序列與數(shù)據(jù)庫中的蛋白質(zhì)鏈進行多序列比對。在迭代完成后,psiblast程序會生成目標(biāo)蛋白質(zhì)鏈的PSSM譜編碼文件。圖2給出了蛋白質(zhì)4Y3F的部分氨基酸的PSSM譜編碼。
圖2 蛋白質(zhì)4Y3F的前26個氨基酸的PSSM譜編碼Fig. 2 PSSM profile encoding of the first 26 amono acid residues of the protein 4Y3F
圖2中,最左邊的數(shù)字是氨基酸在蛋白質(zhì)鏈中的編號,字母表示氨基酸,字母右邊的20個數(shù)是對其的數(shù)值編碼。比如,對于第12個氨基酸S,圖中虛線長方形中的20個數(shù)值組成的向量就是它的PSSM譜編碼。此外,在使用PSSM譜編碼之前,本文進一步采用Sigmoid函數(shù)把編碼中的整數(shù)值映射到0~1。
蛋白質(zhì)二級結(jié)構(gòu)預(yù)測是氨基酸序列到二級結(jié)構(gòu)序列的映射問題。為了按照序列方式預(yù)測蛋白質(zhì)二級結(jié)構(gòu),本文通過組合遞歸神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)造深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型。圖3給出了具體的深度預(yù)測模型。特別地,預(yù)測模型的具體數(shù)據(jù)處理流程如下:首先氨基酸序列中的每個氨基酸通過氨基酸編碼形式化為數(shù)值向量送入到遞歸神經(jīng)網(wǎng)絡(luò)——雙向長短時記憶模型(Long Short-Term Memory, LSTM)中,然后組合雙向LSTM的前向和后向隱層輸出送入到前饋神經(jīng)網(wǎng)絡(luò)的輸入層中,最后根據(jù)前饋神經(jīng)網(wǎng)絡(luò)輸出層的結(jié)果確定預(yù)測的蛋白質(zhì)二級結(jié)構(gòu)序列并輸出。
圖3 蛋白質(zhì)二級結(jié)構(gòu)的深度預(yù)測模型Fig. 3 Deep prediction model of protein secondary structure
對于氨基酸序列,本文采用組合的PSSM譜編碼和21位正交編碼表示氨基酸,因此每個氨基酸可由長度為41的特征向量表示。當(dāng)用xt表示蛋白質(zhì)鏈中第t個位置氨基酸的特征向量時,則長度為τ的蛋白質(zhì)可形式化為序列數(shù)據(jù){x1,…,xt,…,xτ}。此外,對應(yīng)的目標(biāo)二級結(jié)構(gòu)序列可表示為{y1,…,yt,…,yτ},其中yt是處于第t個位置的二級結(jié)構(gòu)類型的8位正交編碼。
it=σ(Uixt+Viht-1+bi)
ot=σ(Uoxt+Voht-1+bo)
ft=σ(Ufxt+Vfht-1+bf)
gt= Tanh (Ugxt+Vght-1+bg)
st=st-1⊙ft+it⊙gt
ht= Tanh (st)⊙ot
其中:符號⊙表示兩個向量按元素依次相乘,it、ot、ft、gt和st分別是t時刻的輸入網(wǎng)關(guān)向量、輸出網(wǎng)關(guān)向量、遺忘網(wǎng)關(guān)向量、候選節(jié)點向量和內(nèi)部記憶向量,Ui、Uo、Uf、Ug、Vi、Vo、Vf和Vg是需要學(xué)習(xí)的權(quán)值矩陣,bi、bo、bf和bg是偏置向量。通過引入網(wǎng)關(guān)和內(nèi)部記憶機制,LSTM不僅可以克服消失的梯度問題,而且能夠顯式地建模序列數(shù)據(jù)之間的長距離依賴關(guān)系。特別地,通過學(xué)習(xí)模型參數(shù),LSTM可以針對不同的任務(wù)自適應(yīng)地學(xué)習(xí)采用何種記憶機制以便建模序列數(shù)據(jù)的長距離依賴關(guān)系。
當(dāng)訓(xùn)練數(shù)據(jù)包括n個序列對時,深度預(yù)測模型的目標(biāo)損失函數(shù)就是n個序列對對應(yīng)損失函數(shù)的均值。通過采用基于時間的反向傳播算法(Back Propagation Through Time, BPTT)最小化深度預(yù)測模型的目標(biāo)函數(shù),可以自適應(yīng)地學(xué)習(xí)雙向LSTM和多層感知機的參數(shù)。
3.1 數(shù)據(jù)集
本文采用文獻[11]使用的非冗余蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)集PISCES CullPDB訓(xùn)練深度預(yù)測模型,該數(shù)據(jù)集包含6 128個蛋白質(zhì)鏈,由PISCES CullPDB服務(wù)器按照蛋白質(zhì)分辨率不大于2.5和蛋白質(zhì)序列一致性小于30%的約束條件生成。同時,常用的CB513數(shù)據(jù)集被當(dāng)作測試集,以便評估提出算法的分類性能。為了消除訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間的序列相似性,本文進一步從PISCES CullPDB數(shù)據(jù)集中刪除與CB513中的蛋白質(zhì)鏈存在序列一致性大于25%的蛋白質(zhì)鏈。通過刪除操作,PISCES CullPDB數(shù)據(jù)集最后剩下5 534條蛋白質(zhì)鏈。對于剩下的蛋白質(zhì)鏈,本文選取5 278個蛋白質(zhì)鏈作為深度預(yù)測模型的訓(xùn)練數(shù)據(jù)集,余下的256 條蛋白質(zhì)鏈作為驗證集。引入驗證集的目的是為了采用早期停止方法防止過訓(xùn)練,也就是說,當(dāng)訓(xùn)練模型在驗證集上的驗證誤差不再降低時停止參數(shù)訓(xùn)練。
3.2 實驗結(jié)果與分析
為了進行實驗比較,需要對提出的深度預(yù)測模型進行超參數(shù)設(shè)置。對于雙向LSTM,隱層單元個數(shù)設(shè)置為96,初始隱層狀態(tài)設(shè)為零向量。對于多層感知機,兩個隱層節(jié)點的個數(shù)都設(shè)置為192,激活函數(shù)采用ReLU,輸出層采用輸出類別為8類的Softmax函數(shù)。此外,本文采用帶沖量的隨機梯度下降算法訓(xùn)練網(wǎng)絡(luò)參數(shù),其中沖量系數(shù)設(shè)為0.9,學(xué)習(xí)率為0.01,minibatch的大小設(shè)置為128,梯度剪切的閾值設(shè)置為5。當(dāng)網(wǎng)絡(luò)在驗證集上的預(yù)測精度不再增加時停止訓(xùn)練。
表1給出了本文算法在CB513數(shù)據(jù)集上的混淆矩陣,其中粗體字標(biāo)出了8種蛋白質(zhì)二級結(jié)構(gòu)類型α-螺旋(H)、β-橋(B)、折疊(E)、螺旋-3(G)、螺旋-5(I)、轉(zhuǎn)角(T)、卷曲(S)和環(huán)(L)的預(yù)測正確率。從表中可以看出,α-螺旋和折疊正確率最高,分別達(dá)到了91.98%和81.92%;β-橋和螺旋-5的正確率最低,分別為1.19%和0%,這主要是由于它們在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫所占的比率極低的緣故。特別地,螺旋-5出現(xiàn)的比率只有0.000 2。因此,八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測是不平衡分類問題。
表1 本文算法在CB513測試集上的混淆矩陣
%
Tab. 1 Confusion matrix of the proposed algorithm
on the CB513 dataset %
表2給出了本文算法與4種算法SC-GSN(Supervised Convolutional-Generative Stochastic Network)[11]、RaptorX-SS8[9]、SSpro8[8]和LSTM large[18]在CB513數(shù)據(jù)集上的Q8預(yù)測精度。對于所比較的4個算法,SC-GSN采用的是帶卷積的生成隨機網(wǎng)絡(luò),RaptorX-SS8使用的預(yù)測模型是條件神經(jīng)場,SSpro8采用的是雙向樸素遞歸神經(jīng)網(wǎng)絡(luò),LSTM large使用雙向LSTM。從表中可以看出,本文算法獲得了最高的預(yù)測精度,并且明顯地優(yōu)于SSpro8和SC-GSN。
表2 CB513數(shù)據(jù)集上的分類性能比較Tab. 2 Performance comparision on the CB513 dataset
針對八類蛋白質(zhì)二級結(jié)構(gòu)預(yù)測,本文通過組合遞歸神經(jīng)網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)提出了一種新的基于深度學(xué)習(xí)的預(yù)測算法。該方法首先采用雙向 LSTM 模型處理氨基酸序列數(shù)據(jù),以便建模氨基酸之間的長距離依賴關(guān)系。然后,雙向LSTM的兩個隱層輸出被組合成單個特征向量進一步送入到三層的多層感知機。最后,采用交叉熵作為目標(biāo)函數(shù)以便訓(xùn)練深度網(wǎng)絡(luò)參數(shù)。特別地,通過采用遞歸神經(jīng)網(wǎng)絡(luò),提出的算法能夠直接進行氨基酸序列到蛋白質(zhì)二級結(jié)構(gòu)序列的預(yù)測。CB513數(shù)據(jù)集上的實驗結(jié)果表明,本文算法能夠獲得較好的預(yù)測精度,并且明顯地優(yōu)于SSpro8和SC-GSN。
References)
[1] CHENG J, TEGGE A N, BALDI P. Machine learning methods for protein structure prediction[J]. IEEE Reviews in Biomedical Engineering, 2008, 1: 41-49.
[2] TOUW W G, BAAKMAN C, BLACK J, et al. A series of PDB-related databanks for everyday needs[J]. Nucleic Acids Research, 2015,43(D1): 364-368.
[3] LIN C, ZOU Y, QIN J, et al. Hierarchical classification of protein folds using a novel ensemble classifier[J]. PLOS ONE, 2013, 8(2): e56499.
[4] ROST B. Review: protein secondary structure prediction continues to rise[J]. Journal of Structural Biology, 2001, 134(2): 204-218.
[5] ROST B,SANDER C. Prediction of protein secondary structure at better than 70% accuracy[J]. Journal of Molecular Biology, 1993, 232(2): 584-599.
[6] BUCHAN D W, WARD S, LOBLEY A E, et al. Protein annotation and modelling servers at university college london[J]. Nucleic Acids Research, 2010, 38(Web Server issue): W563-W568.
[7] DROZDETSKIY A, COLE C, PROCTER J, et al. JPred4: a protein secondary structure prediction server[J]. Nucleic Acids Research, 2015, 43(1):389-394.
[8] POLLASTRI G, PRZYBYLSKI D, ROST B, et al. Improving the prediction of protein secondary structure in three and eight classes using recurrent neural networks and profiles[J]. Proteins: Structure, Function, and Bioinformatics, 2002, 47(2): 228-235.
[9] WANG Z, ZHAO F, PENG J, et al. Protein 8-class secondary structure prediction using conditional neural fields[J]. Proteomics, 2011, 11(19): 3786-3792.
[10] YASEEN A,LI Y. Template-based C8-SCORPION: a protein 8-state secondary structure prediction method using structural information and context-based features[J]. BMC Bioinformatics, 2014, 15(8): 1-8.
[11] ZHOU J, TROYANSKAYA O G. Deep supervised and convolutional generative stochastic network for protein secondary structure prediction[EB/OL].[2016-06-20]. https://core.ac.uk/download/pdf/25008331.pdf.
[12] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc, 2012: 1097-1105.
[13] GUPTA S, GIRSHICK R, ARBELEZ P, et al. Learning rich features from RGB-D images for object detection and segmentation[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 345-360.
[14] 張雯,王文偉. 基于局部二值模式和深度學(xué)習(xí)的人臉識別[J]. 計算機應(yīng)用, 2015,35(5): 1474-1478.(ZHANG W, WANG W W. Face recognition based on local binary pattern and deep learning [J]. Journal of Computer Applications, 2015,35(5): 1474-1478.)
[15] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[16] 康曉東, 王昊, 郭軍, 等. 無監(jiān)督深度學(xué)習(xí)彩色圖像識別方法[J]. 計算機應(yīng)用, 2015,35(9): 2636-2639. (KANG X D, WANG H, GUO J, et al. Unsupervised deep learning method for color image recognition[J]. Journal of Computer Applications, 2015,35(9): 2636-2639.)
[17] KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3128-3137.
[18] S?NDERBY S K,WINTHER O. Protein secondary structure prediction with long short term memory networks[EB/OL].[2016-06-20]. http://arxiv-web1.library.cornell.edu/pdf/1412.7828.pdf.
This work is partially supported by the National Natural Science Foundation of China (41571417).
ZHANG Lei, born in 1983, M. S., teaching assistant. Her research interests include bioinformatics.
LI Zheng, born in 1985, Ph. D., lecturer. Her research interests include software engineering.
ZHENG Fengbin, born in 1963, Ph. D., professor. His research interests include spatial information processing, natural language processing.
YANG Wei, born in 1983, Ph. D., lecturer. Her research interests include machine learning, deep learning.
Prediction of eight-class protein secondary structure based on deep learning
ZHANG Lei, LI Zheng, ZHENG Fengbin, YANG Wei*
(SchoolofComputerandInformationEngineering,HenanUniversity,KaifengHenan475004,China)
Predicting protein secondary structure is an important issue in structural biology. Aiming at the prediction of eight-class protein secondary structure, a novel deep learning prediction algorithm was proposed by combining recurrent neural network and feed-forward neural network. A bidirectional recurrent neural network was used to model locality and long-range interaction between amino acid residues in protein. In order to predict the eight-class protein secondary structure, the outputs of the hidden layer in the bidirectional recurrent neural network were further fed to the three-layer feed-forward neural network. Experimental results show that the proposed method achieves Q8accuracy of 67.9% on the CB513 dataset, which is significantly better than SSpro8 and SC-GSN (Supervised Convolutional-Generative Stochastic Network).
deep learning; recurrent neural network; feed-forward neural network; protein secondary structure prediction
2016-10-28;
2016-12-02。 基金項目:國家自然科學(xué)基金面上項目(41571417)。
張蕾(1983—),女,河南周口人,助教,碩士,主要研究方向:生物信息學(xué); 李征(1985—),女,河南駐馬店人,講師,博士,主要研究方向:軟件工程; 鄭逢斌(1963—),男,河南信陽人,教授,博士,主要研究方向:空間信息處理、自然語言處理; 楊偉(1983—),男,河南信陽人,講師,博士,主要研究方向:機器學(xué)習(xí)、深度學(xué)習(xí)。
1001-9081(2017)05-1512-04
10.11772/j.issn.1001-9081.2017.05.1512
TP183
A