韓心怡,劉毅慧
(齊魯工業(yè)大學(xué)(山東省科學(xué)院) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250300)
蛋白質(zhì)二級(jí)結(jié)構(gòu)[1]預(yù)測(cè)是生物信息學(xué)領(lǐng)域一項(xiàng)非常重要的研究課題,蛋白質(zhì)二級(jí)結(jié)構(gòu)不僅是構(gòu)成蛋白質(zhì)穩(wěn)定構(gòu)象的基礎(chǔ),同時(shí)也是進(jìn)一步研究蛋白質(zhì)三級(jí)結(jié)構(gòu)的重要環(huán)節(jié)[2]。隨著越來越多的蛋白質(zhì)序列順利完成了結(jié)構(gòu)測(cè)試,國際上也不斷有新的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法被提出,同時(shí)也提供了多種在線預(yù)測(cè)服務(wù)器。試驗(yàn)選取了七種在線預(yù)測(cè)服務(wù)器:PSRSM、Spider3、SPOT-1D、RaptorX、MUFOLD,Psipred和Jpred4,并將它們的預(yù)測(cè)結(jié)果從Q3、Sov、邊界識(shí)別率、內(nèi)部識(shí)別率、轉(zhuǎn)角C識(shí)別率,折疊E識(shí)別率和螺旋H識(shí)別率七個(gè)方面進(jìn)行了對(duì)比評(píng)估。上述七種在線預(yù)測(cè)服務(wù)器,均采用了各自不同的預(yù)測(cè)方法:PSRSM采用基于數(shù)據(jù)劃分和半隨機(jī)子空間的預(yù)測(cè)方法[3];Spider3使用長短時(shí)記憶網(wǎng)絡(luò)和雙向遞歸神經(jīng)網(wǎng)絡(luò)的混合模型[4];SPOT-1D結(jié)合了殘余卷積網(wǎng)絡(luò)和雙向遞歸神經(jīng)網(wǎng)絡(luò)[5];RaptorX使用了深度卷積神經(jīng)場[6];MUFOLD采用了一種名為深度初始-內(nèi)部-初始的網(wǎng)絡(luò)[7];Jpred4通過JNet[8]算法提供預(yù)測(cè),還有使用前饋神經(jīng)網(wǎng)絡(luò)的Psipred[9]。最新出現(xiàn)的PSRSM和SPOT-1D也增加了對(duì)大數(shù)據(jù)集的使用。
相比于文獻(xiàn)[10],增加了對(duì)最新發(fā)布的SPOT-1D服務(wù)器介紹和評(píng)估,對(duì)所有服務(wù)器的使用流程做出了說明,同時(shí)增加了對(duì)轉(zhuǎn)角C、折疊E和螺旋H、內(nèi)部和邊界結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確率評(píng)估,為研究者提供更多的參考角度。其中,各服務(wù)器Q3結(jié)果從高到低分別為PSRSM:89.96%;SPOT-1:88.18%;MUFOLD:86.74%;SPIDER3:85.77%;RaptorX:83.61%;Psipred:79.72%;Jpred4:78.29%。結(jié)果表明PSRSM預(yù)測(cè)效果優(yōu)于其他服務(wù)器。
PSRSM-Server是由齊魯工業(yè)大學(xué)智能信息處理團(tuán)隊(duì)開發(fā)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)服務(wù)器,該服務(wù)器基于數(shù)據(jù)劃分和半隨機(jī)子空間(Partition and semi-random subspace, PSRSM)方法進(jìn)行預(yù)測(cè)[3]。方法的主要流程為:首先根據(jù)蛋白質(zhì)序列的長度將訓(xùn)練集劃分為6種子集,然后用半隨機(jī)子空間方法生成子空間,將SVM作為基本分類器,在子空間中訓(xùn)練基本分類器;最后通過多數(shù)投票規(guī)則把子集中的基本分類器結(jié)合,生成最終的分類器。網(wǎng)絡(luò)輸入為PSI-BLAST程序生成的20×L的PSSM矩陣,其中20為氨基酸個(gè)數(shù),L為蛋白質(zhì)長度。輸入的蛋白質(zhì)序列將會(huì)根據(jù)長度選擇合適的分類器進(jìn)行預(yù)測(cè)。此服務(wù)器將預(yù)測(cè)結(jié)果根據(jù)“H、G、I轉(zhuǎn)為H”,“B、E轉(zhuǎn)為E”,“其他結(jié)構(gòu)轉(zhuǎn)為C”的規(guī)則得出最終的3態(tài)結(jié)果。該方法在ASTRAL和CullPDB數(shù)據(jù)集上選取了15 696條去除較高相似度的數(shù)據(jù)上進(jìn)行訓(xùn)練,在測(cè)試集CASP10、CASP11、CASP12、CB513,25PDB和T100(2018年2月前的100條)上Q3識(shí)別率分別達(dá)到85.51%、85.89%、85.55%、84.53%,86.38%和85.09%的良好性能[3]。PSRSM-Server 網(wǎng)址為:http://210.44.144.20:82/protein_PSRSM/default.aspx。
該網(wǎng)站提供了單條序列預(yù)測(cè)和批量序列預(yù)測(cè)的功能,點(diǎn)擊“Sequence”,按照?qǐng)D1所示,輸入郵箱,便可進(jìn)行單條作業(yè)提交。所支持的蛋白質(zhì)長度范圍為10~800。
提交成功后網(wǎng)站會(huì)分配一個(gè)Job ID,使用者可根據(jù)此Job ID、序列或者預(yù)留郵箱在網(wǎng)站左側(cè)“Predicted result”中根據(jù)不同的方式進(jìn)行結(jié)果查詢,如圖2所示。
圖 1 PSRSM 服務(wù)器單條數(shù)據(jù)測(cè)試提交步驟Fig.1 Single data test submission step of PSRSM-Server
注:用戶可根據(jù)圖中標(biāo)注1點(diǎn)擊“Sequence”然后輸入查詢郵箱,在標(biāo)注3處輸入提交序列,最后點(diǎn)擊標(biāo)注4處的“submit”完成單條數(shù)據(jù)提交.
圖2 PSRSM服務(wù)器根據(jù)預(yù)留郵箱結(jié)果查詢Fig.2 Query results based on email address in PSRSM-Server
注:用戶首先在“Predicted result”處點(diǎn)擊“by E-Mail”,然后在標(biāo)注2處輸入圖1.2輸入的預(yù)留郵箱,最后點(diǎn)擊標(biāo)注3處的 Search 即可查詢測(cè)試狀態(tài).
用戶可根據(jù)需要,選擇點(diǎn)擊“Download”下載結(jié)果或者點(diǎn)擊“Select”在網(wǎng)頁端查看結(jié)果,下載的結(jié)果將以txt格式保存。網(wǎng)站也同樣支持上傳Fasta格式文件進(jìn)行預(yù)測(cè),查詢結(jié)果方式同圖2。最后,該網(wǎng)站提供了查詢預(yù)測(cè)準(zhǔn)確率的功能,在左側(cè)“Comparison”中,選中所需查詢的結(jié)果,輸入真實(shí)的DSSP,可直接查看Q3和Sov準(zhǔn)確率。
現(xiàn)有的機(jī)器學(xué)習(xí)方法在預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)時(shí)通常依賴于設(shè)置10到20個(gè)氨基酸殘基大小的滑動(dòng)窗口來捕捉“短到中”距離的殘基相互作用,而該方法基于長短時(shí)記憶(Long short-term memory, LSTM)雙向遞歸神經(jīng)網(wǎng)絡(luò)(Bidirectional recurrent neural network, BRNNs)[4],在不設(shè)置滑動(dòng)窗口的情況下捕捉長距離的殘基交互,改善了蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)效果。該方法模型使用了兩個(gè)節(jié)點(diǎn)數(shù)為256的雙向遞歸神經(jīng)網(wǎng)絡(luò)層(BRNN),之后為兩層節(jié)點(diǎn)分別為1 024和512的隱藏層。在BRNN層中采用了LSTM細(xì)胞來學(xué)習(xí)遠(yuǎn)距離和閉合序列內(nèi)的依賴性。網(wǎng)絡(luò)輸入包括氨基酸的7種代表性理化性質(zhì)(Physio-chemical properties, PP),PSI-BLAST的20維位置特異性評(píng)分矩陣(PSSM),以及來自HHBlits的30維隱馬爾可夫模型特征。該方法數(shù)據(jù)集包含5 789個(gè)蛋白質(zhì),序列相似性截?cái)嘀禐?5%,X射線分辨率低于2.0個(gè)?。從所有數(shù)據(jù)中,隨機(jī)選擇4 590種蛋白質(zhì)作為訓(xùn)練集(TR4590),其余1 199用作獨(dú)立測(cè)試集(TS1199)。文獻(xiàn)[4]中指出捕獲序列的長距離相互作用可以使三態(tài)二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率達(dá)84%。
Spider3提供單條蛋白質(zhì)和批量蛋白質(zhì)序列預(yù)測(cè)的功能,同時(shí)網(wǎng)站也提供了預(yù)測(cè)軟件下載的功能。在線提交測(cè)試序列過程中,由于服務(wù)器資源有限,同一個(gè)IP和郵箱下提交序列總數(shù)不可超過100條,注意提交序列過程中序列不要換行。Spider3網(wǎng)址為:http://sparks-lab.org/server/SPIDER3/。提交界面如圖3所示。提交成功后,可在郵箱接收到最終結(jié)果,或者在網(wǎng)頁端進(jìn)行查看。
SPOT-1D是目前較新的一種蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)服務(wù)器。作為Spider3的改進(jìn)方法,SPOT-1D在使用了雙向遞歸神經(jīng)網(wǎng)絡(luò)的長短時(shí)記憶細(xì)胞(Long-Short-term memory Cells in Bidirectional recurrent neural networks, LSTM-BRNNs)基礎(chǔ)上,結(jié)合了殘余卷積網(wǎng)絡(luò)(Residual Convolutional Networks, ResNets)[5],用來識(shí)別和傳播整個(gè)序列中的短期和長期依賴關(guān)系,預(yù)測(cè)結(jié)果準(zhǔn)確率得到了明顯的提升,網(wǎng)絡(luò)模型的描述在文獻(xiàn)[5]的補(bǔ)充部分有詳細(xì)的說明。該模型的特征輸入由氨基酸的7種代表性理化性質(zhì),SPOT-Contact的預(yù)測(cè)接觸圖信息,PSSM和隱馬爾科夫模型特征組成,共57維特征輸入。相比于Spider3,SPOT-1D的預(yù)測(cè)更加準(zhǔn)確,除了模型的改進(jìn),SPOT-1D從PISCES服務(wù)器中選取了更多數(shù)量的10 029條蛋白質(zhì)進(jìn)行訓(xùn)練。使用界面和操作方法同Spider3,但每次提交序列不可超過5條。SPOT-1D的網(wǎng)址為:http://sparks-lab.org/jack/server/SPOT-1D/。
圖3 Spider3提交測(cè)試序列Fig.3 Submission test sequence in Spider3
注:首先,用戶在圖中標(biāo)注1處輸入預(yù)留郵箱,在標(biāo)注2處輸入工作名稱,然后在下方標(biāo)注3處根據(jù)圖中示例格式輸入序列,最后點(diǎn)擊標(biāo)注4處的“Submit”完成序列提交.
RaptorX采用了名為深度卷積神經(jīng)場(Deep convolutional neural fields, deepCNF)[6,11]的預(yù)測(cè)方法,該方法是深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural networks, DCNN)和條件神經(jīng)場(Conditional neural fields, CNF)相結(jié)合。它能以分層的方式對(duì)復(fù)雜序列的結(jié)構(gòu)關(guān)系進(jìn)行建模,而且可以根據(jù)相鄰殘基之間的相關(guān)性建模。在DeepCNF中使用DCNN替換CNF中的淺層神經(jīng)網(wǎng)絡(luò),以便捕獲輸入維度和輸出標(biāo)簽之間的復(fù)雜關(guān)系,特別是對(duì)于在PDB中沒有緊密同源性或具有稀疏序列譜的蛋白質(zhì)具有很好的預(yù)測(cè)效果。針對(duì)紊亂蛋白質(zhì)序列的預(yù)測(cè),RaptorX在網(wǎng)絡(luò)中增加了ROC曲線下面積最大化(Area under the ROC Curve , AUC)方法訓(xùn)練[12]。該網(wǎng)絡(luò)的特征輸入由21維PSSM和具有21個(gè)元素的二進(jìn)制向量(表示第i個(gè)位置上的氨基酸)組成,共42維。RaptorX使用了CullPDB中5 600條蛋白質(zhì)用作訓(xùn)練。該網(wǎng)站提供了批量預(yù)測(cè)的功能,提交方式如圖4所示。在“My Jobs”里輸入測(cè)試時(shí)提交的郵箱,等待結(jié)果鏈接。在線服務(wù)網(wǎng)址為: http://raptorx.uchicago.edu/StructurePrediction/predict/。
MUFOLD采用名為Deep3I的網(wǎng)絡(luò)(Deep inception-inside-inception networks, Deep3I)[7]進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)。Deep 3I由兩個(gè)嵌套的可進(jìn)行卷積操作的初始模塊、卷積以及完全聯(lián)通的致密層組成,有效地處理了氨基酸之間的局部和全局相互作用。MUFOLD對(duì)訓(xùn)練集輸入特征有非常細(xì)致的設(shè)計(jì),訓(xùn)練集為由氨基酸理化性質(zhì),PSI-BLAST特征和HHBlits特征組成的維度為58的特征向量。隨機(jī)選取了CullPDB中的9 000條蛋白質(zhì)用作訓(xùn)練集。該團(tuán)隊(duì)同時(shí)也利用初始膠囊網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)(Inception capsule networks)改善蛋白質(zhì)γ-轉(zhuǎn)角預(yù)測(cè)[13]。測(cè)試過程如圖5所示:輸入郵箱和項(xiàng)目名稱后,在下方勾選 “Secondary Structure (3-states and 8-states)”,然后提交蛋白質(zhì)序列,不允許序列字符斷開或換行,且最多允許提交10個(gè)序列,每條序列的長度范圍為30到700。該服務(wù)器網(wǎng)址為:http://mufold.org/mufold-ss-angle/。
圖4 RaptorX批量提交測(cè)試序列Fig.4 Batch submission test sequence in RaptorX
注:首先,用戶在圖中標(biāo)注1處輸入預(yù)留郵箱,在標(biāo)注2處輸入工作名稱,然后在下方標(biāo)注3處根據(jù)圖中示例格式輸入序列,最后點(diǎn)擊標(biāo)注4處的“Submit”完成序列提交.
圖5 MUFOLD提交測(cè)試序列Fig.5 Submission test sequence in MUFOLD
注:首先,用戶在圖中標(biāo)注1處輸入預(yù)留郵箱,在標(biāo)注2處輸入工作名稱,然后在下方標(biāo)注3處選擇“Secondary Structure (3-states and 8-states)”,然后在標(biāo)注4處的文本欄中輸入提交序列,最后點(diǎn)擊下方“Submit”完成序列提交.
Psipred是常用的一種蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)服務(wù)器,該服務(wù)器聚合了多種蛋白質(zhì)注釋工具,提供分析方法作為軟件下載。例如提供了序列和結(jié)構(gòu)注釋方法:Psipred,GenTHREADER,pGENTHREADER等。在網(wǎng)絡(luò)結(jié)構(gòu)方面,Psipred采用了兩層前饋神經(jīng)網(wǎng)絡(luò)的體系,經(jīng)交叉驗(yàn)證對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。網(wǎng)絡(luò)的輸入是來自PSI-BLAST的20維特征矩陣。預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的使用方法為:選擇好所使用二級(jí)結(jié)構(gòu)預(yù)測(cè)服務(wù),然后輸入序列,同樣需要注意序列字符串不要換行,最后在輸入的郵箱中接收結(jié)果。如圖6所示。該服務(wù)網(wǎng)址為:http://bioinf.cs.ucl.ac.uk/psipred/。
圖6 Psipred批量提交測(cè)試序列Fig.6 Batch submission test sequence in Psipred
注:首先,用戶在圖中標(biāo)注1處選擇服務(wù)“PSIPRED V3.3”,在標(biāo)注2處的文本欄中輸入提交序列, 在標(biāo)注3和4處分別輸入預(yù)留郵箱和工作名稱,最后點(diǎn)擊下方“predict”完成序列提交.
Jpred4通過JNet[8]算法提供預(yù)測(cè)。在上個(gè)版本JPred3[14]中使用JNet2.0對(duì)蛋白質(zhì)序列進(jìn)行預(yù)測(cè),JNet2.0不使用頻率文件,以PSSM和隱馬爾科夫特征作為輸入,使用兩層來自SNNS神經(jīng)網(wǎng)絡(luò)包的人工神經(jīng)網(wǎng)絡(luò),將隱藏層單元從9增加到100。Jpred4則基于JNet2.0神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)器進(jìn)行了重新訓(xùn)練,通過使用1 358個(gè)SCOPe/ASTRAL v.2.04超家族域序列中的每個(gè)序列的一個(gè)代表進(jìn)行7倍交叉驗(yàn)證來制作JNet2.3.1,通過搜索UniRef90v.2014_07生成PSI-BLAST構(gòu)建了每個(gè)序列的多重比對(duì)。除了對(duì)JNet2.0重新訓(xùn)練之外,JNet中的HMM構(gòu)建步驟已更新為HMMer3。Jpred4最終在150個(gè)未用于訓(xùn)練的超家族序列的盲測(cè)中評(píng)估其準(zhǔn)確性,Q3準(zhǔn)確率可達(dá)到82%。
該網(wǎng)站提供了批量預(yù)測(cè)的功能,如果只是提交單個(gè)序列則要在“Advanced options”中的“Select type of input”選項(xiàng)中,選中“Single Sequence”的“Raw/Fasta”模式;如果是批量在網(wǎng)頁中輸入蛋白質(zhì)序列,則需要在“Single Sequence”下選中“Batch Mode”模式,然后輸入接收結(jié)果的郵箱以及項(xiàng)目名(其中命名方式只可以是由字母數(shù)字和“_”字符組成)。批量提交過程如圖7所示。最終結(jié)果將會(huì)發(fā)送到郵箱中,也可以在網(wǎng)頁端等待查看。Jpred4提供服務(wù)的網(wǎng)址為:http://www.compbio.dundee.ac.uk/jpred4/index.html。
圖7 Jpred4批量提交測(cè)試序列Fig.7 Batch submission test sequence in Jpred4
注:用戶首先在標(biāo)注 1 處輸入需要提交的序列,如果同圖中一樣提交批量測(cè)試,則在標(biāo)注2處選擇“Single Sequence”下的“Batch Mode”模式;如果是單個(gè)序列提交,則選擇“Raw/Fasta”模式,然后在標(biāo)注3 和4處分別輸入預(yù)留郵箱和工作名稱,最后在標(biāo)注5處點(diǎn)擊“Make Prediction”完成工作提交.
對(duì)上述七種服務(wù)器進(jìn)行了預(yù)測(cè)結(jié)果評(píng)估,為保證實(shí)驗(yàn)數(shù)據(jù)量和公平性,測(cè)試集選取了PDB中2018年8、9、10、11月份發(fā)布的蛋白質(zhì)[3,5,7],從中隨機(jī)選取了60條30%同源性,60條40%同源性和60條70%同源性的蛋白質(zhì)分別進(jìn)行實(shí)驗(yàn),最后又做出了這180條蛋白質(zhì)的整體評(píng)估結(jié)果。實(shí)驗(yàn)數(shù)據(jù)集見表1。
評(píng)估采用了七種衡量標(biāo)準(zhǔn),分別為Q3[2-14],Sov[2-6],邊界識(shí)別率[3],內(nèi)部識(shí)別率[3]和C、E、H每種獨(dú)立結(jié)構(gòu)識(shí)別率[4-5]的衡量標(biāo)準(zhǔn)。
在8態(tài)DSSP[15]中,根據(jù) “G、H、I轉(zhuǎn)為H(螺旋)”,“B、E 轉(zhuǎn)為E(折疊)”,“其他結(jié)構(gòu)轉(zhuǎn)為C(轉(zhuǎn)角)”將8態(tài)轉(zhuǎn)為3態(tài)結(jié)構(gòu)。Q3為正確預(yù)測(cè)的氨基酸數(shù)占所有氨基酸的比例,計(jì)算公式如下:
其中,QC為正確預(yù)測(cè)的轉(zhuǎn)角數(shù),QE為正確預(yù)測(cè)的折疊數(shù),QH為正確預(yù)測(cè)的螺旋數(shù),S為總的氨基酸數(shù)。
Sov是一種基于重疊片段比值的度量方式,設(shè)觀測(cè)到的所有結(jié)構(gòu)片段標(biāo)記為Sab,所有預(yù)測(cè)到的片段則標(biāo)記為Spr,而Sa是Sab和Spr狀態(tài)相同的片段。任何觀測(cè)到的殘基長度被定義為length(Sab),對(duì)于Sa中任意一對(duì)片段,實(shí)際長度為minov(Sab,Spr),至少有一個(gè)殘基的長度總限度為maxov(Sab,Spr)。基于以上定義,Sov的計(jì)算公式如下:
其中增設(shè)因子σ(Sab,Spr),允許蛋白質(zhì)結(jié)構(gòu)中的觀測(cè)片段邊界處的變化,其定義為:
表 1 180條數(shù)據(jù)集Table 1 180 data set
假設(shè)在一條長度為N的蛋白質(zhì)序列中,第n(1 根據(jù)蛋白質(zhì)同源性分類的所有服務(wù)器Q3、Sov、邊界準(zhǔn)確率和內(nèi)部準(zhǔn)確率見表2~表4,180條蛋白質(zhì)的各項(xiàng)預(yù)測(cè)平均值見表5。 從表2可以看出,同源性30%的蛋白質(zhì)數(shù)據(jù)集中,PSRSM在Q3、邊界識(shí)別率和內(nèi)部識(shí)別率上取得了最好的結(jié)果,分別達(dá)到了89.49%,84.25%和90.91%,并且對(duì)轉(zhuǎn)角C和折疊E的識(shí)別率也是最好的,準(zhǔn)確率分別達(dá)到了87.19%和90.27%。而SPOT-1D在Sov和螺旋H的識(shí)別率上結(jié)果要比PSRSM好一些,分別為83.16%和91.36%。 表2 30%同源性數(shù)據(jù)集Table 2 30% homology data set % 表3里40%同源性的數(shù)據(jù)下,PSRSM各項(xiàng)指標(biāo)均為最好的結(jié)果,分別為Q3:90.53%;Sov:84.71%;邊界識(shí)別率:85.24%;內(nèi)部識(shí)別率:91.25%;轉(zhuǎn)角C:87.34%;折疊E:88.46%;螺旋H:92.91%。SPOT-1D緊隨其后,Q3為88.52%,相差2.01%,但Sov的表現(xiàn)依舊很出色,比PSRSM低約0.5%。 在表4中,對(duì)于70%同源性的蛋白質(zhì),PSRSM除了內(nèi)部識(shí)別率,其他指標(biāo)均取得了最好的結(jié)果,分別為:Q3:89.87%;Sov:86.12%;邊界識(shí)別率:83.65%;轉(zhuǎn)角C:89.08%,折疊E:88.34%和螺旋H:89.64%。SPOT-1D的內(nèi)部識(shí)別率為91.46%,其他指標(biāo)同PSRSM的差距和在40%同源性數(shù)據(jù)集的結(jié)果沒有太大差別,約低1%~2%。 表5為全部數(shù)據(jù)集的評(píng)估結(jié)果,PSRSM各項(xiàng)指標(biāo)全部取得了最好的結(jié)果:Q3:89.96%;Sov:84.52%;邊界識(shí)別率:84.37%;內(nèi)部識(shí)別率:91.18%;轉(zhuǎn)角C:87.88%,折疊E:88.98%和螺旋H:91.25%。 表3 40%同源性數(shù)據(jù)集Table 3 40% homology data set % 表 4 70%同源性數(shù)據(jù)集Table 4 70% homology data set % 表 5 180條數(shù)據(jù)集Table 5 180 data set % 為了更加直觀的對(duì)評(píng)估結(jié)果進(jìn)行觀察,將所有網(wǎng)站的Q3結(jié)果根據(jù)蛋白質(zhì)長度做出了散點(diǎn)圖,所選180條數(shù)據(jù)集中,蛋白質(zhì)的長度范圍為34-552,如圖8所示??梢钥闯鯬SRSM(黃色)相對(duì)于其他顏色的位置更偏向于頂部,大部分服務(wù)器的預(yù)測(cè)準(zhǔn)確率在70%~90%,PSRSM結(jié)果是優(yōu)于其他服務(wù)器的。 表6對(duì)各服務(wù)器的預(yù)測(cè)方法、訓(xùn)練集、模型輸入特征,Q3準(zhǔn)確率和使用效率方面做了總結(jié)。本此測(cè)試從PDB中隨機(jī)選取了一條長度為235的蛋白質(zhì):5XNE_A,測(cè)試各服務(wù)器從提交序列到獲得結(jié)果的時(shí)間,結(jié)果為Jpred4最快,用時(shí)51 s;SPOT-1D所需時(shí)間最長,為16 m 42 s。然后又隨機(jī)選取了五條蛋白質(zhì):5WOV_A(長度34)、5YIO_A(長度121)、5YKU_A(長度125)、5YVK_A(長度225)、5Y5B_A(長度228)做進(jìn)一步的測(cè)試,結(jié)果為Jpred4用時(shí)最短,為2 m 25 s,SPOT-1D用時(shí)最長,為27 m 45 s。在WEB使用體驗(yàn)上,PSRSM、Spider3、RaptorX、Jpred4均提供了批量測(cè)試的功能;除了PSRSM,其他方法也提供了支持不同操作系統(tǒng)環(huán)境的軟件下載服務(wù)。 圖8 所有服務(wù)器的Q3散點(diǎn)圖Fig.8 Q3 scatter plot for all servers 表 6 各服務(wù)器方法總結(jié) ServersPSRSMSpider3SPOT-1DRaptorXMUFOLDPsipredJpred4方法原理分段特征提取+SVMsLSTM+BRNNsResNets+LSTM-BRNNsDCNN+CNFCNN前饋神經(jīng)網(wǎng)絡(luò)SNNS神經(jīng)網(wǎng)絡(luò)包訓(xùn)練集數(shù)量(ASTRAL+CullPDB)15 696(PISCES服務(wù)器中選取)4 590(PISCES服務(wù)器中選取)10029(CullPDB)5 600(CullPDB)9 000———(SCOPe/ASTRAL)1 358特征輸入PSSM氨基酸7種理化性質(zhì)+PSSM+隱馬爾可夫模型特征氨基酸7種理化性質(zhì)+SPOT-Contact預(yù)測(cè)接觸圖信息+PSSM+隱馬爾可夫模型特征PSSM+21個(gè)元素的二進(jìn)制向量氨基酸理化性質(zhì)+PSSM+隱馬爾可夫模型特征PSSMPSSM+隱馬爾可夫模型特征Q3/%89.9685.7788.1883.6186.7479.7278.29是否支持批量預(yù)測(cè)是是是是否否是一條蛋白質(zhì)(長度235)運(yùn)算時(shí)間5 m 39 s3 m 40 s16 m 42 s3 m 19 s2 m 30 s1 m 46 s51 s五條蛋白質(zhì)運(yùn)算時(shí)間17 m 7 s12 m 39 s27 m 45 s7 m 5 s9 m 20 s6 m 30 s2 m 25 s 對(duì)PSRSM、Spider3、SPOT-1D、RaptorX、MUFOLD,Psipred和Jpred4七種在線服務(wù)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)效果進(jìn)行了評(píng)估。整體來看,在多種比對(duì)方法下,PSRSM絕大多數(shù)指標(biāo)都取得了最優(yōu)的結(jié)果。從方法選擇角度來看,PSRSM根據(jù)蛋白質(zhì)長度劃分不同子集和基于大數(shù)據(jù)集的訓(xùn)練方式,明顯有較好的成效,而緊隨其后的SPOT-1D多種深度學(xué)習(xí)方法和大數(shù)據(jù)集的訓(xùn)練結(jié)合,Sov的準(zhǔn)確率也是非常穩(wěn)定,效果出色。可以看出,蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)可以從結(jié)合多種深度學(xué)習(xí)方法,運(yùn)用大數(shù)據(jù)進(jìn)行模型訓(xùn)練做進(jìn)一步的研究。
Table 6 Summary of methods for each server4 結(jié) 論