楊慧慧,李柏林,李航,陳昊,劉程國,王玉堂
(1.東北農業(yè)大學 食品學院,哈爾濱150030;2.東北農業(yè)大學 生命科學學院,哈爾濱150030;3.東北農業(yè)大學 分析測試中心,哈爾濱150030)
細菌素是由細菌在代謝過程中通過核糖體合成機制產生的一類具有抗菌活性的多肽或蛋白質類物質,對其他細菌具有抗菌活性[1]。細菌素是一種無抗藥性、無殘留的天然蛋白類抗菌劑,具有成本低、生產快、廣譜殺菌等優(yōu)點,而且能安全有效地抑制病原體生長,是一種極具潛力的食品防腐劑[2]。近年來,科學家挑選少數(shù)的細菌素進行了深入的研究,開辟出細菌素新的研究領域,并拓寬了其應用范圍。隨著遺傳學和納米技術的快速發(fā)展,細菌素極有可能發(fā)展成為下一代新型抗生素[3]、新型載體分子[4]、腫瘤治療的藥物[5]等。因此,如何發(fā)現(xiàn)更多的新型細菌素成為如今研究的熱點。
1925年首次命名細菌素以來,科研人員主要通過多種實驗手段研究細菌素、確定抑菌譜以及評價抑菌能力[6],這種方法耗費大量的時間、精力及費用。細菌素具有多種獨特的序列和結構特征,因此,采用生物信息學技術發(fā)現(xiàn)細菌素并進行進一步研究逐漸成為一個趨勢。通過生物信息技術發(fā)掘細菌素主要分為兩種方法。一種是序列比對,最常見的是蛋白質序列之間和核酸序列之間的兩兩比對。比對工具有FASTA[7]、CLUSTALW[8]、HMMER[9]、BLAST[10]等?;?于這種方法發(fā)現(xiàn)了一系列細菌素的結構特征,可以用來識別細菌素。Yount等[11]在細菌素中發(fā)現(xiàn)了一個保守的“GXC”序列基序,這段基序在蛋白質三級結構中形成特定的結構域。Schutte等[12]利用BLAST等分析工具在能表達細菌素的細菌的染色質區(qū)域發(fā)現(xiàn)了防御素基因。由于細菌素的抗菌作用不取決于單一的蛋白質序列信息、結構信息及相應氨基酸的理化信息,而是這些信息的綜合反映,因此這種方法準確度一直不夠高[13]。另一種方法是基于細菌素氨基酸的理化性質、三維結構與空間特征進行預測,通過建立氨基酸理化性質數(shù)據(jù)庫[14],計算細菌素的數(shù)學描述符,利用數(shù)學模型進行細菌素的識別和預測。這種方法更常見于二肽和三肽數(shù)學模型的構建[15],在肽鏈長度較長且氨基酸數(shù)量相差較多的細菌素的研究中,模型準確度也不高。
缺少建立生物大分子數(shù)學描述符的方法和數(shù)學模型選擇不準確是導致上述研究準確度不高的主要原因。本研究利用數(shù)據(jù)融合技術,對細菌素氨基酸序列的排列信息、物理化學性質、蛋白質同源模型的結構數(shù)據(jù)等進行篩選整合,作為細菌素的數(shù)學描述符;利用機器學習方法建立了一種從細菌分泌的類細菌素蛋白片段中發(fā)掘細菌素并進行類型判別的數(shù)學模型。此方法能夠極大提高細菌素的發(fā)現(xiàn)速度,為細菌素在食品、畜牧業(yè)養(yǎng)殖、醫(yī)療健康等多個領域的應用提供幫助。
細菌素數(shù)據(jù)主要來源于研究細菌素的相關文獻和公開發(fā)表的細菌素數(shù)據(jù)庫,包括AMPs from Bacteria(http://bacteriocins.cpu-bioinfor.org/)[16]和BCAIBASE(http://bactibase.hammamilab.org/main.php)[17]。數(shù)據(jù)庫中細菌素的基本信息包括細菌素的氨基酸序列、英文名稱、細菌素分類、細菌素抑菌譜及相應蛋白質結構文件等信息。從Uniprot(https://www.uniprot.org/)和PDB(http://www.rcsb.org/)數(shù)據(jù)庫及相關文獻中,篩選出來自細菌或真菌、氨基酸序列長度介于5~100之間[18]、經研究不具抗菌抑菌能力的蛋白質,加入非細菌素蛋白質數(shù)據(jù)集。從Uniprot數(shù)據(jù)庫和PDB數(shù)據(jù)庫中,篩選出來自細菌、氨基酸序列長度介于5~100之間、未經抗菌抑菌能力研究的蛋白質,加入細菌分泌的類細菌素蛋白質數(shù)據(jù)集。所有數(shù)據(jù)通過人工交叉復查,確保數(shù)據(jù)的準確性及可信性。
將細菌素氨基酸序列通過MOE(Molecular Operating Environment)(v2015.10)和Swiss-Model[19-20]進行蛋白質同源建模,得到細菌素蛋白質三級結構。一般情況下,模板序列和靶序列相似性大于30%就可以用于同源建模,序列的同源性越高則結構模型的準確性越高[21],本研究以細菌素氨基酸序列與模板序列之間的相似性大于50%為標準進行篩選,將得到細菌素的三級結構與非細菌素蛋白質三級結構相結合。將細菌素的氨基酸序列與所得到的三級結構分別利用MOE軟件和E-Dragon[22]生成2D、3D、pro3種描述符,接著,對描述符進行篩選,保留顯著性高的描述符。然后,將保留的描述符進行主成分分析,保留貢獻率大的主成分作為本文所構建的新型細菌素描述符(以下稱為Pes描述符)。
1.3.1 模型構建
細菌素發(fā)掘模型分別是由Pes、2D、3D、pro 4種描述符構建的RF模型和支持向量機(Support Vector Machine,SVM)模型[23],均由R語言實現(xiàn)。SVM可由R中免費的“e1071”包用于實現(xiàn)該功能。RF可由R中Random Forest包(ver 4.6.14)來實現(xiàn)的。
1.3.2 模型評估
評估分類模型的指標常采用準確度。計算公式分別如下:
式中:真正例(True Positive,TP)、真負例(True Negative,TN)為正確的分類;假正例(False Positive,FP)為非細菌素蛋白質被預測為細菌素的情況;假負例(False Negative,FN)為細菌素被預測為非細菌素蛋白質的情況。
1.4.1 模型構建
細菌素類別判定模型采用KNN和SVM。KNN模型由R語言kernlab包(ver 0.9.29)與kknn包(ver 1.3.1)實現(xiàn)。由于細菌素三級結構數(shù)量不足,為了增加樣本量,選擇細菌素氨基酸序列描述符作為細菌素類別判定模型的變量。數(shù)據(jù)以3:1劃分為訓練集和測試集。
1.4.2 模型驗證
測試集用于模型驗證,并比較兩個模型得出的結果和準確率。其中,KNN模型是基于歐式距離得到最終的結果。其計算公式如下:
式中:n為描述符數(shù)量;xi、yi為細菌素在n維空間內的坐標。
本研究建立的細菌素數(shù)據(jù)集和非細菌素蛋白質數(shù)據(jù)集用于建模,建立細菌分泌的類細菌素蛋白質數(shù)據(jù)集用于發(fā)掘潛在細菌素。細菌素數(shù)據(jù)庫中共有405個細菌素,細菌素三級結構140個,其中與同源建模模板序列相似性大于50%的三級結構有100個。本文所建立的細菌素數(shù)據(jù)庫與其他同類型研究相比[16-17],加入了通過同源建模得到的蛋白質三級結構,通過軟件計算獲得了共1979種描述符。
將細菌素與非細菌素蛋白質的2D、3D、pro描述符進行主成分分析,由圖1計算得到前三個主成分累計貢獻率分別為71.321%、59.671%、70.382%,能夠較為準確地表示每種描述符所包含的信息。圖1為細菌素與非細菌素蛋白質在三維空間內的分布情況,可以看出細菌素分布較為廣泛,細菌素與非細菌素蛋白質在三維空間內的區(qū)分度并不高。但是,細菌素內部存在密集聚集的情況,說明部分細菌素三級結構極為相似。同時也可以看出現(xiàn)有描述符對細菌素的區(qū)分效果并不好,通過進一步篩選并融合已有的描述符能夠更全面地表達其中所包含的信息,較為容易地分離細菌素與非細菌素蛋白質。
圖1 細菌素-非細菌素蛋白質三維分布散點圖
蛋白質三級結構共得到1979種描述符,分為2D、3D、pro3種;細菌素氨基酸序列得到1806種描述符。經過篩選與融合描述符,我們得到氨基酸序列Pes描述符15種,蛋白質三級結構Pes描述符23種,其累積貢獻率分別為94.91%和86.14%。因此本文所構建的描述符可以通過更少的數(shù)據(jù)有效表達細菌素蛋白質結構中所包含的信息。與其他描述符篩選方法相比[24],本文的方法在Frecer[25]、Hilpert[26]等人針對特定類型抗菌肽而建立的描述符基礎上,改進了Cherkasov[27-28]等人建立的多肽可通用的描述符,通過計算絕對電負性、共價半徑、分子間距離、相互作用力等多種物理化學性質和蛋白質相關參數(shù)來全面描述蛋白質結構中所包含的信息,并最終將這些信息整合在所構建的描述符中。這樣不僅保留了更多的蛋白質信息,同時降低數(shù)據(jù)維度,增加可解釋性。
圖2為PCA得分圖。A圖為氨基酸序列Pes描述符的PCA得分圖,前兩個主成分的累計貢獻率為70.70%??梢杂^察到除IID類細菌素外,其余細菌素都有較為規(guī)律的分布區(qū)域。由于IID類細菌素其序列特異性較弱,為提高模型的準確率,將IID類細菌素排除在外,只對其他四類細菌素進行模型判定。B圖為蛋白質三級結構Pes描述符的PCA得分圖,前兩個主成分的累計貢獻率為30.91%。通過篩選融合后得到的Pes描述符保留了細菌素與非細菌素蛋白質中的主要信息,可以較為準確地區(qū)分細菌素與非細菌素蛋白質。
圖3為2種不同算法與4種描述符組合得到的8個模型的準確率,可以觀察到RF模型準確率優(yōu)于SVM模型準確率,通過Pes描述符和RF算法建立的發(fā)掘模型準確率最高,為0.9187,其余所有RF模型準確率都保持在0.8000左右,說明Pes描述符能夠更準確、全面地表征蛋白質三級結構信息。
圖3 模型準確率
此前,VELTRID[29]利用單詞嵌入的方法來描述細菌素,發(fā)現(xiàn)通過DNN(Deep Neural Networks)深度學習算法建立的識別模型顯著優(yōu)于BLAST比對等其他幾種細菌素識別方法。其他同類研究中多采用分析蛋白質一級結構和氨基酸的組成等方法[30],本文通過同源建模,獲得更能代表蛋白質真實形態(tài)的三級結構,并從中獲取其物理化學性質等信息,得到了比以往方法更為準確的模型。說明三級結構內包含了更多肽鏈中無法顯示的信息,也表示本文構建的描述符可以準確地用數(shù)字形式全面描述蛋白質三級結構。但該方法精確測得的蛋白質三級結構數(shù)量較少,而且通大部分機器學習的方法仍是黑箱方法,無法對學習過程做出合理的解釋,這也是今后研究中需要考慮的問題[31]。
氨基酸序列描述符建立的細菌素類別判定模型中,k NN模型準確率為0.9000,SVM模型準確率為0.8269。因此說明kNN模型更適用于細菌素類別判定模型的構建。圖4為測試集結果得到的混淆矩陣,可以觀察到IIB類細菌素在k NN模型中易于被識別為IIA類細菌素,在SVM模型中幾乎全部被識別為Lantibiotic類細菌素,分類效果不理想,有待進一步添加更多信息,增加其與其他類別細菌素的區(qū)分度。
圖4 類別判定模型測試集混淆矩陣
學術界基于蛋白質翻譯修飾類型、二硫鍵結構、序列相似性以及細菌素來源等多種因素,提出了許多種對細菌素的分類標準。我們根據(jù)Kumariya[32]所介紹的細菌素分類標準,選取數(shù)量較多的細菌素種類進行類別判定模型的構建,得到了較高準確率的類別判定模型,說明氨基酸序列描述符較好地涵蓋了上述分類標準所要求的信息,同時也說明氨基酸序列中除排列順序以外包含著更多有待發(fā)掘的信息。細菌素發(fā)掘模型的成功建立,表明今后蛋白質三級結構經補充豐富后,利用蛋白質三級結構中提取的描述符建立起的類別判定模型將會有更高的準確率。由于IID類細菌素分類效果不明顯,III類、IV類細菌素數(shù)量過少等,我們并未對全部細菌素種類進行類別判定模型的構建。在今后明確不同細菌素的作用機理后,通過本文介紹的提取生物大分子描述符的方法進行細菌素的重新分類將更為科學合理。另外,為了解決數(shù)據(jù)不平衡的問題,對其中幾類進行欠采樣后可能會造成數(shù)據(jù)不完整,影響模型的擬合效果[33]。
表1是發(fā)掘出的7種細菌素,根據(jù)細菌素發(fā)掘模型,判定為細菌素準確度>50%的蛋白質極有可能具有細菌素活性。通過細菌素類別判定模型預測了可能的細菌素種類,預測結果中多數(shù)為Class IIB類細菌素。因此,本文所介紹的方法能夠在大量蛋白質中進行高效的細菌素篩選與類別判定,在進一步完善后,將成為科研人員進行細菌素發(fā)現(xiàn)與鑒定的有效輔助工具。
表1 細菌素發(fā)掘表
本研究采用數(shù)據(jù)融合的方法,建立細菌素、非細菌素蛋白質數(shù)據(jù)集,并將數(shù)據(jù)生成數(shù)學描述符?;赗F算法建立的細菌素發(fā)掘模型,準確度最高,為0.9187;k NN算法建立的細菌素類別判定模型,準確度最高,為0.9000。另外,發(fā)現(xiàn)了7種可能具有抗菌作用的蛋白質,將在后續(xù)的研究中進行進一步驗證。本文建立的生物大分子描述符生成方法不僅可以用于細菌素的發(fā)掘,且對研究其他類型蛋白質的生物功能也具有一定的借鑒意義。