張曉慧 谷昊晟 王知人
(燕山大學理學院,秦皇島066004)
隨著后基因組時代的到來以及解析獲得的蛋白質(zhì)三維結構數(shù)據(jù)越來越多,蛋白質(zhì)結構-功能關系研究成為結構生物學研究領域的重要科學問題,受到生命科學研究者的普遍關注。蛋白質(zhì)是生物功能的主要實現(xiàn)者,生物體的一切生命活動幾乎都離不開蛋白質(zhì)的參與,蛋白質(zhì)在基因表達調(diào)控、生物化學反應的催化、物質(zhì)運輸、信號傳導、免疫防御、新陳代謝等生命過程中都發(fā)揮著關鍵性的作用。而蛋白質(zhì)的各種生物學功能取決于其不同的空間結構以及特定的構象運動,蛋白質(zhì)在不同的生理環(huán)境和功能狀態(tài)下會呈現(xiàn)不同的空間構象,蛋白質(zhì)生物學功能的實現(xiàn)有賴于其特定空間構象的轉(zhuǎn)變[1],因此,蛋白質(zhì)結構的動態(tài)性和柔性是蛋白質(zhì)行使其生物功能的關鍵因素,基于蛋白質(zhì)的三維結構預測其柔性運動特征,開發(fā)有效預測蛋白質(zhì)柔性的數(shù)學模型和工具,有助于蛋白質(zhì)生物學功能分子機制的研究,可以為藥物設計和納米分子器型的設計提供重要信息,具有重要的理論意義和應用價值。
關于分析和預測蛋白質(zhì)柔性的問題很早就受到分子生物學家、計算生物學家等的高度關注。近幾年,基于機器學習預測蛋白質(zhì)柔性分析方法取得了良好的效果。2011 年Hwang 等[2]開發(fā)了一種基于支持向量機的機器學習策略預測了蛋白質(zhì)表面loop區(qū)的柔性,使用蛋白質(zhì)單體結構中l(wèi)oop 區(qū)殘基的Ramachandran 角、晶體學B 因子和相對溶劑可及表面積三個特征,來區(qū)分蛋白質(zhì)表面的柔性loop區(qū)和剛性loop 區(qū),由表面loop 區(qū)的運動情況解釋蛋白質(zhì)-蛋白質(zhì)結合時表面的構象變化。2017 年李海鷗[3]在蛋白質(zhì)-配體對接骨架柔性以及全原子柔性的優(yōu)化方面進行了研究,構建了一個基于多種深度學習模型的蛋白質(zhì)二面角預測框架,精確地預測了蛋白質(zhì)二面角,為蛋白質(zhì)對接中骨架柔性的處理提供了一種非常有效的解決思路。同時,也提出了一種蛋白質(zhì)整體結構重構的方法,使用了深度學習模型中的多層堆疊自動編碼器模型,有效地避免了基于模板的傳統(tǒng)蛋白質(zhì)結構預測方法中的采樣算法復雜、打分函數(shù)不準確的問題。2018 年Bramer等[4]結合多種機器學習模型和多尺度加權彩色圖(MWCGs)方法,對蛋白質(zhì)的B 因子進行了預測。該方法利用MWCGs來提取蛋白質(zhì)結構的局部柔性特征,進而與蛋白質(zhì)結構分辨率、重原子個數(shù)、結構解析的R實驗值等蛋白質(zhì)全局特征相結合,通過決策樹、隨機森林和卷積神經(jīng)網(wǎng)絡對大、中、小三組蛋白質(zhì)數(shù)據(jù)集進行了訓練和測試;結果表明,用機器學習方法得到的B 因子預測結果比用GNM 等傳統(tǒng)方法得到的最小二乘擬合結果更準確。2020年Bemister-Buffington 等[5]通過基于圖理論的ProFlex 方法獲得蛋白質(zhì)柔性分析,結合有效的機器學習模型對18個非活性和9個活性狀態(tài)的蛋白質(zhì)偶聯(lián)受體(GPCRs)的跨膜螺旋和loop區(qū)進行了分析,有效識別了由配體觸發(fā)的GPCRs 中配體結合位點的柔性轉(zhuǎn)變。大量研究表明,機器學習方法是蛋白質(zhì)結構和柔性特征分析和預測的有效工具,在蛋白質(zhì)結構-功能關系研究中得到了廣泛應用。
除了傳統(tǒng)的機器學習方法,卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)等深度學習模型在蛋白質(zhì)結構-功能關系中也逐步得到了應用。CNN 模型在二維和三維圖像識別領域取得了巨大成功和廣泛應用,圖像數(shù)據(jù)具有規(guī)則的數(shù)據(jù)結構形式,比如規(guī)則的二維網(wǎng)格或三維體素。而蛋白質(zhì)結構數(shù)據(jù)是一種非規(guī)則的數(shù)據(jù)結構形式,為了構建適用于蛋白質(zhì)體系的CNN 模型,現(xiàn)有的處理方法主要有兩類:一類是人為地劃分空間網(wǎng)格,將蛋白質(zhì)結構數(shù)據(jù)轉(zhuǎn)換為三維體素或圖片集合的形式,進而采用圖像處理領域常用的CNN 模型進行蛋白質(zhì)體系的研究。2017年Jiménez等[6]從計算機視覺的角度將蛋白質(zhì)結構視為三維圖像,將三維空間離散成1? × 1? × 1? 大小的體素網(wǎng)格,根據(jù)蛋白質(zhì)中原子的體積,將所有原子映射到相應的網(wǎng)絡上,同時,考慮了原子的7種特質(zhì)(疏水性、芳香性、氫鍵受體或供體、帶正或負電以及是否金屬離子),將這些特征作為格點不同的特征通道,利用三維卷積模型,來預測蛋白質(zhì)的活性位點。2020 年Wang等[7]開發(fā)了一種名為DOVE 的基于三維卷積操作的深度神經(jīng)網(wǎng)絡方法,以蛋白質(zhì)-蛋白質(zhì)相互作用界面為中心,設置203 ?3或403 ?3大小的盒子,將盒子進行網(wǎng)格劃分,將蛋白質(zhì)中的原子映射到不同的網(wǎng)格內(nèi),并將原子相互作用類型及其能量貢獻作為神經(jīng)網(wǎng)絡的輸入特征,利用三維卷積運算來預測蛋白質(zhì)-蛋白質(zhì)對接模式。另一類被大家廣泛采用的方法是將蛋白質(zhì)抽象為由大量的點和邊所構成的分子圖,圖中的節(jié)點表示體系中的原子,邊表示原子之間的化學鍵,進而通過設計特定的圖卷積運算操作對蛋白質(zhì)體系特征進行提取分析。2017 年Fout 等[8]將蛋白質(zhì)結構抽象為節(jié)點和邊所構成的圖,評估了多個圖卷積算子,通過對節(jié)點局部性質(zhì)的卷積運算,來有效識別蛋白質(zhì)-蛋白質(zhì)相互作用界面,結果表明,這種方法預測的精度優(yōu)于基于支持向量機的方法。2020年Mahmoud等[9]將蛋白質(zhì)和配體抽象為由點和邊所構成的圖,對于蛋白質(zhì)的圖模型,每一個節(jié)點代表一個殘基的Cα原子,節(jié)點的特征用殘基的類型來表示,節(jié)點之間邊的特征用兩個殘基Cα原子之間的距離來表示,對于配體的圖模型,節(jié)點和邊分別表示配體的重原子以及它們之間的共價連接。進而,利用圖神經(jīng)網(wǎng)絡來預測蛋白質(zhì)的Cα原子與配體重原子之間的距離。研究表明,相對于傳統(tǒng)的分子對接方法,該模型對于蛋白質(zhì)-配體結合模式預測的效率和準確性方面都有顯著提高。然而,上述兩類方法均存在一定的局限性和不足。在第一類方法中,需要將蛋白質(zhì)體系內(nèi)的所有原子映射到各自最近的網(wǎng)絡上,這種映射過程會人為導致結構上的誤差。同時,由于不同的蛋白質(zhì)大小不一,對于體積比較小的蛋白質(zhì),存在大量的空網(wǎng)格,增加了很多不必要的計算。在第二類方法中,將蛋白質(zhì)抽象為圖的過程中,會人為丟失部分結構信息,比如原子之間的距離、相對位置等。
Qi等[10]提出了一種基于點云的卷積神經(jīng)網(wǎng)絡模型PointNet,在三維物體識別和分割研究中取得了非常好的效果,本文借鑒PointNet 模型的思想,將蛋白質(zhì)體系視為大量原子所構成的點云,通過對點云的卷積運算來預測蛋白質(zhì)結構的柔性。該方法直接將蛋白質(zhì)體系中所有原子的三維坐標作為輸入,不需要對蛋白質(zhì)的空間結構進行人為預處理,保留了蛋白質(zhì)結構中所有原子的位置信息。在卷積運算中,分別使用對稱池化操作和空間變換網(wǎng)絡[11]來處理點云的排列不變性和空間旋轉(zhuǎn)不變性。與Qi 等的模型不同的是,不同的蛋白質(zhì)結構所含有的原子數(shù)量不均一、數(shù)據(jù)尺寸不規(guī)則,為了實現(xiàn)網(wǎng)絡的小批量訓練方法,提出了一種新的批量化策略,使用大小不等的蛋白質(zhì)小批量輸入對網(wǎng)絡進行迭代訓練,并采用Pearson 相關系數(shù)作為模型訓練的評價指標。同時,在網(wǎng)絡的池化層和空間變換網(wǎng)絡部分,采用了最大池化、平均池化串聯(lián)的方法,有效避免一些極端情況發(fā)生,提升了網(wǎng)絡的穩(wěn)定性[12]。相對于大的蛋白質(zhì)體系,小蛋白質(zhì)的柔性更大,預測也更為困難,為此,本文選用小于60 個氨基酸的小蛋白質(zhì)體系作為研究對象,在蛋白質(zhì)數(shù)據(jù)庫(protein data bank,PDB)中收集了243個非冗余蛋白質(zhì)結構作為數(shù)據(jù)集,訓練并測試了所搭建網(wǎng)絡對蛋白質(zhì)溫度因子(B因子)[13]的預測效果,并與蛋白質(zhì)柔性分析中廣泛采用的高斯網(wǎng)絡模型[14](Gaussian network model,GNM)的預測效果進行了比較。
本文使用的蛋白質(zhì)結構數(shù)據(jù)來自于PDB 數(shù)據(jù)庫(http://www.rcsb.org/),利用網(wǎng)站所提供的高級檢索工具,按照如下標準搜集蛋白質(zhì)結構文件數(shù)據(jù),建立非冗余的小蛋白結構數(shù)據(jù)集:
a.蛋白質(zhì)的殘基數(shù)目范圍在0~60;
b.蛋白質(zhì)的結構通過X-射線晶體結構解析方法獲得,并且分辨率在0.0~1.5 ?之間;
c.蛋白質(zhì)結構中僅包含一條鏈;
d.所有蛋白質(zhì)的序列同源性小于30%。
從滿足上述標準的蛋白質(zhì)結構數(shù)據(jù)中排除溫度因子值全部相同和溫度因子為0的蛋白質(zhì),最終剩余243個PDB文件。在這243個蛋白質(zhì)體系中任意選取210個作為訓練集,其余33個作為測試集。訓練集的210個蛋白質(zhì)PDB代碼列在了附件表S1中,測試集的33個蛋白質(zhì)PDB代碼見表3。
本文借鑒了PointNet對三維點云進行局部結構識別和分割的思想,搭建了蛋白質(zhì)柔性預測的卷積神經(jīng)網(wǎng)絡模型,對蛋白質(zhì)的B 因子進行回歸預測,具體網(wǎng)絡結構如圖1所示。
Fig.1 Network structure
1.2.1 網(wǎng)絡算法的具體步驟
a.提取蛋白質(zhì)氨基酸Cα原子的三維坐標作為輸入,矩陣大小為N× 3,N代表蛋白質(zhì)中氨基酸的數(shù)目,利用改進的空間變換網(wǎng)絡T-net,預測出3× 3 的轉(zhuǎn)換矩陣,將輸入數(shù)據(jù)與轉(zhuǎn)換矩陣相乘,獲得蛋白質(zhì)整體旋轉(zhuǎn)后的坐標。
b.根據(jù)疏水性[15]和帶電荷[16]情況將氨基酸分為4類,分別是非極性、極性不帶電、極性帶正電以及極性帶負電。與氨基酸的20個種類相串聯(lián),形成一個24 維的特征向量,對提取的特征使用one-hot 編碼將其映射到歐式空間,使模型能夠更好地識別特征。將第一步變換后的坐標數(shù)據(jù)與24維特征進行串聯(lián),得到大小為N× 27的數(shù)據(jù)。
c.對第2步得到的數(shù)據(jù)通過三層卷積操作使其映射到高維空間,圖中卷積層用Conv 來表示。第一層卷積(Conv1)的卷積核大小為1× 27,其余卷積核大小為1× 1,步長均為1,三層卷積核數(shù)目分別為64、128、128。
d.對第3步得到的數(shù)據(jù)再次通過T-net網(wǎng)絡進行旋轉(zhuǎn)。
e.將第4步旋轉(zhuǎn)后的數(shù)據(jù)通過兩層卷積操作映射到更高維的空間,卷積核均為1× 1,步長為1,卷積核數(shù)目分別為256、512,最后得到512維的高維特征。
f.對第5 步得到的高維特征進行對稱池化操作,將15個蛋白質(zhì)分開進行最大池化得到512維的全局特征向量。
g.在網(wǎng)絡中添加跳躍連接[17]來建立層與層之間的關系,收集不同層中的局部特征,將第6步得到的全局特征復制N次,得到一個N× 512 的矩陣,將其與第3步和第5步得到的局部特征相串聯(lián),最終得到一個N× 1600的特征矩陣。
h.利 用 一 個 多 層 感 知 機[18]mlp(256,256,128)進行特征降維,其中三層卷積的卷積核大小均為1× 1,步長均為1,并運用dropout(本文設為0.8)來防止網(wǎng)絡過擬合,最終得到網(wǎng)絡預測的B因子值。
1.2.2 批量化策略
深度學習網(wǎng)絡的優(yōu)化常常采用小批量化策略,需要小批量的大小batch_size 參數(shù)所控制,代表每一次迭代所需的樣本數(shù),合適的batch_size 大小能夠提高網(wǎng)絡計算效率,減少訓練一次全樣本集所需的迭代次數(shù),并且訓練速度也可大大提高,同時batch_size 可以確定梯度的下降方向,使模型的收斂更加穩(wěn)定。
本網(wǎng)絡使用的數(shù)據(jù)集是蛋白質(zhì)結構,而蛋白質(zhì)分子大小不一,會導致不同批次的小批量數(shù)據(jù)大小不規(guī)則,為了解決這一問題,本文提出了一種新的批量化策略,實現(xiàn)了輸入蛋白質(zhì)大小不等情形下的小批量迭代訓練。本文設置的batch_size 大小為15,即同一批次放入15 個蛋白質(zhì)數(shù)據(jù)。在網(wǎng)絡的卷積運算過程中,當運行轉(zhuǎn)換矩陣操作、使用對稱池化操作來提取全局特征以及計算損失函數(shù)的時候是需要對同一批次的不同蛋白質(zhì)體系進行區(qū)分?;谠摼W(wǎng)絡結構,為了能夠使15 個訓練樣本中的所有殘基點一起進行訓練,本研究將15 個樣本進行串連,得到一個M× 3 的矩陣,M=N1+N2+N3+ …+N15,其中N1,N2…N15分別為15個樣本中每個樣本的殘基個數(shù),M為15 個樣本殘基個數(shù)的總和,將這個矩陣作為一次迭代的輸入,用于網(wǎng)絡第3 步與第5 步的卷積操作中,以提取每個殘基的局部特征。
在應用變換矩陣、進行對稱池化操作以及計算損失函數(shù)的時候,需將15 個蛋白質(zhì)分開訓練,因此本文使用tensorflow 框架下的數(shù)組拆分函數(shù)——tf.dynamic_partition 函數(shù),將15 個樣本進行分離。首先對M× 3 矩陣中的每一個殘基都生成一個標簽,這個標簽代表這個殘基所屬哪一個蛋白質(zhì)樣本,最終得到一個M維的向量,形式如下:
接著使用數(shù)組拆分函數(shù),操作效果如圖2所示。
圖中第一行表示每個元素的標簽,第二行表示不同樣本的點,第一行相同的數(shù)字表示它們屬于同一個樣本(圖2),tf.dynamic_partition 函數(shù)可以通過標簽將每一個樣本都提取出來,即把15 個蛋白質(zhì)分開,方便應用變換矩陣、進行對稱池化操作以及計算損失函數(shù),最終整體實現(xiàn)小批量化。
Fig.2 TF.Dynamic_Partition function renderings
1.2.3 模型的改進
為保持點云的置換不變形,在本文所建立的基于PointNet 的CNN 模型中,采用了最大池化操作來提取蛋白質(zhì)體系的整體特征,最大池化操作與殘基的排列次序無關,具有點云的置換不變性。除了最大池化外,平均池化也具有點云的置換不變性,為此,為了進一步提高網(wǎng)絡的預測性能,在改進的模型中,同時考慮最大池化和平均池化,通過添加平均池化與最大池化串聯(lián)的操作方法,將最大池化和平均池化提取的兩種全局特征進行串聯(lián),得到包含更多蛋白質(zhì)數(shù)據(jù)信息的全局特征向量,既保證了對蛋白質(zhì)數(shù)據(jù)或特征排列的不變性,又增加了全局特征的信息量,使得模型更加穩(wěn)定,具體結構如圖3所示。
Fig.3 Improved symmetric pooling operation
1.2.4 評價指標
本文使用Pearson 相關系數(shù)作為評價指標,其計算表達式如下:
其中N代表蛋白質(zhì)中氨基酸的個數(shù),xi表示由本文網(wǎng)絡預測出的B 因子值,i= 1,2,…。yi,i=1,2,…,i表示蛋白質(zhì)PDB文件中的實驗B 因子值,分別代表xi、yi的算術平均值。
1.2.5 損失函數(shù)
損失函數(shù)是深度學習中一個至關重要的結構,網(wǎng)絡優(yōu)化的過程,就是最小化損失函數(shù)的過程。Pearson相關系數(shù)的輸出范圍為[-1,+1],相關系數(shù)越大,則相關性越強,0 代表無相關性。因此,將1-ρ作為損失函數(shù),ρ為Pearson 相關系數(shù)表達式,損失函數(shù)表達式為:
其中,N為向量中元素個數(shù),xi與yi分別表示理論和實驗B因子值,i= 1,2,…,分別代表xi、yi的算術平均值。
在深度學習中,調(diào)整超參數(shù)是優(yōu)化網(wǎng)絡的常用方法,通過觀察本文網(wǎng)絡的評價指標即Pearson 相關系數(shù),可以判斷當前網(wǎng)絡處于什么樣的狀態(tài),及時調(diào)整超參數(shù)可以科學有效的訓練模型,節(jié)約大部分時間。針對蛋白質(zhì)數(shù)據(jù)大小不等的特殊性,本文設計了新的小批量(mini-batch)優(yōu)化策略,設置每一批的batch-size 為15,網(wǎng)絡的優(yōu)化過程采用動量(momentum)優(yōu)化算法,訓練輪數(shù)(epoch)為20,為防止過擬合,在最后利用多層感知機進行降維時設置丟棄率(dropout)為0.8。本文對學習率(learning rate)和動量兩個超參數(shù)進行了調(diào)整優(yōu)化,使得網(wǎng)絡預測值與實驗值的Pearson 相關系數(shù)達到最優(yōu),表1和表2顯示了預測精度隨超參數(shù)的變化情況。
Table 1 Optimization of the super-parameter learning rate
表1固定動量不變,調(diào)整學習率的大小,學習率是指在優(yōu)化算法中更新網(wǎng)絡權重的幅度大小,學習率過大可能會使模型不收斂,出現(xiàn)nan 的情況(nan 表示一些特殊數(shù)值,用于處理計算中出現(xiàn)的錯誤情況);學習率過小則導致模型收斂速度偏慢,訓練時間較長。通常學習率有4個常用值,即0.000 1、0.001、0.01、0.1[19],本文在這4 個常用值附近進行調(diào)整優(yōu)化獲得最優(yōu)的學習率參數(shù)值。由表1 可以看出當以0.000 1 作為初始值,優(yōu)化到取0.000 3 時,Pearson 相關系數(shù)不再變化,則開始下一個取值點0.001 作為初始值進行優(yōu)化。按照此規(guī)律調(diào)整至0.03 和0.1 時,相關系數(shù)出現(xiàn)了nan 的情況,這表明學習率太大導致模型不收斂。
表1 數(shù)據(jù)顯示當學習率為0.002 時,相關系數(shù)達到最大,因此本文固定學習率為0.002 再進行動量的調(diào)整,結果如表2 所示。通常會嘗試在0.9 到0.99 范圍內(nèi)設定動量值[19],并從中選擇一個表現(xiàn)最佳值。由表2 可以看出當學習率取0.002、動量取0.97時,Pearson相關系數(shù)值達到最高。
Table 2 Optimization of the super-parameter momentum
GNM[20]是分析蛋白質(zhì)結構固有柔性的有效方法,在蛋白質(zhì)動力學性質(zhì)分析以及蛋白質(zhì)結構-功能關系研究中得到了廣泛應用。在GNM 方法中,蛋白質(zhì)的三維結構被簡化為一個由大量節(jié)點和彈簧所構成的彈性網(wǎng)絡,用蛋白質(zhì)中氨基酸的Cα原子來代替每個氨基酸并以此為網(wǎng)絡節(jié)點,當兩個Cα原子之間距離小于截斷半徑時(本文取7.3 ?),節(jié)點之間用彈簧連接,模型中所有彈簧的彈性系數(shù)均相同。通過簡正模式分析可以獲得蛋白質(zhì)體系的固有運動模式。大量的研究表明,目前GNM方法已經(jīng)成為蛋白質(zhì)B因子計算的主要理論方法之一,且預測結果較好,因此將本文方法的預測結果與GNM 計算方法的結果進行對比,驗證該網(wǎng)絡模型的有效性。在243 個數(shù)據(jù)集中隨機選取210 個文件作為訓練集,剩余33 個最為測試集。利用訓練集對本文所搭建的網(wǎng)絡模型以及改進的網(wǎng)絡模型進行了訓練,并利用訓練好的模型對測試集中33 個蛋白質(zhì)的B因子進行預測。大量的研究表明,蛋白質(zhì)的柔性運動主要由其天然拓撲結構所決定[21]。同時,為了將本文模型的預測結果與GNM方法的計算結果進行比較,類似于GNM的做法,在本文模型中,對蛋白質(zhì)體系進行了粗粒化處理,每一個氨基酸僅保留其Cα原子,其他原子均忽略。本文所構建的網(wǎng)絡模型以及改進的網(wǎng)絡模型的預測結果見表3和表4。作為對比,利用GNM方法對測試集中的33 個蛋白質(zhì)體系的B 因子進行了計算。利用GNM方法進行計算時發(fā)現(xiàn)1ob4的第二個本征值為0,故排除。最終使用測試集中其余的32個蛋白質(zhì)體系對三種模型的預測精度進行了對比(表3、4)。
Table 3 Pearson correlation coefficient of the B-factors for each protein in the test dataset predicted by our models compared with those predicted by GNM
表3 為32 個測試集中每個蛋白質(zhì)B 因子的Pearson 相關系數(shù),可以看出部分蛋白質(zhì)基于PointNet模型和改進模型的預測結果要優(yōu)于GNM,部分蛋白質(zhì)比GNM差。經(jīng)過對比測試集中各個蛋白質(zhì)的結構發(fā)現(xiàn),對于結構較為松散或N端和C端loop區(qū)較長的蛋白質(zhì)來說,本文模型預測結果優(yōu)于GNM,對于結構較為緊湊的部分蛋白質(zhì),本文模型略差于GNM。據(jù)統(tǒng)計,基于PointNet 模型和改進模型B因子預測結果高于GNM模型的蛋白質(zhì)數(shù)量占比均為62.5%,改進模型預測結果高于基于PointNet 模型的蛋白質(zhì)數(shù)量占比為53%。考慮到GNM 模型需要基于簡正模分析理論,進行較復雜的物理計算,理論復雜,計算量大。而本文方法利用卷積神經(jīng)網(wǎng)絡直接提取蛋白質(zhì)結構所固有的柔性特征,不需要復雜的理論分析,訓練完成的網(wǎng)絡模型可以方便的用于其他蛋白質(zhì)體系的預測,計算簡單快速,適用性好,并且預測效果略好于GNM方法。
Table 4 Mean Pearson correlation coefficient between the predicted and experimental B-factors for our proposed models compared with the results of GNM
表4 為32 個測試集中B 因子預測的平均Pearson相關系數(shù),由表4可以看出相較于GNM網(wǎng)絡,基于PointNet 模型的平均Pearson 相關系數(shù)提高了6.7%,改進后的模型平均Pearson相關系數(shù)提高了8.3%。由此可見,本文網(wǎng)絡在預測蛋白質(zhì)柔性方面效果較好。
為進一步說明本文網(wǎng)絡的準確性,利用本文所提出的基于PointNet的卷積神經(jīng)網(wǎng)絡模型以及改進的模型對大蠟螟絲蛋白酶抑制2(PDB 代碼4hgu)的B 因子進行預測,并與GNM 方法的計算結果進行比較。大蠟螟絲蛋白酶抑制2的三維結構見圖4。該蛋白質(zhì)整體是較為致密的球形結構,它由一個三股β片、一個α螺旋以及N端較長的loop結構所構成。本文所提出的基于PointNet的卷積神經(jīng)網(wǎng)絡模型以及改進的模型預測得到的B因子與實驗B因子的Pearson 相關系數(shù)分別為0.80、0.85,而GNM 方法計算得到的B 因子與實驗B 因子的Pearson 相關系數(shù)為0.69(圖5)。
Fig.4 The tertiary structure of Galleria mellonella silk protease inhibitor 2
Fig.5 The B-factors of Galleria mellonella silk protease inhibitor 2 predicted by our PointNet-based model,the improved model and the GNM,respectively,compared with the experimental data
圖5a為GNM模型預測得到的B因子與實驗值的擬合曲線,可看出GNM模型對于大蠟螟絲蛋白酶抑制2 的N 端和C 端區(qū)域的柔性預測效果較差;圖5b 為基于PointNet 的CNN 模型預測結果,圖5c為改進模型的預測結果,可以看出基于PointNet的CNN 模型和改進模型的預測結果相差不大,二者略好于GNM網(wǎng)絡模型。
GNM 模型對于結構緊密的蛋白質(zhì)體系柔性預測效果較好,而對于結構松散的蛋白質(zhì)體系,預測效果較差[22]。本文所構建的CNN模型對于結構緊密和松散的蛋白質(zhì)體系均有較好的預測效果,尤其對于結構松散的蛋白質(zhì)體系,本文模型的預測效果優(yōu)于GNM模型。為了進一步驗證這一點,本文利用所構建的模型對結構松散的天然無序蛋白質(zhì)的B因子進行預測,并與GNM模型進行對比。從PDB數(shù)據(jù)庫下載DisBind 網(wǎng)站[23]中無序蛋白質(zhì)的PDB文件,去掉冗余蛋白以及在整個蛋白質(zhì)中無序區(qū)域占比小于1%的蛋白質(zhì)后,最終得到74個無序蛋白質(zhì),提取74 個蛋白質(zhì)的無序區(qū)域作為數(shù)據(jù)集,按照本文方法隨機選取60 個蛋白質(zhì)作為訓練集,14個作為測試集。訓練集的60 個蛋白質(zhì)列在了附件表S2 中,測試集的14 個蛋白質(zhì)PDB 代碼分別為
1jsu、1jwl、1l3l、1uad、2c1t、2f6a、3cxd、3hqr、3kz8、3m91、3pow、4jeh、4nm0、5hf7。利 用GNM模型對測試集的14個蛋白質(zhì)進行B因子計算時,發(fā)現(xiàn)8 個蛋白質(zhì)體系由于結構過于松散,GNM 計算得到的零本征值多于1 個,無法計算獲得B因子結果。對于剩余的6個蛋白質(zhì)體系,GNM模型和本文模型的預測結果列在了表5中。這里設置學習率為0.000 1、動量為0.97。
Table 5 Pearson correlation coefficient of the B-factors for each protein in the test dataset of disordered proteins predicted by our models compared with those predicted by GNM
表5為6個天然無序蛋白質(zhì)B因子的Pearson相關系數(shù)以及平均Pearson 相關系數(shù),可以看出相較于GNM模型,基于PointNet模型的平均Pearson相關系數(shù)提高了87.9%,改進后的模型平均Pearson相關系數(shù)提高了93.9%,由此可見,本文方法對結構較為松散的無序蛋白質(zhì)預測效果明顯優(yōu)于GNM。
本文提出了一種基于PointNet網(wǎng)絡的蛋白質(zhì)柔性預測模型,此模型不需要對不規(guī)則的點云數(shù)據(jù)做任何處理,每個點僅由其三維坐標(x,y,z)表示,并作為輸入數(shù)據(jù)直接傳入網(wǎng)絡,經(jīng)過模型處理后即可輸出蛋白質(zhì)的B因子值,并計算出預測結果與實驗結果的Pearson 相關系數(shù)。針對點云的排列不變性和空間旋轉(zhuǎn)不變性,網(wǎng)絡采用了對稱池化操作和空間轉(zhuǎn)換網(wǎng)絡進行了有效處理,進而,改進的模型又在對稱池化操作部分做了優(yōu)化,有效控制了一些極端情況,使得預測結果更加準確。本文網(wǎng)絡的基本架構非常簡單,在保證一定準確率的基礎上,減少了參數(shù)和計算量,有著較高的效率,提升了模型的穩(wěn)定性。研究結果表明,在只考慮Cα原子的情況下,本文基于PointNet網(wǎng)絡的模型和改進的模型得到的Pearson相關系數(shù)略好于廣泛應用的GNM模型。尤其對于結構比較松散的天然無序蛋白質(zhì)體系,本文方法預測結果明顯優(yōu)于GNM模型。
附件PⅠBB20200383_表S1-S2.pdf 見本文網(wǎng)絡版(http://www.pibb.ac.cn或http://www.cnki.net)。