章社生,何 康,范 寧,晏 臻,王 星
(武漢理工大學理學院統計學系, 湖北 武漢 430070)
蛋白質是構成生命的物質基礎,它是與各種形式的生命活動緊密聯系在一起的物質.在催化生命體內各種反應進行、調節(jié)代謝、抵御外來物質入侵及控制遺傳信息等方面都起著至關重要的作用,是生命科學中極為重要的研究對象.蛋白質是由一條或多條多肽鏈組成的生物大分子,每一條多肽鏈有數十到數百個氨基酸殘基不等;各種氨基酸殘基按一定的空間順序排列.不同的蛋白質空間結構有不同的生命功能.揭示蛋白質的生命活動規(guī)律,研究蛋白質的折疊,設計具有特定功能的蛋白質,都需要了解蛋白質空間結構.文獻[1]介紹了X射線晶體學、二維核磁共振(2D-NMR)和低溫冷凍電鏡等蛋白質空間結構的實驗測定方法.應用這些方法,實驗室已測定大量蛋白質空間結構,并以PDB文件形式貯存在公共數據庫中,免費供世界各地研究者使用.文獻[2]應用統計分析方法,利用數據挖掘中的數據分布擬合理論對生物科學領域中的蛋白質側鏈空間結構進行統計分析.以世界上廣泛使用的生物分子三維結構數據庫PDB為基礎,利用多氨酸殘基側鏈碳原子間距離的統計分析方法,通過正交試驗設計和信息論中的熵函數等相關知識,給出了不同位置、不同氨基酸殘基種類對側鏈結構的影響. 文獻[3-4]用統計和幾何方法給出了氨基酸在蛋白質空間結構中的深度計算,并利用PDB數據庫得到了不同氨基酸在蛋白質中的深度傾向性因子,并得到了這些傾向性因子與氨基酸的物理、化學綜合特性的相關性質.根據蛋白質空間結構和蛋白質生物性質,國內外學者建立了多種蛋白質折疊模型和蛋白質設計模型[5-9];這些模型一般應用能量函數進行計算,利用蛋白質空間結構的數值特征是構造能量函數的一種途徑.
本文根據PDB數據文件計算蛋白質空間結構的數值特征,構造數值特征的能量函數.PDB收集的蛋白質數據來源于X光晶體衍射和核磁共振的數據,經過整理和確認后存檔而成.蛋白質種類眾多,分類方式各異.按分子形狀分類,可分為球狀蛋白質和纖維狀蛋白質.鑒于大多數蛋白質屬于球狀蛋白質,如血紅蛋白、肌紅蛋白、酶、抗體等[10-11],本文主要選取了球蛋白作為研究對象,并將其分為五大類,即血紅蛋白、肌蛋白、激素、抗體、生物膜的成分,分別抽樣進行計算與分析.文中敘述數字特征的計算原理及血紅蛋白等五類蛋白質的數字特征,討論氨基酸的數字特征,給出了數值特征能量函數的構造原理.
本文只討論每一個蛋白質PDB文件中關于原子(ATOM)部分的數據.
從數據庫中查詢選取出屬于肌蛋白、血蛋白、激素、抗體、生物膜共五類的部分蛋白質,并按類別存放(每類選取60~100個蛋白質),然后按下面步驟計算數字特征.
a.對于第i個蛋白質分子,提取出PDB文件中所有ATOM的立體坐標數據,其中(xij,yij,zij)為第j個原子的立體坐標.
c.計算該蛋白質分子第j個原子到中心點距離rij的期望與標準差.該蛋白質分子內原子到形心距離的數學期望與標準差分別為:
d.計算該類蛋白質分子的數學期望與標準差的均值:
其中m表示所考察的該類蛋白質的蛋白質分子個數.
e.統計每類蛋白質各分子的數學期望和方差(標準差),分析每類蛋白質數字特征的概率分布情況.
1.2.1 血紅蛋白 血紅蛋白原子到形心距離的數學期望約為22.69,平均標準差約為7.30.對屬于血紅蛋白,所考察的蛋白質分子的距離數學期望在9.785到48.115之間,標準差在2.748到16.324之間,約40%的蛋白質分子數學期望在10到20范圍之間,43%的分子落在20到30 區(qū)域內.然而80%標準差在3到10內,且大多集中在5左右.因此推測,屬于血紅蛋白的蛋白質分子,其原子到分子形心距離的數學期望集中分布在15~30之間,分子的結構較為密集、聚中.
1.2.2 肌蛋白 肌蛋白原子到形心距離的數學期望約為22.85,平均標準差為8.25.所考察的屬于該類蛋白的蛋白質分子的距離數學期望在10.989到104.242之間,標準差在3.918至58.768之間,兩者的極差均較大.觀察距離數學期望和標準差的,大約80%的肌蛋白分子的原子到中心距離在10到30之間,標準差在4到10之間.總體上看,分布仍然比較集中,波動不大,但有幾種肌蛋白分子偏離均值較遠,分子內部原子到形心的平均距離可達到100左右.
1.2.3 抗體 抗體原子到形心距離的數學期望約為25.98,平均標準差為8.89.所考察的抗體蛋白質分子的距離數學期望分布于3.036到51.928,標準差在1.500到19.842,約80%的抗體的距離數學期望在20到40之間,整體上沒有很大的波動.
1.2.4 激素 激素原子到形心距離的數學期望約為18.13,平均標準差6.57,對屬于該類的蛋白質分子來說,距離數學期望仍集中在10到30,標準差較均勻地分布在2到10之間.激素分子相對其他幾類蛋白質較小,原子的分布也相對集中.
1.2.5 生物膜的成分 生物膜原子到形心距離的數學期望約為20.45,平均標準差為6.57,該類分子的原子到形心距離的數學期望在10到20附近較多,也有分子在60附近,分布體現的規(guī)律性不強,這可能是由于樣本數量不足所導致,也可能是生物界中自身的差異多所致.通過上述不同類蛋白質的數據分析,如表1所示,激素蛋白的整體數學期望最小,且方差也是較??;其后依次是生物膜成分、血紅蛋白、 肌蛋白、抗體.在這五類蛋白質中,原子到其形心的平均距離較大者,這種距離的平均偏差一般也較大.
表1 五類蛋白質的數字特征對比表
進一步研究蛋白質分子的數字特征,考慮蛋白質的組成成分氨基酸.基于氨基酸的種類眾多,只考慮20種天然的氨基酸.PDB文件中氨基酸以殘基序列進行記錄,為此筆者研究各類蛋白質中屬于同一種殘基的原子的數字特征,進而進行定性與定量分析.
計算各類蛋白質分子中原子到相應分子中心的距離rij,將所有考察的原子的距離依據各原子的殘基名分類,統計各類(殘基)中原子到形心距離的數學期望(平均值)與標準差.
對于血紅蛋白,不同殘基下的數學期望差異較小,大致都在28左右波動;并且離散程度也無明顯的差異.因此筆者認為殘基的不同對原子到形心距離的影響相對弱.另外,在組成血紅蛋白的原子中,殘基MET出現次數最少,而LEU、LYS較多.對于肌蛋白,數學期望差異仍是不顯著,大體在35到40之間;相對的標準差差異較小,這跟血紅蛋白的情況類似.在蛋白質的組成中,殘基GLU、LEU、LYS出現較多,TRP、CYS較少.類似地,對激素、抗體、生物膜成分三類蛋白,同類蛋白數學期望和標準差的分布都較為集中,沒有大的波動.可以推斷,對于同種蛋白質,殘基對其原子到相應蛋白質分子中心距離的影響不大.對于激素,殘基LEU貢獻顯著,CYS、TRP出現頻率較??;抗體中具有殘基SER、LEU的原子較多,具有殘基MET、CYS的較少;對于生物膜的成分,LEU、ARG最多,CYS最小.
此外,筆者研究對于同一種殘基,不同類的蛋白中數字特征及原子個數的差異問題.殘基ALA和CYS對應的數字特征如表2所示,由表可知,對于殘基ALA,在血蛋白、肌蛋白、抗體和生物膜成分中出現的頻率高于激素.對于殘基CYS,肌蛋白出現的頻率遠高于激素.另外,在不同類型的蛋白質中,其氨基酸的數字特征各不相同.
表2 五類蛋白不同殘基的對比表
一般的,各類蛋白中殘基LEU出現最為頻繁,CYS較小.對于同種蛋白質,殘基對其原子到相應蛋白質分子中心距離的影響不大.另外,筆者研究各殘基中原子到形心距離的分布情況,發(fā)現頻數隨著距離的增大而遞減.基于以上的數據分析,從側面證實了不同類型的蛋白質的特征差異性與一致性.同時也說明了不同的蛋白質的組成不同,對應的數字特征也不同.這也許可以從另一個角度提供組合蛋白質的思路.
設Eij為第i種蛋白質的第j種殘基(i=1~5, 1~20)的期望,Pij為第i種蛋白質的第j種殘基期望的發(fā)生概率,定義為:
式中Pi為第i種蛋白質發(fā)生的概率,pij為第i種蛋白質第j種殘基在第i種蛋白質發(fā)生的條件下的條件概率.Ei.為第i種蛋白質的期望, 它為Eij對所有的j求和. 定義期望能量函數如下:
這里P0為Pij的概率平均值.上式建立了能量函數與蛋白質種類和殘基種類之間的關系,它可以用于蛋白質設計.根據上面五類蛋白不同殘基的對比表給出的殘基ALA和CYS的預期,筆者容易求出概率pij, 其結果列于表3. 由表可知, 肌蛋白中殘基CYS的期望概率最大,激素中殘基CYS的期望概率最小.相對殘基ALA的期望概率,CYS的期望概率比較分散.文獻[7]認為比較分散概率有助于蛋白質設計.
表3 五類蛋白不同殘基的期望概率
本文對蛋白質分子的結構特性進行了量化處理,利用統計分析,數據挖掘知識,從蛋白質的數字特征入手,討論五類蛋白質的特點,進而根據20種殘基分組深入研究,從不同角度分析得出了一系列的結論,為蛋白質的結構數學化提供了思路,也為組合氨基酸生成蛋白質提供了數據支持.
在數學上,數字特征的計算原理是非常成熟的.但在生物中,有許多生物數字特征計算工作沒有完成.蛋白質是研究得較多的生物對象,但筆者查閱了國內外文獻資料,沒有發(fā)現完整研究蛋白質數字特征計算的文章.至今為止,人們已測量的蛋白質數據是海量的,通過數字特征計算是揭示蛋白質空間結構生物性質的途徑之一.用數字特征構造能量函數是生物數據二次挖掘,該能量函數能用于蛋白質設計.另外,本文工作還有極大的拓展空間,例如,有更多種類蛋白質的數字特征需要計算,DNA、RNA等生物基團的數字特征也需要計算和分析.
參考文獻:
[1]江凡.蛋白質空間結構的實驗技術和理論方法[J].物理,2007,36(4):272-279.
[2]王昕,毛炳蔚,王福偉,等.蛋白質空間結構的統計分析[J].山西大同大學學報:自然科學版,2008,24(5):3-8.
[3]沈世鎰,胡剛,張華.氨基酸在蛋白質空間結構中的深度傾向性因子[J].生物數學學報,2007(7):305-310.
[4]沈世鎰,胡剛,張華.蛋白質空間形態(tài)特征分析與計算方法[J].工程數學學報,2006,22(2):225-234.
[5]胡敏,彭群生.一種基于空間密度特征的蛋白質結構相似性判定方法[J].工程圖學學報,2005,26(1):90-95.
[6]王仲君,王能超,毛黎明.基于自回避搜索遺傳算法的蛋白質折疊研究[J].武漢理工大學學報,2005,27(8):91-95.
[7]Faraggi E,Yang Y, Zhang S,et al. Predicting continuous local structure and the effect of its substitution for secondary structure in fragment-free protein structure prediction[J].Structure,2009,17:1515-1527.
[8]Liang S, Wang G, Zhou Y. Refining near-native protein-protein docking decoys by local re-sampling and energy minimization[J]. Proteins,2009,76:309-316.
[9]Xue B, Faraggi E, Zhou Y. Predicting residue-residue contact maps by a two-layer, integrated neural-network method[J].Proteins,2009,76:176-183.
[10]張佑紅,陳龍,靖志強,等.不同周期Sf9細胞琥珀酸脫氫酶酶活的研究 [J].武漢工程大學學報,2009,30(5):4-6.
[11]奚強,李俊,林丫丫,等. L-核糖的合成[J].武漢工程大學學報,2009,30(5):18-20.