汪一亭
(池州學院 數(shù)學與計算機科學系,安徽 池州247000)
隱馬爾科夫模型基于殘基對蛋白質序列的分析
汪一亭
(池州學院 數(shù)學與計算機科學系,安徽 池州247000)
區(qū)分、識別出同源蛋白質序列并揭示不同類型的殘基的研究在生物信息領域具有重要的意義。文章將蛋白質的氨基酸與殘基的序列用隱馬爾科夫模型(HMM)來表示,介紹了一種基于蛋白質殘基來建立隱馬爾科夫模型的思路。接著采用HMM的評估算法對蛋白質同源性進行分類,又由于是將殘基類型作為模型的狀態(tài)來考慮,利用HMM的結論可以解碼出最優(yōu)的殘基序列,從而進一步預測出殘基的類型。結果表明分類算法取得了較好的效果,且在預測結果上與其他方法相比也具有一定的優(yōu)勢。
隱馬爾可夫模型;蛋白質;界面殘基;表面殘基
近年來,隨著蛋白質測序工作的快速發(fā)展,人們已經獲取了大量蛋白質序列數(shù)據。但是,由于同源蛋白質的原因,往往會出現(xiàn)對某類同源的序列進行測序,并將其存入數(shù)據庫的情況,結果可能會導致對某一簇蛋白質序列的功能分析的夸大,從而對研究產生誤導[1]。因此,比較蛋白質序列并區(qū)分、識別出同源序列的算法的研究已成為生物信息領域的重要內容。目前,已有不少相關學者對此類問題進行了研究。有聚類算法[2]、基于圖論的算法[3]。而隱馬爾可夫模型(Hidden Markov model,HMM)用于蛋白質研究是生物信息學研究的新領域,文獻 [4]將HMM用于蛋白質同源性的研究,但是該算法建立的HMM模型所基于的特征的關注度和準確性遠遠沒有蛋白質殘基的分布特征高。
蛋白質間的相互作用是蛋白質組學研究的另一個核心問題。其中蛋白質界面殘基的預測所研究的是確定在蛋白質-蛋白質相互作用中,某一條鏈上的哪些殘基參與了作用[6]。因此捕捉和揭示不同種類的蛋白質殘基對深入了解蛋白質間相互作用的機制具有重要的生物學意義。由于生物學實驗技術探測殘基費時費力且不能大規(guī)模應用,近幾年已有很多計算方法被提出,主要有SVM方法[7]、貝葉斯方法[6]、神經網絡方法[8]等,但相較于傳統(tǒng)的分類方法中,利用隱馬爾可夫模型預測殘基的案例較少。
2.1 HMM簡介
隱馬爾可夫模型作為一種統(tǒng)計分析模型,被用于生物信息學研究領域的基礎是計算機技術、統(tǒng)計學和分子生物學。它由相互關聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,HMM可以用五個元素來描述分別為隱含狀態(tài)、可觀測狀態(tài)、初始狀態(tài)概率、隱含狀態(tài)轉移概率矩陣、觀測狀態(tài)概率矩陣。HMM解決的關鍵實際問題有三類分別是:1)評估問題,采用前向算法;2)解碼問題,采用Viterbi算法;3)學習問題,采用Baum-Welch算法。
2.2 蛋白質殘基的定義與分類
蛋白質殘基是氨基酸序列脫水形成肽鏈后的部分,共分為界面殘基(interface residue)、表面殘基(surface residue)、非表面殘基(non-surface residue)三類[5]。對于此三類殘基的定義還沒有完全統(tǒng)一,文獻[6]、[10]都有各自的區(qū)分殘基的標準,但都是基于某一實驗手段稱為溶劑可及表面積(solvent accessible surface area,SASA)的基礎上量化指標的不同而已。其中,界面殘基屬于表面殘基,但比非界面的表面殘基具有更高的SASA[9],為方便描述,下文中的表面殘基特指非界面的表面殘基。三者分布關系見圖1。
不僅如此,SASA不僅能區(qū)分殘基,而且通過SASA還可以了解氨基酸的疏水性,而疏水性對于蛋白質的二級結構預測非常關鍵。因此對殘基的研究無論對于蛋白質間相互作用還是蛋白質空間結構的預測都具有非常關鍵的意義。我們采用文獻[6]的定義:即若殘基的SASA對殘基的最大面積的比值超過25%,就定義它為表面殘基。而在復合物形成過程中SASA的減少量超過1的殘基就定義為界面殘基。
圖1 蛋白質殘基分布關系
3.1 HMM各元素的確立與參數(shù)學習
已有學者將HMM用來表示蛋白質序列而進行的研究[4],但該模型的狀態(tài)是基于進化過程中原始蛋白質序列經歷突變,遺失,或引入外源序列,而此類特征的關注度和準確性遠遠沒有蛋白質殘基的分布特征高。
在本文中,將蛋白質的氨基酸與殘基的序列用HMM模型來表示,其中界面、表面、非表面殘基是由難以直接觀測到的隱狀態(tài)表示,構成蛋白質的20種氨基酸由可觀測值表示。圖2為相應的隱馬爾可夫模型。該模型的具體流程是從一個起始隱狀態(tài)開始,以某種概率進入界面、表面、非表面殘基狀態(tài)之間的某一個,其中每個隱狀態(tài)會觀察到一種氨基酸。當模型從起始狀態(tài)到結束狀態(tài)時,產生的不同氨基酸會構成一個氨基酸序列。圖中箭頭表示的狀態(tài)間的轉換概率是有區(qū)別的,此外不同狀態(tài)所能觀測到的氨基酸種類的概率也是有區(qū)別的。狀態(tài)的初始分布、每個狀態(tài)產生的氨基酸種類的概率、各狀態(tài)間的轉移概率都由模型的參數(shù)決定。經過訓練,可以調整該模型的參數(shù),訓練好的模型能夠以最大的可能性產生參與訓練的觀察序列,由此可以代表有共同特征的蛋白質序列,從而描述不同族的蛋白質。我們將采用典型的HMM訓練算法Baumwelch算法來進行建模。
圖2 基于蛋白質殘基的隱馬爾可夫模型
3.2 同源蛋白質序列的區(qū)分算法
之后將Baum-welch算法訓練出來的參數(shù)模型進行蛋白質同源性的研究。其原理為HMM的評估問題,分析由該模型產生不同序列的概率,對于與模型相符合的序列,則能以較大的概率產生該序列,若不與該模型符合的序列,則產生該序列的概率會相對較小,由此可以區(qū)分出同源和非同源蛋白質序列,此外,只要對概率劃分合適的域值,就能夠從許多蛋白質序列中識別出該族的蛋白質序列。我們將采用HMM評估問題的典型算法前向算法來區(qū)分蛋白質序列。
3.3 蛋白質殘基的預測算法
在上述區(qū)分的同源蛋白質的基礎上可以進一步根據該模型預測界面、表面、非表面殘基,該問題則屬于HMM的解碼問題。
實驗采用的蛋白質復合物為Homo-complex I data set與Hetero-complex I data set[5],這些數(shù)據集來源于PDB數(shù)據庫經過篩選后得到的結果,各自含有621和504條蛋白質復合物鏈。我們首先從Hetero-complex I data set中選擇前50條作為訓練序列,經過Baum-welch算法的學習得到隱馬爾科夫模型。訓練好的該模型參數(shù)見表1、2、3。其中,狀態(tài)0,1,2分別表示界面、表面、非表面殘基。
表1 初始狀態(tài)概率
表2 狀態(tài)轉移概率矩陣
表3 氨基酸種類概率矩陣
根據上述參數(shù)模型,將Hetero-complex I data set余下的454條蛋白質序列隨機選取150條采用前向算法進行分析評估,為了便于統(tǒng)計大量數(shù)據結果,程序在實現(xiàn)前向算法的基礎上添加計算平均值和方差的功能。再將Homo-complex I data set的蛋白質序列同樣方法用該模型進行分析,兩次實驗各自得到的統(tǒng)計結果見表4。
由表4我們可以清楚看出,模型產生Homocomplex I數(shù)據集的蛋白質序列的概率明顯小于Hetero-complex I數(shù)據集的蛋白質概率。由于這兩個數(shù)據集分別是描述同類聚合物和異類聚合物的蛋白質序列,由此說明該隱馬爾科夫模型能夠很好的區(qū)分出同源和非同源蛋白質序列。
表4HMM評估結果
接下來將與該模型相匹配的余下的蛋白質序列用viterbi算法進行解碼,預測出界面、表面、非表面殘基的結果見表5,我們選取其中的PDB代碼為1xqs蛋白質的D鏈為例,列舉出其部分詳細的殘基預測結果。其中的T表示該殘基為界面殘基,S表示該殘基為表面殘基,N表示非表面殘基。殘基的序列號是PDB文件中的序列編號,所有殘基采用單字母表示。
從表5可以看出,與文獻[4]、[6]相比,文獻[4]只能識別出同源和非同源蛋白質序列,不能預測殘基的種類,而采用我們的方法既能識別出蛋白質序列(如表4所示)又能預測出殘基種類;文獻[6]采用貝葉斯方法所得到的僅能預測界面殘基,而表面殘基和非表面殘基的情況則沒有考慮 (見表6:在1fc2_C鏈上貝葉斯方法的預測結果),而本文利用的HMM的viterbi算法可以預測出最可能的三類蛋白質殘基序列。在預測算法的思想上,傳統(tǒng)的分類方法僅分散的研究各殘基而忽略相鄰殘基間的相互關聯(lián),本文的馬爾科夫模型則考慮了相鄰殘基間的相互關系。
表5 在1xqs_D鏈上本方法的預測結果
表6 在1fc2_C鏈上貝葉斯方法的預測結果
由實驗結果可看出,HMM可以基于已知的一級結構對蛋白質序列進行分類,并進一步預測界面、表面、非表面殘基,并且有較好的效果,是對其它分類和預測方法的補充。但它也存在一些缺陷,使得它用于蛋白質分析方面有一定的不足,最主要的因素是Baum-Welch算法存在陷入局部極值、過早收斂或收斂速度慢等缺點,而學習得到的模型參數(shù)將直接影響區(qū)分和預測算法的準確性。結合HMM 和SVM[7]、貝葉斯[6]、神經網絡[8]等方法來改進更好的學習算法,使用更高性能的計算機,結合各種蛋白質結構數(shù)據庫,將會在蛋白質序列分析方面得到更準確的結果。
[1]張成崗,歐陽曙光,張紹文,等.基于PC/Linux的核酸序列分析系統(tǒng)的構建及其應用[J].生物化學與生物物理進展,2001(2):263-266.
[2]Yona G,Linial N,Linial M.ProtoMap:automatic classification of protein sequences and hierarchy of protein families[J].Nucleic Acids Res,2000,28(1):49-55.
[3]Hideya Kawaji,Yoichi Takenaka,Hideo Matsuda.Graph-based clustering for finding distant relationships in a large set of protein sequences[J].Oxford Journals Life Sciences&Mathematics&Physical Sciences Bioinformatics,2004(20):243-252.
[4]吳曉明,宋長新,王波,等.隱馬爾可夫模型用于蛋白質序列分析[J].生物醫(yī)學工程學雜志,2002,19(3):455-458.
[5]Liu Bin,Homo-complex I data set [DB/OL].(2009-11-20).[2014-02-10].http://www.biomedcentral.com/content/supplementary/1471-2105-10-381-s2.txt.
[6]王池社,程家興,等.基于貝葉斯方法的蛋白質界面殘基預測[J].計算機應用與軟件,2009,26(5):75-77.
[7]Qiwen Dong,XiaoLong Wang,Lei Lin,et al.Exploiting residuelevel and profile-level interface propensities for usage in binding sites prediction of proteins[J].BMCBioinformatics,2007(8):147.
[8]Yanay Ofran,Burkhard Rost.ISIS:interaction sites identified fromsequence[J].Bioinformatics,2007(23):2.
[9]歐陽玉梅,方若森.蛋白質-蛋白質界面熱點殘基預測及其在線工具[J].生命科學,2012,24(1):106-111.
[10]Feihong Wu,Fadi Towfic,Drena dobbs,etc.Analysis of Protein Protein Dimeric Interfaces[C].Fremont:International Conference on Bioinformatics and Biomedicine,2007:35-38.
[責任編輯:桂傳友]
TP391
A
1674-1104(2014)03-0025-03
10.13420/j.cnki.jczu.2014.03.007
2014-02-22
池州學院自然科學研究項目(2013ZR017)。
汪一亭(1983-),女,安徽池州人,池州學院數(shù)學與計算機科學系助教,碩士,研究方向為生物信息學。