基于K-mer扭轉(zhuǎn)角偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測

2021-05-06 02:01:16萬曉耕

生物信息學(xué) 2021年1期

萬曉耕

(北京化工大學(xué) 數(shù)理學(xué)院，北京 100029)

蛋白質(zhì)是生命過程中的重要有機(jī)物，其序列、結(jié)構(gòu)和功能多種多樣。蛋白質(zhì)由20種氨基酸通過肽鍵結(jié)合形成肽鏈，這些肽鏈通過折疊形成多種多樣的結(jié)構(gòu)[1]。蛋白質(zhì)的序列決定結(jié)構(gòu)，而序列和結(jié)構(gòu)又決定了它的功能[1]。研究蛋白質(zhì)的結(jié)構(gòu)分類和預(yù)測對深入了解蛋白質(zhì)的作用和功能具有重要意義。蛋白質(zhì)結(jié)構(gòu)的研究分為蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究和對其空間結(jié)構(gòu)的研究，其中蛋白質(zhì)的二級(jí)結(jié)構(gòu)指的是其骨干肽鏈的結(jié)構(gòu)。蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以分為不同的結(jié)構(gòu)類型。例如，在CATH數(shù)據(jù)庫中，蛋白質(zhì)的二級(jí)結(jié)構(gòu)分為三個(gè)主要結(jié)構(gòu)類型：主要α結(jié)構(gòu)(Mainlyαstructures)類，主要β結(jié)構(gòu)(Mainlyβstructures)類，和混合α與β結(jié)構(gòu)(Mixedαandβstructures)類[1]。蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測通常利用蛋白質(zhì)的氨基酸序列信息預(yù)測其可能形成的二級(jí)結(jié)構(gòu)類型。常用的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方法包括人工神經(jīng)網(wǎng)絡(luò)法、最近鄰法和支持向量機(jī)法等[1]。一些經(jīng)典的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方法包括Chou-Fasman[2]、GOR[3]、 PHD[4]、CONCORD[5]、 I-TASSER[6], 以及Robetta[7]等方法。

蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以進(jìn)一步分為不同的折疊結(jié)構(gòu)。Ding和Dubchak提出了一種基于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的多類蛋白質(zhì)折疊識(shí)別方法[8]。Edler和Grassmann做出了關(guān)于統(tǒng)計(jì)學(xué)方法在蛋白質(zhì)折疊類預(yù)測中的角色和結(jié)果的研究[9]。 Huang等提出了一種基于分層學(xué)習(xí)體系結(jié)構(gòu)的帶自動(dòng)特征選擇的蛋白質(zhì)折疊分類方法[10]。Jo等做出了利用深度學(xué)習(xí)網(wǎng)絡(luò)來改進(jìn)蛋白質(zhì)折疊識(shí)別的研究[11]。Khan和Shahzad提出了一種新的受螞蟻啟發(fā)的基于關(guān)聯(lián)規(guī)則分類器的蛋白質(zhì)分類方法[12]。Markowetz、Edler和Vingron做出了一項(xiàng)基于支持向量機(jī)的關(guān)于蛋白質(zhì)折疊類預(yù)測的研究[13]。Tan, Gilbert和Deville提出了一種基于新的集成機(jī)器學(xué)習(xí)方法的多類蛋白質(zhì)折疊分類方法[14]。Wei等提出了一種基于新特征提取技術(shù)的增強(qiáng)的蛋白質(zhì)折疊識(shí)別方法[15]。Wei和Zou總結(jié)了關(guān)于基于機(jī)器學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法研究進(jìn)展綜述[16]。

蛋白質(zhì)的二級(jí)結(jié)構(gòu)也可以通過氨基酸的物理、化學(xué)性質(zhì)來進(jìn)行分類。Rackovsky在文獻(xiàn)[17]中提出利用氨基酸的物理屬性對蛋白質(zhì)二級(jí)結(jié)構(gòu)類型進(jìn)行分類的研究。該研究利用10種主要的氨基酸物理屬性將CATH數(shù)據(jù)按三種主要結(jié)構(gòu)類型(主要α類、主要β類、混合α和β結(jié)構(gòu)類)進(jìn)行分類。該研究表明蛋白質(zhì)的結(jié)構(gòu)與氨基酸的物理屬性具有一定的聯(lián)系[17]。

蛋白質(zhì)序列的特征提取對研究蛋白質(zhì)的結(jié)構(gòu)具有重要應(yīng)用[18]。自然向量通過計(jì)算氨基酸的成分和排序?qū)⒌鞍踪|(zhì)序列映射成60維實(shí)空間中的向量，每一個(gè)序列的自然向量與該序列是一一對應(yīng)的[18]。由自然向量法可以導(dǎo)出一系列其它的序列特征提取方法[19]，如：K-串字典法[20]、蛋白質(zhì)映射[21-22]等。這些特征提取法可用于提取蛋白質(zhì)的序列特征，進(jìn)而用于對其結(jié)構(gòu)的分類和預(yù)測。

利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來對蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測和分類是一種新的蛋白質(zhì)二級(jí)結(jié)構(gòu)分類方法。該方法從PDB數(shù)據(jù)庫中獲取5-mer的統(tǒng)計(jì)信息，并通過對5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)和聚類，經(jīng)過組合、打分、篩選和拼接實(shí)現(xiàn)對蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測，即將蛋白質(zhì)序列按CATH的分類分為三種主要結(jié)構(gòu)類型：主要α結(jié)構(gòu)類、主要β結(jié)構(gòu)類，混合α和β結(jié)構(gòu)類。該新方法源于I-TASSER和Robetta這兩種服務(wù)器式預(yù)測方法，與I-TASSER和Robetta的主要區(qū)別在于，新方法基于局部序列環(huán)境對扭轉(zhuǎn)角偏好的影響，即通過統(tǒng)計(jì)局部序列單元即5-mer的扭轉(zhuǎn)角偏好，實(shí)現(xiàn)蛋白質(zhì)二級(jí)結(jié)構(gòu)類型的預(yù)測，而I-TASSER與Robetta則是通過同源模板的匹配來進(jìn)行結(jié)構(gòu)預(yù)測和分類。

在研究方法中，詳細(xì)介紹該新方法的實(shí)現(xiàn)過程和步驟，并提供方法實(shí)現(xiàn)的流程圖。在結(jié)果中，展示5-mer的統(tǒng)計(jì)分析結(jié)果，以及兩組隨機(jī)抽取的CATH數(shù)據(jù)的結(jié)構(gòu)分類結(jié)果，所有分類結(jié)果均與四種基于序列特征的結(jié)構(gòu)預(yù)測或分類方法進(jìn)行比較，這四種方法分別為：(1)基于平均屬性因子和自然向量特征提取的最小平方誤差(MSE)超平面[2]分類方法；(2)PseAAC的支持向量機(jī)分類方法；(3)Chou-Fasman方法。在討論部分，詳細(xì)總結(jié)和討論了新方法的特點(diǎn)和有效性。

1 研究方法

分步介紹5-mer扭轉(zhuǎn)角分類方法的實(shí)現(xiàn)步驟。主要分為兩部分：(1)PDB數(shù)據(jù)庫中5-mer中間氨基酸扭轉(zhuǎn)角結(jié)構(gòu)偏好的統(tǒng)計(jì)分析；(2)利用5-mer中間氨基酸結(jié)構(gòu)統(tǒng)計(jì)偏好對蛋白質(zhì)序列的結(jié)構(gòu)類型進(jìn)行預(yù)測。

1.1 5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)分析與聚類

1.1.1 5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)分析

首先統(tǒng)計(jì)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角結(jié)構(gòu)類型。從PDB數(shù)據(jù)庫中提取氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。PDB數(shù)據(jù)庫中包含超過100 000 條X-Ray實(shí)驗(yàn)獲取的PDB結(jié)構(gòu)，通過數(shù)據(jù)庫中的這些PDB結(jié)構(gòu)信息來獲取5-mer的統(tǒng)計(jì)信息。所謂5-mer即是由5個(gè)相鄰氨基酸組成的長度為5的局部序列。對5-mer進(jìn)行統(tǒng)計(jì)分析不僅可以獲取充足的統(tǒng)計(jì)數(shù)據(jù)，而且5-mer是能體現(xiàn)局部結(jié)構(gòu)的最小序列單元。在文獻(xiàn)[23]中, Morikawa提出長度為5的氨基酸序列可用于表示蛋白質(zhì)序列的局部結(jié)構(gòu)分布。一方面，長度為5的局部序列已經(jīng)能夠充分表示蛋白質(zhì)的局部結(jié)構(gòu)傾向，更短的序列無法充分表達(dá)局部序列對結(jié)構(gòu)的影響。另一方面，表達(dá)局部結(jié)構(gòu)的氨基酸序列不應(yīng)過長，過長的序列會(huì)導(dǎo)致無法獲取足夠數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。長度為5的局部序列既保證了充足數(shù)量的統(tǒng)計(jì)數(shù)據(jù)，又能夠體現(xiàn)局部序列對結(jié)構(gòu)的影響。

給定一條長度為L的氨基酸序列a1a2…aL，該序列中共含有L-4個(gè)5-mer:ai-2ai-1aiai+1ai+2, 3≤i≤L-3。為了預(yù)測這條氨基酸序列的結(jié)構(gòu)類型, 統(tǒng)計(jì)PDB數(shù)據(jù)庫中通過X-Ray實(shí)驗(yàn)獲得的PDB結(jié)構(gòu)中5-mer中間氨基酸的扭轉(zhuǎn)角信息，并通過聚類獲取5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

1.1.2 拉氏圖中扭轉(zhuǎn)角的聚類分析

從PDB數(shù)據(jù)庫中獲取所有可能出現(xiàn)的5-mer序列，以及其出現(xiàn)頻數(shù)和中間氨基酸的(φ,ψ) 扭轉(zhuǎn)角列表。每一種5-mer都對應(yīng)一個(gè)記錄其中間氨基酸扭轉(zhuǎn)角值的列表，通過對列表中扭轉(zhuǎn)角值的聚類分析來獲取5-mer中間氨基酸扭轉(zhuǎn)角的結(jié)構(gòu)偏好。

將每一種5-mer扭轉(zhuǎn)角列表中的(φ,ψ)值畫在同一張拉氏圖中，圖中所有的(φ,ψ)點(diǎn)都落在[-180,180]×[-180,180] 區(qū)域內(nèi)。使用下列方法來獲取每種5-mer中間氨基酸扭轉(zhuǎn)角的聚類。

首先，在拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)的整坐標(biāo)點(diǎn)上定義濃度：

(1)

其中Nr(φ,ψ) 表示該拉氏圖中落入圓心為(φ,ψ)半徑為r的閉圓域內(nèi)的扭轉(zhuǎn)角個(gè)數(shù)，N表示整個(gè)拉氏圖中總的扭轉(zhuǎn)角點(diǎn)數(shù)，即5-mer扭轉(zhuǎn)角列表中的(φ,ψ)扭轉(zhuǎn)角個(gè)數(shù)，也即該5-mer在PDB數(shù)據(jù)庫中出現(xiàn)的次數(shù)。該濃度值即為給定5-mer的扭轉(zhuǎn)角列表中落入整坐標(biāo)點(diǎn)(φ,ψ)的閉圓域內(nèi)的扭轉(zhuǎn)角比例。計(jì)算拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)361x361個(gè)整坐標(biāo)點(diǎn)對應(yīng)的濃度值。扭轉(zhuǎn)角的聚類即為拉氏圖中扭轉(zhuǎn)角的局部聚集區(qū)域。將拉氏圖中局部濃度峰值所在坐標(biāo)定義為聚類的中心。

為了研究圓域半徑r對濃度的影響，將r從1 到20進(jìn)行遍歷并計(jì)算相應(yīng)的濃度值。給出了一個(gè)在不同圓域半徑下進(jìn)行聚類分析的例子(見圖1)，當(dāng)r較小時(shí)，聚類較為離散；而當(dāng)r增大時(shí)，聚類的分布變得較為平坦。通過比較發(fā)現(xiàn)，不同圓域半徑對應(yīng)的聚類相似。發(fā)現(xiàn)r=10左右為識(shí)別聚類的理想值。為了避免圓域半徑對聚類的影響，對r從1到20變化時(shí)計(jì)算得到的扭轉(zhuǎn)角聚類中心取平均作為最終的聚類中心，該聚類中心代表了相應(yīng)5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

圖1 不同濃度半徑下的聚類情況Fig.1 Clustering situations with different density radius

圖1顯示了濃度半徑r=1,3,5,10,15,20對應(yīng)的扭轉(zhuǎn)角聚類情況。以5-mer ‘NLYFQ’為例計(jì)算不同濃度半徑下的聚類情況。可以看出不同半徑對應(yīng)的聚類位置不變，而聚類隨著半徑的增加變得更加平坦。用Ω表示PDB數(shù)據(jù)庫中所有5-mer的集合。記S為Ω中的一個(gè)5-mer，其中間氨基酸扭轉(zhuǎn)角的聚類個(gè)數(shù)為MS，用Ci(s) 表示S中間氨基酸扭轉(zhuǎn)角的聚類中心(i=1,…,Ms)。5-mer中間氨基酸扭轉(zhuǎn)角的聚類反映了在該5-mer：ai-2ai-1aiai+1ai+2序列環(huán)境下，中間氨基酸ai的扭轉(zhuǎn)角取值傾向。用上述濃度分析5-mer集合Ω中每一個(gè)5-mer中間氨基酸的扭轉(zhuǎn)角聚類情況。

1.2 蛋白質(zhì)序列結(jié)構(gòu)類型的預(yù)測

利用已經(jīng)獲取Ω中所有5-mer中間氨基酸的扭轉(zhuǎn)角聚類來實(shí)現(xiàn)蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測。整個(gè)預(yù)測過程分為三個(gè)階段：(1)分段與聚類，(2)打分和分組，(3)拼接與篩選。

1.2.1 序列分段與扭轉(zhuǎn)角的聚類

(1)序列分段設(shè)a1a2…aL是一條長度為L的氨基酸序列。在該序列中，除了開頭兩個(gè)和結(jié)尾兩個(gè)氨基酸外，每個(gè)氨基酸都可以看成序列中某個(gè)5-mer的中間氨基酸。例如，a3是5-mer：a1a2a3a4a5的中間氨基酸。一般情況下，ai是5-mer：ai-2ai-1aiai+1ai+2的中間氨基酸，3≤i≤L-2。

由于利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測蛋白質(zhì)序列的結(jié)構(gòu)類型，因此對于序列a1a2…aL來說，實(shí)際上預(yù)測的是子序列a3a4…aL-3aL-2的結(jié)構(gòu)類型。開頭和結(jié)尾各兩個(gè)氨基酸作為第一個(gè)和最后一個(gè)5-mer的背景氨基酸。將a3a4…aL-3aL-2分成首尾相接的5-mer序列段:a3a4a5a6a7,a8a9a10a11a12,…,a5i-2a5i-1a5ia5i+1a5i+2,…, 最后一個(gè)序列段可能長度不足5，因此不一定是一個(gè)完整的5-mer。

表1 序列段Si對應(yīng)的5-mer中間氨基酸扭轉(zhuǎn)角聚類中心 Table 1 Torsion angle cluster centers for the middle amino acids of 5-mers in sequence segment Si

1.2.2 結(jié)構(gòu)類型的預(yù)測

(1)打分策略在序列段Si:a5i-2a5i-1a5ia5i+1a5i+2的Mi種聚類組合中，每一種聚類組合可以表示為：

pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)
Ck4(si,4)Ck5(si,5),

(2)

其中1≤kj≤Msi,j為第j個(gè)(j=1,2,3,4,5)氨基酸的聚類索引，Msi,j為第j個(gè)氨基酸的聚類總個(gè)數(shù)，Ckj(si,j)∈{Ck(si,j)|k=1,…,Msi,j}表示每個(gè)5-mersi,j中間氨基酸的扭轉(zhuǎn)角聚類中心。定義閾值T>0 和一個(gè) 1×4維距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4),其中dj表示聚類中心Ckj(si,j)和Ckj+1(si,j+1)之間的歐氏距離, 即dj=|Ckj(si,j)-Ckj+1(si,j+1)|,j=1,2,3,4。利用閾值T來過濾距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4), 并獲得一個(gè)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4),其中邏輯值bj定義如下：

(3)

給定聚類組合pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)Ck4(si,4)Ck5(si,5), 邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)表示序列段Si中相鄰兩個(gè)氨基酸扭轉(zhuǎn)角聚類中心之間的距離。若bj=1, 則相鄰氨基酸的(φ,ψ)扭轉(zhuǎn)角聚類中心Ckj(si,j)與Ckj+1(si,j+1)之間的距離不超過閾值T。

統(tǒng)計(jì)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)中連續(xù)1串的長度和個(gè)數(shù)。例如, 邏輯值向量bk1k2k3k4k5(Si)=(1,0,1,1) 有兩個(gè)1串，一個(gè)(第一個(gè)分量)長度為1，另一個(gè)(最后兩個(gè)分量)長度為2。對于序列段Si,用ni表示其邏輯值向量中1串的個(gè)數(shù)，用lk,k=1,2,…,ni表示每個(gè)1串的長度，則序列段Si中聚類組合pk1k2k3k4k5(Si)的分值定義為：

(4)

其中kj=1,2,…,Msi,j(j=1,2,3,4,5) 表示序列段Si中第j個(gè)氨基酸對應(yīng)5-mer的聚類索引,ni表示這個(gè)聚類組合邏輯值向量中1串的個(gè)數(shù),lk(k=1,2,…,ni)表示邏輯值向量中第k個(gè)1串的長度。

(2)分組按上述方法計(jì)算序列段Si中每一種聚類組合pk1k2k3k4k5(Si)的分值Ωk1k2k3k4k5(Si) ，并通過下述方法將其分為不同的結(jié)構(gòu)類型。對序列段Si的任意一個(gè)聚類組合pk1k2k3k4k5(Si) ，定義為：

(5)

將每個(gè)結(jié)構(gòu)類Gk(Si)，k=1,2,…,Ng(Si)，中打分最高的扭轉(zhuǎn)角聚類組合選為該結(jié)構(gòu)類的代表，即當(dāng)：

(6)

時(shí)，選擇聚類組合pk'1k'2k'3k'4k'5(Si)=Ck'1(si,1)Ck'2(si,2)Ck'3(si,3)Ck'4(si,4)Ck'5(si,5)為該結(jié)構(gòu)類的代表。從每個(gè)結(jié)構(gòu)類中選取打分最高的扭轉(zhuǎn)角聚類組合作為該結(jié)構(gòu)類的代表，因此獲得一個(gè)預(yù)測結(jié)構(gòu)的列表：

(7)

在拼接與篩選階段，使用一個(gè)迭代的拼接策略。從第一個(gè)序列段S1開始,將序列段S1與S2的結(jié)構(gòu)拼接在一起形成序列段S1S2的結(jié)構(gòu)。記NP(Si) 為序列段Si的預(yù)測結(jié)構(gòu)數(shù)，則序列段S1與S2拼接后的預(yù)測結(jié)構(gòu)數(shù)為NP(S1)·NP(S2)。

將列段S1S2的所有Np(S1)·Np(S2)個(gè)預(yù)測結(jié)構(gòu)的扭轉(zhuǎn)角聚類組合記為集合{p(S1S2)}。為序列段S1S2相鄰扭轉(zhuǎn)角聚類中心計(jì)算一個(gè)1×9維的距離向量d(S1S2)=(d1,d2,d3,d4,d5,d6,d7,d8,d9)以及相應(yīng)的1×9維邏輯值向量b(S1S2)=(b1,b2,b3,b4,b5,b6,b7,b8,b9)。接下來，從邏輯值向量出發(fā)來計(jì)算每個(gè)結(jié)構(gòu)組合的分值：

(8)

其中n表示邏輯值向量中1-串的個(gè)數(shù),lk表示每個(gè)1串的長度。為所有NP(S1)·NP(S2) 種結(jié)構(gòu)組合計(jì)算分值，獲得一個(gè)相應(yīng)于集合{p(S1S2)}的結(jié)構(gòu)組合打分列表{Ω(S1S2)}。從打分列表中選取分值最高的5個(gè)結(jié)構(gòu)為序列段S1S2的預(yù)測結(jié)構(gòu)。

在第i個(gè)迭代循環(huán)中，獲得序列段S1S2…Si的5個(gè)最優(yōu)預(yù)測結(jié)構(gòu){p(S1S2…Si)}。接下來，將序列段S1S2…Si與Si+1進(jìn)行拼接。類似于上述步驟，總共獲得Np(S1S2…Si)·Np(Si+1)種組合結(jié)構(gòu){p(S1S2…Si+1)}。通過計(jì)算相鄰氨基酸扭轉(zhuǎn)角聚類中心的距離向量d(S1S2…Si+1)=(d1,d2,…,d5*(i+1)-1)和邏輯值向量b(S1S2…Si+1)=(b1,b2,…,b5*(i+1)-1)來為拼接結(jié)構(gòu)進(jìn)行打分。對所有的結(jié)構(gòu)組合{p(S1S2…Si+1)}計(jì)算打分列表{Ω(S1S2…Si+1)}，并選取其中分值最高的5個(gè)拼接結(jié)構(gòu)作為序列段S1S2…Si+1的預(yù)測結(jié)構(gòu)。

迭代過程一直到所有序列段都拼接起來為止。最后，從整條序列的打分列表中選取分值最高的5個(gè)結(jié)構(gòu)作為最終的預(yù)測結(jié)構(gòu)。預(yù)測方法的流程圖(見圖2)。

圖2 5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測法流程圖Fig.2 Flow chart for the structural prediction method based on torsion angle of 5-mers

圖2顯示了5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測方法的流程圖。流程圖主要分為兩部分:(1)5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)與聚類分析;(2)氨基酸扭轉(zhuǎn)角聚類的組合、拼接與篩選。

(4) 結(jié)構(gòu)的分類與準(zhǔn)確率通過上述步驟，每一條蛋白質(zhì)序列得到5個(gè)最優(yōu)(分值最高)預(yù)測結(jié)構(gòu)，利用這5個(gè)最優(yōu)結(jié)構(gòu)來判斷蛋白質(zhì)的結(jié)構(gòu)類型。對于每個(gè)預(yù)測結(jié)構(gòu)來說，它的結(jié)構(gòu)類型取決于該結(jié)構(gòu)中不同結(jié)構(gòu)類型扭轉(zhuǎn)角的統(tǒng)計(jì)頻率。在拉氏圖中，α螺旋和β平面這兩種不同結(jié)構(gòu)的(φ,ψ)扭轉(zhuǎn)角位于拉氏圖中的不同區(qū)域[25-29]。α螺旋對應(yīng)的扭轉(zhuǎn)角集中于(-60°,-45°)附近的區(qū)域內(nèi)[25-29]。更一般地,在α螺旋結(jié)構(gòu)中，一個(gè)氨基酸殘基的ψ角和下一個(gè)氨基酸殘基的φ角之和大致接近于-105°[25-29]。因此，α螺旋的扭轉(zhuǎn)角在拉氏圖中一般散布于由(-90°,-15°) 到 (-35°,-70°)的對角線(斜率為-1)區(qū)域內(nèi)[25-29]。α螺旋既有右手α螺旋，也有左手α螺旋，其中最普遍的為右手α螺旋。左手α螺旋的扭轉(zhuǎn)角在拉氏圖中分布于與右手α螺旋關(guān)于原點(diǎn)對稱的區(qū)域。將右手和左手α螺旋統(tǒng)稱為α螺旋，并將落在左手或右手α螺旋區(qū)域及附近的扭轉(zhuǎn)角通稱為α類扭轉(zhuǎn)角。

β平面的扭轉(zhuǎn)角通常落在 (-135°,135°) 附近的區(qū)域內(nèi)(大致來說，在拉氏圖的左上角區(qū)域)，并且明顯偏離構(gòu)象(-180°,180°)[26-29]。在平行β平面中，扭轉(zhuǎn)角接近于 (-120°,115°), 而在反平行β平面中(φ,ψ)扭轉(zhuǎn)角接近于(-140°,135°)。考慮平行和反平行的β平面，并將兩種β平面結(jié)構(gòu)統(tǒng)稱為β平面，落在β平面扭轉(zhuǎn)角區(qū)域及附近的扭轉(zhuǎn)角通稱為β類扭轉(zhuǎn)角[27-30]。落在α類和β類扭轉(zhuǎn)角區(qū)域外的扭轉(zhuǎn)角則被分為第三類，該類扭轉(zhuǎn)角對應(yīng)于無規(guī)則的“環(huán)”[31]。

統(tǒng)計(jì)每個(gè)最優(yōu)結(jié)構(gòu)中上述三種類型扭轉(zhuǎn)角出現(xiàn)的頻率。若α類扭轉(zhuǎn)角頻率最高且α類扭轉(zhuǎn)角頻率明顯高于其它類扭轉(zhuǎn)角時(shí)，認(rèn)為該預(yù)測結(jié)構(gòu)為主要α結(jié)構(gòu)類(C=1)；若β類扭轉(zhuǎn)角的頻率最高且β類扭轉(zhuǎn)角的頻率明顯高于其它類扭轉(zhuǎn)角時(shí)，該預(yù)測結(jié)構(gòu)被認(rèn)為屬于主要β結(jié)構(gòu)類(C=2)；若不滿足前兩種情況，則認(rèn)為該預(yù)測結(jié)構(gòu)為α與β的混合類(C=3)。

統(tǒng)計(jì)數(shù)據(jù)集中每種結(jié)構(gòu)類型下獲得正確分類的蛋白質(zhì)序列數(shù)并記為vi，角標(biāo)i=1,2,3分別對應(yīng)CATH的三種主要結(jié)構(gòu)類型。我們將該頻數(shù)除以數(shù)據(jù)集中該結(jié)構(gòu)類下真實(shí)的蛋白質(zhì)序列數(shù)Ni，得到該結(jié)構(gòu)類型的分類正確率為：

(9)

2 結(jié)果分析

分析和總結(jié)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好，并利用兩組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。

2.1 5-mer扭轉(zhuǎn)角的偏好統(tǒng)計(jì)

統(tǒng)計(jì)PDB數(shù)據(jù)庫中蛋白質(zhì)序列的5-mer及其中間氨基酸的扭轉(zhuǎn)角列表，并對得到的5-mer扭轉(zhuǎn)角列表進(jìn)行聚類分析。在聚類分析中，使用不同的圓域半徑來計(jì)算扭轉(zhuǎn)角的聚類并取平均。以5-mer ‘NLYFQ’為例, 圖1顯示了用不同半徑r得到的濃度矩陣彩圖。從圖1可以看出，不同半徑r得到的聚類位置不變；當(dāng)半徑增大時(shí)，聚類變得較為平坦。分別計(jì)算半徑r=1，2，…, 20對應(yīng)的聚類中心，并對不同半徑下的聚類中心取平均作為最終聚類中心。

對PDB數(shù)據(jù)庫中的5-mer扭轉(zhuǎn)角聚類進(jìn)行結(jié)構(gòu)分類。根據(jù)拉氏圖中的區(qū)域，將扭轉(zhuǎn)角分為三種類型，即：α螺旋(包括左手和右手α螺旋)、β平面(平行和反平行β平面)、環(huán)(既非α螺旋又非β平面的扭轉(zhuǎn)角被分為第三類)。對5-mer數(shù)據(jù)集Ω中的每一個(gè)5-mer的扭轉(zhuǎn)角列表進(jìn)行分類，根據(jù)扭轉(zhuǎn)角列表中三種類型扭轉(zhuǎn)角所占比例來確定該5-mer中間氨基酸的結(jié)構(gòu)類型。如果該5-mer扭轉(zhuǎn)角列表中主要為α類扭轉(zhuǎn)角則認(rèn)為該5-mer中間氨基酸為α類；若主要為β類扭轉(zhuǎn)角，則認(rèn)為該5-mer中間氨基酸為β類；若扭轉(zhuǎn)角列表中的扭轉(zhuǎn)角既非α類又非β類，則認(rèn)為該5-mer中間氨基酸為環(huán)類；若α類和β類扭轉(zhuǎn)角各半，則認(rèn)為該5-mer中間氨基酸為α和β的混合類；類似地，還可以定義α、β和環(huán)三種結(jié)構(gòu)的混合類，α和環(huán)的混合類，β和環(huán)的混合類。表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。在所有5-mer中，中間氨基酸為α螺旋類的5-mer占比最高(29.21%), 其中以右手α螺旋居多；中間氨基酸為β平面類的5-mer占比為23.62%；中間氨基酸為α、β和環(huán)的混合類的5-mer占20.91%。α螺旋類5-mer的中間氨基酸主要為A,R,Q,E,L,K；β平面類5-mer的中間氨基酸主要為V,I,F,T,Y；α、β和環(huán)的混合類5-mer的中間氨基酸主要為S,L,D,A,E,T。

表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸的扭轉(zhuǎn)角類型，第1列為5-mer的類型，第2、第3列分別為每種類型5-mer的數(shù)量和該種類型5-mer在整個(gè)5-mer數(shù)據(jù)集中所占比例，第4列為每種類型5-mer出現(xiàn)頻率最高的中間氨基酸。

表2 5-mer中間氨基酸的類型統(tǒng)計(jì)Table 2 Structural type statistics for the middle amino acids of 5-mers

表3和表4總結(jié)了二十種常見氨基酸作為5-mer中間氨基酸時(shí)在每種類型5-mer中所占比例。表3和表4中第4～8列為每種類型5-mer對應(yīng)二十種氨基酸所占比例，每一類的百分比之和均為100%。如表3的第4列所示，在所有的α類型5-mer中，丙氨酸(A)作為中間氨基酸出現(xiàn)時(shí)的比例為8.49%，精氨酸(R) 作為中間氨基酸出現(xiàn)時(shí)的比例為6.35%，天冬氨酸(D)作為中間氨基酸出現(xiàn)時(shí)的比例為5.25%，其它氨基酸的情況如表3所示。從表3可以看出每種氨基酸偏好哪種類型的扭轉(zhuǎn)角。例如，在α螺旋類5-mer中，丙氨酸(A)的比例最高(8.49%),說明當(dāng)5-mer中間氨基酸為丙氨酸時(shí)，其扭轉(zhuǎn)角傾向于α螺旋類，或者說在α螺旋類的5-mer中，中間氨基酸為丙氨酸(A)的情況居多。類似地，從表3第5列可以看出，左手α螺旋類的5-mer中，天冬氨酸(D)和天冬酰胺(N)比例最高，天冬氨酸(D)和天冬酰胺(N)在左手α螺旋類的5-mer中分別占比11.68%和26.11%，該比例明顯高于其它氨基酸在左手α螺旋5-mer中所占的比例。

表3 二十種氨基酸在每種5-mer類型中所占比例I Table 3 Proportions of 20 amino acids in each 5-mer type(I ) %

表中列出了每種5-mer類型中，對應(yīng)20種常見氨基酸作為中間氨基酸出現(xiàn)時(shí)所占的比例。表中第1～8列，每一列的比例之和為100%。第1～3列分別為20氨基酸的名稱、英文符號(hào)和縮寫，第4～8列分別表示每種5-mer類型中，20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。表3中的5-mer類型分別為α螺旋、左手α螺旋、右手α螺旋、β平面和環(huán)。如第4列所示，所有α類5-mer中，丙氨酸(A)占8.49%，精氨酸(R)占6.35%，天冬氨酸(D)占5.25%，其它氨基酸的情況如表中所示。表中所示比例均為每種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)的統(tǒng)計(jì)結(jié)果。

表4 二十種氨基酸在每種5-mer類型中所占比例IITable 4 Proportions of 20 amino acids in each 5-mer type(II) %

表4中列出了每種5-mer類型中，20種常見氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占的比例。表4第4～8列中，每一列的比例之和為100%。第1～3列分別為20種氨基酸的名稱、英文符號(hào)和縮寫，第4～8列分別為每種5-mer類型中，20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。表4中的5-mer類型分別為α和β的混合類、α和環(huán)的混合類、β和環(huán)的混合類，以及α、β和環(huán)的混合類。所有α和β的混合類5-mer中，丙氨酸(A)占7.29%，精氨酸(R)占5.61%，天冬氨酸(D)占3.61%，其它氨基酸的情況見表4。

2.2 蛋白質(zhì)的結(jié)構(gòu)類型預(yù)測

利用蛋白質(zhì)的序列信息和PDB數(shù)據(jù)庫中5-mer扭轉(zhuǎn)角統(tǒng)計(jì)信息來預(yù)測蛋白質(zhì)的結(jié)構(gòu)類型。以兩組隨機(jī)抽取的CATH數(shù)據(jù)為例來闡述本方法的有效性。將蛋白質(zhì)序列分為主要α類(C=1)、主要β類(C=2)、混合α和β類(C=3)這三種結(jié)構(gòu)類型。

2.2.1 9組CATH數(shù)據(jù)的分類

從CATH數(shù)據(jù)庫中隨機(jī)抽取9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類研究。這9組CATH數(shù)據(jù)分別來自CATH的三個(gè)主要結(jié)構(gòu)類，從每個(gè)結(jié)構(gòu)類中隨機(jī)抽取3組數(shù)據(jù)。在保證每個(gè)結(jié)構(gòu)類的蛋白質(zhì)數(shù)量是均勻分布的前提下，CATH組的抽取是隨機(jī)。這里所說的CATH組是指按CATH編號(hào)記錄的組。整個(gè)數(shù)據(jù)集含有233條蛋白質(zhì)序列，這9組CATH數(shù)據(jù)在每個(gè)結(jié)構(gòu)類中的分布情況如表5所示。下面僅通過蛋白質(zhì)的序列信息來進(jìn)行結(jié)構(gòu)類型的預(yù)測。

表5中前兩列為CATH的三個(gè)主要結(jié)構(gòu)類型與本例中每個(gè)結(jié)構(gòu)類下的CATH組數(shù)，第3列為每個(gè)結(jié)構(gòu)類下的蛋白質(zhì)個(gè)數(shù)，第4～8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類準(zhǔn)確率。

表5 九組CATH數(shù)據(jù)的分類Table 5 Classification of 9 CATH groups

使用5-mer扭轉(zhuǎn)角法對數(shù)據(jù)集中的蛋白質(zhì)序列進(jìn)行最優(yōu)結(jié)構(gòu)預(yù)測，并根據(jù)預(yù)測結(jié)果中氨基酸扭轉(zhuǎn)角的偏好，將蛋白質(zhì)序列分為3種結(jié)構(gòu)類型。分類結(jié)果如表5所示。將該方法所獲得的分類結(jié)果與平均屬性因子[17]、自然向量[18]、PseAAC[32]、Chou-Fasman[2]的分類結(jié)果進(jìn)行比較，表中第4～8列分別為每種方法的分類準(zhǔn)確率。表5中的分類準(zhǔn)確率是將每個(gè)結(jié)構(gòu)類的蛋白質(zhì)序列正確分類個(gè)數(shù)除以該類中蛋白質(zhì)總個(gè)數(shù)而得到的。從表4中可以看出該新方法可以有效地將這9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類，三種結(jié)構(gòu)類型的分類準(zhǔn)確率分別為87.18%、73.26%、79.71%，結(jié)構(gòu)類型的預(yù)測效果較好。

平均屬性因子和自然向量是兩種蛋白質(zhì)序列特征提取方法，其中平均屬性因子是根據(jù)蛋白質(zhì)的序列信息提取氨基酸物理屬性的平均值作為蛋白質(zhì)序列的特征向量[17]，而自然向量提取的是蛋白質(zhì)序列的氨基酸構(gòu)成和排序，其中自然向量與氨基酸序列是一一對應(yīng)的[18]。利用[17]中所述的最小平方誤差MSE超平面對不同結(jié)構(gòu)類型的蛋白質(zhì)序列的平均屬性因子向量和自然向量進(jìn)行劃分，從而實(shí)現(xiàn)對結(jié)構(gòu)的分類。平均屬性因子的分類準(zhǔn)確率如表5所示，其中第1類(C=1)的準(zhǔn)確率為 75.64%，第2類(C=2) 的準(zhǔn)確率為74.42%，第3類(C=3)的準(zhǔn)確率為76.81%。自然向量的分類結(jié)果為，第1類(C=1)準(zhǔn)確率為84.62%，第2類(C=2)為91.76%，第3類(C=3)為82.61%。

PseAAC是支持向量機(jī)分類中常用的氨基酸序列特征提取方法，用多類支持向量機(jī)來對PseAAC特征進(jìn)行分類，其分類結(jié)果如表5所示。在PseAAC的分類結(jié)果中，三個(gè)結(jié)構(gòu)類的分類準(zhǔn)確率分別為第1類(C=1): 74.36%, 第2類(C=2): 67.44%, 第3類(C=3)：69.57%。Chou-Fasman的分類結(jié)果為，第1類(C=1): 65.38%, 第2類(C=2): 82.43%, 第3類(C=3)：62.69%。

上述所比較的五種分類方法都是通過蛋白質(zhì)的氨基酸序列特征提取來進(jìn)行結(jié)構(gòu)分類或預(yù)測的，其中5-mer扭轉(zhuǎn)角法是根據(jù)5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測，而其它方法是通過對整條蛋白質(zhì)序列進(jìn)行特征提取來進(jìn)行結(jié)構(gòu)類型的預(yù)測的。通過比較這5種方法可以看出， 5-mer扭轉(zhuǎn)角法取得了較好的分類效果。

2.2.2 60組CATH數(shù)據(jù)的分類

使用另一組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。這組數(shù)據(jù)含有60個(gè)CATH組共821條蛋白質(zhì)序列[17]。這60組CATH數(shù)據(jù)取自CATH數(shù)據(jù)庫的三個(gè)主要結(jié)構(gòu)類：主要α結(jié)構(gòu)(C=1);主要β結(jié)構(gòu)(C=2)；α與β混合結(jié)構(gòu)(C=3)。本數(shù)據(jù)集來源于文獻(xiàn)[17]中的結(jié)構(gòu)分類，這60個(gè)CATH組的CATH編號(hào)詳見本文附件材料。所使用的數(shù)據(jù)集與第1個(gè)例子中所使用的數(shù)據(jù)集是隨機(jī)抽取的兩組不同數(shù)據(jù)集，兩個(gè)數(shù)據(jù)集之間沒有交叉。利用 5-mer扭轉(zhuǎn)角法來對這60個(gè)CATH組的蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測，并將預(yù)測結(jié)果與平均屬性因子、自然向量、PseAAC和Chou-Fasman的結(jié)果進(jìn)行比較。

為數(shù)據(jù)集中每一個(gè)蛋白質(zhì)序列計(jì)算最優(yōu)預(yù)測結(jié)構(gòu)，并根據(jù)預(yù)測結(jié)構(gòu)的扭轉(zhuǎn)角偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測。 CATH數(shù)據(jù)的信息和分類結(jié)果如表6所示。在表6中，5-mer扭轉(zhuǎn)角法的分類結(jié)果最優(yōu)，其分類準(zhǔn)確率為：第1類(C=1): 98.97%；第2類(C=2): 77.24%；第3類(C=3): 67.57%。扭轉(zhuǎn)角法的分類準(zhǔn)確率較其它分類方法的準(zhǔn)確率高，其中平均屬性因子的分類準(zhǔn)確率為：第1類(C=1): 66.15%；第2類(C=2): 56.55%；第3類(C=3): 73.18%。自然向量法的分類準(zhǔn)確率為：第一1類(C=1): 57.44%；第2類(C=2): 40.69%；第3類(C=3): 86.90%。PseAAC的分類準(zhǔn)確率為：第1類(C=1): 76.53%, 第二類(C=2): 66.90%, 第三類(C=3): 67.29%；Chou-Fasman的分類準(zhǔn)確率為：第1類(C=1): 75.84%, 第2類(C=2): 64.93%, 第3類(C=3): 58.47%。

表6中前3列分別為CATH的3個(gè)主要結(jié)構(gòu)類以及每個(gè)結(jié)構(gòu)類下的CATH組數(shù)和蛋白質(zhì)個(gè)數(shù)。第4～8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類結(jié)果。

表 6 60 個(gè)CATH組的分類結(jié)果Table 6 Classification results of 60 CATH groups

本例中，平均屬性因子和自然向量在分類效果上與第1個(gè)例子存在差異，主要原因在于這兩種方法利用最小平方誤差超平面對高維實(shí)空間中的特征向量進(jìn)行分類，由于不同數(shù)據(jù)集中的特征向量分布不同，因此得到的分類結(jié)果也不同。5-mer扭轉(zhuǎn)角法的整體分類效果最好，其原因在于扭轉(zhuǎn)角法利用5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行分類，在數(shù)據(jù)集較大時(shí)該方法充分利用了5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征，因此分類效果較好。

3 討論

基于5-mer中間氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測方法是利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)信息來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型的預(yù)測。通過利用5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征進(jìn)行結(jié)構(gòu)預(yù)測，印證了局部蛋白質(zhì)序列對結(jié)構(gòu)的影響。通過CATH數(shù)據(jù)集的分析驗(yàn)證了新方法的有效性。所述該新方法可以通過MATLAB程序?qū)崿F(xiàn)，能夠僅通過蛋白質(zhì)的序列信息來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)類型的快速預(yù)測。

許多蛋白質(zhì)分類方法通過蛋白質(zhì)序列特征提取來實(shí)現(xiàn)結(jié)構(gòu)和功能的分類。例如，自然向量法[18]，k-串字典法[20]，蛋白質(zhì)映射[21-22]，PseAAC等[32]。這些方法利用蛋白質(zhì)序列中的氨基酸成分和排序來實(shí)現(xiàn)分類。其它分類方法，如LIBSVM等[33]機(jī)器學(xué)習(xí)方法，是監(jiān)督型的分類方法，需要使用訓(xùn)練數(shù)據(jù)才能夠進(jìn)行分類。對于蛋白質(zhì)的結(jié)構(gòu)分類，機(jī)器學(xué)習(xí)分類方法占有很重要的地位[8-16,33-37]。其它分類方法還有基于信息理論和網(wǎng)絡(luò)分支的分類方法[38]，該方法利用互信息和網(wǎng)絡(luò)分支來對蛋白質(zhì)的結(jié)構(gòu)和序列進(jìn)行分類。此外，平均屬性因子[17]利用氨基酸的10種物理屬性在序列中的平均值，來實(shí)現(xiàn)對蛋白質(zhì)結(jié)構(gòu)類型的分類[17,39]。該方法從氨基酸物理屬性的角度闡釋了蛋白質(zhì)序列與結(jié)構(gòu)的關(guān)系。

其它蛋白質(zhì)結(jié)構(gòu)預(yù)測方法還有I-TASSER和Robetta等。這兩種方法利用同源序列模板來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)的預(yù)測[6-7]，并以網(wǎng)絡(luò)服務(wù)器的形式提供方法對應(yīng)的服務(wù) 。

利用最小序列單元即5-mer的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型預(yù)測是一種新方法。該方法利用PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好，驗(yàn)證了局部序列環(huán)境對結(jié)構(gòu)的影響。該方法可以通過MATLAB編程實(shí)現(xiàn)，通過兩組CATH數(shù)據(jù)驗(yàn)證了新方法的有效性。

研究表明，每種分類算法都具有一定的準(zhǔn)確率，盡管隨著科技的發(fā)展，分類的準(zhǔn)確率會(huì)有所提高，然而由于計(jì)算誤差以及序列和結(jié)構(gòu)之間關(guān)系的復(fù)雜性，準(zhǔn)確率上限仍然難以達(dá)到100%[40-43]。通過與平均屬性因子、自然向量、PseAAC，以及Chou-Fasman的分類結(jié)果進(jìn)行比較發(fā)現(xiàn)，該新方法的分類準(zhǔn)確率整體優(yōu)于其它分類方法，尤其是在大數(shù)據(jù)集的分類時(shí)優(yōu)勢明顯，這是因?yàn)樵摲椒ǔ浞掷昧伺まD(zhuǎn)角的統(tǒng)計(jì)特征來實(shí)現(xiàn)分類，當(dāng)數(shù)據(jù)集較大時(shí)統(tǒng)計(jì)特征較明顯。平均屬性因子和自然向量法利用MSE超平面實(shí)現(xiàn)對序列特征向量的劃分，其中MSE超平面是通過矩陣偽逆計(jì)算得到的，對每一個(gè)固定數(shù)據(jù)集來說，超平面的分類結(jié)果是唯一確定的。PseAAC方法利用支持向量機(jī)來進(jìn)行分類，其分類結(jié)果較好；Chou-Fasman方法則通過計(jì)算氨基酸構(gòu)象傾向因子來進(jìn)行結(jié)構(gòu)類型的預(yù)測，當(dāng)數(shù)據(jù)集較大時(shí)其分類結(jié)果與PseAAC的結(jié)果相似。所比較的5種方法均利用氨基酸序列的特征來實(shí)現(xiàn)對結(jié)構(gòu)的分類，每種方法的差異在于提取的序列特征角度不同。5-mer扭轉(zhuǎn)角法側(cè)重于利用局部序列環(huán)境對扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響來進(jìn)行分類，而其它方法則是對整個(gè)序列進(jìn)行特征提取和分類。

研究結(jié)果表明局部序列環(huán)境對氨基酸扭轉(zhuǎn)角的偏好具有一定影響，該結(jié)果可用于蛋白質(zhì)序列的快速結(jié)構(gòu)類型預(yù)測。在局部序列環(huán)境中，氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好與其相鄰氨基酸的扭轉(zhuǎn)角偏好有關(guān)。例如，在同一個(gè)α域中，相鄰氨基酸傾向于具有相近的扭轉(zhuǎn)角值，即骨干肽鏈中相鄰氨基酸的扭轉(zhuǎn)角具有相似的值，從而使得α螺旋形成一個(gè)穩(wěn)定的結(jié)構(gòu)。相鄰氨基酸的扭轉(zhuǎn)角偏好，以及在拼接過程中最優(yōu)預(yù)測結(jié)構(gòu)的選擇，有助于蛋白質(zhì)結(jié)構(gòu)類型的正確分類。相反，在混合α和β結(jié)構(gòu)類中，環(huán)和連接α(螺旋)和β(平面)區(qū)域的內(nèi)聚部分不具有類似規(guī)律的模式，即混合結(jié)構(gòu)的規(guī)律不如單純?chǔ)粱騿渭儲(chǔ)陆Y(jié)構(gòu)的規(guī)律明顯。因此，通過規(guī)律模式來對混合結(jié)構(gòu)進(jìn)行分類時(shí)，其準(zhǔn)確率不如其它純?chǔ)粱蚣儲(chǔ)陆Y(jié)構(gòu)的分類準(zhǔn)確率高。盡管如此，三種結(jié)構(gòu)類型仍然能夠通過本文所述方法進(jìn)行合理的分類。

蛋白質(zhì)結(jié)構(gòu)分類方法表明，局部序列環(huán)境對結(jié)構(gòu)的選擇具有重要影響?？梢酝ㄟ^該新方法實(shí)現(xiàn)對新蛋白質(zhì)序列結(jié)構(gòu)類型的快速預(yù)測。

4 結(jié) 論

通過研究局部序列對氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響，提出了一種新的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測方法，該方法利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測蛋白質(zhì)序列的結(jié)構(gòu)類型。新方法可以快速地通過氨基酸序列實(shí)現(xiàn)結(jié)構(gòu)類型的預(yù)測。研究驗(yàn)證了蛋白質(zhì)局部序列對結(jié)構(gòu)的影響，在一定程度上反映了蛋白質(zhì)序列與結(jié)構(gòu)之間的聯(lián)系。

致謝：感謝北京化工大學(xué)提供研究場所和相關(guān)設(shè)施。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放