亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-mer扭轉(zhuǎn)角偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測

        2021-05-06 02:01:16
        生物信息學(xué) 2021年1期
        關(guān)鍵詞:氨基酸聚類向量

        萬 曉 耕

        (北京化工大學(xué) 數(shù)理學(xué)院,北京 100029)

        蛋白質(zhì)是生命過程中的重要有機(jī)物,其序列、結(jié)構(gòu)和功能多種多樣。蛋白質(zhì)由20種氨基酸通過肽鍵結(jié)合形成肽鏈,這些肽鏈通過折疊形成多種多樣的結(jié)構(gòu)[1]。蛋白質(zhì)的序列決定結(jié)構(gòu),而序列和結(jié)構(gòu)又決定了它的功能[1]。研究蛋白質(zhì)的結(jié)構(gòu)分類和預(yù)測對深入了解蛋白質(zhì)的作用和功能具有重要意義。蛋白質(zhì)結(jié)構(gòu)的研究分為蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究和對其空間結(jié)構(gòu)的研究,其中蛋白質(zhì)的二級(jí)結(jié)構(gòu)指的是其骨干肽鏈的結(jié)構(gòu)。蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以分為不同的結(jié)構(gòu)類型。例如,在CATH數(shù)據(jù)庫中,蛋白質(zhì)的二級(jí)結(jié)構(gòu)分為三個(gè)主要結(jié)構(gòu)類型:主要α結(jié)構(gòu)(Mainlyαstructures)類,主要β結(jié)構(gòu)(Mainlyβstructures)類,和混合α與β結(jié)構(gòu)(Mixedαandβstructures)類[1]。蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測通常利用蛋白質(zhì)的氨基酸序列信息預(yù)測其可能形成的二級(jí)結(jié)構(gòu)類型。常用的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方法包括人工神經(jīng)網(wǎng)絡(luò)法、最近鄰法和支持向量機(jī)法等[1]。一些經(jīng)典的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測方法包括Chou-Fasman[2]、GOR[3]、 PHD[4]、CONCORD[5]、 I-TASSER[6], 以及Robetta[7]等方法。

        蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以進(jìn)一步分為不同的折疊結(jié)構(gòu)。Ding和Dubchak提出了一種基于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的多類蛋白質(zhì)折疊識(shí)別方法[8]。Edler和Grassmann做出了關(guān)于統(tǒng)計(jì)學(xué)方法在蛋白質(zhì)折疊類預(yù)測中的角色和結(jié)果的研究[9]。 Huang等提出了一種基于分層學(xué)習(xí)體系結(jié)構(gòu)的帶自動(dòng)特征選擇的蛋白質(zhì)折疊分類方法[10]。Jo等做出了利用深度學(xué)習(xí)網(wǎng)絡(luò)來改進(jìn)蛋白質(zhì)折疊識(shí)別的研究[11]。Khan和Shahzad提出了一種新的受螞蟻啟發(fā)的基于關(guān)聯(lián)規(guī)則分類器的蛋白質(zhì)分類方法[12]。Markowetz、Edler和Vingron做出了一項(xiàng)基于支持向量機(jī)的關(guān)于蛋白質(zhì)折疊類預(yù)測的研究[13]。Tan, Gilbert和Deville提出了一種基于新的集成機(jī)器學(xué)習(xí)方法的多類蛋白質(zhì)折疊分類方法[14]。Wei等提出了一種基于新特征提取技術(shù)的增強(qiáng)的蛋白質(zhì)折疊識(shí)別方法[15]。Wei和Zou總結(jié)了關(guān)于基于機(jī)器學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法研究進(jìn)展綜述[16]。

        蛋白質(zhì)的二級(jí)結(jié)構(gòu)也可以通過氨基酸的物理、化學(xué)性質(zhì)來進(jìn)行分類。Rackovsky在文獻(xiàn)[17]中提出利用氨基酸的物理屬性對蛋白質(zhì)二級(jí)結(jié)構(gòu)類型進(jìn)行分類的研究。該研究利用10種主要的氨基酸物理屬性將CATH數(shù)據(jù)按三種主要結(jié)構(gòu)類型(主要α類、主要β類、混合α和β結(jié)構(gòu)類)進(jìn)行分類。該研究表明蛋白質(zhì)的結(jié)構(gòu)與氨基酸的物理屬性具有一定的聯(lián)系[17]。

        蛋白質(zhì)序列的特征提取對研究蛋白質(zhì)的結(jié)構(gòu)具有重要應(yīng)用[18]。自然向量通過計(jì)算氨基酸的成分和排序?qū)⒌鞍踪|(zhì)序列映射成60維實(shí)空間中的向量,每一個(gè)序列的自然向量與該序列是一一對應(yīng)的[18]。由自然向量法可以導(dǎo)出一系列其它的序列特征提取方法[19],如:K-串字典法[20]、蛋白質(zhì)映射[21-22]等。這些特征提取法可用于提取蛋白質(zhì)的序列特征,進(jìn)而用于對其結(jié)構(gòu)的分類和預(yù)測。

        利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來對蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測和分類是一種新的蛋白質(zhì)二級(jí)結(jié)構(gòu)分類方法。該方法從PDB數(shù)據(jù)庫中獲取5-mer的統(tǒng)計(jì)信息,并通過對5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)和聚類,經(jīng)過組合、打分、篩選和拼接實(shí)現(xiàn)對蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測,即將蛋白質(zhì)序列按CATH的分類分為三種主要結(jié)構(gòu)類型:主要α結(jié)構(gòu)類、主要β結(jié)構(gòu)類,混合α和β結(jié)構(gòu)類。該新方法源于I-TASSER和Robetta這兩種服務(wù)器式預(yù)測方法,與I-TASSER和Robetta的主要區(qū)別在于,新方法基于局部序列環(huán)境對扭轉(zhuǎn)角偏好的影響,即通過統(tǒng)計(jì)局部序列單元即5-mer的扭轉(zhuǎn)角偏好,實(shí)現(xiàn)蛋白質(zhì)二級(jí)結(jié)構(gòu)類型的預(yù)測,而I-TASSER與Robetta則是通過同源模板的匹配來進(jìn)行結(jié)構(gòu)預(yù)測和分類。

        在研究方法中,詳細(xì)介紹該新方法的實(shí)現(xiàn)過程和步驟,并提供方法實(shí)現(xiàn)的流程圖。在結(jié)果中,展示5-mer的統(tǒng)計(jì)分析結(jié)果,以及兩組隨機(jī)抽取的CATH數(shù)據(jù)的結(jié)構(gòu)分類結(jié)果,所有分類結(jié)果均與四種基于序列特征的結(jié)構(gòu)預(yù)測或分類方法進(jìn)行比較,這四種方法分別為:(1)基于平均屬性因子和自然向量特征提取的最小平方誤差(MSE)超平面[2]分類方法;(2)PseAAC的支持向量機(jī)分類方法;(3)Chou-Fasman方法。在討論部分,詳細(xì)總結(jié)和討論了新方法的特點(diǎn)和有效性。

        1 研究方法

        分步介紹5-mer扭轉(zhuǎn)角分類方法的實(shí)現(xiàn)步驟。主要分為兩部分:(1)PDB數(shù)據(jù)庫中5-mer中間氨基酸扭轉(zhuǎn)角結(jié)構(gòu)偏好的統(tǒng)計(jì)分析;(2)利用5-mer中間氨基酸結(jié)構(gòu)統(tǒng)計(jì)偏好對蛋白質(zhì)序列的結(jié)構(gòu)類型進(jìn)行預(yù)測。

        1.1 5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)分析與聚類

        1.1.1 5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)分析

        首先統(tǒng)計(jì)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角結(jié)構(gòu)類型。從PDB數(shù)據(jù)庫中提取氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。PDB數(shù)據(jù)庫中包含超過100 000 條X-Ray實(shí)驗(yàn)獲取的PDB結(jié)構(gòu),通過數(shù)據(jù)庫中的這些PDB結(jié)構(gòu)信息來獲取5-mer的統(tǒng)計(jì)信息。所謂5-mer即是由5個(gè)相鄰氨基酸組成的長度為5的局部序列。對5-mer進(jìn)行統(tǒng)計(jì)分析不僅可以獲取充足的統(tǒng)計(jì)數(shù)據(jù),而且5-mer是能體現(xiàn)局部結(jié)構(gòu)的最小序列單元。在文獻(xiàn)[23]中, Morikawa提出長度為5的氨基酸序列可用于表示蛋白質(zhì)序列的局部結(jié)構(gòu)分布。一方面,長度為5的局部序列已經(jīng)能夠充分表示蛋白質(zhì)的局部結(jié)構(gòu)傾向,更短的序列無法充分表達(dá)局部序列對結(jié)構(gòu)的影響。另一方面,表達(dá)局部結(jié)構(gòu)的氨基酸序列不應(yīng)過長,過長的序列會(huì)導(dǎo)致無法獲取足夠數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。長度為5的局部序列既保證了充足數(shù)量的統(tǒng)計(jì)數(shù)據(jù),又能夠體現(xiàn)局部序列對結(jié)構(gòu)的影響。

        給定一條長度為L的氨基酸序列a1a2…aL,該序列中共含有L-4個(gè)5-mer:ai-2ai-1aiai+1ai+2, 3≤i≤L-3。為了預(yù)測這條氨基酸序列的結(jié)構(gòu)類型, 統(tǒng)計(jì)PDB數(shù)據(jù)庫中通過X-Ray實(shí)驗(yàn)獲得的PDB結(jié)構(gòu)中5-mer中間氨基酸的扭轉(zhuǎn)角信息,并通過聚類獲取5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

        1.1.2 拉氏圖中扭轉(zhuǎn)角的聚類分析

        從PDB數(shù)據(jù)庫中獲取所有可能出現(xiàn)的5-mer序列,以及其出現(xiàn)頻數(shù)和中間氨基酸的(φ,ψ) 扭轉(zhuǎn)角列表。每一種5-mer都對應(yīng)一個(gè)記錄其中間氨基酸扭轉(zhuǎn)角值的列表,通過對列表中扭轉(zhuǎn)角值的聚類分析來獲取5-mer中間氨基酸扭轉(zhuǎn)角的結(jié)構(gòu)偏好。

        將每一種5-mer扭轉(zhuǎn)角列表中的(φ,ψ)值畫在同一張拉氏圖中,圖中所有的(φ,ψ)點(diǎn)都落在[-180,180]×[-180,180] 區(qū)域內(nèi)。使用下列方法來獲取每種5-mer中間氨基酸扭轉(zhuǎn)角的聚類。

        首先,在拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)的整坐標(biāo)點(diǎn)上定義濃度:

        (1)

        其中Nr(φ,ψ) 表示該拉氏圖中落入圓心為(φ,ψ)半徑為r的閉圓域內(nèi)的扭轉(zhuǎn)角個(gè)數(shù),N表示整個(gè)拉氏圖中總的扭轉(zhuǎn)角點(diǎn)數(shù),即5-mer扭轉(zhuǎn)角列表中的(φ,ψ)扭轉(zhuǎn)角個(gè)數(shù),也即該5-mer在PDB數(shù)據(jù)庫中出現(xiàn)的次數(shù)。該濃度值即為給定5-mer的扭轉(zhuǎn)角列表中落入整坐標(biāo)點(diǎn)(φ,ψ)的閉圓域內(nèi)的扭轉(zhuǎn)角比例。計(jì)算拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)361x361個(gè)整坐標(biāo)點(diǎn)對應(yīng)的濃度值。扭轉(zhuǎn)角的聚類即為拉氏圖中扭轉(zhuǎn)角的局部聚集區(qū)域。將拉氏圖中局部濃度峰值所在坐標(biāo)定義為聚類的中心。

        為了研究圓域半徑r對濃度的影響,將r從1 到20進(jìn)行遍歷并計(jì)算相應(yīng)的濃度值。給出了一個(gè)在不同圓域半徑下進(jìn)行聚類分析的例子(見圖1),當(dāng)r較小時(shí),聚類較為離散;而當(dāng)r增大時(shí),聚類的分布變得較為平坦。通過比較發(fā)現(xiàn),不同圓域半徑對應(yīng)的聚類相似。發(fā)現(xiàn)r=10左右為識(shí)別聚類的理想值。為了避免圓域半徑對聚類的影響,對r從1到20變化時(shí)計(jì)算得到的扭轉(zhuǎn)角聚類中心取平均作為最終的聚類中心,該聚類中心代表了相應(yīng)5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

        圖1 不同濃度半徑下的聚類情況Fig.1 Clustering situations with different density radius

        圖1顯示了濃度半徑r=1,3,5,10,15,20對應(yīng)的扭轉(zhuǎn)角聚類情況。以5-mer ‘NLYFQ’為例計(jì)算不同濃度半徑下的聚類情況。可以看出不同半徑對應(yīng)的聚類位置不變,而聚類隨著半徑的增加變得更加平坦。用Ω表示PDB數(shù)據(jù)庫中所有5-mer的集合。記S為Ω中的一個(gè)5-mer,其中間氨基酸扭轉(zhuǎn)角的聚類個(gè)數(shù)為MS,用Ci(s) 表示S中間氨基酸扭轉(zhuǎn)角的聚類中心(i=1,…,Ms)。5-mer中間氨基酸扭轉(zhuǎn)角的聚類反映了在該5-mer:ai-2ai-1aiai+1ai+2序列環(huán)境下,中間氨基酸ai的扭轉(zhuǎn)角取值傾向。用上述濃度分析5-mer集合Ω中每一個(gè)5-mer中間氨基酸的扭轉(zhuǎn)角聚類情況。

        1.2 蛋白質(zhì)序列結(jié)構(gòu)類型的預(yù)測

        利用已經(jīng)獲取Ω中所有5-mer中間氨基酸的扭轉(zhuǎn)角聚類來實(shí)現(xiàn)蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測。整個(gè)預(yù)測過程分為三個(gè)階段:(1)分段與聚類,(2)打分和分組,(3)拼接與篩選。

        1.2.1 序列分段與扭轉(zhuǎn)角的聚類

        (1)序列分段 設(shè)a1a2…aL是一條長度為L的氨基酸序列。在該序列中,除了開頭兩個(gè)和結(jié)尾兩個(gè)氨基酸外,每個(gè)氨基酸都可以看成序列中某個(gè)5-mer的中間氨基酸。例如,a3是5-mer:a1a2a3a4a5的中間氨基酸。一般情況下,ai是5-mer:ai-2ai-1aiai+1ai+2的中間氨基酸,3≤i≤L-2。

        由于利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測蛋白質(zhì)序列的結(jié)構(gòu)類型,因此對于序列a1a2…aL來說,實(shí)際上預(yù)測的是子序列a3a4…aL-3aL-2的結(jié)構(gòu)類型。開頭和結(jié)尾各兩個(gè)氨基酸作為第一個(gè)和最后一個(gè)5-mer的背景氨基酸。將a3a4…aL-3aL-2分成首尾相接的5-mer序列段:a3a4a5a6a7,a8a9a10a11a12,…,a5i-2a5i-1a5ia5i+1a5i+2,…, 最后一個(gè)序列段可能長度不足5,因此不一定是一個(gè)完整的5-mer。

        表1 序列段Si對應(yīng)的5-mer中間氨基酸扭轉(zhuǎn)角聚類中心 Table 1 Torsion angle cluster centers for the middle amino acids of 5-mers in sequence segment Si

        1.2.2 結(jié)構(gòu)類型的預(yù)測

        (1)打分策略 在序列段Si:a5i-2a5i-1a5ia5i+1a5i+2的Mi種聚類組合中,每一種聚類組合可以表示為:

        pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)
        Ck4(si,4)Ck5(si,5),

        (2)

        其中1≤kj≤Msi,j為第j個(gè)(j=1,2,3,4,5)氨基酸的聚類索引,Msi,j為第j個(gè)氨基酸的聚類總個(gè)數(shù),Ckj(si,j)∈{Ck(si,j)|k=1,…,Msi,j}表示每個(gè)5-mersi,j中間氨基酸的扭轉(zhuǎn)角聚類中心。定義閾值T>0 和一個(gè) 1×4維距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4),其中dj表示聚類中心Ckj(si,j)和Ckj+1(si,j+1)之間的歐氏距離, 即dj=|Ckj(si,j)-Ckj+1(si,j+1)|,j=1,2,3,4。利用閾值T來過濾距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4), 并獲得一個(gè)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4),其中邏輯值bj定義如下:

        (3)

        給定聚類組合pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)Ck4(si,4)Ck5(si,5), 邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)表示序列段Si中相鄰兩個(gè)氨基酸扭轉(zhuǎn)角聚類中心之間的距離。若bj=1, 則相鄰氨基酸的(φ,ψ)扭轉(zhuǎn)角聚類中心Ckj(si,j)與Ckj+1(si,j+1)之間的距離不超過閾值T。

        統(tǒng)計(jì)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)中連續(xù)1串的長度和個(gè)數(shù)。例如, 邏輯值向量bk1k2k3k4k5(Si)=(1,0,1,1) 有兩個(gè)1串,一個(gè)(第一個(gè)分量)長度為1,另一個(gè)(最后兩個(gè)分量)長度為2。對于序列段Si,用ni表示其邏輯值向量中1串的個(gè)數(shù),用lk,k=1,2,…,ni表示每個(gè)1串的長度,則序列段Si中聚類組合pk1k2k3k4k5(Si)的分值定義為:

        (4)

        其中kj=1,2,…,Msi,j(j=1,2,3,4,5) 表示序列段Si中第j個(gè)氨基酸對應(yīng)5-mer的聚類索引,ni表示這個(gè)聚類組合邏輯值向量中1串的個(gè)數(shù),lk(k=1,2,…,ni)表示邏輯值向量中第k個(gè)1串的長度。

        (2)分組 按上述方法計(jì)算序列段Si中每一種聚類組合pk1k2k3k4k5(Si)的分值Ωk1k2k3k4k5(Si) ,并通過下述方法將其分為不同的結(jié)構(gòu)類型。對序列段Si的任意一個(gè)聚類組合pk1k2k3k4k5(Si) ,定義為:

        (5)

        將每個(gè)結(jié)構(gòu)類Gk(Si),k=1,2,…,Ng(Si),中打分最高的扭轉(zhuǎn)角聚類組合選為該結(jié)構(gòu)類的代表,即當(dāng):

        (6)

        時(shí),選擇聚類組合pk'1k'2k'3k'4k'5(Si)=Ck'1(si,1)Ck'2(si,2)Ck'3(si,3)Ck'4(si,4)Ck'5(si,5)為該結(jié)構(gòu)類的代表。從每個(gè)結(jié)構(gòu)類中選取打分最高的扭轉(zhuǎn)角聚類組合作為該結(jié)構(gòu)類的代表,因此獲得一個(gè)預(yù)測結(jié)構(gòu)的列表:

        (7)

        在拼接與篩選階段,使用一個(gè)迭代的拼接策略。從第一個(gè)序列段S1開始,將序列段S1與S2的結(jié)構(gòu)拼接在一起形成序列段S1S2的結(jié)構(gòu)。記NP(Si) 為序列段Si的預(yù)測結(jié)構(gòu)數(shù),則序列段S1與S2拼接后的預(yù)測結(jié)構(gòu)數(shù)為NP(S1)·NP(S2)。

        將列段S1S2的所有Np(S1)·Np(S2)個(gè)預(yù)測結(jié)構(gòu)的扭轉(zhuǎn)角聚類組合記為集合{p(S1S2)}。為序列段S1S2相鄰扭轉(zhuǎn)角聚類中心計(jì)算一個(gè)1×9維的距離向量d(S1S2)=(d1,d2,d3,d4,d5,d6,d7,d8,d9)以及相應(yīng)的1×9維邏輯值向量b(S1S2)=(b1,b2,b3,b4,b5,b6,b7,b8,b9)。接下來,從邏輯值向量出發(fā)來計(jì)算每個(gè)結(jié)構(gòu)組合的分值:

        (8)

        其中n表示邏輯值向量中1-串的個(gè)數(shù),lk表示每個(gè)1串的長度。為所有NP(S1)·NP(S2) 種結(jié)構(gòu)組合計(jì)算分值,獲得一個(gè)相應(yīng)于集合{p(S1S2)}的結(jié)構(gòu)組合打分列表{Ω(S1S2)}。從打分列表中選取分值最高的5個(gè)結(jié)構(gòu)為序列段S1S2的預(yù)測結(jié)構(gòu)。

        在第i個(gè)迭代循環(huán)中,獲得序列段S1S2…Si的5個(gè)最優(yōu)預(yù)測結(jié)構(gòu){p(S1S2…Si)}。接下來,將序列段S1S2…Si與Si+1進(jìn)行拼接。類似于上述步驟,總共獲得Np(S1S2…Si)·Np(Si+1)種組合結(jié)構(gòu){p(S1S2…Si+1)}。通過計(jì)算相鄰氨基酸扭轉(zhuǎn)角聚類中心的距離向量d(S1S2…Si+1)=(d1,d2,…,d5*(i+1)-1)和邏輯值向量b(S1S2…Si+1)=(b1,b2,…,b5*(i+1)-1)來為拼接結(jié)構(gòu)進(jìn)行打分。對所有的結(jié)構(gòu)組合{p(S1S2…Si+1)}計(jì)算打分列表{Ω(S1S2…Si+1)},并選取其中分值最高的5個(gè)拼接結(jié)構(gòu)作為序列段S1S2…Si+1的預(yù)測結(jié)構(gòu)。

        迭代過程一直到所有序列段都拼接起來為止。最后,從整條序列的打分列表中選取分值最高的5個(gè)結(jié)構(gòu)作為最終的預(yù)測結(jié)構(gòu)。預(yù)測方法的流程圖(見圖2)。

        圖2 5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測法流程圖Fig.2 Flow chart for the structural prediction method based on torsion angle of 5-mers

        圖2顯示了5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測方法的流程圖。流程圖主要分為兩部分:(1)5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)與聚類分析;(2)氨基酸扭轉(zhuǎn)角聚類的組合、拼接與篩選。

        (4) 結(jié)構(gòu)的分類與準(zhǔn)確率 通過上述步驟,每一條蛋白質(zhì)序列得到5個(gè)最優(yōu)(分值最高)預(yù)測結(jié)構(gòu),利用這5個(gè)最優(yōu)結(jié)構(gòu)來判斷蛋白質(zhì)的結(jié)構(gòu)類型。對于每個(gè)預(yù)測結(jié)構(gòu)來說,它的結(jié)構(gòu)類型取決于該結(jié)構(gòu)中不同結(jié)構(gòu)類型扭轉(zhuǎn)角的統(tǒng)計(jì)頻率。在拉氏圖中,α螺旋和β平面這兩種不同結(jié)構(gòu)的(φ,ψ)扭轉(zhuǎn)角位于拉氏圖中的不同區(qū)域[25-29]。α螺旋對應(yīng)的扭轉(zhuǎn)角集中于(-60°,-45°)附近的區(qū)域內(nèi)[25-29]。更一般地,在α螺旋結(jié)構(gòu)中,一個(gè)氨基酸殘基的ψ角和下一個(gè)氨基酸殘基的φ角之和大致接近于-105°[25-29]。因此,α螺旋的扭轉(zhuǎn)角在拉氏圖中一般散布于由(-90°,-15°) 到 (-35°,-70°)的對角線(斜率為-1)區(qū)域內(nèi)[25-29]。α螺旋既有右手α螺旋,也有左手α螺旋,其中最普遍的為右手α螺旋。左手α螺旋的扭轉(zhuǎn)角在拉氏圖中分布于與右手α螺旋關(guān)于原點(diǎn)對稱的區(qū)域。將右手和左手α螺旋統(tǒng)稱為α螺旋,并將落在左手或右手α螺旋區(qū)域及附近的扭轉(zhuǎn)角通稱為α類扭轉(zhuǎn)角。

        β平面的扭轉(zhuǎn)角通常落在 (-135°,135°) 附近的區(qū)域內(nèi)(大致來說,在拉氏圖的左上角區(qū)域),并且明顯偏離構(gòu)象(-180°,180°)[26-29]。在平行β平面中,扭轉(zhuǎn)角接近于 (-120°,115°), 而在反平行β平面中(φ,ψ)扭轉(zhuǎn)角接近于(-140°,135°)。考慮平行和反平行的β平面,并將兩種β平面結(jié)構(gòu)統(tǒng)稱為β平面,落在β平面扭轉(zhuǎn)角區(qū)域及附近的扭轉(zhuǎn)角通稱為β類扭轉(zhuǎn)角[27-30]。落在α類和β類扭轉(zhuǎn)角區(qū)域外的扭轉(zhuǎn)角則被分為第三類,該類扭轉(zhuǎn)角對應(yīng)于無規(guī)則的“環(huán)”[31]。

        統(tǒng)計(jì)每個(gè)最優(yōu)結(jié)構(gòu)中上述三種類型扭轉(zhuǎn)角出現(xiàn)的頻率。若α類扭轉(zhuǎn)角頻率最高且α類扭轉(zhuǎn)角頻率明顯高于其它類扭轉(zhuǎn)角時(shí),認(rèn)為該預(yù)測結(jié)構(gòu)為主要α結(jié)構(gòu)類(C=1);若β類扭轉(zhuǎn)角的頻率最高且β類扭轉(zhuǎn)角的頻率明顯高于其它類扭轉(zhuǎn)角時(shí),該預(yù)測結(jié)構(gòu)被認(rèn)為屬于主要β結(jié)構(gòu)類(C=2);若不滿足前兩種情況,則認(rèn)為該預(yù)測結(jié)構(gòu)為α與β的混合類(C=3)。

        統(tǒng)計(jì)數(shù)據(jù)集中每種結(jié)構(gòu)類型下獲得正確分類的蛋白質(zhì)序列數(shù)并記為vi,角標(biāo)i=1,2,3分別對應(yīng)CATH的三種主要結(jié)構(gòu)類型。我們將該頻數(shù)除以數(shù)據(jù)集中該結(jié)構(gòu)類下真實(shí)的蛋白質(zhì)序列數(shù)Ni,得到該結(jié)構(gòu)類型的分類正確率為:

        (9)

        2 結(jié)果分析

        分析和總結(jié)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好,并利用兩組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。

        2.1 5-mer扭轉(zhuǎn)角的偏好統(tǒng)計(jì)

        統(tǒng)計(jì)PDB數(shù)據(jù)庫中蛋白質(zhì)序列的5-mer及其中間氨基酸的扭轉(zhuǎn)角列表,并對得到的5-mer扭轉(zhuǎn)角列表進(jìn)行聚類分析。在聚類分析中,使用不同的圓域半徑來計(jì)算扭轉(zhuǎn)角的聚類并取平均。以5-mer ‘NLYFQ’為例, 圖1顯示了用不同半徑r得到的濃度矩陣彩圖。從圖1可以看出,不同半徑r得到的聚類位置不變;當(dāng)半徑增大時(shí),聚類變得較為平坦。分別計(jì)算半徑r=1,2,…, 20對應(yīng)的聚類中心,并對不同半徑下的聚類中心取平均作為最終聚類中心。

        對PDB數(shù)據(jù)庫中的5-mer扭轉(zhuǎn)角聚類進(jìn)行結(jié)構(gòu)分類。根據(jù)拉氏圖中的區(qū)域,將扭轉(zhuǎn)角分為三種類型,即:α螺旋(包括左手和右手α螺旋)、β平面(平行和反平行β平面)、環(huán)(既非α螺旋又非β平面的扭轉(zhuǎn)角被分為第三類)。對5-mer數(shù)據(jù)集Ω中的每一個(gè)5-mer的扭轉(zhuǎn)角列表進(jìn)行分類,根據(jù)扭轉(zhuǎn)角列表中三種類型扭轉(zhuǎn)角所占比例來確定該5-mer中間氨基酸的結(jié)構(gòu)類型。如果該5-mer扭轉(zhuǎn)角列表中主要為α類扭轉(zhuǎn)角則認(rèn)為該5-mer中間氨基酸為α類;若主要為β類扭轉(zhuǎn)角,則認(rèn)為該5-mer中間氨基酸為β類;若扭轉(zhuǎn)角列表中的扭轉(zhuǎn)角既非α類又非β類,則認(rèn)為該5-mer中間氨基酸為環(huán)類;若α類和β類扭轉(zhuǎn)角各半,則認(rèn)為該5-mer中間氨基酸為α和β的混合類;類似地,還可以定義α、β和環(huán)三種結(jié)構(gòu)的混合類,α和環(huán)的混合類,β和環(huán)的混合類。表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。在所有5-mer中,中間氨基酸為α螺旋類的5-mer占比最高(29.21%), 其中以右手α螺旋居多;中間氨基酸為β平面類的5-mer占比為23.62%;中間氨基酸為α、β和環(huán)的混合類的5-mer占20.91%。α螺旋類5-mer的中間氨基酸主要為A,R,Q,E,L,K;β平面類5-mer的中間氨基酸主要為V,I,F,T,Y;α、β和環(huán)的混合類5-mer的中間氨基酸主要為S,L,D,A,E,T。

        表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸的扭轉(zhuǎn)角類型,第1列為5-mer的類型,第2、第3列分別為每種類型5-mer的數(shù)量和該種類型5-mer在整個(gè)5-mer數(shù)據(jù)集中所占比例,第4列為每種類型5-mer出現(xiàn)頻率最高的中間氨基酸。

        表2 5-mer中間氨基酸的類型統(tǒng)計(jì)Table 2 Structural type statistics for the middle amino acids of 5-mers

        表3和表4總結(jié)了二十種常見氨基酸作為5-mer中間氨基酸時(shí)在每種類型5-mer中所占比例。表3和表4中第4~8列為每種類型5-mer對應(yīng)二十種氨基酸所占比例,每一類的百分比之和均為100%。如表3的第4列所示,在所有的α類型5-mer中,丙氨酸(A)作為中間氨基酸出現(xiàn)時(shí)的比例為8.49%,精氨酸(R) 作為中間氨基酸出現(xiàn)時(shí)的比例為6.35%,天冬氨酸(D)作為中間氨基酸出現(xiàn)時(shí)的比例為5.25%,其它氨基酸的情況如表3所示。從表3可以看出每種氨基酸偏好哪種類型的扭轉(zhuǎn)角。例如,在α螺旋類5-mer中,丙氨酸(A)的比例最高(8.49%),說明當(dāng)5-mer中間氨基酸為丙氨酸時(shí),其扭轉(zhuǎn)角傾向于α螺旋類,或者說在α螺旋類的5-mer中,中間氨基酸為丙氨酸(A)的情況居多。類似地,從表3第5列可以看出,左手α螺旋類的5-mer中,天冬氨酸(D)和天冬酰胺(N)比例最高,天冬氨酸(D)和天冬酰胺(N)在左手α螺旋類的5-mer中分別占比11.68%和26.11%,該比例明顯高于其它氨基酸在左手α螺旋5-mer中所占的比例。

        表3 二十種氨基酸在每種5-mer類型中所占比例I Table 3 Proportions of 20 amino acids in each 5-mer type(I ) %

        表中列出了每種5-mer類型中,對應(yīng)20種常見氨基酸作為中間氨基酸出現(xiàn)時(shí)所占的比例。表中第1~8列,每一列的比例之和為100%。第1~3列分別為20氨基酸的名稱、英文符號(hào)和縮寫,第4~8列分別表示每種5-mer類型中,20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。表3中的5-mer類型分別為α螺旋、左手α螺旋、右手α螺旋、β平面和環(huán)。如第4列所示,所有α類5-mer中,丙氨酸(A)占8.49%,精氨酸(R)占6.35%,天冬氨酸(D)占5.25%,其它氨基酸的情況如表中所示。表中所示比例均為每種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)的統(tǒng)計(jì)結(jié)果。

        表4 二十種氨基酸在每種5-mer類型中所占比例IITable 4 Proportions of 20 amino acids in each 5-mer type(II) %

        表4中列出了每種5-mer類型中,20種常見氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占的比例。表4第4~8列中,每一列的比例之和為100%。第1~3列分別為20種氨基酸的名稱、英文符號(hào)和縮寫,第4~8列分別為每種5-mer類型中,20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。 表4中的5-mer類型分別為α和β的混合類、α和環(huán)的混合類、β和環(huán)的混合類,以及α、β和環(huán)的混合類。所有α和β的混合類5-mer中,丙氨酸(A)占7.29%,精氨酸(R)占5.61%,天冬氨酸(D)占3.61%,其它氨基酸的情況見表4。

        2.2 蛋白質(zhì)的結(jié)構(gòu)類型預(yù)測

        利用蛋白質(zhì)的序列信息和PDB數(shù)據(jù)庫中5-mer扭轉(zhuǎn)角統(tǒng)計(jì)信息來預(yù)測蛋白質(zhì)的結(jié)構(gòu)類型。以兩組隨機(jī)抽取的CATH數(shù)據(jù)為例來闡述本方法的有效性。將蛋白質(zhì)序列分為主要α類(C=1)、主要β類(C=2)、混合α和β類(C=3)這三種結(jié)構(gòu)類型。

        2.2.1 9組CATH數(shù)據(jù)的分類

        從CATH數(shù)據(jù)庫中隨機(jī)抽取9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類研究。這9組CATH數(shù)據(jù)分別來自CATH的三個(gè)主要結(jié)構(gòu)類,從每個(gè)結(jié)構(gòu)類中隨機(jī)抽取3組數(shù)據(jù)。在保證每個(gè)結(jié)構(gòu)類的蛋白質(zhì)數(shù)量是均勻分布的前提下,CATH組的抽取是隨機(jī)。這里所說的CATH組是指按CATH編號(hào)記錄的組。整個(gè)數(shù)據(jù)集含有233條蛋白質(zhì)序列,這9組CATH數(shù)據(jù)在每個(gè)結(jié)構(gòu)類中的分布情況如表5所示。下面僅通過蛋白質(zhì)的序列信息來進(jìn)行結(jié)構(gòu)類型的預(yù)測。

        表5中前兩列為CATH的三個(gè)主要結(jié)構(gòu)類型與本例中每個(gè)結(jié)構(gòu)類下的CATH組數(shù),第3列為每個(gè)結(jié)構(gòu)類下的蛋白質(zhì)個(gè)數(shù),第4~8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類準(zhǔn)確率。

        表5 九組CATH數(shù)據(jù)的分類Table 5 Classification of 9 CATH groups

        使用5-mer扭轉(zhuǎn)角法對數(shù)據(jù)集中的蛋白質(zhì)序列進(jìn)行最優(yōu)結(jié)構(gòu)預(yù)測,并根據(jù)預(yù)測結(jié)果中氨基酸扭轉(zhuǎn)角的偏好,將蛋白質(zhì)序列分為3種結(jié)構(gòu)類型。分類結(jié)果如表5所示。將該方法所獲得的分類結(jié)果與平均屬性因子[17]、自然向量[18]、PseAAC[32]、Chou-Fasman[2]的分類結(jié)果進(jìn)行比較,表中第4~8列分別為每種方法的分類準(zhǔn)確率。表5中的分類準(zhǔn)確率是將每個(gè)結(jié)構(gòu)類的蛋白質(zhì)序列正確分類個(gè)數(shù)除以該類中蛋白質(zhì)總個(gè)數(shù)而得到的。從表4中可以看出該新方法可以有效地將這9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類,三種結(jié)構(gòu)類型的分類準(zhǔn)確率分別為87.18%、73.26%、79.71%,結(jié)構(gòu)類型的預(yù)測效果較好。

        平均屬性因子和自然向量是兩種蛋白質(zhì)序列特征提取方法,其中平均屬性因子是根據(jù)蛋白質(zhì)的序列信息提取氨基酸物理屬性的平均值作為蛋白質(zhì)序列的特征向量[17],而自然向量提取的是蛋白質(zhì)序列的氨基酸構(gòu)成和排序,其中自然向量與氨基酸序列是一一對應(yīng)的[18]。利用[17]中所述的最小平方誤差MSE超平面對不同結(jié)構(gòu)類型的蛋白質(zhì)序列的平均屬性因子向量和自然向量進(jìn)行劃分,從而實(shí)現(xiàn)對結(jié)構(gòu)的分類。平均屬性因子的分類準(zhǔn)確率如表5所示,其中第1類(C=1)的準(zhǔn)確率為 75.64%,第2類(C=2) 的準(zhǔn)確率為74.42%,第3類(C=3)的準(zhǔn)確率為76.81%。自然向量的分類結(jié)果為,第1類(C=1)準(zhǔn)確率為84.62%,第2類(C=2)為91.76%,第3類(C=3)為82.61%。

        PseAAC是支持向量機(jī)分類中常用的氨基酸序列特征提取方法,用多類支持向量機(jī)來對PseAAC特征進(jìn)行分類,其分類結(jié)果如表5所示。在PseAAC的分類結(jié)果中,三個(gè)結(jié)構(gòu)類的分類準(zhǔn)確率分別為第1類(C=1): 74.36%, 第2類(C=2): 67.44%, 第3類(C=3):69.57%。Chou-Fasman的分類結(jié)果為,第1類(C=1): 65.38%, 第2類(C=2): 82.43%, 第3類(C=3):62.69%。

        上述所比較的五種分類方法都是通過蛋白質(zhì)的氨基酸序列特征提取來進(jìn)行結(jié)構(gòu)分類或預(yù)測的,其中5-mer扭轉(zhuǎn)角法是根據(jù)5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測,而其它方法是通過對整條蛋白質(zhì)序列進(jìn)行特征提取來進(jìn)行結(jié)構(gòu)類型的預(yù)測的。通過比較這5種方法可以看出, 5-mer扭轉(zhuǎn)角法取得了較好的分類效果。

        2.2.2 60組CATH數(shù)據(jù)的分類

        使用另一組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。這組數(shù)據(jù)含有60個(gè)CATH組共821條蛋白質(zhì)序列[17]。這60組CATH數(shù)據(jù)取自CATH數(shù)據(jù)庫的三個(gè)主要結(jié)構(gòu)類:主要α結(jié)構(gòu)(C=1);主要β結(jié)構(gòu)(C=2);α與β混合結(jié)構(gòu)(C=3)。本數(shù)據(jù)集來源于文獻(xiàn)[17]中的結(jié)構(gòu)分類,這60個(gè)CATH組的CATH編號(hào)詳見本文附件材料。所使用的數(shù)據(jù)集與第1個(gè)例子中所使用的數(shù)據(jù)集是隨機(jī)抽取的兩組不同數(shù)據(jù)集,兩個(gè)數(shù)據(jù)集之間沒有交叉。利用 5-mer扭轉(zhuǎn)角法來對這60個(gè)CATH組的蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測,并將預(yù)測結(jié)果與平均屬性因子、自然向量、PseAAC和Chou-Fasman的結(jié)果進(jìn)行比較。

        為數(shù)據(jù)集中每一個(gè)蛋白質(zhì)序列計(jì)算最優(yōu)預(yù)測結(jié)構(gòu),并根據(jù)預(yù)測結(jié)構(gòu)的扭轉(zhuǎn)角偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測。 CATH數(shù)據(jù)的信息和分類結(jié)果如表6所示。在表6中,5-mer扭轉(zhuǎn)角法的分類結(jié)果最優(yōu),其分類準(zhǔn)確率為:第1類(C=1): 98.97%;第2類(C=2): 77.24%;第3類(C=3): 67.57%。扭轉(zhuǎn)角法的分類準(zhǔn)確率較其它分類方法的準(zhǔn)確率高,其中平均屬性因子的分類準(zhǔn)確率為:第1類(C=1): 66.15%;第2類(C=2): 56.55%;第3類(C=3): 73.18%。自然向量法的分類準(zhǔn)確率為:第一1類(C=1): 57.44%;第2類(C=2): 40.69%; 第3類(C=3): 86.90%。PseAAC的分類準(zhǔn)確率為:第1類(C=1): 76.53%, 第二類(C=2): 66.90%, 第三類(C=3): 67.29%;Chou-Fasman的分類準(zhǔn)確率為:第1類(C=1): 75.84%, 第2類(C=2): 64.93%, 第3類(C=3): 58.47%。

        表6中前3列分別為CATH的3個(gè)主要結(jié)構(gòu)類以及每個(gè)結(jié)構(gòu)類下的CATH組數(shù)和蛋白質(zhì)個(gè)數(shù)。第4~8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類結(jié)果。

        表 6 60 個(gè)CATH組的分類結(jié)果Table 6 Classification results of 60 CATH groups

        本例中,平均屬性因子和自然向量在分類效果上與第1個(gè)例子存在差異,主要原因在于這兩種方法利用最小平方誤差超平面對高維實(shí)空間中的特征向量進(jìn)行分類,由于不同數(shù)據(jù)集中的特征向量分布不同,因此得到的分類結(jié)果也不同。5-mer扭轉(zhuǎn)角法的整體分類效果最好,其原因在于扭轉(zhuǎn)角法利用5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行分類,在數(shù)據(jù)集較大時(shí)該方法充分利用了5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征,因此分類效果較好。

        3 討 論

        基于5-mer中間氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測方法是利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)信息來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型的預(yù)測。通過利用5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征進(jìn)行結(jié)構(gòu)預(yù)測,印證了局部蛋白質(zhì)序列對結(jié)構(gòu)的影響。通過CATH數(shù)據(jù)集的分析驗(yàn)證了新方法的有效性。所述該新方法可以通過MATLAB程序?qū)崿F(xiàn),能夠僅通過蛋白質(zhì)的序列信息來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)類型的快速預(yù)測。

        許多蛋白質(zhì)分類方法通過蛋白質(zhì)序列特征提取來實(shí)現(xiàn)結(jié)構(gòu)和功能的分類。例如,自然向量法[18],k-串字典法[20],蛋白質(zhì)映射[21-22],PseAAC等[32]。這些方法利用蛋白質(zhì)序列中的氨基酸成分和排序來實(shí)現(xiàn)分類。其它分類方法,如LIBSVM等[33]機(jī)器學(xué)習(xí)方法,是監(jiān)督型的分類方法,需要使用訓(xùn)練數(shù)據(jù)才能夠進(jìn)行分類。對于蛋白質(zhì)的結(jié)構(gòu)分類,機(jī)器學(xué)習(xí)分類方法占有很重要的地位[8-16,33-37]。其它分類方法還有基于信息理論和網(wǎng)絡(luò)分支的分類方法[38],該方法利用互信息和網(wǎng)絡(luò)分支來對蛋白質(zhì)的結(jié)構(gòu)和序列進(jìn)行分類。此外,平均屬性因子[17]利用氨基酸的10種物理屬性在序列中的平均值,來實(shí)現(xiàn)對蛋白質(zhì)結(jié)構(gòu)類型的分類[17,39]。該方法從氨基酸物理屬性的角度闡釋了蛋白質(zhì)序列與結(jié)構(gòu)的關(guān)系。

        其它蛋白質(zhì)結(jié)構(gòu)預(yù)測方法還有I-TASSER和Robetta等。這兩種方法利用同源序列模板來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)的預(yù)測[6-7],并以網(wǎng)絡(luò)服務(wù)器的形式提供方法對應(yīng)的服務(wù) 。

        利用最小序列單元即5-mer的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型預(yù)測是一種新方法。該方法利用PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好,驗(yàn)證了局部序列環(huán)境對結(jié)構(gòu)的影響。該方法可以通過MATLAB編程實(shí)現(xiàn),通過兩組CATH數(shù)據(jù)驗(yàn)證了新方法的有效性。

        研究表明,每種分類算法都具有一定的準(zhǔn)確率,盡管隨著科技的發(fā)展,分類的準(zhǔn)確率會(huì)有所提高,然而由于計(jì)算誤差以及序列和結(jié)構(gòu)之間關(guān)系的復(fù)雜性,準(zhǔn)確率上限仍然難以達(dá)到100%[40-43]。通過與平均屬性因子、自然向量、PseAAC,以及Chou-Fasman的分類結(jié)果進(jìn)行比較發(fā)現(xiàn),該新方法的分類準(zhǔn)確率整體優(yōu)于其它分類方法,尤其是在大數(shù)據(jù)集的分類時(shí)優(yōu)勢明顯,這是因?yàn)樵摲椒ǔ浞掷昧伺まD(zhuǎn)角的統(tǒng)計(jì)特征來實(shí)現(xiàn)分類,當(dāng)數(shù)據(jù)集較大時(shí)統(tǒng)計(jì)特征較明顯。平均屬性因子和自然向量法利用MSE超平面實(shí)現(xiàn)對序列特征向量的劃分,其中MSE超平面是通過矩陣偽逆計(jì)算得到的,對每一個(gè)固定數(shù)據(jù)集來說,超平面的分類結(jié)果是唯一確定的。PseAAC方法利用支持向量機(jī)來進(jìn)行分類,其分類結(jié)果較好;Chou-Fasman方法則通過計(jì)算氨基酸構(gòu)象傾向因子來進(jìn)行結(jié)構(gòu)類型的預(yù)測,當(dāng)數(shù)據(jù)集較大時(shí)其分類結(jié)果與PseAAC的結(jié)果相似。 所比較的5種方法均利用氨基酸序列的特征來實(shí)現(xiàn)對結(jié)構(gòu)的分類,每種方法的差異在于提取的序列特征角度不同。5-mer扭轉(zhuǎn)角法側(cè)重于利用局部序列環(huán)境對扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響來進(jìn)行分類,而其它方法則是對整個(gè)序列進(jìn)行特征提取和分類。

        研究結(jié)果表明局部序列環(huán)境對氨基酸扭轉(zhuǎn)角的偏好具有一定影響,該結(jié)果可用于蛋白質(zhì)序列的快速結(jié)構(gòu)類型預(yù)測。在局部序列環(huán)境中,氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好與其相鄰氨基酸的扭轉(zhuǎn)角偏好有關(guān)。例如,在同一個(gè)α域中,相鄰氨基酸傾向于具有相近的扭轉(zhuǎn)角值,即骨干肽鏈中相鄰氨基酸的扭轉(zhuǎn)角具有相似的值,從而使得α螺旋形成一個(gè)穩(wěn)定的結(jié)構(gòu)。相鄰氨基酸的扭轉(zhuǎn)角偏好,以及在拼接過程中最優(yōu)預(yù)測結(jié)構(gòu)的選擇,有助于蛋白質(zhì)結(jié)構(gòu)類型的正確分類。相反,在混合α和β結(jié)構(gòu)類中,環(huán)和連接α(螺旋)和β(平面)區(qū)域的內(nèi)聚部分不具有類似規(guī)律的模式,即混合結(jié)構(gòu)的規(guī)律不如單純?chǔ)粱騿渭儲(chǔ)陆Y(jié)構(gòu)的規(guī)律明顯。因此,通過規(guī)律模式來對混合結(jié)構(gòu)進(jìn)行分類時(shí),其準(zhǔn)確率不如其它純?chǔ)粱蚣儲(chǔ)陆Y(jié)構(gòu)的分類準(zhǔn)確率高。盡管如此,三種結(jié)構(gòu)類型仍然能夠通過本文所述方法進(jìn)行合理的分類。

        蛋白質(zhì)結(jié)構(gòu)分類方法表明,局部序列環(huán)境對結(jié)構(gòu)的選擇具有重要影響??梢酝ㄟ^該新方法實(shí)現(xiàn)對新蛋白質(zhì)序列結(jié)構(gòu)類型的快速預(yù)測。

        4 結(jié) 論

        通過研究局部序列對氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響,提出了一種新的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測方法,該方法利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測蛋白質(zhì)序列的結(jié)構(gòu)類型。新方法可以快速地通過氨基酸序列實(shí)現(xiàn)結(jié)構(gòu)類型的預(yù)測。研究驗(yàn)證了蛋白質(zhì)局部序列對結(jié)構(gòu)的影響,在一定程度上反映了蛋白質(zhì)序列與結(jié)構(gòu)之間的聯(lián)系。

        致謝:感謝北京化工大學(xué)提供研究場所和相關(guān)設(shè)施。

        猜你喜歡
        氨基酸聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        月桂酰丙氨基酸鈉的抑菌性能研究
        UFLC-QTRAP-MS/MS法同時(shí)測定絞股藍(lán)中11種氨基酸
        中成藥(2018年1期)2018-02-02 07:20:05
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        向量垂直在解析幾何中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        亚洲桃色视频在线观看一区| 亚洲人成网站久久久综合| 成人国产一区二区三区精品不卡| 大陆成人精品自拍视频在线观看 | 大胆欧美熟妇xxbbwwbw高潮了| 欧美日本视频一区| 亚洲乱码av一区二区蜜桃av| 国产精品国产精品国产专区不卡| 国产70老熟女重口小伙子| 亚洲va在线va天堂va四虎| 日韩精品人妻视频一区二区三区 | 亚洲国产中文字幕九色| 亚洲av无码国产精品色午夜软件| 国产成人涩涩涩视频在线观看| 久久精品国产91久久性色tv | 五月激情在线视频观看| 国产伦人人人人人人性| 最新69国产成人精品视频免费| 美丽人妻在夫前被黑人| 推油少妇久久99久久99久久| 日本亚洲一级中文字幕| 国产熟女一区二区三区不卡| 99亚洲男女激情在线观看| 亚洲AⅤ无码日韩AV中文AV伦| 青青青草视频手机在线| 夫妻免费无码v看片| 久久午夜伦鲁片免费无码| 国产精品98福利小视频| 一区二区三区四区亚洲免费| 妺妺窝人体色www看美女| 在线亚洲综合| 少妇一级内射精品免费| 男女肉粗暴进来动态图| 一本色道av久久精品+网站| 久久婷婷国产综合精品| 一二三区亚洲av偷拍| 国产午夜无码片在线观看影院| 久久精品性无码一区二区爱爱| 99久久婷婷国产精品综合网站 | 四川老熟女下面又黑又肥| 日韩在线观看网址|