王 婷
(長治職業(yè)技術(shù)學(xué)院,山西 長治 046000)
本文使用chou和shen相同的數(shù)據(jù)庫[3],從蛋白酶的一級序列出發(fā),以氨基酸組分,氨基酸二肽組分和親疏水三肽組分為參數(shù),采用離散增量結(jié)合支持向量機(jī)(ID-SVM)的方法對蛋白酶的類型進(jìn)行預(yù)測,獲得了較好的預(yù)測效果。
本文選取了chou和shen創(chuàng)建的蛋白酶數(shù)據(jù)庫[4](http://merops.sanger.ac.uk/(version 8.1,released on 05-May-2008))。此數(shù)據(jù)庫的特點:序列同源性小于25%;序列長度不小于50個氨基酸;去除所有含有未知殘基的序列?;谝陨蠘?biāo)準(zhǔn),最終得到3051個蛋白酶序列,可以分為6個類型:258個絲氨酸蛋白酶(aspartic)序列;589個蘇氨酸蛋白酶(cysteine)序列;39個半胱氨酸蛋白酶(glutamic)序列;1040個天冬氨酸蛋白酶(metallo)序列;1063個金屬蛋白酶(serine)序列;62個谷氨酸蛋白酶(threonine)序列。本文以這6類蛋白酶的一級結(jié)構(gòu)為研究對象。
1.2.1 氨基酸n肽組分
肽是構(gòu)成蛋白質(zhì)的結(jié)構(gòu)片段,也是蛋白質(zhì)發(fā)揮作用的活性基礎(chǔ)部分。當(dāng)n=1時,氨基酸n肽組分就退化為氨基酸組分,即20種氨基酸出現(xiàn)的頻數(shù),其表達(dá)相對簡單,但丟失了各氨基酸間的關(guān)聯(lián)信息。當(dāng)n=2時定義為二肽組分,即400種氨基酸二聯(lián)體出現(xiàn)的頻數(shù),此時加入了氨基酸間的排列次序和關(guān)聯(lián)信息[5]。以此類推,n個氨基酸縮合成的n聯(lián)體就稱為n肽組分。
1.2.2 氨基酸序列的親疏水性分布
蛋白質(zhì)是由20種不同的氨基酸組成的生物大分子,蛋白質(zhì)分子中的氨基酸殘基靠酰胺鍵連接,形成含多達(dá)幾百個氨基酸殘基的多肽鏈,不同類型的氨基酸所包含的側(cè)鏈結(jié)構(gòu)和性質(zhì)也各不相同,因此類型不同的氨基酸具有不同的物理化學(xué)性質(zhì)。大量實驗證實,蛋白質(zhì)序列中氨基酸的物理化學(xué)性質(zhì)也是影響蛋白質(zhì)結(jié)構(gòu)和功能的重要因素,尤其是分子結(jié)構(gòu)中的親疏水性分布的特征。
本文選取了氨基酸的親疏水性分布作為描述氨基酸序列的一個信息參數(shù)。根據(jù)Li F M等、Chen Y L等、Pánek J等的方法對20種氨基酸進(jìn)行分類,按照單個氨基酸親疏水性分布的不同,將20種氨基酸分為以下6類:強(qiáng)親水性類、強(qiáng)疏水性類、弱親水或弱疏水性類、脯氨酸、甘氨酸、半胱氨酸。具體分類如表1所示。
表1 氨基酸的親疏水特征分類
1.3.1 離散增量算法(increment of diversity, ID)
云計算是一種利用大規(guī)模低成本運(yùn)算單元通過IP網(wǎng)絡(luò)相連而組成的運(yùn)算系統(tǒng),用以提供各種計算和存儲服務(wù)。由于具有高性能、低成本、可平滑擴(kuò)展等優(yōu)勢,云計算為IT技術(shù)發(fā)展提供了新的技術(shù)手段和業(yè)務(wù)模式,不僅是企業(yè)降低建設(shè)和維護(hù)成本的重要手段,更為企業(yè)技術(shù)、業(yè)務(wù)和管理創(chuàng)新帶來了新的契機(jī)。
離散增量算法是一種公認(rèn)的較好模式識別分類器。此算法近年來已成功應(yīng)用于蛋白質(zhì)亞細(xì)胞定位[9]、蛋白質(zhì)折疊子的結(jié)構(gòu)類型[10]及蛋白質(zhì)超二級結(jié)構(gòu)的識別[11]等工作。
對離散量給出如下定義,對于由s維信息符號構(gòu)成的狀態(tài)空間X,這里用mi表示第i個狀態(tài)出現(xiàn)的個數(shù),其離散源X{m1,m2,…,ms}中的離散量:
2個同為s維狀態(tài)空間的離散源X:{n1,n2,…,ns}和Y:{m1,m2,…,ms},二者離散量:
混合離散源X+Y(n1+m1,n2+m2,…,ns+ms)的離散量:
離散源X與Y的離散增量定義:
ID(X,Y)=D(X+Y)-D(X)-D(Y)
ID(X,Y)值用于比較2個離散源的相似性程度。ID(X,Y)值越小,表明2個離散源越相似;反之ID(X,Y)值越大,表明2個離散源的差異越大。
1.3.2 支持向量機(jī)算法(support vector machine, SVM)
支持向量機(jī)算法是由Vapnik等人于1995年提出的,具有相對優(yōu)良的性能指標(biāo)。此方法是建立在統(tǒng)計學(xué)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過學(xué)習(xí)算法,SVM可以自動找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔,因此有較好的適應(yīng)能力和較高的分辨率。該方法只需由各類域的邊界樣本的類別來決定最后的分類結(jié)果[12]。目前支持向量機(jī)算法在亞細(xì)胞定位[13,14]、蛋白質(zhì)結(jié)構(gòu)[15]和蛋白質(zhì)相互作用[16]等方面都有廣泛應(yīng)用,其計算結(jié)果已經(jīng)遠(yuǎn)遠(yuǎn)超過了各種傳統(tǒng)的學(xué)習(xí)算法。支持向量機(jī)算法已經(jīng)被很多學(xué)者編譯為程序加以應(yīng)用,這里使用的是由Chang和Lin聯(lián)合開發(fā)的libsvm程序包,可以從網(wǎng)站(http://www.csie.ntu. edu.tw/~cjlin/)免費(fèi)下載獲得。
1.3.3 離散增量結(jié)合支持向量機(jī)算法(ID-SVM)
如果直接將從一級蛋白質(zhì)序列中提取到的特征參數(shù),輸入支持向量機(jī)算法中,那么輸入向量的維數(shù)就會非常大,勢必造成維數(shù)災(zāi)難,使得支持向量機(jī)算法的優(yōu)越性大打折扣。為了解決這一問題,提出了離散增量結(jié)合支持向量機(jī)算法(ID-SVM):將蛋白質(zhì)序列中提取到的特征參數(shù)輸入離散增量算法,將得到的離散增量值作為特征參數(shù)輸入支持向量機(jī)中進(jìn)行分類預(yù)測。這樣做可以很好地降低支持向量機(jī)的輸入向量維數(shù),避免SVM過訓(xùn)練。
本文選取了20個氨基酸組分,400個氨基酸二肽組分和216個親疏水三肽組分作為離散源參數(shù)。每組參數(shù)得到的離散增量值均可以構(gòu)成一個6維向量;再將這3組離散增量值組合起來,構(gòu)成一個3×6=18維的特征向量輸入支持向量機(jī)中進(jìn)行分類預(yù)測。本文采用jacknife檢驗方法對蛋白酶的類型進(jìn)行預(yù)測,其結(jié)果如表2所示。
表2 基于ID-SVM方法在Jackknife檢驗下6種類型蛋白酶的預(yù)測結(jié)果
由表2可以看出,Jacknife檢驗方法的總體預(yù)測成功率為82.49%。相對而言,對第二類蘇氨酸蛋白酶(cysteine)和第五類金屬蛋白酶(serine)的預(yù)測效果更好一些,分別達(dá)到了94.74%和91.06%,而對第六類谷氨酸蛋白酶(threonine)的預(yù)測效果稍差。表明蛋白質(zhì)序列數(shù)目越多的類,預(yù)測成功率可能會更高。如果能夠進(jìn)一步提取出更多更好的序列特征信息,預(yù)測結(jié)果肯定會提升。
本文使用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白酶的類型,能夠獲得較好的預(yù)測結(jié)果,有以下2個原因:離散增量算法可以有效降低參數(shù)向量的維數(shù),簡化計算過程;支持向量機(jī)算法能夠很好的融合各種有益序列信息,并通過調(diào)節(jié)計算參數(shù)得到最佳的預(yù)測結(jié)果。