王 婷
(長治職業(yè)技術(shù)學(xué)院 山西長治046000)
酶是具有高效催化作用的蛋白質(zhì),生物體內(nèi)幾乎所有的代謝反應(yīng)都需要酶的參與,而且對于物質(zhì)代謝的控制也大多通過酶的活性來實(shí)現(xiàn)[1]。已經(jīng)證實(shí),人類的許多疾病如蠶豆病、白化病、苯丙酮尿病等,均是由于某種酶的變異、減少甚至缺失造成的[2]。酶的類型與其功能和催化性能關(guān)系密切,因此對于新發(fā)現(xiàn)的酶,可以通過確定它的類型來表明其生物功能。傳統(tǒng)的研究酶功能的生化實(shí)驗(yàn)方法不僅費(fèi)時(shí)、耗資,而且可能會碰到許多目前無法解決的實(shí)際困難。因此,使用機(jī)器學(xué)習(xí)算法來預(yù)測酶類型的理論方法應(yīng)用越來越廣泛[3]。
本文從酶的氨基酸序列出發(fā),在特征參數(shù)的提取上有創(chuàng)新:采用矩陣打分和離散增量的方法提取,再將這些參數(shù)構(gòu)成的組合向量輸入支持向量機(jī)。首次使用支持向量機(jī)算法對6類酶的類型進(jìn)行預(yù)測,取得了較好的預(yù)測結(jié)果。
本文使用的是由 Shen和 Chou等[4]創(chuàng)建的酶家族類數(shù)據(jù)庫。選取酶序列數(shù)據(jù)遵循以下標(biāo)準(zhǔn):①序列長度不小于 50個(gè)殘基;②不存在一個(gè)酶同時(shí)隸屬于多種類型的情況;③酶序列的同源性小于 40%?;谝陨蠘?biāo)準(zhǔn),最終獲得 9832條酶序列,分為以下 6個(gè)類型:①氧化還原酶1618條;②轉(zhuǎn)移酶3450條;③水解酶2791條;④裂合酶679條;⑤異構(gòu)酶518條;⑥合成酶776條。
1.2.1 矩陣打分方法
矩陣打分(S)方法已經(jīng)在轉(zhuǎn)錄因子結(jié)合位點(diǎn)和蛋白質(zhì)折疊子的預(yù)測等方面得到成功應(yīng)用[5~7]。此方法通過以下3個(gè)步驟實(shí)現(xiàn):
①引入偽計(jì)數(shù)pij,位點(diǎn)位置概率作為矩陣元:
②建立位置權(quán)重矩陣,即標(biāo)準(zhǔn)打分矩陣:
③對給定的序列片段進(jìn)行打分,將打分函數(shù)定義為:
式中:Ni表示全部氨基酸在第i個(gè)位置出現(xiàn)的個(gè)數(shù);nij表示第 j種氨基酸在第i個(gè)位置上出現(xiàn)的個(gè)數(shù);P0j表示第j種氨基酸出現(xiàn)的背景概率。
1.2.2 離散增量方法
離散增量(ID)方法已經(jīng)在蛋白質(zhì)結(jié)構(gòu)和超家族的預(yù)測[8-9]等工作中獲得廣泛使用。
兩個(gè) S維離散源 X(n1,n2,…,ni,…,ns)和Y(m1,m2,…mi…,ms),其中 ni和 mi分別表示酶的信息參數(shù),定義X和Y的離散量為:
定義混合離散源 X+Y(n1+m1,n2+m2,…,ni+mi,…,ns+ ms)的離散量為:
兩個(gè)離散源X與Y之間的離散增量為:
氨基酸的化學(xué)特性親疏水性質(zhì),主要由其側(cè)鏈基團(tuán)決定。根據(jù)單個(gè)氨基酸的親疏水分布,將 20種氨基酸劃分為 6 類[9]:①強(qiáng)親水類(R,D,E,N,Q,K,H);②強(qiáng)疏水類(L,I,V,A,M,F(xiàn));③弱親水或弱疏水類(S,T,Y,W);④脯氨酸(P);⑤甘氨酸(G);⑥半胱氨酸(C)。
1.2.3 支持向量機(jī)算法
支持向量機(jī)(SVM)算法是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法,它根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的推廣能力。由于具有強(qiáng)有力的非線性建模能力和良好的泛化性能,它能夠解決小樣本、非線性和高維數(shù)等實(shí)際問題[10]。本文使用的是Chang和Lin[11]聯(lián)合開發(fā)的Libsvm程序包。
從酶序列的N端與C端分別選取80個(gè)氨基酸殘基作為保守位點(diǎn),使用矩陣打分方法得到 12個(gè)打分值;再分別將氨基酸的次鄰二聯(lián)體和親疏水三聯(lián)體出現(xiàn)的個(gè)數(shù)作為信息參數(shù),使用離散增量方法得到12個(gè)離散增量值;最后將這 12個(gè)打分值和 12個(gè)離散增量值構(gòu)成的組合向量,輸入支持向量機(jī)中,采用Jackknife檢驗(yàn)方法進(jìn)行分類預(yù)測,其預(yù)測成功率見表 1。為了比較計(jì)算結(jié)果,這里還分別采用矩陣打分方法和離散增量方法對單參數(shù)進(jìn)行預(yù)測,同時(shí)也把運(yùn)用相同數(shù)據(jù)庫 Chou[4]的 Jackknife檢驗(yàn)結(jié)果列在了表1中。
表1 Jackknife檢驗(yàn)下6類酶的預(yù)測結(jié)果(%)Tab.1 Prediction results of 6 enzymes by jackknife test(%)
從表1的計(jì)算結(jié)果可以看出,分別將氨基酸的次鄰二聯(lián)體和親疏水三聯(lián)體出現(xiàn)的個(gè)數(shù)作為信息參數(shù),使用離散增量方法對酶的類型預(yù)測效果不是很好,預(yù)測成功率較低。選取酶序列的N端與C端的殘基片段打分方法的預(yù)測效果明顯好于離散增量方法,說明酶序列的N端與C端均具有較強(qiáng)的氨基酸位點(diǎn)保守性。把打分值與離散增量值進(jìn)行組合,共同輸入支持向量機(jī)中進(jìn)行預(yù)測,獲得了非常好的結(jié)果。Jackknife檢驗(yàn)總體的預(yù)測成功率為88.86%,氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶的預(yù)測成功率分別為 92.34%、86.69%、83.30%、97.20%、98.26%和97.68%,結(jié)果表明此算法對于酶的分類預(yù)測非常有效。裂合酶和異構(gòu)酶的預(yù)測成功率比 Chou[4]的方法分別提高了 12.1%和 14.66%,但轉(zhuǎn)移酶和水解酶的預(yù)測成功率比Chou[4]的結(jié)果差。
本文對酶的類型進(jìn)行預(yù)測,當(dāng)使用組合向量作為特征參數(shù)時(shí)獲得了較好的預(yù)測結(jié)果,其主要原因是:①由于不同類型酶的N端與C端所包含的特征信號具有很強(qiáng)的差異性,從酶序列兩端的殘基片段提取的打分值,其包含的信息更加全面;②支持向量機(jī)算法具有很強(qiáng)的融合性能,可以將打分值與離散增量值恰當(dāng)?shù)娜诤?,共同作為支持向量機(jī)的特征參數(shù),取得了更優(yōu)的預(yù)測結(jié)果。