王 婷
(長(zhǎng)治職業(yè)技術(shù)學(xué)院 山西長(zhǎng)治 046000)
酶是人體健康的源泉,它幾乎參與所有的生命活動(dòng),如消化、呼吸、睡眠、思考、情緒、內(nèi)分泌等。人體的生長(zhǎng)和延續(xù)需要成千上萬(wàn)種以上的酶化反應(yīng)來(lái)實(shí)現(xiàn)。根據(jù)酶所能催化反應(yīng)種類的不同,將酶分為6個(gè)家族類:氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶[1-2]。按照國(guó)際科學(xué)文獻(xiàn)中的分類原則,在這6個(gè)家族類的基礎(chǔ)上,再根據(jù)底物中被作用的基團(tuán)或鍵的特點(diǎn)進(jìn)一步將每個(gè)家族分為不同的亞類[3]。酶的結(jié)構(gòu)及作用機(jī)理與其所屬的家族類或亞類關(guān)系密切,因此對(duì)酶分類問(wèn)題的研究十分必要。近年來(lái)對(duì)酶的家族類的分類研究已經(jīng)比較完善,故如今的熱點(diǎn)變?yōu)榱嗣竵嗩惖姆诸愵A(yù)測(cè)。
本文基于酶的序列信息,分別使用矩陣打分與離散增量的方法提取各類特征參數(shù),然后將多種特征參數(shù)有效組合,利用支持向量機(jī)分類算法對(duì)數(shù)據(jù)集中酶家族類的各個(gè)亞類進(jìn)行分類識(shí)別。計(jì)算結(jié)果表明,此算法能夠獲得較高的預(yù)測(cè)成功率。
本文使用的酶序列來(lái)源于ENZYME數(shù)據(jù)集http://www.expasy.org/enzyme/(released on 01-May-2007),和Chou等人使用的數(shù)據(jù)集相同[4]。按照以下3個(gè)標(biāo)準(zhǔn)來(lái)選取數(shù)據(jù)集:①選取長(zhǎng)度均大于50個(gè)殘基的序列;②刪除同時(shí)屬于多種類型的酶序列;③酶序列的相似性小于40%?;谝陨蠘?biāo)準(zhǔn)可以得到: 18個(gè)亞類的1820條氧化還原酶序列;8個(gè)亞類的2847條轉(zhuǎn)移酶序列;5個(gè)亞類的3279條水解酶序列;6個(gè)亞類的892條裂合酶序列;6個(gè)亞類的639條異構(gòu)酶序列;6個(gè)亞類的965條合成酶序列。
1.2.1 矩陣打分方法
矩陣打分方法已被成功應(yīng)用于蛋白質(zhì)β-發(fā)夾模體的識(shí)別[5]、蛋白質(zhì)折疊子的預(yù)測(cè)[6]等方面。由于酶序列片段具有很強(qiáng)的位點(diǎn)保守性,故使用矩陣打分方法來(lái)提取特征參數(shù),此方法的應(yīng)用分為以下4步。
這里,i = 1,2,…, L (L為酶序列片斷的截取長(zhǎng)度),j表示20種氨基酸和1個(gè)空位,iN表示在第 i個(gè)位置氨基酸出現(xiàn)的總頻數(shù),ijn表示在第i個(gè)位置第j種氨基酸出現(xiàn)的頻數(shù)[7]。
②依據(jù)位點(diǎn)的位置概率,構(gòu)造21行L列的位置權(quán)重矩陣:
其中,0jP 表示第j種氨基酸的背景概率[7]。
③計(jì)算酶序列中第i個(gè)位點(diǎn)的保守性參量:
④使用位置權(quán)重矩陣,對(duì)于任意一段給定的酶序列片段進(jìn)行打分,定義打分函數(shù)(S)為:
其中,,maxiw 和,inimw 分別表示第i行矩陣元的最大值和最小值,這里0 1S≤ ≤ 。
以氧化還原酶為例,利用氧化還原酶包含的18個(gè)亞類的數(shù)據(jù)集可以得到18個(gè)位置權(quán)重矩陣,對(duì)于任意一段給定的酶序列片段,由(4)式可以得出18個(gè)打分值,比較這18個(gè)分值的大小,哪一個(gè)亞類的分值高,此序列片段就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別也據(jù)此判斷。
截取酶序列片段的原則:①由于酶序列的N端與C端所反映的位點(diǎn)保守性差異很大,需分別從酶序列的N端與C端截取氨基酸片段進(jìn)行矩陣打分的分類預(yù)測(cè),通過(guò)比較,選取包含70個(gè)氨基酸殘基的片段長(zhǎng)計(jì)算效果最佳;②為了不影響計(jì)算結(jié)果,對(duì)酶序列的長(zhǎng)度作了統(tǒng)計(jì)分析,如表1所示,發(fā)現(xiàn)序列 長(zhǎng)≤140個(gè)氨基酸殘基的序列數(shù)在各類中都<6.13%;③以氧化還原酶為例,從酶序列的N端和C端分別截取70個(gè)氨基酸殘基的片段長(zhǎng)進(jìn)行打分,任意一條待測(cè)序列得到18×2個(gè)打分值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到 8×2、5×2、6×2、6×2和6×2個(gè)打分值。
表1 酶的6個(gè)家族類序列長(zhǎng)度的統(tǒng)計(jì)分析 Tab.1 Statistical analysis of sequence length of six families of enzymes
1.2.2 離散增量方法
近年來(lái)離散增量方法已在亞細(xì)胞定位[8]、蛋白質(zhì)超家族的預(yù)測(cè)[9]等工作中大量使用。
在S維空間中,構(gòu)造2個(gè)離散源X:[n1,n2,…,ni,…,ns]和Y:[m1,m2,…,mi,…,ms],這里ni和mi分別表示第i種氨基酸關(guān)聯(lián)出現(xiàn)的頻數(shù),它們的離散量分別為:
離散增量定義為:
其中,D ( X + Y)為混合離散源X+Y(n1+m1,n2+ m2,…,ns+ms)的離散量,,對(duì)數(shù)的底b=10,離散量的單位為哈特。
離散增量定義了2個(gè)離散源的同源性程度,離散增量值越小,它們之間的相似性越高[7]。
以氧化還原酶為例,由其18個(gè)亞類的數(shù)據(jù)集可以構(gòu)成18個(gè)標(biāo)準(zhǔn)離散源,對(duì)于任意一條酶序列,由(7)式可以求得18個(gè)離散增量值,比較它們的大小,哪一個(gè)亞類的離散增量值小,此序列就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶也適用。
根據(jù)氨基酸殘基的物理化學(xué)、生物化學(xué)性質(zhì)的不同,將20種氨基酸分為以下9類[10]:C;M;N、Q;D、E;S、T;P、A、G;I、V、L;F、Y、W;H、K、R。
本文以酶序列中氨基酸理化性緊鄰關(guān)聯(lián)與氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)分別構(gòu)成標(biāo)準(zhǔn)離散源,均計(jì)算離散增量值。以氧化還原酶為例,利用氨基酸理化性緊鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)可以得到18個(gè)標(biāo)準(zhǔn)離散源,對(duì)于任意一條待測(cè)序列可以得出18個(gè)離散增量值;同樣以氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)也可以得到18個(gè)離散增量值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到8×2、5×2、6×2、6×2和6×2個(gè)離散增量值。
1.2.3 支持向量機(jī)方法
支持向量機(jī)(SVM)是一個(gè)非常強(qiáng)大且具有多種功能的機(jī)器學(xué)習(xí)模型,能夠處理線性或非線性分類問(wèn)題。SVM是最好的現(xiàn)成分類器(現(xiàn)成指不用修改可以直接使用),而且它的分類錯(cuò)誤率較低。SVM特別適合應(yīng)用于中小型規(guī)模數(shù)據(jù)集樣本的分類問(wèn)題,能夠解決高維問(wèn)題,還可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題[11]。本文使用的是臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的libSVM-3.1版的程序包[12]。libSVM提供了一些簡(jiǎn)單易用的接口,使用戶能夠方便應(yīng)用而不必關(guān)心其內(nèi)部復(fù)雜的數(shù)學(xué)模型和運(yùn)行過(guò)程。
以氧化還原酶為例,對(duì)任一待測(cè)的酶序列,把氨基酸理化性的緊鄰關(guān)聯(lián)與氨基酸的次鄰關(guān)聯(lián)分別的出現(xiàn)頻數(shù)作為特征參數(shù),使用離散增量方法得到18×2個(gè)離散增量值;分別從酶序列的N端與C端截取70個(gè)氨基酸殘基片段長(zhǎng)進(jìn)行矩陣打分,得到18×2個(gè)打分值;將這36個(gè)離散增量值與36個(gè)打分值構(gòu)成的組成向量,共同輸入支持向量機(jī)中,使用刀切法(Jackknife)檢驗(yàn)對(duì)氧化還原酶中的亞類進(jìn)行分類識(shí)別,其預(yù)測(cè)結(jié)果見(jiàn)表2。類似的,對(duì)其他5個(gè)家族類的酶的亞類也做了同樣的分類識(shí)別,預(yù)測(cè)結(jié)果在表2中列出。此外,為了方便預(yù)測(cè)結(jié)果的比較,還分別采用前面介紹的矩陣打分方法和離散增量方法對(duì)酶家族類的亞類進(jìn)行預(yù)測(cè),同時(shí)將Chou等[4]運(yùn)用相同數(shù)據(jù)集的Jackknife檢驗(yàn)的預(yù)測(cè)結(jié)果也列于該表中。
表2 酶的6個(gè)家族類中各亞類的Jackknife檢驗(yàn)下的預(yù)測(cè)結(jié)果 Tab.2 Prediction results of each subclass in six families of enzymes under jackknife test
續(xù)表2
從表2的預(yù)測(cè)結(jié)果能夠看出,從酶序列的N端和C端截取氨基酸殘基片段的矩陣打分方法預(yù)測(cè)結(jié)果整體上優(yōu)于離散增量方法的預(yù)測(cè)結(jié)果,進(jìn)一步表明酶序列的兩端具有很好的位點(diǎn)保守性。而矩陣打分的2種分值結(jié)合氨基酸關(guān)聯(lián)的2種離散增量值共同作為特征參數(shù)進(jìn)行有效的組合,利用支持向量機(jī)的分類算法,獲得了最佳的預(yù)測(cè)結(jié)果。不但每個(gè)家族類的總體預(yù)測(cè)成功率很高,而且各個(gè)亞類的結(jié)果也非常理想。氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶中亞類的總體預(yù)測(cè)成功率分別為96.43%、92.90%、90.85%、99.22%、99.84%和98.86%。氧化還原酶、異構(gòu)酶和裂合酶的總體預(yù)測(cè)成功率比Chou[4]的方法分別提高了9.73%、6.54%和4.82%,水解酶和轉(zhuǎn)移酶的總體預(yù)測(cè)成功率比Chou等[4]的結(jié)果稍差。究其原因,是因?yàn)樗饷负娃D(zhuǎn)移酶的序列數(shù)目很大,故噪聲顯著。由于支持向量機(jī)需要大量的內(nèi)存,選擇正確的核很重要,所以很難做出調(diào)整,當(dāng)數(shù)據(jù)集的噪聲較大時(shí),無(wú)法獲得滿意的結(jié)果。
本文基于酶的序列信息,使用多特征的組合向量作為參數(shù)對(duì)酶的亞家族類進(jìn)行類型識(shí)別,預(yù)測(cè)成功率有了很大提高。這是因?yàn)橹С窒蛄繖C(jī)方法具有高效的分類能力,它能夠?qū)⒏鞣N序列信息有效融合,通過(guò)網(wǎng)格化尋找最優(yōu)參數(shù)c值和g值。此方法的優(yōu)勢(shì)還表現(xiàn)在通過(guò)提取矩陣打分值和離散增量值的方法,降低了輸入支持向量機(jī)的特征參數(shù)維數(shù),避免了維數(shù)災(zāi)難,簡(jiǎn)化了計(jì)算過(guò)程?!?/p>