亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于序列信息的酶的亞類多特征參數(shù)識(shí)別方法

2022-04-20 08:51:28王婷

天津科技 2022年4期

王婷

(長(zhǎng)治職業(yè)技術(shù)學(xué)院山西長(zhǎng)治 046000)

0 引言

酶是人體健康的源泉，它幾乎參與所有的生命活動(dòng)，如消化、呼吸、睡眠、思考、情緒、內(nèi)分泌等。人體的生長(zhǎng)和延續(xù)需要成千上萬(wàn)種以上的酶化反應(yīng)來(lái)實(shí)現(xiàn)。根據(jù)酶所能催化反應(yīng)種類的不同，將酶分為6個(gè)家族類：氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶[1-2]。按照國(guó)際科學(xué)文獻(xiàn)中的分類原則，在這6個(gè)家族類的基礎(chǔ)上，再根據(jù)底物中被作用的基團(tuán)或鍵的特點(diǎn)進(jìn)一步將每個(gè)家族分為不同的亞類[3]。酶的結(jié)構(gòu)及作用機(jī)理與其所屬的家族類或亞類關(guān)系密切，因此對(duì)酶分類問(wèn)題的研究十分必要。近年來(lái)對(duì)酶的家族類的分類研究已經(jīng)比較完善，故如今的熱點(diǎn)變?yōu)榱嗣竵嗩惖姆诸愵A(yù)測(cè)。

本文基于酶的序列信息，分別使用矩陣打分與離散增量的方法提取各類特征參數(shù)，然后將多種特征參數(shù)有效組合，利用支持向量機(jī)分類算法對(duì)數(shù)據(jù)集中酶家族類的各個(gè)亞類進(jìn)行分類識(shí)別。計(jì)算結(jié)果表明，此算法能夠獲得較高的預(yù)測(cè)成功率。

1 材料與方法

1.1 數(shù)據(jù)集的選取

本文使用的酶序列來(lái)源于ENZYME數(shù)據(jù)集http://www.expasy.org/enzyme/(released on 01-May-2007)，和Chou等人使用的數(shù)據(jù)集相同[4]。按照以下3個(gè)標(biāo)準(zhǔn)來(lái)選取數(shù)據(jù)集：①選取長(zhǎng)度均大于50個(gè)殘基的序列；②刪除同時(shí)屬于多種類型的酶序列；③酶序列的相似性小于40%?；谝陨蠘?biāo)準(zhǔn)可以得到： 18個(gè)亞類的1820條氧化還原酶序列；8個(gè)亞類的2847條轉(zhuǎn)移酶序列；5個(gè)亞類的3279條水解酶序列；6個(gè)亞類的892條裂合酶序列；6個(gè)亞類的639條異構(gòu)酶序列；6個(gè)亞類的965條合成酶序列。

1.2 計(jì)算方法

1.2.1 矩陣打分方法

矩陣打分方法已被成功應(yīng)用于蛋白質(zhì)β-發(fā)夾模體的識(shí)別[5]、蛋白質(zhì)折疊子的預(yù)測(cè)[6]等方面。由于酶序列片段具有很強(qiáng)的位點(diǎn)保守性，故使用矩陣打分方法來(lái)提取特征參數(shù)，此方法的應(yīng)用分為以下4步。

這里，i = 1,2,…, L (L為酶序列片斷的截取長(zhǎng)度)，j表示20種氨基酸和1個(gè)空位，iN表示在第 i個(gè)位置氨基酸出現(xiàn)的總頻數(shù)，ijn表示在第i個(gè)位置第j種氨基酸出現(xiàn)的頻數(shù)[7]。

②依據(jù)位點(diǎn)的位置概率，構(gòu)造21行L列的位置權(quán)重矩陣：

其中，0jP 表示第j種氨基酸的背景概率[7]。

③計(jì)算酶序列中第i個(gè)位點(diǎn)的保守性參量：

④使用位置權(quán)重矩陣，對(duì)于任意一段給定的酶序列片段進(jìn)行打分，定義打分函數(shù)(S)為：

其中，,maxiw 和,inimw 分別表示第i行矩陣元的最大值和最小值，這里0 1S≤ ≤ 。

以氧化還原酶為例，利用氧化還原酶包含的18個(gè)亞類的數(shù)據(jù)集可以得到18個(gè)位置權(quán)重矩陣，對(duì)于任意一段給定的酶序列片段，由(4)式可以得出18個(gè)打分值，比較這18個(gè)分值的大小，哪一個(gè)亞類的分值高，此序列片段就被判斷為屬于哪一類別的亞類。類似的，轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別也據(jù)此判斷。

截取酶序列片段的原則：①由于酶序列的N端與C端所反映的位點(diǎn)保守性差異很大，需分別從酶序列的N端與C端截取氨基酸片段進(jìn)行矩陣打分的分類預(yù)測(cè)，通過(guò)比較，選取包含70個(gè)氨基酸殘基的片段長(zhǎng)計(jì)算效果最佳；②為了不影響計(jì)算結(jié)果，對(duì)酶序列的長(zhǎng)度作了統(tǒng)計(jì)分析，如表1所示，發(fā)現(xiàn)序列長(zhǎng)≤140個(gè)氨基酸殘基的序列數(shù)在各類中都＜6.13%；③以氧化還原酶為例，從酶序列的N端和C端分別截取70個(gè)氨基酸殘基的片段長(zhǎng)進(jìn)行打分，任意一條待測(cè)序列得到18×2個(gè)打分值。類似的，轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到 8×2、5×2、6×2、6×2和6×2個(gè)打分值。

表1 酶的6個(gè)家族類序列長(zhǎng)度的統(tǒng)計(jì)分析 Tab.1 Statistical analysis of sequence length of six families of enzymes

1.2.2 離散增量方法

近年來(lái)離散增量方法已在亞細(xì)胞定位[8]、蛋白質(zhì)超家族的預(yù)測(cè)[9]等工作中大量使用。

在S維空間中，構(gòu)造2個(gè)離散源X：[n1，n2，…，ni，…，ns]和Y：[m1，m2，…，mi，…，ms]，這里ni和mi分別表示第i種氨基酸關(guān)聯(lián)出現(xiàn)的頻數(shù)，它們的離散量分別為：

離散增量定義為：

其中，D ( X + Y)為混合離散源X+Y(n1+m1，n2+ m2，…，ns+ms)的離散量，，對(duì)數(shù)的底b＝10，離散量的單位為哈特。

離散增量定義了2個(gè)離散源的同源性程度，離散增量值越小，它們之間的相似性越高[7]。

以氧化還原酶為例，由其18個(gè)亞類的數(shù)據(jù)集可以構(gòu)成18個(gè)標(biāo)準(zhǔn)離散源，對(duì)于任意一條酶序列，由(7)式可以求得18個(gè)離散增量值，比較它們的大小，哪一個(gè)亞類的離散增量值小，此序列就被判斷為屬于哪一類別的亞類。類似的，轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶也適用。

根據(jù)氨基酸殘基的物理化學(xué)、生物化學(xué)性質(zhì)的不同，將20種氨基酸分為以下9類[10]：C；M；N、Q；D、E；S、T；P、A、G；I、V、L；F、Y、W；H、K、R。

本文以酶序列中氨基酸理化性緊鄰關(guān)聯(lián)與氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)分別構(gòu)成標(biāo)準(zhǔn)離散源，均計(jì)算離散增量值。以氧化還原酶為例，利用氨基酸理化性緊鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)可以得到18個(gè)標(biāo)準(zhǔn)離散源，對(duì)于任意一條待測(cè)序列可以得出18個(gè)離散增量值；同樣以氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)也可以得到18個(gè)離散增量值。類似的，轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到8×2、5×2、6×2、6×2和6×2個(gè)離散增量值。

1.2.3 支持向量機(jī)方法

支持向量機(jī)(SVM)是一個(gè)非常強(qiáng)大且具有多種功能的機(jī)器學(xué)習(xí)模型，能夠處理線性或非線性分類問(wèn)題。SVM是最好的現(xiàn)成分類器(現(xiàn)成指不用修改可以直接使用)，而且它的分類錯(cuò)誤率較低。SVM特別適合應(yīng)用于中小型規(guī)模數(shù)據(jù)集樣本的分類問(wèn)題，能夠解決高維問(wèn)題，還可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題[11]。本文使用的是臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的libSVM-3.1版的程序包[12]。libSVM提供了一些簡(jiǎn)單易用的接口，使用戶能夠方便應(yīng)用而不必關(guān)心其內(nèi)部復(fù)雜的數(shù)學(xué)模型和運(yùn)行過(guò)程。

2 結(jié)果與討論

以氧化還原酶為例，對(duì)任一待測(cè)的酶序列，把氨基酸理化性的緊鄰關(guān)聯(lián)與氨基酸的次鄰關(guān)聯(lián)分別的出現(xiàn)頻數(shù)作為特征參數(shù)，使用離散增量方法得到18×2個(gè)離散增量值；分別從酶序列的N端與C端截取70個(gè)氨基酸殘基片段長(zhǎng)進(jìn)行矩陣打分，得到18×2個(gè)打分值；將這36個(gè)離散增量值與36個(gè)打分值構(gòu)成的組成向量，共同輸入支持向量機(jī)中，使用刀切法(Jackknife)檢驗(yàn)對(duì)氧化還原酶中的亞類進(jìn)行分類識(shí)別，其預(yù)測(cè)結(jié)果見(jiàn)表2。類似的，對(duì)其他5個(gè)家族類的酶的亞類也做了同樣的分類識(shí)別，預(yù)測(cè)結(jié)果在表2中列出。此外，為了方便預(yù)測(cè)結(jié)果的比較，還分別采用前面介紹的矩陣打分方法和離散增量方法對(duì)酶家族類的亞類進(jìn)行預(yù)測(cè)，同時(shí)將Chou等[4]運(yùn)用相同數(shù)據(jù)集的Jackknife檢驗(yàn)的預(yù)測(cè)結(jié)果也列于該表中。

表2 酶的6個(gè)家族類中各亞類的Jackknife檢驗(yàn)下的預(yù)測(cè)結(jié)果 Tab.2 Prediction results of each subclass in six families of enzymes under jackknife test

續(xù)表2

從表2的預(yù)測(cè)結(jié)果能夠看出，從酶序列的N端和C端截取氨基酸殘基片段的矩陣打分方法預(yù)測(cè)結(jié)果整體上優(yōu)于離散增量方法的預(yù)測(cè)結(jié)果，進(jìn)一步表明酶序列的兩端具有很好的位點(diǎn)保守性。而矩陣打分的2種分值結(jié)合氨基酸關(guān)聯(lián)的2種離散增量值共同作為特征參數(shù)進(jìn)行有效的組合，利用支持向量機(jī)的分類算法，獲得了最佳的預(yù)測(cè)結(jié)果。不但每個(gè)家族類的總體預(yù)測(cè)成功率很高，而且各個(gè)亞類的結(jié)果也非常理想。氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶中亞類的總體預(yù)測(cè)成功率分別為96.43%、92.90%、90.85%、99.22%、99.84%和98.86%。氧化還原酶、異構(gòu)酶和裂合酶的總體預(yù)測(cè)成功率比Chou[4]的方法分別提高了9.73%、6.54%和4.82%，水解酶和轉(zhuǎn)移酶的總體預(yù)測(cè)成功率比Chou等[4]的結(jié)果稍差。究其原因，是因?yàn)樗饷负娃D(zhuǎn)移酶的序列數(shù)目很大，故噪聲顯著。由于支持向量機(jī)需要大量的內(nèi)存，選擇正確的核很重要，所以很難做出調(diào)整，當(dāng)數(shù)據(jù)集的噪聲較大時(shí)，無(wú)法獲得滿意的結(jié)果。

3 結(jié) 語(yǔ)

本文基于酶的序列信息，使用多特征的組合向量作為參數(shù)對(duì)酶的亞家族類進(jìn)行類型識(shí)別，預(yù)測(cè)成功率有了很大提高。這是因?yàn)橹С窒蛄繖C(jī)方法具有高效的分類能力，它能夠?qū)⒏鞣N序列信息有效融合，通過(guò)網(wǎng)格化尋找最優(yōu)參數(shù)c值和g值。此方法的優(yōu)勢(shì)還表現(xiàn)在通過(guò)提取矩陣打分值和離散增量值的方法，降低了輸入支持向量機(jī)的特征參數(shù)維數(shù)，避免了維數(shù)災(zāi)難，簡(jiǎn)化了計(jì)算過(guò)程?！?/p>