亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于序列信息的酶的亞類多特征參數(shù)識(shí)別方法

        2022-04-20 08:51:28
        天津科技 2022年4期
        關(guān)鍵詞:異構(gòu)酶亞類水解酶

        王 婷

        (長(zhǎng)治職業(yè)技術(shù)學(xué)院 山西長(zhǎng)治 046000)

        0 引 言

        酶是人體健康的源泉,它幾乎參與所有的生命活動(dòng),如消化、呼吸、睡眠、思考、情緒、內(nèi)分泌等。人體的生長(zhǎng)和延續(xù)需要成千上萬(wàn)種以上的酶化反應(yīng)來(lái)實(shí)現(xiàn)。根據(jù)酶所能催化反應(yīng)種類的不同,將酶分為6個(gè)家族類:氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶[1-2]。按照國(guó)際科學(xué)文獻(xiàn)中的分類原則,在這6個(gè)家族類的基礎(chǔ)上,再根據(jù)底物中被作用的基團(tuán)或鍵的特點(diǎn)進(jìn)一步將每個(gè)家族分為不同的亞類[3]。酶的結(jié)構(gòu)及作用機(jī)理與其所屬的家族類或亞類關(guān)系密切,因此對(duì)酶分類問(wèn)題的研究十分必要。近年來(lái)對(duì)酶的家族類的分類研究已經(jīng)比較完善,故如今的熱點(diǎn)變?yōu)榱嗣竵嗩惖姆诸愵A(yù)測(cè)。

        本文基于酶的序列信息,分別使用矩陣打分與離散增量的方法提取各類特征參數(shù),然后將多種特征參數(shù)有效組合,利用支持向量機(jī)分類算法對(duì)數(shù)據(jù)集中酶家族類的各個(gè)亞類進(jìn)行分類識(shí)別。計(jì)算結(jié)果表明,此算法能夠獲得較高的預(yù)測(cè)成功率。

        1 材料與方法

        1.1 數(shù)據(jù)集的選取

        本文使用的酶序列來(lái)源于ENZYME數(shù)據(jù)集http://www.expasy.org/enzyme/(released on 01-May-2007),和Chou等人使用的數(shù)據(jù)集相同[4]。按照以下3個(gè)標(biāo)準(zhǔn)來(lái)選取數(shù)據(jù)集:①選取長(zhǎng)度均大于50個(gè)殘基的序列;②刪除同時(shí)屬于多種類型的酶序列;③酶序列的相似性小于40%?;谝陨蠘?biāo)準(zhǔn)可以得到: 18個(gè)亞類的1820條氧化還原酶序列;8個(gè)亞類的2847條轉(zhuǎn)移酶序列;5個(gè)亞類的3279條水解酶序列;6個(gè)亞類的892條裂合酶序列;6個(gè)亞類的639條異構(gòu)酶序列;6個(gè)亞類的965條合成酶序列。

        1.2 計(jì)算方法

        1.2.1 矩陣打分方法

        矩陣打分方法已被成功應(yīng)用于蛋白質(zhì)β-發(fā)夾模體的識(shí)別[5]、蛋白質(zhì)折疊子的預(yù)測(cè)[6]等方面。由于酶序列片段具有很強(qiáng)的位點(diǎn)保守性,故使用矩陣打分方法來(lái)提取特征參數(shù),此方法的應(yīng)用分為以下4步。

        這里,i = 1,2,…, L (L為酶序列片斷的截取長(zhǎng)度),j表示20種氨基酸和1個(gè)空位,iN表示在第 i個(gè)位置氨基酸出現(xiàn)的總頻數(shù),ijn表示在第i個(gè)位置第j種氨基酸出現(xiàn)的頻數(shù)[7]。

        ②依據(jù)位點(diǎn)的位置概率,構(gòu)造21行L列的位置權(quán)重矩陣:

        其中,0jP 表示第j種氨基酸的背景概率[7]。

        ③計(jì)算酶序列中第i個(gè)位點(diǎn)的保守性參量:

        ④使用位置權(quán)重矩陣,對(duì)于任意一段給定的酶序列片段進(jìn)行打分,定義打分函數(shù)(S)為:

        其中,,maxiw 和,inimw 分別表示第i行矩陣元的最大值和最小值,這里0 1S≤ ≤ 。

        以氧化還原酶為例,利用氧化還原酶包含的18個(gè)亞類的數(shù)據(jù)集可以得到18個(gè)位置權(quán)重矩陣,對(duì)于任意一段給定的酶序列片段,由(4)式可以得出18個(gè)打分值,比較這18個(gè)分值的大小,哪一個(gè)亞類的分值高,此序列片段就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別也據(jù)此判斷。

        截取酶序列片段的原則:①由于酶序列的N端與C端所反映的位點(diǎn)保守性差異很大,需分別從酶序列的N端與C端截取氨基酸片段進(jìn)行矩陣打分的分類預(yù)測(cè),通過(guò)比較,選取包含70個(gè)氨基酸殘基的片段長(zhǎng)計(jì)算效果最佳;②為了不影響計(jì)算結(jié)果,對(duì)酶序列的長(zhǎng)度作了統(tǒng)計(jì)分析,如表1所示,發(fā)現(xiàn)序列 長(zhǎng)≤140個(gè)氨基酸殘基的序列數(shù)在各類中都<6.13%;③以氧化還原酶為例,從酶序列的N端和C端分別截取70個(gè)氨基酸殘基的片段長(zhǎng)進(jìn)行打分,任意一條待測(cè)序列得到18×2個(gè)打分值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到 8×2、5×2、6×2、6×2和6×2個(gè)打分值。

        表1 酶的6個(gè)家族類序列長(zhǎng)度的統(tǒng)計(jì)分析 Tab.1 Statistical analysis of sequence length of six families of enzymes

        1.2.2 離散增量方法

        近年來(lái)離散增量方法已在亞細(xì)胞定位[8]、蛋白質(zhì)超家族的預(yù)測(cè)[9]等工作中大量使用。

        在S維空間中,構(gòu)造2個(gè)離散源X:[n1,n2,…,ni,…,ns]和Y:[m1,m2,…,mi,…,ms],這里ni和mi分別表示第i種氨基酸關(guān)聯(lián)出現(xiàn)的頻數(shù),它們的離散量分別為:

        離散增量定義為:

        其中,D ( X + Y)為混合離散源X+Y(n1+m1,n2+ m2,…,ns+ms)的離散量,,對(duì)數(shù)的底b=10,離散量的單位為哈特。

        離散增量定義了2個(gè)離散源的同源性程度,離散增量值越小,它們之間的相似性越高[7]。

        以氧化還原酶為例,由其18個(gè)亞類的數(shù)據(jù)集可以構(gòu)成18個(gè)標(biāo)準(zhǔn)離散源,對(duì)于任意一條酶序列,由(7)式可以求得18個(gè)離散增量值,比較它們的大小,哪一個(gè)亞類的離散增量值小,此序列就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶也適用。

        根據(jù)氨基酸殘基的物理化學(xué)、生物化學(xué)性質(zhì)的不同,將20種氨基酸分為以下9類[10]:C;M;N、Q;D、E;S、T;P、A、G;I、V、L;F、Y、W;H、K、R。

        本文以酶序列中氨基酸理化性緊鄰關(guān)聯(lián)與氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)分別構(gòu)成標(biāo)準(zhǔn)離散源,均計(jì)算離散增量值。以氧化還原酶為例,利用氨基酸理化性緊鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)可以得到18個(gè)標(biāo)準(zhǔn)離散源,對(duì)于任意一條待測(cè)序列可以得出18個(gè)離散增量值;同樣以氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)也可以得到18個(gè)離散增量值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到8×2、5×2、6×2、6×2和6×2個(gè)離散增量值。

        1.2.3 支持向量機(jī)方法

        支持向量機(jī)(SVM)是一個(gè)非常強(qiáng)大且具有多種功能的機(jī)器學(xué)習(xí)模型,能夠處理線性或非線性分類問(wèn)題。SVM是最好的現(xiàn)成分類器(現(xiàn)成指不用修改可以直接使用),而且它的分類錯(cuò)誤率較低。SVM特別適合應(yīng)用于中小型規(guī)模數(shù)據(jù)集樣本的分類問(wèn)題,能夠解決高維問(wèn)題,還可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問(wèn)題[11]。本文使用的是臺(tái)灣大學(xué)林智仁等人開(kāi)發(fā)的libSVM-3.1版的程序包[12]。libSVM提供了一些簡(jiǎn)單易用的接口,使用戶能夠方便應(yīng)用而不必關(guān)心其內(nèi)部復(fù)雜的數(shù)學(xué)模型和運(yùn)行過(guò)程。

        2 結(jié)果與討論

        以氧化還原酶為例,對(duì)任一待測(cè)的酶序列,把氨基酸理化性的緊鄰關(guān)聯(lián)與氨基酸的次鄰關(guān)聯(lián)分別的出現(xiàn)頻數(shù)作為特征參數(shù),使用離散增量方法得到18×2個(gè)離散增量值;分別從酶序列的N端與C端截取70個(gè)氨基酸殘基片段長(zhǎng)進(jìn)行矩陣打分,得到18×2個(gè)打分值;將這36個(gè)離散增量值與36個(gè)打分值構(gòu)成的組成向量,共同輸入支持向量機(jī)中,使用刀切法(Jackknife)檢驗(yàn)對(duì)氧化還原酶中的亞類進(jìn)行分類識(shí)別,其預(yù)測(cè)結(jié)果見(jiàn)表2。類似的,對(duì)其他5個(gè)家族類的酶的亞類也做了同樣的分類識(shí)別,預(yù)測(cè)結(jié)果在表2中列出。此外,為了方便預(yù)測(cè)結(jié)果的比較,還分別采用前面介紹的矩陣打分方法和離散增量方法對(duì)酶家族類的亞類進(jìn)行預(yù)測(cè),同時(shí)將Chou等[4]運(yùn)用相同數(shù)據(jù)集的Jackknife檢驗(yàn)的預(yù)測(cè)結(jié)果也列于該表中。

        表2 酶的6個(gè)家族類中各亞類的Jackknife檢驗(yàn)下的預(yù)測(cè)結(jié)果 Tab.2 Prediction results of each subclass in six families of enzymes under jackknife test

        續(xù)表2

        從表2的預(yù)測(cè)結(jié)果能夠看出,從酶序列的N端和C端截取氨基酸殘基片段的矩陣打分方法預(yù)測(cè)結(jié)果整體上優(yōu)于離散增量方法的預(yù)測(cè)結(jié)果,進(jìn)一步表明酶序列的兩端具有很好的位點(diǎn)保守性。而矩陣打分的2種分值結(jié)合氨基酸關(guān)聯(lián)的2種離散增量值共同作為特征參數(shù)進(jìn)行有效的組合,利用支持向量機(jī)的分類算法,獲得了最佳的預(yù)測(cè)結(jié)果。不但每個(gè)家族類的總體預(yù)測(cè)成功率很高,而且各個(gè)亞類的結(jié)果也非常理想。氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶中亞類的總體預(yù)測(cè)成功率分別為96.43%、92.90%、90.85%、99.22%、99.84%和98.86%。氧化還原酶、異構(gòu)酶和裂合酶的總體預(yù)測(cè)成功率比Chou[4]的方法分別提高了9.73%、6.54%和4.82%,水解酶和轉(zhuǎn)移酶的總體預(yù)測(cè)成功率比Chou等[4]的結(jié)果稍差。究其原因,是因?yàn)樗饷负娃D(zhuǎn)移酶的序列數(shù)目很大,故噪聲顯著。由于支持向量機(jī)需要大量的內(nèi)存,選擇正確的核很重要,所以很難做出調(diào)整,當(dāng)數(shù)據(jù)集的噪聲較大時(shí),無(wú)法獲得滿意的結(jié)果。

        3 結(jié) 語(yǔ)

        本文基于酶的序列信息,使用多特征的組合向量作為參數(shù)對(duì)酶的亞家族類進(jìn)行類型識(shí)別,預(yù)測(cè)成功率有了很大提高。這是因?yàn)橹С窒蛄繖C(jī)方法具有高效的分類能力,它能夠?qū)⒏鞣N序列信息有效融合,通過(guò)網(wǎng)格化尋找最優(yōu)參數(shù)c值和g值。此方法的優(yōu)勢(shì)還表現(xiàn)在通過(guò)提取矩陣打分值和離散增量值的方法,降低了輸入支持向量機(jī)的特征參數(shù)維數(shù),避免了維數(shù)災(zāi)難,簡(jiǎn)化了計(jì)算過(guò)程?!?/p>

        猜你喜歡
        異構(gòu)酶亞類水解酶
        無(wú)底物情況下來(lái)白R(shí)hoclococcus zopfii的腈水解酶中親核進(jìn)攻試劑CYS165的活性狀態(tài)的探究(英文)
        腈水解酶反應(yīng)機(jī)制與催化性能調(diào)控研究進(jìn)展
        氨基甲酸乙酯水解酶的家族生物信息學(xué)分析
        基于草原綜合順序分類法的中國(guó)山地草地亞類分類研究
        印度合成新型化合物可殺死癌細(xì)胞
        祝您健康(2019年7期)2019-07-12 03:11:52
        紅花查爾酮異構(gòu)酶基因的克隆及表達(dá)分析
        石油化工應(yīng)用(2018年3期)2018-03-24 14:54:36
        免疫球蛋白G亞型檢測(cè)在小兒反復(fù)呼吸道感染中的應(yīng)用
        建立NHEJ修復(fù)定量體系并檢測(cè)拓?fù)洚悩?gòu)酶抑制劑依托泊苷對(duì)NHEJ的影響
        Evaluation of antidepressant polypharmacy and other interventions for treatment-resistant depression
        熟妇人妻av中文字幕老熟妇| 青青草成人免费播放视频| 久久精品熟女亚洲av香蕉| 国产又黄又硬又粗| 午夜福利麻豆国产精品| 亚洲精品一二区| 天堂av中文在线官网| 蜜桃tv在线免费观看| 福利视频在线一区二区三区| 精品国产一区二区三区三级| 2018国产精华国产精品| 亚洲综合色自拍一区| 999精品免费视频观看| h视频在线观看视频在线| 亚洲av综合色区无码一区| 女人被爽到呻吟gif动态图视看 | 国产区精品一区二区不卡中文| 国产精品高潮呻吟av久久4虎| 欧美日韩国产另类在线观看| 亚洲精品一区二在线观看| 乱色欧美激惰| 免费黄色电影在线观看| 国产亚洲精品国看不卡| 亚洲丰满熟女一区二亚洲亚洲| 精品国产麻豆免费人成网站 | 久久精品国产只有精品96| 久久丫精品国产亚洲av| 亚洲AV无码日韩一区二区乱| 青青草视频网站在线观看| 亚洲成在人线在线播放无码| 欧美老熟妇又粗又大| 99国产精品欲av麻豆在线观看| 亚洲成人一区二区三区不卡 | 在线观看av不卡 一区二区三区| 丰满熟妇乱又伦精品| 波多野吉衣av无码| 经典女同一区二区三区| 一本色道精品亚洲国产一区| 久久婷婷五月综合色欧美| 亚洲精品日韩自慰喷水白浆| 初尝人妻少妇中文字幕在线 |