亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主成分分析優(yōu)化參數(shù)預(yù)測(cè)水解酶的亞類

        2018-05-07 06:52:04王瑩程薇薇

        王瑩 程薇薇

        摘 要:本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,用主成分分析對(duì)序列向量進(jìn)行分析,選取20個(gè)主要成分。將每條序列由20維向量來(lái)表示。用SVM算法對(duì)水解酶的亞類分別進(jìn)行分類預(yù)測(cè),在Jack-knife檢驗(yàn)下的預(yù)測(cè)總精度為96.9%。

        關(guān)鍵詞:SVM算法 主成分分析 水解酶 模體

        中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)01(a)-0143-02

        酶是一種生物催化劑,存活在細(xì)胞中,影響著細(xì)胞生長(zhǎng)、代謝等生命過(guò)程的化學(xué)反應(yīng)[1]近些年,許多研究者通過(guò)利用生物信息學(xué)建立了相應(yīng)的酶序列的數(shù)據(jù)庫(kù),并通過(guò)分類預(yù)測(cè)算法及酶序列的相關(guān)特征建立數(shù)學(xué)模型對(duì)酶的家族類及其亞類的研究上取得了較好的預(yù)測(cè)結(jié)果。隨著酶序列的相關(guān)特征的增多,用來(lái)表示序列的向量維數(shù)也相應(yīng)的增加,急需對(duì)其進(jìn)行優(yōu)化,降低向量的維數(shù),以提高預(yù)測(cè)的總精度。因此,本文將用主成分分析的方法來(lái)降低序列特征的維數(shù),得到較好的預(yù)測(cè)精度。

        1 數(shù)據(jù)庫(kù)和方法

        1.1 數(shù)據(jù)庫(kù)

        本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫(kù),其中水解酶5個(gè)亞類共4498條序列。

        1.2 特征參數(shù)

        1.2.1 氨基酸組分

        蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數(shù),來(lái)表示酶的序列信息。我們可以將一條酶序列替換為一個(gè)20維的向量。

        1.2.2 氨基酸緊鄰組分

        本文用氨基酸緊鄰組分將每條酶序列用400維向量來(lái)表示,以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個(gè)400維的向量,同上一個(gè)參數(shù)。

        1.2.3 預(yù)測(cè)的二級(jí)結(jié)構(gòu)

        對(duì)于蛋白質(zhì)分子來(lái)說(shuō),它不僅只具有一級(jí)結(jié)構(gòu),還有二級(jí)結(jié)構(gòu)等。而二級(jí)結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此,本文選取預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息(P)作為特征參數(shù)。

        本文所使用的二級(jí)結(jié)構(gòu)信息是PSIpred(Position Specific Iterated pred)軟件[2]。對(duì)于一條酶序列,我們用一個(gè)3維的向量來(lái)表示3種二級(jí)結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

        1.2.4 低頻功率譜密度值(F)

        功率譜密度可以反映蛋白質(zhì)序列的次序信息,本文將用其作為參數(shù)取得了較好的預(yù)測(cè)效果[3],功率譜密度值的提取方法如下[4]。

        (1)將酶序列轉(zhuǎn)為成數(shù)字序列。

        由于酶具有強(qiáng)疏水性,因此我們使用疏水值作為參數(shù)[6],使得每條酶序列變成數(shù)字序列。

        (2)離散傅里葉變換。

        酶序列數(shù)字化后,對(duì)它進(jìn)行離散傅里葉變換,具體公式如下:

        1≤k≤L

        (3)提取功率譜密度值:,其中T為周期。

        (4)功率譜密度值的處理。

        因?yàn)槊織l酶序列長(zhǎng)短不同,比較和分析其特性有一定的限制,需將長(zhǎng)度不同的酶序列變?yōu)橄嗤L(zhǎng)度。因此,根據(jù)信號(hào)的組成特點(diǎn),本文將每條酶序列都轉(zhuǎn)換成15維的向量。

        1.2.5 MEME模體和功能模體

        模體是刻畫(huà)蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此,通過(guò)對(duì)模體的研究,我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來(lái)搜索水解酶中的模體。本文限定6~15個(gè)氨基酸殘基作為模體的長(zhǎng)度,并且每類亞類搜索5個(gè)模體類數(shù),統(tǒng)計(jì)每條酶序列。

        我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語(yǔ)言編譯實(shí)現(xiàn)。用來(lái)搜索水解酶的亞類的蛋白質(zhì)序列中出現(xiàn)的模體。對(duì)于每一條酶序列來(lái)說(shuō),記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統(tǒng)計(jì)模體,水解酶共得到30個(gè)模體頻數(shù)值。

        1.3 主成分分析

        主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發(fā)展。主成分分析是一種通過(guò)降維的方法把多個(gè)變量化成幾個(gè)主成分的統(tǒng)計(jì)分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

        本文以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,將468維向量利用主成分分析的方法優(yōu)選出貢獻(xiàn)率較高的20維向量特征。因此,通過(guò)該方法每一條酶序列將由20維向量來(lái)表示。

        1.4 支持向量機(jī)算法

        支持向量機(jī)[4](SVM)是一種新型分類預(yù)測(cè)方法。SVM的基本思想是將把輸入數(shù)據(jù)通過(guò)非線性映射映射到一個(gè)高維的空間,然后在找到最優(yōu)超平面,最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為:,這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進(jìn)行計(jì)算。

        2 結(jié)語(yǔ)

        本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進(jìn)行分類預(yù)測(cè),在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測(cè),總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

        參考文獻(xiàn)

        [1] 閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

        [2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

        [3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

        [4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

        [5] 許忠能.生物信息學(xué)[M].北京:清華大學(xué)出版社,2008.

        [6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

        国产精品综合一区久久| 国产日产精品久久久久久| 欧美综合区自拍亚洲综合| 国产高清不卡二区三区在线观看 | 极品尤物在线精品一区二区三区| 成人网站在线进入爽爽爽| 精品人妻潮喷久久久又裸又黄| 亚洲嫩草影院久久精品| 精品女厕偷拍视频一区二区区| 在线播放五十路熟妇| 蜜桃av噜噜一区二区三区| 亚洲成AV人久久| 风流熟女一区二区三区| 欧美大屁股xxxx高跟欧美黑人| 亚洲av成本人无码网站| 喷潮出白浆视频在线观看| 国产一区亚洲二区三区极品| 免费无码毛片一区二区app| 色综合88| 亚洲码无人客一区二区三区| 欧美白人战黑吊| www国产亚洲精品久久网站| 欧美日韩一区二区三区视频在线观看 | 少妇人妻中文久久综合| 日夜啪啪一区二区三区| 国产一区二区牛影视| 最新国产精品国产三级国产av| 欧美人与善在线com| 日本一区午夜艳熟免费| 蜜臀av一区二区三区人妻在线| 日本人妻免费一区二区三区| 高清破外女出血av毛片| 啪啪视频一区二区三区入囗| 久久成人永久婷婷99精品| 无码中文亚洲av影音先锋 | 亚洲国色天香卡2卡3卡4| 欧美一区二区午夜福利在线yw| 国产精品丝袜美女久久| 国产尤物精品视频| 四虎影视亚洲精品| 美女人妻中文字幕av|