亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于序列的蛋白質(zhì)功能分類系統(tǒng)的研究與設(shè)計(jì)

2016-12-31 00:00:00譚生龍

科技創(chuàng)新與應(yīng)用 2016年27期

摘要：在生物序列快速增長(zhǎng)的大環(huán)境下，對(duì)新產(chǎn)生的未知功能序列進(jìn)行快速功能注釋是一項(xiàng)有挑戰(zhàn)性的任務(wù)，文本以蛋白質(zhì)序列為研究對(duì)象，描述了使用機(jī)器學(xué)習(xí)方法對(duì)未知功能的蛋白質(zhì)序列進(jìn)行功能分類的一般方法。

關(guān)鍵詞：蛋白質(zhì)序列；特征提??；功能分類

1 概述

蛋白質(zhì)是一切生命活動(dòng)的載體，對(duì)蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)是研究蛋白質(zhì)功能的重要途徑。隨著越來越多的生物物種被測(cè)序，生物數(shù)據(jù)庫(kù)中的未知功能序列正在快速增加，僅通過實(shí)驗(yàn)手段來驗(yàn)證未知序列的功能顯然已經(jīng)不能滿足要求。因此，借助計(jì)算技術(shù)對(duì)未知功能生物序列進(jìn)行功能預(yù)測(cè)已變成一種可行途徑。文章以蛋白質(zhì)序列為例，描述了基于序列的蛋白質(zhì)功能分類系統(tǒng)的設(shè)計(jì)流程。

2 基于蛋白質(zhì)序列的功能分類算法的分析

測(cè)序技術(shù)的快速發(fā)展產(chǎn)生了大量未知功能的序列；其中，蛋白質(zhì)序列占很大比重，對(duì)這些序列進(jìn)行功能注釋是一項(xiàng)繁瑣的大工程。在生物領(lǐng)域，一般認(rèn)為在序列上相似的蛋白質(zhì)在功能上也具有相似性。因此，我們希望通過對(duì)已知功能的蛋白質(zhì)序列進(jìn)行建模，用該模型來對(duì)未知功能的序列進(jìn)行功能分類，其功能分類框架如圖1所示。

2.1 構(gòu)建正負(fù)樣本訓(xùn)練集

為了構(gòu)建基于機(jī)器學(xué)習(xí)的功能分類模型，獲取高質(zhì)量的正樣本和負(fù)樣本序列訓(xùn)練集非常重要。正樣本序列是指已確認(rèn)其具有某項(xiàng)功能的蛋白質(zhì)序列，獲取途徑可以從已發(fā)表的文獻(xiàn)或者相關(guān)蛋白質(zhì)功能數(shù)據(jù)庫(kù)中獲取，也可以從模式生物蛋白質(zhì)序列的注釋信息中提取。負(fù)樣本序列指不具有相關(guān)功能的一般序列。負(fù)樣本序列的選擇可以來源于基因組中的其它隨機(jī)序列，它不能與正樣本集中的序列有交集，且負(fù)樣本序列和正樣本序列在數(shù)量上應(yīng)該保存相當(dāng)。

2.2 剔除訓(xùn)練集中的重復(fù)序列

為了提高機(jī)器學(xué)習(xí)模型的分類性能，訓(xùn)練集中序列之間的相似性應(yīng)該比較低，即正負(fù)樣本訓(xùn)練集中的序列相似性應(yīng)該低于給定的閥值，一般取20%或者25%，即兩條序列間序列的一致性（Identity）不超過20%或者25%。評(píng)價(jià)序列相似性的軟件很多，包括Blast、BlastClust和cd-hit等；使用這些軟件可以剔除訓(xùn)練集中的相似序列（冗余序列）。

2.3 從蛋白質(zhì)序列中提取特征向量

訓(xùn)練集中的蛋白質(zhì)序列是由字母表∑中的20個(gè)字符生成的字符長(zhǎng)串，每個(gè)字符代表20種基本氨基酸之一，即∑={A，C，D，E，F(xiàn)，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}；而目前的機(jī)器學(xué)習(xí)算法僅能處理特征向量；因此，將訓(xùn)練集中的每條序列轉(zhuǎn)化為一個(gè)特征向量是必經(jīng)步驟。設(shè)計(jì)高效的特征提取方案將蛋白質(zhì)序列轉(zhuǎn)化成特征向量是獲得高性能分類模型的關(guān)鍵，比如使用propy[1]和Pse-in-One[2]等工具軟件可實(shí)現(xiàn)將蛋白質(zhì)序列轉(zhuǎn)化為特征向量。

2.4 確定訓(xùn)練集中特征向量的類標(biāo)號(hào)

將訓(xùn)練集中的序列轉(zhuǎn)換為特征向量后，需要將正負(fù)樣本的特征向量加上類標(biāo)號(hào)，正樣本特征向量一般加上類標(biāo)號(hào)+1，負(fù)樣本的特征向量加上-1，這樣就可以將正負(fù)樣本特征向量集合并為一個(gè)輸入文件，方便輸入到機(jī)器學(xué)習(xí)分類模型中。

2.5 選擇機(jī)器學(xué)習(xí)方法構(gòu)建分類模型

在生物信息學(xué)領(lǐng)域沒有通用的機(jī)器學(xué)習(xí)算法，比較常用的算法包括支持向量機(jī)算法（Support Vector Machine）、隨機(jī)森林（Random Forest）、決策樹（Decision Tree）、貝葉斯（Na ve Bayesian）和二次判別分析（Quadratic Discriminant Analysis）等眾多機(jī)器學(xué)習(xí)算法[3]。不同的生物信息學(xué)應(yīng)用場(chǎng)景、不同的特征提取方法和不同的機(jī)器學(xué)習(xí)算法的組合可能會(huì)產(chǎn)生性能顯著不同的分類器。通過比較不同的特征提取方式和機(jī)器學(xué)習(xí)算法，并通過性能評(píng)價(jià)指標(biāo)來選擇分類性能高的機(jī)器學(xué)習(xí)算法。

2.6 通過交叉檢驗(yàn)來評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能

評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能指標(biāo)包括靈敏度（Sensitivity， Sn）、特異度（Specificity， Sp）、準(zhǔn)確度（Precision， Pr）、馬修相關(guān)系數(shù)（Mathew's correlation coefficient，MCC）等，具體的計(jì)算公式可文獻(xiàn)參考[3，4]，通過交叉檢驗(yàn)來計(jì)算不同分類算法的性能指標(biāo)值，根據(jù)這些指標(biāo)值來比較不同分類算法的性能；常用的交叉檢驗(yàn)方法包括5倍交叉檢驗(yàn)、10倍交叉檢驗(yàn)和留一法交叉檢驗(yàn)。

2.7 機(jī)器學(xué)習(xí)算法的最優(yōu)參數(shù)

在使用機(jī)器學(xué)習(xí)算法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的應(yīng)用中，不同的算法可能有不同的參數(shù)組合，將參數(shù)調(diào)節(jié)到最優(yōu)狀態(tài)可以獲得分類器的最佳性能。交叉檢驗(yàn)是衡量機(jī)器學(xué)習(xí)算法選擇及最優(yōu)參數(shù)配置的手段。例如，使用支持向量機(jī)并選擇徑向基核函數(shù)來對(duì)蛋白質(zhì)序列構(gòu)建分類模型時(shí)，可以使用網(wǎng)格搜索法來搜索支持向量機(jī)算法的核函數(shù)因子γ和懲罰系數(shù)C這兩個(gè)參數(shù)的最佳值，并通過交叉檢驗(yàn)計(jì)算每種參數(shù)下的性能指標(biāo)，尋找最優(yōu)參數(shù)組合，并在此參數(shù)下訓(xùn)練出性能最優(yōu)的機(jī)器學(xué)習(xí)模型。

2.8 對(duì)未知功能序列進(jìn)行功能預(yù)測(cè)

在應(yīng)用預(yù)測(cè)模型對(duì)未知功能的蛋白質(zhì)序列進(jìn)行分類時(shí)，首先，應(yīng)該將該序列轉(zhuǎn)化為特征向量，轉(zhuǎn)化方法應(yīng)該與構(gòu)建模型的特征提取方法相同，將蛋白質(zhì)序列轉(zhuǎn)化成特征向量后輸入到前面步驟所構(gòu)建的機(jī)器學(xué)習(xí)模型中，其輸出結(jié)果為表示特定功能的類標(biāo)號(hào)，根據(jù)輸出的類標(biāo)號(hào)即可判定未知功能序列是否屬于指定的功能類別。

3 結(jié)束語(yǔ)

文章描述了應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的一般流程，通過選擇合適的特征提取方法和機(jī)器學(xué)習(xí)算法，并通過交叉檢驗(yàn)選擇最佳的模型參數(shù)，可構(gòu)建一個(gè)分類性能佳的分類器，可實(shí)現(xiàn)對(duì)未知功能蛋白質(zhì)序列進(jìn)行快速功能分類。

參考文獻(xiàn)

[1]D. S. Cao， Q. S. Xu， and Y. Z. Liang， “propy： a tool to generate various modes of Chou's PseAAC，” Bioinformatics， vol. 29， pp. 960-2， Apr 1 2013.

[2]B. Liu， F. Liu， X. Wang， J. Chen， L. Fang， and K. C. Chou， “Pse-in-One： a web server for generating various modes of pseudo components of DNA， RNA， and protein sequences，” Nucleic Acids Res， vol. 43， pp. W65-71， Jul 1 2015.

[3]J. C. Jeong， X. Lin， and X. W. Chen， “On position-specific scoring matrix for protein function prediction，” IEEE/ACM Trans Comput Biol Bioinform， vol. 8， pp. 308-15， Mar-Apr 2011.

[4]G. Liu， J. Liu， X. Cui， and L. Cai， “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae，” J Theor Biol， vol. 293， pp. 49-54， Jan 21 2012.

科技創(chuàng)新與應(yīng)用2016年27期

科技創(chuàng)新與應(yīng)用的其它文章: 消防機(jī)器人裝備在滅火救援中的有效運(yùn)用; 基于數(shù)字電力儀表應(yīng)用分析的大型公共建筑電能分項(xiàng)計(jì)量管理; 探討中分2000A氣相色譜儀化驗(yàn)變壓器油的應(yīng)用價(jià)值; GPS—RTK技術(shù)在水下地形測(cè)量中的應(yīng)用觀察; 心電監(jiān)護(hù)儀常見故障的維修策略分析; 醫(yī)用X線光機(jī)的工作原理及日常維修維護(hù)策略分析