亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于序列的蛋白質(zhì)功能分類系統(tǒng)的研究與設(shè)計(jì)

        2016-12-31 00:00:00譚生龍
        科技創(chuàng)新與應(yīng)用 2016年27期

        摘 要:在生物序列快速增長(zhǎng)的大環(huán)境下,對(duì)新產(chǎn)生的未知功能序列進(jìn)行快速功能注釋是一項(xiàng)有挑戰(zhàn)性的任務(wù),文本以蛋白質(zhì)序列為研究對(duì)象,描述了使用機(jī)器學(xué)習(xí)方法對(duì)未知功能的蛋白質(zhì)序列進(jìn)行功能分類的一般方法。

        關(guān)鍵詞:蛋白質(zhì)序列;特征提??;功能分類

        1 概述

        蛋白質(zhì)是一切生命活動(dòng)的載體,對(duì)蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)是研究蛋白質(zhì)功能的重要途徑。隨著越來越多的生物物種被測(cè)序,生物數(shù)據(jù)庫(kù)中的未知功能序列正在快速增加,僅通過實(shí)驗(yàn)手段來驗(yàn)證未知序列的功能顯然已經(jīng)不能滿足要求。因此,借助計(jì)算技術(shù)對(duì)未知功能生物序列進(jìn)行功能預(yù)測(cè)已變成一種可行途徑。文章以蛋白質(zhì)序列為例,描述了基于序列的蛋白質(zhì)功能分類系統(tǒng)的設(shè)計(jì)流程。

        2 基于蛋白質(zhì)序列的功能分類算法的分析

        測(cè)序技術(shù)的快速發(fā)展產(chǎn)生了大量未知功能的序列;其中,蛋白質(zhì)序列占很大比重,對(duì)這些序列進(jìn)行功能注釋是一項(xiàng)繁瑣的大工程。在生物領(lǐng)域,一般認(rèn)為在序列上相似的蛋白質(zhì)在功能上也具有相似性。因此,我們希望通過對(duì)已知功能的蛋白質(zhì)序列進(jìn)行建模,用該模型來對(duì)未知功能的序列進(jìn)行功能分類,其功能分類框架如圖1所示。

        2.1 構(gòu)建正負(fù)樣本訓(xùn)練集

        為了構(gòu)建基于機(jī)器學(xué)習(xí)的功能分類模型,獲取高質(zhì)量的正樣本和負(fù)樣本序列訓(xùn)練集非常重要。正樣本序列是指已確認(rèn)其具有某項(xiàng)功能的蛋白質(zhì)序列,獲取途徑可以從已發(fā)表的文獻(xiàn)或者相關(guān)蛋白質(zhì)功能數(shù)據(jù)庫(kù)中獲取,也可以從模式生物蛋白質(zhì)序列的注釋信息中提取。負(fù)樣本序列指不具有相關(guān)功能的一般序列。負(fù)樣本序列的選擇可以來源于基因組中的其它隨機(jī)序列,它不能與正樣本集中的序列有交集,且負(fù)樣本序列和正樣本序列在數(shù)量上應(yīng)該保存相當(dāng)。

        2.2 剔除訓(xùn)練集中的重復(fù)序列

        為了提高機(jī)器學(xué)習(xí)模型的分類性能,訓(xùn)練集中序列之間的相似性應(yīng)該比較低,即正負(fù)樣本訓(xùn)練集中的序列相似性應(yīng)該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評(píng)價(jià)序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓(xùn)練集中的相似序列(冗余序列)。

        2.3 從蛋白質(zhì)序列中提取特征向量

        訓(xùn)練集中的蛋白質(zhì)序列是由字母表∑中的20個(gè)字符生成的字符長(zhǎng)串,每個(gè)字符代表20種基本氨基酸之一,即∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機(jī)器學(xué)習(xí)算法僅能處理特征向量;因此,將訓(xùn)練集中的每條序列轉(zhuǎn)化為一個(gè)特征向量是必經(jīng)步驟。設(shè)計(jì)高效的特征提取方案將蛋白質(zhì)序列轉(zhuǎn)化成特征向量是獲得高性能分類模型的關(guān)鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實(shí)現(xiàn)將蛋白質(zhì)序列轉(zhuǎn)化為特征向量。

        2.4 確定訓(xùn)練集中特征向量的類標(biāo)號(hào)

        將訓(xùn)練集中的序列轉(zhuǎn)換為特征向量后,需要將正負(fù)樣本的特征向量加上類標(biāo)號(hào),正樣本特征向量一般加上類標(biāo)號(hào)+1,負(fù)樣本的特征向量加上-1,這樣就可以將正負(fù)樣本特征向量集合并為一個(gè)輸入文件,方便輸入到機(jī)器學(xué)習(xí)分類模型中。

        2.5 選擇機(jī)器學(xué)習(xí)方法構(gòu)建分類模型

        在生物信息學(xué)領(lǐng)域沒有通用的機(jī)器學(xué)習(xí)算法,比較常用的算法包括支持向量機(jī)算法(Support Vector Machine)、隨機(jī)森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機(jī)器學(xué)習(xí)算法[3]。不同的生物信息學(xué)應(yīng)用場(chǎng)景、不同的特征提取方法和不同的機(jī)器學(xué)習(xí)算法的組合可能會(huì)產(chǎn)生性能顯著不同的分類器。通過比較不同的特征提取方式和機(jī)器學(xué)習(xí)算法,并通過性能評(píng)價(jià)指標(biāo)來選擇分類性能高的機(jī)器學(xué)習(xí)算法。

        2.6 通過交叉檢驗(yàn)來評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能

        評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能指標(biāo)包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準(zhǔn)確度(Precision, Pr)、馬修相關(guān)系數(shù)(Mathew's correlation coefficient,MCC)等,具體的計(jì)算公式可文獻(xiàn)參考[3,4],通過交叉檢驗(yàn)來計(jì)算不同分類算法的性能指標(biāo)值,根據(jù)這些指標(biāo)值來比較不同分類算法的性能;常用的交叉檢驗(yàn)方法包括5倍交叉檢驗(yàn)、10倍交叉檢驗(yàn)和留一法交叉檢驗(yàn)。

        2.7 機(jī)器學(xué)習(xí)算法的最優(yōu)參數(shù)

        在使用機(jī)器學(xué)習(xí)算法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的應(yīng)用中,不同的算法可能有不同的參數(shù)組合,將參數(shù)調(diào)節(jié)到最優(yōu)狀態(tài)可以獲得分類器的最佳性能。交叉檢驗(yàn)是衡量機(jī)器學(xué)習(xí)算法選擇及最優(yōu)參數(shù)配置的手段。例如,使用支持向量機(jī)并選擇徑向基核函數(shù)來對(duì)蛋白質(zhì)序列構(gòu)建分類模型時(shí),可以使用網(wǎng)格搜索法來搜索支持向量機(jī)算法的核函數(shù)因子γ和懲罰系數(shù)C這兩個(gè)參數(shù)的最佳值,并通過交叉檢驗(yàn)計(jì)算每種參數(shù)下的性能指標(biāo),尋找最優(yōu)參數(shù)組合,并在此參數(shù)下訓(xùn)練出性能最優(yōu)的機(jī)器學(xué)習(xí)模型。

        2.8 對(duì)未知功能序列進(jìn)行功能預(yù)測(cè)

        在應(yīng)用預(yù)測(cè)模型對(duì)未知功能的蛋白質(zhì)序列進(jìn)行分類時(shí),首先,應(yīng)該將該序列轉(zhuǎn)化為特征向量,轉(zhuǎn)化方法應(yīng)該與構(gòu)建模型的特征提取方法相同,將蛋白質(zhì)序列轉(zhuǎn)化成特征向量后輸入到前面步驟所構(gòu)建的機(jī)器學(xué)習(xí)模型中,其輸出結(jié)果為表示特定功能的類標(biāo)號(hào),根據(jù)輸出的類標(biāo)號(hào)即可判定未知功能序列是否屬于指定的功能類別。

        3 結(jié)束語(yǔ)

        文章描述了應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的一般流程,通過選擇合適的特征提取方法和機(jī)器學(xué)習(xí)算法,并通過交叉檢驗(yàn)選擇最佳的模型參數(shù),可構(gòu)建一個(gè)分類性能佳的分類器,可實(shí)現(xiàn)對(duì)未知功能蛋白質(zhì)序列進(jìn)行快速功能分類。

        參考文獻(xiàn)

        [1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

        [2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

        [3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

        [4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

        手机在线免费av资源网| 无遮挡中文毛片免费观看| 成在线人免费无码高潮喷水| 水蜜桃视频在线观看入口| √天堂资源中文www| 热re99久久精品国产99热| 五月婷婷影视| 日本在线观看一区二区视频| 亚洲av成人一区二区三区本码| 精品成人av一区二区三区| 亚洲日韩图片专区小说专区| 久久色悠悠亚洲综合网| 亚洲av区,一区二区三区色婷婷| a级毛片100部免费观看| 国产精品自在线免费| 亚洲一本之道高清在线观看| 日韩精品第一区二区三区| 又色又爽又黄还免费毛片96下载| 一本大道香蕉视频在线观看| 国产高清一区二区三区视频| 国产亚洲一区二区三区综合片| 性大毛片视频| 国产亚洲精品A在线无码| 美女把内衣内裤脱了给男人舔| 免费毛儿一区二区十八岁| 亚洲中文字幕无码久久| 日韩免费高清视频网站| 五月婷婷开心五月激情| 自拍偷区亚洲综合激情| 亚洲成a人v欧美综合天堂| 国产乱人伦偷精品视频| 日本一区免费喷水| 精品人妻一区二区三区视频| 狠狠色婷婷久久综合频道日韩| 99国产免费热播视频| 日韩精品资源在线观看免费| 日本欧美大码a在线观看| 亚洲中文字幕无码mv| 激情五月婷婷久久综合| 国产变态av一区二区三区调教| 精品国产一区二区三区免费 |