亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于序列的蛋白質(zhì)功能分類系統(tǒng)的研究與設(shè)計(jì)

        2016-12-31 00:00:00譚生龍
        科技創(chuàng)新與應(yīng)用 2016年27期

        摘 要:在生物序列快速增長(zhǎng)的大環(huán)境下,對(duì)新產(chǎn)生的未知功能序列進(jìn)行快速功能注釋是一項(xiàng)有挑戰(zhàn)性的任務(wù),文本以蛋白質(zhì)序列為研究對(duì)象,描述了使用機(jī)器學(xué)習(xí)方法對(duì)未知功能的蛋白質(zhì)序列進(jìn)行功能分類的一般方法。

        關(guān)鍵詞:蛋白質(zhì)序列;特征提??;功能分類

        1 概述

        蛋白質(zhì)是一切生命活動(dòng)的載體,對(duì)蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)是研究蛋白質(zhì)功能的重要途徑。隨著越來越多的生物物種被測(cè)序,生物數(shù)據(jù)庫(kù)中的未知功能序列正在快速增加,僅通過實(shí)驗(yàn)手段來驗(yàn)證未知序列的功能顯然已經(jīng)不能滿足要求。因此,借助計(jì)算技術(shù)對(duì)未知功能生物序列進(jìn)行功能預(yù)測(cè)已變成一種可行途徑。文章以蛋白質(zhì)序列為例,描述了基于序列的蛋白質(zhì)功能分類系統(tǒng)的設(shè)計(jì)流程。

        2 基于蛋白質(zhì)序列的功能分類算法的分析

        測(cè)序技術(shù)的快速發(fā)展產(chǎn)生了大量未知功能的序列;其中,蛋白質(zhì)序列占很大比重,對(duì)這些序列進(jìn)行功能注釋是一項(xiàng)繁瑣的大工程。在生物領(lǐng)域,一般認(rèn)為在序列上相似的蛋白質(zhì)在功能上也具有相似性。因此,我們希望通過對(duì)已知功能的蛋白質(zhì)序列進(jìn)行建模,用該模型來對(duì)未知功能的序列進(jìn)行功能分類,其功能分類框架如圖1所示。

        2.1 構(gòu)建正負(fù)樣本訓(xùn)練集

        為了構(gòu)建基于機(jī)器學(xué)習(xí)的功能分類模型,獲取高質(zhì)量的正樣本和負(fù)樣本序列訓(xùn)練集非常重要。正樣本序列是指已確認(rèn)其具有某項(xiàng)功能的蛋白質(zhì)序列,獲取途徑可以從已發(fā)表的文獻(xiàn)或者相關(guān)蛋白質(zhì)功能數(shù)據(jù)庫(kù)中獲取,也可以從模式生物蛋白質(zhì)序列的注釋信息中提取。負(fù)樣本序列指不具有相關(guān)功能的一般序列。負(fù)樣本序列的選擇可以來源于基因組中的其它隨機(jī)序列,它不能與正樣本集中的序列有交集,且負(fù)樣本序列和正樣本序列在數(shù)量上應(yīng)該保存相當(dāng)。

        2.2 剔除訓(xùn)練集中的重復(fù)序列

        為了提高機(jī)器學(xué)習(xí)模型的分類性能,訓(xùn)練集中序列之間的相似性應(yīng)該比較低,即正負(fù)樣本訓(xùn)練集中的序列相似性應(yīng)該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評(píng)價(jià)序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓(xùn)練集中的相似序列(冗余序列)。

        2.3 從蛋白質(zhì)序列中提取特征向量

        訓(xùn)練集中的蛋白質(zhì)序列是由字母表∑中的20個(gè)字符生成的字符長(zhǎng)串,每個(gè)字符代表20種基本氨基酸之一,即∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機(jī)器學(xué)習(xí)算法僅能處理特征向量;因此,將訓(xùn)練集中的每條序列轉(zhuǎn)化為一個(gè)特征向量是必經(jīng)步驟。設(shè)計(jì)高效的特征提取方案將蛋白質(zhì)序列轉(zhuǎn)化成特征向量是獲得高性能分類模型的關(guān)鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實(shí)現(xiàn)將蛋白質(zhì)序列轉(zhuǎn)化為特征向量。

        2.4 確定訓(xùn)練集中特征向量的類標(biāo)號(hào)

        將訓(xùn)練集中的序列轉(zhuǎn)換為特征向量后,需要將正負(fù)樣本的特征向量加上類標(biāo)號(hào),正樣本特征向量一般加上類標(biāo)號(hào)+1,負(fù)樣本的特征向量加上-1,這樣就可以將正負(fù)樣本特征向量集合并為一個(gè)輸入文件,方便輸入到機(jī)器學(xué)習(xí)分類模型中。

        2.5 選擇機(jī)器學(xué)習(xí)方法構(gòu)建分類模型

        在生物信息學(xué)領(lǐng)域沒有通用的機(jī)器學(xué)習(xí)算法,比較常用的算法包括支持向量機(jī)算法(Support Vector Machine)、隨機(jī)森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機(jī)器學(xué)習(xí)算法[3]。不同的生物信息學(xué)應(yīng)用場(chǎng)景、不同的特征提取方法和不同的機(jī)器學(xué)習(xí)算法的組合可能會(huì)產(chǎn)生性能顯著不同的分類器。通過比較不同的特征提取方式和機(jī)器學(xué)習(xí)算法,并通過性能評(píng)價(jià)指標(biāo)來選擇分類性能高的機(jī)器學(xué)習(xí)算法。

        2.6 通過交叉檢驗(yàn)來評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能

        評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能指標(biāo)包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準(zhǔn)確度(Precision, Pr)、馬修相關(guān)系數(shù)(Mathew's correlation coefficient,MCC)等,具體的計(jì)算公式可文獻(xiàn)參考[3,4],通過交叉檢驗(yàn)來計(jì)算不同分類算法的性能指標(biāo)值,根據(jù)這些指標(biāo)值來比較不同分類算法的性能;常用的交叉檢驗(yàn)方法包括5倍交叉檢驗(yàn)、10倍交叉檢驗(yàn)和留一法交叉檢驗(yàn)。

        2.7 機(jī)器學(xué)習(xí)算法的最優(yōu)參數(shù)

        在使用機(jī)器學(xué)習(xí)算法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的應(yīng)用中,不同的算法可能有不同的參數(shù)組合,將參數(shù)調(diào)節(jié)到最優(yōu)狀態(tài)可以獲得分類器的最佳性能。交叉檢驗(yàn)是衡量機(jī)器學(xué)習(xí)算法選擇及最優(yōu)參數(shù)配置的手段。例如,使用支持向量機(jī)并選擇徑向基核函數(shù)來對(duì)蛋白質(zhì)序列構(gòu)建分類模型時(shí),可以使用網(wǎng)格搜索法來搜索支持向量機(jī)算法的核函數(shù)因子γ和懲罰系數(shù)C這兩個(gè)參數(shù)的最佳值,并通過交叉檢驗(yàn)計(jì)算每種參數(shù)下的性能指標(biāo),尋找最優(yōu)參數(shù)組合,并在此參數(shù)下訓(xùn)練出性能最優(yōu)的機(jī)器學(xué)習(xí)模型。

        2.8 對(duì)未知功能序列進(jìn)行功能預(yù)測(cè)

        在應(yīng)用預(yù)測(cè)模型對(duì)未知功能的蛋白質(zhì)序列進(jìn)行分類時(shí),首先,應(yīng)該將該序列轉(zhuǎn)化為特征向量,轉(zhuǎn)化方法應(yīng)該與構(gòu)建模型的特征提取方法相同,將蛋白質(zhì)序列轉(zhuǎn)化成特征向量后輸入到前面步驟所構(gòu)建的機(jī)器學(xué)習(xí)模型中,其輸出結(jié)果為表示特定功能的類標(biāo)號(hào),根據(jù)輸出的類標(biāo)號(hào)即可判定未知功能序列是否屬于指定的功能類別。

        3 結(jié)束語(yǔ)

        文章描述了應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的一般流程,通過選擇合適的特征提取方法和機(jī)器學(xué)習(xí)算法,并通過交叉檢驗(yàn)選擇最佳的模型參數(shù),可構(gòu)建一個(gè)分類性能佳的分類器,可實(shí)現(xiàn)對(duì)未知功能蛋白質(zhì)序列進(jìn)行快速功能分類。

        參考文獻(xiàn)

        [1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

        [2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

        [3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

        [4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

        男女高潮免费观看无遮挡| 女人被狂躁到高潮视频免费网站| 国产第一页屁屁影院| 就国产av一区二区三区天堂| 亚洲免费一区二区av| 色偷偷色噜噜狠狠网站30根| 99香蕉国产精品偷在线观看| 一本无码人妻在中文字幕| 国产麻豆成人精品av| 久久精品国产亚洲超碰av| 国产成人精品电影在线观看| 国产一级免费黄片无码AV| 亚洲成av人片在久久性色av| 国产欧美va欧美va香蕉在线| 色五月丁香五月综合五月4438| 国产精彩视频| 白色月光免费观看完整版| 少妇久久久久久被弄高潮| 伦人伦xxxx国语对白| 久久国产精品老人性| 久久99精品综合国产女同| 永久免费人禽av在线观看| 青青草国产成人99久久| 亚洲av噜噜狠狠蜜桃| av天堂最新在线播放| a级毛片无码久久精品免费| 日本视频中文字幕一区在线| 亚洲最大的av在线观看| 新婚少妇无套内谢国语播放| 国产成人亚洲日韩欧美| 久久精品中文字幕第一页| 中文国产乱码在线人妻一区二区 | 亚洲精品综合中文字幕组合| 久久96国产精品久久久| 国产精品-区区久久久狼| 中文字幕日本一区二区在线观看 | 黑人巨茎大战俄罗斯美女| 国产精品久久久久国产精品| 国内精品熟女一区二区| 级毛片内射视频| 日韩av高清无码|