摘 要:在生物序列快速增長(zhǎng)的大環(huán)境下,對(duì)新產(chǎn)生的未知功能序列進(jìn)行快速功能注釋是一項(xiàng)有挑戰(zhàn)性的任務(wù),文本以蛋白質(zhì)序列為研究對(duì)象,描述了使用機(jī)器學(xué)習(xí)方法對(duì)未知功能的蛋白質(zhì)序列進(jìn)行功能分類的一般方法。
關(guān)鍵詞:蛋白質(zhì)序列;特征提??;功能分類
1 概述
蛋白質(zhì)是一切生命活動(dòng)的載體,對(duì)蛋白質(zhì)序列進(jìn)行功能預(yù)測(cè)是研究蛋白質(zhì)功能的重要途徑。隨著越來越多的生物物種被測(cè)序,生物數(shù)據(jù)庫(kù)中的未知功能序列正在快速增加,僅通過實(shí)驗(yàn)手段來驗(yàn)證未知序列的功能顯然已經(jīng)不能滿足要求。因此,借助計(jì)算技術(shù)對(duì)未知功能生物序列進(jìn)行功能預(yù)測(cè)已變成一種可行途徑。文章以蛋白質(zhì)序列為例,描述了基于序列的蛋白質(zhì)功能分類系統(tǒng)的設(shè)計(jì)流程。
2 基于蛋白質(zhì)序列的功能分類算法的分析
測(cè)序技術(shù)的快速發(fā)展產(chǎn)生了大量未知功能的序列;其中,蛋白質(zhì)序列占很大比重,對(duì)這些序列進(jìn)行功能注釋是一項(xiàng)繁瑣的大工程。在生物領(lǐng)域,一般認(rèn)為在序列上相似的蛋白質(zhì)在功能上也具有相似性。因此,我們希望通過對(duì)已知功能的蛋白質(zhì)序列進(jìn)行建模,用該模型來對(duì)未知功能的序列進(jìn)行功能分類,其功能分類框架如圖1所示。
2.1 構(gòu)建正負(fù)樣本訓(xùn)練集
為了構(gòu)建基于機(jī)器學(xué)習(xí)的功能分類模型,獲取高質(zhì)量的正樣本和負(fù)樣本序列訓(xùn)練集非常重要。正樣本序列是指已確認(rèn)其具有某項(xiàng)功能的蛋白質(zhì)序列,獲取途徑可以從已發(fā)表的文獻(xiàn)或者相關(guān)蛋白質(zhì)功能數(shù)據(jù)庫(kù)中獲取,也可以從模式生物蛋白質(zhì)序列的注釋信息中提取。負(fù)樣本序列指不具有相關(guān)功能的一般序列。負(fù)樣本序列的選擇可以來源于基因組中的其它隨機(jī)序列,它不能與正樣本集中的序列有交集,且負(fù)樣本序列和正樣本序列在數(shù)量上應(yīng)該保存相當(dāng)。
2.2 剔除訓(xùn)練集中的重復(fù)序列
為了提高機(jī)器學(xué)習(xí)模型的分類性能,訓(xùn)練集中序列之間的相似性應(yīng)該比較低,即正負(fù)樣本訓(xùn)練集中的序列相似性應(yīng)該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評(píng)價(jià)序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓(xùn)練集中的相似序列(冗余序列)。
2.3 從蛋白質(zhì)序列中提取特征向量
訓(xùn)練集中的蛋白質(zhì)序列是由字母表∑中的20個(gè)字符生成的字符長(zhǎng)串,每個(gè)字符代表20種基本氨基酸之一,即∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機(jī)器學(xué)習(xí)算法僅能處理特征向量;因此,將訓(xùn)練集中的每條序列轉(zhuǎn)化為一個(gè)特征向量是必經(jīng)步驟。設(shè)計(jì)高效的特征提取方案將蛋白質(zhì)序列轉(zhuǎn)化成特征向量是獲得高性能分類模型的關(guān)鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實(shí)現(xiàn)將蛋白質(zhì)序列轉(zhuǎn)化為特征向量。
2.4 確定訓(xùn)練集中特征向量的類標(biāo)號(hào)
將訓(xùn)練集中的序列轉(zhuǎn)換為特征向量后,需要將正負(fù)樣本的特征向量加上類標(biāo)號(hào),正樣本特征向量一般加上類標(biāo)號(hào)+1,負(fù)樣本的特征向量加上-1,這樣就可以將正負(fù)樣本特征向量集合并為一個(gè)輸入文件,方便輸入到機(jī)器學(xué)習(xí)分類模型中。
2.5 選擇機(jī)器學(xué)習(xí)方法構(gòu)建分類模型
在生物信息學(xué)領(lǐng)域沒有通用的機(jī)器學(xué)習(xí)算法,比較常用的算法包括支持向量機(jī)算法(Support Vector Machine)、隨機(jī)森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機(jī)器學(xué)習(xí)算法[3]。不同的生物信息學(xué)應(yīng)用場(chǎng)景、不同的特征提取方法和不同的機(jī)器學(xué)習(xí)算法的組合可能會(huì)產(chǎn)生性能顯著不同的分類器。通過比較不同的特征提取方式和機(jī)器學(xué)習(xí)算法,并通過性能評(píng)價(jià)指標(biāo)來選擇分類性能高的機(jī)器學(xué)習(xí)算法。
2.6 通過交叉檢驗(yàn)來評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能
評(píng)價(jià)機(jī)器學(xué)習(xí)算法的性能指標(biāo)包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準(zhǔn)確度(Precision, Pr)、馬修相關(guān)系數(shù)(Mathew's correlation coefficient,MCC)等,具體的計(jì)算公式可文獻(xiàn)參考[3,4],通過交叉檢驗(yàn)來計(jì)算不同分類算法的性能指標(biāo)值,根據(jù)這些指標(biāo)值來比較不同分類算法的性能;常用的交叉檢驗(yàn)方法包括5倍交叉檢驗(yàn)、10倍交叉檢驗(yàn)和留一法交叉檢驗(yàn)。
2.7 機(jī)器學(xué)習(xí)算法的最優(yōu)參數(shù)
在使用機(jī)器學(xué)習(xí)算法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的應(yīng)用中,不同的算法可能有不同的參數(shù)組合,將參數(shù)調(diào)節(jié)到最優(yōu)狀態(tài)可以獲得分類器的最佳性能。交叉檢驗(yàn)是衡量機(jī)器學(xué)習(xí)算法選擇及最優(yōu)參數(shù)配置的手段。例如,使用支持向量機(jī)并選擇徑向基核函數(shù)來對(duì)蛋白質(zhì)序列構(gòu)建分類模型時(shí),可以使用網(wǎng)格搜索法來搜索支持向量機(jī)算法的核函數(shù)因子γ和懲罰系數(shù)C這兩個(gè)參數(shù)的最佳值,并通過交叉檢驗(yàn)計(jì)算每種參數(shù)下的性能指標(biāo),尋找最優(yōu)參數(shù)組合,并在此參數(shù)下訓(xùn)練出性能最優(yōu)的機(jī)器學(xué)習(xí)模型。
2.8 對(duì)未知功能序列進(jìn)行功能預(yù)測(cè)
在應(yīng)用預(yù)測(cè)模型對(duì)未知功能的蛋白質(zhì)序列進(jìn)行分類時(shí),首先,應(yīng)該將該序列轉(zhuǎn)化為特征向量,轉(zhuǎn)化方法應(yīng)該與構(gòu)建模型的特征提取方法相同,將蛋白質(zhì)序列轉(zhuǎn)化成特征向量后輸入到前面步驟所構(gòu)建的機(jī)器學(xué)習(xí)模型中,其輸出結(jié)果為表示特定功能的類標(biāo)號(hào),根據(jù)輸出的類標(biāo)號(hào)即可判定未知功能序列是否屬于指定的功能類別。
3 結(jié)束語(yǔ)
文章描述了應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)蛋白質(zhì)序列進(jìn)行功能分類的一般流程,通過選擇合適的特征提取方法和機(jī)器學(xué)習(xí)算法,并通過交叉檢驗(yàn)選擇最佳的模型參數(shù),可構(gòu)建一個(gè)分類性能佳的分類器,可實(shí)現(xiàn)對(duì)未知功能蛋白質(zhì)序列進(jìn)行快速功能分類。
參考文獻(xiàn)
[1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.
[2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.
[3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.
[4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.