摘 要: 在蛋白質與維生素綁定位點預測問題中,小類樣本和大類樣本之間存在顯著的不平衡性,傳統(tǒng)的機器學習方法將不再適用。針對此問題,在多重隨機下采樣的基礎上結合支持向量機(SVM)集成來預測蛋白質與維生素的綁定位點,采用了一種改進的AdaBoost集成方法,稱為MAdaBoost集成。通過實驗比較了不同的集成策略,其中MAdaBoost集成效果最優(yōu)。實驗結果表明,采用隨機下采樣結合SVM集成將有效提高蛋白質維生素綁定位點預測的精度。
關鍵詞: 蛋白質?維生素相互作用; 綁定位點預測; 多重隨機下采樣; SVM集成; Adaboost算法
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2015)09?0090?06
Abstract: Since the obvious imbalance exists between small samples and large samples in protein?vitamin binding site prediction problem, the traditional machine learning approach is not suitable for this problem. To tackle this problem, protein?vitamin binding site is predict by combining multiple random sampling with SVM ensemble, an improved AdaBoost algorithm which is called MAdaBoost ensemble is adopted. Different ensemble strategies are compared by experiments, the MAdaBoost ensemble strategy is optimal. The experimental results show that the accuracy of protein?vitamin binding site prediction is improved by applying random sampling with SVM ensemble method.
Keywords: protein?vitamin interaction; binding site prediction; multiple random sampling; SVM ensemble; AdaBoost algorithm
0 引 言
酶是具有生物催化功能的生物大分子,主要由蛋白質組成,對于生物化學變化起催化作用。輔酶是一類可以將化學基團從一個酶轉移到另一個酶上的有機小分子,與酶松散地結合,許多酶的催化活動中都需要輔酶的參與。維生素有很多不同的生化功能,如維生素D有抗傳染和抗炎的作用,而維生素E和一些維生素C有抗氧化的作用[1],但是它們最主要的功能是作為酶的輔助因子參與到酶的基底作用中。有些維生素有類似荷爾蒙的功能,調節(jié)礦物質的代謝(如維生素D)或者調節(jié)細胞和組織的生長(如某些維生素A)。
在健康的人體內,維生素通過與酶分子在合適的綁定位點進行綁定,參與到人體的生化反應中。但對于病人而言,維生素與酶的位點綁定活動不能正常的進行。這些酶便成了許多疾病的藥物靶點,因此研究蛋白質與維生素的綁定位點預測問題對于生物制藥等相關行業(yè)具有非常重要的意義。但是傳統(tǒng)的實驗室測定方式存在實驗工作量大、周期長、代價高等缺點,可見傳統(tǒng)的實驗室測定的方式已不能滿足當下行業(yè)發(fā)展的迫切需求,利用智能計算方法來預測維生素作用位點能夠加快預測的速度,提高實驗效率,因此當前這類研究具有相當重要的意義。
本文主要針對蛋白質維生素綁定位點預測展開研究?!敖壎ā币辉~的意思就是蛋白質序列上的某個氨基酸殘基與配體發(fā)生生物化學作用,該氨基酸殘基被稱作“綁定位點”,相反,不發(fā)生作用的氨基酸殘基稱為“非綁定位點”。在蛋白質的序列中只有少數的殘基能夠與維生素發(fā)生綁定作用,而蛋白質序列中不與維生素綁定的殘基數量比綁定殘基的數量多得多,因此可以將蛋白質與維生素綁定位點預測問題歸結為典型的不平衡學習問題[2]。解決不平衡問題的方法有很多,Mohamed Bekkar[3]將解決方法歸納為以下幾類:
(1) 通過采樣方法對不平衡數據進行預處理;
(2) 通過分類器集成的方法提高預測的效果;
(3) 代價敏感學習方法;
(4) 特征選擇方法。
本研究中,將綁定位點稱為小類樣本,也是令人感興趣的類別,不妨稱為正類樣本,而將非綁定位點稱為大類樣本(負類樣本)。采用隨機下采樣的方法對大類樣本進行采樣,但是隨機下采樣可能會造成大類樣本中有用信息的丟失。相關研究表明分類器集成能夠有效地降低隨機下采樣帶來的負面影響[4]。在本研究中,使用多重隨機下采樣并結合分類器集成的方法以提高蛋白質?維生素綁定位點的預測精度。首先,在大類樣本中進行多次隨機下采樣得到多個數量與小類樣本數量相同的大類樣本子集;然后,將這些大類樣本子集和小類樣本集結合成訓練集,在這些訓練集上分別訓練出基分類器,最后將基分類器進行集成。本研究中采用了最大集成(Maximum Ensemble)、最小集成(Minimum Ensemble)、平均集成(Mean Ensemble)等,此外根據所研究問題本身的特點,采用了一種改進的AdaBoost集成(稱之為MAdaBoost Ensemble)方法[5]。根據分類器的集成結果,得到蛋白質序列中每個氨基酸(殘基)屬于綁定位點的可能性,并采用基于閾值的方法對實驗結果進行處理,得出最終的預測結果及其各項評價指標。在國際標準數據集上進行實驗,實驗結果顯示,采用隨機下采樣結合支持向量機集成的方法能顯著提高預測精度,其中以改進的AdaBoost集成效果最優(yōu)。
1 數據和研究方法
1.1 數據集來源
本文采用Bharat Panwar等提供的蛋白質序列數據集[5],這里稱之為VIRs,該數據集中包含187條蛋白質維生素綁定位點相關的蛋白質序列,其中包含3 016個蛋白質維生素作用殘基。在VIRs中,任意兩條蛋白質序列的相似度低于25%,同時,使用了一個包含46條蛋白質序列且任兩條序列相似性低于25%的獨立測試集(稱之為V?IND?46)來驗證本文所述方法的泛化能力,并且該獨立測試集與訓練集VIRs中的任意一條序列之間的相似性也低于25%。
1.2 數據特征
1.2.1 位置特異性得分矩陣
一個具有N個殘基的蛋白質序列的進化信息可以用一個大小為N×20的位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)來表示。其中矩陣的每行對應于該蛋白質序列的某個氨基酸殘基,每列對應于20種常見氨基酸的某一種,則該矩陣的第i行、第j列的元素表示蛋白質序列中的第i個氨基酸進化為第j種常見氨基酸的原始得分,分值越大表示進化的可能性越大。在Swiss?Port數據庫上通過執(zhí)行PSI?BLAST程序搜索可行的非同源數據庫[7]。經過3次迭代,PSI?BLAST產生PSSM數據文件,該PSSM數據文件包含所有氨基酸在每個位置發(fā)生變異的可能性,并且為所有氨基酸提供了進化信息。最后,使用邏輯斯蒂函數對PSSM數據文件進行標準化,邏輯斯蒂函數定義如下:
1.2.2 滑動窗口模式
本文采用滑動窗口模式[8?9],經過實驗總結得知當窗口大小[W=17]時能得到最佳的預測結果。如果窗口中間的殘基是作用殘基,那么將得到的這個滑動窗口模式定義為作用的(小類樣本),否則定義為非作用的(大類樣本)。本文對蛋白質序列中首尾[W2]個殘基采取去除的方法來處理,因此這里去除每條蛋白質序列中首尾8個殘基。
1.3 多重隨機下采樣和SVM集成
隨機下采樣能夠有效地平衡不同類中樣本數據集,提供一個較小的訓練數據集,同時能夠加快訓練和預測的速度。然而,隨機下采樣的過程中可能會丟失大類樣本中的一些有效信息,這會使預測精度下降。為了解決該問題,一個有效的方法就是綜合使用隨機下采樣和分類器集成技術。具體的做法如下:首先,在大類樣本中進行K(本研究中K=5)次無重復地抽樣,每次抽取的樣本數量和小類樣本數量相同,從而得到K個大類樣本子集。將得到的K個大類樣本子集和小類樣本集分別合并成為K個新的平衡的訓練集。接下來使用得到的合成數據集作為輸入進行訓練,可以得到K個機器學習模型;在接下來的預測階段,使用上面得到的K個模型預測出蛋白質序列中的每個殘基屬于綁定殘基的概率值,作為每個基分類器的輸出。最后,對K個基分類器的輸出使用合適的分類器集成策略。這樣做不僅能夠利用隨機下采樣的優(yōu)點構造出平衡的數據集,而且可以降低隨機下采樣中有效信息丟失造成的不利影響。本研究中,采用支持向量機(Support Vector Machine,SVM)作為分類器集成中的基分類器。
支持向量機由Vapnik提出[10],在生物信息學領域得到了廣泛的應用并取得了很大成功。不同于傳統(tǒng)的基于最小化經驗風險的模式識別方法,支持向量機是基于最小化結構風險的。本研究中采用LIBSVM[11],其中核函數采用徑向基(RBF)核函數,在十重交叉驗證的基礎上使用LIBSVM網格搜索得到最優(yōu)正則化參數[γ]和核寬參數[σ。]
分類器集成的方法在生物信息學研究中有著廣泛地應用,例如蛋白質折疊預測、蛋白質亞細胞定位預測、蛋白質結構類預測等。這里將在蛋白質與維生素綁定位點預測問題中探究分類器集成方法的應用及效果。分類器集成方法的基本思路類似于人類作決策的過程,在決策過程中一般不能只采納一個人的意見,而是綜合大家的意見,最后得出一個全方位多視角的最優(yōu)決策方案。分類器集成方法是將多個分類器組合在一起得到一個新的分類器,這個新的分類器的性能比任何組成它的單個分類器的性能都好。分類器集成的主要目的是提高基分類器的泛化能力,因為每個基分類器都可能會發(fā)生錯分現(xiàn)象,但是由于每個基分類器之間的差異性(例如:在不同的訓練集上訓練產生基分類器,或者采用不同的機器學習方法訓練基分類器),錯分樣本不會完全相同,這樣能夠降低過學習的影響,從而提高泛化能力。
研究表明不同的集成策略會得到不同的集成結果,每種集成策略都有各自的優(yōu)點和缺點,沒有一種策略是對所有應用都是最優(yōu)的[12]。對于特定的應用,比如本文中的蛋白質與維生素綁定位點預測,可以選擇合適的集成策略但是理論上最優(yōu)的集成策略仍然很難得到。基于此,選擇四種常用的集成策略[12?13] ,具體包括:最大集成(Maximum Ensemble)、最小集成(Minimum Ensemble)和平均集成(Mean Ensemble)以及改進的AdaBoost集成。為了適應蛋白質維生素綁定位點的預測問題的特殊性,這里采用改進的AdaBoost集成方法[5]的主要意圖是要避免蛋白質同源性對蛋白質與維生素綁定位點預測造成的過適應的影響。下面分別對這些基礎策略進行描述。
通過上述三種集成方法之一得到一個集成結果向量[?x=?1,?2,…,?MT,]使用合適的判別閾值,即可將預測樣本[x]判別為[M]類中的某一類,從而完成分類。
(1) 改進的AdaBoost集成
AdaBoost(Adaptive Boosting)算法由Freund和Schapire提出[14?15],是為了證明在PAC學習理論下一個弱學習算法能夠被“提升”為一個強學習算法,之后AdaBoost算法在機器學習領域受到了極大的關注,相關的實驗表明AdaBoost可以顯著提高機器學習算法的性能[16?17]。
傳統(tǒng)的AdaBoost算法中采用基于樣本分布的抽樣策略,而MAdaBoost算法中用隨機下采樣來構建訓練集;另一個不同點是在傳統(tǒng)的AdaBoost算法中,整個訓練集的樣本都被用來作為每個分類器的分類錯誤率評估樣本,而在MAdaBoost算法中用獨立測試集來進行評估,這樣做是要保證訓練集和測試集的樣本不來自同一條蛋白質序列,減少同源性問題對實驗效果的影響。
MAdaBoost算法的詳細過程如圖1所示[5]。在k-重交叉驗證的每重交叉驗證的過程中應用MAdaBoost,在k個子集中,取其中一個子集用來做測試集,另一個子集用來構建評估集剩下的k-2個子集用來構建訓練集。
2 實驗分析
2.1 評價參數
式中:TP表示正確預測小類樣本數;TN表示正確預測大類樣本數;相應地,F(xiàn)P表示錯誤預測小類樣本數;FN則表示錯誤預測大類樣本數。AUC是獨立于閾值的,它的值和分類器的預測效果成正比。
本研究中采用軟分類的方法,各個基分類器輸出樣本被分為不同類別的可能性矩陣,逐步調整分類閾值會產生一系列的混淆矩陣[2]。根據每一個混淆矩陣可以計算出相應的Spe, Sen, Acc和MCC,可見這四個評價指標是閾值相關的,相關研究[5]根據不平衡學習的特殊性提出了合理報道這些評價指標的方法:
(1) 平衡評價:當錯誤預測小類樣本率(False Positive Rate,F(xiàn)PR)等于錯誤預測大類樣本率(False Negative Rate,F(xiàn)NR)時,得到相關評價參數,使用這些參數評價預測效果;
(2) 不平衡評價:使用FPR不等于FNR時得到的評價參數對預測效果進行評價。
本文中,在對交叉驗證和獨立測試集的結果分別采用了平衡的評價方式和不平衡的評價方式。
2.2 實驗結果分析
為避免訓練殘基和測試殘基來自同一條蛋白質,采用蛋白質水平上的交叉驗證方法[5],在數據集VIRs上進行了5重交叉驗證,在每次交叉驗證的過程中分別對數據進行非集成(No Ensemble)、最大集成、最小集成、平均集成以及改進的AdaBoost集成。為了與同類型的方法進行合理的比較,分別采用了平衡和非平衡的評價方式,在數據集VIRs上進行平衡評估,實驗數據如表1所示,在數據集VIRs上進行非平衡評估,實驗數據如表2所示,通過表1和表2能夠清楚地看到,采用集成的方法要比不采用集成的方法效果好。同時,改進的AdaBoost集成策略下分類器的分類效果最佳。
3 結 語
本文根據蛋白質序列信息,通過邏輯斯蒂標準化后的PSSM特征提取方法,采用滑動窗口參數優(yōu)化提高預測精度,利用SVM集成的方法以減少隨機下采樣造成的小類樣本信息丟失的影響,選取閾值最優(yōu)對預測值判別蛋白質維生素是否綁定,最終得到預測結果。采用不同的集成策略,通過實驗結果可知改進的AdaBoost集成方法的分類效果較好。
在本研究的基礎上,對蛋白質維生素綁定位點預測的研究有了一定了解,未來的工作包括:在特征提取的過程中可以加入蛋白質的其他特征信息,例如蛋白質的二級結構信息、蛋白質的水溶性信息等。針對維生素這一類配體,可以將配體進行進一步分類,對不同種類的維生素進行具體的分析,如維生素A、維生素B、維生素B6等。
參考文獻
[1] ADAMS J S, HEWISON M. Unexpected actions of vitamin D: new perspectives on the regulation of innate and adaptive immunity [J]. Nature Clinical Practice Endocrinology Metabolism, 2008, 4(2):80?90.
[2] HE Hai?bo, GARCIA E A. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263?1284.
[3] MOHAMED B, ALITOUCHE T A. Imbalanced data learning approaches review [J]. International Journal of Data Mining Knowledge Management Process (IJDKP), 2013, 3(4): 15?18.
[4] LIU Xu?ying, WU Jian?xin, ZHOU Zhi?hua. Exploratory undersampling for class?imbalance learning [J]. IEEE Transactions on System, Man and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539?550.
[5] YU Dong?jun, HU Jun, TANG Z M, et al. Improving protein?ATP binding residues prediction by boosting SVMs with random under?sampling [J]. Neurocomputing, 2013, 104: 180?190.
[6] PANWAR B, GUPTA S, RAGHAVA G P S. Prediction of vitamin interacting residues in a vitamin binding protein using evolutionary information [J]. BMC bioinformatics, 2013,14(1): 44?58.
[7] ALTSCHUL S F, MADDEN T L, SCHAFFER A, et al. Gapped BLAST and PSI?BLAST: a new generation of protein database search programs [J]. Nucleic Acids Res., 1997, 25(17): 3389?3402.
[8] KUMAR M, GROMIHA M M, RAGHAVA G P. Prediction of RNA binding sites in a protein using SVM and PSSM profile [J]. Proteins: Structure, Function and Bioinformatics, 2008, 71(1): 189?194.
[9] AGARWAL S, MISHRA N K, SINGH H, et al. Identification of mannose interacting residues using local composition [J]. PLoS ONE, 2011, 6(9): 1?8.
[10] VAPNIK V N. The nature of statistical learning theory [M]. New York: Springer, 2000.
[11] FAN R E, CHEN P H, LIN C J. Working set selection using second order information for training support vector machines [J]. The Journal of Machine Learning Research, 2005, 6: 1889?1918.
[12] XU Lei, AMARI S. Combining classifiers and learning mixture?of?experts [J]. IGI Global, 2009, 3: 218?326.
[13] KUNCHEVA L I. Combining pattern classifiers: methods and algorithms [M]. New York: Wiley?Interscience, 2004.
[14] FREUND Y, SCHAPIRE R E. A short introduction to Boosting [J]. Journal of Japanese Society for Artificial Intelligence, 1990, 14(5): 771?780.
[15] FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm [C]// Machine Learning: Proceedings of the Thirteenth International Conference. [S.l.]: ICML, 1996, 96: 148?156.
[16] DIETTERICH T G. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization [J]. Machine learning, 2000, 40(2): 139?157.
[17] MEIR R, RATSCH G. An introduction to boosting and leve?raging [J]. Advanced Lectures on Machine Learning, 2003, 2600: 118?183.
[18] BHASIN M, RAGHAVA G P. GPCRpred: an SVM?based method for prediction of families and subfamilies of G?protein coupled receptors [J]. Nucleic Acids Research, 2004, 32(2): 383?389.
[19] YU Dong?jun, HU Jun, YAN Hui, et al. Enhancing protein?vitamin binding residues prediction by multiple heterogeneous subspace SVMs ensemble [J]. BMC Bioinformatics, 2014, 15(1): 297?311.