摘 要: 將蛋白質(zhì)序列的ATP綁定位點與非綁定位點進行分類是個不平衡的二分類問題,其中綁定位點是樣本數(shù)目稀少的正類樣本,非綁定位點是樣本數(shù)目眾多的負類樣本。根據(jù)機器學習關(guān)于可以將分類問題作為回歸問題的特例的觀點出發(fā),并根據(jù)所研究問題本身的特點,在此提出一種基于隨機下采樣和支持向量回歸的蛋白質(zhì)?ATP綁定位點預(yù)測方法。首先,使用滑動窗口抽取蛋白質(zhì)序列中每個殘基的特征,得到一批不平衡的兩類樣本;其次,應(yīng)用隨機下采樣策略,消除正負樣本存在的顯著不平衡;最后,使用支持向量回歸建立預(yù)測模型,并選取合適的閾值進行蛋白質(zhì)?ATP綁定位點的預(yù)測。在標準數(shù)據(jù)集上的實驗結(jié)果以及與幾種最新報道的預(yù)測方法的對比結(jié)果,驗證了本文所述方法的有效性。
關(guān)鍵詞: 蛋白質(zhì)?ATP綁定位點; 位置特異性得分矩陣; 滑動窗口; 支持向量回歸模型; 隨機下采樣
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2015)04?0019?06
0 引 言
三磷酸腺苷(Adenosine 5′?triphosphate,ATP)在分子細胞生物學中扮演著一個重要的角色,如膜運輸、細胞活性、肌肉收縮、信號、復(fù)制和轉(zhuǎn)錄DNA、以及各種代謝過程[1?2]。ATP與蛋白質(zhì)相互作用是通過蛋白質(zhì)的ATP綁定位點進行ATP綁定,通過蛋白質(zhì)?ATP水解提供化學能,利用這種化學能提供動力,蛋白質(zhì)才能夠執(zhí)行多種生物功能。顯然,ATP需要和蛋白質(zhì)殘基(即氨基酸,一維結(jié)構(gòu)上即為蛋白質(zhì)序列中的若干位點)綁定才能在細胞活動中完成各種任務(wù),因此研究預(yù)測蛋白質(zhì)殘基的ATP綁定位點對于人體蛋白質(zhì)的功能分析顯得尤為重要。此外,蛋白質(zhì)?ATP綁定位點的準確定位也在化療藥物的研發(fā)設(shè)計[2]中表現(xiàn)出比較突出的價值。因此,準確地定位蛋白質(zhì)?ATP綁定殘基對于人體蛋白質(zhì)的功能分析和藥物設(shè)計都具有非常重要的意義。
目前確定蛋白質(zhì)?ATP作用綁定殘基的研究已經(jīng)取得了很大的進展,然而,隨著蛋白質(zhì)測序技術(shù)的飛速發(fā)展,已經(jīng)積累了大量的蛋白質(zhì)序列數(shù)據(jù)未標定,傳統(tǒng)的生物學實驗方法往往遇到實驗密集、昂貴、耗時等問題,因此從蛋白質(zhì)序列出發(fā)通過智能計算方法[3] 預(yù)測蛋白質(zhì)?ATP綁定位點有著迫切的需求。
Nobeli等人最初研究了在鳥嘌呤和腺嘌呤與蛋白質(zhì)區(qū)別的分子識別方法,開創(chuàng)了用分子識別方法進行鳥嘌呤和腺嘌呤與蛋白質(zhì)區(qū)別的先河,但是實驗結(jié)果并不十分理想[4]。ATPint是最早被提出的專門用于蛋白質(zhì)?ATP綁定殘基的預(yù)測方法[5]。ATPint使用蛋白質(zhì)序列的位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)作為基本的特征源。最近,Kurgan等人開發(fā)了兩個更加準確的預(yù)測方法分別為ATPsite[6]和NsitePred[7]。其中,ATPsite主要基于序列、進化信息和二級結(jié)構(gòu)的組合方法識別蛋白質(zhì)?ATP綁定殘基,而NsitePred可以對多種類型的核苷酸進行預(yù)測,如二磷酸腺苷(Adenosine diphosphate,ADP)、腺嘌呤核糖核苷酸(Adenosine monophosphate,AMP)等。以上兩種方法均使用的數(shù)據(jù)為227個非冗余的ATP綁定蛋白質(zhì),其較大的數(shù)據(jù)量有利于較好結(jié)果的預(yù)測。
從機器學習角度看,蛋白質(zhì)?ATP綁定位點預(yù)測是一個典型的不平衡學習問題[8]。不同類別樣本的數(shù)量很明顯不同,比如,ATP227數(shù)據(jù),非綁定殘基的數(shù)量是綁定殘基的數(shù)量的23倍多。不同類別的樣本在不平衡的情況下,直接采用傳統(tǒng)的機器學習算法,即使得到了較高的識別率,但對于樣本數(shù)目較少的正類來說,分類效果則未必好。解決不平衡學習的基本方案是改變樣本在不同類別的分布,調(diào)整樣本分布[9]。而隨機下采樣是比較常用的調(diào)整策略,其做法是從眾多的負類樣本中隨機選取一部分,使正負樣本達到平衡,在此基礎(chǔ)上執(zhí)行傳統(tǒng)的機器學習算法,提高系統(tǒng)的學習效果[10]。
本文研究了蛋白質(zhì)?ATP綁定位點預(yù)測問題,根據(jù)機器學習關(guān)于可以將分類問題作為回歸問題的特例的觀點出發(fā),并根據(jù)所研究問題本身的特點,提出了一種基于隨機下采樣和支持向量回歸的蛋白質(zhì)?ATP綁定位點預(yù)測方法。在標準數(shù)據(jù)集上的實驗結(jié)果以及與幾種最新發(fā)布的預(yù)測方法的對比結(jié)果,驗證了本文所提出方法的有效性。
1 數(shù)據(jù)集
本文所采用的數(shù)據(jù)集來自Chen等提供的227條非冗余的蛋白質(zhì)序列(簡稱ATP227)[6],其中包含3 393個ATP綁定殘基,80 409個非綁定殘基。從兩個類別樣本的數(shù)據(jù)數(shù)量中明顯可以看出蛋白質(zhì)?ATP綁定位點預(yù)測是一個典型的類別不平衡問題。從相似度角度看,ATP227中任意兩條蛋白質(zhì)序列的相似度低于40%。為了驗證本文所述方法的泛化能力,使用了一個包含17條蛋白質(zhì)序列的獨立測試集[7]。該獨立測試集中任意兩條序列的相似性低于40%,并且獨立測試集中任一序列與ATP227中的任一序列的相似性也低于40%。
2 提出的方法
2.1 方法原理與思想
蛋白質(zhì)?ATP綁定位點預(yù)測問題就是要分清蛋白質(zhì)序列中,哪些位點的殘基是綁定的,哪些是非綁定的,這是個典型的不平衡二分類問題,其中綁定位點是樣本數(shù)目稀少的正類樣本,也是最感興趣的類別,而非綁定位點是樣本數(shù)目龐大的負類樣本。
按照機器學習的觀點,可以將分類問題和回歸問題統(tǒng)一起來考慮[11?12]。假設(shè)給定一批樣本[(xi,yi)],i=1,2,…,n,其中樣本點[xi∈Rd],對于回歸問題,[yi∈R],對于分類的問題,這里[yi]為離散的類別標號。一方面,把回歸問題轉(zhuǎn)換為分類問題,相當于將每個[yi]分別加減一個回歸誤差允許閾值[ε],從而得到第一類樣本[(xi,yi+ε)]和第二類樣本[(xi,yi-ε)],找到的回歸曲線盡可能地穿過所有原始樣本點,相當于把這兩類樣本正確分開,原始的回歸問題于是轉(zhuǎn)化為分類問題[11],這種情況是平衡的兩類分類問題。另一方面,分類問題相當于將高維樣本數(shù)據(jù)[xi∈Rd]向離散的類標號[yi]=1,2,…,c(而不是連續(xù)的實數(shù))做映射,因此可以將分類看作是回歸的特例,這種情況各類樣本不一定是平衡的,二分類問題也不例外。但是不平衡會影響回歸的精度,舉個極端情況來說,比如正類只有一個樣本,而負類有很多樣本。既然回歸問題的幾何解釋是回歸曲線盡可能靠近所有樣本點,使得總誤差盡可能小,在這種情況下,回歸曲線必然靠近占優(yōu)的負類樣本。因為這種情況下,無論正類樣本還是負類樣本,每個樣本點對于回歸問題具有同等意義的權(quán)重,或者說,少數(shù)的正類樣本并沒受到足夠的重視。因此,有必要采取措施,使得正負樣本變得均衡。
在蛋白質(zhì)?ATP綁定位點預(yù)測問題中,每個殘基屬于綁定位點還是非綁定位點,不僅僅取決于殘基自身是哪種類型的殘基,更在很大程度上取決于附近的殘基(即上下結(jié)構(gòu)環(huán)境)類型及他們是否是綁定位點,換言之,是否屬于綁定殘基并非是一個0?1二值邏輯,而是有一定的置信水平的。因此,采用支持向量回歸(Support Vector Regression,SVR)的方法,預(yù)測某個殘基屬于綁定殘基的置信水平,更接近于問題本身的性質(zhì)特點,然后選取合適的閾值進行判別,是一個比較合理的方法?;谶@種考慮,提出并設(shè)計了一個基于支持向量回歸的蛋白質(zhì)?ATP綁定位點預(yù)測方法。首先對樣本進行適當?shù)钠胶饣幚恚诖嘶A(chǔ)上,根據(jù)上文關(guān)于分類和回歸問題關(guān)系的分析討論,通過支持向量回歸的方法構(gòu)建模型進行預(yù)測。盡管支持向量機(Support Vector Machine,SVM)分類方法(support vector classification,SVC)已被廣泛用于蛋白質(zhì)?ATP綁定預(yù)測[13?14]。目前將支持向量回歸方法用于蛋白質(zhì)?ATP綁定預(yù)測問題的研究還較少,鮮有這方面的報道?;谝陨戏治?,從蛋白質(zhì)的序列出發(fā),基于序列的位置特異性得分矩陣,使用滑動窗口抽取序列中每個殘基的辨別特征;應(yīng)用隨機下采樣策略,消除正負樣本存在的顯著不平衡;最后,使用支持向量回歸模型進行蛋白質(zhì)?ATP綁定位點的預(yù)測,選取最優(yōu)閾值判別蛋白質(zhì)?ATP是否綁定,得到預(yù)測結(jié)果。本文方法流程見圖1。
2.2 特征提取與標準化
2.2.1 位置特異性得分矩陣
位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)能夠在一定程度上反映蛋白質(zhì)序列的進化信息,已經(jīng)被其他研究者廣泛用于生物信息學預(yù)測問題中,如蛋白質(zhì)二級結(jié)構(gòu)預(yù)測[13]、蛋白質(zhì)?ATP綁定位點預(yù)測[14?19]、蛋白質(zhì)功能預(yù)測[20]、橫跨膜的螺旋線預(yù)測[21]、亞細胞定位[22?23]等。對于一個包含n個氨基酸殘基的蛋白質(zhì)序列,使用PSI?BLAST[24](默認閾值E?value= 0.001)生成n×20的PSSM矩陣。
2.2.2 邏輯斯蒂位置特異性得分矩陣
對PSSM矩陣的每個元素是通過邏輯斯蒂函數(shù)進行標準化(稱LPSSM)的。邏輯斯蒂函數(shù)定義如下:[f(x)=11+e-x] (1)
式中x是PSSM矩陣中原始得分。
2.3 隨機下采樣和支持向量回歸
2.3.1 隨機下采樣
通常情況下,在一個不平衡的數(shù)據(jù)集中,采樣方法可以使數(shù)據(jù)集平衡,從而能從不平衡的數(shù)據(jù)集中得到學習[25?27]。對于大多數(shù)的不平衡數(shù)據(jù)集,下采樣方法可以提供一個較小的訓練集,大量縮短訓練和預(yù)測的時間,并且能提高分類精確度。隨機下采樣方法為從小類樣本中無重復(fù)地隨機抽取[Smin]個樣本[N]次,即數(shù)據(jù)集較小的綁定位點為正樣本,從大類樣本中無重復(fù)地隨機抽取[Smax]個樣本[N]次,即數(shù)據(jù)集較大的非綁定位點為負樣本,每次隨機抽取后正樣本和負樣本的數(shù)量相同,即[Smin=Smax],從而得到平衡樣本集[S=Smin+Smax]。
2.3.2 支持向量回歸
本文采用支持向量回歸方法構(gòu)建模型,使用廣為采用的工具Libsvm[28],在構(gòu)建模型時,由于潛在的回歸模型未必是線性的(實際研究中發(fā)現(xiàn)往往是非線性回歸模型),為了建立非線性回歸模型,先通過某個核函數(shù)誘導(dǎo)的非線性映射[Φ:x?Φ(x)]把原始數(shù)據(jù)非線性映射到特征空間中,在特征空間建立線性SVR模型。在實驗中,將核函數(shù)類型采用徑向基函數(shù)(Radial Basis Function, RBF)形式,如式(2)所示:
[K(x,xi)=exp(-x-xi2γ2)] (2)
式中[γ]為核參數(shù)。假定一個訓練樣本集[{x,y}n1],訓練輸入?yún)?shù)[xi∈Rn]和輸出預(yù)測值[y∈R],SVR預(yù)測如式(3)所示:
[f(x)=i=1N(qi-q*i)K(x,xi)+b] (3)
式中:
[i=1N(qi-q*i)=0,0≤qi, q*i≤C,i=1,2,…,N] (4)
式中:[qi],[q*i]為對偶參數(shù)且滿足式(4)條件;[K(x,xi)]為核函數(shù)。
2.4 算法評價指標
幾個經(jīng)常使用的評價指標,即特異性(Spe)、靈敏度(Sen)、準確性(Acc)、馬氏相關(guān)系數(shù)(MCC)。方法定義如下式:
[Spe=TNTN+FP] (5)
[Sen=TPTP+FN] (6)
[Acc=TP+TNTP+TN+FP+FN] (7)
[MCC=TP?TN-FP?FN(TP+FP)?(TP+FN)?(TN+FP)?(TN+FN)] (8)
式中:TP、FP、TN和FN分別代表正類預(yù)測為正類樣本的個數(shù)、負類預(yù)測為正類樣本的個數(shù)、負類預(yù)測為負類樣本的個數(shù)和正類預(yù)測為負類樣本的個數(shù)。預(yù)測的效果可以通過混淆矩陣[29]來表示,如圖2所示。
在不平衡樣本下,這些指標將用于選取最優(yōu)閾值,并將在下文的實驗結(jié)果中報告展示。
由于SVR的預(yù)測輸出參數(shù)y是連續(xù)實數(shù),而不是離散的類標號(例如在兩類問題中,兩類樣本的類標號可分別標記為+1和-1),需要進行參數(shù)轉(zhuǎn)化,選取合適的閾值,將SVR模型輸出的連續(xù)實數(shù)y離散化為相應(yīng)的類標號。從某種意義上說,SVR模型輸出的連續(xù)實數(shù)y相當于分類器的置信水平,這也正是本文采用SVR回歸模型進行蛋白質(zhì)?ATP綁定預(yù)測的原因之一。通過逐步調(diào)整分類閾值,產(chǎn)生一系列的混淆矩陣。從每一個混淆矩陣計算對應(yīng)的Spe、Sen、Acc和MCC指標參數(shù),即四個評價指標對閾值是依賴的,它們隨閾值的變化而變化。在樣本數(shù)量明顯不平衡的情況下,評價不平衡學習方法的指標顯得尤為重要,而評價參數(shù)MCC能夠反映不平衡學習的預(yù)測綜合性能,因此,得到最佳MCC值就對應(yīng)最佳閾值。
3 結(jié)果與分析討論
3.1 優(yōu)化滑動窗口矩陣
由于鄰近蛋白質(zhì)殘基有相互影響,采用滑動窗口增加蛋白質(zhì)空間局部信息,進行MCC參數(shù)最優(yōu)選取,如圖3所示。由圖3所示,MCC值隨著滑動窗口從3~17時不斷上升,期間上升較為平滑,其主要歸因于蛋白質(zhì)ATP227數(shù)據(jù)量較大,滑動窗口從17之后MCC值開始下滑,即17為LPSSM的滑動窗口大小的最優(yōu)值,則對應(yīng)的特征維數(shù)即340([17×20])。
3.2 性能分析
通過5重交叉驗證獲取預(yù)測值,實驗發(fā)現(xiàn)選取閾值T=1.433時,指標MCC最大。通過參考閾值最優(yōu)(1.433)時的4項評價指標,非經(jīng)過邏輯斯蒂標準化之前的數(shù)據(jù)(OriginalPSSM[30])與經(jīng)過邏輯斯蒂標準化之后的數(shù)據(jù)(LPSSM在2.2.2節(jié)已介紹)進行比較,如表1所示,可以發(fā)現(xiàn)LPSSM比OriginalPSSM四項指標都要高,特別是MCC中要高出約9%,這個效果還是比較明顯的。
與ATPint,ATPsite,NsitePred,SVRATP(使用支持向量回歸方法)進行比較,其中SVRATP未經(jīng)過下采樣處理,經(jīng)過下采樣后處理的方法稱為RUS_SVRATP(random under?sampling,RUS),如表2所示。
首先,從SVR和前三種方法(非SVR)比較的角度可以發(fā)現(xiàn):
(1) SVRATP和RUS_SVRATP明顯優(yōu)越于ATPint,SVRATP在四項評價指標中均優(yōu)于ATPsite;
(2) SVRATP的MCC值為0.544,其分別高于ATPsite、NsitePred各11%和8%。另外NsitePred是最近發(fā)布的蛋白質(zhì)?ATP綁定位點預(yù)測方法,但SVRATP略優(yōu)于NsitePred;
(3) 雖然RUS_SVRATP相比ATPsite、NsitePred、SVRATP在Spe和Acc均略低,但是MCC值為0.609分別高出前者17%,14%,6%。
本文也在表2中用到t檢驗[31],如果產(chǎn)生的p值是低于顯著水平(0.05),那么不同表現(xiàn)的兩種方法就可以認為具有統(tǒng)計意義。其次,從SVR角度看:
(1) 數(shù)據(jù)方面,RUS_SVRATP比SVRATP的MCC值要好,可能因為不平衡數(shù)據(jù)經(jīng)過隨機下采樣后為平衡數(shù)據(jù),負樣本對訓練中的模型干擾減少,模型更優(yōu),所以得到預(yù)測結(jié)果更好;
(2) 預(yù)測方面,SVRATP與RUS_SVRATP兩者實驗結(jié)果較好得益于SVR預(yù)測結(jié)果為連續(xù)實數(shù),更加有利于最優(yōu)閾值選取。
在獨立數(shù)據(jù)集中與不同的蛋白質(zhì)?ATP綁定位點預(yù)測方法進行比較,如表3所示,可看出:
(1) 顯然RUS_SVRATP在獨立測試數(shù)據(jù)集中表現(xiàn)最好;
(2) 其中RUS_SVRATP的MCC值比表現(xiàn)較好的NsitePred高出10%,另外和其他三項評價指標Sen、Spe、Acc都要比其他三個預(yù)測方法效果要好,分別高出7.2%,0.5%,0.7%;
(3) 另外SVRATP實驗結(jié)果跟前三種方法對比也較好,這表明SVR對于蛋白質(zhì)?ATP殘基具有良好的預(yù)測效果;
(4) 從泛化能力角度看,隨機下采樣后的平衡數(shù)據(jù)比不平衡數(shù)據(jù)的數(shù)量更少,訓練次數(shù)更少,預(yù)測結(jié)果更優(yōu),泛化能力更強。
3.3 討 論
本文方法性能的改進主要得益于:
(1) logistic標準化處理后使正負樣本更具代表性;
(2) 不平衡數(shù)據(jù)經(jīng)過隨機下采樣后為平衡數(shù)據(jù),負樣本對訓練中的模型干擾減少;
(3) 最重要的一點是用SVR預(yù)測模型預(yù)測置信度水平的方法取代了傳統(tǒng)的硬分類。
除了以上3點主要原因,還有以下兩種因素:
(1) 在本次實驗中,最近公布的Swiss?Prot(www.ebi.ac.uk/swissprot)組合了更多的蛋白質(zhì)序列數(shù)據(jù)庫信息,更加有利于PSI?BLAST[24]方法搜索,因此可以提供更加準確的蛋白質(zhì)進化信息;
(2) 選擇核函數(shù)時,SVR的性能是由正則化參數(shù)和核參數(shù)影響的,考慮到這個問題,實驗中在兩個階段盡可能的優(yōu)化這兩個參數(shù),首先通過反復(fù)實驗初步確定網(wǎng)格搜索的間隔,然后對網(wǎng)格搜索間隔進一步優(yōu)化。最終得到c和g兩個參數(shù)其值分別為1和0.6。
從以上實驗結(jié)果可以看出,本文所述方法較之前提出方法[5?7]有一定提升,可為相關(guān)領(lǐng)域的研究人員特別是生物信息學方面的研究者提供一個新的研究思路,在這類問題的背景中,某個待識別樣本的類別歸屬不僅取決于自身屬性,也在很大程度上受到上下結(jié)構(gòu)環(huán)境的影響,這時可以采取建立回歸模型預(yù)測類別歸屬置信度的方法,即用回歸預(yù)測取代傳統(tǒng)的硬分類,會獲得較好的分類效果。
4 結(jié) 語
本文采用從蛋白質(zhì)的序列出發(fā),首先使用滑動窗口抽取序列中每個殘基的特征;其次應(yīng)用隨機下采樣策略,消除正負樣本存在的顯著不平衡;最后建立支持向量回歸模型進行預(yù)測,并選取最優(yōu)閾值來判定蛋白質(zhì)序列中的每個殘基是否是蛋白質(zhì)?ATP綁定位點,從而得到最終的預(yù)測結(jié)果。實驗從特征提取方法、隨機下采樣方法和預(yù)測方法三個角度進行比較,實驗結(jié)果表明基于隨機下采樣和支持向量回歸的方法有效地提高了預(yù)測精度。
未來的工作包括兩個方向:
(1) 通過合并新的特征提取方法和較優(yōu)的分類器方法進一步提高RUS_SVRATP預(yù)測精度。例如基于回歸的邏輯斯蒂L1標準化特征提取方法[32]已經(jīng)成功用于活性位點預(yù)測;基于多重序列校準的稀疏逆協(xié)方差估計方法已經(jīng)成功用于結(jié)構(gòu)關(guān)系預(yù)測[33]。這兩種新方法為提高RUS_SVRATP預(yù)測精度提供了研究方向。
(2) 除了研究ATP,還有其他綁定配體類型如金屬離子、維生素、二硫鍵等,因此有效地區(qū)分不同類型的綁定配體的綁定機制也為進一步的研究提供了思路。
參考文獻
[1] CAMPBELL N A, WILLIAMSON B, HEYDEN R J. Biology: exploring life [M]. [S.l.]: Recording for the Blind Dyslexic, 2006.
[2] MAXWELL A, LAWSON D M. The ATP?binding site of type II topoisomerases as a target for antibacterial drugs [J]. Current Topics in Medicinal Chemistry, 2003, 3(3): 283?303.
[3] 史忠植.高級人工智能[M].北京:科學出版社,2011.
[4] NOBELI I, LASKOWSKI R A, VALDAR W S J, et al. On the molecular discrimination between adenine and guanine by proteins [J]. Nucleic Acids Research, 2001, 29(21): 4294?4309.
[5] CHAUHAN J S, MISHRA N K, RAGHAVA G P S. Identification of ATP binding residues of a protein from its primary sequence [J]. BMC Bioinformatics, 2009, 10(1): 1?9.
[6] CHEN K, MIZIANTY M J, KURGAN L. ATP site: sequence?based prediction of ATP?binding residues [J]. Proteome Science, 2011, 9(1): 1?8.
[7] CHEN K, MIZIANTY M J, KURGAN L. Prediction and analysis of nucleotide?binding residues using sequence and sequence?derived structural descriptors [J]. Bioinformatics, 2012, 28(3): 331?341.
[8] HE H, GARCIA E A. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263?1284.
[9] ZHOU Z, LIU X. ON Multi?class cost?sensitive learning [J]. Computational Intelligence, 2010, 26(3): 232?257.
[10] ALTIN?AY H, ERGüN C. Clustering based under?sampling for improving speaker verification decisions using AdaBoost [C]// Structural, Syntactic, and Statistical Pattern Recognition. Berlin Heidelberg: Springer?Verlag, 2004: 698?706.
[11] 鄧乃揚,田英杰.支持向量機:理論、算法與拓展[M].北京:科學出版社,2009.
[12] 孫德山.支持向量機分類與回歸方法研究[D].長沙:中南大學,2004.
[13] 隋海峰,曲武,錢文彬,等.基于混合 SVM 方法的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測算法[J].計算機科學,2011,38(10):169?173.
[14] YU D J, HU J, TANG Z M, et al. Improving protein?ATP binding residues prediction by boosting SVMs with random under?sampling [J]. Neurocomputing, 2013, 104: 180?190.
[15] ZHANG Y N, YU D J, LI S S, et al. Predicting protein?ATP binding sites from primary sequence through fusing bi?profile sampling of multi?view features [J]. BMC Bioinformatics, 2012, 13(1): 118?125.
[16] CHEN K, MIZIANTY M J, KURGAN L. Prediction and analysis of nucleotide?binding residues using sequence and sequence?derived structural descriptors [J]. Bioinformatics, 2012, 28(3): 331?341.
[17] YU D, HU J, YANG J, et al. Designing template?free predictor for targeting protein?ligand binding sites with classifier ensemble and spatial clustering [J]. 2013, 10(4): 994?1008.
[18] YU D J, HU J, HUANG Y, et al. Target ATP site: A template?free method for ATP?binding sites prediction with residue evolution image sparse representation and classifier ensemble [J]. Journal of Computational Chemistry, 2013, 34(11): 974?985.
[19] FIROZ A, MALIK A, JOPLIN K H, et al. Residue propensities, discrimination and binding site prediction of adenine and guanine phosphates [J]. BMC Biochemistry, 2011, 12(1): 20?28.
[20] 陳義明,李舟軍,劉軍萬.改進LPU 用于蛋白質(zhì)功能預(yù)測[J].計算機工程與科學,2012(12):148?152.
[21] YU D J, SHEN H B, YANG J Y. SOMPNN: an efficient non?parametric model for predicting transmembrane helices [J]. Amino Acids, 2012, 42(6): 2195?2205.
[22] PIERLEONI A, MARTELLI P L, CASADIO R. MemLoci: predicting subcellular localization of membrane proteins in eukaryotes [J]. Bioinformatics, 2011, 27(9): 1224?1230.
[23] SHEN H B, CHOU K C. A top?down approach to enhance the power of predicting human protein subcellular localization: Hum?mPLoc 2.0 [J]. Analytical Biochemistry, 2009, 394(2): 269?274.
[24] SCH?FFER A A, ARAVIND L, MADDEN T L, et al. Improving the accuracy of PSI?BLAST protein database searches with composition?based statistics and other refinements [J]. Nucleic Acids Research, 2001, 29(14): 2994?3005.
[25] WEISS G M, PROVOST F. The effect of class distribution on classifier learning: an empirical study [D]. USA: Rutgers University, 2001.
[26] LAURIKKALA J. Improving identification of difficult small classes by balancing class distribution [M]. Berlin Heidelberg: Springer, 2001.
[27] ESTABROOKS A, JO T, JAPKOWICZ N. A multiple resampling method for learning from imbalanced data sets [J]. Computational Intelligence, 2004, 20(1): 18?36.
[28] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J/OL]. [2001?06?01]. http://?www.?csie.?ntu.?edu.tw/?~ cjlin/? libsvm.
[29] 孔英會,景美麗.基于混淆矩陣和集成學習的分類方法研究[J].計算機工程與科學,2012(6):111?117.
[30] SHEN H, CHOU J J. MemBrain: improving the accuracy of predicting transmembrane helices [J]. PloS one, 2007, 3(6): 2399?2399.
[31] YANG J, ZHANG L, YANG J, et al. From classifiers to discriminators: a nearest neighbor rule induced discriminant analysis [J]. Pattern Recognition, 2011, 44(7): 1387?1402.
[32] SANKARARAMAN S, SHA F, KIRSCH J F, et al. Active site prediction using evolutionary and structural information [J]. Bioinformatics, 2010, 26(5): 617?624.
[33] JONES D T, BUCHAN D W A, COZZETTO D, et al. PSICOV: precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments [J]. Bioinformatics, 2012, 28(2): 184?190.