亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)下采樣和SVR的蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)

        2015-07-20 11:01余健浩孫廷凱
        現(xiàn)代電子技術(shù) 2015年4期
        關(guān)鍵詞:定位點(diǎn)殘基向量

        余健浩,孫廷凱

        (南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094)

        0 引言

        三磷酸腺苷(Adenosine 5′?triphosphate,ATP)在分子細(xì)胞生物學(xué)中扮演著一個(gè)重要的角色,如膜運(yùn)輸、細(xì)胞活性、肌肉收縮、信號(hào)、復(fù)制和轉(zhuǎn)錄DNA、以及各種代謝過程[1?2]。ATP與蛋白質(zhì)相互作用是通過蛋白質(zhì)的ATP綁定位點(diǎn)進(jìn)行ATP綁定,通過蛋白質(zhì)?ATP水解提供化學(xué)能,利用這種化學(xué)能提供動(dòng)力,蛋白質(zhì)才能夠執(zhí)行多種生物功能。顯然,ATP需要和蛋白質(zhì)殘基(即氨基酸,一維結(jié)構(gòu)上即為蛋白質(zhì)序列中的若干位點(diǎn))綁定才能在細(xì)胞活動(dòng)中完成各種任務(wù),因此研究預(yù)測(cè)蛋白質(zhì)殘基的ATP綁定位點(diǎn)對(duì)于人體蛋白質(zhì)的功能分析顯得尤為重要。此外,蛋白質(zhì)?ATP綁定位點(diǎn)的準(zhǔn)確定位也在化療藥物的研發(fā)設(shè)計(jì)[2]中表現(xiàn)出比較突出的價(jià)值。因此,準(zhǔn)確地定位蛋白質(zhì)?ATP綁定殘基對(duì)于人體蛋白質(zhì)的功能分析和藥物設(shè)計(jì)都具有非常重要的意義。

        目前確定蛋白質(zhì)?ATP作用綁定殘基的研究已經(jīng)取得了很大的進(jìn)展,然而,隨著蛋白質(zhì)測(cè)序技術(shù)的飛速發(fā)展,已經(jīng)積累了大量的蛋白質(zhì)序列數(shù)據(jù)未標(biāo)定,傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法往往遇到實(shí)驗(yàn)密集、昂貴、耗時(shí)等問題,因此從蛋白質(zhì)序列出發(fā)通過智能計(jì)算方法[3]預(yù)測(cè)蛋白質(zhì)?ATP綁定位點(diǎn)有著迫切的需求。

        Nobeli等人最初研究了在鳥嘌呤和腺嘌呤與蛋白質(zhì)區(qū)別的分子識(shí)別方法,開創(chuàng)了用分子識(shí)別方法進(jìn)行鳥嘌呤和腺嘌呤與蛋白質(zhì)區(qū)別的先河,但是實(shí)驗(yàn)結(jié)果并不十分理想[4]。ATPint是最早被提出的專門用于蛋白質(zhì)?ATP綁定殘基的預(yù)測(cè)方法[5]。ATPint使用蛋白質(zhì)序列的位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)作為基本的特征源。最近,Kurgan等人開發(fā)了兩個(gè)更加準(zhǔn)確的預(yù)測(cè)方法分別為ATPsite[6]和NsitePred[7]。其中,ATPsite主要基于序列、進(jìn)化信息和二級(jí)結(jié)構(gòu)的組合方法識(shí)別蛋白質(zhì)?ATP綁定殘基,而NsitePred可以對(duì)多種類型的核苷酸進(jìn)行預(yù)測(cè),如二磷酸腺苷(Adenosine diphosphate,ADP)、腺嘌呤核糖核苷酸(Adenosinemo?nophosphate,AMP)等。以上兩種方法均使用的數(shù)據(jù)為227個(gè)非冗余的ATP綁定蛋白質(zhì),其較大的數(shù)據(jù)量有利于較好結(jié)果的預(yù)測(cè)。

        從機(jī)器學(xué)習(xí)角度看,蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)是一個(gè)典型的不平衡學(xué)習(xí)問題[8]。不同類別樣本的數(shù)量很明顯不同,比如,ATP227數(shù)據(jù),非綁定殘基的數(shù)量是綁定殘基的數(shù)量的23倍多。不同類別的樣本在不平衡的情況下,直接采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,即使得到了較高的識(shí)別率,但對(duì)于樣本數(shù)目較少的正類來說,分類效果則未必好。解決不平衡學(xué)習(xí)的基本方案是改變樣本在不同類別的分布,調(diào)整樣本分布[9]。而隨機(jī)下采樣是比較常用的調(diào)整策略,其做法是從眾多的負(fù)類樣本中隨機(jī)選取一部分,使正負(fù)樣本達(dá)到平衡,在此基礎(chǔ)上執(zhí)行傳統(tǒng)的機(jī)器學(xué)習(xí)算法,提高系統(tǒng)的學(xué)習(xí)效果[10]。

        本文研究了蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)問題,根據(jù)機(jī)器學(xué)習(xí)關(guān)于可以將分類問題作為回歸問題的特例的觀點(diǎn)出發(fā),并根據(jù)所研究問題本身的特點(diǎn),提出了一種基于隨機(jī)下采樣和支持向量回歸的蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)方法。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果以及與幾種最新發(fā)布的預(yù)測(cè)方法的對(duì)比結(jié)果,驗(yàn)證了本文所提出方法的有效性。

        1 數(shù)據(jù)集

        本文所采用的數(shù)據(jù)集來自Chen等提供的227條非冗余的蛋白質(zhì)序列(簡(jiǎn)稱ATP227)[6],其中包含3 393個(gè)ATP綁定殘基,80 409個(gè)非綁定殘基。從兩個(gè)類別樣本的數(shù)據(jù)數(shù)量中明顯可以看出蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)是一個(gè)典型的類別不平衡問題。從相似度角度看,ATP227中任意兩條蛋白質(zhì)序列的相似度低于40%。為了驗(yàn)證本文所述方法的泛化能力,使用了一個(gè)包含17條蛋白質(zhì)序列的獨(dú)立測(cè)試集[7]。該獨(dú)立測(cè)試集中任意兩條序列的相似性低于40%,并且獨(dú)立測(cè)試集中任一序列與ATP227中的任一序列的相似性也低于40%。

        2 提出的方法

        2.1 方法原理與思想

        蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)問題就是要分清蛋白質(zhì)序列中,哪些位點(diǎn)的殘基是綁定的,哪些是非綁定的,這是個(gè)典型的不平衡二分類問題,其中綁定位點(diǎn)是樣本數(shù)目稀少的正類樣本,也是最感興趣的類別,而非綁定位點(diǎn)是樣本數(shù)目龐大的負(fù)類樣本。

        按照機(jī)器學(xué)習(xí)的觀點(diǎn),可以將分類問題和回歸問題統(tǒng)一起來考慮[11?12]。假設(shè)給定一批樣本 (xi,yi),i=1,2,…,n,其中樣本點(diǎn) xi∈Rd,對(duì)于回歸問題,yi∈R ,對(duì)于分類的問題,這里yi為離散的類別標(biāo)號(hào)。一方面,把回歸問題轉(zhuǎn)換為分類問題,相當(dāng)于將每個(gè)yi分別加減一個(gè)回歸誤差允許閾值ε,從而得到第一類樣本(xi,yi+ε)和第二類樣本(xi,yi-ε),找到的回歸曲線盡可能地穿過所有原始樣本點(diǎn),相當(dāng)于把這兩類樣本正確分開,原始的回歸問題于是轉(zhuǎn)化為分類問題[11],這種情況是平衡的兩類分類問題。另一方面,分類問題相當(dāng)于將高維樣本數(shù)據(jù) xi∈Rd向離散的類標(biāo)號(hào) yi=1,2,…,c(而不是連續(xù)的實(shí)數(shù))做映射,因此可以將分類看作是回歸的特例,這種情況各類樣本不一定是平衡的,二分類問題也不例外。但是不平衡會(huì)影響回歸的精度,舉個(gè)極端情況來說,比如正類只有一個(gè)樣本,而負(fù)類有很多樣本。既然回歸問題的幾何解釋是回歸曲線盡可能靠近所有樣本點(diǎn),使得總誤差盡可能小,在這種情況下,回歸曲線必然靠近占優(yōu)的負(fù)類樣本。因?yàn)檫@種情況下,無論正類樣本還是負(fù)類樣本,每個(gè)樣本點(diǎn)對(duì)于回歸問題具有同等意義的權(quán)重,或者說,少數(shù)的正類樣本并沒受到足夠的重視。因此,有必要采取措施,使得正負(fù)樣本變得均衡。

        在蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)問題中,每個(gè)殘基屬于綁定位點(diǎn)還是非綁定位點(diǎn),不僅僅取決于殘基自身是哪種類型的殘基,更在很大程度上取決于附近的殘基(即上下結(jié)構(gòu)環(huán)境)類型及他們是否是綁定位點(diǎn),換言之,是否屬于綁定殘基并非是一個(gè)0?1二值邏輯,而是有一定的置信水平的。因此,采用支持向量回歸(Sup?port Vector Regression,SVR)的方法,預(yù)測(cè)某個(gè)殘基屬于綁定殘基的置信水平,更接近于問題本身的性質(zhì)特點(diǎn),然后選取合適的閾值進(jìn)行判別,是一個(gè)比較合理的方法?;谶@種考慮,提出并設(shè)計(jì)了一個(gè)基于支持向量回歸的蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)方法。首先對(duì)樣本進(jìn)行適當(dāng)?shù)钠胶饣幚恚诖嘶A(chǔ)上,根據(jù)上文關(guān)于分類和回歸問題關(guān)系的分析討論,通過支持向量回歸的方法構(gòu)建模型進(jìn)行預(yù)測(cè)。盡管支持向量機(jī)(Support Vector Ma?chine,SVM)分類方法(support vector classification,SVC)已被廣泛用于蛋白質(zhì)?ATP綁定預(yù)測(cè)[13?14]。目前將支持向量回歸方法用于蛋白質(zhì)?ATP綁定預(yù)測(cè)問題的研究還較少,鮮有這方面的報(bào)道?;谝陨戏治?,從蛋白質(zhì)的序列出發(fā),基于序列的位置特異性得分矩陣,使用滑動(dòng)窗口抽取序列中每個(gè)殘基的辨別特征;應(yīng)用隨機(jī)下采樣策略,消除正負(fù)樣本存在的顯著不平衡;最后,使用支持向量回歸模型進(jìn)行蛋白質(zhì)?ATP綁定位點(diǎn)的預(yù)測(cè),選取最優(yōu)閾值判別蛋白質(zhì)?ATP是否綁定,得到預(yù)測(cè)結(jié)果。本文方法流程見圖1。

        圖1 本文方法的流程圖

        2.2 特征提取與標(biāo)準(zhǔn)化

        2.2.1 位置特異性得分矩陣

        位置特異性得分矩陣(Position Specific Scoring Ma?trix,PSSM)能夠在一定程度上反映蛋白質(zhì)序列的進(jìn)化信息,已經(jīng)被其他研究者廣泛用于生物信息學(xué)預(yù)測(cè)問題中,如蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)[13]、蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)[14?19]、蛋白質(zhì)功能預(yù)測(cè)[20]、橫跨膜的螺旋線預(yù)測(cè)[21]、亞細(xì)胞定位[22?23]等。對(duì)于一個(gè)包含n個(gè)氨基酸殘基的蛋白質(zhì)序列,使用PSI?BLAST[24](默認(rèn)閾值E?value=0.001)生成n×20的PSSM矩陣。

        2.2.2 邏輯斯蒂位置特異性得分矩陣

        對(duì)PSSM矩陣的每個(gè)元素是通過邏輯斯蒂函數(shù)進(jìn)行標(biāo)準(zhǔn)化(稱LPSSM)的。邏輯斯蒂函數(shù)定義如下:

        式中x是PSSM矩陣中原始得分。

        2.3 隨機(jī)下采樣和支持向量回歸

        2.3.1 隨機(jī)下采樣

        通常情況下,在一個(gè)不平衡的數(shù)據(jù)集中,采樣方法可以使數(shù)據(jù)集平衡,從而能從不平衡的數(shù)據(jù)集中得到學(xué)習(xí)[25?27]。對(duì)于大多數(shù)的不平衡數(shù)據(jù)集,下采樣方法可以提供一個(gè)較小的訓(xùn)練集,大量縮短訓(xùn)練和預(yù)測(cè)的時(shí)間,并且能提高分類精確度。隨機(jī)下采樣方法為從小類樣本中無重復(fù)地隨機(jī)抽取Smin個(gè)樣本N次,即數(shù)據(jù)集較小的綁定位點(diǎn)為正樣本,從大類樣本中無重復(fù)地隨機(jī)抽取Smax個(gè)樣本N次,即數(shù)據(jù)集較大的非綁定位點(diǎn)為負(fù)樣本,每次隨機(jī)抽取后正樣本和負(fù)樣本的數(shù)量相同,即Smin=Smax,從而得到平衡樣本集S=Smin+Smax。

        2.3.2 支持向量回歸

        本文采用支持向量回歸方法構(gòu)建模型,使用廣為采用的工具Libsvm[28],在構(gòu)建模型時(shí),由于潛在的回歸模型未必是線性的(實(shí)際研究中發(fā)現(xiàn)往往是非線性回歸模型),為了建立非線性回歸模型,先通過某個(gè)核函數(shù)誘導(dǎo)的非線性映射Φ:x?Φ(x)把原始數(shù)據(jù)非線性映射到特征空間中,在特征空間建立線性SVR模型。在實(shí)驗(yàn)中,將核函數(shù)類型采用徑向基函數(shù)(Radial Basis Function,RBF)形式,如式(2)所示:

        式中:

        式中:qi,為對(duì)偶參數(shù)且滿足式(4)條件;K(x,xi)為核函數(shù)。

        2.4 算法評(píng)價(jià)指標(biāo)

        幾個(gè)經(jīng)常使用的評(píng)價(jià)指標(biāo),即特異性(Spe)、靈敏度(Sen)、準(zhǔn)確性(Acc)、馬氏相關(guān)系數(shù)(MCC)。方法定義如下式:

        式中:TP、FP、TN和FN分別代表正類預(yù)測(cè)為正類樣本的個(gè)數(shù)、負(fù)類預(yù)測(cè)為正類樣本的個(gè)數(shù)、負(fù)類預(yù)測(cè)為負(fù)類樣本的個(gè)數(shù)和正類預(yù)測(cè)為負(fù)類樣本的個(gè)數(shù)。預(yù)測(cè)的效果可以通過混淆矩陣[29]來表示,如圖2所示。

        圖2 混淆矩陣的性能評(píng)估

        在不平衡樣本下,這些指標(biāo)將用于選取最優(yōu)閾值,并將在下文的實(shí)驗(yàn)結(jié)果中報(bào)告展示。

        由于SVR的預(yù)測(cè)輸出參數(shù)y是連續(xù)實(shí)數(shù),而不是離散的類標(biāo)號(hào)(例如在兩類問題中,兩類樣本的類標(biāo)號(hào)可分別標(biāo)記為+1和-1),需要進(jìn)行參數(shù)轉(zhuǎn)化,選取合適的閾值,將SVR模型輸出的連續(xù)實(shí)數(shù)y離散化為相應(yīng)的類標(biāo)號(hào)。從某種意義上說,SVR模型輸出的連續(xù)實(shí)數(shù)y相當(dāng)于分類器的置信水平,這也正是本文采用SVR回歸模型進(jìn)行蛋白質(zhì)?ATP綁定預(yù)測(cè)的原因之一。通過逐步調(diào)整分類閾值,產(chǎn)生一系列的混淆矩陣。從每一個(gè)混淆矩陣計(jì)算對(duì)應(yīng)的Spe、Sen、Acc和MCC指標(biāo)參數(shù),即四個(gè)評(píng)價(jià)指標(biāo)對(duì)閾值是依賴的,它們隨閾值的變化而變化。在樣本數(shù)量明顯不平衡的情況下,評(píng)價(jià)不平衡學(xué)習(xí)方法的指標(biāo)顯得尤為重要,而評(píng)價(jià)參數(shù)MCC能夠反映不平衡學(xué)習(xí)的預(yù)測(cè)綜合性能,因此,得到最佳MCC值就對(duì)應(yīng)最佳閾值。

        3 結(jié)果與分析討論

        3.1 優(yōu)化滑動(dòng)窗口矩陣

        由于鄰近蛋白質(zhì)殘基有相互影響,采用滑動(dòng)窗口增加蛋白質(zhì)空間局部信息,進(jìn)行MCC參數(shù)最優(yōu)選取,如圖3所示。由圖3所示,MCC值隨著滑動(dòng)窗口從3~17時(shí)不斷上升,期間上升較為平滑,其主要?dú)w因于蛋白質(zhì)ATP227數(shù)據(jù)量較大,滑動(dòng)窗口從17之后MCC值開始下滑,即17為L(zhǎng)PSSM的滑動(dòng)窗口大小的最優(yōu)值,則對(duì)應(yīng)的特征維數(shù)即340(17×20)。

        3.2 性能分析

        通過5重交叉驗(yàn)證獲取預(yù)測(cè)值,實(shí)驗(yàn)發(fā)現(xiàn)選取閾值T=1.433時(shí),指標(biāo)MCC最大。通過參考閾值最優(yōu)(1.433)時(shí)的4項(xiàng)評(píng)價(jià)指標(biāo),非經(jīng)過邏輯斯蒂標(biāo)準(zhǔn)化之前的數(shù)據(jù)(OriginalPSSM[30])與經(jīng)過邏輯斯蒂標(biāo)準(zhǔn)化之后的數(shù)據(jù)(LPSSM在2.2.2節(jié)已介紹)進(jìn)行比較,如表1所示,可以發(fā)現(xiàn)LPSSM比OriginalPSSM四項(xiàng)指標(biāo)都要高,特別是MCC中要高出約9%,這個(gè)效果還是比較明顯的。

        與 ATPint,ATPsite,NsitePred,SVRATP(使用支持向量回歸方法)進(jìn)行比較,其中SVRATP未經(jīng)過下采樣處理,經(jīng)過下采樣后處理的方法稱為RUS_SVRATP(random under?sampling,RUS),如表2所示。

        圖3 基于ATP227數(shù)據(jù)集不同滑動(dòng)窗口大小所對(duì)應(yīng)的MCC值

        表1 OriginalPSSM數(shù)據(jù)和LPSSM數(shù)據(jù)在蛋白質(zhì)綁定位點(diǎn)預(yù)測(cè)的表現(xiàn)

        表2 RUS_SVRATP在數(shù)據(jù)ATP227上和最近的三個(gè)蛋白質(zhì)綁定位點(diǎn)預(yù)測(cè)的表現(xiàn)

        首先,從SVR和前三種方法(非SVR)比較的角度可以發(fā)現(xiàn):

        (1)SVRATP和RUS_SVRATP明顯優(yōu)越于ATPint,SVRATP在四項(xiàng)評(píng)價(jià)指標(biāo)中均優(yōu)于ATPsite;

        (2)SVRATP的MCC值為0.544,其分別高于ATP?site、NsitePred各11%和8%。另外NsitePred是最近發(fā)布的蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)方法,但SVRATP略優(yōu)于NsitePred;

        (3)雖然 RUS_SVRATP 相比 ATPsite、NsitePred、SVRATP在Spe和Acc均略低,但是MCC值為0.609分別高出前者17%,14%,6%。

        本文也在表2中用到t檢驗(yàn)[31],如果產(chǎn)生的p值是低于顯著水平(0.05),那么不同表現(xiàn)的兩種方法就可以認(rèn)為具有統(tǒng)計(jì)意義。其次,從SVR角度看:

        (1)數(shù)據(jù)方面,RUS_SVRATP比SVRATP的MCC值要好,可能因?yàn)椴黄胶鈹?shù)據(jù)經(jīng)過隨機(jī)下采樣后為平衡數(shù)據(jù),負(fù)樣本對(duì)訓(xùn)練中的模型干擾減少,模型更優(yōu),所以得到預(yù)測(cè)結(jié)果更好;

        (2)預(yù)測(cè)方面,SVRATP與RUS_SVRATP兩者實(shí)驗(yàn)結(jié)果較好得益于SVR預(yù)測(cè)結(jié)果為連續(xù)實(shí)數(shù),更加有利于最優(yōu)閾值選取。

        在獨(dú)立數(shù)據(jù)集中與不同的蛋白質(zhì)?ATP綁定位點(diǎn)預(yù)測(cè)方法進(jìn)行比較,如表3所示,可看出:

        (1)顯然RUS_SVRATP在獨(dú)立測(cè)試數(shù)據(jù)集中表現(xiàn)最好;

        (2)其中RUS_SVRATP的MCC值比表現(xiàn)較好的NsitePred高出10%,另外和其他三項(xiàng)評(píng)價(jià)指標(biāo)Sen、Spe、Acc都要比其他三個(gè)預(yù)測(cè)方法效果要好,分別高出7.2%,0.5%,0.7%;

        (3)另外SVRATP實(shí)驗(yàn)結(jié)果跟前三種方法對(duì)比也較好,這表明SVR對(duì)于蛋白質(zhì)?ATP殘基具有良好的預(yù)測(cè)效果;

        (4)從泛化能力角度看,隨機(jī)下采樣后的平衡數(shù)據(jù)比不平衡數(shù)據(jù)的數(shù)量更少,訓(xùn)練次數(shù)更少,預(yù)測(cè)結(jié)果更優(yōu),泛化能力更強(qiáng)。

        表3 RUS_SVRATP在獨(dú)立數(shù)據(jù)ATP17上和最近的三個(gè)蛋白質(zhì)綁定位點(diǎn)預(yù)測(cè)的表現(xiàn)

        3.3 討 論

        本文方法性能的改進(jìn)主要得益于:

        (1)logistic標(biāo)準(zhǔn)化處理后使正負(fù)樣本更具代表性;

        (2)不平衡數(shù)據(jù)經(jīng)過隨機(jī)下采樣后為平衡數(shù)據(jù),負(fù)樣本對(duì)訓(xùn)練中的模型干擾減少;

        (3)最重要的一點(diǎn)是用SVR預(yù)測(cè)模型預(yù)測(cè)置信度水平的方法取代了傳統(tǒng)的硬分類。

        除了以上3點(diǎn)主要原因,還有以下兩種因素:

        (1)在本次實(shí)驗(yàn)中,最近公布的 Swiss?Prot(www.ebi.ac.uk/swissprot)組合了更多的蛋白質(zhì)序列數(shù)據(jù)庫信息,更加有利于PSI?BLAST[24]方法搜索,因此可以提供更加準(zhǔn)確的蛋白質(zhì)進(jìn)化信息;

        (2)選擇核函數(shù)時(shí),SVR的性能是由正則化參數(shù)和核參數(shù)影響的,考慮到這個(gè)問題,實(shí)驗(yàn)中在兩個(gè)階段盡可能的優(yōu)化這兩個(gè)參數(shù),首先通過反復(fù)實(shí)驗(yàn)初步確定網(wǎng)格搜索的間隔,然后對(duì)網(wǎng)格搜索間隔進(jìn)一步優(yōu)化。最終得到c和g兩個(gè)參數(shù)其值分別為1和0.6。

        從以上實(shí)驗(yàn)結(jié)果可以看出,本文所述方法較之前提出方法[5?7]有一定提升,可為相關(guān)領(lǐng)域的研究人員特別是生物信息學(xué)方面的研究者提供一個(gè)新的研究思路,在這類問題的背景中,某個(gè)待識(shí)別樣本的類別歸屬不僅取決于自身屬性,也在很大程度上受到上下結(jié)構(gòu)環(huán)境的影響,這時(shí)可以采取建立回歸模型預(yù)測(cè)類別歸屬置信度的方法,即用回歸預(yù)測(cè)取代傳統(tǒng)的硬分類,會(huì)獲得較好的分類效果。

        4 結(jié)語

        本文采用從蛋白質(zhì)的序列出發(fā),首先使用滑動(dòng)窗口抽取序列中每個(gè)殘基的特征;其次應(yīng)用隨機(jī)下采樣策略,消除正負(fù)樣本存在的顯著不平衡;最后建立支持向量回歸模型進(jìn)行預(yù)測(cè),并選取最優(yōu)閾值來判定蛋白質(zhì)序列中的每個(gè)殘基是否是蛋白質(zhì)?ATP綁定位點(diǎn),從而得到最終的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)從特征提取方法、隨機(jī)下采樣方法和預(yù)測(cè)方法三個(gè)角度進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明基于隨機(jī)下采樣和支持向量回歸的方法有效地提高了預(yù)測(cè)精度。

        未來的工作包括兩個(gè)方向:

        (1)通過合并新的特征提取方法和較優(yōu)的分類器方法進(jìn)一步提高RUS_SVRATP預(yù)測(cè)精度。例如基于回歸的邏輯斯蒂L1標(biāo)準(zhǔn)化特征提取方法[32]已經(jīng)成功用于活性位點(diǎn)預(yù)測(cè);基于多重序列校準(zhǔn)的稀疏逆協(xié)方差估計(jì)方法已經(jīng)成功用于結(jié)構(gòu)關(guān)系預(yù)測(cè)[33]。這兩種新方法為提高RUS_SVRATP預(yù)測(cè)精度提供了研究方向。

        (2)除了研究ATP,還有其他綁定配體類型如金屬離子、維生素、二硫鍵等,因此有效地區(qū)分不同類型的綁定配體的綁定機(jī)制也為進(jìn)一步的研究提供了思路。

        [1]CAMPBELL N A,WILLIAMSON B,HEYDEN R J.Biology:exploring life[M].[S.l.]:Recording for the Blind&Dyslexic,2006.

        [2]MAXWELL A,LAWSON D M.The ATP?binding site of type II topoisomerases as a target for antibacterial drugs[J].Current Topics in Medicinal Chemistry,2003,3(3):283?303.

        [3]史忠植.高級(jí)人工智能[M].北京:科學(xué)出版社,2011.

        [4]NOBELI I,LASKOWSKI R A,VALDAR W S J,et al.On the molecular discrimination between adenine and guanine by proteins[J].Nucleic Acids Research,2001,29(21):4294?4309.

        [5]CHAUHAN JS,MISHRA N K,RAGHAVA G P S.Identifica?tion of ATP binding residues of a protein from its primary se?quence[J].BMCBioinformatics,2009,10(1):1?9.

        [6]CHEN K,MIZIANTY M J,KURGAN L.ATP site:sequence?based prediction of ATP?binding residues[J].Proteome Science,2011,9(1):1?8.

        [7]CHEN K,MIZIANTY M J,KURGAN L.Prediction and analy?sis of nucleotide?binding residues using sequence and sequence?derived structural descriptors[J].Bioinformatics,2012,28(3):331?341.

        [8]HE H,GARCIA E A.Learning from imbalanced data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263?1284.

        [9]ZHOU Z,LIU X.ON Multi?class cost?sensitive learning[J].Computational Intelligence,2010,26(3):232?257.

        [10]ALTIN?AY H,ERGüN C.Clustering based under?sampling for improving speaker verification decisions using AdaBoost[C]//Structural,Syntactic,and Statistical Pattern Recogni?tion.Berlin Heidelberg:Springer?Verlag,2004:698?706.

        [11]鄧乃揚(yáng),田英杰.支持向量機(jī):理論、算法與拓展[M].北京:科學(xué)出版社,2009.

        [12]孫德山.支持向量機(jī)分類與回歸方法研究[D].長(zhǎng)沙:中南大學(xué),2004.

        [13]隋海峰,曲武,錢文彬,等.基于混合SVM方法的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2011,38(10):169?173.

        [14]YU D J,HU J,TANG Z M,et al.Improving protein?ATP binding residues prediction by boosting SVMs with random un?der?sampling[J].Neurocomputing,2013,104:180?190.

        [15]ZHANG Y N,YU D J,LISS,et al.Predicting protein?ATP binding sites from primary sequence through fusing bi?profile sampling of multi?view features[J].BMC Bioinformatics,2012,13(1):118?125.

        [16]CHEN K,MIZIANTYM J,KURGAN L.Prediction and analysis of nucleotide?binding residues using sequence and sequence?derived structural descriptors[J].Bioinformatics,2012,28(3):331?341.

        [17]YU D,HU J,YANG J,et al.Designing template?free predic?tor for targeting protein?ligand binding sites with classifier en?semble and spatial clustering[J].2013,10(4):994?1008.

        [18]YU D J,HU J,HUANG Y,et al.Target ATP site:A tem?plate?free method for ATP?binding sites prediction with resi?due evolution image sparse representation and classifier en?semble[J].Journal of Computational Chemistry,2013,34(11):974?985.

        [19]FIROZ A,MALIK A,JOPLIN K H,et al.Residue propensi?ties,discrimination and binding site prediction of adenine and guanine phosphates[J].BMC Biochemistry,2011,12(1):20?28.

        [20]陳義明,李舟軍,劉軍萬.改進(jìn)LPU用于蛋白質(zhì)功能預(yù)測(cè)[J].計(jì)算機(jī)工程與科學(xué),2012(12):148?152.

        [21]YU D J,SHEN H B,YANG JY.SOMPNN:an efficient non?parametric model for predicting transmembrane helices[J].Amino Acids,2012,42(6):2195?2205.

        [22]PIERLEONI A,MARTELLI P L,CASADIO R.MemLoci:predicting subcellular localization ofmembrane proteins in eu?karyotes[J].Bioinformatics,2011,27(9):1224?1230.

        [23]SHEN H B,CHOU K C.A top?down approach to enhance the power of predicting human protein subcellular localiza?tion:Hum?mPLoc 2.0[J].Analytical Biochemistry,2009,394(2):269?274.

        [24]SCH?FFER A A,ARAVIND L,MADDEN T L,et al.Im?proving the accuracy of PSI?BLAST protein database searches with composition?based statistics and other refinements[J].Nucleic Acids Research,2001,29(14):2994?3005.

        [25]WEISSG M,PROVOST F.The effect of class distribution on classifier learning:an empirical study[D].USA:Rutgers Uni?versity,2001.

        [26]LAURIKKALA J.Improving identification of difficult small classes by balancing class distribution[M].Berlin Heidel?berg:Springer,2001.

        [27]ESTABROOKSA,JO T,JAPKOWICZ N.A multiple resam?plingmethod for learning from imbalanced data sets[J].Com?putational Intelligence,2004,20(1):18?36.

        [28]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J/OL].[2001?06?01].http://www.csie.ntu.edu.tw/~ cj?lin/libsvm.

        [29]孔英會(huì),景美麗.基于混淆矩陣和集成學(xué)習(xí)的分類方法研究[J].計(jì)算機(jī)工程與科學(xué),2012(6):111?117.

        [30]SHEN H,CHOU J J.MemBrain:improving the accuracy of predicting transmembrane helices[J].PloS one,2007,3(6):2399?2399.

        [31]YANG J,ZHANG L,YANG J,et al.From classifiers to dis?criminators:a nearest neighbor rule induced discriminant analysis[J].Pattern Recognition,2011,44(7):1387?1402.

        [32]SANKARARAMAN S,SHA F,KIRSCH J F,et al.Active site prediction using evolutionary and structural information[J].Bioinformatics,2010,26(5):617?624.

        [33]JONESD T,BUCHAN D W A,COZZETTO D,et al.PSI?COV:precise structural contact prediction using sparse in?verse covariance estimation on large multiple sequence align?ments[J].Bioinformatics,2012,28(2):184?190.

        猜你喜歡
        定位點(diǎn)殘基向量
        時(shí)速160公里剛性接觸網(wǎng)定位點(diǎn)導(dǎo)高偏差研究
        基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
        向量的分解
        數(shù)獨(dú)小游戲
        “殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
        聚焦“向量與三角”創(chuàng)新題
        地鐵剛性接觸網(wǎng)定位點(diǎn)脫落狀態(tài)分析
        我的結(jié)網(wǎng)秘籍
        向量垂直在解析幾何中的應(yīng)用
        蛋白質(zhì)二級(jí)結(jié)構(gòu)序列與殘基種類間關(guān)聯(lián)的分析
        在线视频一区二区国产| 亚洲欧美日韩国产色另类| 午夜免费福利一区二区无码AV| 麻豆成人久久精品二区三区91| 午夜被窝精品国产亚洲av香蕉| 亚洲avav天堂av在线网毛片| 91精品国产综合成人| 亚洲精品国产精品av| 蜜桃视频在线免费视频| 日本阿v片在线播放免费| 国产精品99久久免费| 人妻精品一区二区免费| 五月婷婷六月丁香久久综合| 国产后入又长又硬| 欧美日韩在线观看免费| 国产一区二区三区影片| 国产农村妇女精品一区| 精品国产一区av天美传媒| 国产V日韩V亚洲欧美久久| 人妻露脸国语对白字幕| 欧美奶涨边摸边做爰视频| 亚洲av无码第一区二区三区| 尤物蜜芽福利国产污在线观看| 黑人玩弄极品人妻系列视频| 怡红院av一区二区三区| 日本午夜精品理论片A级APP发布| 亚洲中国美女精品久久久| 国产亚洲精品熟女国产成人| 人人澡人人澡人人看添av| 91久久国产自产拍夜夜嗨| h视频在线免费观看视频| …日韩人妻无码精品一专区| 国产精品福利影院| 少妇人妻偷人中文字幕| 亚洲综合欧美色五月俺也去| 台湾佬综合网| 色婷婷一区二区三区四区| 久久综合精品人妻一区二区三区 | 欧美jizzhd精品欧美| 国产亚洲精品hd网站| 国产黄色三级一区二区三区四区 |