亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測

        2015-07-09 20:29:44李強等
        現(xiàn)代電子技術(shù) 2015年8期
        關(guān)鍵詞:隨機森林

        李強等

        摘 要: X射線晶體結(jié)構(gòu)分析是測定蛋白質(zhì)結(jié)構(gòu)的重要方法之一,國際蛋白質(zhì)數(shù)據(jù)庫(PDB)中已知晶體結(jié)構(gòu)的蛋白質(zhì)80%~90%均是使用該方法得到的。然而,并不是所有的蛋白質(zhì)都能良好結(jié)晶,使用晶體結(jié)構(gòu)分析方法對不能結(jié)晶的蛋白質(zhì)進行結(jié)構(gòu)測定將浪費大量的資源。因此,研發(fā)準確高效的算法來對蛋白質(zhì)能否結(jié)晶進行預(yù)測就具有重要意義。在此提出了一種組合蛋白質(zhì)物理化學(xué)特性、序列信息與進化信息的蛋白質(zhì)結(jié)晶預(yù)測方法。該方法從不同視角抽取分別抽取蛋白質(zhì)的物理化學(xué)特征、偽氨基酸組成特征(PseAAC)和偽位置特異性得分矩陣特征(PsePSSM),使用隨機森林對組合的特征進行蛋白質(zhì)結(jié)晶預(yù)測。在標準數(shù)據(jù)集上的獨立測試驗證的結(jié)果表明,這里所述的蛋白質(zhì)結(jié)晶預(yù)測方法具有良好的性能。

        關(guān)鍵詞: 蛋白質(zhì)結(jié)晶; 偽氨基酸組成; 位置特異性得分矩陣; 隨機森林

        中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2015)08?0050?04

        Protein crystallization prediction based on fusion of multi?view features

        and random forest

        LI Qiang1, ZHENG Yu?jie2

        (1. School of Computer Science and Engineering, NUST, Nanjing 210094, China;

        2. The 28th Research Institute, China Electronics Technology Group Corporation, Nanjing 210007, China)

        Abstract: The X?ray crystallography analysis is one of the important methods to measure protein structure, by which 80%~90% protein of the known crystalloid structures in the international protein data bank (PDB) has been obtained. However, not all the proteins used for determining structures are crystallizable, which will lead to a low success rate of crystallization projects and a serious waste of resources to measure those non?crystallizable protein. Hence, it is important to develop an accurate and effective method for predicting whether a protein will crystallize. In this study, a new protein crystallization prediction method to combine the protein physicochemical characteristic, serial information and evolutionary information is proposed, which extracts the protein physicochemical properties, pseudo amino acids composition (PseAAC) and pseudo position specific scoring matrix (PsePSSM) at different visual angle respectively. The random forest is taken as classifier predict protein crystallization of the combined Properties. Experimental results on benchmark dataset over cross?validation test and independent validation test show that the proposed method has perfect performance.

        Keywords: protein crystallization; pseudo amino acids composition; position specific scoring matrix; random forest

        蛋白質(zhì)的功能特性與它的三維結(jié)構(gòu)密切相關(guān)。準確獲取蛋白質(zhì)的三維結(jié)構(gòu)信息對于理解蛋白質(zhì)的功能以及蛋白質(zhì)與其他生物小分子的相互作用至關(guān)重要。X射線晶體結(jié)構(gòu)分析、核磁共振光譜法(NMR)以及電子顯微鏡是測定蛋白質(zhì)三維結(jié)構(gòu)的常用方法。然而,并不是所有的蛋白質(zhì)都能良好結(jié)晶,使用X射線晶體結(jié)構(gòu)分析方法對不能結(jié)晶的蛋白質(zhì)進行結(jié)構(gòu)測定將浪費大量的資源。因此,研發(fā)準確高效的算法來對蛋白質(zhì)能否結(jié)晶進行預(yù)測就具有重要意義。

        目前,研究人員已經(jīng)研發(fā)出很多預(yù)測蛋白質(zhì)結(jié)晶的有效方法,如:OB?score,CRYSTALP,XtalPred,ParCrys,MetaPPCP,CRYSTALP2,MCSG?Z score,PCCpred,以及RFCRYS等。分析這些方法可以發(fā)現(xiàn):

        (1) 氨基酸組成成分(Amino Acids Composition, AAC)以及偽氨基酸組成成分(Pseudo Amino Acids Composition,PseAAC)是常用的特征表示方法;此外,氨基酸的物理化學(xué)屬性以及通過預(yù)測方法獲得的蛋白質(zhì)結(jié)構(gòu)屬性也往往被用于蛋白質(zhì)的特征表示;

        (2) 蛋白質(zhì)的進化信息是一種有效的特征表示方法,并且已經(jīng)被廣泛地應(yīng)用于很多蛋白質(zhì)屬性預(yù)測,但是,蛋白質(zhì)結(jié)晶預(yù)測方法中沒有一個使用蛋白質(zhì)的進化信息來進行特征表示;

        (3) 雖然現(xiàn)有方法在蛋白質(zhì)結(jié)晶預(yù)測問題上取得了重要進展,但是預(yù)測性能還有進一步提高的空間。

        基于上述分析,本文首先考察蛋白質(zhì)進化信息能否用于蛋白質(zhì)結(jié)晶預(yù)測問題的特征表示。然后,將蛋白質(zhì)物理化學(xué)信息、序列信息及進化信息進行組合用于蛋白質(zhì)結(jié)晶預(yù)測,以進一步提高預(yù)測性能。在標準數(shù)據(jù)集上的交叉驗證及獨立測試驗證的結(jié)果表明,本文所述的方法具有良好的性能,是對現(xiàn)有蛋白質(zhì)結(jié)晶預(yù)測方法的有益補充。

        1 數(shù)據(jù)來源

        數(shù)據(jù)集S表示為:

        [S=S+?S-] (1)

        式中:S+表示正樣本集,其中包含的是能結(jié)晶的蛋白質(zhì)序列; S-表示負樣本集,其中包含的是不能結(jié)晶的蛋白質(zhì)序列;符號[?]表示集合理論中的并集。本文中使用Kurgan等構(gòu)建的數(shù)據(jù)集[1],該數(shù)據(jù)集包含一個訓(xùn)練子集(Train1500)和一個獨立測試子集(Test500)。Train1500中包含756個正樣本和744個負樣本,Test500中包含244個正樣本和256個負樣本。為了進一步驗證本文所述方法的泛化能力,還使用了Overton等人構(gòu)建的另外一個獨立測試集Test144,其中包含72個正樣本和72個負樣本[2]。在數(shù)據(jù)集的構(gòu)建過程,已經(jīng)考慮了蛋白質(zhì)之間的同源冗余性消除,蛋白質(zhì)序列之間的同源性[1]小于25%。

        2 多視角特征提取

        2.1 物理化學(xué)特征

        蛋白質(zhì)的一些物理化學(xué)性質(zhì)對蛋白質(zhì)能否結(jié)晶有著重要影響。因此,本文依據(jù)氨基酸屬性集AAIndex1,篩選出7個物理化學(xué)性質(zhì):疏水性指數(shù)、平均極性、正電荷、負電荷、凈電荷、等電位和分子質(zhì)量。每條蛋白質(zhì)的上述7個物理化學(xué)性質(zhì)構(gòu)成一個維數(shù)為7的特征向量。

        2.2 偽氨基酸組成成分特征提取

        PseAAC是由Chou在經(jīng)典的AAC特征基礎(chǔ)上提出來的,分為I型和Ⅱ型。一個蛋白質(zhì)的Ⅱ型PseAAC特征向量可表示為[20+iλ](其中[i]表示生成PseAAC時使用的氨基酸屬性的數(shù)量,[λ]表示序列相關(guān)因子)。PseAAC生成方法如下:

        4 實驗結(jié)果和討論

        4.1 獨立測試驗證結(jié)果

        表1和表2分別列出了本文方法與其他蛋白質(zhì)結(jié)晶預(yù)測方法在獨立測試集Test144及Test500上的性能對比[3]。圖1給出了本文方法在獨立測試集Test144和Test500上的ROC曲線。

        從表1可以看出,在Test144獨立測試上,本文所述方法的亦獲得了較好的性能,Acc以及MCC分別為81.94%和0.64,取得了和RFCRYS相當?shù)念A(yù)測性能。另一方面,雖然OB?score的Sen達到了88.00%,但是其Spe僅僅為47.00%,表明OB?score方法的預(yù)測結(jié)果中存在大量的假陽性(FP)。

        表2 在Test500獨立測試集上的性能對比

        從表2的結(jié)果來看,本文所述方法在獨立測試集Test500上再次取得了最好的性能。Spe、Acc以及MCC分別為83.98%,83.80%和0.68,比RFCRYS分別高出了約9%,2%以及7%。結(jié)合表1及表2的結(jié)果,可以看出本文所述的方法較之于已有的蛋白質(zhì)結(jié)晶預(yù)測方法有著更為良好的泛化能力。這得益于使用了多種有效的蛋白質(zhì)特征以及強有力的隨機森林分類算法。

        5 結(jié) 語

        本文提出一種組合蛋白質(zhì)物理化學(xué)特征、偽氨基酸組成特征以及偽位置特異性得分矩陣特征的蛋白質(zhì)結(jié)晶預(yù)測方法。該方法同時利用了蛋白質(zhì)的序列及進化信息,因此所抽取的特征更具有鑒別能力。在標準數(shù)據(jù)集上獨立測試驗證結(jié)果表明,本文所述的方法具有良好的性能,是對已有蛋白質(zhì)結(jié)晶預(yù)測方法的有益補充。

        參考文獻

        [1] KURGAN L, RAZIB A A, AGHAKHANI S, et al. CRYSTALP2: sequence?based protein crystallization propensity prediction [J]. BMC Structural Biology, 2009, 9: 50?63.

        [2] OVERTON I M, PADOVANI G, GIROLAMI M A, et al. ParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction [J]. Bioinformatics, 2008, 24(7): 901?907.

        [3] JAHANDIDEH S, MAHDAVI A. RFCRYS: Sequence?based protein crystallization propensity prediction by means of random forest [J]. Journal of Theoretical Biology, 2012, 306: 115?119.

        [4] YU D J, HU J, WU X W, et al. Learning protein multi?view features in complex space [J]. Amino Acids, 2013, 44(5): 1365?1379.

        [5] 王建,王彩蕓.基于改進牛頓算法的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測[J].現(xiàn)代電子技術(shù),2009,32(14):135?137.

        [6] 李秀娟,田川,馮欣.數(shù)據(jù)挖掘分類技術(shù)研究與分析[J].現(xiàn)代電子技術(shù),2010,33(20):86?88.

        猜你喜歡
        隨機森林
        隨機森林算法在生物信息學(xué)中的應(yīng)用研究
        隨機森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
        基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
        基于隨機森林的HTTP異常檢測
        個人信用評分模型比較數(shù)據(jù)挖掘分析
        時代金融(2017年6期)2017-03-25 22:21:13
        隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
        基于二次隨機森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        基于奇異熵和隨機森林的人臉識別
        軟件(2016年2期)2016-04-08 02:06:21
        人妻熟妇乱又伦精品hd| 国产精品香蕉网页在线播放| 色老板在线免费观看视频日麻批 | 国产午夜视频在线观看.| 天天躁日日躁狠狠躁| 精品88久久久久88久久久| 欧美人与动牲交片免费播放| 精品精品国产三级av在线| 久久精品国产精品亚洲| 精品人妻潮喷久久久又裸又黄| 色婷婷久久免费网站| 亚洲无人区乱码中文字幕动画| 大地资源高清在线视频播放| 久久人妻少妇嫩草av蜜桃| 精品无码成人片一区二区| aa日韩免费精品视频一| 色欲人妻aaaaaaa无码| 成人无码一区二区三区网站| 国产精品国产午夜免费福利看| 日日噜噜噜夜夜狠狠久久蜜桃| 亚州性无码不卡免费视频| 国产主播一区二区三区在线观看 | 亚洲一区二区三区精品久久av | 久久久久亚洲av无码专区喷水| 久久99精品国产99久久| 丰满人妻中文字幕乱码| 一本色道久久综合亚洲| 女人被狂躁高潮啊的视频在线看| 中文字幕在线免费| 国产一区二区av男人| 粗大猛烈进出高潮视频大全| 中文字幕久无码免费久久| 色婷婷狠狠97成为人免费| 可以直接在线看国产在线片网址| 少女韩国电视剧在线观看完整| 日韩A∨精品久久久久| 亚洲一区二区女优视频| 国产精品高清网站| 无码久久精品国产亚洲av影片| 国产一区二区精品网站看黄| 丰满人妻猛进入中文字幕|