亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于壓縮氨基酸和支持向量機(jī)進(jìn)行膜蛋白類型識(shí)別

        2013-11-14 07:10:30管翠萍徐惠娟
        生物信息學(xué) 2013年4期
        關(guān)鍵詞:膜蛋白特征提取氨基酸

        管翠萍,石 晶,徐惠娟

        (寧夏大學(xué)生命科學(xué)學(xué)院,寧夏銀川750021)

        膜蛋白是一類結(jié)構(gòu)獨(dú)特的蛋白質(zhì),它處于細(xì)胞與外界的交界部位,是細(xì)胞執(zhí)行各種功能的物質(zhì)基礎(chǔ),同時(shí)也是很多藥物作用的靶點(diǎn),如最典型的 G蛋白偶聯(lián)受體家族,它雖然只占人類基因組編碼序列的1%,但在藥物研發(fā)中卻有60% ~70% 的目標(biāo)蛋白是G蛋白偶聯(lián)受體家族成員[1]。目前隨著基因組學(xué)和蛋白組學(xué)的發(fā)展,對(duì)膜蛋白結(jié)構(gòu)和功能的研究刻不容緩,而對(duì)膜蛋白進(jìn)行類型預(yù)測則是以上工作的一個(gè)重要基礎(chǔ)。膜蛋白根據(jù)其在細(xì)胞膜上的不同存在方式,可分為六大類:A.Type I跨膜蛋白,只含有一段α螺旋構(gòu)成的跨膜區(qū),N末端在細(xì)胞外,C末端在細(xì)胞內(nèi);B.Type II跨膜蛋白,與Type I的方向剛好相反;C.Multipass跨膜蛋白,具有多個(gè)跨膜區(qū);D.Lipid Chain錨定膜蛋白,通過脂質(zhì)錨鏈與脂雙層相結(jié)合;E.GPI錨定膜蛋白,通過甘氨酰甘氨酸二肽酶與脂雙層相結(jié)合;F.外周蛋白,通過與其它膜蛋白之間的非共價(jià)鍵結(jié)合,而不是直接與脂雙層發(fā)生相互作用[2-3]。

        目前利用分子生物學(xué)方法來驗(yàn)證膜蛋白類型已經(jīng)不能滿足日益增長的膜蛋白序列的需求,而生物信息學(xué)則可利用海量的生物數(shù)據(jù),進(jìn)行分類預(yù)測。因此,通過膜蛋白的初級(jí)序列結(jié)合生物信息手段來預(yù)測其所屬類型,以獲取相關(guān)的結(jié)構(gòu)和功能信息是目前的一個(gè)研究趨勢。現(xiàn)已提出了一些預(yù)測方法,并取得了較好的預(yù)測結(jié)果,如Chou等先后提取氨基酸組分、偽氨基酸組成、蛋白質(zhì)進(jìn)化等特征進(jìn)行分類研究[3-8];Feng和Zhang提出了氨基酸指數(shù)的自相關(guān)函數(shù)方法[9];Cai等分別利用部分序列順序作用和功能結(jié)構(gòu)域方法結(jié)合支持向量機(jī)(SVM)實(shí)現(xiàn)分類預(yù)測[10-11];Yang等[12]采用單氨酸和二肽組成方法獲取序列順序信息進(jìn)行預(yù)測;Jiang等融合氨基酸組成和氨基酸位置特征利用支持向量機(jī)進(jìn)行分類預(yù)測等[13]。本文將利用壓縮的氨基酸對(duì)原始膜蛋白序列進(jìn)行信息壓縮,對(duì)壓縮序列進(jìn)行氨基酸組成和順序特征的提取,同時(shí)采用SVM構(gòu)建分類器,實(shí)現(xiàn)六種分類模型的構(gòu)建,利用五疊交叉驗(yàn)證的方法進(jìn)行驗(yàn)證。

        1 材料與方法

        1.1 數(shù)據(jù)集的構(gòu)建

        早期的研究大多數(shù)基于 Chou等人[3]構(gòu)建的CE2059和CE2625兩個(gè)通用數(shù)據(jù)集來進(jìn)行分類模型的構(gòu)建。這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)來源于SWISSPROT1997年11月發(fā)布的Release 37,建立年限較早,且隨著現(xiàn)在數(shù)據(jù)的不斷更新,其中有些信息已經(jīng)變更。2007年,Chou和 Shen基于 SWISS-PROT Release 51對(duì)該數(shù)據(jù)集做了進(jìn)一步擴(kuò)充,其中訓(xùn)練集包含3 249個(gè)膜蛋白序列;獨(dú)立檢驗(yàn)集包含4 333個(gè)膜蛋白序列[8]。2009年,Zeng又對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行改進(jìn),收集了5 750條膜蛋白序列[14]。目前,隨著數(shù)據(jù)庫中數(shù)據(jù)的不斷增長,膜蛋白序列信息也在不斷補(bǔ)充中,采用新的數(shù)據(jù)集來做分類模型是有必要的,但這樣又缺乏了與以往研究的可比較性。所以在本研究中,將采用兩個(gè)數(shù)據(jù)集A、B,分別作分類模型構(gòu)建來對(duì)預(yù)測結(jié)果進(jìn)行比較。數(shù)據(jù)集A即采用通用的CE2059和CE2625。數(shù)據(jù)集B將根據(jù)最新的2013年1月發(fā)布的uniprotKB/swiss-prot版本進(jìn)行構(gòu)建,構(gòu)建原則參見CE2059和CE2625等通用數(shù)據(jù)集的建立準(zhǔn)則[3,14]:

        (1)選擇uniprotKB/swiss-prot數(shù)據(jù)庫中清楚明確標(biāo)示和注釋的蛋白質(zhì),如出現(xiàn)“fragment”、“probable”、“potential”或“by similarity”的篩除掉;

        (2)來自不同物種卻同名的蛋白質(zhì)只入數(shù)據(jù)集一次;

        (3)選擇只有唯一類型的蛋白序列入數(shù)據(jù)集。

        經(jīng)篩選,共選出6 069條膜蛋白序列。其中A.Type I 907 條,B.Type II 273,C.Multipass 4 385 條,D.Lipid Chain 268條,E.GPI 183條,F(xiàn).Peripheral 53條。以上作為真樣本集,相應(yīng)的假樣本集則由除該類型外的其他五組類型數(shù)據(jù)隨機(jī)產(chǎn)生,具體分布見表1。

        表1 膜蛋白類型數(shù)據(jù)集Table 1 Database of membrane protein types

        1.2 序列特征的提取與轉(zhuǎn)化

        1.2.1 由原始序列轉(zhuǎn)換為壓縮序列

        引入壓縮氨基酸的概念,即將原始的20種氨基酸 AA={A,R,N,D,C,Q,E,G,H,I,L,M,K,F(xiàn),P,S,T,W,Y,V}根據(jù)理化性質(zhì)的不同進(jìn)行壓縮分類,性質(zhì)相近的歸為一類,這樣20種氨基酸根據(jù)不同的壓縮方式[15]形成了不同的壓縮種類(見表2)。對(duì)表2中所列的11種壓縮方式分別進(jìn)行測試,比較不同的壓縮方式對(duì)膜蛋白類型識(shí)別效果的優(yōu)劣。

        表2 不同的壓縮方法對(duì)20種氨基酸進(jìn)行壓縮分類Table 2 Compressed alphabets produced by different methods

        針對(duì)每一種壓縮方式,一條原始的由20種氨基酸組成的蛋白質(zhì)序列,利用壓縮的氨基酸轉(zhuǎn)換為壓縮序列。

        1.2.2 對(duì)壓縮序列進(jìn)行氨基酸組分特征提取

        蛋白質(zhì)序列的特征已被普遍用于蛋白質(zhì)的家族分類、結(jié)構(gòu)預(yù)測、信號(hào)位點(diǎn)識(shí)別等方面,且取得了較好的效果,目前比較常用的序列特征有單氨基酸組成和二肽組成,僅考慮單氨基酸的組成,往往會(huì)漏掉許多序列次序信息,二肽的組成分析能很好的補(bǔ)充氨基酸序列之間順序的特征,考慮了鄰近殘基之間的耦合作用。通過對(duì)壓縮序列進(jìn)行單氨基酸和二肽組成頻率的統(tǒng)計(jì),將壓縮序列轉(zhuǎn)換為維數(shù)固定的特征向量。具體步驟:

        其中,F(xiàn)i表示在壓縮序列中氨基酸i的出現(xiàn)頻率,Ai表示壓縮序列中氨基酸i出現(xiàn)的總次數(shù),n表示壓縮序列的長度;Fij表示壓縮序列中相鄰兩個(gè)氨基酸ij的出現(xiàn)頻率,depij表示壓縮序列中相鄰兩個(gè)氨基酸ij出現(xiàn)的總次數(shù),m表示所有兩兩氨基酸出現(xiàn)的可能組合,N屬于表2中所列的11種壓縮后的氨基酸種類。最后,根據(jù)不同的壓縮方式,由公式(1)和公式(2)計(jì)算得到的特征向量總維數(shù)也是不同的,應(yīng)為N+N2。

        1.3 基于SVM的分類模型構(gòu)建

        支持向量機(jī)最大的特點(diǎn)就是泛化能力比較強(qiáng),即由有限的訓(xùn)練集樣本得到的小誤差仍能夠保證對(duì)獨(dú)立的測試集的小誤差,同時(shí)也可以防止模型構(gòu)建過程中問題的產(chǎn)生。以往的研究表明使用支持向量機(jī)方法可以很好的對(duì)膜蛋白類型進(jìn)行預(yù)測[11-13]。本文采用libsvm3.13軟件包[16],選擇徑向基核函數(shù)進(jìn)行多類分類器的構(gòu)建,以實(shí)現(xiàn)對(duì)膜蛋白類型的識(shí)別預(yù)測。

        1.4 五疊交叉驗(yàn)證和評(píng)價(jià)標(biāo)準(zhǔn)

        利用五疊交叉驗(yàn)證的方法隨機(jī)劃分?jǐn)?shù)據(jù)集對(duì)分類模型進(jìn)行測試。即將真、假樣本數(shù)據(jù)分別隨機(jī)分為5個(gè)大致相等的子集,依次各取出一個(gè)子集合作為測試集,而各自其余4個(gè)子集合作為訓(xùn)練集,如此交替反復(fù)5次后,將各次的準(zhǔn)確度作平均。為了避免隨機(jī)取樣產(chǎn)生的偏好性,將此驗(yàn)證過程重復(fù)10次。最后,利用靈敏度(Sensitivity)、特異性(Specificity)和總體準(zhǔn)確度(Accuracy)這3個(gè)指標(biāo)來評(píng)價(jià)模型的性能。具體定義如下:

        其中,TP為真陽性的數(shù)目,TN為真陰性的數(shù)目,F(xiàn)P為假陽性的數(shù)目,F(xiàn)N為假陰性的數(shù)目。

        2 結(jié)果分析

        根據(jù)表2所列的不同壓縮方法將膜蛋白序列進(jìn)行壓縮,轉(zhuǎn)換為壓縮序列;利用單氨基酸和二肽組成的序列信息對(duì)序列進(jìn)行特征提取,根據(jù)壓縮方式不同最終得到不同維數(shù)的特征向量,利用支持向量機(jī)(SVM)方法進(jìn)行分類器構(gòu)建;采用五疊交叉驗(yàn)證和3個(gè)評(píng)價(jià)指標(biāo)來衡量不同壓縮方法對(duì)分類預(yù)測結(jié)果的影響(見表3)。

        表3 采用不同壓縮方法進(jìn)行分類模型構(gòu)建的預(yù)測結(jié)果Table 3 Prediction results of classifiers which construct on different compressed methods

        由表3可知,從整體水平來看,采用Li-B(10)的壓縮方式可以較好地實(shí)現(xiàn)對(duì)六種膜蛋白類型的分類。為進(jìn)一步與以往研究進(jìn)行比較,我們選取Li-B(10)的壓縮方式,再用通用數(shù)據(jù)集A進(jìn)行測試(數(shù)據(jù)集A中只包括5種膜蛋白類型),結(jié)果見表4。

        由表4結(jié)果可知,采用Li-B(10)的壓縮方式對(duì)通用數(shù)據(jù)集A進(jìn)行特征提取同樣是有效的,比其他基于數(shù)據(jù)集A的預(yù)測方法效果要好。

        表4 采用Li-B(10)的壓縮方式對(duì)數(shù)據(jù)集A進(jìn)行測試Table 4 Test the database A with Li-B(10)compressed method

        3 討論

        本研究中采用了與通用數(shù)據(jù)集CE2059和CE2625同樣的構(gòu)建準(zhǔn)則來構(gòu)建新的膜蛋白類型數(shù)據(jù)集,與早期通用的數(shù)據(jù)集 CE2059和CE2625相比,該數(shù)據(jù)集包含了更為全面的膜蛋白類型(新增的外周蛋白類型)和序列信息,另外在假樣本的選取上,我們隨機(jī)抽取了不同比例的類型數(shù)據(jù)進(jìn)行組合,并重復(fù)10次隨機(jī)組成假樣本,避免了隨機(jī)抽樣以及假樣本過多所引起的結(jié)果偏差,有效保證了數(shù)據(jù)集的全面性與可靠性。其次,有效特征的選取也是成功構(gòu)建分類器的關(guān)鍵,基于氨基酸組成、氨基酸位置,偽氨基酸以及氨基酸理化性質(zhì)等特征構(gòu)建的分類器均取得了較好的分類效果。本研究利用了壓縮的氨基酸,將原始序列所包含的信息進(jìn)行有效壓縮,這種方法最早是用在序列比對(duì)上,可將序列間的局部相似性最大化,從而發(fā)現(xiàn)序列間保守的區(qū)域或是鑒定序列的同源性關(guān)系等,這里將它應(yīng)用到分類問題上,再綜合氨基酸組成和順序特征,進(jìn)行特征提取,由表3和表4結(jié)果可知,該方法在膜蛋白類型分類上是有效的。不同的壓縮方法得到的結(jié)果是有區(qū)別的,如對(duì)Type I分類預(yù)測時(shí),SE-B(14)的壓縮方式較好,而SE-V(10)對(duì)Lipid Chain和Peripheral的分類效果較好。但從整體上來看,則是Li-B(10)的壓縮方式對(duì)六種膜蛋白的分類更為合適,平均準(zhǔn)確度在85%以上,但對(duì)個(gè)別類型如Lipid Chain、GPI和Peripheral的分類效果偏低。原因主要有兩點(diǎn):一是這三種類型的數(shù)據(jù)集所包含的序列數(shù)目較少,使如上方法在對(duì)該類型進(jìn)行特征提取時(shí)不能很好的體現(xiàn);二是從類型上分析,Type I、Type II和 Multipass均屬于跨膜蛋白,具有跨膜螺旋特征,而Lipid Chain和GPI屬于錨定蛋白,還有特殊的一類外周蛋白,這三類與跨膜蛋白差異較大,利用如上方法的特征提取對(duì)于跨膜蛋白類型的分類效果較為顯著,而對(duì)于Lipid Chain、GPI和外周蛋白的區(qū)分還需考慮更為有效的特征,如氨基酸的理化性質(zhì)、序列末端特征等。

        4 結(jié)論

        綜上所述,利用壓縮的氨基酸結(jié)合氨基酸組分和二肽順序特征來預(yù)測膜蛋白類型是一種有效的方法。該方法操作簡單,但是僅限于對(duì)類型的預(yù)測,如要進(jìn)一步對(duì)膜蛋白功能和結(jié)構(gòu)進(jìn)行分析,還需考慮更多的一些屬性特征,挖掘這些特性有待于進(jìn)一步的研究,為更深入的探討膜蛋白功能奠定基礎(chǔ)。

        References)

        [1] Oren M.Becker,Yael Marantz,Sharon Shacham,Boaz Inbal,Alexander Heifetz,Ori Kalid,Shay Bar-Haim,Dora Warshaviak,Merav Fichman and Silvia Noiman.G protein coupled receptors:In silico drug discovery in 3D [J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(31):11304-11309.

        [2] 張振慧.蛋白質(zhì)分類問題的特征提取算法研究[D].湖南長沙:國防科學(xué)技術(shù)大學(xué),2006.

        [3] Kuo-Chen Chou,David W.Elrod.Prediction of membrane protein types and subcellular locations[J].Proteins,1999,34(1):137 -153.

        [4] Kuo-Chen Chou.Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Com position [J].Proteins,2001,43(3):246-255.

        [5] Kuo-Chen Chou,David W.Elrod.Protein Subcellular Locations Prediction[J].Protein Engineering design& selection,1999,12(2):107-118.

        [6] Hong-Bin Shen,Kuo-Chen Chou.Using optimized evidence theoretic K-nearest neighbor classifier and pseudo-amino acid composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2005,334(1):288 -292.

        [7] Hong-Bin Shen,Jie Yang,Kuo-Chen Chou.Fuzzy KNN for predicting membrane protein types from pseudo-amino acid composition [J].Journal of Theoretical Biology,2006,240(1):9 -13.

        [8] Kuo-Chen Chou,Hong-Bin Shen.MemType-2L:a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM[J].Biochemical and Biophysical Research Communications,2007,360(2):339 -345.

        [9] Zhi-Ping Feng,Chun-Ting Zhang.Prediction of membrane protein types based on the hydrop-hobic index of amino acids[J].Journal of Protein Chemistry,2000,19(4):269 -275.

        [10] Yu-Dong Cai,Xiao-Jun Liu,Xue-Biao Xu and Kuo-Chen Chou.SVM for predicting membrane protein types by incorporating quasisequence-order effect[J].Internet Electronic Journal of Molecular Design,2002,1(4):219 -226.

        [11] Yu-Dong Cai,Guo-Ping Zhou and Kuo-Chen Chou.Support vector machines for predicting membrane protein types by using functional domain composition[J].Biophysical Journal,2003,84(5):3257-3263.

        [12] Xiao-Guang Yang,Rui-Yan Luo and Zhi-Ping Feng.Using amino acid and peptide composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2007,353(1):164-169.

        [13]姜彬,王正華,王勇獻(xiàn),賀細(xì)平.多特征融合提取算法結(jié)合支持向量機(jī)預(yù)測膜蛋白類型[J].上海交通大學(xué)學(xué)報(bào),2009,7:1172-1176.

        [14]曾聰.蛋白分類的特征提取算法和數(shù)據(jù)集構(gòu)建技術(shù)研究[D].湖南長沙:國防科學(xué)技術(shù)大學(xué),2010.

        [15] Robert C.Edgar.Local homology recognition and distance measures in linear time using compressed amino acid alphabets[J].Nucleic Acids Research,2004,32(1):380 -385.

        [16] Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1 -27.

        猜你喜歡
        膜蛋白特征提取氨基酸
        月桂酰丙氨基酸鈉的抑菌性能研究
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        UFLC-QTRAP-MS/MS法同時(shí)測定絞股藍(lán)中11種氨基酸
        中成藥(2018年1期)2018-02-02 07:20:05
        Bagging RCSP腦電特征提取算法
        干擾素誘導(dǎo)跨膜蛋白抑制小兒流感病毒作用及其機(jī)制研究
        一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
        EB病毒潛伏膜蛋白1基因多態(tài)性與NK/T細(xì)胞淋巴瘤的相關(guān)性
        梅毒螺旋體四種膜蛋白克隆重組表達(dá)和ELISA法建立的應(yīng)用研究
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        氨基酸分析儀測定玉米漿中17種游離氨基酸的不確定度評(píng)定
        亚洲AⅤ永久无码精品AA| 国产freesexvideos中国麻豆| 老师露出两个奶球让我吃奶头| 人妻被黑人粗大的猛烈进出 | 亚洲精品无码mv在线观看| 亚洲av日韩av综合aⅴxxx| 青青草最新在线视频观看| 精品人妻va一区二区三区| 久久99精品九九九久久婷婷| 91精彩视频在线观看| 日韩精品中文字幕免费人妻 | 久久伊人精品一区二区三区| www插插插无码免费视频网站| 国产成社区在线视频观看| 国产一区资源在线播放| 人人妻人人澡人人爽国产一区| 亚洲av无码之日韩精品| 亚洲熟妇中文字幕日产无码| 四虎成人精品无码永久在线| 精品女同av一区二区三区| 手机在线亚洲精品网站| 国产成人av片在线观看| 久久国产影视免费精品| 国产精品女丝袜白丝袜美腿| 精品伊人久久大线蕉色首页| 巨熟乳波霸若妻在线播放| 中文字幕乱码亚洲无线| 国产流白浆视频在线观看 | 亚洲av毛片一区二区久久| 精品国产午夜肉伦伦影院| 一本色道久久综合亚洲精品不卡| 丰满少妇又紧又爽视频| 精品私密av一区二区三区| 久久久久av无码免费网| 亚洲制服中文字幕第一区| 国产自拍精品视频免费观看| 亚洲av无码国产精品久久| 国产精品福利自产拍久久| 一本色道久久综合中文字幕| 黄片小视频免费观看完整版| 欧美日韩色另类综合|