亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于壓縮氨基酸和支持向量機(jī)進(jìn)行膜蛋白類型識(shí)別

2013-11-14 07:10:30管翠萍徐惠娟

生物信息學(xué) 2013年4期

管翠萍，石晶，徐惠娟

(寧夏大學(xué)生命科學(xué)學(xué)院，寧夏銀川750021)

膜蛋白是一類結(jié)構(gòu)獨(dú)特的蛋白質(zhì)，它處于細(xì)胞與外界的交界部位，是細(xì)胞執(zhí)行各種功能的物質(zhì)基礎(chǔ)，同時(shí)也是很多藥物作用的靶點(diǎn)，如最典型的 G蛋白偶聯(lián)受體家族，它雖然只占人類基因組編碼序列的1%，但在藥物研發(fā)中卻有60% ～70% 的目標(biāo)蛋白是G蛋白偶聯(lián)受體家族成員［1］。目前隨著基因組學(xué)和蛋白組學(xué)的發(fā)展，對(duì)膜蛋白結(jié)構(gòu)和功能的研究刻不容緩，而對(duì)膜蛋白進(jìn)行類型預(yù)測則是以上工作的一個(gè)重要基礎(chǔ)。膜蛋白根據(jù)其在細(xì)胞膜上的不同存在方式，可分為六大類:A.Type I跨膜蛋白，只含有一段α螺旋構(gòu)成的跨膜區(qū)，N末端在細(xì)胞外，C末端在細(xì)胞內(nèi);B.Type II跨膜蛋白，與Type I的方向剛好相反;C.Multipass跨膜蛋白，具有多個(gè)跨膜區(qū);D.Lipid Chain錨定膜蛋白，通過脂質(zhì)錨鏈與脂雙層相結(jié)合;E.GPI錨定膜蛋白，通過甘氨酰甘氨酸二肽酶與脂雙層相結(jié)合;F.外周蛋白，通過與其它膜蛋白之間的非共價(jià)鍵結(jié)合，而不是直接與脂雙層發(fā)生相互作用［2－3］。

目前利用分子生物學(xué)方法來驗(yàn)證膜蛋白類型已經(jīng)不能滿足日益增長的膜蛋白序列的需求，而生物信息學(xué)則可利用海量的生物數(shù)據(jù)，進(jìn)行分類預(yù)測。因此，通過膜蛋白的初級(jí)序列結(jié)合生物信息手段來預(yù)測其所屬類型，以獲取相關(guān)的結(jié)構(gòu)和功能信息是目前的一個(gè)研究趨勢。現(xiàn)已提出了一些預(yù)測方法，并取得了較好的預(yù)測結(jié)果，如Chou等先后提取氨基酸組分、偽氨基酸組成、蛋白質(zhì)進(jìn)化等特征進(jìn)行分類研究［3－8］;Feng和Zhang提出了氨基酸指數(shù)的自相關(guān)函數(shù)方法［9］;Cai等分別利用部分序列順序作用和功能結(jié)構(gòu)域方法結(jié)合支持向量機(jī)(SVM)實(shí)現(xiàn)分類預(yù)測［10－11］;Yang等［12］采用單氨酸和二肽組成方法獲取序列順序信息進(jìn)行預(yù)測;Jiang等融合氨基酸組成和氨基酸位置特征利用支持向量機(jī)進(jìn)行分類預(yù)測等［13］。本文將利用壓縮的氨基酸對(duì)原始膜蛋白序列進(jìn)行信息壓縮，對(duì)壓縮序列進(jìn)行氨基酸組成和順序特征的提取，同時(shí)采用SVM構(gòu)建分類器，實(shí)現(xiàn)六種分類模型的構(gòu)建，利用五疊交叉驗(yàn)證的方法進(jìn)行驗(yàn)證。

1 材料與方法

1.1 數(shù)據(jù)集的構(gòu)建

早期的研究大多數(shù)基于 Chou等人［3］構(gòu)建的CE2059和CE2625兩個(gè)通用數(shù)據(jù)集來進(jìn)行分類模型的構(gòu)建。這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)來源于SWISSPROT1997年11月發(fā)布的Release 37，建立年限較早，且隨著現(xiàn)在數(shù)據(jù)的不斷更新，其中有些信息已經(jīng)變更。2007年，Chou和 Shen基于 SWISS-PROT Release 51對(duì)該數(shù)據(jù)集做了進(jìn)一步擴(kuò)充，其中訓(xùn)練集包含3 249個(gè)膜蛋白序列;獨(dú)立檢驗(yàn)集包含4 333個(gè)膜蛋白序列［8］。2009年，Zeng又對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行改進(jìn)，收集了5 750條膜蛋白序列［14］。目前，隨著數(shù)據(jù)庫中數(shù)據(jù)的不斷增長，膜蛋白序列信息也在不斷補(bǔ)充中，采用新的數(shù)據(jù)集來做分類模型是有必要的，但這樣又缺乏了與以往研究的可比較性。所以在本研究中，將采用兩個(gè)數(shù)據(jù)集A、B，分別作分類模型構(gòu)建來對(duì)預(yù)測結(jié)果進(jìn)行比較。數(shù)據(jù)集A即采用通用的CE2059和CE2625。數(shù)據(jù)集B將根據(jù)最新的2013年1月發(fā)布的uniprotKB/swiss-prot版本進(jìn)行構(gòu)建，構(gòu)建原則參見CE2059和CE2625等通用數(shù)據(jù)集的建立準(zhǔn)則［3，14］:

(1)選擇uniprotKB/swiss-prot數(shù)據(jù)庫中清楚明確標(biāo)示和注釋的蛋白質(zhì)，如出現(xiàn)“fragment”、“probable”、“potential”或“by similarity”的篩除掉;

(2)來自不同物種卻同名的蛋白質(zhì)只入數(shù)據(jù)集一次;

(3)選擇只有唯一類型的蛋白序列入數(shù)據(jù)集。

經(jīng)篩選，共選出6 069條膜蛋白序列。其中A.Type I 907 條，B.Type II 273，C.Multipass 4 385 條，D.Lipid Chain 268條，E.GPI 183條，F(xiàn).Peripheral 53條。以上作為真樣本集，相應(yīng)的假樣本集則由除該類型外的其他五組類型數(shù)據(jù)隨機(jī)產(chǎn)生，具體分布見表1。

表1 膜蛋白類型數(shù)據(jù)集Table 1 Database of membrane protein types

1.2 序列特征的提取與轉(zhuǎn)化

1.2.1 由原始序列轉(zhuǎn)換為壓縮序列

引入壓縮氨基酸的概念，即將原始的20種氨基酸 AA={A，R，N，D，C，Q，E，G，H，I，L，M，K，F(xiàn)，P，S，T，W，Y，V}根據(jù)理化性質(zhì)的不同進(jìn)行壓縮分類，性質(zhì)相近的歸為一類，這樣20種氨基酸根據(jù)不同的壓縮方式［15］形成了不同的壓縮種類(見表2)。對(duì)表2中所列的11種壓縮方式分別進(jìn)行測試，比較不同的壓縮方式對(duì)膜蛋白類型識(shí)別效果的優(yōu)劣。

表2 不同的壓縮方法對(duì)20種氨基酸進(jìn)行壓縮分類Table 2 Compressed alphabets produced by different methods

針對(duì)每一種壓縮方式，一條原始的由20種氨基酸組成的蛋白質(zhì)序列，利用壓縮的氨基酸轉(zhuǎn)換為壓縮序列。

1.2.2 對(duì)壓縮序列進(jìn)行氨基酸組分特征提取

蛋白質(zhì)序列的特征已被普遍用于蛋白質(zhì)的家族分類、結(jié)構(gòu)預(yù)測、信號(hào)位點(diǎn)識(shí)別等方面，且取得了較好的效果，目前比較常用的序列特征有單氨基酸組成和二肽組成，僅考慮單氨基酸的組成，往往會(huì)漏掉許多序列次序信息，二肽的組成分析能很好的補(bǔ)充氨基酸序列之間順序的特征，考慮了鄰近殘基之間的耦合作用。通過對(duì)壓縮序列進(jìn)行單氨基酸和二肽組成頻率的統(tǒng)計(jì)，將壓縮序列轉(zhuǎn)換為維數(shù)固定的特征向量。具體步驟:

其中，F(xiàn)i表示在壓縮序列中氨基酸i的出現(xiàn)頻率，Ai表示壓縮序列中氨基酸i出現(xiàn)的總次數(shù)，n表示壓縮序列的長度;Fij表示壓縮序列中相鄰兩個(gè)氨基酸ij的出現(xiàn)頻率，depij表示壓縮序列中相鄰兩個(gè)氨基酸ij出現(xiàn)的總次數(shù)，m表示所有兩兩氨基酸出現(xiàn)的可能組合，N屬于表2中所列的11種壓縮后的氨基酸種類。最后，根據(jù)不同的壓縮方式，由公式(1)和公式(2)計(jì)算得到的特征向量總維數(shù)也是不同的，應(yīng)為N+N2。

1.3 基于SVM的分類模型構(gòu)建

支持向量機(jī)最大的特點(diǎn)就是泛化能力比較強(qiáng)，即由有限的訓(xùn)練集樣本得到的小誤差仍能夠保證對(duì)獨(dú)立的測試集的小誤差，同時(shí)也可以防止模型構(gòu)建過程中問題的產(chǎn)生。以往的研究表明使用支持向量機(jī)方法可以很好的對(duì)膜蛋白類型進(jìn)行預(yù)測［11－13］。本文采用libsvm3.13軟件包［16］，選擇徑向基核函數(shù)進(jìn)行多類分類器的構(gòu)建，以實(shí)現(xiàn)對(duì)膜蛋白類型的識(shí)別預(yù)測。

1.4 五疊交叉驗(yàn)證和評(píng)價(jià)標(biāo)準(zhǔn)

利用五疊交叉驗(yàn)證的方法隨機(jī)劃分?jǐn)?shù)據(jù)集對(duì)分類模型進(jìn)行測試。即將真、假樣本數(shù)據(jù)分別隨機(jī)分為5個(gè)大致相等的子集，依次各取出一個(gè)子集合作為測試集，而各自其余4個(gè)子集合作為訓(xùn)練集，如此交替反復(fù)5次后，將各次的準(zhǔn)確度作平均。為了避免隨機(jī)取樣產(chǎn)生的偏好性，將此驗(yàn)證過程重復(fù)10次。最后，利用靈敏度(Sensitivity)、特異性(Specificity)和總體準(zhǔn)確度(Accuracy)這3個(gè)指標(biāo)來評(píng)價(jià)模型的性能。具體定義如下:

其中，TP為真陽性的數(shù)目，TN為真陰性的數(shù)目，F(xiàn)P為假陽性的數(shù)目，F(xiàn)N為假陰性的數(shù)目。

2 結(jié)果分析

根據(jù)表2所列的不同壓縮方法將膜蛋白序列進(jìn)行壓縮，轉(zhuǎn)換為壓縮序列;利用單氨基酸和二肽組成的序列信息對(duì)序列進(jìn)行特征提取，根據(jù)壓縮方式不同最終得到不同維數(shù)的特征向量，利用支持向量機(jī)(SVM)方法進(jìn)行分類器構(gòu)建;采用五疊交叉驗(yàn)證和3個(gè)評(píng)價(jià)指標(biāo)來衡量不同壓縮方法對(duì)分類預(yù)測結(jié)果的影響(見表3)。

表3 采用不同壓縮方法進(jìn)行分類模型構(gòu)建的預(yù)測結(jié)果Table 3 Prediction results of classifiers which construct on different compressed methods

由表3可知，從整體水平來看，采用Li-B(10)的壓縮方式可以較好地實(shí)現(xiàn)對(duì)六種膜蛋白類型的分類。為進(jìn)一步與以往研究進(jìn)行比較，我們選取Li-B(10)的壓縮方式，再用通用數(shù)據(jù)集A進(jìn)行測試(數(shù)據(jù)集A中只包括5種膜蛋白類型)，結(jié)果見表4。

由表4結(jié)果可知，采用Li-B(10)的壓縮方式對(duì)通用數(shù)據(jù)集A進(jìn)行特征提取同樣是有效的，比其他基于數(shù)據(jù)集A的預(yù)測方法效果要好。

表4 采用Li-B(10)的壓縮方式對(duì)數(shù)據(jù)集A進(jìn)行測試Table 4 Test the database A with Li-B(10)compressed method

3 討論

本研究中采用了與通用數(shù)據(jù)集CE2059和CE2625同樣的構(gòu)建準(zhǔn)則來構(gòu)建新的膜蛋白類型數(shù)據(jù)集，與早期通用的數(shù)據(jù)集 CE2059和CE2625相比，該數(shù)據(jù)集包含了更為全面的膜蛋白類型(新增的外周蛋白類型)和序列信息，另外在假樣本的選取上，我們隨機(jī)抽取了不同比例的類型數(shù)據(jù)進(jìn)行組合，并重復(fù)10次隨機(jī)組成假樣本，避免了隨機(jī)抽樣以及假樣本過多所引起的結(jié)果偏差，有效保證了數(shù)據(jù)集的全面性與可靠性。其次，有效特征的選取也是成功構(gòu)建分類器的關(guān)鍵，基于氨基酸組成、氨基酸位置，偽氨基酸以及氨基酸理化性質(zhì)等特征構(gòu)建的分類器均取得了較好的分類效果。本研究利用了壓縮的氨基酸，將原始序列所包含的信息進(jìn)行有效壓縮，這種方法最早是用在序列比對(duì)上，可將序列間的局部相似性最大化，從而發(fā)現(xiàn)序列間保守的區(qū)域或是鑒定序列的同源性關(guān)系等，這里將它應(yīng)用到分類問題上，再綜合氨基酸組成和順序特征，進(jìn)行特征提取，由表3和表4結(jié)果可知，該方法在膜蛋白類型分類上是有效的。不同的壓縮方法得到的結(jié)果是有區(qū)別的，如對(duì)Type I分類預(yù)測時(shí)，SE-B(14)的壓縮方式較好，而SE-V(10)對(duì)Lipid Chain和Peripheral的分類效果較好。但從整體上來看，則是Li-B(10)的壓縮方式對(duì)六種膜蛋白的分類更為合適，平均準(zhǔn)確度在85%以上，但對(duì)個(gè)別類型如Lipid Chain、GPI和Peripheral的分類效果偏低。原因主要有兩點(diǎn):一是這三種類型的數(shù)據(jù)集所包含的序列數(shù)目較少，使如上方法在對(duì)該類型進(jìn)行特征提取時(shí)不能很好的體現(xiàn);二是從類型上分析，Type I、Type II和 Multipass均屬于跨膜蛋白，具有跨膜螺旋特征，而Lipid Chain和GPI屬于錨定蛋白，還有特殊的一類外周蛋白，這三類與跨膜蛋白差異較大，利用如上方法的特征提取對(duì)于跨膜蛋白類型的分類效果較為顯著，而對(duì)于Lipid Chain、GPI和外周蛋白的區(qū)分還需考慮更為有效的特征，如氨基酸的理化性質(zhì)、序列末端特征等。

4 結(jié)論

綜上所述，利用壓縮的氨基酸結(jié)合氨基酸組分和二肽順序特征來預(yù)測膜蛋白類型是一種有效的方法。該方法操作簡單，但是僅限于對(duì)類型的預(yù)測，如要進(jìn)一步對(duì)膜蛋白功能和結(jié)構(gòu)進(jìn)行分析，還需考慮更多的一些屬性特征，挖掘這些特性有待于進(jìn)一步的研究，為更深入的探討膜蛋白功能奠定基礎(chǔ)。

References)

［1］ Oren M.Becker，Yael Marantz，Sharon Shacham，Boaz Inbal，Alexander Heifetz，Ori Kalid，Shay Bar-Haim，Dora Warshaviak，Merav Fichman and Silvia Noiman.G protein coupled receptors:In silico drug discovery in 3D ［J］.Proceedings of the National Academy of Sciences of the United States of America，2004，101(31):11304－11309.

［2］張振慧.蛋白質(zhì)分類問題的特征提取算法研究［D］.湖南長沙:國防科學(xué)技術(shù)大學(xué)，2006.

［3］ Kuo-Chen Chou，David W.Elrod.Prediction of membrane protein types and subcellular locations［J］.Proteins，1999，34(1):137 －153.

［4］ Kuo-Chen Chou.Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Com position ［J］.Proteins，2001，43(3):246－255.

［5］ Kuo-Chen Chou，David W.Elrod.Protein Subcellular Locations Prediction［J］.Protein Engineering design＆ selection，1999，12(2):107－118.

［6］ Hong-Bin Shen，Kuo-Chen Chou.Using optimized evidence theoretic K-nearest neighbor classifier and pseudo-amino acid composition to predict membrane protein types［J］.Biochemical and Biophysical Research Communications，2005，334(1):288 －292.

［7］ Hong-Bin Shen，Jie Yang，Kuo-Chen Chou.Fuzzy KNN for predicting membrane protein types from pseudo-amino acid composition ［J］.Journal of Theoretical Biology，2006，240(1):9 －13.

［8］ Kuo-Chen Chou，Hong-Bin Shen.MemType-2L:a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM［J］.Biochemical and Biophysical Research Communications，2007，360(2):339 －345.

［9］ Zhi-Ping Feng，Chun-Ting Zhang.Prediction of membrane protein types based on the hydrop-hobic index of amino acids［J］.Journal of Protein Chemistry，2000，19(4):269 －275.

［10］ Yu-Dong Cai，Xiao-Jun Liu，Xue-Biao Xu and Kuo-Chen Chou.SVM for predicting membrane protein types by incorporating quasisequence-order effect［J］.Internet Electronic Journal of Molecular Design，2002，1(4):219 －226.

［11］ Yu-Dong Cai，Guo-Ping Zhou and Kuo-Chen Chou.Support vector machines for predicting membrane protein types by using functional domain composition［J］.Biophysical Journal，2003，84(5):3257－3263.

［12］ Xiao-Guang Yang，Rui-Yan Luo and Zhi-Ping Feng.Using amino acid and peptide composition to predict membrane protein types［J］.Biochemical and Biophysical Research Communications，2007，353(1):164－169.

［13］姜彬，王正華，王勇獻(xiàn)，賀細(xì)平.多特征融合提取算法結(jié)合支持向量機(jī)預(yù)測膜蛋白類型［J］.上海交通大學(xué)學(xué)報(bào)，2009，7:1172－1176.

［14］曾聰.蛋白分類的特征提取算法和數(shù)據(jù)集構(gòu)建技術(shù)研究［D］.湖南長沙:國防科學(xué)技術(shù)大學(xué)，2010.

［15］ Robert C.Edgar.Local homology recognition and distance measures in linear time using compressed amino acid alphabets［J］.Nucleic Acids Research，2004，32(1):380 －385.

［16］ Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines［J］.ACM Transactions on Intelligent Systems and Technology，2011，2(3):1 －27.