管翠萍,石 晶,徐惠娟
(寧夏大學(xué)生命科學(xué)學(xué)院,寧夏銀川750021)
膜蛋白是一類結(jié)構(gòu)獨(dú)特的蛋白質(zhì),它處于細(xì)胞與外界的交界部位,是細(xì)胞執(zhí)行各種功能的物質(zhì)基礎(chǔ),同時(shí)也是很多藥物作用的靶點(diǎn),如最典型的 G蛋白偶聯(lián)受體家族,它雖然只占人類基因組編碼序列的1%,但在藥物研發(fā)中卻有60% ~70% 的目標(biāo)蛋白是G蛋白偶聯(lián)受體家族成員[1]。目前隨著基因組學(xué)和蛋白組學(xué)的發(fā)展,對(duì)膜蛋白結(jié)構(gòu)和功能的研究刻不容緩,而對(duì)膜蛋白進(jìn)行類型預(yù)測則是以上工作的一個(gè)重要基礎(chǔ)。膜蛋白根據(jù)其在細(xì)胞膜上的不同存在方式,可分為六大類:A.Type I跨膜蛋白,只含有一段α螺旋構(gòu)成的跨膜區(qū),N末端在細(xì)胞外,C末端在細(xì)胞內(nèi);B.Type II跨膜蛋白,與Type I的方向剛好相反;C.Multipass跨膜蛋白,具有多個(gè)跨膜區(qū);D.Lipid Chain錨定膜蛋白,通過脂質(zhì)錨鏈與脂雙層相結(jié)合;E.GPI錨定膜蛋白,通過甘氨酰甘氨酸二肽酶與脂雙層相結(jié)合;F.外周蛋白,通過與其它膜蛋白之間的非共價(jià)鍵結(jié)合,而不是直接與脂雙層發(fā)生相互作用[2-3]。
目前利用分子生物學(xué)方法來驗(yàn)證膜蛋白類型已經(jīng)不能滿足日益增長的膜蛋白序列的需求,而生物信息學(xué)則可利用海量的生物數(shù)據(jù),進(jìn)行分類預(yù)測。因此,通過膜蛋白的初級(jí)序列結(jié)合生物信息手段來預(yù)測其所屬類型,以獲取相關(guān)的結(jié)構(gòu)和功能信息是目前的一個(gè)研究趨勢。現(xiàn)已提出了一些預(yù)測方法,并取得了較好的預(yù)測結(jié)果,如Chou等先后提取氨基酸組分、偽氨基酸組成、蛋白質(zhì)進(jìn)化等特征進(jìn)行分類研究[3-8];Feng和Zhang提出了氨基酸指數(shù)的自相關(guān)函數(shù)方法[9];Cai等分別利用部分序列順序作用和功能結(jié)構(gòu)域方法結(jié)合支持向量機(jī)(SVM)實(shí)現(xiàn)分類預(yù)測[10-11];Yang等[12]采用單氨酸和二肽組成方法獲取序列順序信息進(jìn)行預(yù)測;Jiang等融合氨基酸組成和氨基酸位置特征利用支持向量機(jī)進(jìn)行分類預(yù)測等[13]。本文將利用壓縮的氨基酸對(duì)原始膜蛋白序列進(jìn)行信息壓縮,對(duì)壓縮序列進(jìn)行氨基酸組成和順序特征的提取,同時(shí)采用SVM構(gòu)建分類器,實(shí)現(xiàn)六種分類模型的構(gòu)建,利用五疊交叉驗(yàn)證的方法進(jìn)行驗(yàn)證。
早期的研究大多數(shù)基于 Chou等人[3]構(gòu)建的CE2059和CE2625兩個(gè)通用數(shù)據(jù)集來進(jìn)行分類模型的構(gòu)建。這兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)來源于SWISSPROT1997年11月發(fā)布的Release 37,建立年限較早,且隨著現(xiàn)在數(shù)據(jù)的不斷更新,其中有些信息已經(jīng)變更。2007年,Chou和 Shen基于 SWISS-PROT Release 51對(duì)該數(shù)據(jù)集做了進(jìn)一步擴(kuò)充,其中訓(xùn)練集包含3 249個(gè)膜蛋白序列;獨(dú)立檢驗(yàn)集包含4 333個(gè)膜蛋白序列[8]。2009年,Zeng又對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行改進(jìn),收集了5 750條膜蛋白序列[14]。目前,隨著數(shù)據(jù)庫中數(shù)據(jù)的不斷增長,膜蛋白序列信息也在不斷補(bǔ)充中,采用新的數(shù)據(jù)集來做分類模型是有必要的,但這樣又缺乏了與以往研究的可比較性。所以在本研究中,將采用兩個(gè)數(shù)據(jù)集A、B,分別作分類模型構(gòu)建來對(duì)預(yù)測結(jié)果進(jìn)行比較。數(shù)據(jù)集A即采用通用的CE2059和CE2625。數(shù)據(jù)集B將根據(jù)最新的2013年1月發(fā)布的uniprotKB/swiss-prot版本進(jìn)行構(gòu)建,構(gòu)建原則參見CE2059和CE2625等通用數(shù)據(jù)集的建立準(zhǔn)則[3,14]:
(1)選擇uniprotKB/swiss-prot數(shù)據(jù)庫中清楚明確標(biāo)示和注釋的蛋白質(zhì),如出現(xiàn)“fragment”、“probable”、“potential”或“by similarity”的篩除掉;
(2)來自不同物種卻同名的蛋白質(zhì)只入數(shù)據(jù)集一次;
(3)選擇只有唯一類型的蛋白序列入數(shù)據(jù)集。
經(jīng)篩選,共選出6 069條膜蛋白序列。其中A.Type I 907 條,B.Type II 273,C.Multipass 4 385 條,D.Lipid Chain 268條,E.GPI 183條,F(xiàn).Peripheral 53條。以上作為真樣本集,相應(yīng)的假樣本集則由除該類型外的其他五組類型數(shù)據(jù)隨機(jī)產(chǎn)生,具體分布見表1。
表1 膜蛋白類型數(shù)據(jù)集Table 1 Database of membrane protein types
1.2.1 由原始序列轉(zhuǎn)換為壓縮序列
引入壓縮氨基酸的概念,即將原始的20種氨基酸 AA={A,R,N,D,C,Q,E,G,H,I,L,M,K,F(xiàn),P,S,T,W,Y,V}根據(jù)理化性質(zhì)的不同進(jìn)行壓縮分類,性質(zhì)相近的歸為一類,這樣20種氨基酸根據(jù)不同的壓縮方式[15]形成了不同的壓縮種類(見表2)。對(duì)表2中所列的11種壓縮方式分別進(jìn)行測試,比較不同的壓縮方式對(duì)膜蛋白類型識(shí)別效果的優(yōu)劣。
表2 不同的壓縮方法對(duì)20種氨基酸進(jìn)行壓縮分類Table 2 Compressed alphabets produced by different methods
針對(duì)每一種壓縮方式,一條原始的由20種氨基酸組成的蛋白質(zhì)序列,利用壓縮的氨基酸轉(zhuǎn)換為壓縮序列。
1.2.2 對(duì)壓縮序列進(jìn)行氨基酸組分特征提取
蛋白質(zhì)序列的特征已被普遍用于蛋白質(zhì)的家族分類、結(jié)構(gòu)預(yù)測、信號(hào)位點(diǎn)識(shí)別等方面,且取得了較好的效果,目前比較常用的序列特征有單氨基酸組成和二肽組成,僅考慮單氨基酸的組成,往往會(huì)漏掉許多序列次序信息,二肽的組成分析能很好的補(bǔ)充氨基酸序列之間順序的特征,考慮了鄰近殘基之間的耦合作用。通過對(duì)壓縮序列進(jìn)行單氨基酸和二肽組成頻率的統(tǒng)計(jì),將壓縮序列轉(zhuǎn)換為維數(shù)固定的特征向量。具體步驟:
其中,F(xiàn)i表示在壓縮序列中氨基酸i的出現(xiàn)頻率,Ai表示壓縮序列中氨基酸i出現(xiàn)的總次數(shù),n表示壓縮序列的長度;Fij表示壓縮序列中相鄰兩個(gè)氨基酸ij的出現(xiàn)頻率,depij表示壓縮序列中相鄰兩個(gè)氨基酸ij出現(xiàn)的總次數(shù),m表示所有兩兩氨基酸出現(xiàn)的可能組合,N屬于表2中所列的11種壓縮后的氨基酸種類。最后,根據(jù)不同的壓縮方式,由公式(1)和公式(2)計(jì)算得到的特征向量總維數(shù)也是不同的,應(yīng)為N+N2。
支持向量機(jī)最大的特點(diǎn)就是泛化能力比較強(qiáng),即由有限的訓(xùn)練集樣本得到的小誤差仍能夠保證對(duì)獨(dú)立的測試集的小誤差,同時(shí)也可以防止模型構(gòu)建過程中問題的產(chǎn)生。以往的研究表明使用支持向量機(jī)方法可以很好的對(duì)膜蛋白類型進(jìn)行預(yù)測[11-13]。本文采用libsvm3.13軟件包[16],選擇徑向基核函數(shù)進(jìn)行多類分類器的構(gòu)建,以實(shí)現(xiàn)對(duì)膜蛋白類型的識(shí)別預(yù)測。
利用五疊交叉驗(yàn)證的方法隨機(jī)劃分?jǐn)?shù)據(jù)集對(duì)分類模型進(jìn)行測試。即將真、假樣本數(shù)據(jù)分別隨機(jī)分為5個(gè)大致相等的子集,依次各取出一個(gè)子集合作為測試集,而各自其余4個(gè)子集合作為訓(xùn)練集,如此交替反復(fù)5次后,將各次的準(zhǔn)確度作平均。為了避免隨機(jī)取樣產(chǎn)生的偏好性,將此驗(yàn)證過程重復(fù)10次。最后,利用靈敏度(Sensitivity)、特異性(Specificity)和總體準(zhǔn)確度(Accuracy)這3個(gè)指標(biāo)來評(píng)價(jià)模型的性能。具體定義如下:
其中,TP為真陽性的數(shù)目,TN為真陰性的數(shù)目,F(xiàn)P為假陽性的數(shù)目,F(xiàn)N為假陰性的數(shù)目。
根據(jù)表2所列的不同壓縮方法將膜蛋白序列進(jìn)行壓縮,轉(zhuǎn)換為壓縮序列;利用單氨基酸和二肽組成的序列信息對(duì)序列進(jìn)行特征提取,根據(jù)壓縮方式不同最終得到不同維數(shù)的特征向量,利用支持向量機(jī)(SVM)方法進(jìn)行分類器構(gòu)建;采用五疊交叉驗(yàn)證和3個(gè)評(píng)價(jià)指標(biāo)來衡量不同壓縮方法對(duì)分類預(yù)測結(jié)果的影響(見表3)。
表3 采用不同壓縮方法進(jìn)行分類模型構(gòu)建的預(yù)測結(jié)果Table 3 Prediction results of classifiers which construct on different compressed methods
由表3可知,從整體水平來看,采用Li-B(10)的壓縮方式可以較好地實(shí)現(xiàn)對(duì)六種膜蛋白類型的分類。為進(jìn)一步與以往研究進(jìn)行比較,我們選取Li-B(10)的壓縮方式,再用通用數(shù)據(jù)集A進(jìn)行測試(數(shù)據(jù)集A中只包括5種膜蛋白類型),結(jié)果見表4。
由表4結(jié)果可知,采用Li-B(10)的壓縮方式對(duì)通用數(shù)據(jù)集A進(jìn)行特征提取同樣是有效的,比其他基于數(shù)據(jù)集A的預(yù)測方法效果要好。
表4 采用Li-B(10)的壓縮方式對(duì)數(shù)據(jù)集A進(jìn)行測試Table 4 Test the database A with Li-B(10)compressed method
本研究中采用了與通用數(shù)據(jù)集CE2059和CE2625同樣的構(gòu)建準(zhǔn)則來構(gòu)建新的膜蛋白類型數(shù)據(jù)集,與早期通用的數(shù)據(jù)集 CE2059和CE2625相比,該數(shù)據(jù)集包含了更為全面的膜蛋白類型(新增的外周蛋白類型)和序列信息,另外在假樣本的選取上,我們隨機(jī)抽取了不同比例的類型數(shù)據(jù)進(jìn)行組合,并重復(fù)10次隨機(jī)組成假樣本,避免了隨機(jī)抽樣以及假樣本過多所引起的結(jié)果偏差,有效保證了數(shù)據(jù)集的全面性與可靠性。其次,有效特征的選取也是成功構(gòu)建分類器的關(guān)鍵,基于氨基酸組成、氨基酸位置,偽氨基酸以及氨基酸理化性質(zhì)等特征構(gòu)建的分類器均取得了較好的分類效果。本研究利用了壓縮的氨基酸,將原始序列所包含的信息進(jìn)行有效壓縮,這種方法最早是用在序列比對(duì)上,可將序列間的局部相似性最大化,從而發(fā)現(xiàn)序列間保守的區(qū)域或是鑒定序列的同源性關(guān)系等,這里將它應(yīng)用到分類問題上,再綜合氨基酸組成和順序特征,進(jìn)行特征提取,由表3和表4結(jié)果可知,該方法在膜蛋白類型分類上是有效的。不同的壓縮方法得到的結(jié)果是有區(qū)別的,如對(duì)Type I分類預(yù)測時(shí),SE-B(14)的壓縮方式較好,而SE-V(10)對(duì)Lipid Chain和Peripheral的分類效果較好。但從整體上來看,則是Li-B(10)的壓縮方式對(duì)六種膜蛋白的分類更為合適,平均準(zhǔn)確度在85%以上,但對(duì)個(gè)別類型如Lipid Chain、GPI和Peripheral的分類效果偏低。原因主要有兩點(diǎn):一是這三種類型的數(shù)據(jù)集所包含的序列數(shù)目較少,使如上方法在對(duì)該類型進(jìn)行特征提取時(shí)不能很好的體現(xiàn);二是從類型上分析,Type I、Type II和 Multipass均屬于跨膜蛋白,具有跨膜螺旋特征,而Lipid Chain和GPI屬于錨定蛋白,還有特殊的一類外周蛋白,這三類與跨膜蛋白差異較大,利用如上方法的特征提取對(duì)于跨膜蛋白類型的分類效果較為顯著,而對(duì)于Lipid Chain、GPI和外周蛋白的區(qū)分還需考慮更為有效的特征,如氨基酸的理化性質(zhì)、序列末端特征等。
綜上所述,利用壓縮的氨基酸結(jié)合氨基酸組分和二肽順序特征來預(yù)測膜蛋白類型是一種有效的方法。該方法操作簡單,但是僅限于對(duì)類型的預(yù)測,如要進(jìn)一步對(duì)膜蛋白功能和結(jié)構(gòu)進(jìn)行分析,還需考慮更多的一些屬性特征,挖掘這些特性有待于進(jìn)一步的研究,為更深入的探討膜蛋白功能奠定基礎(chǔ)。
References)
[1] Oren M.Becker,Yael Marantz,Sharon Shacham,Boaz Inbal,Alexander Heifetz,Ori Kalid,Shay Bar-Haim,Dora Warshaviak,Merav Fichman and Silvia Noiman.G protein coupled receptors:In silico drug discovery in 3D [J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(31):11304-11309.
[2] 張振慧.蛋白質(zhì)分類問題的特征提取算法研究[D].湖南長沙:國防科學(xué)技術(shù)大學(xué),2006.
[3] Kuo-Chen Chou,David W.Elrod.Prediction of membrane protein types and subcellular locations[J].Proteins,1999,34(1):137 -153.
[4] Kuo-Chen Chou.Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Com position [J].Proteins,2001,43(3):246-255.
[5] Kuo-Chen Chou,David W.Elrod.Protein Subcellular Locations Prediction[J].Protein Engineering design& selection,1999,12(2):107-118.
[6] Hong-Bin Shen,Kuo-Chen Chou.Using optimized evidence theoretic K-nearest neighbor classifier and pseudo-amino acid composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2005,334(1):288 -292.
[7] Hong-Bin Shen,Jie Yang,Kuo-Chen Chou.Fuzzy KNN for predicting membrane protein types from pseudo-amino acid composition [J].Journal of Theoretical Biology,2006,240(1):9 -13.
[8] Kuo-Chen Chou,Hong-Bin Shen.MemType-2L:a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM[J].Biochemical and Biophysical Research Communications,2007,360(2):339 -345.
[9] Zhi-Ping Feng,Chun-Ting Zhang.Prediction of membrane protein types based on the hydrop-hobic index of amino acids[J].Journal of Protein Chemistry,2000,19(4):269 -275.
[10] Yu-Dong Cai,Xiao-Jun Liu,Xue-Biao Xu and Kuo-Chen Chou.SVM for predicting membrane protein types by incorporating quasisequence-order effect[J].Internet Electronic Journal of Molecular Design,2002,1(4):219 -226.
[11] Yu-Dong Cai,Guo-Ping Zhou and Kuo-Chen Chou.Support vector machines for predicting membrane protein types by using functional domain composition[J].Biophysical Journal,2003,84(5):3257-3263.
[12] Xiao-Guang Yang,Rui-Yan Luo and Zhi-Ping Feng.Using amino acid and peptide composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2007,353(1):164-169.
[13]姜彬,王正華,王勇獻(xiàn),賀細(xì)平.多特征融合提取算法結(jié)合支持向量機(jī)預(yù)測膜蛋白類型[J].上海交通大學(xué)學(xué)報(bào),2009,7:1172-1176.
[14]曾聰.蛋白分類的特征提取算法和數(shù)據(jù)集構(gòu)建技術(shù)研究[D].湖南長沙:國防科學(xué)技術(shù)大學(xué),2010.
[15] Robert C.Edgar.Local homology recognition and distance measures in linear time using compressed amino acid alphabets[J].Nucleic Acids Research,2004,32(1):380 -385.
[16] Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1 -27.