丁德武, 夏啟壽, 殷小玲
(池州學院 數(shù)學與計算機學院, 池州 247000)
蛋白質(zhì)螺線管域檢測的序列和結(jié)構(gòu)方法綜述
丁德武, 夏啟壽, 殷小玲
(池州學院 數(shù)學與計算機學院, 池州 247000)
螺線管蛋白質(zhì)在人類健康和蛋白工程領域的研究日益增多。螺線管域的識別有助于推斷蛋白的功能和機制,研究蛋白的起源和進化,了解蛋白與蛋白的相互作用。當前,研究人員已經(jīng)發(fā)展了從序列特征和結(jié)構(gòu)特征兩個角度識別蛋白質(zhì)螺線管域的方法,對這些方法進行了概括總結(jié)。
螺旋管蛋白;螺旋管域;序列特征;結(jié)構(gòu)特征
蛋白質(zhì)的螺線管域(Solenoid domain)是一種由重復的蛋白質(zhì)序列構(gòu)成的特殊結(jié)構(gòu)(又稱螺線管結(jié)構(gòu)),包含這種結(jié)構(gòu)的蛋白質(zhì)一般稱為螺線管蛋白質(zhì)(Solenoid protein)[1]。早在20世紀90年代,Marcotte等[2]就發(fā)現(xiàn)蛋白序列中存在大量的重復序列。隨后,Andrade等[3]報道了這類序列會形成特定的重復性結(jié)構(gòu),進而促進蛋白的綁定,拉開了研究這類蛋白的序幕。 一般認為,螺線管蛋白質(zhì)進化的更快一些,這為復制并進化出新的蛋白功能提供了重要的基礎。此外,相連的重復序列也是形成蛋白-蛋白相互作用的重要結(jié)構(gòu)基礎[4]。據(jù)估計,大約三分之一的人類細胞蛋白質(zhì)含有螺線管結(jié)構(gòu)[5],因而螺線管蛋白質(zhì)在人類健康[6]和蛋白工程[7]領域的研究日益增多。例如:人們發(fā)現(xiàn)細胞穩(wěn)態(tài)平衡調(diào)控的mTOR可以通過N-端的螺旋管域相互作用形成二聚體,進而構(gòu)成一個TOR調(diào)控單元[8]。在生物材料的應用方面,Peralta等[9]人論證了可以通過對β-螺旋管蛋白的修飾控制淀粉樣蛋白的自組裝。圖1給出了幾種常見的螺線管蛋白質(zhì)。
圖 1 幾種常見的螺線管蛋白質(zhì)[10]Fig 1 Examples of solenoid proteins[10]
一般地,螺線管域往往對應于蛋白質(zhì)的結(jié)構(gòu)單元或功能單元。因而,從序列層次上識別重復的序列片段有助于預測結(jié)構(gòu)域(例如,通過重復的序列來確定域的邊界)。對于沒有任何同源信息的蛋白,螺線管域的識別可能給出它們折疊或者家族信息的線索,這有助于推斷蛋白的功能和機制。此外,由于復制是產(chǎn)生新折疊結(jié)構(gòu)的重要基礎,確定重復的蛋白序列可能有助于了解蛋白折疊的起源,這有助于研究蛋白質(zhì)的進化[11]。
識別螺線管域是理解它們的生理功能和進化機制的關鍵一環(huán)。研究人員已經(jīng)發(fā)現(xiàn)了一些識別螺線管域的方法,這些方法主要包括序列特征和結(jié)構(gòu)特征兩個方面。表1給出了識別螺線管域的算法和在線工具。本文將對各方法進行簡單的概括介紹。
表1 螺旋管域檢測算法Table 1 Solenoid domain detection algorithms
短的重復序列一般具有保守的序列模式,因而可以依據(jù)常規(guī)的數(shù)據(jù)庫搜索(如:PSI-BLAST)識別。然而,較長的螺線管域非常復雜。人們先后改進了基于序列比對、基于信號處理(如傅里葉變換)等方法來從序列層次上識別蛋白質(zhì)的螺線管域。
1.1 基于序列比對的算法
人們先后發(fā)展了幾種基于序列-序列比較來挖掘次優(yōu)自比對的方法,如:REPRO[12], RADAR[13], TRUST[14],等等。這些方法從序列比對的角度出發(fā),簡單有效,可以檢測基本的重復單元,并從序列中定位這些單元。近年來,人們也采用了基于蛋白序列HMM模型比較的方法,開發(fā)了HHrep[15]和HHrepID[16]。一般認為,HHrepID方法是所有基于序列比對的算法中性能最佳的,該方法從多序列同源比對的角度,使用HMM模型-HMM模型比較來探索進化信息(圖2)。HHrepID方法可以產(chǎn)生重復序列的多重比對,也可以識別不同類型的重復序列,具有較高的準確性和靈敏度。例如:為了理解葉綠體蛋白的轉(zhuǎn)運機制,Tsai等[17]最近使用HHrepID方法分析了豌豆的Tic110和紅藻的CmTic110蛋白,分別得到了8個和12個重復的螺線管序列;這些重復的螺旋管域構(gòu)成了蛋白相互作用的骨架結(jié)構(gòu)。
最近,F(xiàn)ournier等[18]發(fā)現(xiàn)了一種通過神經(jīng)網(wǎng)絡識別alpha-螺線管域的方法,通過對一組包含alpha-螺線管域的典型序列進行訓練,該方法(ARD2)可以高效地識別質(zhì)詢序列中的alpha-螺線管域。對PI3KC催化亞基的核心區(qū)域,RNA綁定蛋白,脂類綁定蛋白,TPR重復蛋白等分析證實了方法的高效性。此外,他們還發(fā)現(xiàn)檢測到的alpha-螺線管域顯著地富集在蛋白質(zhì)相互作用位點附近,進一步確認了這種螺線管域結(jié)構(gòu)的功能;并借助ARD2對不同物種間alpha-螺線管域的趨同進化進行了分析討論。
但是,蛋白質(zhì)螺線管域的序列差異性可能很大,所有基于序列比對的算法(包括HHrepID和ARD2等方法)都很難檢測相似性較低的重復序列。
圖 2 螺線管域檢測方法HHrepID的主要步驟Fig 2 The main steps of the HHrepID solenoid domain detection algorithm
1.2 基于信號處理的算法
基于信號處理的蛋白螺線管域識別方法主要可分為利用傅里葉變換和小波變換兩大類,其主要分析流程圖3所示。
Biegert等最初嘗試使用序列的傅里葉變換來搜索用戶定義的特定周期性重復序列,開發(fā)了REPPER方法[19]。但是,REPPER方法的主要任務是分析纖維狀蛋白質(zhì),且不容許在重復單元間有插入的氨基酸。隨后發(fā)展的REPETITA方法利用5種重要的氨基酸特征(極性、二級結(jié)構(gòu)、分子量、密碼子多樣性、電荷),采用離散傅里葉變換來檢測重復序列,也具有很高的靈敏性[20]。Vlassi等[21]利用REPETITA方法識別了鹽皮質(zhì)激素受體中的蛋白質(zhì)螺線管結(jié)構(gòu)。鹽皮質(zhì)激素受體是人類的腎素-血管緊張素-醛固酮系統(tǒng)的一種主要組成部分,它具有3個不同的功能域。結(jié)合對蛋白質(zhì)螺線管域的結(jié)構(gòu)預測和分子動力學模擬表明這些功能域中的串聯(lián)重復序列構(gòu)成了β-螺線管域,進而形成了分子內(nèi)和分子間相互作用的一個支架。但是與HHrepID等基于序列比對的算法一樣,上述方法依賴螺線管域的序列相似性,也難以檢測相似性較低的重復序列。
小波變換可以檢測具有弱相似性的蛋白螺線管域中的重復序列。相對于傅里葉變換,小波變換的一個優(yōu)勢是可以同時獲取光譜和時間信息。Murray等[22]最初使用連續(xù)的小波變換分析了多種蛋白重復序列模體,如:卷曲螺旋、亮氨酸重復序列,等等,并用以識別蛋白螺線管域。Vo等[10]認為小波分析可以自然地表示蛋白質(zhì)結(jié)構(gòu)和性質(zhì)的5個主要因素,從而可以提取新穎的小波特征,從重復序列的相似性及它們與整個蛋白序列的差異來捕獲隱藏的成分,最終獲取重復序列的統(tǒng)計特征。
圖 3 螺線管域檢測信號處理方法的主要步驟Fig 3 The main steps of the signal processing solenoid domain detection algorithm
信號處理方法可以用于識別蛋白的螺線管域,而且小波變換克服了難以檢測相似性較低重復序列的缺點,但是這一類方法難以處理含有連續(xù)插入的序列。
螺線管蛋白質(zhì)進化較快,插入、刪除或者突變造成的影響使得它們的重復周期在序列層次上迅速退化,造成序列的差異性可能很大,因而很難從序列層次上識別螺線管蛋白質(zhì)中的所有螺線管域。例如,HMM模型比較只能識別出TLR蛋白質(zhì)中不到一半的螺線管域。此外,由于蛋白質(zhì)的結(jié)構(gòu)比序列更保守。因此,從結(jié)構(gòu)的層次上檢測、分析這些重復序列更可靠。
當前,從蛋白結(jié)構(gòu)的層次檢測蛋白重復序列的方法主要有:DAVROS[23]和ProSTRIP[24],它們是最早提出從蛋白結(jié)構(gòu)的層次檢查重復的蛋白序列的檢測方法,然而這些方法均是為檢測所有類型的蛋白質(zhì)結(jié)構(gòu)重復序列而開發(fā)的,對蛋白質(zhì)螺線管域的檢測效果不佳,均不及特異性的螺線管域檢測方法RAPHAEL和ConSole。
Walsh等[25]發(fā)展了RAPHAEL方法,首次從蛋白質(zhì)結(jié)構(gòu)的層次開展識別螺線管蛋白重復序列的研究。該方法結(jié)合傅里葉變換和機器學習分類,首先從蛋白結(jié)構(gòu)中提取距離和重復周期特征,通過識別螺線管域、確定重復的周期、確定序列中的插入等步驟完成對螺線管蛋白重復序列的識別,識別螺線管蛋白的準確率可達到89.5%。該方法的一個突出特點就是可以識別含有連續(xù)插入的序列。RAPHAEL方法從PDB數(shù)據(jù)庫中識別了1931個之前未發(fā)現(xiàn)的螺線管結(jié)構(gòu)。隨后,在RAPHAEL方法的基礎上,Di Domenico等[26]收集、整理了PDB數(shù)據(jù)庫中預測的重復單元,做了系統(tǒng)的注釋,并對重復性的結(jié)構(gòu)進行了分類。Hirsh等[27]進一步開發(fā)了重復蛋白單元預測(ReUPred)方法,他們利用RepeatsDB數(shù)據(jù)庫構(gòu)建了一個結(jié)構(gòu)重復單元庫,在此基礎上發(fā)展了一個對重復單元快速識別和分類的工具。
ConSole則利用蛋白交互網(wǎng)絡的模塊化結(jié)構(gòu),首先提取螺線管域結(jié)構(gòu)的范式,隨后通過模板匹配確定單個的殘基是否屬于某個螺線管域,進而精確地識別螺線管蛋白的重復序列。此外,通過對精確預測得到的螺線管域的結(jié)構(gòu)比對,ConSole有助于挖掘螺旋管域的序列模體[28]。Chakrabarty等[29]通過分析蛋白質(zhì)結(jié)構(gòu)圖的特征譜和蛋白的二級結(jié)構(gòu)信息,發(fā)展了一個與ConSole類似的蛋白重復結(jié)構(gòu)識別方法AnkPred,借助這個工具,他們分析了蛋白結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有蛋白,識別了641個之前未知的重復結(jié)構(gòu)蛋白。
識別重復序列是理解它們的生理功能和進化機制的關鍵一環(huán)。在進化的過程中,重復序列的模式演變的異常復雜。因而,某種特定的算法很難識別所有的重復序列,針對不同的模式,可能需要選擇合適的算法。此外,對重復序列的理解不僅要求高效地識別它們,還需要對識別出的重復序列進行整合以及比較分析等等。
[1]DERYUSHEVA E I, SELIVANOVA O M, SERDYUK I N. Loops and repeats in proteins as footprints of molecular evolution[J]. Biochemistry(Mosc), 2012, 77(13): 1487-1499.
[2]MARCOTTE E M, PELLEGRINI M, YEATES T O, et al. A census of protein repeats[J]. Journal of Molecular Biology, 1998, 293(1): 151-160.
[3]ANDRADE M A, PEREZ-IRATXETA C, PONTING C P. Protein repeats: structures, functions, and evolution[J]. Journal of Structural Biology, 2001, 134(2-3): 117-131.
[4]LI J, MAHAJAN A, TSAI M D. Ankyrin repeat: a unique motif mediating protein-protein interactions[J]. Biochemistry, 2006, 45(51): 15168-15178.
[5]KAJAVA A V. Tandem repeats in proteins: from sequence to structure[J]. Journal of Structural Biology, 2011, 179(3): 279-288.
[6]DE WIT J, HONG W, LUO L, et al. Role of leucine-rich repeat proteins in the development and function of neural circuits[J]. Annual Review of Cell and Developmental Biology, 2011, 27: 697-729.
[7]STEFAN N, MARTIN-KILLIAS P, WYSS-STOECKLE S, et al. DARPins recognizing the tumor-associated antigen EpCAM selected by phage and ribosome display and engineered for multivalency[J]. Journal of Molecular Biology, 2011, 413(4): 826-843.
[8]BARETIC D, BERNDT A, OHASHI Y, et al. Tor forms a dimer through an N-terminal helical solenoid with a complex topology[J]. Nature Communications, 2016, 7(1):11016.
[9]PERALTA M D, KARSAI A, NGO A, et al. Engineering amyloid fibrils from β-solenoid proteins for biomaterials applications[J]. ACS Nano, 2015, 9(1): 449-463.
[10]VO A, NGUYEN N, HUANG H. Solenoid and non-solenoid protein recognition using stationary wavelet packet transform[J]. Bioinformatics, 2010, 26(18): i467-i473.
[11]S?DING J, LUPAS A N. More than the sum of their parts: on the evolution of proteins from peptides[J]. Bioessays, 2003, 25(9): 837-846.
[12]GEORGE R A, HERINGA J. The REPRO server: finding protein internal sequence repeats through the Web[J]. Trends in Biochemical Sciences, 2000, 25(10): 515-517.
[13]HEGER A, HOLM L. Rapid automatic detection and alignment of repeats in protein sequences[J]. Proteins, 2000, 41(2): 224-237.
[14]SZKLARCZYK R, HERINGA J. Tracking repeats using significance and transitivity[J]. Bioinformatics, 2004, 20(S1): i311-i317.
[15]S?DING J, REMMERT M, BIEGERT A. HHrep: de novo protein repeat detection and the origin of TIM barrels[J]. Nucleic Acids Research, 2006, 34(Web Server issue): W137-W142.
[16]BIEGERT A, S?DING J. De novo identification of highly diverged protein repeats by probabilistic consistency[J]. Bioinformatics, 2008, 24(6): 807-814.
[17]TSAI J Y, CHU C C, YEH Y H, et al. Structural characterizations of the chloroplast translocon protein Tic110[J]. The Plant Journal, 2013, 75(5): 847-857.
[18]FOURNIER D, PALIDWOR G A, SHCHERBININ S, et al. Functional and genomic analysis of alpha-solenoid proteins[J]. PLoS ONE, 2013, 8(11): e79894.
[19]GRUBER M, S?DING J, LUPAS A N. REPPER--repeats and their periodicities in fibrous proteins[J]. Nucleic Acids Research, 2005, 33(Web Server issue): W239-W243.
[20]MARSELLA L, SIROCCO F, TROVATO A, et al. REPETITA: detection and discrimination of the periodicity of protein solenoid repeats by discrete Fourier transform[J]. Bioinformatics, 2009, 25(12): i289-i295.
[21]VLASSI M, BRAUNS K, ANDRADE-NAVARRO M A. Short tandem repeats in the inhibitory domain of the mineralocorticoid receptor: prediction of a β-solenoid structure[J]. BMC Structural Biology, 2013, 13:17.
[22]MURRAY K B, GORSE D, THORNTON J M. Wavelet transforms for the characterization and detection of repeating motifs[J]. Journal of Molecular Biology, 2002, 316(2): 341-363.
[23]MURRAY K B, TAYLOR W R, THORNTON J M. Toward the detection and validation of repeats in protein structure[J]. Proteins, 2004, 57(2): 365-380.
[24]SABARINATHAN R, BASU R, SEKAR K. ProSTRIP: A method to find similar structural repeats in three-dimensional protein structures[J]. Computational Biology and Chemistry, 2010, 34(2):126-130.
[25]WALSH I, SIROCCO F G, MINERVINI G, et al. RAPHAEL: recognition, periodicity and insertion assignment of solenoid protein structures[J]. Bioinformatics, 2012, 28(24): 3257-3264.
[26]DI DOMENICO T, POTENZA E, WALSH I, et al. RepeatsDB: a database of tandem repeat protein structures[J]. Nucleic Acids Res, 2014, 42(Database issue): D352-D357.
[27]HIRSH L, PIOVESAN D, PALADIN L, et al. Identification of repetitive units in protein structures with ReUPred[J]. Amino Acids, 2016, 48(6):1391-1400.
[28]HRABE T, GODZIK A. ConSole: using modularity of contact maps to locate solenoid domains in protein structures[J]. BMC Bioinformatics, 2014, 15:119.
[29]CHAKRABARTY B, PAREKH N. Identifying tandem Ankyrin repeats in protein structures[J]. BMC Bioinformatics, 2014, 15:6599.
Sequence and structure methods for detection of solenoid domain in proteins
DING De-wu, XIA Qi-shou, YIN Xiao-ling
(Department of Mathematics and Computer Science, Chizhou College, Chizhou 247000, China)
Research on solenoid proteins in human health and protein engineering are growing. Identification of the solenoid domain helps to infer protein function and mechanism, to study protein origin and evolution, and to understand the protein-protein interactions. Currently, researchers have developed solenoid domain recognition approaches from both sequence and structural features, which are summarized in this paper.
solenoid protein; solenoid domain; sequence feature; structural feature
2016-03-29;
2016-04-11
安徽省教育廳自然科學研究重點項目(KJ2015A264, KJ2015A290)
丁德武,碩士,講師,主要研究領域為計算智能、生物信息學等,E-mail:dwding2008@aliyun.com
夏啟壽,碩士,副教授,主要研究領域為計算機智能與計算機應用技術(shù),E-mail:qishouxia@126.com;殷小玲,碩士,副教授,主要研究領域為計算機智能與計算機應用技術(shù),E-mail:89081489@qq.com
TP339;Q5
A
2095-1736(2017)01-0085-04
doi∶10.3969/j.issn.2095-1736.2017.01.085