高曉偉,李鳳敏
(內(nèi)蒙古農(nóng)業(yè)大學 理學院, 呼和浩特 010018)
革蘭氏陽性細菌是指在革蘭氏染色劑染色后仍保持原來的藍紫色結(jié)晶的細菌,它廣泛存在于人體中,對人體的健康危害極大,因此,研究革蘭氏陽性細菌的蛋白質(zhì)亞細胞定位具有重要的生物學和醫(yī)學意義。到目前為止革蘭氏陽性菌蛋白亞細胞定位的研究相對較少,2007年Shen和Chou[1]建立了一個分為五類的革蘭氏陽性菌數(shù)據(jù)集,利用Gene Ontology-Pseudo Amino Acid離散模型和Optimized evidence theoretic-K-nearest neighbors方法,然后通過Jackknife測試和獨立數(shù)據(jù)集測試,成功率分別為82.7%和84.1%。2009年Shen和Chou[2]重新建立了四類革蘭氏陽性菌亞細胞定位數(shù)據(jù)集,結(jié)合基因本體等特征信息,最后總的成功率達到了82.2%。2012年Hu等人[3]構(gòu)建了GP25革蘭氏陽性菌亞細胞定位數(shù)據(jù)集,利用Localization motif算法對革蘭氏陽性菌蛋白質(zhì)亞細胞定位進行預(yù)測,總成功率達到了85.9%。2016年在第九屆電氣與計算機工程國際會議上,Julia Rahman等人[4]分別利用Amino Acid Composition和Pseudo Amino Acid Composition特征信息與Physiochemical Property Model特征信息融合對革蘭氏陽性菌蛋白質(zhì)亞細胞定位進行預(yù)測,預(yù)測成功率均為73.2%。2017年XiaoXuan等人[5]采用新的算法對四類革蘭氏陽性菌亞細胞定位進行預(yù)測,取得了較好的預(yù)測結(jié)果。在這些預(yù)測研究中,提取的特征信息沒有考慮蛋白質(zhì)的結(jié)構(gòu)域(Domain)特征,結(jié)構(gòu)域通常是由50~400個氨基酸殘基構(gòu)成的球狀實體,它在蛋白質(zhì)中可以獨立穩(wěn)定的存在,并且和完成蛋白質(zhì)功能有著密切的關(guān)系[6]。本文基于Swiss-Prot數(shù)據(jù)庫構(gòu)建了4類共700條革蘭氏陽性細菌蛋白質(zhì)的數(shù)據(jù)集,對其結(jié)構(gòu)域進行搜索和功能分析,找到了細胞壁區(qū)域蛋白質(zhì)的結(jié)構(gòu)域、細胞外區(qū)域蛋白質(zhì)的結(jié)構(gòu)域、細胞質(zhì)區(qū)域蛋白質(zhì)的結(jié)構(gòu)域以及細胞膜區(qū)域蛋白質(zhì)的結(jié)構(gòu)域。在PDBsum數(shù)據(jù)庫中進一步搜索找到了部分結(jié)構(gòu)域所對應(yīng)的二級和三級結(jié)構(gòu)圖,觀察這些結(jié)構(gòu)圖找到結(jié)構(gòu)域的特征,這些結(jié)構(gòu)域的特征有助于革蘭氏陽性細菌蛋白質(zhì)亞細胞定位預(yù)測,可以進一步了解革蘭氏陽性細菌的發(fā)病原理,有望對相應(yīng)的疾病進行針對性治療。
數(shù)據(jù)集嚴格按照以下標準構(gòu)建:(1)從UniProtKB/Swiss-Prot (2018-09)數(shù)據(jù)庫中檢索關(guān)鍵字“Firmicutes”和“Actinobacteria”的所有蛋白序列;(2)在“Subcellular Location”注釋中選擇該蛋白的不同位置,去除“By similarity”、“Probably”等含糊或不確定的術(shù)語;(3)在“Sequence”信息中選擇50-3 000 aa蛋白序列;(4)剔除片段“B”、“X”、“Z”注釋序列;(5)為避免同源性偏差,采用軟件CD-HIT對蛋白序列進行相似比對,序列相似性為25%。完成上述步驟后,得到700條革蘭氏陽性菌蛋白質(zhì)序列,它們分成4個區(qū)域分別是:細胞壁(Cell wall)22條、細胞外(Extracell)214條、細胞質(zhì)(Cytoplasm)252條、細胞膜(Cell membrane)212條。
在Swiss-Prot數(shù)據(jù)集中的Family&Domains條目下提取每條革蘭氏陽性細菌蛋白質(zhì)的結(jié)構(gòu)域信息,最后發(fā)現(xiàn)細胞壁區(qū)域含有結(jié)構(gòu)域信息的革蘭氏陽性細菌蛋白質(zhì)有10條,細胞外區(qū)域有67條蛋白質(zhì)有結(jié)構(gòu)域信息,在細胞質(zhì)區(qū)域中有78條,而細胞膜區(qū)域則有61條。進一步在PDBsum數(shù)據(jù)庫找到了這些結(jié)構(gòu)域所對應(yīng)的二級和三級結(jié)構(gòu)圖。表1~表4分別為革蘭氏陽性菌4個位置蛋白質(zhì)所對應(yīng)的結(jié)構(gòu)域的名稱和數(shù)量,其中小于2條結(jié)構(gòu)域的蛋白質(zhì)區(qū)域沒有列出。
表1 細胞壁蛋白質(zhì)結(jié)構(gòu)域個數(shù)Table 1 Number of cell wall protein domain
表2 細胞外蛋白質(zhì)結(jié)構(gòu)域個數(shù)Table 2 Number of extracellular protein domain
表3 細胞質(zhì)蛋白質(zhì)結(jié)構(gòu)域個數(shù)Table 3 Number of cytoplasm protein domain
表4 細胞膜蛋白質(zhì)結(jié)構(gòu)域個數(shù)Table 4 Number of cell membrane protein domain
由于細胞壁的蛋白質(zhì)數(shù)量只有22條,所以細胞壁蛋白質(zhì)的結(jié)構(gòu)域數(shù)量也不是很多,其中出現(xiàn)次數(shù)不小于2次的結(jié)構(gòu)域只有PE結(jié)構(gòu)域和NEAT結(jié)構(gòu)域,在這里分別介紹下這兩個結(jié)構(gòu)域。PE結(jié)構(gòu)域是高度保守的N端親水性結(jié)構(gòu)域[7]。PE結(jié)構(gòu)域是對蛋白質(zhì)的翻譯和定位起著重要作用的功能結(jié)構(gòu)域,PE結(jié)構(gòu)域大約有110個氨基酸殘基。在細胞壁區(qū)域中一共有5條蛋白質(zhì)含有PE結(jié)構(gòu)域,它們都屬于PE家族。在PDBsum庫中沒有找到PE結(jié)構(gòu)域相對應(yīng)的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
NEAT結(jié)構(gòu)域是調(diào)控鐵元素表面蛋白的特異性保守結(jié)構(gòu)域,大約由125個氨基酸殘基構(gòu)成,它的二級結(jié)構(gòu)由1個螺旋束和C端的β發(fā)夾組成,其中包含9個平行的β折疊片。革蘭氏陽性細菌中攝取血紅素的最佳系統(tǒng)是lsd系統(tǒng),在lsd系統(tǒng)中細胞壁作為受體將與血紅素結(jié)合,在細胞壁中發(fā)揮主要作用的就是高度保守的NEAT結(jié)構(gòu)域[8]。圖1給出的是NEAT結(jié)構(gòu)域的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
圖1 NEAT結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.1 Diagarm of NEAT domain
從表2可以看到細胞外區(qū)域出現(xiàn)次數(shù)不少于5次的結(jié)構(gòu)域有PINc結(jié)構(gòu)域、N-acetylmuramoyl-L-alanine amidas結(jié)構(gòu)域、PE結(jié)構(gòu)域和Peptidase S8結(jié)構(gòu)域。其中PE結(jié)構(gòu)域是細胞壁和細胞膜共有的結(jié)構(gòu)域。在這里我們主要介紹出現(xiàn)次數(shù)最多的PINc結(jié)構(gòu)域,PINc結(jié)構(gòu)域?qū)儆赑IN家族,它具有高度的保守性,通常由150個氨基酸殘基構(gòu)成。在真核生物中,PINc結(jié)構(gòu)域參與mRNA衰變的過程,而且具有核糖核酸酶的功能。在原核生物中,PINc結(jié)構(gòu)域是抗毒素(TA)系統(tǒng)的毒性成分,它們的毒性是由于核糖核酸酶活性產(chǎn)生的。PINc結(jié)構(gòu)域蛋白的活性位點由四種保守的酸性氨基酸組成,這些氨基酸參與二價金屬離子結(jié)合和酶的活性過程[9]。在PDBsum庫中并沒有找到PINc結(jié)構(gòu)域相對應(yīng)的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
Response regulatory結(jié)構(gòu)域、Histidine kinase結(jié)構(gòu)域和S1 motif結(jié)構(gòu)域是出現(xiàn)在細胞質(zhì)區(qū)域不少于5次的結(jié)構(gòu)域。由于在PDBsum庫中沒有Response regulatory結(jié)構(gòu)域的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖,在這里主要介紹Histidine kinase結(jié)構(gòu)域和S1 motif結(jié)構(gòu)域。Histidine kinase結(jié)構(gòu)域?qū)儆贖WE家族,Histidine kinase結(jié)構(gòu)域是由二聚組氨酸磷酸受體子域(DPH)和與催化ATP結(jié)合的子域(CA)構(gòu)成,其中DPH是由兩個螺旋束和一個發(fā)夾環(huán)連接,形成了4個螺旋體束,而CA是一個高度保守的αβ三明治結(jié)構(gòu),由3個α螺旋和5個β鏈構(gòu)成。大多數(shù)原核生物信號轉(zhuǎn)導(dǎo)系統(tǒng)和少數(shù)真核細胞轉(zhuǎn)導(dǎo)途徑都和Histidine kinase結(jié)構(gòu)域有關(guān)。在革蘭氏陽性細菌的細胞質(zhì)當中,Histidine kinase結(jié)構(gòu)域起到了同源反應(yīng)調(diào)節(jié)劑的作用[10]。在圖2中給出Histidine kinase結(jié)構(gòu)域的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
S1 motif結(jié)構(gòu)域大量存在于RNA結(jié)合蛋白質(zhì)中,該結(jié)構(gòu)域使用特殊的方式和RNA結(jié)合,在細胞質(zhì)區(qū)域當中和mRNA、核糖體相互作用,它對蛋白質(zhì)的翻譯起到重要的作用。S1 motif結(jié)構(gòu)域和shock蛋白的結(jié)構(gòu)相似,S1 motif結(jié)構(gòu)域一般由70~90個氨基酸殘基構(gòu)成,由5個反向平行β的折疊片構(gòu)成[11]。圖3是S1 motif結(jié)構(gòu)域在PDBsum數(shù)據(jù)庫的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
圖2 Histidine kinase結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.2 Diagarm of Histidine kinase domain
圖3 S1 motif結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.3 Diagarm of S1 motif domain
細胞膜區(qū)域出現(xiàn)的次數(shù)不小于5次的結(jié)構(gòu)域有ABC transmembrane type-1結(jié)構(gòu)域、Histidine kinase結(jié)構(gòu)域、HAMP結(jié)構(gòu)域,Protein kinase結(jié)構(gòu)域和ABC transporter結(jié)構(gòu)域。其中Histidine kinase結(jié)構(gòu)域是細胞膜和細胞質(zhì)區(qū)域共有的結(jié)構(gòu)域,在細胞質(zhì)區(qū)域的結(jié)構(gòu)域中已經(jīng)介紹過Histidine kinase結(jié)構(gòu)域,在這主要介紹HAMP結(jié)構(gòu)域和Protein kinase結(jié)構(gòu)域。HAMP結(jié)構(gòu)域是原核生物中跨核膜受體中最后一個沒有被人類發(fā)現(xiàn)結(jié)構(gòu)但已經(jīng)被人廣泛熟知存在的結(jié)構(gòu)域。原核生物通過跨膜受體來感應(yīng)環(huán)境的變化,其胞內(nèi)和胞外通常由HAMP結(jié)構(gòu)域連接,而且連接點始終位于HAMP結(jié)構(gòu)域的C端,根據(jù)以上特征人們猜想HAMP結(jié)構(gòu)域的結(jié)構(gòu)是由兩個具有卷曲線圈特性的螺旋體構(gòu)成[12]。
從革蘭氏陽性菌到人類,Protein kinase結(jié)構(gòu)域的功能在進化上是高度保守的。Protein kinase結(jié)構(gòu)域是由6個β發(fā)夾,7個β凸起和13個螺旋體構(gòu)成的。Protein kinase結(jié)構(gòu)域在多種細胞過程中發(fā)揮作用,包括細胞的分裂、增殖、凋亡和分化。在真核生物中Protein kinase結(jié)構(gòu)域蛋白酶是一類非常廣泛的蛋白家族中的酶,與絲氨酸、蘇氨酸和酪氨酸蛋白酶一樣都具有保守的催化功能。Protein kinase結(jié)構(gòu)域蛋白酶催化ATP轉(zhuǎn)移到蛋白底物側(cè)鏈上的一個或多個氨基酸殘基,導(dǎo)致其結(jié)構(gòu)改變從而影響蛋白功能[13]。圖4給出的是Protein kinase結(jié)構(gòu)域在PDBsum數(shù)據(jù)庫的二級結(jié)構(gòu)圖和三級結(jié)構(gòu)圖。
圖4 Protein kinase結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.4 Diagarm of Protein kinase domain
對革蘭氏陽性細菌蛋白質(zhì)4個亞細胞位置上的結(jié)構(gòu)域種類和個數(shù)分別進行了統(tǒng)計,發(fā)現(xiàn)PE結(jié)構(gòu)域是革蘭氏陽性菌細胞壁和細胞外兩個區(qū)域共同含有的結(jié)構(gòu)域,其對蛋白質(zhì)的翻譯起著至關(guān)重要的作用。而Histidine kinase結(jié)構(gòu)域是細胞質(zhì)區(qū)域和細胞膜區(qū)域共同含有的結(jié)構(gòu)域,Histidine kinase結(jié)構(gòu)域在同源中反應(yīng)起到了調(diào)節(jié)劑的作用。NEAT結(jié)構(gòu)域是細胞壁區(qū)域獨有的結(jié)構(gòu)域,它的主要作用作為細胞壁受體與血紅素結(jié)合。PINc結(jié)構(gòu)域是細胞外區(qū)域獨有的結(jié)構(gòu)域, PINc結(jié)構(gòu)域參與核糖體RNA的過程同時也具有核糖核酸酶的功能。細胞質(zhì)區(qū)域獨有的結(jié)構(gòu)域是S1 motif結(jié)構(gòu)域,它對蛋白質(zhì)的翻譯起著重要的作用。Protein kinase結(jié)構(gòu)域是細胞膜區(qū)域特有的結(jié)構(gòu)域,它影響著蛋白質(zhì)的功能。隨著數(shù)據(jù)庫的不斷完善,會找到更多的結(jié)構(gòu)域特征,利用這些特征信息可以更深入的了解革蘭氏陽性菌蛋白質(zhì)的結(jié)構(gòu)和功能。