楊明勇, 麥曉雯,張在寶,劉慧娟*,李紅敬
(1. 信陽師范大學 a. 體育學院; b. 生命科學學院, 河南 信陽 464000; 2. 瓊臺師范學院 a. 理學院; b. 熱帶生物多樣性與資源利用實驗室, 海南 ???571127)
生物信息學是一門集數(shù)學、信息、生物學和計算機為一體的新興學科。隨著人類基因組計劃的啟動,大量的蛋白序列、結(jié)構(gòu)、功能的數(shù)據(jù)被生成出來。面對如此巨大的數(shù)據(jù),一定要運用生物信息學技術對這些數(shù)據(jù)展開處理,生物信息技術已經(jīng)成為蛋白質(zhì)組學研究中不可或缺的工具。組蛋白賴氨酸甲基轉(zhuǎn)移酶(Smyd)是一類在動物骨骼肌和心臟發(fā)育中發(fā)揮關鍵調(diào)控功能的蛋白,它是一類由Smyd1、Smyd2、Smyd3、Smyd4、Smyd5等組成的蛋白家族[1-2]。Smyd1有3種異構(gòu)體,其中Smyd1a是一種在肌肉組織中表達的組蛋白甲基化酶,對肌肉纖維的形成具有關鍵作用[3]。通過對Smyd1a蛋白的生物信息分析,能夠?qū)ζ浣Y(jié)構(gòu)和功能進行快速的預測,從而為研究Smyd1a蛋白的生理功能提供理論依據(jù)。
1995年,HWANG等[4]在細胞毒性T淋巴細胞和胸腺細胞中發(fā)現(xiàn)了Smyd1,也稱肌肉特異Bop基因。Smyd1具有H3K4組蛋白甲基轉(zhuǎn)移酶活性,對于肌細胞分化和成熟至關重要,是小鼠心肌細胞分化和斑馬魚肌生成必不可少的關鍵轉(zhuǎn)錄因子[5]。研究表明,Smyd1通過不同的方式能剪切成Smyd1a和Smyd1b,斑馬魚中Smyd1a和Smyd1b具有相似的生物學活性[6-7]。而Smyd1b在快肌中的功能已發(fā)現(xiàn),但其慢肌中的功能以及Smyd1a的功能總體上仍不能確定。通過對Smyd1a蛋白生物信息學分析,有助于今后對基因組進行動態(tài)的生物學功能研究。本文首先采用生物信息學的方法分析出Smyd1a的氨基酸序列,然后使用各種線上軟件來分析Smyd1a的基本結(jié)構(gòu)特征及理化性質(zhì),并完成適應性的進化分析。
登錄美國國家生物信息技術中心(National Center for Biotechnology Information,NCBI)主頁(National Center for Biotechnology Information (nih.gov)),在“All Databases”對話框欄中輸入Smyd1a,單擊Search檢索。數(shù)據(jù)庫選中78條記錄,點擊“Proteins-Protein”進入數(shù)據(jù)庫,其中第一位,登錄號為QBB20354.1的記錄是符合要求的記錄,單擊進入顯示相關信息。單擊右上角的“Send to”下拉菜單選擇“File/FASTA”選項,將該蛋白序列(sequence.fasta)進行本地下載,并將序列保存在sequence.txt文件中。
通過瑞士生物信息學研究所的蛋白分析專家系統(tǒng)(Expert Protein Analysis Systerm,ExPASY,https://web.expasy.org/protparam/)所提供的蛋白質(zhì)組學和序列分析工具,測定Smyd1a蛋白的分子量、等電點、氨基酸組成、摩爾消光系數(shù)、脂肪系數(shù)和總平均親水性等理化性質(zhì)。使用ProtScale程序(https://web.expasy.org/protscale/)預測Smyd1a的親疏水性。利用在線工具SignalP-5.0(SignalP-5.0-Services-DTU Health Tech)預測Smyd1a的蛋白質(zhì)信號肽。利用TMHMM服務器(TMHMM-2.0-Services-DTU Health Tech)預測跨膜區(qū)結(jié)構(gòu)域。利用波蘭Network Protein Sequence Analysis(NPS@ SOPMA secondary structure prediction results (ibcp.fr))預測Smyd1a的蛋白質(zhì)的二級結(jié)構(gòu)。運用Swiss-modelWorkspace(SWISS-MODEL Interactive Workspace (expasy.org))對其蛋白質(zhì)的空間構(gòu)想建模。
進入Pfam(Pfam: Home page (xfam.org))主頁,從“SEQUENCE SEARCH”欄中粘貼Smyd1a的蛋白序列,得到該蛋白質(zhì)的PFAM domain為SET,其Pfam號為PF00856,將其記錄下來,并對該蛋白質(zhì)進行信息了解。通過使用Multiple Em for Motif Elicitation(MEME-Submission form (meme-suite.org))線上軟件來預測Smyd1a的motif模型。
為了研究Smyd1a與不同種屬家族的關系,登錄NCBI的主頁(National Center for Biotechnology Information (nih.gov)),在右邊找到“BLAST”點擊進入頁面,然后點擊“Protein BLAST”,進入后點擊選擇文件,選擇1.1中下載的蛋白序列文件,然后下劃單擊“BLAST”,搜索出產(chǎn)生顯著比對的序列,選擇達到97%以上的序列進行下載,至少選擇5個序列,下載完成后。打開文件,將前面的核酸序列復制到該文件所有序列的前面,并將該文件的格式從“txt”改成“fasta”。然后直接打開該文件,進入MEGA7.0選擇“Align”后,單擊“Alignment”選擇“Align by Musle”,點擊OK,對不同來源的序列進行對齊序列,將對齊后的序列保存下來。然后打開對齊的序列,點擊“Phylogeny”中的“Construct/Test Neighbor-Joining tree”,得到NJ(neighbor-joining)進化樹。
從NBCI數(shù)據(jù)庫主頁(National Center for Biotechnology Information (nih.gov))中Protein數(shù)據(jù)庫中檢索得到Smyd1a的蛋白質(zhì)序列文件。結(jié)果如圖1。
圖1 Smyd1a蛋白的序列Fig. 1 Protein sequences of Smyd1a
Smyd1a蛋白的氨基酸數(shù)量是489個,其分子式是C2468H3856N700O731S42,分子量是56 376.54 Da,理論等電點是6.27。Smyd1a蛋白不穩(wěn)定系數(shù)是40.31,標準的蛋白的不穩(wěn)定參數(shù)值在40以下,推測出Smyd1a蛋白的穩(wěn)定性一般。含有負電荷殘基數(shù)為68,正電荷殘基數(shù)為60,脂肪族氨基酸指數(shù)是73.99,疏水性評估系數(shù)為-0.467。Smyd1a蛋白中谷氨酸(Glu)含量最高,為8.4%;其次是亮氨酸(Leu)和丙氨酸(Ala),分別為8.0%和7.0%。
精氨酸是Smyd1a蛋白親水性最大的氨基酸(圖2),分值是-2.6;異亮氨酸是疏水性最大的氨基酸(圖2),分值是1.8。從Smyd1a蛋白親疏水性物性圖2看出,疏水性氨基酸少,親水性氨基酸多,確定Smyd1a蛋白是親水性蛋白。
圖2 Smyd1a氨基酸的親疏水特性Fig. 2 Hydrophilic/hydrophobic profile of Smyd1a amino acid
從圖3可以看出,利用 SignalP-5.0軟件對Smyd1a的信號多肽進行了預測,但結(jié)果是沒有任何信號多肽,也沒有給出其剪切位點,提示Smyd1a不是一種分泌性蛋白。
圖3 Smyd1a多肽的預測Fig. 3 Prediction of Smyd1a SIGNAL peptide
跨膜區(qū)一般為α-螺旋型,也有部分為β-折疊型,含有20~25個疏水性氨基酸[4]。利用TMHMM服務器對Smyd1a蛋白進行跨膜區(qū)預測,結(jié)果如圖4所示。由圖4可知,Smyd1a不存在跨膜結(jié)構(gòu)域。
圖4 對Smyd1a跨膜區(qū)域的預測Fig. 4 Predicted results of the Smyd1a transmembrane region
如圖5所示。Smyd1a蛋白二級結(jié)構(gòu)包括57.26%的α-螺旋、10.63%的β-折疊、4.09%的β-轉(zhuǎn)角以及28.02%的無規(guī)則卷曲等構(gòu)象。
圖5 Smyd1a蛋白二級結(jié)構(gòu)預測結(jié)果Fig. 5 Smyd1a secondary structure prediction results
蛋白質(zhì)結(jié)構(gòu)的理論預測方法都是建立在氨基酸的一級結(jié)構(gòu)決定高級結(jié)構(gòu)的理論基礎上的,蛋白質(zhì)三維結(jié)構(gòu)的預測方法通常有兩種:同源性建模和從頭開始的預測方法。通過同源建模的方法,利用Expasy中的SWISS-MODEL的在線軟件預測了Smyd1a蛋白的三維結(jié)構(gòu),三維結(jié)構(gòu)如圖6所示,由圖6可知無規(guī)則卷曲占主要部分。
圖6 Smyd1a蛋白的三維結(jié)構(gòu)模型Fig. 6 Three-dimensional structure model of Smyd1a
從Pfam中知,Smyd1a蛋白的PFAM domain為SET(如圖7所示),其Pfam號為PF00856。在動植物中廣泛存在著一種含有 SET結(jié)構(gòu)域的蛋白質(zhì),其高度保守的組蛋白甲基化酶(Su (var)3-9, Zeste Enhancer (E (z)), trithorax (tx)3-9)。在MEME線上軟件預測Motif模型如圖8所示,由圖可知,這3個序列e值都小于10,所示的基序的位置p值小于 0.000 1。
圖7 Smyd1a蛋白的結(jié)構(gòu)域Fig. 7 Domains of the Smyd1a protein
圖8 Smyd1a的3個物種的motif模型Fig. 8 Motif model of the three species of Smyd1a
為了研究Smyd1a與不同種之間的關系,通過使用NCBI數(shù)據(jù)庫進行檢測,下載與Smyd1a同源性高的不同種屬蛋白質(zhì)序列,并用MEGA7.0進行比對,得到的比對結(jié)果如圖9所示。然后通過鄰接式來構(gòu)建Smyd1a的系統(tǒng)進化樹,結(jié)果如圖10所示。結(jié)果顯示:該基因與XP_034452872.1相近。
圖9 Smyd1a蛋白進行序列比對的結(jié)果Fig. 9 Results of the sequence alignment of the Smyd1a proteins
注:射水魚:XP_040899085.1;大西洋庸鰈:XP_034452872.1;翹嘴鱖:XP_044053772.1;魚:XP_029366828.1;眼斑雙鋸魚:XP_023133434.1
Smyd1作為組蛋白甲基轉(zhuǎn)移酶,在肌原纖維的形成中起著重要的作用,是肌肉收縮所必需的。斑馬魚胚胎有Smyd1a和Smyd1b等3種蛋白,Smyd1a和Smyd1b在肌原纖維的組裝中有相似的生物學活性,Smyd1b對于肌原纖維的組裝是必不可少的[8]。SET是Smyd1蛋白賴氨酸甲基轉(zhuǎn)移酶活性的結(jié)構(gòu)域,在進化過程中非常保守,但是它與組蛋白修飾有著密切的關系[9-10]。
通過生物信息學分析和預測馬魚Smyd1a蛋白序列和結(jié)構(gòu),可以為人類Smyd1a蛋白的研究提供依據(jù),為后續(xù)進行的Smyd1a相關功能的研究打下重要的理論基礎。同時,Smyd1a蛋白在動物體內(nèi)是如何發(fā)揮作用,這些作用又與哪些基因和蛋白有關,還需進一步研究。