(吉林大學(xué)動物科學(xué)學(xué)院,吉林長春 130062)
2019新型冠狀病毒?。╟oronavirus disease 2019,COVID-19)是由嚴重急性呼吸綜合征冠狀病毒2型(severe acute respiratory syndrome coronavirus type 2,SARS-CoV-2)引起的一種主要通過近距離空氣、飛沫傳播和密切接觸傳播的呼吸道傳染病[1],目前在世界范圍內(nèi)廣泛傳播,并已造成世界范圍的大流行。截至北京時間2020年5月15日2時31分,全球累計確診人數(shù)已達4 386 761人,累計死亡人數(shù)已達297 043人[2],并且仍在增加。該病毒屬于基因組最大的一類RNA病毒,容易發(fā)生變異,這給疾病的診斷、預(yù)防和治療都帶來了較大困難。
人感染SARS-CoV-2后的常見體征有發(fā)燒、乏力,部分出現(xiàn)干咳,少數(shù)有流鼻涕、鼻塞以及胃腸道癥狀[3],嚴重的可導(dǎo)致肺炎、嚴重急性呼吸綜合征、腎衰竭,甚至死亡[1]。報道[1,4]顯示:該病毒在人群中傳染性明顯增加,致死率為2%~4%,雖然比普通流感高,但遠比嚴重急性呼吸綜合征冠狀病毒(severe acute respiratory syndrome coronavirus,SARS-CoV)、埃博拉病毒和H7N9流感病毒低;該病的中位潛伏期只有3 d,長的可達24 d以上,且在家庭和社區(qū)有明顯的聚集發(fā)病現(xiàn)象。
與SARS-CoV相同,SARS-CoV-2含有單股正鏈RNA基因組,具有5'帽子(cap)和3' poly(A)尾巴的結(jié)構(gòu),長度在29.5~30.3 kb之間[5-6]。基因組由11個開放閱讀框(open reading frame,ORF)組成,分別編碼ORF1ab,刺突蛋白(spike protein,S),ORF3a,囊膜蛋白(envelope,E),膜蛋白(membrane protein,M),ORF6,ORF7a,ORF7b,ORF8,核衣殼蛋白(nucleocapsid protein,N)和ORF10[6-8]。序列同源性分析發(fā)現(xiàn),SARS-CoV-2與SARS-CoV的核酸序列約有80%的相似性[9],而與蝙蝠源冠狀病毒RaTG13(GenBank號 MN996532)的全基因組同源性達93.7%~96.2%,其ORF1ab、N和S蛋白的氨基酸同源性分別為98.5%、99.05%和97.41%[10]。
研究表明,冠狀病毒的刺突蛋白(S),囊膜蛋白(E)、膜蛋白(M)、核衣殼蛋白(N)對病毒感染有重要作用。它們的主要功能是入侵宿主細胞,維持病毒粒子形態(tài),幫助病毒粒子裝配、釋放,其中S、M、E 3種蛋白位于病毒囊膜表面[11],而N蛋白則位于病毒囊膜內(nèi)側(cè)。
以往的SARS-CoV研究發(fā)現(xiàn):在感染過程中,S蛋白與宿主表面受體血管緊張素轉(zhuǎn)化酶2(angiotensin I converting enzyme 2,ACE2)結(jié)合[12],并經(jīng)過網(wǎng)格蛋白和小窩蛋白非依賴型內(nèi)吞途徑進入細胞[13],然后將病毒基因組釋放到宿主細胞質(zhì)中。而在病毒組裝過程中,M蛋白的C端和核衣殼相互作用形成一個核心結(jié)構(gòu),S蛋白則與病毒囊膜合為一體,然后再與M、E蛋白相互作用,從而完成病毒粒子裝配,然后成熟的病毒粒子穿膜釋放到胞外[14-15]。因此,M和E蛋白可能與S蛋白在病毒包膜形成過程中起共同作用[15-17]。也有研究[17-21]推測,E蛋白與病毒傳染性有關(guān)。
目前研究[22]顯示,SARS-CoV-2的S蛋白結(jié)構(gòu)與SRAS-CoV非常相似,同樣可與ACE2結(jié)合,并且靶向SARS-CoV S蛋白的中和抗體也可與SARS-CoV-2相結(jié)合[22]。因此,S蛋白受體結(jié)合域也是相關(guān)抗體、疫苗研發(fā)的重要靶點。
N蛋白最重要的功能是識別病毒基因組RNA的特征序列,與病毒基因組RNA結(jié)合形成螺旋狀的核衣殼,并與其他結(jié)構(gòu)蛋白相互作用,完成病毒粒子裝配[9,11,15]。此外,N蛋白也可能與病毒RNA合成[23]以及病毒建立感染有關(guān)[24-25]。
眾所周知,蛋白質(zhì)的功能與其結(jié)構(gòu)密切相關(guān)。本研究借助生物信息學(xué)蛋白分析工具,分析SARSCoV-2的4個結(jié)構(gòu)蛋白的分子生物學(xué)特征,并預(yù)測4種蛋白的部分結(jié)構(gòu)域,以期為更好地了解該病毒,并為SARS-CoV-2的相關(guān)分子生物學(xué)研究和針對其結(jié)構(gòu)蛋白的疫苗開發(fā)等提供參考,也為后期的COVID-19防治奠定基礎(chǔ)。
選取NCBI上公布的SARS-CoV-2的4種結(jié)構(gòu)蛋白序列進行特性分析,其中S蛋白為YP_009724390,M蛋白為YP_009724393,E蛋白為YP_009724392,N蛋白為YP_009724397。
應(yīng)用DNAstar軟件的子程序Protean,分析蛋白的氨基酸組成。
應(yīng)用SignalP-5.0[26]在線服務(wù)器(http://www.cbs.dtu.dk/services/SignalP-5.0/),預(yù)測4種蛋白各自的信號肽及其剪切位點。
用在線服務(wù)器PSORT Prediction(http://psort1.hgc.jp/form.html),對4種蛋白進行亞細胞定位。
使 用TMHHM 2.0(https://services.healthtech.dtu.dk/service.php?TMHMM-2.0),預(yù)測4種蛋白的跨膜結(jié)構(gòu)。
使用BUSCA在線服務(wù)器(http://busca.biocomp.unibo.it/),綜合分析、預(yù)測4種蛋白的信號肽、跨膜區(qū)和亞細胞定位。
應(yīng)用ABCpred[27]在線服務(wù)器(https://webs.iiitd.edu.in/raghava/abcpred/ABC_submission.html),直接預(yù)測S蛋白的B細胞抗原表位;應(yīng)用DNAstar軟件的子程序Protean,采用Kyte-Doolittle[28]方法,預(yù)測4種蛋白的親水性;用Karplus-Schultz[29]方法,預(yù)測4種蛋白的可變性;用Emini[30]方法,預(yù)測4種蛋白的表面可及性;用Jameson-Wolf[31]方法,預(yù)測抗原指數(shù)。
應(yīng)用DNAstar軟件的子程序Protean,對蛋白的氨基酸組成進行分析發(fā)現(xiàn),E蛋白的核酸序列含有228 nt(nucleotide),編碼75個氨基酸。該蛋白相對分子質(zhì)量為8 365.06 Da,等電點為8.33。在構(gòu)成E蛋白的氨基酸中,亮氨酸(Leu)占比最高,達到18.67%;而天冬氨酸(Asp)、谷氨酰胺(Gln)、甲硫氨酸(Met)和色氨酸(Trp)占比最低,僅為1.33%。此外,E蛋白不含組氨酸、色氨酸和谷氨酰胺。
M蛋白的核酸序列含有669 nt,編碼222個氨基酸。該蛋白相對分子質(zhì)量為25 146.68 Da,等電點為9.48。在構(gòu)成M蛋白的氨基酸中,Leu占比最高,達到 15.77%;而半胱氨酸(Cys)、Met和Gln占比最低,僅為1.8%。
S蛋白的核酸序列為3 822 nt,編碼1 273個氨基酸。該蛋白相對分子質(zhì)量為141 178.84 Da,等電點為6.47。在構(gòu)成S蛋白的氨基酸中,Leu占比最高,達到8.48%;而Trp占比最低,僅為0.94%。
N蛋白的核酸序列有1 260 nt,編碼419個氨基酸。N蛋白相對分子質(zhì)量為45 625.69 Da,等電點為10.10。在構(gòu)成N蛋白的氨基酸中,甘氨酸(Gly)占比最高,達到8.48%;而組氨酸(His)占比最低,僅為0.95%。此外,N蛋白不含Cys。
經(jīng)SignalP 5.0預(yù)測,N、M和E 3種蛋白N端存在信號肽的可能性極小。而S蛋白在N端存在信號肽,且有96.89%的可能性屬于常規(guī)分泌(Sec/secretory)通路,由I型信號肽酶(SPase I,SPI)進行切除。信號肽剪切位點有53.53%的可能性在15~16 aa(SQC-VN)處(圖1)。
用PSORT Prediction預(yù)測,發(fā)現(xiàn)N蛋白存在于細胞核內(nèi)的可能性最大(表1),而S蛋白最可能存在于質(zhì)膜,可能性為46.0%,其次是微體(表2)。
E、M蛋白最可能定位于質(zhì)膜和內(nèi)質(zhì)網(wǎng)膜上,但M蛋白也有46.0%的可能性存在于高爾基體(表3~4)。
圖1 S蛋白信號肽預(yù)測結(jié)果
表1 N蛋白亞細胞定位預(yù)測結(jié)果
表2 S蛋白亞細胞定位預(yù)測結(jié)果
表3 E蛋白亞細胞定位預(yù)測結(jié)果
表4 M蛋白亞細胞定位預(yù)測結(jié)果
使用TMHHM 2.0預(yù)測4種蛋白的跨膜結(jié)構(gòu)發(fā)現(xiàn):E蛋白1~11 aa在膜內(nèi),35~75 aa在膜外,12~34 aa為跨膜區(qū)(圖2-A);M蛋白40~50、101~222 aa在膜內(nèi),1~19、74~77 aa在膜外,20~39、51~73、78~100 aa為跨膜區(qū)(圖2-B);S蛋白1~1 213 aa在膜外,1 237~1 273 aa在膜內(nèi),1 214~1 236 aa為跨膜區(qū)(圖2-C);N蛋白則全部處于膜外,無跨膜區(qū)(圖2-D)。
圖2 S、E、M、N蛋白的跨膜結(jié)構(gòu)預(yù)測結(jié)果
使用BUSCA在線服務(wù)器,對4種蛋白進行綜合分析預(yù)測,發(fā)現(xiàn)結(jié)果與前面的預(yù)測基本相符,表明E、M、S蛋白均定位于質(zhì)膜上,N蛋白定位于胞質(zhì)內(nèi),但E、M蛋白也有可能定位于內(nèi)質(zhì)網(wǎng)膜。E蛋白9~42 aa為α螺旋跨膜區(qū),M蛋白14~36、42~68、75~101 aa為α螺旋跨膜區(qū),S蛋白1~21 aa為信號肽區(qū)段,1 051~1 062、1 213~1 234 aa為α螺旋跨膜區(qū)。
根據(jù)之前的分析,E、M蛋白多為α螺旋跨膜,N蛋白無跨膜結(jié)構(gòu)域,因此選擇S蛋白預(yù)測其抗原表位。由于抗原決定簇區(qū)域通常具有較好的親水性、表面可及性和柔性,因此本研究使用DNAstar子程序Protean,對S蛋白的親水性、柔性、表面可及性和抗原指數(shù)進行分析,選擇這4種方法預(yù)測結(jié)果中共有的區(qū)段作為潛在的B細胞抗原表位,結(jié)果發(fā)現(xiàn)S蛋白的抗原位點較可能在20~29、75~81、95~98、111~116、148~152、181~186、458~466、575~581、676~685、773~779、809~815、1071~1 076、1 141~1 145、1 147~1 156、1 158~1 165、1182~1 187、1 204~1 208、1 258~1 262 aa處(圖3)。
圖3 Protean預(yù)測S蛋白抗原表位結(jié)果
而ABCpred則給出較多抗原表位預(yù)測結(jié)果,且表位主要集中在S蛋白序列的中間區(qū)域。將Protean和ABCpred預(yù)測的結(jié)果進行對比,篩選出共有抗原表位在25~29、75~81、112~116、148~152、773~779 aa。
關(guān)于SRAS-CoV-2的生物學(xué)和流行病學(xué)等特性仍存在許多未知。目前,對SARS-CoV-2結(jié)構(gòu)蛋白的研究也大多集中在S蛋白的受體結(jié)合域(RBD)[32]、抗原表位[33-34]和疫苗設(shè)計[32]等方面,而對E、M、N蛋白結(jié)構(gòu)的研究卻較少,因此本研究對S、E、M、N蛋白的結(jié)構(gòu)域進行多種分析。而鑒于它們的二級結(jié)構(gòu)特征,本研究使用不同的方法[27,29-31,35]預(yù)測S蛋白B細胞抗原位點,并給出共有抗原表位。
表5 ABCpred預(yù)測S蛋白抗原表位得分高于0.85的結(jié)果
本研究對不同的結(jié)構(gòu)域預(yù)測使用了不同的方法。BUSCA得到的復(fù)合結(jié)果與之前使用SignalP、PSORT prediction和TMHHM得到的結(jié)果基本一致,均提示S蛋白N端存在信號肽,S、E、M蛋白存在跨膜結(jié)構(gòu)域,N蛋白無跨膜結(jié)構(gòu)域。這與報道的冠狀病毒4種結(jié)構(gòu)蛋白各自的分布及功能相符[9,11-12,24,36]。而在抗原表位預(yù)測中,基于S蛋白序列特征,預(yù)測出抗原表位25~29、75~81、112~116、148~152、773~779 aa更可能是潛在的抗體靶標。這一結(jié)果與之前報道的潛在抗原表位有所一致[34]。
本研究通過對SARS-CoV-2的4種結(jié)構(gòu)蛋白結(jié)構(gòu)特征進行分析,進一步了解了4種蛋白的結(jié)構(gòu)域特征,也為下一步的分子生物學(xué)和實驗動物學(xué)研究提示了方向。在后期工作中,將在目前研究基礎(chǔ)上,分析該病毒結(jié)構(gòu)蛋白特征,并尋找可能的藥物靶點,合成抗體肽,進行更多分子生物學(xué)和醫(yī)學(xué)學(xué)科的交叉研究,希望能為解析該病毒的感染和致病機制以及為相關(guān)藥物設(shè)計、臨床治療提供參考。同時本研究采用的思路和方法對于研究其他病毒的結(jié)構(gòu)蛋白,以及針對其蛋白設(shè)計相應(yīng)的抗體、藥物等也會有一定的參考價值。