趙仁生,周 翔,崔藝璇,陳柯瑾,祁艷艷,胡 琳,袁 燕,蔡正達(dá)
(1.云南民族大學(xué) 民族醫(yī)藥學(xué)院 民族藥資源化學(xué)國家民委-教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650504;2.云南省科學(xué)技術(shù)院, 云南 昆明 650228)
2019年12月中旬,在武漢市發(fā)現(xiàn)了不明原因的肺炎,隨后被確認(rèn)為是由新型冠狀病毒引起的肺炎[1].新冠病毒現(xiàn)已成為全球范圍內(nèi)嚴(yán)重的公共衛(wèi)生事件,對(duì)人類的健康和生產(chǎn)造成了極其嚴(yán)重的影響[2].通過基因測序發(fā)現(xiàn),新型冠狀病毒屬于冠狀病毒科、β冠狀病毒屬;是發(fā)現(xiàn)的第3個(gè)主要感染人類的冠狀病毒,與之前發(fā)現(xiàn)SARS-CoV和MERS-CoV存在著明顯的差異[3-5].SARS-CoV-2感染人之后有較強(qiáng)的神經(jīng)毒作用[6],此外雪貂和貓也容易被感染,但對(duì)豬、雞、鴨不易感染[7].
冠狀病毒是1種被包被的、單鏈正義的RNA病毒,其大小在26~32kb之間,是目前發(fā)現(xiàn)最大的RNA病毒[8].冠狀病毒的主要結(jié)構(gòu)蛋白質(zhì)有突刺蛋白(Spike protein, S)、膜糖蛋白(Membrane glycoprotein, M)、核衣殼蛋白(nucleocapsid protein, N)、包膜蛋白(Envelop protein, E)組成[9-10].其中M蛋白為跨膜糖蛋白,一般有3~4個(gè)跨膜結(jié)構(gòu)域,其N末端的親水結(jié)構(gòu)域暴露于病毒外表面與細(xì)胞質(zhì)膜中的S蛋白結(jié)合,在病毒組裝過程中發(fā)揮著重要的作用;其C端存在于冠狀病毒內(nèi)表面,與N蛋白相結(jié)合,主要作用是維持病毒結(jié)構(gòu)穩(wěn)定,并與病毒的侵染和釋放有關(guān)[11-12].研究表明M蛋白在病毒組裝、養(yǎng)物質(zhì)運(yùn)輸和形態(tài)發(fā)生等方面扮演著十分重要的角色[13].現(xiàn)對(duì)SARS-CoV-2結(jié)構(gòu)蛋白的研究主要集中于S蛋白,對(duì)M蛋白的研究較少[14-15].因此本文以M蛋白的核苷酸和氨基酸序列為研究對(duì)象,利用生物信息學(xué)技術(shù)和方法研究SARS-CoV-2 M蛋白的結(jié)構(gòu)特征、理化性質(zhì)和進(jìn)化,以期為SARS-CoV-2藥物開發(fā)和預(yù)防提供一定的理論參考,也為以后深入研究冠狀病毒提供一定的理論支持.
從NCBI(https://www.ncbi.nlm.nih.gov/)官網(wǎng)獲得SARS-CoV-2 M蛋白質(zhì)的氨基酸和核苷酸序列,并下載FASTA文件,用于后續(xù)分析.
利用UCS(http://genome.ucsc.edu/)和Protomer 2.0在線分析軟件(http://www.cbs.dtu.dk/services/Promoter/)預(yù)測M蛋白質(zhì)的啟動(dòng)子區(qū);利用EMBOSS在線軟件(https://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/)預(yù)測M蛋白質(zhì)的CpG島;利用PROMO(http://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3)在線分析軟件預(yù)測M蛋白質(zhì)轉(zhuǎn)錄因子結(jié)合位點(diǎn),參數(shù)設(shè)置:Selectsprcies選擇Only human factors和Only human sites,Maximum matrix dissimilarity rate選擇0%;利用PortParam(https://web.expasy.org/protparam/)、ProtScale(https://web.expasy.org/protscale/)、SnapGene_4.3.6軟件和SignaIP 5.0(http://www.cbs.dtu.dk/services/SignalP/)在線軟件分析M蛋白質(zhì)的理化性質(zhì)及信號(hào)肽;利用TMHMM-2.0(http://www.cbs.dtu.dk/services/TMHMM/)和PSIPRED在線分析軟件(http://bioinf.cs.ucl.ac.uk/psipred/)預(yù)測M蛋白質(zhì)的疏水結(jié)構(gòu)和二級(jí)結(jié)構(gòu);利用Phyre2(http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index)預(yù)測M蛋白質(zhì)的三級(jí)結(jié)構(gòu);利用NetPhos3.1(http://www.cbs.dtu.dk/services/NetPhos/)、NetNGlyc1.0(http://www.cbs.dtu.dk/services/NetNGlyc/)和IEDB在線軟件(http://www.iedb.org/)分別預(yù)測M蛋白質(zhì)的磷酸化位點(diǎn)、糖基化位點(diǎn)以及B細(xì)胞抗原位點(diǎn);利用PSORTII在線軟件(https://www.genscript.com/psort.html)預(yù)測M蛋白質(zhì)的亞細(xì)胞定位;利用Blast(https://blast.ncbi.nlm.nih.gov/Blast.cgi)在線軟件和MEGA7.0軟件對(duì)M蛋白質(zhì)進(jìn)行進(jìn)化樹分析.若無特別注明,所用軟件均使用默認(rèn)參數(shù)進(jìn)行分析.
2.1.1 基因獲取及其特征
從NCBI中獲取SARS-CoV-2 M蛋白質(zhì)(Gene ID: 43740571)核苷酸序列,為一條單鏈正義的RNA序列,其長度為669bp,位于 SARS-CoV-2 RNA鏈的第 26 523~27 191 位核苷酸之間,編碼的蛋白質(zhì)共有222個(gè)核苷酸殘基組成.
2.1.2 啟動(dòng)子區(qū)分析
通過UCSC在線軟件截取M蛋白轉(zhuǎn)錄起始位點(diǎn)上游 2 000 bp 的核苷酸序列作為啟動(dòng)子區(qū)進(jìn)行分析.由Protomer 2.0在線軟件分析表明,在M蛋白基因序列上游存在2個(gè)潛在的啟動(dòng)子區(qū),1個(gè)臨界預(yù)測于 1 800 bp 處,得分為0.570;另1個(gè)則位于 1 000 bp 處,得分為1.117,表明在 1 000 bp 處存在啟動(dòng)子區(qū)的可能性較大.
2.1.3 M蛋白質(zhì)甲基化CpG島分析
Cpglot軟件分析結(jié)果如圖1所示:在觀測值/期望值>0.6、G%+C%>0.5、長度大于 100 bp 的條件下,沒有發(fā)現(xiàn)任何的甲基化島,表明在M蛋白質(zhì)的啟動(dòng)子區(qū)可能不存在甲基化位點(diǎn).
2.1.4 轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析
經(jīng)SPROMO在線軟件分析可知(見表1),在M蛋白質(zhì)5′基因調(diào)控區(qū)存在17個(gè)潛在的轉(zhuǎn)錄因子結(jié)合位點(diǎn).
2.2.1 理化性質(zhì)分析
通過PortParam在線軟件分析表明:SARS-CoV-2 M蛋白總共有3 600個(gè)原子組成,其分子式為C1165H1823N303O301S8;相對(duì)分子質(zhì)量為 25 147.27 Da,氨基酸種類及占比見表2,酸性氨基酸谷氨酸(Glu)和天冬氨酸(Asp)有13個(gè),堿性氨基酸精氨酸(Arg)和賴氨酸(Lys)共有21個(gè);等電點(diǎn)(isoelectric point)pI為9.51,這與堿性氨基酸含量較高有關(guān).
利用PortParam在線軟件分析可得:在水溶液中(280 nm)如果M蛋白的所有Cys都形成二硫鍵,則其消光系數(shù)為 52 160 L/(mol·cm);如果所有的Cys都沒有形成二硫鍵,則其消光系數(shù)為 51 910 L/(mol·cm).半衰期:30 h(哺乳動(dòng)物體外網(wǎng)織紅細(xì)胞),小于 20 h(酵母),小于 10 h(大腸埃希氏桿菌).不穩(wěn)定系數(shù)為39.14,表明其穩(wěn)定性良好.由SnapGene_4.3.6軟件分析可得:M蛋白在還原態(tài)下其吸光率(280 nm,0.1%)為2.06,在氧化態(tài)下其吸光率(280 nm,0.1%)為2.07.
圖1 M蛋白質(zhì)甲基化CpG島預(yù)測
表1 M 蛋白5′基因調(diào)控區(qū)轉(zhuǎn)錄因子結(jié)合位點(diǎn)預(yù)測
表2 SARS-CoV-2 M蛋白的氨基酸組成信息
2.2.2 疏水性分析
利用ExPSAy在線服務(wù)器中的PortParam在線軟件分析結(jié)果如圖2所示:SARS-CoV-2 M蛋白的親水性總平均值(Grand average of hydropathicity,GRAVY)為0.446(GRAVY在-2與2之間,大于0為疏水性,小于0為親水性);脂溶指數(shù)(Aliphatic index,AI)為120.86,分析結(jié)果顯示SARS-CoV-2 M蛋白疏水性強(qiáng),脂溶性高.
2.2.3 M蛋白信號(hào)肽分析
經(jīng)SignaIP 5.0在線軟件分析結(jié)果顯示:M蛋白信號(hào)肽值Sec/SPI為 0.000 2(小于0.5),表明在M蛋白中不存在常規(guī)的分泌信號(hào)肽.
2.3.1 跨膜結(jié)構(gòu)域預(yù)測
PSIPRED預(yù)測結(jié)果如圖3所示,M蛋白存在3個(gè)跨膜區(qū):第20~37位氨基酸存在1段由胞外向胞內(nèi)的跨膜區(qū)、第47~67位氨基酸存在一段由胞內(nèi)向胞外的跨膜區(qū)、第77~97位之間存在由胞外向胞內(nèi)的跨膜區(qū).
圖2 M蛋白疏水性分析 圖3 M蛋白跨膜區(qū)分析
2.3.2 M蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測
PSIPRED在線軟件分析結(jié)果如圖4所示:由A圖知,M蛋白存在3個(gè)α螺旋、13個(gè)無規(guī)卷曲和10個(gè)β折疊;M蛋白不存在分泌信號(hào)肽,這與SignaIP 5.0在線軟件分析結(jié)果相一致;由B圖分析可知,M蛋白中疏水性氨基酸占31.53%、極性氨基酸占22.97%、非極性氨基酸占25.67%,因此可間接反映出M蛋白疏水性較強(qiáng),這與ProtScale在線軟件分析的結(jié)果相一致.結(jié)果表明M蛋白質(zhì)二級(jí)結(jié)構(gòu)以無規(guī)則卷曲和β折疊為主,且為疏水性蛋白.
圖4 M蛋白二級(jí)結(jié)構(gòu)預(yù)測
2.3.3 M蛋白質(zhì)二硫鍵位置的預(yù)測
PSIPRED在線軟件分析發(fā)現(xiàn), M蛋白中存在2對(duì)二硫鍵分別位于第32、63、86和159位半胱氨酸殘基上,其評(píng)分均為8,表明這些位置存在二硫鍵的可能性較大.
由于在PDB數(shù)據(jù)庫中未能找到與SARS-CoV-2 M蛋白質(zhì)相似性性高(>30%)的模板,因此利用遠(yuǎn)程同源建模(相似性<30)的方法在Phyre2在線軟件中分析M蛋白質(zhì)的三級(jí)結(jié)構(gòu).以sars-cov-2 orf3a(相似性為25%)模板分析得到了M蛋白質(zhì)的三級(jí)結(jié)構(gòu),其建模的可信度為58.3%,這提示我們現(xiàn)在對(duì)冠狀病毒M蛋白質(zhì)的研究較少.如圖5所示,M蛋白的二級(jí)結(jié)構(gòu)以無規(guī)則卷曲和β折疊為主,2個(gè)β折疊結(jié)構(gòu)較長,其余都比較短,這與PSIPRED軟件預(yù)測結(jié)果相一致,此外M蛋白質(zhì)的三級(jí)結(jié)構(gòu)比較松散,這可能與其形成的跨膜結(jié)構(gòu)域和細(xì)胞質(zhì)膜的流動(dòng)性有關(guān).
2.5.1 磷酸位點(diǎn)化分析
通過NetPhos3.1軟件分析發(fā)現(xiàn)(見圖6):M蛋白存在37個(gè)磷酸化位點(diǎn),分別為:15個(gè)絲氨酸(藍(lán)色)、13個(gè)蘇氨酸(紅色)和9個(gè)絡(luò)氨酸(黑色)磷酸化位點(diǎn).
2.5.2 糖基化分析
NetNGlyc 1.0 Server在軟件分析M蛋白糖基化修飾(見圖7),在M蛋白質(zhì)第5位天冬氨酸殘基上存在1個(gè)潛在的N-糖基化修飾.
圖5 M蛋白三級(jí)結(jié)構(gòu)分析
圖6 M蛋白質(zhì)的磷酸化位點(diǎn)預(yù)測 圖7 M蛋白質(zhì)糖基化位點(diǎn)分析
經(jīng)IEDB在線軟件預(yù)測M蛋白的B細(xì)胞抗原(見表3),共存在可能的抗原表位有6個(gè),位于N端第5位和第20位之間,長度為16個(gè)氨基酸的B細(xì)胞抗原表位最強(qiáng).因此,可以推測M蛋白質(zhì)主要的B細(xì)胞抗原區(qū)域可能位于第5位和第20位氨基酸之間.
表3 M蛋白質(zhì)B細(xì)胞抗原表位預(yù)測
通過PSORTII在線分析軟件預(yù)測可得(見表4),當(dāng)SARS-CoV-2病毒侵染細(xì)胞后,其M蛋白在宿主細(xì)胞中可能存在的位置為:在細(xì)胞的內(nèi)質(zhì)網(wǎng)中存在的可能性最高(44.4%),其次是在囊泡中存在的可能性為22.2%,此外,存在于線粒體、細(xì)胞質(zhì)、高爾基體中的可能性均為11.1%.由此可以推測,當(dāng)SARS-CoV-2病毒感染細(xì)胞后,其M蛋白質(zhì)主要在內(nèi)質(zhì)網(wǎng)內(nèi)進(jìn)行修飾和加工,然后以囊泡的形式運(yùn)送至細(xì)胞質(zhì)中形成SARS-CoV-2病毒的細(xì)胞膜.
表4 M蛋白質(zhì)的亞細(xì)胞定位分析
通過Blast分析(見圖8),SARS-CoV-2膜糖蛋白質(zhì)的氨基酸序列與SARS coronavirus Tor2和蝙蝠冠狀病毒BM48-31 2008膜蛋白氨基酸序列的相似性較高,分別為90.54%和89.35%.為了進(jìn)一步分析SARS-CoV-2 膜蛋白與其他物種病毒膜蛋白的進(jìn)化關(guān)系,利用MEGA7.0軟件繪制了如圖8所示的進(jìn)化樹,圖中括號(hào)里邊的數(shù)值表示與SARS-CoV-2的蛋白的相似性,通過比較可知,SARS-CoV-2的膜蛋白與SARS coronavirus Tor2和蝙蝠冠狀病毒BM48-31BCR2008的膜蛋白的親緣關(guān)系較近,與蝙蝠冠狀病毒HKU4和HKU5的親緣關(guān)系較遠(yuǎn),但它們都來自于同1個(gè)祖先.
圖8 SARS-CoV-2 M蛋白質(zhì)與其他物種的進(jìn)化分析
利用生物信息學(xué)進(jìn)行大數(shù)據(jù)分析,有助于更好的預(yù)測蛋白質(zhì)的理化性質(zhì)、結(jié)構(gòu)與功能,為研究蛋白質(zhì)提供了不同的角度,同時(shí)也為相應(yīng)的藥物研發(fā)提供了不同的思路[16].研究發(fā)現(xiàn),M蛋白質(zhì)作為新冠病毒結(jié)構(gòu)蛋白質(zhì),是1條669bp的單鏈正義RNA序列,共編碼222個(gè)氨基酸,在M蛋白質(zhì)基因序列上游1 000bp處存在啟動(dòng)子的可能性較大,在啟動(dòng)子區(qū)存在17個(gè)轉(zhuǎn)錄因子結(jié)合位點(diǎn),不存在甲基化位點(diǎn),這表明M蛋白質(zhì)基因可在宿主細(xì)胞內(nèi)大量的表達(dá),為新型冠狀病毒的增殖創(chuàng)造了有利的條件,這從基因轉(zhuǎn)錄水平反應(yīng)了M蛋白在SARS-CoV-2中含量高的原因[10],這提示或許可以通過抑制M蛋白的轉(zhuǎn)錄,在一定程度上可以抑制SARS-CoV-2在宿主細(xì)胞中的增殖.理化性質(zhì)分析結(jié)果顯示,M蛋白質(zhì)中亮氨酸和疏水性氨基酸的含量較高、疏水性強(qiáng)和穩(wěn)定性良好,這間接表明SARS-CoV-2病毒膜結(jié)構(gòu)比較穩(wěn)定,為其在不同介質(zhì)中存活及傳播創(chuàng)造了有利的條件,這或許就是疫情反復(fù)爆發(fā)的原因之一;分析表明:M蛋白質(zhì)中存在3個(gè)跨膜結(jié)構(gòu)域、1個(gè)N連接的糖基化修飾位點(diǎn)、不存在外分泌信號(hào)肽、M蛋白質(zhì)主要存在于內(nèi)質(zhì)網(wǎng)中,這表明M蛋白主要是在宿主細(xì)胞內(nèi)質(zhì)網(wǎng)中合成,合成后不會(huì)分泌到胞外,直接用于新型冠狀病毒的組裝[17].
二級(jí)結(jié)構(gòu)分析顯示,M蛋白主要以無規(guī)則卷曲和β折疊為主,在蛋白質(zhì)中無規(guī)則卷曲主要分布于其表面,這樣的結(jié)構(gòu)有利于M蛋白在細(xì)胞膜中與其他結(jié)構(gòu)蛋白結(jié)合,為SARS-CoV-2病毒膜的組裝提供了有有利條件.M蛋白質(zhì)中可能存在37個(gè)磷酸化位點(diǎn),這表明M蛋白質(zhì)在新冠病毒的組裝、增值等過程中發(fā)揮著重要的作用[18],通常磷酸化位點(diǎn)與藥物靶點(diǎn)有密切的關(guān)系,因此這也為有關(guān)藥物的研發(fā)提供了潛在的可能.由于在蛋白質(zhì)數(shù)據(jù)庫中未能找到與SARS-CoV-2 M蛋白同源性較高的(>30%)的模板,因此采用遠(yuǎn)程同源建模的方式建立了M蛋白質(zhì)的三級(jí)結(jié)構(gòu)模型,這也反映出現(xiàn)在對(duì)冠狀病毒M蛋白結(jié)構(gòu)的研究相對(duì)不足,而本研究建立的模型可為冠狀病毒M蛋白結(jié)構(gòu)的深入研究提供一定的參考.通過預(yù)測發(fā)現(xiàn),在M蛋白中存在6個(gè)B細(xì)胞表位,其中位于N端第5位和第20位之間,長度為16個(gè)氨基酸的B細(xì)胞抗原表位最強(qiáng),這提示我們這段序列有可能作為疫苗研發(fā)的候選序列.
通過對(duì)M蛋白進(jìn)化樹分析表明SARS-CoV-2的M蛋白質(zhì)與SARS-CoV-Tor和蝙蝠冠狀病毒BM48-31 BCR2008具由較高的相似度和同源性,與蝙蝠冠狀病毒HKU4和HKU5的親緣關(guān)系較近.研究發(fā)現(xiàn):冠狀病毒的發(fā)生和傳播都與蝙蝠體內(nèi)的冠狀病毒有非常緊密的聯(lián)系[19],而SARS-CoV-2的M蛋白與蝙蝠的M蛋白具有共同的祖先,且序列具有較高的相似性,這從側(cè)面表明SARS-CoV-2可能來自于蝙蝠.同時(shí)進(jìn)化樹分析結(jié)果也顯示,SARS-CoV-2的M蛋白質(zhì)與SARS-CoV-Tor序列具有高度的相似性,這表明2002—2003年發(fā)生的SARS-CoV與新冠病毒也有聯(lián)系,SARS-CoV-2可能是冠狀病毒在進(jìn)化過程中由基因變異而產(chǎn)生的.
本文利用生物信息學(xué)的方法對(duì)SARS-CoV-2 M蛋白的性質(zhì)、結(jié)構(gòu)和功能進(jìn)行了分析,為M蛋白的深入研究奠定了基礎(chǔ),為新冠病毒的防治工作提供了一定的研究方向,但還需要更深入的研究和臨床實(shí)驗(yàn)的驗(yàn)證.