孫 濤,王 超,鄧明俊,王 群,鄭小龍,徐 彪
(1.山東出入境檢驗檢疫局,山東青島 266002;2.泰安出入境檢驗檢疫局,山東泰安 250014)
鴨坦布蘇病毒E基因的分子特性分析
孫 濤1,王 超2,鄧明俊1,王 群1,鄭小龍1,徐 彪1
(1.山東出入境檢驗檢疫局,山東青島 266002;2.泰安出入境檢驗檢疫局,山東泰安 250014)
為給鴨坦布蘇病毒(duck tembusu virus,DTMUV)囊膜糖蛋白選擇良好的抗原域和宿主表達系統(tǒng)提供參考依據(jù),本研究通過選取DTMUV QD株基因文庫中的一個重組質(zhì)粒并測序,結(jié)合NCBI的ORF Finder和BLAST工具發(fā)現(xiàn)一個全長為1488 bp完整開放閱讀框架(Open Reading Frame,ORF)片段。將該ORF編碼蛋白通過NCBI的BLASTP分析和DNAstar進化樹分析,確定該蛋白與類黃病毒E基因編碼的蛋白具有較高的相似性。隨后應用生物信息學分析工具Conserved Domains確定保守結(jié)構(gòu)域、運用SignalP4.1預測信號肽、TMHMM 2.0預測跨膜區(qū)。應用在線程序NetNGlyc1.0預測糖基化位點,NetPhos2.0預測磷酸化位點、ProtScale進行疏水性分析。最后運用在線EMBOSS和自動蛋白同源建模數(shù)據(jù)庫進行3D結(jié)構(gòu)預測以及密碼子偏愛性分析。結(jié)果表明,E蛋白與其它黃病毒衣殼蛋白具有相似的功能,沒有信號肽切割位點,在451-468和475-492aa區(qū)域含有跨膜區(qū),為相對低表達基因,含有較多種類的稀有密碼子,與人密碼子使用頻率較為接近。這為進一步研究DTMUV E基因的體外表達和宿主選擇提供了分子生物學依據(jù)。
鴨坦布蘇病毒;生物學信息學;結(jié)構(gòu)預測
鴨源坦布蘇病毒病毒(duck tembusu virus,DTMUV)屬黃病毒科黃病毒屬成員[1,2],是引起國內(nèi)以卵巢炎為特征[3-5]的水禽新發(fā)傳染性疾病的主要病原。該病流行廣泛、傳播迅速,自2010年首次報道以來[6],該病毒已感染產(chǎn)蛋鴨、肉鴨和鵝等養(yǎng)殖水禽,并造成其產(chǎn)蛋嚴重下降。
為建立該病毒的快速檢測方法,對其主要結(jié)構(gòu)蛋白基因進行表達,鑒于前期表達蛋白的密碼子偏愛性和抗原結(jié)構(gòu)域尚處未知狀態(tài),本實驗室擬根據(jù)核酸文庫中的重組質(zhì)粒測序結(jié)果,初步確定DTMUV毒株的囊膜糖蛋白E基因的序列。再對該基因編碼蛋白進行生物信息學分析,查找主要抗原結(jié)構(gòu)域,預測蛋白結(jié)構(gòu),并通過EMBOSS(The European Molecular Biology Open Software Suite)軟件對上述基因序列進行密碼子偏愛性分析,將結(jié)果與大腸桿菌、酵母、及人的密碼子偏愛性(數(shù)據(jù)來自Codon usage database)進行比較,為選擇合適的表達系統(tǒng)提供依據(jù)。
1.1材料
1.1.1基因文庫。DTMUV QD株基因文庫,由青島蔚藍生物有限公司構(gòu)建。
1.1.2主要生物信息學分析軟件。DNAStar6.0軟件、NCBI ORF Finder工具、BLASTN工具、BLASTP工具、Conserved Domains查找工具,在線TMHMM程序、Signal P4.1程序、NetNGlyc1.0程序、NetPhos2.0程序、ProtScale程序、在線3D建模程序、在線EMBOSS的CHIPS程序、CUSP程序。
1.2分析方法
1.2.1核酸序列的分子特性分析。選取構(gòu)建的DTMUV QD株 DNA基因文庫中的一個重組質(zhì)粒,送上海生物工程公司測序,并對測定的重組質(zhì)粒DNA序列運用NCBI ORF Finder工具,進行網(wǎng)上在線開放閱讀框架(Open Reading Frames,ORF)的尋找和分析,確定DTMUV E基因的ORF。將所測序列利用NCBI的BLASTN工具進行核酸序列的相似性搜索,然后應用DNAstar6.0軟件MegAlign程序中的Clustal V工具進行核酸序列同源性分析。
1.2.2蛋白質(zhì)序列的分子特性分析。運用瑞士蛋白質(zhì)專家網(wǎng)在線翻譯工具將目標核酸序列翻譯成氨基酸序列,然后對該蛋白組分進行分析:(1)運用瑞士蛋白質(zhì)分析專家系統(tǒng)(http:// expasy.org/cgi-bin/protparam)將目標核酸序列翻譯成氨基酸序列,然后分析該蛋白的基本理化性質(zhì);并運用Conserved Domains查找工具分析該基因的結(jié)構(gòu)域;(2)運用在線系統(tǒng)(http:// www.cbs.dtu.dk/services/) 中 的 TMHMM 2.0 、SignalP4.1、NetNGlyc1.0、和NetPhos2.0程序[7],分析DTMUV E蛋白潛在的跨膜區(qū)域、信號肽、N-糖基化位點和磷酸化位點;(3)運用瑞士蛋白質(zhì)分析專家系統(tǒng)(http://www.expasy.org/cgi-bin/ protscale.pl)中的ProtScale 程序,工具分析蛋白的疏水性 ;(4)運用在線軟件(http://www.rcsb.org/ pdb/explore/)的3D建模程序,預測蛋白二級結(jié)構(gòu)和三級結(jié)構(gòu)[8]。
1.2.3DTMUV E基因的密碼子偏愛性分析方法。采用EMBOSS在線分析系統(tǒng)(http://emboss. toulouse.inra.fr/)中的CHIPS、CUSP程序[9-10],對E基因進行密碼子使用偏愛性分析。采用CHIPS程序模塊計算序列中有效密碼子的ENC(Effective Number of Codons)值[11]。該值是一個基因的密碼子使用頻率與同義密碼子平均使用頻率偏差的量化值。范圍在20(每個氨基酸只使用一個密碼子的極端情況)到61(各個密碼子均被平均使用)時可單獨由密碼子使用數(shù)據(jù)計算得出,與基因長度及氨基酸組成無關,可對基因的密碼子偏愛性程度提供一個客觀的評判標準。用CUSPS程序計算密碼子頻率表,分析得到DTMUV基因密碼子使用頻率(1/1000代表該密碼子在編碼基因中出現(xiàn)的頻率),并與大腸桿菌、酵母和人的密碼子使用頻率(數(shù)據(jù)來自Condon usuage database,http:www.kazusa. or.jp/condon)比較,看密碼子偏愛性模式與三種表達系統(tǒng)的相似度。
2.1核酸序列的分子特性分析
經(jīng)對DTMUV QD株 cDNA基因文庫中一個重組質(zhì)粒的測序和NCBI ORF Finder及BLASTN工具分析得到編碼該病毒E基因的一個由1 488個堿基組成的完整ORF(圖1),該ORF編碼的蛋白與衣殼蛋白家族相關并與類黃病毒表面糖蛋白基因有很高的相似性,編碼蛋白屬于衣殼糖蛋白家族成員。
通過核苷酸序列相似性搜索,結(jié)果(圖2)發(fā)現(xiàn)本株病毒的閱讀框與目標核苷酸序列(JF895923.2)完全相似的序列高達99%。同時,通過進一步比對,發(fā)現(xiàn)它們的序列之間只有一個堿基的差異。另外,Clustal V method工具對DTMUV E基因的核酸序列以及Genbank上6個同屬黃病毒科的不同黃病毒屬的同源基因進行核酸序列的同源性比對,系統(tǒng)進化樹分析結(jié)果(圖3)可見:本株病毒編碼的E基因與黃病毒科成員類聚,與黃熱病毒(Yellow fever virus)、登革熱病毒(Dengue virus)、伊利烏斯腦炎病毒(Ilheus virus)、日本腦炎病毒(Japanese encephalitis virus)、西尼羅病毒(West Nile virus)、巴格扎病毒(Bagaza virus)和坦布蘇病毒(Tembusu virus)具有遺傳進化關系。其中與黃熱病毒(Yellow fever virus)親緣關系最遠,與巴格扎病毒(Bagaza virus)親緣關系較近但遺傳距離介于病毒種的水平上。由此可見,DTMUV E蛋白與其它類黃病毒既有高度的同源性,又存在一定的差異。
2.2蛋白質(zhì)序列的分子特性分析
2.2.1E蛋白基本理化性質(zhì)分析。瑞士蛋白質(zhì)專家網(wǎng)在線翻譯工具預測DTMUV E基因的ORF編碼一條由494個氨基酸殘基組成的多肽,相對分子量為53.6 KDa,等電點理論值為7.14,分子式為C2378H3717N637O713S31。其氨基酸組成成分如表1所示。進一步分析表明,蛋白質(zhì)中含量最高的氨基酸為Gly(10.3%)、Val(9.1%)和Ala(7.3%);而含量最少的氨基酸為Trp(2.0%)、Cys(2.2%)、Tyr(2.8%)和Arg(3.2%)。
2.2.2E 蛋白結(jié)構(gòu)域分析。NCBI Conserved Domains查找工具分析發(fā)現(xiàn)該基因氨基酸序列與黃病毒科E基因類似,含有3個保守結(jié)構(gòu)域 (圖4),說明E蛋白與其它黃病毒衣殼蛋白可能具有相似的功能。
圖1 ORF Finder的“SixFrames”分析結(jié)果
圖2 DTMUV E基因與鴨坦布蘇病毒組JF895923.2的序列比對結(jié)果
圖3 DTMUV與參考毒株同源基因氨基酸序列進化樹分析
表1 DTMUV E基因序列推導肽鏈的氨基酸組分分析
圖4 DTMUV E蛋白氨基酸序列的CDD分析結(jié)果
圖5 Neural Networks (NN)對DTMUV E氨基酸序列推導肽鏈的信號肽預測結(jié)果
圖6 DTMUV E蛋白序列跨膜區(qū)預測結(jié)果
圖7 DTMUV E氨基酸序列推導肽鏈的N-糖基化預測結(jié)果
2.2.3E蛋白信號肽預測結(jié)果。利用丹麥科技大學生物序列分析中心(CBS)網(wǎng)站在線程序 Signal P4.1對DTMUV E蛋白的氨基酸序列作信號肽預測,結(jié)果如圖5。由圖可見,DTMUV E蛋白序列中所有位點預測到的C值、S值或Y值的最大值都小于臨界值,說明該蛋白沒有信號肽切割位點,不含信號肽,成熟蛋白即為494aa。
2.2.4跨膜區(qū)預測結(jié)果。利用丹麥技術大學生物序列分析中心 (CBS)網(wǎng)站在線軟件TMHMM 2.0預測DTMUV E蛋白跨膜區(qū),結(jié)果見圖6??缒^(qū)的預測分析結(jié)果表明該多肽鏈可能在451-468和475-492aa區(qū)域含有跨膜區(qū),而且是膜外蛋白的可能性較大,這與其是衣殼蛋白也相符。
2.2.5E蛋白翻譯后修飾預測
2.2.5.1糖基化位點預測。運用在線程序NetNGlyc1.0 對DTMUV E蛋白可能的N-糖基化位點進行預測,
結(jié)果表明在該序列中在149和309兩個氨基酸位點上存在潛在的N-糖基化位點。
2.2.5.2磷酸化位點預測。運用在線程序NetPhos2.0預測DTMUV E蛋白磷酸化位點,預測結(jié)果見圖8。結(jié)果顯示當閾值為0.5時,共有26個潛在的磷酸化位點,其中含有15個絲氨酸磷酸化位點,7個蘇氨酸磷酸化位點,4個酪氨酸磷酸化位點。
2.2.6DTMUV E蛋白的疏水性分析。利用在線 ProtScale 程序中的Wilson 疏水性分析法對DTMUV E蛋白質(zhì)疏水性進行分析,結(jié)果如圖 9。分析結(jié)果顯示DTMUV E蛋白第461-467和484-490位氨基酸具有最強的疏水性。整個蛋白質(zhì)疏水性最大值是4.689,最小值為-1.000,與疏水區(qū)相比,親水區(qū)占據(jù)該蛋白質(zhì)多肽鏈的區(qū)域大于疏水區(qū)域,表明該蛋白可能為親水蛋白,這與其是一種衣殼蛋白相符。
圖8 DTMUV E氨基酸序列推導肽鏈的磷酸化位點的預測結(jié)果
圖9 DTMUV E基因推導肽鏈的疏水性預測
圖 10 DTMUV E基因推導蛋白質(zhì)的二級結(jié)構(gòu)預測
圖11 DTMUV-E的三級結(jié)構(gòu)預測
2.2.7DTMUV E蛋白的三級結(jié)構(gòu)分析。利用http://www.rcsb.org/pdb/ explore/自動蛋白同源建模數(shù)據(jù)庫進行蛋白全序列二級結(jié)構(gòu)預測和3D結(jié)構(gòu)預測,結(jié)果找到與登革熱病毒E基因編碼的在281-775區(qū)段相似的衣殼糖蛋白3D結(jié)構(gòu)模型(圖10),其三維構(gòu)象(圖11)主要包含α-螺旋和β-轉(zhuǎn)角(Turn)。
2.3E基因的密碼子偏愛性分析
應用EMBOSS在線軟件CHIPS程序進行密碼子使用頻率統(tǒng)計,已知高表達基因其密碼子偏愛程度大,從而Nc值較?。坏捅磉_基因含有較多種類的稀有密碼子,Nc值則較大,所以,當前普遍通過比較Nc來確定內(nèi)源基因表達量的相對高低。分析結(jié)果表明,DTMUV E的Nc值為55.037,表明該基因為相對低表達基因,含有較多種類的稀有密碼子。
2.4DTMUV E基因的密碼子與大腸桿菌、酵母及人的密碼子偏愛性比較
根據(jù)EMBOSS軟件CUSP程序分析比較其與大腸桿菌、酵母和人的三種表達系統(tǒng)的相似度。如表2所示,DTMUV-E與大腸桿菌等3種生物密碼子使用頻率比值(DTMUV-E /E.coli、DTMUV-E / Yeast、DTMUV-E /Human)在0.5~2之間的表示對該密碼子的偏愛性較為接近,反之則差別較大(在小于0.5,大于2.0之間的頻率比值采用下劃線標志)。從表3的結(jié)果表明,DTMUV-E與大腸桿菌等3種密碼子使用頻率差值較大的在大腸桿菌有18個,酵母有16個,人有15個。由此可見,DTMUV-E的密碼子使用偏愛性模式與差異并不大,若采用原核表達系統(tǒng)需注意密碼子的優(yōu)化使用,或采用截斷表達方式更有利于DTMUV-E基因編碼蛋白的外源表達。
表2 DTMUV-E與大腸桿菌、酵母及人的密碼子偏愛性比較
(續(xù)前)
3.1DTMUV-E基因的分子特性分析
本研究通過構(gòu)建的DTMUV QD株基因文庫重組質(zhì)粒的DNA測序信息,結(jié)合NCBI的ORF Finder和BLAST工具分析得到了編碼該病毒E蛋白基因的ORF,分子特性分析表明:該基因大小為1 488 bp,編碼499個氨基酸,Clustal V工具預測表明該蛋白是類黃病毒衣殼蛋白家族成員之一。
根據(jù)E基因序列分析結(jié)果得知DTMUV與兩個序列的相似性高達99%,核酸序列同源性比較結(jié)果顯示該基因與坦布蘇病毒屬成員有較高的同源性。通常認為,蛋白水平之間達到25%的一致性就可提示其功能的相似性。三級結(jié)構(gòu)搜索表明,本研究中預測的病毒株E蛋白與登革熱病毒E基因編碼的在281-775區(qū)段有著相似的衣殼糖蛋白3D結(jié)構(gòu)模型(圖2-圖11),其三維構(gòu)象主要包含α-螺旋和β-轉(zhuǎn)角。這就提示它們在功能上可能具有一定相似性,同時也為我們下一步進行該編碼蛋白的功能研究指明了方向。
3.2DTMUV-E密碼子偏嗜性對表達的影響
選擇合適的表達系統(tǒng)對于基因表達具有重要意義。密碼子是核酸攜帶信息和蛋白質(zhì)攜帶信息間對應的基本原則,是生物體內(nèi)信息傳遞的基本環(huán)節(jié)。關于DTMUV在密碼子使用上的偏愛性問題,目前國內(nèi)外少有報道。本文對DTMUV-E編碼基因的密碼子偏愛性進行了分析,可以看出該蛋白中編碼相同氨基酸密碼子的偏愛性存在較大的差異。將分析結(jié)果通過與大腸肝菌、酵母和人的密碼子偏愛性做進一步比較,可以看出DTMUV的密碼子使用偏愛性模式與其差異并不大,若采用原核表達系統(tǒng)需注意密碼子的優(yōu)化使用,或采用截斷表達方式更有利于DTMUV-E基因編碼蛋白的外源表達。當然,外源基因的表達受到多種因素的共同作用,如要表達蛋白的種類、是否是毒素、是否需糖基化或其他修飾、是否需大量表達、如何純化和蛋白生產(chǎn)成本等,而密碼子用法的影響只是其中之一。通過密碼子偏愛性分析不僅可為基因表達選擇合適的表達系統(tǒng),同時也可以為改造密碼子進而提高基因的表達量提供依據(jù)。
3.3關于生物信息學及新基因的發(fā)現(xiàn)
大量DNA數(shù)據(jù)的存在有助于發(fā)現(xiàn)新的基因,由于實驗測定的編碼區(qū)域并不一定完整,必須結(jié)合計算找到并證實所有的外顯子。就目前的分子生物學技術現(xiàn)狀而言,實驗測定DNA序列比測定蛋白質(zhì)序列容易,因此可以通過實驗測定一段基因的序列并由此推導蛋白質(zhì)的氨基酸序列。在測出一段未知DNA序列后,往往要做的首要工作就是對序列數(shù)據(jù)庫做一次相似性搜索,以確定獲得的序列是否是一個新的未知序列或者數(shù)據(jù)庫中是否已經(jīng)存在與該序列同源的序列,從而發(fā)現(xiàn)序列的生物學意義。
[1]Su J,Li S,Hu X,et al. Duck egg-drop syndrome caused by BYD virus,a new Tembusu-related flavivirus[J]. PLoS One,2011,6(3):e18106.
[2]Yan P,Zhao Y,Zhang X,et al. An infectious disease of ducks caused by a newly emerged Tembusu virus strain in mainland China[J]. Virology,2011,417(1):1-8.
[3]曹貞貞,張存,黃瑜. 鴨出血性卵巢炎的初步研究[J]. 中國獸醫(yī)雜志,2010,46(12):3-6.
[4]李譯君. 鴨坦布蘇病毒的分離鑒定及生物學特性研究[J].中國家禽,2011,33(17):34-35.
[5]馬秀麗,于可響,高鳳. 鴨黃病毒BZ株的生物學特性研究[J]. 中國家禽,2011,33(21):12-14.
[6]李玉峰. 一種從鴨新分離的黃病毒研究初報[J]. 畜牧獸醫(yī)學報,2011,42(6):885-891.
[7]Emanuelsson O,Brunak S,von Heijne G,et al. Locating proteins in the cell using Target P,Signal P and related tools[J]. Nat Protoc,2007,2(4):953-971.
[8]Lambert C,Leonard N,De Bolle X,et al. ESyPred3D: Prediction of proteins 3D structures[J]. Bioinformatics,2002,18(9):1250-1256.
[9]Mullan L J,Bleasby A J. Short EMBOSS User Guide. European Molecular Biology Open Software Suite[J]. Brief Bioinform,2002,3(1):92-94.
[10]Zhao L C,Cheng A C,Wang M S,et al. Characterization of codon usage bias in the dUTPase gene of duck enteritis virus[J]. Progress in Natural Science,2008,18 (9)):1069-1076.
[11]Wright F. The 'effective number of codons' used in a gene[J]. Gene,1990,87(1):23-29.
(責任編輯:胡藕祥)
The Molecular Property Analysis of Duck Tembusu Virus E Gene
Sun Tao1,Wang Chao2,Deng Mingjun1,Wang Qun1,Zheng Xiaolong1,Xu Biao1
(1.Shandong Entry-exit Inspection and Quarantine Bureau,Qingdao,Shandong 266002;2. Tai’an Entry-exit Inspection and Quarantine Bureau,Tai’an,Shangdong 250014)
To provide the reference for the selection of antigen domain and gene expression host system of duck Tembusu virus,one recombinant plasmid comprising an ORF about 1488 bp was sequenced from DTMUV QD genebank combing NCBI ORF Finder and BLAST analysis. By analysis of NCBI BLASTP and DNAstar evolutionary tree,the ORF encoded protein have high similarity with the E gene of Flaviviriade virus class. Then the conservative structure domain was determined by Conserved Domain tools,signal peptide was predicted using Signal P4.1 and the trans-membrane region was predicted by TMHMM 2.0. Applying NetNGlyc1.0 and NetPhos2.0,ProtScale online,glycosylation sites,phosphorylation sites,hydrophobicity were analyzed. Finally,the fraction and using frequency of different codes in same amino acids were investigated by EMBOSS,and 3D structure was predicted by protein homology modeling analysis. Results showed:the E protein in this study have similar function with other Flaviviriade virus class capsid protein,no signal peptide cutting locus was discovered,and contained trans-membrane region in 451-468 and 475-492 AA area. And the E gene in this study which containing many kinds of rare codon,expression level was relatively low,codon usage frequency is close to with people. The study may provides the basis of molecular biology and contribute to in vitro expression selecting in further research.
duck tembusu virus;biological informatics;structure prediction
S852.65
A
1005-944X(2015)12-0059-08
徐 彪