王亞靜,王 琿,王 敏,徐 峰
(1. 天津科技大學(xué)生物工程學(xué)院,天津 300457;2. 英國自然環(huán)境理事會/生態(tài)與水文研究中心,牛津 OX10 8BB;3. 南開大學(xué)藥學(xué)院藥物化學(xué)生物學(xué)國家重點實驗室,天津 300071)
基于公共sRNAs庫的病毒檢測分析研究
王亞靜1,王 琿2,王 敏1,徐 峰3
(1. 天津科技大學(xué)生物工程學(xué)院,天津 300457;2. 英國自然環(huán)境理事會/生態(tài)與水文研究中心,牛津 OX10 8BB;3. 南開大學(xué)藥學(xué)院藥物化學(xué)生物學(xué)國家重點實驗室,天津 300071)
以公共的small RNAs (sRNAs)新一代測序數(shù)據(jù)為材料,通過生物信息學(xué)的分析方法檢測生物實驗系統(tǒng)樣品中存在的病毒,討論病毒與宿主間的關(guān)系,病毒的種屬特性,進(jìn)而指導(dǎo)生物實驗設(shè)計.從GEO Datasets數(shù)據(jù)庫下載917個已發(fā)表的sRNAs高通量測序數(shù)據(jù),通過生物信息學(xué)分析共檢測出來自334個樣品庫的2,107條高度同源的病毒序列和2,930條疑似的病毒序列.這些病毒主要是正鏈RNA病毒、反轉(zhuǎn)錄病毒和雙鏈DNA病毒,集中在花椰菜花葉病毒科、反轉(zhuǎn)錄病毒科、桿狀病毒科和蕪菁黃花葉病毒目.
病毒檢測;small RNAs;病毒分類;生物信息學(xué);抗病毒免疫;下一代測序
病毒是地球上最豐富和多樣的生物群體[1-2],但在2012年的ICTV分類中,已知病毒尚不到6,000種[3],人們對病毒圈和病毒群落的了解十分有限[4],這使得預(yù)期外的病毒感染/污染無論在環(huán)境樣品還是實驗室樣品中都常有發(fā)生.由于病毒的感染會引起宿主的抗病毒免疫反應(yīng),消耗宿主的能量并經(jīng)常影響宿主的新陳代謝和生長發(fā)育,考慮將預(yù)期外的病毒感染作為生物實驗設(shè)計中的控制條件是十分重要的.對已發(fā)表的生物實驗系統(tǒng)的病毒檢測有助于指導(dǎo)實驗設(shè)計,減少意外感染發(fā)生.
Small RNAs(sRNAs)是真核生物RNA沉默及其相關(guān)通路的關(guān)鍵調(diào)控者.在抗病毒免疫通路中,sRNAs既作為中間分子通過RNAi和相關(guān)的RNA沉默效應(yīng)機(jī)制指導(dǎo)特異性的抗病毒免疫[5],也作為終產(chǎn)物通過靶向病毒性RNA得以積累[6].新一代測序技術(shù)允許測序反應(yīng)大規(guī)模并行化,因其能夠同時測序大量的DNA分子,所以又稱深度測序,具有高通量、快速、精確、價格低廉的特點[7],為病毒的發(fā)現(xiàn)和檢測提
供了強(qiáng)有力的工具,通過sRNAs的深度測序,能夠快速精確地從整個或特殊的組織中識別出病毒序列,找到無癥狀樣品中低豐度的病毒[8].這種高通量、高靈敏度的方法徹底改變了病毒檢測和鑒定手段,Kreuze等[9]和Wu等[10]先后使用此種方法在植物和無脊椎動物中檢測出病毒,并發(fā)現(xiàn)了全新的病毒.
隨著新一代測序技術(shù)的迅速發(fā)展,以高通量測序技術(shù)為基礎(chǔ)的生物學(xué)研究領(lǐng)域在不斷擴(kuò)增,越來越多的物種被測序和分析,產(chǎn)生的高通量公共實驗數(shù)據(jù)可通過專門的數(shù)據(jù)庫來存儲和查詢.本研究以公共的sRNAs新一代測序數(shù)據(jù)為材料,通過生物信息學(xué)的分析方法檢測生物實驗系統(tǒng)樣品中存在的病毒,討論病毒與宿主間的關(guān)系,病毒的種屬特性,進(jìn)而指導(dǎo)生物實驗設(shè)計.
1.1 實驗材料
1.1.1 數(shù)據(jù)
用于分析的測序數(shù)據(jù)選自GEO Datasets[11],通過高級搜索條件“(((small RNA)OR short RNA)OR sRNA)AND "high throughput sequencing"”搜索,最終選取來自95個物種和4個混合物種的917個sRNAs樣品庫數(shù)據(jù),總計76.9,GB.
1.1.2 硬件、軟件及數(shù)據(jù)庫
用于數(shù)據(jù)分析的硬件設(shè)備包括:800,CPU,峰值7萬億次/秒,操作系統(tǒng)為GNU/Linux SUSE Linux Enterprise Server 11,SP1(x86_64)的計算集群;32,GB內(nèi)存,32,CPU,SUSE Linux Enterprise Server 11,SP1(x86_64)的服務(wù)器;4,GB內(nèi)存,Intel(R)Core (TM)i5-2410M CPU,2.30,GHz的PC.
數(shù)據(jù)分析軟件主要包括:NCBI-BLAST-2.2.27+,SOAPdenovo-Trans 1.0,Velvet 1.2.07,CD-HIT 4.5.4,Bowtie2 2.1.0,Samtools 0.1.7,Bedtools 2.17.0,Perl,R 2.15.1.
數(shù)據(jù)庫包括:fRNAdb 3.4,NCBI Nt database(2013.06.05),NCBI Nr database(2013.06.05),Uniprot.
1.2 實驗方法
1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
GEO數(shù)據(jù)庫中的生物實驗數(shù)據(jù)格式不統(tǒng)一,使用perl腳本標(biāo)準(zhǔn)化成多數(shù)軟件可識別的Fasta格式.1.2.2 過濾宿主的ncRNAs序列[12]
sRNAs在提取的過程中會存在宿主來源的miRNAs、siRNAs以及rRNAs、tRNAs降解的序列.通過BLAST程序?qū)RNAs樣品庫與fRNAdb數(shù)據(jù)庫比對,使用perl腳本過濾掉完全比對到數(shù)據(jù)庫中的sRNAs.
1.2.3 sRNAs的從頭組裝(Denovoassembly)[13]
過濾后的sRNAs樣品庫分別使用Velvet和SOAPdenovo-Trans進(jìn)行從頭組裝,并以不同的kmer參數(shù)(k=15、17、19、21、23)多次拼接,拼接出的contigs(原始測序reads拼接后的序列)使用Velvet進(jìn)行二次拼接(k=39、41、43、45、47、49).將每個sRNAs樣品庫組裝的contigs匯總,使用CD-HIT對每個樣品庫的contigs去冗余,并保留contigs長度大于50,nt的序列用于后續(xù)的分析.
1.2.4 Contigs的驗證
為了驗證從頭組裝的contigs的可靠性,通過bowtie2將原始的sRNAs樣品庫中的reads比對到去冗余后的contigs上,通過samtools、bedtools以及Perl腳本計算出每個contig的覆蓋度,覆蓋度小于95%的contigs被認(rèn)為是不可靠的,將這部分序列從每個樣品庫組裝出的contigs過濾掉.計算每個樣品庫中覆蓋度≥95%的contigs比例.
1.2.5 Contigs的注釋
為了使檢測結(jié)果更可靠,選用了最大的核酸庫Nt和最大的蛋白庫Nr,將每個樣品庫對應(yīng)的contigs分別使用BLASTn程序與Nt比對,BLASTx程序與Nr比對,保留每個contigs比對結(jié)果中最好的注釋信息,過濾掉沒有比對到病毒序列或比對到病毒序列的但contigs的覆蓋度小于95%的注釋信息.
1.2.6 數(shù)據(jù)分析
在Nt數(shù)據(jù)庫的注釋結(jié)果中,當(dāng)contigs與已知的病毒序列identity(%)≥80%時,認(rèn)為檢測出相應(yīng)病毒[10],而剩余identity(%)≥40%的序列被認(rèn)為是疑似病毒.由于Nr是蛋白庫,比對到Nr的序列是通過預(yù)測得到的結(jié)果,identity(%)≥40%的序列也被認(rèn)為是疑似病毒(去除比對到Nt庫中的病毒序列identity≥40%的比對結(jié)果).物種–病毒相互關(guān)系通過R軟件呈現(xiàn),并通過Uniprot數(shù)據(jù)庫獲得病毒的分類信息.
2.1 sRNAs樣品庫的從頭組裝
sRNAs樣品庫通過過濾宿主ncRNAs序列,多軟件、多kmer、多次從頭組裝,contigs冗余,最終獲得sRNA樣品庫的拼接結(jié)果,然后通過contigs的驗
證過濾掉覆蓋度較低的contigs,驗證結(jié)果如圖1所示.超過80%樣品庫的覆蓋度大于95%的contigs比例在70%以上,最高達(dá)到99.6%.雖然個別樣品庫覆蓋度大于95%的contigs比例低于40%,但是從總體上看,覆蓋度大于95%的contigs比例是較高的,這從一個方面說明組裝的結(jié)果是可靠的.
2.2 生物實驗系統(tǒng)中的物種–病毒
2.2.1 Nt、Nr注釋
經(jīng)過Nt、Nr數(shù)據(jù)庫注釋,與已知病毒序列高度相似的contigs總共2,107條,來自45個物種(含2個混合物種)的238個樣品庫,占總樣品的26%.其中,Mus musculus檢測到病毒物種最多(20種),Arabidopsis thaliana對應(yīng)的病毒contigs最多(339條),這些contigs來自44個sRNAs樣品庫.
疑似的病毒序列共有2,930條,來自58個物種(含3個混合物種)的280個樣品庫,占總樣品的30%.其中,Mus musculus檢測到疑似病毒種類最多(35種),Spodoptera frugiperda對應(yīng)的疑似病毒contigs最多(347條).
以上病毒相關(guān)的序列總共5,037條,對應(yīng)病毒293種,涉及63個物種的334個樣品庫.由此看出,有近30%的生物實驗樣品受到病毒的感染或污染.2.2.2 物種-病毒相互關(guān)系
為了研究生物實驗系統(tǒng)中檢測的病毒與對應(yīng)的樣品物種關(guān)系,提取通過2.2.1的Nt、Nr注釋獲得的293個病毒物種及對應(yīng)的63個樣品物種,并按照病毒的天然宿主分為植物病毒、動物病毒、其他病毒(包括噬菌體、類病毒、真菌病毒和噬藻體),繪制成宿主物種–病毒關(guān)系圖,見圖2—圖4.圖中分3種色塊,顏色隨加深分別代表疑似的病毒、檢測出的病毒以及兩者重疊部分.并對宿主按照植物、無脊椎動物、脊椎動物(除人)以及人分別標(biāo)記為A、B、C、D,物種具體名稱見表1.
293種病毒包括植物病毒110種、動物病毒160種、其他病毒23種.由圖2、圖3可以看出:植物病毒主要從植物宿主樣品中檢測出,動物病毒也主要從動物宿主樣品中檢測出,這暗示這些病毒序列不可能是由于樣品的隨機(jī)污染造成的.在宿主物種與動植物病毒的關(guān)系圖(圖2、圖3)中都存在著一個病毒在多個宿主的樣品中被檢測出的現(xiàn)象:植物病毒Petunia vein clearing virus、Beet western yellows virus、Cucumber mosaic virus和Turnip yellows virus均能從5種或以上的植物宿主中被檢測出,說明這些病毒可能具有較廣的宿主范圍.一般單子葉植物病毒只能感染單子葉植物[14],但在雙子葉植物(如Glycine max、Arabidopsis thaliana)的樣品中發(fā)現(xiàn)單子葉植物病毒(如Beet western yellows virus、Brassica yellows virus、Turnip yellows virus).動物病毒Autographa californica nucleopolyhedrovirus能夠從6種動物宿主檢測,而Lausannevirus的天然宿主是無脊椎的原生動物,卻在5種植物宿主中檢測,可能的原因是這5種病毒均來自疑似的病毒,準(zhǔn)確性還有待驗證;另一方面也可能是樣品在提取測序過程中存在污染.
在其他病毒–物種圖(圖4)中,Enterobacteria phage T4T、Enterobacteria phage vB_EcoM_ACGC40、Escherichia phage wV7均能從6種物種的樣品中被檢測出,這包括植物、無脊椎動物、脊椎動物樣品,且多數(shù)是確定或是重疊部分的病毒,噬菌體能夠從真核生物的樣品中檢測出,這可能是實驗樣品中病毒載體使用產(chǎn)生的結(jié)果.
2.3 病毒屬性研究
為了更加深入了解生物實驗系統(tǒng)檢測到的病毒的特性,對這293種病毒類型進(jìn)行分類,見表2.
檢測出的病毒主要為正義ssRNA病毒、反轉(zhuǎn)錄病毒、dsDNA病毒,所有類型的病毒都可以通過此種方法檢測.其中ssRNA病毒主要為植物正鏈RNA病毒[15],集中在蕪菁黃花葉病毒目(Tymovirales,23種)、馬鈴薯Y病毒科(Potyviridae,14種)和番茄叢矮病毒科(Tombusviridae,11種),反轉(zhuǎn)錄病毒主要分布在植物的花椰菜花葉病毒科(Caulimoviridae,42種)和脊椎動物的反轉(zhuǎn)錄病毒科(Retroviridae,41種),dsRNA病毒主要分布在植物的雙組分RNA病毒科(Partitiviridae,17種),dsDNA病毒集中在昆蟲的桿狀病毒科(Baculoviridae,19種).檢測到病毒集中分布在幾個病毒科中,這些信息可用于在生物實驗設(shè)計中預(yù)防病毒的感染或污染.
利用公共數(shù)據(jù)庫中生物實驗系統(tǒng)的sRNAs過程數(shù)據(jù),通過從頭組裝以及生物信息學(xué)分析,很容易檢測出病毒序列.有近30%的實驗樣品可能存在著病毒的感染或污染,但由于原始數(shù)據(jù)處理的程度以及測序的深度可能使其低于真實值.
本研究獲得了生物實驗系統(tǒng)中物種–病毒關(guān)系,并且它們集中在幾個重要的病毒科,雖然無法通過實
驗手段一一進(jìn)行驗證,但不影響這些信息在對特定物種的實驗設(shè)計中控制病毒感染的參考價值.當(dāng)然,由于本研究是基于已有的病毒信息進(jìn)行注釋分析,樣品中仍然可能存在未知的病毒未被檢測出.
[1] Suttle C A. Marine viruses—major players in the global ecosystem[J]. Nature Reviews Microbiology,2007,5(10):801–812.
[2] Suttle C. The viriosphere:The greatest biological diversity on Earth and driver of global processes[J]. Environmental Microbiology,2005,7(4):481–482.
[3] Adams M J,Lefkowitz E J,King A M Q,et al. Recently agreed changes to the statutes of the international committee on taxonomy of viruses[J]. Arch Virol,2014,159(1):175–180.
[4] Mokili J L,Rohwer F,Dutilh B E. Metagenomics and future perspectives in virus discovery[J]. Current Opinion in Virology,2012,2(1):63–77.
[5] Ding S W,Voinnet O. Antiviral immunity directed by small RNAs[J]. Cell,2007,130(3):413–426.
[6] Ding S W. RNA-based antiviral immunity[J]. Nature Reviews Immunology,2010,10(9):632–644.
[7] Metzker M L. Sequencing technologies—the next generation[J]. Nature Reviews Genetics,2009,11(1):31–46.
[8] Singh K,Kaur R,Qiu W. New Virus Discovery by Deep Sequencing of Small RNAs[M]//RNA Abundance Analysis. Totowa,NJ:Humana Press,2012:177–191.
[9] Kreuze J F,Perez A,Untiveros M,et al. Complete viral genome sequence and discovery of novel viruses by deep sequencing of small RNAs:A generic method for diagnosis,discovery and sequencing of viruses[J]. Virology,2009,388(1):1–7.
[10] Wu Q,Luo Y,Lu R,et al. Virus discovery by deep sequencing and assembly of virus-derived small silencing RNAs[J]. Proceedings of the National Academy of Sciences,2010,107(4):1606–1611.
[11] Barrett T,Wilhite S E,Ledoux P,et al. NCBI GEO:Archive for functional genomics data sets—update[J]. Nucleic Acids Research,2013,41(D1):D991–D995.
[12] Isakov O,Modai S,Shomron N. Pathogen detection using short-RNA deep sequencing subtraction and assembly[J]. Bioinformatics,2011,27(15):2027–2030.
[13] 趙磊,Zachary LARSON-RABIN,陳斯云,等. 基于Illumina RNA-Seq短序列的轉(zhuǎn)錄組從頭組裝軟件比較與優(yōu)化[J]. 植物分類與資源學(xué)報,2012,34(5):487–501.
[14] Cardinale D J,DeRosa K,Duffy S. Base composition and translational selection are insufficient to explain codon usage bias in plant viruses[J]. Viruses,2013,5(1):162–181.
[15] 張忠信. 病毒分類學(xué)[M]. 北京:高等教育出版社,2006.
責(zé)任編輯:常濤
Virus Detection Based on Samples from Biological Experiment Systems
WANG Yajing1,WANG Hui2,WANG Min1,XU Feng3
(1. College of Biotechnology,Tianjin University of Science & Technology,Tianjin 300457,China;
2. NERC/Centre for Ecology and Hydrology,Oxfordshir OX10 8BB,United Kingdom;
3. College of Pharmacy,State Key Laboratory of Medicinal Chemical Biology,Nankai University,Tianjin 300071,China)
In this study,by using published small RNAs(sRNAs)sequencing data as research materials,viruses from samples in biological experiments were detected with bioinformatic analysis.Virus classification and the relationship between virus and host were discussed to guide the design of biological experiments. 917 published sRNAs sequencing data using high-throughput sequencing technology were downloaded from GEO Datasets. 2,107 contigs that are highly similar to virus sequences and 2,930 suspected viral sequences were detected from 334 samples based on bioinformatics analysis. These viruses are mainly ssRNA positive-strand viruses,retro-transcribing viruses and dsDNA viruses,concentrating inCaulimoviridae,Retroviridae,Baculoviridae and Tymovirales.
virus detection;small RNAs;virus classification;bioinformatics;antiviral immunity;next generation se quencing
Q-9
A
1672-6510(2014)05-0035-07
10.13364/j.issn.1672-6510.2014.05.008
2014–01–16;
2014–04–22
天津市科技支撐計劃資助項目(12ZCZDSY14500);天津市自然科學(xué)基金資助項目(13JCYBJC20900)
王亞靜(1987—),女(滿),河北承德人,碩士研究生;通信作者:徐 峰,副教授,xufeng@nankai.edu.cn.