胡晴玥, 李德志, 劉 箐
(上海理工大學 健康科學與工程學院,上海 200093)
病毒是地球上數(shù)量最多的生物實體,分布在生物圈的每一個角落,其中噬菌體是感染細菌的病毒,據(jù)估計在地球上的數(shù)量約為1031個,可能超過所有物種數(shù)量之和[1]。噬菌體廣泛存在于身體的各個部位,如皮膚、口腔、肺部、腸道和尿道[2],其中腸道中噬菌體數(shù)量尤為龐大,研究估計健康成人的每克糞便約有109~1010數(shù)量級的噬菌體[3-4]。一方面,腸道噬菌體通過與宿主細菌的相互作用,調(diào)節(jié)腸道菌群的結(jié)構(gòu),如消滅宿主細菌,傳遞新的細菌表型,調(diào)節(jié)細菌群落組成以及基因表達和進化,進而影響動物宿主的生理健康[5];另一方面,噬菌體與哺乳動物細胞的病毒有一些共同特征,可被先天宿主受體(如Toll樣受體家族)識別,調(diào)節(jié)免疫系統(tǒng)[6]。腸道噬菌體通過胞吞轉(zhuǎn)運的方式跨過腸道上皮細胞進入動物宿主體內(nèi)血液、淋巴、器官甚至大腦,直接與體內(nèi)的細胞及器官相互作用,進而直接影響哺乳動物免疫系統(tǒng)和生理健康[7]。早期研究人員從腸道微生物群出發(fā),探索并奠定了腸道微生物對人體健康及功能的重要作用,提出了健康的腸道微生物群(Healthy gut microbiome)這一概念[8]。而腸道噬菌體對哺乳動物的生理健康同樣有著不可忽視的重要影響,因此有學者受到啟發(fā),從噬菌體的角度出發(fā),提出健康的腸道噬菌體群(Healthy gut phageome),發(fā)現(xiàn)不同動物個體間噬菌體差異較大,但在健康個體間存在著一些共有噬菌體,組成健康腸道噬菌體組 (Phageome)。雖然腸道內(nèi)噬菌體對人體健康以及疾病治療有著重要的作用,但是對噬菌體的了解相對于其宿主細菌而言只是些零星的數(shù)據(jù)[9-10],主要原因:①傳統(tǒng)實驗室培養(yǎng)方法的局限;②噬菌體基因組的特殊特性;③相較于細菌而言缺乏通用的基因標記;④病毒組數(shù)據(jù)庫非常不完善,超過80%的病毒缺少數(shù)據(jù)庫信息,早期研究發(fā)現(xiàn)大多數(shù)已鑒定的腸道噬菌體與數(shù)據(jù)庫中的序列沒有同源性,不同研究之間變異性很高[10];⑤缺乏病毒分析標準。隨著高通量測序和生物信息學以及機器學習技術的發(fā)展,許多以研究病毒組為目的的生物信息分析軟件的開發(fā)與應用,使得研究人員可以深入探尋腸道噬菌體對人體的影響。Gregory等[11]整合來自32個研究項目的2 697個腸道宏基因組,含有33 242個病毒群(長度大于5 kb),覆蓋來自16個國家的1 986名個體,構(gòu)建了人類腸道病毒基因組數(shù)據(jù)庫(Human Gut Virome Database,GVD)。為了進一步推進對腸道噬菌體多樣性、進化分支以及全球分布情況的分析,Camarillo-Guerrero等[12]將來自6個大洲28個國家的28 060個人類腸道宏基因組,共142 809個非冗余噬菌體基因組和2 898個培養(yǎng)的腸道細菌基因組匯編入腸道噬菌體數(shù)據(jù)庫(GPD),揭示了噬菌體的多樣性以及宿主腸道細菌范圍,類似病毒數(shù)據(jù)庫的建立和逐步完善幫助原始數(shù)據(jù)在下游分析過程中進行分類和功能注釋,提高了分析的準確性。通過生物信息學技術,可以揭示噬菌體的多樣性、進化分支、相應宿主細菌以及功能,了解腸道噬菌體組在疾病中的角色,進而為疾病的診斷與治療提供新的策略。腸道宏噬菌體組學的分析流程包括以下步驟:①原始數(shù)據(jù)質(zhì)量控制和預處理,主要是過濾接頭序列、低質(zhì)量序列(quality scores<30),以及來自宿主動物或細菌等其他非病毒基因組序列;②腸道宏噬菌體組的拼接組裝;③評估組裝質(zhì)量;④類病毒顆粒的篩選以及系統(tǒng)分類和功能注釋;⑤進化分析和預測宿主細菌。對于腸道噬菌體組的相關研究學者,尤其是沒有生物信息學背景的研究人員來說,選擇合適的軟件和分析方法成為一項挑戰(zhàn)。本文將概述現(xiàn)階段腸道噬菌體組數(shù)據(jù)分析主流的方法和思路,并對涉及到的軟件工具和數(shù)據(jù)庫進行詳細介紹(圖1)。
圖1 腸道噬菌體組生物信息分析流程Fig.1 Bioinformatics analysis workflow of gut phageome
樣品測序后得到的原始數(shù)據(jù)(raw data)中包含許多非噬菌體基因組序列,例如構(gòu)建文庫時所產(chǎn)生的接頭序列、引物序列和在提取噬菌體過程中殘留的宿主基因等其他非病毒基因,以及由于測序錯誤而產(chǎn)生的低質(zhì)量序列,非目標基因序列的存在會影響后續(xù)的下游分析,為避免分析結(jié)果受到影響,需要將這些序列去除。最常見的質(zhì)量分析評估軟件為FastQC,在Windows、Linux和Mac操作系統(tǒng)中均可使用,F(xiàn)astQC是基于Java所編譯的,輸出的結(jié)果以網(wǎng)頁HTML的形式呈現(xiàn)。通過質(zhì)量評估得出的結(jié)果對數(shù)據(jù)進行相應的預處理。Cutadapt[13]是常用的數(shù)據(jù)預處理軟件,可以去除接頭序列和超出指定范圍長度的序列以及低質(zhì)量序列(序列中含有較多的“N”),支持FASTA和FASTQ格式的文件輸入和輸出。在研究過程中常使用Minion[14]預測原始數(shù)據(jù)中的未知接頭序列,其默認輸入格式為FASTQ,需要將預測結(jié)果通過NCBI上的BLASTN與核酸數(shù)據(jù)庫進行比對,確定其為生物學序列后再使用Cutadapt將其除去。AfterQC[15]是用Python開發(fā)的質(zhì)控軟件,可以發(fā)現(xiàn)并糾正絕大部分的錯誤序列,并具備高度自動化的數(shù)據(jù)過濾功能,還提供了校正重疊區(qū)域錯誤堿基以及預估序列錯誤率的功能,AfterQC可以自動檢測和設置所有選項,大多數(shù)情況下的運行過程不需要添加參數(shù)和選項,方便研究人員使用。Trimmomatic[16]是適用于Illumina測序數(shù)據(jù)的質(zhì)量控制過濾工具,常作為功能性軟件嵌合在16S擴增子測序分析流程中[17],也可用于宏基因組數(shù)據(jù)前期的質(zhì)量過濾和序列修剪。Fastp[18]是同時具備FastQC、Cutadapt、 Trimmomatic、AfterQC 四款軟件中主要功能的數(shù)據(jù)前處理工具(表1),區(qū)別于前面提到的使用Java和Python編寫的軟件,F(xiàn)astp使用C/C++語言匯編而成,可以實現(xiàn)多線程運行,運行速度比同類軟件快2~5倍。
由于樣本中含有一定比例的動物宿主基因,所以需要去除宿主基因或其他污染序列,再進行后續(xù)分析。通常使用比對參考基因組的方式識別其他來源的基因組,使用Bowtie2[19]、BWA[20]、BLAST[21]將數(shù)據(jù)與宿主參考基因組比對,識別出的污染序列可使用samtools[22-23]工具去除。FastQ Screen[24]同時包含質(zhì)量控制和去除非病毒來源污染基因組的功能,可以同時比對多種不同來源的參考基因組,通過嵌套Bowtie1、Bowtie2、BWA三款序列比對軟件包來識別其他污染序列,結(jié)果以文本和圖形兩種形式展現(xiàn)。MultiQC[25]可將所有樣本的輸出信息匯集到一個表格及圖形文件中,便于研究人員比較樣本間數(shù)據(jù)質(zhì)量差異,在腸道噬菌體的分析中常用于對數(shù)據(jù)分析流程處理結(jié)果的評估。Aozan[26]通過嵌套FastQC、MultiQC、FastQ Screen三款工具,可自動處理原始數(shù)據(jù)(表2)。
表1 質(zhì)量控制軟件的數(shù)據(jù)輸入輸出格式和特點
表2 原始測序數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)前處理軟件工具
續(xù)表2
原始序列經(jīng)過質(zhì)量控制及預處理后得到的短序列需要拼接組裝成較長的序列(contigs)才能進行后續(xù)的物種注釋等下游分析?;虻慕M裝算法主要分為Comparative組裝和Denovo組裝兩類,Comparative組裝是利用參考數(shù)據(jù)庫中的同源序列來指導新基因組的構(gòu)建;Denovo組裝是將大量(短或長)DNA片段重新組裝的方法,無需預先知道這些DNA片段的正確序列或順序,在沒有參考序列的情況下對未知基因組進行序列拼接[28]。由于目前數(shù)據(jù)庫對自然界病毒種類的覆蓋率不到20%,許多噬菌體在參考數(shù)據(jù)庫中很難找到同源物,所以針對腸道噬菌體宏基因組的研究主要是通過Denovo組裝來進行后續(xù)的下游分析。Denovo組裝軟件根據(jù)不同的策略主要分為三類:①基于Greedy策略的組裝,這種方法在早期的基因組研究中比較常見,代表軟件有TIGR[29]、VCAKE[30],此類組裝策略的缺點是在合并reads或contigs的過程中過度注重局部序列最優(yōu)化的選擇而忽視序列之間的整體關系,從而導致在重復序列的組裝中會出現(xiàn)錯誤;②基于Overlap-Layout-Consensus策略的組裝,適用于較長reads的測序數(shù)據(jù)(Sanger、PacBio、Nanopore),常用的代表軟件有Celera Assembler[31]、Canu[32]、Falcon[33]、Arachne[34]、MIRA[35]。Celera Assembler的出現(xiàn)極大推動了基因組學的研究,多細胞生物的第一個全基因組霰彈槍測序序列[36]和人類個體第一個二倍體序列[37]就是由Celera Assembler組裝完成的。Canu是Celera Assembler的一個分支,適用于高噪聲的單分子測序(PacBio RSII和Oxford Nanopore)。Falcon適用于復雜基因組的組裝。MIRA和Arachne支持拼接組裝全基因組霰彈槍序列;③基于DeBruijnGraph策略的組裝,適用于序列長度較短的Illumina等二代測序數(shù)據(jù),是分析腸道噬菌體組中最常用的一種組裝策略,常用的軟件有IDBA-UD[38]、SPAdes[39]、Megahit[40]、SOAPdenovo2[41]、SKESA[42]。IDBA-UD適用于組裝測序深度不均勻的短讀長序列,使用多個深度相對閾值來過濾低深度和高深度區(qū)域的錯誤k-mers,以及采用雙端局部組裝技術解決低深度短重復區(qū)域的分支問題,準確性要高于其他同類的短序列組裝軟件,但資源消耗較高。Megahit采用了簡潔版的DeBruijngraph算法,在運行時間和內(nèi)存需求方面相對于其他同類組裝軟件具有優(yōu)勢,適用于組裝大型復雜的宏基因組數(shù)據(jù),在大量樣本混合組裝方面優(yōu)勢明顯,運行速度很快,對硬件設備資源的消耗少(需要運行內(nèi)存約30 G)。SOAPdenovo常用來組裝許多大型真核生物基因組,也可用于細菌和病毒基因組的組裝,SOAPdenovo2在SOAPdenovo的基礎上改進了糾錯算法,減少DeBruijnGraph構(gòu)造過程中的內(nèi)存消耗,在contigs組裝中能夠解析較長的重復區(qū)域,并且組裝得到的contigs數(shù)量較多,增加了組裝長度和scaffolding的覆蓋范圍,適用于較大基因組的短序列組裝,組裝速度快,但是錯誤率較高。SPAdes是應用最廣泛、各項指標參數(shù)最突出的組裝工具,提供了很多樣品類型的分析技術,當前版本適用于Illumina和IonTorrent測序數(shù)據(jù),并且支持PacBio、Nanopore和Sanger測序數(shù)據(jù)的混合組裝,SPAdes由八種不同的組裝流程包構(gòu)成,用于宏基因組和宏轉(zhuǎn)錄組的組裝,可以從宏基因組數(shù)據(jù)集中組裝質(zhì)粒和生物合成基因簇,其中內(nèi)嵌的metaSPAdes[43]包是目前宏基因組領域組裝指標較好的軟件,組裝得到的contigs數(shù)較多,不足之處是拼接時間較長,運行過程設備的資源消耗較高,需要較大的運行內(nèi)存(約250 G),適用于對腸道噬菌體組進行拼接。SKESA是近幾年新開發(fā)的組裝軟件,適用于Illumina測序數(shù)據(jù)的組裝,可以過濾污染序列,得到的contigs具有較高的質(zhì)量和連續(xù)性,其運行速度相較于SPAdes、MEGAHIT有明顯的提升,組裝得到的N 50平均長度高于上述常用的兩種拼接軟件,并且組裝錯誤率較低,現(xiàn)階段主要用于拼接SRA數(shù)據(jù)庫中的微生物基因組,并且嵌套于Pathogen Detection Project(PDP)分析流程中。序列組裝完成后通常需要評估組裝質(zhì)量,常用的工具有QUAST[44]、MetaQUAST、CheckV。QUAST支持FASTA格式的contigs和參考序列以及FASTQ、SAM和BAM格式[45]的數(shù)據(jù),QUAST融合了現(xiàn)有軟件(Plantagora、 GAGE、 GeneMark.hmm[46]、GlimmerHMM[47])的質(zhì)量度量方法,并對其進行了擴展,既可以通過比對參考基因組來評估已知物種的組裝質(zhì)量,也可以計算評估缺少參考基因組的未知物種,評估結(jié)果以圖表的形式輸出。MetaQUAST[48]是在QUAST基礎上衍生出的更加先進的宏基因組組裝評估軟件,可以同時比對多個參考基因,并制作多個基因組的組裝質(zhì)量評估圖表,在分析評估常見的未知物種時,會自動檢測并從NCBI數(shù)據(jù)庫中下載相近的同源參考序列以提高評估準確性,可以檢測嵌合序列并報告“種間裝配錯誤”。CheckV[49]可以自動評估宏病毒組組裝的完整性和病毒組single-contig中的宿主污染情況,通常將CheckV與MetaQUAST結(jié)合使用以準確評估噬菌體組的組裝質(zhì)量(表3)。
表3 病毒基因組的拼接組裝和評估序列組裝質(zhì)量工具
組裝后的基因組需要確定其是否為噬菌體序列,因此需要注釋和篩選出病毒基因組,對噬菌體組進行系統(tǒng)分類和注釋是功能分析的關鍵步驟,也是研究腸道噬菌體的重要問題[50]。系統(tǒng)分類和注釋的方法根據(jù)原理不同可分為兩類,一類是基于將序列或組裝得到的contigs與參考數(shù)據(jù)庫進行比對,常用BLAST中的tBLASTx、BLASTn、BLASTx[51]工具對序列進行比對注釋,或?qū)⒔M裝得到的scaffolds與NCBI中的Refseq virus數(shù)據(jù)庫進行比對(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/viral)。國際病毒分類委員會(ICTV)存儲了病毒分類、分類單元名稱和相關的宏病毒組數(shù)據(jù),包括每個已命名物種的示例病毒信息,ICTV官方網(wǎng)站(https://talk.ictvonline.org/)內(nèi)含病毒分類數(shù)據(jù)庫,對每種經(jīng)過定義的病毒鏈進行了完整的描述[52]。pVOGs[53](Prokaryotic Virus Orthologous Groups)數(shù)據(jù)庫包含近3 000個完整的原核宿主病毒基因組(超過97%為噬菌體)和9 518個直系同源組,該數(shù)據(jù)庫可以應用于分析已知噬菌體的進化分類、了解病毒蛋白家族的歷史、噬菌體基因組的重建以及幫助特征不佳的基因組注釋同源基因。IMG/VR[54](The Integrated Microbial Genome/Virus)是目前最大的致力于研究病毒組學的公共數(shù)據(jù)管理和分析平臺,最新版本的IMG/VR包含18 373個已培養(yǎng)和2 314 329個未培養(yǎng)的病毒基因組,可以進行基因組的注釋以及預測宿主細菌分類,支持用戶根據(jù)基因組特征或序列相似性高效地瀏覽、搜索和選擇未培養(yǎng)的病毒基因組。PHASTER[55]是用于對細菌和質(zhì)粒中的前噬菌體進行快速鑒定和注釋的網(wǎng)頁服務器,輸入文件支持FASTA格式的原始核酸序列或GenBank格式的已注釋基因組數(shù)據(jù),也可以通過數(shù)據(jù)庫中的序列編號對相應參考序列進行分析,分析結(jié)果以圖表的形式直觀展現(xiàn),PHASTER提供用戶友好型的圖形交互界面便于研究人員使用,不足之處是單次上傳的文件大小不能超過40 M,需要使用腳本將FASTA文件分為多個小文件,并且網(wǎng)頁服務器運行不穩(wěn)定。
由于噬菌體基因組系統(tǒng)發(fā)育受到類群內(nèi)廣泛的水平基因轉(zhuǎn)移和基因組模塊化的損害,導致環(huán)境樣本中大量的噬菌體顆粒復雜化增加,使得在參考數(shù)據(jù)庫中查找噬菌體的同源序列變得非常困難[56],并且相關數(shù)據(jù)庫包含的信息有限,采用同源序列比對的方法會有大量序列被標記為“未知”[57]。為解決這些難題,許多分析工具使用機器學習或深度學習的算法來進行病毒的系統(tǒng)分類和注釋,有效解決了基于參考數(shù)據(jù)庫和同源序列比對的方法不能從宏基因組數(shù)據(jù)中識別未知病毒或短病毒序列的問題。Prophage Hunter[58]提供一站式的網(wǎng)絡服務,從細菌中提取原噬菌體基因組并評估其活性,識別系統(tǒng)遺傳學相關的噬菌體,并注釋噬菌體蛋白功能,Prophage Hunter在建庫的過程中采用了基于序列相似性的搜索和噬菌體遺傳特征的機器學習分類算法,能夠識別參考數(shù)據(jù)庫之外的未知噬菌體。更多的宏基因組功能注釋方法可參考Prakash等[50]的文章。MARVEL[59]采用隨機森林機器學習的方法來預測篩選宏基因組數(shù)據(jù)中的雙鏈DNA噬菌體,篩選結(jié)果具有較高的準確性。RNN-VirSeeker[60]是基于長短期記憶網(wǎng)絡模型構(gòu)建的病毒識別軟件,模型通過數(shù)據(jù)庫進行訓練,軟件可以自動查詢基因組的高級特征,并根據(jù)softmax層的評分來預測病毒序列,在識別篩選較短的病毒序列(<500 bp)和人體腸道宏噬菌體組時具有較高的準確性。VirSorter[61]是基于隱馬爾科夫模型(Hidden Markov model,HMM)建立的,能夠以較高的準確性檢測多種類型微生物的較短(3 kb)組裝序列(contigs)中的病毒信號,使用RefSeqABVir或Viromes[62]作為參考數(shù)據(jù)庫。VIBRANT[63]使用混合機器學習和蛋白質(zhì)相似性方法,從宏基因組組裝序列中表征病毒群落功能,突出病毒輔助代謝基因和代謝途徑,利用蛋白質(zhì)特征的神經(jīng)網(wǎng)絡和新開發(fā)的v-score度量標準,可以最大限度地識別裂解噬菌體基因組,包括高度多樣化的噬菌體組。病毒和宿主有明顯不同的k-mer特征,通過基因組k-mer頻率分布來發(fā)掘病毒基因是常用的篩選腸道噬菌體組的分類鑒定方法,這類方法的代表軟件是VirFinder[64],它是第一個使用k-mer頻率的機器學習方法來篩選病毒序列。ViraMiner[65]包含了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)的兩個分支,用于檢測原始宏基因組contigs中病毒模式和模式頻率,可以從不同人類樣本的原始宏基因組序列中檢測噬菌體序列。DeepVirFinder[66]同樣采用卷積神經(jīng)網(wǎng)絡的深度學習方法來自動學習病毒基因組特征,并同時基于這些基因組特征建立預測模型來判斷序列是否源自噬菌體基因組,在研究分析中,通常將MARVEL與DeepVirFinder組合使用的準確性和覆蓋率較高(表4)。
表4 類病毒基因組的篩選、系統(tǒng)分類注釋軟件以及常用的病毒數(shù)據(jù)庫
腸道噬菌體對相應宿主細菌群落的調(diào)節(jié)和生化作用會直接或間接的影響哺乳動物生理健康,了解噬菌體-宿主的感染性,對于從微生物群系出發(fā)理解噬菌體對細胞生命的影響以及它們作為腸道生態(tài)系統(tǒng)的重要組成部分至關重要。研究人員發(fā)現(xiàn)整合到宿主基因組的溶原噬菌體擁有與宿主細菌tRNA基因完全匹配的附著位點[67],因此Bellas等[68]將噬菌體基因組scaffolds通過BLASTN比對到tRNADB-CE數(shù)據(jù)庫中,用匹配tRNA的方法在門或綱的水平上推測宿主細菌。Boeckaerts等[69]通過構(gòu)建受體結(jié)合蛋白(RBP)序列數(shù)據(jù)庫,使用機器學習的方法在種水平上預測噬菌體的宿主細菌。Young等[70]結(jié)合噬菌體基因組的k-mer組成和蛋白結(jié)構(gòu)域,開發(fā)了一種新的預測宿主細菌的計算框架,通過研究噬菌體基因組的核苷酸、氨基酸特性和蛋白質(zhì)結(jié)構(gòu)域等特征,并結(jié)合這些互補特征,提高宿主預測的準確性,認為感染同一宿主的噬菌體之間進化關系所產(chǎn)生的系統(tǒng)發(fā)育信號也可以被預測,這是由于在共同進化過程中盡管發(fā)生了頻繁的宿主切換,但病毒和宿主系統(tǒng)發(fā)育樹傾向于一致。Villarroel等[71]開發(fā)了HostPhinder工具,該工具通過比較k-mers,根據(jù)基因組相似性預測噬菌體的細菌宿主,HostPhinder支持交互式網(wǎng)站服務。Ahlgren等[72]利用基于病毒和宿主寡核苷酸頻率模式來預測給定病毒的宿主細菌,并且提供了VirHostMatcher程序用于計算寡核苷酸頻率(ONF)分數(shù)以及結(jié)果的可視化。Galiez等[73]開發(fā)的WIsH軟件使用齊次馬爾可夫模型(Homogeneous Markov Model)預測噬菌體contigs中的細菌宿主,WIsH可以快速準確的預測短噬菌體序列的宿主。Leite等[74-75]基于噬菌體和宿主細菌結(jié)構(gòu)域相互作用的得分情況和蛋白質(zhì)一級結(jié)構(gòu)信息,應用機器學習的方法預測相應宿主細菌。Lu等[76]推出了原核病毒宿主預測器(Prokaryotic Virus Host Predictor,PHP),利用病毒和宿主基因組序列之間的k-mer頻率差異作為特征來預測原核病毒,PHP是使用高斯模型構(gòu)建的交互式網(wǎng)頁服務器,輸入文件支持FASTA格式的純核酸序列。相關機器學習的方法在識別噬菌體宿主細菌方面的應用研究請參考Nami等[77]的文章。也有學者通過單細胞病毒熒光標記的實驗方法來預測和鑒別人類腸道中噬菌體相應的宿主細菌[78],而生物信息軟件利用噬菌體和宿主細菌之間共有的生物特征或生物大分子模式通過機器學習的方法來預測宿主細菌,相較于實驗方法可以在短時間內(nèi)大批量分析鑒別多個樣本中的噬菌體宿主細菌,提高研究效率,避免實驗操作中出現(xiàn)的誤差。
系統(tǒng)發(fā)育分析用于研究基因或物種之間的歷史關系,并以分支圖的形式描述這些關系,稱為系統(tǒng)發(fā)育樹(Phylogenetic analysis)。構(gòu)建系統(tǒng)發(fā)育樹常用的軟件有MEGA[79]、ggtree[80]、FastTree[81]、Cytoscape[82],數(shù)理統(tǒng)計分析及可視化展現(xiàn)通常使用R語言來完成,常用的R包有ggplot2、ggplot、ggiraph、ggfortify,有關使用R語言進行數(shù)據(jù)分析的詳細內(nèi)容可參考Chan[83]的文章。IMP[84](Integrated Meta-Omics Pipeline)是基于Denovo組裝的開源生物信息分析流程,可對多組學數(shù)據(jù)集進行標準化、自動化、可重復的大規(guī)模集成分析,IMP嵌套了多種生物信息分析工具用于實現(xiàn)流程一體化運行,包含的功能有原始數(shù)據(jù)的預處理、宏基因組或宏轉(zhuǎn)錄組數(shù)據(jù)的迭代共組裝、微生物群落結(jié)構(gòu)和功能的分析、自動裝箱分類以及基于基因組特征的可視化展現(xiàn)(表5)。
表5 預測相應宿主細菌和構(gòu)建系統(tǒng)發(fā)育樹的軟件工具
腸道內(nèi)存在大量噬菌體,它們在調(diào)節(jié)腸道微生物群落動態(tài)平衡,動物宿主的生理機能與免疫系統(tǒng)中發(fā)揮著至關重要的作用。隨著高通量測序技術的發(fā)展以及相應生物信息分析軟件的開發(fā)與應用,使許多腸道病毒基因組數(shù)據(jù)可以被獲取,相關數(shù)據(jù)庫可以覆蓋種類更加豐富的病毒基因組,如GPD、ICTV、pVOGs、MG/VR、Viromes等數(shù)據(jù)庫的出現(xiàn),讓人們對腸道噬菌體以及其對腸道菌群和宿主生理健康的影響有了更廣泛的認識。本文主要對腸道噬菌體宏基因組的分析流程和所需的相關工具軟件以及數(shù)據(jù)庫進行綜述。機器學習和數(shù)理統(tǒng)計算法的興起,使得腸道噬菌體組的分析不再僅局限于使用參考數(shù)據(jù)庫和序列比對的方法,但是對噬菌體功能注釋和篩選的準確性要低于序列比對得出的結(jié)果。并且宏基因組的數(shù)據(jù)量一般較大,在一些分析步驟中(如序列拼接組裝和序列比對)會占用較大的內(nèi)存和主存(RAM)空間,硬件配置較低的計算機在運行過程中會因此報錯,且運行時間較長。病毒基因變異性強,只依據(jù)機器學習算法篩選噬菌體基因組或?qū)ζ溥M行功能分析會有較大的誤差。因為許多腸道細菌不能通過傳統(tǒng)的體外培養(yǎng)技術存活,所以這些腸道細菌對應的噬菌體無法有效分離純化,進而造成運用傳統(tǒng)的分離-純化-測序的研究思路分析噬菌體存在一定的局限性。腸道噬菌體組學另辟蹊徑,避開分離純化這個步驟,直接分析腸道噬菌體的結(jié)構(gòu)和組成,具有一定的先進性,但是需要將生物信息分析與實驗觀察分析相結(jié)合,以提高結(jié)果的準確性。目前大多數(shù)噬菌體的功能特性仍然無法得到解釋,測序方法得到的噬菌體組序列大部分是新序列,噬菌體組的分類和功能注釋依賴于病毒序列數(shù)據(jù)庫,而數(shù)據(jù)庫中記錄的病毒信息是通過實驗培養(yǎng),質(zhì)譜分析和分子生物學研究等得出的結(jié)論,其宿主范圍,詳細的生物功能和形態(tài)記錄只能通過實驗培養(yǎng)噬菌體來明確[86],體外培養(yǎng)噬菌體技術的限制導致現(xiàn)有的數(shù)據(jù)庫無法對許多新噬菌體組序列進行分類和功能注釋,這也是噬菌體組研究目前面臨的瓶頸,并且需要開發(fā)通過更加精簡的算法和腳本構(gòu)建而成的生物信息分析工具,以減少軟件在運行過程中對硬件的消耗。