陳鳳珍,李 玲, 操利超, 嚴志祥
( 深圳華大基因研究院, 深圳 518083)
?
四種常用的生物序列比對軟件比較
陳鳳珍,李玲, 操利超, 嚴志祥*
( 深圳華大基因研究院, 深圳 518083)
摘要:隨著高通量測序技術的快速發(fā)展,下一代測序技術也迅速發(fā)展為生物領域中的主流技術,而理解下一代測序數據最重要的一步是比對。比對是進行后續(xù)生物信息分析的基石,也因此催生了很多比對軟件。本文主要選取了四種常用的比對軟件Bowtie2、BWA、MAQ和SOAP2,對這四種軟件及算法進行綜述,并通過實際測序數據對四種軟件進行比較和評估,為生物學研究者選擇最佳的短序列比對軟件提供理論和實踐依據。
關鍵詞:下一代高通量測序; 比對軟件; 生物信息
1引言
隨著新一代測序(Next-generation sequencing,NGS)的蓬勃發(fā)展,核酸測序成本已大大降低,高通量測序方法已被廣泛應用到DNA測序[1]、RNA測序[2]、表觀遺傳測序[3-4]等研究。然而,無論使用何種生物測序技術和研究方法,理解這些數據的最重要的一步是序列比對分析。序列比對是將已有基因組序列作為參考基因序列(Reference),將短序列與參考基因序列進行序列比對, 并在參考基因序列上進行精確定位。通過序列比對可以發(fā)現生物序列中的功能、結構和進化的信息。目前已有上百種序列比對工具,面對如此多的比對工具,很多生物信息分析人員通常自由的選擇比對工具,而沒有考慮到比對工具的特點,準確性等。然而,不同的比對軟件,對同一個數據集都有可能得出大相徑庭的結果[5];同一算法設置不同的參數,其結果也相差很巨大。如果選擇了一個不合適的工具,將導致結果偏差甚至是錯誤,可能得到錯誤的研究結論。因而選擇合適的比對工具,對于生物研究而言顯得特別重要。
在Nuno A. Fonseca等人[6]的對60多種比對軟件比較統(tǒng)計分析中,發(fā)現Bowtie2[7]、BWA[8]、MAQ[9]和SOAP2[10]被引用的次數相對其他幾十種軟件較多,其中Bowtie2引用率(Citations/Years)為363.42,BWA為224.20,MAQ為251.66,而SOAP2為99.38,SOAP2的前版本SOAP為104.41。因而在本研究中,主要選取了這四種常見的比對工具進行評估比較。根據比較結果分析,Bowtie2、BWA和SOAP2處理高通量短序列數據比對問題時,計算速度快,內存使用量低,具有高效的實用性;在同等條件下,MAQ的運行速度較慢。 Bowtie2、BWA的比對率相比于SOAP2和MAQ高。BWA軟件與Bowtie2軟件比對的重復率較高,MAQ較低。
2四種比對軟件及算法
2.1四種比對軟件介紹
Bowtie2是一個超高速的,節(jié)約內存且靈活與成熟的短序列比對軟件,比較適合下一代測序技術。通常使用全文分索引(FM-index)以及Burrows-Wheeler 變換(BWT)索引基因組使得比對非??焖偾覂却娓咝?,但是這種方法不適合于找到較長的、帶缺口的序列比對。
BWA主要應用二代測序后的大量短小片段與參考基因組之間的定位比對。需要先對參考序列建建立索引,BWA也是基于 BWT和 FM-Index 理論來對參考基因組做索引。根據測序方法的不同,有單末端序列(Single-end,SE)比對和雙末端序列(Pair-end,PE)比對。
MAQ是使用質量分數推導序列和比對序列的一致性的短序列比對工具,并且MAQ充分利用配對信息,估計每個比對read的錯誤的概率,同時也使用貝葉斯統(tǒng)計模型來評估最后的基因型錯誤概率。
SOAP2是短寡核苷酸比對程序(Short Oligonucleotide Alignment Program)的一個顯著改進版本,它減少了計算機內存使用,并極大地提高了比對速度。SOAP2使用一個Burrows Wheeler Transformation(BWT)壓縮索引替代種子策略在主存儲器中索引參考序列。SOAP2適合于單末端片段和雙末端片段。此外,該工具也支持多種文本和壓縮文件格式。
2.2四種比對軟件算法
對于成千上萬條的短序列的比對分析,目前,大多數算法是通過建立索引來加快比對的速度。常用的數據結構有哈希表法和基于BWT (Burrows-wheeler transform) 的后綴樹兩種。
哈希表法的算法核心思想是采用種子序列定位及延伸算法(Seed-and-extend algorithm)[11],通過掃描參考基因組序列,對參考基因組序列建立哈希表,將序列分成一定長度的小片段,這種小片段也被稱之為種子。然后,在目標序列中查找和種子序列相同的片段并標記,以這些標記點為錨點向左右按一定規(guī)律延伸比對,將不合條件的舍棄,符合條件的結果將輸出保存。采用基于哈希表數據結構的比對算法的軟件包括MAQ。
羅樓組以泥巖為主,兼有火山碎屑巖,可分下段和上段。下段主要由泥巖組成。底部夾少量泥質灰?guī)r,下部夾有一層厚約1 m的玻屑凝灰?guī)r,中、上部夾凝灰質泥巖,泥巖呈灰-深灰色,薄層狀,主要由水云母(95%~98%)組成,含少量石英(1%~5%)和微量鐵質和有機質;下部泥巖時見生物潛穴遺跡。
后綴樹法是一種n叉樹,n為字母表大小。每個節(jié)點表示從根節(jié)點到此節(jié)點所經過的所有字符組成的字符串,它的根結點不包含任何信息,是一種以犧牲存儲空間來降低序列查詢時間的字符串預處理方式。為了提高空間利用率,Ferragina 和Manzini 提出了FM (Full-text minute-space)-index 算法,FM是一種基于BWT (Burrows-wheeler transform)的全文本壓縮索引結構, BWT算法是通過統(tǒng)計基因組序列中各個堿基出現次數,將相同堿基盡量排列在一起,壓縮基因組序列的索引數據結構,將基因組序列的索引數據結構重排列,實現短序列在基因組中候選位點的快速搜索,減少內存占用率。例如人類基因組約3GB,若不使用FM-index將要用12GB內存存儲,超過了計算機內存使用限度,而如果使用FM-index, 每隔數行建立一個索引,人類基因組占用的內存可縮小到約1.3GB,這樣普通的計算機就可以進行分析。采用BWT轉換的軟件有Bowtie2和SOAP2,BWA。
雖然Bowtie2、SOAP2和BWA都采用了BWT算法,然而三種軟件還有差別。其中Bowtie2采用Ferragina 和Manzini 提出的FM (Full-text minute-space)-index算法,為基因組序列創(chuàng)建具有后綴矩陣特性的 FM 索引數據結構,實現短序列的快速搜索;SOAP2則采用的是 BWT 算法壓縮基因組序列哈希表索引數據結構進行精確匹配,采用“分割短序列策略”(Split-read strategy)進行不精確匹配,比對速度顯著提高且內存使用量顯著地降低。最后,BWA 軟件是采用 BWT 算法壓縮來構建基因組序列前綴樹(Prefix tree)數據結構,通過對壓縮數據結構自頂向下遍歷進行反向搜索,其比對計算過程中內存覆蓋區(qū)域相對較小,計算時間并不隨基因組的大小而變化。
基于哈希表法和基于BWT的后綴數法數據結構的算法都有利于提高比對效率,區(qū)別在于哈希表法占用的內存空間大,產生的種子匹配多,然而哈希表法具有較高的匹配敏感性和準確性。有利于發(fā)現SNPs和突變??捎糜诰植科ヅ浠驈拇罅繑祿兴阉髌ヅ潼c以及跨物種序列間的比對。而后綴樹法可以有效減少不精確匹配,并可避免比對過程中做無用功,這個特點適用于相同物種之間相似性高的序列比對和尋找保守區(qū)。
2.3四種比對軟件比較
選擇合適的軟件要根據軟件適用的數據類型,適宜測序平臺,數據格式,適宜的reads長度等進行全面考慮,做出選擇。表1中對四種比對軟件分析的序列類型,可用于分析的測序平臺,輸入和輸出數據格式,最小和最大reads長度及軟件是否開源進行了詳細的分析和比較。從表中可以看出在適宜測序平臺方面,SOAP2就受到限制,只適用于Illumina平臺,BWA適用的平臺最廣。在適宜的reads長度方面,BWA、MAQ適用的范圍較窄。最后,根據軟件的輸入輸出格式,MAQ的適用范圍更廣。
表1 四種比對軟件比較
3軟件評估實驗
3.1實驗數據
3.2軟件運行環(huán)境
32G內存,16核處理器,linux操作系統(tǒng)服務器。
3.3結果評估
四種軟件的比對率和時間消耗如表3。從表3可以看出BWA和Bowtie2的比對率較高,而SOAP2的時間更高效,MAQ相對來說較慢。
表2 實驗數據
表3 四種比對軟件比對率和比對時間
從四種軟件比對的reads重復數兩兩比較可以看出,Bowtie2和BWA比對上的reads重復數較高,Maq和其他三種軟件比對上的reads重復數較低,如圖1。將四種軟件同時比較時,發(fā)現BWA比對軟件和其他三種軟件不重復的reads數最少,只有62 134條,Bowtie2和其他三種軟件不重復的reads數最多,為466 792條,如圖2。
從實驗結果看出Bowtie2和BWA的比對率相比于SOAP2和MAQ高。BWA軟件與Bowtie2軟件比對的重復率較高,MAQ較低,可能與選取的實驗數據相關,本實驗選取的是高覆蓋度的HPV全基因組測序數據,BWA比對工具比較適合全基因組測序數據的比對分析。
4討論
通過比較和實驗研究發(fā)現,Bowtie2、BWA、MAQ和SOAP2四種軟件在處理高通量短序列數據比對問題時,計算速度較快,內存使用量較低,具有高效的實用性。 但是,這四種常用的分析軟件都只對短序列分析較為適合,然而,第三代測序技術正在快速的發(fā)展,必將成為未來的主流技術。第三代測序技術相比于第二代測序技術特點之一是讀長長。因而開發(fā)高準確性的適合第三代測序數據的長序列比對工具是未來研究的主題。
對于比對分析一個常見的問題是,哪一個分析工具是本研究最適合的。一個最好最適合的比對工具不光要考慮數據的類型,一個重要的方面包含比對工具是否和比對下游的分析和分析工具結合緊密,更包含比對的工具的速度和準確性。但是目前,評估一個比對工具的準確性和速度仍然很難,主要的困難是缺乏不同測序技術和研究方法的金標準數據集,因為不同的比對軟件,不同的數據集,數據類型,數據大小等都有可能導致比對準確度和時間偏差。因而創(chuàng)建適合的金標準數據集對于比對工具的評估和研究特別重要。
圖1 四種比對軟件比對上的讀長兩兩比較Fig. 1 The multiple compration of mapped reads using the selected software
圖2 四種軟件比對上的讀長比較Fig. 2 The compration of mapped reads using the selected software
5結論
對二代測序的四種常用比對軟件的算法進行了總結,并對四種軟件的適用性和性能等方面進行了對比,同時利用實際的基因組數據進行測試分析,歸納總結,給出軟件選擇的參考建議,為研究人員選擇適合的比對分析工具提供參考。
參考文獻
[1]MARDIS E R. Next-generation DNA sequencing methods[J]. Annual Review of Genomics and Human Genetics,2008, 9: 387-402.
[2]WANG ZHONG, GERSTEIN M, SNYDER M. RNA-Seq: a revolutionary tool for transcriptomics[J]. Nature Reviews Genetics, 2009, 10:57-63.
[3]PARK P J. ChIP-seq: advantages and challenges of a maturing technology[J]. Nature Reviews Genetics,2009, 10(10): 669-680.
[4]MEISSNER A, MIKKELSEN T S, GU H, et al. Genome-scale DNA methylation maps of pluripotent and differentiated cells[J]. Nature,2008, 454(7205):766-770.
[5]NEKRUTENKO A, TAYLOR J. Next-generation sequencing data interpretation: enhancing reproducibility and accessibility[J]. Nature Reviews Genetics, 2012, 13(9):667-672.
[6]FONSECA N A, RUNG J, BRAZMA A, et al. Tools for mapping high-throughput sequencing data[J]. Bioinformatics,2012, 28(24):3169-3177.
[7]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods,2012, 9(4):357-359.
[8]LI HENG, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics,2009, 25(14):1754-1760.
[9]LI HENG, RUAN JUE, DURBIN R. Mapping short DNA sequencing reads and calling variants using mapping quality scores[J]. Genome Research,2008, 18(11):1851-1858.
[10]LI Ruiqiang, YU Chang, LI Yingrui, et al. SOAP2: an improved ultrafast tool for short read alignment[J]. Bioinformatics,2009, 25(15):1966-1967.
[11]LI Heng, HOMER N. A survey of sequence alignment algorithms for next-generation sequencing[J]. Briefings in Bioinformatics,2010, 11(5):473-483.
Comparison of four common biological sequence alignment tools
CHEN Fengzhen, LI Ling, CAO Lichao,YAN Zhixiang*
(BGI-Shenzhen,Shenzhen518083,China)
Abstract:With the rapid development of high-throughput sequencing technology,Next-generation sequencing technology has rapidly developed into a mainstream technology in the biological field. Alignment is the key step in understanding the sequence data and also it is the cornerstone for bioinformatics analysis. And thus gave birth to a lot of alignment tools. In this paper, four common biological sequence alignment tools Bowtie2, BWA, MAQ and SOAP2 were selected to evaluate and compare using the whole genome sequencing data of HPV. And a comparison of four tools from many perspectives such as algorithm and suitable sequencing platforms was given. Hopefully the research can provide theoretical and practical basis for researchers to select the best biological sequence alignment tools.
Keywords:Next generation sequencing; Alignment tools; Bioinformatics
中圖分類號:Q-31
文獻標志碼:A
文章編號:1672-5565(2016)01-056-05
doi:10.3969/j.issn.1672-5565.2016.01.10
作者簡介:陳鳳珍,女,生物信息工程師;E-mail:chenfengzhen@genomics.cn.*通信作者:嚴志祥,男,博士,生物信息高級工程師;E-mail:yanzhixiang@genomics.cn.
基金項目:國家自然科學基金資助項目(U1301252)。
收稿日期:2016-01-19;修回日期:2016-03-08.