唐勇 劉旭
(1. 樂山職業(yè)技術(shù)學(xué)院,樂山 614000;2. 樂山豐野農(nóng)業(yè)科技有限責(zé)任公司,樂山 614000;3. 樂山市農(nóng)業(yè)局,樂山 614000)
以Sanger測序法[1]為代表的第一代測序技術(shù)為分子生物學(xué)研究帶來一場徹底的變革。Sanger測序技術(shù)已經(jīng)為分子生物學(xué)研究服務(wù)近40年,其為科學(xué)研究所作出的貢獻(xiàn)有目共睹。盡管第一代測序技術(shù)有著其不可替代的優(yōu)勢,但是其低通量的缺陷終究無法完全滿足研究需要。21世紀(jì),測序技術(shù)發(fā)展進(jìn)入快車道,第二代測序技術(shù)[2]和第三代測序技術(shù)[3]相繼問世。以 Roche/454[4]、Illumina/Solexa[5]等測序平臺為代表的第二代測序技術(shù)解決測序通量和測序價(jià)格問題,引起生命科學(xué)研究方法大變革[6],但是,第二代測序技術(shù)也遺留下測序讀長短的缺陷[7]。因此,為解決讀長問題而發(fā)明的第三代測序技術(shù)應(yīng)運(yùn)而生[3]。
目前主流的第三代測序技術(shù)主要包括牛津納米孔公司(Oxford Nanopore)的單分子納米孔測序技術(shù)(The single-molecule nanopore DNA sequencing)、Helicos公司的真正單分子測序技術(shù)(True singlemolecule sequencing,tSMS) 和 Pacific Biosciences(PacBio)公司的單分子實(shí)時(shí)測序技術(shù)(Single-molecule real-time,SMRT)[8]。其中,牛津納米孔技術(shù)有限公司開發(fā)的單分子納米孔測序技術(shù)以超長讀長和輕便見長[9],然而,由于其測序錯(cuò)誤率高達(dá)35%[10-11]無法在研究中推廣;Helicos公司的tSMS測序技術(shù)費(fèi)用偏高[12],項(xiàng)目基本處于停滯狀態(tài)。目前,最成熟的第三代測序平臺莫過于基于SMRT測序技術(shù)的PacBio系列平臺。
測序技術(shù)的發(fā)展對微生物研究的推動(dòng)作用明顯,尤其是不可培養(yǎng)的微生物和復(fù)雜環(huán)境微生物的研究[13-14]。目前,微生物研究依然以第二代測序技術(shù)為主。但是,隨著基于SMRT測序技術(shù)的PacBio系列測序平臺的進(jìn)一步成熟,其必將成為微生物研究者手中的另一柄利劍。因此,系統(tǒng)了解SMRT測序技術(shù)的特點(diǎn)及其在微生物研究中的應(yīng)用進(jìn)展,對微生物研究者具有指導(dǎo)意義。本文將介紹SMRT測序技術(shù)的原理和特點(diǎn),詳細(xì)列舉SMRT測序技術(shù)在微生物16S rRNA基因全長測序、宏基因組測序和微生物全基因組測序中的應(yīng)用,以及下游分析中存在的問題,旨為使用SMRT測序技術(shù)研究微生物的研究人員提供一定參考。
和其他兩個(gè)單分子測序技術(shù)原理一樣,SMRT測序技術(shù)也采用邊合成邊測序的策略。SMRT測序技術(shù)的核心是零模波導(dǎo)孔(Zero mode waveguide,ZMW),ZMW是直徑20-50納米的納米孔,底部固定有DNA聚合酶[15]。數(shù)百納米的激光照著DNA聚合酶所在的ZMW底部而發(fā)生衍射照亮狹小的范圍,從而剛好檢測到進(jìn)入ZMW底部的堿基所攜帶熒光基團(tuán),而避免背景干擾(圖1-A[16])。每個(gè)ZMW可以結(jié)合一個(gè)DNA模板,其測序過程(圖1-B[16])是:(1)DNA聚合酶捕獲DNA單鏈模板并結(jié)合在活性位點(diǎn)上;(2)被不同染料標(biāo)記的脫氧核苷酸進(jìn)入ZMW底部檢測區(qū)與聚合酶結(jié)合;(3)基于脫氧核苷酸在ZMW底部停留時(shí)間判斷是否匹配;(4)被標(biāo)記的磷酸基團(tuán)被切割并釋放[12]。
圖1 SMRT測序技術(shù)原理[16]
作為第三代測序的基本特點(diǎn),測序長度是SMRT測序技術(shù)的優(yōu)勢之一。Ferrarini等[17]使用PacBio RS平臺,P4/C2試劑對葉綠體基因組進(jìn)行測序,結(jié)果獲得平均reads長度為3 936.66 bp,一致序列的平均堿基錯(cuò)誤率為1.3%。Shearman等[18]使用最新的PacBio SR Ⅱ平臺和C4試劑測序,成功獲得長度大于26 kb的reads。理論上,在最新的PacBio SR Ⅱ平臺下,使用P6/C4試劑測序能夠獲得的最長reads可以達(dá)到60 kb[16]。由于DNA聚合酶在激光的照射下會(huì)逐漸失活,因此其測序長度不可能永遠(yuǎn)增加[19]。
測序錯(cuò)誤偏高是所有測序技術(shù)都面臨的問題。基于納米孔測序技術(shù)的MinION測序儀和基于SMRT測序技術(shù)的PacBio平臺測序reads錯(cuò)誤率分別達(dá)到 40% 和 15%[11,20]。然而,PacBio測序平臺所產(chǎn)生的測序錯(cuò)誤為隨機(jī)分布的單堿基錯(cuò)誤、插入或缺失[20-21],憑借這一特點(diǎn),PacBio引入環(huán)化測序的策略成功將測序準(zhǔn)確度提高,即將雙鏈模板兩端加載發(fā)夾結(jié)構(gòu)接頭,形成環(huán)狀的測序模板(SMRTbell),然后對模板循環(huán)測序[22]。該測序方案可以保證相同堿基被多次測序,結(jié)合錯(cuò)誤隨機(jī)模型,采用多重比對可以修正錯(cuò)誤堿基,從而獲得高準(zhǔn)確度reads[23]。該方案在全長16S rRNA基因測序、轉(zhuǎn)錄組測序等對reads長度要求相對較低,但是對測序準(zhǔn)確度要求較高的研究中非常有效[24-25]。
測序速度快是SMRT測序技術(shù)的另一特點(diǎn)。相比動(dòng)輒運(yùn)行數(shù)天的第二代測序技術(shù),SMRT測序技術(shù)每個(gè)run運(yùn)行時(shí)間最短近0.5 h[16]。雖然,每個(gè)run輸出的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不及Hiseq2500等第二代測序技術(shù),但是在對時(shí)間要求較高的情況下,SMRT測序技術(shù)無疑極具優(yōu)勢(表1),如在臨床檢測或者疫情爆發(fā)等情況下。
表1 主要高通量測序儀器參數(shù)[16,26-28]
自2006年,Sogin等[29]首次成功將高通量測序技術(shù)(羅氏454)用于深海環(huán)境微生物多樣性調(diào)查,16S rRNA基因高通量測序片段選擇一直存在爭議[30],全長DNA測序無疑可以徹底終止這一爭論。SMRT測序技術(shù)在復(fù)雜環(huán)境微生物的研究中所具備的優(yōu)勢已經(jīng)被多次證實(shí)[24,31]。隨著SMRT測序技術(shù)的技術(shù)成熟和測序成本降低,第三代測序技術(shù)在16S rRNA基因測序中的應(yīng)用越來越多。
腸道微生物與宿主的生長、免疫和健康息息相關(guān),對腸道微生物調(diào)查有利于對相關(guān)疾病的標(biāo)記與治療。2013年,Hu等[32]采集23個(gè)采用不同分娩方式出生的新生兒的糞便(10個(gè)孩子母親患有糖尿病和13個(gè)孩子母親未患糖尿?。?,采用PacBio RS平臺測序糞便中16S rRNA基因的V3-V4區(qū),分析PASS數(shù)大于3的CCS reads,結(jié)果得到與其他實(shí)驗(yàn)相反的結(jié)果:不同分娩方式對新生兒的糞便微生物沒有影響,而母親患病狀態(tài)對新生兒腸道微生物組成有顯著的影響。泡菜中含有大量乳酸菌和其他雜菌,四川家庭自制泡菜微生物的組成并不清楚。2017年,Cao等[33]在重慶7個(gè)地區(qū)采集到38份10年以上的泡菜鹽水,通過滴定法分為高酸度、中等酸度和低酸度3組。采用SMRT測序技術(shù)(PacBio SR Ⅱ/P6-C5)對38個(gè)樣本的16S rRNA基因全長進(jìn)行測序。通過分析聚類和注釋分析得來自371個(gè)屬的593個(gè)種(包括35個(gè)門),其中,Lactobacillus acetotolerans的豐度與酸度呈正相關(guān)。此外,Serratia marcescens和Stenotrophomonas maltophilia等機(jī)會(huì)致病菌也在樣本中檢測到。酸度越低,物種多樣性越高,乳酸菌屬內(nèi)的菌種越多(豐度大于1%),機(jī)會(huì)致病菌越多。該研究為自制泡菜的進(jìn)一步研究提供了參考,且表明需要對自制四川泡菜內(nèi)的機(jī)會(huì)致病菌深入研究。
宏基因組是指環(huán)境中的所有微生物基因組的總和[34-35]。2000年,Rondon等[35]首次通過構(gòu)建宏基因組文庫研究土壤微生物多樣性,并開啟了環(huán)境微生物研究的新篇章。隨著高通量測序價(jià)格大幅下跌,獲得大批原始宏基因組測序數(shù)據(jù)已經(jīng)不再是難題,而真正的研究瓶頸在于數(shù)據(jù)分析環(huán)節(jié)。其中,微生物參考基因組缺乏是宏基因組數(shù)據(jù)分析主要障礙。目前,已有參考基因組的微生物數(shù)量與自然界存在的微生物數(shù)量相去甚遠(yuǎn)(表2)。因此,從復(fù)雜的宏基因組數(shù)據(jù)中完整而準(zhǔn)確地構(gòu)建微生物基因組草圖成為分析流程的首要任務(wù)[36]。第二代測序技術(shù)由于測序片段短的問題導(dǎo)致組裝困難,第三代測序技術(shù)有望徹底解決這一問題。
表2 微生物參考基因組統(tǒng)計(jì)
2016年,F(xiàn)rank等[37]采用Hiseq2000和PacBio RS Ⅱ兩種平臺結(jié)合的測序方式對沼氣反應(yīng)器內(nèi)的微生物宏基因組進(jìn)行研究。其中,構(gòu)建插入片段為1.5 kb的SMRTbell文庫使用P4/C2試劑測序。分別單獨(dú)組裝兩份數(shù)據(jù),再采用混合組裝的方式組裝。結(jié)果表明,混合組裝的方式得到的組裝序列長度高于單獨(dú)組裝。該試驗(yàn)結(jié)果表明SMRT測序技術(shù)對微生物宏基因組研究有提高作用。Frank等采用混合的方式是考慮SMRT測序技術(shù)測序成本(深度)的問題,而采用較為折中的方案。事實(shí)上,隨著PacBio系列測序平臺的普及和價(jià)格快速下降,SMRT可以完全取代第二代測序。2017年,Driscoll等[38]從美國克拉馬斯湖中采集水樣并共培養(yǎng)。然后采用PacBio測序平臺進(jìn)行宏基因組測序并得到348 623條平均長度達(dá)到7 737 bp的PacBio reads,經(jīng)過質(zhì)量過濾和組裝,他們發(fā)現(xiàn)成功組裝出3個(gè)微生物基因組草圖。Driscoll等的實(shí)驗(yàn)證明SMRT測序技術(shù)在低復(fù)雜度環(huán)境微生物宏基因組組裝中是有效的。
對無參考基因組的物種,采用測序并從頭組裝獲得全基因組圖譜的方式稱為全基因組測序。SMRT測序技術(shù)測序長度能夠幫助研究人員在組裝全基因組時(shí)成功跨過重復(fù)片段、低復(fù)雜區(qū)域,從而組裝出完整性更好的全基因組[39]。2013年,Chin等[40]設(shè)計(jì)并開發(fā)針對SMRT測序數(shù)據(jù)組裝微生物全基因組的算法(HGAP),他們使用該方法成功組裝了包括大腸桿菌(E. coli)在內(nèi)的16個(gè)基因組,其中,3個(gè)基因組已經(jīng)有完整的基因組,新組裝的基因組與參考基因組一致性達(dá)到99.9999%。他們的實(shí)驗(yàn)證明結(jié)合SMRT測序技術(shù)和Illumina測序技術(shù)進(jìn)行全基因組測序準(zhǔn)確有效。Paulinella chromatophora是研究植物質(zhì)體的重要模式生物,2017年,Lhee等[41]研究發(fā)現(xiàn)一個(gè)具有光合作用的新種(P. micropora sp.nov.),通過構(gòu)建SMRTbell庫,并使用PacBio RS II測序平臺測序獲得16 Gb數(shù)據(jù),使用HGAP算法組裝得到長度為976 991 bp的全基因組。通過全基因組水平的比較證實(shí)其為新的種。
除了完全采用PacBio reads進(jìn)行全基因組組裝,通過與第二代測序技術(shù)組合的方式也是常用的微生物全基因組組裝方案,該方法能夠有效提高組裝準(zhǔn)確性并降低測序成本。葡萄孢菌(Botrytis cinerea)是廣泛存在的植物病原真菌,研究人員先后使用第一代和第二代測序技術(shù)對全基因組測序,但是,其中仍然存在較多缺失和錯(cuò)誤,2016年,Van Kan等[42]采用SMRT測序技術(shù)和第二代測序技術(shù)結(jié)合的方式對葡萄孢菌全基因組測序,de novo組裝得到由18條染色體組裝的新基因組,測序深度和完整性得到大幅提高。同時(shí),他們采用RNAseq數(shù)據(jù)對基因組進(jìn)行驗(yàn)證和基因注釋。
微生物物種數(shù)量龐大,而環(huán)境微生物復(fù)雜性決定了其對研究技術(shù)的高要求。盡管第二代測序技術(shù)為微生物研究帶來了革命性的改變,但是,以SMRT測序技術(shù)為代表的第三代測序技術(shù)取代第二代測序技術(shù)成為微生物研究的主要手段是必然趨勢。SMRT測序技術(shù)已然領(lǐng)跑第三代測序技術(shù)。但是,SMRT測序技術(shù)仍然存在較大的問題,如測序費(fèi)用高、測序錯(cuò)誤率偏高等。
目前,SMRT測序技術(shù)在微生物研究領(lǐng)域應(yīng)用最成熟且最多的還是微生物全基因組測序。而SMRT測序技術(shù)在復(fù)雜環(huán)境微生物宏基因組研究中還存在諸多問題需要解決,已有的研究也只是淺嘗輒止。目前,在我們文獻(xiàn)查閱的范圍之內(nèi),還沒有發(fā)現(xiàn)真正將SMRT測序技術(shù)應(yīng)用于復(fù)雜環(huán)境微生物研究,因此,這方面還需要進(jìn)一步探索。SMRTbell庫構(gòu)建方法的提出為SMRT技術(shù)在微生物16S rRNA基因全長測序提供了可能,最近兩年逐漸在研究中被采用。但是,目前16S rRNA基因注釋數(shù)據(jù)庫還存在注釋物種少,參考序列長度短的問題,這無疑將降低16S rRNA基因全長測序數(shù)據(jù)分析的準(zhǔn)確性。
[1]Sanger F, Nicklen S, Coulson AR. DNA sequencing with chainterminating inhibitors[J]. Proc Natl Acad Sci USA, 1977, 74(12):5463-5467.
[2]Metzker ML. Sequencing technologies—the next generation[J].Nature Reviews Genetics, 2010, 11(1):31-46.
[3]Schadt EE, Turner S, Kasarskis A. A window into third-generation sequencing[J]. Human Molecular Genetics, 2011, 19(4):R227-R240.
[4]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2006,437(7057):376-380.
[5]Bentley DR. Whole-genome re-sequencing[J]. Current Opinion in Genetics & Development, 2006, 16(6):545-552.
[6]Reis-Filho JS. Next-generation sequencing[J]. Breast Cancer Research, 2009, 11(3):S12.
[7]Treangen TJ, Salzberg SL. Repetitive DNA and next-generation sequencing:computational challenges and solutions[J]. Nature Reviews Genetics, 2012, 13(1):36-46.
[8]柳延虎, 王璐, 于黎. 單分子實(shí)時(shí)測序技術(shù)的原理與應(yīng)用[J].遺傳, 2015, 37(3):259-268.
[9]Clarke J, Wu HC, Jayasinghe L, et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology, 2009, 4(4):265-270.
[10]Goodwin S, Gurtowski J, Ethe-Sayers S, et al. Oxford nanopore sequencing, hybrid error correction, and De novo assembly of a eukaryotic genome[J]. Biorxiv, 2015, 25(11):1750-1756.
[11]Laver T, Harrison J, O’Neill PA, et al. Assessing the performance of the oxford nanopore technologies minion[J]. Biomolecular Detection & Quantification, 2015, 3:1-8.
[12]Treffer R, Deckert V. Recent advances in single-molecule sequencing[J]. Current Opinion in Biotechnology, 2010, 21(1):4-11.
[13]Xia W, Jia Z. Comparative analysis of soil microbial communities by pyrosequencing and dgge[J]. Acta microbiologica Sinica,2014, 54(12):1489-1499.
[14]Shokralla S, Spall JL, Gibson JF, et al. Next-generation sequencing technologies for environmental DNA research[J]. Molecular Ecology, 2012, 21(8):1794-1805.
[15]Levene MJ, Korlach J, Turner SW, et al. Zero-mode waveguides for single-molecule analysis at high concentrations[J]. Annual Review of Biophysics, 2012, 41(41):269-293.
[16]Rhoads A, Au KF. Pacbio sequencing and its applications[J].Genomics, Proteomics & Bioinformatics, 2015, 13(5):278-289.
[17]Ferrarini M, Moretto M, Ward JA, et al. An evaluation of the pacbio rs platform for sequencing and De novo assembly of a chloroplast genome[J]. BMC Genomics, 2013, 14(1):670.
[18]Shearman JR, Sonthirod C, Naktang C, et al. The two chromosomes of the mitochondrial genome of a sugarcane cultivar:assembly and recombination analysis using long pacbio reads[J]. Scientific Reports, 2016, 6:31533.
[19]李明爽, 趙敏. 第三代測序基本原理[J]. 現(xiàn)代生物醫(yī)學(xué)進(jìn)展,2012, 12(10):1980-1982.
[20]Koren S, Schatz MC, Walenz BP, et al. Hybrid error correction de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
[21]Ross MG, Russ C, Costello M, et al. Characterizing and measuring bias in sequence data[J]. Genome Biology, 2013, 14(5):R51.
[22]Kong N, Thao K, Ng W, et al. Automation of PacBio SMRTbell 10 Kb template preparation on an agilent NGS workstation[J]. Crop Science, 2014, 15(6):886.
[23]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Methods in Enzymology, 2009, 323(5910):133.
[24]Schloss PD, Jenior ML, Koumpouras CC, et al. Sequencing 16S RNA gene fragments using the PacBio SMRT DNA sequencing system[J]. Peerj, 2015, 4:e1869.
[25]Gao S, Ren Y, Sun Y, et al. PacBio full-length transcriptome profiling of insect mitochondrial gene expression[J]. RNA Biology, 2016, 13(9):820-825.
[26]Goodwin S, McPherson JD, McCombie WR. Coming of age:ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics, 2016, 17(6):333-351.
[27]Giordano F, Aigrain L, Quail MA, et al. De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms[J].Scientific reports, 2017, 7(1):3935.
[28]Mikheyev AS, Tin MM. A first look at the Oxford Nanopore MinION sequencer[J]. Molecular Ecology Resources, 2014, 14(6):1097-1102.
[29]Sogin ML, Morrison HG, Huber JA, et al. Microbial diversity in the deep sea and the underexplored “rare biosphere”[J].Proceedings of the National Academy of Sciences, 2006, 103(32):12115-12120.
[30]Chakravorty S, Helb D, Burday M, et al. A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria[J]. Journal of Microbiological Methods, 2007, 69(2):330-339.
[31]Mosher JJ, Bowman B, Bernberg EL, et al. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing[J].Journal of Microbiological Methods, 2014, 104:59-60.
[32]Hu J, Nomura Y, Bashir A, et al. Diversified microbiota of meconium is affected by maternal diabetes status[J]. PLoS One,2013, 8(11):e78257.
[33]Cao J, Yang J, Hou Q, et al. Assessment of bacterial profiles in aged, home-made Sichuan paocai brine with varying titratable acidity by PacBio SMRT sequencing technology[J]. Food Control, 2017, 78:14-23.
[34]Handelsman J, Rondon MR, Brady SF, et al. Molecular biological access to the chemistry of unknown soil microbes:a new frontier for natural products[J]. Chemistry &Biology, 1998, 5(10):R245-R249.
[35]Rondon MR, August PR, Bettermann AD, et al. Cloning the soil metagenome:a strategy for accessing the genetic and functional diversity of uncultured microorganisms[J]. Applied and Environmental Microbiology, 2000, 66(6):2541-2547.
[36]Howe A, Chain PS. Challenges and opportunities in understanding microbial communities with metagenome assembly(Accompanied by Ipython Notebook Tutorial)[J]. Frontiers Microbiol, 2015, 6:678.
[37]Frank JA, Pan Y, Toomingklunderud A, et al. Improved metagenome assemblies and taxonomic binning using long-read circular consensus sequence data[J]. Scientific Reports, 2016, 6:25373.
[38]Driscoll CB, Otten TG, Brown NM, et al. Towards long-read metagenomics:complete assembly of three novel genomes from bacteria dependent on a diazotrophic cyanobacterium in a freshwater lake Co-culture[J]. Stand Genomic Sci, 2017, 12:9.
[39]Powers JG, Weigman VJ, Shu J, et al. Efficient and accurate whole genome assembly and methylome profiling of E. coli[J]. BMC Genomics, 2013, 14(1):675.
[40]Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read smrt sequencing data[J]. Nature Methods, 2013, 10(6):563-569.
[41]Lhee D, Yang EC, Im Kim J, et al. Diversity of the photosynthetic Paulinella species, with the description of Paulinella micropora sp.nov. and the chromatophore genome sequence for strain Kr01[J].Protist, 2017, 168(2):155-170.
[42]Van Kan JA, Stassen JH, Mosbach A, et al. A gapless genome sequence of the fungus botrytis cinerea[J]. Mol Plant Pathol,2017, 18(1):75-89.