柳延虎,王璐,2,于黎,2
?
單分子實時測序技術(shù)的原理與應(yīng)用
柳延虎1,王璐1,2,于黎1,2
1. 云南大學(xué),云南省生物資源保護與利用重點實驗室,昆明 650091;2. 云南大學(xué),云南省高校動物遺傳多樣性與進化重點實驗室,昆明 650091
單分子DNA測序技術(shù)是近10年發(fā)展起來的新一代測序技術(shù),也稱為第三代測序技術(shù),包括單分子實時測序、真正單分子測序、單分子納米孔測序等技術(shù)。文章介紹了單分子實時(Single-molecule real-time,SMRT)測序技術(shù)的基本原理、性能以及應(yīng)用。與Sanger測序法和下一代測序技術(shù)相比,SMRT測序具有超長讀長、測序周期短、無需模板擴增和直接檢測表觀修飾位點等特點,為研究人員提供了新選擇。同時,SMRT測序的低準確率備受爭議(約85%),其中約93%的錯誤是插入缺失,因此,其數(shù)據(jù)應(yīng)用于基因組組裝前需先對數(shù)據(jù)進行糾錯處理。目前,SMRT測序在小型基因組從頭測序和完整組裝中已有良好應(yīng)用,并且已經(jīng)或?qū)⒃诒碛^遺傳學(xué)、轉(zhuǎn)錄組學(xué)、大型基因組組裝等領(lǐng)域發(fā)揮其優(yōu)勢,促進基因組學(xué)的研究。
單分子測序;PacBio;SMRT測序
DNA序列蘊藏了生物絕大部分遺傳信息,是生物遺傳和進化的基礎(chǔ)。獲得DNA序列對于闡明生命奧秘至關(guān)重要。為了測定DNA序列,1977年,Maxam和Gibert發(fā)明了化學(xué)降解法[1]。同年,Sanger發(fā)明了雙脫氧末端終止法[2],即至今廣泛應(yīng)用的Sanger測序法。20世紀90年代,熒光自動測序技術(shù)用熒光代替Sanger法中的同位素,實現(xiàn)了自動化測序。這些技術(shù)現(xiàn)在也被稱為第一代測序技術(shù)(First-genera-tion sequencing)。應(yīng)用Sanger測序法,人們完成了人類基因組計劃。目前應(yīng)用最廣泛的第一代測序儀是ABI 3730xl測序儀,該測序儀擁有較長讀長(平均讀長700 bp)和極高準確率(99.9%),但是由于相對高昂的成本(表1),目前主要應(yīng)用于細菌基因組測序、質(zhì)粒測序、細菌人工染色體末端測序、突變位點驗證等研究,而在大型基因組組裝方面已很少應(yīng)用。
近10年,下一代測序(Next-generation sequen-cing,NGS)技術(shù)相繼出現(xiàn)并發(fā)展成熟,主要包括Roche公司的焦磷酸測序技術(shù)(454)[7]、Illumina公司的Solexa測序技術(shù)[8]和ABI公司的SOLiD測序技術(shù)[9],這些也被稱為第二代測序技術(shù)(Second-genera-tion sequencing)。第二代測序技術(shù)以高通量、低成本為主要特點(表1)。其中Hiseq 2500測序儀的通量達1 Tb,測序成本為30美元/Gb,與3730xl測序儀相比,單堿基成本降低到萬分之一。第二代測序技術(shù)極大地推進了基因組學(xué)的發(fā)展,更多物種的基因組組裝、重測序、甲基化、轉(zhuǎn)錄本、宏基因組等研究得以展開[10]。2012年11月,大型國際科研合作項目“千人基因組計劃”的研究人員發(fā)布了1 092個人的基因組數(shù)據(jù)[11],該研究應(yīng)用第二代測序技術(shù)完成了對世界上主要人群的基因組測序工作,繪制了迄今為止最詳盡、最有醫(yī)學(xué)應(yīng)用價值的人類基因組遺傳多態(tài)性圖譜。另外,萬種脊椎動物基因組計劃[12]和萬種微生物基因組計劃(http://www.gen-omics.cn/news/sh-ow_news?nid=93218)正在進行中,這為生命科學(xué)和全球動物保護提供前所未有的基礎(chǔ)資源。然而,讀長相對較短仍是第二代測序技術(shù)的主要瓶頸。Roche公司454 GS FLX+測序儀平均測序讀長最長,也僅為700 bp。Illumina公司Hiseq 2500測序儀的讀長只有2×125 bp(表1)。較短的測序讀長為組裝基因組帶來巨大困難;同時,由于采用了模板擴增步驟,其在組裝高GC含量基因組時尤其受限[13]。
為了更好地發(fā)掘DNA序列信息,研究人員研發(fā)出最新一代測序方法——單分子的測序技術(shù)(Single- molecule sequencing),也稱為第三代測序技術(shù)(Third- generation sequencing),其共同特征是基于單分子水平的邊合成邊測序,主要包括Pacific Biosciences (PacBio)公司的單分子實時(Single-molecule real- time,SMRT)測序技術(shù)、Oxford Nanopore公司的單分子納米孔測序技術(shù)(The single-molecule nanopore DNA sequencing)、和Helicos公司的真正單分子測序技術(shù)(True single-molecule sequencing,tSMSTM)等[14]。目前,大部分第三代測序技術(shù)尚處于研發(fā)階段,只有PacBio公司的RS(Real-timesequencing)系列測序儀已經(jīng)商業(yè)化,其采用的就是SMRT測序技術(shù)。SMRT測序技術(shù)具有超長讀長,還擁有不需要模板擴增、運行時間較短、直接檢測表觀修飾位點、較高的隨機測序錯誤等特點。它彌補了第二代測序讀長短、受GC含量影響大等局限性,已在小型基因組從頭測序和組裝中有較多應(yīng)用。本文主要介紹了PacBio RS系列測序儀使用的SMRT測序技術(shù)的原理、性能及其應(yīng)用。
表1 常用測序儀性能比較
注:#以測定96個樣品為一次運行,其準確率為經(jīng)過人工矯正后的準確率;##使用SBS v4試劑盒并且同時測兩個flow cell為一次運行;*以測定8個SMRT cell為一次運行;**http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid- next-generation- sequencing/next-generation-systems/5500xl-solid.html。
SMRT測序即單分子實時測序,其原理是:當(dāng)DNA模板被聚合酶捕獲后,4種不同熒光標記的dNTP通過布朗運動隨機進入檢測區(qū)域并與聚合酶結(jié)合,與模板匹配的堿基生成化學(xué)鍵的時間遠遠長于其他堿基停留的時間。因此統(tǒng)計熒光信號存在時間的長短,可區(qū)分匹配的堿基與游離堿基。通過統(tǒng)計4種熒光信號與時間的關(guān)系圖(http://www.paci-ficbiosciences.com/),即可測定DNA模板序列。
SMRT測序核心技術(shù)之一是零級波導(dǎo)技術(shù)(Zero mode waveguide,ZMW)[15]。ZMW是一個直徑只有10~50 nm的孔,遠小于檢測激光的波長(數(shù)百納米)。因此當(dāng)激光打在ZMW底部時,激光無法穿過,而是在ZMW底部發(fā)生衍射,只能照亮很小的區(qū)域。DNA聚合酶就被固定在這個區(qū)域。只有在這個區(qū)域內(nèi),堿基攜帶的熒光基團才能被激活而被檢測到,大幅地降低了背景熒光干擾。每個ZMW只固定一個DNA聚合酶,當(dāng)一個ZMW結(jié)合少于或超過一個DNA模板時,該ZMW所產(chǎn)生的測序結(jié)果在后續(xù)數(shù)據(jù)分析時被過濾掉,由此保證每個可用的ZMW都是一個單獨的DNA合成體系。15萬個ZMW聚合在一個芯片上,稱為一個SMRT Cell。PacBio RSⅡ測序儀一個流程內(nèi)可同時完成8個SMRT Cell的測序,產(chǎn)生3.2 Gb的數(shù)據(jù)(表1)。
SMRT測序的另一個核心技術(shù)是熒光基團標記在核苷酸3¢端磷酸上[16]。在DNA合成過程中,3¢端的磷酸鍵隨著DNA鏈的延伸被斷開,標記物被棄去,減少了DNA合成的空間位阻,維持DNA鏈連續(xù)合成,延長了測序讀長。而第二代測序技術(shù)中熒光基團都標記在5¢端甲基上,在合成過程中,熒光標記物保留在DNA鏈上,隨DNA鏈的延伸會產(chǎn)生三維空間阻力,導(dǎo)致DNA鏈延長到一定程度后出現(xiàn)錯讀,這是限制二代測序讀長的原因之一。SMRT測序最大限度地保持了聚合酶的活性,是最接近天然狀態(tài)的聚合酶反應(yīng)體系。在實時監(jiān)控系統(tǒng)下,DNA鏈以每秒10個堿基的速度合成。從建庫到測序,整個過程在2 d內(nèi)完成。
2013年4月,PacBio公司推出了PacBio RSⅡ測序儀,平均讀長達到4 600 bp,最長讀長超過 20 000 bp,每個SMRT cell 的通量為400 Mb。PacBio RSⅡ超長的讀長非常有利于基因組組裝,還可以填補已知基因組上的未測通區(qū)域,同時還開創(chuàng)了全新的應(yīng)用領(lǐng)域:轉(zhuǎn)錄本全長測序和全長16S基因測序等[17, 18]。轉(zhuǎn)錄本全長測序為基因可變剪接形式的識別、復(fù)雜的轉(zhuǎn)錄分析和新基因探索提供了更有效的支持[19]。如Treutlein等[20]使用SMRT測序技術(shù)發(fā)現(xiàn)軸突蛋白基因家族中數(shù)百種不同亞型,這些基因產(chǎn)物展現(xiàn)出了驚人的復(fù)雜性,并提供了軸突蛋白在促進大腦細胞連接過程中作為識別分子具有重要作用的證據(jù)。
基因組GC含量直接影響DNA序列的測定。第二代測序技術(shù)中文庫構(gòu)建和測序過程中都有PCR 擴增步驟,高GC或低GC含量的基因組區(qū)域不容易被PCR擴增,導(dǎo)致在測序過程中測序覆蓋度不足[21]。另外,在文庫構(gòu)建時需將DNA 打斷成適當(dāng)大小的片段,由于高GC含量區(qū)域不易被打斷,使得這些片段過大而在長度篩選時被舍棄[21~23]。由于SMRT測序是真正意義上的單分子測序技術(shù),沒有PCR擴增步驟[6, 24],結(jié)合SMRT測序超長讀長的特點,可以完成長片段的高GC含量區(qū)域測序,從而幫助高GC含量基因組完成組裝。SMRT測序這一優(yōu)勢很好的應(yīng)用到極端微生物的基因組研究中[13]。同時,無需模板擴增步驟還避免了PCR引入的錯誤,并且只需要使用極少的熒光基團,為今后大幅降低測序試劑成本提供了空間。
與第二代測序技術(shù)相比,SMRT測序簡化了建庫和測序步驟。一張SMRT cell從文庫制備到測序完成只需要不到1 d時間。SMRT測序的讀取速度可達每秒鐘10個堿基,實現(xiàn)了DNA聚合酶自身反應(yīng)速度,大幅縮短了測序周期,因此可以在酶失活之前測得更長的序列。較短的運行時間對于應(yīng)對傳染病爆發(fā)尤為重要,在很短時間內(nèi)得到變異微生物的基因組,可以為快速和準確地研究爆發(fā)起因以及治療策略提供基礎(chǔ)[25]。
SMRT測序在DNA合成時,如遇到模板上的甲基化堿基,則從dNTP與DNA聚合酶結(jié)合至釋放熒光基團的時間顯著大于遇到非甲基化堿基所需時間,并且不同類型的修飾堿基具有不同的DNA聚合酶動力學(xué)特征。最終根據(jù)這些動力學(xué)特征,主要是脈沖間隔時間(Interpulse duration,IPD)長短,判斷堿基的甲基化類型[16]。因此,在較高測序覆蓋度(>15×)的前提下,SMRT測序可在完成常規(guī)測序的同時,還能獲得5-甲基胞嘧啶、5-羥甲基胞嘧啶和N6-甲基腺嘌呤的信息[26]。因為5-甲基胞嘧啶可能與5-羥甲基胞嘧啶執(zhí)行不同的生物功能[27],所以如何簡單且有效區(qū)分這兩種不同修飾堿基一直是分子生物學(xué)家關(guān)注的問題。應(yīng)用SMRT測序技術(shù),可以較好地解決這個問題。
如果將DNA聚合酶換成RNA反轉(zhuǎn)錄酶,SMRT測序就可以直接進行RNA測序,無需逆轉(zhuǎn)錄[28]。這一技術(shù)目前尚處于研發(fā)階段。RNA直接測序?qū)⒔档腕w外逆轉(zhuǎn)錄產(chǎn)生的系統(tǒng)誤差,還可以檢測RNA上堿基的分子修飾,這將打開一個全新的研究思路。Uemura等[29]使用該技術(shù)對核糖體中mRNA的翻譯過程進行了實時測序觀察,實時觀測到了單個核糖體如何將氨基酸串聯(lián)起來的過程。
SMRT測序的錯誤率大約是15%,堿基錯測率約1%,其他錯誤主要是單堿基的插入和缺失(Inser-tions and deletions,INDELs)。但是當(dāng)覆蓋度超過15×?xí)r,SMRT測序過程中產(chǎn)生的錯誤通過概率算法進行糾正后,其正確率可達99.3%[16]。通過糾錯提高序列準確性需要較高覆蓋度和大量計算機資源,這對大多數(shù)動植物大型基因組來說較難實施,最根本的解決方法是通過技術(shù)革新提升SMRT測序本身的準確率。值得注意的是,SMRT測序的錯誤都是隨機錯誤,而非系統(tǒng)錯誤,系統(tǒng)錯誤是無法通過提高測序覆蓋度矯正的[16]。
為了更好地應(yīng)用SMRT測序技術(shù)所產(chǎn)生的序列數(shù)據(jù),近幾年報道了一些應(yīng)用這些數(shù)據(jù)的算法及軟件(表2)。從表2可以看出,這些軟件涵蓋了組裝軟件(HGAP[30]、ALLPATHS-LG[31]、AHA[32]、MIRA[33]、PacBioToCA[34])、比對軟件(BLASR[35])、糾錯軟件(LSC[36]、PacBioToCA)、補“洞”軟件(AHA、PBJelly[37])、數(shù)據(jù)模擬軟件(PBSIM[38])(表2)。
由于SMRT測序數(shù)據(jù)高錯誤率的特點,應(yīng)用這些數(shù)據(jù)組裝基因組和補“洞”前需要先糾正其中的錯誤。根據(jù)糾錯過程是否使用第二代測序數(shù)據(jù)可將軟件分成兩類。目前,利用第二代測序數(shù)據(jù)的高準確度數(shù)據(jù)糾正SMRT數(shù)據(jù)的軟件有LSC、PacBio-ToCA等,這兩種方法雖然可以將SMRT測序數(shù)據(jù)的錯誤率降到小于1%,但是糾錯的同時將第二代測序數(shù)據(jù)的系統(tǒng)錯誤引入其中,并且需要消耗大量的計算機資源。為了避免使用第二代測序數(shù)據(jù),Chin等[30]開發(fā)了軟件HGAP,該軟件使用SMRT測序數(shù)據(jù)中的較短序列糾正較長的“種子”序列,再用糾錯后的“種子”長序列組裝基因組。HGAP軟件使用SMRT測序數(shù)據(jù)獨立地完成糾錯和組裝,不再依賴第二代測序數(shù)據(jù)。目前,這個軟件適用于組裝小于130 M的基因組。在這些組裝軟件中,軟件AHA更適合搭建基因組草圖框架,其余幾個組裝軟件更適合混合拼接。BLASR軟件是快速比對軟件,適用于將SMRT測序數(shù)據(jù)比對到基因組,因為BLASR比其他比對軟件更好地“容忍”這些數(shù)據(jù)中的INDEL。由于基因組上存在重復(fù)區(qū)域和高GC含量區(qū)域,目前已公布的基因組都存在“洞”,SMRT測序超長讀長和無GC偏好可以很好地完善基因組,可以應(yīng)用PBJelly等軟件填補基因組上的“洞”。
表2 SMRT數(shù)據(jù)的分析軟件
目前SMRT測序技術(shù)已應(yīng)用在基因組組裝、轉(zhuǎn)錄組測序、甲基化分析和基因組重測序等方面(表3),尤其是在基因組組裝和甲基化研究中有著獨特優(yōu)勢,下面將詳細介紹這兩個方面的應(yīng)用。
4.1.1 大型基因組組裝
SMRT測序具有超長的讀長,對于組裝大型基因組很有幫助。但是,由于其價格較高,通常用第二代測序數(shù)據(jù)加SMRT測序數(shù)據(jù)混合組裝的策略組裝大型基因組。Koren等[34]對比了第二代測序數(shù)據(jù)和混合數(shù)據(jù)組裝的虎皮鸚鵡()基因組結(jié)果:用Illumina 數(shù)據(jù)194×(包括短片段文庫和長片段文庫)組裝的conitg 數(shù)目為24 181,N50為47 838 bp;用454數(shù)據(jù)15.4×(包括短片段文庫和長片段文庫) 組裝得到contig 16 574條,N50長度為75 178 bp;用454數(shù)據(jù)15.4×加上PacBioToCA糾錯后的SMRT測序數(shù)據(jù)3.83×混合組裝,conitg數(shù)目為15 328條,N50 長度為93 069 bp。PacBio數(shù)據(jù)和454數(shù)據(jù)混合組裝與僅用454數(shù)據(jù)組裝的結(jié)果相比,conitg數(shù)目減少了1 246條,N50提升了24%。由此可見,SMRT測序超長的讀長能幫助提高大型基因組組裝效果。
4.1.2 小型基因組組裝
與混合組裝大型基因組不同,單獨使用SMRT測序數(shù)據(jù)即可很好地完成小型基因組組裝。Chin等[30]比較了僅用SMRT測序數(shù)據(jù)組裝和混合組裝大腸桿菌基因組(4 639 675 bp):混合組裝用130×Illumina數(shù)據(jù)和133×SMRT測序數(shù)據(jù),采用ALLPATHS-LG軟件組裝得到1個contig,長度為4 638 970 bp;僅用99×SMRT測序數(shù)據(jù),使用HGAP軟件組裝得到2個conitg,N50為4 648 564 bp,接近基因組全長。只用SMRT測序數(shù)據(jù)組裝得到與混合組裝相差無幾的結(jié)果。應(yīng)用SMRT測序數(shù)據(jù)組裝小型基因組已有較多報道(表3)。
表3 SMRT測序在各方面的應(yīng)用
PacBio公司在2013年1月加入100K基因組計劃,該計劃旨在測序100 000種食源性致病菌基因組,并在同年8月已完成20種食源性病原微生物的基因組測序工作。使用SMRT測序數(shù)據(jù)不但將每個基因組組裝成了單個染色體,還包含了完整的表觀遺傳學(xué)信息、完整的噬菌體以及質(zhì)粒元件信息。這對于了解菌株致病性、耐藥性及其他與生存相關(guān)的重要生物性狀非常關(guān)鍵。這些信息將有助于減少診斷和確定爆發(fā)株所需時間。目前已經(jīng)將序列和完整的表觀遺傳學(xué)信息發(fā)布在NCBI網(wǎng)站(http://www. ncbi.nlm.nih.gov/bioproject/186441)。
4.1.3 高/低GC含量基因組組裝
SMRT測序沒有PCR擴增步驟,可以很好地完成高GC含量基因組的組裝。韓國極地研究所Dr. Park研究團隊首先利用Illumina Hiseq 2000平臺對南極微生物sp. PAMC 26508的基因組進行測序[13]。該菌株基因組GC含量高達71%,即使利用Hiseq 2000平臺進行了200×深度的測序,仍無法獲得完整基因組。組裝時產(chǎn)生了185 個contigs,隨后使用Sanger法仍然無法有效填補草圖中的缺口。研究人員利用14×糾錯過的SMRT測序數(shù)據(jù)和8×454數(shù)據(jù)混合組裝,得到5個染色體conitgs和1個質(zhì)粒conitg,conitg N50達到1 430 884 bp。SMRT測序?qū)Ω逩C區(qū)域有著較其他測序儀更好的測序效果,是一項非常好的從頭測序和組裝高GC含量基因組的新工具。
SMRT測序也非常適用于組裝低GC含量的葉綠體基因組[50]。Ferrarini等[51]使用9111×Illumina HiSeq2000數(shù)據(jù)組裝的葉綠體基因組,只能組裝到7個contigs,有9.41%的基因組未覆蓋到。而使用320×的SMRT測序數(shù)據(jù)則將葉綠體組裝成一個完整的基因組。文章中統(tǒng)計了SMRT測序所得序列與GC含量的相關(guān)性,結(jié)果顯示SMRT測序無明顯的GC偏好。
4.1.4 完善已有基因組
利用SMRT測序技術(shù)超長讀長和無GC偏好的優(yōu)勢,可對模式生物基因組草圖進行改善。Richard Gibbs團隊開發(fā)了高度自動化的工具PBJelly,能夠?qū)MRT測序所得長片段與基因組草圖進行比對,填補或減少草圖中的缺口,從而完善基因組草圖[37]。他們用18×SMRT測序數(shù)據(jù)對黑腹果蠅基因組進行補洞,缺口數(shù)目從4 651個降低到311個,降低了15倍;conitg N50從64 006 bp提高到723 621 bp,提高了11倍。同時他們用6.8×SMRT測序數(shù)據(jù)對黑子白眉猴基因組(2.8 G)進行升級,缺口數(shù)目從186 841個降低到66 211個,降低了2.8倍;contig N50從34 925 bp提升到128 379 bp,提升了3.7倍。由此可見,應(yīng)用SMRT測序提升基因組組裝結(jié)果,不僅可以減少缺口數(shù)目,還可以大大提高contig的長度,而且對大型基因組和小型基因組提升效果同樣明顯。
SMRT測序系統(tǒng)不需要進行重亞硫酸鹽處理等額外實驗步驟,就能夠直接進行表觀遺傳學(xué)分析。New England Biolabs聯(lián)合Pacific Biosciences的研究人員利用PacBio RS系統(tǒng)對6種細菌基因組進行了重測序[52],不僅鑒定出細菌基因組中新的胞嘧啶和腺嘌呤甲基化位點,還鑒定出介導(dǎo)這些表觀遺傳學(xué)標志的甲基轉(zhuǎn)移酶。SMRT測序系統(tǒng)可以同時對堿基序列和堿基修飾兩方面測序信息進行分析,這為表觀遺傳學(xué)及疾病基因組學(xué)開辟了新的研究思路。
近10年,DNA測序技術(shù)飛速發(fā)展,多種第二代和第三代測序儀相繼問世。從第一代測序到第三代測序都有各自的優(yōu)勢。Sanger測序通量低、讀長較長、準確率高,對于小量測序仍是最佳選擇。高通量、低成本的第二代測序已發(fā)展成熟,在大型基因組測序和重測序中廣泛應(yīng)用。尤其是Illumina公司2014年推出的Hiseq X Ten測序儀,已實現(xiàn)1000美元完成一個人類基因組的目標(http://www.nat-ure.com/news/is-the-1-000-genome-for-real-1.14530)。SMRT測序以超長的讀長、無GC偏好等優(yōu)勢,可以完成高GC含量、重復(fù)區(qū)域多的基因組,已廣泛應(yīng)用到細菌和真菌基因組學(xué)研究中,并將在更多研究領(lǐng)域發(fā)揮作用。在未來的一段時間里,三代測序技術(shù)將共同存在,在不同的領(lǐng)域發(fā)揮各自優(yōu)勢,并互相補充[53]。鑒于第一代、第二代測序技術(shù)的一些局限性,人們越來越關(guān)注單分子測序。針對已商業(yè)化的SMRT測序技術(shù),目前已公布了一系列相關(guān)的應(yīng)用軟件,涵蓋了組裝、糾錯、比對、數(shù)據(jù)模擬和補洞等常用分析。SMRT測序在細菌和真菌的基因組學(xué)以及表觀遺傳學(xué)研究中已有較多應(yīng)用,為解決生物學(xué)問題提供了新的方案。隨著SMRT測序的不斷發(fā)展,相信在不久的將來,它將為轉(zhuǎn)錄組學(xué)分析、大型基因組組裝等領(lǐng)域提供有力的支持。
目前,未商用化的其他單分子測序技術(shù)有Helicos Biosciences公司的True single-molecule sequencing (tSMSTM)[54]、Oxford Nanopore Technologies公司的the single-molecule nanopore DNA sequencing (https: //nanoporetech.com/)、NABsys公司的‘Hybridization’-assisted nanopore sequencing (HANS)等 (http://www. nabsys.com/)。其中Oxford Nanopore Technologies公司將推出GridION和MinION兩款基于納米孔DNA測序技術(shù)的便攜式基因組測序儀,后者僅有U盤大小,可插入計算機的USB端口完成測序工作,價格僅900美元。
2009年9月,中國科學(xué)院北京基因組研究所與浪潮集團共同成立了“中科院北京基因組所-浪潮基因組科學(xué)聯(lián)合實驗室”(http://www.big.ac.cn/ydhz/ hzxm/200909/t20090918_2511445.html),聯(lián)合各領(lǐng)域科研力量共同研發(fā)單分子測序技術(shù),目前尚處于研發(fā)階段(http://www.big.ac.cn/ydhz/hzdt/200912/t20091207_ 2690938. html)。作為基因科學(xué)的戰(zhàn)略性裝備,具有國際先進水平的第三代DNA測序儀的研制,將為中國在該領(lǐng)域取得領(lǐng)先優(yōu)勢奠定基礎(chǔ)。擁有自主知識產(chǎn)權(quán)的第三代測序儀不僅將填補中國在DNA測序基礎(chǔ)裝備領(lǐng)域的空白、提升裝備自主化水平,同時也將使國內(nèi)生命科學(xué)研究機構(gòu)能獲得低成本、高效率的測序工具。
隨著單分子測序技術(shù)的不斷發(fā)展及完善,預(yù)計單分子測序技術(shù)成本將逐漸下降。這將有利于展開個人基因組測序工作,基因組水平指導(dǎo)下的遺傳病診治、個人醫(yī)療和保健等工作可以更高效的進行,人們進入人性化醫(yī)療時代。同時也便捷了各領(lǐng)域的研究人員獲得研究領(lǐng)域的物種基因組,促進基因組學(xué)研究的發(fā)展。
[1] Maxam AM, Gilbert W. A new method for sequencing DNA., 1977, 74(2): 560–564.
[2] Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors., 1977, 74(12): 5463–5467.
[3] Liu L, Li YH, Li SL, Hu N, He YM, Pong R, Lin DN, Lu LH, Law M. Comparison of next-generation sequencing systems., 2012, 2012: Article ID 251364.
[4] Gilles A, Meglécz E, Pech N, Ferreira S, Malausa T, Martin JF. Accuracy and quality assessment of 454 GS-FLX Titanium pyrosequencing., 2011, 12(1): 245.
[5] Chin CS, Sorenson J, Harris JB, Robins WP, Charles RC, Jean-Charles RR, Bullard J, Webster DR, Kasarskis A, Peluso P, Paxinos EE, Yamaichi Y, Calderwood SB, Mekalanos JJ, Schadt EE, Waldor MK. The origin of the Haitian cholera outbreak strain., 2011, 364(1): 33–42.
[6] Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-M?ller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. Origins of the E. coli strain causing an outbreak of hemolytic–uremic syndrome in Germany., 2011, 365(8): 709–717.
[7] Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS, Chen YJ, Chen ZT, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Irzyk GP, Jando SC, Alenquer ML, Jarvie TP, Jirage KB, Kim JB, Knight JR, Lanza JR, Leamon JH, Lefkowitz SM, Lei M, Li J, Lohman KL, Lu H, Makhijani VB, McDade KE, McKenna MP, Myers EW, Nickerson E, Nobile JR, Plant R, Puc BP, Ronan MT, Roth GT, Sarkis GJ, Simons JF, Simpson JW, Srinivasan M, Tartaro KR, Tomasz A, Vogt KA, Volkmer GA, Wang SH, Wang Y, Weiner MP, Yu PG, Begley RF, Rothberg JM. Genome sequencing in microfabricated high-density picolitre reactors., 2005, 437(7057): 376–380.
[8] Bentley DR, Balasubramanian S, Swerdlow HP, Smith GP, Milton J, Brown CG, Hall KP, Evers DJ, Barnes CL, Bignell HR, Boutell JM, Bryant J, Carter RJ, Keira Cheetham R, Cox AJ, Ellis DJ, Flatbush MR, Gormley NA, Humphray SJ, Irving LJ, Karbelashvili MS, Kirk SM, Li H, Liu XH, Maisinger KS, Murray LJ, Obradovic B, Ost T, Parkinson ML, Pratt MR, Rasolonjatovo IM, Reed MT, Rigatti R, Rodighiero C, Ross MT, Sabot A, Sankar SV, Scally A, Schroth GP, Smith ME, Smith VP, Spiridou A, Torrance PE, Tzonev SS, Vermaas EH, Walter K, Wu XL, Zhang L, Alam MD, Anastasi C, Aniebo IC, Bailey DM, Bancarz IR, Banerjee S, Barbour SG, Baybayan PA, Benoit VA, Benson KF, Bevis C, Black PJ, Boodhun A, Brennan JS, Bridgham JA, Brown RC, Brown AA, Buermann DH, Bundu AA, Burrows JC, Carter NP, Castillo N, Chiara E Catenazzi M, Chang S, Neil Cooley R, Crake NR, Dada OO, Diakoumakos KD, Dominguez-Fernandez B, Earnshaw DJ, Egbujor UC, Elmore DW, Etchin SS, Ewan MR, Fedurco M, Fraser LJ, Fuentes Fajardo KV, Scott Furey W, George D, Gietzen KJ, Goddard CP, Golda GS, Granieri PA, Green DE, Gustafson DL, Hansen NF, Harnish K, Haudenschild CD, Heyer NI, Hims MM, Ho JT, Horgan AM, Hoschler K, Hurwitz S, Ivanov DV, Johnson MQ, James T, Huw Jones TA, Kang GD, Kerelska TH, Kersey AD, Khrebtukova I, Kindwall AP, Kingsbury Z, Kokko-Gonzales PI, Kumar A, Laurent MA, Lawley CT, Lee SE, Lee X, Liao AK, Loch JA, Lok M, Luo SJ, Mammen RM, Martin JW, McCauley PG, McNitt P, Mehta P, Moon KW, Mullens JW, Newington T, Ning ZM, Ling Ng B, Novo SM, O'Neill MJ, Osborne MA, Osnowski A, Ostadan O, Paraschos LL, Pickering L, Pike AC, Pike AC, Chris Pinkard D, Pliskin DP, Podhasky J, Quijano VJ, Raczy C, Rae VH, Rawlings SR, Chiva Rodriguez A, Roe PM, Rogers J, Rogert Bacigalupo MC, Romanov N, Romieu A, Roth RK, Rourke NJ, Ruediger ST, Rusman E, Sanches-Kuiper RM, Schenker MR, Seoane JM, Shaw RJ, Shiver MK, Short SW, Sizto NL, Sluis JP, Smith MA, Ernest Sohna Sohna J, Spence EJ, Stevens K, Sutton N, Szajkowski L, Tregidgo CL, Turcatti G, Vandevondele S, Verhovsky Y, Virk SM, Wakelin S, Walcott GC, Wang JW, Worsley GJ, Yan JY, Yau L, Zuerlein M, Rogers J, Mullikin JC, Hurles ME, McCooke NJ, West JS, Oaks FL, Lundberg PL, Klenerman D, Durbin R, Smith AJ. Accurate whole human genome sequencing using reversible terminator chemistry., 2008, 456(7218): 53–59.
[9] Valouev A, Ichikawa J, Tonthat T, Stuart J, Ranade S, Peckham H, Zeng K, Malek JA, Costa G, McKernan K, Sidow A, Fire A, Johnson SM. A high-resolution, nucleosome position map of C. elegans reveals a lack of universal sequence-dictated positioning., 2008, 18(7): 1051–1063.
[10] 楊曉玲, 施蘇華, 唐恬. 新一代測序技術(shù)的發(fā)展及應(yīng)用前景. 生物技術(shù)通報, 2010, (10): 76–81.
[11] 1000 Genomes Project Consortium, Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, Kang HM, Marth GT, McVean GA. An integrated map of genetic variation from 1, 092 human genomes., 2012, 491(7422): 56–65.
[12] Haussler D, O'Brien S J, Ryder OA, Barker FK, Clamp M, Crawford AJ, Hanner R, Hanotte O, Johnson WE, McGuire JA, Miller W, Murphy RW, Murphy WJ, Sheldon FH, Sinervo B, Venkatesh B, Wiley EO, Allendorf FW, Amato G, Baker CS, Bauer A, Beja-Pereira A, Bermingham E, Bernardi G, Bonvicino CR, Brenner S, Burke T, Cracraft J, Diekhans M, Edwards S, Ericson PG, Estes J, Fjelsda J, Flesness N, Gamble T, Gaubert P, Graphodatsky AS, Marshall Graves JA, Green ED, Green RE, Hackett S, Hebert P, Helgen KM, Joseph L, Kessing B, Kingsley DM, Lewin HA, Luikart G, Martelli P, Moreira MA, Nguyen N, Ortí G, Pike BL, Rawson DM, Schuster SC, Seuánez HN, Shaffer HB, Springer MS, Stuart JM, Sumner J, Teeling E, Vrijenhoek RC, Ward RD, Warren WC, Wayne R, Williams TM, Wolfe ND, Zhang YP. Genome 10K: a proposal to obtain whole-genome sequence for 10 000 vertebrate species., 2009, 100(6): 659–674.
[13] Shin SC, Ahn do H, Kim SJ, Lee H, Oh TJ, Lee JE, Park H. Advantages of single-molecule real-time sequencing in high-GC content genomes., 2013, 8(7): e68824.
[14] 李明爽, 趙敏. 第三代測序基本原理. 現(xiàn)代生物醫(yī)學(xué)進展, 2012, 12(10): 1980–1982.
[15] Levene MJ, Korlach J, Turner SW, Foquet M, Craighead HG, Webb WW. Zero-mode waveguides for single-mol-ecule analysis at high concentrations., 2003, 299(5607): 682–686.
[16] Eid J, Fehr A, Gray J, Luong K, Lyle J, Otto G, Peluso P, Rank D, Baybayan P, Bettman B, Bibillo A, Bjornson K, Chaudhuri B, Christians F, Cicero R, Clark S, Dalal R, Dewinter A, Dixon J, Foquet M, Gaertner A, Hardenbol P, Heiner C, Hester K, Holden D, Kearns G, Kong XX, Kuse R, Lacroix Y, Lin S, Lundquist P, Ma CC, Marks P, Maxham M, Murphy D, Park I, Pham T, Phillips M, Roy J, Sebra R, Shen G, Sorenson J, Tomaney A, Travers K, Trulson M, Vieceli J, Wegener J, Wu D, Yang A, Zaccarin D, Zhao P, Zhong F, Korlach J, Turner S. Real-time DNA sequencing from single polymerase molecules., 2009, 323(5910): 133–138.
[17] Heiner C, Baybayan P, Wang S, Guo Y, Ashby M, Wilson J, Travers K, Chin J, Underwood J. Greater than 10 kb read lengths routine when sequencing with Pacific Biosciences’ XL release., 2013, 24(S): S43.
[18] Mosher JJ, Bowman B, Bernberg EL, Shevchenko O, Kan JJ, Korlach J, Kaplan LA. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing., 2014, 104: 59–60.
[19] Sharon D, Tilgner H, Grubert F, Snyder M. A single-molecule long-read survey of the human transcriptome., 2013, 31(11): 1009–1014.
[20] Treutlein B, Gokce O, Quake SR, Südhof TC. Cartography of neurexin alternative splicing mapped by single-molecule long-read mRNA sequencing., 2014, 111(13): E1291-E1299.
[21] Aird D, Ross MG, Chen WS, Danielsson M, Fennell T, Russ C, Jaffe DB, Nusbaum C, Gnirke A. Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries., 2011, 12(2): R18.
[22] Niu BF, Fu LM, Sun SL, Li WZ. Artificial and natural duplicates in pyrosequencing reads of metagenomic data., 2010, 11: 187.
[23] Dohm JC, Lottaz C, Borodina T, Himmelbauer H. Substantial biases in ultra-short read data sets from high- throughput DNA sequencing., 2008, 36(16): e105.
[24] Schadt EE, Turner S, Kasarskis A. A window into third- gen-eration sequencing., 2010, 19(R2): R227-R240.
[25] 劉巖, 吳秉銓. 第三代測序技術(shù): 單分子即時測序. 中華病理學(xué)雜志, 2011, 40(10): 718–720.
[26] Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, Korlach J, Turner SW. Direct detection of DNA methylation during single-molecule, real-time sequencing., 2010, 7(6): 461–465.
[27] Kriaucionis S, Heintz N. The nuclear DNA base 5-hy-droxymethylcytosine is present in Purkinje neurons and the brain., 2009, 324(5929): 929–930.
[28] 張得芳, 馬秋月, 尹佟明, 夏濤. 第三代測序技術(shù)及其應(yīng)用. 中國生物工程雜志, 2013, 33(5): 125–131.
[29] Uemura S, Aitken CE, Korlach J, Flusberg BA, Turner SW, Puglisi JD. Real-time tRNA transit on single translating ribosomes at codon resolution., 2010, 464(7291): 1012–1017.
[30] Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, Copeland A, Huddleston J, Eichler EE, Turner SW, Korlach J. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data., 2013, 10(6): 563–569.
[31] Gnerre S, MacCallum I, Przybylski D, Ribeiro FJ, Burton JN, Walker BJ, Sharpe T, Hall G, Shea TP, Sykes S, Berlin AM, Aird D, Costello M, Daza R, Williams L, Nicol R, Gnirke A, N J Virol usbaum C, Lander ES, Jaffe DB. High-quality draft assemblies of mammalian genomes from massively parallel sequence data., 2011, 108(4): 1513–1518.
[32] Bashir A, Klammer AA, Robins WP, Chin CS, Webster D, Paxinos E, Hsu D, Ashby M, Wang S, Peluso P, Sebra R, Sorenson J, Bullard J, Yen J, Valdovino M, Mollova E, Luong K, Lin S, LaMay B, Joshi A, Rowe L, Frace M, Tarr CL, Turnsek M, Davis BM, Kasarskis A, Mekalanos JJ, Waldor MK, Schadt EE. A hybrid approach for the automated finishing of bacterial genomes., 2012, 30(7): 701–707.
[33] Chevreux B. MIRA: an automated genome and EST assembler[Ph. D. Thesis]. Duisburg: Heidelberg, 2005.
[34] Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Phillippy AM. Hybrid error correction and de novo assembly of single-molecule sequencing reads., 2012, 30(7): 693–700.
[35] Chaisson MJ, Tesler G. Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory., 2012, 13(1): 238.
[36] Au KF, Underwood JG, Lee L, Wong WH. Improving PacBio long read accuracy by short read alignment., 2012, 7(10): e46679.
[37] English AC, Richards S, Han Y, Wang M, Vee V, Qu JX, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology., 2012, 7(11): e47768.
[38] Ono Y, Asai K, Hamada M. PBSIM: PacBio reads simulator—toward accurate genome assembly., 2013, 29(1): 119–121.
[39] Coupland P, Chandra T, Quail M, Reik W, Swerdlow H. Direct sequencing of small genomes on the Pacific Biosciences RS without library preparation., 2012, 53(6): 365–372.
[40] Youssef NH, Couger MB, Struchtemeyer CG, Liggenstoffer AS, Prade RA, Najar FZ, Atiyeh HK, Wilkins MR, Elshahed MS. The genome of the anaerobic fungussp. strain C1A reveals the unique evolutionary history of a remarkable plant biomass degrader., 2013, 79(15): 4620–4634.
[41] Schmuki MM, Erne D, Loessner MJ, Klumpp J. Bacteriophage P70: Unique morphology and unrelatedness to other Listeria bacteriophages., 2012, 86(23): 13099–13102.
[42] Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. Pacific biosciences sequencing technology for genotyping and variation discovery in human data., 2012, 13(1): 375.
[43] Loomis EW, Eid JS, Peluso P, Yin J, Hickey L, Rank D, McCalmon S, Hagerman RJ, Tassone F, Hagerman PJ. Sequencing the unsequenceable: Expanded CGG-repeat alleles of the fragile X gene., 2013, 23(1): 121–128.
[44] Song CX, Clark TA, Lu XY, Kislyuk A, Dai Q, Turner SW, He C, Korlach J. Sensitive and specific single-molecule sequencing of 5-hydroxymethylcytosine., 2012, 9(1): 75–77.
[45] Fang G, Munera D, Friedman DI, Mandlik A, Chao MC, Banerjee O, Feng ZX, Losic B, Mahajan MC, Jabado OJ, Deikus G, Clark TA, Luong K, Murray IA, Davis BM, Keren-Paz A, Chess A, Roberts RJ, Korlach J, Turner SW, Kumar V, Waldor MK, Schadt EE. Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing., 2012, 30(12): 1232–1239.
[46] Schadt EE, Banerjee O, Fang G, Feng ZX, Wong WH, Zhang XG, Kislyuk A, Clark TA, Luong K, Keren-Paz A, Chess A, Kumar V, Chen-Plotkin A, Sondheimer N, Korlach J, Kasarskis A. Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases., 2013, 23(1): 129–141.
[47] Lluch-Senar M, Luong K, Lloréns-Rico V, Delgado J, Fang G, Spittle K, Clark TA, Schadt E, Turner SW, Korlach J, Serrano L. Comprehensive methylome characterization ofat single-base resolution., 2013, 9(1): e1003191.
[48] Vilfan ID, Tsai YC, Clark TA, Wegener J, Dai Q, Yi CQ, Pan T, Turner SW, Korlach J. Analysis of RNA base modification and structural rearrangement by single-molecule real-time detection of reverse transcription., 2013, 11(1): 8.
[49] Ocwieja KE, Sherrill-Mix S, Mukherjee R, Custers-Allen R, David P, Brown M, Wang S, Link DR, Olson J, Travers K, Schadt E, Bushman FD. Dynamic regulation of HIV-1 mRNA populations analyzed by single-molecule enrichment and long-read sequencing., 2012, 40(20): 10345–10355.
[50] Li QS, Li Y, Song JY, Xu HB, Xu J, Zhu YJ, Li XW, Gao HH, Dong LL, Qian J, Sun C, Chen SL. High-accuracy de novo assembly and SNP detection of chloroplast genomes using a SMRT circular consensus sequencing strategy., 2014, 204(4): 1041–1049.
[51] Ferrarini M, Moretto M, Ward JA, ?urbanovski N, Stevanovi? V, Giongo L, Viola R, Cavalieri D, Velasco R, Cestaro A, Sargent DJ. An evaluation of the PacBio RS platform for sequencing and de novo assembly of a chloroplast genome., 2013, 14(1): 670.
[52] Murray IA, Clark TA, Morgan RD, Boitano M, Anton BP, Luong K, Fomenkov A, Turner SW, Korlach J, Roberts RJ. The methylomes of six bacteria., 2012, 40(22): 11450–11462.
[53] 王興春, 楊致榮, 王敏, 李瑋, 李生才. 高通量測序技術(shù)及其應(yīng)用. 中國生物工程雜志, 2012, 32(1): 109–114.
[54] Harris TD, Buzby PR, Babcock H, Beer E, Bowers J, Braslavsky I, Causey M, Colonell J, DiMeo J, Efcavitch JW, Giladi E, Gill J, Healy J, Jarosz M, Lapen D, Moulton K, Quake SR, Steinmann K, Thayer E, Tyurina A, Ward R, Weiss H, Xie Z. Single-molecule DNA sequencing of a viral genome., 2008, 320(5872): 106–109.
(責(zé)任編委: 胡松年)
The principle and application of the single-molecule real-time sequencing technology
Yanhu Liu1, Lu Wang1,2, Li Yu1,2
Last decade witnessed the explosive development of the third-generation sequencing strategy, including single-molecule real-time sequencing (SMRT), true single-molecule sequencing (tSMSTM) and the single-molecule nanopore DNA sequencing. In this review, we summarize the principle, performance and application of the SMRT sequencing technology. Compared with the traditional Sanger method and the next-generation sequencing (NGS) technologies, the SMRT approach has several advantages, including long read length, high speed, PCR-free and the capability of direct detection of epigenetic modi?cations. However, the disadvantage of its low accuracy, most of which resulted from insertions and deletions, is also notable. So, the raw sequence data need to be corrected before assembly. Up to now, the SMRT is a good fit for applications in thegenomic sequencing and the high-quality assemblies of small genomes. In the future, it is expected to play an important role in epigenetics, transcriptomic sequencing, and assemblies of large genomes.
single molecule sequencing; PacBio; SMRT sequencing
2014-09-25;
2014-12-01
國家自然科學(xué)基金重大研究計劃項目(編號:91131904)和中國科學(xué)院昆明動物研究所遺傳資源與進化國家重點實驗室開放課題(編號:GREKF14-04)資助
柳延虎,博士研究生,研究方向:基因組學(xué)。E-mail: liuyanhu005@163.com
于黎,研究員,博士生導(dǎo)師,研究方向:動物遺傳與進化。E-mail: yuli-1220@163.com王璐,助理研究員,研究方向:基因組學(xué)。E-mail: wanglu@ynu.edu.cn
致 謝: 感謝王國棟在文章寫作和修改過程中的指導(dǎo)和寶貴意見,感謝陳岳工程師在文章寫作過程中給予的幫助。
10.16288/j.yczz.14-323
2015-1-19 16:51:26
http://www.cnki.net/kcms/detail/11.1913.R.20150119.1651.002.html