田李 張穎 趙云峰
DNA測序技術(shù)在生命科學(xué)的發(fā)展中起著越來越重要的作用。新一代測序技術(shù)是一種革命性的技術(shù),它的出現(xiàn)使得科研人員能夠以相對較少的經(jīng)費(fèi)獲得以往望塵莫及的海量DNA序列,從根本上改變了人們研究生命科學(xué)的方式[1]?,F(xiàn)階段,生命科學(xué)的研究已經(jīng)從以往研究單一基因轉(zhuǎn)變?yōu)檠芯空麄€(gè)基因組,其中既包括了基礎(chǔ)研究中的基因組、轉(zhuǎn)錄組和表觀遺傳,也涉及了應(yīng)用研究中的醫(yī)學(xué)診斷和農(nóng)作物育種等[2]。本文回顧了DNA測序技術(shù)的演化,并論述了其在生命科學(xué)研究中的應(yīng)用。
Sanger 等在20世紀(jì)70年代中期發(fā)明了DNA末端終止法測序技術(shù),他的發(fā)明第一次為人們開啟了解讀生命遺傳密碼的大門,Sanger 本人也因此獲得了1980年諾貝爾化學(xué)獎[3]。DNA末端終止法測序技術(shù)的基本原理是:通過在DNA聚合酶、模板、放射性同位素標(biāo)記的引物、dNTP 和ddNTP 的作用下發(fā)生延伸反應(yīng),由于ddNTP 的存在,會形成長度不一的DNA延伸片段;然后采用平板凝膠電泳,用4條電泳道來分離4個(gè)反應(yīng)的所得產(chǎn)物,便可以按順序讀出相應(yīng)的DNA序列。在那個(gè)年代,測序主要依靠手工操作,難以自動化,并且依賴電泳技術(shù),試劑消耗也大,這些都極大限制了測序的通量。
其后在此技術(shù)原理的基礎(chǔ)上產(chǎn)生了幾次變革,主要技術(shù)上的變化有以下三點(diǎn):(1)采用具有顏色的熒光染料取代了放射性同位素標(biāo)記;(2)采用毛細(xì)管電泳技術(shù)取代了平板凝膠電泳技術(shù);(3)并行化程度更高。這其中應(yīng)用最廣泛的是ABI公司的3730測序儀,它可以在一次運(yùn)行中分析96個(gè)樣本,讀長最多可以超過1000bp。這一代測序技術(shù)在人類基因組計(jì)劃的后期階段起到了關(guān)鍵的作用,加速了人類基因組計(jì)劃的完成[4]。但是,由于其對電泳分離技術(shù)的依賴,使其難以進(jìn)一步提高分析的速度和通過微型化降低測序成本,因此在2005年后,除了在PCR 產(chǎn)物測序和病毒的基因組測序中繼續(xù)發(fā)揮重要作用,其他均已較少采用。但由于其在原始數(shù)據(jù)質(zhì)量(準(zhǔn)確率高達(dá)99.999%)以及序列讀長方面具有的優(yōu)勢,它還將與新的測序平臺并存。
高通量測序技術(shù)進(jìn)入市場,使DNA測序技術(shù)在2005年發(fā)生了重要轉(zhuǎn)折,改變了測序的規(guī)?;M(jìn)程。Illumina、Roche和ABI公司都推出了各自的新一代DNA測序儀,主要技術(shù)革新有以下幾點(diǎn):(1)采用矩陣分析技術(shù),實(shí)現(xiàn)了大規(guī)模并行化,使得矩陣上的DNA樣本可以被同時(shí)并行分析;(2)不再采用電泳技術(shù),使得DNA測序儀得以微型化,測序成本大大降低;(3)邊合成邊測序,測序速度大幅提高。與Sanger測序相比,第二代測序技術(shù)單次運(yùn)行產(chǎn)出序列數(shù)據(jù)量大,所以又被通稱為高通量測序技術(shù)。其技術(shù)原理是:首先構(gòu)建DNA模板文庫,將DNA固定在芯片表面或微球表面;然后通過擴(kuò)增形成DNA簇或擴(kuò)增微球;最后利用聚合酶或者連接酶進(jìn)行一系列循環(huán)的反應(yīng)操作,通過CCD相機(jī)采集每個(gè)循環(huán)反應(yīng)中產(chǎn)生的光學(xué)事件信息,從而獲得DNA片段的序列。
1.2.1 Illumina Genome Analyzer Illumina公司于2007年以6億美元收購基因測序公司Solexa,推出了成熟商業(yè)產(chǎn)品 Genome Analyzer[5]。該技術(shù)利用單鏈DNA兩端的非對稱接頭將DNA片段固定在芯片表面形成寡核苷酸橋,并將該芯片放置于流通池內(nèi),完成DNA模板文庫構(gòu)建步驟。經(jīng)過多個(gè)PCR循環(huán)擴(kuò)增出大量的復(fù)制產(chǎn)物,每一簇復(fù)制產(chǎn)物都分別固定在芯片表面的特定位置上。然后,測序引物雜交到擴(kuò)增產(chǎn)物中的接頭上,開始合成測序反應(yīng)。在每一輪的測序循環(huán)中,DNA聚合酶和標(biāo)記不同熒光基團(tuán)的4種核苷酸被同時(shí)加入到流通池中,按照堿基互補(bǔ)配對的原則延伸一個(gè)核苷酸。此時(shí)采集熒光基團(tuán)所發(fā)出的熒光圖像,就可以獲得模板中這一位置的DNA序列信息。為防止額外的延伸,每個(gè)核苷酸的3'羥基是被封閉起來的,然后打開3'端,繼續(xù)進(jìn)行下一輪反應(yīng)并重復(fù)多次,以獲得約50個(gè)堿基的DNA序列。
1.2.2 Roche 454 Genome Sequencer 該技術(shù)將固化引物的微球與單鏈DNA相結(jié)合,構(gòu)建DNA模板文庫[6]。調(diào)整微球與文庫片段的比例,以保證大多數(shù)微球只能結(jié)合1個(gè)單鏈DNA分子。油與水溶液混合形成油包水結(jié)構(gòu)乳滴,利用微乳滴PCR來生成擴(kuò)增產(chǎn)物。經(jīng)過多輪循環(huán),每個(gè)微球表面都結(jié)合了大量相同的DNA片段。富集微球并轉(zhuǎn)移到帶有規(guī)則微孔陣列的微孔板上,每個(gè)微孔只能容納1個(gè)微球。微孔板的其中一面可以進(jìn)行測序反應(yīng),另一面則與CCD光學(xué)檢測系統(tǒng)相接觸。
序列測定同樣采用邊合成邊測序[7]。三磷酸核苷結(jié)合到DNA鏈上會釋放出焦磷酸,此時(shí)通過熒光素酶和ATP硫?;府a(chǎn)生級聯(lián)反應(yīng)會釋放出光信號。454利用該光學(xué)信號來進(jìn)行檢測。具體方法是順次向微孔板中加入4種dNTP 中的一種,監(jiān)測每個(gè)微孔之中是否釋放出光信號,表明該dNTP 是否連接到DNA片段上,以此明確DNA模板上的互補(bǔ)堿基。1.2.3 Life Technologies SOLiD System 與454類似,SOLiD也采用微乳滴PCR 的方法擴(kuò)增DNA模板[8],并將擴(kuò)增微球固定在玻璃基板上形成高通量的陣列。SOLiD采用連接反應(yīng)進(jìn)行邊合成邊測序。將通用引物與連在微球上的DNA文庫模板雜交,然后進(jìn)行一系列的連接反應(yīng)。每個(gè)連接反應(yīng)都發(fā)生在DNA延伸鏈和帶有熒光標(biāo)記的單鏈八核苷酸探針池中的某一探針之間。八核苷酸探針的堿基與特定的熒光顏色有明確的對應(yīng)關(guān)系。經(jīng)過一系列復(fù)雜的連接,酶切和下一引物結(jié)合的反應(yīng)循環(huán)后,獲取熒光圖象,即可根據(jù)堿基與熒光之間的對應(yīng)關(guān)系讀出DNA序列信息。
第二代技術(shù)是目前市場上主流的DNA測序技術(shù),已經(jīng)廣泛地應(yīng)用于各項(xiàng)研究領(lǐng)域中。較第一代測序技術(shù)而言,測量通量明顯提高。第二代測序技術(shù)極大地推進(jìn)了基因組相關(guān)研究的進(jìn)展,以前讓研究者望塵莫及的基因組測序工作,現(xiàn)在幾乎每一個(gè)實(shí)驗(yàn)室都可以開展。但是其不足之處也日益凸顯。首先,第二代測序讀長較短[9]。這一缺點(diǎn)對后續(xù)的序列拼接,組裝以及注釋等生物信息學(xué)分析帶來了很大困難。SOLiD 測序儀和Illumina公司的測序儀讀取的單一序列長度一般介于75-100bp,Roche 公司的454測序儀可以達(dá)到700bp的讀長,相應(yīng)的其通量僅僅為0.7Gb,因此其成本偏高。其次,第二代測序技術(shù)原理是建立在PCR的基礎(chǔ)上,但是擴(kuò)增后得到的DNA分子片段的數(shù)目和擴(kuò)增前DNA分子片段的數(shù)目比例有相對偏差,在分析基因表達(dá)方面存在較大的弊端[10]。因此序列讀長較短和需要模板擴(kuò)增步驟,成為第二代測序技術(shù)最集中的弊端所在。這樣就需要開發(fā)出不經(jīng)過擴(kuò)增的單分子測序、讀長超過以往的新型測序技術(shù),第三代測序技術(shù)便應(yīng)運(yùn)而生。
第三代測序技術(shù)的技術(shù)標(biāo)志就是單分子測序和長讀長。這得益于物理、化學(xué)、材料等學(xué)科的發(fā)展及其與生命科學(xué)的融合。第三代測序技術(shù)通過在單一DNA分子組成的陣列上進(jìn)行合成測序。在一個(gè)表面積限定的介質(zhì)上使用單個(gè)分子,可以增加獨(dú)立分析的DNA片段的數(shù)量,也意味著不再進(jìn)行昂貴的DNA擴(kuò)增步驟了,因此,可以使數(shù)據(jù)產(chǎn)出量更高,并且將進(jìn)一步降低測序的成本。但同時(shí)該技術(shù)也帶來了一些新的挑戰(zhàn),主要集中在單分子水平光學(xué)信號的檢測方面。主要的問題是要降低沒有參與到實(shí)際化學(xué)反應(yīng)中的游離熒光分子的背景干擾。解決原則主要是將檢測局限在測序反應(yīng)發(fā)生的實(shí)際位置附近。下面以在商業(yè)化中應(yīng)用較好的Pacific Biosciences公司的單分子實(shí)時(shí)測序儀SMRT加以闡述[11,12]。
SMRT單分子實(shí)時(shí)測序儀以SMRT芯片為載體進(jìn)行測序反應(yīng)。SMRT芯片是一種帶有很多零模式波導(dǎo)孔的金屬片,在該納米孔的底部區(qū)域錨定有DNA聚合酶。由于零模式波導(dǎo)孔直徑只有幾十個(gè)納米,其直徑低于光的波長,所以光線無法透射。這樣就創(chuàng)造了一個(gè)體積很小的檢測空間。測序時(shí),被打斷成許多小的片段的基因組DNA分散到不同的零模式波導(dǎo)納米孔中。當(dāng)孔底部聚合反應(yīng)發(fā)生時(shí),不同熒光標(biāo)記的dNTP會在小孔的熒光探測區(qū)域中被DNA聚合酶滯留數(shù)十毫秒,在這期間,熒光標(biāo)記會在激光束的激發(fā)下發(fā)出相應(yīng)的熒光,根據(jù)熒光的種類就可以判定該位置核苷酸的種類。
目前,SMRT技術(shù)的平均讀長已經(jīng)提升至3000bp左右,在這一點(diǎn)上遠(yuǎn)遠(yuǎn)優(yōu)于二代測序技術(shù),所以在序列拼接和需要跨越重復(fù)區(qū)域的DNA組裝中有著極大優(yōu)勢。另外,讀長的增加也使需要測序覆蓋深度隨之下降,進(jìn)一步降低了測序的成本。但是因?yàn)槭菃畏肿訙y序,測序中產(chǎn)生的任何一個(gè)錯(cuò)誤都會被真實(shí)地記錄下來,這就造成了SMRT測序儀最致命的問題。具體來說,測序錯(cuò)誤可能是會出現(xiàn)堿基的插入和缺失錯(cuò)誤:堿基缺失錯(cuò)誤是由于在某些時(shí)刻堿基摻入DNA鏈的速度過快,超過了相機(jī)最大的拍攝幀數(shù);插入錯(cuò)誤是由于在某些時(shí)刻DNA聚合酶隨機(jī)的選擇一些dNTP,但并未真正將這些dNTP摻入DNA鏈中。這些測序錯(cuò)誤導(dǎo)致SMRT測序儀的準(zhǔn)確性僅有85%,相比第二代測序技術(shù)至少99.5%的測序準(zhǔn)確率,確實(shí)是很大的短板。但這些錯(cuò)誤是隨機(jī)的,并不會隨著讀長的增加而增加。未來隨著測序試劑的優(yōu)化以及每個(gè)納米孔可獲得的數(shù)據(jù)量的增加,測序錯(cuò)誤會隨著測序覆蓋深度的增加逐漸被降低,相信單分子測序技術(shù)可以在不斷的發(fā)展過程中克服其劣勢[13]。
在上述第二代測序和第三代測序技術(shù)中,DNA序列都是在熒光等發(fā)光物質(zhì)的協(xié)助下,通過DNA聚合酶將不同的dNTP連接到DNA鏈上,讀取此過程中釋放出的不同光學(xué)信號而間接確定的。這些方法都需要昂貴的光學(xué)監(jiān)測系統(tǒng),并依賴DNA聚合酶讀取堿基序列,這些項(xiàng)目都增加了測序的成本。因此開發(fā)出不使用生物化學(xué)試劑,直接讀取DNA序列信息的新型測序方法是非??扇〉模纱藰?gòu)成了第四代測序技術(shù)的主要思想。
第四代測序技術(shù)中的代表當(dāng)屬納米孔測序,它不需要對DNA樣品進(jìn)行任何生物或化學(xué)方面的處理,而采用物理方法直接讀出其堿基序列[14,15]。其基本原理可概括為:單個(gè)堿基通過納米孔通道時(shí),就會引起通道電學(xué)性質(zhì)的變化,并且由于ATGC這4種不同的堿基存在電學(xué)性質(zhì)差異,使得它們穿越納米孔時(shí)所引起的電學(xué)參數(shù)的變化量也不同。因此,不同的電學(xué)參數(shù)變化量就對應(yīng)通過納米孔的相應(yīng)堿基。由此可見,第四代測序技術(shù)特點(diǎn)是完全拋棄了在復(fù)雜的DNA聚合酶的生化反應(yīng)中進(jìn)行DNA序列的讀取,而是利用不同堿基的電學(xué)性質(zhì)差異,通過納米孔等直接對堿基穿過電極時(shí)的電流變化進(jìn)行測量實(shí)現(xiàn)的。從目前的情況來看,研究人員已經(jīng)在納米孔的制造和DNA分子的控制上取得了一定的進(jìn)展,但是目前第四代測序技術(shù)所取得的成果還都處在實(shí)驗(yàn)室階段并且存在著其局限性,但是最近的研究工作表明未來新一代的DNA測序平臺可能將在其中產(chǎn)生[16]。
回顧上述四代測序平臺的技術(shù)的發(fā)展,可以看出,生物化學(xué)技術(shù)和固態(tài)技術(shù)的融合推動了DNA測序技術(shù)的進(jìn)步?,F(xiàn)階段,技術(shù)的融合有從生物化學(xué)手段向物理手段發(fā)展的趨勢[17],相信這一趨勢將繼續(xù)持續(xù)下去。下一代DNA測序技術(shù)將可能不再使用生物化學(xué)的方法,而物理手段納米技術(shù)將有可能發(fā)揮更大的作用。未來基于納米孔的DNA測序技術(shù),當(dāng)線性DNA通過納米孔時(shí),核苷酸序列就會被確定下來。這樣可以同時(shí)實(shí)現(xiàn)長讀長和高通量。理論上一個(gè)納米孔結(jié)構(gòu)單次測序讀長可能僅僅受到線狀DNA鏈的長度限制;而表面積很小的芯片上也可以容納不計(jì)其數(shù)的納米孔。因此,預(yù)計(jì)新一代的測序技術(shù)在具有超高通量的同時(shí),其讀長也將輕易超過以長讀長聞名的第一代測序技術(shù)。
基因組從頭測序是在沒有任何現(xiàn)有的DNA序列資料的情況下,直接對某個(gè)物種的基因組進(jìn)行測序。第一代測序技術(shù)在1990年啟動的人類基因組計(jì)劃和多種模式生物,如擬南芥(Arabidopsis thaliana)[18]、線蟲(Caenorhabditis elegans)[19]和小鼠(Mus musculus)[20]全基因組測序中起了重要的作用。但是,測序速度慢、成本高和通量低的第一代測序技術(shù)遠(yuǎn)遠(yuǎn)不能滿足人們對大量生物基因組解析的需求,因此第二代測序技術(shù)出現(xiàn)后,人們開始選擇使用新一代測序技術(shù)進(jìn)行全基因組從頭測序。熊貓(Ailuropoda melanoleura)基因組[21]的從頭測序是第一次完全采用第二代測序技術(shù)完成的大型物種的全基因組從頭測序,標(biāo)志著第二代測序技術(shù)和拼接組裝技術(shù)登上了基因組從頭測序的歷史舞臺。2011年以來,第二代測序技術(shù)快速發(fā)展。伴隨著測序所需的成本的降低和測序時(shí)間的縮短,采用第二代測序技術(shù)從頭測序的全基因組猶如雨后春筍般出現(xiàn),基因組學(xué)研究也迎來了革命性突破。不過第二代測序技術(shù)測序讀長短,這就要求必須有足夠的覆蓋度才能完成基因組序列的拼接。第三代測序技術(shù)具有讀長長的特點(diǎn),在基因組測序中能降低測序后contig的數(shù)量,大大減少了后續(xù)的基因組組裝的工作量,節(jié)省大量的測序成本和時(shí)間??茖W(xué)家僅僅用0.5×的第三代測序平臺的測序數(shù)據(jù)結(jié)合38×的第二代測序的數(shù)據(jù),就完成了馬達(dá)加斯加指猴基因組序列的組裝[22]?,F(xiàn)階段,三代測序技術(shù)均有其優(yōu)勢與局限性。因此從根本上說,要完成特定物種的基因組從頭測序,必須進(jìn)行合理評估以選擇合適的測序平臺。
基因組重測序是針對已知基因組序列的物種而言,重新測序的對象是該物種具有不同性狀的其他個(gè)體。通過基因組重測序并進(jìn)行差異信息分析,人們能夠快速的進(jìn)行很多有意義的研究,具有重大的科研價(jià)值和產(chǎn)業(yè)價(jià)值。具體來說主要有以下幾點(diǎn):(1)在群體水平研究物種的進(jìn)化歷史和對環(huán)境的適應(yīng)性。對種內(nèi)具有不同表型的個(gè)體進(jìn)行基因組重測序,可以在全基因組水平上找到群體內(nèi)個(gè)體間的DNA差異,包括大量的SNPs和結(jié)構(gòu)變異(structure variations,SVs)等變異信息,而這些差異可能與這些個(gè)體的表型差異存在關(guān)聯(lián)性,從而明確基因組是如何進(jìn)化以使物種適應(yīng)不同環(huán)境等問題。Lam等[23]對14株栽培大豆和17株野生大豆進(jìn)行了全基因組重測序,通過比較分析,鑒定出了栽培大豆中獲得以及丟失的18萬多個(gè)遺傳變異位點(diǎn),且栽培大豆相對于野生大豆有著更低水平的遺傳多樣性,這可能與人類的選擇有關(guān)。(2)基因組重測序可以在全基因組水平掃描出與動植物重要性狀相關(guān)的變異位點(diǎn),是育種研究中迅速有效的新方法。Zheng 等[24]采用基因組重測序技術(shù),對950份世界范圍內(nèi)的水稻栽培種進(jìn)行了遺傳分析,鑒定出18個(gè)與粒重和開花期相關(guān)聯(lián)的候選基因,為水稻的進(jìn)一步遺傳育種提供了理論基礎(chǔ)。(3)遺傳突變、適應(yīng)進(jìn)化和表型篩選是創(chuàng)造出帶有優(yōu)良性狀突變體的有力工具,基因組重測序技術(shù)有利于突變位點(diǎn)的定位和鑒定。Ashelford等[25]對一個(gè)擬南芥突變體的回交系進(jìn)行基因組重測序,成功鑒定出在 AtNFXL-2基因中引起該突變表型的SNP位點(diǎn)。
轉(zhuǎn)錄組測序(RNA-seq)是從總RNA 中富集出單鏈mRNA 經(jīng)反轉(zhuǎn)錄得到雙鏈cDNA,而后對其進(jìn)行高通量測序分析。第二代測序技術(shù)發(fā)展后,RNA-seq在新基因發(fā)現(xiàn)、可變剪切位點(diǎn)識別、基因表達(dá)和小RNA測序及其靶標(biāo)mRNA的識別上都有重要應(yīng)用。而第三代測序技術(shù)擁有實(shí)時(shí)測序的特點(diǎn),可以直接對RNA進(jìn)行測序,免除了將RNA轉(zhuǎn)變成DNA的過程,更加促進(jìn)了RNA-seq的發(fā)展。下面將逐一作出闡述。
2.3.1 mRNA測序 Chen等[26]采用 RNA-seq對飛蝗(Brugia malayi)的轉(zhuǎn)錄組進(jìn)行了測序,對獲得的21.5 Gb的序列進(jìn)行了拼接,共得到7萬多轉(zhuǎn)錄本,由此鑒定出11490 個(gè)蝗蟲蛋白的編碼基因,從基因組范圍內(nèi)全面解析了飛蝗的核心基因集。Li 等[27]使用RNA-seq分析了玉米葉片的轉(zhuǎn)錄組,得到約120 Mb的轉(zhuǎn)錄組數(shù)據(jù),結(jié)合玉米基因組序列,預(yù)測了基因的結(jié)構(gòu)和可變剪接事件。結(jié)果顯示,大部分玉米基因存在不同的mRNA可變剪接事件,這表明可變剪接事件比預(yù)期的更常見。這些數(shù)據(jù)為研究遠(yuǎn)比預(yù)期復(fù)雜的玉米轉(zhuǎn)錄調(diào)節(jié)機(jī)制提供了廣泛的依據(jù)。
2.3.2 基因表達(dá)分析 隨著測序技術(shù)的進(jìn)步,科學(xué)家們越來越多的采用數(shù)字基因表達(dá)譜(digital gene expression,DGE)技術(shù)進(jìn)行基因差異表達(dá)分析。該技術(shù)的基本原理是將mRNAs反轉(zhuǎn)錄成cDNAs,然后將cDNAs進(jìn)行雙酶切,使得一條mRNA對應(yīng)一個(gè)相應(yīng)的短DNA標(biāo)簽,而后采用高通量測序和分析流程,經(jīng)過生物信息分析比較不同樣本間各種標(biāo)簽條數(shù),找出差異的表達(dá)標(biāo)簽,從而明確差異基因表達(dá)。
Wang等[28]利用數(shù)字基因表達(dá)譜技術(shù)分析了野生型棉花和它的突變體基因表達(dá)情況發(fā)現(xiàn),在野生型和突變體之間,磷酸酶基因、纖維素合成酶基因和脫氫酶基因表達(dá)差異水平最大,而上述基因都參與了棉纖維細(xì)胞的發(fā)育過程,從而證實(shí)了在纖維早期發(fā)育中基因轉(zhuǎn)錄調(diào)控的高度復(fù)雜性。Hao等[29]首先對紅豆杉通過RNA-seq技術(shù)對其轉(zhuǎn)錄組進(jìn)行了從頭測序組裝,并基于生物信息學(xué)分析和同源蛋白的搜索,鑒定出2萬多個(gè)紅豆杉單一基因序列;然后使用數(shù)字基因表達(dá)譜技術(shù)分析了根、莖和葉3種組織中基因差異表達(dá)情況,鑒定出一批紅豆杉組織特異性基因和紫杉烷生物合成途徑的重要基因。
2.3.3 小RNA測序及其靶標(biāo)mRNA的識別 Guo等[30]采用高通量RNA-seq測序,分析了常規(guī)條件下和H2O2脅迫處理?xiàng)l件下的水稻幼苗的miRNAs組。通過生物信息學(xué)分析發(fā)現(xiàn),有7個(gè)miRNAs家族在H2O2脅迫處理?xiàng)l件下呈現(xiàn)出明顯的差異表達(dá)。這些miRNAs的靶基因參與了包括養(yǎng)分運(yùn)輸、轉(zhuǎn)錄調(diào)控、細(xì)胞增殖和細(xì)胞程序化凋亡不同的代謝過程和細(xì)胞周期調(diào)控,說明多樣化的miRNAs形成了一個(gè)復(fù)雜的植物氧化應(yīng)激反應(yīng)的調(diào)控網(wǎng)絡(luò)。除此之外,在水稻中還發(fā)現(xiàn)了32個(gè)尚未鑒定出的miRNAs,并且首次發(fā)現(xiàn)了一個(gè)前體位于植物外顯子小RNA,說明植物也可以使用某些外顯子作為miRNA的來源。
明確了全基因組范圍內(nèi)的miRNAs組后,鑒定miRNAs的靶標(biāo)mRNAs可以對其生物學(xué)功能展開詳細(xì)的研究。隨著測序技術(shù)的發(fā)展,現(xiàn)在可以采用RNA-seq技術(shù)用于miRNAs的靶標(biāo)mRNAs配對關(guān)系的發(fā)現(xiàn),這一方法被稱為降解組測序。其基本原理是:在植物體內(nèi)大多數(shù)的miRNAs剪切mRNA的位點(diǎn)是兩者互補(bǔ)區(qū)域的第10位核苷酸,經(jīng)剪切后靶mRNA產(chǎn)生了3'剪切片段和5'剪切片段;其中3'剪切片段含有5'單磷酸基團(tuán),可用于下游高通量測序;而含有帽子結(jié)構(gòu)的5'剪切片段和含有5'帽子結(jié)構(gòu)的尚未降解的mRNA缺少5'單磷酸基團(tuán),無法進(jìn)入下游的高通量測序。因此,對3'端降解片段進(jìn)行高通量測序并進(jìn)行比較分析后,可以直觀地發(fā)現(xiàn)在某個(gè)mRNA的某個(gè)位點(diǎn)上會出現(xiàn)一個(gè)波峰,該mRNA便是miRNAs的靶標(biāo)mRNA,波峰位置便是候選的miRNA剪切位點(diǎn)。Zhou等[31]利用降解組測序在水稻中鑒定miRNAs 靶基因,發(fā)現(xiàn)了87個(gè)miRNAs的177個(gè)靶標(biāo)mRNAs。這些靶標(biāo)mRNAs在水稻的基因表達(dá)調(diào)控中發(fā)揮重要作用,構(gòu)成了復(fù)雜的調(diào)節(jié)網(wǎng)絡(luò)。
2.3.4 第三代測序技術(shù)與RNA測序 利用第三代測序平臺,可以免除將RNA轉(zhuǎn)變成cDNA的步驟,實(shí)現(xiàn)RNA的直接測序[32]。這是因?yàn)榈谌鷾y序平臺為單分子測序平臺,將DNA聚合酶換為反轉(zhuǎn)錄酶便可對RNA直接進(jìn)行測序,利用該技術(shù)已成功對釀酒酵母的RNA進(jìn)行了直接測序[33]。
表觀遺傳學(xué)是研究在非基因序列改變前提下,DNA甲基化和組蛋白修飾等所導(dǎo)致的基因表達(dá)水平變化。而隨著測序技術(shù)的發(fā)展,產(chǎn)生了表觀基因組學(xué),它是在基因組水平上對表觀遺傳學(xué)改變的研究。DNA甲基化修飾、組蛋白修飾是表觀基因組學(xué)的重要研究內(nèi)容。
2.4.1 DNA甲基化修飾 亞硫酸氫鹽可以使DNA中沒有發(fā)生甲基化的胞嘧啶轉(zhuǎn)變?yōu)槟蜞奏?,甲基化的胞嘧啶則可以保持不變。利用上述原理,對亞硫酸氫鹽處理過的基因組測序并且與未經(jīng)處理的序列相比較,就可以得到全基因組范圍內(nèi)單堿基分辨率水平的甲基化圖譜,這就是全基因組甲基化測序技術(shù)。
Xiang 等[34]利用全基因組甲基化測序技術(shù),對家蠶的2個(gè)個(gè)體進(jìn)行了測序,得到了家蠶絲腺的甲基化圖譜,共找出17萬個(gè)甲基化位點(diǎn),其中絕大部分位于GC島,0.11%的胞嘧啶發(fā)生了甲基化修飾。在這些甲基化位點(diǎn)中,基因內(nèi)部的甲基化占了很大一部分;而在基因啟動區(qū)域、rDNA 區(qū)域和轉(zhuǎn)座元件區(qū)域甲基化程度很低。說明在高等生物中發(fā)揮重要調(diào)控作用的啟動子區(qū)甲基化、核糖體rDNA甲基化和轉(zhuǎn)座子區(qū)的甲基化未在昆蟲中進(jìn)化出來,家蠶甲基化譜的成功繪制為解析昆蟲類的表觀遺傳調(diào)控提供了重要資料。
第三代測序技術(shù)對DNA聚合酶的工作狀態(tài)進(jìn)行了實(shí)時(shí)監(jiān)測,聚合酶每合成一個(gè)堿基都要消耗一個(gè)時(shí)間段,而當(dāng)DNA模板的堿基帶有甲基化等修飾時(shí),聚合酶的速度就會慢下來。通過這一原理就可以判斷DNA模板的這個(gè)位置是否存在甲基化修飾,為表觀遺傳學(xué)研究開辟了一條新路[35]。
2.4.2 組蛋白修飾 染色質(zhì)免疫共沉淀(Chromatin immunoprecipitaion,ChIP)是研究體內(nèi)DNA與蛋白相互作用的一種方法,開始往往用在解析轉(zhuǎn)錄因子在基因組范圍內(nèi)的結(jié)合位點(diǎn)上。近年來,將該技術(shù)與新一代測序技術(shù)相結(jié)合后產(chǎn)生了染色質(zhì)免疫共沉淀-測序(ChIP-seq)技術(shù),在表觀遺傳學(xué)中發(fā)揮了重要作用。先通過ChIP富集與特定組蛋白修飾相結(jié)合的DNA片段,然后進(jìn)入高通量測序流程,最后將獲得的所有DNA序列標(biāo)簽定位到基因組上,從而獲得不同修飾的組蛋白在全基因組范圍內(nèi)的DNA結(jié)合區(qū)段信息。Wang等[36]采用ChIP-seq技術(shù),對玉米幼苗的4種組蛋白修飾(H3K4me3、H3K27me3、H3K36me3和 H3K9ac)進(jìn) 行 了 詳 盡的研究,表明其中3種組蛋白修飾(H3K4me3、H3K9ac和H3K36me3)正調(diào)控基因表達(dá);而組蛋白修飾H3K27me3負(fù)調(diào)控基因表達(dá)。
DNA測序技術(shù)的發(fā)展已經(jīng)成為生物學(xué)領(lǐng)域最前沿的領(lǐng)域之一。從測序技術(shù)上來看,已經(jīng)商業(yè)化的前三代測序技術(shù)由于之間功能上的互補(bǔ)性,它們將長期共存;而第四代測序技術(shù)指明了未來測序技術(shù)的發(fā)展方向。 從應(yīng)用方面來看,快速而廉價(jià)的DNA測序能力將使基因組學(xué)成為研究生物學(xué)問題的常規(guī)方法,引領(lǐng)我們開辟一系列新的研究領(lǐng)域。
[1]周曉光, 任魯風(fēng), 李運(yùn)濤, 等. 下一代測序技術(shù):技術(shù)回顧與展望[J]. 中國科學(xué):生命科學(xué), 2010, 40(1):23-37.
[2]岳桂東, 高強(qiáng), 羅龍海, 等. 高通量測序技術(shù)在動植物研究領(lǐng)域中的應(yīng)用[J]. 中國科學(xué):生命科學(xué), 2012, 42(2):107-124.
[3]Sanger F. Sequences, sequences, and sequences[J]. Annual Review of Biochemistry, 1988, 57(1):1-29.
[4]McPherson JD, Marra M, Hillier LD, et al. A physical map of the human genome[J]. Nature, 2001, 409(6822):934-941.
[5]Fedurco M, Romieu A, Williams S, et al. BTA, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic Acids Research, 2006, 34(3):e22.
[6]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2005,437(7057):376-380.
[7]Ronaghi M, Karamohamed S, Pettersson B, et al. Real-time DNA sequencing using detection of pyrophosphate release[J].Analytical Biochemistry, 1996, 242(1):84-89.
[8]Holt RA, Jones SJM. The new paradigm of flow cell sequencing[J].Genome Research, 2008, 18(6):839-846.
[9]Pop M, Salzberg SL. Bioinformatics challenges of new sequencing technology[J]. Trends in Genetics, 2008, 24(3):142-149.
[10]Torres TT, Metta M, Ottenw?lder B, et al. Gene expression profiling by massively parallel sequencing[J]. Genome Research, 2008,18(1):172-177.
[11]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910):133-138.
[12]Schadt EE, Turner S, Kasarskis A. A window into third-generation sequencing[J]. Human Molecular Genetics, 2010, 19(R2):R227-R240.
[13]張得芳, 馬秋月, 尹佟明, 夏濤. 第三代測序技術(shù)及其應(yīng)用[J].中國生物工程雜志, 2013, 33(5):125-131
[14]Yang J, Ferranti DC, Stern LA, et al. Rapid and precise scanning helium ion microscope milling of solid-state nanopores for biomolecule detection[J]. Nanotechnology, 2011, 22(28):285310.
[15]Marshall MM, Yang J, Hall AR. Direct and transmission milling of suspended silicon nitride membranes with a focused helium ion beam[J]. Scanning, 2012, 34(2):101-106.
[16]陳文輝, 羅軍, 趙超. 固態(tài)納米孔:下一代DNA測序技術(shù)——原理、工藝與挑戰(zhàn)[J]. 中國科學(xué):生命科學(xué), 2014, 44(7):649-662.
[17]任魯風(fēng), 于軍. 解讀生命密碼的基本手段——DNA測序技術(shù)的前世今生[J]. 生命科學(xué), 2012, 24(12):1357-1362.
[18]Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J]. Nature, 2000, 408(6814):796.
[19]Hillier LDW, Marth GT, Quinlan AR, et al. Whole-genome sequencing and variant discovery in C. elegans[J]. Nature Methods, 2008, 5(2):183-188.
[20]Powell K, Abbott A, Check E. Mouse genome :The real deal[J].Nature, 2002, 420(6915):456-456.
[21]Li R, Fan W, Tian G, et al. The sequence and de novo assembly of the giant panda genome[J]. Nature, 2010, 463(7279):311-317.
[22]Perry GH, Reeves D, Melsted P, et al. A genome sequence resource for the aye-aye(Daubentonia madagascariensis), a nocturnal lemur from Madagascar[J]. Genome Biology and Evolution,2012, 4(2):126-135.
[23]Lam HM, Xu X, Liu X, et al. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection[J]. Nature Genetics, 2010, 42(12):1053-1059.[24]Zheng LY, Guo XS, He B, et al. Genome-wide patterns of genetic variation in sweet and grain sorghum(Sorghum bicolor)[J].Genome Biology, 2011, 12(11):R114.
[25]Ashelford K, Eriksson ME, Allen CM, et al. Full genome re-sequencing reveals a novel circadian clock mutation in Arabidopsis[J].Genome Biol, 2011, 12(3):R28.
[26]Chen MX, Ai L, Xu MJ, et al. Identification and characterization of microRNAs in Trichinella spiralis by comparison with Brugia malayi and Caenorhabditis elegans[J]. Parasitology Research,2011, 109(3):553-558.
[27]Li P, Ponnala L, Gandotra N, et al. The developmental dynamics of the maize leaf transcriptome[J]. Nature Genetics, 2010, 42(12):1060-1067.
[28]Wang QQ, Liu F, Chen XS, et al. Transcriptome profiling of early developing cotton fiber by deep-sequencing reveals significantly differential expression of genes in a fuzzless/lintless mutant[J].Genomics, 2010, 96(6):369-376.
[29]Hao DC, Ge G, Xiao P, et al. The first insight into the tissue specific taxus transcriptome via Illumina second generation sequencing[J]. PLoS One, 2011, 6(6):e21220.
[30]Guo W, Wu G, Yan F, et al. Identification of novel Oryza sativa miRNAs in deep sequencing-based small RNA libraries of rice infected with Rice stripe virus[J]. PLoS One, 2012, 7(10):e46443.
[31]Zhou M, Gu L, Li P, et al. Degradome sequencing reveals endogenous small RNA targets in rice(Oryza sativa L. ssp. indica)[J].Frontiers in Biology, 2010, 5(1):67-90.
[32]Uemura S, Aitken CE, Korlach J, et al. Real-time tRNA transit on single translating ribosomes at codon resolution[J]. Nature,2010, 464(7291):1012-1017.
[33]Ozsolak F, Platt AR, Jones DR, et al. Direct RNA sequencing[J].Nature, 2009, 461(7265):814-818.
[34]Xiang H, Zhu J, Chen Q, et al. Single base-resolution methylome of the silkworm reveals a sparse epigenomic map[J]. Nature Biotechnology, 2010, 28(5):516-520.
[35]Song CX, Clark TA, Lu XY, et al. Sensitive and specific singlemolecule sequencing of 5-hydroxymethylcytosine[J]. Nature Methods, 2012, 9(1):75-77.
[36]Wang X, Elling AA, Li X, et al. Genome-wide and organ-specific landscapes of epigenetic modifications and their relationships to mRNA and small RNA transcriptomes in maize[J]. The Plant Cell, 2009, 21(4):1053-1069.