王康宇++王義++孫春玉++蔣世翠++張美萍
摘要:RNA測序研究是基因功能及結構研究的基礎,能夠從整體水平研究基因功能及其結構。隨著高通量測序和定量檢測技術的不斷發(fā)展,能夠通過RNA測序對轉錄組進行更深度更完整的研究。該研究進展包括改善轉錄起始位點的預測、鏈特異性測序、融合基因的檢測、microRNA定量的分析以及RNA可變剪切的識別。目前利用單分子測序技術可以實現(xiàn)RNA的直接測序,通過二代測序技術與單分子測序技術相結合的方式,能更深層次、更全面地獲得轉錄組信息。
關鍵詞:轉錄組信息;測序;編碼RNA;非編碼RNA;高通量測序技術;單分子測序技術
中圖分類號: Q75文獻標志碼: A文章編號:1002-1302(2014)10-0012-05
收稿日期:2013-12-31
基金項目:國家科技計劃農村領域項目(編號:2013AA102604-3)。
作者簡介:王康宇(1983—),吉林通化人,博士研究生,從事植物功能基因組學研究。E-mail:wky427@sina.com。
通信作者:張美萍,教授,博士生導師,從事植物基因組學與系統(tǒng)生物學研究。E-mail:wanglaoshi0606@163.com。1995年Velculescu等首次提出了關于轉錄組的概念[1],轉錄組廣義上是指某一特定功能狀態(tài)下,細胞內所有轉錄表達的基因總和,其中包括編碼RNA(mRNA)和非編碼RNA如tRNA、rRNA、snRNA、miRNA等,而非編碼RNA不能被轉錄識別,不能翻譯成蛋白質,但是能參與某些蛋白質翻譯過程;狹義上是指所有mRNA的總和[2]。1995年第1個轉錄組是由Velculescu等在釀酒酵母細胞中獲得的,當時的技術共獲得了60 633個轉錄本,揭示了4 665個基因,其中有1 981個基因是具有已知功能的,其他2 684個基因尚未被鑒定過[1]。從人類基因組計劃[3]的實施開始,截至2013年10月已有68種植物和119種動物的基因組文章相繼發(fā)表。高通量測序在過去十幾年中快速發(fā)展,促使關于生物的功能基因組研究日益興起,人們利用測序技術研究了從簡單模式生物(如酵母、擬南芥、水稻等)到人等一些高等物種的基因組中DNA修飾和RNA的定性定量變化等動態(tài)的基因組位點的特性。在對基因組測序和分析研究的同時,關于復雜的轉錄組研究也廣泛發(fā)展起來。利用高通量測序技術平臺分析轉錄組的結構和表達水平,更能挖掘未知轉錄本和稀有轉錄本,精確地識別RNA的可變剪切以及編碼序列的單核苷酸多態(tài)性(SPN),更進一步解析復雜的轉錄組信息[4]。
最初的轉錄組研究主要以基因芯片微陣列技術為基礎,由于基因芯片技術的檢測范圍取決于芯上的探針信息,所以只能檢測已知序列的特征,缺少發(fā)現(xiàn)新基因的能力,而高通量測序技術可以很好地彌補基因芯片技術在這方面的不足。因此,現(xiàn)階段轉錄組的研究是借助于高通量的二代DNA測序技術(NGS)[5]來完成的,通過構建cDNA文庫并對cDNA進行高通量測序,分析測序結果進而解析轉錄組學中的復雜變化,這使RNA測序技術對基因芯片微陣列技術是極大的挑戰(zhàn)。目前,以基因測序技術為核心的新技術平臺支撐體系已經相對成熟和完善,例如:Illumina公司的Solexa測序技術、羅氏公司的454測序技術、ABI公司的SOLID測序技術以及美國螺旋生物科學公司的新型納米孔測序技術等[5]。RNA測序技術平臺隨著NGS技術的不斷更新和提高而日益成熟完善,如測序通量、測序長度、錯配率、堿基配對讀取能力等測序性能方面技術的提高均有利于轉錄組的研究。
新RNA測序技術的不斷更新和創(chuàng)新,為人類逐步全面了解真核生物和原核生物的轉錄組信息提供了新的定性和定量的生物信息學方法。本文闡述了改善轉錄起始位點的映射、RNA特異鏈的測定、融合基因的檢測、小RNA定性的分析以及RNA可變剪切的識別的發(fā)展,綜述了利用單分子測序技術實現(xiàn)RNA的直接測序,通過二代測序技術與單分子測序技術相結合的方式更深層次、更全面的獲得轉錄組信息,并展望了RNA測序在研究轉錄組的潛能。
1RNA測序的研究內容
1.1轉錄起始位點的預測
轉錄起始位點(TSSs)是指RNA聚合酶識別和結合的位點,并且能夠識別和調控每個轉錄本表達的啟動子。第1個高通量獲得轉錄起始位點預測方法是帽分析基因表達法(CAGE),該方法是由最早的Sanger測序法[6]發(fā)展而來的,并能通過cDNA克隆獲得完整的RNA帽子結構。該方法雖然對轉錄起始位點的預測有效,但需要大量高質量的RNA并且獲得的轉錄起始位點很短,僅是20~21個核苷酸長度。
通過NGS技術發(fā)展,CAGE方法得到了改進,經研究發(fā)現(xiàn),通過該方法可以獲得整個基因組范圍內復雜的轉錄起始位點分布和獨特的啟動子。因此,CAGE與RNA測序技術結合后衍生出了以CAGE策略為基礎的DeepCAGE法[7]、nanoCAGE法[8]、CAGEscan法[8]以及PEAT法[9],同時以Sanger測序為基礎的分析轉錄起始位點預測的方法受到了RNA測序技術與CAGE結合的挑戰(zhàn)。例如,nanoCAGE法[8]解決了GAGE法需要大量RNA的缺點,可以通過放大技術從10 ng的總RNA量獲得轉錄起始位點的映射;PEAT法和CAGEscan法[8-9]雙末端測序可以獲得轉錄起始位點映射以及轉錄起始位點下游區(qū)間,具有良好的連通性并能促進識別特殊的轉錄本。此外,雙末端測序緩解了對單個短讀取重復區(qū)的校對,通過RNA測序可以獲得序列的重復特性。雖然這些方法結合了NGS技術,克服了一些CAGE方法的不足,但是也存在一定的弊端。例如,在檢測擴增結果過程中的操作步驟,可能影響了轉錄起始位點出現(xiàn)的頻率[8];此外,在cDNA合成和測序的過程中會產生引物二聚體,這就減少了測序的有效結果[8]。因此,這些與RNA測序技術結合的方法,雖然在定性檢測方面很有效,但是在定量檢測方面還需要進一步的提高和優(yōu)化。
以RNA測序為基礎的轉錄起始位點預測研究具有依賴cDNA合成和測序技術的局限性,這個局限性主要是由RNA的結構和序列特點造成的。此外,以RNA測序為基礎的轉錄起始位點映射很難捕獲那些轉錄水平高且自身能夠快速降解的轉錄本,如microRNA。解決這些限制需要RNA測序技術與其他方法相結合,如以染色體為基礎的轉錄起始位點的預測,依賴于對組蛋白修飾后對轉錄本進行有效的檢測[10-11]。轉錄后加工出現(xiàn)5′帽子結構的RNA片段有利于被檢測[12]。因此,單單依賴于GAGE法獲得的轉錄起始位點具有在轉錄后加工中難分離的難題。
1.2鏈特異性測序
在關于轉錄組學的研究中發(fā)現(xiàn),物種中普遍存在反義轉錄現(xiàn)象。反義轉錄的生物學功能明晰,它能在生物體正常生理狀態(tài)和病理狀態(tài)下發(fā)揮各種作用[13]。因此,在更深層次研究轉錄組時,對正義鏈和反義鏈的測序和分析研究成為了一個重點。標準的RNA測序方法一般需要合成雙鏈的cDNA,這樣會丟失RNA鏈的部分信息。此外,在cDNA第1條鏈合成后需要依賴DNA聚合酶(DDDP)反轉錄產生cDNA的第2條鏈,此過程會引入虛假的信息[14-15],這能混淆轉錄檢測的分辨率。作為抑制反轉錄酶DDDP活性的物質,放線菌素D的有效抑制作用尚未被報道[16]。為克服這些難題,已經開發(fā)了鏈特異性RNA測序的分析策略。
對特異鏈信息的獲得依賴于3種方式:第1種方法是在RNA尾部或cDNA第1條鏈預定方向連上接頭,已知方向上的接頭被作為獲取RNA鏈信息的參考點;第2種方法是直接對cDNA的第1條鏈進行測序;第3種方法是在合成的cDNA第2條鏈或RNA上進行選擇性標記。這些方法可以讓大家更了解反義轉錄過程,包括反義RNA轉錄位點圖譜的建立如核糖體轉錄位點和識別新的反義轉錄的啟動子。以釀酒酵母的基因組作為參考,比較這3種方法[17],結果發(fā)現(xiàn)關于鏈特異性水平、平均覆蓋率、注釋信息、建庫復雜性以及定量表達譜分析等具有差異。關于外界添加酶的添加對這些數(shù)據(jù)造成的特異性偏差依然缺乏更深入的研究,這些數(shù)據(jù)合理處理的問題也成為日后研究的重點。
首先,逆轉錄酶在合成cDNA的第1條鏈并轉錄形成 cDNA 第2條鏈時具有傾向性,目前尚不明晰這個依賴于 cDNA 第1條鏈測序的方法是否完全具有單鏈的特異性[15-16]。這些方法通過對單鏈特異性進行比較分析獲得已知反義鏈的方向、基因注釋以及相對讀取位置。有研究表明,小部分的讀取方向是反義方向,所以這些鏈可能不完全具有單鏈特異性。此外,cDNA第1條、第2條鏈不能恰當?shù)貙⒖夹蛄羞M行定位[17]。對基因組正義和反義的轉錄給出了不完全的注釋,即使在釀酒酵母這樣模式物種中,這些方法也不能完全確定鏈的特異性。
其次,添加接頭的方法具有序列的偏好。依賴于接頭的方法會存在不同表現(xiàn)性的偏差,這種偏差存在于轉錄組分析和核糖體分析中[18-19]。與使用3′端多聚腺嘌呤酶的獲得的文庫相比使用接頭獲得的文庫存在覆蓋率不均勻的現(xiàn)象[20]。
最后,其中一些方法包含使用溶液或者添加步驟都會添加外來物如DNA聚合酶的使用,例如,對GC形式的偏差和重復形式的讀取。RNA模板對GC形式的存在有一定的偏差,所以應該擁有中度的GC含量[21]。而對重復序列的讀取是特異鏈RNA測序主要解決的問題,這些影響因素能通過鏈特異性RNA測序技術的發(fā)展或已有測序技術的改變和提高得到解決。
1.3可變剪接的識別
目前,已知15%~60%的突變來源于RNA可變剪接,完整的RNA可變剪接事件是分析和了解細胞分化和疾病發(fā)生的關鍵點[22]。可變剪接有6種基本形式,即內含子保留、可變的5′端、可變的3′端、外顯子盒、互斥外顯子、可變的起始或末端外顯子(這2種形式更有可能是可變啟動子、可變polyA位點造成的)。因此,可變剪切事件的識別在RNA測序中具有重要性。最早利用RNA測序方法對可變剪切位點識別的研究受測序讀取長度的限制,因此最初的RNA測序對可變剪接的研究通過使用計算機來彌補這一限制。在人的基因組中超過95%的外顯子基因具有可變剪切的發(fā)生,每個組織中含有110 000個新型剪接位點,可變剪切事件改變了對人類基因組的組裝,從而獲得了人的基因,數(shù)量為35 000[23]。通過計算每個外顯子讀取基因的數(shù)量和每個剪接點的生成,決定每個接點剪接效率和不同種類亞型的水平[24]。
通過改進目前的RNA測序技術來增加讀取的長度,能更好地映射到具有可變剪切的外顯子上。通過改進測序技術能提高讀取區(qū)的分塊[25],調整定位基因組每個獨立的區(qū)塊。此外,通過改進雙末端測序方法能從轉錄本的預計讀取間距離2點上獲得更多的測序信息?,F(xiàn)在在不需要先前已知轉錄信息的基礎上就能識別可變剪接事件的發(fā)生,識別可變剪接、轉錄本連通性以及基因組組裝方式需要獲得全長轉錄本序列,這些在未來可能產生新興技術。
1.4基因融合檢測
基因融合技術是將不同的基因連接起來,從而表達具有復合功能的融合蛋白,融合蛋白除了具有衍生因子的雙重活性外,還具有融合蛋白的活性高于衍生因子相加的活性。RNA測序技術結合計算機進行分析不僅可以對轉錄起始位點進行識別,還可以用來檢測有組織細胞中的基因融合現(xiàn)象,其中用于生物醫(yī)學方面的研究尤為重要。利用單端測序和雙末端測序相結合的策略更易檢測到基因組DNA的易位和基因組重排現(xiàn)象[26]。然而,RNA測序技術能夠更好地識別物種中產生異常變化的RNA種類,使檢測因功能性或互作關系引起物種基因融合導致病變的研究具有可能性。此外,以基因組DNA為基礎方法不能識別基因融合是由于非基因組因素影響,如轉移剪接或者相鄰轉錄本間通讀所引起的融合現(xiàn)象[26]。雙末端配對的RNA測序能夠提高基因覆蓋率,因此對檢測基因融合具有特別的優(yōu)勢,現(xiàn)在該方法被用于病理學的研究,并為調控與治療提供潛在的可能性。
對基因融合檢測所面臨的最大難題是與之并行存在的RNA可變剪接。此外,RNA測序分析不能檢測包括擁有編碼序列的其他基因的啟動子融合現(xiàn)象,同時在RNA測序時含有嵌合有外界添加制品的cDNA測序模板也可能導致基因融合識別中假陽性的出現(xiàn)[27]。但是,通過增加足夠RNA測序的測序通量和測序讀取片段長度等技術的改進,可能會降低檢測基因融合過程中假陽性的產生[5]。
1.5microRNA定量分析
NGS技術對sRNA的發(fā)現(xiàn)和鑒定的影響特別明顯。對miRNA的研究已經成為目前世界上RNA測序技術研究的熱點,miRNA最初的發(fā)現(xiàn)和研究是通過焦磷酸測序進行的[28],后來隨著高通量NGS平臺的使用,大量的miRNA被發(fā)現(xiàn)并引起了研究的重視。但NGS樣品的準備需要更長的RNA(>200個核苷酸),因此二代測序對miRNA研究不合適[29]??梢姺崔D錄和隨機引物測序的策略,為其提供了解決問題的新途徑。
目前,研究miRNA的RNA測序方法的一個重要問題是miRNA測序數(shù)據(jù)的標準化。隨著測序技術的進步,關于 miRNA 的研究思路逐漸變得清晰,通過以NGS為基礎的 miRNA 定量分析可以通過差異表達分析完成,但是還存在如何獲得每個miRNA的讀取數(shù)量不是找出其實際表達豐度的有效辦法[30],這些差異更有可能是由在樣品準備和測序時的偏差所造成的。所以,新興技術能否提高sRNA定量測定與分析讓人拭目以待。
綜上所述,高通量測序技術的不斷發(fā)展使得測序量和成本逐漸降低,但是還存在如何獲得足夠通量的測序覆蓋度和其他一些潛在的問題。在轉錄過程中,等位基因在表達上存在差異,導致低豐度轉錄組本與基因型的測定和分析很難完成,這就要求獲得轉錄過程越豐富越好,優(yōu)選優(yōu)質的轉錄組測序可以盡量減少測序的總成本并使分析樣品數(shù)最大化。
2單分子測序技術對RNA的直接測序
2.1RNA測序的影響因素
目前,cDNA的合成和其他RNA操作極大地限制了RNA測序技術的應用?,F(xiàn)今許多RNA測序方法依賴于cDNA的合成和以及一系列的合成后續(xù)操作步驟,這使得RNA測序的應用具有一定的局限性。例如,人工條件下合成的cDNA第2條鏈在特異鏈RNA測序時相當困難。為了在特異鏈建庫時避免這一問題,使用RNA-RNA連接和建庫的方法費力且難構建,因此可以通過合成cDNA作為模版來突破這個限制[31]。在反轉錄時,合成初期的cDNA有時會從RNA中分離出來,通過再退火與RNA序列特異性結合到初始模板上并進行延伸,會人工產生嵌合的cDNA。通過模板切換能解決在外顯子-內含子界限的識別和嵌合轉錄上所產生的問題。同時,反轉錄酶在無引物條件下由于RNA的二級結構也能自由合成cDNA,這將導致隨機的cDNA被合成[32],這是由于反轉錄酶與其他酶相比保真度低,缺乏校正機制[32]。所以,在RNA反轉錄成cDNA時轉化效率受試驗條件影響。
RNA測序技術除了cDNA影響因素外,還有其他影響因素。第一,RNA測序信號具有不均勻覆蓋性,這就可能在轉錄過程中因一些因素的影響產生偏差[33],如隨機引物選擇、cDNA合成以及連接等。第二,使用統(tǒng)一的RNA測序策略,導致在RNA或cDNA讀取長度選擇的不合理,以致轉錄本長度存在偏差,給下游分析造成了嚴重結果。第三,RNA測序定量分析需要考慮到不確定的讀段長度和每個轉錄本讀段正常化[34]。盡管隨著轉錄方法的提高和生物信息學的發(fā)展允許轉錄組從頭合成測序,但存在的方法通常難以檢測確定的轉錄以及其覆蓋全部長度。因RNA存在可變剪切,啟動子、轉錄位點以及轉錄邊界和長度存在不確定性,正常長度是RNA測序定量分析的潛在錯誤源。第四,RNA測序策略往往涉及到mRNA的富集,因此利用RNA轉錄聚合酶Ⅰ對mRNA的polyA進行富集可以獲得理想的RNA產物。
2.2單分子測序的研究進展
目前,RNA測序和分析技術發(fā)展受到諸多條件的限制,單分子測序技術的出現(xiàn)解決了現(xiàn)階段二代測序技術解決不了的問題,因為單分子測序技術可以不經過反轉錄成cDNA,不改變RNA的原本特性,直接對RNA分子進行測序。但是單分子測序也有其不足之處,使得RNA直接測序技術發(fā)展前景充滿了未知。
二代高通量測序的讀取序列片段太短,使得后續(xù)的組裝工作困難且繁瑣。而三代高通量測序采用的是單分子測序原理,不僅可以降低測序每個堿基的費用,簡化測序樣品的制備流程,加快測序速度,縮短分析數(shù)據(jù)的過程,而且還具有讀取數(shù)百個堿基甚至更長片段的優(yōu)點,運用在從頭測序時使數(shù)據(jù)分析過程簡化了[35]。這種長片段的測序技術與短片段測序相比在后續(xù)組裝中得到了簡化,因而省去了不必要的麻煩,同時還增加了轉錄組數(shù)據(jù)分析的新內容,如拷貝數(shù)變異情況、可變剪切識別、轉位情況、嵌合轉錄本識別以及基因型分期等。
RNA直接技術是隨著Helicos公司的Heliscope并行單分子測序技術發(fā)展起來的?,F(xiàn)階段主要的單分子測序技術分為Helicos公司的Heliscope并行單分子合成測序技術、Pacific公司的SMRT單分子實時合成測序技術以及Oxford Nanopore公司的納米孔單分子測序技術。單分子測序技術具有二代測序技術不具備的優(yōu)點,如不在需要制備測序所用的DNA文庫可以對樣品片段直接進行單分子擴增、測序的速度更快、測序過程具有并行度以及讀取長度更長等。
Heliscope并行單分子合成測序技術的原理是該技術基于邊合成邊測序的思想,將待測的RNA樣品連接上已知序列的接頭[通常為poly(A)]并于單通道與含有poly(T)的共價引物進行雜交,再用過精準定位的成像系統(tǒng)鑒定具有標記的測序片段,其具有以下特點:第一,測序可以不是同步的,可以同時讀取不同長度的片段,這就改善了二代測序讀取長度均一的策略,讀取長度不均一的測序模板可造成測序速度快慢不等。第二,在熒光標記的核苷酸上沒有終止基團。在二代測序時,測序模板存在同聚物時帶有熒光標記的堿基之間與同聚物結合會發(fā)生猝滅的現(xiàn)象,這樣就無法識別讀取的堿基數(shù),而Heliscope單分子測序技術能記錄所讀取的每個堿基數(shù)據(jù),這樣就避免了猝滅現(xiàn)象的發(fā)生。第三,可以通過2步測序(正向測序和反向測序)提高測序的準確性。第四,測序過程中會有未標記的堿基、不發(fā)熒光的堿基以及污染堿基的混入,會使測定缺失突變時的錯誤率較高,2步測序2次誤差率分別為2%~7%、0.2%~1.0%,但是在測定堿基替換突變時的錯誤率非常低,2步測序2次錯誤率分別在0.01%~100%、0001%,這是目前測序技術中準確率最高的[36]。
SMRT單分子實時合成測序技術的原理同樣也是基于邊合成邊測序的思路,該技術以SMRT芯片作為測序載體進行測序反應。SMRT芯片是一種帶有需要零模波導孔(zero-mode waveguides,ZMW)的且孔的厚度為100 nm的金屬片。將DNA聚合酶、測序模板以及帶有不同熒光標記的dNTP加入到ZMW孔中,進行邊合成邊測序反應[37]。dNTP的磷酸基團被熒光標記,當dNTP被添加到合成鏈上時,進入ZMW孔的激光束會激發(fā)熒光,根據(jù)不同的熒光成像就能獲得測序結果;而添加到合成鏈上的dNTP的磷酸基團會被剪切并釋放,這樣不再具有熒光標記,便不會再被識別。因此,SMRT單分子實時測序技術的測序速度很快,其測定堿基的速度可以達到10個/s[38],測序過程中對每條堿基鏈的數(shù)據(jù)都會進行評估,更易發(fā)現(xiàn)稀有變異;具有超長的讀長度,即平均讀長度超過1 000 bp甚至更長等。但是,也存在缺陷,如不能高效利用DNA聚合酶且容易在ZMW中降解失活、總體上每個堿基測序成本高、機器相當?shù)陌嘿F等。
納米孔單分子測序技術的原理與前兩者不同,采樣的是電信號測序技術,通過借助電泳驅動單個分子逐一通過納米孔來實現(xiàn)測序[39]。納米孔的直徑非常小,僅允許單個核苷酸通過,因此可用于高通量測序。此外,納米級別的孔徑保證了測序過程中良好的檢測過程,使測序結果的準確性非常高。RNA測序時省略的擴增階段和標記手段可直接測序,使簡便快捷的測序過程更可能成為現(xiàn)實。雖然納米孔單分子測序技術具有測序成本很低和測序長度很長的優(yōu)點,但是在如何控制納米孔徑、如何通過納米孔徑控制速度以及納米孔材料和制造等問題是該技術面臨的最大問題。納米孔徑過大會造成一次性通過的核苷酸過多,過小會造成單個核苷酸無法通過;通過納米孔徑的速度會影響測序速度,通過速度過慢不能實現(xiàn)快速高通量測序,而通過過快也不能確保識別信號的穩(wěn)定性;納米孔制作的材料要求高,制造起來極其費時且其價格很貴。這些因素影響了該技術發(fā)展的腳步,解決這些問題對直接測序技術具有里程碑的意義。
總之,單分子測序技術是RNA直接測序的主要技術支持。單分子測序技術在測序成本、錯配率、讀取長度以及測序通量等技術指標上比二代測序技術有了更大的改進和提高。用于RNA測序時也解決了反轉錄成cDNA以及RNA含量低和長短不均一等造成無法測序的問題,通過簡化測序步驟和對測序樣品不需要預處理就使得RNA直接測序得以實現(xiàn)。但是單分子測序技術還存在著不足,所以利用二代測序技術和單分子測序技術相結合的方法可以解決目前研究中存在的不少問題,如SNP位點識別、基因缺失研究以及基因拷貝數(shù)的變異分析等。
3展望
測序技術從Sanger測序技術發(fā)展到現(xiàn)階段的單分子測序技術,在這個過程中RNA測序技術的發(fā)展還在繼續(xù),并且朝著更快速、更靈敏、更精準、更廉價的方向發(fā)展。RNA測序研究是基因功能研究及結構研究的基礎,能夠從整體水平上研究基因功能以及基因結構。單分子測序技術推動RNA測序技術更進一步發(fā)展,RNA直接測序技術研究轉錄組已經逐步替代基因芯片微陣列技術成為現(xiàn)在功能基因組學研究基因表達的主流方式。
參考文獻:
[1]Velculescu V E,Zhang L,Vogelstein B,et al. Serial analysis of gene expression[J]. Science,1995,207:484-487.
[2]Berretta J,Morillon A. Pervasive transcription constitutes a new level of eukaryotic genome regulation[J]. EMBO Reports,2009,10(9):973-982.
[3]Lander E S,Linton L M,Birren B,et al. Initial sequencing and analysis of the human genome[J]. Nature,2001,409(6822):860-921.
[4]Denoeud F,Aury J M,da Silva C,et al. Annotating genomes with massive-scale RNA sequencing[J]. Genome Biology,2008,9(12):R175.
[5]Metzker M L. Sequencing technologies the next generation[J]. Nature Rev Genet,2010,11:31-46.
[6]Carninci P,Sandelin A,Lenhard B,et al. Genome-wide analysis of mammalian promoter architecture and evolution[J]. Nature Genetics,2006,38(6):626-635.
[7]Valen E,Pascarella G,Chalk A,et al. Genome-wide detection and analysis of hippocampus core promoters using DeepCAGE[J]. Genome Research,2009,19(2):255-265.
[8]Ni T,Corcoran D L,Rach E A,et al. A paired-end sequencing strategy to map the complex landscape of transcription initiation[J]. Nature Methods,2010,7(7):521-527.
[9]Plessy C,Bertin N,Takahashi H,et al. Linking promoters to functional transcripts in small samples with nanoCAGE and CAGEscan[J]. Nature Methods,2010,7(7):528-534.
[10]Marson A,Levine S S,Cole M F,et al. Connecting microRNA genes to the core transcriptional regulatory circuitry of embryonic stem cells[J]. Cell,2008,134(3):521-533.
[11]Ozsolak F,Poling L L,Wang Z X,et al. Chromatin structure analyses identify miRNA promoters[J]. Genes & Development,2008,22(22):3172-3183.
[12]Affymetrix ENCODE Transcriptome Project,Cold Spring Harbor Laboratory ENCODE Transcriptome Project. Post-transcriptional processing generates a diversity of 5′-modified long and short RNAs[J]. Nature,2009,457:1028-1032.
[13]Faghihi M A,Wahlestedt C. Regulatory roles of natural antisense transcripts[J]. Nature Reviews Molecular Cell Biology,2009,10(9):637-643.
[14]Gubler U. Second-strand cDNA synthesis:mRNA fragments as primers[J]. Meth Enzymol,1987,152:330-335.
[15]Spiegelman S,Burny A,Das M R,et al. DNA-directed DNA polymerase activity in oncogenic RNA viruses[J]. Nature,1970,227(5262):1029-1031.
[16]Perocchi F,Xu Z Y,Clauder-Münster S,et al. Antisense artifacts in transcriptome microarray experiments are resolved by actinomycin D[J]. Nucleic Acids Research,2007,35(19):e128.
[17]Levin J Z,Yassour M,Adiconis X,et al. Comprehensive comparative analysis of strand-specific RNA sequencing methods[J]. Nature Methods,2010,7(9):709-715.
[18]Faulhammer D,Lipton R J,Landweber L F. Fidelity of enzymatic ligation for DNA computing[J]. Journal of Computational Biology,2000,7(6):839-848.
[19]Housby J N,Southern E M. Fidelity of DNA ligation:a novel experimental approach based on the polymerisation of libraries of oligonucleotides[J]. Nucleic Acids Research,1998,26(18):4259-4266.
[20]Ingolia N T,Ghaemmaghami S,Newman J R,et al. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling[J]. Science,2009,324(5924):218-223.
[21]Kozarewa I,Ning Zemin,Quail M A,et al. Amplification-freeillumina sequencing-library preparation facilitates improved mapping and assembly of GC-biased genomes[J]. Nature Methods,2009,6(4):291-295.
[22]Nilsen T W,Graveley B R. Expansion of the eukaryotic proteome by alternative splicing[J]. Nature,2010,463(7280):457-463.
[23]Wang E T,Sandberg R,Luo S J,et al. Alternative isoform regulation in human tissue transcriptomes[J]. Nature,2008,456(7221):470-476.
[24]Jiang H,Wong W H. Statistical inferences for isoform expression in RNA-Seq[J]. Bioinformatics,2009,25(8):1026-1032.
[25]Trapnell C,Pachter L,Salzberg S L. TopHat:discovering splice junctions with RNA-Seq[J]. Bioinformatics,2009,25(9):1105-1111.
[26]Korbel J O,Urban A E,Affourtit J P,et al. Paired-end mapping reveals extensive structural variation in the human genome[J]. Science,2007,318(5849):420-426.
[27]McManus C J,Duff M O,Eipper-Mains J,et al. Global analysis of trans-splicing in drosophila[J]. Proceedings of the National Academy of Sciences of the United States of America,2010,107(29):12975-12979.
[28]Rajagopalan R,Vaucheret H,Trejo J,et al. A diverse and evolutionarily fluid set of microRNAs in Arabidopsis thaliana[J]. Genes & Development,2006,20(24):3407-3425.
[29]Taft R J,Glazov E A,Cloonan N,et al. Tiny RNAs associated with transcription start sites in animals[J]. Nature Genetics,2009,41(5):572-578.
[30]Linsen S E,de Wit E,Janssens G,et al. Limitations and possibilities of small RNA digital gene expression profiling[J]. Nature Methods,2009,6(7):474-476.
[31]Cocquet J,Chong A,Zhang G L,et al. Reverse transcriptase template switching and false alternative transcripts[J]. Genomics,2006,88(1):127-131.
[32]Mader R M,Schmidt W M,Sedivy R,et al. Reverse transcriptase template switching during reverse transcriptase-polymerase chain reaction:artificial generation of deletions in ribonucleotide reductase mRNA[J]. The Journal of Laboratory and Clinical Medicine,2001,137(6):422-428.
[33]Hansen K D,Brenner S E,Dudoit S. Biases in illumina transcriptome sequencing caused by random hexamer priming[J]. Nucleic Acids Research,2010,38(12):e131.
[34]Li B,Ruotti V,Stewart R M,et al. RNA-Seq gene expression estimation with read mapping uncertainty[J]. Bioinformatics,2010,26(4):493-500.
[35]邱超,孫含麗,宋超. DNA測序技術發(fā)展歷程及國際最新動態(tài)[J]. 硅谷,2008(17):127,129.
[36]汪正范,劉娜. Helicos公司單分子基因測序儀[J]. 現(xiàn)代儀器,2010(1):95.
[37]Levene M J,Korlach J,Turner S W,et al. Zero-mode waveguides for single-molecule analysis at high concentrations[J]. Science,2003,299(567):682-686.
[38]Clarke J,Wu H C,Jayasinghe L,et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology,2009,4(4):265-270.
[39]Rusk N. Cheap third-generation sequencing[J]. Nature Methods,2009,6(4):244-245.