張春蘭
(濰坊學院,山東 濰坊 261061)
第一代測序技術是Sanger等于1970年代發(fā)明的雙脫氧測序法,在過去的30多年中一直在DNA測序領域占據著主要地位。高通量測序技術又稱為深度測序技術、新一代測序技術或第二代測序技術。新一代測序技術可通過聚合酶或連接酶進行體外合成測序。相對于傳統(tǒng)的Sanger測序技術,具有通量更高、運行時間更短、測序片段更長、花費更少等優(yōu)點。高通量測序技術的迅猛發(fā)展,將生物學在基因水平的研究帶入了一個新的時期。高通量測序技術不僅可以進行大規(guī)模基因組測序,還可用于基因表達分析、非編碼小分子RNA分析、表觀遺傳學分析等相關研究。
全基因組測序對全面了解一個物種的分子進化、基因組成和基因調控等有著非常重要的意義。新一代測序技術極大地推動了各物種的全基因組測序工作,越來越多的物種基因組信息相繼公布。全基因組從頭測序指利用測序平臺對某物種進行測序,然后從頭組裝數據,與數據庫比對統(tǒng)計進行基因作圖、與性狀的關聯分析、不同組織或材料間基因差異表達分析等,并最終完成基因組作圖。Li等首次在動物方面完全運用高通量測序技術模式完成了大熊貓基因組從頭測序的組裝,測序深度達73倍,覆蓋約94%的基因組區(qū)域,組裝形成了大熊貓的基因組草圖[1]。Rasmusse等從4000年前愛斯基摩托人的一束頭發(fā)中提取DNA,利用Solexa進行全基因組測序,得到大約79%的序列[2]。Dalloul等聯合多個測序平臺(454測序平臺完成5倍測序深度、Illumina GAⅡ測序平臺完成20倍測序深度、Sanger技術完成6倍覆蓋度)完成了火雞基因組的從頭測序[3]。Jared等利用全基因組測序對一家四口(父母及其孩子)進行研究,發(fā)現了影響人類自發(fā)性基因突變的平均速度,以及一些與影響兄弟姐妹疾病有關的基因[4]。到目前為止,NCBI上公布的已測序物種有人、小鼠、大鼠、牛等19種動物,擬南芥、水稻、大豆、隱藻4種植物以及其他真菌和原生生物。
對已知基因組物種進行重測序是第二代測序技術目前應用最為廣泛的領域。通過重測序,可以將測序數據與已有基因組信息相比對,發(fā)現基因結構變異、單核苷酸多態(tài)性、群體多態(tài)性、突變熱點等,從而進行輔助分子育種、遺傳進化分析及重要性狀候選基因預測等。中科院上海生命中科學院、北京基因組所等六家科研機構共同對150個水稻RIL系進行重測序,第一次利用全基因組重測序篩選水稻SNP位點,對群體進行表達差異分析,發(fā)現了122萬多個SNPs[5]。Rubin等通過全基因組重測序對8個家雞品系和1個野生品系進行測序,分析雞馴養(yǎng)過程中的位點選擇,發(fā)現了7000多萬個SNPs,約1300多個插入/缺失位點[6]。利用對不同條件下或不同表型的樣本進行重測序,也可在個體或群體水平進行差異性分析、遺傳疾病分析等。William等對一名煙齡超過15年,平均每天吸煙25根的原發(fā)性肺部腫瘤患者進行分析,將該患者的癌組織與相鄰正常組織的基因組進行測序,發(fā)現了超過5萬個基因點突變,并且確認有392個在編碼區(qū)域[7]。
宏基因組學(Meta-Genomics)測序是近年來提出的一種新概念,目前主要用于微生物的研究中。是指直接從環(huán)境中提取所有物種的DNA進行全基因組測序。即不再進行分離,而是從整體上研究整個微生物種群結構的特征,研究對象從單一基因組發(fā)展到基因組集合。與傳統(tǒng)的微生物研究相比,宏基因組不再局限于實驗室培養(yǎng),更真實地接近于大自然生態(tài)群落和復雜性和多樣性,對人類更好地了解微生物群落有著重要的意義。
RNA-Seq技術能夠在單核苷酸水平對特定物種的整體轉錄活動進行檢測,從而全面快速地獲得該物種在某一狀態(tài)下的幾乎所有轉錄本信息。由于轉錄組測序可以得到全部RNA轉錄本的豐度信息,加之準確度又高,使得它具有十分廣泛的應用領域。主要應用于:
(1)檢測新的轉錄本。Marten J?ger等比較了綿羊的正常組和骨延遲愈合組的基因表達譜,與綿羊基因組比對后發(fā)現了12431個新的轉錄本[8]。Huang W等比較了不同發(fā)育時期牛胚胎的轉錄本,與?;蚪M比較后發(fā)現了1785個新的轉錄本[9]。
(2)基因轉錄水平研究,如基因表達量、不同樣本間差異表達。李新建在其博士論文中比較了榮昌豬和長白豬的轉錄本,篩選出1596個差異表達顯著的基因[10]。
(3)基因功能注釋。將所測reads與已有數據庫(如GO、KEGG)已注釋功能的基因相比對分析,從而揭示特定轉錄狀態(tài)下的基因的功能和生物通路等。Ajai K等采用454測序平臺對牛角癌組織和正常角組織轉錄本分析,并對909345個轉錄本進行了GO和KEGG分析[11]。
(4)轉錄本結構變異研究,如可變剪接、RNA編輯、基因融合等。轉錄本結構的變異能揭示基因轉錄后表達的多樣性??勺兗艚邮挂粋€基因產生多個mRNA轉錄本,從而翻譯成不同的蛋白。Sergei A等對擬南芥的RNA-Seq分析發(fā)現至少有約42%含有內含子的基因進行了可變剪切[12]。RNA編輯通過堿基的替換或轉換等使基因序列發(fā)生改變。Peng Z Y等通過對一個漢族男性約76700萬個轉錄表達序列分析,發(fā)現在22688個在非編碼基因、內含子、非翻譯區(qū)和蛋白編碼基因的編碼序列中存在RNA編輯,為后期的實驗制作了一個綜合性的RNA編輯組圖譜[13]?;蛉诤鲜亲罱棉D錄組高通量測序研究的一個新的內容,主要在腫瘤組織中發(fā)現。Shancheng Ren等對14個中國漢族人的原發(fā)性前列腺癌和他們的正常組織進行RNA-seq分析,揭示前列腺癌的基因融合、長非編碼RNA、可變剪切和體細胞突變的多樣性[14]。
(5)開發(fā)SNPs和SSR等。通過比對轉錄本和參考基因組間的序列,尋找潛在的SNPs或SSRs。Stephen B等對HapMap中60個歐洲后代進行了轉錄組測序分析,開發(fā)了901個人基因組上的的cSNP(編碼SNP)[15]。Angela Ca′novas等對荷斯坦奶牛乳樣品進行轉錄組分析,開發(fā)了33045個具有多態(tài)性的cSNPs[16]。
近年來研究發(fā)現小分子RNA是一類主要存在于真核生物體內的特殊的內源性調控序列。長度范圍在18-27nt,進化上高度保守。目前認為主要通過與靶基因配對結合抑制基因翻譯,或影響基因的降解來調控基因表達。自從1993年首次在秀麗線蟲(Caenorhadits,elegans)中被發(fā)現以來[17],人們越來越意識到小分子RNA的重要作用。人們開始采用大規(guī)模平行標簽測序技術、454-FLX、Solexa/Illumina測序技術為代表的新型焦磷酸高通量測序技術來發(fā)掘生物體內的大量小分子RNA。并隨著技術的逐漸升級,使得測序深度更深、費用更低、速度更快。高通量測序既能捕捉到真實存在的小RNA,甚至是體內表達量很低的小RNA,同時也能對沒有注釋的小片段RNA進行預測。
DNA甲基化是基因表達調控的另一種廣泛而重要的方式。它通過改變染色質結構、DNA穩(wěn)定性及DNA與蛋白質相互作用,從而控制基因的表達。對甲基化位點及方式的研究,近年來也發(fā)展了多種方法,如甲基轉移酶法、免疫化學法、氯乙醛法、直接測序法、甲基化特異性的PCR法、DNA微陣列法等。利用高通量測序法在全基因組范圍內檢測甲基化位點是近年來發(fā)展起來的一種方法。目前已建立了至少三種依賴于高通量測序的DNA甲基化分析技術:甲基化DNA免疫共沉淀測序[18]、甲基結合蛋白測序和亞硫酸氫鹽測序[19]。高通量測序已應用于擬南芥[19]、水稻[20]、人[21]等生物 DNA甲基化的研究,取得了豐碩的成果,并逐步應用于各種生物體上。
轉錄因子通過與DNA特定區(qū)域相結合,開啟或關閉基因的表達以達到調控基因表達目的。染色質免疫共沉淀(chromatin immunoprecipitation assay,ChIP)是目前研究體內蛋白質與DNA相互作用的最為經典的一種實驗技術,廣泛應用于組蛋白修飾、特定轉錄因子的基因調控作用等相關領域。其基本原理是在活細胞狀態(tài)下固定蛋白質-DNA復合物,并將其隨機切斷為一定長度范圍內的染色質小片段,然后通過免疫學方法沉淀此復合體,特異性地富集目的蛋白結合的DNA片段,通過對目的片斷的純化與檢測,從而獲得蛋白質與DNA相互作用的信息。自從2007年應用該技術獲得的科研成果分別在Science[22]、Nature[23]和 Cell[24]等頂級刊物上發(fā)表以來,利用該技術揭示蛋白因子作用位點的文章如雨后春筍般出現在各種刊物和雜志上。
分子生物學的發(fā)展離不開測序技術,自從1977年Sanger測序法的問世到近年來高通量測序法的廣泛應用,相繼揭秘了大量的遺傳信息。但是,第二代高通量測序技術還處于起步階段,由于測序費用仍很昂貴、測序長度也受到限制、信息平臺尚未完善等原因,使得該技術的應用受到了一定的限制。相信隨著測序技術的逐步改進,高通量測序將成為一項實驗室常規(guī)手段,為生物學的分子研究帶來革命性的變革。
[1]Li R,Fan W,Tian G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.
[2]Rasmussen M,Li Y,Lindgreen S,et al.Ancient human genome sequence of an extinct Palaeo-Eskimo[J].Nature,2010,463(7282):757-62.
[3]Dalloul.Multi-platform next-generation sequencing of the domestic turkey(Meleagris gallopavo):genome assembly and analysis[J].PLoS Biol,2010,8(9):e100475.
[4]Roach J C,Glusman G,Smait A F ,et al.Analysis of genetic inheritance in a family quartet by whole-genome sequencing[J].Science,2010,328 (5978):636-639.
[5]Huang X,Qi F,Qian Q,et al.High-throughput genotyping by whole-genome resequencing[J].Genome Res,2009,19(6):1068-1076.
[6]Rubin C J,Zody M C,Eriksson J.Whole-genome resequencing reveals loci under selection during chicken domestication[J].Nature,2010,464(7288):587-591.
[7]Lee W,Jiang Z,Liu J,et al.The mutation spectrum revealed by paired genome sequences from a lung cancer patient[J].Nature,2010,456(7279):473-479.
[8]J?ger M,Ott C E,Grünhagen J,et al.Composite transcriptome assembly of RNA-Seq data in a sheep model for delayed bone healing[J].Bmc Genomics,2011,12:158.
[9]Huang W,Khatib H.Comparison of transcriptomic landscapes of bovine embryos using RNA-Seq[J].Bmc Genomics,2010,11(1):711-720.
[10]李新建.豬脂肪沉積關鍵基因篩選及TCTP基因功能研究[C].陜西:西北農林科技大學,2011.
[11]Tripathi A K,Koringa P G,Jakhesara S J,et al.A preliminary sketch of horn cancer transcriptome in Indian zebu cattle[J].Gene,2012,493(1):124-131.
[12]Filichkin S A,Priest H D ,Givan S A ,et al.Genome-wide mapping of alternative splicing in Arabidopsis thaliana[J].Genome Research,2010,20(1):45-58.
[13]Peng Z Y,Cheng Y B,Tan C M,et al.Comprehensive analysis of RNA-seq data reveals extensive RNA editing in a human transcriptome[J].Nature Biotechnology,2012,30(3):253-262.
[14]Ren S,Peng Z Y,Mao J H,et al.RNA-seq analysis of prostate cancer in the Chinese population identifies recurrent gene fusions,cancer-associated long noncoding RNAs and aberrant alternative splicings[J].Cell Research,2012,22(5):806-821.
[15]Montgomery S B,Sammeth M,Gutierrez-Arcelus M,et al.Transcriptome genetics using second generation Sequencing in a Caucasian population[J].Nature,2010,464(7289):773-777.
[16]Cánovas A,Rincon GIslas-Trejo A,et al.SNP discovery in the bovine milk transcriptome using RNA-Seq technology[J].Mamm Genome,2010,21(11/12):592-598.
[17]Lee R C,Feinbaum R L,Ambros V.The C elegans heterochronic gene lin-4encodes small RNAs with antisense complementarity to lin-14[J].Cell,1993,75(5):843-854.
[18]Down T A,Rakyan V K,Turner D J,et al.A Bayesian deconvolution strategy for mmunoprecipitation-based DNA methylome analysis[J].Nat Biotechnol,2008,26 (7):779-785.
[19]Cokus S J,Feng S,Zhang X,et al.Shotgun bisulphate sequencing of the Arabidopsis genome reveals DNA methylation patterning[J].Nature,2008,452(7184):215-219.
[20]Yan H H,Kikuchi S,Neumann P,et al.Genome-wide mapping of cytosine methylation revealed dynamic DNA methylation patterns associated with genes and centromeres in rice[J].Plant J,2010,63(3):353-365.
[21]Li N,Ye M,Li Y,et al.Whole genome DNA methylation analysis based on high throughput sequencing technology[J].Methods,2010,52(3):203-212.
[22]Johnson D S,Mortazavi A,Myers R M,et al.Genome-wide mapping of in vivo protein-DNA interactions[J].Science,2007,316(5830):1497-1502.
[23]Mikkelsen T S,Ku M,Jaffe D B,et al.Genome-wide maps of chromatin state in pluripotent and lineage-committed cells[J].Nature,2007,448(7153):553-560.
[24]Barski A,Cuddapah S,Cui K,et al.High-resolution profiling of histone methylations in the human genome[J].Cell,2007,129 (4):823-837.