摘要:隨著高通量測(cè)序技術(shù)的不斷發(fā)展和測(cè)序成本不斷降低,高通量測(cè)序近幾年在現(xiàn)代農(nóng)業(yè)研究領(lǐng)域中得到了充分應(yīng)用,為新品種選育和品質(zhì)改良帶來(lái)了新的科研方法和解決方案,加快了新品種的育種進(jìn)程。高通量測(cè)序技術(shù)的主要應(yīng)用方向包括對(duì)農(nóng)作物和栽培品種進(jìn)行全基因組從頭測(cè)序和深度重測(cè)序、遺傳差異分析、分子標(biāo)記開(kāi)發(fā)、遺傳連鎖分析、表觀遺傳分析和轉(zhuǎn)錄組分析等。本文系統(tǒng)闡述了近幾年高通量測(cè)序技術(shù)在農(nóng)業(yè)研究中的應(yīng)用進(jìn)展,展示高通量測(cè)序在現(xiàn)代農(nóng)業(yè)研究領(lǐng)域的廣泛應(yīng)用前景。
關(guān)鍵詞:高通量測(cè)序;農(nóng)業(yè)生物技術(shù);全基因組測(cè)序;重測(cè)序
中圖分類(lèi)號(hào):Q503文獻(xiàn)標(biāo)識(shí)號(hào):A文章編號(hào):1001-4942(2013)01-0137-04
雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)、遺傳密碼的破解、第一個(gè)完整基因組圖譜的繪制完成[1]讓科學(xué)家越來(lái)越認(rèn)識(shí)到測(cè)序在生物學(xué)研究中的重要作用。作為最重要的分子生物學(xué)分析方法之一,DNA測(cè)序不僅為遺傳信息的揭示和基因表達(dá)調(diào)控等基礎(chǔ)生物學(xué)研究提供重要數(shù)據(jù),而且在基因診斷和基因治療等應(yīng)用研究中也發(fā)揮著重要的作用。
1977年Sanger等發(fā)表了利用末端終止反應(yīng)的DNA測(cè)序方法,使得大規(guī)模、自動(dòng)化的DNA測(cè)序成為可能,并成功地測(cè)定了包括人類(lèi)基因組、水稻基因組等在內(nèi)的若干生物的基因組序列[2]。隨著科學(xué)的發(fā)展,傳統(tǒng)的Sanger測(cè)序技術(shù)由于成本過(guò)高、通量較低、耗時(shí)耗力等缺點(diǎn),較大地限制了DNA測(cè)序的應(yīng)用。自2005年以來(lái),以羅氏公司的454技術(shù)、Illumina公司的Solexa技術(shù)和ABI公司的SOLID技術(shù)為標(biāo)志的高通量技術(shù)相繼誕生。高通量測(cè)序技術(shù)堪稱(chēng)測(cè)序技術(shù)發(fā)展歷程的一個(gè)里程碑,該技術(shù)使得獲得核苷酸序列數(shù)據(jù)的單堿基測(cè)序費(fèi)用相對(duì)于Sanger測(cè)序急劇下降,可以對(duì)數(shù)百萬(wàn)個(gè)DNA分子同時(shí)測(cè)序,這使得對(duì)同一物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能,隨之也給基因組學(xué)研究帶來(lái)了更多的新方法和新方案。目前,高通量測(cè)序技術(shù)已廣泛應(yīng)用于動(dòng)植物全基因組測(cè)序、基因組重測(cè)序、轉(zhuǎn)錄組測(cè)序、小RNAs測(cè)序和表觀基因組測(cè)序等方面。本文對(duì)高通量測(cè)序技術(shù)在農(nóng)業(yè)研究中的一些具體應(yīng)用進(jìn)行了綜述。
1全基因組重測(cè)序
全基因組重測(cè)序是對(duì)已知基因組序列的物種進(jìn)行不同個(gè)體的基因組測(cè)序,并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)行差異性分析。全基因組重測(cè)序的個(gè)體,通過(guò)序列比對(duì),可以找到大量的單核苷酸多態(tài)性位點(diǎn)(SNP)、插入缺失位點(diǎn)(InDel,Insertion/Deletion)、結(jié)構(gòu)變異位點(diǎn)(SV,Structure Variation),通過(guò)生物信息學(xué)手段,分析不同個(gè)體基因組間的結(jié)構(gòu)差異,同時(shí)完成注釋。隨著測(cè)序成本的降低及可擁有參考基因組序列物種的增多,基因組重測(cè)序已經(jīng)成為動(dòng)植物育種研究中迅速有效的方法之一,在全基因組水平上進(jìn)行掃描并檢測(cè)與重要性狀相關(guān)的位點(diǎn),對(duì)育種研究具有重大的科研與產(chǎn)業(yè)價(jià)值。
11利用重測(cè)序進(jìn)行進(jìn)化分析及SNP篩選
Lai 等(2010)[3]對(duì)6個(gè)玉米(Zea mays)骨干自交系進(jìn)行了全基因組重測(cè)序,共發(fā)現(xiàn)1 273 124個(gè)單核苷酸多態(tài)性位點(diǎn)(SNPs), 得到30 178個(gè)1~6 bp的插入缺失位點(diǎn)(InDels),新發(fā)現(xiàn)的這些SNPs和InDels提供了1個(gè)高密度的全基因組標(biāo)記信息,同時(shí)也鑒定出數(shù)百個(gè)基因獲得與丟失變異(Presence/Absence Variations, PAVs)。Jiao等(2012)[4]利用高通量測(cè)序技術(shù)對(duì)來(lái)自不同區(qū)域以及不同年代的278份玉米自交系基因組進(jìn)行了系統(tǒng)分析,闡述了現(xiàn)代玉米育種過(guò)程中發(fā)生的基因組遺傳變化規(guī)律,平均每個(gè)品系得到了2倍的數(shù)據(jù),獲得了13萬(wàn)億個(gè)堿基對(duì)和27 818 705個(gè)單核苷酸多態(tài)性位點(diǎn)的信息量。Huang等(2010)[5]利用高通量測(cè)序技術(shù)結(jié)合自主研發(fā)的基因型分析方法,對(duì)517份水稻地方品種資源進(jìn)行了約1倍深度的測(cè)序,獲得了270 Gb數(shù)據(jù),構(gòu)建了高密度的水稻單體型圖譜(HapMap),鑒定了大約360萬(wàn)個(gè)SNP位點(diǎn)。并利用373個(gè)秈稻品種對(duì)水稻株型、產(chǎn)量、籽粒品質(zhì)和生理特征等14個(gè)農(nóng)藝性狀進(jìn)行全基因組關(guān)聯(lián)分析研究,通過(guò)連鎖分析鑒定的位點(diǎn)可解釋約36%的表型變異。Zheng等(2011)[6]對(duì)3個(gè)高粱(Sorghum bicolor)品系進(jìn)行了全基因組重測(cè)序, 每株測(cè)序深度為12倍, 以已測(cè)的美國(guó)籽實(shí)高粱基因組序列為參考進(jìn)行信息分析,發(fā)掘出1 057 018個(gè)SNPs、 99 948個(gè)1~10 bp長(zhǎng)的InDels、 16 487個(gè)PAVs 和17 111 個(gè)拷貝數(shù)變異。同時(shí), 在甜高粱和籽實(shí)高粱序列中鑒定出近1 500個(gè)序列結(jié)構(gòu)差異基因,這些基因參與糖與淀粉代謝、木質(zhì)素和香豆素合成、核酸代謝、脅迫應(yīng)答和DNA 修復(fù)等生物學(xué)過(guò)程。
12利用重測(cè)序技術(shù)鑒定突變體突變基因
正向遺傳突變與適應(yīng)性進(jìn)化是創(chuàng)造出帶有希望性狀的新變異有機(jī)體的有力工具和途徑,高通量技術(shù)的出現(xiàn),使突變體在親本株系擁有參考基因組的情況下,可以快速準(zhǔn)確地獲得這個(gè)突變體的基因組信息,快速完成對(duì)突變位點(diǎn)的定位和鑒定。
Ashelford 等(2011)[7]對(duì)一個(gè)擬南芥突變體ebi-1的回交系進(jìn)行基因組重測(cè)序, 隨后又通過(guò)對(duì)突變體的表達(dá)數(shù)據(jù)進(jìn)行調(diào)查使得候選SNPs數(shù)目得以有效縮小,最終成功鑒定出1個(gè)在AtNFXL-2基因中引起ebi-1突變表型的SNPs 位點(diǎn)。該研究證實(shí)利用回交系材料可以降低遺傳背景噪音, 對(duì)其進(jìn)行測(cè)序分析可有效減少候選SNPs 數(shù)目,利用二代測(cè)序技術(shù)直接對(duì)突變體和野生型測(cè)序成為鑒定突變體突變位點(diǎn)的直接有效的策略。主要的農(nóng)藝性狀是由多基因控制的,單個(gè)基因僅引起較小的表型效應(yīng),故而對(duì)其鑒定和克隆非常困難。Abe等(2012)[8]利用基因組重測(cè)序技術(shù)分析一個(gè)日本骨干水稻栽培品種Hitomebore的7個(gè)突變體,鑒定出來(lái)包含了淡綠色葉片及半矮生突變表型相關(guān)突變位點(diǎn)的唯一基因組區(qū)域,該突變位點(diǎn)平均初定位區(qū)域?yàn)?1 Mb。結(jié)果顯示,這種基于對(duì)一個(gè)分離群體中呈現(xiàn)有用表型植株的DNA混合后而進(jìn)行的全基因組測(cè)序可以加速水稻及其他作物的遺傳改良。
2全基因組de novo測(cè)序
全基因組de novo測(cè)序也稱(chēng)為從頭測(cè)序,是直接對(duì)某個(gè)物種進(jìn)行基因組全測(cè)序,然后利用生物信息學(xué)方法對(duì)序列進(jìn)行拼接和組裝,得到完整的物種基因組序列?;蚪M測(cè)序?qū)ρ芯课锓N的基因組和功能基因信息、闡明物種的進(jìn)化及其生長(zhǎng)發(fā)育具有重要的意義。植物基因組通常較大且結(jié)構(gòu)復(fù)雜,利用Sanger測(cè)序來(lái)測(cè)定全基因組序列花費(fèi)巨大且費(fèi)時(shí)費(fèi)力,大大地限制了基因組信息在農(nóng)業(yè)中的應(yīng)用效率,而高通量測(cè)序以成本低、通量高、快速等特點(diǎn)使物種全基因組測(cè)序成為可能。Huang等(2009)[9]完成的黃瓜(Cucumis sativusL)全基因組測(cè)序是世界上第一個(gè)完成全基因組測(cè)序的蔬菜作物,該工作的完成對(duì)黃瓜及其他近緣物種的遺傳改良、基礎(chǔ)生物學(xué)研究等具有重要的意義。 研究人員利用高通量測(cè)序技術(shù)結(jié)合Sanger方法對(duì)黃瓜進(jìn)行了約72倍深度的測(cè)序,經(jīng)過(guò)拼接與組裝后獲得了2435 Mb的序列,大概覆蓋了黃瓜基因組728%的區(qū)域。熊貓(Ailuropoda melanoleuca)是第一次完全采用高通量測(cè)序技術(shù)完成基因組全測(cè)序的大型物種。蘋(píng)果(Malus domestica Borkh)、金小蜂(Nasonia vitripennis, N giraulti和 N Longicornis)等多個(gè)物種的全基因組測(cè)序都是采用了新一代的測(cè)序技術(shù)。隨著新一代測(cè)序技術(shù)的飛速發(fā)展,基因組測(cè)序所需的成本較傳統(tǒng)技術(shù)大大降低,時(shí)間周期也大大縮短,大規(guī)模地物種全基因組de novo測(cè)序漸入佳境, 基因組學(xué)研究也迎來(lái)新的發(fā)展契機(jī)和革命性突破。
3轉(zhuǎn)錄組測(cè)序研究
轉(zhuǎn)錄組是指特定組織或細(xì)胞在某一功能狀態(tài)下轉(zhuǎn)錄出來(lái)的所有RNA的總和,包括mRNA和非編碼RNA。轉(zhuǎn)錄組測(cè)序是指通過(guò)新一代高通量測(cè)序技術(shù)對(duì)cDNA測(cè)序,利用統(tǒng)計(jì)相關(guān)reads數(shù)計(jì)算出不同mRNA的表達(dá)量,發(fā)現(xiàn)轉(zhuǎn)錄水平的SNP、新的mRNA等,該技術(shù)可以從表達(dá)水平、等位基因特異性表達(dá)、RNA編輯、含有重要信息的融合基因轉(zhuǎn)錄子、差異剪接等方面展開(kāi)相關(guān)研究。Zhang等(2010)[10]用8種不同水稻(Oryza sativa L)樣品的不同組織于不同時(shí)期混合建庫(kù),通過(guò)轉(zhuǎn)錄組技術(shù)分析了栽培稻的第1張轉(zhuǎn)錄組圖譜,結(jié)果在水稻8種組織樣品中檢測(cè)到大約27 000個(gè)基因的表達(dá)和38 000個(gè)轉(zhuǎn)錄單元,證實(shí)了約9 000個(gè)基因發(fā)生可變剪接,同時(shí)鑒定出了234個(gè)由反式剪接產(chǎn)生的轉(zhuǎn)錄融合基因,表明融合基因比預(yù)期的更為普遍。Wu等(2010)[11]利用采集的接種霜霉病后4~8 d葡萄葉片混合樣,通過(guò)Solexa技術(shù)測(cè)序獲得了15 249個(gè)候選差異表達(dá)基因。這些研究結(jié)果表明,基于高通量測(cè)序的de novo轉(zhuǎn)錄組分析可在非模式動(dòng)植物物種, 特別是在基因組大且復(fù)雜的物種中,可有效地用于新基因的發(fā)現(xiàn)和新分子標(biāo)記的開(kāi)發(fā)。
4外顯子組測(cè)序
外顯子組是指全部外顯子區(qū)域的集合,該區(qū)域包含合成蛋白質(zhì)所需的重要信息,涵蓋了與個(gè)體表型相關(guān)的絕大部分功能性變異,能夠直接發(fā)現(xiàn)與蛋白質(zhì)功能變異相關(guān)的遺傳突變。外顯子組序列捕獲及第二代測(cè)序是一種新型的基因組分析技術(shù),可以將感興趣的基因組區(qū)域定制成特異性的探針。相比于全基因組重測(cè)序, 外顯子組和目標(biāo)區(qū)域測(cè)序更加經(jīng)濟(jì)高效。 目前, 在醫(yī)學(xué)基因組學(xué)研究領(lǐng)域,外顯子組和目標(biāo)區(qū)域測(cè)序技術(shù)已經(jīng)應(yīng)用到尋找人類(lèi)各種疾病相關(guān)的致病基因和易感基因的研究中;而在動(dòng)植物研究中,已有的報(bào)道主要集中在小鼠(Mus musculu)[12]中, 在大豆(Glycine max)[13,14]、牛(Bos taurus)[15]、果蠅(Drosophila melanogaster)[16]等物種中也有部分報(bào)道。
5小分子RNA測(cè)序
小分子RNA是一類(lèi)長(zhǎng)約20~30個(gè)核苷酸的非編碼RNA分子,其介導(dǎo)的轉(zhuǎn)錄后基因調(diào)控是植物中的一種新型基因調(diào)控機(jī)制。它在植物生長(zhǎng)發(fā)育和適應(yīng)外界各種環(huán)境脅迫的過(guò)程中起著非常重要的作用。植物中小分子RNA數(shù)量巨大、種類(lèi)繁多,而高通量測(cè)序技術(shù)的出現(xiàn)大大加快了它們的發(fā)現(xiàn)過(guò)程。Wei等(2009)[17]對(duì)飛蝗進(jìn)行了小RNAs測(cè)序。通過(guò)與miRBase數(shù)據(jù)庫(kù)比對(duì)鑒定出50個(gè)保守的miRNA家族, 并在沒(méi)有飛蝗參考基因組序列的情況下, 通過(guò)生物信息分析技術(shù)發(fā)現(xiàn)了185個(gè)飛蝗特有的miRNAs家族。Moxon等利用454-FLX 法分析了番茄葉片和果實(shí)中的小分子RNA表達(dá)情況,結(jié)果表明:番茄miR390 和miR1917在果實(shí)中的表達(dá)量遠(yuǎn)高于在葉片中,而且miR1917的靶基因LeCTR1在番茄成熟過(guò)程中應(yīng)答乙烯時(shí)表達(dá)量顯著下調(diào),因此認(rèn)為這2個(gè)miRNA 可能參與了番茄果實(shí)的發(fā)育過(guò)程。
新一代測(cè)序技術(shù)的誕生對(duì)分子生物學(xué)的深入研究發(fā)揮了巨大的促進(jìn)作用,以新一代測(cè)序技術(shù)為基礎(chǔ)的轉(zhuǎn)錄組測(cè)序和全基因組測(cè)序相比,成本很低,數(shù)據(jù)量大,且不易受遺傳背景限制,可構(gòu)建豐富的表達(dá)基因數(shù)據(jù)庫(kù),為進(jìn)一步研究提供重要基礎(chǔ)和依據(jù)。除文中所闡述的幾方面的測(cè)序外,還有表觀基因組測(cè)序、降解組測(cè)序等多樣的測(cè)序類(lèi)型,本文中所羅列的試驗(yàn)實(shí)例,僅僅是高通量測(cè)序在農(nóng)業(yè)研究中的部分案例。現(xiàn)在高通量測(cè)序已被廣泛應(yīng)用于以轉(zhuǎn)錄組測(cè)序等為代表的功能基因組學(xué)研究中。隨高通量測(cè)序技術(shù)而出現(xiàn)的數(shù)字基因表達(dá)譜(DGE)測(cè)序、小RNAs 測(cè)序、降解組測(cè)序、DNA甲基化測(cè)序、染色質(zhì)免疫共沉DNA 測(cè)序等新方法為科學(xué)家們進(jìn)行分子生物學(xué)相關(guān)研究提供了更多的選擇。總而言之, 高通量測(cè)序技術(shù)給基因組學(xué)研究帶來(lái)了一個(gè)高效的新平臺(tái)和巨大的發(fā)展機(jī)遇。
盡管高通量測(cè)序技術(shù)有諸多的優(yōu)勢(shì),但其局限性也不容忽視。海量測(cè)序數(shù)據(jù)的產(chǎn)生及分析給研究者提出了巨大的挑戰(zhàn),如何充分挖掘隱藏在原始數(shù)據(jù)中的生物學(xué)意義及如何對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、存檔成為一個(gè)亟待解決的課題。高通量測(cè)序技術(shù)不適合小規(guī)模測(cè)序,傳統(tǒng)的Sanger測(cè)序法無(wú)疑還是最佳的選擇,將與高通量測(cè)序技術(shù)長(zhǎng)期并存,在短期內(nèi)還不會(huì)被淘汰。另外,高通量測(cè)序技術(shù)只是研究的開(kāi)端,現(xiàn)在我們所能解釋的生物學(xué)現(xiàn)象和機(jī)制還很有限,即使獲得了基因組信息,如何去解釋和應(yīng)用它,仍是一個(gè)長(zhǎng)遠(yuǎn)的問(wèn)題。參考文獻(xiàn):
[1]Sanger F,Air G M,Barrell B C,et al Nucleotide sequence of bacterior phage phiX174 DNA[J] Nature,1977,265 (5596):687-695
[2]Sanger F,Nicklen S,Coulson A RDNA sequencing with chain-termination inhibitors[J]Proc Natl Acad Sci,1977,74(12):5463-5467.
[3]Lai J,Li R,Xu X,et al Genome-wide patterns of genetic variation among elite maize inbred lines[J]Nat Genet,2010,42:1027-1030
[4]Jiao Y,Zhao H,Ren L,et al Genome-wide genetic change during modern breeding of maize[J] Nat Genet,2012,44:812-817
[5]Huang X,Wei X,Sang T,et alGenome-wide association studies of 14 agronomic traits in rice landraces[J]Nat Genet,2010,42:961-967
[6]Zheng L Y,Guo X S,He B,et alGenome-wide patterns of genetic variation in sweet and grain sorghum(Sorghum bicolor)[J] Genome Biol,2011,12:R114
[7]Ashelford K,Eriksson M E,Allen C M,et al Full genome re-sequencing reveals a novel circadian clock mutation in Arabidopsis[J]Genome Biol,2011,12(3):1186-1198
[8]Abe A,Kosugi S,Yoshida K,et alGenome sequencing reveals agronomically important loci in rice using MuMap[J] Nat Bio,2012,30:174-178
[9]Huang S W,Li R,Zhang Z,et alThe genome of the cucumber, Cucumis sativus L[J] Nat Genet,2009,41(12):1275-1281.
[10]Zhang G J,Guo G W,Hu X D,et al Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome[J]Genome Research,2010,20(5):646-654
[11]Wu J,Zhang Y L,Zhang H Q,et al Whole genome wide expression profiles of Vitis amurensis grape responding to downy midew by using Solexa sequencing technology[J] BMC Plant Biology,2010,10:234
[12]Fairfield H, Gilbert G J, Barter M, et al Mutation discovery in mice by whole exome sequencing[J]Genome Biol,2011,12(9):R86
[13]Haun W J, Hyten D L, Xu W W, et al The composition and origins of genomic variation among individuals of the soybean reference cultivar Williams 82[J] Plant Physiol,2011,155:645-655
[14]Bolon Y T, Haun W J, Xu W W, et al Phenotypic and genomic analyses of a fast neutron mutant population resource in soybean[J] Plant Physiology,2011,156: 240-253
[15]Cosart T, Beja-Pereira A, Chen S, et al Exome-wide DNA capture and next generation sequencing in domestic and wild species[J] BMC Genomics,2011,12:347
[16]Wang H, Chattopadhyay A, Li Z, et al Rapid identification of heterozygous mutations in Drosophila melanogaster using genomic capture sequencing[J] Genome Res,2011,20:981-988
[17]Wei Y Y, Chen S, Yang P C, et al Characterization and comparative profiling of the small RNA transcriptomes in two phases of locust[J]Genome Biol,2009,10(R6):1-18
[18]Moxon S J R, Szittya G, Schwach F,et alDeep sequencing of tomato short RNAs identifies microRNAs targeting genes involved in fruit ripening[J]Genome Research,2008,18(10):1602-1609