劉 毅,余新橋,張安寧,王飛名,劉國蘭
(上海市農(nóng)業(yè)生物基因中心,上海 201106)
高通量基因組測序在農(nóng)作物基因定位與發(fā)掘中的應用
劉 毅,余新橋,張安寧,王飛名,劉國蘭*
(上海市農(nóng)業(yè)生物基因中心,上海 201106)
隨著新一代測序技術的發(fā)展和測序成本的不斷降低,高通量測序在植物研究領域中得到廣泛應用。通過簡要闡述近年來高通量基因組測序在農(nóng)作物研究中的應用進展,重點介紹了基于基因組重測序的作物基因定位與發(fā)掘新方法。這些將為農(nóng)作物新品種選育和改良帶來新思路,極大地縮短育種進程。
高通量測序;基因組;農(nóng)作物;基因定位
高通量測序(High-throughput sequencing)的特點是數(shù)據(jù)量大、成本低,一次可以對上百萬條DNA分子序列進行測定,也被稱為第二代測序技術(Next generation sequencing),它是核酸研究的一次革命技術創(chuàng)新,為功能基因組學研究帶來了新的科研方法和解決方案。
1977年,幾乎是在同一時期Maxam等[1]和Sanger等[2]兩組科研人員分別發(fā)表了通過化學降解測定DNA序列的方法和利用末端終止反應的DNA測序方法(Sanger測序法)。以Sanger測序法為代表的第一代測序技術極大促進了生物科學的研究,然而也存在成本高、通量低、消耗時間長等缺點,因此以大數(shù)據(jù)、低成本為特征的高通量測序技術發(fā)展迅速,其中包括Roche公司的454測序儀,Illumina公司的Solexa基因組分析儀和ABI公司的SOLiD測序儀[3-6]等測序平臺,其中Illumina測序技術具有高準確性、高通量、高靈敏度和低運行成本等優(yōu)勢,在基因組測序研究中應用最為廣泛。目前第三代測序技術已經(jīng)開發(fā)應用,并逐步被認識和利用,稱為單分子測序[7]。
在植物研究方面,由于高通量測序技術的出現(xiàn),全基因組測序所需的時間與成本均大幅下降,使對一個物種基因組進行細致全貌的分析成為可能,從而帶動了植物育種研究應用開始進入分子水平,已成為挖掘與農(nóng)作物抗性、產(chǎn)量、品質(zhì)等優(yōu)異性狀相關候選基因的重要手段。
De novo測序可獲得任何一個物種的基因組序列圖譜,進而構建該物種的基因組數(shù)據(jù)庫,推動下游一系列研究工作的展開。2000年,模式植物擬南芥(Arabidopsis thaliana)利用傳統(tǒng)的Sanger法完成全基因組測序[8],隨后水稻(Oryza sativa)全基因組序列于2002年發(fā)表[9],人類基因組計劃與多種重要植物基因組計劃也相繼順利完成[10-16]。隨著測序技術的發(fā)展,研究人員開始選擇第二代測序技術進行全基因組De novo測序,熊貓(Ailuropoda melanoleura)基因組測序工作是大型物種中第一個使用新一代測序技術完成的。黃瓜(Cucumis sativus)是第一個完成全基因組測序的蔬菜作物,近年來利用高通量測序技術,已經(jīng)有包括馬鈴薯(Solanum tuberosum)、小麥(Triticum aestivum)、油菜(Brassica napus)、棉花(Gossypium raimondii)等主要農(nóng)作物基因組測序完成[17-20](http://www.ncbi.nlm.nih.gov/)。和傳統(tǒng)技術比較,高通量測序所需的成本和時間都大大的降低,大規(guī)模物種全基因組De novo測序?qū)絹碓蕉啵蚪M學研究也將進入一個新的時期。
基因組重測序是指對已有參考基因組序列的物種進行個體或群體的全基因組測序,可以獲得基因組上單核苷酸多態(tài)性位點(SNP,single nucleotide polymorphism)、插入缺失(InDel,insertion-deletion)和結構變異(SV,structural variation)等遺傳特征,為遺傳學研究和分子育種提供多態(tài)性標記信息,為該物種進化、馴化過程以及功能基因組學的研究提供海量數(shù)據(jù)。
Lai等[21]對包括Zheng58,5003,478,178,Chang7—2和Mo17在內(nèi)的6個國內(nèi)重要的玉米雜交組合骨干親本進行了全基因組重測序,結果得到了100多萬個SNPs和3萬多個InDels,建立了高密度的分子標記遺傳圖譜,并在101個低序列多態(tài)性區(qū)段中發(fā)現(xiàn)有大量候選基因與玉米的選育改良相關。Branca等[22]對26個蒺藜苜蓿材料進行了全基因測序,分析其序列差異和連鎖不平衡(LD,linkage disequilibrium)情況,檢測得到約300萬個SNPs,有利于在全基因組關聯(lián)分析中定位豆科植物中共生關系和結瘤相關性狀的位點。Zheng等[23]通過對3個高粱品種的全基因組重測序,發(fā)現(xiàn)在籽實高粱和甜高粱間約有1 000多個基因存在序列和結構的差異,涉及到糖與淀粉代謝、木質(zhì)素和香豆素合成、核酸代謝、脅迫響應和DNA修復等過程。Lin等[24]對來自全世界的360份番茄進行了重測序,發(fā)現(xiàn)了1 100多萬個SNPs,構建了番茄的變異圖譜,為番茄的全基因組分子育種提供了基礎。Lam等[25]比對野生大豆和栽培大豆重測序數(shù)據(jù)比較得到630多萬個SNPs,發(fā)現(xiàn)了大量在栽培大豆中獲得以及丟失的野生大豆基因。Qi等[26]通過重測序構建了黃瓜遺傳變異圖譜,發(fā)掘了2 000多個在馴化過程中受選擇的基因。Zhang等[27]利用上述數(shù)據(jù)進行了黃瓜大片段DNA序列的結構變異鑒定和分析,揭示了SV產(chǎn)生的主要機制。Xu等[28]通過對40個代表性水稻品種和10個野生稻資源的基因組重測序,同樣發(fā)現(xiàn)了數(shù)千個與水稻人工選擇相關的基因,并且證明秈稻和粳稻的起源是相互獨立的,而粳稻是從中國普通野生稻進化而來。中國農(nóng)業(yè)科學院的3K水稻基因組計劃已經(jīng)收集了全世界不同遺傳背景和表型的2 859份水稻資源,并通過重測序獲得了基因組信息,平均覆蓋深度為14倍,建立了水稻基因組的SNP與InDel變異數(shù)據(jù)庫[29-30]。Huang等[31]利用446份普通野生稻和1 083個栽培稻重測序數(shù)據(jù),構建了水稻基因組變異圖譜并確定了55個在馴化過程中發(fā)生的選擇性清除(Selective sweep),進一步分析揭示了粳稻最先起源于中國南方,秈稻是隨后由粳稻與當?shù)匾吧倦s交形成的。這些結果將有效指導和加速農(nóng)作物分子育種等研究,具有重要的科研價值和產(chǎn)業(yè)價值。
高通量測序極大地促進了重要功能基因或者數(shù)量性狀位點(QTL,quantitative trait locus)和分子標記的挖掘,在重測序獲得的大量遺傳變異基礎上,通過關聯(lián)分析、比較研究、連鎖分析和生物信息學分析可以開發(fā)出高密度的分子標記,能顯著促進種質(zhì)資源挖掘和利用,縮短育種周期(圖1)。
4.1 重測序應用于GWAS
全基因關聯(lián)分析(GWAS,Genome-wide association study)最早在醫(yī)學研究中被廣泛。GWAS分析無需在研究前構建任何假設,可以將目標表型與其DNA序列變異關聯(lián),分析的信息量大,能檢測到大量與目標性狀相關的基因?;跍y序來確定關鍵位點的GWAS分析方法,與傳統(tǒng)的QTL定位方法互為補充。
圖1 基于高通量測序技術的基因發(fā)掘研究思路Fig.1 The research approach of plant gene discovery based on high-throughput sequencing
表1 高通量基因組測序在水稻研究中的應用Table 1 Application of high-throughput genome sequencing in rice research
Tian等[32]通過GWAS分析獲得一個玉米嵌套的關聯(lián)映射面板,利用160萬個SNP位點鑒定了與莖葉夾角相關的基因。Huang[33]等通過新的基因型分類方法,構建了517個水稻地方品種的高密度的單體型圖譜,然后利用360萬個SNP位點對373個秈稻群體的對包括株型、產(chǎn)量、米質(zhì)和生理生化等14個農(nóng)藝性狀進行GWAS研究,發(fā)現(xiàn)有6個位點與前人研究結果相符。隨后,Huang等[34]在這些數(shù)據(jù)的基礎上,增加了430份來自世界不同地區(qū)的水稻材料的重測序數(shù)據(jù),對這些品種的抽穗期和產(chǎn)量性狀進行了GWAS研究,定位了32個新的抽穗、產(chǎn)量性狀相關的位點。Jia等[35]構建一張包含國內(nèi)外916份谷子品種的高精度單倍體型圖譜,通過GWAS分析定位到了512個與株型、產(chǎn)量、花期、抗病性等47個農(nóng)藝性狀關聯(lián)的位點,同時還發(fā)現(xiàn)了36個在新品種選育中受選擇的特殊位點。
4.2 重測序應用于突變體
突變體的表型和基因型為基因功能研究提供了直接的證據(jù),而采用全基因組重測序來鑒定突變體的變異序列已經(jīng)成為功能基因組學研究的一個發(fā)展趨勢。
主要農(nóng)藝性狀是由多基因控制的,而單個基因僅只有很小的表型效應,因此鑒定和克隆單突變位點非常困難。Abe[36]介紹一種快速基因定位方法——Mutmap法,用突變體與野生型雜交構建F2分離群體的,在分離群體構建基因池進行全基因組重測序。Abe構建了7個分離群體,其中一個親本是日本骨干水稻栽品種,鑒定了包括控制淡綠色葉片和半矮生性狀相關突變基因位點。這種方法只需在F2分離群體中選擇極端性狀構建等基因池,利用高通量測序手段發(fā)掘與性狀相關聯(lián)的SNP位點,得到候選基因,為農(nóng)作物基因克隆研究提供了新思路,減少了在傳統(tǒng)圖位克隆中構建群體所耗費的時間。
陳竹鋒等[37]利用改進的MutMap方法成功鑒定了LOC-Os02 g40450(MER3)是控制osms55突變體雄性不育的基因。改進的MutMap方法不需要組裝野生型基因組序列,而是分別將兩個混池的重測序數(shù)據(jù)與‘日本晴’參考基因組進行比對,通過比較突變體和野生型的差異SNP確定候選基因,節(jié)約了成本。Takagi等[38]2015年對日本當?shù)仄贩N‘Hitomebore’進行EMS誘變處理,產(chǎn)生耐鹽性的突變品系(hst1)。運用MutMap方法,對20個F2子代群體極端性狀混池和測序,通過差異分析,成功找到水稻耐鹽性突變體產(chǎn)生機制,由于OsRR22基因中插入了Tos17基因,導致OsRR22基因部分功能缺失,產(chǎn)生耐鹽性。
4.3 重測序應用于遺傳圖譜
傳統(tǒng)的QTL定位所用的分子標記連鎖遺傳圖譜密度不高,定位得到的性狀相關位點不夠準確。新一代測序技術可以提供大量的可靠數(shù)據(jù),使構建超高密度的遺傳圖譜成為可能。
Wang等[39]構建了一個包含2 334個SNP的水稻重組自交系遺傳圖譜,鑒定到了49個與14個農(nóng)藝性狀相關的QTL,其中分別控制分蘗角度、株高、劍葉寬度、粒長、粒寬的5個主效QTL的遺傳距離均很小,直接可以分析其區(qū)間內(nèi)的候選基因。Yu等[40]為了評估所構建的‘珍汕97’和‘明恢63’重組自交系遺傳圖譜的質(zhì)量,驗證了包括GS3、GW5和OsC1這3個分別控制粒長、粒寬和色澤的主效QTLs位點,被選目標位點都被精確地定位在基因?qū)嶋H所在的bins中,表明其獲得的遺傳圖譜準確性很高。Takagi[41]提出了一種應用重測序方法進行QTL定位的新技術(QTL-seq法),利用目標性狀差異較大的一對品種雜交后獲得的重組自交系或F2,在群體中選擇極端性狀的20—50個個體分別構建高低表型DNA混池后進行重測序,通過對比兩個混池的SNP位點的測序深度相關的一個參數(shù)(SNP-index)來定位QTL。文中以水稻為例對該方法用了兩種分離群體進行了驗證,并對此方法的運用進行了數(shù)據(jù)模擬,確定混池所選極端個體數(shù)目占群體總數(shù)的比例及測序深度是限制因素,發(fā)現(xiàn)當所選個體比例為15%,測序深度在20×時,此方法可應用于F2代群體進行QTL的準確定位,如果應用在F7代的RILs群體,則定位效果更顯著。Yang等[42]對Nipponbare×LPBG的F3后代(10 800個體)進行苗期耐冷性的QTL定位,分別選取430個極端敏感個體和385個極端耐冷個體構建混池,對兩個DNA混池測序得到45萬個SNPs,通過兩種分析方法均定位到6個主效QTLs,位于第1,2,5,8和10染色體上,和前人定位區(qū)間相近。Lu等[43]利用QTL-seq的技術思路,在黃瓜中快速定位了一個與早開花相關的QTL。通過QTL-seq定位和遺傳圖譜QTL分析結合將性狀相關區(qū)段縮短至第1染色體上的25.42—26.31Mb,根據(jù)注釋在該區(qū)域中,包含基因Csa1G651710,與擬南芥的FT基因同源性高達74%。Illa等[44]利用6個F2群體,采用QTL-seq方法快速定位到了3個新的番茄果實重量位點和3個控制心室數(shù)量的位點,進一步通過精細定位將果重的一個主效QTL(fw11.2)縮短至750 kb范圍內(nèi),其中包含66個候選基因。
基于高通量測序技術的基因定位與傳統(tǒng)方法相比周期短、效率高;所獲標記數(shù)量多、密度高;定位準確性強、精度高,可經(jīng)濟高效地實現(xiàn)功能基因定位,利用快速而精確的分子標記輔助選擇,在早世代進行標記選擇,還能對一些難以精確評價的抗逆性表型(如抗旱性等)進行篩選,將顯著提高育種效率??梢灶A期的是,隨著高通量測序技術的不斷發(fā)展和完善,試驗成本的逐步降低,基于高通量測序手段的基因分型和分子標記開發(fā)以及候選功能基因的挖掘,將會更加廣泛地應用于農(nóng)作物分子育種研究中,加速農(nóng)業(yè)育種研究進程。
[1]MAXAM A M,GILBERT W.A New Method for Sequencing DNA[J].Proceedings of the National Academy of Sciences,1977,74(2):560-564.
[2]SANGER F,NICKLEN S,COULSON A R.DNA Sequencing with Chain-Terminating Inhibitors[J].Proceedings of the National Academy of Sciences,1977,74(12):5463-5467.
[3]MARGULIES M,EGHOLM M,ALTMAN W E,et al.Genome sequencing in microfabricated high-density picolitre reactors[J].Nature,2005,437(7057):376-380.
[4]SHAFFER C.Next-generation sequencing outpaces expectations[J].Nature Biotechnology,2007,25(2):149.
[5]SHENDURE J,JI H.Next-generation DNA sequencing[J].Nature Biotechnology,2008,26(10):1135-1145.
[6]SCHUSTER S C.Next-generation sequencing transforms today's biology[J].Nature Methods,2008,5(1):16-18.
[7]EID J,F(xiàn)EHR A,GRAY J,et al.Real-Time DNA Sequencing from Single Polymerase Molecules[J].Science,2009,323(5910):133-138.
[8]TAGI.Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J].Nature,2000,408(6814):796-815.
[9]YU J,HU S,WANG J,et al.A draft sequence of the rice genome(Oryza sativa L.ssp.indica)[J].Science,2002,296(5):79-92.
[10]TUSKAN G A,DIFAZIO S,JANSSON S,et al.The genome of black cottonwood,Populus trichocarpa(Torr.&Gray)[J].Science,2006,313(5793):1596-1604.
[11]JAILLON O,AURY J M,NOEL B,et al.The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J]. Nature,2007,449(7161):463-467.
[12]MING R,HOU S,F(xiàn)ENG Y,et al.The draft genome of the transgenic tropical fruit tree papaya(Carica papaya Linnaeus)[J].Nature,2008,452(7190):991-996.
[13]ZHARKIKH A,TROGGIO M,PRUSS D,et al.Sequencing and assembly of highly heterozygous genome of Vitis vinifera L.cv Pinot Noir:Problems and solutions[J].Journal of Biotechnology,2008,136(1-2):38-43.
[14]PATERSON A H,BOWERS J E,BRUGGMANN R,et al.The Sorghum bicolor genome and the diversification of grasses[J].Nature,2009,457(7229):551-556.
[15]SCHNABLE P S,WARE D,F(xiàn)ULTON R S,et al.The B73 maize genome:Complexity,diversity,and dynamics[J].Science,2009,326(5956):1112-1115.
[16]SCHMUTZ J,CANNON S B,SCHLUETER J,et al.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463(7278):178-183.
[17]Potato Genome Sequencing Consortium.Genome sequence and analysis of the tuber crop potato[J].Nature,2011,475(7355):189-195.
[18]HUANG S,LI R,ZHANG Z,LI L,et al.The genome of the cucumber,Cucumis sativus L[J].Nature Genetics,2009,41(12):1275-1281.
[19]LING H Q,ZHAO S,LIU D,WANG J,et al.Draft genome of the wheat A-genome progenitor Triticum urartu[J].Nature,2013,496(7443):87-90.
[20]CHALHOUB B,DENOEUD F,LIU S,et al.Early allopolyploid evolution in the post-Neolithic Brassica napus oilseed genome[J].Science,2014,345(6199):950-953.
[21]LAI J,LI R,XU X,JIN W,et al.Genome-wide patterns of genetic variation among elite maize inbred lines[J].Nature Genetics,2010,42(11):1027-1030.
[22]BRANCA A,PAAPE T D,ZHOU P,et al.Whole-genome nucleotide diversity,recombination,and linkage disequilibrium in the model legume Medicago truncatula[J].Proceedings of the National Academy of Sciences,2011,108(42):E864-70.
[23]ZHENG LY,GUO X S,HE B,et al.Genome-wide patterns of genetic variation in sweet and grain sorghum(Sorghum bicolor)[J].Genome Biology,2011,12(11):R114.
[24]LIN T,ZHU G,ZHANG J,et al.Genomic analyses provide insights into the history of tomato breeding[J].Nature Genetics,2014,46(11):1220-1226.
[25]LAM H M,XU X,LIU X,et al.Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection[J].Nature Genetics,2010,42(12):1053-1059.
[26]QI J,LIU X,SHEN D,et al.A genomic variation map provides insights into the genetic basis of cucumber domestication and diversity[J].Nature genetics,2013,45(12):1510-1515.
[27]ZHANG Z,MAO L,CHEN H,et al.Genome-Wide Mapping of Structural Variations Reveals a Copy Number Variant That Determines Reproductive Morphology in Cucumber[J].The Plant Cell,2015:tpc.114.135848.
[28]XU X,LIU X,GE S,et al.Resequencing 50 accessions of cultivated and wild rice yields markers for identifying agronomically important genes[J].Nature biotechnology,2012,30(1):105-111.
[29]LI J Y,WANG J,ZEIGLER R S.The 3,000 rice genomes project:new opportunities and challenges for future rice research[J].GigaScience,2014,3(1):1-3.
[30]鄭天清,余泓,張洪亮,等.水稻功能基因組育種數(shù)據(jù)庫(RFGB):3K水稻SNP與InDel子數(shù)據(jù)庫[J].科學通報,2015,60(4):367-371.
[31]HUANG X,KURATA N,WEI X,et al.A map of rice genome variation reveals the origin of cultivated rice[J].Nature,2012,490(7421):497-501.
[32]TIAN F,BRADBURY P J,BROWN P J,et al.Genome-wide association study of leaf architecture in the maize nested association mapping population.Nature Genetics,2011,43(2):159-162.
[33]HUANG X,WEI X,SANG T,et al.Genome-wide association studies of 14 agronomic traits in rice landraces[J].Nature Genetics,2010,42(11):961-967.
[34]HUANG X,ZHAO Y,WEI X,et al.Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm[J].Nature genetics,2012,44(1):32-39.
[35]JIA G Q,HUANG X H,ZHI H,et al.A haplotype map of genomic variations and genome-wide association studies of agronomic traits in foxtail millet(Setaria italica)[J].Nature Genetics,2013,45(8):957-961.
[36]ABE A,KOSUGI S,YOSHIDA K,et al.Genome sequencing reveals agronomically important loci in rice using MutMap[J].Nature Biotechnology,2012,30(2):174-178.
[37]陳竹鋒,嚴維,王娜,等.利用改進的MutMap方法克隆水稻雄性不育基因[J].遺傳,2014,36(1):85-93.
[38]TAKAGI H,TAMIRU M,ABE A,et al.MutMap accelerates breeding of a salt-tolerant rice cultivar[J].Nature biotechnology,2015,33(5):445-449.
[39]WANG L,WANG A,HUANG X,et al.Mapping 49 quantitative trait loci at high resolution through sequencing-based genotyping of rice recombinant inbred lines[J].Theoretical and applied genetics,2011,122(2):327-340.
[40]YU H,XIE W,WANG J,et al.Gains in QTL detection using an ultra-high density SNP map based on population sequencing relative to traditional RFLP/SSR markers[J].PLoS One,2011,6(3):e17595.
[41]TAKAGI H,ABE A,YOSHIDA K,et al.QTL-seq:rapid mapping of quantitative trait loci in rice by whole genome resequencing of DNA from two bulked populations[J].Plant Journal,2013,74(1):174-183.
[42]YANG Z,HUANG D,TANG W,et al.Mapping of Quantitative Trait Loci Underlying Cold Tolerance in Rice Seedlings via High-Throughput Sequencing of Pooled Extremes[J].PLoS One,2013,8(7):670-692.
[43]LU H,LIN T,KLEIN J,et al.QTL-seq identifies an early flowering QTL located near Flowering Locus T in cucumber[J].Theoretical and Applied Genetics,2014,127(7):1491-1499.
[44]ILLA BERENGUER E,VAN HOUTEN J,HUANG Z,et al.Rapid and reliable identification of tomato fruit weight and locule number loci by QTL-seq[J].Theoretical and Applied Genetics,2015,128(7):1329-1342.
(責任編輯:張睿)
Application of high-throughput genome sequencing in crop gene discovery and mapping
LIU Yi,YU Xin-qiao,ZHANG An-ning,WANG Fei-ming,LIU Guo-lan*
(Shanghai Agrobiological Gene Center,Shanghai 201106,China)
High-throughput sequencing,which has an ultra-low cost per base of sequencing and an overwhelmingly high data output,has been widely used in the field of plant research.In this paper,we review the progress in the application of high-throughput sequencing technologies to crop research,especially the new methods in crop gene discovery and mapping.These novel research methods and solutions will greatly shorten the breeding process.
High-throughput Sequencing;Genome;Crop;Gene mapping
S188.1
A
1000-3924(2016)06-171-05
2015-10-26
國家高技術研究發(fā)展計劃(863計劃)項目(2014AA10A604);上海市市級農(nóng)口系統(tǒng)青年人才成長計劃[滬農(nóng)青字(2015)第1-6號]
劉毅(1984—),男,在職博士,助理研究員,研究方向:節(jié)水抗旱稻分子育種。E-mail:ly07@sagc.org.cn
*通信作者,E-mail:lgl@sagc.org.cn