戚行江,任海英,梁森苗,鄭錫良,吳陽春
(浙江省農(nóng)業(yè)科學(xué)院園藝研究所,浙江杭州 310021)
楊梅全基因組測序結(jié)果初報
戚行江,任海英,梁森苗,鄭錫良,吳陽春
(浙江省農(nóng)業(yè)科學(xué)院園藝研究所,浙江杭州 310021)
楊梅(Myrica rubra Sieb.et Zucc.)是我國南方著名的特產(chǎn)珍果,為促進(jìn)楊梅分子育種及功能基因研究,對楊梅進(jìn)行了全基因組測序。采用Illum ina Hiseq 2500雙端測序策略,構(gòu)建了200 bp文庫,進(jìn)行雙端125 bp(PE 125)測序,得到約13.70 Gb的原始數(shù)據(jù)。數(shù)據(jù)評估得知楊梅基因組大小約為304.38 Mb,重復(fù)序列含量約為45.82%,雜合率約為0.58%,基因組的GC含量約37.99%。利用SOAPdenovo軟件進(jìn)行了拼接組裝。這一結(jié)果有助于開展楊梅后續(xù)的分子育種及基因功能研究。
楊梅;全基因組測序;基因組特征評估
楊梅(Myrica rubra Sieb.et Zucc.)是我國南方著名的特產(chǎn)珍果,果實(shí)色澤鮮艷,酸甜適口,風(fēng)味獨(dú)特,營養(yǎng)豐富,深受人們喜愛。浙江省楊梅種植歷史悠久,是世界上最早對楊梅進(jìn)行人工栽培的地區(qū)。2015年浙江省楊梅實(shí)際栽培面積近8.67萬hm2,產(chǎn)量近50萬t,栽培面積和產(chǎn)量均居全國第一,是浙江省僅次于柑橘的第二大果樹。目前,浙江省已成為中國乃至世界楊梅產(chǎn)業(yè)中心,楊梅產(chǎn)業(yè)在浙江省特色農(nóng)業(yè)生產(chǎn)中有著特殊的地位和作用,現(xiàn)已成為浙江省“三農(nóng)”經(jīng)濟(jì)發(fā)展以及農(nóng)民脫貧致富的重要產(chǎn)業(yè)。
楊梅產(chǎn)業(yè)在浙江省還在不斷發(fā)展之中,但隨著面積的不斷發(fā)展與產(chǎn)量的持續(xù)上升,楊梅生產(chǎn)問題也在日益突現(xiàn),在品種方面表現(xiàn)尤為明顯,四大良種東魁、荸薺種、丁岙楊梅、晚稻楊梅等,這些品種的育成均采用系統(tǒng)優(yōu)選獲得,雖然性狀上存在差異,但類型仍然較為相似,不同品種的熟期間隔不大,且均存在樹形高大、始果期遲、果實(shí)不耐貯藏、抗病性不足等問題。為了培育更優(yōu)良的品種,更新楊梅育種技術(shù)與育種手段成為產(chǎn)業(yè)的迫切需求,楊梅的雌雄種質(zhì)及不同品種在分子標(biāo)記上存在重要差異[1-2],這為分子育種提供了重要信息,但是尚不能滿足更深入的產(chǎn)業(yè)需求。
隨著科學(xué)技術(shù)的快速發(fā)展,轉(zhuǎn)錄組測序、基因組全測序已經(jīng)成為研究動物[3-4]、植物[5-6]、病原生物[7]等的重要技術(shù)手段,這大大加速了人類對于研究目標(biāo)的認(rèn)知速度,有利于更好更快的利用分子技術(shù)改良物種。目前已經(jīng)對十幾種果樹進(jìn)行了全基因組測序,這大大促進(jìn)了果樹科學(xué)的發(fā)展[8]。為了更好地從分子水平深入了解楊梅的生長性能、品質(zhì)和抗病性等種質(zhì)特性,促進(jìn)楊梅分子育種及功能基因研究,本文對楊梅進(jìn)行了全基因組測序。
1.1 文庫的構(gòu)建及測序
楊梅嫩葉送北京百邁客生物科技有限公司進(jìn)行檢測。CTAB方法提取楊梅嫩葉基因組DNA,進(jìn)行小片段文庫建庫測序。用Qubit dsDNA HS Assay Kit(Life technologies)對基因組DNA進(jìn)行精確定量。
小文庫構(gòu)建。取500 ng基因組DNA用1×TE稀釋至50μL,用超聲法進(jìn)行機(jī)械打斷,用QIAquick PCR purification Kit(QIAGEN)對片段化DNA進(jìn)行純化;在T4 polynucleotide kinase、T4 DNA polymerase、Klenow Large Fragment和dNTP(New England Biolabs,NEB)的反應(yīng)體系催化下對片段化的DNA進(jìn)行修復(fù),形成5'端帶有磷酸基團(tuán)的平末端序列,并用QIAquick PCR purification Kit(QIAGEN)進(jìn)行純化;在Klenow Fragment(exo-)(NEB)的催化下,在上述DNA的3'端添加連接反應(yīng)所需的A堿基,并用M inElute PCR purification Kit(QIAGEN)進(jìn)行純化;將不含barcode的Illumina paired-end adapters連接到待測DNA片段兩端,并用MinElute PCR purification Kit(QIAGEN)進(jìn)行純化;用2%的低分子量瓊脂糖(BioRad)凝膠電泳對純化連接產(chǎn)物進(jìn)行分離,切膠選擇300 bp(插入片段200 bp),用QIAquick Gel Extraction Kit(QIAGEN)對分離膠塊進(jìn)行純化;用帶有可以區(qū)分文庫的index引物對膠回收片段進(jìn)行擴(kuò)增富集,并對PCR產(chǎn)物再次進(jìn)行瓊脂糖凝膠電泳切膠純化,最終獲得可用于測序的文庫。用7500 DNA LabChip芯片在Agilent Technologies 2100生物分析儀上對所得文庫片段大小進(jìn)行質(zhì)檢,用qPCR定量方式對文庫進(jìn)行精確定量。根據(jù)qPCR定量結(jié)果對不同文庫進(jìn)行混樣,在Illumina HiSeq 2500測序儀上按照雙端125 bp進(jìn)行測序。
1.2 信息分析流程
雙端測序數(shù)據(jù)通過評估(GC分布統(tǒng)計、質(zhì)量值Q20、Q30評估)、過濾后得到高質(zhì)量的數(shù)據(jù)(clean reads),用于基因組特征評估。
1.3 基因組特征評估
利用基因組調(diào)研圖進(jìn)行基因組特征的評估,評估基因組大小、雜合情況及GC含量情況。
2.1 測序結(jié)果統(tǒng)計
使用楊梅樣品的基因組DNA構(gòu)建200 bp的文庫,在Illumina Hiseq 2500測序平臺測序得到13.70 Gb原始數(shù)據(jù),總測序深度約為45.01X,測序質(zhì)量值在20以上的堿基比例在93.25%以上,測序質(zhì)量值在30以上的堿基比例在88.32%以上。
2.2 基因組大小、重復(fù)序列比例和雜合率評估
利用200 bp文庫數(shù)據(jù)構(gòu)建Kmer長度為17的Kmer分布圖(圖1),進(jìn)行基因組大小、重復(fù)序列比率和雜合率的評估。由圖1可知,平均Kmer深度即主峰對應(yīng)的Kmer深度為37.56X。Kmer深度出現(xiàn)在主峰對應(yīng)深度2倍以上的序列為重復(fù)序列,即深度大于75.12X(主峰右側(cè)的小峰)的Kmer序列為重復(fù)序列。Kmer深度出現(xiàn)在主峰對應(yīng)深度18.78X處(主峰左側(cè)的小峰)的序列即為雜合序列。
根據(jù)Kmer深度信息,總Kmer數(shù)目/平均Kmer深度即為基因組大小,估計基因組大小約304.38 Mb。依據(jù)Kmer分布情況,估計重復(fù)序列含量約45.82%,沒有明顯雜合峰,評估出的雜合率約為0.58%,物種雜合率較低。因此該物種不屬于高雜合、高重復(fù)、大基因組等基因組結(jié)構(gòu)特征復(fù)雜的物種。
圖1 Kmer的分布
2.3 評估GC含量
基因組GC含量對基因組測序的隨機(jī)性有較大影響。過高GC含量(>65%),過低GC含量(<25%)會導(dǎo)致測序偏向性,嚴(yán)重影響基因組組裝效果。物種GC含量是評估后續(xù)基因組組裝難度重要指標(biāo)之一。通過對調(diào)研圖文庫測序數(shù)據(jù)分析,該物種基因組的GC含量約37.99%。
楊梅全基因組大小約304.38 Mb,與其他已完成全基因組測序的果樹相比,比蘋果(基因組大小742 Mb)[9]、梨(基因組大小527 Mb)[10]、獼猴桃(基因組大小616.1 Mb)[5]、香蕉(基因組大小523 Mb)[11]、葡萄(基因組大小490 Mb)[12]、楊樹(基因組大小480 Mb)都小的多,但是與番木瓜(基因組大小370 Mb)[13]、桃樹(基因組大小265 Mb)[14]、甜橙(基因組大小367 Mb)[15]較接近。與其他已完成全基因組測序的作物和蔬菜相比,比大麥(全基因組大小5.1 Gb)、小麥(全基因組大小17 Gb)、大豆(全基因組大小1.1 Gb)、玉米(全基因組大小2.3 Gb)、馬鈴薯(全基因組大小844 Mb)、棉花(全基因組大小775 Mb)、高粱(全基因組大小730 Mb)、水稻(全基因組大小466 Mb)、番茄(全基因組大小760 Mb)、白菜(全基因組大小485 Mb)和西瓜(全基因組大小425 Mb)等小很多,與甜瓜(全基因組大小375 Mb)和黃瓜(全基因組大小350 Mb)等接近,但是比擬南芥(全基因組大小125 Mb)要大得多。
楊梅的基因重復(fù)序列(重復(fù)序列45.82%)與葡萄(重復(fù)序列41%)、番木瓜(重復(fù)序列43%)和香蕉(重復(fù)序列44%)相近,在41%~46%,比蘋果(重復(fù)序列67%)和梨(重復(fù)序列53.1%)低,比草莓(重復(fù)序列23%)、甜橙(重復(fù)序列20%)和桃(重復(fù)序列37.14%)要高[8],這說明楊梅的基因組屬于中等復(fù)雜程度。
如何破解并利用全基因組測序得到的大量數(shù)據(jù)是研究者面臨的巨大挑戰(zhàn)。目前基于全基因組測序挖掘了很多與糖、揮發(fā)性物質(zhì)等相關(guān)的基因,并在開發(fā)SNP芯片、構(gòu)建高精度圖譜及QTL定位等方面都取得了重要進(jìn)展[8]。以后的科學(xué)研究重點(diǎn)將從表現(xiàn)型依賴型研究轉(zhuǎn)入基因型依賴型研究,從對單一基因的研究轉(zhuǎn)入對整個基因組的研究[8]。本文研究成果對于揭示楊梅生長特性的遺傳基礎(chǔ)提供重要的科學(xué)價值。
[1] 謝小波,求盈盈,戚行江,等.楊梅雌、雄種質(zhì)遺傳關(guān)系的RAPD和ISSR分析[J].果樹學(xué)報,2008,25(2):198-202.
[2] 謝小波,求盈盈,戚行江,等.浙江楊梅品種遺傳差異的RAPD和ISSR分析[J].浙江農(nóng)業(yè)學(xué)報,2008,20(1):1-5.
[3] Zhou X M,Wang B S,Pan Q,et al.Whole-genome sequencing of the snub-nosed monkey provides insights into folivory and evolutionary history[J].Nature Genetics,2014,46(12):1303-1310.
[4] Lu L Z,Chen Y,Wang Z,et al.The goose genome sequence leads to insights into the evolution of waterfow l and susceptibility to fatty liver[J].Genome Biology,2015,16:89.
[5] Huang S X,Ding J,Deng D J,et al.Draft genome of the kiwifruit Actinidia chinensis[J].Nature Communications,2013(4):2640-3640.
[6] Zhang T Z,Hu Y,Jiang W K,et al.Sequencing of allotetraploid cotton(Gossypium hirsu tum L.acc.TM-1)provides a resource for fiber improvement[J].Nature Biotechnology,2015,33(5):531-540.
[7] Wu J,Kou Y J,Bao J D,et al.Comparative genomics identifies the Magnaporthe oryzae avirulence effector AvrPi9 that triggers Pi9-med iated blast resistance in rice[J].New Phytologist,2015,206(4):1463–1475.
[8] 喬鑫,李夢,殷豪,等.果樹全基因組測序研究進(jìn)展[J].園藝學(xué)報,2014,41(1):165-177.
[9] Velasco R,Zharkikh A,A ffourtit J,et al.The genome of the domesticated apple(Ma lus×domestica Borkh.)[J].Nature Genetics,2010,42(10):833-839.
[10] W u J,Wang Z,Shi Z,et al.The genome of the pear(Pyrus bretschneideri Rehd.)[J].Genome Research,2012,23:396-408.
[11] D′Hont A,Denoeud F,Aury JM,et al.The banana(Musa acuminata)genome and the evolution of monocotyledonous plants[J].Nature,2012,488:213-217.
[12] Jaillon O,Aury J M,Noel B,et al.The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J].Nature,2007,449:463-467.
[13] M ing R,Hou S,F(xiàn)eng Y,et al.The draft genome of the transgenic tropical fruit tree papaya(Carica papaya Linnaeus)[J].Nature,2008,452:991-996.
[14] International Peach Genome Initiative,Verde I,Abbott A G,et al.The high-quality draft genome of peach(Prunus persica)identifies unique patterns of genetic diversity,domestication and genome evolution[J].Natu re Genetics,2013,45(5):487-494.
[15] Xu Q,Chen L L,Ruan X,et al.The draft genome of sweet orange(Citrus sinensis)[J].Natu re Genetics,2012,45:59.
(責(zé)任編輯:張 韻)
S 667.6
:A
:0528-9017(2015)10-1564-03
文獻(xiàn)著錄格式:戚行江,任海英,梁森苗,等.楊梅全基因組測序結(jié)果初報[J].浙江農(nóng)業(yè)科學(xué),2015,56(10):1564-1566.
10.16178/j.issn.0528-9017.20151011
2015-08-24
國家公益性行業(yè)(農(nóng)業(yè))科研專項經(jīng)費(fèi)(201203089);浙江省果品農(nóng)業(yè)新品種選育重大科技專項(2012C12904-3);浙江省農(nóng)業(yè)科學(xué)院楊梅工程中心基金
戚行江(1963-),浙江諸暨人,研究員,碩士生導(dǎo)師,研究方向?yàn)楣麡鋵W(xué)。E-mail:qixj@mail.zaas.ac.cn。