蘭 蓉,朱 蘭,邵慶勇,洪瓊花
(云南省畜牧獸醫(yī)科學(xué)院,云南昆明650224)
云南黑山羊全基因組重測(cè)序
蘭 蓉,朱 蘭,邵慶勇,洪瓊花*
(云南省畜牧獸醫(yī)科學(xué)院,云南昆明650224)
采用Illumina Hiseq2000測(cè)序技術(shù)對(duì)由云南黑山羊具有代表性的個(gè)體構(gòu)建的DNA池進(jìn)行20X全基因組重測(cè)序,以期對(duì)云南黑山羊分子特征做出評(píng)價(jià),并為云南黑山羊功能基因定位提供分子基礎(chǔ)數(shù)據(jù)。結(jié)果表明:云南黑山羊可以檢測(cè)到7 615 774個(gè)SNP、877 232個(gè)INDEL和40 005個(gè)SV。通過(guò)比對(duì)山羊參考基因組,并進(jìn)行生物信息學(xué)分析,結(jié)果顯示云南黑山羊位于外顯子區(qū)域的SNP有35 902個(gè),其中異義突變17 160個(gè),同義突變18 920個(gè);外顯子區(qū)域的小INDEL有1 330個(gè);位于內(nèi)含子區(qū)域的SNP 1 695 420個(gè),小INDEL 208 999,位于UTR3區(qū)域的SNP 16 106個(gè),小INDEL 580個(gè)。研究結(jié)果基本闡明了云南黑山羊的分子特征,為后續(xù)功能基因的研究提供了強(qiáng)大的數(shù)據(jù)支撐,并為功能基因的定位提供新的思路和線索。
云南黑山羊;全基因組重測(cè)序;單核苷酸多態(tài)性;小片段插入缺失變異;結(jié)構(gòu)變異
10.16863 /j.cnki.1003-6377.2016.05.003
近年來(lái),隨著基因測(cè)序技術(shù)的發(fā)展和進(jìn)步,測(cè)序時(shí)間的縮短和成本的降低,科學(xué)家們使用全基因組測(cè)序技術(shù)獲得大量物種的基因組序列。以此為基礎(chǔ),通過(guò)全基因組重測(cè)序技術(shù)(whole-genome resequencing,WGR)對(duì)已知基因組序列的不同個(gè)體進(jìn)行基因組重測(cè)序和序列對(duì)比分析,可得到物種個(gè)體差異的遺傳信息,包括大量的單核苷酸多態(tài)性位點(diǎn)(SNP)、拷貝數(shù)變異(CNV)、插入缺失位點(diǎn)(InDel)、結(jié)構(gòu)變異位點(diǎn)(SV),最終獲得生物群體的遺傳特征。利用全基因組重測(cè)序技術(shù),有助于快速發(fā)現(xiàn)與動(dòng)植物重要性狀相關(guān)聯(lián)的遺傳信息,開發(fā)相關(guān)全基因組遺傳標(biāo)記,加快分子育種,對(duì)科學(xué)家研究物種的遺傳進(jìn)化、自然選擇、疾病研究具有重要的意義。
云南黑山羊是由云嶺黑山羊與努比羊雜交培育而成的一個(gè)肉羊新品種,具有肉質(zhì)鮮美、生長(zhǎng)快、產(chǎn)羔率高的特點(diǎn),它克服了云嶺黑山羊生長(zhǎng)慢、產(chǎn)羔率低的缺點(diǎn),但保留了地方黑山羊獨(dú)特的風(fēng)味。本研究旨在通過(guò)對(duì)這一個(gè)培育新品種全基因組重測(cè)序,全面、快速、準(zhǔn)確掌握其分子遺傳特征,為這一品種的不斷選育提高及開發(fā)利用奠定堅(jiān)實(shí)的基礎(chǔ)。
1.1材料
1.1.1 實(shí)驗(yàn)羊只
隨機(jī)選取石林生龍公司種羊場(chǎng)云南黑山羊核心群種母羊3只。
1.1.2 血樣
用真空采血管采集實(shí)驗(yàn)羊只頸靜脈血2 m L,EDTA抗凝,-20℃保存?zhèn)溆谩?/p>
1.1.3 試劑
DNA提取試劑盒、10×TE均購(gòu)自大連寶生物公司,文庫(kù)制備試劑盒(TruSeq DNA PCR-Free Library Preparation Kit)、目標(biāo)富集試劑盒(HiSeq Rapid SR Cluster Kit)購(gòu)自美國(guó)illumina公司,其它試劑均為國(guó)產(chǎn)分析純。
1.2方法
1.2.1 DNA提取
按試劑盒blood genome DNA Extraction kit操作流程提取血樣DNA,1×TE緩沖液溶解,保存于-20℃?zhèn)溆谩?/p>
1.2.2 全基因組重測(cè)序
將3個(gè)樣品基因組DNA等比例混合構(gòu)成DNA池,隨機(jī)打斷,純化所需長(zhǎng)度DNA片段,在末端加上接頭后,進(jìn)行cluster生成,送至美吉生物用HiSeq 2000自動(dòng)完成,實(shí)驗(yàn)流程如圖1。
圖1 重測(cè)序分析流程
1.2.3 原始測(cè)序數(shù)據(jù)質(zhì)量剪切
云南省黑山羊的DNA通過(guò)Illumina測(cè)序技術(shù)進(jìn)行paired-end(PE)測(cè)序后,可構(gòu)建文庫(kù)。但為了后續(xù)分析的準(zhǔn)確性,需要對(duì)于Illumina原始測(cè)序數(shù)據(jù)要進(jìn)行質(zhì)量剪切,即剪切掉reads中的adapter序列、去除5’端含有非A、G、C、T的堿基,并對(duì)測(cè)序質(zhì)量值<20的reads末端進(jìn)行修剪。另外還需去除質(zhì)量較低數(shù)據(jù),包括去除含N比例高于10%的reads,以及去除adapter以及質(zhì)量修剪后長(zhǎng)度仍小于25bp的小片段。1.2.4生物信息分析:運(yùn)用BWA[4]軟件對(duì)測(cè)序得到reads與參考基因組序列進(jìn)行比對(duì),然后利用Picard-tools[5]去除PCR-duplication產(chǎn)生的測(cè)序reads,根據(jù)比對(duì)結(jié)果,計(jì)算出相對(duì)于參考基因組的測(cè)序深度和覆蓋度。利用GATK[6]軟件包進(jìn)行SNP、small indel信息檢測(cè)。對(duì)于檢測(cè)到的突變位點(diǎn),用samtools[7]提供的vcfutils工具以及GATK過(guò)濾掉測(cè)序深度和比對(duì)質(zhì)量值較低的位點(diǎn)。用BreakDancer[8]軟件對(duì)樣品的SV進(jìn)行檢測(cè)。利用annovar[9]軟件和參考序列的gff信息進(jìn)行注釋,得到SNP、indel、SV的注釋信息。生物信息分析流程見圖2。
圖2 生物信息分析流程
本研究采用Illumina Hiseq2000測(cè)序技術(shù)完成了云南黑山羊全基因組重測(cè)序,構(gòu)建了一個(gè)Illumina PE文庫(kù)(300bp),對(duì)獲得的測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控后利用生物信息學(xué)分析手段完成樣品的全基因組重測(cè)序分析。
2.1原始測(cè)序數(shù)據(jù)統(tǒng)計(jì)
測(cè)序得到原始圖像數(shù)據(jù)經(jīng)過(guò)Base Calling轉(zhuǎn)化為序列數(shù)據(jù),結(jié)果以FASTQ文件格式來(lái)存儲(chǔ)。FASTQ文件為最原始的數(shù)據(jù)文件,文件包含測(cè)序reads的序列信息以及測(cè)序質(zhì)量信息。格式如表1。
表1 F AS TQ原始數(shù)據(jù)格式示范
2.2原始測(cè)序數(shù)據(jù)質(zhì)控
利用生物信息統(tǒng)計(jì)學(xué)方法,對(duì)所有測(cè)序reads的堿基分布和質(zhì)量波動(dòng)進(jìn)行統(tǒng)計(jì),從宏觀上可以直觀的反映出測(cè)序樣本的測(cè)序質(zhì)量和文庫(kù)構(gòu)建質(zhì)量。原始數(shù)據(jù)堿基組成分布圖(又稱為GC偏差圖)見圖3,原始數(shù)據(jù)堿基質(zhì)量分布圖見圖4。
注:橫坐標(biāo)是reads堿基坐標(biāo),縱坐標(biāo)是read的堿基質(zhì)量(Solexa Scale:40=Highest,-15=Lowest),圖中垂直紅線”Ⅰ”指定的范圍是所有reads堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加粗水平黑線是質(zhì)量值的中位數(shù)。圖4原始數(shù)據(jù)堿基質(zhì)量分布圖
2.3測(cè)序數(shù)據(jù)統(tǒng)計(jì)結(jié)果
質(zhì)量剪切前后的數(shù)據(jù)的測(cè)序reads數(shù)、總堿基數(shù)、Q20%、文庫(kù)平均插入長(zhǎng)度、平均測(cè)序深度分別進(jìn)行統(tǒng)計(jì),結(jié)果見表2。
表2 測(cè)序數(shù)據(jù)統(tǒng)計(jì)表
2.4突變預(yù)測(cè)及注釋結(jié)果統(tǒng)計(jì)
2.4.1 比對(duì)結(jié)果數(shù)據(jù)統(tǒng)計(jì)
本研究中,我們以山羊的基因組序列[10]作為參考,利用BWA[4]比對(duì)軟件將質(zhì)控后的測(cè)序片段比對(duì)回參考基因組[10,11],利用Picard-tools[5]去除PCR-duplication產(chǎn)生的測(cè)序片段,比對(duì)結(jié)果見表3。
表3 比對(duì)結(jié)果數(shù)據(jù)統(tǒng)計(jì)表
2.4.2 SNP、sm all indel檢測(cè)和注釋
根據(jù)最終的比對(duì)結(jié)果,利用GATK軟件獲得云南黑山羊群體SNP信息和群體InDel信息,見表4。采用Annovar[9]程序結(jié)合本項(xiàng)目山羊的gff基因注釋信息對(duì)得到的SNP和small indel進(jìn)行注釋,見表5。表3-5為SNP、small indel注釋結(jié)果統(tǒng)計(jì)表,圖為SNP、small indel注釋結(jié)果統(tǒng)計(jì)圖。
表4 群體單核苷酸多態(tài)性、插入缺失位點(diǎn)數(shù)據(jù)統(tǒng)計(jì)表
表5 單核苷酸多態(tài)性、插入缺失位點(diǎn)注釋結(jié)果統(tǒng)計(jì)表
2.4.3 外顯子區(qū)域SNP和small indel突變位點(diǎn)對(duì)蛋白翻譯影響
對(duì)于在exonic區(qū)域的SNP和small indel位點(diǎn),變位點(diǎn)對(duì)蛋白翻譯所產(chǎn)生的影響,統(tǒng)計(jì)結(jié)果見表6。
表6 外顯子區(qū)域突變位點(diǎn)對(duì)蛋白翻譯影響結(jié)果統(tǒng)計(jì)表
2.4.4 染色體結(jié)構(gòu)變異(SV)分析
結(jié)構(gòu)變異(SV)通是指長(zhǎng)度在幾Kb至幾Mb染色體變異,類型包括:缺失(DEL)、插入(INS)、倒位(INV)、染色體內(nèi)易位(ITX)和染色體間易位(CTX)。用軟件BreakDancer(v1.1.2)[8]檢測(cè)群體的SV,統(tǒng)計(jì)結(jié)果見表7。
表7 結(jié)構(gòu)變異預(yù)測(cè)結(jié)果統(tǒng)計(jì)表
變異一直是遺傳學(xué)研究的對(duì)象,而各種類型的變異基礎(chǔ)是基因組變異。二代測(cè)序技術(shù)的出現(xiàn),使得基因檢測(cè)變得更加快速,準(zhǔn)確和規(guī)?;?,極大的加快了人類對(duì)基因組變異的研究。本研究即是在這樣的技術(shù)背景下開展,因而獲得了分布于云南黑山羊全基因組的大量變異信息,為這一品種的后續(xù)研究提供了重要的基因組變異基礎(chǔ)信息。
本研究所檢測(cè)的SNP、INDEL和SV顯示基因組不同程度的遺傳變異。云南黑山羊的SNP達(dá)到了7,615,774個(gè),INDEL 877,232,SV 40005,分別占山羊的參考基因組[11](大小為2,661,316,841 bp)的2.86%、0.33%和0.015%,這足以說(shuō)明點(diǎn)突變是基因組中最普遍存在的變異類型。然而也正由于SNP巨大的信息量,假如參考基因組注釋信息不完全公開,要進(jìn)行快速的功能基因定位難度較大,與之相比,具有投入成本以及檢測(cè)準(zhǔn)確性等方面優(yōu)勢(shì)的低頻變異,如INDEL及SV等,在遺傳學(xué)、生態(tài)學(xué)、癌癥學(xué)、發(fā)育學(xué)等領(lǐng)域有著廣闊的應(yīng)用前景。
田大成等2008年提出了“INDEL誘導(dǎo)自發(fā)突變機(jī)制假說(shuō)”[12],認(rèn)為基因組各區(qū)域的突變率各不相同,INDEL的數(shù)量和密度決定了自發(fā)突變的數(shù)量,INDEL的誘導(dǎo)可能是生物多樣性的最初變異來(lái)源,對(duì)INDEL的選擇在很大程度上實(shí)現(xiàn)了自然選擇,從而在很大程度上決定了自發(fā)突變率的高低。這一觀點(diǎn)在很大程度上說(shuō)明了INDEL在遺傳變異研究中的重要性,也提示在本研究中所檢測(cè)到的大量INDEL存在的合理性,為今后的研究重點(diǎn)指出了方向。另外,本研究注釋了位于外顯子區(qū)域的1 444個(gè)INDEL,其中移碼突變占68.4%,占比較高。移碼突變是DNA鏈中缺失一個(gè)或幾個(gè)堿基,或者是插入一個(gè)或幾個(gè)堿基,從而使突變位點(diǎn)以后的堿基序列發(fā)生變更,致使三聯(lián)密碼轉(zhuǎn)錄和翻譯時(shí)發(fā)生較多的遺傳變異,本研究中注釋到大比例的INDEL移碼突變,暗示我們?cè)颇虾谏窖蚓哂胸S富的遺傳變異分子基礎(chǔ),有必要重點(diǎn)、深入研究云南黑山基因組中存在的INDEL移碼突變,這對(duì)云南黑山羊新基因的發(fā)掘與利用具有重要意義。
SV通常是指長(zhǎng)度在幾Kb至幾Mb染色體變異,是基因組變異的主要來(lái)源,在某些區(qū)域上,甚至SV的形成速率要大于SNP的速率,并與疾病臨床表型密切關(guān)聯(lián)。本研究中注釋到的SV中,最多的是缺失結(jié)構(gòu)變異,占比為79.9%,而在已有的人類疾病研究表明,染色體缺失變異是最為常見的變異類型,它通常是伴隨染色體插入變異而大量產(chǎn)生[13],可能會(huì)使基因組的穩(wěn)定性受到破壞,影響基因間相互作用的關(guān)系,也可能會(huì)改變基因排列位置關(guān)系,從而導(dǎo)致基因所決定或控制的功能喪失或改變。這些研究結(jié)果說(shuō)明染色體缺失結(jié)構(gòu)變異對(duì)生物體遺傳效應(yīng)的改變作用極大。本研究中檢測(cè)到的大量缺失結(jié)構(gòu)變異又是與山羊的何種性狀、何種疾病相關(guān)呢?這為我們今后的研究工作提出了新的課題。
本研究闡明了云南黑山羊的分子特征,為后續(xù)功能基因的研究提供了強(qiáng)大的數(shù)據(jù)支撐,并為功能基因的發(fā)掘和定位提供了新的思路和線索。
[1]Rabbani B,Tekin M,Mahdieh N.The promise of whole-exome sequencing in medical genetics[J].Hum Genet,2014,59(1):5-15.
[2]Boycott KM,Vanstone MR,Bulman DE,MacKenzie AE.Rare-disease genetics in the era of nextgeneration sequencing:discovery to translation[J].Nat Rev Genet,2013,14(10):681-691.
[3]O'Roak BJ,Deriziotis P,Lee C,Vives L,et al.Exome sequencing in sporadic autism spectrum disorders identifies severe de novomutations[J].NatGenet,2011,43(6):585-589.
[4]LiH,Durbin R.Fastand accurate long-read alignmentwith Burrows-Wheeler transform[J].Bioinformatics, 2010,26(5):589-595.
[5]http://broadinstitute.github.io/picard/
[6]http://www.broadinstitute.org/gatk/
[7]LiH,Handsaker B,Wysoker A,etal.The Sequence Alignment/Map formatand SAMtools[J].Bioinformatics, 2009,25(16):2078-2079.
[8]Fan X,Abbott TE,Larson D,et al.BreakDancer:Identification of Genomic Structural Variation from Paired-End Read Mapping[EB/OL].Curr Protoc Bioinformatics,2014,doi:10.1002/0471250953.bi1506s45.
[9]Wang K,LiMY,Hakonarson H.ANNOVAR:functional annotation of genetic variants from high-throughput sequencing data[J].Nucleic Acids Res,2010,38(16):e164.
[10]http://goat.kiz.ac.cn/GGD/download9.htm
[11]Dong Y,Xie M,Jiang Y,et al.Sequencing and automated whole-genome opticalmapping of the genome of a domestic goat(Capra hircus)[J].Nat Biotechnol,2013,31(2):135-41.
[12]Tian DC,Wang Q,Zhang PF,etal.Single-nucleotidemutation rate increases close to insertions/deletions in eukaryotes[J].Nature,2008,(455):105-108.
[13]Urban M,King R,Hassani-Pak K,et al.Whole-genome analysis of Fusarium graminearum insertional mutants identifies virulence associated genes and unmasks untagged chromosomal deletions[J].BMC Genomics,2015,16(1):261.
Whole-genome Resequencing in Yunnan Black Goat
LAN Rong,ZHU Lan,SHAOQing-yong1,HONGQiong-hua*
(Yunnan Institute of Animal Science and Veterinary,Kunming 650224 China)
To evaluatemolecular characteristic of Yunnan black goatand to provide basicmolecular data for its functional gene assignment,20X whole-genome resequencing was done by Illumina Hiseq2000 in the DNA poolof representative individuals.Itwas found that7 615 774 single nucleotide polymorphism(SNPs),877 232 insertion-deletion(InDels)and 40 005 structure variation(SVs)were detected in the genome of Yunnan black goat.Compared with the reference genome,and by analysis with bioinformatics,SNPs located in exon area were 35 902,ofwhich 17 160 with missense mutation and 18 920 with synonymousmutation;small INDELs in such area is 1 330;SNPs in introns area were 1 695 420,small INDELswere 208 999;and SNPs in UTR3 were 16 106,and small INDELs were 580.This study indicates the molecular characteristic of Yunnan black goat and provides essential information for further research on functional genes and new thought and clue for mapping functional genes.
yunnan black goat;whole-genome sequencing;SNP;InDel;SV
S813.8
:A
:1003-6377(2016)05-0011-07
云南省科技計(jì)劃項(xiàng)目(2014BB014);國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)(CARS-39)
蘭蓉(1969-),女,云南人,副研究員,碩士,從事家畜分子遺傳育種研究。Email:rtlankitty@163.com
洪瓊花,研究員,Email:yxh7168@126.com
2016-04-20,
:2016-04-25