王洪程,梅楚剛,昝林森,2,成 功,2,李安寧,2,王洪寶,2
(1 西北農(nóng)林科技大學(xué) 動(dòng)物科技學(xué)院,陜西 楊凌 712100;2 國(guó)家肉牛改良中心,陜西 楊凌 712100)
牛全基因組測(cè)序研究進(jìn)展
王洪程1,梅楚剛1,昝林森1,2,成 功1,2,李安寧1,2,王洪寶1,2
(1 西北農(nóng)林科技大學(xué) 動(dòng)物科技學(xué)院,陜西 楊凌 712100;2 國(guó)家肉牛改良中心,陜西 楊凌 712100)
牛作為反芻動(dòng)物的代表,具有獨(dú)特的生物學(xué)特征和重要的哺乳動(dòng)物進(jìn)化地位,是人類生產(chǎn)活動(dòng)的重要工具和肉、奶等物質(zhì)需求的主要來(lái)源。近10年來(lái),牛全基因組研究取得了很多重要的進(jìn)展,為解釋牛的生物學(xué)特征和加快品種的分子育種進(jìn)程發(fā)揮了重要作用,文章重點(diǎn)介紹了牛全基因組測(cè)序的相關(guān)研究成果,以及測(cè)序工作完成后的研究進(jìn)展,討論了牛全基因組測(cè)序工作的機(jī)遇、研究重點(diǎn),以及今后面臨的挑戰(zhàn)。
牛;全基因組;測(cè)序
反芻動(dòng)物具有獨(dú)特的消化能力,可將不適于人類食用的粗纖維植物轉(zhuǎn)化為肉和奶。據(jù)統(tǒng)計(jì),全世界現(xiàn)存大約有36億頭家牛、水牛、綿羊和山羊等反芻家畜,為全球66億人提供主要的蛋白質(zhì)營(yíng)養(yǎng)來(lái)源,全世界大約有3/4的農(nóng)業(yè)用地生產(chǎn)的飼草被用于反芻動(dòng)物的飼養(yǎng)。牛作為反芻動(dòng)物的代表是最早被人類馴化利用的動(dòng)物之一,在公元前8 000-10 000 年前,從農(nóng)業(yè)生活方式開(kāi)始,人類就開(kāi)始了牛的馴化,除了能獲取大量的食物和皮毛,而且還將牛用于耕作、運(yùn)輸?shù)然顒?dòng)。如今,全世界大約有15億頭牛,根據(jù)不同的經(jīng)濟(jì)、社會(huì)和宗教需要,人類共選育出800多個(gè)牛品種(種群),成為重要的世界遺傳資源[1-4]。我國(guó)幅員遼闊,地形復(fù)雜,幾千年的農(nóng)耕文明歷史過(guò)程中,人們?cè)诓煌淖匀画h(huán)境中育成了不同的地方黃牛品種。
1977年,Sanger等[5]發(fā)明了雙脫氧鏈終止法(Chain Termination Method),這標(biāo)志著基因組學(xué)研究的開(kāi)端,此后科學(xué)家們相繼完成了人類[6]、水稻[7]等物種的基因組測(cè)序。經(jīng)過(guò)持續(xù)的技術(shù)改良和革新,各類測(cè)序手段和平臺(tái)不斷提升基因組測(cè)序的速度和精確性。2005年,Roche 公司發(fā)明的454測(cè)序平臺(tái)標(biāo)志著基因組測(cè)序進(jìn)入了新時(shí)代,熊貓[8]成為第一次利用新一代測(cè)序技術(shù)完成基因組從頭測(cè)序的大型動(dòng)物。牛作為反芻動(dòng)物的代表,具有獨(dú)特的生物學(xué)特性,其進(jìn)化地位異于人和嚙齒動(dòng)物[9],這是其成為最早進(jìn)行測(cè)序的幾個(gè)哺乳動(dòng)物之一的重要原因。本文將介紹牛全基因組測(cè)序的發(fā)展歷程,概述牛全基因組測(cè)序的后續(xù)研究,討論牛全基因組測(cè)序工作的研究重點(diǎn),以及今后面臨的挑戰(zhàn)。
denovo來(lái)源于拉丁文,意為“重新、開(kāi)始”。全基因組denovo測(cè)序,顧名思義為從頭測(cè)序,是直接對(duì)某個(gè)物種進(jìn)行測(cè)序,利用生物信息學(xué)將短片段序列拼接和組裝成一個(gè)完整的基因組序列,其全過(guò)程不參考本物種現(xiàn)有序列資料或者其他物種的基因組。全基因組從頭測(cè)序?qū)ρ芯课锓N的基因組結(jié)構(gòu)和功能基因信息,闡明和解釋物種的進(jìn)化及其生物學(xué)特性具有重要的意義[10]。
2003年12月,由美國(guó)、加拿大、澳大利亞和新西蘭等國(guó)家參與的“牛基因組測(cè)序工程”正式啟動(dòng),經(jīng)過(guò)6年的努力,于2009年完成了世界上第一頭牛的全基因組序列[11]?!芭;蚪M測(cè)序工程”選擇的品種是海福特牛(Hereford,普通家牛,Bostaurus),測(cè)序采用的是BAC克隆測(cè)序和全基因組鳥(niǎo)槍法(Whole-genome shotgun,WGS)測(cè)序策略,構(gòu)建WGS插入片段文庫(kù)的DNA樣品來(lái)自一頭海福特母牛(編號(hào)L1 Dominette 01449),而B(niǎo)AC文庫(kù)的DNA樣品則為該牛的父親(編號(hào)L1 Domino 99375),序列組裝方法與之前完成的小鼠[12]和海膽[13]的序列組裝方法類似。測(cè)序深度為7×,BAC末端序列用在了基因組scaffold組裝中,總序列長(zhǎng)度為2.98 Gb,其中contig的N50長(zhǎng)度(N50長(zhǎng)度,將contig或scaffold從大到小排序,并對(duì)其長(zhǎng)度進(jìn)行累加,當(dāng)累加長(zhǎng)度達(dá)到基因組序列長(zhǎng)度一半時(shí),最后一個(gè)contig或scaffold長(zhǎng)度即為N50長(zhǎng)度,是評(píng)估基因組組裝質(zhì)量的重要標(biāo)志,該數(shù)值越大,表明基因組組裝質(zhì)量越好)是82.96 kb,scaffold的N50長(zhǎng)度為2.59 Mb,104萬(wàn)個(gè)表達(dá)序列標(biāo)簽(EST)中有95%包含在組裝的序列中,估算基因組大小為2.87 Gb。研究小組對(duì)組裝結(jié)果不斷更新優(yōu)化,并先后在NCBI數(shù)據(jù)庫(kù)公布了6個(gè)版本的基因組序列,最新的為Btau 4.6.1,包括29條常染色體及2條性染色體。研究發(fā)現(xiàn),?;蚪M至少包含22 000個(gè)編碼蛋白基因,從中鑒定出的496個(gè)microRNA有135個(gè)為新發(fā)現(xiàn)。?;蚪M的測(cè)序成功揭示出了反芻動(dòng)物很多的生物學(xué)特性,例如研究者發(fā)現(xiàn),人類的5個(gè)與脂肪酸、甲戊二羥酸、解毒、嘧啶代謝途徑相關(guān)的基因在?;蚪M中缺失或者變異,在?;蚪M中有10種C型溶菌酶基因,且EST文庫(kù)內(nèi)6/7的C型溶菌酶基因都在瘤胃和腸中表達(dá)。
2009年,由美國(guó)馬里蘭大學(xué)牽頭組織的?;蚪M研究團(tuán)隊(duì)也發(fā)表了關(guān)于牛基因組測(cè)序的研究成果[14]。該團(tuán)隊(duì)利用“?;蚪M測(cè)序工程”測(cè)序數(shù)據(jù),通過(guò)改進(jìn)組裝方法,拼接出了新的?;蚪M序列。該團(tuán)隊(duì)優(yōu)化組裝的最新?;蚪M版本為UMD_3.1.1,其總序列長(zhǎng)度為2.67 Gb,contig的N50長(zhǎng)度為96.95 kb,scaffold的N50長(zhǎng)度為6.38 Mb,估算基因組大小為2.86 Gb。UMD版本覆蓋率、完整性和注釋效果等都比Btau版本更優(yōu),并且其單核苷酸差異性錯(cuò)誤率更低。由于DNA來(lái)源問(wèn)題,當(dāng)時(shí)公布的Btau 4.0版本的基因組序列不包含Y染色體,而UMD基因組通過(guò)鑒定篩選出了更多Y染色體的contig,并完成了Y染色體序列的較為完整的組裝。該研究團(tuán)隊(duì)還構(gòu)建了新的人-牛基因組線性圖譜,并在該圖譜中發(fā)現(xiàn)了268個(gè)同源線性區(qū)域。
家牛分為普通家牛(Bostaurus)和瘤牛(Bosindicus),瘤牛頸肩隆起的峰瘤是其區(qū)別于普通家牛最明顯的特征[15],瘤牛主要分布于印度、巴西、美國(guó)南部、澳洲北部和中國(guó)的南部,具有耐熱和抗蟲(chóng)性。2012年,巴西熱那亞生物公司聯(lián)合巴西和加拿大高校[16]利用ABI SOLiD測(cè)序平臺(tái)對(duì)一頭巴西內(nèi)洛爾公牛(Nellore)進(jìn)行了52×的測(cè)序研究,建立了0.11~2 kb片段長(zhǎng)度不同的6個(gè)文庫(kù),得到4.0×109個(gè)reads,比對(duì)Btau 4.0和UMD 2.0基因組后分別得到319 222、372 804個(gè)contigs,相應(yīng)覆蓋參考基因組的93%和99.1%,比較普通家牛和瘤?;蚪M的編碼蛋白基因發(fā)現(xiàn),瘤牛缺失存在于普通家牛中的抵抗素(beta-defensin)及另一假想蛋白,研究表明,如果親緣物種基因組存在的話,利用DNA小片段建庫(kù)(0.11~2 kb)對(duì)某一物種測(cè)序,也能得到非常好的組裝效果,這對(duì)今后的測(cè)序工作有重要的借鑒意義。
牦牛(yak,Bosgrunniens)是青藏高原等高海拔地區(qū)特有的物種,具有很多適應(yīng)高原生活的生理結(jié)構(gòu)和習(xí)性,大約有1 400萬(wàn)頭牦牛為生活在這些地區(qū)的居民提供著基本的生活資源,被稱作“高原之舟”。2012年,蘭州大學(xué)聯(lián)合華大基因公司等科研單位對(duì)牦牛進(jìn)行測(cè)序并成功組裝基因組[17]??蒲腥藛T從一頭母牦牛上采集DNA樣品,并采用全基因組鳥(niǎo)槍法策略,利用Illumina HiSeq 2000測(cè)序平臺(tái)進(jìn)行雙末端測(cè)序,構(gòu)建出牦牛全基因組序列圖譜,測(cè)序深度為65×。牦?;蚪M的contig和scaffold N50 長(zhǎng)度分別為20.4 kb和1.4 Mb,基因組大小約為2.66 Gb,該項(xiàng)目組還利用Sanger測(cè)序技術(shù)對(duì)牦牛6個(gè)線粒體基因進(jìn)行了測(cè)序,并對(duì)5個(gè)組織樣品進(jìn)行了轉(zhuǎn)錄組測(cè)序?;谵D(zhuǎn)錄組測(cè)序以及同源性、全基因組預(yù)測(cè),共檢測(cè)到22 282個(gè)編碼蛋白基因、 220萬(wàn)個(gè)雜合單核苷酸變異。同時(shí),研究人員還利用人基因組為外圍序列,構(gòu)建出了207個(gè)牦牛祖先共線性同源區(qū)域,大約覆蓋整個(gè)基因組的94%。研究人員通過(guò)分析牦牛、普通牛、人和狗等4個(gè)物種的13 810 個(gè)同源基因家族發(fā)現(xiàn),牦牛和普通牛共有362個(gè)基因家族,還發(fā)現(xiàn)100個(gè)與嗅覺(jué)、防御、免疫有關(guān)的基因家族為牦牛所特有。通過(guò)檢測(cè)正向選擇的基因發(fā)現(xiàn),3個(gè)正向選擇基因包含的2個(gè)調(diào)控子和1個(gè)目標(biāo)基因,均與血管生成、擴(kuò)張和能量代謝有重要關(guān)系,5個(gè)調(diào)控牦牛營(yíng)養(yǎng)通路的關(guān)鍵基因也受到正向選擇,有助于牦牛適應(yīng)高原以及飼草缺乏的惡劣環(huán)境。牦?;蚪M的破譯不僅揭示了牦牛對(duì)高原適應(yīng)性的遺傳機(jī)理,也促進(jìn)了人類對(duì)高原反應(yīng)及缺氧相關(guān)疾病的認(rèn)識(shí)、預(yù)防和治療。研究結(jié)果對(duì)加快奶用、肉用牦牛育種進(jìn)程,提高當(dāng)?shù)厝罕娊?jīng)濟(jì)收入有重要意義。
最近,孟加拉Lal Teer畜牧科技公司與華大基因公司聯(lián)合宣布水牛(Bosbubalus)基因組圖譜繪制完成[18],其基因組大小約為2.77 Gb,略小于人類基因組,共有21 550個(gè)編碼基因。該項(xiàng)科研成果將有利于從基因組水平和遺傳學(xué)角度認(rèn)識(shí)水牛的物種起源、馴化過(guò)程和生物學(xué)特性,推進(jìn)水牛品種的選育工作。
隨著測(cè)序技術(shù)和生物信息學(xué)的飛速發(fā)展,普通家牛(Bostaurus)、瘤牛(Bosindicus)、牦牛(Bosgrunniens)、水牛(Bosbubalus)的基因組序列均被組裝成功,但各個(gè)基因組序列還在不斷完善過(guò)程中,例如普通牛基因組就由不同研究團(tuán)隊(duì)組裝得到兩個(gè)版本,基因組序列的覆蓋度也不斷得到提高。一個(gè)物種基因組計(jì)劃的完成,意味著這一物種學(xué)科和產(chǎn)業(yè)發(fā)展的新開(kāi)端,不同種屬?;蚪M的破譯對(duì)于人們進(jìn)一步研究牛不同的生理結(jié)構(gòu)、性狀特點(diǎn)和生物學(xué)特性奠定了基礎(chǔ),有利于根據(jù)不同的需求和特點(diǎn),加快牛品種選育,使其更好地服務(wù)于人類。
全基因組重測(cè)序是指對(duì)已有參考基因組的物種進(jìn)行不同個(gè)體的基因組測(cè)序,通過(guò)生物信息學(xué)的比對(duì)方法,可以檢測(cè)到大量與性狀關(guān)聯(lián)的遺傳變異信息(包括單核苷酸多態(tài)性位點(diǎn)、插入缺失位點(diǎn)、結(jié)構(gòu)變異位點(diǎn)和拷貝數(shù)變異等)。通過(guò)變異信息注釋、系統(tǒng)進(jìn)化和群體遺傳結(jié)構(gòu)分析等方法,能夠揭示物種的進(jìn)化歷史、環(huán)境適應(yīng)性、自然選擇等特征,有利于縮短分子育種周期。
隨著牛全基因組序列的公布,牛全基因組重測(cè)序研究取得了較大進(jìn)展。2009年,?;蚪M圖譜研究團(tuán)隊(duì)利用6個(gè)品種牛的序列文庫(kù)與海福特牛參考基因組比對(duì)得到的探針,檢測(cè)到19個(gè)不同品種497頭牛的37 470個(gè)SNPs[19];發(fā)現(xiàn)普通家牛品種的平均最小等位基因頻率(Minor allele frequencies,MAFs)比瘤牛高。研究發(fā)現(xiàn),基于個(gè)體間的系譜和共享基因位點(diǎn)來(lái)比較個(gè)體祖先時(shí),即使在系譜未知的情況下也能準(zhǔn)確預(yù)測(cè)出祖先群體大小,這是很好的保護(hù)瀕危滅絕牛群體的方法。研究者還分析了牛品種間的親緣關(guān)系和連鎖不平衡(LD)模型,發(fā)現(xiàn)非洲的N’Dama牛和Sheko牛均起源于歐洲牛,非洲的N’Dama牛的歷史群體規(guī)模很小,說(shuō)明該群體沒(méi)有受到強(qiáng)烈的馴化瓶頸。普通家牛的歷史群體要比瘤牛大得多,都經(jīng)歷了由遠(yuǎn)古時(shí)代的大群體到當(dāng)代群體迅速下降的一個(gè)過(guò)程。
2009年,德國(guó)一研究小組利用新一代測(cè)序平臺(tái)Illumina Genome Analyzer Ⅱ,對(duì)一頭弗萊維赫公牛(Fleckvieh)進(jìn)行了深度為7.4×的重測(cè)序,得到24 G的測(cè)序數(shù)據(jù),檢測(cè)到了2.44×106個(gè)SNPs(其中82%是未知SNPs)以及1.15×105個(gè)indels,為評(píng)估測(cè)序數(shù)據(jù)的準(zhǔn)確性,該研究利用50 K基因芯片對(duì)同一頭牛進(jìn)行了基因型比較,發(fā)現(xiàn)純合子和雜合子的檢測(cè)率分別為74%和30%,比較隨機(jī)選擇的196個(gè)基因型得到的假陽(yáng)性率(False positive rate)為1.1%,利用48頭弗萊維赫牛和48頭瑞士褐牛(Braunvieh)檢測(cè)這196個(gè)SNPs的等位基因頻率發(fā)現(xiàn),95%的SNPs呈多態(tài)性,平均最小等位基因頻率(Minor allele frequency)是24.5%,83%的SNPs的最小等位基因頻率大于5%,可用于關(guān)聯(lián)分析研究[20]。這是第一次利用二代測(cè)序技術(shù)開(kāi)展?;蚪M測(cè)序研究,利用中低深度的重測(cè)序技術(shù)得到200多萬(wàn)的新SNPs,進(jìn)一步豐富了現(xiàn)在的SNPs數(shù)據(jù)庫(kù),為構(gòu)建高密SNP芯片,開(kāi)展全基因組關(guān)聯(lián)研究提供了有價(jià)值的資源。
2011年,日本科學(xué)家對(duì)一頭日本當(dāng)?shù)嘏?Kuchinoshima-Ushi)進(jìn)行了重測(cè)序研究,評(píng)估了這個(gè)牛品種的SNPs等遺傳特性,研究人員利用Illumina GAⅡ測(cè)序平臺(tái)共得到64.2 G的測(cè)序數(shù)據(jù),測(cè)序深度達(dá)到15.8×,其中86%的reads比對(duì)到參考基因組序列上(Btau 4.0),可以覆蓋93%的基因組,共檢測(cè)到630萬(wàn)個(gè)SNPs(其中550萬(wàn)個(gè)為新發(fā)現(xiàn))以及約69萬(wàn)個(gè)插入缺失信息,除已經(jīng)在?;蚪M注釋過(guò)的SNPs外,該研究在蛋白編碼區(qū)還發(fā)現(xiàn)了20 432個(gè)SNPs,包括分布在4 643個(gè)基因中的11 713 個(gè)非同義SNPs,該研究通過(guò)基因聚類發(fā)現(xiàn),含有非同義SNP數(shù)量最多的100個(gè)基因大多與蛋白錨定、活性催化、代謝通路等有關(guān)[21]。而已有相關(guān)報(bào)道證明,在Kuchinoshima-Ushi牛發(fā)現(xiàn)的SNP與其他品種牛的表型性狀有關(guān)聯(lián)[22-25]。另外,該研究通過(guò)對(duì)10個(gè)基因序列進(jìn)行系統(tǒng)發(fā)育分析,發(fā)現(xiàn)Kuchinoshima-Ushi牛明顯不同于歐洲家養(yǎng)牛品種。這為進(jìn)一步開(kāi)展Kuchinoshima-Ushi牛群體遺傳研究和含有SNP位點(diǎn)基因功能的研究提供了框架,有助于探究重要經(jīng)濟(jì)性狀表型變異的分子機(jī)制,改善牛的內(nèi)在缺陷。
Stothard等[26]采用SOLiD system測(cè)序平臺(tái)對(duì)一頭黑安格斯牛和一頭美國(guó)荷斯坦牛進(jìn)行了深度為22×和19×的全基因組重測(cè)序,通過(guò)比對(duì)分別得到320萬(wàn)和370萬(wàn)個(gè)SNPs,其中81%和75%為新發(fā)現(xiàn),24%為共有。另外,該研究檢測(cè)出790個(gè)拷貝數(shù)變異(Copy number variations, CNVs),注釋發(fā)現(xiàn),黑安格斯?;蚪M中含有更多的與運(yùn)動(dòng)相關(guān)的CNVs,荷斯坦奶牛中含有更多與哺乳、激活酶等繁殖功能相關(guān)的CNVs,注釋結(jié)果與動(dòng)物各自的優(yōu)秀性狀保持一致。一些CNVs與牛肉和乳制品(如產(chǎn)奶、健康或者肉品質(zhì))相關(guān)基因重疊,且荷斯坦牛的CNVs更豐富,推測(cè)可能與選擇強(qiáng)度有關(guān)。
CNVs是某個(gè)物種2個(gè)個(gè)體基因組序列中50 bp以上片段的增加或者減少[27],盡管SNPs在全基因組水平中很常見(jiàn),但是CNVs對(duì)序列長(zhǎng)度的影響比較大,對(duì)改變基因結(jié)構(gòu)、數(shù)量及基因調(diào)控和暴露隱性等位基因等有著更重要的潛在影響[28]。Bickhart等[29]用Illumina GA Ⅱx第二代測(cè)序技術(shù)檢測(cè)了5頭普通家牛(3頭安格斯、1頭荷斯坦牛、1頭海福特牛)和1頭瘤牛(Nelore)全基因組CNVs的差異,在比對(duì)序列中共檢測(cè)到了1 265個(gè)CNV區(qū)域,其中有476個(gè)(38%)是首次發(fā)現(xiàn),研究者檢測(cè)了變異最多的25個(gè)基因,發(fā)現(xiàn)瘤牛個(gè)體中13個(gè)基因拷貝數(shù)較低,而如CATHL4、ULBP17等抗病基因則在瘤牛中高度復(fù)制,而在普通家牛中與脂質(zhì)運(yùn)輸和代謝相關(guān)的基因(APOL3和FABP2)高度復(fù)制,這些結(jié)果表明CNVs與牛品種的適應(yīng)性、健康、生產(chǎn)性狀之間的差異有關(guān)聯(lián),這與Stothard等[26]的研究結(jié)果一致。Bickhart等[29]還構(gòu)建了第一張牛個(gè)體CNV、重復(fù)片段圖譜和估算全基因組CNVs,為將來(lái)在全基因組高重復(fù)片段中進(jìn)一步研究CNV奠定了基礎(chǔ)。
通過(guò)全基因組群體水平重測(cè)序可以尋找到大部分的有效突變。盡管近幾年二代測(cè)序費(fèi)用大幅度下降,但是大規(guī)模重測(cè)序費(fèi)用依然難以承受。人類千人基因組計(jì)劃對(duì)179個(gè)樣本進(jìn)行了平均深度為3.6×的測(cè)序,也得到了絕大多數(shù)的突變信息[30]?;诖?,Jansen等[31]選擇可代表群體69%的遺傳多樣性的43頭弗萊維赫牛進(jìn)行重測(cè)序研究,測(cè)序平臺(tái)為Illumina GA Ⅱx和HiSeq2000,測(cè)序深度從4.17×到24.98×,平均深度為7.46×,通過(guò)與參考基因組(UMD3.1)進(jìn)行比對(duì),共檢測(cè)到約1.7×107個(gè)遺傳突變,其中67.95%為新發(fā)現(xiàn),新發(fā)現(xiàn)的突變中有90%為等位基因的SNPs,10%為indels,該研究發(fā)現(xiàn)在18 444個(gè)基因的編碼區(qū)存在91 733個(gè)突變,其中46%為非同義突變,在這些非同義突變中有575個(gè)突變預(yù)測(cè)為提前終止密碼子,該研究表明,基于高密度基因芯片分型的測(cè)序的敏感度和特異性分別為92%和81%,如果填補(bǔ)數(shù)據(jù)過(guò)程的話,兩者能達(dá)到97%和93%,基因型填補(bǔ)在動(dòng)物低覆蓋度的重測(cè)序中能夠顯著提高基因型質(zhì)量,也為群體重測(cè)序提供了新的策略。
韓牛(Hanwoo)是韓國(guó)的牛品種,具有普通家牛和瘤牛血統(tǒng),由中國(guó)北方遷徙到朝鮮半島,有5 000 多年的使役歷史[32-33]。韓國(guó)研究團(tuán)隊(duì)用ABI SOLiD平臺(tái)對(duì)一頭韓牛公牛進(jìn)行了深度為45.6×的測(cè)序,通過(guò)與Btau 4.0基因組比對(duì)得到4.7×106個(gè)SNPs,其中58%為新發(fā)現(xiàn),4.0×105個(gè)indels中87%為新發(fā)現(xiàn),通過(guò)?;蛐酒?BovineSNP50)分型結(jié)果評(píng)估發(fā)現(xiàn),SNPs檢測(cè)結(jié)果一致性達(dá)96.2%[9]。該研究同時(shí)對(duì)文獻(xiàn)[26]中黑安格斯和荷斯坦牛的測(cè)序數(shù)據(jù)進(jìn)行了比較分析,利用NCBI數(shù)據(jù)庫(kù)中的20 955個(gè)基因注釋,在韓牛8 360個(gè)基因中得到25 000個(gè)非同義SNPs、剪貼變異體、編碼indels(non-synonymous SNPs,splice-site variants,and coding indels,NS/SS/Is),多于黑安格斯牛和荷斯坦牛,說(shuō)明韓牛遺傳距離要遠(yuǎn)于后兩者[34]。在研究的3個(gè)品種中,10 906個(gè)基因有NS/SS/Is,737個(gè)基因有10個(gè)以上的NS/SS/Is,研究表明,含有多個(gè)NS/SS/Is的基因是為了適應(yīng)環(huán)境而進(jìn)化成的多拷貝基因,或者是由于錯(cuò)誤的參考基因組而形成的。檢測(cè)純合子區(qū)域(Regions of homozygosity,ROH)發(fā)現(xiàn),韓牛ROHs的長(zhǎng)度和數(shù)量都不及黑安格斯牛和荷斯坦牛,推測(cè)是由于黑安格斯牛和荷斯坦牛經(jīng)歷了更長(zhǎng)的選育時(shí)間而致。在韓牛、黑安格斯牛和荷斯坦牛的ROHs中分別檢測(cè)到753、1 320和 2 482 個(gè)基因,通過(guò)聚類發(fā)現(xiàn),在ROHs中的基因與牛的生物特性和外貌(抗病性、肉質(zhì)、黑白毛色)有相關(guān)性[35-38], ROHs的利用為開(kāi)展牛遺傳改良工作提供了一個(gè)很好的全基因組選擇策略。
近10年來(lái),第二代高通量測(cè)序技術(shù)發(fā)展迅猛,國(guó)際上主要的幾家測(cè)序公司454 LifeScience、Illumina、Life Technologies、Pacific Biosciences在不斷地進(jìn)行技術(shù)變革,使檢測(cè)成本不斷降低,而測(cè)序通量和讀長(zhǎng)都得到明顯改善。如Illumina公司發(fā)布的HiSeq X Ten測(cè)序系統(tǒng),能夠以千元成本測(cè)序完整的人類基因組,每天最多可以對(duì)6×1011bp進(jìn)行測(cè)序,產(chǎn)量增加的同時(shí),成本直線下降;而Pacific Biosciences公司的PacBio測(cè)序讀長(zhǎng)已經(jīng)達(dá)到8.5 kb,極大地方便了后續(xù)的序列拼接、組裝以及注釋等生物信息學(xué)分析。此外,采用單分子讀取技術(shù)的第三代測(cè)序技術(shù)已經(jīng)發(fā)展起來(lái)[39],增加了測(cè)序讀長(zhǎng)和通量,并且無(wú)DNA擴(kuò)增環(huán)節(jié),極大地降低了測(cè)序成本,在全基因組測(cè)序[40]和重測(cè)序[41]方面都得到了很好的應(yīng)用。新一代測(cè)序技術(shù)以其高通量、低成本、高效率的特點(diǎn),已然成為科學(xué)家探究各類生物基因組奧秘的重要工具,也必將為牛全基因組測(cè)序研究帶來(lái)更廣闊的發(fā)展空間和新的機(jī)遇。
牛是最具代表性的反芻動(dòng)物之一,其遺傳資源非常豐富,世界上有800多個(gè)牛品種,僅中國(guó)就擁有52個(gè)地方黃牛品種,牛全基因組測(cè)序工作未來(lái)將主要集中在以下幾點(diǎn):(1)在從頭測(cè)序方面,家牛、牦牛和水牛基因組序列已經(jīng)破譯,而野牛、大額牛等特殊牛品種的全基因組信息還屬未知,其基因組信息的解析對(duì)全面研究牛的物種起源進(jìn)化和探究相關(guān)物種特異性具有重要作用。(2)在全基因組重測(cè)序方面,研究人員已經(jīng)開(kāi)展了大量工作,在群體水平上研究了牛的進(jìn)化歷史、環(huán)境適應(yīng)性和生物特異性等,并且在不同群體發(fā)現(xiàn)了高密度的SNPs、indels和SVs(Structural variations)等變異信息,但對(duì)很多牛品種核心種質(zhì)的重測(cè)序工作還未開(kāi)展。世界不同地區(qū)分布的很多地方牛品種保存了牛物種的很多重要遺傳多樣性,開(kāi)展核心種質(zhì)資源重測(cè)序?qū)ε_z傳資源保護(hù)及特殊種質(zhì)資源的利用具有重要科學(xué)意義。(3)開(kāi)展全基因關(guān)聯(lián)分析(Genome-wide association study,GWAS),隨著測(cè)序技術(shù)的發(fā)展,基于全基因組測(cè)序的GWAS研究得到普及和廣泛應(yīng)用,可以篩選、鑒定與牛重要經(jīng)濟(jì)性狀的相關(guān)基因和位點(diǎn),開(kāi)展全基因組選擇,縮短分子育種的試驗(yàn)周期。
高通量測(cè)序技術(shù)為基因組學(xué)研究提供了一個(gè)高效的新平臺(tái)和巨大的發(fā)展機(jī)遇,先進(jìn)的測(cè)序技術(shù)不斷產(chǎn)生海量的測(cè)序數(shù)據(jù),如何充分挖掘隱藏在原始數(shù)據(jù)中的生物學(xué)信息[42],并據(jù)此解釋許多復(fù)雜的生物學(xué)現(xiàn)象和生理機(jī)制,以及應(yīng)用已知基因組信息促進(jìn)牛品種保護(hù)和選育工作,是今后全基因組研究的難點(diǎn)和最重要的挑戰(zhàn)。
[1] FAO.FAO statistical yearbooks world food and agriculture [M/OL].Rome:Food and Agriculture Organization of the United Nations (2013) [2015-05-05].http://issuu.com/faooftheun/docs/syb2013issuu.
[2] Willham R L.From husbandry to science:A highly significant facet of our livestock heritage [J].Journal of Animal Science,1986,62:1742-1758.
[3] Diamond J.Guns,germs and steel:The fates of human societies [M].New York:WW Norton & Company,1997.
[4] Mason I L.A mason’s world dictionary of livestock breeds,ty-pes and varieties [M].UK:Oxford Univ Pr,2002.
[5] Sanger F,Nicklen S,Coulson A R.DNA sequencing with chain-terminating inhibitors [J].Proceedings of the National Academy of Sciences,1977,74(12):5463-5467.
[6] Venter J C,Adams M D,Myers E W,et al.The sequence of the human genome [J].Science,2001,291(5507):1304-1351.
[7] Goff S A,Ricke D,Lan T H,et al.A draft sequence of the rice genome (OryzasativaL.ssp.japonica) [J].Science,2002,296(5565):92-100.
[8] Li R,Fan W,Tian G,et al.The sequence and de novo assembly of the giant panda genome [J].Nature,2009,463(7279):311-317.
[9] Lee K T,Chung W H,Lee S Y,et al.Whole-genome resequencing of Hanwoo (Korean cattle) and insight into regions of homozygosity [J].BMC Genomics,2013,14(1):519.
[10] Yue G D,Gao Q,Luo L H,et al.The application of high-throughput sequencing technology in plant and animal research [J].Scientia Sinica Vitae,2012,42:107-124.
[11] Elsik C G,Tellam R L,Worley K C.The genome sequence of taurine cattle:A window to ruminant biology and evolution [J].Science,2009,324(5926):522-528.
[12] Gibbs R A,Weinstock G M,Metzker M L,et al.Genome sequence of the Brown Norway rat yields insights into mammalian evolution [J].Nature,2004,428(6982):493-521.
[13] Sodergren E,Weinstock G M,Davidson E H,et al.The genome of the sea urchin strongylocentrotus purpuratus [J].Science,2006,314(5801):941-952.
[14] Zimin A V,DelcherA L,Florea L,et al.A whole-genome assembly of the domestic cow,Bostaurus[J].Genome Biol,2009,10(4):R42.
[15] Bradley D G,MacHugh D E,Cunningham P,et al.Mitochondrial diversity and the origins of African and European cattle [J].Proceedings of the National Academy of Sciences,1996,93(10):5131-5135.
[16] Canavez F,Luche D D,Stothard P,et al.Genome sequence and assembly ofBosindicus[J].Journal of Heredity,2012:103(3):342-348.
[17] Qiu Q,Zhang G,Ma T,et al.The yak genome and adaptation to life at high altitude [J].Nature Genetics,2012,44(8):946-949.
[18] BGI. 孟加拉Lal Teer畜牧科技公司聯(lián)合華大基因成功繪制水牛基因組圖譜助力增強(qiáng)肉類及奶制品質(zhì)量及安全 [EB/OL].(2014-01-24) [2015-05-05] http://www.genomics.cn/news/show_news?nid=99905.
[19] Bovine HapMap Consortium.Genome-wide survey of SNP va-riation uncovers the genetic structure of cattle breeds [J].Science,2009,324(5926):528-532.
[20] Eck S H,Benet-Pagès A,Flisikowski K,et al.Whole genome sequencing of a singleBostaurusanimal for single nucleotide polymorphism discovery [J].Genome Biol,2009,10(8):R82.
[21] Kawahara-Miki R,Tsuda K,Shiwa Y,et al.Whole-genome resequencing shows numerous genes with nonsynonymous SNPs in the Japanese native cattle Kuchinoshima-Ushi [J].BMC Genomics,2011,12(1):103.
[22] Hoashi S,Hinenoya T,Tanaka A,et al.Association between fatty acidcompositions and genotypes of FABP4 and LXR-alpha in Japanese blackcattle [J].BMC Genet,2008,9:84.
[23] Jiang Z,Michal J J,Tobey D J,et al.Comparative understanding of UTS2 and UTS2R genes for their involvement in type 2 diabetes mellitus [J].Int J Biol Sci,2008,4:96-102.
[24] Gill J L,Bishop S C,McCorquodale C,et al.Association of selected SNP with carcass and taste panel assessed meat quality traitsin a commercial population of Aberdeen Angus-sired beef cattle [J].Genet Sel Evol,2009,41:36.
[25] Pant S,Schenkel F,Leyva-Baca I,et al.Identification of single nucleotide polymorphisms in bovine CARD15 and their associations with health and production traits in Canadian Holsteins [J].BMC Genomics,2007,8:421.
[26] Stothard P,Choi J W,Basu U,et al.Whole genome resequencing of black Angus and Holstein cattle for SNP and CNV discovery [J].BMC Genomics,2011,12(1):559.
[27] Mills R E,Walter K,Stewart C,et al.Mapping copy number variation by population-scale genome sequencing [J].Nature,2011,470(7332):59-65.
[28] Zhang F,Gu W,Hurles M E,et al.Copy number variation in human health,disease,and evolution [J].Annual Review of Genomics and Human Genetics,2009,10:451-481.
[29] Bickhart D M,Hou Y,Schroeder S G,et al.Copy number variation of individual cattle genomes using next-generation sequencing [J].Genome Research,2012,22(4):778-790.
[30] 1 000 Genomes Project Consortium.A map of human genome variation from population-scale sequencing [J].Nature,2010,467(7319):1061-1073.
[31] Jansen S,Aigner B,Pausch H,et al.Assessment of the genomic variation in a cattle population by re-sequencing of key animals at low to medium coverage [J].BMC Genomics,2013,14(1):446.
[32] Lee C,Pollak E J.Genetic antagonism between body weight and milk production in beef cattle [J].Journal of Animal Science,2002,80(2):316-321.
[33] Han S W.The breed of cattle [M].1st ed.Seoul:Sunjin publishing,1996:148-160.
[34] Decker J E,Pires J C,Conant G C,et al.Resolving the evolution of extant and extinct ruminants with high-throughput phylogenomics [J].Proceedings of the National Academy of Sciences,2009,106(44):18644-18649.
[35] Marquez B,Ameye G,Vallet C M,et al.Characterization of Abcc4 gene amplification in stepwise-selected mouse J774 macrophages resistant to the topoisomerase Ⅱ inhibitor ciprofloxacin [J].PloS One,2011,6(12):e28368.
[36] Huq M D M,Tsai N P,Lin Y P,et al.Vitamin B6conjugation to nuclear corepressor RIP140 and its role in gene regulation [J].Nature Chemical Biology,2007,3(3):161-165.
[37] Brandes R,Arad R,Bar-Tana J.Inducers of adipose conversion activate transcription promoted by a peroxisome proliferators response element in 3T3-L1 cells [J].Biochemical Pharmacology,1995,50(11):1949-1951.
[38] Kühn C,Weikard R.An investigation into the genetic background of coat colour dilution in a Charolais×German Holstein F2resource population [J].Animal Genetics,2007,38(2):109-113.
[39] 張得芳,馬秋月,尹佟明,等.第三代測(cè)序技術(shù)及其應(yīng)用 [J].中國(guó)生物工程雜志,2013,33(5):125-131.
Zhang D F,Ma Q Y,Yin T M,et al.The third generation sequencing technology and its application [J].China Biotechnology,2013,33(5):125-131.(in Chinese)
[40] Perry G H,Reeves D,Melsted P,et al.A genome sequence resource for the aye-aye (Daubentoniamadagascariensis),a nocturnal lemur from Madagascar [J].Genome Biology and Evolution,2012,4(2):126-135.
[41] Harris T D,Buzby P R,Babcock H,et al.Single-molecule DNA sequencing of a viral genome [J].Science,2008,320(5872):106-109.
[42] 張全芳,李 軍,范仲學(xué),等.高通量測(cè)序技術(shù)在農(nóng)業(yè)研究中的應(yīng)用 [J].山東農(nóng)業(yè)科學(xué),2013,45(1):137-140.
Zhang Q F,Li J,Fan Z X,et al.Application of high-throughput sequencing technology in agricultural research [J].Shandong Agricultural Sciences,2013,45(1):137-140.(in Chinese)
Progress on whole genome sequencing of bovine
WANG Hong-cheng1,MEI Chu-gang1,ZAN Lin-sen1,2,CHENG Gong1,2,LI An-ning1,2,WANG Hong-bao1,2
(1CollegeofAnimalScienceandTechnology,NorthwestA&FUniversity,Yangling,Shaanxi712100,China;2NationalBeefCattleImprovementCenterinChina,Yangling,Shaanxi712100,China)
As a representative of ruminants,cattle have unique biological characteristics and important evolutionary position compared to other mammals,acting as an important tool and sources of meat and milk to human.During last decade,great progresses have been made in cattle genome research,which plays an important role in understanding the biology and promoting the molecular breeding process.This article introduces the cattle genome sequencing and researches after sequencing,and discussed the opportunities,emphasis and challenges of future bovine genome sequencing research.
bovine;whole genome;sequencing
時(shí)間:2015-10-13 08:46
10.13207/j.cnki.jnwafu.2015.11.003
2014-03-26
“十二五”國(guó)家“863”計(jì)劃項(xiàng)目(2013AA102505,2011AA100307-02);國(guó)家自然科學(xué)基金項(xiàng)目(31272411);“十二五”國(guó)家科技支撐計(jì)劃項(xiàng)目(2011BAD28B04-03);“十二五”國(guó)家轉(zhuǎn)基因育種重大專項(xiàng)(2013ZX08007-002);國(guó)家肉牛牦牛產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)(CARS-38)
王洪程(1985-),男,山東臨沂人,在讀博士,主要從事基因組學(xué)研究。E-mail:besthongcheng@163.com
昝林森(1963-),男,陜西扶風(fēng)人,教授,博士,主要從事動(dòng)物遺傳育種與繁殖研究。E-mail:zanlinsen@163.com
S823;Q78
A
1671-9387(2015)11-0017-07
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/61.1390.S.20151013.0846.006.html