劉繼強,郝曉東,武麗娜,廖詩瑩,馮羿方,彌世榮,劉 燊,劉 建,張龍超
(1.北京康普森農業(yè)科技有限公司,北京 102200;2.江西正邦養(yǎng)殖有限公司,南昌 330096; 3.中國農業(yè)科學院北京畜牧獸醫(yī)研究所,北京 100193)
雖然我國畜禽品種資源非常豐富,但本土種質資源的開發(fā)利用率一直偏低。因此,開展遺傳資源基因組水平上的開發(fā)和利用是現代畜禽遺傳改良的重要方向之一。分子標記的相關研究持續(xù)發(fā)展,最初的研究主要集中于限制性片段長度多態(tài)性(restriction fragment length polymorphism,RFLP)和短串聯(lián)重復序列(short tandem repeat,STR)兩種遺傳標記。直到1996年,Lander[1]在科學雜志上正式提及到人類基因組中的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP),使得基因組學的研究發(fā)展到新的水平,SNP也被公認為是第三代遺傳標記。SNP分型技術歷經了從低通量分型的凝膠電泳到目前應用廣泛的高通量分型的發(fā)展過程。測序法是獲得SNP分型最直接的方法,Sanger測序是最早應用的SNP分型檢測技術,也是目前DNA測序的金標準。1991年Affymetrix合成了首張寡核苷酸的基因芯片,基因芯片成為SNP分型檢測的主要方法。到目前為止,SNP標記的分型檢測已經發(fā)展到高通量的第二代測序技術和第三代測序技術。隨著基因芯片、高通量測序和組學大數據技術的突飛猛進,SNP標記的分型檢測成本已大幅降低,從而帶動了畜禽育種由傳統(tǒng)的BLUP法向全基因組選擇育種發(fā)展的浪潮。全基因組SNP分型技術的出現是基因組選擇技術從理論研究到實際應用的關鍵。當前,基因組選擇技術為畜禽育種帶來了革命性的變化,不僅使育種效率大幅度提高,還能實現育種企業(yè)的早期選擇,提升企業(yè)的降本增效能力。所以該項技術已經成為國際畜禽育種領域研究和競爭的熱點[2]。
準確高效的SNP分型是畜禽基因組研究和育種應用的關鍵,SNP作為第三代分子標記,具有數量多、分布廣、遺傳穩(wěn)定等特點,在全基因組關聯(lián)分析、地方資源遺傳背景分析、基因組選擇信號等方向廣泛應用。全基因組SNP分型技術以SNP芯片技術和基于二代測序的SNP分型技術為主。本文概述了全基因組SNP分型技術的原理、分型技術在全基因組關聯(lián)分析、選擇信號和畜禽遺傳資源背景分析等基礎研究和畜禽遺傳育種中的應用,以期為畜禽基因組的研究和育種應用提供借鑒和參考。
基因芯片(gene chip),又稱為DNA 芯片、生物芯片或DNA微陣列等,是將大量的探針分子(一般是指DNA片段)有規(guī)律地排列和固化于固相支持物上,構成一個二維DNA探針陣列。根據研究方向不同,基因芯片可以分為SNP基因芯片、比較基因組雜交基因芯片、表達譜基因芯片、DNA甲基化基因芯片和染色質免疫共沉淀芯片等[3]。在畜禽育種領域,50K以上的中高密度SNP基因芯片應用較為廣泛,主要由Illumina公司的Infinium芯片技術平臺和Thermo Fisher 公司的Axiom芯片技術平臺定制生產。這兩大芯片平臺雖然在分型原理上相同,都是利用紅、綠熒光蛋白及激光發(fā)光基團來進行SNP的分型,但是在芯片的設計方面有很大的區(qū)別。Illumina芯片是光纖微珠技術,其優(yōu)點是探針長度50 bp,針對單個SNP有15~30次重復設計,微珠能100%質量控制,應用上靈活性較高;Thermo Fisher芯片是原位光刻合成技術,其優(yōu)點是基因芯片幾乎無批次效應,能夠兼容20 bp以上的SNP,且設計位點轉化率較高。
隨著我國企業(yè)自主育種意識的加強,近年國內出現了一批以我國育種需求為設計理念的國產基因芯片,大大降低了企業(yè)對于國外芯片產品的依賴。基因分型成本的降低也激發(fā)了育種企業(yè)應用高密度SNP芯片開展基因組育種的熱情。
隨著測序技術的迅猛發(fā)展和測序成本的超摩爾速度降低,基于二代測序的SNP分型技術在畜禽分子育種領域應用與日俱增。從測序原理角度,通過測序不僅可以直接獲得待測群體的真實變異數據、不受物種是否具有參考基因組的限制,而且能夠獲得覆蓋低、中、高密度甚至全基因組范圍內的所有變異信息,同時能夠通過提高測序的深度達到檢測稀有變異信息的目的。目前,基于二代測序技術開發(fā)的標記檢測技術主要包括:全基因組重測序(whole genome resequencing,WGS)、簡化基因組測序(reduced-representation genome sequencing,RRGS)、低深度重測序(low-depth resequencing)和靶向捕獲測序(target capture sequencing, TCS)等。
1.2.1 全基因組重測序 全基因組重測序(whole genome resequencing,WGS)是通過對基因組序列己知的物種進行不同個體的基因組測序,在個體或群體水平上進行差異化分析的測序方法。其基本流程是:首先通過基因組片段化、末端修復、連接測序接頭和擴增富集獲得全基因組的測序文庫;然后利用基因測序平臺進行全基因組文庫的掃描測序,經全基因組重測序的序列比對,可以得到大量的單核苷酸多態(tài)性位點(single nucleotide polymorphism, SNP)、插入缺失(insertion-deletion, InDel)、拷貝數變異(copy number variations, CNV)和結構變異(structure variation, SV)等變異信息,進一步通過生物信息學分析可以找到與疾病、經濟性狀及功能相關的遺傳標記。隨著測序成本的大幅度降低以及測序效率的數量級提升,再加上己知基因組序列的物種增多,全基因組重測序已經成為動植物遺傳差異研究、功能基因挖掘等最可靠且常用的方法。Tao等[4]利用WGS對云上黑山羊品種的兩個亞群(多胎組和單胎組)進行重測序,通過GWAS分析發(fā)現了12個包含具有最小P值的OSBPL8等候選基因。Banos等[5]利用重測序技術對兩種不同的埃塞俄比亞本土雞生態(tài)型進行了包括估計遺傳參數、GWAS分析、估算基因組育種值 (GEBV)、基因組預測等聯(lián)合分析,用于研究本土雞與重要健康和生產力特征相關的基因組結構,并探索進行跨生態(tài)型基因組選擇的可行性。
1.2.2 簡化基因組測序 簡化基因組測序(reduced-representation genome sequencing, RRGS)是利用限制性內切酶將基因組DNA進行片段化,對篩選到的特定酶切片段進行高通量測序以此獲得大量遺傳標記的測序策略。酶切位點可以出現在基因組的任意位置,由于同一物種的不同個體或者近緣物種間的酶切位點位置相對保守,共享相同的酶切位點,為簡化測序提供了先決條件[6]。目前應用較多的主要是GBS (genotyping by sequencing)、dd-RAD (double digest restriction associated sequencing, ddRAD-seq)[7]和RAD-seq (restriction associated DNA sequencing)[8],其主要區(qū)別在于在測序接頭連接后是否進行片段大小的篩選和PCR富集后是否進行片段選擇。與全基因組重測序相比,簡化基因組測序因只對基因組上很少的一部分區(qū)域進行測序,極大的簡化了基因組,因此,該技術不僅能夠降低測序成本,而且能降低測序數據量和縮短生物信息分析的周期。
GBS分型技術利用限制性內切酶對基因組DNA進行片段化,通過篩選一定比例的酶切片段進行高深度測序來獲得覆蓋全基因組的高密度遺傳標記。一方面GBS分型技術因文庫構建操作流程簡單,具有高效率、低成本等優(yōu)勢;另一方面,該技術所獲得的遺傳標記大多是待測群體中多態(tài)性較高的SNP位點,使得GBS分型技術比較適合在我國地方品種或高度純化的品系中進行分型并獲得大量的遺傳標記信息[9]。目前,簡化基因組測序分型技術已經廣泛應用于牛、豬、羊、雞、鴨等畜禽物種研究中[10],其中GBS分型技術已經被廣東溫氏公司應用于杜洛克豬群體的基因組選擇育種研究,并取得了較為顯著的遺傳進展[11]。
1.2.3 低深度重測序 全基因組低深度重測序是繼簡化基因組測序技術之后的新一代低成本標記檢測的方法,該技術首先對群體中所有的個體進行全基因組低深度重測序和變異檢測,然后根據變異位點間的連鎖不平衡對缺失基因型進行填充,最終獲得大規(guī)模樣本的全基因組水平的高密度遺傳標記[12]。由于測序深度與基因組變異信息的覆蓋度高度相關,提高測序深度不僅能夠降低假陽性的比例,而且在稀有變異檢測上也有著顯著的優(yōu)勢。但是在畜禽育種領域,高深度的重測序需要較高的測序成本,限制了該技術在企業(yè)育種上的應用。為了控制檢測成本,可以通過基因組文庫構建方法的改進來降低成本,如基于酶切法打斷建庫(包括非特異性外切酶和Tn5轉座酶等),還可以嘗試降低測序深度,開發(fā)低深度重測序方法,結合基因型填充流程實現全基因組水平的變異位點檢測。Nicod等[13]對1 887只遠緣雜交系的小鼠個體進行了0.15×的超低深度重測序后,通過GWAS定位到156個與92個性狀相關的獨立的遺傳標記,該項報道為畜禽基因組研究中實施大規(guī)模群體的低深度SNP分型技術提供了新的思路。Yang等[12]用低深度重測序(平均測序深度0.73×)方法,對2 885頭杜洛克公豬進行4個經濟性狀全基因組關聯(lián)分析,關聯(lián)到2個QTLs可能與乳頭數量和背部脂肪厚度特征有關。
1.2.4 靶向捕獲測序 靶向捕獲測序是利用二代測序技術對基因組上目標區(qū)域進行捕獲后測序,目前主要有兩種技術體系,一種是基于多重PCR技術,一種是基于探針雜交。這兩種技術體系均可以實現對基因組上的非高度重復區(qū)域進行定向捕獲,可以同時檢測各種變異類型,如SSR、SNP和InDel等?;诙嘀豍CR的捕獲測序流程是:第一輪PCR對目標位點進行擴增,第二輪PCR過程中引入測序接頭和Barcode,獲得可以上機測序的文庫,然后通過高通量測序儀進行測序。與常規(guī)PCR不同在于,多重PCR捕獲技術能夠在一管反應中實現上千位點的擴增。基于探針雜交的捕獲測序原理是基于目標區(qū)域序列與液相探針的互補結合,對目標位點捕獲并測序,其主要流程為:首先構建全基因組文庫,然后利用生物素修飾的探針進行捕獲,利用鏈霉親和素的磁珠對探針結合的分子進行吸附,最后對捕獲序列進行擴增富集得到測序文庫(圖1)。與全基因組測序相比,靶向捕獲測序縮小了測序的區(qū)域,降低了樣品的測序成本。這項檢測方法中,探針合成的費用是主要成本,檢測步驟較多,數據穩(wěn)定性依賴于測序深度以及對目標區(qū)域的捕獲效率等因素??紤]成本和數據質量等因素,靶向捕獲測序技術目前主要用在需求量不大、沒有商業(yè)化SNP基因芯片的物種上,集中于中低密度Panel的定制開發(fā)。Lippold等[14]利用多重液相捕獲方法研究了來自44個品種的59匹家養(yǎng)馬和1匹普氏野馬(Equusprzewalski)的整個線粒體基因組,并發(fā)現家馬中有473個可變位置,提供了一個很好解析的系統(tǒng)發(fā)育樹。Newman等[15]使用全外顯子組捕獲測序,研究了安格斯牛 EPAS1 氧降解域中 EPAS1 (HIF2a) 雙變體與高海拔肺動脈高壓(HAPH)的高度關聯(lián)。
A.基于多重PCR的靶向捕獲測序技術原理;B.基于探針雜交的靶向捕獲測序技術原理A. Principle of the multiplex PCR-based target capture sequencing technology; B. Principle of the probe hybridization-based target capture sequencing technology圖1 基于多重PCR和探針雜交的靶向捕獲測序技術原理圖Fig.1 Schematic diagram of target capture sequencing technology based on multiplex PCR and probe hybridization
全基因組關聯(lián)分析(genome wide association analysis, GWAS)是基于全基因組上大量遺傳標記的多態(tài)性,對每個多態(tài)性標記(即基因型)與表型性狀進行關聯(lián)分析,根據統(tǒng)計學閾值或P值篩選與目標性狀關聯(lián)的分子標記的分析策略,也是在畜禽研究中用來挖掘與經濟性狀相關的分子標記的最常用的方法[16]。目前,GWAS已成為畜禽重要性狀基因定位的常用方法,據Animal genome網站統(tǒng)計,截至 2022 年4月,QTLdb上已發(fā)布并公開了192 925個牛性狀相關的 QTLs、16 637個雞性狀相關的QTLs、35 384個豬性狀相關的QTLs、4 207個綿羊性狀相關的QTLs。
基因芯片作為第一個用于全基因組關聯(lián)分析研究的高通量技術一直被廣泛應用至今[17]。由于過低的SNP密度會影響性狀關聯(lián)標記的挖掘效率,所以目前進行畜禽重要性狀關鍵基因定位的基因芯片密度都在50K以上。在豬的體重性狀研究方面,Ji等[18]利用Illumina Procine SNP60K芯片在611個和79個與白杜洛克和二花臉豬雜交二代群體中篩選出與210 d體尺(體高、體長、胸圍、胸深、胸寬、管圍、腹圍和臀圍)和體重關聯(lián)的SNPs標記,并鑒定出7個新的QTLs和5個候選基因。在豬的骨性狀研究方面,邱恒清[19]利用Illumina Procine SNP60K芯片對300日齡巴馬香豬檢出的CNV進行GWAS,挖掘到18個位于2、5和7號染色體上并顯著影響骨骼長度的拷貝數變異區(qū)域。在雞體重研究方面,Lien等[20]使用60K Illumina SNPChip對844個個體的0、4、8、12和16周齡的體重、8周齡的小腿長度、16周齡的梳區(qū)大小及11周齡(初次免疫后第7和14天)的紅細胞水平進行GWAS分析,鑒定到與178個SNPs顯著關聯(lián)的47個QTLs和714個效應位點。在牛的胸高和臀高研究方面,Zhang等[21]使用Bovine SNP50 v2 BeadChip對中國荷斯坦牛的4個生長階段(6、12、18、24月齡)的胸圍和臀高進行GWAS分析發(fā)現了66個候選基因在16個信號通路和互作網絡中發(fā)揮重要的生物學功能。在山羊體型研究方面,Rahmatalla等[22]利用Goat SNP52K BeadChip對蘇丹4個山羊品種的14個體型性狀進行GWAS分析發(fā)現,位于2號染色體上的CNTNAP5基因與胸寬顯著關聯(lián),位于3號染色體上的SNP位點56482-scaffold89-467312 與體長顯著關聯(lián)。另外,Seroussi等[23]使用Illumina Ovine SNP50 BeadChip進行GWAS分析挖掘到影響綿羊絨細度的候選基因AKT1和ALX4。
全基因組重測序技術的發(fā)展、各物種基因組序列的測序完成,為從基因組水平上研究目標性狀提供了便利。張易[24]采用case-control設計,對F2群體308只鴨子羽色性狀進行全基因組關聯(lián)分析,結果顯示共關聯(lián)顯著水平相關的SNP位點8 423個,通過參考基因組序列比對和GenBank功能注釋,結合KEGG富集、GO分析和CNV關聯(lián),預測MITF基因是鴨白羽性狀顯著相關基因。簡化基因組測序相比于全基因組重測序,能降低測序成本和縮短數據分析所需的時間。談成[25]利用GBS測序對3 757頭杜洛克公豬進行測序分型和GWAS分析,鑒定到大量與一種或多種性狀相關聯(lián)的顯著性SNPs。靶向捕獲測序也是利用二代測序技術進行分析的最有效方法之一,相比全基因組測序法,該方法大幅縮小了目標區(qū)域的捕獲范圍,在保證檢測到目標區(qū)段所有變異的前提下,能夠降低樣品測序成本。喬賢[26]使用絨山羊66K靶向捕獲panel,對432個個體羊絨進行捕獲測序獲得目標SNP位點分型,對羊絨細度性狀進行了關聯(lián)分析。
基因組學技術的快速發(fā)展推動了新一代測序技術的迅猛發(fā)展,測序成本也隨之呈現超摩爾速度降低,這為進一步開發(fā)和應用動物高密度芯片的研究奠定了基礎。目前基于50K以上標記密度為主的基因芯片在牛、豬、綿羊、山羊、雞等物種上得到了廣泛應用,推動了全基因組關聯(lián)分析在畜禽遺傳育種上的快速發(fā)展[27]。隨著各物種基因組測序的完成和測序成本的降低,全基因組重測序在挖掘和經濟性狀相關的分子標記上的應用也越來越多,相對于基因芯片還可以挖掘到新的或者稀有的SNP標記。因重測序一般要求測序深度大于10×,對于較大基因組的物種來說測序費用較基因芯片高,所以如果有商業(yè)化的基因芯片建議直接應用;如果是較大的群體檢測,可以選取部分有代表性的個體進行重測序,利用重測序的數據進行高密度基因芯片的開發(fā),從而實現大群體的檢測和標記的挖掘。
選擇信號(selection signature)是指在生物群體進化過程中,由于人工選擇或自然選擇的作用使生物群體的表型特征發(fā)生變化并且在基因組上留下大量的痕跡,一般表現為基因型純合或者某些位點或DNA片段的多態(tài)性降低,這些信號通常與動物的選育方向以及馴化適應機制緊密相關。因此,對選擇信號進行檢測有助于挖掘與動物經濟性狀相關的基因,了解性狀形成的潛在的遺傳學基礎,對于畜禽遺傳改良具有重要意義[28]。
早期對于畜禽選擇信號的研究都是通過基因芯片實現的,如綿羊和山羊的基因組芯片分別于Kijas等[29]和Tosser-klopp[30]等的研究中問世。劉恩民[31]應用Illumina Goat SNP 50K Beadchip對我國16個山羊品種(其中2個野生山羊群體)進行了遺傳多樣性、群體結構和選擇信號分析,發(fā)現在1、8和14號染色體上的強受選擇區(qū)域存在一些未知功能的基因,包括PLGRKT、LOC106502473、LOC1021856、XXYLT1等。Jin等[32]利用Illumina Caprine 50K BeadChip對53只內蒙古絨山羊、遼寧絨山羊和黃淮山羊進行基因分型,確定了一些積極選擇的SNPs。Edea等[33]利用Porcine SNP70K BeadChip對488頭杜洛克豬和155頭杜洛克×韓國本土豬 (DKNP) 進行基因分型鑒定到了與生長/身高、胴體和肉質相關的定向選擇基因。李景[34]使用高密度SNP 基因芯片對來自5個藏區(qū)和28個低原地區(qū)群體的共593頭豬進行基因分型,同時整合了來自Dryad 網站的6個中西方豬種共85頭豬的60K基因芯片分型數據,發(fā)現5個藏豬群體在進化和地理位置上有明顯的分化。Zhang等[35]使用雞60K SNP芯片在兩個經過了11代腹部脂肪含量選擇的品系中進行多種選擇信號分析,確定了多個受選擇的基因區(qū)域。
1989—1993年對路堤狀態(tài)進行了專門的野外觀測。測量了土的溫度、水平位移、溢洪道側墻的水平位移以及溢洪道側墻的土壓力。在深度為2.5 m處各項指標最大值為:溫度30 ℃,膨脹壓力-0.30 MPa,距墻15 cm處水平位移0.6 mm。在冬季壩頂深度為0.2 m處最大水平移動距離為4.5 mm(即溢洪道側墻與土之間的裂縫張開的近似寬度)。
全基因組重測序技術由于其高通量的輸出基因組序列的特點,速度和準確性均較高,已經廣泛應用到選擇信號的研究中。陳建興等[36]對4個驢品種60個樣本進行全基因組重測序和群體遺傳分化系數(Fst)、核苷酸多樣性比值(πratio)分析找到了39個落入選擇信號區(qū)域的候選基因,主要在免疫、生殖、細胞作用等通路中發(fā)揮重要的作用,說明山東小毛驢在免疫力和生殖能力等性狀上經歷了人工選擇。Li等[37]對5個地方豬種(包括白眉豬、金華豬、榮昌豬、梅山豬、藏豬)與西方5個家豬的測序數據進行選擇信號分析,發(fā)現中西方人工選擇方向的不同導致地方豬與西方豬存在較大的遺傳差異,中國地方豬的遺傳變異較高。金川牦牛作為獨立于其他牦牛的一個分支,其馴化程度和選擇強度均大于其他牦牛群體,Lan等[38]基于重測序對四川省金川縣牦牛進行全基因組分析發(fā)現,與其他牦牛品種相比,金川牦牛有339個基因(包括與節(jié)律、神經系統(tǒng)、突觸發(fā)育等相關基因)受到顯著的正向選擇。Guo等[39]分析了不同表型山羊的選擇特征,基因掃描發(fā)現藏山羊有4個起源,品種間遺傳分化較高,毛色上的選擇區(qū)域受體較多。Zhang等[40]對藏雞和低海拔雞研究發(fā)現,藏雞中與適應高海拔生活相關的差異表達基因參與了心肺系統(tǒng)發(fā)育、炎癥和免疫反應以及輻射的反應。
簡化基因組測序,由于被測序的是基因組的一部分,在相同的測序通量和測序深度的情況下能夠測得更多的個體,這也為群體遺傳學中大量樣本的基因分型提供了可能[41]。Liu等[42]使用RAD-seq 從6個中國本土兔品種和2個進口兔品種中獲得了1 006 496個SNPs 標記,對具有對比毛色的兩個群體進行選擇信號分析,發(fā)現了以四川白兔和新西蘭兔為參考群體,閩西南黑兔和萬仔兔為目標群體的受選擇特征基因。馬士龍等[43]對麥洼牦牛3個保種群粉嘴群、全黑群和弗洛群進行GBS簡化基因組測序檢測到了126 122個SNPs標記,利用Fst和π法對3個保種群進行選擇信號分析,發(fā)現有104個受選擇基因廣泛參與生殖機能、免疫系統(tǒng)、胚胎發(fā)育等條目以及生殖激素、內/外分泌、信號傳遞等通路,其中部分基因提示麥洼牦牛的繁殖、肉質、毛色性狀以及應激反應得到了人工選擇。夏樹立等[44]利用簡化基因組測序技術分析和比較天津猴雞群體與其他雞種群體的遺傳差異,并對進化過程中受到選擇的基因進行基因功能注釋。結果顯示,在天津猴雞群體中檢測出265 869個SNPs標記,受選擇基因主要參與氨基酸生物合成、細胞內信號轉導以及神經系統(tǒng)發(fā)育等通路或生物學過程;檢測到6個與種質特性相關的受選擇基因,它們與神經系統(tǒng)發(fā)育、激素調節(jié)和抗熱應激等生理功能緊密相關,研究結果揭示了天津猴雞的裸頸性狀形成機制和抗熱應激特性,為天津猴雞的保護和種質特性評價提供重要理論依據。
早期對畜禽選擇信號的研究是基于基因芯片,標記密度一般在5萬個以上。隨著測序技術的發(fā)展、測序成本逐步降低,基于基因組重測序、簡化基因組測序等技術的選擇信號分析同樣可以快速準確地篩選出受選擇區(qū)域和定位經濟性狀相關的候選基因。
遺傳背景分析可以揭示生物群體的遺傳結構與進化的歷史動態(tài)。群體遺傳多樣性是指群體內所有個體的遺傳變異信息的總和,自然選擇和群體間的基因交流均能影響群體遺傳的多樣性。近年來,全基因組基因分型技術迅猛發(fā)展,基因檢測效率大幅提高,為探討生物群體的遺傳結構、追蹤不同群體經歷的選擇提供了可能。
中高密度的基因芯片能夠從全基因組范圍內對地方畜禽遺傳資源進行遺傳結構和長純合片段檢測等分析,為地方遺傳資源保護和開發(fā)提供參考。胡亮等[45]利用600K基因芯片對20個藏系綿羊品種(西藏、青海、甘肅、云南和四川地區(qū))進行藏系綿羊間的遺傳關系和遺傳多樣性分析發(fā)現,西藏、云南地區(qū)藏系綿羊的近交系數明顯高于青海、甘肅和四川地區(qū)的藏系綿羊。戴麗荷等[46]利用Illumina CAUPorcine 50K SNP芯片檢測54頭淳安花豬的單核苷酸多態(tài)性(SNP),分析群體遺傳多樣性和群體結構,將群體劃分為6個家系,為保種和選配提供了依據。屠云潔等[47]為揭示廣西麻雞2個群體里當雞和靈山香雞之間的遺傳距離和親緣關系,利用“京芯一號”芯片對2個群體的親緣關系進行遺傳分析,結果顯示廣西麻雞2個群體個體間近交程度較低,個體間親緣關系相對較遠,為培育市場需求的優(yōu)質麻雞配套系提供參考和幫助。
基于測序的分型技術在畜禽遺傳資源背景分析中的應用也越來越多。在家雞的遺傳資源鑒定中,陳彬龍[48]利用WGS技術對來自不同地理位置的78只家雞進行群體結構分析發(fā)現,6個具有地理代表性的藏雞群體至少存在3個明顯的分支,表明藏雞可能與其他家雞一樣是多起源的。Gebreselase[49]利用WGS對埃塞俄比亞和中國山羊群體進行群體結構和系統(tǒng)發(fā)育分析,將山羊品種按照其起源地分成了4個分支。張俸偉[50]對21頭隆林牛、18頭南丹牛和17頭潿洲牛進行全基因組重測序、群體結構分析、核苷酸多樣性分析、LD衰減分析、ROH計算、線粒體基因組分析,得到廣西的這3個黃牛品種全基因組遺傳變異非常豐富,主要為中國瘤牛起源,具有抵抗皰疹病毒基因、分子黏附相關基因(NCR3、FAT4)和6個參與補體激活的基因,具有獨特的瘤牛I1a亞單倍型組;對Y染色體雄性特異區(qū)SNP分析發(fā)現中國瘤牛Y3a亞單倍型組占絕對優(yōu)勢。相比于全基因組重測序,簡化基因組測序只對很小一部分的基因組進行測序,能降低測序成本和數據分析所需的時間。盛中華等[51]利用簡化基因組測序技術構建了上海白豬(上系)分子保種數據庫;通過基因組結構特性分析,將上海白豬(上系)、西方豬種和太湖豬種分成3類,證實了上海白豬(上系)經過長期的選育,已形成獨特的遺傳結構,具有獨特的基因組結構和群體結構。蘭蓉等[52]采用簡化基因組測序(GBS)技術對來自云南省種羊推廣中心的37只黃色波爾山羊公羊進行測序,分析了群體的遺傳結構并將群體劃分為11個家系,為波爾山羊黃色群體在云南黃山羊新品種培育中的合理利用提供了科學依據,也為評估山羊個體近交水平、防止近交衰退、優(yōu)化選種選配方案提供了有力的技術手段。
基因組選擇(genomic selection, GS)是畜禽經濟性狀選育改良的重要方法,利用覆蓋全基因組高密度遺傳標記信息計算個體基因組估計育種值(genomic estimated breeding value, GEBV)[51]。與常規(guī)基于系譜及表型信息評估育種值(estimated breeding value, EBV)方法相比,GEBV通常能獲得更高的估計準確性[53-55]。由于計算個體的GEBV可以不依賴系譜和表型信息,為實現早期選育提供了可能?;蚪M選擇的方法不僅可以提高遺傳進展、縮短世代間隔、降低育種成本[56],而且對于低遺傳力性狀和難以測量的性狀也具有明顯的優(yōu)勢。
進行全基因組選擇時,首先需要組建參考群,參考群必須有準確的表型記錄和基因型分型數據。特別需要說明的是,在SSGBLUP模型中有準確系譜和表型的個體也被視為參考群[65];因此,SSGBLUP方法是利用參考群的表型數據、系譜數據及基因分型數據計算群體的方差組分,并優(yōu)化運算模型因子構成,完成參考群運算模型構建;然后通過候選群的基因分型數據和系譜數據對有基因型和無基因型數據的個體進行GEBV估計,按照綜合指數權重計算綜合育種值并根據排名進行選留,如圖2所示。
圖2 基因組選擇流程圖Fig.2 Flowchart of genome selection
從2001年基因組選擇的概念首次提出至今,各個國家在畜禽育種方面已經陸續(xù)使用。美國和加拿大在2009年率先向全球發(fā)布奶牛基因組選擇的成果。2009—2015年基因組選擇使美國奶牛育種的世代間隔大幅度縮短,公牛父親世代間隔從原來的7年左右下降到2.5年,而公牛母親從4年降到了2.5年。某些中高遺傳力性狀(乳蛋白、產奶量、乳脂量等)的年遺傳進展提升50%~100%,而低遺傳力性狀(體細胞評分等)提升的更加顯著,年遺傳進展提升了3~4倍[66]。截至2017年,美國對奶牛利用基因組芯片的檢測量達到200萬頭。英國豬育種PIC公司從2010年起每年檢測量已達10萬頭。目前,全球主要的發(fā)達國家都在奶牛、肉牛、豬、羊、雞等物種上全面開展了基因組選擇育種,使選育進展大幅度提升,選育成本進一步降低[67]。在我國也已經初步建立了豬、雞、鴨、肉牛、奶牛等物種的基因組選擇育種技術體系,相繼成立豬基因組選擇北京聯(lián)盟、肉雞基因組選擇育種聯(lián)盟、北京聯(lián)育肉牛育種科技有限公司等組織。奶牛方面,我國于2008 年開始啟動奶?;蚪M育種(GS)研究,2012 年正式將GS 技術應用于荷斯坦奶牛的遺傳評估中,主要評估了產奶量、體細胞計數、體型評分等14個性狀,其中產奶性狀基因組預測準確性較常規(guī)BLUP方法提升了0.13~0.30,基因組預測準確性為0.59~0.76。荷斯坦奶?;蚪M選擇技術體系的建立,實現了大規(guī)模的產業(yè)化應用,同時使我國奶牛育種技術躋身于國際先進行列。
畜禽育種產品的開發(fā)需要大量遺傳變異信息。全基因組重測序技術可以檢測出個體或群體全基因組范圍的變異信息,從而可以用于全基因組選擇育種、目標性狀的全基因組關聯(lián)分析、品種間差異分析等分子標記和產品的開發(fā)。
Liu等[68]對8個中國地方雞品種128個個體進行全基因組重測序和SNP 位點挖掘,結合GWAS分析,設計出一款包含21.41 K全新位點的55K雞育種基因芯片。以江西農業(yè)大學研究成果為基礎集成了國內十余所高校及科研單位研究成果開發(fā)的“中芯一號”基因芯片,囊括了多肋、肉色、肉質和疾病等重要性狀因果基因位點,該產品不僅適用于我國地方豬種,同時適用于商業(yè)化豬種的基因組檢測。Qi等[69]對427個太平洋牡蠣樣本(采集地點包括中國、日本、韓國、加拿大)進行全基因組重測序,設計了一款200K的牡蠣基因組育種芯片,從而方便對牡蠣(動物物種中基因組DNA變異水平最高物種之一)進行現有全基因組關聯(lián)分析、精細連鎖圖譜和群體遺傳學研究。Yáez等[70]對來自3個群體的326個羅非魚樣本進行全基因組重測序,對分析得到的SNP位點進行篩選(包括基因型和位點質量、孟德爾錯誤率、非特異位點)設計了一款50K高質量SNP芯片,這些入選的SNPs位點在3個群體中表現出良好的多樣性,94%~99%的位點符合哈迪-溫博格平衡,76%~90%的SNPs位點MAF(minor allele frequency)大于0.05,這款芯片有助于分析羅非魚經濟相關性狀、基因組選擇加強育種計劃以及羅非魚養(yǎng)殖群體的遺傳研究。喬賢[26]對我國著名地方品種內蒙古絨山羊和遼寧絨山羊73個樣本進行全基因組重測序,結合國內外其他山羊品種基因組數據庫,采用疊瓦式探針設計方案,設計了一款66K位點的山羊捕獲測序產品,用于全基因組關聯(lián)分析研究和絨毛品質的選育。
在品種鑒定產品開發(fā)方面,劉繼強[71]利用全基因組重測序技術開發(fā)了灘羊基因身份證檢測產品,該項目挑選性狀差異顯著的灘羊、烏珠穆沁羊、呼倫貝爾羊、蒙古羊、寧夏蒙古羊,進行全基因組重測序分析,構建二者單堿基多態(tài)性SNP和結構變異SV等遺傳變異庫,采用機器學習的方法,通過對訓練集的學習,得到優(yōu)化的位點組合模型,通過盲測及模型優(yōu)化得到最終檢測位點集。范歡歡等[72]對249只梅花鹿、206只馬鹿、一代雜交鹿(F1)23只、二代雜交鹿(F2)20只和三代雜交鹿(F3)20只共518個個體進行全基因組重測序,以染色體級別梅花鹿基因組為參考序列,對所有個體進行變異檢測,結合檢測個體的表型信息將梅花鹿和馬鹿參考進行群體劃分,計算兩個參考群體SNP的遺傳分化指數(genetic differentiation index,Fst),根據定制算法和嚴格的位點篩選原則,最終選取1 000個梅花鹿特異性SNPs位點用于1K梅花鹿基因芯片的開發(fā)(鹿芯壹號),該芯片可以準確對待測樣本(即梅花鹿純度)進行鑒別(表1)。
在豬和雞的GS應用過程中,系譜的準確性往往對結果有較大的影響。但是根據現有的研究及實際應用的經驗,國內大多數企業(yè)的系譜均有10%~20%的錯誤[73]。這些錯誤一般是由引種時系譜混亂、現場種畜耳標脫落、人工授精操作不規(guī)范、人為記錄失誤等原因造成的。近年來隨著一些企業(yè)GS的開展,企業(yè)在進行基因分型樣本的采集時,個體ID的對應關系及記錄也出現了一定概率的錯誤,而且這種錯誤極難通過育種企業(yè)內部篩查進行修正。因此,基于SNP數據的系譜糾偏對于育種企業(yè)來說非常有意義?;诿系聽栠z傳定律,即每個等位基因位點均以孟德爾遺傳方式由親本傳遞給后代[74]。在疑似親本和后代個體所構成的待檢測親子對間,對每一個雙等位基因的遺傳位點進行孟德爾錯誤判定,理論上少量合適的標記就能得到準確率為99.99%以上的判斷[75]。郭立平[76]從SNP 標記芯片(BovineSNP50 Genotyping Bead Chip)中篩選了50個多態(tài)性高的SNPs標記位點作為西門塔爾牛親子鑒定的SNP標記組合,用SNP 標記組合對938頭西門塔爾牛進行親子推斷,80%的置信度水平385頭找到最似父親,其中268頭置信度超過95%,117頭置信度介于95%~80%。張哲等[77]提出了一種基于全基因組高密度SNP標記的親子鑒定新方法,命名為EasyPC,并利用191頭杜洛克豬的全基因組SNP數據和2 180頭中國荷斯坦牛的全基因組SNP芯片數據分別使用EasyPC和Cervus軟件進行了對比,結果顯示豬的系譜錯誤率為6%,牛的系譜錯誤率為20%,但EasyPC運行效率較Cervus更高。因此該方法可以快速、準確地判別系譜的正確性,同時還能夠矯正錯誤的系譜。
表1 畜禽分子育種產品開發(fā)案例
基因組檢測技術不斷發(fā)展,全基因組范圍內的SNP分型技術也日漸豐富。不同的分型技術適用于不同的應用場景,科研和育種工作者可以根據不同檢測技術的優(yōu)勢及自身的研究需求靈活選擇。
基因芯片具有檢測周期短、數據穩(wěn)定和分析流程容易等特點,在畜禽基因組研究和育種上廣泛應用。根據應用方向的不同,基因芯片可以劃分為以科學研究為主的基因芯片和以產業(yè)應用為主的基因芯片??茖W研究用基因芯片的遺傳標記數量占物種全基因組的比例較大,主要用于如QTL、全基因組關聯(lián)分析、基因定位和群體進化分析等基礎研究中。產業(yè)應用的基因芯片遺傳標記數量占物種全基因組的比例較小,主要用于育種公司大量樣本的遺傳育種值和重要性狀分布的評估[78]。全基因組重測序技術能夠捕捉到個體全基因組上所有的變異信息,但對于基因組較大的物種基因分型成本高,目前主要應用于科學研究中,在產業(yè)化育種上應用較少(表2)。低深度重測序技術能夠通過降低測序深度來降低個體的檢測成本,但需要大量樣本的檢測和高計算量為基礎適用于大型育種群體研究。靶向捕獲測序技術針對特定的目標區(qū)域設計探針,進行目標區(qū)域捕獲和測序,能夠提升目標區(qū)域的測序深度,相對于重測序具有較高的測序效率,未來在畜禽基因組研究和基因組育種中具有一定的潛力。
在SNP分型技術選擇上,如果研究的對象有相應的芯片產品,由于芯片檢測簡單快速、數據更易存儲和處理,建議優(yōu)先使用基因芯片產品。如果沒有相應的芯片產品,則可以選擇基于測序技術的相關分型策略,但測序后數據處理、存儲以及對分析人員的要求相對較高。當然,若待檢測的群體很大,為了兼顧兩種技術的優(yōu)勢,也可以選取群體中有代表性的少量個體進行測序分型,根據測序的結果獲得具有一定代表性的標記集合,進一步定制基因芯片或者靶向捕獲測序芯片完成剩余個體的檢測和基因分型??傊趯嶋H育種應用中,育種工作者應該根據具體的情況綜合考慮,包括檢測周期、數據情況和成本投入等因素,選擇最適合的全基因組SNP分型檢測技術。
表2 不同全基因組SNP分型技術在畜禽基因組研究中的比較
隨著基因芯片和重測序成本的不斷降低,畜禽基因組研究中SNP分型技術的選擇更加多元化。一方面利用基因芯片進行SNP分型具有分型準確性高、分析周期快的優(yōu)勢,在科學研究和育種中仍具有較大的應用空間;另一方面以測序為基礎的SNP分析技術能夠在全基因組范圍捕獲到更高密度的變異信息,為基礎研究提供了強大數據支持。但是基于二代測序的SNP分型技術在產業(yè)育種應用上仍然存在分型準確性和時效性問題,針對分型準確性問題可以通過優(yōu)化測序策略和建立嚴格的數據質控參數提高;針對時效性問題,可以借助于優(yōu)化文庫構建流程、采用測序效率更高的測序儀器和建立標準化、智能化的數據分析流程來解決。隨著芯片和測序技術的發(fā)展,更低成本、更高準確性的SNP分型策略勢必能夠加快畜禽基因組研究和遺傳育種的發(fā)展,為我國的畜禽種業(yè)振興提供技術支撐。