白 露,王夢杰,馬小春,何政肖,譚曉冬,劉 杰,趙桂蘋,文 杰,劉冉冉
(中國農(nóng)業(yè)科學院北京畜牧獸醫(yī)研究所 畜禽營養(yǎng)與飼養(yǎng)全國重點實驗室 農(nóng)業(yè)農(nóng)村部動物遺傳育種與繁殖(家禽)重點實驗室,北京 100193)
我國是世界上地方雞種資源最豐富的國家之一,《國家畜禽遺傳資源品種名錄(2021版)》顯示,我國現(xiàn)有地方雞品種115個。地方雞種大多具有外貌特征多樣、適應(yīng)性強、肉質(zhì)風味獨特、蛋品質(zhì)優(yōu)良等特點[1-3],符合我國傳統(tǒng)消費習慣,為培育地方特色肉雞和蛋雞新品種提供了豐富的育種素材。然而,大量品種的精準鑒定和保種方法仍然有較大的提升空間。利用特征性分子標記對地方品種和商業(yè)化品系進行精準標識,對推動畜禽種質(zhì)資源保護和商業(yè)化利用具有重要意義。
單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點作為第三代遺傳標記與其他分子標記相比具有數(shù)量多、分布廣泛等優(yōu)越性[4],已有技術(shù)可對其進行快速和規(guī)?;Y查,進而實現(xiàn)基因分型[5]。隨著二代基因組測序成本降低,全基因組重測序成為種質(zhì)資源研究[6]、群體進化[7]、基因組育種[8]等研究的常規(guī)技術(shù)方法,可以挖掘到大量目標性狀相關(guān)的SNP標記[9-10]。然而,針對家禽具有地方品種和專門化品系眾多的特點,需要篩選數(shù)量較少的SNP集合進行品種/品系區(qū)分,建立簡便快速的鑒定方法,輔助種質(zhì)資源保護和鑒定工作。
目前,中低密度SNP標記集合的檢測方法主要包括SNP固相芯片、基于靶向SNP標記集合檢測的液相芯片、基于質(zhì)譜原理的SNP標記集合檢測方法等[11-14]。中國農(nóng)業(yè)科學院北京畜牧獸醫(yī)研究所已研發(fā)55K SNP芯片“京芯一號”[15],中國農(nóng)業(yè)大學研發(fā)50K SNP芯片 “鳳芯一號”[16],江蘇省家禽科學研究所研發(fā)23K液相芯片“酉芯一號”,山東省農(nóng)業(yè)科學院家禽研究所研發(fā)11K液相芯片“魯芯一號”等,主要服務(wù)于經(jīng)濟性狀功能基因和分子標記挖掘[17-19]、基因組育種工作[20-21]和種質(zhì)資源鑒定[22]。
群體分化指數(shù)(fixation index,Fst)是檢測群體受到自然或人工選擇基因組變異的常用方法,是群體間分化程度的衡量指標,可篩選受到選擇壓力影響的SNP標記[23-26]。連鎖不平衡(linkage disequilibrium,LD)分析常應(yīng)用于獨立SNP提取[27-29],快速型白羽肉雞父系LD衰變距離390 kb,京星黃雞專門化品系LD衰變距離129 kb,不同品系LD差異較大,可通過各品種/品系的LD分析對SNP標記進行縮減[16,30]。
綜上,本研究通過群體分化指數(shù)分析和連鎖不平衡分析獲得少量SNP標記,可以將目標品種與其它代表性品種區(qū)分,從而建立目標品種特征性SNP標記集合,為挖掘雞品種/品系特征性SNP標記集合提供快速有效的方案。
試驗數(shù)據(jù)選取來源于中國農(nóng)業(yè)科學院北京畜牧獸醫(yī)研究所的北京油雞群體(BJY AC (n=59))、BJY E (n=40)、BJY F (n=40))、京星黃雞選育系D2系(JXH.D2 (n=49))、京星黃雞選育系H系(JXH.H (n=59))、茶花雞(CH (n=30))、大圍山微型雞(DWS (n=24))、武定雞(WD (n=21)、藏雞(ZJ (n=10))、大骨雞(DG (n=7))和瓢雞(P(n=21))重測序數(shù)據(jù);來源于佛山高明區(qū)新廣農(nóng)牧有限公司的快速型白羽肉雞(B (n=60))重測序數(shù)據(jù);來源于山東農(nóng)業(yè)科學院家禽研究所的7個山東地方雞品種A、B、BRG、BRM、D、L和S (SD A (n=10)、SD B (n=10)、SD BRG (n=10)、SD BRM (n=10)、SD D (n=20)、SD L (n=80)、SD S (n=20))重測序數(shù)據(jù)。試驗數(shù)據(jù)共涉及19個品種/品系共580個個體。
基于10x以上的全基因組重測數(shù)據(jù),利用PLINK(V 1.90)[31]軟件對SNP進行標準的質(zhì)量控制,刪除缺失率>0.1的個體、刪除缺失率>0.1的SNP以及刪除次等位基因頻率<0.05的個體(--mind 0.1--geno 0.1--maf 0.05),并將19個品種品系測序數(shù)據(jù)合并為一個37.14 G數(shù)據(jù)量的vcf文件。保留1~28號染色體上的位點,共保留16 927 197個SNPs標記位點用于后續(xù)分析。
使用GCTA 64(V 1.93.2)[32]軟件構(gòu)建親緣關(guān)系矩陣(--make-grm)后計算PCA,計算每個主成分解釋百分比,選擇前2個主成分,用RStudio(V1.1.463)繪制主成分分析(principal component analysis,PCA)平面圖。
隨機提取19個品種/品系各10個個體,大骨雞7個個體,共187個個體,利用PLINK(V1.90)軟件對SNP頻率構(gòu)建遺傳距離矩陣(--distance-matrix)。通過MEGA(V 7.0.26)[33]軟件,采用領(lǐng)接法(Neighbour Joining,NJ)繪制進化樹。
以1個品種/品系作為目標品種/品系,利用VCFTools(V0.1.13)[34]軟件計算采用1對N的方式進行Fst分析,以1 kb為窗口大小、1 kb為步長計算SNP單點Fst值(--fst-window-size 1--fst-window-step 1)。
利用PLINK(V1.90)軟件提取群體分化指數(shù)分析結(jié)果中MEAN_FAST≥0.65 SNP位點形成SNP標記集合,對SNP標記位點進行LD分析(--blocks no-pheno-req)。提取全部非LD SNP標記位點以及每個LD中1個SNP標記位點,作為獨立SNP標記位點。
對19個品種/品系質(zhì)控后16 927 197個SNPs進行PCA(圖1a)和NJ進化樹(圖1b)分析,結(jié)果表明北京油雞、快速型白羽肉雞品系、京星黃雞H系和京星黃雞D2系與其它品種遺傳距離較遠,分層明顯。茶花雞和大圍山微型雞聚成一支,武定雞和瓢雞聚成一支,山東地方品種/品系聚在一起。
a.多品種主成分分析;b.NJ進化樹結(jié)果。B.快速型白羽肉雞;BJY AC、BJY E、BJY F.北京油雞;CH.茶花雞;DG.大骨雞;DWS.大圍山微型雞;JXH.D2.京星黃雞選育系D2系;JXH.H.京星黃雞選育系H系;P.瓢雞;SD A、SD B、SD BRG、SD BRM、SD D、SD L、SD S.山東地方雞品種品系A(chǔ)、B、BRG、BRM、D、L、S;WD.武定雞;ZJ.藏雞
根據(jù)遺傳結(jié)構(gòu)分析結(jié)果挑選獨立于其它群體的北京油雞、快速型白羽肉雞、京星黃雞H系和京星黃雞D2系,分別通過單位點Fst分析和LD分析篩選特征性SNP標記集合。以快速型白羽肉雞為目標品種進行單位點Fst分析(圖2a),結(jié)果表明,與其他品種/品系顯著差異的SNP標記主要位于1、5、18和28號染色體上。提取MEAN_FAST≥0.80共346個SNPs標記進行PCA分析,可將快速型白羽肉雞與其它群體分開(圖2b)。對346個SNPs標記進行LD分析,提取所有不連鎖的SNPs和每個LD中1個SNP標記,共114個SNPs標記進行群體PCA分析,結(jié)果表明114個SNPs標記可將快速型白羽肉雞與其它品種/品系分開(圖2c)。
a.快速型白羽肉雞vs.其它品種/品系群體分化指數(shù)分析結(jié)果;b.選擇性清除分析篩選MEAN_FAST≥0.80 SNP標記主成分分析結(jié)果;c.連鎖不平衡分析篩選的SNP標記主成分分析結(jié)果
以京星黃雞選育系H系為目標品系進行單位點Fst分析(圖3a),結(jié)果表明,與其他品種顯著差異的SNP標記主要位于1、2、3和4號染色體上。提取MEAN_FAST≥0.76共356個SNPs標記進行PCA分析,可將京星黃雞選育系H系與其它群體分開(圖3b)。對356個SNPs標記進行LD分析,提取所有不連鎖的SNPs和每個LD中1個SNP標記,共220個SNPs標記進行群體PCA分析,結(jié)果表明220個SNPs標記可將京星黃雞選育系H系與其它品種分開(圖3c)。
a.京星黃雞選育系H系vs.其它品種/品系群體分化指數(shù)分析結(jié)果;b.選擇性清除分析篩選MEAN_FAST≥0.76 SNP標記主成分分析結(jié)果;c.連鎖不平衡分析篩選的SNP標記主成分分析結(jié)果
以京星黃雞選育系D2系為目標品系進行單位點Fst分析(圖4a),結(jié)果表明,與其他品種/品系顯著差異的SNP標記主要位于1、2、4、7、14和23號染色體上。提取MEAN_FAST≥0.76共321個SNPs標記進行PCA分析,可將京星黃雞選育系D2與其它群體分開(圖4b)。對321個SNPs標記進行LD分析,提取所有不連鎖的SNPs和每個LD中1個SNP標記,共226個SNPs標記進行群體PCA分析,結(jié)果表明226個SNPs標記可將京星黃雞選育系D2系與其它品種/品系分開(圖4c)。
a.京星黃雞選育系D2系vs.其它品種/品系群體分化指數(shù)分析結(jié)果;b.選擇性清除分析篩選MEAN_FAST≥0.76 SNP標記主成分分析結(jié)果;c.連鎖不平衡分析篩選的SNP標記主成分分析結(jié)果
根據(jù)遺傳結(jié)構(gòu)分析結(jié)果挑選聚集在一個分支的武定雞和瓢雞,分別通過單位點Fst分析和LD分析篩選特征性SNP標記集合。以武定雞為目標品種進行單位點Fst分析(圖5a),結(jié)果表明,與其他品種顯著差異的SNP標記主要位于1、2、4、5和15號染色體上。提取MEAN_FAST≥0.70共368個SNPs標記進行PCA分析,可將武定雞與其它群體分開(圖5b)。對368個SNPs標記進行LD分析,提取所有不連鎖的SNPs和每個LD中1個SNP標記,共204個SNPs標記進行群體PCA分析,結(jié)果表明204個SNPs標記可將武定雞與其它品種分開(圖5c)。
a.武定雞vs.其它品種/品系群體分化指數(shù)分析結(jié)果;b.選擇性清除分析篩選MEAN_FAST≥0.70 SNP標記主成分分析結(jié)果;c.連鎖不平衡分析篩選的SNP標記主成分分析結(jié)果
以瓢雞為目標品種進行單位點Fst分析(圖6a),結(jié)果表明,與其他品種顯著差異的SNP標記主要位于1、2和4號染色體上。提取MEAN_FAST≥0.65共1 178個SNPs標記進行PCA分析,可將瓢雞與其它群體分開(圖6b)。對1 178個SNPs標記進行LD分析,提取所有不連鎖的SNPs和每個LD中1個SNP標記,共178個SNPs標記進行群體PCA分析,結(jié)果表明178個SNPs標記可將瓢雞與其它品種分開(圖6c)。
a.瓢雞vs.其它品種/品系群體分化指數(shù)分析結(jié)果;b.選擇性清除分析篩選MEAN_FAST≥0.65 SNP標記主成分分析結(jié)果;c.連鎖不平衡分析篩選的SNP標記主成分分析結(jié)果
目前SNP標記集可以基于單倍型分析[35]、連鎖不平衡分析[36]、全基因組關(guān)聯(lián)分析[37]等方法獲得。Judge等[38]基于有系譜和重測序數(shù)據(jù)的大群體以及中等密度SNP芯片的大群體,利用Delta統(tǒng)計、Fst統(tǒng)計、結(jié)合Delta統(tǒng)計和成對Fst值的索引進行計算等方法識別信息量最大的SNPs,通過300個以上SNPs標記精準量化生物樣本中安格斯牛和赫里福德牛的比例。Seo等[39]基于雞600K SNP芯片,GWAS分析后,對病例組和對照組進行LD修剪,得到96個SNPs標記可以將目標雞與其它雞群分開。這些基于系譜與GWAS分析的研究可進行少量群體特征性SNP集合的挖掘,但是均需要較大群體的表型信息與測序,而本研究方法僅需要試驗群體代表性個體的重測序數(shù)據(jù),一般30個左右個體可代表一個品種的遺傳多樣性,數(shù)量較少的個體可作為背景,在試驗材料和數(shù)據(jù)準備上更為簡便。
Bertolini等[40]基于奶牛大群體Bovine SNP50 v1 BeadChip 芯片,利用基于Delta、Fst、PCA-chrom 和 PCA-whole等技術(shù),通過品種分配和隨機森林篩選出96個SNPs組成的SNP-set可以將品種區(qū)分開。Schiavo等[41]基于豬大群體PorcineSNP60 BeadChip 芯片,保留LD分析中所有r2<0.3的SNP和1個LD中任一SNP,然后使用Delta、Fixation指數(shù)、主成分分析統(tǒng)計和兩種隨機森林分類方法篩選到96個SNPs標記位點可進行目標品種鑒定。Cho等[42]基于雞大群體600K SNP芯片,通過GWAS和LD分析篩選,得到初步的SNP標記集合,然后通過隨機森林(RF)和AdaBoost(AB)兩種機器學習算法,篩選到Y(jié)eonsan Ogye雞群的38(RF)和43(AB)個共81個最佳SNPs標記集合,在品種區(qū)分上顯示了100%的準確性。Kumar等[43]基于小等位基因頻率連鎖不平衡的方法,鑒定到591個品種特異性SNPs組成的集合,適用于鑒別牛的親緣關(guān)系的分配。Gao等[44]基于24個豬品種的62 822個SNPs基因型文件,通過LD、PCA、隨機森林及相應(yīng)的包外誤差估計(OOB)和MDA篩選方法獲得1 000個SNPs可將目標品種區(qū)分。利用隨機森林等一系列方法可篩選出較少的品種特征性SNP標記,是未來發(fā)展的重點,但需要較強的方法學作為基礎(chǔ)。而本方法僅通過一次單點群體分化指數(shù)分析和連鎖不平衡分析,即可挖掘到114~226個SNPs標記將目標品種與其它代表性品種區(qū)分開,更為快捷。
本研究應(yīng)用19個雞品種/品系全基因重測序數(shù)據(jù)進行1對N的單位點群體分化指數(shù)分析,以MEAN_FAST≥0.65為篩選標準,對篩選得到的SNP標記進行連鎖不平衡分析,在多個品種中確定了114~226個不同染色體上SNPs標記可以將目標品種與其它代表性品種區(qū)分開來,從而建立目標品種特征性SNP標記集合。該SNP標記集合篩選方法是實現(xiàn)低成本和快速品種鑒定的基礎(chǔ)。