林雨濃,馬萬欣,包玲玲,何曙光,石順利,張秋生,趙澈勒格日,高會(huì)江,李俊雅*,王澤昭*
(1.中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193;2.內(nèi)蒙古自治區(qū)通遼市畜牧業(yè)發(fā)展中心,內(nèi)蒙古通遼 028000)
肉牛產(chǎn)業(yè)是內(nèi)蒙古自治區(qū)經(jīng)濟(jì)發(fā)展的支柱產(chǎn)業(yè),是農(nóng)牧民增收的重要途徑?!翱茽柷吲!笔且晕鏖T塔爾牛為父本,蒙古牛及三河牛和蒙古牛的雜種牛為母本而培育成的乳肉兼用品種。作為通遼地區(qū)地方畜牧業(yè)的重要資源,具有適應(yīng)性強(qiáng),宜牧,耐粗飼,耐寒,抗病力強(qiáng)等特點(diǎn)。然而,隨著肉牛市場需求的增加和養(yǎng)殖業(yè)的發(fā)展,“科爾沁?!痹谏a(chǎn)性能和經(jīng)濟(jì)效益方面遇到了瓶頸。為了提升群體肉用性能,當(dāng)?shù)剞r(nóng)業(yè)部門利用北美肉用型西門塔爾牛為父本,本地“科爾沁牛”為母本進(jìn)行雜交改良,歷經(jīng)30 年,經(jīng)過“雜交改良、橫交固定和選育提高”三個(gè)階段,培育出肉用型“科爾沁肉牛”群體。
近年來,群體遺傳背景分析成為評(píng)估和研究動(dòng)物群體遺傳結(jié)構(gòu)的重要工具。隨著SNP 芯片和測序技術(shù)的發(fā)展,有助于人們更全面地了解不同群體之間的遺傳多樣性和遺傳聯(lián)系。Eva M.Strucken 等[1]采用777K 芯片對(duì)印度本地的15 個(gè)牛種進(jìn)行遺傳多樣性與群體結(jié)構(gòu)研究,發(fā)現(xiàn)印度瘤牛比印度本地普通牛有更高的遺傳多樣性,他們推斷本地普通牛較小的有效群體導(dǎo)致了群體基因頻率受到遺傳漂變的影響更大,而低有效群體數(shù)量增加了近交衰退發(fā)生的概率,使其在選擇的過程中遺傳多樣性降低速度快于印度瘤牛。在動(dòng)物育種過程中,保持一定的遺傳多樣性有利于提高群體的環(huán)境適應(yīng)性[2]。Alejandro Amaya 等[3]對(duì)約2.7 萬頭哥倫比亞西門塔爾牛(1975—2017年)的數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)該種群的近交系數(shù)由5.06%下降到了2.25%,認(rèn)為是得益于歐洲和美系西門塔爾牛之間的基因交流,才使該種群的遺傳多樣性得以提升。
我國疆域遼闊、資源豐富,但目前由于經(jīng)濟(jì)效益等問題致使國外種源占有率居高不下。物種作為戰(zhàn)略性資源、是農(nóng)業(yè)的基石,但是目前關(guān)于國內(nèi)地方品種的研究存在著許多空白和滯后。馬均等[4]研究發(fā)現(xiàn),我國自主培育的專門化肉牛新品種—華西牛與蒙古牛、三河牛和其他家系西門塔爾牛出現(xiàn)不同的比例的群體結(jié)構(gòu)組成,形成了自己獨(dú)特的遺傳結(jié)構(gòu)特征。劉正喜等[5]在2022 年使用全基因組重測序數(shù)據(jù)對(duì)渤海黑牛的群體結(jié)構(gòu)、遺傳多樣性、親緣關(guān)系分析后發(fā)現(xiàn),渤海黑牛與郟縣紅牛和魯西牛的關(guān)系密切,該研究為逐年減少的渤海黑牛群體的種質(zhì)資源保護(hù)和品種發(fā)展提供了關(guān)系的理論基礎(chǔ)。
本研究目的是分析“科爾沁肉?!?、華西牛和美系西門塔爾牛這三個(gè)群體之間的遺傳關(guān)聯(lián),評(píng)估“科爾沁肉?!备牧加N在遺傳層面的影響,旨在為“科爾沁肉牛”新品種培育提供遺傳背景支持。
“科爾沁肉?!保↘erqin beefcattle,“KBC”),來自內(nèi)蒙古科爾沁牛業(yè)股份有限公司的437 頭核心群牛只;美系西門塔爾牛(American Simmental cattle,ASC)來自于通遼京緣種牛繁育有限責(zé)任公司的25 頭種牛;華西牛(HuaXi cattle,HXC),來自內(nèi)蒙古奧科斯牧業(yè)有限公司的55 頭核心群牛只。
每個(gè)樣本使用含有EDTA 抗凝劑的真空采血管采血5mL 送樣檢測,并取2mL 血樣進(jìn)行DNA提取。使用Illumina BovineHD BeadChip 芯片進(jìn)行變異檢測,該芯片含有覆蓋牛基因組的777962個(gè)標(biāo)記位點(diǎn)。
使用Genome Studio 軟件進(jìn)行基因分型。通過PLINK v1.9[6]軟件提取出常染色體后進(jìn)行數(shù)據(jù)質(zhì)量控制(Quality control,QC)。QC 順序如下:①刪除等位基因檢出率(Call rate)小于90%的位點(diǎn);②刪除最小等位基因頻率(Minor allele frequency,MAF)小于0.01 的位點(diǎn);③刪除哈代溫伯格平衡檢驗(yàn)P 值小于1×10 箒6 的SNP 位點(diǎn);④刪除SNP 缺失率大于10%的樣本個(gè)體。通過QC 后數(shù)據(jù)用于后續(xù)分析。單獨(dú)使用PLINK 中的--indep-pairwise 參數(shù)對(duì)所有個(gè)體的連鎖位點(diǎn)進(jìn)行過濾,剩余位點(diǎn)進(jìn)行群體結(jié)構(gòu)分析。過濾后的個(gè)體數(shù)見表1。
表1 試驗(yàn)樣本數(shù)量
對(duì)QC 后數(shù)據(jù)統(tǒng)計(jì)群體期望雜合度(Expected heterozygosity,He)、群體觀察雜合度(Observed heterozygosity,Ho)、MAF 分布情況。 MAF 分布情況是按照不同MAF 大小將SNP 標(biāo)記分為5 組,分別是(MAFSNP<0.1)、(0.1≤MAFSNP<0.2)、(0.2≤MAFSNP<0.3)、(0.3≤MAFSNP<0.4)和(0.4≤MAFSNP),統(tǒng)計(jì)3 個(gè)群體SNP 標(biāo)記的分布情況。
使用GCAT 軟件進(jìn)行了群體主成分(Principal component analysis,PCA)計(jì)算,輸出數(shù)據(jù)導(dǎo)入到R 中,使用ggplot2 包[7]進(jìn)行可視化。隨后使用鄰接法(Neighbor-Joining,NJ)構(gòu)建進(jìn)化樹[8]:從成對(duì)FST 值的距離矩陣生成鄰居網(wǎng)絡(luò)樹,并在Splitstree 4.14.5[9]中實(shí)現(xiàn)建樹。使用Admixture v.1.3 軟件的默認(rèn)設(shè)置進(jìn)行群體結(jié)構(gòu)分析。設(shè)置了10 倍交叉驗(yàn)證選擇最合適的K 值[10]。使用PopLDdecay 軟件[11]計(jì)算了所有數(shù)據(jù)的LD 衰減距離,并繪制了LD 衰減圖。
由表2 可知,經(jīng)過質(zhì)控后的“KBC”群體具有最高的平均MAF 值(0.28),ASC 群體的平均MAF 值最低(0.23)。平均He 的范圍取值從0.34(HXC)到0.37(“KBC”)。平 均Ho 最高為“KBC”(0.37),最低的是ASC(0.36),HXC和ASC 的平均Ho 略大于He,“KBC”的Ho 和He 幾乎相等。
表2 群體遺傳多樣性參數(shù)
由圖1 可知,“KBC”群體被過濾掉了最多的遺傳標(biāo)記?!癒BC”群體過濾掉了81778 個(gè)MAF 小于0.01 的標(biāo)記。QC 后,ASC 群體擁有最多的低頻標(biāo)記(MAF<0.1)。隨著MAF 的增大,HXC 和“KBC”群體內(nèi)中高M(jìn)AF 的SNPs 多于ASC 群體。在三個(gè)群體中,“KBC”具有最多的MAF≥0.3 的SNP 個(gè)數(shù),具體數(shù)量為(413400),其次是HXC(363989),最少的是ASC(344174)。
圖1 不同群體的MAF 分布
由圖2(a)可知,三個(gè)群體主要聚集成為兩個(gè)簇,將“KBC”群體和HXC 群體分開。此外,“KBC”群體與ASC 群體中部分個(gè)體出現(xiàn)明顯的聚集和重疊。根據(jù)群體在圖中的空間位置,可以判斷出“KBC”和HXC 的遺傳距離較遠(yuǎn),和ASC 之間遺傳距離較近。
圖2 三個(gè)牛群體的主成分分析結(jié)果和鄰居連接系統(tǒng)發(fā)育樹
為了觀察三個(gè)群體在進(jìn)化距離上的相對(duì)位置,本研究構(gòu)建了環(huán)形進(jìn)化樹(圖2b)?!癒BC”群體和HXC 群體分別位于進(jìn)化樹的起點(diǎn)位置和末端位置,表明這兩個(gè)群體的進(jìn)化距離相對(duì)較遠(yuǎn)。ASC 群體和HXC 群體處于兩個(gè)比較靠近的分支,暗示這兩個(gè)群體經(jīng)歷了不同的進(jìn)化路徑,但是其分化路徑相對(duì)較近。ASC 群體處于“KBC”群體的一個(gè)分支下,表明這兩個(gè)群體可能具有共同的祖先,使得在基因?qū)用嫔暇邆湟欢ǖ南嗨菩浴?/p>
通過假設(shè)群體結(jié)構(gòu)數(shù)的先驗(yàn)值K,推斷群體內(nèi)亞群個(gè)數(shù)。通過對(duì)比不同祖先群體遺傳成分比例觀察“KBC”、ASC 和HXC 群體間遺傳相似性。由圖3 可知,在K=2 時(shí),“KBC”的祖先比例和HXC 相似,少數(shù)個(gè)體祖先比例與ASC 相似;當(dāng)K=3 時(shí),“KBC”群體和ASC 群體部分個(gè)體祖先比例相似,此時(shí)HXC 群體出現(xiàn)與“KBC”群體和ASC 群體截然不同的祖先成分比例;隨著K 值不斷增大,“KBC”群體和HXC群體差異的趨勢逐漸增大;當(dāng)K=5 時(shí),“KBC”出現(xiàn)了更為復(fù)雜的遺傳比例;K=2~4 時(shí),ASC群體的祖先組成比例變化不明顯,“KBC”的祖先比例變化復(fù)雜。
圖3 當(dāng)K=2~5 時(shí),基于LD 過濾的三種牛種群的SNPs 的結(jié)構(gòu)分析
如圖4 所示,三個(gè)群體的LD-decay 曲線中“KBC”群體衰減速度最快,ASC 的LD 衰減速度較慢,HXC 群體的LD 衰減速度位于兩者之間。三個(gè)群體的遠(yuǎn)端SNP 之間的連鎖水平出現(xiàn)差異,在≥200Kb 之后并未衰減到相近的r2范圍。隨著距離逐漸增大,三個(gè)群體的LD 衰減曲線逐漸平緩,r2結(jié)果始終保持是r2ASC≥r2HXC≥r2KBC。
圖4 三個(gè)群體的連鎖不平衡衰減圖
遺傳多樣性是生物多樣性的核心維度之一,反映了群體內(nèi)部基因的多樣性水平。它在維持種群的健康、適應(yīng)性和進(jìn)化潛力方面起著關(guān)鍵作用[12,13]。目前,通過基因芯片和測序技術(shù)輔助分析種群遺傳進(jìn)展成為熱點(diǎn)研究內(nèi)容[14],通過評(píng)估種群遺傳多樣性對(duì)于制定未來的育種目標(biāo)至關(guān)重要[2]。本研究對(duì)“KBC”群體、HXC 群體和ASC群體的基因型數(shù)據(jù)進(jìn)行分析,通過對(duì)群體遺傳多樣性的統(tǒng)計(jì),以期發(fā)現(xiàn)“KBC”在育種過程中的遺傳變化。研究發(fā)現(xiàn),“KBC”的MAF、He 和Ho 分別為0.28、0.37 和0.37,在三個(gè)群體中均為最高,并且“KBC”群體He 和Ho 的一致性在三個(gè)群體中為最高。這一結(jié)果反映出“KBC”群體內(nèi)的遺傳多樣性比ASC 和HXC 群體較高,同時(shí)暗示著近親交配的水平較低[15]。種群遺傳多樣性越高,意味著進(jìn)化潛力越大,對(duì)環(huán)境變化的反應(yīng)能力越強(qiáng)[16]。此外,人工選擇也會(huì)極大的影響群體的多樣性[17]?!癒BC”是以“科爾沁?!保ㄈ优!廖鏖T塔爾牛)為母本,以引進(jìn)的美系西門塔爾牛為父本雜交培育而成的群體,與ASC 相比,其培育期間的選擇強(qiáng)度相對(duì)較低,使其還保持著一定的遺傳改良潛力。Maiorano AM 等[18]研究發(fā)現(xiàn),親本自交系雜交產(chǎn)生的雜種優(yōu)勢賦予了后代更高的遺傳多樣性,并加強(qiáng)了雜種個(gè)體優(yōu)勢性狀表現(xiàn)[19,20]?!癒BC”群體在遺傳改良的過程中,保留了“科爾沁?!比后w的適應(yīng)性強(qiáng)的同時(shí),借助ASC 群體的基因交流提升了肉用性能。在哈迪-溫伯格平衡下,“KBC”的Ho 大于He,說明雜交系統(tǒng)仍然是擴(kuò)大品種遺傳變異的重要方法。
PCA 是利用解釋群體最大遺傳方差的特征值向量對(duì)群體進(jìn)行分離[21]。本結(jié)果表明,“KBC”和HXC 群體各自聚集成了兩個(gè)簇并保持了一定的距離。同時(shí),“KBC”群體中部分個(gè)體與ASC群體出現(xiàn)明顯的聚集,這些“重疊”,標(biāo)志著個(gè)體之間的基因型具有一定的相似性。這種相似性是由于群體之間存在相似的遺傳背景或近親關(guān)系導(dǎo)致了其共享某些遺傳特征或具有相似的基因型組合。
通過構(gòu)建進(jìn)化樹,發(fā)現(xiàn)“KBC”群體和ASC群體進(jìn)化距離較近,與HXC 群體距離較遠(yuǎn)。需要注意的是,環(huán)形進(jìn)化樹是無根樹,僅提供了群體之間遺傳和進(jìn)化距離的相對(duì)關(guān)系。群體在進(jìn)化樹上的位置不代表起源和進(jìn)化方向,而是反映了在進(jìn)化距離上的相對(duì)位置。最初“KBC”群體在培育中使用了ASC 改良其肉用性能,在基因組上留下了選擇足跡(Selective Footprint)[22]。經(jīng)過長期的人工選擇,增加了“KBC”群體和ASC 群體的遺傳相似性,因此其在進(jìn)化樹上的位置處于同一分支。后續(xù)研究如果要全面地理解群體間的關(guān)系和演化過程,需要分析表型特征信息或分子鐘估計(jì)[23]等進(jìn)行更深入的研究。
群體遺傳結(jié)構(gòu)分析基于遺傳標(biāo)記信息將種群分為若干亞群,對(duì)于研究群體和個(gè)體間的遺傳關(guān)聯(lián)具有重要意義[24]。揭示了群體間的遺傳交流程度、遷移歷史以及潛在的遺傳壁壘[25]。研究發(fā)現(xiàn),在K=2~3 時(shí)“KBC”群體內(nèi)部分個(gè)體與ASC 祖先組成比例十分相似,在K=2~4 時(shí),ASC 群體的組成比例比較穩(wěn)定,而“KBC”群體祖先比例變化明顯。Ocampo 等[26]發(fā)現(xiàn)不同品種之間的分化模式和遺傳關(guān)系與每個(gè)品種的進(jìn)化歷史高度一致。“KBC”群體和HXC 群體在雜交改良階段都引入過西門塔爾的血統(tǒng),因此,當(dāng)K值比較小的時(shí)候,更容易地捕捉到群體之間的主要遺傳差距。在“KBC”群體內(nèi),不同個(gè)體之間的祖先組成比例也在不斷變化,一方面是其原始群體本身的多態(tài)性所引起;另一方面,經(jīng)過不斷的雜交改良,致使“KBC”群體存在多祖先的基因滲入。
本研究中,在假設(shè)K 值范圍內(nèi)并未出現(xiàn)交叉驗(yàn)證(Cross-Validation,CV)錯(cuò)誤率的拐點(diǎn),可能是研究中ASC 群體和HXC 群體使用的樣本數(shù)量較小,捕捉三個(gè)群體間的遺傳分化效果較差。當(dāng)K 大于4 時(shí),三個(gè)群體祖先比例出現(xiàn)明顯不同,且個(gè)體祖先比例變得相對(duì)混亂。這是因?yàn)?,隨著K 值增大,模型捕捉群體之間細(xì)微的遺傳差異的靈敏度也隨之提高。
通過對(duì)比群體之間的連鎖不平衡水平,對(duì)于合理利用種質(zhì)資源至關(guān)重要。三個(gè)群體中,“KBC”群體衰減的最快,ASC 群體的LD-decay衰減的最慢。而人工選擇的效果可以反映在每個(gè)群體的基因組連鎖不平衡水平上[27]。在物種遺傳改良過程中,在高強(qiáng)度的選擇下,家畜群體中有利的染色體片段頻率迅速增加[28],并促進(jìn)群體中LD 水平的增加[29,30]。當(dāng)群體中LD 水平增加,提高后續(xù)選擇的準(zhǔn)確性,可以更快地改善目標(biāo)性狀。HXC 群體已經(jīng)于2021 年12月通過國家畜禽遺傳資源委員會(huì)審定,被認(rèn)定為肉牛新品種。而“KBC”群體目前還處于新品種培育的過程中。因此,“KBC”群體內(nèi)遠(yuǎn)端標(biāo)記的連鎖效果比其他兩個(gè)群體較差。連鎖不平衡分析可以反映相應(yīng)的獨(dú)特育種選擇歷史和種群結(jié)構(gòu)[27,31,32],同時(shí),也對(duì)后續(xù)基因組信息挖掘提供指示。值得注意的是,在研究中隨著標(biāo)記之間的距離逐漸增大,三個(gè)群體的LD 衰減逐漸平緩,但是一直存在差距。后續(xù)如要進(jìn)行GWAS 分析時(shí),為了保證準(zhǔn)確性,“KBC”群體可能會(huì)需要比HXC 和ASC 更多的基因組信息。
本研究使用遺傳信息數(shù)據(jù)評(píng)估了“KBC”、HXC 和ASC 群體的遺傳多樣性和種群結(jié)構(gòu)?!癒BC”群體內(nèi)中高頻(MAF≥0.3)的標(biāo)記數(shù)量最多,且具有最高的遺傳多樣性和最低的連鎖不平衡衰減速度。在進(jìn)化方向上,“KBC”群體與HXC 群體的距離更遠(yuǎn),但部分個(gè)體的種群組成與ASC 群體分化較差。通過進(jìn)行群體遺傳背景分析,發(fā)現(xiàn)“科爾沁肉?!苯?jīng)過雜交改良、橫交固定、選育提高三個(gè)階段的持續(xù)選育,在遺傳方面(分子水平)與華西牛和美系西門塔爾牛品種存在明顯差異,已具備形成新培育品種的先決條件。