張靜靜,高會江,吳 洋,朱 波,齊 欣,高 雪,張路培,陳 燕*
(1.吉林農(nóng)業(yè)大學(xué)動物科技學(xué)院,長春 130118; 2.中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)
?
利用SNP標(biāo)記估計西門塔爾牛親緣關(guān)系系數(shù)的準(zhǔn)確性
張靜靜1,2,高會江2,吳洋2,朱波2,齊欣2,高雪2,張路培2,陳燕2*
(1.吉林農(nóng)業(yè)大學(xué)動物科技學(xué)院,長春 130118; 2.中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所,北京 100193)
摘要:本研究旨在利用SNP標(biāo)記估計西門塔爾牛親緣關(guān)系系數(shù),以期準(zhǔn)確確定估計個體間親緣關(guān)系系數(shù)所需的SNPs數(shù)量。研究以1 059頭出生于2008-2012年的西門塔爾牛為試驗群體,利用Illumina bovineHD(770 k)芯片,根據(jù)最小等位基因頻率(MAF)區(qū)間,分別選擇100、500、1 000、1 500、2 000、2 500和3 000 個SNPs用于個體間親緣關(guān)系系數(shù)的估計。結(jié)果顯示,隨著標(biāo)記數(shù)目的增多,估計的親緣關(guān)系系數(shù)準(zhǔn)確性逐漸增加。且當(dāng)SNP標(biāo)記數(shù)目達(dá)到2 500時,所估計的親緣關(guān)系系數(shù)與利用所有標(biāo)記估計的個體間親緣關(guān)系系數(shù)差異不顯著,二者相關(guān)系數(shù)達(dá)到0.89 以上。同時,利用不同等位基因頻率區(qū)間內(nèi)標(biāo)記估計的個體間親緣關(guān)系系數(shù)差異不顯著。由此可以看出,當(dāng)所選標(biāo)記數(shù)目達(dá)到2 500以上時,可以得到較高的親緣關(guān)系系數(shù)估計準(zhǔn)確性。本研究為基于SNP標(biāo)記信息估計親緣關(guān)系系數(shù)的進(jìn)一步研究提供了理論基礎(chǔ),同時為西門塔爾牛群體個體間親緣關(guān)系的研究提供依據(jù)。
關(guān)鍵詞:西門塔爾牛;親緣關(guān)系系數(shù);SNP;最小等位基因頻率
肉牛遺傳評估工作的核心內(nèi)容就是育種值估計。而在眾多的育種值估計的方法中,最佳線性無偏預(yù)測(Best Linear Unbiased Prediction,BLUP)仍是最為有效和使用最為廣泛的方法。其通過構(gòu)建個體間的遺傳關(guān)系矩陣來完成個體育種值的估計。BLUP方法的優(yōu)勢在于能夠充分利用個體之間的相關(guān)信息,即通過系譜信息構(gòu)建的加性遺傳關(guān)系矩陣(A matrix)來反映個體間的遺傳相關(guān)關(guān)系并估計育種值。然而在實際生產(chǎn)過程中,因為往往存在著系譜錯誤、缺失和近交等問題,A陣可能有較低的準(zhǔn)確性[1]。而且這種只通過系譜資料所獲得的遺傳相關(guān)關(guān)系只是親緣關(guān)系的期望值,而真實的遺傳相關(guān)關(guān)系會由于孟德爾抽樣誤差而與期望值有所偏差[2]。
近年來,育種技術(shù)的不斷發(fā)展使我國肉牛業(yè)取得了長足的進(jìn)步。但是與發(fā)達(dá)國家相比,我國肉牛產(chǎn)業(yè)仍然處于初級階段。公牛遺傳評估技術(shù)的落后更是制約我國肉牛業(yè)發(fā)展的一個重要問題。錯誤的系譜信息將在很大程度上降低公牛遺傳評估的準(zhǔn)確性,進(jìn)而降低群體的遺傳進(jìn)展。為降低系譜錯誤對育種帶來的不利影響,提高育種值估計的準(zhǔn)確性,進(jìn)而加快我國肉牛的遺傳進(jìn)展,建立完整、準(zhǔn)確的系譜信息顯得尤為重要。而準(zhǔn)確系譜信息的建立除嚴(yán)格的生產(chǎn)管理制度外,更有賴于個體間親緣關(guān)系的估計。
在過去的十年里,對利用分子標(biāo)記估計親緣關(guān)系進(jìn)行了很廣泛的研究,出現(xiàn)了很多新方法以及軟件[3-5]。多項研究表明,分子標(biāo)記如微衛(wèi)星和SNP是檢驗和鑒定親子關(guān)系的有效工具[6]。 SNP標(biāo)記信息也被用于估計群體中個體之間的親緣關(guān)系[7-8]。此外,研究還表明,有限的SNPs標(biāo)記數(shù)目是限制親緣關(guān)系估計準(zhǔn)確性的主要瓶頸[9]。隨著高通量測序和高密度基因分型芯片的快速發(fā)展,數(shù)以千計的SNPs信息都能快速獲得,進(jìn)一步提高了分子標(biāo)記在估計親緣關(guān)系上的適用性。P.M.Vanraden首次提出了基于高密度SNP芯片獲得的SNPs信息估計親緣關(guān)系矩陣(Genomic Relationship Matrix,通常稱為G陣),它可以代替A陣進(jìn)行基因組育種值的估計[10]。結(jié)果表明,系譜缺陷和孟德爾抽樣誤差等因素導(dǎo)致了A陣估計不準(zhǔn)確,而利用高通量的SNP標(biāo)記估計的G陣更接近于真實的個體間遺傳相關(guān)關(guān)系[11-12]。
另一方面,新的高通量基因分型技術(shù)的快速發(fā)展和高密度SNP芯片的出現(xiàn)產(chǎn)生了海量數(shù)據(jù),也帶來了高額的檢測費用以及復(fù)雜的計算方法。為降低基因分型檢測成本、節(jié)約計算時間,從高密度SNP標(biāo)記中篩選高信息度的標(biāo)記,用于估計個體親緣關(guān)系受到眾多研究者和育種家的關(guān)注。在豬的研究中,M.S.Lopes等研究表明需要至少有2 000 個SNPs標(biāo)記用來估計遺傳關(guān)系矩陣[13]。在牛的研究中,M.M.Rolf等研究發(fā)現(xiàn)利用2 500~10 000個標(biāo)記時就能獲得較高的親緣關(guān)系估計準(zhǔn)確性[14]。
本研究以西門塔爾牛為研究群體,使用Illumina bovineHD(770 k)牛高密度SNP芯片,依據(jù)不同的標(biāo)記密度和最小等位基因頻率(MAF),分別選擇100、500、1 000、1 500、2 000、2 500和3 000個標(biāo)記,估計個體間親緣關(guān)系系數(shù),并比較其準(zhǔn)確性,以期優(yōu)化標(biāo)記選擇方法和確定準(zhǔn)確估計親緣關(guān)系系數(shù)所需SNPs的數(shù)量。
1材料與方法
1.1試驗材料
本研究的試驗群體來自中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所牛遺傳育種研究室在內(nèi)蒙古烏拉蓋地區(qū)構(gòu)建的西門塔爾牛資源群體。試驗動物選自出生于2008~2012年的1 087頭西門塔爾公牛,詳細(xì)情況見表1。
表1西門塔爾牛出生年分布
Table 1Birth year distribution for the genotyped Simmental cattle
1.2基因型數(shù)據(jù)處理
試驗群體使用了Illumina bovineHD(770 k)芯片進(jìn)行全基因組基因型測定,該芯片包含777 962個SNPs位點。在分析之前,所有SNP均進(jìn)行質(zhì)量控制,去除SNP檢出率<95%、最小等位基因頻率(Minor allele frequency,MAF)<1%、極端不符合哈代-溫伯格平衡檢驗P<10-6以及沒有染色體位置信息的SNP位點和個體檢出率<90%的個體。質(zhì)量控制主要是利用PLINK軟件[15]完成。運行命令如下:plink-cow—file filename—maf0.01—geno0.01—mind0.1—hwe0.000001-recode12-out filename。
1.3SNP的不同篩選方法
本研究中采用在3種不同MAF區(qū)間(0.01~0.2,0.2~0.4和0.4~0.5)中等距離篩選多個標(biāo)記密度形成分析數(shù)據(jù)集。標(biāo)記數(shù)目方面分為7個密度梯度等級,分別為100、500、1 000、1 500、2 000、2 500和3 000個。然后,將不同MAF區(qū)域篩選的不同密度梯度的標(biāo)記信息用于估計個體之間親緣關(guān)系系數(shù)及它們的準(zhǔn)確性,每組重復(fù)100次,并進(jìn)行t檢驗評價準(zhǔn)確性之間是否存在差異。以上工作,均是利用R語言自編程序計算完成。
1.4連鎖不平衡程度(LD)的計算
連鎖不平衡程度(LD)的計算已有多種不同的方法,每一個都有不同的統(tǒng)計效用,其中以D′[16]和r2[17]最為常用。但是r2對基因頻率和有效群體大小的變化不敏感[18],被廣泛認(rèn)為更加穩(wěn)健并且是描述LD水平更好的參數(shù)。本研究采用r2作為LD的衡量指標(biāo)[19]。
假定有兩個位點,A和B,每個位點分別有兩個等位基因,A1,A2和B1,B2。其等位基因頻率分別用PA1,PA2,PB1,PB2表示。用P11,P12,P21和P22指代單倍型A1B1,A1B2,A2B1和A2B2的頻率。計算這種連鎖不平衡的方法:
本研究運用PLINK[15]軟件(http://pngu.mgh.harvard.edu/~purcell/plink/)計算各子集中SNP之間的r2。
1.5親緣關(guān)系系數(shù)的計算
把上下代個體間和同世代個體間的親緣關(guān)系稱為親緣相關(guān)或血緣相關(guān),有時也稱為個體間的遺傳相關(guān)。本研究使用J.Yang 等[20]提出的利用個體間基因組親緣關(guān)系系數(shù)的算法計算親緣關(guān)系系數(shù),公式:
其中,i為第i個SNP位點,j為第j個個體,k為第k個個體,N為SNP位點總數(shù),Pi為第i個位點等位基因頻率。Xij對應(yīng)aa、Aa、AA基因型取0、1、2。
本研究使用 770 k SNP計算的親緣系數(shù)和篩選SNP計算的親緣系數(shù)的相關(guān)系數(shù)來表示準(zhǔn)確性,公式:
其中,r為準(zhǔn)確性,Kin1為使用所有標(biāo)記計算的親緣系數(shù),Kin2為使用抽取的標(biāo)記計算的親緣系數(shù)。
2結(jié)果
2.1數(shù)據(jù)質(zhì)控
數(shù)據(jù)詳細(xì)的質(zhì)控情況見表2。經(jīng)過質(zhì)控后共得到682 259 個SNPs位點和1 059個體用于下一步的分析。質(zhì)量控制前后SNP位點在各染色體上的分布情況如圖1所示,從圖中可以看出不合格SNP位點數(shù)在各條染色體上所占比例相當(dāng)。圖2表示的是用于本研究群體中SNPs最小等位基因頻率分布,從圖中可以看出,全部SNPs的MAF分布均勻。此群體的平均MAF為0.24。
表2SNPs質(zhì)量控制統(tǒng)計
Table 2SNPs quality control statistic
2.2親緣關(guān)系系數(shù)分析
本研究在3個MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2),分別選取100、500、1 000、1 500、2 000、2 500和3 000個標(biāo)記,總計獲得了21個SNP子集的數(shù)據(jù)。圖3展示了在3個MAF區(qū)間內(nèi)的標(biāo)記數(shù)目分布。統(tǒng)計了選取的每一個SNP子集中相鄰SNP間的連鎖不平衡程度r2值(表3)。隨著標(biāo)記數(shù)目增多,SNP之間的連鎖程度加大。其中,在選取3 000個來自于MAF區(qū)間(0.01~0.2)的SNP有最大的r2值,連鎖程度最高。在研究中將所篩選的不同密度梯度的標(biāo)記信息用于估計個體之間的親緣關(guān)系系數(shù),并和使用所有標(biāo)記獲得的親緣系數(shù)計算相關(guān)性。
對質(zhì)控后的1 059頭西門塔爾公牛使用所有682 259個 SNPs估計個體間的親緣系數(shù),得到群體的親緣系數(shù)平均值為0.09,標(biāo)準(zhǔn)差為0.07。此外,對21個SNPs子集進(jìn)行了親緣系數(shù)估計,所得結(jié)果顯示,當(dāng)所選標(biāo)記數(shù)目為N=3 000時,通過3種MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2)篩選標(biāo)記計算的西門塔爾公牛個體間親緣關(guān)系系數(shù)與所有SNP數(shù)據(jù)計算的親緣系數(shù)有最高的相關(guān)性,分別為0.94±0.001(P=0.792)、0.94±0.001(P=0.339)和0.90±0.004(P=0.693),親緣系數(shù)分別為0.08、0.08和0.06。
表3相鄰標(biāo)記間的連鎖不平衡程度統(tǒng)計
Table 3Extent of linkage disequilibrium between 2 adjacent SNPs
表中所列數(shù)值為r2的平均值±標(biāo)準(zhǔn)誤
Values listed in the table as the mean ± standard error ofr2
圖4列出了3種MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2)下,不同SNP標(biāo)記數(shù)目所得親緣系數(shù)與所有SNP數(shù)據(jù)計算的親緣系數(shù)相關(guān)性的盒圖。從圖中可以看出,當(dāng)所選標(biāo)記為100時,3種篩選方法所得準(zhǔn)確性均表現(xiàn)最低,分別為0.45±0.007(P=0.834),0.44±0.007(P=0.963)和0.43±0.023(P=0.680)。當(dāng)標(biāo)記數(shù)目從100逐漸增加至1 500時,親緣系數(shù)的相關(guān)性隨著標(biāo)記數(shù)目增加顯著增加,之后增加的趨勢減緩。且可以看出在標(biāo)記數(shù)目為100時,親緣系數(shù)的相關(guān)性有較大的波動。但是,選自0.4~0.5和0.2~0.4 MAF區(qū)間的標(biāo)記,隨著其數(shù)目增加,從圖中可以看出親緣系數(shù)的相關(guān)性非常穩(wěn)定,而來自0.01~0.2區(qū)間標(biāo)記,其相關(guān)性還是有明顯的波動。
圖5表示的是不同標(biāo)記數(shù)目下,不同MAF區(qū)間所得親緣系數(shù)的準(zhǔn)確性。從圖中可以得到,SNP選自MAF 0.4~0.5和0.2~0.4,親緣關(guān)系相關(guān)系數(shù)增長趨勢一致,且基本吻合。SNP選自MAF 0.01~0.2,親緣系數(shù)準(zhǔn)確性也是保持增長趨勢,但是增長速度相對較低。
綜上所述,我們可知選擇最小等位基因頻率大于0.2且不連鎖的SNP,在數(shù)目達(dá)到2 500個時親緣系數(shù)的估計值有高的準(zhǔn)確性(相關(guān)系數(shù)大于0.89)。
3討論
隨著高通量測序和基因分型技術(shù)的出現(xiàn),利用SNP標(biāo)記構(gòu)建基因組親緣關(guān)系矩陣(G陣)來替代傳統(tǒng)的加性遺傳矩陣已經(jīng)展開了大量的研究[10,12,21-22]。本研究在不同最小等位基因頻率區(qū)間內(nèi)隨機抽取7個標(biāo)記密度(N=100、500、1 000、1 500、2 000、2 500和3 000)的SNPs,用于群體內(nèi)個體間親緣系數(shù)的計算。研究結(jié)果表明,標(biāo)記位點的最小等位基因頻率對個體間親緣關(guān)系系數(shù)的計算有一定的影響,且在標(biāo)記數(shù)目達(dá)到2 500時估計的親緣系數(shù)有高的準(zhǔn)確性。
3.1SNP的篩選
本研究中,將標(biāo)記位點的最小等位基因分為3個區(qū)間,區(qū)間內(nèi)位點隨機抽取,并沒有考慮位點之間是否關(guān)聯(lián)。但是,當(dāng)標(biāo)記密度足夠大的時候標(biāo)記之間存在連鎖不平衡狀態(tài),它們并不能完全獨立分離的傳遞給下一代。在遺傳信息傳遞過程中,每個子代總是精確的遺傳來自雙親常染色體遺傳物質(zhì)的一半。但對位于X染色體上的遺傳信息而言,它的傳遞往往與性別有關(guān),這就使得在計算親緣關(guān)系系數(shù)時,位于X染色體上的SNP標(biāo)記信息將能更有效的估計出雌性個體間的親緣相關(guān)關(guān)系,對雄性間的親緣關(guān)系系數(shù)估計能力較差。而同性別后代的孟德爾抽樣誤差要比父本低[23]。此次研究群體以雄性個體為主,為此,該研究過程中,選擇了剔除X染色體上的標(biāo)記位點。
最小等位基因頻率和標(biāo)記密度是影響親緣相關(guān)系數(shù)準(zhǔn)確性的重要因素。C.Y.Chen等報道了在荷斯坦牛群體中使用相等的等位基因組頻率能夠獲得非常準(zhǔn)確的親緣相關(guān)系數(shù)和較小的偏差[24]。S.Ogawa等在日本黑牛群體中研究發(fā)現(xiàn),隨著標(biāo)記數(shù)目增加親緣相關(guān)系數(shù)估計準(zhǔn)確性增加,當(dāng)標(biāo)記數(shù)目達(dá)到10 000時達(dá)到穩(wěn)定[25]。因此,本研究在3個MAF區(qū)間(0.4~0.5,0.2~0.4和0.01~0.2),分別隨機選擇7組SNP(數(shù)目分別為100、500、1 000、1 500、2 000、2 500、3 000)形成子集,來估計親緣系數(shù)。
3.2親緣關(guān)系系數(shù)的估計
本研究選擇了西門塔爾牛資源群體,通過選擇3個MAF區(qū)間的SNP標(biāo)記來分析最小等位基因頻率對親緣關(guān)系系數(shù)估計的影響。結(jié)果表明,使用來自MAF 0.2~0.4和0.4~0.5兩個區(qū)間的SNP估計的群體的親緣系數(shù)的平均值和標(biāo)準(zhǔn)差是相近的,高于使用MAF 0.01~0.2區(qū)間內(nèi)的SNP。根據(jù)前人研究報道,增加標(biāo)記的數(shù)據(jù)量可能不會明顯增高親緣相關(guān)系數(shù)估計的準(zhǔn)確性,且群體親緣系數(shù)矩陣(G陣)的估計最好使用完全不連鎖的標(biāo)記[14]。另一項研究[26]認(rèn)為,隨著標(biāo)記密度增加,標(biāo)記的連鎖程度加大,導(dǎo)致了大量的標(biāo)記信息的浪費。本研究使用了7個梯度的SNPs數(shù)目來估計親緣系數(shù),準(zhǔn)確性是用和所有標(biāo)記估計的親緣系數(shù)相關(guān)性來表示,結(jié)果也驗證了降低標(biāo)記數(shù)目,沒有導(dǎo)致親緣系數(shù)準(zhǔn)確性的顯著下降。因此,使用低密度的SNP標(biāo)記能夠準(zhǔn)確估計群體間親緣相關(guān)系數(shù),這就使降低基因分型成本成為了可能。
對于群體親緣系數(shù)的估計,使用的SNP標(biāo)記來自于MAF 0.2~0.4和0.4~0.5,這兩個區(qū)間估計準(zhǔn)確性非常相近,且都是顯著高于來自于MAF 0.01~0.2區(qū)間SNP估計的親緣系數(shù)。這個可能是很多低頻的SNP由于基因分型技術(shù)導(dǎo)致基因型錯誤,進(jìn)而影響了親緣系數(shù)估計準(zhǔn)確性。因此在估計群體中個體間的親緣系數(shù)時,應(yīng)選擇高頻的SNP標(biāo)記(MAF>0.2)。研究中還統(tǒng)計了每個子集中相鄰SNP間的連鎖程度(表3),r2值都是小于0.1的。隨著標(biāo)記數(shù)目的增多,連鎖程度增加,親緣系數(shù)估計的準(zhǔn)確性也增加,這個研究結(jié)果是和前人報道相一致的[25]。
當(dāng)前研究已經(jīng)顯示,在西門塔爾牛群體中利用大于等于2 500個不連鎖且最小等位基因頻率大于0.2的SNP標(biāo)記就能獲得準(zhǔn)確的親緣相關(guān)系數(shù)。這個研究結(jié)果是和M.M.Rolf等在安格斯牛群體估計SNP數(shù)目在2 500~10 000個時能夠獲得一個穩(wěn)健的親緣相關(guān)系數(shù)[14]相一致。M.S.Lopes等在豬中發(fā)現(xiàn),獲得一個高精度的親緣相關(guān)系數(shù),至少需要2 000個SNPs[13]。在豬群體中可以用比較少的SNPs來構(gòu)建G陣,這可能是因為它們基因組大小和單倍型塊長度的差異引起的:J.A.Arias等觀測到牛的基因組遺傳長度是3 249 cM[27];而豬的基因組遺傳長度則在1 797和2 149 cM之間[28]。此外,R.Veroneze等發(fā)現(xiàn),豬群體中平均的單倍型塊大小是395 kb,遠(yuǎn)大于荷斯坦奶牛的平均單倍型塊大小(164 kb)[29-30]。
4結(jié)論
高密度的SNP芯片已經(jīng)在動物育種中廣泛應(yīng)用。但是這種芯片的價格較貴,并需要花費成倍時間運算。因此利用少量SNP標(biāo)記進(jìn)行基因組選擇成為研究熱點。本研究探討了標(biāo)記最小等位基因頻率和密度對估計親緣系數(shù)準(zhǔn)確性的影響,結(jié)果表明,選擇最小等位基因頻率大于0.2且不連鎖的SNP,在數(shù)目達(dá)到2 500個時親緣系數(shù)的估計值有高的準(zhǔn)確性。
參考文獻(xiàn)(References):
[1]BAUMUNG R,S?LKNER J.Pedigree and marker information requirements to monitor genetic variability[J].GenetSelEvol,2003,35(4):369-383.
[2]VISSCHER P M,MEDLAND S E,F(xiàn)ERREIRA M A,et al.Assumption-free estimation of heritability from genome-wide identity-by-descent sharing between full siblings[J].PLoSGenet,2006,2(3):e41.
[3]LI C C,HORVITZ D G.Some methods of estimating the inbreeding coefficient[J].AmJHumGenet,1953,5(2):107-117.
[4]AULCHENKO Y S,RIPKE S,ISAACS A,et al.GenABEL:an R library for genome-wide association analysis[J].Bioinformatics,2007,23(10):1294-1296.[5]QUELLER D C,GOODNIGHT K F.Estimating relatedness using genetic markers[J].Evolution,1989,43(2):258-275.
[6]周磊,初芹,劉林,等.利用微衛(wèi)星和 SNP 標(biāo)記信息進(jìn)行奶牛親子鑒定的模擬研究[J].畜牧獸醫(yī)學(xué)報,2011,42(2):169-176.
ZHOU L,CHU Q,LIU L,et al.Simulation study on paternity identification in dairy cattle with microsatellite and SNP markers[J].ActaVeterinariaetZootechnicaSinica,2011,42(2):169-176.(in Chinese)
[7]張哲,羅元宇,李晴晴,等.一種基于高密度遺傳標(biāo)記的親子鑒定方法及其應(yīng)用[J].遺傳,2014,36(8):835-841.
ZHANG Z,LUO Y Y,LI Q Q,et al.Developing and applying of a parentage identification approach based on high density genetic markers[J].Hereditas(Beijing),2014,36(8):835-841.(in Chinese)
[8]郭剛,周磊,劉林,等.利用 SNP 標(biāo)記進(jìn)行北京地區(qū)中國荷斯坦牛親子推斷的研究[J].畜牧獸醫(yī)學(xué)報,2012,43(1):44-49.
GUO G,ZHOU L,LIU L,et al.Parentage inference with single nucleotide polymorphism markers in the Chinese holstein in Beijing[J].ActaVeterinariaetZootechnicaSinica,2012,43(1):44-49.(in Chinese)
[9]ZHANG Z,TODHUNTER R J,BUCKLER E S,et al.Technical note:Use of marker-based relationships with multiple-trait derivative-free restricted maximal likelihood[J].JAnimSci,2007,85(4):881-885.
[10]VANRADEN P M.Efficient methods to compute genomic predictions[J].JDairySci,2008,91(11):4414-4423.
[11]HILL W G,SALISBURY B A,WEBB A J.Parentage identification using single nucleotide polymorphism genotypes:application to product tracing[J].JAnimSci,2008,86(10):2508-2517.
[12]SANTURE A W,STAPLEY J,BALL A D,et al.On the use of large marker panels to estimate inbreeding and relatedness:empirical and simulation studies of a pedigreed zebra finch population typed at 771 SNPs[J].MolEcol,2010,19(7):1439-1451.
[13]LOPES M S,SILVA F F,HARLIZIUS B,et al.Improved estimation of inbreeding and kinship in pigs using optimized SNP panels[J].BMCGenet,2013,14:92.
[14]ROLF M M,TAYLOR J F,SCHNABEL R D,et al.Impact of reduced marker set estimation of genomic relationship matrices on genomic selection for feed efficiency in Angus cattle[J].BMCGenet,2010,11:24.
[15]PURCELL S,NEALE B,TODD-BROWN K,et al.PLINK:a tool set for whole-genome association and population-based linkage analyses[J].AmJHumGenet,2007,81(3):559-575.
[16]LEWONTIN R C.The interaction of selection and linkage.I.General considerations;heterotic models[J].Genetics,1964,49(1):49-67.
[17]HILL W G.Estimation of linkage disequilibrium in randomly mating populations[J].Heredity(Edinb),1974,33(2):229-239.
[18]ZHAO H,NETTLETON D,DEKKERS J C.Evaluation of linkage disequilibrium measures between multi-allelic markers as predictors of linkage disequilibrium between single nucleotide polymorphisms[J].GenetRes,2007,89(1):1-6.
[19]TERWILLIGER J D,HAGHIGHI F,HIEKKALINNA T S,et al.A bias-ed assessment of the use of SNPs in human complex traits[J].CurrOpinGenetDev,2002,12(6):726-734.
[20]YANG J,BENYAMIN B,MCEVOY B P,et al.Common SNPs explain a large proportion of the heritability for human height[J].NatGenet,2010,42(7):565-569.
[21]GUO S W.Variation in genetic identity among relatives[J].HumHered,1996,46(2):61-70.
[22]GARANT D,KRUUK L E.How to use molecular marker data to measure evolutionary parameters in wild populations[J].MolEcol,2005,14(7):1843-1859.
[24]CHEN C Y,MISZTAL I,AGUILAR I,et al.Effect of different genomic relationship matrices on accuracy and scale[J].JAnimSci,2011,89(9):2673-2679.
[25]OGAWA S,MATSUDA H,TANIGUCHI Y,et al.Effects of single nucleotide polymorphism marker density on degree of genetic variance explained and genomic evaluation for carcass traits in Japanese Black beef cattle[J].BMCGenet,2014,15:15.
[26]WEIR B S,ANDERSON A D,HEPLER A B.Genetic relatedness analysis:modern data and new challenges[J].NatRevGenet,2006,7(10):771-780.
[27]ARIAS J A,KEEHAN M,F(xiàn)ISHER P,et al.A high density linkage map of the bovine genome[J].BMCGenet,2009,10:18.
[28]TORTEREAU F,SERVIN B,F(xiàn)RANTZ L,et al.A high density recombination map of the pig reveals a correlation between sex-specific recombination and GC content[J].BMCGenomics,2012,13:586.
[29]VERONEZE R,LOPES P S,GUIMARES S E,et al.Linkage disequilibrium and haplotype block structure in six commercial pig lines[J].JAnimSci,2013,91(8):3493-3501.
[30]QANBARI S,PIMENTEL E C,TETENS J,et al.The pattern of linkage disequilibrium in German Holstein cattle[J].AnimGenet,2010,41(4):346-356.
(編輯郭云雁)
Estimation of the Kinship Coefficient in Simmental Cattle Based on SNP Markers
ZHANG Jing-jing1,2,GAO Hui-jiang2,WU Yang2,ZHU Bo2,QI Xin2,GAO Xue2,ZHANG Lu-pei2,CHEN Yan2*
(1.CollegeofAnimalScienceandTechnology,JilinAgriculturalUniversity,Changchun130118,China;2.InstituteofAnimalScience,ChineseAcademyofAgriculturalSciences,Beijing100193,China)
Key words:Simmental cattle;kinship coefficient;SNP;MAF
Abstract:The objective of the study was to determine the number of SNPs which could efficiently estimate the kinship coefficient in Simmental cattle.1 059 Simmental cattle born between 2008 and 2012 year were used as the reference population.Based on the interval of the minor allele frequency (MAF),100,500,1 000,1 500,2 000,2 500 and 3 000 SNPs located in Illumina bovineHD(770 k)chip were selected to estimate individual kinship coefficient.The results showed that with the increase of the SNPs’ number,the estimation accuracy showed an increasing trend as well.Especially,when the SNPs’ number reached to 2 500,there was no significant difference between relationship coefficients estimated using 2 500 SNPs and all SNPs,and the relationship coefficients were above 0.89 between them.Furthermore,the SNPs in the same interval with different allele frequency had no significant impact on the results.It was concluded that when the number of selected SNPs reached more than 2 500,a relatively higher estimation accuracy could be obtained.Our work has built a theoretical basis for further study of the kinship coefficient with high density SNP and provides a new clue for analyzing individual kinship relationship in Simmental cattle.
doi:10.11843/j.issn.0366-6964.2016.02.008
收稿日期:2015-03-30
基金項目:國家自然科學(xué)基金(31402039);北京市自然科學(xué)基金(6154032);中國農(nóng)業(yè)科學(xué)院基本科研業(yè)務(wù)費(2014ywf-yb-4);農(nóng)業(yè)部物種資源保護(hù)(畜禽)項目(F557);中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程經(jīng)費(cxgc-ias-03);科技支撐計劃(2011BAD28B04);863項目(2013AA102505-4);中國農(nóng)業(yè)科學(xué)院院本級增量業(yè)務(wù)費(2013ZL031)
作者簡介:張靜靜(1989-),女,山東莘縣人,碩士,主要從事動物遺傳育種與繁殖研究,E-mail:zhang_jingjing89@163.com *通信作者:陳燕,E-mail:chenyan@caas.cn
中圖分類號:S823;S813.3
文獻(xiàn)標(biāo)志碼:A
文章編號:0366-6964(2016)02-0268-08