梅步俊,王志華
(1.內(nèi)蒙古河套學(xué)院農(nóng)學(xué)系,內(nèi)蒙古 巴彥淖爾 015000;2.內(nèi)蒙古河套學(xué)院土木工程系,內(nèi)蒙古 巴彥淖爾 015000;3.美國愛荷華州立大學(xué)動物科學(xué)系,美國愛荷華州 埃姆斯 50010)
動物育種中的統(tǒng)計方法
梅步俊1,3,王志華2
(1.內(nèi)蒙古河套學(xué)院農(nóng)學(xué)系,內(nèi)蒙古 巴彥淖爾 015000;2.內(nèi)蒙古河套學(xué)院土木工程系,內(nèi)蒙古 巴彥淖爾 015000;3.美國愛荷華州立大學(xué)動物科學(xué)系,美國愛荷華州 埃姆斯 50010)
現(xiàn)代動物育種中涉及大量統(tǒng)計問題。由于該領(lǐng)域研究對統(tǒng)計基礎(chǔ)依賴性強,系統(tǒng)回顧并梳理動物育種中的統(tǒng)計方法有助于研究者把握這些方法的發(fā)展脈絡(luò),汲取前人的經(jīng)驗、智慧和教訓(xùn)。本文介紹了現(xiàn)代動物育種中常見統(tǒng)計方法的主要內(nèi)容,所面臨的問題和發(fā)展趨勢,希望能對廣大育種工作者開展進一步研究奠定基礎(chǔ)。
動物育種;統(tǒng)計計算;數(shù)量遺傳;復(fù)雜性狀
10.16863 /j.cnki.1003-6377.2017.05.003
統(tǒng)計方法使家畜育種完成了從藝術(shù)到科學(xué)的變革,在這一過程中,許多科學(xué)家做出了杰出貢獻。大多數(shù)家畜育種問題涉及到一系列的定量分析方法和紛繁的數(shù)學(xué)、統(tǒng)計學(xué)計算。例如,選種選配過程可以看做是一個決策問題,可以用線性規(guī)劃求解;在海量的基因表達數(shù)據(jù)中挖掘出有生物學(xué)意義的基因表達模式實際上是模式識別問題,可以使用聚類分析;預(yù)測家畜未來的生產(chǎn)性能或育種值是典型的統(tǒng)計推斷問題,育種學(xué)家通常使用Henderson的理論解決此類問題。目前,家畜育種中的統(tǒng)計方法依然是許多學(xué)術(shù)會議的重要議題之一。
將統(tǒng)計方法應(yīng)用到家畜遺傳育種的歷史最早可以追溯到Galton(1822-1911)和Pearson(1857-1936)的研究,這些工作實際上早于孟德爾定律被重新發(fā)現(xiàn)。1889年,Galton在研究親本與后代身高之間的關(guān)系時發(fā)現(xiàn):后代的身高往往傾向與父母親身高的中間值,這一趨勢被稱為“回歸現(xiàn)象”。Galton的這項研究為“遺傳力”和“預(yù)期選擇反應(yīng)”等概念奠定了基礎(chǔ)。兩個極端親本群體性狀平均值的差異類似于選擇差,其子代群體平均值的差異等于選擇反應(yīng)。后代和親本之間的統(tǒng)計回歸是遺傳力,F(xiàn)alconer(1913–2004)將選擇響應(yīng)(即遺傳獲得量GS)對選擇差的比值稱為現(xiàn)實遺傳力[1]。同時,Galton的工作也促進了線性模型在動物育種中的應(yīng)用,即便到21世紀(jì),動物育種中使用的主要還是線性模型。但是使用非線性模型重新分析Galton的數(shù)據(jù)發(fā)現(xiàn):父-女、父-子、母-女和母-子身高的回歸在67~68英寸處有彎曲。這也說明在不知道明確原因的情況下,依然可以使用統(tǒng)計遺傳模型準(zhǔn)確地估計遺傳參數(shù)。Pearson一生寫了大量關(guān)于性狀進化的論文,Henderson在此基礎(chǔ)上發(fā)表了預(yù)測選擇偏差的著名論文。Pearson關(guān)于選擇如何影響群體方差-協(xié)方差結(jié)構(gòu)的論文深刻的影響了Henderson,Henderson發(fā)展了在正態(tài)分布假設(shè)和特定選擇強度條件下,如何計算方差減小的公式。選擇對遺傳方差的影響被稱為“Bulmer”效應(yīng)[2]。但是Pearson的公式只是近似值,只適合于候選個體沒有親緣關(guān)系和理想分布的情況。但家畜育種中,候選家畜間往往有親緣關(guān)系,信息量也不相等。如參加后裔測定的公畜可能有幾千個有記錄的后代,而青年公畜往往沒有任何后裔生產(chǎn)記錄。因此Pearson只提供了比較理想選擇方案時的近似公式。
歷史上,遺傳學(xué)面臨的一個重要問題是如何統(tǒng)一連續(xù)變異的性狀和孟德爾性狀。Toyama Kametaro(1867–1918)在研究家蠶時發(fā)現(xiàn)了第一個動物中的孟德爾性狀[3];Yule(1871–1951)第一次統(tǒng)一了連續(xù)變異和孟德爾性狀,雖然他的觀點Pearson并不認(rèn)同。Fisher和Wright無疑是現(xiàn)代家畜數(shù)量遺傳學(xué)的重要奠基人,他們也是數(shù)量遺傳學(xué)歷史上著名的牽扯個人恩怨,充斥惡意人身攻擊的Fisher–Wright學(xué)術(shù)論戰(zhàn)的當(dāng)事人[4]。Fisher(1930)提出了數(shù)量遺傳學(xué)中廣泛使用的無窮小模型(infinitesimal model)和方差分析。Wright(1921)使用通徑分析和相關(guān)分析,提出了近交系數(shù)(F);他還推導(dǎo)出孟德爾群體的特性,還包括存在突變的情況下,有限群體隨機交配時等位基因頻率的分布[5]。Wright還將物理學(xué)中描述擴散現(xiàn)象的Fokker-Planck方程(也稱為Kolmogorov向前方程)引入群體遺傳學(xué)[6]。
Fisher的無窮小模型在動物育種中居于重要地位。假設(shè)有K個位點,個體的位點k(k=1,2,…,K)貢獻A等位基因效應(yīng)aK(固定值)到基因型值u(加性值):
此處,W是隨機指示變量,0、1、2對應(yīng)該位點的aa、Aa和AA。如果群體處于哈代溫伯格(HW)平衡,三種基因型的頻率分別為(1-Pk)2、2(1-Pk)Pk和Pk2,這里Pk為位點k隨機抽取A等位基因的概率[7]。u的邊緣分布依賴于K個位點的聯(lián)合基因型概率分布。由于u是隨機變量的線性組合,如果W是相互獨立的(基因型間連鎖平衡),隨著K的增加,u的分布收斂于正態(tài)分布,但是連鎖不平衡(LD)會降低收斂率。因為u的均值和方差是有限的,K→∝時單個位點的效應(yīng)和頻率一定變得無限小,取極限時u~N(m,σu2),此處的典型值為0,σu2是加性遺傳方差(多基因)[8]。Wright使用相關(guān)分析,Malécot使用概率計算分別建立了“配子相似”概念。在此基礎(chǔ)上,20世紀(jì)60年代Henderson提出奶牛的動物模型,這個模型實際是Fisher模型的向量擴展形式,加性效應(yīng)u變?yōu)橛N值向量u,加性遺傳方差σu2變?yōu)锳σu2,此處是個體間沒有近交情況下的加性關(guān)系矩陣。A矩陣也可以反映親緣關(guān)系,其元素是兩個個體隨機抽取一個位點,其等位基因是血緣同源(Identity By Descent,IBD)概率的2倍[9]。
育種值概念的提出也得益于Fisher的另一項貢獻,即位點平均基因替代效應(yīng)。Lush在其家畜育種學(xué)課上講授了這一概念,后來Falconer也在其《數(shù)量遺傳學(xué)導(dǎo)論》一書中介紹了它。和上面相同,假設(shè)K個位點處在哈代溫伯格(HW)平衡狀態(tài),顯性效應(yīng)dk,1-pk=qk,u的平均值為點平均基因替代效應(yīng)為ak=ak+dk(qk-pk),其AA、和Aa的aa育種值分別為2qkak、(qk-pk)ak、-2pkak。個體育種值u為所有位點育種值之和。育種值依賴于HW假設(shè),其計算公式中的頻率和顯性偏差是不獨立的。因此一般情況下,只有加性效應(yīng)可以遺傳給后代,育種學(xué)家最感興趣的也是ak,狹義的u是只包含加性效應(yīng)的隨機變量(無窮小育種值),可以被定義為所有ak之和。在基因組學(xué)出現(xiàn)以前,由于觀察不到基因和等位基因效應(yīng),推斷育種值是傳統(tǒng)育種學(xué)的核心問題。直到今天,將數(shù)量遺傳學(xué)應(yīng)用到家畜育種實踐時也很少考慮基因,統(tǒng)計方法在家畜育種學(xué)中依然起著重要作用,在廣泛應(yīng)用的Henderson方法中,也只有A矩陣考慮遺傳(基因)因素。即使在基因組時代,由于使用標(biāo)記檢測QTL需要投入大量經(jīng)費,企業(yè)沒有利潤可言,因此目前對單個基因?qū)?fù)雜性狀的影響依然知之甚少[11]。
在缺乏性狀的遺傳背景知識時,數(shù)量遺傳學(xué)可以作為獲得家畜遺傳價值概括性評價的基礎(chǔ)。隨著人類對生物體代謝途徑、基因網(wǎng)絡(luò)和基因組結(jié)構(gòu)等知識的不斷增加,傳統(tǒng)數(shù)量遺傳學(xué)方法就略顯簡單。由于性狀之間遺傳和環(huán)境因素的關(guān)聯(lián)性,我們要使用統(tǒng)計方法合理的分析影響選擇的多種效應(yīng),就必須使用復(fù)雜的多元分析方法[12]。Ronald Fisher(1890–1972)奠定了自然選擇的基本理論。動物育種學(xué)認(rèn)為選擇進展和加性方差-協(xié)方差成正比,在這一觀點的啟發(fā)下,Alan Robertson(1920–1989)進一步發(fā)展了自然選擇理論,Crow、Kimura和Edwards在文章中給出了該理論較為容易理解的描述。統(tǒng)計方法也是這些自然選擇理論的基礎(chǔ),模型的參數(shù)估計強依賴于加性遺傳假設(shè)前提。如果存在非加性遺傳變異,為了在模型中考慮未知基因間復(fù)雜的交互作用,許多理論的假設(shè)都是不切實際的。由于小群體和選擇導(dǎo)致的LD使部分遺傳方差組分變得很困難。如果基因網(wǎng)絡(luò)正好處在LD中,推斷特定基因?qū)z傳方差的貢獻也會變得很麻煩[13]。變異可能產(chǎn)生于直接的代謝途徑,也可能間接來源于由LD引起的基因間的相關(guān)性。群體遺傳學(xué)創(chuàng)始人之一的Sewall Wright(1889–1988)引入通徑分析來區(qū)分直接效應(yīng)和間接效應(yīng),但是這種方法實際上需要考慮基因之間相互關(guān)系的背景知識。
現(xiàn)在,我們使用生產(chǎn)性能記錄、系譜記錄和分子標(biāo)記信息研究性狀的遺傳基礎(chǔ),推斷家畜遺傳價值,尋找基因組區(qū)域和表型之間的關(guān)聯(lián)性(即基因組選擇)。動物育種中常見的生產(chǎn)性能數(shù)據(jù)包括:肉用家畜的生長率、采食量;綿羊和山羊的剪毛量和品質(zhì);乳用家畜的產(chǎn)奶量、乳成分、繁殖性能和長壽性;多胎品種(如雞和豬)的產(chǎn)蛋量和產(chǎn)仔數(shù)[14]。家畜患病記錄(如奶牛乳房炎)往往很難獲得,常使用替代變量進行研究,如牛奶的體細(xì)胞數(shù)(SCC)、體表的寄生蟲數(shù)量。其它性狀,如生存或長壽性狀可用刪失數(shù)據(jù)統(tǒng)計方法來處理,即只知道家畜在時刻存活,時刻以后的狀態(tài)未知;再比如計數(shù)性狀(如產(chǎn)仔數(shù))或分類性狀(如產(chǎn)犢難易性,疾病發(fā)展階段)。因此,家畜育種中的統(tǒng)計模型除使用正態(tài)分布外,也使用其它分布,如使用雙指數(shù)或分布可以使分析更具魯棒性。
現(xiàn)代育種學(xué)之父Lush(1896–1982)認(rèn)為:可能所有的基因都影響復(fù)雜性狀。即使在基因組學(xué)飛速發(fā)展的今天,我們依然不太清楚大多數(shù)復(fù)雜性狀的基因數(shù)量,基因的作用機制、等位基因頻率及效應(yīng)等。統(tǒng)計方法將基因組對某個表型的全部效應(yīng)概括為“基因型值”。表型可由一些數(shù)學(xué)模型來表示,其中最重要的就是模型中的加性遺傳值部分,也被稱為育種值。但是,遺傳值或模型的其它組分不能被直接觀察到,必須由家畜個體及其親屬數(shù)據(jù)來推斷。因為線性模型易于使用,較非線性模型計算強度小,結(jié)果便于解釋、應(yīng)用,所以家畜育種中的統(tǒng)計推斷過程往往使用線性模型。如果使用大量的基因組標(biāo)記,理論上可以由此計算家畜的分子相似性,而不再需要詳細(xì)的系譜記錄。但是標(biāo)記的基因組相似性并不能完全代表致因變異的遺傳相似性,除非標(biāo)記和QTL間有強的LD。QTL也是表示基因組區(qū)域和表型有統(tǒng)計顯著性關(guān)系的抽象概念。動物育種中的標(biāo)記輔助推斷可能最早是Neiman-Sorensen和Robertson在分析牛群體變異時提出的[15]。
雖然許多性狀是多基因遺傳模式,但是標(biāo)準(zhǔn)的全基因組關(guān)聯(lián)分析(GWAS)卻基于表型和單個標(biāo)記間的回歸分析。GWAS結(jié)果往往不會出現(xiàn)大量的統(tǒng)計顯著性變異,只能解釋部分性狀變異。不能拒絕GWAS中的零假設(shè)往往被認(rèn)為是多基因模型的佐證,但是從因果論證的角度看是不充分。動物育種數(shù)據(jù)集可能非常大,如奶牛泌乳記錄,且是多元變量(同一模型同時考慮多個性狀),多數(shù)變量是正態(tài)分布(牛奶中的體細(xì)胞數(shù)濃度和乳房炎指標(biāo)對數(shù)變換后近似為正態(tài)分布),但是少數(shù)為非正態(tài)分布(如離散性狀)。數(shù)據(jù)結(jié)構(gòu)為橫斷面或縱向數(shù)據(jù)(肉雞生長曲線),而且極度不平衡,存在不隨機缺失數(shù)據(jù)。例如,由于選擇、生殖障礙或疾病,有第一泌乳期數(shù)據(jù)的奶牛不一定有第二泌乳期數(shù)據(jù)[16]。由于一些優(yōu)秀公牛有更多的后代,數(shù)據(jù)不完全是隨機的,遺傳效應(yīng)的真值不能從環(huán)境效應(yīng)中完全區(qū)分出來。家畜育種中的另一個難題是限性性狀。
Lush首先將數(shù)學(xué)模型用在動物育種中,他使用通徑分析處理模型中的隱變量。動物育種中的模型往往包括固定效應(yīng)和隨機效應(yīng)。隨機效應(yīng)包括無窮小模型的,或加性遺傳模型的顯性和上位效應(yīng),群效應(yīng)、重復(fù)測量數(shù)據(jù)的永久環(huán)境效應(yīng)、窩效應(yīng)。隨機效應(yīng)是表型之間相關(guān)和重復(fù)測量數(shù)據(jù)之間相關(guān)性的原因。隨機效應(yīng)的分布由遺傳和環(huán)境因素的分布參數(shù)(方差和協(xié)方差)決定??梢詫⒐笞鳛楣潭ㄐ?yīng)也可以作為隨機效應(yīng),除非公畜完全近交,公畜的育種值是固定值,但形成配子時不同的等位基因是隨機抽樣的,會導(dǎo)致遺傳上不同的后代。將公畜作為隨機效應(yīng)可以估計育種值,估計的均方誤差更穩(wěn)定,減少預(yù)測的過擬合,甚至可以估計沒有記錄個體的育種值。動物模型中需要估計育種值的個體超過樣本數(shù),在基因組時代情況依然一樣。但基因組分析模型與數(shù)量遺傳基本假設(shè)有沖突,基因組分析模型使用固定的基因型數(shù)據(jù)和隨機標(biāo)記效應(yīng)。大多數(shù)動物育種模型認(rèn)為數(shù)據(jù)是正態(tài)的,有大量的加性基因和微小的替代效應(yīng)。但是如果認(rèn)為有無限多的位點或等位基因,發(fā)現(xiàn)顯著效應(yīng)的概率就應(yīng)該是0,但是這明顯與分子生物學(xué)結(jié)果不符,所以MAS(輔助標(biāo)記選擇)將QTL概念引入到動物育種中[17]。
理論上有兩種非加性基因效應(yīng),顯性和上位效應(yīng)。Comstock和Robinson提出北卡羅林那設(shè)計Ⅰ、Ⅱ、Ⅲ估計基因平均顯性效應(yīng)。實際育種中,顯性效應(yīng)主要應(yīng)用在交配方案問題。但是當(dāng)顯性效應(yīng)作為隨機效應(yīng)時,因為難以收集攜帶兩個家系等位基因的親屬數(shù)據(jù),如全同胞或堂(表)兄妹數(shù)據(jù),所以很難獲得精確的方差估計。在非近交情況下,加性方差可由A陣構(gòu)建的顯性關(guān)系矩陣估計,在近交情況下計算較為復(fù)雜。雜交品種往往使用固定效應(yīng)模型,也可以使用SNP標(biāo)記估計顯性基因組方差,但是由于標(biāo)記不等于QTL,標(biāo)記顯性方差和遺傳方差是有區(qū)別的。假設(shè)兩個等位基因之間無顯性,且處于哈代溫伯格平衡和LE狀態(tài),表型和兩個位點等位基因數(shù)的線性回歸模型為:
此處X1和X2表示給定位點A等位基因的數(shù)量,E(.|.)是條件期望[18]。如果回歸系數(shù)β12為0,則模型變?yōu)榧有阅P?。位點1的等位基因替代效應(yīng)為:
上式表示其決定于位點2的拷貝數(shù)。整個群體該性狀的平均值為:
因此
和育種值類似,上位效應(yīng)也依賴于等位基因頻率。除非β12非常大,當(dāng)一個等位基因為稀有基因時,基因頻率的改變對平均值的影響主要依賴于加性效應(yīng)項。即使上位效應(yīng)對性狀有影響,大部分遺傳方差也是加性的。因為復(fù)雜性狀實際上是不同基因編碼的酶協(xié)同代謝反應(yīng)的結(jié)果,Michaelis-Menten動力學(xué)表明底物濃度和反應(yīng)速率之間是非線性關(guān)系,并以非線性方式影響基因產(chǎn)物。近來的文獻報道了使用基因組數(shù)據(jù)發(fā)現(xiàn)數(shù)量性狀中大量基因上位作用的證據(jù)。研究中輕易忽略高階上位作用是不正確的,Taylor和Ehrenreich報道酵母中五個基因之間的交互作用。但是Hill等指出大量上位作用的的上位方差非常小,可能的原因是:如果上位作用具有重要的生物學(xué)意義,但是上位效應(yīng)方差卻小于加性效應(yīng)方差的原因可能是方差組分解釋遺傳結(jié)構(gòu)的能力是有限度的[19]。Lush指出因為基因間的重組,所以針對上位效應(yīng)的選擇是無效的[20]。因此,育種學(xué)家也主要關(guān)注育種值對遺傳進展的影響,而忽略上位作用在育種中的作用。雖然,F(xiàn)isher早已提出上位作用的概念,但直到Cockerham和Kempthorne才將這種交互作用剖分為上位組分。Cockerham使用正交多項式,Kempthorne使用IBD概率,他們假設(shè)在大的隨機群體,且不存在連鎖的情況下研究上位作用。上位方差依據(jù)影響性狀的位點數(shù),可以被剖分為若干正交組分。例如兩個位點時,上為方差是加性×加性、加性×顯性、顯性×加性、顯性×顯性效應(yīng)之和。Henderson使用以上結(jié)論推斷顯性和上位遺傳效應(yīng),并且用BLUP預(yù)測總的遺傳值。
20世紀(jì)60年代,許多家畜或家禽的母體遺傳效應(yīng)逐漸引起育種學(xué)家的興趣。20世紀(jì)80年代,動物育種學(xué)的主要研究內(nèi)容是不同環(huán)境的方差異質(zhì)性。表觀遺傳學(xué)一直沒有引起統(tǒng)計家畜育種學(xué)家的注意,但是Neugebauer建立了以系譜為基礎(chǔ)的模型,考慮了父系和母系印記加性效應(yīng)及其協(xié)方差,發(fā)現(xiàn)基因組印記可以解釋高達25%的加性方差。
Lush使用通徑系數(shù),建立了評估奶牛公畜遺傳值的公式,該模型假設(shè)遺傳和環(huán)境方差是已知的。Robertson研究表明Lush的統(tǒng)計量是群體信息和數(shù)據(jù)的加權(quán)平均值,實際上體現(xiàn)了貝葉斯統(tǒng)計思想。假設(shè)公畜的傳遞力(TA)為s~N(m,vs),如果公畜有n個后代其平均生產(chǎn)性能減去群體平均值為估計為加群平均數(shù):
頻率學(xué)派和以自然函數(shù)為基礎(chǔ)的統(tǒng)計方法在二十世紀(jì)的動物育種領(lǐng)域中居于主要地位。MCMC方法的出現(xiàn)解決了計算高維積分的難題,貝葉斯方法的靈活性和有效性也因此完美的體現(xiàn)在動物育種中。應(yīng)用最廣泛的MCMC方法是Gibbs方法,但是Gibbs方法只適用于分布已知的某些特定的情況[22]。Sorensen首次用Gibbs模擬選擇過程中加性遺傳方差的變化。隨后,貝葉斯統(tǒng)計方法被廣泛的用在遺傳學(xué)的許多領(lǐng)域,如QTL檢測、基因定位、系統(tǒng)發(fā)育分析、序列比對、群體分化和動植物基因組選擇等問題[23]。一些非線性(nolinear)方法也被引入動物育種中用來分析分類或計數(shù)性狀數(shù)據(jù)、生存數(shù)據(jù)和縱向數(shù)據(jù),雖然非線性方法在理論上準(zhǔn)確性更高,但是在實際應(yīng)用中,由于計算機計算過程中的舍入誤差和非線性往往只存在與數(shù)據(jù)集的兩端等原因,非線性模型并不比線性模型更有優(yōu)勢?;旌夏P停╩ixture Model)和穩(wěn)健分布(robust distribution)也在二十世紀(jì)出現(xiàn)在動物育種研究中。除非在實驗室研究中,生產(chǎn)實踐中動物育種過程也極少出現(xiàn)完全隨機交配的理想情況,畜禽群體在歷史上的選擇過程也不完全清楚。選擇和選配如何影響遺傳參數(shù)估計和預(yù)測育種值的準(zhǔn)確性等問題依然是育種學(xué)家面臨的重要問題。
隨著全基因組測序技術(shù)的發(fā)展,大量的二等位基因標(biāo)記,如SNP標(biāo)記數(shù)據(jù)出現(xiàn)動物育種中,動物育種學(xué)也因此進入基因組選擇時代[24]。Meuwissen首先提出了基因組選擇的Bayes A和BayesB方法(Bayes A和BayesB方法的思想或原理之前已經(jīng)用于解決動物育種問題),其主要過程是通過將數(shù)據(jù)集拆分為訓(xùn)練集(擬合模型)和測試集(預(yù)測),由訓(xùn)練集建立模型估計標(biāo)記效應(yīng)或育種值,預(yù)測測試集的表型值等[25]。Meuwissen的工作為其后的貝葉斯基因組預(yù)測奠定了基礎(chǔ),其后又出現(xiàn)了許多貝葉斯線性回歸模型,如 Bayesian Lasso、Bayes C和 Bayes R,這些回歸模型基本相同,只是標(biāo)記先驗分布的假設(shè)不同。Meuwissen的另一項貢獻是在動物育種中引入了交叉驗證;為了整合非測序家畜數(shù)據(jù)和測序家畜數(shù)據(jù),提出單步BLUP(SS-BLUP)方法,但是這些方法并沒有考慮非加性遺傳方差,而檢測模型的交互作用需要密集的計算。由于上位效應(yīng)的回歸系數(shù)接近于0,問題或模型縮減(shrink),但是基因組分析無疑比傳統(tǒng)的基于表型數(shù)據(jù)的數(shù)量遺傳學(xué)分析存在更多的交互作用檢測問題。此外,近幾年來,再生核希爾伯特空間回歸(RKHS)和神經(jīng)網(wǎng)絡(luò)方法被用來檢測非加性效應(yīng)。實際上,廣義上講,BLUP和G-BLUP也是RKHS的特例。
[1]Hill,W.G.,Estimation of realised heritabilities from selection experiments.II.Selection in one direction [J].Biometrics,1972,28(3):p.767-80.
[2]Bulmer,M.G.,The effect of selection on genetic variability:a simulation study[J].Genet Res,1976,28 (2):p.101-17.
[3]Onaga,L.,Toyama Kametaro and Vernon Kellogg[J].silkworm inheritance experiments in Japan,Siam, and the United States,1900-1912.J Hist Biol,2010,43(2):p.215-64.
[4]Dekkers,J.C.,Application of genomics tools to animal breeding[J].Curr Genomics,2012,13(3):p.207-12.
[5]Wright,H.B.,E.J.Pollak,and R.L.Quaas,Estimation of variance and covariance components to determine heritabilities and repeatability of weaning weight in American Simmental cattle[J].J Anim Sci, 1987,65(4):p.975-81.
[6]Gianola,D.and G.J.Rosa,One hundred years of statistical developments in animal breeding[J].Annu Rev Anim Biosci,2015,(3):p.19-56.
[7]Hill,W.G.,Applications of population genetics to animal breeding,from wright,fisher and lush to genomic prediction[J].Genetics,2014,196(1):p.1-16.
[8]Hartley,H.O.and J.N.Rao,Maximum-likelihood estimation for the mixed analysis of variance model[J]. Biometrika,1967,54(1):p.93-108.
[9]Haley,C.S.and S.A.Knott,A simple regression method for mapping quantitative trait loci in line crosses using flanking markers[J].Heredity(Edinb),1992,69(4):p.315-24.
[10]Qanbari,S.,et al.,Classic selective sweeps revealed by massive sequencing in cattle[J].PLoS Genet, 2014,10(2):p.e1004148.
[11]Nishio,M.and M.Satoh,Including dominance effects in the genomic BLUP method for genomic evaluation[J].PLoS One,2014,9(1):p.e85792.
[12]McAdam,A.G.and S.Boutin,Maternal effects and the response to selection in red squirrels[J].Proc Biol Sci,2004,271(1534):p.75-9.
[13]Bijma,P.,Estimating indirect genetic effects:precision of estimates and optimum designs[J].Genetics, 2010,186(3):p.1013-28.
[14]Wang,C.S.,et al.,Response to selection for litter size in Danish Landrace pigs:a Bayesian analysis[J]. Theor Appl Genet,1994,88(2):p.220-30.
[15]Lee,Y.and J.A.Nelder,Analysis of ulcer data using hierarchical generalized linear models[J].Stat Med, 2002,21(2):p.191-202.
[16]Meyer,K.and M.Kirkpatrick,Better estimates of genetic covariance matrices by"bending"using penalized maximum likelihood[J].Genetics,2010,185(3):p.1097-110.
[17].Lander,E.S.and D.Botstein,Mapping mendelian factors underlying quantitative traits using RFLP linkage maps[J].Genetics,1989,121(1):p.185-99.
[18]Hill,W.G.,M.E.Goddard,and P.M.Visscher,Data and theory point to mainly additive genetic variance for complex traits[J].PLoS Genet,2008,4(2):p.e1000008.
[19]Huang,W.,et al.,Epistasis dominates the genetic architecture of Drosophila quantitative traits[J].Proc Natl Acad Sci U S A,2012,109(39):p.15553-9.
[20]Taylor,M.B.and I.M.Ehrenreich,Genetic interactions involving five or more genes contribute to a complex trait in yeast[J].PLoS Genet,2014,10(5):p.e1004324.
[21]Zhang,Q.,et al.,[Comparison of MIVQUE and REML with Monte Carlo simulation[J].Yi Chuan Xue Bao,1995,22(6):p.424-30.
[22]Gjoen,H.M.,H.Simianer,and B.Gjerde,Efficiency of estimation of variance and covariance components from full-sib group means for continuous or binary records[J].J Anim Breed Genet,1997,114(1-6):p. 349-62.
[23]Blasco,A.,The Bayesian controversy in animal breeding[J].J Anim Sci,2001,79(8):p.2023-46.
[24.]Brown,P.O.and D.Botstein,Exploring the new world of the genome with DNA microarrays[J].Nat Genet,1999,21(1 Suppl):p.33-7.
[25].Hayes,B.J.,et al.,Invited review:Genomic selection in dairy cattle:progress and challenges[J].J Dairy Sci,2009,92(2):p.433-43.
Statistical Methods in Animal Breeding
MEI Bu-jun1,3,WANG Zhi-hua2
(1.Agricultural Department,Hetao College,Bayannur 015000,China;2.Department of Civil Engineering,Hetao College,Bayannur 015000,China;3.Department of Animal Science,Iowa State University,Iowa 50010,USA)
Modern animal breeding involves a large number of statistical problems.Because researchers in this field require the foundation of statistical knowledge,a systematic review of the development of statistical methods in animal breeding will allow researchers to take advantage of previous experience and lessons.This article discusses the basic principles of common statistical methods,problems and trends in animal breeding, hoping to provide a foundation for further study of breeders.
animal breeding;statistical calculation;quantitative genetic;complex trait
S813
A
1003-6377(2017)05-0014-07
國家自然科學(xué)基金項目(31460594);河套學(xué)院教學(xué)研究項目(HTXYJZ14005);國家留學(xué)基金委項目(201308155140)
梅步?。?978-),男,副教授,研究方向:統(tǒng)計基因組學(xué)。E-mail:meibujun@163.com
2017-06-12,
2017-07-18