薛周艤源,宋顯威,吳林慧,王露珍,崔家安,孫章健,張 政,馬云龍(華中農(nóng)業(yè)大學(xué) 農(nóng)業(yè)動物遺傳育種與繁殖教育部重點實驗室, 武漢 430070)
人工選擇是畜禽遺傳改良的重要手段,是使畜禽體型外貌、行為習(xí)慣明顯區(qū)別其野生祖先,肉蛋奶等重要經(jīng)濟性狀不斷被選育提高的根本動力,表現(xiàn)為優(yōu)勢等位基因頻率、連鎖不平衡程度等基因組結(jié)構(gòu)特征的變化[1-4]。因此,揭示選擇作用造成表型變化的潛在遺傳學(xué)基礎(chǔ)、定位與經(jīng)濟性狀關(guān)聯(lián)的主效基因,對于畜禽遺傳改良具有重要的意義。這種由選擇作用造成的基因組結(jié)構(gòu)特征變化被稱為選擇信號(selection signatures or selection footprints)[5-7]。其主要特征:(1)被選擇位點極端的等位基因頻率;(2)被選擇區(qū)域長范圍擴展單倍型純合;(3)群體分化。由于基因組核苷酸位點間不同的連鎖不平衡程度,被選擇等位基因與其緊密連鎖的基因在選擇過程中呈現(xiàn)頻率的跟隨變化被稱為“搭便車效應(yīng)”(hitchhiking effect);同一基因座上,未被選擇等位基因及其連鎖基因的頻率降低現(xiàn)象被稱為“選擇性清掃”(selective sweep)。兩者是選擇信號的不同表述方式,體現(xiàn)的群體遺傳學(xué)現(xiàn)象相同[8]。
隨著分子標(biāo)記與計算機技術(shù)的迅猛發(fā)展,目前畜禽全基因組選擇信號的研究已經(jīng)成為畜禽群體基因組學(xué)研究的熱點,相關(guān)研究報道幾乎涵蓋了全部豬、牛、羊、雞等畜禽品種[1, 3, 9-12],理論體系不斷完善、統(tǒng)計方法推陳出新。基于選擇信號分析的基因定位,圍繞畜禽重要經(jīng)濟性狀揭示了一批潛在的功能候選基因,為畜禽遺傳改良提供了一批潛在的分子標(biāo)記位點,豐富了畜禽重要經(jīng)濟性狀的遺傳學(xué)基礎(chǔ)。本文旨在綜述目前畜禽基因組選擇信號檢驗統(tǒng)計量的類別以及存在的一些統(tǒng)計學(xué)問題與解決辦法,以期為進一步拓展選擇信號的研究思路提供參考。
根據(jù)被選擇等位基因或單倍型的初始頻率,選擇信號可分為經(jīng)典選擇信號(hard sweep, classic selective sweep or standard selective sweep)和溫和選擇信號(soft sweep)[8, 13]。理論上認(rèn)為經(jīng)典選擇信號在適應(yīng)性進化過程中,基因組上新產(chǎn)生的有利突變(beneficial mutation)將會在恒定選擇壓力的作用下迅速在群體中擴散并最終固定。然而,研究表明,基因組選擇信號的形成不可能全部源自新的有利突變,這在畜禽遺傳改良中體現(xiàn)的尤為明顯;基于有限的群體規(guī)模、較短的育種時間與極低的基因突變頻率,突然變化的選擇壓力造成的基因組特征變化,不大可能完全符合經(jīng)典選擇信號理論的期望[8]。因此,相對于經(jīng)典選擇信號理論,溫和選擇信號模型被提出。溫和選擇信號理論認(rèn)為,在適應(yīng)性進化過程中,選擇壓力突然變化造成的快速適應(yīng)性進化相對于經(jīng)典選擇信號模型,更有可能來自于群體本身已經(jīng)產(chǎn)生且具有一定等位基因頻率的一個或多個遺傳突變(standing genetic variation)[14]。
根據(jù)被選擇等位基因或單倍型頻率的變化方向,選擇又可以被分為正向選擇(positive selection)、負(fù)向選擇(negative selection)和平衡選擇(balancing selection)[1, 5, 15]。正向選擇是選擇中最常見的一種形式,當(dāng)群體中出現(xiàn)新的有利突變時,該位點對應(yīng)的適合度將從一個極端向著另一個極端轉(zhuǎn)化。在這種適應(yīng)性進化的過程中,選擇作用是有利突變位點方向性進化的潛在驅(qū)動力,因此,正向選擇也被稱為方向性選擇(directional selection)。目前,絕大多數(shù)的選擇信號檢驗統(tǒng)計量均圍繞其構(gòu)建與發(fā)展[16]。負(fù)向選擇是指群體中的某種表型性狀不再適應(yīng)目前環(huán)境或育種需求時,與該性狀相關(guān)聯(lián)的等位基因頻率將會被選低或淘汰的過程。通常該類等位基因所關(guān)聯(lián)的表型性狀對群體在當(dāng)前環(huán)境下的生存和繁衍是不利的,因此也被稱為凈化選擇(purifying selection)[17]。當(dāng)一個基因座上,兩個等位基因均表現(xiàn)出相同的適應(yīng)性時,群體中的這些位點將始終在選擇的作用下保持一定的遺傳多態(tài)、處于一定的動態(tài)平衡,這一類選擇作用被稱為平衡選擇[18]。此外,同物種群體不同亞群之間,由于偶然或其它一些主觀因素,造成影響某些性狀的潛在遺傳位點向著同樣的方向被選擇的過程被稱為平行選擇(parallel selection)[19]。而選擇作用使影響某些性狀的潛在遺傳位點在不同的亞群中向著不同的方向進化則被稱為歧化選擇(divergent selection),表現(xiàn)為不同等位基因受到選擇的作用[20]。
分子生物學(xué)技術(shù)的迅速發(fā)展在很大程度上促進了選擇信號檢驗統(tǒng)計量的開發(fā)與應(yīng)用。針對單個物種,根據(jù)使用基因組信息來源的差異,選擇信號檢測的方法可以被分為4大類:基于等位基因頻率譜的方法(allele frequency spectrum based on methods);基于連鎖不平衡的方法(linkage disequilibrium based on methods);基于群體分化的方法(population differentiation based on methods)和基于復(fù)合策略的檢驗統(tǒng)計量方法(combining statistics)。
基因型頻率和基因頻率的改變是選擇作用在基因組上最直接的體現(xiàn)。所謂位點頻率譜(site-frequency spectrum)就是指某種等位基因頻率在基因組上某個目標(biāo)區(qū)域內(nèi)出現(xiàn)的頻繁程度[21]。依據(jù)中性分子進化理論,標(biāo)準(zhǔn)的中性模型包含群體中個體之間隨機交配,有效群體大小固定不變,不存在群體分離等基本假設(shè)。滿足上述假設(shè)條件的模型,位點頻率譜Xi的期望值是1/i,其中,i代表新突變等位基因在研究群體中的頻數(shù)。通俗地說,標(biāo)準(zhǔn)的中性群體理論上存在廣泛的遺傳多態(tài),當(dāng)突變發(fā)生時總能夠被維持在一個較低的頻率。只有當(dāng)群體基因組上出現(xiàn)或存在有利突變時,選擇才會發(fā)生作用,從而產(chǎn)生所謂的選擇性清除或“搭便車”效應(yīng)。目前,許多經(jīng)典的選擇信號檢測方法都是基于位點頻率譜構(gòu)建,如:Tajima’s D[22];Fu and Li’s D, F, D*and F*[5];Fay and Wu’s H[5];CLR[23]和ZHp[24]。
目前研究表明,基于位點頻率譜的方法對已經(jīng)固定的選擇信號具有較高的檢測效力,其中CLR方法檢驗效力高于其它基于位點頻率譜的方法[25]。其根本原因主要包括兩個方面:(1)通過比較檢測窗口位點頻率譜與全基因組范圍頻率譜的差異,在一定程度上避免了種群歷史的干擾;(2)基于滑動窗口的策略,間接利用了連鎖不平衡信息并消除了漂變等噪音的干擾。其核心統(tǒng)計量構(gòu)建為:
染色體上不同基因座位之間的相關(guān)性被定義為基因的連鎖不平衡程度。隨著標(biāo)記間距的增加,位點間的連鎖不平衡程度將會逐漸降低。因此,在基因組上可以觀察到選擇作用造成的不同長度的擴展單倍型純合?;谏鲜鎏卣餮苌隽艘幌盗羞x擇信號的檢測方法,主要的代表有EHH[26],iHS[27],XPEHH[7],OmegaPlus[28]和nSL[29]。其基本原理是:與有利突變緊密連鎖的中性位點會由于選擇作用在基因組上形成高頻率的核心單倍型,以其為中心向基因組兩側(cè)擴展會形成長范圍的擴展單倍型。然而隨著與有利突變間距的增加,連鎖不平衡程度會相應(yīng)衰減,在一定范圍內(nèi)各擴展單倍型純合的總和占核心單倍型純合的比例可以被用來檢測基因組范圍內(nèi)的選擇作用。其核心統(tǒng)計量構(gòu)建為:
其中,ct表示核心單倍型t的數(shù)目;eti表示圍繞核心單倍型t,其擴展單倍型i的數(shù)目;s是所有擴展單倍型的總數(shù)。研究表明,基于擴展單倍型純合思想的方法,對于正在進行或者即將固定的選擇信號具有較高的檢測效力[7]。其根本原因在于利用基因組連鎖不平衡信息,是以單倍型為單位,相對于單位點方法與位點頻率譜的方法增加了選擇信號區(qū)域的多態(tài)。
假如群體進化歷史清楚,等位基因衍生的先后順序能夠準(zhǔn)確區(qū)分,那么通過比較祖先等位基因和新產(chǎn)生的等位基因所在擴展單倍型,計算其關(guān)于遺傳距離的積分將有助于選擇信號的精確檢驗。基于上述設(shè)想,iHS統(tǒng)計量被構(gòu)建出來。然而,實際應(yīng)用表明,基因組選擇存在反復(fù)性,無論新產(chǎn)生的等位基因,還是祖先等位基因,均可能成為選擇的潛在作用位點。因此,iHS統(tǒng)計量的絕對值常在實際的研究中被使用,旨在揭示選擇信號背后的功能基因[27]。nSL與iHS統(tǒng)計量的構(gòu)建基本一致,在模擬數(shù)據(jù)的研究中表現(xiàn)也極為相近,主要用于不完全選擇信號的檢測[29]。相比于其它擴展單倍型純合的方法,OmegaPlus方法主要在于充分利用了位點間連鎖不平衡的信息[28]。
同一物種不同群體之間由于環(huán)境不同、選擇目標(biāo)不同,不同群體間基因組等位基因頻率將會表現(xiàn)出歧化選擇的效應(yīng)。這種現(xiàn)象在相同基因座位不同等位基因均受到選擇時表現(xiàn)尤為明顯,即選擇加速群體分化。因此,不同群體同一等位基因頻率存在的差異程度大于兩個群體處于中性條件下的期望時,基于群體分化的方法就可以拒絕中性假設(shè)而推斷該位點存在選擇作用?;谏鲜黾僭O(shè),1973年Lewontin和Krakauer[30]在Wright[31]固定指數(shù)(FST)的基礎(chǔ)上首先提出了利用群體比較思想構(gòu)建的單位點選擇信號檢驗統(tǒng)計量。在其后的幾十年里,F(xiàn)ST得到了不同程度的發(fā)展,其中典型的代表有Weir和Cockerham[32]FST, Akey等[33]FST和Gianola等[34]FST等。上述FST方法普遍采用基因組單位點掃描策略,統(tǒng)計量取值范圍為0~1,1表示群體間完全分離的位點,0表示在群體之間完全沒有分化的位點。由于單位點估計的原因,該類方法容易受到遺傳漂變等因素的影響,對種群歷史因素的穩(wěn)健性相對較低。為避免假陽性的發(fā)生,通常采用滑動窗口的策略降低上述因素的干擾,增加選擇信號檢測的準(zhǔn)確性[25]。
基于群體分化的思想,除固定指數(shù)系列方法外,群體間選擇信號的檢測利用擴展單倍型純合與位點頻率譜的思想也衍生出了一系列新的方法,如XPEHH[7],XPCLR[35],hapFLK[36],LSBL[37]和3p-CLR[38]。XPEHH統(tǒng)計量通過比較兩個群體同一區(qū)域的長范圍單倍型純合情況,鑒定群體間由于選擇作用造成的分化現(xiàn)象。當(dāng)XPEHH為正值時,表示選擇發(fā)生在觀測群體中;相反,選擇則發(fā)生在參考群體中。由于統(tǒng)計量能夠通過正負(fù)值反映選擇發(fā)生的群體,所以該方法嚴(yán)格意義上應(yīng)該屬于基于連鎖不平衡信息的品種內(nèi)選擇信號檢測方法[7]。然而,當(dāng)兩個群體在基因組某一區(qū)域均受到選擇作用時,該方法不具任何檢測效力[25]。與XPEHH方法不同,Chen等[35]綜合位點頻率譜思想,通過比較不同群體多個位點等位基因頻率譜的差異,提出了XPCLR檢驗統(tǒng)計量。模擬研究發(fā)現(xiàn),在遷移率較高的情況下,選擇位點分化程度低的群體,其檢測效力有限;但是對遷移率低、群體結(jié)構(gòu)簡單的資料,XPCLR表現(xiàn)出較高的檢測效力[25, 39]。相比于上述兩種方法,hapFLK方法將群體間位點頻率譜差異的思想拓展到了群體間單倍型等位基因頻率差異的層面[36],LSBL和3p-CLR則將兩群體位點頻率譜差異延伸到3個群體之間的比較[37-38]。
綜合利用選擇信號的全部基因組特征信息,更加全面、準(zhǔn)確地揭示基因組范圍內(nèi)的選擇信號,是選擇信號方法研究的重要方向,這在一定程度上促進了復(fù)合方法的發(fā)展。其主要思想包括兩個方面:(1)基于相同理論基礎(chǔ)的選擇信號方法能夠相互驗證從而避免選擇信號假陽性的發(fā)生;(2)不同理論基礎(chǔ)的選擇信號方法能夠互補,全面、徹底地揭示基因組選擇信號。其中主要的代表包括CMS[40]、Meta-SS[41]、CSS[42]與DCMS[25]方法。
隨著科學(xué)史這一學(xué)科自身的不斷發(fā)展,研究者不僅認(rèn)識到用現(xiàn)代自然科學(xué)的門類劃分、內(nèi)涵外延去規(guī)范古代的思想、行為與成果,難免有削足適履、牽強定性之感,而且還存在著割裂總體、斬其筋骨之弊.而這一弊害之嚴(yán)重,不僅僅是就所謂自然科學(xué)各分支相互間存在著的聯(lián)系而論,實乃關(guān)系到人類文明史、社會發(fā)展史這一足以涵括史學(xué)全部范疇的總體.
Grossman等[40]基于現(xiàn)有統(tǒng)計方法,利用人類群體已知的演化歷史,通過溯祖模擬,在人類群體基因組選擇信號的研究中構(gòu)建了CMS統(tǒng)計量,其檢驗效力和準(zhǔn)確性均得到明顯提高。然而,絕大多數(shù)畜禽品種的歷史背景通常較為復(fù)雜;不斷變化的選擇壓力、瓶頸效應(yīng)與群體膨脹使得人工選擇背景下的畜禽群體很難完全移植CMS統(tǒng)計量的構(gòu)建思路。為了充分利用現(xiàn)有選擇信號檢測方法,同時避免合并過程中由于相似理論基礎(chǔ)可能造成的假陽性,Ma等[25]開發(fā)了DCMS方法,該方法能夠在控制假陽性的條件下,有效提高選擇信號的檢驗效力。此外,在畜禽選擇信號復(fù)合策略的研究中,Utsunomiya等[41]基于CMS方法的思想構(gòu)建了復(fù)合統(tǒng)計量meta-SS;該方法利用Whitlock提出的算法對單個統(tǒng)計量的P值進行合并。相似地,Randhawa等[42]提出另一個基于統(tǒng)計量排序的選擇信號復(fù)合策略CSS,并成功地應(yīng)用于牛和綿羊群體的選擇信號檢測。
數(shù)據(jù)模擬是統(tǒng)計方法研究的重要組成部分,有助于模擬各種真實數(shù)據(jù)無法滿足的群體基因組結(jié)構(gòu)特征。目前,群體遺傳學(xué)中基因組數(shù)據(jù)模擬主要包含兩種不同的策略:正向模擬(forward simulation)和溯祖模擬(coalescent simulation)。所謂正向模擬是指:利用已知群體結(jié)構(gòu)、交配方式等基本信息,使用孟德爾遺傳學(xué)原理與群體遺傳學(xué)統(tǒng)計理論來模擬未來的群體數(shù)據(jù)信息。與“正向”模擬策略相反,Kingman基于群體遺傳學(xué)中“血統(tǒng)同源性”(identity by descent)的觀點,提出了“回溯”模擬策略并進行了詳細(xì)的論述,這就是著名的溯祖理論[43-45]。其核心思想為如果一個符合Wright-Fisher模型的群體中,群體大小恒定,沒有重組,那么群體任何一個基因座上N條不同的序列均可以追溯到一個共同的祖先;在這個溯祖的過程中,突變造成的基因多態(tài)性將會逐漸消失。與“正向”模擬相比,對于人類群體這樣具有清楚演化歷史的生物類群,“溯祖”模擬相對更加合理;然而對于畜禽等遺傳背景較為復(fù)雜的生物類群,基于經(jīng)驗的“正向”模擬或許更加可靠[46]。
Hudson[47]圍繞中性檢驗開發(fā)了ms模擬軟件;基于溯祖理論體系,該軟件可以模擬中性進化理論下的基因組數(shù)據(jù),但是不能模擬選擇作用。隨著分子標(biāo)記技術(shù)與計算機技術(shù)的發(fā)展,選擇信號方法研究得到了更加深入的發(fā)展;這促使了該類軟件中選擇模塊的開發(fā)。目前,模擬程序主要是針對單位點的選擇模擬,考慮群體遺傳學(xué)因素相對簡單,不具備多群體選擇作用的模擬。msms軟件在ms軟件的基礎(chǔ)上引入了單位點選擇模型,并延伸出多群體結(jié)構(gòu)模型的模擬[48]。與msms軟件相似,simuPOP和cosi也能夠很好地用于群體數(shù)據(jù)模擬。其中simuPOP是正向模擬的代表[49],而cosi是人類群體中溯祖模擬使用最廣泛的軟件[7]。上述模擬軟件的開發(fā),在一定程度上促進了選擇信號方法的發(fā)展,為不同方法的比較提供了相對合理公平的平臺。
判斷計算統(tǒng)計量偏離零假設(shè)的可能性就是所謂的顯著性檢驗,旨在判斷原假設(shè)與真實情況是否存在顯著性差異。對于選擇信號檢驗統(tǒng)計量,即判斷由于選擇作用造成基因組特征變化是否顯著偏離中性理論期望。通常情況下,顯著性檢驗需要基于一個可以計算相伴概率的已知分布。但是,由于不同的理論基礎(chǔ)與算法設(shè)計,絕大多數(shù)選擇信號檢驗統(tǒng)計量沒有明確的理論分布。因此,使用多大的檢驗閾值,如何控制假陽性和假陰性始終是困擾選擇信號顯著性檢驗的問題。目前,選擇信號顯著性檢驗方法主要包括基于隨機重排的顯著性檢驗方法、極值判斷法、基于中性模擬的顯著檢驗方法和基于已知分布的顯著性檢驗方法。
3.2.1 基于隨機重排的顯著性檢驗方法 隨機重排構(gòu)建經(jīng)驗分布是QTL定位中的經(jīng)典方法,主要通過打亂表型與個體的對應(yīng)關(guān)系來獲得統(tǒng)計量的經(jīng)驗分布[37, 46]。相對于基因與表型的關(guān)聯(lián),與選擇作用關(guān)聯(lián)的是基因組特征的變化與群體之間的差異。因此選擇信號經(jīng)驗分布的構(gòu)建針對群體內(nèi)和群體間的方法分別可以為:對基因組進行隨機重排與對群體進行隨機重排。對于群體重排的方法,兩個群體之間應(yīng)該具備近似的樣本數(shù)目并保證每個群體有足夠的樣本量,否則樣本大小造成的偏倚在很大程度上會影響最終顯著性檢驗的效果。
3.2.2 極值判斷法 基于極端值(outlier)選擇信號的顯著性判斷是目前使用最為廣泛的顯著性判斷辦法,通常選擇極端的0.01或者0.001作為閾值水平[46, 50]。其基本假設(shè)為:基因組上絕大多數(shù)的位點、區(qū)域未受到選擇的作用,而適應(yīng)性進化只會造成少部分的基因組特征發(fā)生改變,表現(xiàn)為長范圍單倍型純合等選擇信號特征;因此,可以采用異常值來判斷基因組受到選擇的區(qū)域。然而,純粹的異常值檢驗極有可能造成假陽性或者假陰性的錯誤,因為準(zhǔn)確的閾值無法知道。針對上述情況,在研究中常常采用折中辦法,選取與實驗群體相比選擇作用較弱,遺傳背景相近的群體作為參照,計算其對應(yīng)統(tǒng)計量來構(gòu)建經(jīng)驗分布。
3.2.3 基于中性模擬的顯著檢驗方法 在群體遺傳學(xué)的研究中與有利變異相對的是基因組上占大多數(shù)的中性變異,這些變異不會對生物的適應(yīng)性造成不良影響。在種群歷史清楚的情況下,通過合理的數(shù)據(jù)模擬可以構(gòu)建中性理論框架下的群體數(shù)據(jù),繼而獲得相應(yīng)的經(jīng)驗分布[40, 46]。目前,采用的手段主要包括正向模擬與溯祖模擬。對于畜禽群體而言,群體選育背景復(fù)雜,受多種因素的影響。因此,在經(jīng)驗分布的構(gòu)建中,畜禽群體的選擇信號研究似乎更適宜采用正向模擬。
畜禽基因組選擇信號檢測,其目的之一便是鑒定影響畜禽重要經(jīng)濟性狀的主效基因,進而揭示其潛在的生物學(xué)意義。然而,絕大多數(shù)選擇信號檢驗統(tǒng)計量通常沒有嚴(yán)格地服從某個確定的分布,選擇信號檢驗中假陽性、假陰性的問題始終可能存在。因此,選擇信號可靠性驗證不僅是一個統(tǒng)計學(xué)問題,也是一個生物學(xué)問題。目前關(guān)于選擇信號可靠性的驗證主要包含統(tǒng)計層面的可靠性驗證、基于生物信息數(shù)據(jù)庫的可靠性驗證、基因功能層面的可靠性驗證。
基因組選擇信號可靠性驗證方法,目前主要還是基于不同的統(tǒng)計學(xué)方法采取類似交叉驗證的策略,主要包括不同群體間選擇信號的交叉驗證、基于全基因組關(guān)聯(lián)分析的驗證、多種選擇信號方法的交互驗證。
4.1.1 不同群體間選擇信號的交叉驗證 研究發(fā)現(xiàn),一些控制質(zhì)量性狀的重要候選基因,如KIT等毛色基因,均在不同群體中反復(fù)被證明受到人工選擇的作用[50-51]。與此同時,使用恰當(dāng)?shù)倪x擇信號檢測方法,在足夠的標(biāo)記密度下,約20個無關(guān)個體足以用于選擇信號的檢測,并達(dá)到較理想的檢驗效力[25]。因此,在畜禽選擇信號研究中可以通過不同群體或不同研究報道中選擇信號的一致性來驗證其可靠性。
4.1.2 基于全基因組關(guān)聯(lián)分析的驗證 全基因組關(guān)聯(lián)分析是目前基因定位的最主要手段,通過不同的模型設(shè)計能夠?qū)⒒蚪M相應(yīng)功能區(qū)域與具體的表型性狀進行關(guān)聯(lián)。因此,基于畜禽基因組選擇信號分析進行重要功能基因定位的研究可以通過整合選擇信號與經(jīng)歷長時間人工選擇性狀的關(guān)聯(lián)分析來提高基因組定位區(qū)域的可靠性。目前,在基因組大數(shù)據(jù)的研究中,綜合利用選擇信號分析與全基因組關(guān)聯(lián)分析精確地定位重要經(jīng)濟性狀的潛在候選基因,揭示目標(biāo)性狀遺傳改良的潛在作用機理,已經(jīng)逐漸成為基因組大數(shù)據(jù)時代基因定位的常規(guī)手段[52-53]。
4.1.3 多種選擇信號方法的交互驗證 不同選擇信號檢測方法基于不同的理論基礎(chǔ)與信息來源,不同方法之間揭示的共同選擇信號區(qū)域,在很大程度上能夠避免假陽性的發(fā)生。因此,采用多種統(tǒng)計量,綜合利用等位基因頻率譜、群體分化、長范圍連鎖不平衡等信息進行選擇信號的研究已經(jīng)成為畜禽選擇信號研究的常態(tài)[25, 50]。與此同時,也催生一批基于復(fù)合策略的選擇信號新方法,但是新構(gòu)建的復(fù)合統(tǒng)計量,作為一個新的方法,在各種復(fù)雜情況下其檢驗效力如何仍然需要進一步研究討論。
日益完善的基因組注釋信息、QTL、模式動物表型數(shù)據(jù)庫,都為選擇信號的可靠性驗證提供了重要的信息來源?;蚬δ芨患治觥⑸飳W(xué)通路分析、選擇信號潛在區(qū)域的QTL挖掘已經(jīng)成為目前選擇信號分析的主要內(nèi)容,旨在探究選擇本身對于基因組塑造的作用機理,探究選擇與表型變化的潛在遺傳聯(lián)系[25, 37]。隨著測序技術(shù)的不斷發(fā)展,精細(xì)的基因組注釋得以完成。利用基因組共線性與基因在物種間的保守性(如直系同源基因),可以充分參考功能研究清楚的模式動物基因功能數(shù)據(jù)庫來佐證選擇信號的可靠程度。例如,目前可以利用的模式動物鼠基因組信息數(shù)據(jù)庫MGI(www.informatics.jax.org)。
目前,畜禽選擇信號的研究習(xí)慣于通過與諸如BCO2、KIT等已知受到選擇作用的基因進行位置比對,作為揭示選擇信號可靠性的論據(jù)[24-25]。然而,隨著大數(shù)據(jù)背景下選擇信號研究的深入,通過統(tǒng)計層面的可靠性驗證與基于生物信息數(shù)據(jù)庫的可靠性驗證后,繼而深入開展基因功能層面的研究已經(jīng)逐漸成為目前選擇信號可靠性驗證的重要手段與趨勢。如何通過畜禽選擇信號分析,精細(xì)定位到具有重要生物學(xué)功能的基因已經(jīng)成為現(xiàn)階段選擇信號研究需要回答的問題。凝膠遷移或電泳遷移率試驗(EMSA)能夠通過定性與定量分析,有效揭示蛋白與基因組遺傳變異間的互作關(guān)系。例如,在家兔選擇信號的分析中,利用EMSA分析揭示了SOX2基因在神經(jīng)細(xì)胞不同分化時期,家兔和野兔中該基因不同的等位基因表現(xiàn)出明顯的凝膠遷移差異,這直觀地反映了家兔該等位基因在馴化過程中確實受到過選擇的作用[54]。
目前,畜禽遺傳改良主要是圍繞具有重要經(jīng)濟價值的數(shù)量性狀與少數(shù)質(zhì)量性狀開展,如毛色、體型、繁殖性狀與生長性狀。不完全統(tǒng)計表明,目前報道的畜禽基因組選擇信號揭示的基因主要涉及到動物行為習(xí)慣、體型外貌與部分具有大效應(yīng)基因座的重要經(jīng)濟性狀[1, 9, 55]。這些性狀絕大部分是屬于受單基因或少數(shù)幾個基因控制的質(zhì)量性狀,而不是畜禽重要經(jīng)濟性狀即育種研究主要關(guān)心的數(shù)量性狀。相對于選擇信號研究揭示相關(guān)質(zhì)量性狀潛在遺傳基礎(chǔ)在不同群體、方法與報道中的一致性,數(shù)量性狀潛在遺傳基礎(chǔ)的選擇信號檢測一致性較差[1]。因此,畜禽性狀潛在的遺傳基礎(chǔ)差異,對于選擇信號的準(zhǔn)確檢測具有重要的作用。同時,上述研究也表明:(1)畜禽經(jīng)濟性狀選擇信號與質(zhì)量性狀選擇信號相比要難于檢測;(2)目前常用選擇信號方法在重要經(jīng)濟性狀選擇信號的檢測中存在不足,需要進一步改進提高;(3)準(zhǔn)確定位畜禽重要經(jīng)濟性狀的基因組選擇信號仍然是目前選擇信號研究的重點,構(gòu)建新的適合于檢測畜禽人工選擇信號的新方法顯得尤為迫切。
畜群復(fù)雜的種群歷史是影響選擇信號檢測準(zhǔn)確性的重要因素。例如,畜禽品種形成過程中的瓶頸效應(yīng)將會在群體基因組上形成類似選擇信號的基因組印跡。目前,基于位點頻率譜與擴展單倍型純合的方法無法判斷其與真實選擇信號基因組特征的區(qū)別,檢測假陽性必然存在[1, 5]。如何構(gòu)建對群體歷史更具穩(wěn)健性的選擇信號檢測方法,也因此成為方法研究的關(guān)注焦點。在目前廣泛應(yīng)用的選擇信號檢測方法中,CLR與REHH方法分別通過與全基因組范圍等位基因頻率譜和平均統(tǒng)計量比較,有效地降低了群體結(jié)構(gòu)變化對選擇信號檢測穩(wěn)健性的影響[23];XPEHH方法通過群體比較,綜合利用擴展單倍型純合的思想,對于存在明顯群體分化的選擇信號基因組印跡具有相對更高的穩(wěn)健性[7];而對基于單位點的方法(如:FST)由于通過群體基因頻率的比較推斷群體選擇信號的存在,這使該類方法容易受到隨機漂變因素的影響,而在使用該方法檢測基因組選擇信號時,通常會使用滑動窗口策略來降低隨機漂變產(chǎn)生的噪音[56]。因此,選擇信號檢測過程中,如果充分考慮種群歷史,使用恰當(dāng)?shù)慕y(tǒng)計方法,對于準(zhǔn)確揭示基因組潛在選擇信號具有重要的現(xiàn)實意義。
基因重組是保持物種遺傳多態(tài)的一個重要因素,而選擇的作用則在于加速基因組優(yōu)勢等位基因的純合;兩者的拮抗作用決定了基因重組是影響選擇信號檢測準(zhǔn)確性的又一個重要因素。研究表明,不同物種、同一物種不同染色體、同一染色體不同片段之間的重組率均存在較大變異[57]。因此,絕大多數(shù)選擇信號檢測方法對重組率都具有較大的敏感性。選擇作用形成的長范圍單倍型能夠維持多長時間,在很大程度上取決于選擇強度與重組率對基因組區(qū)域的作用強度[26]。選擇信號的候選區(qū)域其重組率通常較低,絕大多數(shù)為基因組重組冷點。相反,重組熱點區(qū)域很難發(fā)現(xiàn)顯著的選擇信號統(tǒng)計量。研究發(fā)現(xiàn),LCT基因周圍的重組率要低于基因組平均水平[58]。目前,除少數(shù)統(tǒng)計量(如REHH)外,絕大多數(shù)選擇信號的檢測方法基本沒有考慮重組率差異對選擇信號判定的干擾。上述情況在很大程度上也造成基因組選擇信號檢測假陽性和假陰性的發(fā)生。Wang等[59]的研究表明,低重組率區(qū)域選擇信號檢測方法的效率會相應(yīng)提高,因此深入研究重組對選擇信號檢測的影響有利于更加準(zhǔn)確地揭示選擇的基因組印跡。
畜禽基因組選擇信號檢測對于揭示影響畜禽重要經(jīng)濟性狀的候選功能基因,探究適應(yīng)性進化的潛在遺傳機制具有重要的意義。假如通過恰當(dāng)?shù)慕y(tǒng)計方法能夠準(zhǔn)確地定位畜禽基因組上與重要經(jīng)濟性狀人工選擇相關(guān)的位點,這將對制定更加合理的育種方案具有非常重要的現(xiàn)實意義。基于現(xiàn)有選擇信號統(tǒng)計方法,目前畜禽基因組主要的質(zhì)量性狀、具有大效應(yīng)基因座的部分?jǐn)?shù)量性狀的選擇信號已經(jīng)被成功檢出,并且各研究之間具有良好的一致性[1]。使用新一代測序技術(shù),如何全面、高靈敏度地定位受微效多基因控制經(jīng)濟性狀的基因組選擇信號成為新時期畜禽選擇信號研究的重點。研究表明,畜禽基因組已產(chǎn)生的遺傳變異在其遺傳改良過程中發(fā)揮著重要的作用,相應(yīng)的選擇信號印跡被稱為溫和選擇信號[20]。然而,目前該類檢測統(tǒng)計量的報道仍然較少,且無法區(qū)分溫和選擇信號與經(jīng)典選擇信號。因此,可以預(yù)見在將來一段時間內(nèi)構(gòu)建靈敏程度更高、能夠區(qū)分經(jīng)典與溫和選擇信號的檢測方法將會成為選擇信號方法研究的熱點。與此同時,隨著基因組、轉(zhuǎn)錄組、蛋白組等多組學(xué)數(shù)據(jù)在畜禽研究中的應(yīng)用,如何利用多組學(xué)信息更加全面準(zhǔn)確地揭示基因組選擇信號也已成為目前研究的又一個重要方向。此外,基因分型成本的降低與數(shù)據(jù)共享機制的開啟,使得等位基因頻率估計能夠通過大樣本數(shù)據(jù)獲得更高的估計準(zhǔn)確性,進而提高選擇信號檢測的準(zhǔn)確性。但是,伴隨而來的基因組大樣本、大數(shù)據(jù),對于目前選擇信號方法的計算負(fù)載也提出了更高的要求。
參考文獻(References):
[1] QANBARI S,SIMIANER H.Mapping signatures of positive selection in the genome of livestock[J].LivestSci,2014,166:133-143.
[2] LARSON G,PIPERNO D R,ALLABY R G,et al.Current perspectives and the future of domestication studies[J].ProcNatlAcadSciUSA,2014,111(17):6139-6146.
[3] ANDERSSON L.How selective sweeps in domestic animals provide new insight into biological mechanisms[J].JInternMed,2012,271(1):1-14.
[4] 潘章源,賀小云,王翔宇,等.家養(yǎng)動物選擇信號研究進展[J].遺傳,2016,38(12):1069-1080.
PAN Z Y,HE X Y,WANG X Y,et al.Selection signatures in domesticated animals[J].Hereditas(Beijing),2016,38(12):1069-1080. (in Chinese)
[5] SUZUKI Y.Statistical methods for detecting natural selection from genomic data[J].GenesGenetSyst,2010,85(6):359-376.
[6] BISWAS S,AKEY J M.Genomic insights into positive selection[J].TrendsGenet,2006,22(8):437-446.
[7] SABETI P C,VARILLY P,FRY B,et al.Genome-wide detection and characterization of positive selection in human populations[J].Nature,2007,449(7164):913-918.
[8] PENNINGS P S,HERMISSON J.Soft sweeps II-molecular population genetics of adaptation from recurrent mutation or migration[J].MolBiolEvol,2006,23(5):1076-1084.
[9] DE SIMONI GOUVEIA J J,DA SILVA M V G B,PAIVA S R,et al.Identification of selection signatures in livestock species[J].GenetMolBiol,2014,37(2):330-342.
[10] 劉 真,王慧華,劉瑞鑿,等.不同尾型綿羊全基因組選擇信號檢測[J].畜牧獸醫(yī)學(xué)報,2015,46(10):1721-1732.
LIU Z,WANG H H,LIU R Z,et al.Genome-wide detection of selection signatures of distinct tail types in sheep populations[J].ActaVeterinariaetZootechnicaSinica,2015,46(10):1721-1732. (in Chinese)
[11] 王光凱,曾 滔,王慧華,等.蘇尼特羊全基因組選擇信號檢測[J].中國農(nóng)業(yè)科學(xué),2014,47(6):1190-1199.
WANG G K,ZENG T,WANG H H,et al.Genome-wide detection of selection signature on sunite sheep[J].ScientiaAgriculturaSinica,2014,47(6):1190-1199. (in Chinese)
[12] 馬云龍,張 勤,丁向東.利用高密度SNP檢測不同豬品種間X染色體選擇信號[J].遺傳,2012,34(10):1251-1260.
MA Y L,ZHANG Q,DING X D.Detecting selection signatures on X chromosome in pig through high density SNPs[J].Hereditas(Beijing),2012,34(10):1251-1260. (in Chinese)
[13] HERMISSON J,PENNINGS P S.Soft sweeps:Molecular population genetics of adaptation from standing genetic variation[J].Genetics,2005,169(4):2335-2352.
[14] BARRETT R D H,SCHLUTER D.Adaptation from standing genetic variation[J].TrendsEcolEvol,2008,23(1):38-44.
[15] NIELSEN R.Molecular signatures of natural selection[J].AnnuRevGenet,2005,39:197-218.
[16] LOHMUELLER K E,BUSTAMANTE C D,CLARK A G.Detecting directional selection in the presence of recent admixture in African-Americans[J].Genetics,2011,187(3):823-835.
[17] PERSI E,WOLF Y I,KOONIN E V.Positive and strongly relaxed purifying selection drive the evolution of repeats in proteins[J].NatCommun,2016,7:13570.
[18] FIJARCZYK A,BABIK W.Detecting balancing selection in genomes:limits and prospects[J].MolEcol,2015,24(14):3529-3545.
[19] QANBARI S,SEIDEL M,STROM T M,et al.Parallel selection revealed by population sequencing in chicken[J].GenomeBiolEvol,2015,7(12):3299-3306.
[20] SHENG Z Y,PETTERSSON M E,HONAKER C F,et al.Standing genetic variation as a major contributor to adaptation in the Virginia chicken lines selection experiment[J].GenomeBiol,2015,16:219.
[21] ZHU L,BUSTAMANTE C D.A composite-likelihood approach for detecting directional selection from DNA sequence data[J].Genetics,2005,170(3):1411-1421.
[22] TAJIMA F.Statistical method for testing the neutral mutation hypothesis by DNA polymorphism[J].Genetics,1989,123(3):585-595.
[23] NIELSEN R,WILLIAMSON S,KIM Y,et al.Genomic scans for selective sweeps using SNP data[J].GenomeRes,2005,15(11):1566-1575.
[24] RUBIN C J,ZODY M C,ERIKSSON J,et al.Whole-genome resequencing reveals loci under selection during chicken domestication[J].Nature,2010,464(7288):587-591.
[25] MA Y,DING X,QANBARI S,et al.Properties of different selection signature statistics and a new strategy for combining them[J].Heredity,2015,115(5):426-436.
[26] SABETI P C,REICH D E,HIGGINS J M,et al.Detecting recent positive selection in the human genome from haplotype structure[J].Nature,2002,419(6909):832-837.
[27] VOIGHT B F,KUDARAVALLI S,WEN X Q,et al.A map of recent positive selection in the human genome[J].PLoSBiol,2006,4(3):e72.
[28] ALACHIOTIS N,PAVLIDIS P.Scalable linkage-disequilibrium-based selective sweep detection:a performance guide[J].Gigascience,2016,5:7.
[29] FERRER-ADMETLLA A,LIANG M,KORNELIUSSEN T,et al.On detecting incomplete soft or hard selective sweeps using haplotype structure[J].MolBiolEvol,2014,31(5):1275-1291.
[30] LEWONTIN R C,KRAKAUER J.Distribution of gene frequency as a test of the theory of the selective neutrality of polymorphisms[J].Genetics,1973,74(1):175-195.
[31] WRIGHT S.The genetical structure of populations[J].AnnEugen,1949,15(1):323-354.
[32] WEIR B S,COCKERHAM C C.Estimating F-statistics for the analysis of population structure[J].Evolution,1984,38(6):1358-1370.
[33] AKEY J M,ZHANG G,ZHANG K,et al.Interrogating a high-density SNP map for signatures of natural selection[J].GenomeRes,2002,12(12):1805-1814.
[34] GIANOLA D,SIMIANER H,QANBARI S.A two-step method for detecting selection signatures using genetic markers[J].GenetRes,2010,92(2):141-155.
[35] CHEN H,PATTERSON N,REICH D.Population differentiation as a test for selective sweeps[J].GenomeRes,2010,20(3):393-402.
[36] FARIELLO M I,BOITARD S,NAYA H,et al.Detecting signatures of selection through haplotype differentiation among hierarchically structured populations[J].Genetics,2013,193(3):929-941.
[37] AI H S,FANG X D,YANG B,et al.Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing[J].NatGenet,2015,47(3):217-225.
[38] RACIMO F.Testing for ancient selection using cross-population allele frequency differentiation[J].Genetics,2016,202(2):733-750.
[39] VATSIOU A I,BAZIN E,GAGGIOTTI O E.Detection of selective sweeps in structured populations:a comparison of recent methods[J].MolEcol,2016,25(1):89-103.
[40] GROSSMAN S R,SHYLAKHTER I,KARLSSON E K,et al.A composite of multiple signals distinguishes causal variants in regions of positive selection[J].Science,2010,327(5967):883-886.
[41] UTSUNOMIYA Y T,O’BRIEN A M P,SONSTEGARD T S,et al.Detecting loci under recent positive selection in dairy and beef cattle by combining different genome-wide scan methods[J].PLoSOne,2013,8(5):e64280.
[42] RANDHAWA I A S,KHATKAR M S,THOMSON P C,et al.Composite selection signals can localize the trait specific genomic regions in multi-breed populations of cattle and sheep[J].BMCGenet,2014,15:34.
[43] KINGMAN J F C.The coalescent[J].StochProcessesTheirAppl,1982,13(2):235-248.
[44] KINGMAN J F C.On the genealogy of large populations[J].JApplProbab,1982,19(A):27-43.
[45] KINGMAN J F.Origins of the coalescent.1974-1982[J].Genetics,2000,156(4):1461-1463.
[46] SIMIANER H,MA Y L,QANBARI S.Statistical problems in livestock population genomics[C]//Proceedings of the 10th World Congress on Genetics Applied to Livestock Production.Vancouver,BC,Canada:American Society of Animal Science,2014.
[47] HUDSON R R.Generating samples under a Wright-Fisher neutral model of genetic variation[J].Bioinformatics,2002,18(2):337-338.
[48] EWING G,HERMISSON J.MSMS:a coalescent simulation program including recombination,demographic structure and selection at a single locus[J].Bioinformatics,2010,26(16):2064-2065.
[49] PENG B,KIMMEL M.simuPOP:a forward-time population genetics simulation environment[J].Bioinformatics,2005,21(18):3686-3687.
[50] QANBARI S,PAUSCH H,JANSEN S,et al.Classic selective sweeps revealed by massive sequencing in cattle[J].PLoSGenet,2014,10(2):e1004148.
[51] MA Y L,WEI J L,ZHANG Q,et al.A genome scan for selection signatures in pigs[J].PLoSOne,2015,10(3):e0116850.
[52] MEYER R S,CHOI J Y,SANCHES M,et al.Domestication history and geographical adaptation inferred from a SNP map of African rice[J].NatGenet,2016,48(9):1083-1088.
[53] EVANS L M,SLAVOV G T,RODGERS-MELNICK E,et al.Population genomics ofPopulustrichocarpaidentifies signatures of selection and adaptive trait associations[J].NatGenet,2014,46(10):1089-1096.
[54] CARNEIRO M,RUBIN C J,DI PALMA F,et al.Rabbit genome analysis reveals a polygenic basis for phenotypic change during domestication[J].Science,2014,345(6200):1074-1079.
[55] AMARAL A J,FERRETTI L,MEGENS H J,et al.Genome-wide footprints of pig domestication and selection revealed through massive parallel sequencing of pooled DNA[J].PLoSOne,2011,6(4):e14782.
[56] QANBARI S,STROM T M,HABERER G,et al.A high resolution genome-wide scan for significant selective sweeps:an application to pooled sequence data in laying chickens[J].PLoSOne,2012,7(11):e49525.
[57] LAAYOUNI H,MONTANUCCI L,SIKORA M,et al.Similarity in recombination rate estimates highly correlates with genetic differentiation in humans[J].PLoSOne,2011,6(3):e17913.
[58] BERSAGLIERI T,SABETI P C,PATTERSON N,et al.Genetic signatures of strong recent positive selection at the lactase gene[J].AmJHumGenet,2004,74(6):1111-1120.
[59] WANG H L,ZHU Z M,WANG H,et al.Molecular characterization and association analysis of porcineCA3[J].CytogenetGenomeRes,2006,115(2):129-133.