任 月,王政昆,朱萬龍
(云南省高校西南山地生態(tài)系統(tǒng)動植物生態(tài)適應(yīng)進(jìn)化及保護(hù)重點實驗室,云南師范大學(xué) 生命科學(xué)學(xué)院, 生物能源持續(xù)開發(fā)利用教育部工程研究中心,云南省生物質(zhì)能與環(huán)境生物技術(shù)重點實驗室,云南 昆明 650500)
測序技術(shù)能夠提供大量的遺傳信息資源,可以描述個體基因組、轉(zhuǎn)錄信息和群體疾病中的遺傳變異, 隨著基因組分析、基因組操作技術(shù)和高通量分子生物學(xué)的進(jìn)一步突破,基因型和表型之間的關(guān)聯(lián)研究也越來越受重視。在2004年,雖采用毛細(xì)管測序儀,獲得人類30億堿基基因組序列的原始數(shù)據(jù)[1],但成本較貴,隨后發(fā)展出通量高、成本低的高通量測序技術(shù)[2],其能夠提取高生物學(xué)價值的遺傳信息,成為分析種群內(nèi)、種群間以及不同類群的遺傳多樣性和遺傳分化程度的基因組學(xué)研究的重要方法之一[3,4],本研究綜述了高通量測序技術(shù)在動物種群遺傳學(xué)究中的主要分析方法,希望為種群遺傳學(xué)研究奠定一定的基礎(chǔ)。
1977年,DNA鏈末端合成終止法作為第一代測序技術(shù),即Sanger法[5]。其操作步驟簡單、準(zhǔn)確度高,廣泛應(yīng)用于各個領(lǐng)域,但其成本高,通量低,因此,2006年發(fā)展出高通量測序,別稱新一代測序(next-generation sequencing, NGS)。NGS是邊合成邊測序技術(shù),具有通量高、成本低、速度快和后期數(shù)據(jù)分析處理成熟等優(yōu)點,且能夠?qū)蝹€物種的基因組和轉(zhuǎn)錄組進(jìn)行深入研究,使其廣泛應(yīng)用到科學(xué)研究和醫(yī)療方面[6]。NGS常用的平臺包括三種,分別為使用橋式 PCR進(jìn)行擴(kuò)增的Illumina的基因組分析儀[2]、使用微乳滴PCR進(jìn)行擴(kuò)增Roche454基因組測序儀[7]以及使用微球和微乳滴方法進(jìn)行擴(kuò)增的ABLifeTechnologies的SOLiD系統(tǒng)[8]。因NGS具有局域擴(kuò)增偏好性和讀長短的缺點,產(chǎn)生以PacBio的SMART的技術(shù),半導(dǎo)體測序技術(shù)和納米孔單分子測序技術(shù)為代表的第三代測序[9]。測序技術(shù)的發(fā)展歷程見圖1。
1966年,首次對果蠅[10]和人類[11]的遺傳變異的研究認(rèn)為生物進(jìn)化是種內(nèi)的遺傳變異轉(zhuǎn)化為種間遺傳變異成新群體的過程,但由于技術(shù)上的局限,僅能檢測并分析少量基因座的差異性,隨著重測序技術(shù)的發(fā)展,大量的模式動物和野生動物種群遺傳學(xué)原始數(shù)據(jù)被挖掘[12],對種群遺傳學(xué)進(jìn)一步拓展和深化,有利于對動物多樣性的保護(hù)和生物資源的可持續(xù)利用。
根據(jù)表型或基因型的變異性可以推斷出不同群體的親緣關(guān)系[13],利用重測序獲得生物DNA序列構(gòu)建的系統(tǒng)進(jìn)化樹是以分支圖或樹的形式來描述種群內(nèi)和種群間進(jìn)化順序,來分析生物進(jìn)化過程,一般通過NJ法和ML法構(gòu)建群體的進(jìn)化樹[14]。主成分分析(PCA)是一種純數(shù)學(xué)的運(yùn)算方法,可以將多個相關(guān)變量經(jīng)過線形轉(zhuǎn)換選出較少個數(shù)的重要變量,減少數(shù)據(jù)的維數(shù),同時保留數(shù)據(jù)集中的大部分變化,它通過識別主成分來實現(xiàn)這種減少,沿著主成分?jǐn)?shù)據(jù)的變化,通過使用幾個組件,每個樣本可以用相對較少的數(shù)字來表示,而不是用數(shù)千個變量的值。然后,樣本以圖形可視化,從而可以直觀地評估樣本之間的相似性和差異性,并確定樣本是否可以分組[15]。
3.2.1 選擇性消除主要包括幾種表現(xiàn)形式
(1)在宏觀進(jìn)化水平上檢測選擇:在宏觀進(jìn)化水平上檢測選擇的方法通常在相關(guān)分類群中的同源特征或序列的比較上進(jìn)行鉸鏈,可能是保守的功能性的序列,然后以進(jìn)化速率搜索譜系特異性的加速度。
(2)基于基因組的方法:用于檢測選擇的已知統(tǒng)計信息是Ka/KS,也稱為dn/ds或ω[16]。該統(tǒng)計量將每個位點的非同義替換率與每個位點同義替換的速率進(jìn)行比較。由于同義變化假定為功能沉默,它們的取代率提供了能夠解釋氨基酸改變的速率的基線。相對過量的非同義替換表明正在進(jìn)行積極選擇,有利于新的蛋白質(zhì)結(jié)構(gòu)的陰性選擇。
(3)基于頻譜的方法:基于群體內(nèi)等位基因頻率分布的中性檢驗,即用中性理論作為零假設(shè),Tajima’s D是第一個,也是最常用的檢測信號的測試[17]。
(4)在微觀進(jìn)化水平上檢測選擇:正向選擇使有利的等位基因在種群中迅速傳播至固定。
3.2.2 微進(jìn)化水平上檢測包括
(1)有益的突變使附近的搭便車者變異頻率高,導(dǎo)致所選位點周圍的遺傳多樣性在全群體范圍內(nèi)減少。
(2)有益的突變使附近的衍生等位基因頻率較高。
(3)選擇性掃描導(dǎo)致延伸的單倍型純合性,在包含所選等位基因的單倍型上升。
(4)等位基因頻率的差異反映群體特定的選擇作用,導(dǎo)致兩個群體之間賴特固定指數(shù)增加;將來自多個選擇信號的信息綜合起來的綜合方法可以提供更好的分辨率,并有助于查明因果變量[18]。
(5)連鎖不平衡的方法:指群體內(nèi)不同座位等位基因間的非隨機(jī)關(guān)聯(lián),即等位基因關(guān)聯(lián),連鎖不平衡水平越高,表明連鎖緊密。
(6)基于種群分化方法:不同種群受到不同的環(huán)境壓力導(dǎo)致種群的適應(yīng)特性不同。比較群體內(nèi)和群體間等位基因頻率的差異的群體分化指標(biāo)是Wright 固定指數(shù)[19]。Fst值相對較大,表明種群間存在顯著差異,意味該位點在定向選擇。相對較小的Fst值表明被比較的種群是同質(zhì)的。
圖1 測序技術(shù)發(fā)展歷程
種群歷史動態(tài)以有效種群大小對時間發(fā)生變化為參考標(biāo)準(zhǔn),通過結(jié)合個體基因組的雜合位點的局部密度變化和種群的多態(tài)性位點或者系統(tǒng)發(fā)生樹來反映種群和物種的進(jìn)化歷程[14, 19],有助于對瀕危物種制定合理有效的保護(hù)策略。種群不同歷史時期有效群體大小的方法主要采用成對序列馬可夫溯祖分析(pairwise sequential Markovian coulescent,PSMC)和多序列馬爾科夫溯祖分析(multiple sequential Markoisn cosledcent analysis,MSMC)[21]。
PSMC方法是采用馬爾科夫溯祖模型為二倍體個體的全基因組數(shù)據(jù)重建有效種群大小變化過程[20],其可推斷出每個相關(guān)DNA片段的最新共同祖先,基于合并事件速率和TMRCA的分布,推斷出在給定時間紀(jì)元的祖先的有效種群大小[22],來物種保護(hù)提供非常重要的遺傳學(xué)信息。PSMC分析廣泛應(yīng)用于多個種群歷史動態(tài)研究中。但PSMC方法預(yù)測種群歷史范圍有限,無法估計近期的種群歷史狀態(tài),進(jìn)而發(fā)展出MSMC方法[21],通過MSMC計算相對交聯(lián)率可獲得20000年內(nèi)的種群遺傳變化,并詳細(xì)模擬兩種群之間遺傳分化的歷史。結(jié)合MSMC和PSMC兩種方法能擴(kuò)大時間尺度去獲得種群歷史動態(tài)。
綜上所述,通過高通量測序和生物信息學(xué)分析結(jié)合,研究物種,尤其是瀕危物種的遺傳變異和分布規(guī)律來推測種群歷遺傳進(jìn)化,為物種的保護(hù)奠定了遺傳學(xué)基礎(chǔ)。
物種形成過程中經(jīng)過自然選擇,出現(xiàn)表型分化,進(jìn)而影響基因頻率變化。通過對相關(guān)DNA的測序來篩選整個基因組中的數(shù)千個位點。按順序進(jìn)行基因分型,如SNP基因分型,甚至全基因組測序能夠識別群體或生態(tài)類型之間差異極高位點,認(rèn)為這些是適應(yīng)進(jìn)化和生殖孤立的跡象。但是如何將基因組學(xué)方法與其他生態(tài)學(xué)方法結(jié)合來解決問題,特別是那些直接解決從基因到表型到環(huán)境的聯(lián)系,把基因組學(xué)和生態(tài)學(xué)聯(lián)系起來的方法,建立從基因型到表型,從表型到適應(yīng)和生殖分離的功能聯(lián)系還有待探究。