董艷輝,劉龍龍,溫 鑫,于宇鳳,楊 方,劉根科,崔 林,曹秋芬,秦永軍,
(1.山西省農(nóng)業(yè)科學(xué)院 生物技術(shù)研究中心,山西 太原 030031;2.山西省農(nóng)業(yè)科學(xué)院 農(nóng)作物品種資源研究所,農(nóng)業(yè)部黃土高原種質(zhì)資源實驗室,山西 太原 030031;3.山西省農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)科技信息研究所,山西 太原 030031;4.山西省農(nóng)業(yè)科學(xué)院 右玉農(nóng)業(yè)試驗站,山西 右玉 037200)
燕麥(AvenasativaL.)是世界各地廣泛栽培種植的一種重要的糧食兼飼草、飼料作物,其富含β-葡聚糖,被證明具有降血糖和血脂的功效[1],是美國FDA和英國JHCI認(rèn)定的功能性谷物[2-3],隨著燕麥及其加工產(chǎn)品的世界消費(fèi)量的增長,傳統(tǒng)燕麥育種技術(shù)已經(jīng)不能有效滿足燕麥生產(chǎn)的需要,并且成為制約燕麥育種進(jìn)程的重要因素,而分子輔助育種是加速燕麥育種的重要手段。
目前,燕麥的育種多依賴于常規(guī)育種和表型鑒定研究,已成功育成了多種適應(yīng)不同需求的燕麥品種并用于大田生產(chǎn)[4]。早期的表型特征量化研究證明燕麥具有豐富的遺傳多樣性[5],之后燕麥種質(zhì)資源遺傳連鎖圖[6]、皮裸性基因相關(guān)聯(lián)SSR[7]和AFLP標(biāo)記[8]也被相繼報道。單核苷酸多態(tài)性(SNP)是目前最具優(yōu)勢的分子標(biāo)記,被廣泛應(yīng)用于作物遺傳圖譜構(gòu)建、QTL定位、全基因組關(guān)聯(lián)分析(GWAS)、群體進(jìn)化等[9-12]。近年來,基于下一代測序技術(shù)(Next generation sequencing,NGS)的基因分型技術(shù)(Genotyping by sequencing,GBS)是通過酶切處理去除基因組重復(fù)序列,顯著降低了測序量和測序成本,且能夠覆蓋整個基因組,不受參考基因組限制,因而被廣泛應(yīng)用到開發(fā)高密度、高精度的農(nóng)作物SNP分子標(biāo)記研究中。目前,燕麥全基因組序列還沒有發(fā)表,基因分型技術(shù)對農(nóng)作物遺傳多樣性研究、種質(zhì)資源鑒定和分子輔助育種標(biāo)記開發(fā)具有重要的意義[13-16]?;蚍中图夹g(shù)從單酶切技術(shù)RAD[17]、2b-RAD[18]、GBS[19]到現(xiàn)在的雙酶切技術(shù)dd-GBS[20]、SLAF[21]均已被應(yīng)用到玉米、小麥等[22-30]主要農(nóng)作物分子標(biāo)記開發(fā)研究。Winkler 等[31]采用GBS技術(shù),證明了燕麥穎片顏色和穗型等表型特征和SNP位點(diǎn)相關(guān)。在另一項研究中,通過GBS技術(shù)構(gòu)建的高密度SNP則能精準(zhǔn)地區(qū)分起源于世界不同地區(qū)燕麥種質(zhì)資源[32],證實GBS-SNP技術(shù)是種質(zhì)資源鑒定的有力工具。
本研究基于NGS的dd-GBS技術(shù),以經(jīng)過抗旱性鑒定的燕麥種質(zhì)為試驗材料,選用適合燕麥基因組酶切的酶,運(yùn)用適合燕麥簡化基因組參考序列的分析軟件,在構(gòu)建燕麥簡化基因組參考序列的基礎(chǔ)上,研究燕麥相關(guān)SNP標(biāo)記,旨在豐富當(dāng)前燕麥的基因組數(shù)據(jù)庫,提供分子標(biāo)記(SNP)基礎(chǔ)數(shù)據(jù),為加速燕麥育種進(jìn)程提供理論支撐。
供試材料由中國農(nóng)業(yè)科學(xué)院品種資源研究所麥類室于1981-1983年進(jìn)行抗旱鑒定的燕麥種質(zhì)42份,包括11份高抗(High tolerance)、13份中抗(Moderate tolerance)、18份低抗(Low tolerance)和山西省農(nóng)業(yè)科學(xué)院農(nóng)作物品種資源研究所燕麥種質(zhì)資源圑提供[33]的抗旱性未鑒定(Uncharacterized)燕麥育成品種(品系)12個(表1),2016年種植于山西省農(nóng)業(yè)科學(xué)院智能溫室。
GBS文庫構(gòu)建與數(shù)據(jù)質(zhì)控:燕麥種子發(fā)芽14 d,取鮮嫩葉片提取基因組DNA(Mag-MK Plant Genomic DNA Extraction Kit試劑盒,上海生工),1.0%瓊脂糖凝膠電泳和紫外分光光度計分別檢測DNA質(zhì)量。用限制性內(nèi)切酶PstⅠ(CTGCAG)和MspⅠ(CCGG)對提取的DNA 進(jìn)行酶切后,回收大小在220~450 bp的酶切片段,之后按照dd-GBS方法進(jìn)行建庫[20]。采用llumina Hiseq測序平臺進(jìn)行雙末端(Paired-end,PE)測序,獲得的下機(jī)數(shù)據(jù)以雙端FASTQ格式保存。
分別對每個樣品的下機(jī)數(shù)據(jù)運(yùn)用 FastQC軟件進(jìn)行質(zhì)量控制,主要包括堿基質(zhì)量分布(Per base sequence quality)、質(zhì)量值(Per sequence quality scores)、GC分布(Per sequence GC content),對反映下機(jī)數(shù)據(jù)質(zhì)量的多項指標(biāo)進(jìn)行統(tǒng)計。進(jìn)一步過濾數(shù)據(jù)包含一些帶接頭,雙末端reads1 5′端6 bp非酶切位點(diǎn)序列CTGCAG或reads2的5′端4 bp非酶切位點(diǎn)序列CCGG。采用Adapter Removal去除3′端的接頭污染[34]。采用滑動窗口進(jìn)行質(zhì)量過濾,窗口大小設(shè)置為5 bp,步長設(shè)置為1 bp,每一次往前移動1個堿基,取5個堿基計算窗口的平均Q值,若最后一個堿基的Q值≤2,則僅保留該位置之前的堿基;若窗口的平均Q值≤20,則僅保留該窗口倒數(shù)第2個堿基及之前的堿基。濾除小于50 bp 的reads。
表1 不同抗旱性的燕麥試驗材料Tab.1 Sequenced oats germplasm of different drought tolerance
1.3.1 燕麥簡化基因組參考序列組裝與群體SNP檢測 應(yīng)用Stacks軟件包[35]中的ustacks對每個樣品的reads進(jìn)行聚類,同一個stack代表1個酶切位點(diǎn)(loci),聚類參數(shù)-m設(shè)置為4,對每一個樣品的loci及l(fā)oci的測序深度進(jìn)行統(tǒng)計。下一步用cstacks將所有樣品的loci合并,不同樣品loci之間最多允許2個錯配,獲得每個loci的catalog consensus序列。
采用sstacks將每個樣品的loci序列與catalog consensus序列比對后populations過濾獲得群體SNP。主要參數(shù)包括:1個位點(diǎn)最少要在1個群體中出現(xiàn);1個群體中檢測到同一位點(diǎn)的個體最低百分?jǐn)?shù)50%(當(dāng)群體中該位點(diǎn)的缺失率超過 50%,則去除該位點(diǎn));1個位點(diǎn)的最小等位基因頻率0.05。
1.3.2 燕麥SNP分析 采用 GCTA軟件利用群體SNP數(shù)據(jù)進(jìn)行主成分聚類分析;對高、低抗材料的SNP數(shù)據(jù)進(jìn)行Fisher Test統(tǒng)計分析獲取相關(guān)SNP標(biāo)記;采用結(jié)合校正標(biāo)準(zhǔn)錯誤發(fā)現(xiàn)率(False Discovery Rate,F(xiàn)DR)小于0.05和0.001確定差異顯著性標(biāo)記和極顯著性標(biāo)記。
1.3.3 燕麥SNP功能預(yù)測 進(jìn)一步對差異極顯著(FDR<0.001)的SNP所在源序列和小麥(TriticumaestivumL.)基因組序列進(jìn)行Blast比對,篩查SNP相關(guān)基因。
本研究共測序54個樣本,注釋reads數(shù)在4 111 218~21 782 382;質(zhì)控后保留的高質(zhì)量數(shù)據(jù)(reads數(shù)4 111 218~19 019 296)用于后續(xù)的數(shù)據(jù)分析(圖1)。
圖1 燕麥GBS-SNP注釋序列Fig.1 Oat GBS-SNP annotation sequence
采用Stacks數(shù)據(jù)包對燕麥reads進(jìn)行聚類,結(jié)果顯示:每個loci平均測序深度為20.61×,合并所有樣本同一個loci,共獲得753 325個參考基因組序列(catalog consensus)。每個樣品的loci與其對應(yīng)的catalog比對,去除群體位點(diǎn)缺失(./.)率超過50%和最小等位基因頻率小于0.05的SNP位點(diǎn),共獲得74 657個群體SNP位點(diǎn)。由圖2可知,所有測序樣本中純合狀態(tài)的SNP位點(diǎn)(0/0或1/1)占少數(shù),大部分呈現(xiàn)不同程度的雜合(0/1)或缺失狀態(tài)(./.)。
0/0 和1/1.純合體;0/1.雜合體;./..缺失。0/0 和1/1. Homozygote; 0/1.Heterozygote;./.. Deletion.
根據(jù)群體SNP數(shù)據(jù),對54份燕麥種質(zhì)的PCA結(jié)果顯示,SNP基因型明顯聚類為2簇,全部11份高抗、4份抵抗、8份中抗種質(zhì)和6個未鑒定品種聚為一簇;而另外一簇則包含14份低抗和5份中抗種質(zhì);其余6個未鑒定的燕麥品種則分布在2簇之外(圖3)。
基于PCA基因型聚類結(jié)果,進(jìn)一步對高抗(n=11)和低抗(n=18)種質(zhì)2組進(jìn)行SNP基因型差異顯著分析,共獲得2 937個燕麥抗旱性相關(guān)SNP(Fisher Test,F(xiàn)DR<0.05)。其中,差異極顯著(FDR<0.001)的55個SNP位點(diǎn)坐落于41個燕麥簡化基因組參考序列(同一參考序列包含2或3個SNP位點(diǎn))。這55個相關(guān)SNP可分為3類,23個SNP 位點(diǎn)在高抗種質(zhì)中缺失; 28個SNP位點(diǎn)在低抗種質(zhì)中缺失;其余4個SNP位點(diǎn)在2種種質(zhì)中都存在(表2)。
表2 高抗與低抗燕麥的差異顯著SNP位點(diǎn)Tab.2 Oat significant SNPs of high tolerance and low tolerance
表2(續(xù))
注:▲.SNP位點(diǎn)缺失。
Note: ▲. Represents site deletion of SNP.
進(jìn)一步對差異極顯著的55個相關(guān)SNP的源序列與小麥基因組序列進(jìn)行了Blast比對,結(jié)果顯示,10個源序列(包括14個SNP位點(diǎn))和多個基因轉(zhuǎn)錄序列聯(lián)配(表3)。其中,參與線粒體活性氧信號轉(zhuǎn)導(dǎo)、植物激素信號轉(zhuǎn)導(dǎo)的調(diào)控蛋白、自噬基因表達(dá)與植物抗逆、抗旱水平有關(guān)。
表3 燕麥SNP源序列聯(lián)配基因(比對小麥基因組)Tab.3 Oat SNPs alignment genes (against wheat genome)
高通量測序技術(shù)的面世是現(xiàn)代分子生物學(xué)技術(shù)的革命性飛躍,NGS技術(shù)促使生命科學(xué)研究進(jìn)入基因組學(xué)時代,NGS在農(nóng)作物上的重要應(yīng)用之一就是GBS技術(shù)。GBS技術(shù)已經(jīng)成為加速農(nóng)作物種質(zhì)資源鑒定篩選以及分子輔助育種的重要技術(shù)之一[16,19,46],燕麥基因組相對復(fù)雜(2n=6x=42),具有豐富的遺傳多樣性。本研究采用新一代ddGBS技術(shù),成功組裝了基于54個樣本的燕麥簡化基因組參考序列。質(zhì)控顯示,獲得的高質(zhì)量reads通量和SNP雜合狀態(tài)與抗旱性沒有明顯關(guān)聯(lián)。GBS通過酶切過濾重復(fù)序列,降低基因組復(fù)雜程度,雖不代表全基因組序列結(jié)構(gòu),但非常適合于農(nóng)作物分子輔助育種SNP標(biāo)記開發(fā)。本研究之所以選擇經(jīng)過多年抗旱性鑒定、遺傳穩(wěn)定、抗旱梯度差異明顯(高抗、中抗、低抗)的燕麥種質(zhì)資源進(jìn)行測序,目的是通過抗旱性表型與SNP基因型關(guān)聯(lián)分析,開發(fā)可能與抗旱性有關(guān)聯(lián)的SNP。因本研究樣本數(shù)量相對偏小(n=54),在構(gòu)建簡化基因組參考序列中沒有采用報道的針對大樣本TASSEL分析流程[33],而應(yīng)用更適合于小群體的Stacks分析流程[35]。雖技術(shù)路線不同,但每項研究貢獻(xiàn)的簡化基因組參考序列無疑豐富了目前的燕麥基因組數(shù)據(jù)庫。
本研究的主要目的是挖掘可能與燕麥抗旱性有關(guān)聯(lián)的SNP,為燕麥種質(zhì)資源鑒定和分子輔助育種服務(wù)。這些試驗材料根據(jù)多年的抗旱性鑒定劃分為高抗、中抗和低抗3組,但根據(jù)SNP基因型聚類分析則大致分為2簇,高抗材料SNP基因型和大多數(shù)低抗材料基因型各聚類為一簇,明確顯示抗旱性和SNP基因型是關(guān)聯(lián)的,也就是說SNP基因型很大程度上能反映抗旱性。中抗材料SNP基因型沒有聚類成簇,而是呈分散狀態(tài),也從側(cè)面說明表型是基因型與環(huán)境共同作用的結(jié)果,同時作物抗旱性又是一個多指標(biāo)的綜合性狀表現(xiàn),但基因型的選擇是改良作物性狀的有效途徑[47-48]。燕麥抗旱表型是抗旱基因決定的性狀在環(huán)境作用下的具體表現(xiàn),其抗旱性鑒定結(jié)果可能在不同的環(huán)境條件下會有所偏差。
因高、低抗材料的抗旱性和SNP基因型相關(guān)聯(lián),本研究針對這2組材料,開發(fā)可能與燕麥抗旱性相關(guān)的SNP,大部分SNP屬于雜合或缺失狀態(tài),只有極少數(shù)呈現(xiàn)純合狀態(tài),可能是因為燕麥基因組高度雜合(六倍體)以及測序技術(shù)的原因。下一步仍需要應(yīng)用精度更高的數(shù)字化 PCR 技術(shù)在更大群體驗證本研究發(fā)現(xiàn)的SNP。
利用GBS技術(shù)開發(fā)可能與燕麥抗旱性相關(guān)SNP標(biāo)記在其他作物育種研究中已經(jīng)報道[49-53]。對于燕麥來講,本研究采用GBS技術(shù),第1個報道可能與燕麥抗旱性有關(guān)聯(lián)的SNP標(biāo)記,以期為燕麥種質(zhì)資源精準(zhǔn)篩查和分子輔助育種提供數(shù)據(jù)基礎(chǔ)。
基因組技術(shù)已被廣泛應(yīng)用到抗旱基因挖掘[54-56]。GRLs[57]、OsMYB55[58]和GIF[59]被相繼報道與不同作物抗旱機(jī)制有關(guān)。本研究經(jīng)Blast比對獲得的相關(guān)SNP源序列和不同生物通路基因轉(zhuǎn)錄子聯(lián)配。其中cat 186303的第83個堿基在高抗材料中位點(diǎn)缺失,而在低抗材料中則呈現(xiàn)GT雜合狀態(tài)。cat 186303源序列Blast 比對小麥基因組數(shù)據(jù)庫顯示,其序列與小麥硫氧還蛋白Trx序列相似。Trx蛋白參與細(xì)胞生長凋亡和基因轉(zhuǎn)錄[60],多項研究證明,Trx基因和作物抗旱、抗逆功能有關(guān)[16, 61-65]。后續(xù)功能驗證包括研究 cat 186303對燕麥Trx基因表達(dá)調(diào)控,是解釋功能SNP的重要步驟。此外,其他抗旱性相關(guān)SNP源序列聯(lián)配的基因包括植物激素信號轉(zhuǎn)導(dǎo)的DUF221、雙特異蛋白磷酸酶和核孔蛋白,與植物抗逆有關(guān)。
燕麥?zhǔn)橇扼w作物,本研究所開發(fā)的燕麥抗旱相關(guān)聯(lián)SNP不能定位,但證明不同抗性材料的燕麥在SNP存在表達(dá)差異,是作為燕麥材料分子篩選的潛在標(biāo)記。因為抗旱性狀是一個綜合指數(shù),單一參數(shù)不能全面代表抗旱能力。本試驗得出的特異性SNP 需要今后在大量的群體材料中進(jìn)行驗證。此外,燕麥抗旱指標(biāo)有待量化也是今后挖掘抗旱SNP 的重要基礎(chǔ)。本研究結(jié)果支持表型-基因型互作關(guān)系的同時也指出,抗旱性是基因型和環(huán)境因子綜合體現(xiàn),初期開發(fā)的可能與燕麥抗旱性有關(guān)聯(lián)的SNP必須在更大種質(zhì)群體中驗證以加強(qiáng)其SNP的廣譜性和實用性。
常規(guī)育種主要依賴于表型數(shù)據(jù),而分子輔助育種則側(cè)重于基因型數(shù)據(jù),構(gòu)建燕麥抗旱性表型-基因型關(guān)聯(lián)則是精準(zhǔn)育種的必經(jīng)之路。應(yīng)用GBS技術(shù),本研究成功組裝了燕麥簡化基因組參考序列并初步研究了可能與燕麥抗旱性有關(guān)聯(lián)的SNP標(biāo)記,研究結(jié)果不僅豐富了燕麥基因組數(shù)據(jù)庫,同時為燕麥種質(zhì)資源早期篩選和燕麥基因數(shù)據(jù)庫提供數(shù)據(jù)基礎(chǔ)。
致謝:感謝荷蘭萊頓大學(xué)統(tǒng)計系Goeman J J教授的統(tǒng)計學(xué)方法指導(dǎo);感謝美國加州戴維斯分校植物系羅明誠教授對本試驗給予的建議。