孫 玥, 楊秀榮, 郭彥麗, 李軍玲, 李月嬌, 孫淑琴, 路 信, 劉燕清, 佟 卉, 孫林靜, 劉靜妍, 張融雪, 王曉靜, 蘇京平, 王勝軍, 趙習(xí)樸, 閆雙勇
(1.天津市農(nóng)業(yè)科學(xué)院農(nóng)作物研究所/天津市農(nóng)作物遺傳育種重點實驗室,天津 300384;2.天津市農(nóng)業(yè)科學(xué)院植物保護研究所,天津 300384)
QTL-seq是一種選取分離群體中極端表型單株,按表型值的高、低構(gòu)建DNA混合池,然后分別對不同合混池進行高通量測序,通過比較池間SNP的頻率差異進行數(shù)量性狀位點(QTL)定位的方法。該方法利用20~50個極端表型單株混合測序,可以將QTL定位到2 Mbp以上區(qū)間。QTL-seq已經(jīng)廣泛應(yīng)用于主要的糧食作物、經(jīng)濟作物及蔬菜等植物重要性狀的QTL分析中。目前,已經(jīng)開發(fā)出專門用于QTL-seq分析的工具軟件。QTL-seq 分析后,一般需要利用傳統(tǒng)作圖方法進行QTL的驗證與分析,或者直接利用QTL區(qū)間的分子標記進行分子標記輔助育種,以及進一步縮小區(qū)間進行QTL精細定位等。所以特定區(qū)間的分子標記開發(fā)是QTL-seq后續(xù)研究中的重要環(huán)節(jié)。高通量測序后能提供QTL區(qū)間內(nèi)非常豐富的變異信息,但目前還未見把特定區(qū)間的變異信息轉(zhuǎn)化為分子標記的相關(guān)報道。
對高通量測序數(shù)據(jù)進行序列變異分析后會產(chǎn)生標準的序列變異格式的文件(variant call format,簡稱VCF),VCF文件記錄了序列變異信息。根據(jù)該文件提供的序列變異信息可以方便地進行特定區(qū)間的分子標記開發(fā)。目前,SNP和InDel是2種最常用的分子標記。但SNP的檢測需要特殊的設(shè)備,檢測成本相對比較高,而InDel標記是一種以PCR片段長度多態(tài)為基礎(chǔ)的分子標記,操作簡單,結(jié)果可靠,大多數(shù)實驗室都能進行檢測。已經(jīng)廣泛應(yīng)用到植物基因定位、分子標記輔助育種等研究中。因此,本研究側(cè)重于InDel標記的開發(fā),編寫了專門用于InDel標記開發(fā)的腳本程序,利用該程序可以根據(jù)VCF文件提供的變異信息,簡單迅速地開發(fā)出水稻基因組任意區(qū)間的InDel標記。本研究在筆者所在課題組前期QTL-seq研究的基礎(chǔ)上,開發(fā)了7個不同作圖群體及QTL區(qū)間的708對Indel標記,覆蓋基因組區(qū)間12.5 Mbp,平均每 17.6 kb 有1個長度差異8 bp以上的InDel標記。選擇其中95個標記進行PCR和電泳驗證,旨在提供一種有效的特定區(qū)間分子標記開發(fā)方法,在水稻重要農(nóng)藝性狀QTL分子標記輔助選擇及圖位克隆中發(fā)揮重要應(yīng)用價值。
2019年獲得7個用于株高及抽穗期QTL分析,來自不同組合的QTL定位群體:1542、1610、2342、2459、2791、2904、2441,并在2019年于天津市農(nóng)業(yè)科學(xué)院農(nóng)作物遺傳育種實驗室進行后續(xù)試驗。
每個群體各取5個極高和極低表型值的單株葉片,按Xin等報道的簡單DNA提取方法進行DNA提取。
PCR循環(huán)程序:94 ℃變性5 min,55 ℃退火 30 s,72 ℃延伸3 s,循環(huán)30次。PCR引物見表1。用8%聚丙烯酰胺凝膠進行垂直電泳,銀染顯色。
表1 本研究PCR引物
表1(續(xù))
腳本程序在linux(ubantu 18.04系統(tǒng))運行。系統(tǒng)中需要配置的軟件有vcftools,用于提取VCF文件中特定染色體區(qū)間的變異信息;blastdbcmd用于根據(jù)染色體及位置信息提取部分序列;blastn-outfmt 6用于產(chǎn)生表格格式的blastn結(jié)果,用系統(tǒng)工具awk確定部分序列的拷貝數(shù);用primer3的命令行版本進行引物設(shè)計。數(shù)據(jù)處理過程中還需要用到sed、grep等系統(tǒng)命令。利用這些命令建立shell腳本文件,分子標記開發(fā)時,針對不同情況在shell腳本文件修改相應(yīng)的參數(shù),進行不同材料和區(qū)間的分子標記開發(fā)。分子標記開發(fā)時只需要執(zhí)行1次腳本程序就能獲得特定區(qū)間的InDel標記。
本研究的InDel標記開發(fā)流程如圖1所示。首先利用工具vcftools從VCF文件中,根據(jù)染色體和變異位置信息提取出需要進行標記開發(fā)的InDel位點;然后,根據(jù)InDel位點的位置信息從水稻品種日本晴參考基因組irgsp1.0中用命令blastdbcmd提取變異位點上、下游100 bp的部分序列(blast 2.6.0);獲得的序列進一步用blastn和參考基因組進行序列比對,根據(jù)序列比對結(jié)果,挑選單拷貝序列,用primer3進行引物設(shè)計,獲得InDel標記。
上述從變異位點的選擇到引物設(shè)計的過程,可以利用一個腳本程序一步完成。進行不同區(qū)間的分子標記開發(fā)時,只需要修改腳本程序中幾個關(guān)鍵的參數(shù)就可以完成。需要修改的關(guān)鍵參數(shù)為VCF文件、染色體、開發(fā)標記染色體起點區(qū)間、染色體終止區(qū)間、InDel大小等。程序運行后產(chǎn)生的結(jié)果文件如表2所示。其中包含標記的位置、引物序列、PCR片段長度等關(guān)鍵信息。
表2 通過腳本程序獲得的InDel標記信息簡表
總共對來自7個不同群體的7個不同基因組區(qū)間進行InDel標記開發(fā),具體標記開發(fā)及驗證結(jié)果見表3??偣搏@得片段長度差異在8 bp以上的InDel標記引物708對,覆蓋區(qū)間總大小為 12.52 Mbp,平均每17.6 kb有1個符合篩選條件的InDel標記。InDel標記的分布和材料組合及特定的區(qū)間有關(guān)。根據(jù)后續(xù)研究的需要和InDel標記的位置選擇95個標記,進行試驗驗證,總共獲得60個多態(tài)標記。不同的群體多態(tài)標記頻率從45%到90%不等,平均多態(tài)頻率為63%。
表3 分子標記開發(fā)驗證結(jié)果
根據(jù)本研究開發(fā)的腳本程序獲得的PCR引物大多能夠進行較好的PCR擴增(圖2),大多數(shù)標記的擴增條帶,在基因型純合的材料中表現(xiàn)為單一條帶。從電泳圖(圖2)中能夠比較清楚地確定材料的基因型,這對后續(xù)的圖位克隆、分子標記輔助選擇等研究非常有利。進行分子標記開發(fā)的腳本程序中有進行單拷貝序列篩選的步驟,所以大多數(shù)的擴增為單拷貝擴增。
本研究建立了一種基于高通量測序數(shù)據(jù)的簡單快速的InDel標記開發(fā)方法。利用該方法可以快速方便地在高通量測序數(shù)據(jù)的基礎(chǔ)上開發(fā)出水稻基因組任意區(qū)間的InDel標記。開發(fā)出的InDel標記可以方便地應(yīng)用到分子標記輔助選擇、圖位克隆等后續(xù)研究中。隨著高通量測序方法在研究中的應(yīng)用日益廣泛,對特定區(qū)間進行標記開發(fā)的需求也逐漸增加,本研究建立的方法為這方面問題的解決提供了一種較好的方案。
InDel標記雖然有操作簡單、鑒定成本低等特點,但在精細定位過程中可能會遇到特定區(qū)間標記數(shù)量不足的問題,這時可能需要開發(fā)基于SNP/InDel的分子標記,例如KASP(kompetitive allele-specific PCR)標記。在本研究的基礎(chǔ)上通過對腳本程序中變異選擇篩選條件及PCR引物設(shè)計參數(shù)的改變,實現(xiàn)KASP的標記開發(fā)用于SNP檢測。本研究分子標記開發(fā)過程中引物設(shè)計的核心程序是primer3,該程序有非常多的引物設(shè)計參數(shù)可以調(diào)整,所以可以非常方便地在腳本程序中進行參數(shù)設(shè)置。
根據(jù)NCBI網(wǎng)站提供的數(shù)據(jù)(https://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/),目前有112個植物全基因組序列測定已經(jīng)完成,可以在相應(yīng)的網(wǎng)站獲得其全基因組序列。本研究建立的方法可以非常容易地由水稻基因組擴展到其他已經(jīng)測序植物的基因組,如小麥、玉米等。其中需要調(diào)整的主要參數(shù)是參考基因組及相應(yīng)的信息。