王洋坤, 胡艷, 張?zhí)煺?/p>
南京農(nóng)業(yè)大學(xué), 作物遺傳與種質(zhì)創(chuàng)新國家重點實驗室/教育部雜交棉創(chuàng)制工程研究中心, 南京210095
RAD-seq技術(shù)在基因組研究中的現(xiàn)狀及展望
王洋坤, 胡艷, 張?zhí)煺?/p>
南京農(nóng)業(yè)大學(xué), 作物遺傳與種質(zhì)創(chuàng)新國家重點實驗室/教育部雜交棉創(chuàng)制工程研究中心, 南京210095
Restriction-site associated DNA sequencing(RAD-seq)技術(shù)是在二代測序基礎(chǔ)上發(fā)展起來的一項基于全基因組酶切位點的簡化基因組測序技術(shù)。該方法技術(shù)流程簡單, 不受有無參考基因組的限制, 可大大簡化基因組的復(fù)雜性, 減少實驗費用, 通過一次測序就可以獲得數(shù)以萬計的多態(tài)性標(biāo)記。目前, RAD-seq技術(shù)已成功應(yīng)用于超高密度遺傳圖譜的構(gòu)建、重要性狀的精細(xì)定位、輔助基因組序列組裝、群體基因組學(xué)以及系統(tǒng)發(fā)生學(xué)等基因組研究熱點領(lǐng)域。文章主要介紹了 RAD-seq的技術(shù)原理、技術(shù)發(fā)展及其在基因組研究中的廣泛應(yīng)用。鑒于RAD-seq方法的獨特性, 該技術(shù)必將在復(fù)雜基因組研究領(lǐng)域具有廣泛的應(yīng)用前景。
RAD-seq; 基因組; 遺傳圖譜; SNP; 雙酶系統(tǒng)的RAD(ddRAD)測序
2005年, 美國454生命科學(xué)公司Margulies等[1]在國際頂級學(xué)術(shù)期刊Nature上報道了一種快速簡單的測序方法:結(jié)合 DNA 擴(kuò)增的乳膠系統(tǒng)(Emulsion system)和以皮升為單位的焦磷酸(Pyrophosphate)為基礎(chǔ)的測序方法——焦磷酸測序(Pyrosequencing)方法, 二代測序(Next-generation sequencing, NGS)的時代由此開啟。目前市場上主流的二代測序技術(shù)有Roche/454 焦磷酸測序(2005年)、Illumina/Solexa 聚合酶合成測序(2006年)和 ABI/SOLiD 連接酶測序(2007年)。與傳統(tǒng)的一代測序相比, 新一代測序技術(shù)共有的突出特征是:單次運行(run)產(chǎn)出的序列數(shù)據(jù)量大, 所以二代測序又被稱為高通量測序技術(shù)。新一代測序技術(shù)的產(chǎn)生有助于人們以更低廉的價格,快捷、全面、深入地分析基因組、轉(zhuǎn)錄組及蛋白質(zhì)之間交互作用的各項數(shù)據(jù)。
簡化基因組測序(Reduced-representation sequencing)是在第二代測序基礎(chǔ)上發(fā)展起來的一種利用酶切技術(shù)、序列捕獲芯片技術(shù)或其他實驗手段降低物種基因組復(fù)雜程度, 針對基因組特定區(qū)域進(jìn)行測序,進(jìn)而反映部分基因組序列結(jié)構(gòu)信息的測序技術(shù)。目前發(fā)展起來的簡化基因組測序有:復(fù)雜度降低的多態(tài)序列(Complexity reduction of polymorphic sequences, CRoPS)測序[2], 限制性酶切位點相關(guān)的 DNA (Restriction-site associated DNA, RAD)測序[3], 基因分型測序(Genotyping by sequencing, GBS)[4], 其中運用最為廣泛的是限制性酶切位點相關(guān) DNA的測序技術(shù), 即 RAD-seq。該技術(shù)利用限制性內(nèi)切酶對基因組進(jìn)行酶切, 產(chǎn)生一定大小的片段, 構(gòu)建測序文庫, 對酶切后產(chǎn)生的RAD標(biāo)記進(jìn)行高通量測序。由于 RAD標(biāo)記是全基因組范圍的呈現(xiàn)特異性酶切位點附近的小片段DNA標(biāo)簽, 代表了整個基因組的序列特征, 因此通過對RAD標(biāo)記測序能夠在大多數(shù)生物中獲得成千上萬的單核苷酸多態(tài)性(Single nucleotide polymorphism, SNP)標(biāo)記[5,6]。該技術(shù)的優(yōu)點在于:(1)通量高, 通過一次測序開發(fā) RAD 標(biāo)記的數(shù)量是傳統(tǒng)分子標(biāo)記開發(fā)技術(shù)的 10倍; (2)準(zhǔn)確性高,數(shù)字化信號和高覆蓋度使其較傳統(tǒng)的分子標(biāo)記準(zhǔn)確性大大提升; (3)數(shù)據(jù)利用率高, 性價比高, 由于基因組的復(fù)雜度被大幅降低, 從而降低了測序成本,因而特別適合在群體水平進(jìn)行研究; (4)實驗周期短,由于具有高通量的特點, 經(jīng)過一次測序能夠產(chǎn)生數(shù)以萬計的標(biāo)記, 大大縮短了傳統(tǒng)標(biāo)記的開發(fā)周期; (5)不受基因組序列的限制, 對沒有參考基因組的物種也可以進(jìn)行大規(guī)模篩查 SNP 位點。RAD-seq已成功應(yīng)用于SNP標(biāo)記的開發(fā)、超高密度遺傳圖譜的構(gòu)建、動植物重要經(jīng)濟(jì)性狀的QTL定位、群體遺傳結(jié)構(gòu)、系統(tǒng)演化分析和輔助全基因組de novo測序等研究領(lǐng)域[7~10]。
RAD-seq 的主要技術(shù)流程包括:基因組 DNA的酶切, 測序文庫的構(gòu)建, 上機(jī)測序, 數(shù)據(jù)分析等 4個步驟。
(1)利用限制性內(nèi)切酶對基因組 DNA樣品進(jìn)行酶切。一般情況下, 八堿基酶在基因組中出現(xiàn)的頻率最低, 其次是六堿基酶, 出現(xiàn)頻率最高的為四堿基酶。限制性內(nèi)切酶的選擇需要對目標(biāo)物種的參考基因組(或已知 BAC序列)進(jìn)行系統(tǒng)分析, 根據(jù)基因組的GC含量、重復(fù)序列情況等信息選擇合適的酶。2008年, Baird等[11]首先使用八堿基酶SbfⅠ(CCTGCAGG)對三刺魚(Gasterosteus aculeatus)基因組DNA進(jìn)行酶切, 測序得到14萬個RAD標(biāo)記; 而后,為了對三刺魚的側(cè)鰭性狀進(jìn)行精細(xì)定位, 又使用三刺魚基因組序列中出現(xiàn)頻率更高的六堿基酶 EcoRⅠ(GAATTC)對親本以及F2群體基因組DNA進(jìn)行酶切,具有不完整側(cè)鰭與完整側(cè)鰭的兩個親本分別獲得150萬和250萬個RAD標(biāo)記。很顯然, 與八堿基酶SbfⅠ相比, 通過 EcoRⅠ的酶切能夠產(chǎn)生更高密度的RAD標(biāo)記。在選擇限制性內(nèi)切酶時要根據(jù)物種基因組序列信息以及實驗?zāi)康膩磉x擇, 保證產(chǎn)生的RAD標(biāo)記能夠在基因組上均勻分布, 同時所獲得的RAD標(biāo)記數(shù)量能夠達(dá)到實驗所需的飽和度。
(2)測序文庫的構(gòu)建。首先, 在酶切后的基因組片段兩端加上P1接頭。如圖1A所示, P1接頭包含4個部分:與PCR擴(kuò)增的前引物結(jié)合的互補(bǔ)序列; 與Illumina 測序引物結(jié)合的互補(bǔ)序列; 用以對樣品進(jìn)行跟蹤的4~5 bp的Barcode(每個Barcode之間最好存在超過 2個堿基的差異); 相應(yīng)的限制性酶切位點。然后, 將加好P1接頭的序列進(jìn)行打斷(圖1B)。通過瓊脂糖膠檢測, 選擇符合大小的目的條帶, 一般選擇目標(biāo)條帶在400~500 bp。打斷后的DNA片段連接上P2接頭(圖1C)。這樣DNA片段有的加上P1、P2接頭, 有的兩端都加上P1接頭, 有的兩端都加上P2接頭。對這樣的混合DNA進(jìn)行PCR擴(kuò)增。由于P2接頭的“Y型”特殊結(jié)構(gòu), 使兩端只有P2而沒有P1的接頭無法擴(kuò)增, 沒有P1接頭的DNA片段被過濾掉。通過PCR擴(kuò)增富集得到既有P1接頭、又有P2接頭的DNA序列(圖1D)。
(3)上機(jī)測序。目前RAD-seq常用的測序平臺為Illumina GAII 或Illumina HiSeq2000平臺。測序深度需要根據(jù)實驗?zāi)康膩磉x擇, 對于遺傳連鎖分析,一般要求親本的平均測序深度為10×以上, F1、F2等臨時性群體, 推薦每個個體平均測序深度為 0.8-1×; RIL、DH等永久性群體, 推薦每個個體平均測序深度為 0.6×。對于群體遺傳學(xué)分析, 推薦每個個體平均測序深度為1.5 ×。
(4)數(shù)據(jù)分析。目前, Stacks軟件(http://creskolab. uoregon.edu/stacks/)被廣泛用于 RAD-seq的數(shù)據(jù)分析中[12]。該軟件可以用于基于RAD-seq數(shù)據(jù)的遺傳圖譜的構(gòu)建、群體基因組學(xué)研究、系統(tǒng)發(fā)生學(xué)研究。整個數(shù)據(jù)分析流程包含以下3個部分:
① 原始數(shù)據(jù)處理(Raw Reads):該階段為整個數(shù)據(jù)處理通路的起始準(zhǔn)備階段, 要求輸入的數(shù)據(jù)格式為FASTA或者FASTAQ格式, 主要是利用process_ radtags程序檢測 barcode與酶切位點是否完整并且按照不同的barcode將每個樣本的reads分開, 通過檢測將barcode不完整, 酶切位點處有一到兩個堿基錯配的序列進(jìn)行修正。同時, 對每條序列的質(zhì)量進(jìn)行評估, 過濾掉那些被修正的可能性低于 90%的序列。通過原始數(shù)據(jù)處理, 每條 clean reads被分配到每一個樣品下, 保證了測序數(shù)據(jù)的質(zhì)量可以用于以下核心程序的分析。
② 核心(Core)階段:核心元件為 Ustacks程序(圖 2)。Ustacks首先將從 process_radtags程序獲得的單個樣本的reads進(jìn)行聚類, 得到stacks(圖2A)。由于默認(rèn)的測序深度必須大于7倍, 因此每個stack最少不能低于 7條 reads。能夠聚類成為一個 stack的 reads為初級 reads, 其他不能形成聚類的為次級reads。而后, 由A步驟獲得的stacks被打亂重混, 按照 k-mer值重新聚類, 將每個含有一個核苷酸差異的stacks以節(jié)點的形式連接起來(圖2B)。每一個圓形節(jié)點為一個 stack, 兩點間的距離為一個核苷酸差異, 由節(jié)點和線段連接成一個基因座位(Loci)(圖2C)。需要注意的是, 節(jié)點與節(jié)點之間的連接必須是單向的, 如圖2C中灰色圓點基因座位不符合此項規(guī)則, 故舍去。接著, 重新過濾一遍次級reads, 將與已存在stacks相差兩個核苷酸以內(nèi)的次級reads重新利用(圖 2D), 這在一定程度上提高了數(shù)據(jù)的利用率,增加了stacks 的深度。圖2E為D圖中基因座位1的序列顯示, 新加入的次級reads與初級reads除了有 C/A差異位點之外, 還有其他兩個核苷酸以內(nèi)的差異, 但這種差異是可以忽略的, 并不影響將 C/A差異位點視為一對等位基因(圖 2F)。之后, 通過Cstacks程序?qū)蓚€親本中所出現(xiàn)的stacks綜合編入,形成一個含有雙親中所有基因座位的目錄(圖2G)。最后, 由Sstacks程序?qū)⒚總€子代個體中出現(xiàn)的基因座位與雙親中出現(xiàn)的基因座位進(jìn)行一對一搜索和概率計算, 定義出每一個基因座位上的等位基因(圖 2H)。每一個步驟的結(jié)果都可以傳入MYSQL數(shù)據(jù)庫中。
圖1 RAD-seq測序文庫的構(gòu)建流程[11]
③ 應(yīng)用(Utilities)階段:該階段為整個數(shù)據(jù)處理通路中最為靈活的階段, 可以根據(jù)不同的實驗?zāi)康倪x擇不同的程序。Genotypes程序具有自動糾正功能,可以對每個位點的基因型進(jìn)行檢測, 例如對子代中純合標(biāo)記的檢測, 確保其中沒有出現(xiàn) SNP, 保證了每個標(biāo)記位點的準(zhǔn)確性。通過該程序處理后的數(shù)據(jù),利用Joinmap或者R/QTL軟件, 可直接進(jìn)行遺傳圖譜的構(gòu)建。Populations程序在某種情況下可以代替genotypes軟件的使用, 但其主要用于群體遺傳分析,該程序能夠網(wǎng)頁輸出 VCF格式的 SNP, 計算例如 Pi、Fis和Fst等群體遺傳學(xué)相關(guān)的統(tǒng)計數(shù)據(jù)。
圖2 Stacks 軟件的分析流程[12,13]
經(jīng)過以上 3個階段的分析, 基本上能夠完成RAD-seq數(shù)據(jù)的分析。另外, Stacks軟件還有一些其他的應(yīng)用程序。例如, 在原始數(shù)據(jù)處理階段process_ shortreads程序也可快速過濾掉一些低質(zhì)量序列并且將每個樣本的reads 分開, 不同之處在于process_ shortreads程序是修剪掉那些低質(zhì)量的序列而非將其直接刪除, 因此并不適用于 RAD-seq的數(shù)據(jù)處理。在核心階段, 當(dāng)有參考基因組信息時, 可使用Pstacks 程序代替 Ustacks 程序, 后續(xù)分析的程序Cstacks、Sstacks 依然適用。在應(yīng)用階段也有更多的程序可以使用, 在這里就不一一列舉。
當(dāng)然, Stacks軟件并不是 RAD-seq數(shù)據(jù)分析的唯一軟件, 聚類軟件 CLUSTER與比對軟件MUSCLE[14]、BLAST[15,16]、SAMtools[17]等相結(jié)合也用于RAD-seq數(shù)據(jù)的分析。
在已發(fā)表的一些針對沒有參考基因組物種的RAD-seq文章中, 有將近一半的原始數(shù)據(jù)因為測序錯誤被丟棄。同時, 每個區(qū)域約有30%~50%的基因座位由于含有3個以上的堿基多樣性而被丟棄[8,9,11]。因此, 為了提高數(shù)據(jù)的使用效率, 增加可供分析的reads數(shù)量, 提高每個基因座位的準(zhǔn)確性, 需要在方法上對傳統(tǒng)的RAD-seq方法進(jìn)行改善。目前, 在單酶切 RAD-seq技術(shù)上發(fā)展起來的有雙酶切的 RAD (Double digest RAD, ddRAD)測序技術(shù)和IIB 型限制性內(nèi)切酶的RAD(IIB digest RAD, 2b-RAD)技術(shù)。
雙酶切的RAD-seq 技術(shù)與單酶切RAD-seq技術(shù)的區(qū)別在于, 基因組 DNA 通過一個稀有酶與一個常見酶相結(jié)合進(jìn)行雙酶切, 這樣處理免去打斷的過程直接進(jìn)行目的片段的篩選。在第二端的酶切位點后通過PCR擴(kuò)增引入 Index, 從而使更多的樣品能夠混在一起進(jìn)行測序。該方法經(jīng)過 Illumina Hiseq2000的雙端測序之后, 能夠獲得相對于單酶切 RAD-seq幾倍的有效數(shù)據(jù)。
圖3 RAD-seq與double digest RAD-seq的比較[18]
ddRAD-seq能夠在改善測序效率的同時大大的減少實驗成本。單酶切 RAD-seq(圖 3A), 利用單一的限制性內(nèi)切酶和隨機(jī)打斷對基因組進(jìn)行切割, 由于缺少方向性, 酶切位點兩邊相鄰的100 bp序列如藍(lán)色區(qū)域所示都可能被測出, 通過測序呈現(xiàn)出的序列分散度高, 準(zhǔn)確性就相對較低。如圖3B所示, 由雙酶切系統(tǒng)對基因組進(jìn)行切割并且輔以對酶切后產(chǎn)物片段大小的選擇(一般為 500 bp左右), 這樣就把序列固定在了兩端為不同酶切位點并且長度為 500 bp左右的片段中, 如圖中的藍(lán)色區(qū)域所示。a、b兩處雖然也在不同的酶切位點之間, 但因大小并不符合規(guī)定的產(chǎn)物長度故不列入考慮范圍。由此可見,雙酶系統(tǒng)對DNA文庫的篩選更為嚴(yán)格, 通過測序得到的序列也就更為準(zhǔn)確。在通量相同的情況下, 利用雙酶切系統(tǒng)的RAD-seq就能檢測更多的樣本, 提高數(shù)據(jù)的利用率, 減少成本。
2b-RAD技術(shù)采用的是利用IIB型限制性內(nèi)切酶對基因組DNA進(jìn)行酶切, 這類酶(比如BsaⅪ和AlfⅠ)能在基因組 DNA上靶標(biāo)位點上游和下游位點切斷DNA, 獲得長度一致的DNA片段。該技術(shù)無需預(yù)知基因組信息, 文庫構(gòu)建簡單快捷, 標(biāo)簽密度易于調(diào)節(jié), 成本低廉。Wang等[19]在擬南芥中對該方法進(jìn)行了驗證, 結(jié)果表明2b-RAD的準(zhǔn)確性高, 所需標(biāo)記密度調(diào)整精細(xì), 這種方法特別適合于連鎖圖譜與自然群體中遺傳變異圖譜的構(gòu)建。
3.1 RAD-seq在分子標(biāo)記開發(fā)和基因分型上的應(yīng)用
SNP是基因組中最常見的變異類型, 具有分布廣、數(shù)量多的優(yōu)點。傳統(tǒng)的SNP標(biāo)記開發(fā)方法通量低、開發(fā)成本高, 極大地限制了SNP標(biāo)記在高密度遺傳圖譜中的應(yīng)用。RAD-seq技術(shù)具有不依賴于基因組序列的優(yōu)點, 可進(jìn)行高通量的SNP標(biāo)記的開發(fā)。
2011年, Barchi等[20]將 RAD-seq應(yīng)用于茄子(Solanum melongena)的SNP標(biāo)記開發(fā)。兩個具有優(yōu)良性狀的育種親本利用 Illumina GAII平臺進(jìn)行PE54測序, 共計獲得約45 000條非冗余序列, 70%為兩個親本共有序列, 鑒定出約10 000個SNPs和約1 000個InDels, SNP和InDels頻率分別為0.8/kb和0.07/kb。通過RAD 序列預(yù)測到2 000個SSRs。研究表明, RAD-seq能夠發(fā)掘大量的DNA分子標(biāo)記,用于標(biāo)記輔助選擇和比較基因組學(xué)分析。
2012年, Scaglione等[21]對 3個洋薊(Cynara cardunculus)群體及親本進(jìn)行 RAD-seq測序, 獲得970萬條reads, 大約1 Gb數(shù)據(jù)。進(jìn)行contigs組裝后, 利用不同樣本的共有序列共開發(fā)出 34 000個SNPs和大約800個InDels標(biāo)記。雜合的SNP位點通過CAPS assays得到了較好的驗證。此研究表明, RAD-seq技術(shù)也可用于高雜合物種的SNP標(biāo)記的開發(fā)。
2012年, Bus等[22]采用RAD-seq的方法, 對8個油菜(Brassica napus)近交系種質(zhì)材料進(jìn)行了多態(tài)性檢測和基因分型, 共檢測和鑒定到了20 000多個SNPs和125個InDels, 約有1/3的RAD標(biāo)記被聚類并比對到油菜參考序列。該研究表明, RAD-seq不僅僅是一個簡單而經(jīng)濟(jì)有效的檢測高密度多態(tài)性的方法, 同時對于多倍體物種如油菜等的研究, 也是一種進(jìn)行SNP基因分型的有效方法。
3.2 RAD-seq在圖譜構(gòu)建上的應(yīng)用
將回交群體、F2群體和親本同時進(jìn)行測序, 所得到的RAD-seq數(shù)據(jù)可以用于超高密度的多態(tài)性圖譜的構(gòu)建, 進(jìn)而用于關(guān)聯(lián)性圖譜和遺傳圖譜的構(gòu)建。
2012年, Poland等[10]利用限制性內(nèi)切酶 PstⅠ(CTGCAG)與MspⅠ(CCGG)的雙酶系統(tǒng)對大麥和小麥的基因組分別進(jìn)行RAD-seq, 得到一張有34 000個 SNPs和 240 000個標(biāo)記的俄勒岡州烏爾夫大麥(Hordeum vulgare)的高密度遺傳圖譜, 以及一張有20 000個SNPs和367 000個標(biāo)記的雜交小麥超高密度遺傳圖譜, 證實了ddRAD-seq在大而復(fù)雜的多倍體基因組上的可用性。
2012年, Peterson等[18]對一新興的嚙齒目模式動物鹿鼠(Genus Peromyscus)利用 EcoRⅠ(GAATTC)和 MspⅠ(CCGG)雙酶切系統(tǒng)的 RAD-seq在兩個姐妹物種Maniculatus和Polionotus的雜交群體中分離出了1 000多個有固定差異的SNPs位點, 構(gòu)建了一張含有1 158個SNPs標(biāo)記的遺傳連鎖圖。之后, 為了驗證該方法針對野生物種也具有同樣的適用性, Peterson又在自然種群Leucopus中捕捉到了146個野生種, 分兩次使用與前試驗同樣雙酶系統(tǒng)的 RAD-seq, 第一次對54個個體進(jìn)行測序, 找到了6 199個多態(tài)性區(qū)域, 15 962個SNPs, 第二次對92個個體進(jìn)行測序, 共找到 18 907個 SNPs。兩次測序得到的SNPs 有大部分相同, 因此ddRAD標(biāo)記的可用性得到了進(jìn)一步的驗證。
更為重要的是, RAD-seq能夠在不開發(fā)全新的標(biāo)記情況下, 添加新的來源于遠(yuǎn)緣物種或不同物種的構(gòu)圖個體。因為RAD-seq能夠產(chǎn)生大量的遺傳標(biāo)記, 有足夠的標(biāo)記可以對有一對單雜合的親本雜交產(chǎn)生的 F1家系利用測交法構(gòu)建遺傳圖譜。2011年, Amores等[23]就利用該方法繪制出了一張含有8 406個 RAD標(biāo)記的斑點雀鱔(Lepisosteus oculatus)高密度遺傳圖譜。
測交法的流程如圖 4所示, 由一對雜合親本產(chǎn)生的F1群體可以用來生成以RAD為標(biāo)記的遺傳圖譜。在一個親本中是雜合, 而在另一個親本中是純合的同一個標(biāo)記(圖4A、B位點)可以用于測交檢測,這樣的一對標(biāo)記在每一個F1群體中則會以一個純合而另一個雜合的形式出現(xiàn), 通過結(jié)合兩親本圖譜中均含有的雜合等位基因 C, 即可合并成一個完整的圖譜。
圖4 RAD 測交分析法[23]
3.3 RAD-seq在動植物重要經(jīng)濟(jì)性狀基因/QTL 定位上的應(yīng)用
RAD-seq是一個功能強(qiáng)大的SNP開發(fā)平臺, 使用RAD-seq可以發(fā)掘大量的SNP標(biāo)記, 進(jìn)行重要基因的定位。2008年, Baird等[11]首次將RAD標(biāo)記應(yīng)用于第二代測序中, 以三刺魚為研究對象, 論證了RAD-seq可以獨立地識別控制側(cè)鰭性狀的基因, 以及在連鎖群Ⅳ中一些與缺失側(cè)鰭相關(guān)的其他位點。研究樣本采用了來自兩個在側(cè)鰭性狀存在明顯差異的親本及其 F2群體中的 96個個體。利用限制性內(nèi)切酶 SbfⅠ(CCTGCAGG)酶切子代和親本的基因組DNA, 通過測序共識別了41 622個均勻分布于基因組中的RAD標(biāo)記, 得到了13 000個SNPs。最終, 將控制三刺魚側(cè)鰭缺失的Eda位點定位在了連鎖群Ⅳ上, 距離最近的RAD標(biāo)記為1.5 Mb。
2011年, Pfender等[9]通過對黑麥草(Lolium perenne)銹病的抗感和易感親本及由其雜交產(chǎn)生188個F1家系進(jìn)行RAD-seq, 兩個親本各得到約100萬條reads, 聚類分析后得到1.7萬的初級RAD標(biāo)記,配合F1家系的測序數(shù)據(jù)按規(guī)定的準(zhǔn)則篩選過濾之后母本獲得 1 156個 RAD標(biāo)記, 父本獲得 1 216個RAD標(biāo)記, 構(gòu)建了親本的高密度遺傳圖譜。再通過F1代 193個家系接種病原菌后的侵染表型, 結(jié)合SSR與STS標(biāo)記, 定位到了3個銹病相關(guān)的QTL位點, 分別為位于黑麥草的7號連鎖群上貢獻(xiàn)值為30~38的主效 QTL(qLpPg1), 以及兩個分別位于1號連鎖群(qLpPg2)和6號連鎖群(qLpPg3)的貢獻(xiàn)值為10的QTL。
2012年, Houston等[24]選取兩種對于傳染性胰臟壞死病病毒(Infectious Pancreatic Necrosis, IPN)感染抗性和敏感的三文魚(Salmo salar )親本及14個子代(7個純合抗性子代和7個純合敏感子代個體), 利用RAD-seq技術(shù)進(jìn)行基因分型, 構(gòu)建遺傳連鎖圖譜,并結(jié)合相關(guān)表型數(shù)據(jù)進(jìn)行了IPN抗性相關(guān)的QTL定位分析。鑒定到6 712個分離的SNPs, 其中50個SNPs與QTL連鎖, 獲得的這些QTL連鎖SNPs可用于IPN感染后對三文魚魚苗的高通量分析和基因分型檢測。
3.4 RAD-seq在群體遺傳及系統(tǒng)發(fā)生學(xué)上的應(yīng)用
RAD-seq另一個非常強(qiáng)大的應(yīng)用為利用 RAD標(biāo)記基因分型的結(jié)果, 進(jìn)行高精度群體遺傳、生態(tài)遺傳和親緣地理學(xué)以及系統(tǒng)發(fā)生學(xué)的研究。由于方法上的限制, 傳統(tǒng)的群體遺傳和親緣地理研究只能利用得到的少量的基因座位進(jìn)行分析, 無法滿足對許多群體遺傳相關(guān)參數(shù)的精確評估。RAD-seq能夠得到數(shù)量巨大的多態(tài)性標(biāo)記, 從而解決了傳統(tǒng)方法基因座位少, 基因組信息代表性差的問題[25]。
2010年, Hohenlohe等[26]用該方法研究了三刺魚自然群體的多樣性分化, 選擇了兩個來自阿拉斯加南部的海洋群體和 3個淡水群體的 100個個體,利用限制性內(nèi)切酶 SbfⅠ(CCTGCAGG) 酶切基因組 DNA, 通過測序得到45 789個SNPs??傮w估計了三刺魚群體的遺傳多樣性, 進(jìn)而證明了大型隨機(jī)交配的海洋群體會多頻產(chǎn)生表型變異的淡水群體的生物地理假說。
2010年, Emerson等[7]僅利用適量的RAD數(shù)據(jù),就揭示了來自21個不同群體的北美瓶草蚊(Wyeomyia smithii)的進(jìn)化關(guān)系。通過對這 21個樣品的基因組DNA進(jìn)行RAD-seq, 共獲得2 750萬條reads, 1 490萬條通過幾項標(biāo)準(zhǔn)的過濾, 平均每個個體為711 702± 85 779條。利用Stacks軟件分別分析每個北美瓶草蚊個體, 平均每個個體得到20 868±1 681個stacks,覆蓋了13 627±1 177個基因座。最后, 共獲得3 714個SNP標(biāo)記用于揭示這21個不同北美瓶草蚊群體的親緣關(guān)系, 即Appalachian種群與多數(shù)的南部種群有較近的親緣關(guān)系, 而來自北美五大湖和加拿大中部的大陸種群則與更偏東的橫跨圣勞倫斯河走廊的種群產(chǎn)生了分離。
雷默瑞麗蝸牛(Cepaea nemoralis)是一個優(yōu)秀的傳統(tǒng)生態(tài)遺傳學(xué)模型, 但是由于缺乏遺傳標(biāo)記, 對其進(jìn)化研究和多樣性保護(hù)被停滯。2013年, Richards等[27]利用RAD-seq技術(shù)對雷默瑞麗蝸牛兩個親本和22個子代個體進(jìn)行測序。在控制色彩和色帶的基因座位上找到了44個標(biāo)記, 另外又開發(fā)了11個能夠在22個子代中獨立遺傳的最優(yōu)標(biāo)記, 并在其他146個子代中得到了進(jìn)一步驗證。最近的兩個RAD標(biāo)記被定位在了0.6 cM 之內(nèi), 最終構(gòu)建了一張35.8 cM的連鎖圖, 重新建立了雷默瑞麗蝸牛在生態(tài)遺傳學(xué)上優(yōu)秀的分子模型地位。
3.5 RAD-seq在輔助全基因組測序上的應(yīng)用
RAD-seq還能夠通過輔助全基因組測序?qū)Ψ悄J轿锓N進(jìn)行遺傳基礎(chǔ)的研究。2013年, Jia等[28]在Nature上發(fā)表了一篇關(guān)于構(gòu)建二倍體小麥粗山羊草(Aegilops tauschii)框架圖的文章。在進(jìn)行 scaffolds錨定的過程中, 利用RAD-seq和全基因組測序相結(jié)合的方法, 對粗山羊草Y2280、AL8/78以及由其雜交得到的490株F2家系進(jìn)行測序, 從而得到了一張具有 151 083個SNPs標(biāo)記的高密度遺傳圖譜, 該圖譜總長1 059.806 cM, 包含13 688個scafflolds, 序列總長 1.277 Gb, 是迄今為止密度最高的一張粗山羊草遺傳圖譜, 該圖譜在輔助 scaffolds的錨定上起到了至關(guān)重要的作用。
2013年, Xu等[29]利用RAD-seq與全基因組測序相結(jié)合, 完成了對孟加拉虎(Panthera tigris)出現(xiàn)白色條紋的遺傳機(jī)理的研究。通過對 3個親本進(jìn)行全基因組測序同時輔以對具有“白色”基因位點的同一個血統(tǒng)的16個圈養(yǎng)虎進(jìn)行RAD-seq, 發(fā)現(xiàn)了致病突變是一種氨基酸變化(A477V)SLC45A2 轉(zhuǎn)運蛋白,經(jīng)過蛋白質(zhì)構(gòu)象的三維結(jié)構(gòu)同源性檢測表明, 這樣的替代可能部分阻止運輸通道, 從而影響黑素原的生成, 該結(jié)論在130只無關(guān)的老虎中得到了驗證。
RAD-seq技術(shù)操作簡便, 周期短, 實驗成本低,同時不受參考基因組的限制, 一次實驗即獲得的大量 SNP信息, 可以用于任何物種的高密度圖譜的構(gòu)建、基因(QTLs)定位及群體遺傳分析。由此可見,隨著RAD-seq技術(shù)趨于成熟, 將被廣泛應(yīng)用于不同的生物學(xué)研究領(lǐng)域。
在分子育種領(lǐng)域, 可以利用RAD-seq與轉(zhuǎn)錄組分析相結(jié)合的方法尋找目的基因。利用該方法, 將顯著提高復(fù)雜性狀相關(guān)基因定位的效率, 為分子育種領(lǐng)域的研究開辟廣闊的發(fā)展前景。
在動植物多樣性保護(hù)方面, 可以利用 RAD-seq與全基因組測序相結(jié)合的方法對珍惜物種的遺傳多樣性進(jìn)行研究, 通過高密度遺傳圖譜和物理圖譜的構(gòu)建獲得更多的遺傳信息, 再與其親緣關(guān)系相近的物種進(jìn)行比對, 最終找出該物種在進(jìn)化上的特征,為物種多樣性保護(hù)奠定了基礎(chǔ)。
在基礎(chǔ)醫(yī)學(xué)研究方面, 由于人類疾病的復(fù)雜性,單一位點的序列多樣性并不足以導(dǎo)致表現(xiàn)型的變化,大部分控制疾病的基因多為數(shù)量性狀位點。通過將RAD-seq與QTL定位相結(jié)合便能夠找到控制疾病的基因, 后期再設(shè)計藥物抑制該基因的表達(dá), 便能夠達(dá)到治療疾病的效果, 對于腫瘤、心臟病、動脈硬化等疾病的研究有著十分重要的意義。
總之, 隨著測序和實驗成本的進(jìn)一步降低, RAD-seq技術(shù)必將在復(fù)雜基因組遺傳分析研究領(lǐng)域具有廣泛的應(yīng)用前景。
[1] Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS, Chen YJ, Chen Z, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Irzyk GP, Jando SC, Alenquer ML, Jarvie TP, Jirage KB, Kim JB, Knight JR, Lanza JR, Leamon JH, Lefkowitz SM, Lei M, Li J, Lohman KL, Lu H, Makhijani VB, McDade KE, McKenna MP, Myers EW, Nickerson E, Nobile JR, Plant R, Puc BP, Ronan MT, Roth GT, Sarkis GJ, Simons JF, Simpson JW, Srinivasan M, Tartaro KR, Tomasz A, Vogt KA, Volkmer GA, Wang SH, Wang Y, Weiner MP, Yu P, Begley RF, Rothberg JM. Genome sequencing in microfabricated high-density picolitre reactors. Nature, 2005, 437(7057): 376-380.
[2] Altshuler D, Pollara VJ, Cowles CR, van Etten WJ, Baldwin J, Linton L, Lander ES. An SNP map of the human genome generated by reduced representation shotgun sequencing. Nature, 2000, 407(6803): 513-516.
[3] Davey JL, Blaxter MW. RADSeq: next-generation population genetics. Brief Funct Genomic, 2010, 9(5-6): 416-423.
[4] Elshire RJ, Glaubitz JC, Sun Q, Poland JA, Kawamoto K, Buckler ES, Mitchell SE. A robust, simple genotypingby-sequencing (GBS) approach for high diversity species. PloS ONE, 2011, 6(5): e19379.
[5] Miller MR, Dunham JP, Amores A, Cresko WA, Johnson EA. Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers. Genome Res, 2007, 17(2): 240-248.
[6] van Tassell CP, Smith TP, Matukumalli LK, Taylor JF, Schnabel RD, Lawley CT, Haudenschild CD, Moore SS, Warren WC, Sonstegard TS. SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries. Nat Methods, 2008, 5(3): 247-252.
[7] Emerson KJ, Merz CR, Catchen JM, Hohenlohe PA, Cresko WA, Bradshaw WE, Holzapfel CM. Resolving postglacial phylogeography using high-throughput sequencing. Proc Natl Acad Sci USA, 2010, 107(37): 16196-16200.
[8] Hohenlohe PA, Amish JS, Catchen MJ, Allendorf WF, Luikart G. Next-generation RAD sequencing identifies thousands of SNPs for assessing hybridization between rainbow and westslope cutthroat trout. Mol Ecol Resour, 2011, 11(Suppl. 1): 117-122.
[9] Pfender WF, Saha MC, Johnson EA, Slabaugh MB. Mapping with RAD (restriction-site associated DNA) markers to rapidly identify QTL for stem rust resistance in Loliumperenne. Theor Appl Genet, 2011, 122(8): 1467-1480.
[10] Poland JA, Brown PJ, Sorrells ME, Jannink JL. Development of high-density genetic maps for barley and wheat using a novel two-enzyme genotyping-by-sequencing approach. PloS ONE, 2012, 7(2): e32253.
[11] Baird NA, Etter PD, Atwood TS, Currey MC, Shiver AL, Lewis ZA, Johnson EA. Rapid SNP discovery and genetic mapping using sequenced RAD markers. PLoS ONE, 2008, 3(10): e3376.
[12] Catchen JM, Amores A, Hohenlohe P, Cresko W, Postlethwait JH. Stacks: building and genotyping Loci de novo from short-read sequences. G3, 2011, 1(3): 171-182.
[13] Catchen JM, Hohenlohe P, Bassham S, Amores A, Cresko WA. Stacks: an analysis tool set for population genomics. Mol Ecol, 2013, 22(11): 3124-3140.
[14] Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res, 2004, 32(5): 1792-1797.
[15] Altschul SF, Madden TL, Sch?ffer AA, Zhang JH, Zhang Z, Miller W, Lipman DJ. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997, 25(17): 3389-3402.
[16] Kent WJ. BLAT-the BLAST-like alignment tool. Genome Res, 2002, 12(4): 656-664.
[17] Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Durbin R. The sequence alignment/map format and SAMtools. Bioinformatics, 2009, 25(16): 2078-2079.
[18] Peterson BK, Weber JN, Kay EH, Fisher HS, Hoekstra HE. Double digest RADseq: an inexpensive method for de novo SNP discovery and genotyping in model and nonmodel species. PLoS ONE, 2012, 7(5): e37135.
[19] Wang S, Meyer E, McKay JK, Matz MV. 2b-RAD: a simple and flexible method for genome-wide genotyping. Nat Methods, 2012, 9(8): 808-810.
[20] Barchi L, Lanteri S, Portis E, Acquadro A, Valè G, Toppino L, Rotino GL. Identification of SNP and SSR markers in eggplant using RAD tag sequencing. BMC Genomics, 2011, 12(1): 304.
[21] Scaglione D, Acquadro A, Portis E, Tirone M, Knapp SJ, Lanteri S. RAD tag sequencing as a source of SNP markers in Cynara cardunculus L. BMC Genomics, 2012, 13(1): 3.
[22] Bus A, Hecht J, Huettel B, Reinhardt R, Stich B. High-throughput polymorphism detection and genotyping in Brassica napus using next-generation RAD sequencing. BMC Genomics, 2012, 13(1): 281.
[23] Amores A, Catchen J, Ferrara A, Fontenot Q, Postlethwait JH. Genome evolution and meiotic maps by massively parallel DNA sequencing: spotted gar, an outgroup for the teleost genome duplication. Genetics, 2011, 188(4): 799-808.
[24] Houston RD, Davey JW, Bishop SC, Lowe NR, Mota-Velasco JC, Hamilton A, Guy DR, Tinch AE, Thomson ML, Blaxter ML, Gharbi K, Bron JE, Taggart JB. Characterisation of QTL-linked and genome-wide restriction site-associated DNA (RAD) markers in farmed Atlantic salmon. BMC Genomics, 2012, 13(1): 244.
[25] Hohenlohe PA, Catchen J, Cresko WA. Population genomic analysis of model and nonmodel organisms using sequenced RAD tags. In: Data Production and Analysis in Population Genomics. New York: Humana Press, 2012: 235-260.
[26] Hohenlohe PA, Bassham S, Etter PD, Stiffler N, Johnson EA, Cresko WA. Population genomics of parallel adaptation in threespine stickleback using sequenced RAD tags. PLoS Genet, 2010, 6(2): e1000862.
[27] Richards PM, Liu MM, Lowe N, Davey JW, Blaxter ML, Davison A. RAD-Seq derived markers flank the shell colour and banding loci of the Cepaea nemoralis supergene. Mol Ecol, 2013, 22(11): 3077-3089.
[28] Jia J, Zhao SC, Kong XY, Li YR, Zhao GY, He WM, Appels RD, Pfeifer M, Tao Y, Zhang XY, Jing RL, Zhang C, Ma YZ, Gao LF, Gao C, Spannagl M, Mayer KFX, Li D, Pan SK, Zheng FY, Hu Q, Xia XC, Li JW, Liang QS, Chen J, Wicker T, Gou CY, Kuang HH, He GY, Luo YD, Keller B, Xia QJ, Lu P, Wang JY, Zou HF, Zhang RZ, Xu JY, Gao JL, Middleton C, Quan ZW, Liu GM, Wang J, Yang HM, Liu X, He ZH, Mao L, Wang J. Aegilops tauschii draft genome sequence reveals a gene repertoire for wheat adaptation. Nature, 2013, 496: 91-95.
[29] Xu X, Dong GX, Hu XS, Miao L, Zhang XL, Zhang DL, Yang HD, Zhang TY, Zou ZT, Zhang TT, Zhuang Y, Bhak J, Cho YS, Dai WT, Jiang TJ, Xie C, Li RQ, Luo SJ. The genetic basis of white tigers. Curr Biol, 2013, 23(11): 1389-1504.
Current status and perspective of RAD-seq in genomic research
Yangkun Wang, Yan Hu, Tianzhen Zhang
State Key Laboratory of Crop Genetics and Germplasm Enhancement/Cotton Hybrid R & D Engineering Center of the Ministre of Education, Nanjing Agricultural University, Nanjing 210095, China
The restriction-site associated DNA sequencing (RAD-seq) is a high-throughput sequencing technique developed from the next-generation sequencing (NGS). This method can reduce the representation of the complex genome while mapping thousands of polymorphic markers with or without a reference genome. It has been extensively used for high-density genetic map construction, fine mapping of important genes, genome sequence assembly, population genomic research, as well as phylogenetic research and so on. Here, we introduce the technological principle and development of RAD-seq combined with the sequencing applications in various species. Due to its uniqueness, RAD-seq will have a wide application in genetic analysis of complex genomic research in the future.
RAD-seq; genome; genetic map; SNP; double enzyme system of RAD (double digest RAD ddRAD) sequencing
2013-07-16;
2013-08-15
國家重點基礎(chǔ)研究發(fā)展規(guī)劃(973計劃)項目(編號:2011CB109300)資助
王洋坤, 碩士研究生, 專業(yè)方向:基因組生物學(xué)。E-mail: cherrywyk@163.com
張?zhí)煺? 博士, 教授, 研究方向:作物遺傳育種。E-mail: cotton@njau.edu.cn
10.3724/SP.J.1005.2014.0041
時間: 2013-10-16 19:05:20
URL: http://www.cnki.net/kcms/detail/11.1913.R.20131016.1905.003.html