楊漫漫,陳 濤,沈俊然,王 然,李 勇
(深圳市華大農(nóng)業(yè)應(yīng)用研究院∕深圳市動(dòng)物基因組輔助育種工程實(shí)驗(yàn)室,廣東 深圳 518083)
低覆蓋度重測(cè)序近年來(lái)在群體遺傳學(xué)分析[1,2]、基因組選擇[3,4]等方面的應(yīng)用越來(lái)越廣泛。文庫(kù)質(zhì)量對(duì)數(shù)據(jù)質(zhì)量和分析效果有很大影響[5],覆蓋度低時(shí)尤為明顯,而片段化是文庫(kù)制備的第一個(gè)關(guān)鍵步驟。目前,片段化技術(shù)主要為物理打斷法和酶切打斷法,超聲是物理打斷法中最為常用的方法,而酶切打斷法主要分常規(guī)片段化酶和TN5轉(zhuǎn)座酶[6]。此外,為了解決文庫(kù)制備中由于PCR擴(kuò)增導(dǎo)致的bias和copy errors等[7,8],無(wú)需PCR的PCR-free建庫(kù)方式也被廣泛應(yīng)用[9,10]。長(zhǎng)期以來(lái),測(cè)序文庫(kù)的構(gòu)建主要依賴(lài)人工操作,但文庫(kù)構(gòu)建受到3方面的挑戰(zhàn):流程復(fù)雜度、過(guò)程污染和單個(gè)建庫(kù)成本。升級(jí)建庫(kù)技術(shù),簡(jiǎn)化操作流程,減少人與試劑和樣本的交互,在降低污染風(fēng)險(xiǎn)的同時(shí),也減少了人工、樣本、試劑的投入以及縮短操作時(shí)間,進(jìn)而使得每個(gè)樣本的投入成本也大大降低,這是測(cè)序流程自動(dòng)化發(fā)展的基本趨勢(shì)[11]。本研究探索了不同建庫(kù)方式在低覆蓋度重測(cè)序中的數(shù)據(jù)表現(xiàn),并對(duì)這些數(shù)據(jù)提供一個(gè)粗略的評(píng)估,為自動(dòng)化建庫(kù)及測(cè)序流程優(yōu)化提供部分?jǐn)?shù)據(jù)參考。
1.1.1 供試樣本供試材料為大白豬耳組織,來(lái)源于溫氏清遠(yuǎn)原種場(chǎng)。
1.1.2 儀器與試劑S1000型Bio-rad PCR儀,美國(guó)Bio-rad公司;Qubit3.0型熒光定量?jī)x、Qubit 1X dsDNA HS kit(Q33230),美國(guó)Thermo Fisher公司;MSP-960型高通量自動(dòng)化樣本制備系統(tǒng)、MGIseq2000型基因組的測(cè)序儀、MGIEasy通用DNA文庫(kù)制備試劑套裝(1000006986)、MGIcare染色體異常檢測(cè)試劑盒(1000005279)、酶切PCRfree DNA文庫(kù)制備試劑盒(1000013455)、MGIseq2000RS高通量快速測(cè)序試劑套裝(1000013155),深圳華大智造科技股份有限公司;DNA磁珠法提取試劑盒(GO-BTCD-100),長(zhǎng)春市志昂生物科技有限公司。
TN5原料酶由深圳華大生命科學(xué)研究院提供。
耳組織樣本使用組織DNA磁珠法提取試劑盒進(jìn)行DNA提取,瓊脂糖凝膠電泳和Qubit dsDNA HS檢測(cè)試劑盒進(jìn)行質(zhì)量控制。
超聲打斷是文庫(kù)構(gòu)建的經(jīng)典方法,采用MGIEasy通用DNA文庫(kù)制備試劑套裝,初始樣本投入量約500 ng。MGIcare染色體異常檢測(cè)試劑盒操作步驟簡(jiǎn)單,對(duì)DNA總量要求低(50 ng),能夠適用自動(dòng)化設(shè)備。酶切PCRfree DNA文庫(kù)制備試劑盒DNA投入無(wú)需均一化,全流程無(wú)PCR錯(cuò)誤累積,適合全程自動(dòng)化。轉(zhuǎn)座酶建庫(kù)用于NGS測(cè)序近年來(lái)應(yīng)用廣泛,根據(jù)Picelli等[12]、Zan等[13]的方法進(jìn)行接頭序列改造后適應(yīng)DNBseq平臺(tái),初始樣本投入量在100 ng。詳細(xì)的文庫(kù)構(gòu)建流程見(jiàn)圖1。
圖1 不同方式文庫(kù)構(gòu)建流程
構(gòu)建好的文庫(kù)在MGIseq2000測(cè)序儀上采用PE 100進(jìn)行0.5-10x深度測(cè)序。
原始數(shù)據(jù)下機(jī)后,過(guò)濾掉堿基質(zhì)量值低于20且比例超過(guò)30%的read。從4種建庫(kù)方式的數(shù)據(jù)中隨機(jī)選取6個(gè)樣品,使用軟件seqtk分別抽取15、30 Mb reads用于后續(xù)分析比較。
將過(guò)濾的clean Data比對(duì)到豬參考基因組序列(sus scrofa 11.1),參考基因組信息經(jīng)處理,去除未定位序列和線(xiàn)粒體序列,有效基因組大小為2.45 Gb。Picard用于標(biāo)記PCR重復(fù)序列后統(tǒng)計(jì)比對(duì)信息。GATK默認(rèn)參數(shù)用于變異檢測(cè),過(guò)濾掉假陽(yáng)性位點(diǎn)后統(tǒng)計(jì)二等位SNP位點(diǎn)信息。
使用26個(gè)無(wú)關(guān)群體的大白豬重測(cè)序數(shù)據(jù)(深度12×-15×)的SNP集作為參考panel,使用beagle軟件分別對(duì)15、30 Mb數(shù)據(jù)的SNP集填充到全基因組水平,而后將填充的SNP位點(diǎn)和對(duì)應(yīng)10×樣本的SNP信息進(jìn)行比較,過(guò)濾掉原始個(gè)體SNP的缺失位點(diǎn),計(jì)算相同個(gè)體間皮爾遜相關(guān)系數(shù)。
為了比較不同建庫(kù)方法獲得數(shù)據(jù)的一致性,選用經(jīng)超聲打斷和不同酶切打斷(MGIcare、PCRfree和TN5酶法)獲得測(cè)序文庫(kù),在MGIseq 2000平臺(tái)上采用PE 100進(jìn)行高通量測(cè)序(表1),分別獲得200.00、307.69、125.00 Gb和1.05 Tb數(shù)據(jù),數(shù)據(jù)產(chǎn)量及變異范圍符合預(yù)期。從表1的Q20和Q30數(shù)據(jù)可以看出,4種建庫(kù)方法獲得的數(shù)據(jù)質(zhì)量較高,沒(méi)有明顯差異,其中Q20>97%,Q30>89%,GC含量為41.34%~44.17%,GC含量TN5組較高,可能與轉(zhuǎn)座酶的偏好性有關(guān)[14]。
表1 不同建庫(kù)方法的測(cè)序質(zhì)量信息
對(duì)不同建庫(kù)方法獲得的測(cè)序數(shù)據(jù)進(jìn)行比對(duì)(表2),發(fā)現(xiàn)比對(duì)率和惟一比對(duì)率分別能達(dá)97%和94%以上,其中PCRfree建庫(kù)組的惟一比對(duì)率最高,達(dá)96.56%;其他指標(biāo),如錯(cuò)配率、重復(fù)率等都在正常范圍,相比而言,PCRfree建庫(kù)組在所有組中的重復(fù)率最高。此外,覆蓋度隨著測(cè)序深度的升高而上升,0.5×覆蓋度約30%,1×覆蓋度為44%~68%,2×以上覆蓋度超過(guò)80%。
表2 不同建庫(kù)方法的測(cè)序指標(biāo)分析
將不同建庫(kù)方法分為2組,一組為手工組(超聲法、TN5),一組為自動(dòng)化組(MGIcare、PCRfree),并對(duì)這2組測(cè)序數(shù)據(jù)進(jìn)行比較分析。從個(gè)體數(shù)據(jù)各項(xiàng)指標(biāo)的分布上看(圖2),自動(dòng)化建庫(kù)數(shù)據(jù)更集中,波動(dòng)性小于手工建庫(kù)數(shù)據(jù)。
圖2 手工建庫(kù)和自動(dòng)化建庫(kù)指標(biāo)分布
為了在同一水平上比較不同建庫(kù)方式下數(shù)據(jù)的各項(xiàng)指標(biāo),每種建庫(kù)方式選擇6個(gè)個(gè)體,分別隨機(jī)抽取15、30 Mb reads(對(duì)應(yīng)測(cè)序深度約為0.5×和1×)進(jìn)行分析(圖3)。數(shù)據(jù)均一化后,除覆蓋率和重復(fù)率指標(biāo)外,其他指標(biāo)在不同建庫(kù)方法下一致性均較好。覆蓋度的波動(dòng)與建庫(kù)插入片段的長(zhǎng)度以及測(cè)序隨機(jī)性帶來(lái)的個(gè)體間差異有關(guān)。從圖3可以看出,插入片段越短覆蓋度越低,如MGIcare在所有建庫(kù)方法中插入片段最短,為100~200 bp。均一化后,不同組重復(fù)率雖然有波動(dòng),但所有組都在正常范圍內(nèi)。
圖3 15、30 Mb數(shù)據(jù)下各項(xiàng)指標(biāo)分布
利用GATK軟件進(jìn)行變異檢測(cè),在0.5×的數(shù)據(jù)下,不同建庫(kù)方法獲得SNP數(shù)量為2 922 270~4 181 825,其中MGIcare獲得的SNP數(shù)量最高,PCRfree最低(圖4a)。在1×的抽成數(shù)據(jù)下,獲得的SNPs數(shù)量為6 532 715~7 375 447,不同組SNP數(shù)量分布的趨勢(shì)與0.5×類(lèi)似。對(duì)檢出的SNPs進(jìn)行填充準(zhǔn)確性檢驗(yàn),發(fā)現(xiàn)利用高深度基因組測(cè)序個(gè)體進(jìn)行基因型填充的準(zhǔn)確性達(dá)74%以上,且0.5×與1×數(shù)據(jù)填充的準(zhǔn)確性相當(dāng)(圖4b)。
圖4 4種建庫(kù)方式變異檢測(cè)與填充準(zhǔn)確性
高質(zhì)量文庫(kù)的高效制備在NGS研究中發(fā)揮著重要作用,DNA樣本片段化是文庫(kù)制備的第一個(gè)關(guān)鍵步驟,包括不同的片段化方法和不同的制備流程。本試驗(yàn)在同一個(gè)測(cè)序平臺(tái)上測(cè)試了利用不同片段化方法和文庫(kù)構(gòu)建方式獲得了低覆蓋度重測(cè)序數(shù)據(jù)。數(shù)據(jù)分析結(jié)果表明,4種不同片段化方法獲得的測(cè)序數(shù)據(jù)在質(zhì)量和指標(biāo)上比較一致。盡管研究結(jié)果中PCRfree的重復(fù)較高,但仍然處于DNBseq平臺(tái)的正常范圍[15]。研究表明,重復(fù)不僅與PCR有關(guān),還受到基因組復(fù)雜度、堿基組成、連接效率、滾環(huán)復(fù)制以及光學(xué)分辨率等方面影響[6]。MGIcare方法由于其片段化酶的特性導(dǎo)致插入片段的長(zhǎng)度偏低(mean length=160 bp),同等數(shù)據(jù)量條件下覆蓋度相對(duì)較低,但在變異檢測(cè)方面更具優(yōu)勢(shì)。TN5轉(zhuǎn)座酶的文庫(kù)制備方法簡(jiǎn)單、高效,更具有性?xún)r(jià)比[16]。在測(cè)試數(shù)據(jù)中,TN5酶組操作流程最簡(jiǎn)單,耗時(shí)最少,得到與其他組相似的質(zhì)量和指標(biāo)分布數(shù)據(jù)。此外,還比較了不同建庫(kù)方式的差異,發(fā)現(xiàn)手工建庫(kù)和自動(dòng)化建庫(kù)相比,自動(dòng)化數(shù)據(jù)顯示出更好的一致性。這與流程中減少了人為操作引起的數(shù)據(jù)變異有關(guān),對(duì)未來(lái)大規(guī)模推廣自動(dòng)化建庫(kù)有很好的參考作用。對(duì)低深度數(shù)據(jù)進(jìn)行填充,與高深度數(shù)據(jù)相比,低深度填充準(zhǔn)確性超過(guò)74%。盡管遠(yuǎn)低于預(yù)試驗(yàn)的大規(guī)模低深度的數(shù)據(jù)(99.1%),這可能與高深度參考群與低深度測(cè)序群體的親緣關(guān)系、群體規(guī)模、LD等有關(guān)[17,18]。研究比較了不同的片段化方法和建庫(kù)方式獲得的測(cè)序數(shù)據(jù),為后期規(guī)?;玫统杀镜牡蜕疃葴y(cè)序技術(shù)提供了數(shù)據(jù)參考。