亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

四種全基因組測(cè)序用文庫(kù)構(gòu)建方法的效果比較

2022-12-30 09:33:54楊漫漫沈俊然

湖北農(nóng)業(yè)科學(xué) 2022年21期

楊漫漫，陳濤，沈俊然，王然，李勇

（深圳市華大農(nóng)業(yè)應(yīng)用研究院∕深圳市動(dòng)物基因組輔助育種工程實(shí)驗(yàn)室，廣東深圳 518083）

低覆蓋度重測(cè)序近年來(lái)在群體遺傳學(xué)分析［1，2］、基因組選擇［3，4］等方面的應(yīng)用越來(lái)越廣泛。文庫(kù)質(zhì)量對(duì)數(shù)據(jù)質(zhì)量和分析效果有很大影響［5］，覆蓋度低時(shí)尤為明顯，而片段化是文庫(kù)制備的第一個(gè)關(guān)鍵步驟。目前，片段化技術(shù)主要為物理打斷法和酶切打斷法，超聲是物理打斷法中最為常用的方法，而酶切打斷法主要分常規(guī)片段化酶和TN5轉(zhuǎn)座酶［6］。此外，為了解決文庫(kù)制備中由于PCR擴(kuò)增導(dǎo)致的bias和copy errors等［7，8］，無(wú)需PCR的PCR-free建庫(kù)方式也被廣泛應(yīng)用［9，10］。長(zhǎng)期以來(lái)，測(cè)序文庫(kù)的構(gòu)建主要依賴(lài)人工操作，但文庫(kù)構(gòu)建受到3方面的挑戰(zhàn)：流程復(fù)雜度、過(guò)程污染和單個(gè)建庫(kù)成本。升級(jí)建庫(kù)技術(shù)，簡(jiǎn)化操作流程，減少人與試劑和樣本的交互，在降低污染風(fēng)險(xiǎn)的同時(shí)，也減少了人工、樣本、試劑的投入以及縮短操作時(shí)間，進(jìn)而使得每個(gè)樣本的投入成本也大大降低，這是測(cè)序流程自動(dòng)化發(fā)展的基本趨勢(shì)［11］。本研究探索了不同建庫(kù)方式在低覆蓋度重測(cè)序中的數(shù)據(jù)表現(xiàn)，并對(duì)這些數(shù)據(jù)提供一個(gè)粗略的評(píng)估，為自動(dòng)化建庫(kù)及測(cè)序流程優(yōu)化提供部分?jǐn)?shù)據(jù)參考。

1 材料與方法

1.1 試驗(yàn)材料

1.1.1 供試樣本供試材料為大白豬耳組織，來(lái)源于溫氏清遠(yuǎn)原種場(chǎng)。

1.1.2 儀器與試劑S1000型Bio-rad PCR儀，美國(guó)Bio-rad公司；Qubit3.0型熒光定量?jī)x、Qubit 1X dsDNA HS kit（Q33230），美國(guó)Thermo Fisher公司；MSP-960型高通量自動(dòng)化樣本制備系統(tǒng)、MGIseq2000型基因組的測(cè)序儀、MGIEasy通用DNA文庫(kù)制備試劑套裝（1000006986）、MGIcare染色體異常檢測(cè)試劑盒（1000005279）、酶切PCRfree DNA文庫(kù)制備試劑盒（1000013455）、MGIseq2000RS高通量快速測(cè)序試劑套裝（1000013155），深圳華大智造科技股份有限公司；DNA磁珠法提取試劑盒（GO-BTCD-100），長(zhǎng)春市志昂生物科技有限公司。

TN5原料酶由深圳華大生命科學(xué)研究院提供。

1.2 試驗(yàn)方法

耳組織樣本使用組織DNA磁珠法提取試劑盒進(jìn)行DNA提取，瓊脂糖凝膠電泳和Qubit dsDNA HS檢測(cè)試劑盒進(jìn)行質(zhì)量控制。

超聲打斷是文庫(kù)構(gòu)建的經(jīng)典方法，采用MGIEasy通用DNA文庫(kù)制備試劑套裝，初始樣本投入量約500 ng。MGIcare染色體異常檢測(cè)試劑盒操作步驟簡(jiǎn)單，對(duì)DNA總量要求低（50 ng），能夠適用自動(dòng)化設(shè)備。酶切PCRfree DNA文庫(kù)制備試劑盒DNA投入無(wú)需均一化，全流程無(wú)PCR錯(cuò)誤累積，適合全程自動(dòng)化。轉(zhuǎn)座酶建庫(kù)用于NGS測(cè)序近年來(lái)應(yīng)用廣泛，根據(jù)Picelli等［12］、Zan等［13］的方法進(jìn)行接頭序列改造后適應(yīng)DNBseq平臺(tái)，初始樣本投入量在100 ng。詳細(xì)的文庫(kù)構(gòu)建流程見(jiàn)圖1。

圖1 不同方式文庫(kù)構(gòu)建流程

構(gòu)建好的文庫(kù)在MGIseq2000測(cè)序儀上采用PE 100進(jìn)行0.5-10x深度測(cè)序。

1.3 數(shù)據(jù)分析

原始數(shù)據(jù)下機(jī)后，過(guò)濾掉堿基質(zhì)量值低于20且比例超過(guò)30%的read。從4種建庫(kù)方式的數(shù)據(jù)中隨機(jī)選取6個(gè)樣品，使用軟件seqtk分別抽取15、30 Mb reads用于后續(xù)分析比較。

將過(guò)濾的clean Data比對(duì)到豬參考基因組序列（sus scrofa 11.1），參考基因組信息經(jīng)處理，去除未定位序列和線(xiàn)粒體序列，有效基因組大小為2.45 Gb。Picard用于標(biāo)記PCR重復(fù)序列后統(tǒng)計(jì)比對(duì)信息。GATK默認(rèn)參數(shù)用于變異檢測(cè)，過(guò)濾掉假陽(yáng)性位點(diǎn)后統(tǒng)計(jì)二等位SNP位點(diǎn)信息。

使用26個(gè)無(wú)關(guān)群體的大白豬重測(cè)序數(shù)據(jù)（深度12×-15×）的SNP集作為參考panel，使用beagle軟件分別對(duì)15、30 Mb數(shù)據(jù)的SNP集填充到全基因組水平，而后將填充的SNP位點(diǎn)和對(duì)應(yīng)10×樣本的SNP信息進(jìn)行比較，過(guò)濾掉原始個(gè)體SNP的缺失位點(diǎn)，計(jì)算相同個(gè)體間皮爾遜相關(guān)系數(shù)。

2 結(jié)果與分析

2.1 重測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)

為了比較不同建庫(kù)方法獲得數(shù)據(jù)的一致性，選用經(jīng)超聲打斷和不同酶切打斷（MGIcare、PCRfree和TN5酶法）獲得測(cè)序文庫(kù)，在MGIseq 2000平臺(tái)上采用PE 100進(jìn)行高通量測(cè)序（表1），分別獲得200.00、307.69、125.00 Gb和1.05 Tb數(shù)據(jù)，數(shù)據(jù)產(chǎn)量及變異范圍符合預(yù)期。從表1的Q20和Q30數(shù)據(jù)可以看出，4種建庫(kù)方法獲得的數(shù)據(jù)質(zhì)量較高，沒(méi)有明顯差異，其中Q20＞97%，Q30＞89%，GC含量為41.34%～44.17%，GC含量TN5組較高，可能與轉(zhuǎn)座酶的偏好性有關(guān)［14］。

表1 不同建庫(kù)方法的測(cè)序質(zhì)量信息

2.2 不同建庫(kù)方法獲得的測(cè)序數(shù)據(jù)比較

對(duì)不同建庫(kù)方法獲得的測(cè)序數(shù)據(jù)進(jìn)行比對(duì)（表2），發(fā)現(xiàn)比對(duì)率和惟一比對(duì)率分別能達(dá)97%和94%以上，其中PCRfree建庫(kù)組的惟一比對(duì)率最高，達(dá)96.56%；其他指標(biāo)，如錯(cuò)配率、重復(fù)率等都在正常范圍，相比而言，PCRfree建庫(kù)組在所有組中的重復(fù)率最高。此外，覆蓋度隨著測(cè)序深度的升高而上升，0.5×覆蓋度約30%，1×覆蓋度為44%～68%，2×以上覆蓋度超過(guò)80%。

表2 不同建庫(kù)方法的測(cè)序指標(biāo)分析

將不同建庫(kù)方法分為2組，一組為手工組（超聲法、TN5），一組為自動(dòng)化組（MGIcare、PCRfree），并對(duì)這2組測(cè)序數(shù)據(jù)進(jìn)行比較分析。從個(gè)體數(shù)據(jù)各項(xiàng)指標(biāo)的分布上看（圖2），自動(dòng)化建庫(kù)數(shù)據(jù)更集中，波動(dòng)性小于手工建庫(kù)數(shù)據(jù)。

圖2 手工建庫(kù)和自動(dòng)化建庫(kù)指標(biāo)分布

2.3 抽成數(shù)據(jù)分析

為了在同一水平上比較不同建庫(kù)方式下數(shù)據(jù)的各項(xiàng)指標(biāo)，每種建庫(kù)方式選擇6個(gè)個(gè)體，分別隨機(jī)抽取15、30 Mb reads（對(duì)應(yīng)測(cè)序深度約為0.5×和1×）進(jìn)行分析（圖3）。數(shù)據(jù)均一化后，除覆蓋率和重復(fù)率指標(biāo)外，其他指標(biāo)在不同建庫(kù)方法下一致性均較好。覆蓋度的波動(dòng)與建庫(kù)插入片段的長(zhǎng)度以及測(cè)序隨機(jī)性帶來(lái)的個(gè)體間差異有關(guān)。從圖3可以看出，插入片段越短覆蓋度越低，如MGIcare在所有建庫(kù)方法中插入片段最短，為100～200 bp。均一化后，不同組重復(fù)率雖然有波動(dòng)，但所有組都在正常范圍內(nèi)。

圖3 15、30 Mb數(shù)據(jù)下各項(xiàng)指標(biāo)分布

利用GATK軟件進(jìn)行變異檢測(cè)，在0.5×的數(shù)據(jù)下，不同建庫(kù)方法獲得SNP數(shù)量為2 922 270～4 181 825，其中MGIcare獲得的SNP數(shù)量最高，PCRfree最低（圖4a）。在1×的抽成數(shù)據(jù)下，獲得的SNPs數(shù)量為6 532 715～7 375 447，不同組SNP數(shù)量分布的趨勢(shì)與0.5×類(lèi)似。對(duì)檢出的SNPs進(jìn)行填充準(zhǔn)確性檢驗(yàn)，發(fā)現(xiàn)利用高深度基因組測(cè)序個(gè)體進(jìn)行基因型填充的準(zhǔn)確性達(dá)74%以上，且0.5×與1×數(shù)據(jù)填充的準(zhǔn)確性相當(dāng)（圖4b）。

圖4 4種建庫(kù)方式變異檢測(cè)與填充準(zhǔn)確性

3 討論

高質(zhì)量文庫(kù)的高效制備在NGS研究中發(fā)揮著重要作用，DNA樣本片段化是文庫(kù)制備的第一個(gè)關(guān)鍵步驟，包括不同的片段化方法和不同的制備流程。本試驗(yàn)在同一個(gè)測(cè)序平臺(tái)上測(cè)試了利用不同片段化方法和文庫(kù)構(gòu)建方式獲得了低覆蓋度重測(cè)序數(shù)據(jù)。數(shù)據(jù)分析結(jié)果表明，4種不同片段化方法獲得的測(cè)序數(shù)據(jù)在質(zhì)量和指標(biāo)上比較一致。盡管研究結(jié)果中PCRfree的重復(fù)較高，但仍然處于DNBseq平臺(tái)的正常范圍［15］。研究表明，重復(fù)不僅與PCR有關(guān)，還受到基因組復(fù)雜度、堿基組成、連接效率、滾環(huán)復(fù)制以及光學(xué)分辨率等方面影響［6］。MGIcare方法由于其片段化酶的特性導(dǎo)致插入片段的長(zhǎng)度偏低（mean length=160 bp），同等數(shù)據(jù)量條件下覆蓋度相對(duì)較低，但在變異檢測(cè)方面更具優(yōu)勢(shì)。TN5轉(zhuǎn)座酶的文庫(kù)制備方法簡(jiǎn)單、高效，更具有性?xún)r(jià)比［16］。在測(cè)試數(shù)據(jù)中，TN5酶組操作流程最簡(jiǎn)單，耗時(shí)最少，得到與其他組相似的質(zhì)量和指標(biāo)分布數(shù)據(jù)。此外，還比較了不同建庫(kù)方式的差異，發(fā)現(xiàn)手工建庫(kù)和自動(dòng)化建庫(kù)相比，自動(dòng)化數(shù)據(jù)顯示出更好的一致性。這與流程中減少了人為操作引起的數(shù)據(jù)變異有關(guān)，對(duì)未來(lái)大規(guī)模推廣自動(dòng)化建庫(kù)有很好的參考作用。對(duì)低深度數(shù)據(jù)進(jìn)行填充，與高深度數(shù)據(jù)相比，低深度填充準(zhǔn)確性超過(guò)74%。盡管遠(yuǎn)低于預(yù)試驗(yàn)的大規(guī)模低深度的數(shù)據(jù)（99.1%），這可能與高深度參考群與低深度測(cè)序群體的親緣關(guān)系、群體規(guī)模、LD等有關(guān)［17，18］。研究比較了不同的片段化方法和建庫(kù)方式獲得的測(cè)序數(shù)據(jù)，為后期規(guī)?；玫统杀镜牡蜕疃葴y(cè)序技術(shù)提供了數(shù)據(jù)參考。