亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

混合測(cè)序技術(shù)在高通量測(cè)序中的應(yīng)用

2014-03-28 02:27:56李成

醫(yī)療衛(wèi)生裝備 2014年9期

李成

李成

介紹了高通量測(cè)序在面向大樣本時(shí)所面臨的問(wèn)題，分析了高通量測(cè)序技術(shù)的原理和特點(diǎn)及其在解決大樣本測(cè)序時(shí)的技術(shù)優(yōu)勢(shì)，并總結(jié)了檢測(cè)矩陣的構(gòu)建方法，指出了混合測(cè)序能夠應(yīng)用于部分高通量測(cè)序?qū)嶒?yàn)并可大幅節(jié)約測(cè)序成本，展望了混合測(cè)序技術(shù)在高通量測(cè)序中的應(yīng)用前景。

樣本混合；高通量測(cè)序；群試；分離矩陣

0 引言

隨著高通量測(cè)序技術(shù)的不斷發(fā)展和測(cè)序成本的不斷降低，利用高通量測(cè)序技術(shù)進(jìn)行醫(yī)學(xué)診斷具有較好的前景。同時(shí)，眾多醫(yī)學(xué)研究表明，許多疾病與某些稀有變異基因密切相關(guān)，針對(duì)某些已知稀有變異基因的檢測(cè)能夠預(yù)判或診斷出與之密切相關(guān)的疾病。在新一代測(cè)序技術(shù)應(yīng)用于這些稀有變異基因檢測(cè)的過(guò)程中，有2個(gè)方面是應(yīng)用中亟待解決的問(wèn)題：

（1）新一代測(cè)序技術(shù)帶給人們大量遺傳信息的同時(shí)，卻成為限制其廣泛應(yīng)用的一個(gè)障礙。新一代測(cè)序儀的一個(gè)測(cè)序流程能夠產(chǎn)生巨量的片段信息，如ABI公司的新一代測(cè)序平臺(tái)SOLID單次運(yùn)行，便可分析6 GB的堿基序列；Illumina Genome Analyzer測(cè)序系統(tǒng)僅在2 h的運(yùn)行時(shí)間里就可得到10 TB的信息[1]，這些巨量信息僅僅用來(lái)提高某些固定堿基位點(diǎn)的測(cè)序覆蓋度，無(wú)疑是極為浪費(fèi)的。（2）在針對(duì)此類稀有變異疾病進(jìn)行大量人群篩查時(shí)，一個(gè)測(cè)序通道只針對(duì)一個(gè)個(gè)體樣本，而如今二代測(cè)序儀最多只有8個(gè)通道，因此一次測(cè)序流程只能測(cè)8個(gè)個(gè)體樣本，在針對(duì)大量人群稀有變異篩查的醫(yī)學(xué)檢驗(yàn)中。簡(jiǎn)單地利用測(cè)序儀逐個(gè)樣本篩查，成本是不可想像的。

將樣本混合后進(jìn)行檢測(cè)能夠均衡兩方面，并可充分利用新一代測(cè)序儀的測(cè)序性能，從而大大降低測(cè)序成本。但僅僅簡(jiǎn)單的混合無(wú)法分辨檢測(cè)到的變異片段來(lái)自于哪個(gè)樣本，如何將所得到的測(cè)序結(jié)果溯源，即找到測(cè)序結(jié)果片段的源樣本，是這種方法應(yīng)用的前提。

目前已有2類方法可進(jìn)行混合：第一類方法是每個(gè)樣本序列被打斷后，成為適合測(cè)序的小片段，首先為這些小片段加上條形碼，即為屬于每個(gè)樣本的序列片段加上了一個(gè)“身份標(biāo)志”，然后再進(jìn)行混合測(cè)序。測(cè)序找到含稀有變異的片段時(shí)，通過(guò)條形碼這個(gè)身份標(biāo)志，能夠分辨出屬于哪一個(gè)樣本[2]。但這種方法的實(shí)現(xiàn)需要在測(cè)序準(zhǔn)備時(shí)、樣本打斷后進(jìn)行，而且為每個(gè)樣本的一批片段標(biāo)志條形碼，增加了一個(gè)工作步驟，并且需要逐樣本添加，保證每個(gè)樣本的條形碼唯一，所以大大增加了工作量。第二類方法就是本文要重點(diǎn)討論的混合測(cè)序（Overlapping pooling）技術(shù)。其原理是將樣本按照一定規(guī)律進(jìn)行編碼混合，之后進(jìn)行測(cè)序，根據(jù)混合測(cè)序的檢測(cè)結(jié)果和編碼規(guī)律再進(jìn)行反向解碼，從而找到含變異的樣本。

1 Overlapping pooling技術(shù)簡(jiǎn)介

以一個(gè)檢測(cè)實(shí)例說(shuō)明樣本混合方法的原理。設(shè)待測(cè)樣本有20個(gè)，圖1表示了一種簡(jiǎn)單的網(wǎng)格分組方法，但這種方法的成功應(yīng)用基于一個(gè)前提，即所有樣本僅有一個(gè)陽(yáng)性樣本（如圖1（a）所示），若含2個(gè)以上的陽(yáng)性樣本，則無(wú)法成功解碼（如圖1（b）所示）。

將20個(gè)樣本分別編號(hào)為1～20，分為A、B、C、D、E、Ⅰ、Ⅱ、Ⅲ、Ⅳ共9組，分組結(jié)果如圖2所示。

圖1 樣本混合方案設(shè)計(jì)檢測(cè)陽(yáng)性樣本

圖2 樣本混合方案分組示意圖

根據(jù)圖2對(duì)9個(gè)組中的混合樣本分別進(jìn)行檢測(cè)，一共檢測(cè)9次，就可以判斷出陽(yáng)性樣本是哪一個(gè)。如圖1（a）所示，假設(shè)9次檢測(cè)結(jié)果中，B組和Ⅱ組檢測(cè)結(jié)果為陽(yáng)性，說(shuō)明這2組含有陽(yáng)性樣本，再由前提條件只有1個(gè)陽(yáng)性樣本，則根據(jù)圖2的分組規(guī)則，只有6號(hào)樣本為2組共同所有，所以6號(hào)樣本為陽(yáng)性。這樣通過(guò)樣本混合分組，僅用9次檢測(cè)就找到了20個(gè)樣本的某個(gè)陽(yáng)性樣本，從而避免了20個(gè)樣本的逐個(gè)檢測(cè)。

這種檢測(cè)算法可以用一個(gè)元素為0或1的檢測(cè)矩陣M來(lái)具體表示。設(shè)欲檢測(cè)樣本總數(shù)量為N，群試設(shè)計(jì)方案中共要進(jìn)行T次檢測(cè)，則有一個(gè)T×N的（0，1）矩陣M，各列代表各個(gè)樣本，各行代表各組的檢測(cè)池（即一次檢測(cè)），Mij表示第i行和第j列相交的矩陣元素，Mij=1表明在所設(shè)計(jì)的實(shí)驗(yàn)中要將第j號(hào)樣本混入到第i個(gè)檢測(cè)池中，即參與第i個(gè)檢測(cè)池的檢測(cè)實(shí)驗(yàn)；Mij=0則表明第j號(hào)樣本不用加入到第i個(gè)檢測(cè)池中。例如，上節(jié)中樣本混合的分組方式可用檢測(cè)矩陣表示，如圖3所示。

圖3 樣本混合方案對(duì)應(yīng)檢測(cè)矩陣

檢測(cè)矩陣的每一列對(duì)應(yīng)一個(gè)樣本，每一行代表一個(gè)檢測(cè)池（即一次檢測(cè)），若某一列對(duì)應(yīng)的樣本為陽(yáng)性樣本，則我們稱此列為陽(yáng)性列；同樣，矩陣中代表檢測(cè)結(jié)果為陽(yáng)性的檢測(cè)池的行稱為陽(yáng)性行。觀察上例矩陣，任意一個(gè)列向量都與其他列不同，而這正是單陽(yáng)性樣本能夠正確解碼的條件。但這種簡(jiǎn)單的分組方式不能夠解決多個(gè)陽(yáng)性樣本的檢測(cè)問(wèn)題，如圖1（b）所示，如果6號(hào)和20號(hào)樣本均為陽(yáng)性，則會(huì)使B、E、Ⅱ、Ⅳ4組檢測(cè)為陽(yáng)性，而4組陽(yáng)性的原因存在 {8，18}、{6，20}、{6，8，18}、{6，8，20}、{6，18，20}、{8，18，20}、{6，8，18，20}多種陽(yáng)性樣本組合的可能性，故這種分組方式不能滿足檢測(cè)多個(gè)陽(yáng)性樣本的要求。

研究人員經(jīng)過(guò)對(duì)群試?yán)碚摰纳钊胙芯?，發(fā)展了能夠檢測(cè)多個(gè)陽(yáng)性樣本的Overlapping pooling方法。因?yàn)殛?yáng)性樣本能夠通過(guò)檢測(cè)矩陣正確判斷的條件是結(jié)果列向量U（D）與其他任意d列的布爾和均不同，有了這種唯一性才能夠判斷出是哪d列對(duì)應(yīng)樣本陽(yáng)性使結(jié)果列向量出現(xiàn)此結(jié)果。所以在檢測(cè)矩陣M設(shè)計(jì)過(guò)程中，要想檢測(cè)出d個(gè)陽(yáng)性樣本，必須保證對(duì)于M中任意的2個(gè)不同的d列D1，D2，總有U（D1）≠U（D2），滿足這種性質(zhì)的（0，1）矩陣稱之為d-可分（dseparable）矩陣。但可分矩陣的解碼復(fù)雜度過(guò)高，因而Kautz和Singleton[3]提出了d-分離矩陣的定義：對(duì)于一個(gè)（0，1）矩陣M，若其中任意一列均不能夠被其他任意d列的布爾和所覆蓋（在（0，1）矩陣中，若一列A中所有的1元素在另一列B同樣位置上都有1元素，則稱A被B覆蓋），M稱為d-分離（ddisjunct）矩陣。d-分離矩陣可用來(lái)檢測(cè)最多d個(gè)陽(yáng)性樣本。其解碼過(guò)程較簡(jiǎn)單，只需將矩陣中每一列C與檢測(cè)結(jié)果向量進(jìn)行比較，若C被結(jié)果向量覆蓋，則C所代表的樣本為陽(yáng)性，反之為陰性。在大樣本中稀少突變的檢測(cè)過(guò)程中，各種實(shí)驗(yàn)誤差導(dǎo)致的檢測(cè)錯(cuò)誤往往是不可避免的，因而所設(shè)計(jì)的檢測(cè)矩陣還應(yīng)當(dāng)具備一定的容錯(cuò)性。D′Yachkov等[4]提出了容錯(cuò)矩陣的概念，給出了（d；z）-可分矩陣的定義和其糾錯(cuò)能力。但正如d-可分矩陣、（d；z）-可分矩陣解碼方式的時(shí)間復(fù)雜度過(guò)高，于是Macula提出de-分離矩陣的概念[5]：一個(gè)d-分離矩陣M稱為de-分離，若對(duì)于M中任意的d+1列中存在一列，有e+1行均為1，而其他d列的這些行均為0。1996年，Macula定義de-分離矩陣時(shí)認(rèn)為其能夠糾正e個(gè)錯(cuò)誤，但2003年Hwang[6]提出de-分離矩陣無(wú)法糾正e個(gè)錯(cuò)誤，隨后D′Yachkov等[7]給出了證明，并重新定義了dz-分離矩陣M：對(duì)于M中任意的d+1列中存在一列，有z行均為1且不能被其他d列覆蓋。Yachkov認(rèn)為dz-分離矩陣至少能夠查出z-1個(gè)錯(cuò)誤和糾正（z-1）/2個(gè)錯(cuò)誤。

2 Overlapping pooling檢測(cè)矩陣構(gòu)建方法

在利用Overlapping pooling技術(shù)進(jìn)行大樣本檢測(cè)實(shí)驗(yàn)時(shí)，要通過(guò)構(gòu)建檢測(cè)矩陣實(shí)現(xiàn)混合方案和解碼的確定。因此，如何進(jìn)行d-分離矩陣和dz-分離矩陣的構(gòu)建是此技術(shù)應(yīng)用的關(guān)鍵，其中，關(guān)于分離矩陣構(gòu)建主要有以下3種方法，現(xiàn)分別介紹如下。

2.1 區(qū)組設(shè)計(jì)

Kautz和Singleton[3]在20世紀(jì)60年代基于區(qū)組設(shè)計(jì)的研究給出了一種d-分離矩陣的構(gòu)造方法，但這種方法的發(fā)展受到信息論中參數(shù)最優(yōu)化理論的限制，一直難以找到最優(yōu)的區(qū)組。

2.2 橫向設(shè)計(jì)

最簡(jiǎn)單的橫向設(shè)計(jì)就是上文提到的網(wǎng)格設(shè)計(jì)。針對(duì)網(wǎng)格設(shè)計(jì)只能檢測(cè)單陽(yáng)性樣本的缺陷，Nicolas等[8]提出了橫向轉(zhuǎn)移設(shè)計(jì)（shifted transversal design，STD）方法，將所測(cè)樣本分為若干組分別混合檢測(cè)，并且每一組的混合方案均不同，每個(gè)樣本在每一組的被混合次數(shù)一致，并且能夠成功解碼。這種方法具有靈活的設(shè)計(jì)能力，能根據(jù)檢測(cè)樣本數(shù)、含有的陽(yáng)性樣本個(gè)數(shù)、可能的錯(cuò)誤發(fā)生率進(jìn)行高效的混合方案設(shè)計(jì)，是目前所知的最優(yōu)的設(shè)計(jì)方法。這種方法應(yīng)用在藥物檢測(cè)領(lǐng)域取得了不錯(cuò)的效果[9]。

2.3 直接構(gòu)造

Macula[10]給出了一個(gè)利用有限集的子集之間的包含關(guān)系設(shè)計(jì)檢測(cè)矩陣的方法：設(shè)M（n，k，d）是的（0，1）矩陣（d≤k

3 Overlapping pooling技術(shù)在高通量測(cè)序中的應(yīng)用

隨著近年來(lái)高通量測(cè)序技術(shù)的飛速發(fā)展，查找大量樣本中含稀有變異的樣本已成為一種重要應(yīng)用。為充分利用測(cè)序儀的單通道測(cè)序能力，有必要將樣本混合后進(jìn)行測(cè)序，若利用Overlapping pooling技術(shù)將樣本有序混合，則可不必添加標(biāo)志用的條形碼。實(shí)際應(yīng)用中，簡(jiǎn)單的網(wǎng)格設(shè)計(jì)混合或二進(jìn)制混合不能發(fā)現(xiàn)2個(gè)以上含變異的陽(yáng)性樣本，如Snehit Prabhu等[11]介紹的基于Illumina′s Genome Analyzer-2測(cè)序平臺(tái)的混合方法中，一個(gè)混合檢測(cè)池不能含有2個(gè)以上的陽(yáng)性樣本。為檢測(cè)出混合池中含2個(gè)以上的陽(yáng)性樣本，Erlich等[12]設(shè)計(jì)了一種DNA Sudoku混合方法，混合之后添加條形碼，再進(jìn)行測(cè)序。該設(shè)計(jì)能夠針對(duì)陽(yáng)性樣本數(shù)和可能的檢測(cè)錯(cuò)誤靈活設(shè)計(jì)混合方案，但各組間的混合池?cái)?shù)目要求互質(zhì)。Xin等[13]基于橫向設(shè)計(jì)方法進(jìn)行了酵母雙雜交相互作用組定位的實(shí)驗(yàn)驗(yàn)證，與逐個(gè)樣本的檢測(cè)相比，該方法大大節(jié)約了成本，提高了檢測(cè)效率，同時(shí)仍表現(xiàn)出相當(dāng)?shù)撵`敏性。

4 Overlapping pooling技術(shù)的發(fā)展和面臨的問(wèn)題

Overlapping pooling技術(shù)源于群試?yán)碚摚诟咄繙y(cè)序平臺(tái)上,這種實(shí)驗(yàn)設(shè)計(jì)方法體現(xiàn)了相當(dāng)?shù)膽?yīng)用價(jià)值。受限于群試?yán)碚摰陌l(fā)展，這種混合方法在定量檢測(cè)上仍缺乏應(yīng)用，如一些常見的血液檢測(cè)中，每個(gè)血液樣本均和試劑反應(yīng)后測(cè)得一定的值，通過(guò)測(cè)量值是否在標(biāo)準(zhǔn)范圍內(nèi)來(lái)判斷是否為陽(yáng)性樣本。這種情況下不能基于“含有”或“不含有”進(jìn)行判斷，要結(jié)合測(cè)量值才能判斷。若能夠?qū)崿F(xiàn)定量檢測(cè)的混合實(shí)驗(yàn)設(shè)計(jì)和解碼方法，則在眾多醫(yī)學(xué)常規(guī)檢測(cè)中均可應(yīng)用。如Amin Emad等[14]提出了半定量的群試方法，為這種方向的應(yīng)用提供了一定的參考價(jià)值。

[1] Shendure J，Ji H.Next-generation DNA sequencing[J].Nature Biotechnology，2008，26（10）：1 135-1 145.

[2] Patterson N，Gabriel S.Combinatorics and next-generation sequenc-

（????）（????）ing[J].Nature Biotechnology，2009，27（9）：827.

[3] Kautz W H，Singleton R C.Nonrandom binary superimposed codes[J]. IEEE Trans Inform Thy，1964，10：363-377.

[4] D′Yachkov A G，Rykov V V，Rachad A M.Superimposed distance codes[J].Problems Control Inform Thy，1983：12：1-13.

[5] Macula A J.Error-correcting nonadaptive group testing with dPeP-disjunct matrices[J].Discrete Applied Mathematics，1997，80：217-222.

[6] Hwang F K.On Macula′s error-correcting pool designs[J].Discrete Mathematics，2003，268：311-314.

[7] D′Yachkov A，F(xiàn)rank H.A construction of pooling designs with some happy surprises[J].Journal of Computational Biology，2005，12：1129-1 136.

[8] Thierry N.A new pooling strategy for high-throughput screening：the shifted transversal design[J].BMC Bioinformatics，2006，7：28.

[9] Raghunandan M K，Peter J W.PoolHITS：a shifted transversal design based pooling strategy for high-throughput drug screening[J].BMC Bioinformatics，2008，9：256.

[10]Macula，Anthony J.A simple construction of d-disjunct matrices with certain constant weights[J].Discrete Mathematics，1996，162：311-312.

[11]Prabhu S，Pe′er I.Overlapping pools for high-throughput targeted resequencing[J].Genome Research，2009，19：1 254-1 261.

[12]Erlich Y，Chang Y.DNA sudoku—harnessing high-throughput sequencing for multiplexed specimen analysis[J].Genome Research，2009，19：1 243-1 253.

[13]Xin X F，Rual J F.Shifted transversal design smart-pooling for high coverage interactome mapping[J].Genome Research，2009，19：1262-1 269.

[14]Emad A，Milenkovic O.IEEE International Symposium on Information Theory，Cambridge，JUL 01-06，2012[C].Urbana USA：IEEE，2012.

（收稿：2013-05-07 修回：2013-11-25）

（欄目責(zé)任編校：陳建新）

Application of pooled sequencing technology to high-throughout sequencing

LI Cheng
(Institute of Drug and Instrument Control,Joint Logistics Department of Nanjing Military Area Command,Nanjing 210002,China)

The problems of high-throughout sequencing technology are introduced when used for large samples,whose principle,characteristics and advantages are also analyzed．The construction of the test matrix is summarized．It's pointed out that the introduction of pooled sequencing into some high-throughout sequencing experiments may result in decreased cost．The prospect of pooled sequencing technology is explored in the high-throughout sequencing．[Chinese Medical Equipment Journal，2014，35（9）：116-118，121]

composite sample;high-throughout sequencing;group testing;disjunct matrix

R318；O151．21

1003-8868（2014）09-0116-04

10．7687/J．ISSN1003-8868．2014．09．116

李成（1979—），男，工程師，主要從事生物醫(yī)學(xué)工程、生物醫(yī)學(xué)信息學(xué)方面的研究工作，E-mail：licheng18@163．com。

210002南京，南京軍區(qū)聯(lián)勤部藥品儀器檢驗(yàn)所（李成）