郜艷敏,唐夢(mèng)童,劉倩,喬宏艷,王桃雪,齊浩
(天津大學(xué)化工學(xué)院,系統(tǒng)生物工程教育部重點(diǎn)實(shí)驗(yàn)室, 天津 300350)
與傳統(tǒng)存儲(chǔ)介質(zhì)相比,DNA憑借保存時(shí)間長(zhǎng)[1-2]、存儲(chǔ)密度高[3-4]、易復(fù)制等優(yōu)勢(shì),為大規(guī)模的數(shù)據(jù)備份提供了可能[5-7],并有極大的潛力成為新一代存儲(chǔ)和檢索數(shù)據(jù)的介質(zhì)[8-9]。DNA信息存儲(chǔ)的發(fā)展已有50多年的歷史,發(fā)展史如圖1所示[10-27]。早在20世紀(jì)60年代,由計(jì)算機(jī)科學(xué)家Wiener[10]和Neiman[11]首次引入了基于DNA數(shù)據(jù)存儲(chǔ)的概念“基因記憶”。1995年,普林斯頓大學(xué)教授Baum正式提出構(gòu)建基于DNA分子的大容量數(shù)據(jù)庫存儲(chǔ)體系[12]。隨后在1996年,DNA數(shù)據(jù)存儲(chǔ)的概念首次被Davis的“Microvenus”進(jìn)行實(shí)驗(yàn)驗(yàn)證[13]。他將35 bit的黑白圖標(biāo)“寫入”18 bp的DNA序列(CCCCCCAACGCGCGCGCT)并成功解碼。1999年,Clelland及其團(tuán)隊(duì)[14]開發(fā)了一種DNA隱寫技術(shù),該方法再次證明了DNA數(shù)據(jù)存儲(chǔ)的概念,并且它是第一個(gè)而且是直到2012年唯一一個(gè)在體外實(shí)現(xiàn)DNA數(shù)據(jù)存儲(chǔ)及恢復(fù)的方法。2001—2010年,體內(nèi)DNA信息在信息存儲(chǔ)容量及編碼方式上都有了極大提升[15-19]。隨著DNA合成和測(cè)序技術(shù)的發(fā)展,2012年,哈佛大學(xué)的Church等[20]將一本圖書(650 KB)存儲(chǔ)在DNA中,2013年Goldman及其同事[21]在DNA中實(shí)現(xiàn)了720 KB數(shù)據(jù)的高容量存儲(chǔ)。隨后的2015年和2016年,Grass等和Blawat等在合成的DNA中分別實(shí)現(xiàn)了0.08 MB和22 MB數(shù)據(jù)的高容量存儲(chǔ)并進(jìn)行了無錯(cuò)誤的檢索[22-23],這是DNA信息存儲(chǔ)領(lǐng)域的另一個(gè)里程碑。2017年,Erlich和其同事[24]開發(fā)了一種高效可靠的DNA存儲(chǔ)策略——“DNA噴泉”(DNA fountain),利用這種編碼機(jī)制,可以最大化DNA的數(shù)據(jù)存儲(chǔ)能力。同年,Shipman等[25]利用CRISPR-Cas系統(tǒng)將一張黑白圖像和一部短的視頻文件“寫入”大腸桿菌的基因組中。2018年,Organick等[26]將超過200 MB的數(shù)據(jù)“寫入”DNA中。2020年,天津大學(xué)Qi等[27]利用混菌培養(yǎng)系統(tǒng)將445 KB的數(shù)據(jù)存入細(xì)菌體內(nèi)。一系列的研究表明DNA應(yīng)用于信息存儲(chǔ)具有巨大的發(fā)展?jié)摿?,而進(jìn)一步探索這一新型的數(shù)據(jù)存儲(chǔ)體系,對(duì)大數(shù)據(jù)時(shí)代海量數(shù)據(jù)信息的長(zhǎng)期存儲(chǔ)具有重大的意義。
圖1 DNA信息存儲(chǔ)發(fā)展史[10-27]Fig.1 History of DNA data storage[10-27]
DNA數(shù)據(jù)存儲(chǔ)的一般流程是:數(shù)字信息編碼為DNA序列(編碼)—編碼信息寫入DNA分子(合成)—選擇合適的載體將合成的DNA序列進(jìn)行保存(存儲(chǔ))—利用特定的引物進(jìn)行有選擇地訪問(檢索)—讀取分子(測(cè)序)—根據(jù)解碼規(guī)則將DNA序列中的信息復(fù)原(解碼)[28-30],如圖2所示。然而,據(jù)報(bào)道,整個(gè)DNA數(shù)據(jù)存儲(chǔ)流程中涉及的包括合成工藝、保存方法(液體、干粉、包封等)和擴(kuò)增方式等多個(gè)生化反應(yīng)均會(huì)造成序列丟失,增大序列間的不均衡以及堿基突變(替換、插入和刪除)等,進(jìn)而影響DNA數(shù)據(jù)存儲(chǔ)的應(yīng)用,如圖3所示。Chen等[31]基于數(shù)百萬條序列的不均一性問題,發(fā)現(xiàn)造成DNA序列偏差的兩個(gè)最重要的來源是合成和擴(kuò)增過程。Grass等[32]發(fā)現(xiàn)DNA分子內(nèi)的錯(cuò)誤主要由合成和測(cè)序造成,而DNA序列的丟失主要是由保存條件不當(dāng)引起。Erlich等[24]進(jìn)行了連續(xù)10次的PCR反應(yīng),發(fā)現(xiàn)第10次富集之后,覆蓋度的分布峰更加偏斜,而且要實(shí)現(xiàn)完美解碼所需要的測(cè)序數(shù)據(jù)量是第1次的6.7倍,說明PCR過程增加了DNA序列的不均一性。而基于目前所采用的解碼策略,在DNA序列的拷貝數(shù)差異過大的情況下,要想實(shí)現(xiàn)成功解碼,所需的測(cè)序深度較深,造成測(cè)序成本增加;丟失超過所能容忍丟失的DNA序列數(shù)勢(shì)必造成信息的丟失,無法實(shí)現(xiàn)完美解碼;雖然用糾刪碼可以解決堿基的替換、插入和刪除中的部分錯(cuò)誤,但勢(shì)必會(huì)造成測(cè)序資源的浪費(fèi)、計(jì)算量的增加以及解碼時(shí)間的增加[31-32]。
圖2 DNA信息存儲(chǔ)流程圖Fig.2 Flowchart of DNA data storage
圖3 DNA信息存儲(chǔ)過程中出現(xiàn)的生化問題Fig.3 Biochemical problems in DNA data storage
為解決這些問題,科學(xué)家們提出了各種各樣的解決方案。本文以DNA信息存儲(chǔ)為主線,詳細(xì)介紹了DNA數(shù)據(jù)存儲(chǔ)過程中的一系列生化反應(yīng)對(duì)攜帶有信息的大規(guī)模寡核苷酸文庫造成的影響,重點(diǎn)介紹了現(xiàn)階段為解決DNA信息存儲(chǔ)中的這些問題所采取的DNA分子合成、保存以及擴(kuò)增方法,論證了這些生化方法對(duì)操縱大規(guī)模寡核苷酸文庫的可行性和有效性,最后總結(jié)并討論了目前該領(lǐng)域所涉及的生化反應(yīng)存在以及亟需解決的主要問題。
目前DNA合成的方法主要有:芯片合成、柱式合成以及酶促合成[8,33-34]。芯片合成具有可合成任意序列、通量高、成本相對(duì)較低等優(yōu)勢(shì)[35];柱式合成具有可合成任意序列、準(zhǔn)確性高等優(yōu)勢(shì),但其通量較低[36];酶促合成[37-39]具有潛在的低成本、高保真、高效率等優(yōu)勢(shì),最近十幾年備受關(guān)注,然而由于技術(shù)尚未成熟,目前還未進(jìn)入大規(guī)模應(yīng)用階段。而目前應(yīng)用于DNA數(shù)據(jù)存儲(chǔ)的寡核苷酸文庫需要數(shù)萬條甚至數(shù)百萬條序列,現(xiàn)在能夠滿足此要求的只有芯片合成技術(shù)。芯片合成過程中產(chǎn)生的同一種DNA序列均達(dá)數(shù)百萬個(gè)拷貝,但此過程中可能會(huì)發(fā)生堿基的替換、插入和刪除等錯(cuò)誤,造成同一序列的每個(gè)拷貝出現(xiàn)各種不同的錯(cuò)誤[40]。而且受目前芯片合成技術(shù)的限制,每個(gè)DNA序列的合成總量與其在芯片上的空間位置有關(guān),分布在邊緣部位相比其他部位的DNA序列合成量較少,這將造成寡核苷酸庫中DNA序列具有很大的不均一性(單鏈DNA分子分布的不平衡性也即各個(gè)序列的拷貝數(shù)具有很大的差異性)[31,41]。另外,不同的芯片合成技術(shù)合成的寡核苷酸的質(zhì)量也有很大的差異,并且合成質(zhì)量與合成成本之間是成正比的,那么以較低的合成成本實(shí)現(xiàn)DNA數(shù)據(jù)存儲(chǔ)是科學(xué)家們所追尋的。
2019年,微軟研究院聯(lián)合Twist Bioscience將每個(gè)序列的測(cè)序結(jié)果映射回其在合成芯片上的位置,結(jié)果表明DNA序列的合成偏差與其在芯片上的空間位置有關(guān)[31]。為了解決空間位置對(duì)合成質(zhì)量的影響,Twist Bioscience對(duì)單體核苷亞磷酰胺進(jìn)行專有的化學(xué)修飾增加合成工藝的耐受范圍,同時(shí)還對(duì)化學(xué)工藝參數(shù)進(jìn)行了優(yōu)化,確保在較短的時(shí)間內(nèi)使流通池中的化學(xué)試劑更加均勻地分散。合成工藝的改進(jìn)使得芯片上的每條寡核苷酸的數(shù)量更加均勻,其分布已呈現(xiàn)了較好的正態(tài)分布,而且這一改進(jìn)使得合成的錯(cuò)誤明顯降低。
另外,近些年酶促合成方法也取得了一些研究進(jìn)展。2019年,Lee等[38]利用末端脫氧核苷酸轉(zhuǎn) 移 酶 (terminal deoxynucleotide transferase,TdT)開發(fā)了從頭酶促合成策略,并依據(jù)該酶的酶促合成性質(zhì)設(shè)計(jì)一種特殊的編解碼方法應(yīng)用于數(shù)據(jù)信息的存儲(chǔ)。但因其合成準(zhǔn)確度較低且通量不高,不能用于大規(guī)模的數(shù)據(jù)存儲(chǔ),因此該方法的應(yīng)用受到了一定的限制。2020年,Antkowiak等[42]開發(fā)了一種依賴于大規(guī)模平行合成的DNA存儲(chǔ)系統(tǒng),該方法的成本遠(yuǎn)遠(yuǎn)低于傳統(tǒng)的柱式合成方法,但提高合成速度時(shí),其序列錯(cuò)誤率隨之增加。同時(shí)Tabatabaei等[43]采用傳統(tǒng)的穿孔打卡記錄數(shù)據(jù)原理,將酶(Pyrococcus furiosusArgonaute)作為“打孔器”在現(xiàn)有的雙鏈DNA上留下“刻痕”,出現(xiàn)“刻痕”表示1,沒有則表示0,進(jìn)而存儲(chǔ)數(shù)據(jù)。該方法完全不涉及合成,也不會(huì)出現(xiàn)合成過程中出現(xiàn)的一些問題,但其存儲(chǔ)容量和密度都較低,這損失了原本DNA信息存儲(chǔ)的優(yōu)勢(shì)。
根據(jù)目前固相合成機(jī)制可知,基于芯片合成寡核苷酸文庫的合成是不完美的。在核苷酸的添加過程中,有可能添加意外終止造成寡核苷酸合成不完全,或者一個(gè)核苷酸沒有添加上造成DNA序列上堿基的刪除[44]。2018年,Zhang等[45]開發(fā)了一種化學(xué)計(jì)量標(biāo)準(zhǔn)化的寡核苷酸純化(stoichiometrically normalizing oligonucleotide purification,SNOP)方法(如圖4左),該方法可以同時(shí)純化并均一化數(shù)百種不同的寡核苷酸。其作用原理是:對(duì)于每個(gè)寡核苷酸Oi,設(shè)計(jì)一個(gè)相應(yīng)的前體寡核苷酸Pi。該前體包含了標(biāo)簽序列和寡核苷酸Oi,標(biāo)簽序列區(qū)位于前體DNA的5′區(qū),從5′到3′依次是所有前體共有的通用序列、特異性的條形碼序列和脫氧尿嘧啶(dU)核苷酸,其中每個(gè)條形碼序列均由多個(gè)交替的強(qiáng)(G或C)和弱(A或T)核苷酸(如CTCTCT或CAGACT)組成。同時(shí),3′端修飾有生物素基團(tuán)的捕獲探針(單個(gè)合成)與對(duì)應(yīng)的前體序列的通用序列區(qū)和條形碼區(qū)互補(bǔ),以這種方式設(shè)計(jì)條形碼序列的目的是最小化每個(gè)寡核苷酸與捕獲探針雜交的標(biāo)準(zhǔn)化自由能的變化,使得每種前體都最有利地與其對(duì)應(yīng)探針完美結(jié)合。在SNOP過程中,等摩爾比混合每個(gè)捕獲探針,當(dāng)捕獲探針是限制性試劑時(shí),盡管初始前體濃度不同,但每種全長(zhǎng)前體的雜交量相似。隨后使用鏈霉親和素包被的磁珠進(jìn)行固相分離以除去未結(jié)合的前體,然后使用USER enzyme mix從dU位點(diǎn)上裂解得到寡核苷酸Oi。除了可以提高寡核苷酸的純度,SNOP方法還可以對(duì)寡核苷酸的濃度進(jìn)行均一化處理,以便使最終的寡核苷酸文庫中的每條寡核苷酸的濃度相似。作者通過對(duì)含有64條和256條寡核苷酸的寡核苷酸文庫進(jìn)行均一化實(shí)驗(yàn)驗(yàn)證了該方法的有效性,測(cè)序結(jié)果表明即使前體Pi濃度存在很大差異的情況下,得到的產(chǎn)物Oi的濃度也相似。這是到目前為止首個(gè)報(bào)道的對(duì)寡核苷酸文庫純化及濃度標(biāo)準(zhǔn)化的方法,該方法為后續(xù)進(jìn)一步開發(fā)寡核苷酸文庫均一化方法提供了方向,但該方法需要前體DNA序列和需要化學(xué)修飾。
圖4 兩種大型寡核苷酸文庫DNA的均一化方法Fig.4 Two different DNA normalization methods of large-scale oligo pool are shown:SNOPand OPN
在2020年,Gao等[46]對(duì)該方法做了進(jìn)一步的改善以降低其成本,改進(jìn)的方法被稱為寡核苷酸文庫均一化(oligo pool normalizing,OPN)(如圖4右)。這里,寡核苷酸序列被設(shè)計(jì)為引物序列、中間可變序列區(qū)域以及標(biāo)簽序列區(qū)域(5′→3′),該標(biāo)簽序列區(qū)域包括條形碼區(qū)域和通用序列區(qū)(5′→3′)。同時(shí),捕獲探針的5′端修飾有生物素并與標(biāo)簽序列區(qū)的序列互補(bǔ)(每個(gè)捕獲探針分別合成)。在OPN過程中,首先使用正向引物和磷酸化的反向引物進(jìn)行寡核苷酸的擴(kuò)增,然后用Lambda外切酶進(jìn)行降解以富集寡核苷酸文庫。等摩爾比混合每個(gè)捕獲探針,當(dāng)捕獲探針是限制性試劑時(shí),盡管每個(gè)初始的寡核苷酸濃度不同,但每種寡核苷酸的雜交量相似。隨后加入DNA聚合酶沿雜交到寡核苷酸上的捕獲探針的3′端進(jìn)行延伸,使其修補(bǔ)成雙鏈。之后加入外切酶Ⅰ將未結(jié)合的寡核苷酸進(jìn)行降解,最后使用鏈霉親和素包被的磁珠分離,得到相對(duì)標(biāo)準(zhǔn)化的寡核苷酸文庫。首先使用256條寡核苷酸文庫進(jìn)行了驗(yàn)證。后進(jìn)一步對(duì)OPN方法進(jìn)行了改善,構(gòu)建了OPN2.0。在以下幾個(gè)方面做了改進(jìn):①使用生物素化的正向引物和磷酸化的反向引物進(jìn)行寡核苷酸文庫擴(kuò)增,這樣使得捕獲探針無需再進(jìn)行任何的化學(xué)修飾,從而降低成本;②通過改變通用序列區(qū)序列,在一個(gè)寡核苷酸文庫中使用了4個(gè)不同的通用序列,組合條形碼區(qū)域,寡核苷酸文庫擴(kuò)大至1024條,這是目前報(bào)道的均一化的最大的寡核苷酸文庫。這也從技術(shù)上進(jìn)一步說明,通過將一組精心設(shè)計(jì)的通用序列與256個(gè)條形碼組合,理論上可以同時(shí)均一化300萬條寡核苷酸序列。
改進(jìn)合成工藝可能是實(shí)現(xiàn)寡核苷酸文庫均衡性最本質(zhì)的解決方案,但其勢(shì)必會(huì)造成合成成本的大幅度增加。寡核苷酸均一化方法是比較可行的解決方案,在沒有較大地增加合成成本的基礎(chǔ)上實(shí)現(xiàn)寡核苷酸序列的均衡性,進(jìn)而降低測(cè)序成本,實(shí)現(xiàn)完美解碼。
DNA數(shù)據(jù)存儲(chǔ)最重要的優(yōu)勢(shì)之一是其保存時(shí)間較久(長(zhǎng)達(dá)幾個(gè)世紀(jì))。然而,與傳統(tǒng)的基于磁性或光學(xué)的存儲(chǔ)方式相比,DNA數(shù)據(jù)存儲(chǔ)的穩(wěn)定性仍是一個(gè)重要的問題。DNA在較惡劣(如高濕和紫外線)及溫度較高的情況下,很容易被烷基化、水解及氧化[47-48],進(jìn)而造成DNA序列丟失,堿基的替換、插入和刪除,從而造成數(shù)據(jù)信息的丟失[32,49-50]。因此,實(shí)現(xiàn)DNA的長(zhǎng)期穩(wěn)定保存對(duì)于DNA數(shù)據(jù)存儲(chǔ)至關(guān)重要[23]。目前,用來實(shí)現(xiàn)DNA保存的方法主要有液狀、干粉、封裝、DNA與堿性鹽混合干燥、非天然核酸和體內(nèi)存儲(chǔ)6種形式(圖5)。
圖5 6種不同DNA保存方法Fig.5 Six different storage methods
在實(shí)驗(yàn)室中長(zhǎng)期保存DNA的傳統(tǒng)方法是以液狀形式保存DNA[51]。DNA在酸性條件下易水解,所以常將DNA溶于TE緩沖液中,并將其置于低溫冰箱(-20℃或-80℃)或液氮中保存[52]。但此種方法需要的能耗大,這對(duì)于大規(guī)模的數(shù)據(jù)信息存儲(chǔ)是不可取的。
DNA粉末保存也是長(zhǎng)期儲(chǔ)存DNA的一種實(shí)用方法[53-54]。固態(tài)DNA的降解主要受大氣中的水和氧氣的影響,所以將干燥的DNA樣品保存在相對(duì)較低濕度下是非常重要的[49,55-56]。脫水會(huì)降低DNA分子的流動(dòng)性,并抑制DNA的脫嘌呤、脫嘧啶、脫氨和水解反應(yīng)。另外,據(jù)報(bào)道,海藻糖對(duì)DNA二級(jí)結(jié)構(gòu)具有很強(qiáng)的穩(wěn)定作用,在存在海藻糖的情況下,固態(tài)的天然DNA即使加熱到120℃也不會(huì)變性。這種穩(wěn)定作用可能是海藻糖與磷酸鹽結(jié)合中和DNA的負(fù)電荷或者是海藻糖與DNA之間的氫鍵建立的網(wǎng)絡(luò)減少了DNA結(jié)構(gòu)的波動(dòng)(玻璃化假設(shè))[55-57]。制備干燥DNA的方法有以下幾種:噴霧干燥、噴霧冷凍干燥、空氣干燥以及冷凍干燥,其中冷凍干燥是成本最低、最受歡迎的方法[58]。將干燥的DNA通過特定的方式固定在紙或玻璃板上是在室溫下存儲(chǔ)的另一種選擇,2019年,Newman等[59]將DNA粉末固定在玻璃板上,并通過數(shù)字微流控設(shè)備(digital microfluidics,DMF)實(shí)現(xiàn)DNA的隨機(jī)提取。這種方法不僅可以實(shí)現(xiàn)大量數(shù)據(jù)物理上的隔離,而且能夠?qū)崿F(xiàn)數(shù)據(jù)信息的隨機(jī)檢索,對(duì)于大規(guī)模的數(shù)據(jù)存儲(chǔ)是非常重要的。另外可以加入一些商業(yè)化的DNA穩(wěn)定劑如DNAStable,與DNA共干燥實(shí)現(xiàn)核酸在室溫下的長(zhǎng)期保存(50℃下300多天)[60-61]。
通過封裝將DNA與外界環(huán)境隔絕開來,可避免環(huán)境變化(如高溫等)造成的DNA損傷[62]。Grass等[22]和Paunescu等[63]提出利用化學(xué)穩(wěn)定性和熱穩(wěn)定性較好的二氧化硅對(duì)DNA進(jìn)行封裝,使得DNA在60℃可保存2個(gè)月(相當(dāng)于在室溫可保存2年),但DNA載量很小。Koch等[64]將封裝有DNA的二氧化硅融合到3D打印材料和眼鏡制劑中,實(shí)現(xiàn)了嵌入信息型物質(zhì)的制備。Chen等[65]通過應(yīng)用具有交替的DNA層和聚陽離子分子[即聚乙烯亞胺(PEI)]的逐層(LbL)設(shè)計(jì),將DNA結(jié)合到磁性納米顆粒上,同時(shí)保護(hù)性二氧化硅層生長(zhǎng)在多層納米顆粒的頂部,以保護(hù)DNA免受外部損害。該方法將DNA載量提高到7.8%(質(zhì)量分?jǐn)?shù))并且使得DNA在室溫下可保存20~90年(10℃下150 bp長(zhǎng)度的DNA可保存527年)。
Del Valle等[66]已經(jīng)證明吸附到羥基磷灰石上的DNA可以免受DNase I的降解。2020年,Kohll等[67]利用磷酸鈣、氯化鈣和氯化鎂等堿金屬與DNA混合干燥,將DNA包裹在這些堿金屬鹽中,將DNA載量提高到30%(質(zhì)量分?jǐn)?shù)),同時(shí)可實(shí)現(xiàn)DNA的長(zhǎng)期保存(10℃下可保存109年)。相對(duì)于二氧化硅DNA包封法,該方法載量高、易操作,但其保存時(shí)間沒有包封法長(zhǎng)。
α-L-呋喃糖基核酸(α-L-threofuranosyl nucleic acid,TNA)是一種非天然核酸,由2′,3′-磷酸二酯鍵連接帶有堿基的四碳糖而成[68]。其中,2′,3′-磷酸二酯鍵不容易被核酸酶酶解。Yang等[69]將DNA上帶有的數(shù)字信息通過堿基互補(bǔ)配對(duì)轉(zhuǎn)移到TNA中,成功抵御了核酸酶的酶解,可防止核酸酶酶解導(dǎo)致的信息丟失,但目前其穩(wěn)定性還沒得到驗(yàn)證。
除了體外存儲(chǔ),DNA體內(nèi)存儲(chǔ)也有很大的優(yōu)勢(shì),如低成本復(fù)制和長(zhǎng)久穩(wěn)定保存[70-73]。從DNA信息存儲(chǔ)發(fā)展的早期到2012年,DNA信息存儲(chǔ)全部都是在體內(nèi)進(jìn)行[15-18]。2010年,Gibson等[19]首次將人工合成的一個(gè)支原體基因組(1 077 947 bp)存入酵母細(xì)胞中并成功進(jìn)行復(fù)制和傳代,這在將體外信息存儲(chǔ)在細(xì)胞中的歷史上具有里程碑意義。2017年,哈佛大學(xué)的Shipman等[25]通過CRISPR-Cas編輯工具將一部無聲短片(2.6 KB)存入細(xì)菌體內(nèi),并實(shí)現(xiàn)了90%數(shù)據(jù)的恢復(fù)。2020年,Hao等[27]利用同源重組技術(shù)將攜帶有445 KB的數(shù)據(jù)信息的DNA序列文庫組裝到高拷貝質(zhì)粒中,并轉(zhuǎn)化到細(xì)菌細(xì)胞進(jìn)行混合培養(yǎng),同時(shí)進(jìn)行了5次傳代,數(shù)據(jù)恢復(fù)率達(dá)到98%以上,這是目前報(bào)道的數(shù)據(jù)量最大的體內(nèi)存儲(chǔ)。但體內(nèi)存儲(chǔ)也存在一定的缺點(diǎn),其存儲(chǔ)密度相比體外存儲(chǔ)低,而且DNA在生物體內(nèi)會(huì)發(fā)生損傷,可能導(dǎo)致堿基的替換、插入或刪除等。另外,雖然細(xì)菌細(xì)胞可以存在數(shù)百萬年,但其攜帶數(shù)據(jù)信息的穩(wěn)定性沒有明確的報(bào)道。
DNA數(shù)據(jù)信息很容易被復(fù)制,這也是DNA數(shù)據(jù)存儲(chǔ)得到高度關(guān)注的原因之一,文獻(xiàn)中報(bào)道最多就是利用PCR擴(kuò)增技術(shù)。模板序列的長(zhǎng)度、DNA序列以及二級(jí)結(jié)構(gòu)、聚合酶的種類、是否有添加劑以及PCR反應(yīng)條件等均會(huì)影響PCR的擴(kuò)增效率和產(chǎn)物的準(zhǔn)確性[74-78]。這對(duì)一個(gè)具有高度序列復(fù)雜性的大型寡核苷酸文庫的擴(kuò)增產(chǎn)生了巨大的挑戰(zhàn)。近些年,為解決擴(kuò)增過程中產(chǎn)生的這些問題,科研工作者展開了一系列的探索。
Czerny[79]發(fā)現(xiàn)增大引物濃度,可以顯著增加擴(kuò)增產(chǎn)物的產(chǎn)量,說明引物濃度是PCR反應(yīng)的限制因素;而且,PCR反應(yīng)過程中過量的引物會(huì)在反應(yīng)的后期阻止非特異產(chǎn)物的生成。因此,對(duì)于PCR反應(yīng),增大引物濃度不僅可以提高產(chǎn)量而且提高產(chǎn)物質(zhì)量。Wang等[80]對(duì)基于大型寡核苷酸文庫的引物進(jìn)行了寡聚設(shè)計(jì),該設(shè)計(jì)僅一個(gè)引物結(jié)合位點(diǎn),將該引物結(jié)合位點(diǎn)連接至寡核苷酸的一端以將單鏈DNA轉(zhuǎn)化為測(cè)序所需的雙鏈DNA。同時(shí),他們?cè)O(shè)計(jì)了用于單個(gè)引物結(jié)合位點(diǎn)的組裝原始測(cè)序讀數(shù)中的DNA序列的算法。兩種設(shè)計(jì)的組合不僅可以無錯(cuò)誤地恢復(fù)超過99%的數(shù)據(jù),而且比現(xiàn)有的使用短鏈DNA信息存儲(chǔ)方案的數(shù)據(jù)存儲(chǔ)密度有顯著的提高。另外,加入適量的增強(qiáng)劑或添加劑,如DMSO[81]、甲酰胺[82]、甘 油 、 甜 菜 堿[83-84]、 牛 血 清 蛋 白[85]、Triton X-100、乙二醇、核苷酸類似物7-去氮-2′-脫氧鳥苷(dc7GTP)[86]等已經(jīng)證明了可以改善富含GC的DNA序列擴(kuò)增,這些小分子增強(qiáng)劑或添加劑既可以阻止模板和引物各自形成復(fù)雜的二級(jí)結(jié)構(gòu),也可以增加引物在溫度高于溶解溫度的情況下與模板結(jié)合的機(jī)會(huì)。
聚合酶是產(chǎn)生偏好性的主要來源,尤其在模板鏈上聚合開始時(shí)。Pan團(tuán)隊(duì)[87]使用了包含12個(gè)隨機(jī)堿基的文庫以對(duì)DNA聚合酶引發(fā)的偏好性進(jìn)行表征。同時(shí)使用3′末端帶有隨機(jī)六聚體的引物對(duì)合成文庫進(jìn)行擴(kuò)增。結(jié)果表明引物的3′端的6個(gè)核苷酸序列以及引物位點(diǎn)下游的4個(gè)核苷酸序列會(huì)影響引物的引發(fā)效率。通過從單引物模板擴(kuò)增證明了3′端下游的優(yōu)選引發(fā)基序是富含GC的。在65 536條序列中,A家族的DNA聚合酶(Qiagen TopTaq,QTT-A)對(duì)序列“GGGGGCGG”具有最高擴(kuò)增效率,然而B家族的DNA聚合酶(Qiagen HotStar HighFidelity,QHH-B)對(duì)該序列的擴(kuò)增效率僅排在4180名,說明A家族的QTT-A對(duì)該序列具有更高的擴(kuò)增效率。他們將觀察到的DNA聚合酶偏好性整合到了引物設(shè)計(jì)程序上,該程序可指導(dǎo)在模板上設(shè)計(jì)引物的最佳位置。另外,聚合酶的保真度影響產(chǎn)物的質(zhì)量(是否有特異性,有無突變),尤其對(duì)于長(zhǎng)片段DNA(10 kb以上)的擴(kuò)增,可以考慮使用具有高保真度的DNA聚合酶在較少的擴(kuò)增循環(huán)數(shù)下擴(kuò)增,隨后回收產(chǎn)物;然后加入PCR反應(yīng)組分,再次擴(kuò)增,如此循環(huán)多次。這樣在PCR反應(yīng)進(jìn)程中可以保證充足的反應(yīng)組分和高效的酶活,以降低引入突變的概率。
這些研究結(jié)果可指導(dǎo)設(shè)計(jì)PCR引物序列和攜帶數(shù)據(jù)信息的寡核苷酸序列、幫助優(yōu)化PCR反應(yīng)體系以及為聚合酶的選擇提供參考。
早在1991年,Don等[88]開發(fā)了Touchdown PCR以提高其擴(kuò)增的特異性,它避免了為確定最佳退火溫度而進(jìn)行的反應(yīng)條件優(yōu)化過程。Touchdown PCR是指每隔一個(gè)循環(huán)退火溫度降低1℃或0.5℃,直至降至Touchdown退火溫度,并以此退火溫度進(jìn)行10個(gè)左右的循環(huán)。其原理是較高的退火溫度提高引物結(jié)合的難度,保證PCR擴(kuò)增產(chǎn)物的正確性,待靶標(biāo)DNA序列富集后,再降低退火溫度進(jìn)一步提高擴(kuò)增效率。但Touchdown PCR最主要的一個(gè)缺點(diǎn)是擴(kuò)增效率較低。隨后,Hecker等[89]改進(jìn)了Touchdown PCR,開發(fā)了Stepdown PCR,即退火溫度由小幅度的下降和較陡峭的下降組成,這樣的改進(jìn)可以簡(jiǎn)化熱循環(huán)儀的編程,同時(shí)滿足了在復(fù)雜模板中提高擴(kuò)增特異性的需求。在2008年,F(xiàn)rey等[90]又在Touchdown PCR的基礎(chǔ)上開發(fā)了Slow down PCR,也即通過降低PCR儀的降溫速率并在每個(gè)溫度梯度下進(jìn)行3個(gè)循環(huán)來提高引物的退火效率和TaqDNA聚合酶的延伸效率,以實(shí)現(xiàn)高GC含量序列的擴(kuò)增。后來,Aird等[76]證明相比降溫速率在6℃/s下擴(kuò)增的13%~58%GC含量的樣品,通過降低PCR程序退火過程中的降溫速率(2.2℃/s)可以擴(kuò)增的樣品的GC含量更廣(13%~84%)。而且可以通過添加2 mol/L的甜菜堿或者延長(zhǎng)變性時(shí)間實(shí)現(xiàn)高GC含量(23%~90%)的樣品的擴(kuò)增,然而這種會(huì)導(dǎo)致較低GC含量的樣品沒有擴(kuò)增,使該部分序列丟失。
在常規(guī)PCR反應(yīng)中,多種分子在一個(gè)單一的液體體內(nèi)相互作用。在反應(yīng)中引入的外源DNA或早期反應(yīng)步驟中發(fā)生的任何錯(cuò)誤如堿基錯(cuò)誤、引物二聚體或嵌合分子等都可以在整個(gè)反應(yīng)體系中自由地傳播而沒有任何阻礙。這可能會(huì)導(dǎo)致產(chǎn)生非特定或錯(cuò)誤的擴(kuò)增產(chǎn)物。乳液PCR(emulsion PCR,ePCR)[91-92]可通過油包水型乳液將液體分為大量分開的獨(dú)特反應(yīng)室(約1010/mL),此時(shí)理論上模板DNA的每個(gè)分子都被限定在一個(gè)獨(dú)特的反應(yīng)室中,并隨PCR反應(yīng)的進(jìn)行而被復(fù)制,直到耗盡每個(gè)乳液中的所有資源(如圖6左所示)。該反應(yīng)方式避免了常見PCR的缺陷如假陽性、引物二聚體或嵌合體等,同時(shí)避免了由于不同DNA序列的擴(kuò)增效率不同而導(dǎo)致的序列不均衡性,這使得大量DNA序列實(shí)現(xiàn)平行擴(kuò)增而不會(huì)造成任何的偏好性[93]。2018年,Organick等[26]將ePCR技術(shù)應(yīng)用到DNA信息存儲(chǔ)中,實(shí)現(xiàn)了數(shù)百萬的DNA序列(存儲(chǔ)200 MB的數(shù)據(jù)信息)的同時(shí)擴(kuò)增,并且可以在平均5倍的覆蓋度下實(shí)現(xiàn)完美解碼,這是目前已報(bào)道的文獻(xiàn)中實(shí)現(xiàn)完美解碼所需的最少的測(cè)序資源。這無疑得益于ePCR技術(shù)可盡量減輕由于不同的擴(kuò)增效率而造成的DNA序列的不均一性,而且避免了原始模板量少而處于擴(kuò)增劣勢(shì)的情況下造成的DNA序列丟失。
雖然ePCR有眾多優(yōu)勢(shì),但就PCR擴(kuò)增機(jī)制—產(chǎn)物為下一輪的模板而言,這一反應(yīng)機(jī)制會(huì)導(dǎo)致序列變異產(chǎn)物不斷被擴(kuò)增,使得錯(cuò)誤信息被不斷積累[94]。具體而言,若PCR早期發(fā)生堿基錯(cuò)誤(替換、插入和刪除),那么該錯(cuò)誤會(huì)隨PCR擴(kuò)增呈指數(shù)級(jí)放大直至反應(yīng)結(jié)束。這將對(duì)實(shí)現(xiàn)完美解碼提出巨大的挑戰(zhàn),也將浪費(fèi)很大的測(cè)序資源,而且它是任何變體PCR都無法解決的問題。并且目前沒有很好的方式可使用PCR實(shí)現(xiàn)穩(wěn)定的、重復(fù)性的擴(kuò)增。因此,我們亟需開發(fā)新的DNA序列擴(kuò)增方式來替代目前的PCR技術(shù)。
恒溫?cái)U(kuò)增技術(shù)在近些年得到快速的發(fā)展,已廣泛應(yīng)用于生物技術(shù)、生物納米技術(shù)以及生物醫(yī)藥等領(lǐng)域。2020年,Gao等[46]開發(fā)了一種恒溫的DNA讀?。╥sothermal DNA reading,iDR)方式,它在恒溫下實(shí)現(xiàn)了穩(wěn)定且可重復(fù)的DNA復(fù)制(如圖6右所示)。具體就是將寡核苷酸文庫通過生物素與鏈霉親和素的高親和力結(jié)合到磁珠上并聯(lián)合鏈置換擴(kuò)增反應(yīng)實(shí)現(xiàn)數(shù)據(jù)的可重復(fù)性讀取,該系統(tǒng)被稱之為iDR。使用iDR反應(yīng)是因?yàn)樗哂幸韵聨讉€(gè)優(yōu)點(diǎn)。①其擴(kuò)增機(jī)制是一種線性擴(kuò)增[95-96],而且只從最原始模板上進(jìn)行復(fù)制,不會(huì)將產(chǎn)物作為模板復(fù)制。因此,它不會(huì)造成更大的DNA序列不均一性,而且完美地避開了堿基錯(cuò)誤的擴(kuò)散,進(jìn)而節(jié)省了測(cè)序資源。②該系統(tǒng)實(shí)現(xiàn)一次復(fù)制之后,可以用磁鐵將模板與上清液中產(chǎn)物分離,實(shí)現(xiàn)模板的多次重復(fù)復(fù)制。實(shí)驗(yàn)結(jié)果證明該系統(tǒng)可以實(shí)現(xiàn)至少10次的穩(wěn)定可重復(fù)讀取。③該系統(tǒng)可在恒溫且室溫下進(jìn)行反應(yīng),這為以后的大型數(shù)據(jù)存儲(chǔ)節(jié)約了資源。④該系統(tǒng)以可控的方式產(chǎn)生單鏈或者雙鏈產(chǎn)物,且其產(chǎn)物攜帶有磷酸基團(tuán),為后續(xù)反應(yīng)如構(gòu)建二代測(cè)序文庫時(shí)加接頭提供了便利。該系統(tǒng)結(jié)合寡核苷酸文庫均一化OPN方法,即使對(duì)于合成質(zhì)量較差的寡核苷酸文庫,也可實(shí)現(xiàn)寡核苷酸文庫的低偏好性、穩(wěn)定且可重復(fù)性擴(kuò)增。但其擴(kuò)增效率較低,而且方法不適用于長(zhǎng)片段的擴(kuò)增。
圖6 兩種大型寡核苷酸文庫DNA的擴(kuò)增方法Fig.6 Two differentamplification methodsof large-scaleoligo pool areshown:ePCR(emulsion PCR)and iDR(isothermal DNAreading)
DNA信息存儲(chǔ)過程中,寡核苷酸文庫的低偏好性擴(kuò)增對(duì)于數(shù)據(jù)的完美解碼和重復(fù)讀取非常重要。而目前已存在的擴(kuò)增方法中,優(yōu)化反應(yīng)體系、優(yōu)化反應(yīng)程序、使用ePCR以及恒溫?cái)U(kuò)增反應(yīng)均能降低擴(kuò)增的偏好性。然而,要實(shí)現(xiàn)數(shù)據(jù)的重復(fù)性讀取,可考慮以PCR和恒溫?cái)U(kuò)增相結(jié)合的方式。
隨著生物技術(shù)的發(fā)展,特別是高通量的芯片合成和二代測(cè)序技術(shù)的不斷完善,DNA數(shù)據(jù)存儲(chǔ)領(lǐng)域得到了越來越多的關(guān)注。本文對(duì)DNA信息存儲(chǔ)的發(fā)展進(jìn)行了描述,詳細(xì)闡述了在該過程中出現(xiàn)的一系列生化問題的原因,針對(duì)這些問題提出解決方案,并對(duì)其中存在的挑戰(zhàn)及問題進(jìn)行了概括。
首先,芯片合成為寡核苷酸的快速、準(zhǔn)確合成提供了有利的保障,伴隨著合成工藝的改進(jìn),寡核苷酸文庫的質(zhì)量也將大幅度提升,而且寡核苷酸文庫的均一性還可以通過均一化方法如SNOP或者OPN技術(shù)進(jìn)一步改善。再者,攜帶數(shù)據(jù)信息的寡核苷酸的長(zhǎng)期穩(wěn)定保存關(guān)系到信息的穩(wěn)定性和持久性,通過將寡核苷酸保存在堿性鹽中能夠模擬類似化石對(duì)DNA的保護(hù),可以在較高的DNA載量下實(shí)現(xiàn)對(duì)核酸的長(zhǎng)久保存,雖不及二氧化硅封裝DNA對(duì)核酸保護(hù)的時(shí)間久(理論模擬計(jì)算保存時(shí)間可達(dá)數(shù)百萬年),但其裝載量較高(目前報(bào)道的裝載量最高大于30%,質(zhì)量分?jǐn)?shù))且易操作。最后,數(shù)據(jù)的讀取過程需要DNA的復(fù)制,由于PCR技術(shù)比較成熟、擴(kuò)增效率較高、存在多種變體PCR且可以利用引物做到隨機(jī)檢索,眾多優(yōu)勢(shì)使其成為目前使用最廣泛使用的方法。但PCR技術(shù)也有一些缺點(diǎn),如產(chǎn)物作模板、擴(kuò)增偏好性、錯(cuò)誤產(chǎn)物的擴(kuò)散以及產(chǎn)生非目標(biāo)產(chǎn)物。目前報(bào)道的iDR技術(shù)由于其擴(kuò)增機(jī)制為線性擴(kuò)增,可以有效防止文庫的不均一性隨深度復(fù)制而過度放大;序列變異產(chǎn)物不會(huì)被復(fù)制而防止了錯(cuò)誤信息的積累;另外,其產(chǎn)物的5′端攜帶磷酸基團(tuán),非常有利于后續(xù)的二代測(cè)序過程。但該方法也有一定缺陷:①擴(kuò)增效率較差;②由于聚合酶缺乏3′→5′外切酶活性,所以產(chǎn)物的點(diǎn)突變的頻率增大;③該方法需要長(zhǎng)識(shí)別序列的缺口酶[因?yàn)樽R(shí)別序列越短,編碼的難度也會(huì)相應(yīng)的增加(攜帶信息的片段不能出現(xiàn)該識(shí)別位點(diǎn))],所以可以使用的缺口酶的種類是有限的;④不適用長(zhǎng)片段模板的擴(kuò)增。因此可以將PCR和iDR技術(shù)結(jié)合,首先利用PCR較高的擴(kuò)增的效率,使用幾輪(<10輪)PCR將商業(yè)合成的寡核苷酸文庫富集,這樣既可以在減少原始文庫使用量的情況下得到大量的寡核苷酸文庫池,也可以通過其將產(chǎn)物生物素化。然后,生物素化的產(chǎn)物固定在磁珠上,在室溫下實(shí)現(xiàn)DNA序列穩(wěn)定、可重復(fù)性的擴(kuò)增。
雖然大量研究表明DNA信息存儲(chǔ)無論是在存儲(chǔ)能力、保存時(shí)間還是穩(wěn)定可重復(fù)的讀取上都展現(xiàn)出了巨大的發(fā)展前景,但目前DNA信息存儲(chǔ)仍面臨巨大的挑戰(zhàn)。①從大規(guī)模應(yīng)用的角度上看,現(xiàn)階段的合成和測(cè)序成本相對(duì)較高,特別是合成費(fèi)用(約占DNA信息存儲(chǔ)的90%)。另外,就目前的合成技術(shù)而言,芯片合成序列的長(zhǎng)度最長(zhǎng)至300 nt,且合成的堿基錯(cuò)誤率也急劇增加,合成成本也大幅度提升。②高質(zhì)量的寡核苷酸文庫是DNA信息存儲(chǔ)的基石,但由于質(zhì)量和合成成本是成正比的。目前報(bào)道的均一化方法成本相對(duì)較高,步驟也相對(duì)煩瑣。因此,亟需開發(fā)新的生化方法對(duì)大型的低質(zhì)量的寡核苷酸文庫實(shí)施均一化,這樣就可以在低合成成本的基礎(chǔ)上實(shí)現(xiàn)完美的數(shù)據(jù)存儲(chǔ)。③對(duì)于大規(guī)模DNA信息存儲(chǔ)而言,能源消耗也是一個(gè)需要考慮的因素。在長(zhǎng)時(shí)間尺度下實(shí)現(xiàn)DNA的穩(wěn)定保存是非常關(guān)鍵的,而且如何實(shí)現(xiàn)數(shù)據(jù)的物理隔離也是一個(gè)亟需解決的問題。④據(jù)微軟報(bào)道,目前一個(gè)PCR反應(yīng)體系可以操縱106種不同的DNA序列,那么體系中并行操縱多少種DNA序列是一個(gè)生化反應(yīng)的極限,為未來生化技術(shù)的開發(fā)提供了一個(gè)方向。⑤DNA序列的重復(fù)性讀取對(duì)于“冷數(shù)據(jù)”的存儲(chǔ)也是非常重要的,當(dāng)前的文獻(xiàn)報(bào)道是可以進(jìn)行20次的重復(fù)性讀?。?7],探索目前的生化技術(shù)對(duì)于數(shù)據(jù)重復(fù)性讀取的極限也是一個(gè)值得研究的方向。⑥目前報(bào)道的恒溫下對(duì)寡核苷酸文庫的擴(kuò)增技術(shù)受到缺口酶種類的限制,可以利用CRISPR-Cas9突變體作為缺口酶[98-99],可以減少對(duì)編碼的限制,同時(shí)可以做到數(shù)據(jù)的隨機(jī)存儲(chǔ)。另外,可以優(yōu)化具有高保真度的具有鏈置換功能的聚合酶用于恒溫反應(yīng),產(chǎn)生高質(zhì)量的擴(kuò)增產(chǎn)物。⑦基于DNA的生化特性,開發(fā)魯棒的編碼策略以及高效的糾刪碼[100-102]有望彌補(bǔ)現(xiàn)階段的合成、保存、擴(kuò)增以及測(cè)序技術(shù)的不足。
我們期望隨著對(duì)DNA信息存儲(chǔ)和生化技術(shù)研究的深入,DNA信息存儲(chǔ)領(lǐng)域取得的突破能夠使其進(jìn)入商業(yè)應(yīng)用,并逐步彌補(bǔ)甚至取代當(dāng)前的數(shù)據(jù)存儲(chǔ)方式。