陳建華
信息保存對(duì)人類和社會(huì)的發(fā)展非常重要。目前信息保存最久遠(yuǎn)的方式是結(jié)繩和雕刻,正因?yàn)槿绱耍覀兡芤欢霉糯氖?、甲骨文和金文。雕刻受限于保存信息密度低、種類少的缺點(diǎn),此后演化出了簡(jiǎn)牘、帛、紙張和書籍。不過,紙張壽命不過千年,且對(duì)儲(chǔ)備條件和儲(chǔ)備空間要求較高。發(fā)展到信息時(shí)代,人們將資料保存在磁帶、磁盤、硬盤、服務(wù)器和云端。上世紀(jì)末以來,以硅基為基礎(chǔ)材料的硬盤成為存儲(chǔ)介質(zhì)的主流,簡(jiǎn)稱為“硅基存儲(chǔ)”,其長期保存涉及定期數(shù)據(jù)備份及持續(xù)電力與存儲(chǔ)空間等投入,成本巨大。
從社會(huì)和自然界發(fā)展歷程看,最天然和最長久的信息保存方式存在于生命之中。人類、動(dòng)植物、微生物繁衍億萬年,都遵循由DNA(脫氧核糖核酸,以下“核酸”)控制的生命中心法則:DNA包含的四種堿基(ATCG)的排列組合構(gòu)成基因,控制著生命體的生存、健康與繁衍。人體40萬億個(gè)細(xì)胞幾乎都含有完整的基因組(約60億個(gè)堿基),這是每個(gè)人與生俱來、最為重要的生命信息。人們可以將基于0和1的二進(jìn)制數(shù)字信號(hào),轉(zhuǎn)化成以核酸堿基ATCG為基礎(chǔ)的四進(jìn)制生命信號(hào)。通過合成相應(yīng)的核酸,將信息以碳基形式完整地保存億萬年。若需讀取,只需要進(jìn)行核酸測(cè)序即可。這一方式,行業(yè)內(nèi)稱為“DNA存儲(chǔ)”,相對(duì)于硅基硬盤可簡(jiǎn)稱為“碳基存儲(chǔ)”。
硅基存儲(chǔ)造價(jià)低,但保存成本高且年限不長,摩爾定律邊際效應(yīng)減弱。碳基存儲(chǔ)造價(jià)高,但保存成本低且年限長,開始進(jìn)入摩爾定律加速期,未來應(yīng)用前景可期。
在數(shù)據(jù)的KB、MB、GB、TB、PB、EB 六個(gè)階段,硅基存儲(chǔ)未能滿足EB階段海量數(shù)據(jù)存儲(chǔ)的需求。碳基存儲(chǔ)是較有前途可供選擇的技術(shù)路線之一,這是一個(gè)新興科學(xué)領(lǐng)域(圖1)。根據(jù)我在深圳華大生命科學(xué)研究院考察調(diào)研和工作實(shí)踐體會(huì),基于我國在DNA合成、檢測(cè)和時(shí)空組學(xué)技術(shù)方面的領(lǐng)先能力,建議國家盡快組織開展DNA存儲(chǔ)產(chǎn)業(yè)布局,以確保我國在這一領(lǐng)域始終保持并跑和領(lǐng)跑的地位。
圖1 碳基存儲(chǔ)的基本技術(shù)流程說明①
DNA存儲(chǔ)作為新興概念,是由DNA高通量合成與測(cè)序技術(shù)催生的信息與生物相融合的新領(lǐng)域(圖2),通過DNA分子的堿基序列直接編碼數(shù)字信息,由高通量合成技術(shù)合成序列進(jìn)行信息寫入,并利用高通量測(cè)序技術(shù)實(shí)現(xiàn)信息的讀取,以實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)的信息還原,近年受到廣泛關(guān)注。DNA存儲(chǔ)的早期研究,國外在上世紀(jì)90年代已有所涉及,但DNA數(shù)字存儲(chǔ)概念是由美國哈佛大學(xué)教授 George 于 2012 年在Science正式提出[1]。自此DNA 數(shù)字存儲(chǔ)成為新興領(lǐng)域。2020年11月微軟聯(lián)合15家機(jī)構(gòu)成立DNA數(shù)據(jù)存儲(chǔ)聯(lián)盟,就算法、合成、測(cè)序進(jìn)行全面合作[2],加速生物技術(shù)與信息技術(shù)的融合發(fā)展。
圖2 DNA存儲(chǔ)系統(tǒng)的數(shù)據(jù)“寫入與讀出”及上下游關(guān)鍵技術(shù)及瓶頸②
近年也出現(xiàn)了基于DNA 折紙等自組裝技術(shù),通過構(gòu)建微納米結(jié)構(gòu)體,利用其控制的金屬物質(zhì)空間排布構(gòu)建DNA電路,然而其本質(zhì)上不能在堿基序列上直接存儲(chǔ)信息,且依賴于超分辨率顯微鏡等精密設(shè)備進(jìn)行讀取,與可形成百萬比特信息量存儲(chǔ)的主流技術(shù)相比,該技術(shù)尚不成熟,缺乏技術(shù)普及與廣泛應(yīng)用的基礎(chǔ)。另外,也有團(tuán)隊(duì)提出利用DNA分子的電性質(zhì)存儲(chǔ)信息,然而其主要利用DNA的加工技術(shù)形成DNA電路,領(lǐng)域內(nèi)一般認(rèn)為這并非真正意義上的DNA存儲(chǔ)。因此在高通量DNA合成和測(cè)序技術(shù)支撐下的DNA堿基序列存儲(chǔ)數(shù)字信息技術(shù)是該領(lǐng)域的主流。
目前DNA存儲(chǔ)通用流程一般為:一是將數(shù)字文件中二進(jìn)制信息提出,轉(zhuǎn)換為DNA 編碼;二是將DNA編碼序列進(jìn)行合成寡聚核苷酸引物庫 (Oligonucleotide Pool)或 DNA 片 段 (DNA Fragment)形式;三是選擇合適載體(體內(nèi)/體外)將合成的DNA序列進(jìn)行存儲(chǔ)。合成的序列一般由數(shù)據(jù)區(qū)、索引區(qū)及引物區(qū)組成,需要高度保真時(shí),還可加入糾錯(cuò)編碼。讀取時(shí)利用測(cè)序獲得序列信息,根據(jù)編碼方法進(jìn)行相應(yīng)解碼。
圖3 DNA存儲(chǔ)通用流程③
2012年至今DNA存儲(chǔ)的各項(xiàng)研究及成果均集中在編解碼算法開發(fā)和介質(zhì)研究方面,也有個(gè)別報(bào)道涉及端到端全流程自動(dòng)化的DNA存儲(chǔ)儀器。但全球范圍內(nèi)DNA 存儲(chǔ)理論研究尚屬空白,也缺乏系統(tǒng)性的體內(nèi)、體外DNA 存儲(chǔ)研究,集成化DNA 存儲(chǔ)設(shè)備亦效率極低。因此,可以將DNA存儲(chǔ)理論研究作為切入點(diǎn),在理論指導(dǎo)下進(jìn)行體內(nèi)外介質(zhì)研究,充分利用DNA合成與測(cè)序技術(shù)的新突破,進(jìn)行DNA全流程的集成,逐漸形成小型化、自動(dòng)化的DNA存儲(chǔ)設(shè)備。
深圳華大生命科學(xué)研究院自2016 年起在DNA存儲(chǔ)領(lǐng)域進(jìn)行了戰(zhàn)略布局與項(xiàng)目投入,已申報(bào)基于“活字印刷”“陰陽”雙編碼DNA存儲(chǔ)體系的國際專利。北京化工大學(xué)研發(fā)的SED3B自偵錯(cuò)編碼系統(tǒng)實(shí)現(xiàn)了細(xì)菌體內(nèi)的存儲(chǔ),理論上可保存萬年。中國科學(xué)院深圳先進(jìn)技術(shù)研究院合成基因組學(xué)研究中心研發(fā)的“將數(shù)據(jù)進(jìn)行生物存儲(chǔ)及還原的方法”建立了生物體存儲(chǔ)的“數(shù)據(jù)-DNA”編碼方法。天津大學(xué)于2021年初實(shí)現(xiàn)基于人工染色體的細(xì)胞內(nèi)DNA存儲(chǔ)。蘇州泓迅生物科技股份有限公司申報(bào)了兩項(xiàng)相關(guān)國內(nèi)專利,對(duì)應(yīng)文本文件的DNA存儲(chǔ)編碼及通用DNA存儲(chǔ)的簡(jiǎn)單編碼。綜上所述,我國DNA存儲(chǔ)研究在編碼系統(tǒng)開發(fā)方面與國外同行基本處于并跑水平,其中以華大為代表的“陰陽”雙編碼系統(tǒng)及適配的數(shù)據(jù)寫入(即高通量合成技術(shù))與數(shù)據(jù)讀出(即DNA檢測(cè)和時(shí)空組學(xué)技術(shù)等)等方面處于領(lǐng)跑水平。
當(dāng)今世界,隨著大數(shù)據(jù)的發(fā)展,傳統(tǒng)存儲(chǔ)介質(zhì),如磁帶、光盤、硬盤等逐漸不能滿足現(xiàn)有數(shù)據(jù)存儲(chǔ)的迫切需要。有報(bào)道稱,2020年世界范圍內(nèi)的數(shù)據(jù)中心僅能滿足50%的存儲(chǔ)需求。同時(shí),數(shù)據(jù)中心也占用了大量的電力和資源。面對(duì)海量數(shù)據(jù)無處可存的窘境,尋找新型存儲(chǔ)介質(zhì)和存儲(chǔ)技術(shù)迫在眉睫。DNA分子作為一種新型信息存儲(chǔ)介質(zhì),在存儲(chǔ)密度、復(fù)制與維護(hù)成本、存儲(chǔ)壽命等方面都具有顛覆現(xiàn)有信息存儲(chǔ)技術(shù)的巨大潛能。利用DNA進(jìn)行信息存儲(chǔ),不僅可以解決目前資源緊迫的問題,還可以減少運(yùn)營成本,形成綠色的可持續(xù)發(fā)展存儲(chǔ)體系。
DNA存儲(chǔ)雖然有明顯的優(yōu)勢(shì),但和傳統(tǒng)硅基存儲(chǔ)相比,它依賴于上下游的關(guān)鍵技術(shù),即高通量DNA合成與測(cè)序技術(shù)。受限于此,與硅基存儲(chǔ)等相比,讀寫速度慢(相差約6-7 個(gè)數(shù)量級(jí)),成本高(相差約6-7個(gè)數(shù)量級(jí))。因此,目前的體量較小,已知最大的存儲(chǔ)體系僅在數(shù)百M(fèi)B級(jí)別。同時(shí),由于DNA分子的生化特性,在某些情況下序列不易合成和測(cè)序,給實(shí)際應(yīng)用帶來了一定的困難。除此之外,DNA存儲(chǔ)體系的隨機(jī)讀取技術(shù)仍處于起步階段,因此在文件歸檔的查詢等存儲(chǔ)系統(tǒng)的基本功能方面還需進(jìn)一步研究。目前市場(chǎng)上尚無成熟的商業(yè)DNA存儲(chǔ)產(chǎn)業(yè),但已有部分歐美科技公司以DNA存儲(chǔ)作為未來產(chǎn)品并獲得了投資。去年以來,基于在深圳華大生命科學(xué)研究院的調(diào)研,該領(lǐng)域研究進(jìn)展基本遵循“摩爾定律”,已在提高讀寫速度和降低成本方面取得重大進(jìn)展,近期的差距有望減少至2-3個(gè)數(shù)量級(jí)。如果國家加以扶持,若干年內(nèi)有可能再減少1-2個(gè)數(shù)量級(jí),將進(jìn)入大規(guī)模數(shù)據(jù)中心應(yīng)用階段,數(shù)據(jù)保存成本將大幅度降低,保存年限將大幅度提升,應(yīng)用前景十分廣闊。
我國在DNA存儲(chǔ)領(lǐng)域的研究起步較晚。近年盡管科技部在該領(lǐng)域進(jìn)行初步布局,但仍然停留在學(xué)術(shù)層面,與產(chǎn)業(yè)方向的結(jié)合相對(duì)匱乏。對(duì)DNA存儲(chǔ)相關(guān)技術(shù)進(jìn)行技術(shù)研究與戰(zhàn)略布局,對(duì)歷史重要資料的備份進(jìn)行應(yīng)用示范,有助于我國在該領(lǐng)域?qū)崿F(xiàn)技術(shù)突破,在存儲(chǔ)技術(shù)的國際競(jìng)爭(zhēng)中占領(lǐng)制高點(diǎn),且DNA 存儲(chǔ)在信息長期存儲(chǔ)、數(shù)據(jù)歸檔等方面亦具有國家戰(zhàn)略意義。
基于上述分析,建議科技部牽頭,組織開展DNA存儲(chǔ)產(chǎn)業(yè)布局。
數(shù)據(jù)安全在信息技術(shù)和DNA存儲(chǔ)技術(shù)中都是十分重要的一環(huán)。無論從個(gè)人隱私安全,還是特殊應(yīng)用場(chǎng)景的角度來看,數(shù)據(jù)安全性都是存儲(chǔ)系統(tǒng)必要的模塊。建議通過編碼學(xué)、信息學(xué)的共同協(xié)作,通過開發(fā)新的數(shù)學(xué)模型,建立DNA存儲(chǔ)的數(shù)據(jù)安全體系并不斷完善,挖掘DNA存儲(chǔ)的生化特性,開發(fā)依靠數(shù)學(xué)方法的DNA存儲(chǔ)安全技術(shù),同時(shí)牽頭制定相關(guān)國內(nèi)國際標(biāo)準(zhǔn),提升DNA存儲(chǔ)領(lǐng)域話語權(quán)。
DNA存儲(chǔ)依賴于上下游DNA高通量合成與測(cè)序技術(shù),實(shí)現(xiàn)DNA 存儲(chǔ)技術(shù)的全面自主可控。通過上下游兩端,即擁有自主知識(shí)產(chǎn)權(quán)的合成與測(cè)序技術(shù)有機(jī)銜接,進(jìn)行各階段技術(shù)模塊的集成,設(shè)計(jì)以多類型DNA存儲(chǔ)介質(zhì)為中心的新型海量、長程、高密度存儲(chǔ)集成系統(tǒng),實(shí)現(xiàn)從起端(合成)到終端(測(cè)序)的多類型數(shù)據(jù)隨存隨取及對(duì)多種典型復(fù)雜環(huán)境進(jìn)行災(zāi)備模擬,實(shí)現(xiàn)相應(yīng)DNA存儲(chǔ)數(shù)據(jù)災(zāi)備存儲(chǔ)的應(yīng)用示范。建議通過DNA存儲(chǔ)比特-堿基轉(zhuǎn)碼方案,與上下游技術(shù)進(jìn)行串聯(lián),實(shí)現(xiàn)DNA存儲(chǔ)的自主技術(shù)閉環(huán)。針對(duì)DNA存儲(chǔ)的數(shù)據(jù)寫入過程(即DNA合成),進(jìn)行合成過程安全管控能力的建設(shè),進(jìn)行具備不依賴國外技術(shù)的全自主高通量合成能力的戰(zhàn)略布局。
充分發(fā)揮IT、人工智能等方面的優(yōu)勢(shì),通過促進(jìn)IT與BT產(chǎn)業(yè)的深化合作,以DNA存儲(chǔ)為切入點(diǎn),結(jié)合新基建,將“干”的信息系統(tǒng)與“濕”的生化檢測(cè)系統(tǒng)結(jié)合,形成基于我國自主研制的新一代高通量合成儀器、測(cè)序儀器的的生化實(shí)驗(yàn)室產(chǎn)業(yè)示范,布局建設(shè)全球首個(gè)規(guī)模化基地式DNA存儲(chǔ)數(shù)據(jù)中心,形成規(guī)模化DNA大數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)鏈,促進(jìn)生物技術(shù)與信息技術(shù)的有機(jī)結(jié)合,實(shí)現(xiàn)DNA存儲(chǔ)在社會(huì)、經(jīng)濟(jì)、文化、生活等方面的場(chǎng)景應(yīng)用,支撐我國大數(shù)據(jù)行業(yè)的發(fā)展。
注釋
①②③圖片來源:深圳華大生命科學(xué)研究院。