周谷成 范艷艷 肖義軍
(福建師范大學(xué)生命科學(xué)學(xué)院 福建福州 350108)
生命的信息存在于DNA 分子之中,構(gòu)成DNA的4 種堿基的不同排列方式,存儲了地球上所有生命的信息,因此DNA 分子是一種容量巨大的信息存儲工具。 隨著現(xiàn)代社會(huì)數(shù)字化信息的不斷積累,數(shù)據(jù)的存儲需求越來越高,有研究表明到2020年,包含在全球計(jì)算機(jī)及歷史檔案、電影、照片、企業(yè)系統(tǒng)和移動(dòng)設(shè)備中的數(shù)據(jù)量將達(dá)到44 萬億G。 現(xiàn)在使用的磁介質(zhì)(磁帶、磁盤、硬盤等)和光介質(zhì)(CD、DVD 等)在存儲量上將很難達(dá)到要求。為了滿足人們未來對數(shù)據(jù)存儲的需求,尋找具有更好存儲性能的新材料、 新技術(shù)成為一個(gè)重要的問題。 DNA 存儲技術(shù)有望成為可用于某些特定領(lǐng)域的新型信息存儲技術(shù)。
DNA 存儲技術(shù)是指用人工合成的脫氧核苷酸鏈對文檔、 圖片和音頻等信息進(jìn)行存儲并能完整讀取的技術(shù)。DNA 是由4 種堿基——腺嘌呤(A)和胸腺嘧啶(T)、鳥嘌呤(G)和胞嘧啶(C)按照堿基互補(bǔ)配對的特定順序排列構(gòu)成的雙鏈分子,作為遺傳信息,指導(dǎo)生物體生長發(fā)育。DNA 存儲技術(shù)就是在這4 個(gè)堿基“字母”的基礎(chǔ)上,開發(fā)區(qū)別于生物體的“語言”代碼。 儲存數(shù)據(jù)時(shí)先將數(shù)據(jù)編碼成二進(jìn)制的數(shù)字串,然后用脫氧核苷酸中的堿基A、T、C、G 編碼二進(jìn)制相對應(yīng)的數(shù)字,這樣數(shù)據(jù)就能以脫氧核苷酸鏈的形式完成目標(biāo)DNA 分子的構(gòu)建(圖1),再通過人工合成相應(yīng)的DNA 分子,數(shù)據(jù)即被儲存在DNA 分子中。 實(shí)際應(yīng)用時(shí)并非將所有數(shù)據(jù)儲存在一個(gè)長分子的DNA 中,而是分成多個(gè)攜帶一些索引細(xì)節(jié)的片段,這樣既能明確各數(shù)據(jù)在整體序列中的位置,又可以降低因片段遭損毀導(dǎo)致全部數(shù)據(jù)丟失的可能性。 讀取數(shù)據(jù)時(shí)只需對目標(biāo)DNA 進(jìn)行測序,還原為二進(jìn)制格式的數(shù)字串,再完成解碼工作即可[1]。 對于DNA 儲存來說,數(shù)據(jù)寫入即是人工合成DNA,數(shù)據(jù)讀取即是DNA測序,數(shù)據(jù)的拷貝即是DNA 的復(fù)制。
DNA 作為新型的信息存儲載體,有其得天獨(dú)厚的優(yōu)點(diǎn)。 第1,DNA 存儲期限長。 生物體內(nèi)的DNA能保證生命準(zhǔn)確無誤地繁衍遺傳,上萬年的樣本仍可被恢復(fù)為完整的DNA 片段,表明DNA 保存期限長且無需過多地被維護(hù)。 存儲在陰涼干燥處的DNA,可被保存數(shù)10 萬年[3],這是其他存儲介質(zhì)無法媲美的。 磁介質(zhì)是建立在電磁的基礎(chǔ)上,工作環(huán)境易受到限制和干擾,容易出現(xiàn)消磁現(xiàn)象。光介質(zhì)雖受環(huán)境影響小一些,但耐久性不理想,保存時(shí)間有限,一般只有幾十年。 第2,DNA 存儲密度大。 DNA 分子是一種令人難以置信的密集存儲介質(zhì),1 g DNA 即可儲存2.15 億G 的信息。而硬盤的存儲量雖可達(dá)上百G,但在體積不變的情況下,硬盤數(shù)據(jù)存儲密度提升的空間有限,容量難以實(shí)現(xiàn)大幅突破。 CD、DVD 等光介質(zhì)存儲對表面積的要求很大,只能單層平鋪保存信息,單位存儲量更小。 第3,就讀取方式而言,DNA 存儲不涉及兼容問題。第4,從環(huán)保的角度,其他存儲介質(zhì)會(huì)用到生物不可降解的物質(zhì),對環(huán)境造成不良的影響。 基于DNA 存儲技術(shù)的上述優(yōu)點(diǎn),研究人員認(rèn)為,一些不常用但卻需要長期保存的信息,例如政府文件、歷史檔案等,尤其適合采用DNA 存儲方式。
20世紀(jì)70年代科學(xué)家即意識到DNA 堿基不同的排列方式可以代表不同的信息,從而萌生了DNA 可作為存儲介質(zhì)的想法。 1988年首次證明可以將信息存儲在DNA 分子中。 1995年,研究人員提出了構(gòu)建DNA 存儲器的模型,奠定了DNA 存儲技術(shù)研究的基礎(chǔ)。 1999年,研究人員利用DNA 存儲技術(shù)編碼和恢復(fù)了一條長23 個(gè)字母的信息。 進(jìn)入21世紀(jì)以后,特別是近年來,DNA 存儲技術(shù)的研究取得了很大的突破。2012年,哈佛大學(xué)維斯生物工程研究所的研究人員嘗試將一本約有5.34萬個(gè)單詞的書籍和11 張圖片及一段JavaScript 程序編碼到不足一沙克(億萬分之一克)的DNA 微芯片中,完成了當(dāng)時(shí)人類使用DNA 儲存數(shù)據(jù)量最大的一次實(shí)驗(yàn)[4]。2013年,Science 雜志報(bào)導(dǎo)有研究者將馬丁·路德的“我有一個(gè)夢想”的演講及一些其他的名人作品編入DNA 分子中[5]。 同年英國分子生物學(xué)家Goldman 等[6]在Nature 雜志中報(bào)道他們通過設(shè)計(jì)更為復(fù)雜的加密系統(tǒng)對部分重疊的字符串?dāng)?shù)據(jù)進(jìn)行編碼,使用沒有同聚體(連續(xù)2 個(gè)以上相同堿基)的DNA 序列編碼文件,減少了同聚體序列導(dǎo)致的在高通量測序中可能產(chǎn)生的錯(cuò)誤。2016年,微軟公司和華盛頓大學(xué)研究人員合作,將《戰(zhàn)爭與和平》等100 部經(jīng)典文學(xué)作品及數(shù)字圖書館排名前100 位的電子書等約200MB 的數(shù)據(jù)成功地一次性“寫”入DNA 分子中,且在從DNA池中讀取數(shù)據(jù)的測序過程中,沒有出現(xiàn)任何錯(cuò)誤。Erlich 等[3]發(fā)明了一種所謂的“水滴”儲存法,利用他們設(shè)計(jì)的DNA 噴泉算法(有容錯(cuò)糾錯(cuò)機(jī)制),將二進(jìn)制字符串(噴泉)隨機(jī)包裝成“水滴”(即數(shù)據(jù)包),每個(gè)“水滴”中的0 和1 映射到DNA 的4 種堿基(A、G、C 和T)上,通過這種方法能使每個(gè)核苷酸編碼1.6Bt 的數(shù)據(jù),合成的文件中也無任何錯(cuò)誤(圖3)。 在最近的一項(xiàng)研究中,研究者通過CRISPR-Cas9 系統(tǒng)(一種基因編輯技術(shù))將一個(gè)短視頻成功儲存到了大腸桿菌的基因組中,證實(shí)了可將信息存儲到活細(xì)菌的基因組中[7]。 研究人員首先用一張張按出現(xiàn)時(shí)間順序排列的圖片表示該視頻,將圖像文件分解為像素,通過編碼技術(shù)用DNA 片段表達(dá)像素信息;將代表該視頻信息的全部DNA 片段及CRISPR-Cas9 系統(tǒng)所需的酶系統(tǒng)全部轉(zhuǎn)入大腸桿菌內(nèi);最后利用CRISPR-Cas9 系統(tǒng)將DNA 片段整合進(jìn)大腸桿菌的基因組中,隨著大腸桿菌的繁殖,完成信息的存儲與復(fù)制,信息的準(zhǔn)確度高達(dá)90%。 這意味著利用活體細(xì)胞可以實(shí)現(xiàn)數(shù)據(jù)的存儲和復(fù)制。
現(xiàn)階段DNA 存儲還存在很多需要解決的技術(shù)問題。 首先,目前人工合成DNA 的成本過高且費(fèi)時(shí)。磁介質(zhì)0、1 之間的轉(zhuǎn)換只需通過加磁消磁即可實(shí)現(xiàn),光介質(zhì)可以通過刻錄機(jī)將數(shù)據(jù)寫在光盤上,這些比較容易實(shí)現(xiàn)。 而將數(shù)據(jù)“寫”入DNA 則困難得多,雖然已經(jīng)有自動(dòng)合成儀可將堿基連接起來形成DNA 序列,但一般只能合成短鏈DNA,難以做到“即時(shí)寫”,且DNA 存儲系統(tǒng)是通過增加冗余度提高容錯(cuò)能力的,這更增加了成本和時(shí)間。 其次,DNA 的測序還遠(yuǎn)不夠完美,目前的測序技術(shù)只能批量讀取數(shù)據(jù),即使只從存儲系統(tǒng)中訪問一個(gè)字節(jié)的信息,系統(tǒng)也必須對整個(gè)DNA 池進(jìn)行測序和解碼,導(dǎo)致檢索文件耗時(shí)過長。 雖然可以通過聚合酶鏈?zhǔn)椒磻?yīng)(PCR)精確復(fù)制需要提取字符串的副本以加快讀取速度,但相對于其他的存儲技術(shù)依然沒有優(yōu)勢[8],造成無法“即時(shí)寫”也無法“即時(shí)讀”。 同時(shí)DNA 存儲技術(shù)在編碼之后不能改變或重寫,在讀取或恢復(fù)數(shù)據(jù)時(shí)會(huì)不可避免地存在一些錯(cuò)誤,這相對于其他存儲介質(zhì)也是一個(gè)較大的缺點(diǎn),因此在DNA 存儲中,微小的錯(cuò)誤可能會(huì)產(chǎn)生很大的影響,造成存儲信息不能被讀取或難以理解。所以就目前來說,DNA 存儲技術(shù)用途有限,要取代當(dāng)前的存儲技術(shù)還有很多問題需要解決。
目前信息存儲技術(shù)的主流方向聚焦在存儲密度、 保存時(shí)間和低耗能等方面,DNA 存儲匯集了這些優(yōu)點(diǎn)。 目前來看,成本問題是DNA 存儲技術(shù)發(fā)展與普及的最大阻礙,如果能很好地解決成本問題,DNA 存儲技術(shù)取代現(xiàn)有存儲技術(shù)的可能性極大。 現(xiàn)今其成本問題也已得到一定程度的改善(如今的DNA 測序費(fèi)用是2002年的5 萬分之一)。 DNA 存儲技術(shù)的未來價(jià)值已經(jīng)引起了許多電影公司、博物館、檔案館及對諸如谷歌、亞馬遜等這類有長期信息儲存需求機(jī)構(gòu)的興趣,微軟公司于2016年宣布將購買1 000 萬條的DNA,用于研究數(shù)據(jù)存儲。 DNA 存儲將是未來最有前景的信息存儲技術(shù)之一。