信息技術出現(xiàn)并不斷發(fā)展以后,數(shù)據(jù)真正成為了一種新型生產資料,不過,它的爆炸式增長也讓存儲成為新的挑戰(zhàn),基于硅材料的計算機存儲方式逐漸變得難以應對。在此背景下,積極探索DNA存儲以作為下一代的數(shù)據(jù)存儲方式意義重大。
DNA是一種非常穩(wěn)定的分子,半衰期超過500年,低溫條件下可保存成千上萬年。而目前的磁或光數(shù)據(jù)存儲系統(tǒng)保存數(shù)據(jù)一般不能超過一個世紀。除了穩(wěn)定性,DNA存儲數(shù)據(jù)的另一大優(yōu)點是存儲密度。DNA信息存儲密度的數(shù)量級是已知任何存儲技術的若干倍。2021年12月,東南大學劉宏教授就曾將校訓“止于至善”刻在DNA分子里。
DNA存儲的敦煌壁畫
不久前,天津大學合成生物學團隊又創(chuàng)新DNA存儲算法,將上述十幅敦煌壁畫存入DNA中,通過加速老化實驗驗證壁畫信息在實驗室常溫下可保存千年,在9.4攝氏度下可保存兩萬年。 相關成果以“Robust data storage in DNA by de Bruijn graph-based de novo strand assembly”為題發(fā)表。
具體做法如下:首先,團隊通過DNA合成技術結合糾錯編碼將壁畫信息寫入DNA中,實現(xiàn)了高密度(295PB/g)的數(shù)據(jù)存儲。然而,DNA作為一種鏈式生物大分子,在體外常溫保存時面臨DNA斷裂降解等風險,影響信息存儲的長期可靠性。
為解決該問題,團隊設計了基于德布萊英圖理論的序列重建算法。該算法結合貪婪路徑搜索和循環(huán)冗余校驗碼來實現(xiàn)斷裂DNA片段的高效從頭組裝,從原理上支持了DNA存儲的長期可靠性。
基于德布萊英圖理論設計的序列重建算法高效解決DNA斷裂、降解問題
結合該序列重建算法(內碼)與噴泉碼算法(外碼),團隊設計編碼了6.8MB大小的敦煌壁畫,合成了承載圖片信息的DNA片段21萬條。為數(shù)據(jù)的長期可靠性,團隊制備了一個沒有任何特殊保護的DNA水溶液樣本,并在70攝氏度下加速樣本斷裂、降解長達1 0周。處理后的DNA片段80%以上都發(fā)生了斷裂錯誤,依靠設計的序列重建算法依然可以準確組裝并解碼96.4%以上的片段,再通過噴泉碼解決少量片段丟失的問題,原始的敦煌壁畫圖片依然能夠完美恢復。根據(jù)理論推算,這種程度的高溫破壞相當于實驗室常溫25攝氏度1000年或者9.4攝氏度長達兩萬年的自然保存。
該算法支持DNA分子成為世界上最可靠的數(shù)據(jù)存儲介質之一。這項技術為長期保存人類歷史文化遺產提供了一個潛在的數(shù)字化解決方案。
這并不是天津大學合成生物學團隊第一次在DNA存儲上取得突破。2021年3月,天津大學元英進教授帶領跨學科團隊,借助團隊在酵母人工基因組化學合成領域的積累,從頭編碼設計合成了一條長度為2 5.4 8 8 6萬bp、專用于數(shù)據(jù)存儲的酵母人工染色體,借助無線通信中前沿的糾錯編碼將兩張經(jīng)典圖片和一段視頻存儲于高校組裝的人造染色體,利用酵母繁殖實現(xiàn)了數(shù)據(jù)穩(wěn)定復制,用便攜式的三代納米孔測序器件實現(xiàn)了數(shù)據(jù)快速讀出與無錯恢復。
當然,不僅在學術界,工業(yè)界DNA存儲也取得了很大進展。由中科院深圳先進技術研究院合成生物學研究所副所長戴俊彪創(chuàng)立的中科碳元于2021年5月成立,成立之初,就獲得了數(shù)千萬元人民幣天使輪融資。近日,法國初創(chuàng)公司Biomemory也開發(fā)了一種DNA Drive存儲技術,可利用合成生物學將5PB的數(shù)據(jù)存儲在“金屬膠囊”中,并可通過DNA測序儀讀取。
大數(shù)據(jù)時代,全世界每時每刻都在產生海量的數(shù)據(jù),數(shù)據(jù)存儲的需求也在不斷攀升。Nature Materials曾在2016年預測,到2025年全球信息數(shù)據(jù)總量可達163ZB,相當于163x1024x1024x1024TB,需要350億個5TB硬盤才能裝下。不過,天津大學元英進院士也曾表示,DNA存儲是人們希望看到的合成生物學和信息技術融合的典范。但是,目前DNA存儲仍然面臨合成成本高、讀寫速度慢以及如何與現(xiàn)代存儲系統(tǒng)融合等挑戰(zhàn)。