章江
微軟日前宣布,它和華盛頓大學(xué)研究人員合作,利用人工合成DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì)的技術(shù),保存了大約200MB數(shù)據(jù),其中包括《戰(zhàn)爭(zhēng)與和平》和另外99部經(jīng)典文學(xué)作品、被譯成100多種語(yǔ)言的《世界人權(quán)宣言》、數(shù)字圖書(shū)館“古騰堡工程”排名前100位的電子書(shū)等。
劃時(shí)代意義的存儲(chǔ)技術(shù)
盡管在此之前已經(jīng)有研究證明數(shù)據(jù)可以被保存在DNA之中,然而沒(méi)有任何研究者能一次性向DNA寫(xiě)入如此多數(shù)據(jù)。微軟和華盛頓大學(xué)的研究團(tuán)隊(duì)成功地將4個(gè)圖片文件的數(shù)據(jù)編碼為人工合成DNA片段的核苷酸序列。更重要的是,他們能實(shí)現(xiàn)逆過(guò)程——從更大的DNA池中取回正確的核苷酸序列,重建圖像,而且沒(méi)有丟失1個(gè)字節(jié)的信息。
用4個(gè)堿基開(kāi)發(fā)定制代碼
DNA是染色體的主要化學(xué)成分,與此同時(shí)也是組成基因的材料,有時(shí)被稱為“遺傳微粒”。在繁殖過(guò)程中,父代把自己DNA的一部分復(fù)制傳遞到子代中,從而完成性狀的傳播。作為一種生物大分子,DNA可組成遺傳指令,引導(dǎo)生物發(fā)育與生命機(jī)能運(yùn)作。它的主要功能是信息儲(chǔ)存,可比喻為“藍(lán)圖”或“食譜”。其中所包含的指令是建構(gòu)細(xì)胞內(nèi)其他的化合物如蛋白質(zhì)與核糖核酸所需要的,帶有蛋白質(zhì)編碼的DNA片段稱為基因。
DNA存儲(chǔ)技術(shù)是一項(xiàng)著眼于未來(lái)的具有劃時(shí)代意義的存儲(chǔ)技術(shù),它利用人工合成的脫氧核糖核酸(DNA)作為存儲(chǔ)介質(zhì),具有高效、存儲(chǔ)量大、存儲(chǔ)時(shí)間長(zhǎng)、容易獲取、免維護(hù)的優(yōu)點(diǎn)。利用DNA存儲(chǔ)數(shù)據(jù)的關(guān)鍵是DNA堿基,DNA這種雙螺旋結(jié)構(gòu)上有4個(gè)化學(xué)基團(tuán),即核堿基,它們按照特定順序排列,組成遺傳信息,指導(dǎo)生物體生長(zhǎng)發(fā)育。
研究人員開(kāi)發(fā)的DNA數(shù)字存儲(chǔ)系統(tǒng)同樣利用這4個(gè)堿基“字母”,開(kāi)發(fā)定制代碼,完全區(qū)別于生物體所用“語(yǔ)言”。當(dāng)復(fù)制一份計(jì)算機(jī)文件時(shí),DNA數(shù)字存儲(chǔ)系統(tǒng)首先把硬盤(pán)信息中的二進(jìn)制數(shù)翻譯成定制代碼,然后借助標(biāo)準(zhǔn)DNA合成機(jī)器制造出相應(yīng)的堿基序列。這一序列并非一個(gè)長(zhǎng)分子,而是多個(gè)重復(fù)片段,每一個(gè)片段攜帶一些索引細(xì)節(jié),明確各自在整體序列中所處位置。這樣的系統(tǒng)雖然顯得冗余,優(yōu)點(diǎn)是即便某些片段遭損毀,數(shù)據(jù)也不會(huì)丟失。分子生物學(xué)實(shí)驗(yàn)室用來(lái)讀取生物體DNA的標(biāo)準(zhǔn)設(shè)備可以讀取信息,當(dāng)即呈現(xiàn)在電腦屏幕上。
1毫克DNA存儲(chǔ)美國(guó)國(guó)會(huì)圖書(shū)館藏書(shū)
DNA存儲(chǔ)技術(shù)作為數(shù)字存儲(chǔ)媒介的顯著優(yōu)點(diǎn)之一是容量大。DNA分子是一種令人難以置信的密集存儲(chǔ)介質(zhì),1克DNA能夠存儲(chǔ)大約2拍字節(jié),相當(dāng)于大約300萬(wàn)張CD。用DNA存儲(chǔ)數(shù)據(jù)保存時(shí)間可能長(zhǎng)達(dá)數(shù)千年。與硬盤(pán)、磁帶等存儲(chǔ)介質(zhì)不同的是,DNA不需要經(jīng)常維護(hù)。就讀取方式而言,DNA存儲(chǔ)不涉及兼容問(wèn)題。
微軟宣布已成功向數(shù)百萬(wàn)DNA寫(xiě)入了10倍于此前的數(shù)據(jù)量,每個(gè)DNA包括150個(gè)堿基,但是沒(méi)有披露DNA數(shù)據(jù)存儲(chǔ)項(xiàng)目耗費(fèi)的成本,其中用到了約15億個(gè)堿基。負(fù)責(zé)合成這些DNA的Twist Bioscience通常每個(gè)堿基價(jià)格為10美分。商用合成技術(shù)的成本最低可以達(dá)到每堿基0.04美分,讀取100萬(wàn)堿基的成本約為1美分。
在信息存儲(chǔ)上,硬盤(pán)完全不能和DNA相提并論。在人類的基因序列中,1克的重量就可以包含幾十億GB的數(shù)據(jù),而1毫克分子的信息存儲(chǔ)空間就在貯存了美國(guó)國(guó)會(huì)圖書(shū)館全部的書(shū)籍之后還有剩余。美國(guó)國(guó)會(huì)圖書(shū)館建于1800年,系美國(guó)的四個(gè)官方國(guó)家圖書(shū)館之一,也是全球最重要的圖書(shū)館之一。目前藏品總數(shù)1.3億,其中0.29億書(shū)籍、0.12億照片、0.58億件手稿,包括很多稀有圖書(shū)、特色收藏、世界上最大的地圖、電影膠片和電視片等。
極具潛力的數(shù)據(jù)存儲(chǔ)介質(zhì)
“微軟希望在未來(lái)把利用人工合成DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì)的技術(shù)和現(xiàn)有硅技術(shù)硬盤(pán)結(jié)合起來(lái),創(chuàng)造出更安全快速的大容量硬盤(pán)。如果這一技術(shù)成熟到適合主流應(yīng)用,裝備當(dāng)今存儲(chǔ)密度最高的存儲(chǔ)設(shè)備,沃爾瑪超市般大小的數(shù)據(jù)中心就可能變成只有一塊方糖大小,一個(gè)鞋盒那么多的DNA就足以保存100個(gè)大型數(shù)據(jù)中心的數(shù)據(jù)?!蔽④涁?fù)責(zé)該研究項(xiàng)目的首席研究員卡林·施特勞斯表示,“目前DNA存儲(chǔ)技術(shù)成本昂貴,操作復(fù)雜,不過(guò)微軟希望借力生物科技行業(yè)的研究成果?!?/p>
生物芯片的核心元素
國(guó)際數(shù)據(jù)資訊公司(IDC)預(yù)計(jì),全球范圍內(nèi)保存的數(shù)字化數(shù)據(jù)到明年將達(dá)到16萬(wàn)億GB,其中大部分位于大型數(shù)據(jù)中心。當(dāng)前的電子存儲(chǔ)設(shè)備發(fā)展速度趕不上數(shù)據(jù)量的增長(zhǎng),無(wú)法在期望的成本內(nèi)保存所有信息。由于大數(shù)據(jù)應(yīng)用的爆發(fā)性增長(zhǎng),提高存儲(chǔ)密度已刻不容緩。DNA作為一種極具吸引力的潛在數(shù)據(jù)存儲(chǔ)介質(zhì),具有廣闊的應(yīng)用前景和商業(yè)價(jià)值,是生物芯片的核心元素。
簡(jiǎn)單說(shuō),生物芯片就是在一塊玻璃片、硅片、尼龍膜等材料上放上生物樣品,然后由一種儀器收集信號(hào),用計(jì)算機(jī)分析數(shù)據(jù)結(jié)果。所以它就是一個(gè)載體平臺(tái),材料則有很多種,例如硅,玻璃,膜(纖維素膜)等,還有一些三維結(jié)構(gòu)的多聚體,平臺(tái)上則密密麻麻地?cái)[滿了各種生物材料。芯片只是一個(gè)載體,做什么東西或者檢測(cè)什么,還是要靠生物學(xué)家來(lái)完成。也就是說(shuō),原來(lái)要在很大的實(shí)驗(yàn)室中需要很多個(gè)試管的反應(yīng),現(xiàn)在被移至一張芯片上同時(shí)發(fā)生了。
人們可能很容易把生物芯片與電子芯片聯(lián)系起來(lái),兩者確有一個(gè)最基本的共同點(diǎn),那就是在微小尺寸上具有海量的數(shù)據(jù)信息。但它們是完全不同的兩種東西,電子芯片上布列的是一個(gè)個(gè)半導(dǎo)體電子單元,而生物芯片上布列的是一個(gè)個(gè)生物探針?lè)肿印I镄酒址Q蛋白芯片或基因芯片,是DNA雜交探針技術(shù)與半導(dǎo)體工業(yè)技術(shù)相結(jié)合的結(jié)晶。將大量探針?lè)肿庸潭ㄓ谥С治锷虾笈c帶熒光標(biāo)記的DNA或其他樣品分子(例如蛋白、因子或小分子)進(jìn)行雜交,通過(guò)檢測(cè)每個(gè)探針?lè)肿拥碾s交信號(hào)強(qiáng)度進(jìn)而獲取樣品分子的數(shù)量和序列信息。
生物芯片在生命科學(xué)研究及實(shí)踐、醫(yī)學(xué)科研及臨床、藥物設(shè)計(jì)、環(huán)境保護(hù)、農(nóng)業(yè)、軍事等各個(gè)領(lǐng)域用途廣泛,將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。生物芯片以及相關(guān)產(chǎn)品產(chǎn)值有可能超過(guò)微電子芯片,成為下一世紀(jì)最大的高新技術(shù)產(chǎn)業(yè),將給人類的生活帶來(lái)一場(chǎng)深刻的革命,對(duì)于全世界的可持續(xù)發(fā)展都會(huì)作出不可估量的貢獻(xiàn)。
帶來(lái)更高的存儲(chǔ)密度
要在DNA之中保存數(shù)據(jù),必須把0和1數(shù)據(jù)轉(zhuǎn)換為4種核苷酸,即堿基組成的序列。哈佛大學(xué)分子生物學(xué)家喬治·切奇2012年向DNA中寫(xiě)入了一本5萬(wàn)個(gè)單詞、數(shù)據(jù)量不到1MB的書(shū),隨后將其印刷在比花粉粒還小的玻璃芯片上。他在2016年報(bào)告說(shuō),已實(shí)現(xiàn)了22MB數(shù)據(jù)的DNA編碼。
同樣在研究利用DNA存儲(chǔ)數(shù)據(jù)的加州大學(xué)伯克利分校博士后研究員雷因哈德·赫科爾認(rèn)為,微軟的成功令人關(guān)注,但是制作訂制的DNA分子成本高昂,成為阻礙DNA存儲(chǔ)技術(shù)大規(guī)模使用的主要障礙。如果希望人們接受這一技術(shù),那么需要使這項(xiàng)技術(shù)的成本低于磁帶。
施特勞斯對(duì)讀寫(xiě)DNA的成本未來(lái)幾年將會(huì)大幅下降充滿信心,因?yàn)橛凶C據(jù)表明這一成本的下降比過(guò)去50年中晶體管制造成本降低的降速更快,而晶體管成本的下降是計(jì)算技術(shù)創(chuàng)新的動(dòng)力。2007年,對(duì)人類基因組的測(cè)序耗資約1000萬(wàn)美元,但到2015年這一成本已下降至1000美元。作為一種優(yōu)良的存儲(chǔ)介質(zhì),DNA相對(duì)于傳統(tǒng)存儲(chǔ)技術(shù)能帶來(lái)更高的存儲(chǔ)密度。
磁帶是目前用于長(zhǎng)期存儲(chǔ)的標(biāo)準(zhǔn)介質(zhì),隨著生物技術(shù)的進(jìn)步和DNA讀寫(xiě)工具的成本下降,DNA最終有望把磁帶取而代之。DNA的耐久性極好,在干燥寒冷的情況下表現(xiàn)尤為突出。今年3月,有研究人員部分重建了古人類基因,這些古人類的骨骼保存在西班牙一處洞穴里已有超過(guò)40萬(wàn)年歷史。作為對(duì)比,磁帶保存數(shù)據(jù)只有幾十年時(shí)間,隨后就會(huì)老化。
編輯:成韻 chengyunpipi@126.comendprint