沈建苗
冷存儲由Facebook于2014年開源,這種存儲服務(wù)器專為不常訪問的數(shù)據(jù)而設(shè)計。它針對低成本硬件、高容量和高存儲密度,以及低功耗進行了優(yōu)化。如今,亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云平臺,以及微軟Azure都可以為客戶提供云存儲服務(wù),同時這三家公司也在云端冷存儲領(lǐng)域?qū)崿F(xiàn)了“三足鼎立”的局面。
冷存儲由Facebook于2014年開源:這種存儲服務(wù)器專為不常訪問的數(shù)據(jù)而設(shè)計,比如舊的Facebook照片。它針對低成本硬件、高容量和高存儲密度,以及低功耗進行了優(yōu)化。為了放置這些冷存儲服務(wù)器,F(xiàn)acebook特意建立了獨立的、簡化的數(shù)據(jù)中心。
由于許多公司生成并需要保存的數(shù)據(jù)量急劇增長,各大云提供商推出了一種可以代替?zhèn)鹘y(tǒng)備份產(chǎn)品的云服務(wù)。作為云服務(wù)來提供的冷存儲正在改變企業(yè)組織存儲和提供大量信息的方式。但一大問題是,冷存儲用于備份是否更劃算。
亞馬遜網(wǎng)絡(luò)服務(wù)、谷歌云平臺,以及微軟Azure現(xiàn)在都提供云存儲服務(wù)。它們各自采用的方法各不相同,那么它們彼此相比又如何?
應(yīng)對數(shù)據(jù)洪水
幾乎所有調(diào)研公司都預(yù)測,云服務(wù)市場會繼續(xù)增長,而且快速增長。Gartner最近表示,云在今年的新IT支出中會占據(jù)大頭。今年對這個領(lǐng)域來說將是關(guān)鍵的一年,因為私有云開始讓位于混合云,近一半的大企業(yè)會在2017年底之前部署混合云。那么,企業(yè)在生成多少數(shù)據(jù)呢?思科估計,全球數(shù)據(jù)中心流量完全進入了澤字節(jié)(ZB)時代,將從2014年的3.4 ZB增加到2019年的10.4 ZB。數(shù)據(jù)中心流量中迅速增長的一部分就是云流量,到2019年將在預(yù)測的10.4 ZB中占有8.6 ZB。
由于谷歌和亞馬遜已經(jīng)在冷存儲市場中,所以微軟也決定加入游戲。去年4月,微軟宣布正式推出Cool Blob Storage,這是面向?qū)ο髷?shù)據(jù)的低成本存儲服務(wù)。
有什么用場?
微軟當時宣布Cool Blob存儲服務(wù)時,列出了幾種典型的使用場合,比如備份、媒體內(nèi)容、科學數(shù)據(jù)、合規(guī)和歸檔數(shù)據(jù)。實際上,任何很少訪問的數(shù)據(jù)都很適合使用冷存儲:法律數(shù)據(jù)、信息的第三個副本、因合規(guī)而需要保留較長時間的數(shù)據(jù)和歸檔信息,這些都是典型的例子。那么,冷存儲與較傳統(tǒng)的存儲方案有何不同呢?
不妨先從定義開始說起,冷存儲的定義是,這是存儲非活躍數(shù)據(jù)的一種操作模式和存儲系統(tǒng)。部署冷存儲后,預(yù)計數(shù)據(jù)檢索時間會超出在線或生產(chǎn)應(yīng)用通常被認為可接受的范圍。部署冷存儲是為了節(jié)省資金和運營成本。
實際上,不是所有的冷存儲架構(gòu)都是同樣設(shè)計的。牢記這一點,不妨看看三大提供商的冷存儲方案。
谷歌Nearline:谷歌在2015年發(fā)布了Nearline歸檔存儲產(chǎn)品,很快就被認為是市場上具有顛覆性的解決方案。為什么?因為它直接承諾:檢索時間非常短(只有幾秒鐘)。與市場領(lǐng)導者AWS Glacier相比,這相當快。谷歌聲稱,Nearline提供的可用性比公司的標準存儲產(chǎn)品低一點,延遲高一點,不過成本較低。Nearline“檢索首個字節(jié)的時間”在2秒到5秒。如果看一下其他解決方案,可以說谷歌Nearline真正改變了游戲規(guī)則。不過它有幾個問題。
一個問題是,谷歌Nearline將數(shù)據(jù)檢索速度限制在每個存儲的TB為4MBps。存儲使用量增加后,這種吞吐量可線性擴展。所以,如果你發(fā)覺需要下載大量數(shù)據(jù),可能需要等一陣子。不過,如果遇到這種情形:需要比默認的4MBps更快地從谷歌云存儲Nearline檢索內(nèi)容。一項名為On-Demand I/O的功能讓你可以提高吞吐量。有兩點需要牢記:
1. 默認情況下,On-Demand I/O已被關(guān)閉。
2. On-Demand I/O僅適用于Nearline存儲,對標準存儲或低可用持久存儲I/O(Durable Reduced Availability Storage I/O)沒有影響。
總的來說,谷歌承諾提供一種低成本、高度持久、高可用性的存儲服務(wù),用于數(shù)據(jù)歸檔、在線備份和災(zāi)難恢復。數(shù)據(jù)立即可用,不是等待幾小時或數(shù)天。由于3秒的平均響應(yīng)時間和每月每GB僅1美分的價格,Nearline為你提供了出色的性能和低成本。此外,它讓你可以存儲“無限量”數(shù)據(jù),并通過谷歌云平臺Storage API獲得快速訪問,數(shù)據(jù)檢索的響應(yīng)時間大約是3秒。
最后,很酷的地方是它所提供的功能。除了On-Demand I/O外,還能獲得傳輸服務(wù)。這基本上讓你可以從亞馬遜S3、HTTP/HTTPS網(wǎng)站和本地環(huán)境之類的地方導入數(shù)據(jù)。這個過程可自動化,實現(xiàn)全面的生命周期管理。
AWS Glacier:作為最早的領(lǐng)先冷存儲解決方案之一,Glacier是一種安全、成本極低的存儲服務(wù),用于數(shù)據(jù)歸檔和在線備份??蛻艨梢源鎯Υ罅炕蛏倭康臄?shù)據(jù)。據(jù)亞馬遜聲稱,起價低至每月每GB只要0.01美元,與本地解決方案相比大大節(jié)省了成本。為了保持低成本,Glacier針對不常訪問的數(shù)據(jù)進行了優(yōu)化,幾小時的檢索時間對這類數(shù)據(jù)而言是適合的。同樣是檢索和提供1TB的數(shù)據(jù),使用Glacier與使用Nearline的體驗會不一樣。Glacier在大約3到5小時內(nèi)提供該存儲對象。相比之下,下載4小時后,谷歌Nearline客戶下載1TB數(shù)據(jù)的任務(wù)才完成5%,大約需要69個小時才能全部完成。
在Glacier環(huán)境中,數(shù)據(jù)存儲在“歸檔”中。歸檔可以是任何數(shù)據(jù),比如照片、視頻或文檔??梢詫⒛硞€文件作為歸檔文件來上傳,也可以將多個文件聚合成一個TAR或ZIP文件,然后作為一個歸檔文件來上傳。
一個歸檔文件可能有40TB這么大。可以在亞馬遜Glacier中存儲無限數(shù)量的歸檔文件和數(shù)據(jù)。每個歸檔文件在創(chuàng)建時被分配一個獨特的歸檔ID,歸檔的內(nèi)容是不可變的,這意味著歸檔文件創(chuàng)建后就無法更新。
亞馬遜Glacier使用“保管庫”(Vault)作為存儲歸檔的容器??梢栽贏WS管理控制臺中查看保管庫列表,使用AWS SDK對保管庫執(zhí)行各種操作,比如創(chuàng)建保管庫、刪除保管庫、鎖住保管庫、列出保管庫元數(shù)據(jù)、檢索保管庫清單、標記保管庫以便過濾,以及配置保管庫通知。此外,還可以為每個保管庫設(shè)置訪問策略,允許或禁止用戶執(zhí)行特定活動。在一個AWS賬戶下,最多可以有1000個保管庫。
一旦你的數(shù)據(jù)進入保管庫,管理員就有機會使用一些細粒度的控制功能,包括清點庫存、訪問控制、訪問策略、保險庫鎖?。ū热缫淮螌懭攵啻巫x取控制)、審核記錄、集成的生命周期管理、高級和低級的AWS API集成、數(shù)據(jù)保護和數(shù)據(jù)可靠性。
微軟Cool Blob Storage:去年4月推出的Cold Blob存儲服務(wù)是微軟追趕領(lǐng)頭羊的舉措。
Azure冷存儲層經(jīng)過了優(yōu)化,用于存儲不常訪問、長期存儲的數(shù)據(jù)。Cool Blob Storage每月每GB的成本從0.01美元到0.048美元不等,這取決于地理區(qū)域和存儲的數(shù)據(jù)總量。“熱”Blob存儲層(用于存儲頻繁訪問的數(shù)據(jù))的同類價位是每GB 0.0223美元到0.061美元。在一些情況下,將部分數(shù)據(jù)存儲在冷存儲層可節(jié)省50%以上的成本。
微軟強調(diào),你可以基于對象數(shù)據(jù)的訪問模式,選擇熱訪問層或冷訪問層來存儲對象數(shù)據(jù)。要關(guān)注的一些功能:API集成(但僅與其他現(xiàn)有的Blob存儲服務(wù)集成)、安全、可擴展性、多地理區(qū)域分布和99%的可用性(熱存儲層提供99.9%)。
面對挑戰(zhàn)
Nearline、Cool Blob Storage和Glacier功能強大、價位合理,但端到端集成和管理仍是個挑戰(zhàn)。備份和存儲方面的管理功能至關(guān)重要。
比如說,AWS Glacier讓客戶可以設(shè)置策略,但只允許用戶每天檢索一定數(shù)量的數(shù)據(jù)。此外,用戶還可以設(shè)置策略,只在免費套餐的范圍內(nèi)檢索數(shù)據(jù)。相比谷歌Nearline,Glacier似乎缺少同樣的細粒度。至于微軟,只要你的數(shù)據(jù)一開始就存儲在微軟云中,Cool Blob Storage的表現(xiàn)就很棒。
這個領(lǐng)域沒有絕對的贏家。這取決于冷存儲特定的使用場合。你在構(gòu)建自己的冷存儲架構(gòu)時,要確?;谧罴鸭蓪嵺`來搭建環(huán)境。這意味著你要了解存儲何種類型的數(shù)據(jù)、保留策略、定價以及恢復期間需要多快獲得信息。