楊 洋
今天,重復數(shù)據(jù)刪除(Data Deduplication)已經(jīng)成了存儲業(yè)界最流行的一項技術(shù)。幾乎所有主流存儲廠商都已經(jīng)推出了重復數(shù)據(jù)刪除產(chǎn)品。與此同時,高速硬件數(shù)據(jù)壓縮(Hardware Data Compression)技術(shù)也受到了用戶的青睞,它不僅成了高端虛擬磁帶庫的必備功能,而且在歸檔、備份、持續(xù)數(shù)據(jù)保護等次級存儲(Secondary Storage)應(yīng)用中獲得了廣泛認可。
重復數(shù)據(jù)刪除成主流
重復數(shù)據(jù)刪除與數(shù)據(jù)壓縮技術(shù)在系統(tǒng)功能上相似,都能顯著減少存儲的容量,提高系統(tǒng)的運行效率。因此,重復數(shù)據(jù)刪除和數(shù)據(jù)壓縮這兩種技術(shù)又被統(tǒng)稱為數(shù)據(jù)縮減(Data Reduction)或容量優(yōu)化(Capacity Optimization)技術(shù)。通常情況下,利用數(shù)據(jù)壓縮技術(shù)可以實現(xiàn)2∶1~3∶1的數(shù)據(jù)壓縮比,而利用重復數(shù)據(jù)刪除技術(shù)在備份應(yīng)用中可以實現(xiàn)10∶1~20∶1的數(shù)據(jù)壓縮比。綜合應(yīng)用數(shù)據(jù)壓縮與重復數(shù)據(jù)刪除兩種技術(shù)后,數(shù)據(jù)量一般可減少到原來的3%左右。IDC的報告顯示,2007年全球新增的數(shù)據(jù)量(281EB)已經(jīng)超過現(xiàn)有可用存儲介質(zhì)總?cè)萘?264 EB)的6%,而2011年的全球數(shù)據(jù)總量將達到2006年的10倍。由于存儲系統(tǒng)中的數(shù)據(jù)量急速增長,容量優(yōu)化技術(shù)得到了更廣泛的應(yīng)用。
容量優(yōu)化技術(shù)在次級存儲中的應(yīng)用逐漸成熟,也促進人們考慮將此技術(shù)推廣到主存儲(Primary Storage)中,以應(yīng)對主存儲所面臨的諸多問題,比如大容量的存儲需求以及過多的空間和能源消耗等。主存儲優(yōu)化(Primary Storage Optimization)應(yīng)運而生,它以成熟的數(shù)據(jù)縮減技術(shù)為基礎(chǔ)。
主存儲優(yōu)化曾經(jīng)淡出
今天,500GB硬盤的價格不超過400元,利用數(shù)據(jù)壓縮技術(shù)使PC硬盤容量“加倍”的技術(shù)對某些用戶來說可能吸引力不大。但在上世紀90年代初,主存儲容量異常寶貴。1993年,250MB的硬盤大約需要500美元。因此,Stac獨有的壓縮技術(shù)在主存儲上獲得了廣泛應(yīng)用,而Stacker軟件的推出也使得Stac公司成為主存儲優(yōu)化技術(shù)的先驅(qū)。
在早期的主存儲優(yōu)化應(yīng)用中,使用的容量優(yōu)化技術(shù)主要是數(shù)據(jù)壓縮,關(guān)鍵算法采用的是壓縮效率和速度都非常好的LZS算法。數(shù)據(jù)壓縮主要是以軟件方式集成到硬件系統(tǒng)中,利用主CPU完成所有相關(guān)的處理工作。隨著計算機應(yīng)用的普及,各種應(yīng)用程序?qū)π阅艿囊笤絹碓礁?系統(tǒng)處理能力逐漸成為瓶頸?;谲浖臄?shù)據(jù)壓縮技術(shù)需要消耗大量的CPU資源,因此逐漸邊緣化。與此同時,硬盤技術(shù)取得了長足的進步。在硬盤容量不斷增長的同時,其價格也迅速下降。因此,硬盤/主存儲優(yōu)化應(yīng)用逐漸淡出人們的視線。
就在容量優(yōu)化技術(shù)在次級存儲優(yōu)化(Secondary Storage Optimization)應(yīng)用中大放異彩的時候,人們也意識到,容量優(yōu)化同樣可以給主存儲帶來很多好處。
隨著應(yīng)用不斷豐富,企業(yè)用戶對主存儲的容量需求越來越大。另一方面,由于操作復雜以及應(yīng)用對時延有較高要求,主存儲內(nèi)有大量相對比較陳舊的數(shù)據(jù)并沒有遷移到次級存儲中。調(diào)查顯示,這些陳舊數(shù)據(jù)占主存儲容量的80%~90%。目前,數(shù)據(jù)中心主存儲容量的利用率一直維持在很高的水平,面對不斷增長的數(shù)據(jù)存儲壓力,與購買昂貴的新存儲設(shè)備相比,通過主存儲優(yōu)化技術(shù)充分挖掘現(xiàn)有存儲資源的潛力顯得尤為重要。
此外,存儲介質(zhì)之外的支出也成為用戶關(guān)注的重點。對很多數(shù)據(jù)中心而言,減少空間占用、電力消耗以及散熱可能比存儲容量的縮減更難實現(xiàn)。其實,主存儲優(yōu)化也是實現(xiàn)綠色存儲的一個好方法。在前面的分析中,我們并沒有談及實際的存儲容量。在實際的存儲系統(tǒng)中,將50TB縮減為10TB比將5TB縮減為1TB更有意義。隨著業(yè)務(wù)的發(fā)展,企業(yè)數(shù)據(jù)中心需要存儲和管理的數(shù)據(jù)量將迅速從TB級增長到PB級,通過購買新設(shè)備來增加存儲空間,除了會增加企業(yè)的開支以外,還會給備份、歸檔等日常應(yīng)用帶來極大挑戰(zhàn)。如果能有效減少主存儲的數(shù)據(jù)量,系統(tǒng)I/O單元的利用率將得到明顯改善,從而提高系統(tǒng)性能,即使需要遠程數(shù)據(jù)傳輸時,也能節(jié)約不少網(wǎng)絡(luò)帶寬。
解決性能問題
盡管主存儲優(yōu)化有非常廣闊的發(fā)展前景,但真正投入實際應(yīng)用,還需要解決一系列的問題。與已經(jīng)獲得廣泛應(yīng)用的次級存儲優(yōu)化相比,主存儲優(yōu)化對系統(tǒng)的性能、可用性、可靠性等提出了更高的要求。
與備份、歸檔等次級存儲應(yīng)用不同,主存儲對性能的要求比對容量的要求更高。因此,主存儲優(yōu)化的應(yīng)用不能以降低系統(tǒng)性能為代價。目前,主存儲的性能需求一般都在100 MB/s以上,而基于軟件的數(shù)據(jù)縮減技術(shù)僅能達到數(shù)十MB/s。因此,主存儲優(yōu)化的實現(xiàn)需要依靠相關(guān)的硬件加速設(shè)備。從目前情況看,硬件數(shù)據(jù)壓縮產(chǎn)品已經(jīng)比較成熟,性能最高已達到800MB/s,可以滿足大多數(shù)主存儲系統(tǒng)的需求。相比較而言,重復數(shù)據(jù)刪除的硬件加速技術(shù)則相對薄弱。
次級存儲優(yōu)化針對的都是近線(Near-line)或離線(Off-line)應(yīng)用,對系統(tǒng)可用性的要求比主存儲低得多,即使是對可用性要求較高的災(zāi)備(Disaster Recovery)系統(tǒng)對可用性的要求也低于主存儲。主存儲的數(shù)據(jù)需要隨時在線,而且要立即響應(yīng)數(shù)據(jù)訪問,以滿足應(yīng)用的需求。目前,硬件壓縮技術(shù)已經(jīng)廣泛用于網(wǎng)絡(luò)設(shè)備(如路由器、交換機等)。長期的實踐經(jīng)驗證明,成熟的硬件壓縮技術(shù)在可用性方面完全可以滿足主存儲優(yōu)化的需求。最近幾年,基于軟件的重復數(shù)據(jù)刪除技術(shù)在次級存儲中的應(yīng)用逐漸成熟,但要應(yīng)用于主存儲優(yōu)化,相關(guān)硬件加速設(shè)備還有待進一步檢驗。
主存儲優(yōu)化中涉及的數(shù)據(jù)縮減技術(shù)和有關(guān)硬件加速產(chǎn)品已經(jīng)有大量的實際應(yīng)用,技術(shù)和產(chǎn)品本身沒有問題,但是高可靠性和高可用性的實現(xiàn)還要依賴良好的系統(tǒng)設(shè)計。主存儲優(yōu)化產(chǎn)品要想真正走向市場并被用戶廣泛接受,還需要存儲廠商加大投入。
此外,與面向備份、歸檔等應(yīng)用的次級存儲相比,主存儲的數(shù)據(jù)重復幾率要小得多,而且許多數(shù)據(jù)都已經(jīng)在應(yīng)用層面實現(xiàn)了壓縮。因此,主存儲優(yōu)化的效率很難達到一般次級存儲優(yōu)化應(yīng)用所宣稱的20∶1~30∶1的壓縮率。一般情況下,主存儲設(shè)備的數(shù)據(jù)壓縮率為3∶1~5∶1。
目前,已有包括NetApp在內(nèi)的許多廠商發(fā)布了主存儲優(yōu)化產(chǎn)品,EMC、Riverbed等廠商也在密切關(guān)注主存儲優(yōu)化技術(shù)。業(yè)內(nèi)專家指出,主存儲優(yōu)化技術(shù)將在2009年實現(xiàn)快速發(fā)展。在關(guān)注主存儲優(yōu)化的廠商中,Hifn公司將目光集中在硬件加速單元而不是整個設(shè)備上,其Express DR系列數(shù)據(jù)縮減加速卡在次級存儲優(yōu)化中已被EMC、HP、IBM等主要存儲廠商采用。
從原始主存儲優(yōu)化技術(shù)的盛行到消失,再到今天存儲系統(tǒng)中再次引入主存儲優(yōu)化技術(shù),主存儲優(yōu)化將開始新一個輪回。