VERITAS
數(shù)據(jù)基因項目是Veritas 自主發(fā)起的一項計劃,旨在改變?nèi)藗儗?shù)據(jù)管理的看法。Veritas發(fā)起該計劃,希望為志同道合的數(shù)據(jù)科學家、行業(yè)專家和思想領(lǐng)導(dǎo)者創(chuàng)建一個共同的討論平臺,從而深入了解企業(yè)日常創(chuàng)建、存儲和管理的非結(jié)構(gòu)化數(shù)據(jù)的真正本質(zhì)。作為基于實際存儲環(huán)境組成的基準測評報告,首份《數(shù)據(jù)基因指數(shù)》報告便是此項計劃的首個研究成果。
當前,Veritas研究的重點對象是元數(shù)據(jù)的特征。通過Veritas的文件分析產(chǎn)品,我們可以利用從各個客戶匯集的元數(shù)據(jù),準確呈現(xiàn)企業(yè)實際數(shù)據(jù)環(huán)境結(jié)構(gòu)的各個細節(jié)。
首份 Veritas 數(shù)據(jù)基因指數(shù)報告
為了進一步了解客戶數(shù)據(jù)環(huán)境的真正結(jié)構(gòu),Veritas在2015年分析了來自眾多客戶非結(jié)構(gòu)化數(shù)據(jù)環(huán)境的數(shù)百億份文件及其屬性。本次分析涵蓋了8千多種最常見的文件類型擴展名。因此,報告中的數(shù)據(jù)基本能夠代表客戶文件系統(tǒng)環(huán)境的數(shù)據(jù)構(gòu)成。
數(shù)據(jù)呈爆炸式增長
從文件級別來看,在過去7年中,數(shù)據(jù)的實際增長速度為每年平均增長39.2481189%, 而相應(yīng)的存儲空間需求增長比創(chuàng)建單個文件增長快9%。因此,盡管操作層面上的改變可以一定程度地控制某些方面的增長,但根本依然是存儲管理問題。
控制存儲空間并不僅僅是存儲問題?,F(xiàn)在,存儲環(huán)境雜亂無章,平均1PB的信息包含了 23.12億個文件。
增速最快文件類型:圖像和開發(fā)者文件
企業(yè)數(shù)據(jù)總量表明,數(shù)量最多的文件類型和最占空間的文件類型具有明顯差異。具體情況可參見圖—存儲環(huán)境與環(huán)境成本對照表。
10年前 VS 現(xiàn)今:企業(yè)數(shù)據(jù)的變化
隨著時間的推移,數(shù)據(jù)結(jié)構(gòu)已經(jīng)發(fā)生了巨大變化。過去十年間,相較其他文件類型, 變化最大的文件類型為:演示文稿文件、CAD文件、游戲文件等。
不同季節(jié),企業(yè)的數(shù)據(jù)增長情況也不同
秋季是文件創(chuàng)建的旺季。文本文件的增長率尤為突出,高達91%;其次是地理和信息系統(tǒng)文件,增長率為89%;電子表格的增長率為 48%。
只有備份和文檔文件會在秋、冬季激增。在企業(yè)完成年度備份后,備份文件將激增756%。但圖像文件的創(chuàng)建量明顯減少,降幅達63%。此外,68%的視頻都創(chuàng)建于夏、秋兩季,電子郵件(pst)的情況可預(yù)測性高,各季節(jié)間只有0.7%的標準偏差。
為何企業(yè)還在保留這些數(shù)據(jù)?
信息是當今企業(yè)的關(guān)鍵所在,但由于信息的創(chuàng)建速度過快,企業(yè)中有價值的信息轉(zhuǎn)瞬即逝。
治理:數(shù)量過多的文件類型
面對海量的陳舊數(shù)據(jù),以及在可以執(zhí)行多個可行處理決策時,為信息管理“決策預(yù)算” 的重點劃分優(yōu)先級,無疑能夠幫助企業(yè)選擇文件管理的入手點。
陳舊數(shù)據(jù)和總數(shù)據(jù)中數(shù)量最多的文件類型中,傳統(tǒng)“office”文件是企業(yè)巨大的負擔。如果企業(yè)希望最大限度地節(jié)約存儲空間成本,但又無法確定優(yōu)先處理哪些文件類型。那么企業(yè)可以重點對以下五大類型文件進行處理,每一類型都能夠幫助企業(yè)找回GB級的存儲空間。
1. 虛擬機文件
2. 安全文件
3. 游戲文件
4. 科技文件
5. 地理位置信息系統(tǒng)文件
文件數(shù)量和空間比例失衡
如果企業(yè)希望優(yōu)先處理特定文件類型,只需觀察哪些文件類型的數(shù)量和空間不成比例。例如,視頻文件在陳舊數(shù)據(jù)存儲空間總量中的比例,比其在陳舊文件總量中的比例高15.8 倍。虛擬機文件所占空間為7.3倍,演示文件是6.4倍,電子郵件為2.2倍,這些類型的文件都是企業(yè)優(yōu)先處理的最佳選擇。
當員工離職后,留下了數(shù)據(jù)殘局
當數(shù)據(jù)失去其所有者,即會成為孤立數(shù)據(jù)。由于職位變更、員工離職以及常用活動目錄混亂等原因,企業(yè)很難追蹤數(shù)據(jù)環(huán)境的傳承關(guān)系;此外,追蹤數(shù)據(jù)傳承需要巨大的資金支持。
孤立數(shù)據(jù)會占據(jù)企業(yè)的高額成本,一方面是因為其占據(jù)了過量的存儲空間。即便孤立數(shù)據(jù)僅占文件總量的1.6%,但它占據(jù)的存儲空間卻達到了5.1%。不僅如此,大多數(shù)孤立數(shù)據(jù)是內(nèi)容豐富的數(shù)據(jù)類型,這類數(shù)據(jù)所占據(jù)的空間都遠超正常比例。如圖像文件超出正常存儲空間的88%,而視頻和演示文稿,分別超出165%和229%。
報告調(diào)查發(fā)現(xiàn),企業(yè)人員流動趨勢對存儲環(huán)境具有一定的影響。孤立文件的大小,是平均文件的222%。數(shù)據(jù)管理人員可能認為,文件越大,其內(nèi)容越重要。因此在員工離職后,傾向于繼續(xù)保留這類密集文件。如果企業(yè)希望恢復(fù)更多存儲空間,從孤立數(shù)據(jù)下手無疑是首選。
通過存儲密度判斷文件是否有用
如今,企業(yè)創(chuàng)建大密度的內(nèi)容并不奇怪,但令人吃驚的是,過去7年來,這類內(nèi)容的漲幅只達到了10.3%,增長相對緩慢。文件的平均大小為:過去10年或更長時間內(nèi),使用過的文件的平均大?。?.24MB是過去5年內(nèi)使用過文件的平均大小:0.40MB是過去1年內(nèi)修改過文件的平均大?。?.53MB是被分類為陳舊文件,要比去年1年內(nèi)修改的文件小33%。
現(xiàn)在,企業(yè)該如何應(yīng)對?
如果企業(yè)用戶的存儲環(huán)境與我們分析的環(huán)境類似,那么企業(yè)用戶將有很多機會來改變自身的存儲現(xiàn)狀。
以10PB為普通環(huán)境舉例,如果企業(yè)數(shù)據(jù)環(huán)境中41%的數(shù)據(jù)為陳舊數(shù)據(jù),那么每年,企業(yè)需要投入2050萬美元,來管理3年來無人問津的數(shù)據(jù)。然而,清除陳舊數(shù)據(jù)非常困難。企業(yè)整理4.1 PB的數(shù)據(jù),便需要對94.79億個個體文件進行分類、刪除或歸檔。
企業(yè)用戶不得不劃分優(yōu)先級
演示文稿、電子表格、文檔和文本文件等內(nèi)容豐富的文件占陳舊數(shù)據(jù)的20%,開展一項專門處理這些文件的歸檔項目,能夠降低企業(yè)至少50%,相當于200多萬美元的存儲成本。
刪除陳舊數(shù)據(jù)中音頻和視頻文件,能夠幫助企業(yè)降低11%的成本。
此外,圖像文件占據(jù)企業(yè)陳舊數(shù)據(jù)18%的存儲空間,它們甚至在長達7年或更久的時間里從未受到修改。
集中處理擁有少量單個文件的空間,對其進行標記以換取更多的存儲空間,例如視頻、 虛擬機文件和電子郵件等。這不但能夠回收大量的存儲空間,同時運行速度可迅速提升15倍。當員工離職或職位調(diào)整時,對其遺留的數(shù)據(jù)進行評估,可幫助企業(yè)節(jié)省5%,大約近百萬元的成本。