存儲大量數(shù)據(jù)對企業(yè)來說一直是個挑戰(zhàn),相比之下,如何以易于訪問和有效的方式管理數(shù)據(jù)更是嚴峻的挑戰(zhàn),“數(shù)據(jù)湖”就是一個有效的解決方案。
數(shù)據(jù)湖和大數(shù)據(jù)技術(shù),如Hadoop、HDFS、Hive和HBase,這些在當(dāng)下是非常流行的解決方案,特別是對于那些需要用更好的方式來存儲和處理大量數(shù)據(jù)和分析的組織來說。由于它們能夠以各種形式從各種應(yīng)用程序提供原始數(shù)據(jù),所以通常比企業(yè)數(shù)據(jù)倉庫的成本更低。采用這些技術(shù)的目的是,組織可以輕松地搜索他們需要的信息,無論來源或格式,幫助他們在日常的業(yè)務(wù)運作中更有效地分析利用。
除了以上優(yōu)勢,數(shù)據(jù)湖還為企業(yè)提供了一個能力——將數(shù)據(jù)貨幣化。由于太多企業(yè)在沒有考慮長期目標的情況下構(gòu)建數(shù)據(jù)湖,使得他們?nèi)鄙賹?shù)據(jù)湖轉(zhuǎn)化為可擴展的、彈性的數(shù)據(jù)貨幣化平臺的能力,導(dǎo)致他們在數(shù)據(jù)湖中錯失了機遇。
因此,下面有五個常見的企業(yè)實施錯誤,可以幫助企業(yè)更好地部署數(shù)據(jù)湖。
太多Hadoop。當(dāng)Hadoop發(fā)行版或群集在企業(yè)中大量應(yīng)用時,這時存儲的也許只是大量重復(fù)數(shù)據(jù)。許多企業(yè)一點一點地按部門部署Hadoop,造成數(shù)據(jù)孤島,阻礙大數(shù)據(jù)分析,使得員工無法利用所有數(shù)據(jù)進行全面分析。這實質(zhì)上只是重復(fù)了數(shù)據(jù)倉庫、集市的問題。
太多的管理。一些組織對于數(shù)據(jù)湖的管理設(shè)定了太多限制,例如數(shù)據(jù)湖的查看、訪問和處理權(quán)限,沒有權(quán)限的人不能夠訪問數(shù)據(jù)庫,導(dǎo)致數(shù)據(jù)無用。
缺乏有效的管理。太多的管理會適得其反,但缺乏有效的管理也不行。如果數(shù)據(jù)湖沒有被有效管理起來,那么數(shù)據(jù)湖會迅速被大量低質(zhì)量的數(shù)據(jù)所淹沒,導(dǎo)致數(shù)據(jù)被“污染”或“篡改”,最終使得業(yè)務(wù)不再信任這些數(shù)據(jù),使整個數(shù)據(jù)湖再次變得無用。
非彈性架構(gòu)。組織錯誤最常見的是用非彈性架構(gòu)來構(gòu)建他們的數(shù)據(jù)湖。由于數(shù)據(jù)存儲成本很高,組織往往一次一個服務(wù)器緩慢而有機地擴展其大數(shù)據(jù)環(huán)境,通常從基礎(chǔ)服務(wù)器開始,最終添加高性能服務(wù)器以跟上業(yè)務(wù)需求。隨著時間的推移,數(shù)據(jù)存儲的增長超出了計算需求的增長,維持如此龐大的物理環(huán)境不僅繁瑣,成本也是問題。
“寵物計劃”。IT團隊經(jīng)常把數(shù)據(jù)湖的實施視為“寵物計劃”,認為如果建立數(shù)據(jù)湖,就會推動業(yè)務(wù)團隊去使用它。 IT團隊希望構(gòu)建數(shù)據(jù)湖,并對IT數(shù)據(jù)執(zhí)行分析,以證明他們可以代表業(yè)務(wù)執(zhí)行分析。但是從業(yè)務(wù)的角度看,IT使用案例是一個出乎意料的低價值工作,沒有為業(yè)務(wù)利益相關(guān)者建立可信度。
創(chuàng)建協(xié)同價值創(chuàng)造平臺
利用數(shù)據(jù)湖進行數(shù)據(jù)貨幣化的障礙遠大于實施數(shù)據(jù)湖的挑戰(zhàn)。但企業(yè)如果不了解各種機遇,企業(yè)就很難看到更大的局面,并為其數(shù)據(jù)湖投入足夠的資源。
對于抓住機遇,成功克服這些障礙的組織,“數(shù)據(jù)湖未來”即將到來。 這個未來是專為那些完全接受數(shù)據(jù)和分析的特性的人所保留的,并且理解數(shù)字資產(chǎn)的力量是永不枯竭的,并且可以以接近于零的邊際成本在無數(shù)用例上使用。 他們將數(shù)據(jù)湖看作是“協(xié)同價值創(chuàng)造平臺”,不僅將推動新的效率水平,而且將推動新的數(shù)據(jù)貨幣化機會。
與任何新興技術(shù)一樣,完全進入數(shù)據(jù)湖還需要時間。endprint