IBM工程師及InfoSphere Streams高級開發(fā)經(jīng)理James R·Giles博士認為未來信息技術(shù)發(fā)展趨勢為移動、社交、物聯(lián)網(wǎng)。大數(shù)據(jù)是新一代自然資源,與傳統(tǒng)自然資源不一樣的是大數(shù)據(jù)是不斷增長的新型資源,需要新的技術(shù)和工具,能夠?qū)λM行挖掘和分析。
利用大數(shù)據(jù)平臺,利用數(shù)據(jù)和分析去分析各種數(shù)據(jù),如靜態(tài)的數(shù)據(jù)、流動的數(shù)據(jù),各種各樣不同種類的數(shù)據(jù)。人們對它進行實時分析和信息攝取及運作,通過傳統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)集進行分析,同時進行存放,并進行更加智能的分析和商業(yè)分析,人們可以利用完整的信息集成和管理完成監(jiān)管的安全和業(yè)務的連續(xù)性。
Constant Contact公司就是每年通過分析350億的電子郵件指導客戶,利用大數(shù)據(jù)提高了將近40倍的分析性能,同時也使分析時間從以前的幾個小時降低為幾秒,提高了15%~25%市場營銷活動的效率。
通過大數(shù)據(jù)平臺帶來運營分析的提高,能夠極大縮短處理能力,從12小時降到10秒這是非??捎^的提高數(shù)據(jù)處理的能力,使運營商能夠提供更多的、更新業(yè)務的價值,比如針對客戶進行實時推新活動以及基于位置的更加精準的營銷和服務。
在大數(shù)據(jù)的很多應用場景當中,還需要通過可視化的方式把大數(shù)據(jù)軟件,包括BigInsights、InfoSphere Streams等很多不同的數(shù)據(jù)源能夠結(jié)合在一起,做出很好的展示。
在全球大數(shù)據(jù)的應用案例當中,James歸納總結(jié)出有五大類是共性的,包括大數(shù)據(jù)的探索、360度的客戶視圖擴展、安全性和智能擴展、運營分析以及數(shù)據(jù)倉庫的擴充。
數(shù)據(jù)的集成人們都很清楚,而談到治理,治理在英文上是Governance,這個詞在英文中和政府的單詞類似,它會涉及到相應的法律法規(guī)。大數(shù)據(jù)的治理,與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的治理項目相比較,大數(shù)據(jù)治理相對來說更難,帶來已有數(shù)據(jù)和將來對它的使用方式,同時也有基于傳統(tǒng)的編程模式,大數(shù)據(jù)下有NoSQL方式,它是沒有辦法利用傳統(tǒng)的數(shù)據(jù)治理的方式來進行操作的。同時在大數(shù)據(jù)的模式下,會有一些新的數(shù)據(jù)結(jié)構(gòu),比如聚合型的數(shù)據(jù)結(jié)構(gòu),不是傳統(tǒng)的矩陣型,中間有很多關聯(lián),還有一些新的技術(shù),像JSON和Avro這樣的技術(shù),最后大數(shù)據(jù)的治理不同于原有的結(jié)構(gòu)化數(shù)據(jù),這些因素都體現(xiàn)出來大數(shù)據(jù)的治理更加具有挑戰(zhàn)性。
相對來說大數(shù)據(jù)治理比傳統(tǒng)數(shù)據(jù)相比來講更困難,可能用一句簡單的話講,大數(shù)據(jù)治理就是會變成把所有的雞蛋都放在一個籃子里。把大數(shù)據(jù)放在一起,不只是說為了大數(shù)據(jù),而是要做一些分析處理,對企業(yè)的商務決策,各種方面起到指導的作用。如果這些大數(shù)據(jù)的數(shù)據(jù)質(zhì)量不高,或是錯誤的數(shù)據(jù)比較多,就會出現(xiàn)一個最大的風險——基于大數(shù)據(jù)得出這些分析的結(jié)果不是正確的。數(shù)據(jù)的準確性將影響企業(yè)的決策。
大數(shù)據(jù)的治理不只是說當企業(yè)有了數(shù)據(jù)之后開始治理,而是要從數(shù)據(jù)開始生成的時候就開始考慮要以大數(shù)據(jù)的方式來進行治理。當企業(yè)的數(shù)據(jù)質(zhì)量作為很重要因素的時候,就要對數(shù)據(jù)進行清洗,最后要做分析得出對應商務領域的決策對比時候,這些數(shù)據(jù)的質(zhì)量和數(shù)據(jù)整個生命周期的管理就成為一個很重要的因素。不只是簡單說是大數(shù)據(jù)治理,而是對整個生命周期的大數(shù)據(jù)進行治理。在進行大數(shù)據(jù)治理時,有以下幾個方面是需要注意的。
數(shù)據(jù)轉(zhuǎn)換?,F(xiàn)在企業(yè)經(jīng)歷多年的沉淀,企業(yè)里有很多數(shù)據(jù),很多企業(yè)都在思考如何把現(xiàn)有的數(shù)據(jù)轉(zhuǎn)成大數(shù)據(jù)可以使用的數(shù)據(jù)集和相應的在集成的需求情況下數(shù)據(jù)之間相互轉(zhuǎn)換?在產(chǎn)品方面有一系列的工具可以幫助企業(yè),通過使用工具,可以在現(xiàn)有企業(yè)的關系型數(shù)據(jù)和大數(shù)據(jù)需要的數(shù)據(jù)模型下進行自由的轉(zhuǎn)換。
數(shù)據(jù)屏蔽。人們討論在Hadoop一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)屏蔽,這里提到數(shù)據(jù)屏蔽,其實也是數(shù)據(jù)漂白的方式。當把所有的數(shù)據(jù)放在一起,數(shù)據(jù)中很多部分跟企業(yè)和個人相關的數(shù)據(jù)是具有敏感性的,在不同的人手里這些敏感的數(shù)據(jù)用做不同的用途,有一些是有害的,如何防止這些數(shù)據(jù)在流入流出的過程中避免敏感數(shù)據(jù)泄露,這在數(shù)據(jù)治理的過程中是非常必要的。目前有一系列的工具或方法可以幫助企業(yè)把數(shù)據(jù)從現(xiàn)有的企業(yè)環(huán)境移植到大數(shù)據(jù)環(huán)境當中,而對相應敏感的數(shù)據(jù)可以提供漂白的解決方案。從大數(shù)據(jù)環(huán)境中流入到其他的環(huán)節(jié),或者企業(yè)現(xiàn)有的應用環(huán)境或者新的應用環(huán)境中,這種數(shù)據(jù)可以進行漂白,做到保護企業(yè)和個人的隱私數(shù)據(jù)不被泄露。
數(shù)據(jù)的加密。特別是在大數(shù)據(jù)環(huán)境下,會出現(xiàn)很多節(jié)點,這些節(jié)點在物理上很多是分布在一起,或者根本在不同的領域、地域,處于不同的機房和不同的階段,如何保證這里面的數(shù)據(jù)不被一些其他非法利用?數(shù)據(jù)的加密,可以提供中間的透明方式,保護只有特定的用戶使用特定的應用程序和特定的方法來訪問到真實的數(shù)據(jù)。
大數(shù)據(jù)Hadoop的保護。在大數(shù)據(jù)保護之前,很多方案提供商已經(jīng)對現(xiàn)有市場上流行的所有數(shù)據(jù)源都提供了保護方案?;谶@種保護方案基礎之上,企業(yè)可以在大數(shù)據(jù)環(huán)境下提供數(shù)據(jù)保護方案。