人們認識到云將接收并處理前所未有的巨大數(shù)據(jù)量,分布式并行計算框架Hadoop也被越來越多的企業(yè)所應用。
孫定 sun_ding@ccw.com.cn
美國奧巴馬總統(tǒng)委員會的科學技術顧問Stephen Brobst說:“過去3年里產生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)量還要多,大數(shù)據(jù)時代的來臨已經毋庸置疑。我們即將面臨一場變革,常規(guī)技術已經難以應對PB級的大規(guī)模數(shù)據(jù)量?!盢eol and Associates公司的著名分析師Mike Karp也指出,目前越來越多的企業(yè)采用Hadoop來存儲和分析大
數(shù)據(jù)。
美國《經濟學人》2010年曾經報道,沃爾瑪?shù)臄?shù)據(jù)量是美國國會圖書館的167倍;eBay的分析平臺每天處理的數(shù)據(jù)量高達100PB,超過納斯達克交易所每天的數(shù)據(jù)處理量。根據(jù)IDC數(shù)據(jù),到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎上增加44倍,達到35萬億GB;截止到2010年,電子數(shù)據(jù)存儲量已經達到了120萬 PB,或1.2ZB。非結構化信息如文件、電子郵件和視頻,將占未來10年新生數(shù)據(jù)的90%。Gartner也指出,傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)增長如此迅猛的當下遠不能勝任。
Hadoop分布式并行計算框架,是Apache的開源項目,已有7年的歷史。Hadoop的核心是HDFS(分布式文件系統(tǒng))和MapReduce(映射與歸約)計算模型,MapReduce的思想來自于谷歌2004年發(fā)表的一篇論文。
HDFS分布式文件系統(tǒng)將一組數(shù)據(jù)分發(fā)給不同的機器并且提供冗余處理。比如,可以對每一個數(shù)據(jù)在3個不同的節(jié)點上進行復制,一旦一個數(shù)據(jù)所在節(jié)點出現(xiàn)問題,還有兩個其他節(jié)點的相同的數(shù)據(jù)可以使用。MapReduce計算模型中的Map將一個任務分解為多個任務,產生特征數(shù)據(jù),Reduce將多個執(zhí)行結果匯總得到最終結果。
2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準測試紀錄。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)排序 ,比上一年的紀錄保持者快了將90秒。2009年5月,進一步將時間縮短到62秒。2007年,百度開始部署Hadoop用做日志處理。2008年,淘寶部署基于Hadoop的云梯。云梯的總容量大概為9.3PB,1100臺機器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用戶。
在產業(yè)方面,IBM提供基于Hadoop的大數(shù)據(jù)分析軟件,推出了在Hadoop架構上建立作為群集運行DB2或Oracle數(shù)據(jù)庫的集群系統(tǒng),并提供Hadoop的部署與實施服務。EMC于2011年5月推出基于Hadoop數(shù)據(jù)中心設備——GreenPlum HD。2008年,微軟收購Powerset,并將Powerset基于Hadoop的技術應用于搜索引擎bing搜索引擎。
Ventana Research公司分析師David Menninger認為,企業(yè)將顯著提升對于開源軟件Hadoop框架的興趣,未來將有更多的供應商和更多的生產商加入Hadoop行列。
由此,我們就可以看出這樣一個脈絡:云計算必須支持大數(shù)據(jù),面向大數(shù)據(jù)處理的新一代技術Hadoop已經浮出水面并日趨流行。