亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

云計算\\大數(shù)據(jù)與Hadoop

2011-12-31 00:00:00孫定

計算機世界 2011年37期

人們認識到云將接收并處理前所未有的巨大數(shù)據(jù)量，分布式并行計算框架Hadoop也被越來越多的企業(yè)所應用。

孫定 sun_ding@ccw.com.cn

美國奧巴馬總統(tǒng)委員會的科學技術顧問Stephen Brobst說：“過去3年里產生的數(shù)據(jù)量比以往4萬年的數(shù)據(jù)量還要多，大數(shù)據(jù)時代的來臨已經毋庸置疑。我們即將面臨一場變革，常規(guī)技術已經難以應對PB級的大規(guī)模數(shù)據(jù)量?！盢eol and Associates公司的著名分析師Mike Karp也指出，目前越來越多的企業(yè)采用Hadoop來存儲和分析大

數(shù)據(jù)。

美國《經濟學人》2010年曾經報道，沃爾瑪?shù)臄?shù)據(jù)量是美國國會圖書館的167倍；eBay的分析平臺每天處理的數(shù)據(jù)量高達100PB，超過納斯達克交易所每天的數(shù)據(jù)處理量。根據(jù)IDC數(shù)據(jù)，到2020年，電子數(shù)據(jù)存儲量將在2009年的基礎上增加44倍，達到35萬億GB；截止到2010年，電子數(shù)據(jù)存儲量已經達到了120萬 PB，或1.2ZB。非結構化信息如文件、電子郵件和視頻，將占未來10年新生數(shù)據(jù)的90%。Gartner也指出，傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)增長如此迅猛的當下遠不能勝任。

Hadoop分布式并行計算框架，是Apache的開源項目，已有7年的歷史。Hadoop的核心是HDFS（分布式文件系統(tǒng)）和MapReduce（映射與歸約）計算模型，MapReduce的思想來自于谷歌2004年發(fā)表的一篇論文。

HDFS分布式文件系統(tǒng)將一組數(shù)據(jù)分發(fā)給不同的機器并且提供冗余處理。比如，可以對每一個數(shù)據(jù)在3個不同的節(jié)點上進行復制，一旦一個數(shù)據(jù)所在節(jié)點出現(xiàn)問題，還有兩個其他節(jié)點的相同的數(shù)據(jù)可以使用。MapReduce計算模型中的Map將一個任務分解為多個任務，產生特征數(shù)據(jù)，Reduce將多個執(zhí)行結果匯總得到最終結果。

2008年7月，Hadoop打破1TB數(shù)據(jù)排序基準測試紀錄。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)排序，比上一年的紀錄保持者快了將90秒。2009年5月，進一步將時間縮短到62秒。2007年，百度開始部署Hadoop用做日志處理。2008年，淘寶部署基于Hadoop的云梯。云梯的總容量大概為9.3PB，1100臺機器，每天處理約18000道作業(yè)，掃描500TB數(shù)據(jù)。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用戶。

在產業(yè)方面，IBM提供基于Hadoop的大數(shù)據(jù)分析軟件，推出了在Hadoop架構上建立作為群集運行DB2或Oracle數(shù)據(jù)庫的集群系統(tǒng)，并提供Hadoop的部署與實施服務。EMC于2011年5月推出基于Hadoop數(shù)據(jù)中心設備——GreenPlum HD。2008年，微軟收購Powerset，并將Powerset基于Hadoop的技術應用于搜索引擎bing搜索引擎。

Ventana Research公司分析師David Menninger認為，企業(yè)將顯著提升對于開源軟件Hadoop框架的興趣，未來將有更多的供應商和更多的生產商加入Hadoop行列。

由此，我們就可以看出這樣一個脈絡：云計算必須支持大數(shù)據(jù)，面向大數(shù)據(jù)處理的新一代技術Hadoop已經浮出水面并日趨流行。

計算機世界2011年37期

計算機世界的其它文章: 愛立信積極發(fā)力TD-LTE; 搜狗地圖:用“開放”搶占終端; 社交商務將在移動中普及; 中鐵三局建“省心”數(shù)據(jù)中心; 中國軟件業(yè)前10月收入1.5萬億元; 云手機爭上游