黃浩
“大數(shù)據(jù)”有多熱?美國國家海洋與大氣管理局利用“大數(shù)據(jù)”進行氣象、生態(tài)系統(tǒng)、天氣和商務(wù)研究。《紐約時報》使用“大數(shù)據(jù)”工具進行文本分析和Web信息挖掘。迪斯尼則利用它們關(guān)聯(lián)和了解跨不同商店、主題公園和Web資產(chǎn)的客戶行為。
“大數(shù)據(jù)”不僅適用于大型企業(yè),而是適用于各種不同規(guī)模的企業(yè)。例如,通過評估某位客戶在網(wǎng)站上的行為,來更好地了解他們需要什么支持或?qū)ふ沂裁串a(chǎn)品,或者弄清當前天氣和其他條件對于送貨路線和時間安排的影響。
面對“大數(shù)據(jù)”,Hadoop為揭示深奧的企業(yè)與外部數(shù)據(jù)的關(guān)鍵內(nèi)幕提供了基礎(chǔ)。從技術(shù)上看,Hadoop分布式文件系統(tǒng)(HDFS)保證了大數(shù)據(jù)的可靠存儲,而另一Hadoop核心組件MapReduce則提供高性能并行數(shù)據(jù)處理服務(wù)。這兩項服務(wù)提供了一個使對結(jié)構(gòu)化和復(fù)雜“大數(shù)據(jù)”的快速、可靠分析變?yōu)楝F(xiàn)實的基礎(chǔ)。
雖然關(guān)于Hadoop和MapReduce的使用案例和優(yōu)勢,已經(jīng)經(jīng)歷了過度的渲染,但毫無疑問的是,它的確提供了相對低成本的方法,可從非常龐大的散亂數(shù)據(jù)中挖掘出可觀的商業(yè)價值來。
此外,最近幾年,Hadoop已獲得來自商業(yè)分析和數(shù)據(jù)庫廠商的穩(wěn)固支持,這些廠商已開始提供Hadoop產(chǎn)品和服務(wù)。因此,許多業(yè)內(nèi)人士認為,在這種情況下,Hadoop“生態(tài)系統(tǒng)”的爆發(fā)式增長可以預(yù)期。這一點很快就得到了IDC的肯定,最近IDC發(fā)布報告顯示,用于大數(shù)據(jù)分析的Hadoop和MapReduce編程框架相關(guān)的軟件市場將會從2011年的7700萬美元暴漲至2016年的8.128億美元,年復(fù)合增長率為60.2%。
在線旅游
那么,一提到在線旅游服務(wù)提供商你會想到誰?攜程、藝龍還是酷訊呢?那么你知道Expedia.com嗎?它是全球最大的在線旅游公司,是藝龍最大的股東,還收購了酷訊,并在中國成立了全資子公司到到網(wǎng)。
從根本上來講,Expedia是一家技術(shù)公司,需要把有許多知識產(chǎn)權(quán)和商務(wù)智能數(shù)據(jù)放入整體的解決方案當中,所以他們根本就沒有考慮托管的方式,而是選擇了Hadoop。
Expedia公司大約擁有4000名技術(shù)人員,目前每天收集并索引的數(shù)據(jù)量達到了6TB的級別。這些數(shù)據(jù)源自于27000個服務(wù)器、網(wǎng)絡(luò)交換機、設(shè)備等終端。一年前,公司使用了大概20多個工具來管理這些數(shù)據(jù)。有一些是內(nèi)部開發(fā)的,有一些則是開源的軟件。Expedia目前正在將Splunk產(chǎn)品集成到大數(shù)據(jù)環(huán)境當中,它們運行了開源的Apache Hadoop分布式文件系統(tǒng)來存儲并分析點擊流數(shù)據(jù)等信息。
衍生開發(fā)
以前,擁有博士學(xué)位背景的人才能使用Hadoop,但是例如醫(yī)院和銀行這樣的機構(gòu),并沒有這樣的人員。Hadoop的配置和管理的確很讓人痛苦?,F(xiàn)在Cloudera提供了更容易的可以讓普通人使用的Hadoop。
Cloudera成立于2007年3月,是中國卓越的云計算服務(wù)提供商,擁有豐富的云計算平臺服務(wù)經(jīng)驗。其業(yè)務(wù)領(lǐng)域涵蓋:企業(yè)信息化系統(tǒng)、企業(yè)門戶建設(shè)、應(yīng)用軟件開發(fā)、系統(tǒng)集成及商務(wù)智能等多種IT產(chǎn)品與服務(wù)。
Cloudera定位于將大數(shù)據(jù)通過Hadoop帶給企業(yè),既然是給企業(yè)使用,Cloudera的軟件配置是為了讓Hadoop的配置標準化,可以幫助企業(yè)安裝、配置、運行Hadoop以達到大規(guī)模企業(yè)數(shù)據(jù)的處理和分析。采用最新的Hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本進行封裝,并且集成了facebook提供的hive,yahoo提供的pig等基于Hadoop的sql實現(xiàn)接口,使得這些軟件的安裝,配置和使用的成本降低并且進行了標準化。當然除了集成和封裝這些成熟的工具外,Cloudera一個比較有意思的工具是sqoop,目前這個工具沒有獨立提供。
此外,為了使Hadoop distribution的安裝和配置更容易,Cloudera建立了一個新的門戶網(wǎng)站,也是免費的,叫做my.cloudera.com,在這個網(wǎng)站上,用戶可以使用一個基于網(wǎng)絡(luò)的配置工具生成客戶軟件包,并可優(yōu)化符合他們的特殊需求。
目前,阿里巴巴、百度、中移動等大公司也紛紛加入Hadoop行列。IBM宣布在Hadoop上建立新的存儲架構(gòu),作為群集運行DB2或Oracle數(shù)據(jù)庫,目的是讓應(yīng)用程序,支持高性能分析,數(shù)據(jù)倉庫應(yīng)用程序和云計算的目的。EMC也推出了世界上第一個定制的、高性能的Hadoop專用數(shù)據(jù)協(xié)同處理設(shè)備——Greenplum HD數(shù)據(jù)計算設(shè)備,為客戶提供了最強大、最高效率的方法,充分挖掘大數(shù)據(jù)的價值?;ヂ?lián)網(wǎng)搜索巨頭百度也在考慮使用Hadoop。不過,出于性能與安全的考慮,百度在采用Hadoop架構(gòu)的時候,將Hadoop計算層進行了重新編寫。
電子商務(wù)
亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),絕非很晚進入Hadoop領(lǐng)域。所以說,亞馬遜對Hadoop的需求和應(yīng)用可謂了若指掌,無論用戶是運行試點項目的新手,還是內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載時,利用彈性MapReduce來獲取額外容量的專業(yè)人士。
在國內(nèi),淘寶數(shù)據(jù)平臺使用的Hadoop集群是全國最大的Hadoop集群之一,它支撐了淘寶整個數(shù)據(jù)分析工作。整個集群最多達到1700個節(jié)點,總?cè)萘?4.3PB,已經(jīng)使用13.87PB。每天在集群之上運行的作業(yè)約40000道,掃描數(shù)據(jù)1.7PB,輸出結(jié)果約235TB。
此外,eBay是Hadoop技術(shù)的重要使用者,因為其要管理一個龐大的個人賣家市場,賣家數(shù)量達到1000萬以上。而Ebay在用Hadoop服務(wù)90天后,純利潤增加了3%。
社交網(wǎng)站
Last.fm創(chuàng)辦于2002年,它是一個提供網(wǎng)絡(luò)電臺和網(wǎng)絡(luò)音樂服務(wù)的社區(qū)網(wǎng)站,向用戶提供很多服務(wù),例如免費聽音樂和音樂下載,音樂及重大事件推薦,個性化圖表服務(wù)以及其他很多服務(wù)。隨著Last.fm服務(wù)的發(fā)展,用戶數(shù)目從數(shù)千增長到數(shù)百萬,這時,存儲、處理和管理這些用戶數(shù)據(jù)漸漸變成一項挑戰(zhàn)。幸運的是,當大家認識到Hadoop技術(shù)能解決眾多問題之后,Hadoop的性能迅速穩(wěn)定下來,并被大家積極地運用。2006年初,Last.fm開始使用Hadoop,幾個月之后便投入實際應(yīng)用。
而Facebook引入Hadoop技術(shù)的原因有些類似,它同樣存在著網(wǎng)站上需要處理和存儲的日志和維度數(shù)據(jù)激增的問題。不同的是,此前Facebook使用的數(shù)據(jù)倉庫是在Oracle系統(tǒng)上實現(xiàn)的,在遇到擴展性和性能方面的問題之后,開源的Hadoop開始被引入。當然,這是有成功案例做比照的,Yahoo內(nèi)部就一直使用這一技術(shù)來完成后臺數(shù)據(jù)處理需求,而Google提出并普及使用的MapReduce模型具有優(yōu)秀的簡單性和可擴展性。
目前,F(xiàn)acebook、Google和Yahoo這樣的網(wǎng)站,最初開發(fā)Hadoop的目的是,通過數(shù)以千記的計算機將文本和日志數(shù)據(jù)集中在一起,將數(shù)據(jù)放在他們的網(wǎng)站上,觀察用戶的使用習(xí)慣,但是所有處理萬億字節(jié)非結(jié)構(gòu)化信息的公司,也必將在更多的領(lǐng)域使用Hadoop。