編譯 秦建秀
事實(shí)上,很多非常好的技術(shù)都很難傳播到硅谷之外,僅靠自身蠕蟲般慢慢打入小型城鎮(zhèn)機(jī)構(gòu)。相比之下,Hadoop開發(fā)十年來,圍繞著開源軟件技術(shù),一個蓬勃的產(chǎn)業(yè)群已開始出現(xiàn)。
兩年前,當(dāng)美國底特律刑事委員會開始收集和分析犯罪嫌疑人在社交媒體發(fā)布的帖子時,發(fā)現(xiàn)Excel軟件無法完成分析,因此,這家僅有11人的機(jī)構(gòu)開始使用Hadoop。正如該機(jī)構(gòu)主管情報(bào)分析工作的萊爾·鄧吉講述其親身體驗(yàn):“幾百萬條的數(shù)據(jù)量實(shí)在太龐大,類似Excel的電子表格的簡單分析根本無法滿足我們的要求,為此我們需要更強(qiáng)大的工具。有相當(dāng)多的數(shù)字證據(jù)本來已經(jīng)存儲在那里,只是大多數(shù)機(jī)構(gòu)還沒有充分利用它?!盚adoop已協(xié)助他們發(fā)現(xiàn)了兩家犯罪嫌疑組織間的關(guān)聯(lián)關(guān)系。
事實(shí)上,很多非常好的技術(shù)都很難傳播到硅谷之外,僅靠自身蠕蟲般慢慢打入小型城鎮(zhèn)機(jī)構(gòu)。相比之下,Hadoop開發(fā)十年來,圍繞著開源軟件技術(shù),一個蓬勃的產(chǎn)業(yè)群已開始出現(xiàn)。農(nóng)業(yè)巨頭孟山都公司依靠Hadoop分析并預(yù)測氣候規(guī)律;而印度政府則用它來存儲并分析超過五億的公民信息,以支持國家身份登記工作,其中印度的生物特征數(shù)據(jù)庫,據(jù)說是世界上規(guī)模最大、功能最強(qiáng)的系統(tǒng),每分鐘可處理多達(dá)400萬次登錄。
數(shù)十家公司在市場上銷售Hadoop的衍生版本,有些免費(fèi)安裝使用,僅收取咨詢、支持的服務(wù)費(fèi)用。根據(jù)一份來自聯(lián)盟市場調(diào)研公司發(fā)布的研究報(bào)告顯示,2012年全球Hadoop的市場容量為15億美元,預(yù)計(jì)到2020年將增至502億美元。該市場的佼佼者,如Cloudera、Hortonworks及MapR,都曾吸引了數(shù)億美元的風(fēng)險資本投資。
Hadoop的發(fā)明者道格·卡丁,現(xiàn)擔(dān)任Cloudera首席架構(gòu)師,當(dāng)他還在雅虎擔(dān)任程序員的時候,就開始編寫該軟件的第一部分代碼,并以他孩子的玩具大象的名字Hadoop命名了該軟件。他開玩笑道:“我當(dāng)時只是不想讓它充斥我的大腦。”
由于Hadoop是開源軟件,企業(yè)不必?fù)?dān)心被單一軟件供應(yīng)商束縛?!皼]有人提交的代碼內(nèi)容超過全部代碼的15%或20%,所以你不可能操控整個開源社區(qū)。”MapR首席執(zhí)行官約翰·施羅德說,有修改源代碼權(quán)限的程序員需要遵守行業(yè)規(guī)范。
Hadoop可以處理比傳統(tǒng)企業(yè)數(shù)據(jù)庫更大量級的數(shù)據(jù)量,北美專門從事大數(shù)據(jù)咨詢業(yè)務(wù)的Capgemini公司負(fù)責(zé)人史蒂芬·哈里斯說,比起數(shù)據(jù)庫巨頭如甲骨文、SAP的產(chǎn)品,這類軟件要便宜很多。在線購車網(wǎng)站TrueCar高級副總裁約翰·威廉姆斯介紹說,自從2013年他們的數(shù)據(jù)分析軟件從大型供應(yīng)商換成Hortonworks公司提供的Hadoop軟件,節(jié)省了“相當(dāng)可觀的投入”。正是這一系統(tǒng)轉(zhuǎn)換,TrueCar用于數(shù)據(jù)整理分析軟件的前期投入,數(shù)據(jù)運(yùn)營成本從19美元/GB下降到23美分/GB,僅這一項(xiàng),就為公司節(jié)省將近2000萬美元。
“每一家企業(yè),不論是IBM、Teradata、甲骨文,還是SAP,在其產(chǎn)品的架構(gòu)中都不同程度地使用了Hadoop技術(shù)?!盋loudera首席執(zhí)行官湯姆·賴?yán)f。目前,英特爾擁有Cloudera公司18%的股份,而惠普則投資5000萬美元在Hortonworks公司。
Hortonworks首席執(zhí)行官羅布·比爾登認(rèn)為,雖然大家是競爭對手,但保持技術(shù)“簡單可靠”是所有Hadoop供應(yīng)商的共同愿望,因?yàn)樵缙贖adoop應(yīng)用者“非常不滿意繁復(fù)的實(shí)施過程以及過于強(qiáng)大的功能”。美國一家名為模式與預(yù)測研究所的咨詢機(jī)構(gòu),從2007年開始使用Cloudera的某一版本,為國防部提供數(shù)據(jù)分析,可識別并防范軍事人員發(fā)生自殺的風(fēng)險。公司高級合伙人克里斯·波林評價說:“我們現(xiàn)在剛剛實(shí)現(xiàn)基礎(chǔ)設(shè)施的足夠穩(wěn)定,做到可控管理?!?/p>
道格·卡丁說,Cloudera的軟件已經(jīng)發(fā)展得比較成熟,他目前可以投入大部分時間關(guān)注其他項(xiàng)目,而近期,“我只需要做些修補(bǔ)或增加一些新功能而已。”