■王少亞 河北大學(xué)管理學(xué)院
Hadoop作為最受歡迎的一種大數(shù)據(jù)技術(shù),是一個分布式系統(tǒng)的基礎(chǔ)架構(gòu),主要由HDFS、MapReduce組成,是一個能夠便捷的開發(fā)和運行處理大數(shù)據(jù)的軟件平臺。HDFS采用Master/Slave架構(gòu),由一個NameNode節(jié)點和一組DataNode節(jié)點組成。MapReduce在HDFS的支持下實現(xiàn)分布式數(shù)據(jù)處理,也是一種總從的構(gòu)架。
Hadoop的應(yīng)用成本低,一方面由于其開源,研發(fā)和采購成本遠遠低于商業(yè)軟件。另一方面,Hadoop為普通的硬件設(shè)備而設(shè)計,可以基于異構(gòu)的廉價硬件來搭建機群,硬件投入成本低。此外,hadoop還可提高數(shù)據(jù)價值,有利于企業(yè)精益管理。例如沃爾瑪通過Hadoop分析顧客搜尋商品的行為,在Facebook、Twitter等社交網(wǎng)站上對商品的討論,從而競爭對手提前一步發(fā)現(xiàn)顧客需求,智能規(guī)劃下一季商品的促銷策略。
對海量數(shù)據(jù)深度分析并迅速發(fā)現(xiàn)趨勢是Hadoop的另一巨大優(yōu)勢。Hadoop可以在幾分鐘內(nèi)處理TB級的數(shù)據(jù),在幾小時內(nèi)可以處理完P(guān)B級的數(shù)據(jù)。Facebook利用hadoop每30分鐘分析一次105T以上的字節(jié)。另外,傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)對于絕大多數(shù)非結(jié)構(gòu)化數(shù)據(jù)無能為力。Hadoop可以對海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行批處理,充分發(fā)掘和利用數(shù)據(jù)背后的商業(yè)價值,使企業(yè)做出更好的決策。
在大數(shù)據(jù)時代,傳統(tǒng)分析環(huán)境規(guī)模呈指數(shù)增長,縱向擴展系統(tǒng),即擴展單個節(jié)點的能力,在技術(shù)和成本上都讓人難以承受。最經(jīng)濟的解決辦法是橫向擴展系統(tǒng),即通過增加計算節(jié)點連接成集群,并且改寫軟件,使之在集群上并行執(zhí)行。Hadoop拓展性能非常優(yōu)秀,可以通過增加更多節(jié)點來按需擴展系統(tǒng),雅虎的集群在2010年已經(jīng)從2000個節(jié)點增加到4000個節(jié)點。
Hadoop主要針對離線的、大規(guī)模、批量的數(shù)據(jù)處理,并不是一個實時的在線系統(tǒng),無法用于實時性要求很強的系統(tǒng)中,如銀行系統(tǒng)。Hadoop也不直接支持復(fù)雜的n步n分支數(shù)據(jù)處理流程操作,因此也不適用于電子商務(wù)等交易性系統(tǒng)。
Hadoop進入維護和開發(fā)階段,成本就會急劇上升。首先Hadoop構(gòu)建平臺復(fù)雜,需要高價雇傭相關(guān)從業(yè)人員。再者,Hadoop的應(yīng)用軟件相對較少,許多數(shù)據(jù)分析功能需要用戶自行開發(fā),導(dǎo)致使用成本增加。培養(yǎng)開發(fā)和運用Hadoop的技術(shù)人才也很昂貴。淘寶在2008年建立了hadoop的“云梯”集群,歷經(jīng)五年,耗費了大量人力、物力、財力。
越來越多的企業(yè)開始大規(guī)模部署Hadoop,但能夠創(chuàng)建和維護這些部署的IT專業(yè)人員在數(shù)量上并沒有跟上Hadoop發(fā)展的步伐,這是企業(yè)面臨的主要挑戰(zhàn)之一。nosqlweekly網(wǎng)站做了一份統(tǒng)計調(diào)查,它對SimplyHired.com和Indeed.com兩個招聘網(wǎng)站的招聘數(shù)據(jù)進行了分析得出,Hadoop的對人才的需求增長最快。JP摩根大通公司總經(jīng)理玩笑聲稱,他們會提供比eBay高出10%的優(yōu)厚待遇雇用合格的專業(yè)人士。
Hadoop的開發(fā)難度很大,源代碼僅僅只是困難的一小部分,還需要有非常強大的工程師團隊,有正確的發(fā)布和治理基礎(chǔ)架構(gòu)的能力。目前幾乎沒有哪家公司能擁有所有這些必須的資源。持續(xù)開源可以降低hadoop的進入成本、增強互操作性、實現(xiàn)資源共享。Yahoo表示,他們已經(jīng)提供了70%的源碼,剩下的30%他們希望可以從別的公司、團體、個人得到。
Hadoop涉及的領(lǐng)域廣泛,開發(fā)難度大,需要多方力量合作開發(fā)。國外企業(yè)在合作領(lǐng)域表現(xiàn)積極,采用收購兼并、合作開發(fā)多種方式進行建設(shè),如Microsoft與Hortonworks以及甲骨文公司與Cloudera公司等已經(jīng)達成合作協(xié)議。相比之下,國內(nèi)的企業(yè)間合作就遜色很多,他們采取“各自為戰(zhàn)”、“平地起樓”的建設(shè)方式,從基礎(chǔ)層面分頭進行大數(shù)據(jù)存儲或處理的開發(fā),阻礙了hadoop在國內(nèi)的快速應(yīng)用。企業(yè)間加強合作,勢在必行。
Hadoop對人才的需求迫切,企業(yè)要強化工作人員的大數(shù)據(jù)意識,培養(yǎng)相應(yīng)的專業(yè)技能,使他們熟悉掌握Hadoop的方法和技術(shù),成為合格的大數(shù)據(jù)人才。另外,從源頭上解決人才缺乏問題是最根本的解決辦法。高校是人才主要的輸出渠道,因此應(yīng)適應(yīng)大數(shù)據(jù)需求,加強大數(shù)據(jù)分析方面的教學(xué)。
[1]覃雄派,王會舉,王珊等.大數(shù)據(jù)分析--RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(1):32-45
[2]吳金紅等.大數(shù)據(jù):企業(yè)競爭情報的機遇挑戰(zhàn)及對策研究[J].情報雜志,2013,32(1):5-9
[3]王珊,王會舉等.架構(gòu)大數(shù)據(jù)_挑戰(zhàn)_現(xiàn)狀與展望[J].計算機學(xué)報,2011,34(10):1742-1752
[4]辛大欣,劉飛.Hadoop集群性能優(yōu)化技術(shù)研究[J].電腦知識與技術(shù),2011,7(22):5484-5486