摘 要:Hadoop是當(dāng)前非常流行的大數(shù)據(jù)分布式處理基礎(chǔ)架構(gòu),通過HDFS和Mapredue實現(xiàn)了對海量數(shù)據(jù)的高速運算和存儲。R軟件是具有完善數(shù)據(jù)統(tǒng)計分析功能且被廣泛使用的開源系統(tǒng)。文章敘述了基于R 和Hadoop構(gòu)建大數(shù)據(jù)統(tǒng)計分析平臺的過程,藉此實現(xiàn)對大數(shù)據(jù)的統(tǒng)計分析。
關(guān)鍵詞:RHadoop;數(shù)據(jù)統(tǒng)計;平臺
1 RHadoop簡介
R是開源免費的統(tǒng)計軟件平臺,很多統(tǒng)計模型和數(shù)據(jù)分析方法都能方便地在R中實現(xiàn)。R分析數(shù)據(jù)之前必須先將數(shù)據(jù)加載到內(nèi)存中,因此無法有效處理當(dāng)今GB、TB甚至PB級的大數(shù)據(jù)集和實時數(shù)據(jù)流。而Hadoop的HDFS和Mapreduce能夠?qū)崟r地讀取、存儲并處理大數(shù)據(jù)集。聯(lián)合R和Hadoop構(gòu)建的大數(shù)據(jù)統(tǒng)計分析平臺能夠充分融合兩者在大數(shù)據(jù)集實時處理和統(tǒng)計分析的優(yōu)勢,為海量數(shù)據(jù)的統(tǒng)計分析提供有效工具。另外,國內(nèi)許多高校都開設(shè)了《大數(shù)據(jù)統(tǒng)計分析》課程,旨在培養(yǎng)學(xué)生處理大數(shù)據(jù)的能力,以適應(yīng)大數(shù)據(jù)時代對人才的需求。但是,由于缺乏實用的大數(shù)據(jù)實驗平臺,課程講授內(nèi)容駐足于理論,未能有效付諸于實踐,造成理論與應(yīng)用脫節(jié),搭建大數(shù)據(jù)統(tǒng)計分析軟件實驗平臺將為開展《大數(shù)據(jù)統(tǒng)計分析》課程的實驗教學(xué)創(chuàng)造條件。文章基于開源軟件Hadoop和R組合搭建平臺,使軟件的實用性、兼容性較強,并且與昂貴的商業(yè)軟件(如SAS JMP)相比,幾乎零成本。
Hadoop的安裝分為三種模式:單節(jié)點安裝、偽分布式安裝和完全分布式安裝[1]。文章著重介紹偽分布式安裝,這種安裝方式更適應(yīng)個人電腦網(wǎng)絡(luò)環(huán)境以及大數(shù)據(jù)統(tǒng)計分析教學(xué)環(huán)境。通常R和Hadoop聯(lián)合地方式主要包括兩種,一種是使用RHIPE(R and Hadoop Intergrated Programming Environment)編程環(huán)境進(jìn)行編程,另外一種就是RHadoop。下面詳細(xì)介紹RHadoop大數(shù)據(jù)統(tǒng)計分析平臺的搭建過程,主要安裝流程分為如下四個步驟流程。
第一步,創(chuàng)建虛擬機(vmware)->安裝R軟件;
第二步,安裝配置JDK和SSH->Hadoop偽分布安裝;
第三步,R依賴庫安裝->RHadoop軟件包安裝;
第四步,平臺運行與調(diào)試。
2 RHadoop實驗平臺的搭建
2.1 環(huán)境準(zhǔn)備
由于Hadoop分布式系統(tǒng)架構(gòu)主要基于Linux操作系統(tǒng),因此需要創(chuàng)建搭載ubuntu(linux的一種衍生系統(tǒng))操作系統(tǒng)的虛擬機來實現(xiàn)Hadoop的運行環(huán)境。在Ubuntu官網(wǎng)下載Ubuntu 14.04系統(tǒng)鏡像文件,在電腦中安裝VMware Player軟件,并創(chuàng)建一臺新的虛擬機,搭載Ubuntu 14.04操作系統(tǒng)。然后在虛擬機中安裝R軟件,可以在終端通過以下命令完成安裝:
若以上命令均能運行,無報錯,且運行結(jié)果最后一行顯示“Output:(/…)”(此處“/…”代表運行結(jié)果的存儲路徑),表示RHadoop大數(shù)據(jù)統(tǒng)計分析平臺搭建成功,利用函數(shù)form.dfs(/…)即可查看輸出結(jié)果。
3 結(jié)束語
以寬帶化、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、云計算為代表的信息通信技術(shù)變革催生大數(shù)據(jù),其顯著特征為\"大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)\"。數(shù)據(jù)本身就是可以與物質(zhì)資產(chǎn)和人力資本相提并論的重要的生產(chǎn)要素,毫無疑問,大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費者盈余的關(guān)鍵要素,同時為商業(yè)和消費者創(chuàng)造價值方面具有巨大的發(fā)展?jié)摿ΑR虼舜髷?shù)據(jù)統(tǒng)計分析迅速地成為當(dāng)前信息科技領(lǐng)域的前沿?zé)狳c和最為實用的技術(shù)。隨著“大數(shù)據(jù)”時代的來臨,利用Hadoop分布式系統(tǒng)架構(gòu)對大數(shù)據(jù)進(jìn)行讀取、存儲和計算已經(jīng)成為一種必然。R與Hadoop的聯(lián)合更是極大地提高了對大數(shù)據(jù)集的統(tǒng)計分析能力,從而能夠更加有效地利用數(shù)據(jù),從數(shù)據(jù)中獲得有用的信息。文章介紹的RHadoop大數(shù)據(jù)統(tǒng)計分析平臺搭建方法,為個人以及大數(shù)據(jù)統(tǒng)計分析教學(xué)實驗提供了低成本、高兼容性和通用性的軟件環(huán)境。
參考文獻(xiàn)
[1]陸嘉恒.Hadoop實戰(zhàn)第2版[M].北京:機械工業(yè)出版社,2012,11:23-35.
[2]http://cos.name/2013/03/rhadoop1-hadoop/ (2014/12/10).
[3]http://cos.name/2013/03/rhadoop2-rhadoop/ (2014/12/15).
[4]Vignesh Prajapati. Big Data Analytics with R and Hadoop[M]. Livery Place 35 Livery Street, Birmingham B3 2PB, UK:Packt Publishing Ltd,2013:77-80.
*通訊作者:張輝國(1978-),男,山東萊西人,博士,講師,研究方向:空間統(tǒng)計、非參數(shù)統(tǒng)計及大數(shù)據(jù)統(tǒng)計分析方法。