劉順
摘 ?要:如果采用傳統(tǒng)的方法來搭建Hadoop集群,那么就將會出現(xiàn)這些問題:傳統(tǒng)構(gòu)建Hadoop集群需要大量物理設(shè)備,要容納如此多的物理設(shè)備又需要足夠的實(shí)驗(yàn)場地。這些物理機(jī)的性能得不到充分利用,造成資源浪費(fèi),并且一旦物理機(jī)集群組建后,如果還需要增加節(jié)點(diǎn),就意味著還需要增加新的物理機(jī),那就需要更大的實(shí)驗(yàn)場地,并且還需要一些像集線器、網(wǎng)線、交換機(jī)等一系列物理設(shè)備,花費(fèi)也就更多,布置起來也是費(fèi)時費(fèi)力。
關(guān)鍵詞:ZStack ?hadoop ?大數(shù)據(jù) ?集群
中圖分類號:TN92 ? 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2019)07(a)-0029-02
筆者主要通過在軟件vmware workstation,利用ZStack2.7.0系統(tǒng)鏡像安裝3臺虛擬機(jī),將這3臺虛擬機(jī)分別用1臺虛擬機(jī)作為主節(jié)點(diǎn),其余2臺虛擬機(jī)作為slave節(jié)點(diǎn),并且對這3臺虛擬機(jī)進(jìn)行JDK、Hadoop軟件安裝及環(huán)境配置:配置ssh免密登錄,配置靜態(tài)網(wǎng)絡(luò)能夠達(dá)到內(nèi)外網(wǎng)絡(luò)互相ping通狀態(tài),修改相應(yīng)的配置文件,部署和測試Hadoop單機(jī)本地模式、偽分布式模式、完全分布式模式。
1 ?Hadoop環(huán)境配置
hadoop安裝配置環(huán)境:(1)首先需要1臺物理機(jī),然后是3臺虛擬機(jī),它們分別為ls-m、ls-c1、ls-c2。(2)軟件需要ZStack2.6.0鏡像。
Hadoop基礎(chǔ)環(huán)境部署:(1)修改虛擬機(jī)主機(jī)名,然后執(zhí)行bash命令更新。(2)分別下載rsync和ssh。(3)關(guān)閉防火墻。(4)關(guān)閉selinux安全機(jī)制,然后重啟虛擬機(jī)。(5)添加對應(yīng)IP地址。(6)java環(huán)境部署:①官網(wǎng)下載jdk-10.0.2_linux-x64_bin.tar.gz;②卸載系統(tǒng)自帶的openjdk;③修改配置文件,設(shè)置JDK的環(huán)境變量。(7)Hadoop基礎(chǔ)環(huán)境部署:①官網(wǎng)下載hadoop-2.7.7.tar.gz;②解壓hadoop安裝包;③添加Hadoop環(huán)境變量,并執(zhí)行source /etc/profile行命令使更改生效;④執(zhí)行hadoop version命令查看Hadoop是否安裝成功。(8)配置ssh免密登錄。
Hadoop單機(jī)本地模式部署。Hadoop本地模式無需任何守護(hù)進(jìn)程,只是一個單獨(dú)的java進(jìn)程,使用的不是分布式文件系統(tǒng)而是本地文件系統(tǒng),安裝Hadoop后不用任何設(shè)置即可運(yùn)行調(diào)試。由于在本機(jī)模式下測試和調(diào)試MapReduce程序較為方便,因此此模式適宜用在開發(fā)階段。
2 ?Hadoop集群部署
Hadoop偽分布式集群部署:(1)執(zhí)行cd /home/hadoop/hadoop-2.7.7/命令,進(jìn)入此目錄下;(2)執(zhí)行 vim etc/hadoop/hadoop-env.sh命令,指定Java路徑;(3)執(zhí)行vim etc/hadoop/core-site.xml命令,在
Hadoop完全分布式集群部署:(1)執(zhí)行cd /home/hadoop/hadoop-2.7.7/命令,進(jìn)入/home/hadoop/hadoop-2.7.7/目錄;(2)執(zhí)行vim etc/hadoop/hadoop-env.sh命令,添加JDK路徑;(3)執(zhí)行vim etc/hadoop/yarn-env.sh文件,指定JDK路徑;(4)執(zhí)行vim etc/hadoop/slaves命令,清空原內(nèi)容,輸入slave節(jié)點(diǎn)名稱;(5)執(zhí)行vim etc/hadoop/core-site.xml文件, 在
3 ?結(jié)語
筆者通過通過Hadoop本地模式、偽分布式模式、完全分布式集群3個模塊的測試,一切正常。利用vmware workstation虛擬軟件創(chuàng)建虛擬機(jī),建立在虛擬機(jī)上的Hadoop的3種模式集群部署能夠正常運(yùn)行,并且能夠在上面進(jìn)行簡單的mapreduce或grep實(shí)例。此次設(shè)計主要從充分利用有限資源出發(fā),在1臺物理機(jī)上通過虛擬出的3臺虛擬機(jī),搭建Hadoop的3種模式,在搭建過程中要注意事先配置好虛擬機(jī)的靜態(tài)網(wǎng)絡(luò)及3臺虛擬機(jī)的主機(jī)名;配置好免密登錄環(huán)境;在部署過程中出現(xiàn)問題,可通過查詢相關(guān)log日志文件找出問題所在;提前做虛擬機(jī)快照,以便通過快照恢復(fù)無法解決的災(zāi)難性問題。
雖然搭建的簡易Hadoop集群能夠正常運(yùn)行但是依然存在著不足,3種模式使用了同一臺虛擬機(jī)會造成實(shí)例運(yùn)行出現(xiàn)問題,雖然使用虛擬機(jī)搭建的Hadoop集群能夠充分利用資源,并且也不會有在真實(shí)物理機(jī)上部署會面臨的資費(fèi)昂貴、場地限制、運(yùn)維人員等一系列的問題,搭建起來也非常簡單方便,但是在性能方面和在真實(shí)物理機(jī)上部署的Hadoop集群相比要差得多,而且一旦資源不夠使用,如何添加資源便成了一個棘手的問題。所以建議在學(xué)習(xí)了解環(huán)境中可以使用虛擬機(jī)搭建Hadoop集群,但是如果是在企業(yè)中應(yīng)用Hadoop集群,使用真實(shí)物理機(jī)部署是最好的方法。
參考文獻(xiàn)
[1] (美)Thomas ERL,(英)Zaigham Mahmood.計算機(jī)科學(xué)叢書·云計算:概念、技術(shù)與架構(gòu)[M].北京:機(jī)械出版社,2014.
[2] 王良明.云計算通俗講義[M].北京:電子工業(yè)出版社,2017.
[3] (美)Matthew Portnoy,著.虛擬化技術(shù)入門實(shí)戰(zhàn)[M].2版.杜靜,敖富江,李博,譯.北京:清華大學(xué)出版社,2017.