亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop高校共享云平臺實現(xiàn)方法與性能測試*

        2018-07-26 10:39:20許景賢郭建宏

        許景賢 郭建宏

        (1泉州師范學(xué)院;2陳守仁工商信息學(xué)院 福建泉州 362000)

        教育信息化十年發(fā)展規(guī)劃(2011-2020年)中指出,利用先進(jìn)網(wǎng)絡(luò)和信息技術(shù),整合資源,構(gòu)建先進(jìn)、高效、共享的高等教育信息基礎(chǔ)設(shè)施,開發(fā)整合各類優(yōu)質(zhì)教育教學(xué)資源,建立高等教育資源共建共享機(jī)制[1]。探索建設(shè)高校優(yōu)質(zhì)的共享數(shù)字資源公共服務(wù)平臺,鼓勵高校建設(shè)各類教育優(yōu)質(zhì)的共享數(shù)字資源庫[2]。云平臺給高校的教育資源共享提供了相關(guān)的技術(shù)支持,由幾十萬臺乃至百萬臺以上的服務(wù)器組成的計算機(jī)網(wǎng)絡(luò),能夠讓高校學(xué)生很容易地得到更多、更豐富的資源[3]。教育部計劃在2020年以前,建設(shè)2000門左右的優(yōu)質(zhì)網(wǎng)絡(luò)課程和相關(guān)教學(xué)資源的共享云平臺,將對全國所有高校的網(wǎng)絡(luò)基礎(chǔ)設(shè)施進(jìn)行整合,努力建設(shè)一個共享的和資源開放型的云平臺[4]。

        目前,云平臺的解決方案有很多,Hadoop是最實用和最經(jīng)濟(jì)的一個[5]。Hadoop是Apache基金會的一個開源項目,它已經(jīng)積累了大量用戶,它在業(yè)界也得到了廣泛的認(rèn)可。很多知名企業(yè)都將Hadoop應(yīng)用于它們自己的商業(yè)領(lǐng)域,這些知名企業(yè)包含了阿里巴巴、騰訊等[6]。Hadoop作為云計算技術(shù)的一種實現(xiàn)方法,允許用戶在Hadoop框架之上實現(xiàn)自己的應(yīng)用邏輯。云計算的目的之一,是以盡可能低的開銷提供高可用性的計算機(jī)資源[7]。Hadoop 能夠處理數(shù)千個計算機(jī)節(jié)點和 巨大量的數(shù)據(jù),可以自動地處理作業(yè)調(diào)度和負(fù)載平衡,因此,它是實現(xiàn)云計算的完美工具。Hadoop具有成本低、安全性高等優(yōu)點,因此研究Hadoop平臺的實現(xiàn)方法以及測試平臺性能是非常有意義[8]。文章首先研究Hadoop平臺在虛擬機(jī)上的實現(xiàn),然后進(jìn)行Hadoop平臺的基準(zhǔn)測試,最后對測試結(jié)果進(jìn)行分析。文章采用虛擬環(huán)境下搭建云平臺,這種搭建方式有很多優(yōu)點,如節(jié)省資金和能夠測試平臺的性能。

        1 Hadoop 高校共享云平臺實現(xiàn)方法

        介紹在Linux 操作系統(tǒng)環(huán)境下安裝和配置 Hadoop 的方法,Linux操作系統(tǒng)版本是Centos 6.5, Java版本是1.7, Hadoop的版本是2.7,安裝和配置的主要步驟如下所述。

        該集群中包括4個節(jié)點:1個Master,3個Salve。首先,虛擬軟件VMware被安裝在主機(jī)上,然后由 Vmare克隆出4個計算機(jī)節(jié)點,4個節(jié)點由1個是Master節(jié)點和3個 Slave節(jié)點組成??梢韵劝惭bMaster節(jié)點, 再使用VMware克隆出3個Slave節(jié)點, 同時對4個節(jié)點進(jìn)行網(wǎng)絡(luò)配置,使得虛擬節(jié)點之間能夠進(jìn)行網(wǎng)絡(luò)通信。4個節(jié)點都安裝CentOS 6.5系統(tǒng),并且有一個相同的用戶hadoop。Master節(jié)點負(fù)責(zé)管理分布式數(shù)據(jù)和分解任務(wù);3個Salve節(jié)點負(fù)責(zé)存儲分布式數(shù)據(jù)和執(zhí)行任務(wù)。具體的服務(wù)器節(jié)點規(guī)劃如表 1所示。

        表1 服務(wù)器節(jié)點規(guī)劃

        1.2配置主機(jī)

        要成功搭建 Hadoop 集群,實現(xiàn)集群中各結(jié)點之間的信息傳遞,首先需要修改主機(jī)名和配置網(wǎng)絡(luò)環(huán)境。

        (1)修改主機(jī)名成為Master,命令是 HOSTNAME=master,Slave 結(jié)點的設(shè)置參照上面的命令。

        (2)在進(jìn)行配置Hadoop集群的網(wǎng)絡(luò)環(huán)境,需要在"/etc/hosts"文件中添加所有機(jī)器的IP與主機(jī)名。這樣Master與所有Slave機(jī)器之間的通信,不僅可以通過IP進(jìn)行通信,而且還可以通過主機(jī)名進(jìn)行通信。因此,在所有的機(jī)器上的"/etc/hosts"文件末尾中都要添加如下內(nèi)容:

        192.3.30.1 master,

        192.3.40.1 slave1,

        192.3.40.2 slave2,

        192.3.40.3 slave3。

        1.3 SSH(secure shell)無密碼驗證配置

        在Hadoop啟動以后,NameNode是需要通過遠(yuǎn)程啟動和停止DataNode上的各種守護(hù)進(jìn)程的。一方面NameNode要登錄Slave節(jié)點并啟動DataNode上的進(jìn)程,另一方面DataNode上也要登錄到NameNode。如果集群中各結(jié)點需要通過密碼進(jìn)行登陸,這給訪問數(shù)據(jù)和傳遞信息帶來了不便 。因此,需要配置SSH 無密碼驗證登陸的設(shè)置,釋放各結(jié)點對文件的控制權(quán)限。

        Master節(jié)點配置過程為:(1)在Master機(jī)器上生成兩個密鑰對文件,這兩個文件是id_rsa和id_rsa.pub,它們默認(rèn)存儲在"/home/hadoop/.ssh"目錄下;(2)公鑰文件id_rsa.pub的內(nèi)容被追加到authorized_keys文件尾部;(3)修改authorized_keys 的權(quán)限;(4)復(fù)制Master上的authorized_keys文件到Slave1結(jié)點;(5)在 Master 結(jié)點上,通過 ssh 登陸另3個Slave結(jié)點,如果無需密碼驗證,則表示Master節(jié)點的無密碼登陸設(shè)置成功;(6) Slave上配置SSH 無密碼登錄與Master的步驟一樣。配置成功后,Master結(jié)點與3個Slave結(jié)點之間就可以互相登錄了而不需要輸入密碼。

        1.4 Java 環(huán)境配置

        所有的節(jié)點上都要安裝JDK,先在Master節(jié)點安裝JDK,然后安裝其他Slave結(jié)點的JDK就可以完成。安裝JDK和配置環(huán)境變量,需要以"root"身份登錄。在"/etc/profile"文件后面添加Java的3個變量的內(nèi)容,它們是"JAVA_HOME"、"CLASSPATH"和"PATH"。

        1.5 Hadoop 集群配置

        所有節(jié)點必須都要安裝Hadoop。首先Hadoop要被安裝在Master節(jié)點,然后Hadoop被安裝在其他Slave結(jié)點上。安裝和配置Hadoop需要以"root"的身份登錄。要配置Hadoop,需要上傳Hadoop-2.7.tar.gz文件到 Master機(jī)器的/usr文件夾中,并對它進(jìn)行解壓。根據(jù)系統(tǒng)的實際情況修改7個配置文件,這7個文件分別是Hadoop-env.sh,yarn-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml。在7個文件中,要重點配置hdfs-site.xml文件,這個文件主要的作用是設(shè)置HDFS相關(guān)的信息。云計算平臺中的具體配置信息見表2。

        表2 hdfs-site.xm的配置信息

        參數(shù)參數(shù)值DFS. name.dir/home/hadoop/hadoop-2.7/dfs/nameDfs.replication3dfs.blocksize131072dfs.namenode.handler.count20

        完成上述配置后,將Master上配置好的Hadoop2.7目錄復(fù)制到其他Slave節(jié)點,這樣Hadoop 云平臺就安裝完成了。

        2 Hadoop高校共享云平臺基準(zhǔn)測試

        測試可以驗證云平臺的正確性,分析云平臺的性能,因此測試是非常重要的,但是測試經(jīng)常容易被忽視。為了能對云平臺有更全面的了解,找到云平臺的瓶頸,對平臺的性能做更好的改進(jìn),因此,對Hadoop平臺進(jìn)行4種測試。

        2.1 Mrbench測試

        為了檢測小作業(yè)執(zhí)行的效率,Mrbench會多次地執(zhí)行一個小作業(yè)。該實驗使用 Mrbench程序測試小作業(yè),結(jié)果如表3所示。

        表3 Mrbench測試結(jié)果

        從圖1可以看出, 隨著小作業(yè)數(shù)量的增加,作業(yè)執(zhí)行的平均時間逐漸變得穩(wěn)定并緩慢下降。從最后兩次測試的結(jié)果可以看出這兩次時間沒有多大差別,雖然次數(shù)增加1倍多,但是執(zhí)行時間并沒有減少1倍。說明小作業(yè)執(zhí)行500次已經(jīng)達(dá)到這個集群的極限。

        圖1 Mrbench測試結(jié)果

        2.2 WordCount測試

        WordCount程序主要的功能是統(tǒng)計文章件中每個單詞出現(xiàn)的次數(shù)。WordCount程序是按照一定的規(guī)則把文文章件分割成小文件,然后輸入到Map任務(wù)中。在Map任務(wù)中WordCount程序只是輸出所有不相同單詞的頻數(shù),然后由Shuffle模塊和Reduce模塊來共同完成單詞的統(tǒng)計。因此,該任務(wù)的CPU資源需求非常小,實驗的結(jié)果也驗證了這一點。該實驗使用WordCount程序分別對100M、300M、500M、1G、2G的文件進(jìn)行測試,結(jié)果如表4所示。

        表4 WordCount測試

        圖2表明,隨著數(shù)據(jù)大小的增加 ,WordCount程序執(zhí)行時間呈曲線增加。在文件比較小的時候,執(zhí)行時間增加比較慢,在文件大小達(dá)到1G以上,執(zhí)行時間增加比較快??傮w上文件大小增大1倍,執(zhí)行時間也增大1倍多。

        圖2 WordCount程序執(zhí)行時間

        2.3 TestDFSIO基準(zhǔn)測試

        Hadoop有一些基準(zhǔn)測試程序,這些基準(zhǔn)測試程序被打包在測試程序JAR文件中。TestDFSIO是這些測試程序中的一個,TestDFSIO用來測試HDFS的I/O性能。大多數(shù)新云平臺系統(tǒng)的故障都是硬盤。通過運行I/O密集型的測試,可以知道集群的硬盤的性能。TestDFSIO通過使用MapReduce作業(yè)來完成測試,它是并行讀寫文件的便捷方法。每個文件被讀寫都在單獨的Map任務(wù)中進(jìn)行, Map任務(wù)也可以用來統(tǒng)計處理過的文件,最后統(tǒng)計數(shù)據(jù)在Reduce任務(wù)中被累加起來。

        下述實驗條件是數(shù)據(jù)總量相同但文件數(shù)量不同,結(jié)果如表5、表6所示。

        表5TestDFSIO的寫測試

        表6 TestDFSIO的讀測試

        圖3表明,文件數(shù)量從2增加到4,執(zhí)行時間增加較快,而文件數(shù)量在4個以上,執(zhí)行時間增加沒有顯著增加。這些說明隨著處理文件數(shù)量的增大,執(zhí)行時間顯著增加, 而當(dāng)Reducer的參數(shù)接近集群節(jié)點數(shù)目云平臺的執(zhí)行速度變快。

        圖3TestDFSIO測試

        2.4 TeraSort測試

        TeraSort算法是由微軟的數(shù)據(jù)庫專家 Jim Gray 創(chuàng)建。2008年,Hadoop利用Tearsort算法對1TB的數(shù)據(jù)進(jìn)行排序,耗時209s,排名第1。Tearsort算法是先對數(shù)據(jù)提取摘要,然后將Map輸出結(jié)果分發(fā)到Reduce節(jié)點上,最后完成排序。TeraSort程序是通過對文文章件進(jìn)行排序來測試 Hadoop平臺的性能。實驗分別對100M、300M、500M、1G和2G的文章件進(jìn)行排序,測試結(jié)果如表6所示。

        表6 TeraSort 執(zhí)行的時間

        圖4表明,隨著數(shù)據(jù)量的增加 ,Terasort程序執(zhí)行時間呈曲線增加。當(dāng)處理的數(shù)據(jù)量在1G以內(nèi)執(zhí)行時間增加比較慢,當(dāng)數(shù)據(jù)量增到2G時執(zhí)行時間增加非??臁?/p>

        圖4 Terasort程序執(zhí)行時間

        3結(jié)語

        文章基于Hadoop高校共享云平臺進(jìn)行了4種基準(zhǔn)測試,并對數(shù)據(jù)結(jié)果進(jìn)行分析。從測試中可以看到,隨著測試數(shù)據(jù)量的增大,Hadoop高校共享云平臺的優(yōu)勢開始顯現(xiàn)出來。實驗只是在虛擬機(jī)上進(jìn)行了平臺實現(xiàn)與測試,數(shù)據(jù)量與真實情況仍有一定差距。因為在實際應(yīng)用中,Hadoop高校共享云平臺的網(wǎng)絡(luò)規(guī)模與服務(wù)器性能都非常強(qiáng)大。該項目對Hadoop高校共享云平臺性能測試對后續(xù)研究指明了方向。通過對上述測試結(jié)果的仔細(xì)分析和研究,發(fā)現(xiàn)Hadoop高校共享云平臺可以從Hadoop軟件架構(gòu)的參數(shù)配置和實現(xiàn)算法等方面作進(jìn)一步優(yōu)化研究,以提高系統(tǒng)的性能。

        国产91九色视频在线播放| 18成人片黄网站www| 国产AV边打电话边出轨| 亚洲av一区二区国产精品| 亚洲AⅤ樱花无码| 国产一区二区三区白浆肉丝| 无套内射在线无码播放| 台湾无码av一区二区三区| 人妻丰满熟妇AV无码片| 蜜桃视频网站在线免费观看| av中文字幕一区不卡| 欧美日韩视频在线第一区| 欧美成人久久久| 91亚洲欧洲日产国码精品| 日韩一区三区av在线| 精品av熟女一区二区偷窥海滩| 丰满熟女人妻中文字幕免费| 久久免费国产精品一区二区| 亚洲一区亚洲二区中文字幕| 亚无码乱人伦一区二区| 国产伦精品一区二区三区免费| 国产亚洲精品自在久久77| 操国产丝袜露脸在线播放| 国产国语亲子伦亲子| 亚洲av永久无码一区| 国产精品美女久久久浪潮av| 精品国产一区二区三区av麻| 国产伦理一区二区| 可以免费在线看黄的网站| 91国语对白在线观看| 精品亚洲麻豆1区2区3区| 亚洲va中文字幕无码久久不卡| 久久国产A∨一二三| 国产激情在线观看免费视频| 在线精品亚洲一区二区动态图| 波多野结衣乳巨码无在线| 亚洲电影久久久久久久9999| 国产日产亚洲系列首页| 狠狠躁日日躁夜夜躁2020| 亚洲综合色一区二区三区小说| 亚洲一区二区丝袜美腿 |