亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究

        2016-06-08 06:04:45杜慶偉
        計算機(jī)應(yīng)用與軟件 2016年5期
        關(guān)鍵詞:作業(yè)

        張 松 杜慶偉 孫 靜 孫 振

        1(南京航空航天大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 210016)2(中國人民解放軍94860部隊 江蘇 南京 210016)

        ?

        Hadoop異構(gòu)集群中數(shù)據(jù)負(fù)載均衡的研究

        張松1杜慶偉1孫靜2孫振2

        1(南京航空航天大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院江蘇 南京 210016)2(中國人民解放軍94860部隊江蘇 南京 210016)

        摘要Hadoop平臺下,數(shù)據(jù)的負(fù)載均衡對平臺性能的發(fā)揮有著深遠(yuǎn)的影響。首先分析默認(rèn)數(shù)據(jù)負(fù)載均衡的局限性,針對現(xiàn)有默認(rèn)HDFS(Hadoop Distributed File System)數(shù)據(jù)負(fù)載均衡算法只考慮存儲空間利用率,而未考慮節(jié)點(diǎn)間異構(gòu)性的問題,提出一種量化異構(gòu)集群數(shù)據(jù)負(fù)載均衡的數(shù)學(xué)模型。該模型根據(jù)節(jié)點(diǎn)的存儲空間及節(jié)點(diǎn)性能計算得到各個節(jié)點(diǎn)的理論空間利用率,并根據(jù)當(dāng)前集群存儲空間利用率動態(tài)調(diào)整節(jié)點(diǎn)最大負(fù)載。實驗結(jié)果表明,提出的數(shù)據(jù)負(fù)載均衡策略能夠讓異構(gòu)集群達(dá)到更合理的均衡狀態(tài),提高集群的效率,并有效減少作業(yè)的執(zhí)行時間。

        關(guān)鍵詞HadoopHDFS數(shù)據(jù)負(fù)載均衡異構(gòu)集群

        0引言

        隨著計算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,在科研和商業(yè)領(lǐng)域產(chǎn)生了越來越規(guī)模巨大的數(shù)據(jù),這些數(shù)據(jù)的規(guī)模甚至達(dá)到了若干PB。單臺節(jié)點(diǎn)顯然已經(jīng)無法處理如此規(guī)模巨大的數(shù)據(jù),云計算在此背景下應(yīng)運(yùn)而生。Hadoop是一個由Apache基金會所開發(fā)的開源分布式處理系統(tǒng)[1]。該系統(tǒng)由若干節(jié)點(diǎn)組成,數(shù)據(jù)分布在各個節(jié)點(diǎn)上。用戶提交作業(yè)后,Hadoop將作業(yè)拆分成若干task,然后分布到各個節(jié)點(diǎn)上運(yùn)行,最后將結(jié)果匯總返回給用戶。

        在Hadoop等數(shù)據(jù)密集型的超級計算中,移動數(shù)據(jù)的代價要遠(yuǎn)遠(yuǎn)高于移動計算的代價。因此將計算移動到數(shù)據(jù)節(jié)點(diǎn)上,將大大節(jié)省網(wǎng)絡(luò)帶寬,提升作業(yè)的執(zhí)行效率。數(shù)據(jù)負(fù)載均衡的集群,能夠降低非本地化任務(wù)的次數(shù),進(jìn)而減少集群中數(shù)據(jù)傳輸量,提高系統(tǒng)效率[2]。

        然而隨著新的數(shù)據(jù)節(jié)點(diǎn)的加入以及用戶對集群中文件的動態(tài)刪除和添加,使得各個節(jié)點(diǎn)擁有的數(shù)據(jù)量變得不均衡。當(dāng)集群中節(jié)點(diǎn)間的數(shù)據(jù)負(fù)載變得不均衡后,會引發(fā)許多問題。比如,MapReduce程序無法很好地利用本地計算的優(yōu)勢,計算任務(wù)被分配到非本地化執(zhí)行的概率增大,于是節(jié)點(diǎn)不得不從其他節(jié)點(diǎn)復(fù)制數(shù)據(jù),增加網(wǎng)絡(luò)負(fù)載。節(jié)點(diǎn)之間無法達(dá)到更好的網(wǎng)絡(luò)帶寬使用率,各節(jié)點(diǎn)磁盤無法達(dá)到更好的利用率,這將間接導(dǎo)致集群的效率降低,作業(yè)的執(zhí)行時間變長??梢?,保證Hadoop集群的數(shù)據(jù)平衡是非常重要是事情,數(shù)據(jù)的負(fù)載均衡已經(jīng)成為分布式計算的一個重要的研究領(lǐng)域[3-5]。

        文獻(xiàn)[6]對異構(gòu)集群負(fù)載均衡以及文件響應(yīng)時間進(jìn)行了初步研究,但忽略了異構(gòu)集群中節(jié)點(diǎn)容量的異構(gòu)性。文獻(xiàn)[7]提出了按比例存放數(shù)據(jù)的策略,該策略考慮到了節(jié)點(diǎn)的異構(gòu)性,然而卻忽略了節(jié)點(diǎn)存儲空間的異構(gòu)性對數(shù)據(jù)存放的影響。文獻(xiàn)[8]在Hadoop數(shù)據(jù)負(fù)載均衡效率方面,提出了超負(fù)載機(jī)架的優(yōu)先處理,能夠在較短時間內(nèi)使各個機(jī)架的數(shù)據(jù)負(fù)載達(dá)到平衡,但并沒有考慮節(jié)點(diǎn)的異構(gòu)性。文獻(xiàn)[9]改進(jìn)了副本管理技術(shù),通過動態(tài)副本來解決數(shù)據(jù)熱點(diǎn)的問題。

        本文首先分析了默認(rèn)負(fù)載均衡的原理及其局限性,然后提出了適用于異構(gòu)集群的負(fù)載均衡的量化模型。最后通過大量實驗證明了在特定環(huán)境下該模型能夠更合理的降低集群的不均衡性,提高集群的效率,并有效減少作業(yè)的執(zhí)行時間。

        1默認(rèn)負(fù)載均衡原理及其局限性

        默認(rèn)的負(fù)載均衡策略是基于所有節(jié)點(diǎn)都是同構(gòu)節(jié)點(diǎn)這樣一個假設(shè)下的。同構(gòu)集群下,由于節(jié)點(diǎn)的硬件配置,包括CPU、內(nèi)存、磁盤容量等都是一樣的,唯一不一樣的參數(shù)為各個節(jié)點(diǎn)的存儲空間利用率。負(fù)載均衡的目的就是將各個節(jié)點(diǎn)的存儲空間利用率盡量達(dá)到一致。當(dāng)集群中的部分datanode承載了過多的數(shù)據(jù)時,集群管理員便應(yīng)該通過start-balancer.sh啟動均衡器,來重新布局?jǐn)?shù)據(jù)塊。Balancer負(fù)載均衡程序根據(jù)用戶提交的閾值(threshold)(默認(rèn)為10%),將DataNode按照存儲空間的利用率分為四組:分別為overUtilizedDatanodes(過載的節(jié)點(diǎn)信息)、aboveAvgUtilizedDatanodes(大于閾值的節(jié)點(diǎn)信息)、belowAvgUtilizedDatanodes(小于閾值的節(jié)點(diǎn)信息)、underUtilizedDatanodes(空載的節(jié)點(diǎn)信息)。負(fù)載均衡的主要過程是將過載節(jié)點(diǎn)和大于閾值的節(jié)點(diǎn)數(shù)據(jù)往空載節(jié)點(diǎn)和小于閾值的節(jié)點(diǎn)移動,最終使得各個節(jié)點(diǎn)的存儲空間的利用率偏離集群平均存儲空間利用率在閾值以內(nèi)。

        在同構(gòu)集群中,該負(fù)載均衡策略簡單并可獲得較好的效果。但是在異構(gòu)集群中,由于節(jié)點(diǎn)的硬件配置有可能相差很大,性能高的節(jié)點(diǎn)顯然可以處理更多的數(shù)據(jù)。各個節(jié)點(diǎn)分配給HDFS的可用空間也有可能相差幾倍,將異構(gòu)集群中各個節(jié)點(diǎn)的存儲空間利用率均衡到盡量一致并不能達(dá)到負(fù)載均衡的效果。分析這樣一種情況,假設(shè)集群中的節(jié)點(diǎn)Na的性能是節(jié)點(diǎn)Nb的一半(Pa=1/2 Pb),節(jié)點(diǎn)Na的存儲空間Da為節(jié)點(diǎn)Nb的存儲空間Db兩倍(Da=2Db),節(jié)點(diǎn)Na的存儲空間使用率是節(jié)點(diǎn)Nb的兩倍。即性能低的節(jié)點(diǎn)Na的存儲空間是性能高的節(jié)點(diǎn)的兩倍,調(diào)用默認(rèn)負(fù)載均衡程序,最終得到的期望結(jié)果會是節(jié)點(diǎn)Na的存儲空間利用率等于節(jié)點(diǎn)Nb的存儲空間利用率。表面上看兩異構(gòu)節(jié)點(diǎn)的存儲空間的利用率達(dá)到了一個均衡狀態(tài),實際上,該操作使得集群變得更加不均衡,性能較低的節(jié)點(diǎn)Na獲得了更多的數(shù)據(jù)。這使得低性能節(jié)點(diǎn)承擔(dān)了更多的數(shù)據(jù)負(fù)載,使得該節(jié)點(diǎn)在作業(yè)執(zhí)行過程中成為高負(fù)載節(jié)點(diǎn),同時增加了非本地化任務(wù)的概率,增加了網(wǎng)絡(luò)流量負(fù)載。此時,集群默認(rèn)的負(fù)載均衡策略失效。所以異構(gòu)集群中通過將各個節(jié)點(diǎn)的存儲空間利用率均衡到一個一致的期望值來使得集群負(fù)載均衡的方法是不可取的。基于對默認(rèn)負(fù)載均衡原理及其局限性的分析,我們提出了一種適用于異構(gòu)集群中量化數(shù)據(jù)負(fù)載均衡的數(shù)學(xué)模型。該模型基于各個節(jié)點(diǎn)的性能及存儲空間計算得出各個節(jié)點(diǎn)的理論空間利用率。

        2異構(gòu)集群負(fù)載均衡量化模型

        2.1問題描述

        異構(gòu)集群的異構(gòu)性不僅體現(xiàn)在高性能節(jié)點(diǎn)處理相同的工作消耗更少的時間,還體現(xiàn)在各節(jié)點(diǎn)分配給Hadoop使用的存儲空間之間的差異性。本文提出的均衡模型基于各節(jié)點(diǎn)的性能按比例分配存儲容量,而各節(jié)點(diǎn)存儲空間的異構(gòu)性可能導(dǎo)致異構(gòu)集群中節(jié)點(diǎn)無法承載理想的存儲容量。為此我們提出了一種基于集群異構(gòu)性的量化負(fù)載均衡的數(shù)學(xué)模型。該模型基于各個節(jié)點(diǎn)的性能及存儲空間,分別計算得到各個節(jié)點(diǎn)的理論磁盤利用率。再將用戶輸入的threshold參數(shù)泛化為各個節(jié)點(diǎn)的閾值。最終將異構(gòu)集群的負(fù)載均衡轉(zhuǎn)化為類同構(gòu)集群的負(fù)載均衡,簡化異構(gòu)集群負(fù)載均衡問題的復(fù)雜性。

        2.2相關(guān)參數(shù)及定義

        存儲空間(Cconf(i)):某節(jié)點(diǎn)分配給HDFS使用的容量,而非節(jié)點(diǎn)磁盤容量,Cconf(i)表示第i個節(jié)點(diǎn)的配置容量。

        已用容量(Cused(i)):某個節(jié)點(diǎn)的存儲空間中HDFS使用的容量,Cused(i)表示第i個節(jié)點(diǎn)的已用容量。

        節(jié)點(diǎn)的CPU性能(Pcpu(i)):由于多核的性能是無法達(dá)到1+1=2的效果。查閱相關(guān)資料得知,比較理想的情況下,雙核的每個核的性能為單核的0.8~0.9。所以我們?nèi)《嗪薈PU轉(zhuǎn)換參數(shù)ρ=0.8。得到節(jié)點(diǎn)的CPU性能為:

        Pcpu(i)=ρ×(Ncore(i)-1)×F(i)+F(i)

        (1)

        其中Ncore(i)為節(jié)點(diǎn)的CPU核數(shù),F(xiàn)(i)為節(jié)點(diǎn)的CPU頻率(單位GHZ),ρ為多核CPU轉(zhuǎn)換參數(shù)。

        節(jié)點(diǎn)的內(nèi)存性能(Pmem(i)):對于節(jié)點(diǎn)內(nèi)存的衡量,采用Pmem(i)=Nmem(i),其中Nmem(i)為節(jié)點(diǎn)i的內(nèi)存的大小(單位為MB)。

        定義1節(jié)點(diǎn)相對性能:

        (2)

        式中α和β為CPU性能和內(nèi)存性能的權(quán)重因子,且α+β=1。min(Pcpu),min(Pmen)分別為集群中節(jié)點(diǎn)CPU性能和內(nèi)存性能的最小值。將集群中的所有節(jié)點(diǎn)性能統(tǒng)一為最小值為1的量化值,方便后面的計算。并由此計算出節(jié)點(diǎn)的性能總和:

        (3)

        定義2集群的存儲空間利用率:

        (4)

        定義3各節(jié)點(diǎn)基于性能的理論存儲空間占用容量及各節(jié)點(diǎn)基于性能的理論存儲空間利用率:

        (5)

        (6)

        定義4節(jié)點(diǎn)的動態(tài)存儲空間最大負(fù)載:

        M=(0.8 + 0.2×RAvg2)×100%

        (7)

        由于磁盤空間的異構(gòu)性,節(jié)點(diǎn)的存儲空間有時并不能滿足理論占用容量的需求,這時,我們需要將該節(jié)點(diǎn)理論上多余的數(shù)據(jù)轉(zhuǎn)移到其他節(jié)點(diǎn)。為了確保節(jié)點(diǎn)的存儲空間占用率不超過某一特定百分比這里我們需要定義一個節(jié)點(diǎn)最大負(fù)載。該值應(yīng)該隨著集群存儲空間利用率的提高而提高。當(dāng)集群負(fù)載較輕的時候,節(jié)點(diǎn)的最大負(fù)載應(yīng)該維持在一個低水平上。這里我們采用自定義式(7)來描述節(jié)點(diǎn)動態(tài)最大負(fù)載,M取值范圍[80%,100%),并隨著集群存儲空間利用率Ravg的增大而增大。若Ravg=50%,我們可以得到集群中的單個節(jié)點(diǎn)的最大負(fù)載為M=85%,若Ravg=50%,則M=96.2%。該公式較好地定義了節(jié)點(diǎn)最大負(fù)載,解決了節(jié)點(diǎn)可能出現(xiàn)的負(fù)載過重的問題,避免了用戶靜態(tài)配置導(dǎo)致的參數(shù)不適用的問題。

        根據(jù)節(jié)點(diǎn)最大負(fù)載和各個節(jié)點(diǎn)基于性能的理論利用率,找出那些節(jié)點(diǎn)理論利用率大于節(jié)點(diǎn)最大負(fù)載的節(jié)點(diǎn),并計算出盈余容量,集群盈余容量的計算公式如下:

        (8)

        式中i=1,2,…,n并且Rideal(i)>M 。然后再將這部分容量分配給其他節(jié)點(diǎn)。迭代運(yùn)行,直到集群中沒有節(jié)點(diǎn)的理論容量大于節(jié)點(diǎn)最大負(fù)載值。

        在將盈余容量分配給其他節(jié)點(diǎn)的過程中,以減少機(jī)架間數(shù)據(jù)傳輸為目的,我們采用了同機(jī)架優(yōu)先的策略。該策略如下:當(dāng)前機(jī)架內(nèi)的某節(jié)點(diǎn)基于性能的理論利用率高于節(jié)點(diǎn)最大負(fù)載的時候,優(yōu)先將該節(jié)點(diǎn)的容量分配到該機(jī)架的其他節(jié)點(diǎn)上。為此,我們定義了一個同一機(jī)架和非同一機(jī)架的配置比γ=2。該參數(shù)的意義在于優(yōu)先將當(dāng)前機(jī)架盈余出來的容量存放在同一機(jī)架的其他節(jié)點(diǎn)上,以減少機(jī)架與機(jī)架之間理論存儲空間利用率的差別。最終我們得到一組各個節(jié)點(diǎn)基于性能的理論存儲空間利用率。

        定義5各節(jié)點(diǎn)參數(shù)化的閾值:

        (9)

        用戶輸入的threshold參數(shù)值t是集群達(dá)到平衡狀態(tài)的各節(jié)點(diǎn)存儲空間使用率與集群存儲空間使用率的偏差值的最大值。如果偏差值小于該值,那么我們認(rèn)為該節(jié)點(diǎn)是均衡的。由于異構(gòu)集群中,各個節(jié)點(diǎn)的存儲空間的異構(gòu)性,該閾值所對應(yīng)的存儲空間及節(jié)點(diǎn)性能差別較大,于是我們需要將該閾值根據(jù)式(9)參數(shù)化為各個節(jié)點(diǎn)的閾值。

        2.3算法

        下面介紹算法的詳細(xì)步驟。

        1) 計算各個節(jié)點(diǎn)的相對性能值P(i),節(jié)點(diǎn)的性能總和P以及集群的存儲空間利用率Ravg。

        2) 求出各個節(jié)點(diǎn)基于性能的理論占用容量Cidel(i)及基于性能的理論利用率Ridel(i)。

        3) 計算集群節(jié)點(diǎn)最大負(fù)載值M。

        4) 根據(jù)節(jié)點(diǎn)最大負(fù)載和各個節(jié)點(diǎn)基于性能的理論利用率,找出那些節(jié)點(diǎn)理論利用率大于節(jié)點(diǎn)最大負(fù)載的節(jié)點(diǎn),并計算出盈余容量C_supr。如果沒有找到該類節(jié)點(diǎn),轉(zhuǎn)6)。

        5) 基于機(jī)架的策略,優(yōu)先將盈余容量分配到同一機(jī)架上。然后重新計算各個節(jié)點(diǎn)基于性能的理論利用率并轉(zhuǎn)到4)。

        6) 將用戶輸入的threshold 通過式(8)參數(shù)化為各個節(jié)點(diǎn)的閾值。

        7) 根據(jù)最終計算得到的各節(jié)點(diǎn)基于性能的理論利用率和各節(jié)點(diǎn)參數(shù)化后的閾值,將集群中的節(jié)點(diǎn)分為如表1所示四組。

        表1 節(jié)點(diǎn)分組

        8) 計算各節(jié)點(diǎn)需要移動的數(shù)據(jù)量并移動數(shù)據(jù)。

        9) 算法結(jié)束。

        3實驗與結(jié)果分析

        由于實驗環(huán)境有限,測試環(huán)境由三個機(jī)架共9個節(jié)點(diǎn)組成。其中機(jī)架A中有兩個節(jié)點(diǎn),機(jī)架B中有四個節(jié)點(diǎn),機(jī)架C中有三個節(jié)點(diǎn),Namenode節(jié)點(diǎn)位于機(jī)架B中編號為3的節(jié)點(diǎn),同時該節(jié)點(diǎn)也作為Datanode節(jié)點(diǎn)。所有節(jié)點(diǎn)都安裝為Ubuntu 12.04操作系統(tǒng)。實驗環(huán)境的網(wǎng)絡(luò)拓?fù)淙鐖D1所示。

        圖1 網(wǎng)絡(luò)拓?fù)?/p>

        實驗中我們的負(fù)載均衡器運(yùn)行在節(jié)點(diǎn)編號為3的節(jié)點(diǎn),即Namenode節(jié)點(diǎn)。其中各個節(jié)點(diǎn)的硬件配置如表2所示。

        表2 節(jié)點(diǎn)硬件配置

        為了比較異構(gòu)集群中HDFS默認(rèn)的負(fù)載均衡器和本文改進(jìn)的負(fù)載均衡器之間的效果差異,我們將數(shù)據(jù)塊的副本數(shù)設(shè)定為2,并將其中幾個節(jié)點(diǎn)作為客戶端上傳文本數(shù)據(jù),再刪除其中的部分?jǐn)?shù)據(jù)使集群處于不均衡的狀態(tài)。然后分別運(yùn)行默認(rèn)負(fù)載均衡器和本文改進(jìn)的負(fù)載均衡器,觀察均衡效果。同時,我們分別在運(yùn)行默認(rèn)負(fù)載均衡器后和運(yùn)行本文改進(jìn)的負(fù)載均衡器后執(zhí)行Hadoop的WordCount程序,觀察程序在各個負(fù)載均衡后的執(zhí)行時間。執(zhí)行指令start-balancer.sh-threshold 5 ,即將閾值(threshold)設(shè)定為百分之5并執(zhí)行負(fù)載均衡器,集群的狀態(tài)如表3所示。

        表3 集群負(fù)載狀態(tài)

        續(xù)表3

        由表3的數(shù)據(jù)我們可以看出,改進(jìn)后的數(shù)據(jù)負(fù)載均衡器能夠較好地依據(jù)節(jié)點(diǎn)的性能調(diào)整數(shù)據(jù)的分布。為了驗證本文改進(jìn)的負(fù)載均衡器能夠具有較好的數(shù)據(jù)均衡效果。運(yùn)行WordCount程序以觀察該程序在各狀態(tài)下的執(zhí)行時間。WordCount是Hadoop官方的MapReduce的demo程序。WordCount例程讀取集群中文本文件,并統(tǒng)計文件中單詞出現(xiàn)的頻數(shù)。不同于蒙特卡羅方法計算π的demo例程,蒙特卡洛發(fā)計算π值,對節(jié)點(diǎn)的CPU性能要求較高,屬于CPU密集型作業(yè),而WordCount程序?qū)儆贗/O密集型作業(yè),對數(shù)據(jù)的分布更加敏感。本實驗采用節(jié)點(diǎn)5作為客戶端提交用戶WordCount作業(yè)20次,觀察作業(yè)的執(zhí)行時間,并且作業(yè)執(zhí)行前數(shù)據(jù)已經(jīng)分布在集群中。

        數(shù)據(jù)分布均衡的集群,可以有效減少作業(yè)調(diào)度帶來的計算資源和數(shù)據(jù)資源在不同的物理節(jié)點(diǎn)而產(chǎn)生的數(shù)據(jù)遷移問題,并有效減少網(wǎng)絡(luò)I/O,降低所謂的“非本地化任務(wù)”,縮短作業(yè)的執(zhí)行時間[10, 11]。圖2顯示了在不同數(shù)據(jù)負(fù)載均衡算法下作業(yè)的執(zhí)行時間,橫坐標(biāo)表示的是我們執(zhí)行作業(yè)的序列號,縱坐標(biāo)表示的是作業(yè)的執(zhí)行時間。從圖中我們可以清楚的看出,相較于默認(rèn)數(shù)據(jù)負(fù)載均衡算法下作業(yè)的執(zhí)行時間,改進(jìn)后的數(shù)據(jù)負(fù)載均衡算法可以有效地減少作業(yè)的執(zhí)行時間,提高集群效率。

        圖2 不同均衡算法下作業(yè)的執(zhí)行時間

        4結(jié)語

        本文分析了集群默認(rèn)數(shù)據(jù)負(fù)載均衡的局限性,并針對該問題提出了異構(gòu)集群數(shù)據(jù)負(fù)載均衡的量化模型。該模型通過綜合考慮節(jié)點(diǎn)性能的異構(gòu)性和存儲空間的異構(gòu)性求得各個節(jié)點(diǎn)存儲空間的理論均衡利用率,并將用戶輸入的閾值量化為各個節(jié)點(diǎn)的負(fù)載參數(shù)。然后移動各個節(jié)點(diǎn)的數(shù)據(jù),使得各個節(jié)點(diǎn)的存儲空間利用率與理論均衡利用率的偏差值不大于各個節(jié)點(diǎn)的理論閾值。通過實驗分析,證明了該模型能夠讓集群達(dá)到更均衡的狀態(tài),一定程度上減少了作業(yè)的執(zhí)行時間,提高了集群的整體性能。

        后續(xù)的研究將繼續(xù)關(guān)注Hadoop異構(gòu)集群中數(shù)據(jù)的負(fù)載均衡,特別關(guān)注集群中作業(yè)的執(zhí)行與數(shù)據(jù)副本之間的關(guān)系。

        參考文獻(xiàn)

        [1] White T.Hadoop:The definitive guide[M].O’Reilly Media,Inc,2012.

        [2] 王意潔,孫偉東,周松,等.云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J].Journal of Software,2012,23(4):962-986.

        [3] Sun H,Chen J,Liu C,et al.Improving MapReduce Performance via Heterogeneity-Load-Aware Partition Function[C]//Cluster Computing(CLUSTER),2011 IEEE International Conference on.IEEE,2011:557-560.

        [4] 楊昊溟.云存儲系統(tǒng)的數(shù)據(jù)副本放置算法研究[D].電子科技大學(xué),2013.

        [5] 王寧,楊揚(yáng),孟坤,等.云計算環(huán)境下基于用戶體驗的成本最優(yōu)存儲策略研究[J].電子學(xué)報,2014,42(1):20-27.

        [6] 劉琨,鈕文良.一種改進(jìn)的Hadoop數(shù)據(jù)負(fù)載均衡算法[J].河南理工大學(xué)學(xué)報:自然科學(xué)版,2013,32(3):332-336.

        [7] Xie J,Yin S,Ruan X,et al.Improving mapreduce performance through data placement in heterogeneous hadoop clusters[C]//Parallel & Distributed Processing,Workshops and Phd Forum (IPDPSW),2010 IEEE International Symposium on.IEEE,2010:1-9.

        [8] 劉琨,肖琳,趙海燕.Hadoop中云數(shù)據(jù)負(fù)載均衡算法的研究及優(yōu)化[J].微電子學(xué)與計算機(jī),2012,29(9):18-22.

        [9] 陶永才,張寧寧,石磊,等.異構(gòu)環(huán)境下云計算數(shù)據(jù)副本動態(tài)管理研究[J].小型微型計算機(jī)系統(tǒng),2013,34(7):1487-1492.

        [10] Ananthanarayanan G,Agarwal S,Kandula S,et al.Scarlett:coping with skewed content popularity in mapreduce clusters[C]//Proceedings of the sixth conference on Computer systems.ACM,2011:287-300.

        [11] Wei Q,Veeravalli B,Gong B,et al.CDRM:A cost-effective dynamic replication management scheme for cloud storage cluster[C]//Cluster Computing (CLUSTER),2010 IEEE International Conference on.IEEE,2010:188-196.

        RESEARCH ON DATA LOAD BALANCING IN HETEROGENEOUS HADOOP CLUSTER

        Zhang Song1Du Qingwei1Sun Jing2Sun Zhen2

        1(SchoolofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,Nanjing210016,Jiangsu,China)2(Unit94860ofPLA,Nanjing210016,Jiangsu,China)

        AbstractIn Hadoop, the data load balancing has profound effect on the exertion of platform performance. First we analysed the limitation of default data load balancing, aiming at the problem of current default HDFS (Hadoop distributed file system) that the data load balancing algorithm only focuses on the storage space utilisation but not considers the heterogeneity between nodes, we presented a mathematic model which quantifies the data load balancing of heterogeneous clusters. The model calculates the theoretical space utilisation of each node based on their allocated storage space and processing capacity, and dynamically adjusts the maximum load of each node according to current average utilisation of cluster storage space. Experimental result showed that the proposed data balancing strategy could enable the heterogeneous clusters to reach more reasonable balancing state so as to improve clusters efficiency, and to decrease the execution time of job effectively as well.

        KeywordsHadoopHDFSData load balancingHeterogeneous cluster

        收稿日期:2014-11-14。國家自然科學(xué)基金項目(61202350)。張松,碩士生,主研領(lǐng)域:計算機(jī)網(wǎng)絡(luò)與分布式計算。杜慶偉,副教授。孫靜,助理工程師。孫振,助理工程師。

        中圖分類號TP391

        文獻(xiàn)標(biāo)識碼A

        DOI:10.3969/j.issn.1000-386x.2016.05.009

        猜你喜歡
        作業(yè)
        作業(yè),我終于打敗你了!
        小主人報(2022年1期)2022-08-10 08:28:44
        讓人羨慕嫉妒恨的“作業(yè)人”
        作業(yè)聯(lián)盟
        我愿作業(yè)少一點(diǎn)
        快來寫作業(yè)
        一次特殊的作業(yè)
        誰沒交作業(yè)
        修改“作業(yè)”
        跟一群抄作業(yè)的講垂直進(jìn)步?
        能源(2016年2期)2016-12-01 05:10:46
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        国产亚洲精品福利在线| 青青草中文字幕在线播放| 精品人妻69一区二区三区蜜桃| 成人免费在线亚洲视频| 亚洲成在人线视av| 免费a级毛片18以上观看精品| 久久久久久人妻一区二区三区| 午夜婷婷国产麻豆精品| 欧美精品久久久久久三级| 国产日产免费在线视频 | 麻豆AⅤ精品无码一区二区| 最新国产成人综合在线观看| 亚洲av性色精品国产| 日韩午夜免费视频精品一区| 色偷偷偷在线视频播放| 欧美放荡的少妇| 一本色道久久综合狠狠躁| 四虎成人精品国产一区a| 偷拍一区二区三区在线观看| 日韩有码在线一区二区三区合集 | 亚洲人成网站77777在线观看| 无码人妻精品一区二区三区下载 | 免费无码成人av在线播| 在线视频中文字幕乱人伦| 精品亚洲视频免费观看网站| 与最丰满美女老师爱爱视频| 亚洲熟妇无码av在线播放| 一区二区三区在线 | 欧| 奇米影视久久777中文字幕 | 一区二区三区av资源网| 人妻少妇满足中文字幕| 免费观看18禁无遮挡真人网站| 久久乐国产精品亚洲综合| 91爱爱视频| 蜜桃精品国产一区二区三区 | 三年片在线观看免费大全电影| 91精品啪在线观看国产色| 一区二区三区在线观看精品视频| 日本一区二区在线高清观看| 麻豆精品久久久久久中文字幕无码| 亚洲成av人在线播放无码|