亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于負載預(yù)測的HDFS動態(tài)負載均衡改進算法

        2019-05-15 07:11:32邵必林王莎莎
        探測與控制學(xué)報 2019年2期
        關(guān)鍵詞:靜態(tài)集群閾值

        邵必林,王莎莎

        (西安建筑科技大學(xué)管理學(xué)院,陜西 西安 710055)

        0 引言

        HDFS[1-3]是Hadoop平臺中的分布式文件系統(tǒng),采用分布式布局模型[4],在大數(shù)據(jù)處理尤其是存儲方面具有非常高的可靠性、時效性。HDFS中有一個Balancer程序,是以存儲空間利用率來評估節(jié)點負載量,程序初始運行時,由用戶輸入一個閾值(threshold,范圍為0~100),一般系統(tǒng)默認值為10,當數(shù)據(jù)節(jié)點中的負載值與平均負載最大差值小于閾值時,Balancer認為集群處于均衡狀態(tài),否則就會通過遷移操作來使集群到達負載均衡[5]。

        雖然HDFS以諸多優(yōu)勢而被廣泛應(yīng)用,但其在負載均衡過程中,只采用存儲空間利用率這單一指標來對集群做出均衡決策,并且采用設(shè)定靜態(tài)threshold的遷移判斷方法,對節(jié)點進行數(shù)據(jù)遷移和任務(wù)調(diào)度,很大程度影響了HDFS的存儲效率。文獻[6]在其默認均衡基礎(chǔ)上,定義了一個多指標負載衡量函數(shù),但其參與計算的指標過多,容易帶來計算浪費和等待延遲問題。文獻[7]對Hadoop異構(gòu)集群中各節(jié)點的性能差異給集群均衡帶來的影響進行綜合考慮,但卻忽略了集群整體狀態(tài)對負載均衡效果的影響。文獻[8]提出一種以存儲熵作為集群均衡判斷的新思路,有效提高了系統(tǒng)整體讀寫效率,但存儲熵的計算具有明顯的滯后性。

        現(xiàn)有的HDFS負載均衡改進算法在解決負載狀態(tài)衡量的片面性、滯后性,以及閾值設(shè)定的靜態(tài)性問題等方面存在不足,本文針對此問題,提出了一種基于負載預(yù)測的HDFS動態(tài)負載均衡改進算法。

        1 負載預(yù)測模型

        1.1 節(jié)點負載計算函數(shù)

        在分布式存儲系統(tǒng)研究中,研究者往往是以存儲空間使用情況來對集群中數(shù)據(jù)節(jié)點的負載進行評估,但實際上,單一指標并無法準確衡量每個節(jié)點所承受的真實負載,節(jié)點的繁忙程度對其負載狀態(tài)的影響也是至關(guān)重要的[9-10]。分析存儲節(jié)點的繁忙程度特征可知,在其運行過程中,CPU占用較少,主要存在大量的數(shù)據(jù)I/O操作,且數(shù)據(jù)的I/O快慢很大程度上取決于網(wǎng)絡(luò)帶寬的使用情況。

        為了避免單一指標對負載狀態(tài)衡量的片面性,和對所有負載特征同時采集可能造成的資源浪費和響應(yīng)延遲問題。本文選取存儲空間利用率Lstoragei、網(wǎng)絡(luò)帶寬占用率Lneti和I/O占用率LI/Oi三個重要指標來建立存儲節(jié)點負載計算函數(shù),其相對于HDFS中的節(jié)點負載衡量更加全面,且契合存儲節(jié)點。設(shè)分布式存儲集群中S={S1,S2,…,Sn},其中Si表示集群中第i個存儲節(jié)點,則存儲節(jié)點i的綜合負載值計算函數(shù)如下:

        Li=ω1Lstoragei+ω2Lneti+ω3LI/Oi

        (1)

        式(1)中,ωi為各負載特征對存儲效率影響大小的權(quán)重系數(shù),ω1+ω2+ω3=1且ωi>0。

        1.2 二次指數(shù)平滑預(yù)測模型

        分析大量的負載歷史值可知,負載變化存在短期上升或下降的線性波動。在對呈線性變化趨勢的負載時間序列采用一次指數(shù)平滑,結(jié)果會產(chǎn)生明顯偏差和滯后,二次指數(shù)平滑可以在此基礎(chǔ)上對其再做一次指數(shù)平滑來對其結(jié)果進行修正,使預(yù)測效果最佳。此外,由于三次指數(shù)平滑的時間復(fù)雜度過高,不適用于進行頻繁的負載預(yù)測[11-13]。所以本文的負載預(yù)測模型是建立在二次指數(shù)平滑算法的基礎(chǔ)上進行優(yōu)化研究。假設(shè)t時刻的負載時間序列{Lt}(t=1,2,…),則其二次指數(shù)平滑模型定義為:

        (2)

        其二次指數(shù)預(yù)測模型為:

        (3)

        1.3 二次指數(shù)平滑預(yù)測模型優(yōu)化

        對式(2)進行逐次展開得:

        (4)

        綜上所述可知,α需要隨著時間推進和數(shù)據(jù)更新進行不斷的動態(tài)調(diào)整,同時要舍棄掉距離當前t時刻較遠的負載歷史序列,才能使預(yù)測模型始終處于預(yù)測效果優(yōu)化狀態(tài)且保持算法復(fù)雜度最低。

        將式(4)中兩個公式各項系數(shù)之和進行歸一化處理,得到:

        (5)

        基于此,提出優(yōu)化后的動態(tài)二次指數(shù)平滑新模型為:

        (6)

        式(6)中,vt作為相應(yīng)的動態(tài)平滑參數(shù);t0為保留的負載時間序列的{Lt}長度。

        優(yōu)化后的動態(tài)二次指數(shù)預(yù)測公式為:

        (7)

        考慮到初始值對負載預(yù)測效果影響非常小,為了將算法的復(fù)雜度降至最低,對其使用靜態(tài)值。

        (8)

        本文采用預(yù)測誤差平方和SSE最小為目標作為評價優(yōu)化模型,即:

        (9)

        對上式非線性優(yōu)化模型進行求解即可得到最優(yōu)的平滑參數(shù)α,進而計算出相應(yīng)的動態(tài)平滑參數(shù)使預(yù)測結(jié)果更準確。本文采用執(zhí)行速度快,計算復(fù)雜度低的最速下降算法來求解最優(yōu)的α值。過程如下:

        1)分別給定初值α0和允許誤差X>0。

        2)計算SSE′(α0),如果‖SSE′(α0)‖≤X,則α0就是最優(yōu)平滑參數(shù),否則進行一維搜索,利用黃金分割法來計算最優(yōu)步長λk-1,計算αk=αk-1-λk-1SSE′(αk-1),(k≥1),直至滿足近似最優(yōu)解條件。

        3)最后將αk代入式(5)求得動態(tài)平滑參數(shù)vt,使用改進后的指數(shù)平滑預(yù)測模型進行負載預(yù)測。

        根據(jù)以往研究經(jīng)驗,負載序列長期趨勢變化不大但存在上下波動,靜態(tài)算法中的α取值一般在0.3~0.5之間。優(yōu)化模型中,為了使算法計算簡單且結(jié)果精確度高,在進行多次實驗后,最終確定了本文t0的最佳取值。圖1為二次指數(shù)平滑的靜態(tài)算法和本文優(yōu)化后的動態(tài)算法與實際負載的預(yù)測結(jié)果對比,其中α=0.4,t0=6。分析可知靜態(tài)算法中由于α取值固定,預(yù)測過程中難以實現(xiàn)在復(fù)雜的集群環(huán)境中對負載的變化做出自適應(yīng)的改變,預(yù)測結(jié)果偏差較大。本文優(yōu)化后的動態(tài)算法中α是通過反復(fù)迭代尋求SSE的最優(yōu)解得到,整體預(yù)測結(jié)果很大程度優(yōu)于靜態(tài)算法,更適合建立負載預(yù)測模型來作為數(shù)據(jù)調(diào)度策略的一個重要依據(jù)。

        圖1 預(yù)測結(jié)果對比分析Fig.1 Comparative analysis of prediction results

        2 動態(tài)負載均衡改進算法

        在異構(gòu)分布式存儲系統(tǒng)中,各節(jié)點的資源和性能各不相同,負載均衡算法是將存儲資源合理的分配調(diào)度至各節(jié)點,使集群保持均衡的狀態(tài)[14-16]。HDFS中默認的負載均衡思路非常簡單,由用戶設(shè)置靜態(tài)閾值,將數(shù)據(jù)節(jié)點劃分為不同負載狀態(tài)的集合,最后將高負載狀態(tài)集合中的數(shù)據(jù)向低負載狀態(tài)集合中的節(jié)點進行遷移,直至所有節(jié)點負載與平均負載的差值小于設(shè)定的閾值,才會認為集群處于正常均衡狀態(tài)。其中閾值的設(shè)置是HDFS集群中負載均衡的關(guān)鍵,決定了系統(tǒng)達到平衡時所需要遷移的數(shù)據(jù)量和均衡效率。HDFS中閾值是人為設(shè)置的靜態(tài)參數(shù),沒有考慮集群的整體狀態(tài),也不能隨著集群環(huán)境的改變而動態(tài)的做出調(diào)整,具有較強的主觀性和靜態(tài)性。

        2.1 動態(tài)閾值計算模型

        基于以上分析可知,閾值的設(shè)定需要充分考慮集群的整體狀態(tài)和環(huán)境變化,時刻做出動態(tài)調(diào)整,才能使整體集群隨時處于最佳的均衡效果,且不會因為不必要的負載遷移而帶來的資源浪費,因此,本文提出一種動態(tài)閾值的獲取方式。動態(tài)閾值是根據(jù)節(jié)點的負載預(yù)測值和性能對集群的整體狀態(tài)進行綜合評估,其中包括集群的繁忙程度、響應(yīng)效率、均衡程度等信息來動態(tài)計算閾值,其計算模型具體如下:

        threshold=u1α+u2β+u3γ

        (10)

        式(10)中,μi>0且u1+u2+u3=1,α為集群的繁忙程度,β為集群的響應(yīng)效率,γ為集群的均衡程度。由于threshold只能屬于在0~100間的值,所以當計算得到的動態(tài)threshold<0時,自動替換為默認值10,當threshold>100時,自動替換為100。

        2.1.1 集群繁忙程度計算

        集群的繁忙程度可以使用集群中所有節(jié)點的平均負載Lavg來表示,在進行Lavg的計算時,為了減少集群繁忙程度衡量的滯后性,采用集群中所有節(jié)點的負載預(yù)測值來對其平均負載Lavg進行計算。具體如下:

        (11)

        2.1.2 集群響應(yīng)效率計算

        集群中節(jié)點的讀寫時間直接影響系統(tǒng)整體的響應(yīng)時間,節(jié)點的讀寫時間又與節(jié)點的存儲量和性能密切相關(guān),節(jié)點i的平均讀寫時間可由下式計算:

        (12)

        式(12)中,SNi為第i個節(jié)點存儲的數(shù)據(jù)量;SRi為第i個節(jié)點中磁盤的I/O速率。

        將數(shù)據(jù)節(jié)點i在集群中數(shù)據(jù)讀寫時間占整個集群中所有節(jié)點的讀寫時間比重定義為節(jié)點的響應(yīng)效率:

        (13)

        每個節(jié)點的響應(yīng)效率為βi,則集群整體的響應(yīng)效率為:

        (14)

        2.1.3 集群均衡程度計算

        采用集群中各存儲節(jié)點的均方差ε來衡量集群內(nèi)部負載均衡程度,ε越大,說明集群內(nèi)部狀態(tài)越不均衡,ε越小,說明集群內(nèi)部狀態(tài)越均衡, 計算公式如下:

        (15)

        2.2 改進算法具體步驟和流程

        1)系統(tǒng)初始化,設(shè)置采集節(jié)點信息的周期值T(10~15 s),數(shù)據(jù)節(jié)點主動且周期性的對自身負載信息進行獲取,包括存儲空間利用率Lstoragei、網(wǎng)絡(luò)帶寬占用率Lneti、I/O占用率LI/Oi、已存儲的數(shù)據(jù)量SNi、磁盤的I/O速率SRi。代入式(1)中計算節(jié)點的負載值Li,并將Li、SNi、SRi等信息反饋給控制節(jié)點。

        3)根據(jù)2)中得到的預(yù)測結(jié)果和1)中的反饋信息分別計算α,β,γ,最后由式(10)計算出動態(tài)threshold并做均衡判斷。當集群中所有節(jié)點的負載與平均負載的差值都小于threshold時,則認為集群處于正常范圍,不需要進行遷移調(diào)度;反之,需要對其進行數(shù)據(jù)遷移和任務(wù)調(diào)度,直至集群處于正常范圍。

        具體算法流程如圖2所示。

        圖2 改進的算法負載均衡流程圖Fig.2 Improved algorithm load balancing flow chart

        3 實驗結(jié)果及分析

        為驗證上述算法的高效性和優(yōu)越性,采用VMware Workstation組建包含13個節(jié)點的Hadoop集群環(huán)境,其中7個節(jié)點分布于A硬盤上, I/O速率為480 MB/s,剩余節(jié)點分布于B硬盤上,I/O速率為510 MB/s。集群中有1個負責(zé)監(jiān)控和任務(wù)調(diào)度的控制節(jié)點(NameNode)和12個執(zhí)行任務(wù)的數(shù)據(jù)節(jié)點(DataNode),其配置均為:CPU: Intel Core i5-4200M 2.50 GHz;內(nèi)存:4 GB;硬盤:8 GB;操作系統(tǒng):CentOS 6.7;編程語言:Java 1.7.0;Hadoop版本:2.5.2。在實驗中,采集節(jié)點信息的周期為15 s,其中本文算法中負載衡量函數(shù)和閾值計算函數(shù)中的權(quán)系數(shù)參數(shù)通過層次分析法,在算法實現(xiàn)過程中計算得到。

        1)負載均衡效果對比。圖3顯示了啟用負載均衡器后的1 h集群均衡程度隨著時間推移的變化情況。圖4為上傳不同大小的數(shù)據(jù)文件,直至調(diào)度結(jié)束后,集群均衡程度的對比結(jié)果。圖中數(shù)據(jù)均為進行3組實驗后取得的平均值。如圖3所示,采用HDFS算法的集群均衡程度1 h內(nèi)基本沒有變化,而采用本文算法在啟用負載均衡器后的18 min內(nèi)就明顯的減少了負載均衡度值,最終均衡效果要優(yōu)于HDFS算法。其原因是HDFS算法中采用默認靜態(tài)閾值10,也就是當集群負載均衡度小于10%時,會認為系統(tǒng)處于均衡狀態(tài),不會對其進行負載遷移操作。而本文的閾值是通過實時評估系統(tǒng)的整體狀態(tài)動態(tài)得到的,從而可以使系統(tǒng)達到更好的均衡效果。圖4結(jié)果說明,采用HDFS算法時,集群的均衡程度受上傳數(shù)據(jù)大小的影響比較大,隨著文件大小增加,其均衡效果會減弱,而本文算法中的均衡程度則受影響較小,始終保持在0.01~0.02之間。其很大部分是因為本文算法引入了負載預(yù)測模型,所以隨著集群環(huán)境的改變其穩(wěn)定性和適應(yīng)性更好。

        圖3 隨時間推移的集群均衡程度變化Fig.3 The loading balance degree changing chart over time

        圖4 基于數(shù)據(jù)上傳的負載均衡度對比Fig.4 Load balancing comparison based on data upload

        2)任務(wù)執(zhí)行效率對比。為了更好觀察本文算法的執(zhí)行效率,將本文算法、HDFS算法和文獻[8]中的算法進行實驗對比。圖5為系統(tǒng)對不同并發(fā)任務(wù)數(shù)的作業(yè)完成時間對比結(jié)果。如圖所示,任務(wù)完成時間與并發(fā)任務(wù)數(shù)大小成正比,隨著并發(fā)任務(wù)數(shù)增加,完成時間也相應(yīng)增加。但文本算法與HDFS算法和文獻[8]中的算法相比較,所用的時間最少。當并發(fā)任務(wù)數(shù)為300時,HDFS算法用時為460 s,文獻[8]算法用時443 s,本文算法用時355 s,本文算法執(zhí)行效率相比于HDFS算法和文獻[8]中的算法可分別提升26%和20%。其是由于本文算法中的節(jié)點信息獲取由數(shù)據(jù)節(jié)點進行,減少了控制節(jié)點的存儲負擔(dān)和計算開銷,且本文在進行算法設(shè)計時,盡可能地以降低算法時間復(fù)雜度為目標,因此大大減少了整體系統(tǒng)的作業(yè)執(zhí)行時間。

        圖5 任務(wù)完成時間對比Fig.5 Task completion time comparison

        4 結(jié)論

        本文提出了一種基于負載預(yù)測的HDFS動態(tài)負載均衡改進算法。該算法通過建立存儲節(jié)點負載值的多指標計算函數(shù),并使用優(yōu)化后的二次指數(shù)平滑預(yù)測模型對其負載值進行動態(tài)預(yù)測,最后根據(jù)預(yù)測結(jié)果和節(jié)點性能對集群的實時整體狀態(tài)進行評估,建立動態(tài)閾值計算模型,進而對集群做出均衡判斷和決策,有效彌補了HDFS中負載狀態(tài)衡量的片面性、滯后性以及閾值的靜態(tài)性等缺陷。理論分析和實驗結(jié)果表明,本文改進算法對存儲系統(tǒng)中的負載均衡調(diào)度具有高效性,不僅達到了更好的均衡效果,也縮短了作業(yè)的完成時間,提高了系統(tǒng)的整體響應(yīng)效率。

        猜你喜歡
        靜態(tài)集群閾值
        靜態(tài)隨機存儲器在軌自檢算法
        海上小型無人機集群的反制裝備需求與應(yīng)對之策研究
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:40
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        Python與Spark集群在收費數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機器人
        室內(nèi)表面平均氡析出率閾值探討
        機床靜態(tài)及動態(tài)分析
        機電信息(2015年9期)2015-02-27 15:55:56
        国产三级精品三级在线观看| 中文字幕人妻激情在线视频 | 天天射综合网天天插天天干| 日本真人做人试看60分钟| 日产无人区一线二线三线新版| 亚洲中文久久久久无码| 日本高清在线播放一区二区| 内射人妻无套中出无码| 人与禽交av在线播放| 国产精品自产拍在线观看中文| 亚洲综合小综合中文字幕| 麻豆国产精品va在线观看不卡| 国产真人无码作爱视频免费| 欧美日韩国产另类在线观看| 日本妇女高清一区二区三区| 久久久国产乱子伦精品| aaaaa级少妇高潮大片免费看 | 丝袜美腿网站一区二区| 久久影院最新国产精品| 夜夜躁狠狠躁日日躁视频| 亚洲av无码乱码国产精品fc2| 国产欧美日本亚洲精品一5区| av在线高清观看亚洲| 国产精品久久久久aaaa| 国产精品视频yuojizz| 麻豆av在线免费观看精品| av网站免费线看精品| 人妻 日韩精品 中文字幕| 黄色录像成人播放免费99网| 免费国产一区二区视频| 国产永久免费高清在线| 9191在线亚洲精品| 成年女人午夜特黄特色毛片免| 新婚少妇无套内谢国语播放| 亚洲美免无码中文字幕在线| 国产极品美女到高潮视频| 亚洲网站一区在线播放| 成人国内精品久久久久一区| 久久亚洲国产成人亚| 日本a级片一区二区三区| 女人被狂躁c到高潮视频 |