樊源泉,伍衛(wèi)國,許云龍,高顏
(西安交通大學(xué)電子與信息工程學(xué)院,710049,西安)
?
MapReduce環(huán)境中的性能特征能耗估計(jì)方法
樊源泉,伍衛(wèi)國,許云龍,高顏
(西安交通大學(xué)電子與信息工程學(xué)院,710049,西安)
針對(duì)MapReduce系統(tǒng)中負(fù)載能耗特征多樣性為系統(tǒng)成本調(diào)度帶來的負(fù)載與節(jié)點(diǎn)難以匹配的問題,提出一種基于負(fù)載性能特征的能耗估計(jì)方法。該方法以MapReduce系統(tǒng)中各節(jié)點(diǎn)操作系統(tǒng)的性能事件為依據(jù)估計(jì)在線負(fù)載的能耗。為了提升負(fù)載能耗估計(jì)結(jié)果的準(zhǔn)確度,采用機(jī)器學(xué)習(xí)的方法,在負(fù)載執(zhí)行時(shí),搜集系統(tǒng)的性能特征,并建立估計(jì)模型的樣本集;采用粗糙集理論中屬性約簡方法對(duì)性能特征屬性進(jìn)行約簡;在性能屬性約簡的結(jié)果之上,基于支持向量機(jī)理論,建立能耗的估計(jì)模型,對(duì)負(fù)載運(yùn)行時(shí)系統(tǒng)的能耗進(jìn)行準(zhǔn)確的估計(jì)。實(shí)驗(yàn)結(jié)果表明:基于性能特征的能耗估計(jì)方法擁有較高的估計(jì)準(zhǔn)確率,在單作業(yè)環(huán)境中平均相對(duì)誤差為4%,在多作業(yè)環(huán)境中可達(dá)到4.5%。
能耗估計(jì);性能特征;MapReduce
隨著MapReduce[1]應(yīng)用的增多及數(shù)據(jù)處理規(guī)模的劇增,基于MapReduce計(jì)算模型的集群系統(tǒng)的能耗問題變得日益突出。平臺(tái)資源協(xié)調(diào)器YARN(yet another resource negotiator)[2]是支持MapReduce計(jì)算模型的新一代開源系統(tǒng),提升YARN系統(tǒng)中作業(yè)執(zhí)行的能效對(duì)于節(jié)約成本、保護(hù)環(huán)境意義重大。但是,YARN集群中任務(wù)隨機(jī)達(dá)到的特性,造成集群中部分工作節(jié)點(diǎn)在某些時(shí)間段出現(xiàn)空閑等待,系統(tǒng)能源的利用率較低[3]。此外,集群工作節(jié)點(diǎn)的異構(gòu)特性導(dǎo)致系統(tǒng)負(fù)載失衡,這也對(duì)系統(tǒng)的能效產(chǎn)生負(fù)面影響。當(dāng)前提升YARN集群系統(tǒng)能效的方法分為兩類:基于工作節(jié)點(diǎn)伸縮的節(jié)能方法和基于負(fù)載成本調(diào)度的節(jié)能方法[4]。在以上兩種方法中,一個(gè)核心的問題是負(fù)載能耗特征的獲取,據(jù)此為各個(gè)工作節(jié)點(diǎn)匹配合適的負(fù)載。因此,負(fù)載能耗的準(zhǔn)確估計(jì)是提升YARN系統(tǒng)能效的關(guān)鍵。但是,YARN系統(tǒng)中眾多的配置參數(shù)、工作節(jié)點(diǎn)的異構(gòu)特性及負(fù)載性能特征的多樣性為能耗估計(jì)帶來了挑戰(zhàn)。
當(dāng)前,針對(duì)MapReduce系統(tǒng)中負(fù)載能耗估計(jì)的方法有如下兩類。第一類為基于硬件性能計(jì)數(shù)器的能耗估計(jì)方法。該類方法在作業(yè)執(zhí)行過程中,采集工作節(jié)點(diǎn)中各個(gè)組成部件的性能計(jì)數(shù)器數(shù)據(jù),據(jù)此估計(jì)工作節(jié)點(diǎn)的能耗。Rong等提出了eTune系統(tǒng)[5-6],該系統(tǒng)依賴于專用的能耗測量設(shè)備測量工作節(jié)點(diǎn)中各個(gè)功能部件的能耗,面對(duì)數(shù)據(jù)中心中大規(guī)模的工作節(jié)點(diǎn),可用性不強(qiáng)。另外,該方法適用于CPU密集型的負(fù)載,針對(duì)I/O密集型的負(fù)載,估計(jì)結(jié)果的準(zhǔn)確性不高。第二類方法采用軟件測量的方式估計(jì)系統(tǒng)的能耗。Fan等基于CPU利用率建立了工作節(jié)點(diǎn)的能耗估計(jì)模型[7]。針對(duì)異構(gòu)的Web服務(wù)器,Taliver等考慮磁盤利用率及CPU利用率對(duì)能耗的影響,建立了能耗估計(jì)模型[8]。但是,以上兩種方法僅考慮工作節(jié)點(diǎn)中個(gè)別組件產(chǎn)生的能耗,預(yù)測結(jié)果的準(zhǔn)確度不高。Suzanne等開發(fā)了Mantis系統(tǒng)[9]估計(jì)負(fù)載產(chǎn)生的能耗。Mantis系統(tǒng)僅考慮CPU及磁盤產(chǎn)生的能耗,將CPU利用率和磁盤利用率作為模型的參數(shù),基于線性回歸的方法估計(jì)負(fù)載的能耗,但是當(dāng)作業(yè)在多處理器環(huán)境中運(yùn)行時(shí),Mantis估計(jì)的誤差較大。
針對(duì)以上問題,本文提出了一種基于負(fù)載性能特征的能耗估計(jì)方法,該方法能夠準(zhǔn)確估計(jì)MapReduce系統(tǒng)中作業(yè)運(yùn)行時(shí)產(chǎn)生的能耗。
能耗估計(jì)的流程如圖1所示,其中包括3個(gè)步驟:負(fù)載性能特征數(shù)據(jù)的離散化、基于粗糙集的性能屬性的約簡和基于最小平方支持向量機(jī)的能耗估計(jì)。以下是估計(jì)過程的具體描述。
圖1 能耗估計(jì)流程
1.1 性能特征數(shù)據(jù)離散化
在MapReduce作業(yè)執(zhí)行過程中,從每個(gè)節(jié)點(diǎn)采集到的負(fù)載性能數(shù)據(jù)為數(shù)值型,首先采用粗糙集理論中的有監(jiān)督的離散化方法[10-11]對(duì)性能數(shù)據(jù)離散化處理。設(shè)X=(x1,x2,x3,…,xn)為離散化處理之前的樣本數(shù)據(jù)集,xi由m個(gè)負(fù)載運(yùn)行時(shí)系統(tǒng)的性能事件組成,即xi=(xi1,xi2,xi3,…,xim),其中xij為任一性能事件。給定任一性能事件Ai,設(shè)閾值為T,X被T分割成兩個(gè)子集合,則稱T為X的一個(gè)斷點(diǎn)。
設(shè)離散化處理之前的樣本數(shù)據(jù)集X被斷點(diǎn)劃分為t個(gè)區(qū)間,X中的任一樣本xi所對(duì)應(yīng)的系統(tǒng)實(shí)時(shí)能耗值為P(xi),X中各個(gè)樣本對(duì)應(yīng)的不同的系統(tǒng)實(shí)時(shí)能耗值的個(gè)數(shù)為k,X所包含的總樣本個(gè)數(shù)為N,第i個(gè)區(qū)間中各樣本對(duì)應(yīng)的能耗等于pi的樣本總數(shù)為sij,X中各樣本對(duì)應(yīng)的能耗值為pi的樣本總數(shù)為si,第j個(gè)劃分區(qū)間中樣本數(shù)為nj,則X相對(duì)于t的列聯(lián)系數(shù)為
(1)
設(shè)離散化處理之前的樣本數(shù)據(jù)集X被劃分為t個(gè)區(qū)間,X中的樣本xi所對(duì)應(yīng)的系統(tǒng)實(shí)時(shí)能耗值為P(xi),X的t劃分的列聯(lián)系數(shù)為χ2(t),則X對(duì)t劃分的評(píng)判標(biāo)準(zhǔn)為
A(t)=χ2(t)/t(k-1)
(2)
性能數(shù)據(jù)離散化的過程為求斷點(diǎn)集T,依據(jù)T中各個(gè)斷點(diǎn)對(duì)離散化處理之前的樣本數(shù)據(jù)集X進(jìn)行劃分,在每次劃分時(shí)使用A(t)作為評(píng)判,尋找最佳斷點(diǎn),依據(jù)最佳斷點(diǎn)對(duì)每個(gè)屬性的值域進(jìn)行劃分。
1.2 性能屬性的約簡
MapReduce負(fù)載的各性能特征屬性對(duì)能耗的影響不同,為了去除性能特征屬性中的冗余,基于粗糙集理論中的信息熵[12]對(duì)性能屬性約簡。設(shè)論域U,P和Q分別為U上的兩個(gè)集合,X和Y分別為由P和Q確定的U的兩個(gè)劃分,其中X=(X1,X2,X3,…,Xn),Y=(Y1,Y2,Y3,…,Ym),從操作系統(tǒng)中采集到的負(fù)載性能屬性的集合為C,負(fù)載運(yùn)行時(shí)各個(gè)性能屬性采集時(shí)間點(diǎn)對(duì)應(yīng)的系統(tǒng)能耗值為D,X中的子集Xi中所包含的樣本的總個(gè)數(shù)與U中所包含的總樣本數(shù)的比值為P(Xi),Xi與Y的子集Yj的交集所包含的樣本總數(shù)與U中總樣本數(shù)的比值為P(Yj|Xi)。則U中各性能屬性相對(duì)于負(fù)載運(yùn)行時(shí)系統(tǒng)產(chǎn)生的能耗的條件信息熵可表示為
H(D|C)=
(3)
定義1 條件屬性集C中的屬性Ci相對(duì)于論域U的分類重要度表示從C中刪除Ci前后,C相對(duì)于決策屬性的信息熵的變化,則屬性Ci的分類重要度為
M(Ci)=H(D|C-{Ci})-H(D|C)
(4)
對(duì)MapReduce系統(tǒng)中負(fù)載性能屬性約簡的過程如下:首先,依據(jù)離散化之后的條件屬性集合C及能耗值所對(duì)應(yīng)的決策屬性集合D,依據(jù)式(3)計(jì)算D相對(duì)于C的信息熵H(D|C)及刪除某個(gè)屬性Ci之后的信息熵H(D|C-{Ci});其次,針對(duì)C中每個(gè)屬性,依據(jù)式(4)計(jì)算其重要度;最后,依據(jù)C中各個(gè)屬性的分類重要度大小,依次刪除各個(gè)屬性Ci,判斷從C中刪除Ci前后,集合C相對(duì)于集合D是否變化,如沒有發(fā)生變化則保留屬性Ci,否則刪除屬性Ci。
1.3 基于最小平方支持向量機(jī)的能耗估計(jì)模型
針對(duì)約簡后的性能屬性,采用最小平方支持向量機(jī)理論[13-14]建立MapReduce系統(tǒng)中負(fù)載能耗的估計(jì)模型。
設(shè)I為約簡之后的負(fù)載性能屬性,I=(A1,A2,A3,…,Am),Ai為負(fù)載性能屬性集合中第i個(gè)屬性的特征值,則基于最小平方支持向量機(jī)的估計(jì)模型可表示為
(5)
式中:K(I,Ii)為徑向基核函數(shù),可表示為
K(I,Ii)=exp(-‖I-Ii‖2/ρ2)
(6)
式中:ρ為徑向基核函數(shù)參數(shù)。
能耗估計(jì)方法包括以下步驟:先依據(jù)約簡后的性能屬性構(gòu)建數(shù)據(jù)集I,再將數(shù)據(jù)集I切分為訓(xùn)練樣本集與測試樣本集,采用訓(xùn)練樣本集對(duì)估計(jì)模型進(jìn)行訓(xùn)練,構(gòu)建能耗估計(jì)模型。
基于最小平方支持向量機(jī)的能耗估計(jì)算法(MPower)表示如下。
算法1 MPower算法
輸入 MapReduce系統(tǒng)中負(fù)載性能特征屬性X與系統(tǒng)產(chǎn)生的能耗值的集合D,能耗值離散化區(qū)間數(shù)k,誤差量的最小值amin和最大值amax,懲罰因子的最小值amin和最大值amax
輸出 能耗估計(jì)模型P
/*決策屬性D的離散化*/
D’=disConAtt(D)
/*負(fù)載性能特征屬性X的離散化*/
for each attributeXi∈Xdo
xm←max(Xi)
xo←min(Xi)
Bi←initialBoundary(Xi,xm,xo)
for eachbj∈BIdo
calculate the statisticA(bj) according to
equation (2)
BOi←findBestBoundary(A(bj))
end for
BOUND←BOi
end for
C’=disDecAtt(C,BOUND)
/*負(fù)載性能特征屬性約簡*/
calculate the Information Entropy of conditional attributeH(D’|C’) according to equation (3)
for each attributeCi’∈C’ do
calculate the importance of conditional attributeH(D’|C’-{Ci’}) according to equation (3)
Q←H(D’|C’-{Ci’})
Ascending(Q)
end for
j=0;
I←C’
while(j ifH(D’|C’)=H(D’|I-{Qj}) do I←I-{Qj} end if end while /*基于最小平方支持向量機(jī)的能耗估計(jì)*/ [Itrain,Itest]←divide(I) fora∈[amin,amax] andγ∈[γmin,γmax] do [abest,γbest]←optimization(a,γ,Itrain) end for 本節(jié)使用普度大學(xué)發(fā)布的測試用例[15]驗(yàn)證能耗估計(jì)方法的有效性,其中包括WordCount、Sort、Pi、RankedInvertedIndex、RandomWriter和TeraGen等。這些測試用例分別代表I/O密集型、CPU密集型和混合型3種MapReduce負(fù)載類型。 實(shí)驗(yàn)的硬件平臺(tái)為3臺(tái)服務(wù)器與1臺(tái)PC機(jī)構(gòu)成的YARN集群。其中每臺(tái)服務(wù)器的CPU為Intel(R) Xeon(R) E5-2420,內(nèi)存大小為16 GB,硬盤為SATA接口。PC機(jī)的CPU為Intel(R) Core(TM) Q6000 @ 2.40 GHz,內(nèi)存大小為2 GB,硬盤為IDE接口,存儲(chǔ)容量大小為150 GB。能耗測試儀器為Watts’up,其額定電壓為250 V,額定電流為15 A。軟件采用的是Apache發(fā)布的YARN平臺(tái),版本號(hào)為2.0。 2.1 數(shù)據(jù)集 本文基于PerfMon2實(shí)現(xiàn)了性能屬性采集器PProfile。實(shí)驗(yàn)中分別向YARN集群提交不同類型的作業(yè),并在作業(yè)執(zhí)行過程中對(duì)性能特征數(shù)據(jù)進(jìn)行采集,采集間隔為1 s,每次采集40個(gè)性能屬性的特征值。同時(shí),讀取采樣頻率間隔內(nèi)系統(tǒng)的能耗值,每次采集到的性能數(shù)據(jù)和能耗值構(gòu)成一個(gè)樣本數(shù)據(jù),最終構(gòu)成估計(jì)模型的樣本數(shù)據(jù)集。 2.2 結(jié)果分析 2.2.1 負(fù)載性能特征屬性的約簡 針對(duì)浮點(diǎn)型的能耗值,使用等頻離散化方法[10]執(zhí)行離散化操作,屬性重要度閾值設(shè)為0.01,得到如表1所示的重要度大于0.01的性能特征及重要度。 如表1所示,YARN集群系統(tǒng)中負(fù)載的能耗與工作節(jié)點(diǎn)的各個(gè)組成部件均有關(guān)聯(lián),其中CPU對(duì)應(yīng)的性能特征屬性的重要度最大,是耗費(fèi)電能最大的部件。內(nèi)存所耗費(fèi)的電能來源于內(nèi)存的讀寫,評(píng)判內(nèi)存讀寫能力的重要指標(biāo)為每秒鐘內(nèi)存缺頁個(gè)數(shù)和換入換出內(nèi)存?zhèn)€數(shù),這兩個(gè)性能數(shù)據(jù)均在表1中有所體現(xiàn)。 表1 性能特征屬性約簡結(jié)果 2.2.2 能耗估計(jì)方法的有效性驗(yàn)證 為了驗(yàn)證MPower算法的估計(jì)準(zhǔn)確度,本小節(jié)引入估計(jì)相對(duì)誤差。設(shè)Pi為MPower算法對(duì)負(fù)載能耗的估計(jì)值,Qi為測量得到的負(fù)載能耗值,則MPower算法的估計(jì)相對(duì)誤差可表示為 E=|Pi-Qi|/Qi (7) (1)單作業(yè)環(huán)境。分別向YARN集群提交3個(gè)Kmeans作業(yè)和3個(gè)PI作業(yè),分別采用MPower、Mantis[9]與Fan[7]估計(jì)系統(tǒng)能耗,圖2、圖3為3種方法估計(jì)結(jié)果的比較。 如圖2、圖3所示,3種方法均可較為準(zhǔn)確地估計(jì)負(fù)載產(chǎn)生的能耗。對(duì)于作業(yè)PI,3種方法得到了相似的估計(jì)結(jié)果,這是由于作業(yè)PI運(yùn)行過程中系統(tǒng)產(chǎn)生的能耗主要來自于CPU,而3種模型中均考慮了CPU的性能特征對(duì)能耗的影響。但是,Mantis與Fan方法并沒有考慮網(wǎng)絡(luò)I/O對(duì)能耗的影響,而這兩個(gè)影響因素均被MPower方法所考慮,因此MPower算法的估計(jì)準(zhǔn)確度較高。對(duì)于作業(yè)Kmeans,MPower的估計(jì)準(zhǔn)確度明顯優(yōu)于Mantis與Fan方法,這也是由于MPower方法充分考慮了工作節(jié)點(diǎn)內(nèi)部主要組成部件對(duì)能耗的影響,而Fan方法僅考慮了CPU對(duì)負(fù)載能耗的影響,Mantis方法僅考慮了磁盤及CPU對(duì)負(fù)載能耗的影響。 (a)PI (b)Kmeans圖2 單作業(yè)環(huán)境中負(fù)載能耗估計(jì) 圖3 單作業(yè)環(huán)境中不同估計(jì)模型平均相對(duì)誤差 (2)多作業(yè)環(huán)境。在多作業(yè)環(huán)境中,每種類型的作業(yè)擁有不同的特征,因此對(duì)集群系統(tǒng)資源的使用情況也不同。兩個(gè)用戶分別向YARN集群提交兩種類型的作業(yè)PI和Kmeans,如表2所示。比較MPower、Mantis和Fan 3種方法分別在最好、最壞及平均情況下的平均相對(duì)誤差。圖4、圖5描述了實(shí)驗(yàn)的結(jié)果,可以看出MPower方法較另外兩種方法獲得了較高的估計(jì)準(zhǔn)確率。這主要是因?yàn)镸Power方法中考慮了作業(yè)運(yùn)行時(shí)工作節(jié)點(diǎn)中主要功能部件產(chǎn)生的能耗,而Mantis及Fan方法僅考慮了部分功能部件耗費(fèi)的電能。此外,對(duì)比圖2和圖4,單作業(yè)或多作業(yè)環(huán)境中負(fù)載產(chǎn)生的能耗與操作系統(tǒng)中采集到的性能特征并非簡單的線性相關(guān),MPower方法中對(duì)性能特征進(jìn)行屬性約簡,保留貢獻(xiàn)較大的性能特征,以此建立非線性估計(jì)模型,對(duì)負(fù)載的能耗值進(jìn)行估計(jì),因此獲得了較低的估計(jì)平均相對(duì)誤差。 表2 作業(yè)類型及輸入數(shù)據(jù)大小 圖4 多作業(yè)負(fù)載能耗估計(jì) 圖5 多作業(yè)環(huán)境中不同能耗估計(jì)方法的平均相對(duì)誤差 總之,在多作業(yè)和單作業(yè)環(huán)境中,MPower估計(jì)準(zhǔn)確度高于已有的Fan方法和Mantis方法。 2.2.3 能耗估計(jì)方法的應(yīng)用場景 在YARN集群中,一種常用的節(jié)能機(jī)制是動(dòng)態(tài)電壓可擴(kuò)展技術(shù)(DVFS)。為此,可將本文所提能耗估計(jì)方法與DFVS技術(shù)結(jié)合制定節(jié)能策略。如圖2a所示,PI用例的能耗具有很強(qiáng)的規(guī)律性,在161 s之前PI用例處于Map階段,能耗較高,但161 s之后PI用例進(jìn)入Shuffle階段,能耗明顯降低,該規(guī)律已被MPower監(jiān)控到,此時(shí)工作節(jié)點(diǎn)可以啟動(dòng)DVFS機(jī)制降低CPU主頻,從而降低負(fù)載的能耗。在185 s之后PI用例進(jìn)入Reduce階段的后期,此時(shí),從MPower估計(jì)結(jié)果可以看出工作節(jié)點(diǎn)的能耗進(jìn)一步降低。此時(shí),可啟動(dòng)DVFS技術(shù)降低CPU能耗從而達(dá)到節(jié)能目的。 此外,MPower可用來制定基于成本的調(diào)度策略。例如,結(jié)合MPower估計(jì)的能耗值及節(jié)點(diǎn)的性能特征,在保證服務(wù)質(zhì)量的前提下,將Map或Reduce任務(wù)調(diào)度至當(dāng)前能耗值較低的節(jié)點(diǎn),而將部分節(jié)點(diǎn)休眠或關(guān)閉,從而提高YARN集群的能效。 本文針對(duì)YARN集群提出了一種負(fù)載能耗的估計(jì)方法,該方法基于負(fù)載的性能特征估計(jì)工作節(jié)點(diǎn)的能耗。針對(duì)Fan與Mantis等線性模型估計(jì)結(jié)果的平均相對(duì)誤差高的問題,本文依據(jù)MapReduce作業(yè)運(yùn)行時(shí)的系統(tǒng)性能特征,利用粗糙集理論中的屬性約簡方法來約簡性能特征屬性,并基于屬性約簡的結(jié)果來構(gòu)建能耗估計(jì)模型。實(shí)驗(yàn)結(jié)果表明:本文所提方法估計(jì)結(jié)果的平均相對(duì)誤差為4.5%,低于已有的Fan和Mantis方法。 [1] DEAN, JEFFREY, SANJAY G. MapReduce: simplified data processing on large clusters [J]. Communications of the ACM, 2008, 1(1): 107-113. [2] VAVILAPALLI V K, MURTHY A C, DOUGLAS C, et al. Apache Hadoop YARN: yet another resource negotiator [C]∥Proceedings of the 4th Annual Symposium on Cloud Computing. New York, USA: ACM, 2013: 1-16. [3] 譚一鳴, 曾國蓀, 王偉. 隨機(jī)任務(wù)在云計(jì)算平臺(tái)中能耗的優(yōu)化管理方法 [J]. 軟件學(xué)報(bào), 2012, 23(2): 266-278. TAN Yiming, ZENG Guosun, WANG Wei. Policy of energy optimal management for cloud computing platform with stochastic tasks [J]. Journal of Software, 2012, 23(2): 266-278. [4] LEVERICH, JACOB, CHRISTOS K. On the energy (in) efficiency of hadoop clusters [J]. ACM SIGOPS Operating Systems Review, 2010, 44(1): 61-65. [5] GE Rong, FENG Xizhou, WIRTZ T, et al. eTune: a power analysis framework for data-intensive computing [C]∥Proceedings of the 2012 41st International Conference on Parallel Processing Workshops. Piscataway, NJ, USA: IEEE, 2012: 254-261. [6] WIRTZ T, GE Rong. Improving Mapreduce energy efficiency for computation intensive workloads [C]∥Proceedings of the 2011 International Green Computing Conference and Workshops. Piscataway, NJ, USA: IEEE, 2011: 1-8. [7] FAN Xiaobo, WEBER W D, BARROSO L A. Power provisioning for a warehouse-sized computer [J]. ACM SIGARCH Computer Architecture News, 2007, 35(2): 13-23. [8] HEATH T, DINIZ B, CARRERA E V, et al. Energy conservation in heterogeneous server clusters [C]∥Proceedings of the 10th ACM Sigplan Symposium on Principles and Practice of Parallel Programming. New York, USA: ACM, 2005: 186-195. [9] RIVOIRE S, RANGANATHAN P, KOZYRAKIS C. A comparison of high-level full-system power models [J]. HotPower, 2008, 8: 1-5. [10]LI Bing, CHOW T W S, TANG Peng. Analyzing rough set based attribute reductions by extension rule [J]. Neurocomputing, 2014, 123: 185-196. [11]HAN Jiawei, KAMBER M, PEI Jian. Data mining: concepts and techniques [M]. San Francisco, CA, USA: Morgan Kaufmann, 2006: 63-70. [12]王國胤, 姚一豫, 于洪. 粗糙集理論與應(yīng)用研究綜述 [J]. 計(jì)算機(jī)學(xué)報(bào), 2009, 32(7): 1229-1246. WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications [J]. Journal of Computers, 2009, 32(7): 1209-1246. [13]CORTES C, VAPNIK V. Support vector machine [J]. Machine Learning, 1995, 20(3): 273-297. [14]SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers [J]. Neural Processing Letters, 1999, 9(3): 293-300. [15]AHMAD F, CHAKRADHAR S T, RAGHUNATHAN A, et al. Tarazu: optimizing Mapreduce on heterogeneous clusters [C]∥Proceedings of the 17th International Conference on Architectural Support for Programming Languages and Operating Systems. New York, USA: ACM, 2012: 61-74. [本刊相關(guān)文獻(xiàn)鏈接] 袁通,劉志鏡,劉慧,等.多核處理器中基于MapReduce的哈希劃分優(yōu)化.2014,48(11):97-102.[doi:10.7652/xjtuxb2014 11017] 史椸,耿晨,齊勇.一種具有容錯(cuò)機(jī)制的MapReduce模型研究與實(shí)現(xiàn).2014,48(2):1-7.[doi:10.7652/xjtuxb201402001] 崔華力,錢德沛,張興軍,等.用于無線多跳網(wǎng)絡(luò)視頻流傳輸?shù)膬?yōu)先級(jí)機(jī)會(huì)網(wǎng)絡(luò)編碼.2013,47(12):13-18.[doi:10.7652/xjtuxb201312003] 陳衡,錢德沛,伍衛(wèi)國,等.傳感器網(wǎng)絡(luò)基于鄰居信息量化的能量平衡路由.2012,46(4):1-6.[doi:10.7652/xjtuxb2012 04001] (編輯 武紅江) A Power Estimation Method Based on Performance Features in MapReduce Environments FAN Yuanquan,WU Weiguo,XU Yunlong,GAO Yan (School of Electronics and Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China) It is difficult to improve the energy efficiency of MapReduce clusters by matching active nodes to the needs of the workload since it is difficult to capture the features of energy consumption for cost-based scheduler for different types of workloads. A power estimation method based on performance features of workloads is proposed to solve the problem. The method estimates the power consumption by leveraging performance monitoring counters on components of worker nodes during MapReduce jobs execution. A machine learning method is used to improve the estimation accuracy. The performance monitoring counters of MapReduce system are collected to build a sample set, and then the rough set method is used to select the performance attributes that show strong impact on the energy consumption of workloads. A power estimation model based on the least square support vector machines is built from the attribute reduction results. Experimental results show that the energy estimation method accurately forecasts the power consumption of workloads in MapReduce systems. The relative error of accuracy for power prediction is 4% for only one running job and 4.5% for jobs sharing MapReduce clusters. power estimation; performance features; MapReduce 2014-05-26。 樊源泉(1982—),男,博士生;伍衛(wèi)國(通信作者),男,教授,博士生導(dǎo)師。 國家自然科學(xué)基金資助項(xiàng)目(61202041,91330117);國家高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(2011AA01A204,2012AA01A306)。 時(shí)間:2014-12-11 10.7652/xjtuxb201502003 TP333 A 0253-987X(2015)02-0014-06 網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20141211.0849.002.html2 實(shí)驗(yàn)分析
3 結(jié) 論