翟 暢 何 芳 趙彤洲 周 萍 李 慕
(1.武漢工程大學(xué)計算機科學(xué)與工程學(xué)院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205;3.湖北工業(yè)大學(xué)計算機學(xué)院,湖北 武漢 430064;4.中國科學(xué)院武漢物理與數(shù)學(xué)研究所,湖北 武漢 430071)
計算機CPU服務(wù)能耗指標的相關(guān)性分析
翟 暢1,2何 芳3,4,?趙彤洲1,2周 萍1,2李 慕1,2
(1.武漢工程大學(xué)計算機科學(xué)與工程學(xué)院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205;3.湖北工業(yè)大學(xué)計算機學(xué)院,湖北 武漢 430064;4.中國科學(xué)院武漢物理與數(shù)學(xué)研究所,湖北 武漢 430071)
由計算機的廣泛應(yīng)用帶來的大量計算任務(wù)將導(dǎo)致能量消耗增高。計算機C PU承擔了主要計算任務(wù),因此,分析C PU的服務(wù)能耗指標,準確找到影響能耗的重要因素能為面向綠色效能的服務(wù)選擇提供依據(jù)。本文利用能耗監(jiān)測儀采集到的數(shù)據(jù),構(gòu)建了多元回歸模型及單變量和多變量相關(guān)性分析,并通過擬合優(yōu)度進行評估,實驗表明,在利用馬氏距離剔除利群點后構(gòu)建的多元回歸模型能很好地擬合整體樣本數(shù)據(jù)。
離群點;馬氏距離;多元回歸;擬合優(yōu)度
基于互聯(lián)網(wǎng)的應(yīng)用越來越普及,計算機的聯(lián)機事物分析及處理能力越來越強,因而處于網(wǎng)絡(luò)各節(jié)點上的計算機的各種能耗也隨計算任務(wù)增多而升高。在大數(shù)據(jù)分析中,往往需要分布式處理,并對數(shù)據(jù)中心的計算依賴程度更高,數(shù)據(jù)中心的能量消耗是非常重要的成本指標[1]。在涉及到大數(shù)據(jù)的分布式處理中,動態(tài)監(jiān)視網(wǎng)絡(luò)各節(jié)點上的CPU能耗、顯卡能耗、硬盤能耗、內(nèi)存能耗等,找出執(zhí)行任務(wù)與各能耗之間的關(guān)系,根據(jù)任務(wù)及CPU狀態(tài)及時調(diào)整任務(wù)指派,對網(wǎng)絡(luò)節(jié)點進行全局優(yōu)化,最大限度實現(xiàn)節(jié)能指標,具有十分重要的現(xiàn)實意義。2009年,谷歌測算了一次普通查詢的能耗約為0.0003kWh,若日均查詢次數(shù)為3億次,則一天消耗的功率為90000kWH[2]。因此,服務(wù)器能耗是與企業(yè)運行成本密切相關(guān)的,而CPU是計算機高耗能部件,其能量消耗也占據(jù)服務(wù)器總能耗的相當大比例,因此,在CPU諸多參數(shù)中找到高能耗指標是實現(xiàn)綠色計算的重要環(huán)節(jié)。
CPU的性能指標與其能耗密切相關(guān)。CPU性能越好,運算速度越快,能耗也越高。CPU性能計數(shù)器是處理器的主要活動指標,如表1所示。
表1 CPU性能計數(shù)器相關(guān)參數(shù)
由表1可見,CPU的性能計數(shù)器包含了CPU能耗、處理器時間比例、中斷時間、訪問物理盤時間比、訪問頁面數(shù)/秒、內(nèi)存錯誤數(shù)/秒,網(wǎng)絡(luò)接包-發(fā)包率/秒以及網(wǎng)頁服務(wù)相應(yīng)/秒等。上述指標反應(yīng)了處理器的活動狀態(tài),且與CPU能耗密切相關(guān),本文將根據(jù)測量數(shù)據(jù)對各項指標進行性能分析,找出與能耗密切相關(guān)的因素。本文重點關(guān)注如下3個方面的問題:① 研究實測能耗Power與CPU性能計數(shù)器其余8個參數(shù)之間的關(guān)系;② 研究能耗性能計數(shù)器參數(shù)之間的關(guān)系;③ 研究對CPU能耗有重要影響的因素。
CPU能耗數(shù)據(jù)可以由能耗測量儀測量得到,但因為測量得到的數(shù)據(jù)會存在測量誤差,因此,在進行數(shù)據(jù)分析之前要對數(shù)據(jù)進行檢測,檢查測量數(shù)據(jù)之間是否存在離群點。
3.1 基于馬氏距離的數(shù)據(jù)異常檢測
馬氏距離用來度量兩個服從同一分布的隨機變量的差異程度,通過度量待測樣本與某一類的均值向量的差異程度判別樣本的歸屬[3]。其定義為:
3.2 構(gòu)建多元回歸模型
由于CPU性能計數(shù)器包含諸多參數(shù),因此,需要構(gòu)建多元回歸模型[4]用以分析其參數(shù)間的關(guān)系。
多元回歸模型就是用樣本統(tǒng)計量β0,β1,β2,…,βp估計回歸方程中的參數(shù)時得到的方程,采用最小二乘法,其一般形式為:
3.3 多元回歸模型的統(tǒng)計檢驗
對于多元回歸模型,利用擬合優(yōu)度檢驗來判定來自總體的數(shù)據(jù)是否與當前已知隨機變量分布一致,即回歸方程對觀測值的擬合程度[5]。度量擬合優(yōu)度的統(tǒng)計量是判定系數(shù),其取值范圍在[0,1]之間。
公式(4)中,SSR為殘差平方和,n-k-1為殘差平方和的自由度;SST為總離差平方和,n-1為總離差平方和自由度。當R2越接近1則擬合程度越好,而越接近0,則表明擬合方程對觀測值的擬合效果越差。
本文實驗數(shù)據(jù)來源于利用工具H8713功耗監(jiān)測儀,通過串口通訊動態(tài)監(jiān)測服務(wù)器耗能得到的。利用監(jiān)測數(shù)據(jù),擬求得公式(2)的各項擬合參數(shù)。考慮到CPU性能計數(shù)器中的Web Service Requests容易受到計算機系統(tǒng)影響較大,因此,本實驗暫未考慮該因素。
4.1 數(shù)據(jù)標準化處理
由于實驗采集的8個參數(shù)的量綱不同,為統(tǒng)一計算方便,我們將數(shù)據(jù)標準化處理[6]。設(shè)向量x0,x1,x2,…,xn為一隨機時間序列,均值為μ,方差為σ2,標準化后有本實驗中,我們將數(shù)據(jù)標準化到0-1之間。
4.2 異常值檢驗
利用馬氏距離檢驗數(shù)據(jù)中是否存在奇異值。受篇幅限制,本文中只選取前100個樣本計算出的馬氏距離,見表2。
表2 前100個樣本的馬氏距離
表2中看到大部分數(shù)據(jù)都>1,有少量數(shù)據(jù)<1,說明數(shù)據(jù)整體較好,異常值較少。這些異常值可以剔除。
4.3 單變量相關(guān)性分析
在分析多變量相關(guān)性之前,進行單變量相關(guān)性分析,用最簡單方法探索數(shù)據(jù)之間的關(guān)系。
表3 CPU性能計數(shù)器各參數(shù)與能耗的相關(guān)性分析
由表3結(jié)果可見,x1與Y的相關(guān)系數(shù)最大(0.9246),其次為x7。說明其中可能存在較強的線性相關(guān)性。以(x1,x7,Y)為研究對象找尋三者之間的關(guān)系。
圖1與圖2對比可見,旋轉(zhuǎn)后,散點圖接近一條直線分布。因此數(shù)據(jù)之間可能存在線性關(guān)系,需要進一步進行多元線性分析。
圖1 原始圖:100個采樣點(x1,x7,Y)的散點圖
圖2 旋轉(zhuǎn)后:100個采樣點(x1,x7,Y)的散點圖
4.4 多元線性回歸分析
在上述單變量相關(guān)性分析基礎(chǔ)上,利用公式(3)可以進一步分析多變量的回歸系數(shù),其回歸系數(shù)和置信度區(qū)間如表4所示。
表4 回歸系數(shù)及置信度區(qū)間(α=5%)
其殘差杠桿如圖3所示。
圖3 殘差杠桿圖
由圖3可知,絕大部分數(shù)據(jù)的殘差都在0點附近,說明擬合效果較好,且絕大部分殘差都位于[-0.3,0.3]之間。其中,還有3個點的殘差離0點較遠,說明此3點是異常點(點的序號為9,65,95)。剔除異常值后,重新進行回歸得到表5的結(jié)果。
表5 取出異常值后的回歸系數(shù)及置信度區(qū)間(α=5%)
因此,剔除異常值后我們擬構(gòu)建了如下多元一次回歸模型:相應(yīng)地,剔除異常值后的殘差和對應(yīng)的殘差置信度區(qū)間如表6所示。
本次實驗對影響CPU性能的7個分量進行了分析,由實驗結(jié)果可見影響CPU能耗的7個分量與能耗之間的關(guān)系是一個多元線性模型。剔除異常數(shù)據(jù)后,用多元線性回歸分析方法能得到較好的擬合方程式。進一步觀察回歸方程的系數(shù)可見,正相關(guān)參量按照x1>x3>x7>x5的權(quán)重分別從大到小對CPU能耗有影響,而負相關(guān)參量有|x6|>|x4|>|x2|關(guān)系存在。在上述關(guān)系中,x1的權(quán)重最大,因而對擬合的準確性影響最大。對得到的權(quán)重系數(shù)進行分析可以得到,影響CPU能耗較大的參數(shù)是第1個和第3個,即Processor Time(%)和Disk Time(%)。
表6 剔除異常值后的殘差和對應(yīng)的殘差置信度區(qū)間
通過對CPU計數(shù)器能耗分析可以清楚地知道處理器及外設(shè)訪問是高耗能服務(wù),因此,對于追求綠色能效的分布式計算系統(tǒng)而言,本實驗結(jié)果將能有效地指導(dǎo)如何將高能耗服務(wù)分配到處于閑置狀態(tài)的計算機上,可以合理利用分布式網(wǎng)絡(luò)服務(wù)任務(wù),大大提高CPU利用率進而降低整個網(wǎng)絡(luò)的能耗。
[1]商云飛.數(shù)據(jù)中心網(wǎng)絡(luò)節(jié)能路由研究[D].北京:清華大學(xué),2013.
[2]googleblog. blogspot. com/2009/01/powering- google- search.html.
[3]De Maesschalck,Roy;Jouan- Rimbaud,Delphine; and Massart,Désiré L. The Mahalanobis distance[J]. Chemometrics and IntelligentLaboratory Systems 50:1–18,2000.
[4]Rencher,Alvin C.;Christensen,William F.Methods of MultivariateAnalysis,Wiley Series in Probability and Statistics [M].709(3rd ed.),John Wiley & Sons,p.19,2012.
[5]劉明,李明莉.線性回歸模型統(tǒng)計檢驗方法體系構(gòu)建[J].統(tǒng)計與決策,2009(2).
[6]于之虹,黃彥浩,魯廣明,等.基于時間序列關(guān)聯(lián)分析的穩(wěn)定運行規(guī)則提取方法[J].中國電機工程學(xué)報,2015(03):519-526.
The CorrelationAnalysis for the Service Energy Consumption Index of CPU
Zhai Chang1,2He Fang3,4,?Zhao Tongzhou1,2Zhou Ping1,2Li Mu1,2
(1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430205,Hubei;2.Hubei Key Laboratory of Intelligent Robot,Wuhan 430205,Hubei;3.Hubei University of Technology,Wuhan 430640,Hubei;4.Wuhan Institute of Physics and Mathematics,ChineseAcademy of Sciences,Wuhan 430071,Hubei)
The widespread use of computers brings a large number of computational tasks,leading to the increasing energy consumption.CPU undertakes the main task of computing,so it is necessary to analyze the energy consumption index to search the important factors that have influence to energy consumption.It can provide the basis for the service selection of green efficiency.This paper uses the energy consumption monitor to collect the data,constructs multiple regression models and makes univariate and multivariate correlation analysis which uses the goodness of fit to evaluate the models.Experiments show that the multivariate model can well fit the whole sample data after excluding the outliers with Mahalanobis distance.
outlier;Mahalanobis distance;multivariate regression;Goodness of Fit
TP399
A
1008-6609(2016)12-0008-04
翟暢(1990-),男,湖北黃岡人,碩士,研究方向為數(shù)據(jù)分析、文本推薦算法研究。
*通訊作者:何芳(1977-),女,湖北黃石人,碩士,研究方向為計算機應(yīng)用技術(shù)。
國家自然科學(xué)基金資助項目,項目編號:61103136。