薛永軍++崔榮靖
摘 要
基于云計算中服務器虛擬化技術的重要意義,提出在應用虛擬化技術的物理服務器在內(nèi)存、CPU、IO上使用的特性,通過企業(yè)計算資源池運行數(shù)據(jù)進行統(tǒng)計、梳理,然后分析得出了物理服務器在使用虛擬化技術后硬件配置比例。服務器虛擬化通過服務器虛擬化完成計算資源池建設,為了使得物理服務器的使用率得到最大化,必須有針對各企業(yè)實際情況的物理服務器池化合理物理硬件配置比例。
【關鍵詞】虛擬化技術 計算資源池 硬件配置
計算資源池建設需要具有通過虛擬軟件的功能,對服務器當中的各項資源實施抽象化,將傳統(tǒng)意義上和服務器及其設備完成綁定的各類資源轉(zhuǎn)變成能進行統(tǒng)一管理的邏輯性資源。都是在現(xiàn)有的物理服務器基礎進行資源轉(zhuǎn)化,而現(xiàn)有物理服務器的硬件配置比例基本沒有參照硬件池化的實際情況,必然出現(xiàn)物理服務器某一硬件資源使用率飽和時,另一類硬件資源池卻處于低使用率的現(xiàn)象,造成資源浪費,違反了虛擬化技術產(chǎn)生初衷。
1 硬件資源配置比研究范圍
硬件資源配置比例研究僅限于池化服務器的內(nèi)存、CPU、以太網(wǎng)IO、存儲網(wǎng)絡IO。
2 硬件資源配置比算法
對現(xiàn)有計算資源池的服務器、存儲、網(wǎng)絡的相關實際值、置備值、使用率等運行數(shù)據(jù)進行收集、匯總。數(shù)據(jù)收集方法:以一個季度為一個周期,每個月收集14次,分別為每月的1、5、10、15、20、25、30的上午11:00,下午的15:00,收集2個周期,對28次數(shù)據(jù)進行多次平均,按CPU,內(nèi)存,網(wǎng)卡及HBA卡進行統(tǒng)計。如表1所示。
從統(tǒng)計數(shù)據(jù)中就可以發(fā)現(xiàn)現(xiàn)有計算資源池中,出現(xiàn)了嚴重的資源浪費,大量的CPU資源處于極低使用率情況,同時不同的內(nèi)存、CPU使用率使用著相同的以太網(wǎng)絡帶寬和存儲網(wǎng)絡帶寬,明顯是配置不合理;從采購角度來看,就是因為沒有計算資源池物理服務器配比算法做為標準來指導物理服務器的采購。
下面采用大數(shù)據(jù)算法 Support vector machines進行數(shù)據(jù)分析,從面對計算資源池物理服務器配比算法進行研究。
支持向量機屬于一般化線性分類器。也可以認為是提克洛夫規(guī)范化(Tikhonov Regularization)方法的一個特例。這族分類器的特點是他們能夠同時最小化經(jīng)驗誤差與最大化幾何邊緣區(qū)。因此支持向量機也被稱為最大邊緣區(qū)分類器。在統(tǒng)計計算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機器學習和計算機視覺的數(shù)據(jù)集聚(Data Clustering)領域。最大期望算法經(jīng)過兩個步驟交替進行計算,第一步是計算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M 步上找到的參數(shù)然后用于另外一個 E 步計算,這個過程不斷交替進行。
在學習這種方法時,首先要弄清楚這種方法考慮問題的特點,這就要從線性可分的最簡單情況討論起,在沒有弄懂其原理之前,不要急于學習線性不可分等較復雜的情況,支持向量機在設計時,需要用到條件極值問題的求解,因此需用拉格朗日乘子理論,但對多 數(shù)人來說,以前學到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿足的條件,此時只要了解拉格朗日理論的有關結論就行。
支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平 面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
有很多個分類器(超平面)可以把數(shù)據(jù)分開,但是只有一個能夠達到最大分割。先進行問題定義,如圖1所示。
設樣本屬于兩個類,用該樣本計算svm得到的最大間隔超平面。在超平面上的樣本點也稱為支持向量。
考慮以下形式的樣本點
{(x1,c1),(x2,c2),...,(xn,cn)}
由于我們要求最大間隔,因此我們需要知道支持向量以及(與最佳超平面)平行的并且離支持向量最近的超平面。我們可以看到這些平行超平面可以由方程族:
w·x-b=1,w·x-b=-1.
如果這些訓練數(shù)據(jù)是線性可分的,那就可以找到這樣兩個超平面,在它們之間沒有任何樣本點并且這兩個超平面之間的距離也最大.通過幾何不難得到這兩個超平面之間的距離是 2/| w |,因此我們需要最小化 | w |。同時為了使得樣本數(shù)據(jù)點都在超平面的間隔區(qū)以外,我們需要保證對于所有的 i 滿足其中的一個條件:
w·xi-b≥1 or w·xi-b≤-1.
這兩個式子可以寫作:
ci(w·xi-b) ≥1,1≤i≤n. (1)
套用算法,C代表使用率,W、X分別代表內(nèi)存和CPU和核數(shù),B代表IO帶寬,可以得出1G內(nèi)存至少需要40M的IO帶寬。
3 結束語
技術的關鍵點是不斷的抽取計算資源池中虛擬機及物理機運行數(shù)據(jù),并根據(jù)業(yè)務系統(tǒng)的業(yè)務特性進行資源評估、統(tǒng)計、分析等CPU、內(nèi)存、磁盤、網(wǎng)絡關系性在;創(chuàng)新點是根據(jù)實際資源使用情況,以實際數(shù)據(jù)為基礎在業(yè)內(nèi)首次根據(jù)計算資源池提出服務器配置標準??梢越鉀Q:
(1)計算資源池服務器配置不統(tǒng)一;
(2)計算資源池服務器資源浪費;
(3)解決物理服務器采購時無標準、無預見性。
參考文獻
[1]李剛健.基于虛擬化技術的云計算平臺架構研究[J].吉林建筑工程學院學報,2011(01):79-81.
[2]李雙權,王燕偉.云計算中服務器虛擬化技術探討[J].郵電設計技術,2011(10):27-33.
作者單位
云南電網(wǎng)有限公司信息中心 云南省昆明市 650217