中國核電工程有限公司鄭州分公司 蘆 杉
針對云計算數(shù)據(jù)中心結構復雜,構成要素繁多,指標量化困難等問題,提出蒙特卡洛仿真方法對其可用度進行分析研究。首先分析確定可用度指標,然后應用可靠性框圖結合蒙特卡洛模擬對中心可用度進行實例仿真分析,最后提出提高可用度的建議。該方法能夠有效完成云計算數(shù)據(jù)中心可用度的仿真分析,為提升中心運行可靠性提供支持。
數(shù)據(jù)中心是信息化的核心,承擔著各單位的關鍵性業(yè)務。隨著云計算、物聯(lián)網(wǎng)等信息技術的發(fā)展,數(shù)據(jù)中心由傳統(tǒng)的IDC機房轉變?yōu)樵朴嬎銛?shù)據(jù)中心。云計算數(shù)據(jù)中心的特點是虛擬化、共享性,一旦數(shù)據(jù)中心出現(xiàn)故障,將給單位帶來不可預測的損失,其可用度是運維人員關注的核心問題。然而,云計算數(shù)據(jù)中心的構成要素較多,各指標的量化方法不統(tǒng)一,導致無法采用傳統(tǒng)的計算方法衡量數(shù)據(jù)中心的可用度。因此,構建云計算數(shù)據(jù)中心的可用度評估指標體系,探索可用度的仿真方法勢在必行。
云計算服務類型包括三種,分別為IaaS、PaaS、SaaS。這里主要研究云計算數(shù)據(jù)中心IaaS的可用度。典型的云計算數(shù)據(jù)中心主要由虛擬化平臺架構、網(wǎng)絡通信系統(tǒng)、運維監(jiān)控系統(tǒng)、供電系統(tǒng)、業(yè)務服務系統(tǒng)五個模塊組成,如圖1所示。
圖1 云計算數(shù)據(jù)中心結構
(1)可用度的相關概念
MTTR:系統(tǒng)由故障狀態(tài)轉為正常工作狀態(tài)時修復時間的平均值。MTTR越短,易修復性越好。
MTBF:對于可修復的系統(tǒng),每次故障后又投入使用,平均故障間隔時間。
可用度:用來表示系統(tǒng)性能好壞的指標之一,用A表示。即:
(2)可靠性方框圖
可靠性方框圖(RBD-Reliability Block Diagrams)是一種圖解方法,定義了復雜系統(tǒng)內部子系統(tǒng)的邏輯關系(串聯(lián)、并聯(lián)、串并混合)。
(3)蒙特卡洛模擬法
蒙特卡洛模擬法是一種基于隨機抽樣、概率分析的模擬方法,包括隨機抽樣、構造概率模型、隨機數(shù)產生、系統(tǒng)仿真計算、結果統(tǒng)計擬合等過程。云計算數(shù)據(jù)中心具有結構復雜、設備種類繁多、數(shù)量大、故障模式多種多樣等特點,可利用可靠性框圖完成結構建模,再采用蒙特卡洛模擬仿真完成可用度計算。
蒙特卡洛模擬仿真的基本分析步驟如下:
(1)通過分析云計算數(shù)據(jù)中心的構成和功能層次等,建立功能結構圖,確定故障判別標準,建立可靠性框圖模型。
(2)輸入系統(tǒng)中單個部件的故障函數(shù)、MTBF等參數(shù),使用蒙特卡洛法對基本部件壽命隨機抽樣,取得n個基礎樣本,分別將這n個基本部件至于失效,找出系統(tǒng)的失效時間。進行N次仿真后,可統(tǒng)計出系統(tǒng)N次失效時間。
(3)用區(qū)間統(tǒng)計方法進行系統(tǒng)失效數(shù)的分布統(tǒng)計,得出系統(tǒng)失效時間在每個區(qū)間內的失效數(shù)。
(4)通過蒙特卡洛仿真,可以計算出平均故障間隔時間MTBF和平均修復時間MTTR,從而可以得出系統(tǒng)的可用度。
使用同樣的方法,可以推導計算出MTTR,最后利用公式可以計算出系統(tǒng)可用度A。
結合圖1所示的云計算數(shù)據(jù)中心結構,某云計算數(shù)據(jù)中心組成見表1所示。該中心能夠提供虛擬機服務、存儲管理、業(yè)務訪問、業(yè)務監(jiān)控等功能,無法實現(xiàn)上述任一項功能視為系統(tǒng)故障。
圖2 虛擬化架構子系統(tǒng)可靠性框圖模型
表1 某云計算數(shù)據(jù)中心的結構
應用仿真平臺軟件建立RBD分析模型。
(1)建立云計算數(shù)據(jù)中心總可靠性框圖,由五個子系統(tǒng)串聯(lián)組成。
(2)建立各子系統(tǒng)可靠性框圖
深入分析搭建各子系統(tǒng)可靠性框圖模型,部分子系統(tǒng)的可靠性框圖如圖2所示,其他子系統(tǒng)的可靠性框圖構建方法類似。
表2 輸入?yún)?shù)表
表3 數(shù)據(jù)中心各子系統(tǒng)得仿真結果
結合云計算數(shù)據(jù)中心設備型號,通過調研生產單位及用戶應用情況,得到10種設備的可靠性輸入?yún)?shù),具體如表2所示。
(1)模擬仿真
依據(jù)設備更新時間間隔和用戶對該數(shù)據(jù)中心的運行要求,設置數(shù)據(jù)中心仿真運行壽命為15年,系統(tǒng)仿真次數(shù)為100次。人員調集延誤時間1h,維修間隔期為720h,備品備件到達延遲時間為0.5h。
對數(shù)據(jù)中心壽命周期可用度仿真分析,結果如表3所示。
(2)結果分析
在系統(tǒng)運行的15年間,云計算數(shù)據(jù)中心共計停工239次、923.8h,平均故障間隔時間為733.1h(約30.55天、1個月)。服務子系統(tǒng)的故障率最高,主要是由于該子系統(tǒng)組成數(shù)量較多,且離用戶最近,操作次數(shù)較多。在虛擬化架構、網(wǎng)絡通信系統(tǒng)、監(jiān)控及解析、供電子系統(tǒng)中,主要節(jié)點例如服務器、出口、供電均采取了冗余備份方式,且市電、通信線路本身故障率較低,故該四個子系統(tǒng)的故障率較低。
網(wǎng)絡通信子系統(tǒng)故障引起的修復時間最長,主要是由于光纖通信線路的中斷,需要找故障點,并進行光纖熔接,這樣導致修復時間較長。由于虛擬化主機、存儲等均設有備品備件,因此修復時間最短。
基于上述的實驗仿真方法以及計算結果,可從以下四個方面提升云計算數(shù)據(jù)中心的可用度:
(1)重視機房巡檢工作,加強機房溫度、濕度等環(huán)境的監(jiān)控,為設備的運行提供良好的環(huán)境,從而減低設備故障的風險;
(2)強化對機房設備的管理以及操作系統(tǒng)的維護。確保每天查看設備的硬件情況,保障設備硬件無故障,以月份為單位對數(shù)據(jù)中心的操作系統(tǒng)和應用軟件進行檢查,升級版本,提高軟件的可用率。
(3)提升設備的質量,對于關鍵設備優(yōu)選可靠性高、壽命時間長的硬件設備,如服務器、存儲等;針對數(shù)據(jù)中心的核心設備采取必要的冗余熱備份措施,實現(xiàn)自動切換功能。
(4)規(guī)范備件管理。對于核心設備,采購配置足量的備品、備件以及零部件等,同時建設一套完備的備品備件管理系統(tǒng),當有故障發(fā)生時,能夠快速更換有效的備品備件。
結束語:通過深入分析云計算數(shù)據(jù)中心的構成要素以及功能結構,確定了中心的典型結構,利用可靠性框圖分析與蒙特卡洛模擬相結合的方法仿真分析中心的可用度,完成了某中心的實例仿真應用,提出了改進措施建議。實踐表明,該方法能夠為云計算數(shù)據(jù)中心的運維決策提供理論參考,為提高云計算數(shù)據(jù)中心的可用度提供依據(jù)。