文|任華華
?
IDC運營的大數(shù)據分析與DCIM
文|任華華
隨著移動互聯(lián)的快速發(fā)展和大數(shù)據和云計算的出現(xiàn),成百上千棟數(shù)據中心拔地而起,海量的數(shù)據已悄然產生,并潛移默化地影響著我們生活中的點點滴滴。當我們出行時,參考高德地圖的交通數(shù)據;當我們餐飲時,打開大眾點評查看評論數(shù)據;當我們購物時,淘寶網的消費數(shù)據分析會推送符合我們傾向的商品。生活中的小事尚且需要大數(shù)據的分析,IDC運營這樣一件嚴肅而又嚴謹?shù)墓ぷ?,同樣需要大?shù)據分析。
所謂IDC,就是為電子信息設備提供運行環(huán)境的場所,包括數(shù)據處理、數(shù)據傳輸和網絡通訊等IT基礎設施,同時包括為IT設備服務的電力、空調、傳輸管路等場地基礎設施。通過合理的IT架構和對場地基礎設施完善管理,提供良好的IT環(huán)境,保障IT設備的正常有效運轉、保障業(yè)務的順暢進行和服務的及時提供。
一個典型的IDC如下圖1-1:
圖1-1 典型IDC組成圖
從圖1-1可以看出,IDC是一個復雜的綜合體系,需要進行科學的管理,以保證其能正常運營??梢赃@樣理解“管理”二字,“管”意味著決策與執(zhí)行,“理”意味著整合與分析數(shù)據?!袄怼笔鞘侄危袄怼钡墓δ転椴杉瘮?shù)據;“管”是目的,“管”的功能是根據“理”的數(shù)據分析結果進行決策和執(zhí)行,進行運維操作。
管理需要數(shù)據,如何獲取IDC運營數(shù)據呢?如圖1-2所示,IDC的電力監(jiān)控系統(tǒng)會得到到柴油發(fā)電機、燃油、市電、變壓器、UPS、電池、高壓直流、開關狀態(tài)、PDU電量等系列數(shù)據;制冷空調監(jiān)控系統(tǒng)會得到冷機、冷塔、水泵、板換、精密空調、冷熱通道溫度、自然冷卻的運行時間、PUE、WUE等系列數(shù)據;消防與安防監(jiān)控會得到人流、物流等系列數(shù)據;ITSM系統(tǒng)得到服務器上架、流程進度等數(shù)據。
這些數(shù)據有的進行了分析,形成了報表,如圖1-2中左一圖片所示的設備電量波動趨勢,左二圖片所示的自然冷卻分析,但是大量的數(shù)據還停留在初級采集階段,并未形成綜合分析與報表。例如,冷凍水泵的變頻器發(fā)生故障,可能會直接影響冷機運行,但報警信息只顯示在電力監(jiān)控界面上,不對制冷運維人員開放,導致制冷運維人員不能在第一時間得到通知,無法快速響應故障。又如,制冷系統(tǒng)中的蓄冷罐溫度異常可能由冷機故障引起,也可能由冷機專用變壓器或開關故障引起,此時只分析蓄冷罐的溫度數(shù)據或者只分析冷機的狀態(tài)數(shù)據是不夠的,還需要跨系統(tǒng)分析電氣系統(tǒng)的冷機配電開關和變壓器狀態(tài)的數(shù)據庫。
因此,IDC有效運營迫切需要對獲取到的大量獨立、離散的數(shù)據進行分析,需要對數(shù)據進行跨系統(tǒng)整合、關聯(lián)、統(tǒng)計與挖掘。
圖1-2 獲取數(shù)據的方式與途徑
為了順應IDC運營跨系統(tǒng)數(shù)據關聯(lián)、分析的需要,DCIM(Data Center Infrastructure Management數(shù)據中心基礎設施管理)應運而生。DC IM概念起源于國外,不同的機構對其有不同的定義,但得到基本認同的觀點是:DC IM是一座溝通場地基礎設施和IT基礎設施之間關系的橋梁,能夠幫助數(shù)據中心管理人員更高效的運營數(shù)據中心。
G a r t n e r對D C I M的定義:D a t a c e n t e r in frastructure m anagem ent (DCIM) too ls m onitor, m easu re, m anage and/o r con tro l da ta cen te r utilization and energy consum ption of all IT-related equipm ent (such as servers, storage and networksw itches) and facility in frastruc ture com ponen ts (su ch as pow e r d is tribu tion un its [PDUs] an d computer room air conditioners [CRACs]). 數(shù)據中心基礎設施管理(DC IM)工具可以監(jiān)控、測量、管理和控制數(shù)據中心所有IT相關設備(比如服務器、存儲和交換機)和基礎設施相關設備(比如PDU和精密空調)的使用情況及能耗水平。
451 G rou p對DC IM的定義是:A d a ta cen te r in frastruc tu re m anagem en t system co llec ts and m anages in fo rm a tion abou t a da tacen te r’s assets, resource use and operational status. This information is then distributed, integrated, analyzed and app lied in w ays tha t he lp m anage rs m ee t business and service-oriented goals and optim ize the datacenter’s performance. 數(shù)據中心基礎設施管理系統(tǒng)收集和管理數(shù)據中心的資產、資源使用以及運行狀態(tài)的信息,然后分發(fā)、整合、分析、使用以幫助數(shù)據中心管理者滿足業(yè)務和服務導向的目標,優(yōu)化數(shù)據中心運營。
DC IM定義中的In fras tru c tu re,業(yè)內比較通用的認知是:基礎設施(in fras tru c tu re)=場地基礎設施(site facility in frastructure)+ IT基礎設施(IT infrastructure)
DC IM的主要價值就是在于打通場地基礎設施和IT基礎設施(硬件層)的組織和信息斷層、打通場地基礎設施各子系統(tǒng)的數(shù)據庫,采用統(tǒng)一的平臺管理場地基礎設施如UPS、空調以及IT基礎設施如服務器,并通過數(shù)據的分析和聚合,最大化數(shù)據中心的運營效率以保證數(shù)據中心的可用性和業(yè)務的連續(xù)性。
(一)可靠運維
IDC運營的第一要務是保證7×24×365不間斷可靠運行,如果出現(xiàn)故障須即時處理,以減少事故歷時、降低故障帶來的損失和風險,因此IDC運營需要重點關注設備故障。DCIM可對故障期間的數(shù)據進行記錄、整理、統(tǒng)計、分析,尋找故障發(fā)生的誘因和共性,探討縮短故障歷時的途徑;通過利用DC IM對數(shù)據進行分析,可以幫助運維人員提前診斷哪些設備處于亞健康的狀態(tài),進而可預測故障、提醒運維人員提前排查故障,降低風險。
表3-1 關鍵設備平均無故障時間與故障率
如表3-1所示,DCIM可匯總、統(tǒng)計、分析關鍵設備如冷機、冷塔、水泵、開關、變壓器、UPS等的平均維護時間、平均無故障時間和每月實際運行累計故障率。如果數(shù)據分析顯示某一組電池的月故障率突然高于平均值,則有理由懷疑這組電池近期可能出現(xiàn)故障,提醒運維人員提前對這組電池進行維護和更換,從而避免故障的發(fā)生,減少宕機的可能。
圖3-2 海恩法則
關于可靠性,圖3-2是著名的海恩法則,即一次嚴重事故之前可能有1000起事故隱患、300起未遂先兆、29次輕微事故。DCIM的橫向數(shù)據分析可以幫助運維人員在隱患階段排除故障的可能。如制冷空調系統(tǒng)的環(huán)境溫度監(jiān)測,當溫度超出限定值時,系統(tǒng)告警,但是等到系統(tǒng)告警往往為時過晚,局部熱點極易導致宕機;然而電氣系統(tǒng)的PDU電量監(jiān)測可預警告空調的局部熱點,例如某列機柜PDU電量持續(xù)徘徊在高位,則運維人員可以預判附近可能出現(xiàn)局部熱點;通過提前加速周邊空調的EC風機,避免局部熱點的出現(xiàn),減少宕機風險。
運維的可靠性常常需要多個子系統(tǒng)聯(lián)合保障。例如暖通制冷監(jiān)控系統(tǒng)(BMS)須準確感知電氣系統(tǒng)中冷機的配電狀況,并在冷機掉電或其他緊急工況時,平穩(wěn)切換至應急冷源供冷,保障服務器的冷量持續(xù)供應;在應急冷源放冷完畢時,BMS須自動切換應急冷源至再次充冷。DCIM可橫向整合電力監(jiān)控、暖通制冷監(jiān)控的數(shù)據,實現(xiàn)數(shù)據的互聯(lián)互通,避免各子系統(tǒng)監(jiān)控自成體系,執(zhí)行子系統(tǒng)命令時影響到其他子系統(tǒng)的安全運行,從而影響整個IT環(huán)境的穩(wěn)定可靠。
圖3-3 服務器平均電量數(shù)據分析
DCIM通過對連續(xù)監(jiān)測的IT電量數(shù)據進行匯總、分析和比較,發(fā)現(xiàn)某IDC大部分機柜服務器運行在5kW左右的平均值,而個別機柜服務器電量維持在2kW左右(如圖3-3所示)??上攵?,這樣的服務器對計算資源的貢獻非常有限,極有可能是僵尸服務器。運維人員可據此優(yōu)化服務器的配置及軟件架構,或移除服務器另作他用??梢?,DCIM數(shù)據分析可幫助IDC運維人員優(yōu)化IT資源配置。
(二)綠色節(jié)能
IDC能耗巨大,綠色節(jié)能是IDC運營的重要課題。通過DCIM進行橫向數(shù)據分析,可以幫助IDC運營優(yōu)化,達到節(jié)能目的。例如,某IDC的設計IT負荷為5000kW,采用冷卻塔串聯(lián)板換的水側節(jié)能,如圖3-4,滿載時濕球溫度4℃開始自然冷卻。鑒于服務器是分批上架,IDC也是分期部署,如果一期IT負載率低于某設定值如3000kW,則DCIM可建議運維人員設定濕球溫度6℃或7℃開始自然冷卻,從而延長自然冷卻的時間,縮短電制冷的運行時間,達到節(jié)省制冷系統(tǒng)電耗、降低PUE、節(jié)能運行的目的。
IDC的規(guī)劃、設計、建造都是按照IT滿載做的,實際運行往往是變工況運行,通過DC IM進行綜合數(shù)據分析,可根據運行動態(tài)數(shù)據分析結果改變設定值。如最初的空調送風溫度設定為18℃,冷通道溫度上限設定為22℃,運行一段時間后,系統(tǒng)監(jiān)測到機房冷通道的溫度普遍持續(xù)低于22℃,則可以提醒運維人員嘗試提高送風溫度設定值為20℃,甚至冷水機組的供水溫度也可提高。冷凍水供水溫度每提高1℃,冷機效率提升2~3%,自然冷卻的運行時間也可相應延長,如此可實現(xiàn)節(jié)省制冷系統(tǒng)電耗、節(jié)能運行的目的。
(三)決策依據
DC IM通過對運維數(shù)據的動態(tài)收集、分析以及監(jiān)測,為新建IDC的決策提供輸入。
IDC管理三元素SPC中,S指空間、P指供電、C指冷卻。DC IM收集到U位的總數(shù)據,已占用U位的數(shù)據,兩者相減就可得到可用的U位空間;同樣操作依次可以得到可用電力、可用冷量,詳見圖3-5。通過對SPC三個數(shù)據庫的聯(lián)合分析,運維人員可以確定上多少臺服務器,在哪些U位空間進行擺放。由此可見DCIM可幫助IDC運營工作科學決策。
類似案例很多,如某企業(yè)某類業(yè)務的IDC,一期規(guī)劃設計采用百分之百的滿負荷進行基礎設施的容量規(guī)劃和平面設定。然而DC IM監(jiān)控到的常年運行數(shù)據表明,此類業(yè)務平均運行在70%左右的負荷,峰值也不會超過80%。同樣業(yè)務的下一個IDC規(guī)劃中,就可以把IT的負載率設定為80%,則可以縮減基礎設施的容量、節(jié)省基礎設施初投資??梢?,DCIM可幫助IDC優(yōu)化配置,節(jié)約成本。
又如某企業(yè)某類業(yè)務在某一線城市采用雙路市電加柴油發(fā)電機的冗余方案,但DC IM多年的運行數(shù)據表明市電從未斷電,電網可靠性達到5個9,甚至更高,則在下一個IDC的規(guī)劃中可考慮優(yōu)化架構為一路市電加柴油發(fā)電機的方案??梢?,DCIM可幫助IDC規(guī)劃優(yōu)化設計方案。
圖3-4 冷卻塔串聯(lián)板換的水側節(jié)能
圖3-5 Space Power Cooling(SPC)管理
大規(guī)模IDC存在多套監(jiān)控管理子系統(tǒng),如電力監(jiān)控(EPMS)、暖通制冷監(jiān)控(BMS)、消防與安防監(jiān)控、ITSM等,每個子系統(tǒng)都有自己獨立的數(shù)據采集、統(tǒng)計、分析和執(zhí)行等裝置,完成某項獨立的功能;但是IDC的整體運營需要這些子系統(tǒng)的數(shù)據橫向整合、縱向挖掘、綜合分析;數(shù)據不進行分析,就只是數(shù)據,無法對運營產生價值;DC IM對各子系統(tǒng)的數(shù)據進行篩選、整合并加以關聯(lián)、挖掘、分析,進而根據大數(shù)據分析的結果提出運維建議、優(yōu)化運行能效、降低故障風險、提升IDC運營效率,為運維人員提供科學決策的依據。
此外,通過DC IM進行數(shù)據分析,可以實現(xiàn)其他更多的功能。如圖4-1所示,可以實現(xiàn)成本管理、規(guī)劃管理、工單管理、容量管理、可靠性管理、能效管理。如圖4-2所示,可以關聯(lián)故障與應急預案實現(xiàn)告警管理,可以關聯(lián)資產與容量管理實現(xiàn)變更管理,可以匯總技術規(guī)范與運維手冊實現(xiàn)知識庫管理,可以供應商管理與二維碼對應的方式實現(xiàn)供應商管理,可以從能效管理進一步提升為計費管理,可以把巡檢的主動式運維流程化變成工單管理。
運用DCIM進行大數(shù)據分析是提升IDC運營核心競爭力的有效手段,如圖5-1所示,可以幫助IDC運營增能效、減成本、助運維、輕風險,是科學管理運營IDC的必殺技。IDC運營即將進入大數(shù)據分析的時代,DCIM是進行大數(shù)據挖掘與分析不可或缺的工具,亟需針對運維需求進行深度開發(fā)和有效運用。
圖4-1 DCIM的大數(shù)據分析的多種可能
圖4-2 DCIM的大數(shù)據分析幫助IDC運營的方式
圖5-1 大數(shù)據分析的核心價值
作者單位:阿里巴巴集團技術保障部