張建雪,侯曉雯,王 青,張慧玲,夏 潔
(中國(guó)移動(dòng)通信集團(tuán)內(nèi)蒙古有限公司,內(nèi)蒙古 呼和浩特 010000)
隨著云計(jì)算、大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,各大企業(yè)的數(shù)字化建設(shè)逐步向數(shù)智融合方向轉(zhuǎn)型,數(shù)智化已經(jīng)成為更高的轉(zhuǎn)型發(fā)展要求。在此背景下,針對(duì)目前數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(Data Center Infrastructure Management,DCIM)系統(tǒng)存在的數(shù)據(jù)處理、分析、聯(lián)動(dòng)能力不足等突出問(wèn)題,結(jié)合數(shù)據(jù)中心運(yùn)維人員對(duì)DCIM系統(tǒng)最迫切的需求,如全景可視、自動(dòng)運(yùn)維、智能運(yùn)營(yíng)以及能效自動(dòng)調(diào)優(yōu)等,探索DCIM系統(tǒng)升級(jí)方案,依托智能化系統(tǒng)進(jìn)一步提高數(shù)據(jù)中心的運(yùn)維質(zhì)量與效率,實(shí)現(xiàn)DCIM價(jià)值最大化[1]。
DCIM系統(tǒng)主要對(duì)數(shù)據(jù)中心動(dòng)環(huán)設(shè)備、互聯(lián)網(wǎng)技術(shù)(Internet Technology,IT)設(shè)備、安防設(shè)備以及消防設(shè)備等專業(yè)關(guān)鍵設(shè)備的重要信息進(jìn)行統(tǒng)一采集,實(shí)現(xiàn)集中監(jiān)控和管理,其基礎(chǔ)功能一般有告警管理、統(tǒng)一視圖管理、報(bào)表管理、工單管理、能耗管理、容量管理以及資產(chǎn)管理等[2]。
DCIM系統(tǒng)通常被定位為數(shù)據(jù)中心的決策者和管理者,通過(guò)將數(shù)據(jù)中心各個(gè)子系統(tǒng)統(tǒng)一管理、綜合規(guī)劃,協(xié)調(diào)各子系統(tǒng)之間的相互聯(lián)動(dòng)關(guān)系,同時(shí)能夠全局處理分析、資源共享,為數(shù)據(jù)中心提供有力的科學(xué)決策支持,有效提升數(shù)據(jù)中心的管理效率,控制運(yùn)營(yíng)成本[3]。數(shù)據(jù)中心DCIM系統(tǒng)架構(gòu)如圖1所示。
圖1 數(shù)據(jù)中心DCIM系統(tǒng)架構(gòu)
目前,隨著數(shù)據(jù)中心建設(shè)數(shù)量、建設(shè)規(guī)模越來(lái)越大,各大數(shù)據(jù)中心基本均建有各自的DCIM系統(tǒng)。由于系統(tǒng)廠商、系統(tǒng)功能等水平參差不齊,導(dǎo)致DCIM系統(tǒng)與現(xiàn)場(chǎng)運(yùn)維工作的融合度不高,除了數(shù)據(jù)和告警能夠集中化監(jiān)控外,大多數(shù)DCIM系統(tǒng)并沒(méi)有達(dá)到運(yùn)維人員預(yù)期的智能化監(jiān)控和管理效果,DCIM系統(tǒng)并不完全適合業(yè)務(wù)需求。
1.2.1 缺乏從全局視角考慮問(wèn)題
目前,DCIM系統(tǒng)管控的基礎(chǔ)設(shè)施主要是電源、制冷設(shè)備等,并沒(méi)有納管IT設(shè)備、安防設(shè)備、消防設(shè)備等專業(yè)設(shè)施,缺少?gòu)娜纸嵌确从硵?shù)據(jù)中心上下游整體的運(yùn)行狀況。例如,當(dāng)發(fā)生業(yè)務(wù)中斷故障時(shí),要想確認(rèn)是動(dòng)環(huán)設(shè)備的問(wèn)題還是IT設(shè)備的問(wèn)題,只能依賴人工電話溝通IT中心確認(rèn)[4]。此外,為了調(diào)取就近的攝像頭查看故障現(xiàn)場(chǎng)實(shí)時(shí)畫面,還要再登錄安防監(jiān)控系統(tǒng)。
1.2.2 數(shù)據(jù)挖掘能力不足
DCIM系統(tǒng)作為數(shù)據(jù)中心上層的綜合系統(tǒng),數(shù)據(jù)集中度較高,但是對(duì)海量數(shù)據(jù)缺乏足夠的全局分析能力。一旦需要分析具體異常點(diǎn)或者數(shù)據(jù)變化的原因等,系統(tǒng)無(wú)法自動(dòng)化、智能化輸出分析結(jié)果和建議,數(shù)據(jù)挖掘能力嚴(yán)重不足,海量數(shù)據(jù)價(jià)值無(wú)法真正利用起來(lái)。
1.2.3 機(jī)柜資源使用及規(guī)劃過(guò)度依賴人工
目前,大部分?jǐn)?shù)據(jù)中心的機(jī)柜資源管理仍然處于依靠人工的粗放管理階段,機(jī)柜資源浪費(fèi)情況嚴(yán)重。DCIM系統(tǒng)現(xiàn)階段僅針對(duì)變壓器、通信電源等基礎(chǔ)設(shè)施實(shí)現(xiàn)了資源及容量實(shí)時(shí)監(jiān)控,對(duì)機(jī)柜資源的管理還沒(méi)有較為成熟的功能模塊普遍應(yīng)用[5,6]。
基于上述情況,本文將數(shù)據(jù)中心DCIM系統(tǒng)轉(zhuǎn)型重構(gòu)路徑分為輔助運(yùn)維階段(L1)、部分自動(dòng)駕駛階段(L2)、有條件自動(dòng)駕駛階段(L3)、高度自動(dòng)駕駛階段(L4)以及完全自動(dòng)駕駛階段(L5)共5個(gè)階段。
輔助運(yùn)維階段,系統(tǒng)能夠?qū)崿F(xiàn)部分電子化和數(shù)字化運(yùn)維工作,能夠減少人工巡檢內(nèi)容,同時(shí)實(shí)現(xiàn)能耗實(shí)時(shí)監(jiān)控。
部分自動(dòng)駕駛階段的系統(tǒng)標(biāo)準(zhǔn)化流程比較成熟完備,系統(tǒng)能夠?qū)崿F(xiàn)部分自動(dòng)化分析工作,并通過(guò)人工智能(Artificial Intelligence,AI)技術(shù)識(shí)別啞設(shè)備狀態(tài),基本能夠取消大部分日常人工巡檢工作。同時(shí),系統(tǒng)能基于規(guī)則對(duì)電源使用效率(Power Usage Effectiveness,PUE)進(jìn)行優(yōu)化。
有條件自動(dòng)駕駛階段的系統(tǒng)對(duì)標(biāo)準(zhǔn)化流程進(jìn)行持續(xù)優(yōu)化,系統(tǒng)具備通過(guò)AI主導(dǎo)部分重點(diǎn)運(yùn)維工作的能力。利用AI技術(shù)能夠?qū)υO(shè)備運(yùn)行過(guò)程中出現(xiàn)的問(wèn)題進(jìn)行智能診斷,基本不需要人工分析,同時(shí)能實(shí)現(xiàn)能效自動(dòng)優(yōu)化。
高度自動(dòng)駕駛階段的系統(tǒng)實(shí)現(xiàn)了自動(dòng)運(yùn)維,使基礎(chǔ)設(shè)施資源自動(dòng)與IT及云業(yè)務(wù)實(shí)現(xiàn)協(xié)同,通過(guò)AI技術(shù)對(duì)設(shè)備健康狀態(tài)進(jìn)行預(yù)測(cè)并提前發(fā)現(xiàn)問(wèn)題,具有較強(qiáng)的適應(yīng)性。
完全自動(dòng)駕駛階段的系統(tǒng)能夠自動(dòng)感知、自動(dòng)調(diào)整,幫助數(shù)據(jù)中心實(shí)現(xiàn)真正的無(wú)人值守。系統(tǒng)能夠智能預(yù)測(cè)業(yè)務(wù)需求,實(shí)現(xiàn)智能協(xié)同,達(dá)到最優(yōu)運(yùn)行狀態(tài)。
根據(jù)目前DCIM的發(fā)展,大部分?jǐn)?shù)據(jù)中心DCIM系統(tǒng)處于輔助運(yùn)維階段(L1),個(gè)別數(shù)據(jù)中心DCIM系統(tǒng)已經(jīng)達(dá)到部分自動(dòng)駕駛階段(L2)。DCIM系統(tǒng)數(shù)智化轉(zhuǎn)型路徑如圖2所示。
圖2 DCIM系統(tǒng)數(shù)智化轉(zhuǎn)型路徑
根據(jù)上述DCIM系統(tǒng)數(shù)智化轉(zhuǎn)型路徑,結(jié)合實(shí)際運(yùn)維經(jīng)驗(yàn),提出以下5個(gè)DCIM系統(tǒng)轉(zhuǎn)型方向。
3.1.1 全局可視
DCIM系統(tǒng)必須集中統(tǒng)一監(jiān)控全專業(yè)基礎(chǔ)設(shè)施,對(duì)接入指標(biāo)統(tǒng)一標(biāo)準(zhǔn)化管理,實(shí)現(xiàn)數(shù)據(jù)中心全覆蓋監(jiān)控,同時(shí)通過(guò)建立數(shù)據(jù)中心樓宇、房間、設(shè)備、管線等3D仿真模型,全鏈路展示供電、制冷、網(wǎng)絡(luò)等關(guān)鍵部件和系統(tǒng)的拓?fù)浣Y(jié)構(gòu)。系統(tǒng)支持自定義重要指標(biāo)和展示形式,有效幫助運(yùn)維人員縮短故障定位時(shí)間,全局掌控?cái)?shù)據(jù)中心運(yùn)維現(xiàn)狀。
3.1.2 BIM數(shù)字孿生
將DCIM系統(tǒng)與建筑信息模型(Building Information Modeling,BIM)融合,實(shí)現(xiàn)運(yùn)維與設(shè)計(jì)、交付環(huán)節(jié)的無(wú)縫對(duì)接,使得運(yùn)維基礎(chǔ)數(shù)據(jù)更加精準(zhǔn)。同時(shí),系統(tǒng)支持一鍵式生成3D運(yùn)維模型,大幅縮短交付周期,幫助運(yùn)維人員實(shí)現(xiàn)全生命周期的精細(xì)化管理。
DCIM系統(tǒng)應(yīng)具備告警智能分析能力,通過(guò)傳感器、采集器、信號(hào)傳輸處理服務(wù)器整個(gè)鏈路的上下流關(guān)聯(lián)關(guān)系,精準(zhǔn)識(shí)別告警之間的相關(guān)性。基于故障關(guān)聯(lián)樹實(shí)時(shí)屏蔽無(wú)效的次生告警,自動(dòng)分析出源頭告警,快速定位各類設(shè)備的故障,評(píng)估故障影響范圍,大幅縮短故障響應(yīng)與修復(fù)時(shí)間,輔助運(yùn)維人員進(jìn)行決策。
以配電鏈路智能分析為例,通過(guò)配電鏈路分析可以智能分析出受影響的鏈路范圍,了解到哪些設(shè)備會(huì)受到影響,并在配電圖上直觀呈現(xiàn)出來(lái),實(shí)時(shí)顯示近24 h的歷史數(shù)據(jù),便于用戶評(píng)估故障嚴(yán)重程度。同時(shí),根據(jù)設(shè)備關(guān)聯(lián)關(guān)系自動(dòng)屏蔽次生告警,僅顯示設(shè)備的根因告警,便于用戶快速識(shí)別并制訂處理措施,縮短故障處理時(shí)長(zhǎng)。
針對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施,利用AI大數(shù)據(jù)分析與預(yù)測(cè)技術(shù)提前進(jìn)行故障預(yù)測(cè),降低故障率。目前,一般可以劃分為設(shè)備級(jí)預(yù)測(cè)和鏈路級(jí)預(yù)測(cè)兩種。
3.3.1 設(shè)備級(jí)預(yù)測(cè)
設(shè)備級(jí)預(yù)測(cè)主要對(duì)某些特定設(shè)備進(jìn)行故障預(yù)判,例如配電柜溫度、斷路器健康度、落后單體蓄電池等。以配電柜溫度故障預(yù)測(cè)為例,通過(guò)在配電柜安裝溫度傳感器,檢測(cè)配電柜母排溫度、開關(guān)溫度、端子溫度等。預(yù)測(cè)模型如圖3所示。
圖3 配電柜溫度故障預(yù)測(cè)模型
模型中的負(fù)載率(電流)、環(huán)境溫度、端子溫度以及插框溫度之間呈正相關(guān)關(guān)系,將這些溫度測(cè)點(diǎn)當(dāng)作先驗(yàn)條件,采用機(jī)器學(xué)習(xí)的方法通過(guò)AI預(yù)測(cè)找出配電柜在正常工況下的溫度。當(dāng)測(cè)試運(yùn)行時(shí)配電柜的某些支路實(shí)際溫度超過(guò)正常預(yù)測(cè)溫度,實(shí)際溫度高出AI預(yù)測(cè)溫度越多,那么隱形故障的風(fēng)險(xiǎn)越大。
3.3.2 鏈路級(jí)預(yù)測(cè)
根據(jù)全鏈路運(yùn)行情況進(jìn)行故障預(yù)判,以供電鏈路開關(guān)參數(shù)整定為例,開關(guān)層級(jí)多,整定過(guò)程人工分析費(fèi)時(shí)、易錯(cuò)且無(wú)法實(shí)時(shí)匹配負(fù)載波動(dòng)。DCIM系統(tǒng)支持在線整定,即開關(guān)鏈路系統(tǒng)自動(dòng)生成,系統(tǒng)自動(dòng)根據(jù)上下級(jí)開關(guān)整定值進(jìn)行判斷,能夠有效避免參數(shù)設(shè)置不合理而導(dǎo)致的開關(guān)越級(jí)跳閘供配電故障。供電鏈路開關(guān)參數(shù)在線整定過(guò)程如圖4所示。
圖4 供電鏈路開關(guān)參數(shù)在線整定過(guò)程
DCIM系統(tǒng)通過(guò)應(yīng)用機(jī)器學(xué)習(xí)、人工智能、AI等較為先進(jìn)的技術(shù),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分析和處理,得到對(duì)生產(chǎn)運(yùn)維有利的信息或結(jié)果。運(yùn)用AI及大數(shù)據(jù)分析節(jié)能新技術(shù),根據(jù)負(fù)載、溫度等信息調(diào)節(jié)冷機(jī)、水泵、冷塔,實(shí)現(xiàn)PUE智能優(yōu)化,具體包括同頻控制尋優(yōu)、最佳水溫建議尋優(yōu)、制冷模式尋優(yōu)、數(shù)量尋優(yōu)、功率尋優(yōu)以及蓄冷控制尋優(yōu)等。
數(shù)據(jù)中心機(jī)房存在大量的機(jī)柜和IT設(shè)備,DCIM系統(tǒng)可以基于當(dāng)前情況對(duì)機(jī)房進(jìn)行三維建模分析,優(yōu)化當(dāng)前機(jī)房的氣流組織,針對(duì)局部熱點(diǎn)等問(wèn)題給出合理的解決方案?;谌S模型仿真分析,對(duì)室內(nèi)空調(diào)進(jìn)行升溫仿真預(yù)測(cè),告知運(yùn)維人員當(dāng)前機(jī)房溫度可提升的空間,以達(dá)到降低數(shù)據(jù)中心PUE和節(jié)能的目的。
空調(diào)設(shè)備運(yùn)行數(shù)量?jī)?yōu)化的原則是使機(jī)房或微模塊內(nèi)運(yùn)行的空調(diào)設(shè)備總制冷能力與實(shí)際需求基本匹配。結(jié)合數(shù)據(jù)中心機(jī)房?jī)?nèi)的IT能耗分布、空調(diào)設(shè)備布局及氣流分布均勻性等實(shí)際情況,給出合理的空調(diào)設(shè)備運(yùn)行優(yōu)化方案。此外,DCIM系統(tǒng)支持實(shí)現(xiàn)數(shù)據(jù)中心統(tǒng)一的空調(diào)末端群控管理,根據(jù)機(jī)房的負(fù)荷變化自動(dòng)控制空調(diào)的冷量輸出,實(shí)現(xiàn)節(jié)能運(yùn)行。系統(tǒng)按照群控功能規(guī)則,完成對(duì)空調(diào)群控機(jī)組的調(diào)度工作。
DCIM系統(tǒng)按設(shè)備型號(hào)進(jìn)行最佳機(jī)位搜索,可以自動(dòng)關(guān)聯(lián)設(shè)備模型庫(kù)中的設(shè)備型號(hào)、功率、U位高度以及承重信息等,在用戶指定的區(qū)域內(nèi)查找可用的機(jī)位信息,為需要上架的設(shè)備提供推薦方案。此外,DCIM系統(tǒng)還可以按預(yù)留容量、機(jī)柜進(jìn)行最佳機(jī)位搜索,結(jié)合設(shè)備數(shù)量、客戶類型、預(yù)留連續(xù)空間間隔等因素,為需要上架的設(shè)備提供推薦方案。對(duì)于推薦上架的機(jī)柜,需要給出具體理由;對(duì)于可以上架但是不推薦的機(jī)柜,需要提供是哪些因素造成了影響;對(duì)于不能上架的機(jī)柜,需要提供具體不能上架的原因,從制冷、配電、網(wǎng)絡(luò)及物理容量等角度進(jìn)行分析,確保用戶知情決策。
結(jié)合數(shù)據(jù)中心實(shí)際運(yùn)維經(jīng)驗(yàn),討論了目前數(shù)據(jù)中心DCIM系統(tǒng)的發(fā)展現(xiàn)狀及存在的問(wèn)題,并給出了相應(yīng)的DCIM系統(tǒng)重構(gòu)發(fā)展路徑與重點(diǎn)研究方向。DCIM系統(tǒng)未來(lái)發(fā)展中,利用大數(shù)據(jù)和AI等先進(jìn)技術(shù)深入挖掘數(shù)據(jù)價(jià)值,開發(fā)更加強(qiáng)大、實(shí)用、高效的分析處理功能模塊。只有基礎(chǔ)功能和高級(jí)功能均完善,才能真正發(fā)揮出DCIM系統(tǒng)的最大價(jià)值,有效實(shí)現(xiàn)數(shù)據(jù)中心自動(dòng)化轉(zhuǎn)型。