陸宏波 魏海波 袁以友
摘要:隨著國家電網(wǎng)公司分布式數(shù)據(jù)中心建設(shè)數(shù)量的不斷增加,受困于分布式機(jī)房的規(guī)模、距離等客觀因素,運(yùn)維人員疲于奔波應(yīng)付巡檢和故障檢修,導(dǎo)致分布式數(shù)據(jù)機(jī)房運(yùn)維效率低下,運(yùn)維人員工作量日益加大。為了提升分布式數(shù)據(jù)中心監(jiān)控管理和故障處置能力,該文將研究一套分布式數(shù)據(jù)中心統(tǒng)一運(yùn)營支撐平臺(tái),通過對數(shù)據(jù)中心機(jī)房設(shè)施進(jìn)行統(tǒng)一管理,對故障告警進(jìn)行分級(jí)派單處置,對數(shù)據(jù)中心的可用資源以及運(yùn)維專責(zé)靈活調(diào)度,提高運(yùn)維效率,保持分布式數(shù)據(jù)中心的安全穩(wěn)定運(yùn)行。
關(guān)鍵詞:分布式數(shù)據(jù)中心;運(yùn)維管理;運(yùn)營管理
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)04-0029-03
1 研究背景
隨著國家新基建戰(zhàn)略部署,國家電網(wǎng)公司加快推進(jìn)新型數(shù)字基礎(chǔ)設(shè)施建設(shè),融合建設(shè)數(shù)據(jù)中心、充換電站、儲(chǔ)能站、5G基站、北斗基站、光伏站等“多站融合”式變電站。2020年國家電網(wǎng)公司已完成1100余座分布式數(shù)據(jù)中心站建設(shè),并且數(shù)量正在呈現(xiàn)規(guī)?;瘧B(tài)勢增長。這些數(shù)據(jù)中心利用現(xiàn)有的電力變電站閑置土地資源價(jià)值,但因具有“偏遠(yuǎn)、分散、規(guī)模小、交通不便利”等客觀因素,給數(shù)據(jù)中心的運(yùn)維管理工作帶來了新的挑戰(zhàn)。
目前這些“分散式、小型化”的數(shù)據(jù)中心機(jī)房運(yùn)維工作僅依靠變電站點(diǎn)的運(yùn)維團(tuán)隊(duì),存在無專業(yè)運(yùn)維人員值守等問題?,F(xiàn)有的機(jī)房管理系統(tǒng)僅能實(shí)現(xiàn)分布式多機(jī)房設(shè)施綜合監(jiān)控,很難做到機(jī)房運(yùn)維的集中調(diào)度和設(shè)施遠(yuǎn)程控制的調(diào)節(jié)?;谶@些分散數(shù)據(jù)機(jī)房的運(yùn)維管理的現(xiàn)狀,需要一套統(tǒng)一的綜合運(yùn)維運(yùn)營管理系統(tǒng),能夠納管分散的數(shù)據(jù)中心站的設(shè)備以及系統(tǒng),不僅能夠滿足監(jiān)控需求,還具備遠(yuǎn)程控制和管理調(diào)度的能力。以實(shí)現(xiàn)分布式數(shù)據(jù)中心的自動(dòng)化運(yùn)維、智能化運(yùn)維和自主化運(yùn)營。
在人員成本日益提升的今天,如何提高分布式數(shù)據(jù)中心運(yùn)維管理效率,提升機(jī)房故障處理時(shí)效性,保障數(shù)據(jù)中心安全運(yùn)行,是當(dāng)下研究分布式數(shù)據(jù)中心綜合運(yùn)維業(yè)務(wù)的重點(diǎn)和難點(diǎn)。
2 平臺(tái)設(shè)計(jì)原理概述
分布式數(shù)據(jù)中心統(tǒng)一運(yùn)營支撐平臺(tái)從總體架構(gòu)設(shè)計(jì)、機(jī)房基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)采集、機(jī)房基礎(chǔ)設(shè)施運(yùn)維管理、機(jī)房能效提升、機(jī)房調(diào)度控制管理五個(gè)方面進(jìn)行設(shè)計(jì)。以總體架構(gòu)設(shè)計(jì)方法論、數(shù)據(jù)采集、大數(shù)據(jù)分析、運(yùn)行監(jiān)控、遠(yuǎn)程控制、數(shù)據(jù)中心運(yùn)維體系等原理技術(shù)為理論研究基礎(chǔ)。各原理相應(yīng)的理論支撐與研究內(nèi)容的層次架構(gòu)如圖1所示。
從系統(tǒng)的邊界關(guān)系的角度,分布式數(shù)據(jù)中心機(jī)房及基礎(chǔ)設(shè)施運(yùn)行管理可作為運(yùn)維門戶的子模塊與統(tǒng)一權(quán)限平臺(tái)進(jìn)行集成,亦可作為系統(tǒng)平臺(tái)獨(dú)立部署,對數(shù)據(jù)中心機(jī)房及基礎(chǔ)設(shè)施運(yùn)行管理進(jìn)行用戶、角色、權(quán)限的統(tǒng)一管理。與電力監(jiān)控子系統(tǒng)、暖通監(jiān)控子系統(tǒng)、機(jī)房環(huán)境監(jiān)控子系統(tǒng)、視頻門禁監(jiān)控子系統(tǒng)以及消防報(bào)警子系統(tǒng)進(jìn)行集成,通過采集接口采集各類基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)和告警數(shù)據(jù)。
在總體架構(gòu)關(guān)系中,業(yè)務(wù)架構(gòu)從業(yè)務(wù)角度對分布式數(shù)據(jù)中心機(jī)房及基礎(chǔ)設(shè)施的運(yùn)行和管理等業(yè)務(wù)進(jìn)行精細(xì)化、總結(jié)化,形成完整的業(yè)務(wù)能力即視圖,為應(yīng)用和數(shù)據(jù)的架構(gòu)提供業(yè)務(wù)邏輯輸入。應(yīng)用架構(gòu)和數(shù)據(jù)架構(gòu)都基于業(yè)務(wù)架構(gòu),從系統(tǒng)的應(yīng)用功能角度來定義功能的種類、應(yīng)用功能模塊的劃分和應(yīng)用的分布,組成了分布式數(shù)據(jù)中心機(jī)房及基礎(chǔ)設(shè)施運(yùn)行管理的應(yīng)用架構(gòu)輪廓圖。從支撐業(yè)務(wù)數(shù)據(jù)的角度對應(yīng)用數(shù)據(jù)模型、分類、存儲(chǔ)以及流轉(zhuǎn)等方面進(jìn)行規(guī)劃設(shè)計(jì)。從技術(shù)原理實(shí)現(xiàn)的角度定義系統(tǒng)的各個(gè)組件的集成方式、部署方式以及關(guān)聯(lián)關(guān)系。
3 架構(gòu)及功能設(shè)計(jì)思路
3.1 總體結(jié)構(gòu)設(shè)計(jì)
“分布式”數(shù)據(jù)中心采用“中心站+分支站”的運(yùn)維模式,通過構(gòu)建綜合運(yùn)維平臺(tái)實(shí)現(xiàn)“中心站”的統(tǒng)一監(jiān)控和“分支站”的分層運(yùn)維管理,并可實(shí)現(xiàn)的數(shù)據(jù)共享,在應(yīng)急情況處理時(shí),其他“站點(diǎn)”的管理人員也可以實(shí)時(shí)掌握信息。針對“中心站”數(shù)據(jù)中心,可將所有數(shù)據(jù)都匯總到中心站的支撐平臺(tái)上進(jìn)行統(tǒng)一管理、集中展示;而各個(gè)“分支站”的數(shù)據(jù)中心可進(jìn)行獨(dú)立的運(yùn)維管控。
本方案采用Vertx 全異步式框架構(gòu)建分布式數(shù)據(jù)中心統(tǒng)一運(yùn)營支撐管理系統(tǒng),適合物聯(lián)網(wǎng)、分布式應(yīng)用的海量設(shè)備接入。其次Vertx 也是微服務(wù)架構(gòu),可匹配國網(wǎng)微服務(wù)開發(fā)架構(gòu),方便和其他系統(tǒng)實(shí)現(xiàn)對接與集成。數(shù)據(jù)庫采用開源的PostgreSQL,PostgreSQL是功能最全面的數(shù)據(jù)庫,在集群方面有開箱即用的解決方案,數(shù)據(jù)庫的擴(kuò)展能力強(qiáng),通過Extension 可以實(shí)現(xiàn)未來的各種高階應(yīng)用(如OLAP 數(shù)據(jù)分析,GIS 地理位置等)。為實(shí)現(xiàn)海量設(shè)備和海量數(shù)據(jù)的接入,硬件資源采用物理服務(wù)器方式,并配置SSD 固態(tài)硬盤做數(shù)據(jù)加速,便于數(shù)據(jù)的邊緣計(jì)算、數(shù)據(jù)分析的應(yīng)用。面向復(fù)雜SQL 處理的OLTP 在線事務(wù)處理場景,支持NoSQL 數(shù)據(jù)類型(JSON/XML/hstore),支持GIS 地理信息處理,適用于互聯(lián)網(wǎng)、位置應(yīng)用系統(tǒng)、復(fù)雜數(shù)據(jù)對象處理等應(yīng)用場景。同時(shí)可以配合分布式集群軟件,做讀寫分離、負(fù)載均衡、數(shù)據(jù)拆分等方案,實(shí)現(xiàn)數(shù)據(jù)的快速讀取,支撐各類系統(tǒng)的大數(shù)據(jù)應(yīng)用及分析計(jì)算的要求。
3.2 功能模塊設(shè)計(jì)
3.3 基礎(chǔ)設(shè)施數(shù)據(jù)采集、監(jiān)控運(yùn)維
基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)采集主要包含電力設(shè)備的運(yùn)行數(shù)據(jù)采集、暖通設(shè)備狀態(tài)采集、弱電設(shè)運(yùn)行數(shù)據(jù)采集、消防設(shè)備運(yùn)行數(shù)據(jù)采集、機(jī)房環(huán)境設(shè)備運(yùn)行數(shù)據(jù)采集、傳感器設(shè)備運(yùn)行數(shù)據(jù)采集。利用各“站點(diǎn)”數(shù)據(jù)中心內(nèi)的采集傳感器設(shè)備對機(jī)房內(nèi)基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)進(jìn)行采集。通過數(shù)據(jù)采集實(shí)現(xiàn)提供機(jī)房基礎(chǔ)設(shè)施管理和能效策略的數(shù)據(jù)基礎(chǔ)。
基礎(chǔ)設(shè)施運(yùn)維管理是進(jìn)行基礎(chǔ)設(shè)施狀態(tài)和運(yùn)行的監(jiān)控,以及機(jī)房日常的巡檢、檢修工作,包括電力設(shè)備監(jiān)控、暖通設(shè)備監(jiān)控、給排水設(shè)備監(jiān)控、弱電設(shè)備監(jiān)控、環(huán)境設(shè)備監(jiān)控、消防設(shè)備監(jiān)控?;跀?shù)據(jù)采集基礎(chǔ)上,對異常設(shè)備發(fā)出告警,并進(jìn)行檢修工作。基于采集的基礎(chǔ)設(shè)施監(jiān)控以及運(yùn)行數(shù)據(jù),利用統(tǒng)一支撐平臺(tái)實(shí)現(xiàn)分布式數(shù)據(jù)中心的綜合運(yùn)維管控,包括基礎(chǔ)設(shè)施運(yùn)行狀態(tài)監(jiān)控、基礎(chǔ)設(shè)施運(yùn)行告警、臺(tái)賬管理、可視化展示、設(shè)備巡視同質(zhì)化管理、設(shè)備檢修同質(zhì)化管理、應(yīng)急演練同質(zhì)化管理等。
3.4 機(jī)房能效策略及可視化
機(jī)房能效策略研究是基于機(jī)房基礎(chǔ)設(shè)施運(yùn)行數(shù)據(jù)采集和運(yùn)維管理的基礎(chǔ)之上。通過對設(shè)施監(jiān)控?cái)?shù)據(jù)的采集及日常運(yùn)行管理工作,構(gòu)建能耗模型(總體能耗模型、單設(shè)備能耗模型、PUE模型、pPUE模型、影響分析模型、IT聯(lián)動(dòng)模型、節(jié)能控制模型等),利用統(tǒng)一的支撐平臺(tái)結(jié)合大數(shù)據(jù)分析技術(shù),結(jié)合模型計(jì)算各機(jī)房能耗及PUE值并進(jìn)行智能分析,給出機(jī)房能效優(yōu)化和改進(jìn)策略,并根據(jù)策略實(shí)現(xiàn)對機(jī)房能耗的控制。
總體能耗監(jiān)測:系統(tǒng)自動(dòng)進(jìn)行采集相關(guān)數(shù)據(jù),并進(jìn)行總體能耗計(jì)算。
分項(xiàng)能耗計(jì)算:自動(dòng)收集并計(jì)算IT用電量、空調(diào)設(shè)備用電量、配電設(shè)備用電量等分項(xiàng)能耗數(shù)據(jù),以量化的方式展示分項(xiàng)能耗的數(shù)據(jù),掌握能耗的實(shí)時(shí)信息、發(fā)掘節(jié)能降耗的切入點(diǎn)以比對分析降低能耗的差異性。
PUE計(jì)算:按一年時(shí)間采集及統(tǒng)計(jì)數(shù)據(jù)中心總耗電、IT設(shè)備耗電。計(jì)算公式:PUE=數(shù)據(jù)中心總耗電/IT設(shè)備耗電。
實(shí)時(shí)PUE計(jì)算:能效指標(biāo)的數(shù)值受機(jī)房環(huán)境、設(shè)備性能等各種因素的影響。故采用固定儀表進(jìn)行實(shí)時(shí)測量,根據(jù)電量數(shù)值計(jì)算實(shí)時(shí)PUE,并采用自動(dòng)化測量和記錄。計(jì)算公式:實(shí)時(shí)PUE=數(shù)據(jù)中心總功率/IT設(shè)備功率。
pPUE計(jì)算:局部范圍的PUE適合用于基于冷通道、微模塊等單元型構(gòu)建的模塊化數(shù)據(jù)中心。計(jì)算公式:pPUE=局部機(jī)房總用電/局部機(jī)房IT設(shè)備用電。
CLF計(jì)算:系統(tǒng)將收集的數(shù)據(jù),通過公式計(jì)算得出CLF值。計(jì)算公式:CLF=制冷設(shè)備耗電/IT設(shè)備耗電。
PLF計(jì)算:系統(tǒng)將收集的數(shù)據(jù),通過公式計(jì)算得出PLF值。計(jì)算公式:PLF=供配電系統(tǒng)耗電/IT設(shè)備耗電。
數(shù)據(jù)機(jī)房設(shè)施可視化利用了數(shù)字孿生技術(shù),將分布式數(shù)據(jù)中心的實(shí)體基礎(chǔ)設(shè)施在數(shù)字空間中構(gòu)建出來,并根據(jù)模型辨識(shí)和算法設(shè)計(jì)來對基礎(chǔ)設(shè)施的特性、關(guān)系、參數(shù)、指令等進(jìn)行描述和管理,包括數(shù)據(jù)中心的3D建模、設(shè)備空間分配模型、機(jī)房溫度場模型等。通過數(shù)字孿生技術(shù),運(yùn)用模型構(gòu)建和算法設(shè)計(jì),將分布式數(shù)據(jù)中心的基礎(chǔ)設(shè)施運(yùn)維管理數(shù)字化。
3.5 分布式數(shù)據(jù)中心資源調(diào)度和控制
通過云端分布式數(shù)據(jù)中心運(yùn)營支撐管理系統(tǒng)對各分布機(jī)房的設(shè)施運(yùn)行狀態(tài)以及監(jiān)控告警進(jìn)行分析,對城市各區(qū)域的機(jī)房運(yùn)維負(fù)責(zé)人、運(yùn)維專員等進(jìn)行綜合調(diào)度,遵循告警及時(shí)發(fā)現(xiàn)、故障及時(shí)處理、工單及時(shí)關(guān)閉的機(jī)房運(yùn)維策略,通過對運(yùn)維工單、人員的綜合調(diào)度實(shí)現(xiàn)分布式數(shù)據(jù)中心的安全運(yùn)行。
利用平臺(tái)對各站點(diǎn)數(shù)據(jù)中心的基礎(chǔ)設(shè)施進(jìn)行遠(yuǎn)程操控,實(shí)現(xiàn)日常的設(shè)備簡單操作,例如門禁遠(yuǎn)程授權(quán)、設(shè)備遠(yuǎn)程調(diào)節(jié)、重啟等。通過遠(yuǎn)程控制的手段解決一些日常的運(yùn)維管理問題,為機(jī)房運(yùn)維工作提供便捷,提高效率。
4 總結(jié)
通過基Vertx 全異步式框架的分布式數(shù)據(jù)中心統(tǒng)一運(yùn)營支撐管理平臺(tái)建設(shè),實(shí)現(xiàn)分布式數(shù)據(jù)機(jī)房的集中運(yùn)維與管理?;跀?shù)據(jù)機(jī)房基礎(chǔ)設(shè)施與資源的數(shù)據(jù)采集和運(yùn)行監(jiān)控,實(shí)時(shí)掌握各機(jī)房設(shè)施運(yùn)行狀態(tài)以及資源使用情況。對數(shù)據(jù)機(jī)房能耗和PUE進(jìn)行分析,給出機(jī)房能效優(yōu)化和改進(jìn)策略。對各分布站點(diǎn)的資源使用情況以及故障工單處置情況進(jìn)行計(jì)算分析,實(shí)現(xiàn)數(shù)據(jù)中心資源的靈活調(diào)度和遠(yuǎn)程控制。
通過建設(shè)分布式數(shù)據(jù)中心運(yùn)營支撐管理平臺(tái),實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房基礎(chǔ)設(shè)施(供配電、制冷、弱電、防雷、安防、消防、機(jī)房等)運(yùn)行指數(shù)據(jù)的實(shí)時(shí)采集、分析和展示,對數(shù)據(jù)中心運(yùn)營情況、能耗利用等優(yōu)化提供指導(dǎo)參考,進(jìn)一步提升數(shù)據(jù)中心運(yùn)營自動(dòng)化、智能化水平。
參考文獻(xiàn):
[1] 姚宗國,李金屏.兩級(jí)分布式數(shù)據(jù)中心的設(shè)計(jì)和實(shí)現(xiàn)[J].濟(jì)南大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,22(4):384-387.
[2] 冷迪.一種分布式數(shù)據(jù)中心管理系統(tǒng)[發(fā)明專利]:CN111355788A[P].2020-06-30.
[3] 田兆楠.一種分布式數(shù)據(jù)中心鏈路監(jiān)控方法及系統(tǒng)[發(fā)明專利]:CN109981377A[P].20190705.
[4] 劉正偉,呂廣杰,朱波.一種分布式數(shù)據(jù)中心云管理平臺(tái)架構(gòu)系統(tǒng)及方法[發(fā)明專利]:CN104158879B[P].2018-02-23.
[5] 張艷麗.分布式數(shù)據(jù)中心可生存性及性能優(yōu)化算法研究[D].成都:電子科技大學(xué),2015.
[6] 張鵬.分布式數(shù)據(jù)中心 讓IT資源利用“最大化”[J].通信世界,2013(23):48.
[7] 季瑩.ZStack——云行業(yè)的“Windows”[J].網(wǎng)絡(luò)安全和信息化,2019(3):8-9.
[8] 趙建邦.HID:VertX門禁系統(tǒng)完美應(yīng)用于高校[J].中國公共安全,2014(S2):138-139.
[9] 艾勇.IDC機(jī)房能耗分析及優(yōu)化策略[J].中國電子商務(wù),2013(18):22-23.
[10] 陳朝學(xué).數(shù)據(jù)中心機(jī)房節(jié)能策略[J].科技信息,2008(29):83-84.
收稿日期:2021-08-11
作者簡介:陸宏波(1984—),男,安徽舒城人,中級(jí),主要研究方向?yàn)镮T運(yùn)營和運(yùn)維業(yè)務(wù)。