摘要:2021年國家發(fā)改委等四部門發(fā)布《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》明確指出:秉承“綠色集約”的原則,推動(dòng)數(shù)據(jù)中心綠色可持續(xù)發(fā)展,加快節(jié)能低碳技術(shù)的研發(fā)應(yīng)用,提升能源利用效率,降低數(shù)據(jù)中心能耗。在此政策背景下,本文探討了一種研發(fā)數(shù)據(jù)中心一體化管理系統(tǒng)的解決方案:基于數(shù)字孿生架構(gòu),利用物聯(lián)網(wǎng)(IoT)和大數(shù)據(jù)開發(fā)技術(shù),通過對數(shù)據(jù)中心的能耗和容量數(shù)據(jù)的采集感知,數(shù)字化定義和動(dòng)態(tài)算法構(gòu)建孿生體信息模型,實(shí)現(xiàn)能耗管理、容量管理、資源3D可視、集中監(jiān)控和統(tǒng)一告警功能。同時(shí),對能效和容量的相關(guān)數(shù)據(jù)建立AI模型,通過Deep Learning獲得推薦和調(diào)優(yōu)決策依據(jù),有效推進(jìn)了數(shù)據(jù)中心數(shù)智化建設(shè)、精細(xì)化管理和綠色節(jié)能降本目標(biāo)的實(shí)現(xiàn)。關(guān)鍵詞:數(shù)據(jù)中心;數(shù)字孿生;能耗管理;容量管理;3D可視化
近年來,伴隨著中國政企數(shù)字化轉(zhuǎn)型的深入推進(jìn)和數(shù)字經(jīng)濟(jì)的飛速發(fā)展,國內(nèi)數(shù)據(jù)中心行業(yè)保持了30%的高增長態(tài)勢。與此同時(shí),數(shù)據(jù)中心行業(yè)的高能耗和資源利用率低的問題也日益凸顯,主要表現(xiàn)在兩個(gè)方面:
第一,能耗居高不下。耗電量不斷刷新紀(jì)錄。2020年,中國DC用電量已經(jīng)超過2000億kW·h,占用電總量的2.7%。已經(jīng)被列為與傳統(tǒng)八大“雙高”行業(yè)并列的高能耗產(chǎn)業(yè)。大多數(shù)數(shù)據(jù)中心用電效率值(PUE)甚至超過2.2,與政策定義的綠色低碳數(shù)據(jù)中心PUE小于1.3的相去甚遠(yuǎn),甚至50%以上的傳統(tǒng)數(shù)據(jù)中心無法做到PUE值自動(dòng)計(jì)算和監(jiān)測。
第二,容量的利用率低下。數(shù)據(jù)中心的空間、電力、制冷、承重、網(wǎng)絡(luò)等是數(shù)據(jù)中心高昂成本的主要組成部分。從實(shí)際運(yùn)營情況看,國內(nèi)大多數(shù)DC超過70%的容量資源沒有得到有效的應(yīng)用,造成了嚴(yán)重的資源浪費(fèi)。
針對以上問題,利用數(shù)字孿生技術(shù),設(shè)計(jì)開發(fā)數(shù)據(jù)中心一體化智能管理系統(tǒng),進(jìn)行細(xì)化到機(jī)柜和設(shè)備的能耗管理和多維度容量管理,有效促進(jìn)節(jié)能、降碳、增效,解決容量利用率低下造成資源浪費(fèi)的困擾。緊密契合國家“碳達(dá)峰碳中和”戰(zhàn)略決策和推動(dòng)數(shù)據(jù)中心綠色可持續(xù)發(fā)展,意義重大。
一、總體設(shè)計(jì)與實(shí)現(xiàn)
數(shù)據(jù)中心一體化智能管理系統(tǒng)主要由能耗管理、容量管理、流程管理和數(shù)字孿生3D展示四部分組成。技術(shù)架構(gòu)上主要包括采集層、數(shù)據(jù)層、應(yīng)用層、展示層和管控層等(見圖1總體架構(gòu)圖)。采集層利用物聯(lián)網(wǎng)設(shè)備進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)層進(jìn)行數(shù)據(jù)的存儲(chǔ)計(jì)算,應(yīng)用層負(fù)責(zé)系統(tǒng)功能的實(shí)現(xiàn),展示層和管控層實(shí)現(xiàn)用戶操作、展示、監(jiān)控等。
數(shù)字孿生應(yīng)用基于采集感知、網(wǎng)絡(luò)傳輸、數(shù)字建模、虛擬仿真融合,運(yùn)用物聯(lián)網(wǎng)連接數(shù)據(jù)中心實(shí)體和數(shù)字孿生體,合成高精度數(shù)字模型,匹配精確地測量數(shù)據(jù)的動(dòng)態(tài)更新。借助Deep Learning的AI虛擬沉浸式仿真,結(jié)合實(shí)景視頻孿生引擎,獲取3D的渲染效果展示。
技術(shù)框架采用B/S模式設(shè)計(jì),通過智能電量表和傳感器設(shè)備,加上Dubbo技術(shù)框架,實(shí)現(xiàn)基于分布式的采集。通過Databus Server+Agent集群搭建采集數(shù)據(jù)管理服務(wù),并部署TDH(Hadoop+Hbase)實(shí)現(xiàn)大量采集數(shù)據(jù)的寫入和存儲(chǔ)。利用分布式文件系統(tǒng)及Hbase技術(shù),實(shí)現(xiàn)針對大量采集數(shù)據(jù)的讀寫、存儲(chǔ)、壓縮、備份機(jī)制。數(shù)據(jù)庫采用MongoDB+MySQL。Redis集群實(shí)現(xiàn)熱點(diǎn)數(shù)據(jù)緩存服務(wù),并采用Spring Cloud微服務(wù)技術(shù)獨(dú)立編譯及部署,提供功能模塊的開發(fā)。Activiti平臺(tái)設(shè)計(jì)工作流邏輯流程,并運(yùn)用3D虛擬仿真技術(shù)構(gòu)建整個(gè)數(shù)據(jù)中心的三維虛擬環(huán)境??蓪Ω鞅O(jiān)控子系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的集中監(jiān)控,對各子系統(tǒng)實(shí)時(shí)/歷史的監(jiān)控?cái)?shù)據(jù)和告警信息進(jìn)行集中展現(xiàn)。同時(shí),利用LVS+Keepalived技術(shù)保證系統(tǒng)的運(yùn)行穩(wěn)定。Nginx實(shí)現(xiàn)Web服務(wù)的高效率開發(fā),用Echarts定制數(shù)據(jù)統(tǒng)計(jì)的可視化圖表。開發(fā)完成后的系統(tǒng)應(yīng)該具有高性能、高可用、高安全的特點(diǎn),并且具有實(shí)時(shí)監(jiān)控、整體管控、按需伸縮、直觀展示的特性。同時(shí),提供各類標(biāo)準(zhǔn)接口(SOCKET、FTP、EJB、LDAP、XML、HTTP、JMS、Email、Web Services、WSRP、JCA、CORBA、RMI等),滿足第三方應(yīng)用的連接支持。
二、數(shù)字孿生可視化
數(shù)字孿生是以數(shù)據(jù)(包括實(shí)時(shí)傳感數(shù)據(jù)、歷史數(shù)據(jù)以及算法模型等)與模型(涵蓋物理模型、機(jī)理模型、流程模型等)的集成融合為基礎(chǔ)與核心。通過在數(shù)字空間構(gòu)建物理對象的數(shù)字化映射(包含物理實(shí)體、物理對象的行為、流程與過程),基于數(shù)據(jù)整合與分析預(yù)測,來模擬、驗(yàn)證、預(yù)測、控制物理實(shí)體全生命周期過程。最終形成智能決策的優(yōu)化閉環(huán)[6]。
數(shù)據(jù)中心數(shù)字孿生可視化利用3D技術(shù),將孿生體對象,包括園區(qū)建筑、機(jī)房布局、基礎(chǔ)配套、冷通道和機(jī)柜、IT設(shè)備、強(qiáng)弱電鏈路等,通過數(shù)據(jù)處理和建模仿真實(shí)現(xiàn)數(shù)字化映射。這樣可以實(shí)現(xiàn)IT設(shè)施、動(dòng)環(huán)、容量、鏈路、告警等信息的可視化,并對數(shù)據(jù)進(jìn)行模擬、分析、預(yù)測和驗(yàn)證,提供決策依據(jù)。關(guān)鍵技術(shù)包括仿真幾何信息模型、物聯(lián)網(wǎng)(IOT)采集、3D展示、能耗預(yù)測模型、告警信息等,實(shí)現(xiàn)基礎(chǔ)設(shè)施、能耗、容量、動(dòng)環(huán)、鏈路、監(jiān)控、溫度云圖等信息的可視化。
(一)仿真幾何信息模型
首先收集數(shù)據(jù)中心建設(shè)和機(jī)房內(nèi)多角度實(shí)景照片、CAD建設(shè)圖、平面圖等素材,利用3DMax建立仿真模型,Unity引擎實(shí)現(xiàn)3D視覺的編輯,遠(yuǎn)景采用軸測法,布局更清晰,進(jìn)行采用透視法,細(xì)節(jié)更真實(shí),CMDB系統(tǒng)獲取實(shí)例動(dòng)態(tài)的信息關(guān)聯(lián)和邏輯關(guān)系。
(二)物聯(lián)網(wǎng)IOT采集
智能PDU、溫濕度傳感器、串口服務(wù)器等物聯(lián)網(wǎng)采集器是實(shí)體動(dòng)態(tài)信息的數(shù)據(jù)泵,采集到的數(shù)據(jù)通過Modbus等協(xié)議和RESTFul接口映射到孿生體。
(三)3D展示
通過WebGL建立3D可視化環(huán)境,逐級(jí)放大方式瀏覽,前端框架采用vue-cli3微框架+Element-UI,集成采用WebService、ActiveMQ、RESTFul,展示效果見圖3。
(四)能耗預(yù)測模型
AI的深度學(xué)習(xí)技術(shù)Deep Learning是能耗預(yù)測的核心,利用LSTM建立能耗預(yù)測模型針對全生命周期內(nèi)的數(shù)據(jù)進(jìn)行智能學(xué)習(xí)獲取動(dòng)態(tài)依存關(guān)系和優(yōu)化模型。
(五)告警信息
Dashboard技術(shù)可以用于告警展示和資源定位,同時(shí)支持全面靈活的故障告警規(guī)則設(shè)置。它可以支持實(shí)時(shí)告警、壓制告警、延時(shí)告警等多種告警機(jī)制,同時(shí)將告警分為活動(dòng)告警和歷史告警。通過設(shè)定某段時(shí)間內(nèi)滿足告警表達(dá)式的頻率,可以有效抑制瞬時(shí)告警的效果。
三、能耗管理
數(shù)據(jù)中心能耗管理包括數(shù)據(jù)采集、分析、指標(biāo)及展示、告警、報(bào)表、集中監(jiān)測、用能設(shè)備管理、PUE測算等功能。前端的數(shù)據(jù)采集及定時(shí)任務(wù)系統(tǒng)可以計(jì)算出各個(gè)分項(xiàng)能耗,展示整體和分項(xiàng)能耗信息和趨勢圖形,為機(jī)房管理人員提供直觀的能耗數(shù)據(jù)。采用控制變量法,可以采集相關(guān)運(yùn)行變量,測算變量對PUE的影響權(quán)重,進(jìn)行靈敏度分析和動(dòng)態(tài)趨勢分析,并設(shè)定閾值參考。數(shù)字孿生技術(shù)可以用于建立機(jī)器學(xué)習(xí)模型,對能效管理相關(guān)數(shù)據(jù)進(jìn)行采集監(jiān)測、統(tǒng)計(jì)審查和趨勢展示,并提供節(jié)能建議,為PUE的調(diào)優(yōu)提供決策支持。此外,能耗的數(shù)字化定義和建??梢詷?gòu)建仿真分析和優(yōu)化模型,通過虛擬空間映射和3D空間展示,進(jìn)行能耗管理的仿真分析和優(yōu)化。
能耗數(shù)字采集是通過采集器對智能電量儀、UPS、列間空調(diào)、精密空調(diào)、精密列頭柜、智能PDU等設(shè)備數(shù)值指標(biāo)進(jìn)行采集。利用多種通信協(xié)議如modbus、SNMP傳輸數(shù)據(jù)。我們使用apache的commons-pool2對所有連接進(jìn)行池化管理,并使用任務(wù)管理(Quartz)調(diào)度不同設(shè)備的采集過程。使用Flume(分布式數(shù)據(jù)傳輸框架),將數(shù)據(jù)統(tǒng)一發(fā)送到調(diào)度平臺(tái)。同時(shí),我們發(fā)起兩個(gè)數(shù)據(jù)流傳輸,其一是做數(shù)據(jù)的異步持久化存儲(chǔ)。另一個(gè)是發(fā)布到kafka中,作為其他業(yè)務(wù)功能訂閱的實(shí)時(shí)數(shù)據(jù)。我們從時(shí)間、空間、設(shè)備維度進(jìn)行能耗分析,使用時(shí)間序列的機(jī)器學(xué)習(xí)技術(shù)統(tǒng)計(jì)學(xué)習(xí)、傳統(tǒng)機(jī)器學(xué)習(xí)、前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種(包括LSTM、GRU)等方法進(jìn)行能耗預(yù)測。同時(shí),我們使用JEXL3構(gòu)建規(guī)則引擎進(jìn)行配置公式的計(jì)算。其中重點(diǎn)計(jì)算公式如下:PUE=實(shí)時(shí)總設(shè)備能耗/IT設(shè)備能耗;EUE=累計(jì)總設(shè)備能耗/累計(jì)IT設(shè)備能耗;CLF=制冷設(shè)備耗電/IT設(shè)備能耗;PLF=供配電系統(tǒng)耗電/IT設(shè)備能耗。
基于物理的數(shù)字孿生模型能夠通過協(xié)同動(dòng)力與環(huán)境系統(tǒng)、配電系統(tǒng)、仿真氣流組織和冷源系統(tǒng),對電氣設(shè)備、空調(diào)設(shè)備、服務(wù)器及網(wǎng)絡(luò)設(shè)備的能耗進(jìn)行動(dòng)態(tài)分析。該模型提供多維度的數(shù)據(jù)展示功能,包括時(shí)間維度(年、季、月、日)和空間維度(數(shù)據(jù)中心、單樓層、單機(jī)房、子系統(tǒng)、服務(wù)器和服務(wù)器組合及設(shè)備維度),清晰展示數(shù)據(jù)中心能耗分布,實(shí)時(shí)展示各設(shè)備及子系統(tǒng)能耗使用情況。此外,該模型還能夠建立AI模型,對能效管理相關(guān)數(shù)據(jù)進(jìn)行自我學(xué)習(xí),并確定其最佳的設(shè)定值。同時(shí),該模型還能夠提供節(jié)能建議,為PUE的調(diào)優(yōu)提供決策支持。能耗預(yù)警功能提供能耗指標(biāo)閾值管理,對用能超限進(jìn)行告警,提醒對告警區(qū)域及時(shí)干預(yù)。此外,該模型還提供多種功能能耗報(bào)表,為數(shù)據(jù)中心精細(xì)化用能管理提供了堅(jiān)實(shí)的基礎(chǔ)。作為節(jié)能低碳技術(shù)的研發(fā)的典型應(yīng)用,該模型推動(dòng)數(shù)據(jù)中心“綠色集約”的可持續(xù)性發(fā)展。
四、容量管理
容量管理包括電力、空間、網(wǎng)絡(luò)、磁盤等多個(gè)方面的全局分析、分層分析、數(shù)據(jù)統(tǒng)計(jì)、設(shè)備上架推薦和變更跟蹤等功能。它的目標(biāo)是確保數(shù)據(jù)中心的基礎(chǔ)設(shè)施容量資源能夠高效、經(jīng)濟(jì)地應(yīng)用,在不斷演進(jìn)的數(shù)據(jù)中心業(yè)務(wù)和容量資源進(jìn)行優(yōu)化和調(diào)整。同時(shí),通過實(shí)時(shí)容量數(shù)據(jù)、歷史容量數(shù)據(jù)和容量閾值等進(jìn)行規(guī)劃和預(yù)測容量未來資源,進(jìn)一步提高基礎(chǔ)設(shè)施資源的使用率,減少容量超載對業(yè)務(wù)的影響,降低容量成本。數(shù)據(jù)中心的整體容量信息包括空間、電力、制冷、承重和網(wǎng)絡(luò)等五個(gè)維度。容量管理系統(tǒng)以電力、制冷量和空間容量為基礎(chǔ),實(shí)現(xiàn)對機(jī)房進(jìn)行整體管理和資源規(guī)劃。通過對數(shù)據(jù)中心機(jī)房進(jìn)行容量管理,可以全面展示機(jī)房的整體容量利用情況和剩余率,提升數(shù)據(jù)中心機(jī)房用戶的管理水平和資源利用率。
系統(tǒng)通過設(shè)置模塊,為操作人員提供數(shù)據(jù)中心容量可視化與規(guī)劃管理工具。運(yùn)維人員可以配置規(guī)劃的機(jī)房資源的基本參數(shù)(電力、冷量、U位)。電力容量通過采集讀取配電柜、UPS和PDU電力信息,實(shí)時(shí)計(jì)算出相應(yīng)的負(fù)載率及剩余可帶載能力,并生成相應(yīng)的容量報(bào)表及歷史趨勢圖。當(dāng)需要加入設(shè)備時(shí),系統(tǒng)可根據(jù)機(jī)房的電力容量剩余量判斷當(dāng)前增加的設(shè)備是否超過剩余量,進(jìn)行閾值告警。制冷容量通過讀取采集配電柜、精密空調(diào)、列間空調(diào)等的電力信息,實(shí)時(shí)計(jì)算出相應(yīng)的負(fù)載率及剩余可帶載能力,并生成相應(yīng)的容量報(bào)表及歷史趨勢圖。空間容量對接CMDB系統(tǒng)獲取每個(gè)機(jī)房的機(jī)柜數(shù)量以及每臺(tái)機(jī)柜的U空間使用情況,實(shí)時(shí)計(jì)算出相應(yīng)的負(fù)載率及剩余U空間,并生成相應(yīng)的容量報(bào)表及歷史趨勢圖。承重和網(wǎng)絡(luò)通過動(dòng)態(tài)采集工具獲取容量的實(shí)時(shí)數(shù)據(jù),對獲取的實(shí)時(shí)數(shù)據(jù)進(jìn)行加工配置,可以得到數(shù)據(jù)中心運(yùn)維人員關(guān)心的容量指標(biāo),分析變化所帶來的影響,從而做出合理的決策及規(guī)劃,確保物理設(shè)施符合當(dāng)前及將來的需求。同時(shí),系統(tǒng)利用數(shù)據(jù)孿生技術(shù),基于當(dāng)前數(shù)據(jù)中心的實(shí)際機(jī)柜占用情況,進(jìn)行模擬操作。在不影響真實(shí)環(huán)境數(shù)據(jù)的條件下,可以進(jìn)行設(shè)備的添加、刪除、遷移,以便更好地進(jìn)行容量規(guī)劃和管理。
五、結(jié)束語
智能管理系統(tǒng)的設(shè)計(jì)為數(shù)字孿生技術(shù)在數(shù)據(jù)中心的應(yīng)用和實(shí)踐開拓了思路。通過數(shù)字孿生系統(tǒng)中數(shù)據(jù)的分析和聚合,仿真業(yè)務(wù)模型不斷深化,實(shí)現(xiàn)了靈活的容量管理、能耗管理和預(yù)測分析等。這進(jìn)一步提升了數(shù)據(jù)中心的能效比和使用密度,提高了設(shè)備使用效率,降低了運(yùn)營成本,實(shí)現(xiàn)了數(shù)據(jù)中心穩(wěn)定運(yùn)行和降低成本的總體目標(biāo),符合數(shù)據(jù)中心綠色節(jié)能發(fā)展趨勢。同時(shí),該系統(tǒng)緊密契合國家“碳達(dá)峰”和“碳中和”的重大戰(zhàn)略決策,滿足了數(shù)據(jù)中心降低成本和提高效率的切實(shí)需求。該研究已經(jīng)在上港集團(tuán)的數(shù)據(jù)中心投入使用,發(fā)揮了重要的作用,為數(shù)據(jù)中心的數(shù)智化建設(shè)和精細(xì)化運(yùn)營管理提供了行之有效的解決方案。
作者單位:王偉 李東 上海海勃物流軟件有限公司
參" 考" 文" 獻(xiàn)
[1]Ma Haizhou,Ding Aiping. Method for evaluation on energy consumption of cloud computing data center based on deep reinforcement learning[J]. Electric Power Systems Research,2022,208.
[2]Information Technology - Data Centers; New Findings from Lulea University of Technology in the Area of Data Centers Described (Capacity Management of Hyperscale Data Centers Using Predictive Modelling)[J]. Computer Weekly News,2019.
[3]石云鵬.“雙碳”背景下數(shù)據(jù)中心能耗現(xiàn)狀與節(jié)能技術(shù)研究[J].中國新通信,2022,24(08):119-121.
[4]楊頤,劉漫賢,葉范亭,等. 基于數(shù)字孿生的數(shù)據(jù)中心機(jī)房動(dòng)環(huán)管理系統(tǒng)[J]. 電工技術(shù),2021(20):35-37.
[5]劉虹,馮汀,阮前,等.基于數(shù)字孿生與AI仿真技術(shù)的數(shù)據(jù)中心能耗優(yōu)化研究與實(shí)踐[J].長江信息通信,2022,35(09):203-205.
[6]張?zhí)戾?,姬? 數(shù)字孿生綜述[C]//中國自動(dòng)化學(xué)會(huì)專家咨詢工作委員會(huì),中國計(jì)算機(jī)系統(tǒng)仿真應(yīng)用工作委員會(huì),中國儀器儀表學(xué)會(huì)產(chǎn)品信息委員會(huì),北京國信融合信息技術(shù)研究院.2019中國系統(tǒng)仿真與虛擬現(xiàn)實(shí)技術(shù)高層論壇論文集.[出版者不詳],2019:77-82.