蔡幸波, ??煞f
(浙江德塔森特數(shù)據(jù)技術(shù)有限公司,寧波 315000)
隨著數(shù)字新基建的啟動,以及5G和邊緣云技術(shù)的普及,智能微型數(shù)據(jù)機(jī)房建設(shè)數(shù)量日益增長,大量數(shù)據(jù)機(jī)房處于二十四小時不間斷運(yùn)行狀態(tài)。通過對智能微型數(shù)據(jù)機(jī)房需求的調(diào)查,筆者發(fā)現(xiàn),數(shù)據(jù)機(jī)房建設(shè)地理位置較為分散,有些分散建設(shè)在城市各棟大樓中,還有些建設(shè)在海島、高山等偏遠(yuǎn)地帶,存在數(shù)量大、規(guī)模小、地遠(yuǎn)分散、人員管理不便等情況,造成機(jī)房運(yùn)維人力成本高、管理困難、安全性低等問題。智能微型數(shù)據(jù)機(jī)房邊緣云綜合監(jiān)控系統(tǒng)能夠提高機(jī)房的管理效率,減少運(yùn)維費(fèi)用,使機(jī)房運(yùn)行更安全高效。因此,構(gòu)建一套完整的智能微型數(shù)據(jù)機(jī)房邊緣云綜合監(jiān)控系統(tǒng)(以下簡稱“綜合監(jiān)控系統(tǒng)”)是十分有意義的。
綜合監(jiān)控系統(tǒng)設(shè)計是計算機(jī)技術(shù)、通信技術(shù)、自動化技術(shù)、人工智能技術(shù)的融合。管理人員可遠(yuǎn)程對機(jī)房設(shè)備進(jìn)行監(jiān)測、控制和管理,實(shí)現(xiàn)對機(jī)房高效便捷的運(yùn)維。綜合監(jiān)控系統(tǒng)自身具備高可靠性和智能處置能力,遇到機(jī)房故障自主采取及時有效地處理,方便機(jī)房管理人員留有充足時間趕到現(xiàn)場更換設(shè)備進(jìn)行維護(hù)。2020年國家標(biāo)準(zhǔn)GB/T 51409-2020 《數(shù)據(jù)中心綜合監(jiān)控系統(tǒng)工程技術(shù)標(biāo)準(zhǔn)》發(fā)布,因此綜合監(jiān)控系統(tǒng)的設(shè)計在遵循國家相關(guān)標(biāo)準(zhǔn)的基礎(chǔ)上,更注重突出智能微型數(shù)據(jù)機(jī)房分布式、無人值守、邊緣云運(yùn)維的需求特性。
綜合監(jiān)控系統(tǒng)采用模塊化設(shè)計,實(shí)現(xiàn)了模塊的獨(dú)立性,達(dá)到了快速部署、降低運(yùn)維成本的目的。系統(tǒng)各模塊設(shè)計雙活互備同時具備健康監(jiān)控功能,實(shí)現(xiàn)了系統(tǒng)的高可靠性,能夠在降低成本的同時,實(shí)時保障監(jiān)控系統(tǒng)穩(wěn)定高效地運(yùn)行。通過遙測、遙信、遙控、遙調(diào)和實(shí)時報警管理,實(shí)現(xiàn)對機(jī)房供配電模塊、冷量模塊、安防模塊等基礎(chǔ)設(shè)施運(yùn)行狀態(tài)的實(shí)時監(jiān)控并記錄歷史數(shù)據(jù),通過IT設(shè)備的SNMP協(xié)議和IPMI接口,實(shí)現(xiàn)機(jī)房IT設(shè)備的參數(shù)查看、工作性能跟蹤和日志分析等功能。通過遠(yuǎn)程集中監(jiān)控技術(shù),結(jié)合智能聯(lián)動參數(shù)配置,使設(shè)備智能化,遇到設(shè)備故障,系統(tǒng)能夠在第一時間做出基本判斷并處理,減少故障損失。
綜合監(jiān)控系統(tǒng)由機(jī)房監(jiān)控系統(tǒng)和邊緣云平臺兩大系統(tǒng)構(gòu)成,前者由數(shù)據(jù)采集模塊和智能管控模塊兩部分組成,后者由數(shù)據(jù)傳輸模塊、動環(huán)監(jiān)控模塊、IT設(shè)備監(jiān)控模塊、3D可視化監(jiān)控模塊和數(shù)字化運(yùn)維模塊五部分組成。綜合監(jiān)控系統(tǒng)由多個單點(diǎn)機(jī)房監(jiān)控系統(tǒng)構(gòu)成并分布式部署,圖1所示為系統(tǒng)組成示意圖。
圖1 邊緣云平臺綜合監(jiān)控系統(tǒng)示意圖
整體系統(tǒng)具備如下特點(diǎn)。
(1)部署方便,運(yùn)維成本低:系統(tǒng)整體采用模塊化設(shè)計,降低了系統(tǒng)的復(fù)雜程度,每個設(shè)備可作為單獨(dú)的模塊,系統(tǒng)整體可上機(jī)架安裝,僅需占用機(jī)柜1U高的空間,可簡化系統(tǒng)調(diào)試,方便設(shè)備實(shí)施安裝及維護(hù)拆卸,從而減少人工費(fèi)用,降低了運(yùn)維成本。
(2)安全可靠性高:系統(tǒng)軟硬件采用模塊雙活互備實(shí)現(xiàn)了高可靠性,當(dāng)任一模塊的服務(wù)停止時,由另一模塊接管,以保證機(jī)房監(jiān)控服務(wù)的正常運(yùn)行。系統(tǒng)對機(jī)房設(shè)備運(yùn)行異常實(shí)時檢測,遇到故障迅速告警且對基礎(chǔ)故障進(jìn)行智能判斷處置,確保機(jī)房健康穩(wěn)定高效運(yùn)行。
(3)管理高效率:系統(tǒng)通過遠(yuǎn)程集中監(jiān)控、3D可視化管理和數(shù)字化運(yùn)維,實(shí)現(xiàn)邊緣云平臺智能集中管控,實(shí)時監(jiān)測整個數(shù)據(jù)中心機(jī)房的運(yùn)行狀況、智能事件記錄和聲光語音報警,簡化機(jī)房管理人員的維護(hù)工作。
智能微型數(shù)據(jù)機(jī)房數(shù)量眾多且區(qū)域分散,設(shè)計要求機(jī)房監(jiān)控系統(tǒng)安裝維護(hù)方便,系統(tǒng)可靠性高,具有機(jī)房異常智能聯(lián)動處置能力,滿足機(jī)房無人值守需求。
機(jī)房監(jiān)控系統(tǒng)硬件采用一體化控制板設(shè)計,數(shù)據(jù)采集模塊和智能管控模塊的硬件設(shè)備設(shè)計在一塊PCB板上,以簡化配件安裝,減少連接線,提高硬件設(shè)備的可靠性。硬件系統(tǒng)的CPU選用工業(yè)級ARM處理器,操作系統(tǒng)選用成熟的開源操作系統(tǒng)或符合國家安全認(rèn)可的操作系統(tǒng),如烏班圖系統(tǒng)或麒麟系統(tǒng)。系統(tǒng)具有雙電源輸入,控制板設(shè)計雙網(wǎng)口,內(nèi)置短信電話報警裝置。具體模塊設(shè)計如下。
(1)數(shù)據(jù)采集模塊設(shè)計
數(shù)據(jù)采集模塊的軟硬件設(shè)計都需考慮冗余特效,以保證系統(tǒng)的可靠性。在硬件端口設(shè)計時,可采用多個RS232、RS485以及DI信號采集端口,2個標(biāo)準(zhǔn)以太網(wǎng)口,考慮工程接線通用性,端口全部采用標(biāo)準(zhǔn)RJ45接口。在軟件功能設(shè)計時,數(shù)據(jù)采集模塊設(shè)計支持Modbus、SNMP、Web Service、BAC net、IPMI、OPC等多種標(biāo)準(zhǔn)化協(xié)議和接口。
通過Modbus和SNMP協(xié)議采集機(jī)房基礎(chǔ)設(shè)施的空調(diào)、配電、UPS、智能PDU、溫濕度、煙感、水浸等設(shè)備,同時可對空調(diào)、配電、UPS、智能PDU等設(shè)備進(jìn)行參數(shù)配置。通過SNMP協(xié)議和IPMI接口采集并管理服務(wù)器、交換機(jī)、存儲等IT設(shè)備。
采用Modbus RTU協(xié)議的多個采集設(shè)備可以設(shè)計成Bus總線方式與數(shù)據(jù)采集模塊連接在一起,以提高系統(tǒng)可靠性,也支持設(shè)計成環(huán)網(wǎng)方式與數(shù)據(jù)采集模塊連接。
(2)智能管控模塊設(shè)計
智能微型數(shù)據(jù)機(jī)房的智能化不僅僅體現(xiàn)在可通過Web端與手機(jī)App來控制設(shè)備,即軟件與設(shè)備之間的聯(lián)動,還可以在邊緣云集中監(jiān)控平臺設(shè)置告警聯(lián)動,實(shí)現(xiàn)設(shè)備與設(shè)備之間的智能聯(lián)動。具體實(shí)現(xiàn)方式如下。
1)“軟件-設(shè)備”聯(lián)動:在保證軟件和設(shè)備已經(jīng)成功建立通訊的情況下,通過Web端或手機(jī)App上相應(yīng)的提示操作發(fā)送控制指令,系統(tǒng)軟件做出安全分析判斷后將獲取到的命令信息傳給設(shè)備做出相應(yīng)動作。如當(dāng)冬夏季環(huán)境溫度變化,管理人員可以遠(yuǎn)程根據(jù)需要設(shè)置和關(guān)閉空調(diào)制冷。此外,在智能化安防方面,當(dāng)有人在門口呼叫時,可以通過系統(tǒng)遠(yuǎn)程控制球機(jī)的轉(zhuǎn)動,以調(diào)整監(jiān)控視角,確認(rèn)人員后可在系統(tǒng)上遠(yuǎn)程控制門禁設(shè)備開門。
2)“設(shè)備-設(shè)備”聯(lián)動:系統(tǒng)實(shí)時采集機(jī)房設(shè)備和環(huán)境的數(shù)據(jù),當(dāng)一項(xiàng)或多項(xiàng)監(jiān)控數(shù)據(jù)達(dá)到預(yù)設(shè)的聯(lián)動閥值時,系統(tǒng)可以觸發(fā)反向控制命令,通過SNMP或Modbus協(xié)議經(jīng)數(shù)據(jù)采集連接線或?qū)S迷O(shè)備控制接口,向機(jī)房設(shè)備傳遞一個命令。如當(dāng)遇到雷電等異常天氣,可觸發(fā)系統(tǒng)上防雷設(shè)置的告警閾值,系統(tǒng)通過聯(lián)動設(shè)置關(guān)閉受雷電影響的設(shè)備;當(dāng)空調(diào)異常時,可觸發(fā)聯(lián)動設(shè)置中的告警閾值,打開應(yīng)急風(fēng)扇并關(guān)閉相關(guān)基礎(chǔ)設(shè)施和IT設(shè)備。
智能管控模塊設(shè)計的“軟件-設(shè)備”及“設(shè)備-設(shè)備”的智能聯(lián)動,實(shí)現(xiàn)了智能微型數(shù)據(jù)機(jī)房在無人值守的情況下,能夠第一時間處理機(jī)房的異常情況,減少機(jī)房的意外損失,極大地提高了機(jī)房的可靠性。
為進(jìn)一步提高監(jiān)控系統(tǒng)自身的可靠性,機(jī)房監(jiān)控系統(tǒng)采用雙活設(shè)計,支持熱備方式部署,其設(shè)備連接網(wǎng)絡(luò)拓?fù)鋱D如圖2所示。
圖2 智能微型數(shù)據(jù)機(jī)房監(jiān)控拓?fù)鋱D
考慮Modbus等采集協(xié)議在同一時間點(diǎn)只支持一臺上位機(jī)采集數(shù)據(jù),設(shè)計兩臺互備的機(jī)房監(jiān)控系統(tǒng)做心跳檢測和工作時序控制,確保數(shù)據(jù)采集不會單點(diǎn)重入,當(dāng)單點(diǎn)出現(xiàn)故障時,也不會遺漏任何時序的采集點(diǎn)數(shù)據(jù)。
納入邊緣云平臺集中監(jiān)控的機(jī)房節(jié)點(diǎn)數(shù)量較多,要求邊緣云平臺具備高可靠性、高可用性、高安全性。邊緣云平臺各功能模塊采用分布式多點(diǎn)冗余熱備設(shè)計(圖3),在達(dá)到數(shù)據(jù)中心監(jiān)控系統(tǒng)雙活設(shè)計目標(biāo)的同時具備負(fù)載均衡功能,以滿足邊緣云平臺幾十萬機(jī)房監(jiān)控節(jié)點(diǎn)的高并發(fā)接入需求。
圖3 邊緣云平臺模塊分布式冗余結(jié)構(gòu)
邊緣云平臺需具備開放性、易維護(hù)和可擴(kuò)展性,平臺設(shè)計采用微服務(wù)架構(gòu),各模塊間信息傳輸采用消息中間件。具體模塊設(shè)計如下。
(1)數(shù)據(jù)傳輸模塊和存儲設(shè)計
智能微型數(shù)據(jù)機(jī)房分布區(qū)域廣,網(wǎng)絡(luò)連接條件受限,存在部分機(jī)房節(jié)點(diǎn)短時間斷網(wǎng)的可能性,設(shè)計數(shù)據(jù)傳輸模塊有數(shù)據(jù)傳輸斷點(diǎn)補(bǔ)全功能??紤]智能微型數(shù)據(jù)機(jī)房在實(shí)際建設(shè)中往往在不同時間段分批次投入應(yīng)用,設(shè)計數(shù)據(jù)傳輸模塊能快捷規(guī)范對接機(jī)房節(jié)點(diǎn),后續(xù)機(jī)房節(jié)點(diǎn)加入平臺對系統(tǒng)整體集中監(jiān)控不產(chǎn)生影響。
設(shè)備監(jiān)控數(shù)據(jù)實(shí)時采集處理后不再需要修改,設(shè)計采用時序數(shù)據(jù)庫存儲監(jiān)控數(shù)據(jù)。系統(tǒng)平臺信息需要增/刪/改維護(hù)及高安全性,設(shè)計采用關(guān)系數(shù)據(jù)庫存儲平臺信息數(shù)據(jù)。
(2)動力環(huán)境監(jiān)控平臺設(shè)計
動力環(huán)境監(jiān)控平臺會將UPS、供配電、精密空調(diào)、智能PDU、電磁閥、漏水、溫濕度、消防、門禁、視頻、防盜報警、蓄電池、新風(fēng)等子系統(tǒng)集成在一個動力環(huán)境監(jiān)控平臺上進(jìn)行節(jié)能優(yōu)化、集中控制管理。不僅包括對智能微型數(shù)據(jù)機(jī)房的能耗數(shù)據(jù)監(jiān)測、統(tǒng)計和能效優(yōu)化建議,還提供優(yōu)化調(diào)節(jié)控制系統(tǒng),進(jìn)行有效的智能節(jié)能優(yōu)化控制。展示界面能清晰地展示當(dāng)前數(shù)據(jù)機(jī)房整體能耗狀況、PUE等關(guān)鍵能效指標(biāo),可實(shí)時顯示關(guān)鍵子系統(tǒng)的能效分布狀況,查詢?nèi)我鈺r段的能效歷史曲線。
監(jiān)控平臺設(shè)計3D仿真監(jiān)控功能,具備機(jī)房3D建模、設(shè)備和數(shù)據(jù)3D展示、在3D界面故障定位和自動巡檢,支持在同一個瀏覽器窗口中查看機(jī)房、微模塊、機(jī)柜的3D視圖,可以真實(shí)展示UPS、空調(diào)等基礎(chǔ)設(shè)施設(shè)備安裝位置。
(3)IT設(shè)備監(jiān)控平臺設(shè)計
IT設(shè)備監(jiān)控平臺設(shè)計包括服務(wù)器設(shè)備系統(tǒng)、存儲設(shè)備系統(tǒng)、網(wǎng)絡(luò)拓?fù)湎到y(tǒng)、數(shù)據(jù)庫系統(tǒng)、中間件系統(tǒng)等進(jìn)行實(shí)時監(jiān)控管理。以上各子系統(tǒng)集成在一個IT設(shè)備監(jiān)控平臺上進(jìn)行集中控制管理,滿足“集中監(jiān)控、集中維護(hù)、集中管理”,為用戶直接提供與應(yīng)用相關(guān)的集中監(jiān)測的能力、手段和工具。
IT設(shè)備監(jiān)控平臺實(shí)現(xiàn)對在各個機(jī)房運(yùn)行的服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)系統(tǒng)、設(shè)備以及安全系統(tǒng)等的監(jiān)測和管理:可以對IT運(yùn)維系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行遠(yuǎn)程配置,并能實(shí)時監(jiān)控各節(jié)點(diǎn)的性能狀態(tài),一旦出現(xiàn)故障便能自動及時報警;能夠進(jìn)行高度的自動化管理,盡量減少人為干預(yù),避免由于人員操作不當(dāng)引起的系統(tǒng)故障;幫助IT運(yùn)維系統(tǒng)管理人員采集、統(tǒng)計和分析來自網(wǎng)絡(luò)各方面的報警信息和故障信息,準(zhǔn)確預(yù)警、定位網(wǎng)絡(luò)中的故障,出現(xiàn)網(wǎng)絡(luò)故障時可以快速響應(yīng),同時為系統(tǒng)的長期規(guī)劃提供統(tǒng)計依據(jù)。
(4)數(shù)字化運(yùn)維模塊設(shè)計
邊緣云平臺提供數(shù)字化運(yùn)維功能,對智能數(shù)據(jù)機(jī)房日常運(yùn)維活動進(jìn)行智能化管理,設(shè)計功能包含:資產(chǎn)管理、電子巡檢、運(yùn)維知識庫等。
資產(chǎn)管理設(shè)計支持各類基礎(chǔ)設(shè)施及IT設(shè)備,包括機(jī)架、服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備、UPS、PDU、空調(diào)等設(shè)備,并呈現(xiàn)一個資產(chǎn)統(tǒng)一視圖。系統(tǒng)支持全局的設(shè)備查找定位,可根據(jù)模糊條件進(jìn)行設(shè)備檢索。查詢條件支持基于設(shè)備名稱、設(shè)備型號、位置、序列號、條形碼、安裝日期等設(shè)備屬性。
電子巡檢設(shè)計支持移動App巡檢功能,可在手機(jī)等移動終端上處理機(jī)房巡檢等事項(xiàng);支持機(jī)房巡檢計劃制定與路線規(guī)劃;支持用戶設(shè)置巡檢任務(wù);支持生成機(jī)房巡檢類報表,并發(fā)送給相關(guān)人員。
運(yùn)維知識庫包括基礎(chǔ)設(shè)施和IT設(shè)備運(yùn)維知識庫,大多數(shù)常見問題及其解決方案都可以從知識庫中簡單、方便獲取,提升工作效率,降低設(shè)施設(shè)備維護(hù)成本。系統(tǒng)關(guān)聯(lián)資產(chǎn)管理模塊中的設(shè)備分類,支持自定義設(shè)置各類設(shè)備標(biāo)準(zhǔn)操作內(nèi)容、操作步驟和安全注意事項(xiàng)。