郭東旭
(中國石油化工集團有限公司 北京市 100728)
在數據中心的運維管理中,需要結合實際情況建立監(jiān)控體系,其中包含著綜合布線系統(tǒng)、安全管理系統(tǒng)以及能源監(jiān)控系統(tǒng)等,在各個系統(tǒng)運行過程中保持系統(tǒng)之間的明確分工,讓各系統(tǒng)在運行中發(fā)揮應有的作用與價值。然而,很多系統(tǒng)在運行過程中并不能實現系統(tǒng)之間的聯(lián)動,無法發(fā)揮聯(lián)動效果,因此,對數據中心進行智能化運維體系的建立是極為關鍵的工作內容,而目前國內外對數據中心的統(tǒng)一管理研究力度不足。本文主要結合數據中心的運維管理要求,加大智能化運維管理體系的建立,確保數據中心發(fā)揮最大的價值,實現運維管理效率的提升,滿足企業(yè)降本增效。
(1)可用性要求。在機房運行過程中,配備的電力設施、空調設施等一旦發(fā)生了事故,能夠及時提供電力,確保機房基礎設施的穩(wěn)定運行。
(2)安全性要求。在機房運行過程中,在發(fā)生安全突發(fā)事故時,比如,火災、水災或者非法入侵等現象,能夠及時精準的進行安全警示,并且采取應急措施降低受到的損害。
(3)經濟性要求。企業(yè)在管理過程中對經濟性要求的關注度非常高,數據中心在運行與維護過程中需要根據環(huán)境溫度等進行自動調整,實現對出風大小的自動感知與調節(jié),并且對照明系統(tǒng)進行自動控制,降低能源損失。
(4)無人化要求。在機房運行過程中,通過機器設備能夠自動獲取機房內部的設備運行狀況、環(huán)境管理狀況,滿足對機房運維過程中人員的規(guī)范化管理,結合獲取的數據和信息進行發(fā)展趨勢的判斷分析,機房在運行中可能存在的風險,并且,給予警報,提出針對性的防治方案,減少人為失誤給機房運行帶來的損失,也降低工作人員的勞動強度。
(1)系統(tǒng)分散,缺乏統(tǒng)一的管理機制。在數據中心的運行過程中,各個系統(tǒng)之間功能分散,不同的系統(tǒng)有著不同的應用范圍,而且并未形成統(tǒng)一的管理機制,無法落實對系統(tǒng)的統(tǒng)一監(jiān)管,各個系統(tǒng)只需要進行職責范圍內的工作,而且一些系統(tǒng)在運行過程中只存在簡單的通信和聯(lián)通功能,與其他系統(tǒng)之間的關聯(lián)性較低,也缺乏數據之間的互通,無法及時查看整個數據中心的運行狀況。由于存在的系統(tǒng)數量較多,在進行系統(tǒng)的查看過程中工作人員需要結合運行要求對各個系統(tǒng)進行及時分析,配備較多的監(jiān)控系統(tǒng)以及工作人員,造成了物力和人力的增加。
(2)缺乏自動化的運維手段。在數據中心的運行過程中,針對機房管理時,無論是環(huán)境監(jiān)測還是變配電系統(tǒng)的監(jiān)測,只能實現對數據和信息的推送以及歷史數據的查看與分析,并未實現智能化的運維管理體系,也缺乏自動化的管理流程。由于在機房中涉及到的設備種類較多,而且包含著物理資源、邏輯資源以及數據資源,單靠某一工作人員進行數據中心的機房運維,將難以滿足運維要求,而且需要工作人員不斷實現對數據和信息的錄入,缺乏自動化的管控手段,將會造成較大的工作負擔,也在一定程度上增加了人力資源成本。
(3)對故障的分析與定位相對薄弱。在數據中心運維過程中出現故障時,對于故障的判斷與排除手段不夠先進,無法結合自動化技術實現對故障情況以及故障影響范圍的判斷,如果故障無法及時排除,將會造成較大的資源消耗。
(4)缺乏對知識庫的維護與管理。在現階段系統(tǒng)維護過程中,并不具備電子知識庫的管理,而且不同的系統(tǒng)設定了相應的負責人,在出現突發(fā)事故時需要進行資料的查找,并未建立統(tǒng)一的數據庫管理廠家資料以及設備管理信息表,在發(fā)生設備故障時不能及時實現對故障的判斷與定位。由于數據中心運維過程中工作人員更換頻繁,很多工作人員并不能快速了解數據中心的以往運維狀況,對于歷史故障的查詢緩慢。因此,在數據中心的運維管理中,需要及時建立知識庫,滿足對歷史故障的查詢,做好相應的記錄為后續(xù)故障,排除提供支持。
(5)缺乏綜合性的管理辦法。在數據中心的管理過程中,綜合管理類的系統(tǒng)相對完善,但是并不能達到與其他系統(tǒng)之間的聯(lián)動,缺乏人員與物品的出入管理,而且在當前的管理過程中,很多管理內容都實現了電子化,但是,在實際的管理過程中仍然存在著大量的紙質化管理,而這一情況將會造成大量的資源浪費,也缺乏對相關工作人員的考核。在運維系統(tǒng)管理過程中,只能進行一部分系統(tǒng)的分析或者發(fā)出警報,而且很多系統(tǒng)屬于老舊系統(tǒng),需要通過手動控制并未達到自動化的管理要求。
(1)AI 智能導航。在數據中心的智能運維管理體系建立中,需要結合機器人等智能體實現自動巡檢系統(tǒng)的建立,滿足在機房環(huán)境中有較高的定位能力,實施對機房的全天候自主巡視,滿足無人化和自動化的設備巡檢以及故障排除,降低在巡檢和運維工作中投入的精力和成本,讓數據中心設備在運行維護管理時有較高的質量與效率。通過AI 智能導航的建立,能夠滿足運維過程中的自主移動和自主定位,強化設備的巡檢效果。
(2)指示燈識別。在數據中心的智能運維管理體系的建立中,需要建設高清攝像頭,通過高清攝像頭和設備的自主識別算法對機房巡查過程中存在的指示燈進行識別,可以及時進行電源指示燈識別模型的訓練,結合模型訓練以及故障指示燈的顯示,在識別過程中及時分析存在的報警信息,并且將報警信息傳遞給后臺進行預警,滿足對預警信息的推送及時實現故障排除。
(3)溫度與濕度監(jiān)測。在數據中心的運維過程中,巡檢過程中不同的房間對于溫度與濕度的要求有著一定差異,在運維管理過程中設置的溫度和濕度監(jiān)測功能能夠不間斷的進行,數據和信息的收集,明確坐標點的溫度濕度狀況,并且將采集到的數據和信息進行整理之后上傳給后臺服務器,滿足在云存儲器上的記錄,并且要求在客戶端平臺進行數據和信息的實時展示。
(4)空氣潔凈程度的監(jiān)測,在數據中心智能化運維體系建立時,需要根據機房內部的空氣潔凈程度進行監(jiān)測,通過此功能能夠滿足對機房運行狀況的分析,將采集到的數據和信息上傳給服務器,保持云端存儲,需要結合實際情況在客戶端平臺進行數據的展示。
(5)噪聲監(jiān)測功能,在數據中心的機房運維過程中,噪聲監(jiān)測功能能夠在運維過程中實現對異常噪音狀況的收集,并且滿足預警噪聲監(jiān)測功能,可以對特定位置以及特定場景下的聲音數據進行收集,判斷聲音分貝,通過在系統(tǒng)內設置規(guī)范值,在超過規(guī)范值時能夠發(fā)出預警信息,并且對存在的異常狀況進行判斷,滿足對噪聲的識別與處理。
(6)紅外測溫。紅外測溫功能應用中,需要結合相應設備,滿足對機房內運行狀況的拍照,及時判斷設備溫度,在溫度超過了設定值,能夠給出高溫警報信息,方便工作人員對存在的問題進行查找與處理。
(7)顯示屏識別。在數據中心的運維管理過程中,結合搭建的高清攝像頭滿足與自身識別算法的融合,對空調、列頭柜等設備進行信息識別,精準的讀取溫度和濕度信息、電流信息,可以將識別到的數據和信息在顯示屏上進行顯示,如果超出設定值可以給出警告信息,并且滿足對信息的及時推送。
(8)開關柜情況識別。結合高清攝像頭對柜門開關狀態(tài)的識別,在數據中心的運維管理過程中,結合搭建的高清攝像頭,對柜門的開關狀態(tài)進行分析與識別,可以根據開關柜門的狀態(tài)進行模擬訓練,如果存在了狀態(tài)異常,能夠將異常結果及時反饋給工作人員,對存在的異常狀況進行及時處理。
(9)語音報警。在數據中心智能化運維管理中設置的運維管理體系,能夠滿足語音提示功能,語音提示包含著軟件以及硬件之間的聯(lián)合調試、播報自檢以及存在的異常狀況,在系統(tǒng)收集到緊急事件或者異常狀況時,可以通過語音提醒及時將存在的問題推送出去,滿足工作人員對緊急狀況的解決。
(1)巡檢任務管理。由建立的智能化管理平臺對巡檢管理任務進行分析,滿足對任務的新建與調整,另外,在用戶管理后臺可以實時實現對任務執(zhí)行情況的監(jiān)控,通過遠程控制機器人查看巡檢任務以及相關數據,滿足對巡檢任務的分級,在巡檢任務完成之后,由系統(tǒng)自動生成巡檢報告。
(2)隨工管理。在數據中心機房的巡檢過程中,首先需要對不同的運維人員進行鑒權。然后在運維過程中滿足對工作人員工作流程的全程跟隨,實現視頻的實時錄制,通過將視頻上傳給后臺,及時查看數據中心的運維狀況。
(3)資產管理。在智能化運維平臺建立過程中,可以根據二維碼技術以及標簽技術等進行設備物理位置的定位,結合視覺檢驗機制以及標簽技術獲取設備信息,并且將這些信息傳遞到后臺管理系統(tǒng)中,后臺管理系統(tǒng)可以結合信息滿足資產管理平臺的建立,實現對資產狀態(tài)的分析與評估,滿足資產的實時監(jiān)測。
(4)人員管理。在自動化巡檢中可以結合建立的機器人巡檢系統(tǒng),導入工作人員的信息,滿足人員信息的錄入,并且對接待系統(tǒng)采用人臉識別技術進行數據的錄入。后臺接口可以將獲取的人員授權信息發(fā)送給智能巡檢機器人,并且,滿足人臉識別權限數據庫的建立,對進入機房的工作人員進行權限設定,滿足自動人臉識別功能的應用,減少無關人員進入到機房巡檢中。
(5)門控管理。在智能巡檢過程中建立與門禁系統(tǒng)之間的聯(lián)動,通過智能巡檢機器人滿足配套系統(tǒng)的建立,對進入的巡檢區(qū)域進行管理,結合與門禁系統(tǒng)之間的聯(lián)動能夠確保工作人員順利進入到規(guī)定的巡檢區(qū)域內。
(6)后臺管理。后臺管理包含的內容較多,在視頻采集過程中系統(tǒng)能夠實現數據和信息的采集,并且將采集到的視頻信息利用云存儲進行保管。在巡檢工作完成之后,可以由自動巡檢機器人實現,對巡檢報告的生成,結合巡檢要求制定相應的報告模板,滿足對模板的定制。智能巡檢機器人在運行過程中需要保持多臺機器人之間的相互協(xié)調,利用后臺管理可以實現對多個巡檢機器人的精準調度,滿足智能巡檢機器人路線的規(guī)劃與調整,保障各項工作的順利開展。在報表管理過程中,需要滿足報表的訂閱管理與查詢,并且需要支持對報表的自定義,滿足緊急事件的上傳。在報警事件的管理過程中,需要對報警信息進行統(tǒng)一的設定與管理,其中包含事故類型、發(fā)生時間、發(fā)生等級以及具體的事件內容,結合數據和信息管理狀況,形成事件日志。巡檢視頻管理中需要滿足視頻的播放、停止與錄屏等功能,在數據的存儲過程中,需要根據智能巡檢機器人的運行要求,在數據存儲中滿足應用程序巡檢數據以及巡檢視頻的管理系統(tǒng),需要結合數據應用情況進行數據的加密,滿足數據的自動備份,而且,需要具備雙機容錯功能,確保數據和信息具備較強的精準性。
(7)系統(tǒng)接口。在系統(tǒng)接口設置時,工作人員需要結合設定的巡檢機器人滿足對運行狀態(tài)的查看,及時進行巡檢任務下發(fā),在巡檢完成之后,滿足對巡檢報告的填寫,自動生成轉工單,對存在的異常狀況進行判定。
建立的一體化管理平臺能夠在數據中心的運維管理工作中,及時實現機房信息的收集,包含監(jiān)控系統(tǒng)、運維服務管理系統(tǒng)以及自動化系統(tǒng),整合信息的科學處理,并且一體化管理平臺融合了大數據技術、云存儲技術等,滿足了對數據發(fā)展狀況的分析與預判,能夠向各個系統(tǒng)發(fā)出相應的報警信息,滿足對故障的及時排除。在數據中心運行與維護是針對根因分析以及異常檢測,需要采用帶有插拔擴展模塊的硬件架構,結合數據中心的建設規(guī)模,采用有效的模塊組合,形成數據采集裝置產品,具備較高的靈活性,能夠滿足數據采集裝置,接口的擴展和功能多樣性,降低數據采集裝置開發(fā)涉及到的成本投入和時間投入。通過模塊化的數據采集裝置能夠形成相互組網,促進傳感網絡容量的擴大,而且模塊化的數據采集裝置具備較高的集成性,接口模塊的靈活性較強,能夠滿足多種協(xié)議要求,形成互聯(lián)網協(xié)議,采用多樣化的通訊方式,能夠為客戶指令進行通信協(xié)議的開發(fā)。根據數據中心基礎設施的運行狀況以及涉及到的數據特征,在數據中心基礎設施進行相關問題的診斷時,形成專家診斷規(guī)則庫,以此為基礎,進行智能模型的搭建,通過智能模型以及專家規(guī)則庫的二者融合,能夠有效解決在專家診斷過程中存在的問題,結合專家相關經驗確保問題診斷的高效性,同時,也滿足診斷規(guī)則具備較高的適用性。
在數據中心的設備運維時,結合三維場景運行要求提供關鍵字搜索,能夠快速定位設備的空間位置,結合搜索設備滿足對數據中心平臺內資產狀況的查看,準確顯示設備所處的位置以及信息,能夠實現設備定位到相應的層級,可以根據用戶需求,在搜索框內輸入搜索名稱以及檢索位置等,滿足可視化查找,而且還能夠形成檢索條件的自定義添加。在空間管理過程中,結合物理場景以及虛擬場景進行一一對應,不同的空間資源采用不同的標簽化管理方式,實現設備的自動化更新與維護。另外,在進行設備的管理時,可以利用二維碼進行管控,在出現了設備資產信息變化,不需要在電腦上進行操作,在機房進行上下架設備,直接進行掃碼,便能夠滿足對設備信息的更新。包含登記時間、設備編號、設備名稱、維修日期等各類信息。另外,空間資源可以實現查詢,在查詢過程中將所有的信息進行顯示,點擊信息列表,可以將這些信息定位到具體的模型中。根據數據中心容量進行管理,結合容量計算以及資產的智能推薦管理等進行分析,將其放置在指定位置,包含空間、電力、制冷能力等多方面內容,共同組成了數據中心設備的最大上架率。
(1)數據的預處理與降維。通過數據中心進行數據預處理與數據降維能夠確保數據質量的提升,減少數據計算花費的成本。在數據中心包含著龐大的數據量,基礎設施運行數據使用成分分析法進行數據降維,針對安全運行以及節(jié)能運行的影響因素進行判斷,采用數據挖掘相關系數,結合多元回歸數據的進行相關分析,找到影響安全與節(jié)能的關鍵因素,實施數據降為降低數據的計算成本。針對數據計算過程中存在的數據值恒定、異常以及缺失情況等進行判斷,利用異常數據診斷模型對存在的異常問題進行處理。在數據的處理過程中,結合回歸分析以及支持向量及聚類分析等滿足機器學習方法的運用,滿足對原始數據的清洗與預處理,確保數據具備較高的完整性。
(2)結合專家診斷規(guī)則與機器學習算法進行融合。在數據中心的運維過程中,將專家診斷規(guī)則與計算機學習算法進行融合,能夠確保診斷的智能性和適用性,將影響數據中心運行的因素進行判斷,將其作為研究對象,從節(jié)能、健康等多個角度滿足對數據的分析,形成智能診斷以及智能調控。
總而言之,數據中心涉及到的信息量非常大,通過智能巡檢體系的應用,能夠在運維工作中掌握更多的數據和信息,對機房內部環(huán)境基礎設施運行狀態(tài)進行分析,確保數據中心運維管理工作效果的提升。在數據中心運維工作中,結合智能化巡檢體系構建應用場景,融合數據管理流程以及智能巡檢機器人等多個系統(tǒng),通過對巡檢對象的分析以及狀態(tài)評估,能夠檢測出由人工巡檢難以發(fā)現的故障問題,保障了巡檢范圍的擴大,實現了無死角的智能巡檢,為數據中心的運行提供了保障。