宋國柱,景超,王堃,武海文
(山西農(nóng)業(yè)大學(xué)軟件學(xué)院,太谷 030801)
數(shù)據(jù)中心是智慧校園的核心,是學(xué)校信息化建設(shè)提供可靠服務(wù)的基礎(chǔ)保障。數(shù)據(jù)中心機房設(shè)備的運維,高校管理員一般采用運維管理系統(tǒng),如著名的Zabbix開源運維管理系統(tǒng),它能實現(xiàn)設(shè)備告警、軟件告警、資產(chǎn)管理等功能,可解決數(shù)據(jù)中心機房在運維過程中的一些問題,但系統(tǒng)沒有自主學(xué)習(xí)功能,不能對設(shè)備進行預(yù)警,也不能對環(huán)境中的噪聲、粉塵等因素進行監(jiān)測,更不能完成無人值守和無人操作等功能。
隨著學(xué)校業(yè)務(wù)應(yīng)用的不斷擴展,數(shù)據(jù)中心的資產(chǎn)設(shè)備越來越多,專業(yè)化程度要求越來越高,數(shù)據(jù)的安全性越來越重要,如何保證數(shù)據(jù)中心安全穩(wěn)定、持續(xù)高效地運行是智慧校園運維中面臨的突出問題,主要表現(xiàn)在以下幾個方面:
(1)運維人員缺乏,專業(yè)化程度高。高等農(nóng)業(yè)院校信息化建設(shè)與管理部門數(shù)據(jù)中心專業(yè)運維人員普遍缺乏,一般均是身兼多職,沒有專門的機房設(shè)備巡檢人員,造成機房巡檢只是在特殊時間簡單查看。
(2)巡檢不及時,運維效率低。機房設(shè)備發(fā)生故障時,往往不是第一時間知道(有可能已故障好幾天,尤其是在假期),當(dāng)運維人員出差在外時,故障得不到及時處理,影響業(yè)務(wù)的正常運行。
(3)存在巡視盲區(qū),安全隱患多。7×24小時運轉(zhuǎn),機房用電負(fù)荷大,網(wǎng)絡(luò)設(shè)備多,電池漏液,線路老化,空調(diào)故障,發(fā)電機運轉(zhuǎn)等,人工巡視無法全面覆蓋,都是消防安全隱患的突發(fā)點。
(4)機房值班,輻射強危害大。機房噪音大,輻射強,對人體危害大,專業(yè)要求程度高,發(fā)生故障時要及時排除,但并不是任何值班人員都有權(quán)進入機房并進行操作,即使值班也不會定時巡檢機房的所有設(shè)備,因此達不到值班應(yīng)有的要求和效果。
(5)各監(jiān)控系統(tǒng)相互孤立,故障溯源困難。動環(huán)監(jiān)控系統(tǒng)、消防監(jiān)控系統(tǒng)、門禁系統(tǒng)、視頻監(jiān)控系統(tǒng)、設(shè)備運行監(jiān)測系統(tǒng)、軟件運行監(jiān)測系統(tǒng)等往往是相互孤立的,無法進行數(shù)據(jù)共享,數(shù)據(jù)中心的監(jiān)控(包括軟件、硬件及數(shù)據(jù))是被分散在幾個系統(tǒng)中,每個系統(tǒng)由不同的管理員負(fù)責(zé),無法集中在一個平臺上進行查看、匯總并分析,當(dāng)發(fā)生故障時無法綜合各方面的告警信息進行故障的分析處理,無法有效提升故障排除效率。
基于數(shù)據(jù)中心機房運維的現(xiàn)狀及面臨的突出問題,采用機器人技術(shù)與人工智能技術(shù),提出了基于智巡機器人的智能數(shù)據(jù)中心機房管理設(shè)想,智巡機器人不僅可以對網(wǎng)絡(luò)設(shè)備進行全天候巡檢和排障,及時發(fā)現(xiàn)并解決諸多問題以提高檢查效率,還可以針對涉密區(qū)域、高風(fēng)險區(qū)域等人工巡檢難以開展的區(qū)域進行監(jiān)控和診斷,實現(xiàn)數(shù)據(jù)中心機房智能化運營,真正實現(xiàn)數(shù)據(jù)中心的無人值守,打造人工智能時代的新型數(shù)據(jù)中心。
智巡機器人以機器人技術(shù)為硬件主體,以AI圖像識別技術(shù)為算法核心,通過路徑規(guī)劃完成自動行走,通過視覺系統(tǒng)完成機房的檢測巡視、故障燈識別、儀表盤識別等,通過紅外傳感器實現(xiàn)機房設(shè)備溫度監(jiān)控,通過聲光、氣體傳感器實現(xiàn)火災(zāi)等隱患的排查等,系統(tǒng)架構(gòu)設(shè)計如圖1所示。
圖1 智巡機器人系統(tǒng)架構(gòu)
智巡機器人由移動APP、管理平臺、識別感應(yīng)裝置、行走裝置和機械平臺五部分組成,各部分的功能如下。
(1)移動APP。實現(xiàn)移動端隨時遠程查看機房現(xiàn)場、遠程控制機器人、查看告警信息等。登錄APP并進行身份識別,識別成功后根據(jù)用戶的權(quán)限可查看告警信息、遠程實時圖像、語音交互(根據(jù)不同的權(quán)限,執(zhí)行的動作會有所不同)、遠程控制機器人(需最高權(quán)限)和在線升級等。
(2)管理平臺。實現(xiàn)智巡機器人識別感應(yīng)裝置、行走裝置及移動APP接口。
(3)識別感應(yīng)裝置。包括自主導(dǎo)航(如路徑規(guī)劃、掃描建圖、SLAM算法、點/路徑/區(qū)域設(shè)置和OTA等)、導(dǎo)航傳感器(如3D攝像頭、激光雷達和機械防撞傳感器等)、工業(yè)傳感器(如監(jiān)測有害氣體、溫濕度、PM2.5、噪聲、煙感等)和運算平臺(如深度學(xué)習(xí)、圖像識別、YOLOV5算法、設(shè)備管理及驅(qū)動管理等)。實現(xiàn)一:根據(jù)規(guī)劃的路徑,利用3D攝像頭、激光雷達及機械防撞(使機器人具有避障功能),控制智巡機器人按設(shè)定的路徑行走,同時使用3D攝像頭不僅可以遠程查看機房,還可以識別行走過程中的儀表盤、故障燈等;實現(xiàn)二:在線監(jiān)測(包括行走和靜止?fàn)顟B(tài))機房中有害氣體、溫濕度、PM2.5、噪聲、煙、電力、UPS、漏水等,如當(dāng)機房中有害氣體量達到設(shè)定的閾值時,機器人可自動開啟排風(fēng)裝置,并且此時若有工作人員刷門禁進入時,提示工作人員,當(dāng)降到設(shè)定的閾值時,關(guān)閉排風(fēng)裝置。
(4)行走裝置。根據(jù)識別感應(yīng)裝置中的條件控制機器人行走及操作,行走裝置包括有線/無線網(wǎng)絡(luò)設(shè)置、電源管理(監(jiān)測電量并進行智能充電)、在線升級硬件固件程序等。
(5)機械平臺。主要包括機器人行走所需硬件,如滾輪、步進電機、電池等。
智巡機器人可以對本地服務(wù)器、存儲、空調(diào)、配電柜、消防設(shè)備等的指示燈、數(shù)字儀表、指針儀表、開關(guān)等元件工作狀態(tài)進行7×24小時實時監(jiān)測,結(jié)合研發(fā)的圖像識別算法,對設(shè)備狀態(tài)進行識別告警,實現(xiàn)7×24小時無人值守;通過加載各類采集單元,如有害氣體、PM2.5、噪聲等,可獲取運維管理人員無法發(fā)現(xiàn)的異常情況;通過與現(xiàn)有平臺對接,如動環(huán)監(jiān)測、門禁系統(tǒng)、運維管理平臺等,在進行數(shù)據(jù)共享的同時,實現(xiàn)大數(shù)據(jù)的分析統(tǒng)計。
管理員可根據(jù)日常巡檢需求,通過智巡機器人管理平臺中的常規(guī)巡檢策略功能,靈活設(shè)定每日不同任務(wù)的巡檢次數(shù)、每次巡檢時間及巡檢中遇到特殊情況被打斷等情況的應(yīng)對方式,也可將單日的巡檢計劃延伸為更長時間周期內(nèi)的自動執(zhí)行計劃,讓機器人根據(jù)計劃自動執(zhí)行機房日常巡檢任務(wù),提高機房巡檢頻次和維度。
智巡機器人可自動采集、監(jiān)測數(shù)據(jù)中心機房各項環(huán)境數(shù)據(jù)指標(biāo),如:
(1)溫濕度監(jiān)測。主要監(jiān)測機房內(nèi)溫濕度,保障網(wǎng)絡(luò)設(shè)備在符合標(biāo)準(zhǔn)的環(huán)境下運行,溫濕度測量范圍:±0.8% RH,10~30℃;測量極限:0~100%RH,-50~100℃。
(2)噪聲監(jiān)測。主要監(jiān)測來自機房內(nèi)服務(wù)器和高速運轉(zhuǎn)設(shè)備的噪聲,即時監(jiān)測硬件設(shè)備的運行情況,測量范圍30~120 db,最大誤差0.5 db。
(3)空氣質(zhì)量監(jiān)測。主要監(jiān)測機房內(nèi)空氣中的粉塵濃度,防止粉塵濃度過高降低電路與元器件絕緣性能,腐蝕電路板縮短設(shè)備壽命,防止堵塞防塵網(wǎng),影響IT設(shè)備散熱效率;監(jiān)測并量化每立方米空氣中PM1.0、PM2.5、PM10的數(shù)量。
(4)有害氣體監(jiān)測。主要監(jiān)測電纜電線燃燒前揮發(fā)的毒性氣體,提前預(yù)防對硬件設(shè)備造成的腐蝕,特別是機房內(nèi)服務(wù)器、UPS配電柜等,如可監(jiān)測硫化物等有害氣體的濃度。
(5)煙霧濃度監(jiān)測。與數(shù)據(jù)中心煙霧報警系統(tǒng)對接,可同步監(jiān)測煙霧濃度發(fā)出預(yù)警及告警信息。
隨工錄像即機器人根據(jù)管理員下發(fā)的任務(wù)確定設(shè)備位置信息,引導(dǎo)運維管理人員(包括設(shè)備維修廠商技術(shù)人員、技術(shù)外包人員等)至指定位置并進行錄像。在一定程度上解決單位人員隨工陪同耗時問題,釋放無謂的人力投入,讓本單位人員投入更多的精力去關(guān)注機房建設(shè)規(guī)劃等更有意義的事情,提升數(shù)據(jù)中心整體運行效率。
當(dāng)機房設(shè)備出現(xiàn)故障并發(fā)出告警信息而運維管理人員不在現(xiàn)場時,運維管理人員可遠程控制機器人到故障位置點,通過控制機器人的速度、轉(zhuǎn)向及攝像頭旋轉(zhuǎn)與變焦操作查看故障具體信息,分析原因。若是軟件系統(tǒng)問題,運維管理人員可通過堡壘機登錄系統(tǒng)解決;若是硬件問題,可與現(xiàn)場人員通過視頻或語音進行實時交互加以解決。
通過設(shè)置導(dǎo)覽劇本,控制機器人根據(jù)預(yù)設(shè)的既定路線,引導(dǎo)參觀考察人員進入指定地點進行自動語音講解并執(zhí)行相應(yīng)的動作,也可與參觀考察人員進行簡單的語音交互。
智巡機器人具有7×24小時設(shè)備巡檢、移動環(huán)境監(jiān)測(如溫濕度、噪聲、空氣質(zhì)量、有害氣體及煙霧等)、隨工錄像、遠程協(xié)助及參觀迎檢等功能。
智巡機器人根據(jù)巡檢內(nèi)容進行定時、不定時的巡檢,巡檢內(nèi)容如表1所示。
表1 機器人巡檢內(nèi)容
對數(shù)據(jù)中心機房主要設(shè)備指示燈、數(shù)字儀表、指針儀表、電源開關(guān)等進行圖像識別算法研究,數(shù)字儀表、指針儀表、電源開關(guān)狀態(tài)的識別準(zhǔn)確率為99.9%,設(shè)備指示燈的識別準(zhǔn)確率在90.0%~98.3%之間,主要是由于在黑暗環(huán)境下網(wǎng)絡(luò)設(shè)備業(yè)務(wù)燈頻繁閃爍、亮度強、設(shè)備種類多導(dǎo)致,需進一步優(yōu)化識別算法,以提升設(shè)備指示燈識別準(zhǔn)確率。
智巡機器人可實現(xiàn)數(shù)據(jù)中心機房無人化、智能化巡檢運維,解決機房人工巡檢耗時費力、存在巡檢盲區(qū)、無法實時監(jiān)測等問題,可大幅提升機房巡檢運維效率及智能化水平,為學(xué)校信息化建設(shè)提供可靠、安全、及時的服務(wù)保障,滿足廣大師生教學(xué)、科研、管理等服務(wù)質(zhì)量要求。