李俊山
(浪潮電子信息產(chǎn)業(yè)股份有限公司 高效能服務(wù)器和存儲(chǔ)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 數(shù)據(jù)中心研發(fā)部,山東 濟(jì)南 250000)
無(wú)論是國(guó)內(nèi)還是國(guó)外,廠(chǎng)商的運(yùn)維管理系統(tǒng)都是基于IP的所謂“智能”管理系統(tǒng),要求被管設(shè)備不僅必須要有IP地址和完整的MIB庫(kù)才可以管理,而且只能獲取到設(shè)備一半的硬件狀態(tài)信息,對(duì)于非智能設(shè)備完全無(wú)法管理,比如機(jī)房消防設(shè)施狀態(tài)、老式UPS的供電情況和空調(diào)系統(tǒng)的溫濕度等信息??偠灾壳暗倪\(yùn)維產(chǎn)品仍然無(wú)法達(dá)到對(duì)機(jī)房硬件設(shè)備全面的監(jiān)控管理目的,因此需要一套能夠全面、實(shí)時(shí)監(jiān)控各種智能及非智能設(shè)備的狀態(tài)管理系統(tǒng),以便出現(xiàn)故障后進(jìn)行實(shí)時(shí)告警。
應(yīng)用外包服務(wù)或各廠(chǎng)商駐廠(chǎng)服務(wù)方式來(lái)解決運(yùn)維日常出現(xiàn)的問(wèn)題,缺點(diǎn)是外包服務(wù)人員的素質(zhì)參差不齊,技術(shù)水平不一,部門(mén)人員紀(jì)律性不強(qiáng),所以通??蛻?hù)為了業(yè)務(wù)的安全,在運(yùn)維管理制度上都要求外部人員進(jìn)機(jī)房需要客戶(hù)方人員在場(chǎng),也就是所謂的“隨工”,機(jī)房的安全性無(wú)法完全得到保障,需要一套能夠?qū)ν獠咳藛T在機(jī)房工作的自動(dòng)化跟蹤記錄系統(tǒng),起到遠(yuǎn)程監(jiān)工的作用。
數(shù)據(jù)中心的建設(shè)越來(lái)越多地采用“兩地三中心”方案,即同城災(zāi)備中心結(jié)合異地災(zāi)備中心的“兩地三中心”,國(guó)內(nèi)以政府、央企牽頭的客戶(hù)大都在北京,同城主機(jī)房通常在總部辦公樓,同城的備機(jī)房離主機(jī)房位置相對(duì)都較遠(yuǎn),幾十千米以外,異地的災(zāi)備機(jī)房建設(shè)在偏遠(yuǎn)的西北地區(qū),比如中國(guó)人民銀行災(zāi)備機(jī)房在拉薩,且只能由編制內(nèi)人員進(jìn)機(jī)房維護(hù)管理,最終造成嚴(yán)重的客戶(hù)方IT運(yùn)維人員不足、工程項(xiàng)目延誤、工作效率低下等問(wèn)題,急需一套高效的無(wú)人值守遠(yuǎn)程維護(hù)解決管理系統(tǒng)。
浪潮基于機(jī)器人的數(shù)據(jù)中心管理系統(tǒng)技術(shù)可以很好地解決上述問(wèn)題,其系統(tǒng)架構(gòu)如圖1所示。
圖1 系統(tǒng)架構(gòu)圖
浪潮數(shù)據(jù)中心機(jī)器人系統(tǒng)基于JAVA語(yǔ)言開(kāi)發(fā),SOA三層架構(gòu),分別為數(shù)據(jù)服務(wù)(采集)層、數(shù)據(jù)處理層、界面展示層,架構(gòu)之間采用松耦合方式,進(jìn)行平臺(tái)化設(shè)計(jì)的一套純B/S機(jī)房智能巡檢管理系統(tǒng),系統(tǒng)基于ΧML的portlet配置文件可以自由地動(dòng)態(tài)擴(kuò)展,后臺(tái)支持開(kāi)源的MYSQL數(shù)據(jù)庫(kù),提升了數(shù)據(jù)處理的規(guī)范度和再加工能力。底層采集層使用硬件機(jī)器人來(lái)實(shí)現(xiàn),機(jī)器人使用AGV底板SLAM技術(shù)進(jìn)行機(jī)房的定位與地圖構(gòu)建,同時(shí)在機(jī)身安裝多種傳感器,有360°且高達(dá)300萬(wàn)像素的云臺(tái)視頻機(jī)、RF射頻識(shí)別器、紅外感應(yīng)探頭、溫濕度探頭、熱成像等感應(yīng)裝置,系統(tǒng)軟件層設(shè)計(jì)有巡檢管理、網(wǎng)絡(luò)管理、IT資產(chǎn)管理、知識(shí)庫(kù)管理、告警管理、報(bào)表管理、系統(tǒng)管理、license管理,共同構(gòu)成強(qiáng)大的IT機(jī)房智能巡檢管理功能平臺(tái)。具體資源的管理作為基于平臺(tái)的管理功能,具備以接口為中心的設(shè)計(jì)模式。
該系統(tǒng)能夠觀(guān)測(cè)設(shè)備工作指示燈,識(shí)別各指示燈下標(biāo)文字,變化時(shí)轉(zhuǎn)化為文字告警,通過(guò)云臺(tái)攝像機(jī)監(jiān)控且借助各種專(zhuān)業(yè)傳感器。管理對(duì)象如下:網(wǎng)絡(luò)設(shè)備、服務(wù)器主機(jī)、UPS電源、空調(diào)系統(tǒng)、消防系統(tǒng)、門(mén)禁系統(tǒng)、漏水情況、煙霧情況、地下熱成像、墻面裂縫和地面衛(wèi)生。
系統(tǒng)提供強(qiáng)大的擴(kuò)展能力,支持管理能力的自由擴(kuò)展:采集平臺(tái)以AI智能機(jī)器人為主,采集機(jī)房各類(lèi)設(shè)備的指標(biāo),能夠?qū)⑿鹿芾韺?duì)象快速納入到新的指標(biāo)體系;支持分布式部署,單套系統(tǒng)即可支持每天兩次對(duì)500個(gè)機(jī)柜的巡檢;支持巡檢指標(biāo)的自定義,巡檢項(xiàng)采用列指標(biāo)自動(dòng)學(xué)習(xí)、自動(dòng)擴(kuò)展的方式;支持用戶(hù)個(gè)性化報(bào)表的快速擴(kuò)展,實(shí)現(xiàn)各種具備企業(yè)特征的報(bào)表數(shù)據(jù)和展現(xiàn)方式。
數(shù)據(jù)中心管理系統(tǒng)與機(jī)器人之間使用Socket協(xié)議,協(xié)議消息包含4個(gè)字節(jié)的固定頭部(Head)和消息體(Body)。
前4個(gè)字節(jié)為Head(固定頭部)部分,表示后面消息體的字長(zhǎng)(字節(jié)數(shù));低位字節(jié)在前。例如,如果消息體長(zhǎng)度為10,則這4個(gè)字節(jié)是0A、00、00、00,即Head為0A000000。
Head后緊跟消息體,使用JSON格式,UTF-8編碼。
客戶(hù)端與服務(wù)器之間發(fā)送的所有JSON數(shù)據(jù)中都包含參數(shù)“message_type”,表明消息的類(lèi)型。
在客戶(hù)端與服務(wù)器建立連接之后,客戶(hù)端需要向服務(wù)器發(fā)送注冊(cè)指令完成注冊(cè)。
參數(shù)說(shuō)明見(jiàn)下表。
表1 參數(shù)說(shuō)明
無(wú)返回?cái)?shù)據(jù)。
其中,視頻巡檢則用如下方式:
提供一個(gè)rtmp的直播流地址,Web頁(yè)面支持播放rtmp視頻流,rtmp://192.168.1.25//live/xxx.
圖2為微模塊動(dòng)環(huán)監(jiān)控系統(tǒng)。
圖2 微模塊動(dòng)環(huán)監(jiān)控系統(tǒng)
通過(guò)拉通機(jī)器人與數(shù)據(jù)中心管理系統(tǒng)直接的互聯(lián)互通,提高了數(shù)據(jù)中心綜合管控效率,提升了監(jiān)測(cè)段,有效地解決了人工巡邏存在的“三不一低”問(wèn)題,極大地推動(dòng)了機(jī)器人在數(shù)據(jù)中心巡檢中的應(yīng)用。