倪浩杰 邢張亮
摘 要:傳統(tǒng)運(yùn)維方式對(duì)運(yùn)維人員需求大,存在監(jiān)控不實(shí)時(shí)、異常發(fā)現(xiàn)滯后、故障定位困難、故障恢復(fù)時(shí)間長和數(shù)據(jù)共享流轉(zhuǎn)困難等問題。為了解決上述弊端,本文提出了智能運(yùn)維機(jī)器人的設(shè)計(jì)思路和實(shí)現(xiàn)方法。通過數(shù)據(jù)共享和流轉(zhuǎn),將運(yùn)維任務(wù)配置、數(shù)據(jù)采集、實(shí)時(shí)監(jiān)控展現(xiàn)和運(yùn)維派單系統(tǒng)聯(lián)接起來,較為簡單的實(shí)現(xiàn)了智能運(yùn)維機(jī)器人的設(shè)計(jì),提高了公司運(yùn)維效率,提升了數(shù)據(jù)中心的整體服務(wù)效能。投入試運(yùn)行,總體效果良好。
關(guān)鍵詞:運(yùn)維機(jī)器人;自動(dòng)化巡檢;運(yùn)維監(jiān)控;Zabbix;Grafana
中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)18-0029-02
0 引言
近年來,江蘇省國際信托有限責(zé)任公司(以下簡稱“公司”)管理的信托資產(chǎn)規(guī)模迅猛增長。公司數(shù)據(jù)中心基礎(chǔ)設(shè)施和設(shè)備,承載著公司TCMP、TA和OA等數(shù)十套計(jì)算機(jī)系統(tǒng),存儲(chǔ)著大量用戶信息和業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)中心安全、穩(wěn)定的運(yùn)行,關(guān)乎公司業(yè)務(wù)發(fā)展,是公司運(yùn)行的中樞和生命線。
1 運(yùn)維工作現(xiàn)狀及需求分析
1.1 運(yùn)維工作現(xiàn)狀
與銀行相比,信托公司業(yè)務(wù)靈活、人員精簡。隨著公司業(yè)務(wù)日益擴(kuò)大,對(duì)運(yùn)維的要求也越來越高。傳統(tǒng)的運(yùn)維方式,不僅需要大量的運(yùn)維人員,而且還存在數(shù)據(jù)中心監(jiān)控不實(shí)時(shí)、異常狀態(tài)發(fā)現(xiàn)滯后、故障定位困難、故障恢復(fù)時(shí)間長和數(shù)據(jù)共享流轉(zhuǎn)困難等問題。
1.2 智能運(yùn)維機(jī)器人需求分析
在現(xiàn)代運(yùn)維技術(shù)的基礎(chǔ)上,結(jié)合智能化和自動(dòng)化的發(fā)展成果,筆者設(shè)計(jì)了智能運(yùn)維機(jī)器人,較好的解決傳統(tǒng)運(yùn)維難題。智能運(yùn)維機(jī)器人的設(shè)計(jì)目標(biāo)有:(1)實(shí)時(shí)采集數(shù)據(jù),監(jiān)控?cái)?shù)據(jù)中心整體和指定模塊的狀態(tài);(2)配置監(jiān)控項(xiàng)和閾值、定義事件、觸發(fā)規(guī)則等;(3)判讀系統(tǒng)異常,觸發(fā)事件,以短信、郵件或微信等方式通知相關(guān)人員;(4)自定義配置多種運(yùn)維任務(wù),實(shí)現(xiàn)多種運(yùn)維功能。
2 智能運(yùn)維機(jī)器人設(shè)計(jì)原則和整體框架
2.1 設(shè)計(jì)原則
(1)開放式設(shè)計(jì)。智能運(yùn)維機(jī)器人采用開放標(biāo)準(zhǔn),開放結(jié)構(gòu),開放API接口,具備優(yōu)秀的擴(kuò)展能力,能夠利用現(xiàn)有系統(tǒng)和資源,兼顧未來。(2)一體化設(shè)計(jì)。智能運(yùn)維機(jī)器人的設(shè)計(jì)整合了運(yùn)維任務(wù)配置模塊、監(jiān)控平臺(tái)、運(yùn)維監(jiān)控展現(xiàn)模塊、告警消息通信模塊和運(yùn)維派單系統(tǒng)模塊,能夠完成數(shù)據(jù)采集、實(shí)時(shí)監(jiān)控、告警通知、運(yùn)維派單等一整套運(yùn)維工作流程。
2.2 智能運(yùn)維機(jī)器人系統(tǒng)架構(gòu)
根據(jù)智能運(yùn)維機(jī)器人的設(shè)計(jì)原則,按照功能點(diǎn)將其抽象成若干模塊,模塊與模塊之間松耦合連接,便于后期系統(tǒng)開發(fā)和擴(kuò)展,系統(tǒng)組成見圖1所示[1]。
3 智能運(yùn)維機(jī)器人主要模塊及實(shí)現(xiàn)
3.1 運(yùn)維任務(wù)配置模塊
運(yùn)維任務(wù)配置模塊是智能運(yùn)維機(jī)器人的控制中心,可配置多種運(yùn)維任務(wù),實(shí)現(xiàn)多種功能。該機(jī)器人試運(yùn)行階段,配置兩項(xiàng)任務(wù)。(1)自動(dòng)巡檢。智能運(yùn)維機(jī)器人采集數(shù)據(jù)中心和各模塊的狀態(tài)數(shù)據(jù),觸發(fā)運(yùn)維派單系統(tǒng)模塊生成巡檢工單,派發(fā)并記錄存儲(chǔ)。(2)運(yùn)維智能派單。智能運(yùn)維機(jī)器人實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心狀態(tài),一旦發(fā)現(xiàn)異常,觸發(fā)生成異常事件,觸發(fā)運(yùn)維派單系統(tǒng)模塊生成運(yùn)維工單,派單流轉(zhuǎn)至相關(guān)人員處理[2]。自動(dòng)巡檢工單圖2所示。
3.2 監(jiān)控平臺(tái)
監(jiān)控平臺(tái)是智能運(yùn)維機(jī)器人的核心,分為監(jiān)控配置、數(shù)據(jù)采集和異常發(fā)現(xiàn)三個(gè)子模塊。(1)監(jiān)控平臺(tái)實(shí)時(shí)采集數(shù)據(jù),將數(shù)據(jù)傳輸給展現(xiàn)模塊。(2)監(jiān)控平臺(tái)判讀系統(tǒng)狀態(tài),一旦發(fā)現(xiàn)異常,調(diào)用告警消息通信模塊,通知相關(guān)人員。(3)監(jiān)控平臺(tái)根據(jù)配置的運(yùn)維任務(wù),觸發(fā)運(yùn)維派單系統(tǒng)模塊派單。該設(shè)計(jì)采用Zabbix實(shí)現(xiàn)。
3.3 運(yùn)維展現(xiàn)模塊
運(yùn)維展現(xiàn)模塊負(fù)責(zé)將監(jiān)控平臺(tái)采集的數(shù)據(jù)以圖表等方式進(jìn)行展現(xiàn),是人機(jī)交互接口。該設(shè)計(jì)采用Grafana實(shí)現(xiàn),見圖3所示。
3.4 告警消息通信模塊
告警消息通信模塊將監(jiān)控平臺(tái)事件和消息,以短信、郵件等方式通知相關(guān)人。該設(shè)計(jì)利用了公司已有的通信系統(tǒng)。
3.5 運(yùn)維派單系統(tǒng)模塊
(1)負(fù)責(zé)將監(jiān)控平臺(tái)輸入的異常事件,觸發(fā)生成運(yùn)維工單,并派單給相關(guān)責(zé)任人處理。(2)負(fù)責(zé)對(duì)監(jiān)控平臺(tái)采集的監(jiān)控項(xiàng)數(shù)據(jù)進(jìn)行整型,轉(zhuǎn)換成易于閱讀、記錄的格式,存儲(chǔ)于系統(tǒng)中,便于后期查閱和分析。該設(shè)計(jì)自主開發(fā),通過API接口,實(shí)現(xiàn)運(yùn)維派單系統(tǒng)模塊和監(jiān)控平臺(tái)之間數(shù)據(jù)交互[3]。
部分代碼示例:
4 結(jié)語
智能運(yùn)維機(jī)器人實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)維的自動(dòng)化和智能化,較好的解決了傳統(tǒng)運(yùn)維存在的問題,將運(yùn)維人員從重復(fù)簡單的運(yùn)維事務(wù)中解放出來,使其能夠從事創(chuàng)造性的工作。智能運(yùn)維機(jī)器人將傳統(tǒng)的運(yùn)維工作轉(zhuǎn)向一體化、集中化、自動(dòng)化的新運(yùn)維工作模式,提高了數(shù)據(jù)中心的運(yùn)維效率和服務(wù)效能。
參考文獻(xiàn)
[1] 周萌,林國策,楊厚云.CentOS下ZABBIX的配置與使用[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(1):90-94.
[2] 楊磊.基于Zabbix的云監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2017.
[3] 吳文豪.自動(dòng)化運(yùn)維軟件設(shè)計(jì)實(shí)戰(zhàn)[M].電子工業(yè)出版社,2015.