吳楷 王創(chuàng)
摘 要
隨著電廠信息系統(tǒng)規(guī)模不斷擴大,系統(tǒng)運行中問題出現(xiàn)的頻率及復(fù)雜度也相應(yīng)增加。為更加高效的監(jiān)控信息系統(tǒng)運行狀態(tài)、提升問題預(yù)警、分析、處理水平,筆者梳理重要信息系統(tǒng)拓撲邏輯,設(shè)計了信息系統(tǒng)運行參數(shù)的實時數(shù)據(jù)獲取及詳細信息分析和展示邏輯,基于市場主流參考平臺,設(shè)計并實施上線信息系統(tǒng)監(jiān)控平臺。本文描述了信息系統(tǒng)監(jiān)控平臺的主要技術(shù)設(shè)計方案、實現(xiàn)及應(yīng)用效果。
關(guān)鍵詞
信息系統(tǒng);監(jiān)控;運維工作;技術(shù)設(shè)計方案
中圖分類號: TP399-C2 ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.19.082
0 背景
隨著電廠信息化建設(shè)的持續(xù)進行,信息系統(tǒng)的規(guī)模及內(nèi)容均不斷擴大,系統(tǒng)運行中問題出現(xiàn)的頻率及復(fù)雜度也相應(yīng)增加。然而,一段時期以來,由于缺乏高效和自動化的監(jiān)控手段,對于重要信息系統(tǒng)的運行狀態(tài)的監(jiān)控主要靠運維人員定期巡檢完成。人工巡檢可能出現(xiàn)對問題檢測的遺漏,往往是用戶告知系統(tǒng)出現(xiàn)了問題,才介入處理故障。基于這種情況,提出一套完善的解決方案以自動化的監(jiān)控重要信息系統(tǒng)運行狀態(tài),當出現(xiàn)異常時可及時通知運維人員介入處理變得十分必要。
1 系統(tǒng)選型
經(jīng)深入調(diào)研市場上現(xiàn)有的監(jiān)控系統(tǒng),發(fā)現(xiàn)絕大部分監(jiān)控系統(tǒng)是用于監(jiān)控服務(wù)器硬件或網(wǎng)絡(luò)設(shè)備(如:CPU占用、IO吞吐量、網(wǎng)絡(luò)流量、風扇轉(zhuǎn)速、溫度、網(wǎng)絡(luò)數(shù)據(jù)包等),以信息系統(tǒng)為核心的監(jiān)控系統(tǒng)可參考的非常稀少,不能完全滿足核電廠信息系統(tǒng)監(jiān)控的多方面的需求。
最終,我們選擇在服務(wù)器系統(tǒng)監(jiān)控平臺上有一定積累的廠商作為合作方,以項目形式開展合作。該系統(tǒng)監(jiān)控平臺是以硬件及網(wǎng)絡(luò)設(shè)備監(jiān)控為主體構(gòu)建,在合作過程中,我方提出系統(tǒng)的整體設(shè)計方案、關(guān)聯(lián)邏輯及信息系統(tǒng)結(jié)構(gòu)、數(shù)據(jù)展現(xiàn)、計算和告警設(shè)計方案。這些內(nèi)容構(gòu)成了最終成形的信息系統(tǒng)監(jiān)控平臺的核心和基礎(chǔ)設(shè)計。該平臺整體底層架構(gòu)穩(wěn)定,上層應(yīng)用層支持多樣化的數(shù)據(jù)展現(xiàn),并結(jié)合我方設(shè)計方案進行了全面重構(gòu),增加了部分專用信息系統(tǒng)監(jiān)控的功能模塊。
2 設(shè)計與實施
2.1 系統(tǒng)核心功能設(shè)計
設(shè)計的整體目標是:掌握信息系統(tǒng)的整體健康水平和變化趨勢;通過模擬用戶對信息系統(tǒng)的日常登錄操作的方式,進行用戶模擬監(jiān)控,感知信息系統(tǒng)是否正常;實時監(jiān)控應(yīng)用所依托的各基礎(chǔ)資源的狀態(tài),實時了解業(yè)務(wù)整體運行狀態(tài);通過用戶側(cè)模擬和基礎(chǔ)資源兩個維度的監(jiān)控,依據(jù)對具體監(jiān)測點配置的健康度算法,完成對信息系統(tǒng)的實時監(jiān)控。
2.1.1 整體展現(xiàn)結(jié)構(gòu)設(shè)計
系統(tǒng)設(shè)計為通過瀏覽器界面展現(xiàn)納入統(tǒng)一監(jiān)控管理的電廠信息系統(tǒng)的全景/分系統(tǒng)結(jié)構(gòu)圖。
該結(jié)構(gòu)圖上,系統(tǒng)與系統(tǒng)之間以線條相連,系統(tǒng)自身以氣泡加英文文字的形式指示系統(tǒng)當前的可用性情況,并可根據(jù)系統(tǒng)當前運行的總體情況顯示系統(tǒng)健康度(系統(tǒng)健康度規(guī)則及相關(guān)權(quán)重可后臺自定義配置)。
系統(tǒng)間關(guān)聯(lián)的線條可展示其互相依賴和關(guān)聯(lián)的特性,并可在后臺將這些關(guān)聯(lián)系統(tǒng)配置為一個整體的系統(tǒng)進行統(tǒng)一的狀態(tài)監(jiān)控。
對于信息系統(tǒng)相關(guān)服務(wù)的詳細運行參數(shù),提供詳細的信息展現(xiàn)頁面(頁面包含正常運行期間的參數(shù)信息展示及異常、告警階段的參數(shù)信息展示及日志記錄入口),可以展現(xiàn)當前最新狀態(tài)信息。全景/分系統(tǒng)結(jié)構(gòu)圖界面如圖1所示。
2.1.2 監(jiān)測點設(shè)計
每個監(jiān)測點可以自定義設(shè)置在整體業(yè)務(wù)/信息系統(tǒng)中的健康分值。整體業(yè)務(wù)/信息系統(tǒng)的健康度為所有監(jiān)測點健康度總和。監(jiān)測點實時健康度的計算方式為監(jiān)測點實時指標取值后結(jié)合閾值設(shè)置,判斷當前監(jiān)測點是否處于告警狀態(tài)、處于何種告警狀態(tài)(紅、黃、綠三種狀態(tài))。通過預(yù)先設(shè)置的紅、黃、綠三種狀態(tài)對應(yīng)的權(quán)重,進行本監(jiān)測點實時健康度計算。業(yè)務(wù)/信息系統(tǒng)實時健康度的計算方式為本業(yè)務(wù)下所有監(jiān)測點實時健康度總和除以所有監(jiān)測點設(shè)置健康度分值總和的比值,以百分比顯示。
監(jiān)測點的閾值點一般為三個,代表嚴重,重要,正常。并設(shè)置當前業(yè)務(wù)點的得分占所有應(yīng)得總分的百分比rate,按照如下規(guī)律進行判斷,如匹配到判斷邏輯1,則退出,不進行邏輯2和3的比較。健康度、實際取值、獲取時間,健康度通過實際取值換算得到,具體邏輯如下:
判斷邏輯1,當rate>重要閾值點,業(yè)務(wù)點為綠色,當前業(yè)務(wù)得分為所有子點的得分總和;判斷邏輯2,當重要閾值點=>rate>緊急閾值點,業(yè)務(wù)點展示黃色;判斷邏輯3,當rate<=緊急閾值點,業(yè)務(wù)點展示為紅色。
2.1.3 信息系統(tǒng)狀態(tài)監(jiān)測
采用在監(jiān)控平臺的探針服務(wù)器上部署Python腳本的方式,監(jiān)控平臺服務(wù)器定期調(diào)用腳本模擬用戶對被監(jiān)控信息系統(tǒng)的訪問操作,并根據(jù)返回的HTTP報文判斷訪問的成功與否。系統(tǒng)同時根據(jù)訪問時長及其他關(guān)鍵參數(shù),按照監(jiān)測點配置的分值和權(quán)重計算得出最終的健康分值。
此種方式為基于我方設(shè)計實現(xiàn)的監(jiān)控平臺的擴展性開發(fā),具有較為廣泛的可擴展性。目前主要監(jiān)控信息系統(tǒng)是否可訪達以及是否可以登錄,后續(xù)還擬進一步擴展為可針對具體的業(yè)務(wù)場景監(jiān)控是否可執(zhí)行相應(yīng)的操作,以使對信息系統(tǒng)的監(jiān)控粒度更為具體。
如下為詳細過程:
利用Firefox瀏覽器插件進行Selenium URL腳本錄制,錄制的腳本可以導(dǎo)出成為Python,根據(jù)實際需求修改完善Python腳本。信息系統(tǒng)監(jiān)控平臺的探針服務(wù)(Probe)啟動后,自動定期調(diào)用Python腳本。主要監(jiān)測范圍包括:
(1)健康狀態(tài),可告警。
(2)連接時間,為性能指標,可告警。
(3)關(guān)鍵指標點,使用Python采集數(shù)據(jù)進行對應(yīng)的抓取分析,可告警。
前文已敘述,基于Selenium錄制的腳本可以定期由信息系統(tǒng)監(jiān)控平臺服務(wù)探針(Probe)調(diào)用,基于探針服務(wù),當我們把業(yè)務(wù)信息系統(tǒng)的各種基礎(chǔ)資源都分別加入探針的監(jiān)控范圍后,就可以建立我們的業(yè)務(wù)信息系統(tǒng)模型了,全部的信息系統(tǒng)監(jiān)控即依托這個模型開展。信息系統(tǒng)監(jiān)控詳情頁面見圖2。
2.1.4 FTP及文件服務(wù)器狀態(tài)監(jiān)測
針對FTP監(jiān)測點的監(jiān)控,本平臺中主要是對FTP可用性、響應(yīng)時間等進行實時監(jiān)測。設(shè)計采用登錄后上傳文件和下載文件對目標端進行連接,并反映FTP的上傳下載速率,在性能歷史走勢圖反映此FTP的性能。
連接到在遠程主機上的FTP服務(wù)器后,監(jiān)控平臺向服務(wù)器程序發(fā)出命令,服務(wù)器程序執(zhí)行所發(fā)出的命令,并將執(zhí)行的結(jié)果返回到客戶機。例如,向服務(wù)器傳送某一個文件的一份拷貝,服務(wù)器會響應(yīng)這條命令,將指定文件送至服務(wù)器的機器上
對于文件服務(wù)器的掛載狀態(tài),由信息系統(tǒng)監(jiān)控平臺執(zhí)行腳本監(jiān)控,上傳測試文件到掛載點對應(yīng)的文件服務(wù)器,并執(zhí)行定時任務(wù)登錄目標服務(wù)器,監(jiān)測是否可訪問到對應(yīng)的測試文件,并根據(jù)返回的狀態(tài)碼判斷掛載狀態(tài)是否正常。
2.2 報表設(shè)計特點
基于信息系統(tǒng)監(jiān)控平臺已有的基本報表功能,設(shè)計并實現(xiàn)了專用于信息系統(tǒng)的運行監(jiān)控報表。可統(tǒng)計所監(jiān)控信息系統(tǒng)的服務(wù)容器,運行狀態(tài)情況,參數(shù)詳細,可精確到日,也可擴展到周、月。
2.3 其他功能設(shè)計特點
信息系統(tǒng)監(jiān)控平臺與短信及郵件關(guān)聯(lián),當出現(xiàn)異常告警時,將第一時間通知對口的信息系統(tǒng)負責人及時干預(yù)處置。
3 管理效益
自設(shè)計、實施并上線信息系統(tǒng)監(jiān)控平臺后,信息系統(tǒng)日常運維工作得到了信息化手段的有效支撐,運維工作效率和效果得到優(yōu)化和提升,體現(xiàn)為:
(1)對于信息系統(tǒng)的運行狀態(tài)具備了全局同時監(jiān)控的能力,節(jié)省人力投入。
(2)信息系統(tǒng)出現(xiàn)異常狀態(tài)時,可及時通知到對應(yīng)的系統(tǒng)負責人,及時干預(yù)處置,減少信息系統(tǒng)的故障或異常停機時間,更加有效的支撐電廠各項生產(chǎn)支持和經(jīng)營管理工作。
(3)報表功能可詳細統(tǒng)計和分析特定信息系統(tǒng)一段時期內(nèi)的運行狀態(tài)和經(jīng)常出現(xiàn)的問題,便于集中識別、分析、處理多發(fā)的難點問題。
4 結(jié)論
通過有效識別信息系統(tǒng)日常運維中的痛點和難點,并設(shè)計出契合自身實際需要的信息系統(tǒng)監(jiān)控綜合方案,電廠將信息系統(tǒng)日常運維納入信息系統(tǒng)監(jiān)控平臺進行集中管理。通過深入的需求分析、合理的系統(tǒng)設(shè)計,結(jié)合合作單位的開發(fā)和實施,最終在一定程度上實現(xiàn)了信息系統(tǒng)監(jiān)控的自動化,有效地減少了人工巡檢頻次,提高了運維工作效率。