電力系統(tǒng)中已有的通信系統(tǒng),信息運(yùn)維綜合監(jiān)管系統(tǒng)(IMS)、綜合數(shù)據(jù)網(wǎng)網(wǎng)管、信息運(yùn)行管理系統(tǒng)(MAS)、北塔系統(tǒng)、安全準(zhǔn)入系統(tǒng)、殺毒系統(tǒng)、通信管理系統(tǒng)(TMS)、視頻監(jiān)控系統(tǒng)等,這些系統(tǒng)對(duì)信息通信調(diào)度運(yùn)行等業(yè)務(wù)的穩(wěn)定運(yùn)轉(zhuǎn)發(fā)揮了重要作用,為電力通信網(wǎng)提供保障,但同時(shí)存在系統(tǒng)架構(gòu)不統(tǒng)一和可擴(kuò)展性差的缺陷,部分業(yè)務(wù)功能重疊、集成接口眾多、各專業(yè)系統(tǒng)之間業(yè)務(wù)和數(shù)據(jù)融合度較低、維護(hù)成本較高等問題,導(dǎo)致系統(tǒng)的實(shí)用化程度還有待提高。
隨著信息通信設(shè)備的監(jiān)控種類逐漸增加、數(shù)據(jù)類型日益豐富和獲取途徑的逐步完備,公司信息通信設(shè)備所監(jiān)控的數(shù)據(jù)量快速增長。數(shù)據(jù)種類多、數(shù)據(jù)量大、更新速度快,使得傳統(tǒng)的數(shù)據(jù)分析方式遇到問題,因此與大數(shù)據(jù)技術(shù)結(jié)合成為必然的趨勢。
Hadoop是一個(gè)并行海量數(shù)據(jù)處理的云計(jì)算框架,是一個(gè)開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái),是Appach的一個(gè)用java語言實(shí)現(xiàn)開源軟件框架,實(shí)現(xiàn)在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。它可編寫和運(yùn)行分布式應(yīng)用處理大規(guī)模數(shù)據(jù),是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,既可以自定義MapReduce算法,又支持開源項(xiàng)目Mahout當(dāng)中的各種算法,而且可以和R語言結(jié)合的RHadoop也提供了大量的數(shù)據(jù)挖掘算法,是當(dāng)今時(shí)代的主流。
專家系統(tǒng)是一類具有專門知識(shí)和經(jīng)驗(yàn)的計(jì)算機(jī)智能程序系統(tǒng),通過對(duì)人類專家的問題求解能力的建模,采用人工智能中的知識(shí)表示和知識(shí)推理技術(shù)來模擬通常由專家才能解決的復(fù)雜問題,達(dá)到具有與專家同等解決問題能力的水平。專家系統(tǒng)的核心是知識(shí)庫和推理機(jī)。一般說來,一個(gè)專家系統(tǒng)應(yīng)該具備以下三個(gè)要素:
(1)具備某個(gè)應(yīng)用領(lǐng)域的專家級(jí)知識(shí);
(2)能模擬專家的思維;
(3)能達(dá)到專家級(jí)的解題水平。
系統(tǒng)的總體架構(gòu)如圖1:
(1)任務(wù)層
遼寧省電力大數(shù)據(jù)應(yīng)用支撐平臺(tái)系統(tǒng)提供了兩大數(shù)據(jù)處理引擎:一是數(shù)據(jù)分析引擎,負(fù)責(zé)業(yè)務(wù)指標(biāo)數(shù)據(jù)的采集、規(guī)則配置、信息處理與發(fā)布,支持?jǐn)?shù)據(jù)庫、Shell 腳本等方式的統(tǒng)一采集配置功能。二是服務(wù)模擬引擎,提供統(tǒng)一的主動(dòng)探測框架,支持HTTP、短信、Socket、其它定制化的服務(wù)模擬配置和處理機(jī)制。
(2)數(shù)據(jù)處理層
功能層是電力大數(shù)據(jù)應(yīng)用支撐平臺(tái)系統(tǒng)的配置平臺(tái),通過流程化、圖形化、高靈活性的配置功能,實(shí)現(xiàn)不同的功能要求,滿足不同的業(yè)務(wù)需求。功能層與服務(wù)層相結(jié)合,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)探測、采集、處理、和發(fā)布的端到端流程。
(3)數(shù)據(jù)展現(xiàn)層
展現(xiàn)層為使用功能層、服務(wù)層產(chǎn)生的業(yè)務(wù)數(shù)據(jù),根據(jù)客戶要求實(shí)現(xiàn)多樣化的界面邏輯,對(duì)業(yè)務(wù)指標(biāo)、主動(dòng)探測結(jié)果、稽核報(bào)告、告警信息等進(jìn)行集中展示。
圖1 總體架構(gòu)圖
本文設(shè)計(jì)的通信設(shè)備故障診斷預(yù)警系統(tǒng),根據(jù)功能主要分為系統(tǒng)管理模塊、網(wǎng)絡(luò)監(jiān)控模塊、故障管理模塊。系統(tǒng)管理模塊主要包括用戶管理、權(quán)限管理、日志管理三個(gè)部分。實(shí)時(shí)監(jiān)控模塊主要實(shí)現(xiàn)系統(tǒng)的告警和性能狀態(tài)的實(shí)時(shí)監(jiān)控功能。
故障管理模塊主要實(shí)現(xiàn)故障信息采集、故障呈現(xiàn)、故障查詢與統(tǒng)計(jì)和知識(shí)庫規(guī)則管理等功能。
故障知識(shí)庫是整個(gè)系統(tǒng)的核心部分,決定著整個(gè)系統(tǒng)的正常運(yùn)轉(zhuǎn)。知識(shí)庫中存放各種知識(shí)和經(jīng)驗(yàn),用一條條規(guī)則的形式展示出來,有這些規(guī)則進(jìn)行推理。其中的核心部分是決策表。其中包含有異常特征和故障原因,每一行表示一個(gè)真實(shí)的專家診斷案例。
由決策表總結(jié)出決策規(guī)則。當(dāng)?shù)玫叫碌墓收闲畔r(shí),通過推理機(jī)可以由已知異常特征推算出某種故障原因的可能性(概率)。
其中典型的方法為貝葉斯網(wǎng)絡(luò)。
建立決策表(一個(gè)包含故障特征和故障原因的二維表)。屬性約簡,尋找每個(gè)故障原因的所有相關(guān)特征。
根據(jù)歷史故障特征對(duì)每個(gè)故障原因建立相應(yīng)的樸素貝葉斯網(wǎng)絡(luò)。
構(gòu)建好故障知識(shí)庫后,規(guī)則對(duì)象的推理的過程如下:
(1)當(dāng)網(wǎng)絡(luò)正常運(yùn)行時(shí),系統(tǒng)不需要進(jìn)行故障診斷,所有的規(guī)則全部存儲(chǔ)在告警規(guī)則數(shù)據(jù)庫中;
(2)網(wǎng)絡(luò)運(yùn)行異常時(shí),將導(dǎo)致網(wǎng)絡(luò)告警的出現(xiàn)。告警信息與知識(shí)庫中的規(guī)則相匹配,若匹配成功,則調(diào)用推理函數(shù)執(zhí)行該條規(guī)則。
(3)系統(tǒng)將告警寫入網(wǎng)絡(luò)日志,修改某些狀態(tài);
(4)構(gòu)造上下文,存取推理過程中的告警信息、網(wǎng)絡(luò)資源信息和規(guī)則列表信息;
(5)根據(jù)更新后的上下文建立新的規(guī)則對(duì)象,對(duì)規(guī)則數(shù)據(jù)庫進(jìn)行查詢操作,尋找匹配的規(guī)則;
(6)調(diào)用新規(guī)則對(duì)象的推理函數(shù),重復(fù)執(zhí)行 3~6 步,直到所有匹配規(guī)則都被執(zhí)行。
本文的核心功能是實(shí)現(xiàn)通信設(shè)備的故障診斷與預(yù)警。通過建立故障知識(shí)庫,對(duì)歷史故障的統(tǒng)計(jì)與分析,采用相應(yīng)的算法,達(dá)到故障預(yù)警的功能。所以對(duì)歷史故障統(tǒng)計(jì)成為預(yù)警系統(tǒng)的重點(diǎn)之一,歷史故障統(tǒng)計(jì)功能是根據(jù)監(jiān)測系統(tǒng)對(duì)整個(gè)通信系統(tǒng)監(jiān)測結(jié)果進(jìn)行從單個(gè)主機(jī)在24 個(gè)小時(shí)的各個(gè)時(shí)刻內(nèi)發(fā)生每種異常級(jí)別的次數(shù)的統(tǒng)計(jì)、分析、挖掘。
故障診斷的具體流程如圖2:
圖2 故障診斷流程圖
圖3 故障定位展示圖
為更清晰的展示故障信息,在故障定位功能中,采用機(jī)柜、網(wǎng)絡(luò)、業(yè)務(wù)系統(tǒng)三個(gè)方向進(jìn)行可視化展示,構(gòu)建相關(guān)拓?fù)浣Y(jié)構(gòu)圖;發(fā)生故障的主機(jī) IP地址報(bào)警,根據(jù)相關(guān)拓?fù)浣Y(jié)構(gòu)圖,能夠準(zhǔn)確定位到相關(guān)的機(jī)柜、業(yè)務(wù)系統(tǒng)以及相關(guān)集群信息等。其中機(jī)柜維度故障定位展示如圖3,圖中紅線表示出現(xiàn)故障定位指示。
歷史故障統(tǒng)計(jì)功能是根據(jù)監(jiān)測系統(tǒng)對(duì)整個(gè)通信系統(tǒng)監(jiān)測結(jié)果進(jìn)行從單個(gè)主機(jī)在24 個(gè)小時(shí)的各個(gè)時(shí)刻內(nèi)發(fā)生每種異常級(jí)別的次數(shù)的統(tǒng)計(jì)、分析、挖掘。以視圖的形式從異常出現(xiàn)的次數(shù)及其時(shí)刻和三天內(nèi)異常出現(xiàn)的原因及其比重進(jìn)行展示,從而得出最有參考價(jià)值的分析結(jié)果。圖4表示故障統(tǒng)計(jì)信息展示。
圖4 歷史故障統(tǒng)計(jì)展示圖
本系統(tǒng)充分利用大數(shù)據(jù)在數(shù)據(jù)處理、共享融合、分析挖掘、可視化展示等幾個(gè)方面的先進(jìn)技術(shù),結(jié)合信息通信運(yùn)維工作內(nèi)容和數(shù)據(jù)特點(diǎn),重點(diǎn)完成如下工作:
(1)梳理整合運(yùn)行資料、北塔監(jiān)控告警、運(yùn)維監(jiān)控日志、運(yùn)行事件分析、客服與用戶上網(wǎng)行為等數(shù)據(jù),將靜態(tài)拓?fù)鋽?shù)據(jù)與動(dòng)態(tài)監(jiān)控?cái)?shù)據(jù)和實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)相融合,增加了監(jiān)控?cái)?shù)據(jù)的分析和統(tǒng)計(jì)維度,從更多的視角挖掘數(shù)據(jù)價(jià)值,對(duì)故障定位和快速處理決策提供支撐。
(2)以hadoop架構(gòu)為基礎(chǔ),搭建大數(shù)據(jù)平臺(tái),全面提升了海量運(yùn)維數(shù)據(jù)的處理能力和處理時(shí)效性,為今后的運(yùn)維數(shù)據(jù)全面融合、實(shí)時(shí)計(jì)算和挖掘分析打下基礎(chǔ)。
(3)通過對(duì)運(yùn)維數(shù)據(jù)的梳理和分析,設(shè)計(jì)實(shí)現(xiàn)設(shè)備故障診斷模型算法和故障處理專家知識(shí)庫,并結(jié)合可視化展現(xiàn)技術(shù),對(duì)與數(shù)據(jù)的多維度展現(xiàn)和快速組織專題分析,能夠讓運(yùn)維人員更直觀快速進(jìn)行故障定位。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2015年11期