許劭慶+馬彪+安海英
摘 要:為了方便電力行業(yè)網管人員能夠快速的從這些告警中找到有用信息,迅速的定位設備故障。本文設計了由接口告警采集、故障處理系統(tǒng)、告警相關性分析模塊等構成處理框架。采用過濾告警、補全缺值數(shù)據、去重等方式進行數(shù)據預處理。通過告警發(fā)現(xiàn)和相關性分析機制實現(xiàn)告警的匹配和識別,利用基于關聯(lián)規(guī)則的方法對告警信息挖掘。采用本文設計的方法,能夠有效的實現(xiàn)網管系統(tǒng)的告警信息的挖掘分析,提高網管的效率。
關鍵詞:數(shù)據挖掘;告警信息;關聯(lián)規(guī)則
中圖分類號:TP311 文獻標識碼:A
1 引言(Introduction)
隨著信息技術的發(fā)展,越來越多的行業(yè)采用計算機技術來實現(xiàn)管理的自動化和智能化。電力企業(yè)也不例外,為了實現(xiàn)對供電線路和設備的管理,建立了自己的監(jiān)控網絡,進一步提高自己的運維保障能力。但隨著監(jiān)控網絡的不斷擴大,網絡結構越來越復雜,很多的網絡技術慢慢的走向了融合,這導致了網絡發(fā)生故障的突然性越來越高,這些因素交融在一塊,致使網絡的維護、管理、操作變得越來越困難[1-3]。因此,目前的當務之急是找尋一種更加自動智能化、綜合化的網絡管理辦法。當一個運維支撐網絡產生問題或故障發(fā)生時,就會導致大量的告警產生,根據這些告警信息,就可以方便的分析設備的問題和故障,能夠成功的解決網絡運維管理中的各類問題。
本文利用這些告警信息,提出了基于數(shù)據挖掘的網管告警處理方法,該處理方法是在對比和研究了告警相關性分析理論以及技術之后才提出的。規(guī)則引擎可以利用其中已有的規(guī)則來動態(tài)的實時分析告警信息,規(guī)則引擎中保存的規(guī)則是在分析那些數(shù)據庫中的告警信息并自學習之后才獲取到的,告警轉故障和根告警的分析就是通過對比這些規(guī)則來實現(xiàn)的,從而可以為系統(tǒng)故障智能化管理提供一系列的解決方案。不管是從理論研究還是實際工程研究應用方面都有著很強的意義和價值[4]。
2 告警處理總體設計(General design of alarming
treatment)
告警信息處理涉及告警數(shù)據的采集、分析、過濾等方面工作。一個完整的電力行業(yè)網絡監(jiān)控的告警處理由網管子系統(tǒng)、接口告警采集、JMS消息通信、故障處理系統(tǒng)、告警相關性分析、規(guī)則專家管理模塊和GUI界面等構成,具體的結構如圖1所示。
圖1 告警信息處理系統(tǒng)結構
Fig.1 Structure of alarm information processing system
其中,接口層告警采集完成對網管子系統(tǒng)(如銳捷傳輸系統(tǒng)、華為傳輸系統(tǒng)、動力環(huán)境系統(tǒng))的告警數(shù)據采集,接口層會根據不同的網絡硬件設備,設計出多種不同的網絡接口,從而實現(xiàn)對不同設備告警信息的采集;告警信息采集完畢后由告警預處理模塊對告警數(shù)據的進行預處理;告警信息處理完畢后通過JMS消息傳送到數(shù)據庫中;告警相關性分析模塊會根據數(shù)據庫中的告警數(shù)據結合規(guī)則專家系統(tǒng),確定告警的類型,并交由故障處理系統(tǒng)進行處理。所有信息處理完畢后,用戶可以從GUI界面看到告警的狀態(tài)、處理的過程、故障的定性和解決方案,從而實現(xiàn)對網絡設備告警的全面管理。
3 網絡告警數(shù)據預處理(Alarm data pretreatment)
通過對接口層采集的告警數(shù)據觀察分析后發(fā)現(xiàn),有些告警只持續(xù)短短幾秒鐘,有些告警的關鍵字段缺失,有些告警重復多次出現(xiàn),有些屬性冗余等。這些數(shù)據會影響數(shù)據挖掘的準確度和效率,因此為了將原始數(shù)據轉換成便于挖掘的形式,通常會對這些告警信息進行預處理,預處理的過程通常會包括過濾瞬斷告警、過濾噪聲、補全缺值數(shù)據、去除重復記錄、完成數(shù)據類型轉換等操作[5,6]。具體的內容為:
(1)過濾瞬斷告警:瞬斷告警是指那些歷時比較短的告警,瞬斷告警本身沒有價值,所以不需要進行分析,要過濾掉。
(2)過濾噪聲:告警庫中那些無法識別或者缺失關鍵字段的告警數(shù)據,是無用的“噪音”數(shù)據,故此也要將其過濾掉,比如缺失時間或者告警名稱的信息等。
(3)補全不完整數(shù)據:告警庫中存在一些不完整但能根據告警信息的不同字段或者其他的信息來對缺失的信息進行推導,進而補全的信息,比如可以通過電路的路由信息來推導告警的網元信息等。
(4)去除重復記錄:將在小段時間內產生的重復告警合并成一條告警,消除對冗余數(shù)據的分析。合并后告警的產生時間為最先發(fā)生的重復告警的開始時間。
(5)數(shù)據轉換:數(shù)據轉換是為了方便數(shù)據挖掘,減少數(shù)據維度,從告警庫中的原始告警信息中抽取與數(shù)據挖掘相關的屬性如告警的產生時間、告警的名稱等。
經過這五步的預處理后,告警信息會被整理成一條獨立完整的告警信息,告警信息基本形式詳細信息如表1所示。
4 告警規(guī)則發(fā)現(xiàn)與相關性分析(Rule discovery and
correlation analysis of alarm)
4.1 告警規(guī)則發(fā)現(xiàn)
告警規(guī)則發(fā)現(xiàn)是告警處理系統(tǒng)中的核心模塊,具有不可替代的作用。告警規(guī)則發(fā)現(xiàn)模塊實現(xiàn)著告警事件的匹配、過濾等工作,負責告警事件的識別、發(fā)現(xiàn)和挖掘等多項任務,規(guī)則發(fā)現(xiàn)功能的框架如圖2所示。
規(guī)則發(fā)現(xiàn)功能是一個相對獨立的模塊。從流程框架圖不難發(fā)現(xiàn),規(guī)則發(fā)現(xiàn)功能總體的流程處理為規(guī)則發(fā)現(xiàn)功能模塊首先對數(shù)據庫中的告警數(shù)據進行預處理操作,即對其作加權和時間跨度的劃分,然后從預處理后的數(shù)據中篩選可以滿足最小支持度的頻繁項目集,接著再從這些篩選得到的項目集的最大頻繁項目集里篩選,找出可以滿足最小可信度的規(guī)則,最后,再把這些挖掘出的規(guī)則保存在數(shù)據庫中。前臺不僅可以根據需求為規(guī)則引擎添加其所需大量必要的規(guī)則支持到規(guī)則引擎的規(guī)則庫中,方便規(guī)則引擎系統(tǒng)對告警數(shù)據的相關分析;同時,還可以通過規(guī)則庫管理來對挖掘出的規(guī)則進一步的篩選及增刪改操作。該功能需要大量的開銷,因為該功能的實現(xiàn)需要對數(shù)據庫進行多次的掃描和處理。
4.2 告警相關性分析
告警產生的原因及告警之間的內在關聯(lián)是由告警相關性分析負責分析。如圖3所示,即為告警相關性分析的內部處理流程。圖3給出了基于規(guī)則引擎的相關性分析系統(tǒng)處理上報實時告警的情況。需要特別說明的是,如果有必要告警數(shù)據是可以轉化為故障信息,并進入故障處理系統(tǒng)進行故障處理的[7]。
綜合網絡管理系統(tǒng)的告警相關性分析模塊是由規(guī)則發(fā)現(xiàn)功能和相關性分析處理功能組成的。在整個系統(tǒng)中,告警轉故障后進入的故障處理系統(tǒng)即工單處理系統(tǒng)和配置數(shù)據的接口網關或接口上傳告警均與告警相關性分析模塊有著直接的相關。其中,故障的維修及相關性信息的填寫就是在工單處理系統(tǒng)中完成的。填寫完成之后,再將故障處理的詳情回寫數(shù)據庫,從而一點點的建立故障維修專家?guī)臁?/p>
5 告警規(guī)則挖掘方法(Mining method of alarm rule)
本文將關聯(lián)規(guī)則算法應用在了告警數(shù)據挖掘方面,算法的主要目的是為了挖掘出告警數(shù)據中的關聯(lián)規(guī)則。
根據告警原因、告警所屬網元、告警級別等因素作為比較對象來劃分算法中用到的告警分類集[8]。
設第k種告警可用來表示,則各種告警的分類集合為;設告警分類集中第k種告警對應的權值用來表示,則告所有種類的告警對應的權值集合為;告警集是告警數(shù)據被時間跨度interval將按時間順序劃分形成的;的每個元素,
滿足最小支持度且中每個元素是由中個不同的告警組成,故稱為項告警頻繁項目集;中的元素之間存在的告警規(guī)則形如,且 , 。
挖掘告警數(shù)據關聯(lián)規(guī)則的算法步驟如下:
(1)首先將預處理后的告警數(shù)據用時間跨度interval按時間順序劃分為多個告警集,并去除告警集中的那些重復告警類。
(2)在按照時間順序劃分好的告警集中,尋找1-項告警頻繁項目集。
(3)在劃分好的所有告警集合中,以項告警頻繁項目集為基礎,尋找第項告警頻繁項目集,直到得到 為空集為止。
(4)合并告警頻繁項目集,。
(5)遍歷告警頻繁項目集的集合L中的每一個元素,計算并在每個元素中尋找滿足最小置信度的告警關聯(lián)規(guī)則的元素,如此循環(huán)遍歷,直到遍歷完L中的所有元素為止。
(6)最后,將那些滿足要求被篩選出來的告警關聯(lián)規(guī)則放入待處理的規(guī)則庫里。
關聯(lián)規(guī)則挖掘算法的流程圖如圖4所示。
上面給出了應用于挖掘綜合網絡管理系統(tǒng)的告警數(shù)據的關聯(lián)規(guī)則模塊的關聯(lián)規(guī)則挖掘算法,該算法是經過了加權和時間約束處理的。算法模型的建立使規(guī)則發(fā)現(xiàn)系統(tǒng)的實現(xiàn)成為可能。
6 結論(Conclusion)
本文設計了由網管子系統(tǒng)、接口告警采集、JMS消息通信、故障處理系統(tǒng)、告警相關性分析、規(guī)則專家管理模塊及GUI界面等構成的網管告警處理框架。采用過濾瞬斷告警、過濾噪聲、補全缺值數(shù)據、去除重復記錄等方式進行數(shù)據預處理。通過告警發(fā)現(xiàn)和相關性分析機制對實現(xiàn)告警的匹配和識別,利用基于關聯(lián)規(guī)則的方法對告警信息挖掘。實踐證明,本文提出的處理方法能夠有效的實現(xiàn)網管系統(tǒng)的告警信息的
挖掘分析,定位設備的故障原因,提高網管的效率。
參考文獻(References)
[1] RygielskiP,KounevS.Network Virtualization for QoS-Aware Resource Management in Cloud Data Centers:A Survey[J].Praxisder Informations Verarbeitung und Kommunikation,2013,36(1):55-64.
[2] Jain R,Paul S.Network Virtualization and Software Defined Networking for Cloud Computing:a Survey[J].Communications Magazine,IEEE,2013,51(11):24-31.
[3] YUE Zheng-Kun,et al.The Study of Algorithms for Multi-VMs Bandwidth Guarantee in Data Centers[C].2013 3rd International Conference on Computer Science and Network Technology,2013:767-771.
[4] 李德仁,張良培,夏桂松.遙感大數(shù)據自動分析與數(shù)據挖掘[J].測繪學報,2014,43(12):1211-1216.
[5] 丁兆云,賈焰,周斌.微博數(shù)據挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(4):691-706.
[6] 黃斌,許舒人,蒲衛(wèi).基于MapReduce的數(shù)據挖掘平臺設計與實現(xiàn)[J].計算機工程與設計,2013,34(2):495-501.
[7] 朱姣姣,葉猛.多模式匹配及其改進算法在協(xié)議識別中的應用[J].電視技術,2012,36(7):60-62.
[8] Chen C,et al.Providing Scalable Database Services on the Cloud[C].The 11th Int'l Conf. on Web Information Systems Engineering(WISE),Xiamen 2010.
[9] 陳占芳,等.基于OA系統(tǒng)的即時通訊平臺關鍵技術研究與實現(xiàn)[J].長春理工大學學報:自然科學版,2012,5(04):125-129.
作者簡介:
許劭慶(1974-),男,本科,高級工程師.研究領域:軟件開發(fā).
馬 彪(1962-),男,本科,高級工程師.研究領域:計算機網絡.
安英海(1976-),男,本科,高級工程師.研究領域:軟件開發(fā).