楊 劍,藍(lán)明超
(國(guó)防科技大學(xué) 信息通信學(xué)院,陜西 西安 710106)
隨著智能光網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,對(duì)故障診斷也提出了更高的要求[1-3].開展故障診斷研究,需要從告警數(shù)據(jù)分析入手,告警關(guān)聯(lián)技術(shù)可以進(jìn)行告警相關(guān)性分析,挖掘根源告警,進(jìn)而診斷故障[4-6],因此是進(jìn)行故障診斷的常用方法.目前,通過告警關(guān)聯(lián)進(jìn)行故障診斷已有多種研究方法,比如文獻(xiàn)[7]提出的基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的故障診斷法;文獻(xiàn)[8]提出的基于層次分析法的網(wǎng)絡(luò)故障診斷系統(tǒng)架構(gòu);文獻(xiàn)[9]提出的基于模糊推理的網(wǎng)絡(luò)故障診斷法等.但是上述方法仍然存在著以下問題:首先,多數(shù)告警關(guān)聯(lián)分析算法都是挖掘根源告警,但僅僅分析根源告警無法提取出完整的故障信息,而且挖掘出的根源告警有可能出現(xiàn)多個(gè)共存的情況;其次,在進(jìn)行故障診斷時(shí),主要是通過網(wǎng)絡(luò)維護(hù)人員結(jié)合自身經(jīng)驗(yàn)給出故障原因,這種方法不僅耗費(fèi)人力,也存在效率及準(zhǔn)確度低下的問題;最后,由于智能光網(wǎng)絡(luò)新增控制平面,導(dǎo)致告警數(shù)據(jù)庫會(huì)同時(shí)接收來自三個(gè)不同平面上的告警,在這種情況下,運(yùn)用上述方法準(zhǔn)確診斷故障是非常困難的.針對(duì)當(dāng)前研究存在的問題,本文提出一種基于告警加權(quán)的故障診斷算法,其核心思想是保留告警關(guān)聯(lián)關(guān)系的所有置信度,采用大數(shù)定理的方法對(duì)告警事件進(jìn)行加權(quán)處理,再在此基礎(chǔ)上進(jìn)行多告警組合下的原因分析,最后根據(jù)不同概率的原因組合進(jìn)行故障診斷.采用這種算法可以結(jié)合智能光網(wǎng)絡(luò)的故障特點(diǎn),提高告警分析的方向性和有效性,為故障診斷提供幫助,更具實(shí)用性和優(yōu)越性.
大數(shù)定理是概率論中關(guān)于大量隨機(jī)現(xiàn)象的極限定理,通過用“頻率”收斂于“概率”來使大量隨機(jī)事件的數(shù)據(jù)結(jié)果趨于頻率穩(wěn)定性,達(dá)到數(shù)據(jù)處理最優(yōu)化的目的[10].大數(shù)定理的簡(jiǎn)單定義如下:
假設(shè)存在一組相互獨(dú)立且同分布的隨機(jī)變量X1,X2,X3,…,Xn,設(shè)它們的方差存在,記為σ2,又設(shè)它們的公共均值存在,并記為μ,則對(duì)于任意給定的ε>0,有如下公式:
在告警關(guān)聯(lián)中,通過告警關(guān)聯(lián)性分析可以得到不同支持度與置信度下的強(qiáng)關(guān)聯(lián)告警關(guān)聯(lián)規(guī)則,規(guī)定最小支持度和最小置信度有助于挖掘根源告警,要想確定頻繁告警事務(wù)集中各告警的權(quán)重,只需規(guī)定最小支持度,篩選出頻繁項(xiàng)集,保留頻繁項(xiàng)集下各告警關(guān)聯(lián)關(guān)系的所有置信度.這樣做的目的主要有以下兩個(gè)方面:一方面,通過規(guī)定最小支持度可以將海量告警數(shù)據(jù)中的頻繁項(xiàng)集篩選出來作為確定告警權(quán)重的目標(biāo)事務(wù)集;另一方面,保留告警關(guān)聯(lián)關(guān)系中所有的置信度可以比較一個(gè)告警事務(wù)集中所有告警事件間的關(guān)聯(lián)關(guān)系,以此確定各個(gè)告警事件的權(quán)重.
大數(shù)定理的告警加權(quán)處理的核心思想就是將告警權(quán)重頻率化,即根據(jù)告警關(guān)聯(lián)規(guī)則的置信度和告警級(jí)別,將告警事務(wù)集作為一個(gè)集合,每個(gè)告警事件作為一個(gè)隨機(jī)事件,通過大規(guī)模的模擬計(jì)算將每個(gè)告警事件在這個(gè)集合中出現(xiàn)的頻率數(shù)值作為權(quán)重進(jìn)行處理.其步驟主要分為三步:① 收集數(shù)據(jù).收集的數(shù)據(jù)包括一個(gè)強(qiáng)關(guān)聯(lián)告警,事件的所有屬性,分為已知條件告警和對(duì)應(yīng)產(chǎn)生的關(guān)聯(lián)告警,以及產(chǎn)生關(guān)聯(lián)告警的置信度,同時(shí)確定告警關(guān)聯(lián)事件中所有告警事件的告警級(jí)別,按緊急、主要、次要、提示分別量化處理.② 隨機(jī)生成事件,每次生成兩個(gè)以上告警事件,如果兩個(gè)事件相同的話,判定為一個(gè)事件合并去重,根據(jù)各個(gè)告警關(guān)聯(lián)關(guān)系的置信度并結(jié)合各告警事件量化的告警級(jí)別進(jìn)行變化,多次計(jì)算,統(tǒng)計(jì)各告警事件的出現(xiàn)次數(shù).③ 多次重復(fù)步驟②,綜合統(tǒng)計(jì)各個(gè)告警事件的出現(xiàn)頻率,得到各個(gè)告警事件的概率,用概率代替頻率,將獲得的概率數(shù)值作為各個(gè)告警事件的權(quán)重.
基于大數(shù)定理的告警加權(quán)處理的思路圖如圖1所示.通過告警加權(quán)不但可以為告警關(guān)聯(lián)事件中的各個(gè)告警賦予不同權(quán)重,同時(shí)也為該關(guān)聯(lián)條件下同一告警級(jí)別的告警優(yōu)先級(jí)提供了參考,這樣不僅把每個(gè)告警事件按權(quán)重進(jìn)行了排序,更為后期在通過告警原因進(jìn)行故障定位時(shí),給出了每個(gè)告警分析的重要程度,有利于更準(zhǔn)確地診斷網(wǎng)絡(luò)故障.
基于告警加權(quán)的智能光網(wǎng)絡(luò)故障診斷算法的思路圖如圖2所示.該算法設(shè)計(jì)思路可以分為3個(gè)步驟:① 收集告警事務(wù)集,建立告警加權(quán)模塊.依據(jù)基于大數(shù)定理的告警加權(quán)處理,首先將收集到的告警事務(wù)集中每個(gè)告警進(jìn)行加權(quán)排序,分析比較告警事務(wù)集中各告警的重要程度.② 獲取告警原因及概率.依據(jù)每個(gè)告警的詳細(xì)告警信息,分析每個(gè)告警可能產(chǎn)生的告警原因,并確定每個(gè)告警原因所占的比重.在告警原因比重的確定中,可以通過告警信息說明中的原因比重分配,也可以通過前期網(wǎng)管人員處理單個(gè)告警問題時(shí)的數(shù)據(jù)記錄進(jìn)行確定,如果這些信息因?yàn)槟承┮蛩責(zé)o法獲取,則可以在告警原因的比重分配中采取等概率方法進(jìn)行分配.③ 產(chǎn)生多告警組合下原因分析結(jié)果,進(jìn)行故障診斷.結(jié)合不同權(quán)重下的告警事件以及每個(gè)告警事件的原因分配概率進(jìn)行多告警組合下的原因組合,依據(jù)古典概型得到不同原因組合下的概率,最后根據(jù)不同概率下的原因組合進(jìn)行貝葉斯推理確定故障原因進(jìn)而進(jìn)行故障診斷.
表1 某告警關(guān)聯(lián)關(guān)系表Tab.1 An alarm correlation table
實(shí)驗(yàn)采用的仿真數(shù)據(jù)來源于中部地區(qū)五省兩市的智能光網(wǎng)絡(luò)告警數(shù)據(jù).通過前期對(duì)告警數(shù)據(jù)進(jìn)行告警相關(guān)性分析,挖掘出大量保留所有置信度下的頻繁告警事務(wù)集,分別對(duì)這些告警事務(wù)集進(jìn)行故障定位分析.以其中一個(gè)告警事務(wù)集為例,該告警事務(wù)集中各告警事件及相互關(guān)聯(lián)關(guān)系下的置信度如表1所示.各個(gè)告警事件的告警級(jí)別及產(chǎn)生每個(gè)告警事件的原因如表2所示.
根據(jù)上述表格的信息,該告警關(guān)聯(lián)關(guān)系共有3種告警事件,6種告警關(guān)聯(lián)規(guī)則,9種告警原因.按照算法流程,首先通過告警加權(quán)模塊確定各告警的權(quán)重,輸入各告警關(guān)聯(lián)關(guān)系及對(duì)應(yīng)的置信度,進(jìn)行權(quán)重計(jì)算,得到的該告警事務(wù)集下各告警事件的權(quán)重結(jié)果如表3所示.
表2 告警級(jí)別及告警原因表Tab.2 Alarm levels and causes list
通過權(quán)重可以看出,在此告警事務(wù)集下,TU_AIS告警是比重最大的告警,其次是R_LOS告警,最后是LTI告警.因此,在對(duì)這些告警進(jìn)行分析時(shí),TU_AIS告警是重點(diǎn)分析對(duì)象,因而需著重分析引發(fā)其告警的原因,并結(jié)合其他兩個(gè)告警的原因進(jìn)行多告警分析故障診斷.
表3 告警事件權(quán)重Tab.3 Alarm event weight
表4 部分原因分析及概率表Tab.4 Partial cause analysis and probability table
確定好告警權(quán)重之后,進(jìn)入多告警組合原因分析模塊進(jìn)行原因分析.通過告警原因表可以看到,該告警事務(wù)集中每個(gè)告警分別對(duì)應(yīng)4種告警原因,本次實(shí)驗(yàn)對(duì)告警原因取等概率進(jìn)行分配,即產(chǎn)生告警的每種原因均為0.25.隨后進(jìn)行多告警組合下原因分析,當(dāng)這3種告警同時(shí)發(fā)生時(shí),同時(shí)產(chǎn)生這3種告警的部分原因分析及概率如表4所示.
通過對(duì)告警加權(quán)處理進(jìn)行告警原因分析得到的結(jié)果可以看出,根據(jù)不同概率下的原因分析進(jìn)行故障診斷,不僅將多個(gè)告警信息提取出來合并到一條信息,而且克服了對(duì)根源告警分析時(shí)無法完全獲取故障信息的問題,為通過智能光網(wǎng)絡(luò)告警進(jìn)行故障定位提供了參考.
綜上可知,本文提出的基于告警加權(quán)的故障診斷算法不僅對(duì)告警事務(wù)集中各個(gè)告警事件進(jìn)行了加權(quán)處理,解決了告警分析的優(yōu)先級(jí)問題,而且可以根據(jù)各個(gè)權(quán)重下的告警事件的原因得到不同概率的告警原因組合,解決了故障診斷的準(zhǔn)確性問題.同時(shí),該算法可以適應(yīng)智能光網(wǎng)絡(luò)的故障特點(diǎn),克服傳統(tǒng)方法的缺陷,具有實(shí)用性和優(yōu)越性.