王曼
中移鐵通有限公司河北分公司 河北 石家莊 050000
隨著通信網(wǎng)絡(luò)的發(fā)展,各種業(yè)務(wù)和用戶量的不斷增加,致使集中監(jiān)控平臺告警數(shù)量也在持續(xù)增長,如何從大量告警中篩選出根源告警,快速、準(zhǔn)確的定位故障原因和影響業(yè)務(wù)情況,這給網(wǎng)管監(jiān)控人員帶來極大挑戰(zhàn)。通過告警壓縮,不僅可以減少告警數(shù)量,同時有利于對網(wǎng)管監(jiān)控人員快速故障定位,告警壓縮是建立在一定的告警關(guān)聯(lián)關(guān)系和處理規(guī)則基礎(chǔ)上的。本文以Cache告警為例,探索告警壓縮方法。
根據(jù)告警關(guān)聯(lián)關(guān)系,一個被分析的告警可能引發(fā)其他多種告警,告警相關(guān)性分析需要查找根源告警和其關(guān)聯(lián)告警,進(jìn)行壓縮規(guī)則輸出。告警關(guān)聯(lián)關(guān)系主要分為三類:
規(guī)則描述:如果告警A和告警B為同專業(yè)內(nèi)同批次發(fā)生的告警,告警A的產(chǎn)生導(dǎo)致同時產(chǎn)生告警B。那么告警A與告警B為主次關(guān)聯(lián)關(guān)系,告警A為主要告警,告警B為次要告警。集中監(jiān)控人員只需要對主告警原因進(jìn)行排查。
規(guī)則舉例:告警A Cache設(shè)備吞吐速率高于上線告警(主要告警),告警B Cache設(shè)備回源速率高于上線告警(次要告警)。設(shè)備吞吐速率高于上線告警和設(shè)備回源速率高于上線告警均由單個設(shè)備流量超過閾值產(chǎn)生,且超過部分會自動分配到其他設(shè)備上。如果同一節(jié)點內(nèi)設(shè)備同時出現(xiàn)這兩個告警,屬于主次關(guān)聯(lián)關(guān)系。
規(guī)則描述:如果同一節(jié)點或設(shè)備在某一時間段反復(fù)出現(xiàn)告警A,若告警A滿足閾值觸發(fā)條件,則對告警A進(jìn)行壓縮,衍生出一條新的告警。集中監(jiān)控人員只需要查看衍生告警即可。
規(guī)則舉例:告警A Cache設(shè)備服務(wù)流量達(dá)到門限告警(同一節(jié)點內(nèi)設(shè)備反復(fù)出現(xiàn)),衍生告警:Cache設(shè)備服務(wù)流量達(dá)到門限告警(同節(jié)點設(shè)備告警超過XX次/時)。Cache設(shè)備服務(wù)流量達(dá)到門限告警,產(chǎn)生原因為單個設(shè)備流量超過閾值,超過部分會自動分配到其他設(shè)備。如果分組內(nèi)設(shè)備反復(fù)出現(xiàn)此告警,屬于閾值觸發(fā),滿足觸發(fā)條件,輸出衍生告警。
規(guī)則描述:如果告警A和告警B之間因果關(guān)系不明顯,但根據(jù)資源拓?fù)湫畔⒋嬖谀撤N程度上潛在的因果關(guān)系,將此類告警合并衍生出一條新的告警。集中監(jiān)控人員只需要查看衍生告警即可。
規(guī)則舉例:告警A 設(shè)備離線告警(MLB設(shè)備),告警B 設(shè)備離線告警(Web Cache設(shè)備),告警C 設(shè)備離線告警(SLB-Cache設(shè)備),衍生告警:設(shè)備離線告警(設(shè)備=IP X.X.X.X)。同一網(wǎng)元MLB、Web Cache、SLB-Cache,同時報設(shè)備離線告警,則該臺服務(wù)器故障,合并衍生出一條設(shè)備離線告警[1]。
告警處理規(guī)則是在對告警相關(guān)性進(jìn)行分析的基礎(chǔ)上,結(jié)合告警關(guān)聯(lián)關(guān)系,制定出的一系列壓縮規(guī)則。規(guī)則的制定需要對大量的告警進(jìn)行分析,并結(jié)合豐富的維護(hù)經(jīng)驗,在不影響業(yè)務(wù)的基礎(chǔ)上,確保告警的真實有效性。在此過程中,對于閾值的選取一定要合適,過小會削弱告警壓縮的效果,致使衍生告警冗余,原始告警消除的效果不夠理想;過大會影響告警準(zhǔn)確率,忽略本來有效的原始告警。
下圖以分析的Cache告警為例,列舉部分壓縮規(guī)則。
表1 閾值觸發(fā)、同源關(guān)聯(lián)壓縮規(guī)則舉例
從集中監(jiān)控平臺查看Cache設(shè)備每月產(chǎn)生上萬條告警,其中cache設(shè)備服務(wù)流量超限告警占比較高。壓縮前,此類告警當(dāng)月出現(xiàn)了6790條,通過對此類告警實施表1中制定的壓縮規(guī)則,過濾后當(dāng)月呈現(xiàn)在監(jiān)控界面上的衍生告警僅100條,極大凈化了告警界面,減少了監(jiān)控人員的清除告警工作量,壓縮效率達(dá)98%。
圖1 告警壓縮效果示意
根據(jù)告警的關(guān)聯(lián)關(guān)系和告警相關(guān)性規(guī)則對集中監(jiān)控平臺中的告警進(jìn)行壓縮,可以有效減少告警中的冗余信息,有利于告警的快速定位,提高網(wǎng)絡(luò)故障處理效率。