【摘要】傳輸網(wǎng)絡(luò)規(guī)模大,結(jié)構(gòu)復(fù)雜,維護(hù)工作繁重,為提高故障處理響應(yīng)速度,本文對傳輸網(wǎng)絡(luò)告警進(jìn)行預(yù)處理,制定告警過濾規(guī)則,將滑動窗口的理念引入綜合網(wǎng)管告警呈現(xiàn)窗口,討論分析故障診斷的規(guī)則和自學(xué)習(xí)能力,提高故障的處理效率與準(zhǔn)確率。
【關(guān)鍵詞】故障;預(yù)處理;告警采集;告警過濾;告警分析;故障診斷
1.引言
傳輸網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),規(guī)模龐大,結(jié)構(gòu)復(fù)雜,一個網(wǎng)絡(luò)故障的發(fā)生常伴隨大量告警產(chǎn)生,告警分析是故障預(yù)處理的重要手段。如何在復(fù)雜龐大的網(wǎng)絡(luò)中迅速對告警進(jìn)行分析,進(jìn)行故障定位,提高故障的處理效率與準(zhǔn)確率,是當(dāng)今傳輸網(wǎng)絡(luò)維護(hù)的一個日益迫切而重要的課題。
2.基本概念
故障是指系統(tǒng)由于其組成部件出現(xiàn)硬件或軟件上的紊亂,從而導(dǎo)致使系統(tǒng)不能正常工作并且提供服務(wù),故障可能會導(dǎo)致系統(tǒng)產(chǎn)生告警。傳輸網(wǎng)絡(luò)中故障主要分為硬件故障和軟件故障,硬件故障有單板故障、線路中斷、尾纖故障等,軟件故障一般是指主控板、業(yè)務(wù)版的軟件故障。
告警則是指在系統(tǒng)中發(fā)生某些特定的異常事件時,由系統(tǒng)發(fā)出的通報組成的事件報告,主要用來進(jìn)行告警信息的傳遞。告警表示有故障發(fā)生。告警信息分析是故障進(jìn)行分析和預(yù)處理的重要手段。
3.告警預(yù)處理
告警信息分為特征告警和非特征告警,非特征告警的分析價值低,且常常存在信息冗余、數(shù)據(jù)不完整、時間同步、告警中包含一些與關(guān)聯(lián)規(guī)則無關(guān)的噪聲,告警信息的屬性不同等等等問題,故需要根據(jù)告警進(jìn)行相關(guān)性分析。告警相關(guān)性分析是指對告警進(jìn)行合并和轉(zhuǎn)化,將多個告警合并成少數(shù)幾條或一條具有更準(zhǔn)確信息的告警,減少傳輸綜合網(wǎng)管上報告警數(shù)量,協(xié)助網(wǎng)絡(luò)運維人員及時發(fā)現(xiàn)故障,減少業(yè)務(wù)中斷時間,提高故障診斷和業(yè)務(wù)恢復(fù)的效率,最終提高運營商的效益。
目前,中國移動的傳輸網(wǎng)絡(luò)由多個廠家提供,各廠家自帶網(wǎng)管系統(tǒng),分散監(jiān)控、分散管理多廠家設(shè)備,操作復(fù)雜性高,缺乏統(tǒng)一、整體的全網(wǎng)網(wǎng)絡(luò)級管理系統(tǒng);缺乏對全網(wǎng)資源、網(wǎng)絡(luò)拓?fù)涞暮暧^把握和數(shù)據(jù)分析;為了解決這一問題,集團(tuán)組織開發(fā)了傳輸綜合網(wǎng)管系統(tǒng)來實現(xiàn)跨平臺跨廠商的傳輸網(wǎng)絡(luò)的維護(hù)和管理,其最重要的目標(biāo)在于對全網(wǎng)故障的宏觀把握,尤其在重大故障的處理上,第一時間呈現(xiàn)重大故障的告警信息,幫助網(wǎng)絡(luò)線維護(hù)人員通過監(jiān)控手段第一時間發(fā)現(xiàn)故障,并進(jìn)行預(yù)處理。因此,傳輸綜合網(wǎng)管系統(tǒng)是告警分析和故障預(yù)處理的重要工具。
在傳輸綜合網(wǎng)管中,為了幫助監(jiān)控人員盡快地發(fā)現(xiàn)故障,需要對告警進(jìn)行預(yù)處理,這些預(yù)處理的具體內(nèi)容包括:
(1)告警采集,從各廠家的子網(wǎng)網(wǎng)管服務(wù)器上盡可能采集更多的告警;
(2)告警壓縮:將多個同時發(fā)生的相同告警縮減成一個告警。
(3)告警過濾:根據(jù)告警過濾規(guī)則,刪減冗余告警,呈現(xiàn)本征告警。
(4)告警計數(shù):用一個新的告警替代特定數(shù)目的同時發(fā)生的相同告警。
(5)告警呈現(xiàn):通過滑動窗口將經(jīng)上述處理后的告警呈現(xiàn)出來。
3.1 告警采集
采集的主要任務(wù)是與所接系統(tǒng)進(jìn)行雙向交互,一方面將從通過設(shè)備廠家網(wǎng)管接口采集到的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)管理層和應(yīng)用管理層的所需數(shù)據(jù),另一方面將數(shù)據(jù)管理層和功能應(yīng)用層下發(fā)的命令轉(zhuǎn)換成廠商網(wǎng)管系統(tǒng)所能識別的命令,從而對廠商網(wǎng)管系統(tǒng)進(jìn)行管理操作。
3.2 告警過濾
批量采集上來的大量告警中,有些只持續(xù)短短幾秒鐘,有些關(guān)鍵字段缺失,有些重復(fù)出現(xiàn),有些屬性冗余,影響數(shù)據(jù)挖掘的準(zhǔn)確度和效率,為將原始數(shù)據(jù)轉(zhuǎn)換成便于挖掘的形式,需去除閃斷告警、處理缺值數(shù)據(jù)、合并重復(fù)告警、完成數(shù)據(jù)類型轉(zhuǎn)換。
從廣西移動區(qū)公司傳輸綜合網(wǎng)管系統(tǒng)隨機(jī)抽取2012年8.6-8.20共15天告警數(shù)據(jù),共1461822條告警,將這些告警作為原始告警數(shù)據(jù),處理結(jié)果下表所示。
表1 告警過濾效果統(tǒng)計表
3.3 告警呈現(xiàn)
在告警相關(guān)性分析系統(tǒng)開始運行之前,預(yù)先設(shè)定一個較大的初始時間窗口,盡可能多的采集告警序列,以確保采集的告警序列中包含完整的特征告警組。然后對采集到的特征告警組進(jìn)行分析,包括告警壓縮、告警過濾、告警計數(shù)等處理,確定特征告警組上報時間T(30分鐘)。在系統(tǒng)運行過程中,引入滑動窗口的概念,確保在盡可能短的時間窗口內(nèi),采集到完整的特征告警組。
3.4 故障診斷規(guī)則
告警進(jìn)行預(yù)處理后,需根據(jù)告警進(jìn)行故障診斷。故障診斷常見的方法是基于規(guī)則的故障診斷。建立基于規(guī)則的故障診斷有助于實現(xiàn)告警的自動派單,減輕監(jiān)控人員的工作,使得監(jiān)控人員能把主要精力集中在告警的及時發(fā)現(xiàn)、告警的預(yù)判斷和告警的跟進(jìn)處理上。基于規(guī)則的方法不需要深刻理解網(wǎng)絡(luò)結(jié)構(gòu)和運行原理,符合人的思維,便于理解,易于維護(hù)和開發(fā)實現(xiàn)和升級。
在告警相關(guān)性分析中,故障診斷規(guī)則的獲取方法大致分為兩種:人工方式和數(shù)據(jù)挖掘方式。人工方式建立故障診斷規(guī)則是指監(jiān)控人員和維護(hù)專家通過分析歷史故障和告警的典型案例,或者通過相關(guān)的通信文檔等多種途徑,確定產(chǎn)生故障的根本原因,從而手工建立故障診斷規(guī)則。
為了使故障診斷具備自學(xué)習(xí)能力,本文引入數(shù)據(jù)挖掘方式,結(jié)合人工方式提高診斷自學(xué)能力。數(shù)據(jù)挖掘方式是在海量數(shù)據(jù)中發(fā)現(xiàn)新模式的一種分析技術(shù),通過分析歷史故障所引起的典型告警的上報規(guī)律,建立故障診斷規(guī)則。當(dāng)網(wǎng)絡(luò)穩(wěn)定運行的一段時間以后,在數(shù)據(jù)庫中累積了大量的歷史告警和故障的信息,特別適合數(shù)據(jù)挖掘的應(yīng)用。
3.5 應(yīng)用舉例
本節(jié)將以二干三期柳州文惠至永福光纜中斷故障為例,說明本文的告警預(yù)處理方法及告警診斷規(guī)則在現(xiàn)網(wǎng)運維中的應(yīng)用。
柳州文惠往永福方向為OTM網(wǎng)元,華為1600G設(shè)備,在本地有業(yè)務(wù)上下;永福往柳州文惠方向為OLA網(wǎng)元,充當(dāng)中繼站的角色。從故障發(fā)生0:46至故障結(jié)束2:36,柳州文惠上報相關(guān)告警工共134條;中繼站永福上報告警12條。
經(jīng)告警預(yù)處理,及告警采集、告警壓縮、告警抑制、告警過濾、告警計數(shù)后,呈現(xiàn)在綜合網(wǎng)管的與本故障相關(guān)的告警為柳州文惠10條、永福3條,告警壓縮率為90%.
根據(jù)歷史故障案例規(guī)則庫中,典型的光纜中斷故障告警現(xiàn)象表現(xiàn)為主光路信號失效,OTM網(wǎng)元監(jiān)控信號板、光放板、D40單板及單波波長轉(zhuǎn)換板上報告警,OLA網(wǎng)元監(jiān)控信號板及光放板上報告警,經(jīng)故障診斷規(guī)則判斷,這是典型的主光路信號丟失,在OTDR系統(tǒng)上測試結(jié)果表明確實為光纜中斷引起,證明告警預(yù)判斷結(jié)果正確,監(jiān)控人員當(dāng)即通知線路維護(hù)人員處理。從故障發(fā)生至告警預(yù)處理、綜合網(wǎng)管系統(tǒng)上報告警、告警診斷預(yù)判斷、監(jiān)控人員發(fā)現(xiàn)告警及通知維護(hù)人員處理僅需要10分鐘不到的時間,大大縮短了告警的預(yù)處理時間,提高搶修維護(hù)工作效率。
4.結(jié)論
本文在日益擴(kuò)大復(fù)雜的傳輸網(wǎng)絡(luò)維護(hù)工作量日益加重的背景下,以現(xiàn)網(wǎng)維護(hù)中柳州文惠至永福光纜中斷故障為例,討論了如何分析網(wǎng)絡(luò)的故障外在形式——告警信息,結(jié)合傳輸綜合網(wǎng)管平臺,進(jìn)行告警信息、告警壓縮、告警過濾、告警計數(shù)、告警呈現(xiàn)等告警預(yù)處理措施,引入告警診斷規(guī)則進(jìn)行過故障的初步判斷,有效地提高故障的預(yù)判斷處理能力,提高網(wǎng)絡(luò)的維護(hù)效率,縮短故障處理時間,從而達(dá)到節(jié)約人力成本,提高運營效益的目的。
參考文獻(xiàn)
[1]鄧歆,孟洛明.告警相關(guān)性分析模型在通信網(wǎng)故障診斷中的應(yīng)用[J].北京郵電大學(xué)學(xué)報,2006,29(3):66-70.
[2]逞曉鵬.數(shù)據(jù)挖掘在綜合網(wǎng)管告警相關(guān)性分析中的研究和應(yīng)用[D].北京交通大學(xué),2009.
[3]王瑋.對通信綜合網(wǎng)管系統(tǒng)故障管理的設(shè)計[J].山東電力技術(shù),2003.06.
[4]鄭秋華.網(wǎng)絡(luò)故障智能診斷關(guān)鍵技術(shù)研究[J].光通信研究,2007,08.