薛 銳 中國移動通信集團黑龍江有限公司運維管理部主任
劉春華 中國移動通信集團黑龍江有限公司綜合室分析員
王景堯 中國信息通信研究院技術與標準研究所高級工程師
一種新型網絡告警管理系統(tǒng)設計
薛銳中國移動通信集團黑龍江有限公司運維管理部主任
劉春華中國移動通信集團黑龍江有限公司綜合室分析員
王景堯中國信息通信研究院技術與標準研究所高級工程師
網絡故障的解決很大程度上依賴網絡告警管理和快速診斷,高效的網絡故障管理對保障網絡正常運行、提高網絡穩(wěn)定性具有重要作用。本文基于模擬退火的人工神經網絡技術對網絡告警信息進行管理,通過聯(lián)想記憶的方式發(fā)掘出告警信息背后的真實原因。本文所提出的算法已經在電信運營商的實際網絡中得到了應用,并取得了較好的效果。
電信網絡管理 告警分析 模擬退火
隨著我國信息服務的不斷發(fā)展,電信網絡的穩(wěn)定運行已經成為保障民生的重要任務。因此,當網絡發(fā)生故障時,運營商必須準確地檢測到故障,在最短時間內找到網絡故障的原因,以最快的速度解決網絡故障,修復網絡故障,確保通信網絡正常穩(wěn)定的運行。
網絡故障的解決很大程度上依賴網絡告警管理和快速診斷,高效的網絡故障管理對保障網絡正常運行、提高網絡穩(wěn)定性具有重要作用。然而,由于電信網絡規(guī)模越來越大,一旦通信網絡出現(xiàn)的故障,往往會引發(fā)海量告警事件,形成“告警風暴”,使故障被淹沒在大量的告警信息中而難以及時發(fā)現(xiàn)。與此同時,告警信息本身不確定又加大了故障診斷的難度。
網絡故障管理的關鍵就是對告警信息進行相關性分析。迄今為止,告警的相關性的研究主要基于專家系統(tǒng),通過預先設定的規(guī)則是進行分析最常用的方法之一。但是,規(guī)則庫的建立過分依賴于專家的實踐經驗,具有極大的主觀色彩且無法隨著網絡的改變而實時更新。因此,隨著網絡日益復雜,這種方法已經很難滿足當前電信網絡的需要。
針對以上問題,本文基于模擬退火的人工神經網絡技術對網絡告警信息進行管理,通過聯(lián)想記憶的方式發(fā)掘出告警信息背后的真實原因。本文所提出的算法已經在電信運營商的實際網絡中得到了應用,并取得了較好的效果,本文成果對于相關研究的開展有著很好的借鑒意義。
在通信網絡中,所有網絡故障都可以視為一些最基本的“原子”網絡故障單獨或疊加產生的。因此,網絡故障可以看作是通過網絡所表現(xiàn)出來的“行為”來判斷其背后的故障組成。這可以看作是類似的旅行商問題(TSP)、最短路徑問題這樣的一類最優(yōu)化問題,即通過優(yōu)化得到網絡故障原因的“最優(yōu)”組成,其具體的作用機制可以由圖1所示模式描述。
圖1 網絡告警與網絡故障的關聯(lián)關系網絡
上述問題是運籌學和組合優(yōu)化領域中的NP問題,相關領域已經積累了大量的理論研究,但是其在相關行業(yè)上的應用依然是一個巨大的難題。近年來,人們提出了一些不依賴于具體問題的直接搜索方法。例如,模擬退火算法(SimulatedAnnealing,SA)就是近年來備受重視的一類軟計算方法。
模擬退火算法是1983年5.KirkPatrick首次提出的,其可以求解各類非線性問題,且常常以較大概率求得近似解,具有很強的工程應用意義。同時,這種方法對目標函數(shù)和約束函數(shù)要求較少,因此其在結構優(yōu)化中顯得尤為重要。
模擬退火算法在搜索策略上與傳統(tǒng)的梯度搜索方法不同,該方法通過引入適當?shù)碾S機因素,來模擬物理系統(tǒng)退火過程的自然機理?!巴嘶稹钡倪^程就是不僅接收使目標函數(shù)變“好”的步驟,同時也以一定的概率接受使目標函數(shù)值變“差”。模擬退火算法通過對物理過程的模擬提高了算法的可行性,對于工程實踐有著巨大的指導意義。
(1)網絡告警的預處理
在真實網絡中,網絡告警是多種信息的組合。根據ITU-TX.733標準,告警一般含有以下方面的屬性信息:設備名稱、設備類型、告警級別、告警類型、告警狀態(tài)、告警時間等。如何選擇告警屬性來分析通信網絡中的故障信息,是告警管理的一項重要任務。
在通信網絡中,告警與故障之間的關系錯綜復雜,并非一一對應的關系,即在一個復雜的通信網絡中,僅僅通過告警信息無法直接確定出現(xiàn)的故障。因此,需要對不同告警之間的關聯(lián)性進行挖掘,依據告警的特征定義來確定網絡故障的根源。
然而,僅僅原始告警信息挖掘網絡故障的準確率依然較差。因此,除了對告警屬性的提取,還需要對告警信息進行預處理,使之轉化成為適合網絡告警合并的“告警事務”。
所謂“告警事務”是指對原始告警信息進行的時間同步化處理后,得到的告警項集合。例如,對于觀察時段,用滑動步長Δs在時間軸上進行推移,開始下一個時間窗口進行告警事務的提取。如圖2所示,其中,W1,W2,…,W5告警事件包括A、B、C、D共4種,隨著時間窗口的滑動,可以得到不同的告警事務。
其中,W1,W2,…,W5為取的告警事務,通過將同一時間窗口內的告警合并。形成含有一定歷史記錄的“事務”信息。從而將原本離散、孤立的告警變換成為定量、可處理的事件單元,并為后期的告警管理提供可靠的前提。
(2)模擬退火在告警關聯(lián)中的應用
構造起告警事務后,需要對告警與故障之間的關聯(lián)進行標注,來描述告警與故障之間的相對重要性。告警與故障之間的關系可以通過前文所述的網絡結果進行表征。通過對網絡結構的定量化構建,就可以得到網絡故障與告警事務之間的相關度和影響性,使之更接近于真實網絡中告警產生的原因,挖掘出頻繁度偏低而興趣度偏高的關聯(lián)信息,同時也解決了告警信息不確定、不完整等問題。
圖2 網絡告警事務的生成方式
為了解決上述問題,本文采用模擬退火的方法對故障與告警之間的關聯(lián)進行分析。在物理中,讓多粒子系統(tǒng)達到最低能量的方法稱之為“退火”。具體過程為:更新系統(tǒng)的狀態(tài)序列:設系統(tǒng)中某粒子相初始狀態(tài)i,其對應能量為Ei;選取其中某個粒子產生微小變化,得到一個新狀態(tài)j,對應能量Ej;如果,則更新狀態(tài)。最終系統(tǒng)處于狀態(tài)i和狀態(tài)j幾率比值等于的玻爾茲曼因子,即:
其中,P(t)在溫度t時的粒子能量為Ei的概率分布函數(shù),KB為玻爾茲曼常數(shù)為分配函數(shù)。
設L(S,f)為優(yōu)化問題中的一個實例,S表示解空間,f:S→R表示解空間到實數(shù)域的映射,t為模擬退火過程中溫度的控制參數(shù)。設L(S,f)中存在最優(yōu)解,f(i)、f(j)分別是某對應于i、j目標函數(shù)值,則備選解由i過渡到j的概率為:
對于本文所述的告警合并這一“最優(yōu)化”問題,其本質是一種學習問題,即通過訓練數(shù)據對故障和告警的相互影響關系進行分析。具體而言,假設故障與告警之間相關的實際概率分布為Q(α),模擬退火的任務就是通過隨機仿真獲得給定樣本的概率分布P(α)用來對分布Q(α)進行學習,其學習的精度可由Kullback-Leibler距離來衡量:
告警合并的學習的過程是基于相對熵的梯度下降算法,即對于初始網絡,按照下式更新結構中的每一個邊的權重(概率):
其中,η是學習的步長,注意到在前文構建的連接告警和故障的網絡結構中,P(α)具有固有明確的權值構成,而Q(α)則不然。因此,對于相鄰的節(jié)點集合(α,β)有:
其中,Si(α,β)表示系統(tǒng)處于狀態(tài)i時的網絡連接結構。在學習過程中,通過不斷減低溫度使系統(tǒng)“活躍”程度逐步降低,最終使得系統(tǒng)趨于收斂。因此,通過對給定樣本的學習,就可以定量地給出網絡故障導致告警的概率。
通過訓練好的網絡可以對告警背后的網絡故障進行判斷,不僅可以容易地實現(xiàn)對網絡告警的合并,同時可以直接向網絡管理人員發(fā)送更容易理解的網絡故障判斷,從而提升網絡管理的效率,并極大降低網絡管理的開銷。
(3)算法驗證
為了驗證本文所提出算法的有效性,采用天津移動的現(xiàn)網數(shù)據對告警進行分析。通過對10萬條告警數(shù)據的分析,通過模擬退火算法構建告警—故障的對應網絡結構,并基于此結構對告警樣本進行分析。
在訓練中,對于某一個告警事務的故障判斷學習過程如圖3所示,其中橫縱兩軸代表了該告警事務為故障1和故障2的概率??梢钥吹剑S著訓練次數(shù)的不斷增長,對于該告警事務的判斷不斷發(fā)生變化,并最終落入結束點中,即將該告警事務作為故障1的大概率原因。
同時,本文對訓練樣本和分類準確地影響進行了模擬,結果如圖4所示??梢钥吹?,隨著訓練樣本數(shù)量以指數(shù)提升,本文所提出的算法正確率首先出現(xiàn)了快速提升,繼而保持在70%左右的水平??梢?,通過增加訓練樣本數(shù)量可以大大提升原有網絡管理系統(tǒng)的性能。目前,該算法目前已經在運營商實際的網絡中得到了初步的推廣和應用,并取得了較好的成果。
網絡故障診斷是網絡管理功能中的重要組成部分,它負責檢測、收集、處理、分析以及預測網絡中的故障信息。有效的網絡故障診斷需要對網絡告警進行有效的處理,并及時找出網絡中最關鍵的故障。本文基于模擬退火的思想提出了一種網絡告警合并的方法,該方法可以通過對告警的分析找到引起告警最大概率的網絡故障,從而幫助網絡管理人員更加準確的對網絡進行管理和維護。本文所提出的算法目前已經在運營商的實際網絡中進行了小規(guī)模驗證,并取得了顯著成效。未來隨著相關領域的研究和工程化的不斷深入,相關工作將產生巨大的科研和經濟效益。
圖3 基于模擬退火的網絡故障判斷訓練結果
圖4 算法準確率隨樣本數(shù)量變化
2015-10-20)