李景田,霍永華,韓衛(wèi)占
(中國電子科技集團公司第五十四研究所,河北石家莊050081)
網絡實體的分布性和異構性以及被管設備的多樣性和復雜性,使得網絡管理變得越來越重要,故障管理是最重要的網絡管理。在現今的網絡環(huán)境中,管理系統必須及時發(fā)現網絡運行時所出現的故障,并要有較強的智能性;能夠報告故障事件,自主地進行事件關聯性分析、故障診斷、故障定位、故障報告和故障修復等一系列操作。所有這些問題的解決都必須依靠一套有效的網絡故障管理系統。
面對日益復雜的異構分布網絡,傳統的集中式SNMP故障管理越來越無能為力,暴露出許多缺點:由于設備類型多樣,沒有統一的技術標準,管理難度大,管理工作復雜;管理系統的可擴展性差,網絡管理工作都是通過管理端進行的,當網絡規(guī)模擴大時,收集的告警信息量過大,有可能成為系統的“瓶頸”;SNMP自身的缺陷:采用輪詢機制,管理端和客戶端之間大量的信息交換造成了網絡帶寬的極大浪費;安全性較差。
網絡管理功能的日益復雜與傳統網管之間的矛盾迫切要求采用一種靈活高效的管理方法。
基于策略的網絡故障管理是指網絡管理是基于策略的實施來實現的,滿足策略中的條件時執(zhí)行策略中定義的行為。首先,基于策略的網絡管理基于規(guī)則,因此對于策略的建立,修改和刪除十分簡單;其次,由于一條策略可以運用于一類相同類型的執(zhí)行對象,所以大量的網絡配置任務可以得到縮減;最后,許多異類網絡可以通過統一的策略集進行管理。
基于策略網絡管理由策略管理工具、策略數據庫、策略服務器(PDP)和策略客戶端(PEP)構成,如圖1所示。
圖1 基于策略的網管系統
策略管理工具為網絡管理人員提供了對策略進行制定、編輯、存貯、刪除和編輯的易于使用的圖形用戶界面主要有如下功能:通過與策略數據庫的交互,完成策略規(guī)則的存儲、刪除和修改功能;完成策略規(guī)則的語法和語義檢查功能,進行策略沖突檢測;為管理員提供一個易于使用的策略編輯和修改圖形用戶界面。
策略數據庫用來存儲故障管理策略:用于故障管理,包括故障檢測、故障診斷、故障修復和故障日志記錄信息的規(guī)則。
由于網絡的異構分布特點,采用面向對象的方式構造策略規(guī)則庫,利用類的封閉性和繼承性,提高策略的可重用性和策略數據庫的可維護性。
策略決策點也稱為策略服務器,是整個故障管理系統的決策中心,負責接受策略執(zhí)行點的策略服務請求,并決定網絡中所執(zhí)行的策略。策略決策點根據來自PEP的策略請求,從策略數據庫中取出策略并解析策略,經過推理和一致性驗證后決定對策略請求的處理,同時將決策結果通知PEP;根據需要與其他管理域的PDP進行策略協商;根據需要主動進行策略決策,如向PEP發(fā)出配置信息或通知刪除失效信息;將決策結果進行封裝,交給MA管理和控制模塊處理。
PEP也叫策略客戶端,可以簡單理解為網絡中具體執(zhí)行管理策略的網元,如網絡中的路由器和交換機等,負責執(zhí)行由策略決策點分配的策略??梢愿鶕枰獢y帶策略請求的MA,將策略服務請求發(fā)送給PDP,同時還向策略決策點發(fā)送信息,向策略決策點匯報策略執(zhí)行情況和當前網絡情況。
基于被管理網絡的分布性特點,各個管理域之間應該是能互相通信、相互合作,而MA能滿足該要求。MA提供了一種新的方法來實現大規(guī)模、分布式、自適應和復雜的軟件系統的管理。
將MA應用于策略網管中,MA是一種移動代理,具有一定的策略決策能力,并攜帶著策略信息在網絡節(jié)點間移動,將MA和基于策略的網絡管理相結合,具有以下優(yōu)勢:減少傳輸流量,節(jié)約網絡帶寬;能夠管理異構網絡,并可以方便的在多個管理域之間進行策略的協商;使用MA攜帶一定的策略決策智能到達PEP,減輕了網絡中的通信量,增強了管理的分布性。
基于策略和移動代理的網絡故障管理軟件主要由策略庫、PEP、PDP、PMT、故障監(jiān)視 、故障定位和故障修復模塊組成,其中PEP和PDP內置了移動代理MA。故障監(jiān)視模塊檢測到門限越閥值或收到Trap信息時,立即通知策略執(zhí)行點PEP,策略執(zhí)行點向策略決策點PDP請求策略決策,策略決策點收到策略請求后,進行故障過濾和相關性分析以便進行故障定位,若是本管理域內的故障,則從策略庫選取合適的策略,通知PEP進行故障修復和清除;若無法在本管理域內定位,則相相鄰管理域的PDP發(fā)送攜帶策略的MA進行策略協商,做出策略決策,通知PEP執(zhí)行策略決策,組成如圖2所示。
圖2 網絡故障管理系統組成
設置合適的故障監(jiān)視策略,在不同的情況下可能采用不同的時間輪詢策略或者不同的trap信息采集策略。
管理信息庫MIBⅡ定義了很多與故障管理有關的變量,為網絡故障管理提供了豐富的網絡狀態(tài)信息,包括:
若對系統進行2次查詢,即x時刻和y時刻,則IP包傳送速率為:
IP包接收速率為:
根據不同的策略可以支持按照告警起止時間、告警類型、告警級別和告警源進行分類查詢。
設定策略規(guī)則,對當前操作員關心的重要被管設備的告警進行接收處理,對其他設備的告警拒絕接收;或者對設備的重要告警接收處理,對次要告警予以屏蔽;或者只顯示設備的最高優(yōu)先級告警。對告警進行合并和轉化,將多個告警合并成具有更多信息的告警。
對告警相關性的定義:告警事件A與告警事件集合相關,表示為:
告警相關性可以用于網絡故障定位和告警過濾。告警相關性類型如下:
告警壓縮:將發(fā)生的多個告警壓縮到一個告警中。{A1,A2,A3,A4,…An}=>A。
告警過濾:為了避免冗余告警信息的上報,減少不必要的通信開銷,提高處理能力,必須進行故障過濾,設置過濾策略。
如果告警A的P(A)值不屬于合法值集合H,則過濾告警A。{A,P(A)?H}=>Φ。
告警抑制:在高優(yōu)先級告警C發(fā)生的前提下,抑制告警A。{A,C}=>Φ。
告警計數:對重復到達同樣的告警進行統計和設定門限值。例如用一個告警B代替n次出現告警A。{n*A}=>B。
告警泛化:用告警的超類代替該告警。
{A,A?B}=>B。
告警特化:用告警的特定子集告警代替該告警。{A,A?B}=>B。
告警時序關系:相關的告警依賴于告警發(fā)生時間順序,告警A,告警B順序發(fā)生時,就會發(fā)生告警C。{AΣB}=>C。
告警相關性規(guī)則發(fā)現如圖3所示。
圖3 告警相關規(guī)則發(fā)現
如果故障集合用F表示,則故障定位就是要找到一個這樣的集合FC,FC?F,根據證據集合E計算BN(S0),得到對S0的最優(yōu)解。以貝葉斯置信網絡中節(jié)點xi與其所依賴的父節(jié)點Vj的故障定位過程如下:
Bel中即為節(jié)點x的故障定位信息。
策略決策點完成故障定位后,做出策略決策,若是本管理域內能解決的故障,則下發(fā)策略決策給策略執(zhí)行點進行故障修復;若故障在本管理域內無法解決,則通過與其他管理域的移動代理進行協商。
基于策略和移動代理的分布式網絡故障管理具有以下優(yōu)點:
①動態(tài)性:由于故障監(jiān)視的數據都是動態(tài)變化的,網絡拓撲也是動態(tài)變化的。所以要求相應的監(jiān)控系統也應該有動態(tài)適應性,基于策略和MA的故障管理能根據網絡情況采取不同的監(jiān)視策略具有動態(tài)適應性;
②分布式:MA可以攜帶策略信息在分布式節(jié)點間移動,并且具有策略決策能力,能夠更好地適應網絡的動態(tài)變化;
③可擴展性:基于策略的網絡故障管理中網絡管理是基于策略的實施來實現的,一條策略可以運用于一類相同類型的執(zhí)行對象,許多異類網絡可以通過統一的策略集進行管理,可擴展性好。
基于策略和移動代理的網絡故障管理軟件系統在某項目中進行了應用,取得了預期的效果?,F以一個分布式網絡中不同管理域間鏈路誤碼率增大時故障事件的處理流程為例說明基于策略和移動代理的故障管理的工作過程,步驟如圖4所示。
圖4 管理域間誤碼率增大動態(tài)調整流程
現以域A為例,對圖4中的數字符號解釋如下:
①域A的故障監(jiān)視模塊檢測到誤碼率超越閥值即xi≥THA,向PEPA發(fā)出告警;
②PEPA向域A管理站的PDPA發(fā)出告警a={alarmid,alarmtime,alarmlevel,alarmtype,alarmname,alarmstate,alarmwhy},并請求策略決策;
③PDPA接收到PEPA發(fā)送來的攜帶策略的MA請求策略后,訪問目錄服務器并根據表1進行策略決策,同時將決策結果封裝到攜帶策略的MA中發(fā)送給PEPA;
④PEPA收到PDPA的決策結果后經過策略解析和映射,向域A發(fā)出調整誤碼率指令;
⑤PDPA向PDPB發(fā)送一個攜帶策略的MA進行策略協商;
⑥PDPB收到PDPA發(fā)來的攜帶策略的MA經過策略協商,決定不做更改;
⑦PDPA的攜帶策略的MA和PDPB的攜帶策略的MA進行策略協商,決定縮小節(jié)點間距離以減低誤碼率。
表1 鏈路誤碼率BER增大處理策略
管理域的劃分使得大規(guī)模分布式網絡的管理復雜度大大簡化。MA的使用使得網絡管理系統更加智能?;诓呗缘木W管和移動代理技術的融合將大大提高網絡管理的智能化和靈活性。
[1]曾曠怡,楊家海.一種基于策略的網絡管理系統研究與實現[J].小型微型計算機系統,2007,15(4):123-126.
[2]沈 俊,羅軍周.基于策略和域的網絡管理[J].計算機工程與應用,2001,23(5):100-104.
[3]劉曉明,黃傳河.一種基于移動AGENT技術的網絡管理[J].計算機應用研究,2004,12(1):65-69.