徐雪源
摘 要:傳統(tǒng)的網(wǎng)絡運維管理系統(tǒng)更關注網(wǎng)絡中各網(wǎng)元的當前運行狀態(tài),網(wǎng)元狀態(tài)評價主要依據(jù)是否已發(fā)生故障等信息,系統(tǒng)缺乏進行故障預測和健康管理(PHM)的能力。PHM技術可使傳統(tǒng)的“事后維修”和“計劃維修”轉變?yōu)椤耙暻榫S修”。最后,基于健康管理的故障檢測技術應用,文章分析了其對網(wǎng)絡管理系統(tǒng)運維效能的影響。
關鍵詞:網(wǎng)絡管理;故障預測;健康管理
1? ? 短波通信應用背景
短波通信以其通信距離遠、難以徹底摧毀等特點,在世界各國軍事通信領域得到了廣泛應用。以短波通信為主的通信網(wǎng)絡是為提升通信保障能力而建的通信網(wǎng)絡,為保障通信效果,其系統(tǒng)的穩(wěn)定性和可靠性要求較高。同時,位于中央處理中心的中心管理和各節(jié)點處理中心的節(jié)點管理之間,地域分布較廣 ,管理的網(wǎng)元設備和服務種類雜數(shù)量多,給系統(tǒng)的運維帶來很大的工作量。此外,短波通信技術的迭代發(fā)展及新通信技術的推廣應用,使得以短波通信為主的通信網(wǎng)絡規(guī)模增大,系統(tǒng)的復雜性和不確定性更加突出,因此,系統(tǒng)的故障事件處理和系統(tǒng)巡檢、巡修等方面面臨更多的問題和挑戰(zhàn)。
以短波通信為主的通信網(wǎng)絡作為傳統(tǒng)管理網(wǎng)絡的一種,更關注的是網(wǎng)絡中各網(wǎng)元的當前運行狀態(tài),網(wǎng)元狀態(tài)評價主要依據(jù)是否已發(fā)生故障等信息,缺乏對網(wǎng)元的故障預測和健康管理的能力。在管理和維護方面,主要采取的是“事后維修”和“計劃維修”策略。“事后維修”即系統(tǒng)出現(xiàn)故障后才進行維修,此時問題往往已暴露,系統(tǒng)的服務能力已受到影響;“計劃維修”即按計劃執(zhí)行維護,直接受計劃影響,計劃過密容易維護過剩造成維修成本浪費,而計劃過梳極易產(chǎn)生維護不及時,影響到系統(tǒng)服務能力。因此,就如何“事先”“恰當”“合理”“準確”地維護,將“事后維修”和“計劃維修”演變成為“保障和維護性維護”,產(chǎn)生了故障預測和健康管理(Prognostic and Health Management,PHM)的概念。
2? ? PHM技術
PHM包含故障預測(Prognostics)和健康管理(Health Management)兩層含義,“故障預測”是預測未來一段時間內當前系統(tǒng)的運行狀況,即預測未來一段時間內當前系統(tǒng)的運行狀況;“健康管理”是基于故障預測對系統(tǒng)準備開展的維修活動做出適當決策的能力。此外,PHM是通信網(wǎng)絡故障的一種檢測預測方法和維修維護策略,同時,也能帶動傳統(tǒng)網(wǎng)絡運維管理思路的變化,能夠將傳統(tǒng)的故障管理向基于智能分析的故障預測管理轉變,從而使得“事后維修”或“定期維修”的方式被“視情維修”取代。
PHM系統(tǒng)主要包括故障的檢測、隔離、診斷、預測、健康管理和壽命追蹤等功能,對復雜系統(tǒng)能夠實現(xiàn)不同級別、不同層次、不同區(qū)域、綜合的預測和健康管理,能夠預測和管理通信系統(tǒng)運行狀態(tài),實時對通信系統(tǒng)的健康狀況進行預測評估,能夠盡早、有效地預測系統(tǒng)可能發(fā)生的故障,同時為系統(tǒng)的視情維修提供決策。
3? ? 故障預測方法
PHM技術實施的核心是故障的預測評估。目前,業(yè)界主流的故障預測方法主要包括基于模型、基于數(shù)據(jù)驅動和基于統(tǒng)計可靠性的故障預測技術3種。
3.1? 基于模型的故障預測技術
一種采用動態(tài)模型進行預測的方法,主要包括物理模型方法、卡爾曼/擴展卡爾曼濾波/粒子濾波以及基于專家經(jīng)驗的方法等,前提是要求通信系統(tǒng)的數(shù)學模型清晰且已知。通過建模方式,對通信系統(tǒng)的運行狀況進行評估,以此預測系統(tǒng)的未來故障。其優(yōu)點是能夠深入通信系統(tǒng)本質,實現(xiàn)實時故障預測;缺點是對于故障模式和失效機理相對復雜的系統(tǒng),構建相應的具備失效機理能力的數(shù)學模型較為困難。因此,其在實際應用中受到了很大制約,不適用于復雜系統(tǒng)或大型通信網(wǎng)絡。
3.2? 基于數(shù)據(jù)驅動的故障預測技術
一種基于狀態(tài)檢測數(shù)據(jù)進行故障預測的方法,能夠通過狀態(tài)檢測數(shù)據(jù)對通信系統(tǒng)進行認識和學習,在無精準系統(tǒng)數(shù)學模型情況下,對通信系統(tǒng)進行預測評估,典型的預測評估方法包括人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)、模糊系統(tǒng)(Fuzzy Systems,F(xiàn)Z)等。其中,神經(jīng)網(wǎng)絡是目前業(yè)界在故障預測方法和應用研究中最多、最熱門的一種,有大量機器學習算法應用實施,常用的包括支持向量機(Support Vector Machines,SVM)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、決策樹(Decision Tree,DT)和隱馬爾可夫模型(Hidden Markov Model,HMM)等。該技術的特點是不需要具備通信系統(tǒng)數(shù)據(jù)模型,通過對采集數(shù)據(jù)的分析處理,挖掘其中的隱含信息,進行預測評估,從而避免了基于模型的故障預測技術的缺點,目前,已成為業(yè)界一種較為實用的故障預測方法。
3.3? 基于統(tǒng)計可靠性的故障預測技術
一種基于故障歷史數(shù)據(jù)進行故障預測的方法,從故障歷史數(shù)據(jù)統(tǒng)計特性角度進行故障預測,預測所需要的信息均包含在故障歷史數(shù)據(jù)所蘊含的一系列概率密度函數(shù)中。常用的方法包括貝葉斯方法(Bayesian Analysis,BA)、D-S證據(jù)理論(Dempster-Shafer Evidence Theory,DSET)、模糊邏輯(Fuzzy Logic,F(xiàn)L)等。最典型的應用分析便是著名的“浴盆曲線”,即通信系統(tǒng)在運行之初的故障率較高,運行一段時間后故障率可以保持在相對比較低的水準,再運行一段時間后故障率又開始上升,最后直到通信系統(tǒng)發(fā)生故障或失效。
4? ? 典型案例應用
以中央處理中心(中心管理)和節(jié)點處理中心(節(jié)點管理)兩級架構組成的典型大型通信網(wǎng)絡管理系統(tǒng)為例,系統(tǒng)管理的網(wǎng)元設備分布地域廣、類型復雜、數(shù)量眾多,系統(tǒng)的穩(wěn)定性和可靠性要求較高,給網(wǎng)絡運維帶來較大工作量和成本,同時,通信網(wǎng)絡本身是以通信保障為主的新建通信網(wǎng)絡,在實際網(wǎng)絡運行環(huán)境下,其系統(tǒng)(含網(wǎng)元設備或服務)的故障模式、故障的解除方式、系統(tǒng)的可靠性等方面都面臨無歷史經(jīng)驗可借鑒、無歷史數(shù)據(jù)可共享的局面?;谝陨暇C合因素,結合通信網(wǎng)絡本身的應用特點,系統(tǒng)可采用基于數(shù)據(jù)驅動和基于統(tǒng)計可靠性兩種故障預測相結合的方式綜合實現(xiàn)系統(tǒng)的故障預測和健康管理??筛鶕?jù)系統(tǒng)的應用層級適當選用不同的預測方法,同時,不同層級上可采用不同的預測方法等方式進行,其優(yōu)勢是可提高通信系統(tǒng)故障預測準確度的同時,實現(xiàn)健康管理,精減網(wǎng)絡運維工作量。PHM技術實現(xiàn)框架可分為7個層次,如圖1所示。
4.1? 數(shù)據(jù)采集層
通信網(wǎng)絡中各節(jié)點處理中心的被管網(wǎng)元設備或服務對其自身運行狀態(tài)進行數(shù)據(jù)采集(包括設備自檢數(shù)據(jù)、運行過程中的狀態(tài)變更數(shù)據(jù)、人工輸入的故障數(shù)據(jù)等),并依次上報本地節(jié)點處理中心的節(jié)點管理和中央處理中心的中心管理。
4.2? 數(shù)據(jù)處理層
中心管理匯集全網(wǎng)各節(jié)點處理中心采集的數(shù)據(jù),按照預設的數(shù)據(jù)處理規(guī)則進行數(shù)據(jù)預處理,并參照專家知識庫的信息進行數(shù)據(jù)融合,對其進行特征提取和記錄。節(jié)點管理要接收中心管理處理完畢的數(shù)據(jù),作為本地的資源數(shù)據(jù)進行管理。
4.3? 狀態(tài)監(jiān)測層
節(jié)點管理對網(wǎng)元采集的數(shù)據(jù)指標進行實時監(jiān)測,并將其與預設的閾值進行比對,判別各網(wǎng)元的工作狀態(tài)。
4.4? 故障診斷層
節(jié)點管理對網(wǎng)元進行故障診斷,若發(fā)現(xiàn)網(wǎng)元故障,則觸發(fā)故障管理功能,記錄故障發(fā)生的網(wǎng)元、時間、故障位置、故障類型;若未發(fā)現(xiàn)網(wǎng)元故障,則繼續(xù)進行實時故障監(jiān)測,同時,節(jié)點管理將生成的當前故障及故障歷史信息等上報中心管理。
4.5? 故障預測層
中心管理對網(wǎng)元采集的數(shù)據(jù)以及故障歷史記錄進行綜合分析,采用人工神經(jīng)網(wǎng)絡、支持向量機以及決策樹等機器學習算法進行數(shù)據(jù)挖掘,預測未來有可能發(fā)生的故障。
4.6? 健康決策層
中心管理從故障預測層接收到信息后,根據(jù)當前網(wǎng)元的運行環(huán)境和健康管理策略,在專家知識庫中搜索與之匹配的解決建議,并給出運維計劃建議,如開展預防性維護、技術狀態(tài)檢驗等。中心管理將健康決策的數(shù)據(jù)發(fā)送給節(jié)點管理,由節(jié)點管理根據(jù)實情進行系統(tǒng)的健康維護。
4.7? 人機交互層
中心管理和節(jié)點管理的人機交互層的主要功能是實現(xiàn)交互頁面的可視化設計,向網(wǎng)管人員提供直觀、簡潔、美觀的數(shù)據(jù)呈現(xiàn)視圖,包括數(shù)據(jù)表、分析圖、運維建議說明等。
5? ? 結語
PHM技術可使傳統(tǒng)的“事后維修”和“計劃維修”轉變?yōu)椤耙暻榫S修”,能有效縮短維修周期、減少維修成本并提升系統(tǒng)可用性,該技術已成為以美軍為代表的外軍系統(tǒng)裝備高效系統(tǒng)級維護、降低生命周期成本的關鍵推動因素之一。
采用基于PHM的網(wǎng)絡運維管理技術后,網(wǎng)絡管理系統(tǒng)能增加對系統(tǒng)和網(wǎng)元未來可靠性的預測能力,使網(wǎng)絡管理能力由狀態(tài)監(jiān)控向健康管理轉變。故障預測與健康管理能力的引入能有效提升系統(tǒng)完好性與可用性、提升維護保障效率并降低使用與保障費用。