曹 旭,曹瑞彤
(中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 北京100033)
隨著通信技術(shù)的飛速發(fā)展,電信網(wǎng)絡(luò)在人們工作和生活中的作用越來越大,并從根本上改變了人們工作和生活的方式;同時,隨著電信業(yè)務(wù)的不斷深入發(fā)展,人們對網(wǎng)絡(luò)的依賴性也不斷增大。然而,日益增長的網(wǎng)絡(luò)規(guī)模、不斷更新的網(wǎng)絡(luò)設(shè)備以及不斷出現(xiàn)的新業(yè)務(wù),使得網(wǎng)絡(luò)出現(xiàn)故障的可能性大大增加,這給網(wǎng)絡(luò)管理工作帶來了全新的挑戰(zhàn)。
網(wǎng)絡(luò)管理的目的是通過對網(wǎng)絡(luò)設(shè)備運行狀況的連續(xù)監(jiān)測,及時發(fā)現(xiàn)網(wǎng)絡(luò)中的異常情況,并對異常情況及時報警,提醒網(wǎng)管人員采取措施保證網(wǎng)絡(luò)正常運行。然而,在實際網(wǎng)絡(luò)中,憑借網(wǎng)絡(luò)管理人員的經(jīng)驗來分析網(wǎng)絡(luò)運行狀況的方式已經(jīng)越來越難以滿足運營商的需求。隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,網(wǎng)管人員常常需要面對大量告警而無法確定網(wǎng)絡(luò)的真實故障。因此,迫切需要一種能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行智能處理的技術(shù),即網(wǎng)絡(luò)數(shù)據(jù)剛出現(xiàn)異常時,便能夠自動檢測出來,使故障在真正發(fā)生之前被發(fā)現(xiàn),從而可以大大提升網(wǎng)絡(luò)管理人員的效率和網(wǎng)絡(luò)的總體性能。
在傳統(tǒng)的網(wǎng)絡(luò)管理過程中,只有當(dāng)網(wǎng)絡(luò)設(shè)備出現(xiàn)異常并上報告警后,才會由網(wǎng)絡(luò)管理人員解決問題,這顯然是一種“響應(yīng)式”的處理過程,即“先出現(xiàn)問題,再進(jìn)行處理”的網(wǎng)絡(luò)管理方式。然而,由于網(wǎng)絡(luò)管理人員看到告警后,需要一段時間來分析確定問題才能采取措施,這種長時間的故障處理過程可能給用戶和企業(yè)造成巨大的損失。
在網(wǎng)絡(luò)運營的實踐中,一些網(wǎng)絡(luò)設(shè)備的故障和網(wǎng)絡(luò)性能問題在發(fā)生之前就會在網(wǎng)絡(luò)流量或性能參數(shù)中有所表現(xiàn),但由于這些信息淹沒在大量的數(shù)據(jù)中而沒有引起網(wǎng)絡(luò)管理者的重視。因此,通過大數(shù)據(jù)的方式挖掘和分析網(wǎng)絡(luò)故障先兆,將使得網(wǎng)管人員有更多的時間分析問題、采取措施,避免出現(xiàn)更嚴(yán)重的故障,降低運營商和用戶的損失。以此為出發(fā)點,提出了一種基于大數(shù)據(jù)思想發(fā)掘網(wǎng)絡(luò)數(shù)據(jù)內(nèi)部細(xì)節(jié)信息的方案,可實現(xiàn)對網(wǎng)絡(luò)異常的及時發(fā)現(xiàn),從而更大程度地提升網(wǎng)絡(luò)可靠性。
網(wǎng)絡(luò)故障監(jiān)測是網(wǎng)絡(luò)管理的一項基本任務(wù),也是網(wǎng)絡(luò)管理人員的重要職責(zé)。網(wǎng)絡(luò)故障監(jiān)測的目的是提高網(wǎng)絡(luò)的可靠性,在用戶報告問題之前診斷或解決網(wǎng)絡(luò)中的問題并提供網(wǎng)絡(luò)規(guī)劃和網(wǎng)絡(luò)改造建議等。網(wǎng)絡(luò)故障監(jiān)測一般通過對網(wǎng)絡(luò)流量、設(shè)備性能等網(wǎng)絡(luò)參數(shù)的監(jiān)測來判斷網(wǎng)絡(luò)狀態(tài)和網(wǎng)絡(luò)的運行情況。由于網(wǎng)絡(luò)故障或網(wǎng)絡(luò)性能問題通常會造成巨大的損失,基于網(wǎng)絡(luò)參數(shù)實現(xiàn)準(zhǔn)確、可靠的網(wǎng)絡(luò)故障預(yù)測已經(jīng)成為運營商迫切希望解決的問題。
基于網(wǎng)絡(luò)故障的因果關(guān)系進(jìn)行故障發(fā)現(xiàn)是一種直觀的分析方法,包括IBM公司在內(nèi)的大量企業(yè)和研究機構(gòu)都提出了基于這一思路的網(wǎng)絡(luò)故障發(fā)現(xiàn)方案[1,2],但這種方案需要對網(wǎng)絡(luò)故障成因和傳播模式進(jìn)行深入了解并建立模型。對于當(dāng)前日益復(fù)雜的網(wǎng)絡(luò),采用這種方案所需的資金和時間成本都很難讓運營商接受。
近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展,大量基于觀測數(shù)據(jù)的故障預(yù)測和分析方法已經(jīng)被廣泛運用到產(chǎn)品檢測、生產(chǎn)過程控制、質(zhì)量控制等領(lǐng)域,這類分析方法無需事先對故障的產(chǎn)生和傳播建立復(fù)雜的模型,而只要通過基于統(tǒng)計學(xué)的分析就可以比較準(zhǔn)確地發(fā)現(xiàn)故障,本文將這些領(lǐng)域的研究成果引入網(wǎng)絡(luò)管理領(lǐng)域,以更好地提升網(wǎng)絡(luò)故障監(jiān)測的性能表現(xiàn)。
在基于觀測數(shù)據(jù)的網(wǎng)絡(luò)故障方案中,最簡單和普遍使用的是基于閾值的監(jiān)測方法,即針對某個網(wǎng)絡(luò)參數(shù)預(yù)先設(shè)定一個閾值,故障監(jiān)測的任務(wù)就是監(jiān)測該參數(shù)是否超過了這一閾值。這種方法簡單易行,是實際網(wǎng)絡(luò)管理中應(yīng)用最廣泛的方法,然而這種方法也存在兩個明顯的問題:一方面,閾值的選取是憑借網(wǎng)絡(luò)管理人員的經(jīng)驗確定的,其取值缺乏可靠的依據(jù),存在著較大的不確定性;另一方面,由于缺乏對閾值以下數(shù)據(jù)的處理,忽略了大量和網(wǎng)絡(luò)狀態(tài)有關(guān)的細(xì)節(jié)信息,如圖1所示。
圖1(a)顯示了一種網(wǎng)絡(luò)指標(biāo)平均值上移的異常,這類情況的出現(xiàn)表明網(wǎng)絡(luò)中出現(xiàn)了某類配置或業(yè)務(wù)異常,此時雖然網(wǎng)絡(luò)指標(biāo)沒有超過閾值,但隨著這一趨勢的不斷持續(xù),有極大可能引發(fā)網(wǎng)絡(luò)故障,因此應(yīng)該提前進(jìn)行處置。圖1(b)則顯示了一種突發(fā)異常,網(wǎng)絡(luò)參數(shù)突然的大幅度變化預(yù)示了網(wǎng)絡(luò)中的某種異常,如設(shè)備和網(wǎng)絡(luò)過載、線路異常等情況,這種情況的發(fā)生也需要引起網(wǎng)絡(luò)管理人員的注意。
為了彌補閾值方法的不足,盡可能地利用監(jiān)測到的網(wǎng)絡(luò)性能數(shù)據(jù)中的重要信息,需要加深對于網(wǎng)絡(luò)“異?!钡难芯?。在這方面,卡耐基梅隆大學(xué)的Maxion R A給出了網(wǎng)絡(luò)狀態(tài)“正?!焙汀爱惓!钡亩x。“正?!币馕吨铣R?guī)或典型的模式,而“異?!眲t意味著違反了這種規(guī)律,與期望的情形有一定的偏差。
為了對網(wǎng)絡(luò)狀態(tài)進(jìn)行定量分析,引入統(tǒng)計學(xué)理論,通過網(wǎng)絡(luò)參數(shù)的變化對網(wǎng)絡(luò)狀態(tài)進(jìn)行分析。與此同時,對網(wǎng)絡(luò)參數(shù)的變化進(jìn)行如下假設(shè)。
·在一定的時間范圍內(nèi),所監(jiān)測到的網(wǎng)絡(luò)參數(shù)是平穩(wěn)的,即時刻t監(jiān)測到的網(wǎng)絡(luò)參數(shù)集Xt和時刻t+1監(jiān)測到的網(wǎng)絡(luò)參數(shù)集Xt+1有相同的分布。
·網(wǎng)絡(luò)參數(shù)滿足大數(shù)定律,即網(wǎng)絡(luò)參數(shù)每天的監(jiān)測值收斂于期望值,
基于上述假設(shè),給出網(wǎng)絡(luò)異常的統(tǒng)計學(xué)描述:網(wǎng)絡(luò)參數(shù)的統(tǒng)計量出現(xiàn)了“明顯”的偏差,也就是說,網(wǎng)絡(luò)異常必然會引起網(wǎng)絡(luò)參數(shù)在統(tǒng)計量上與正常情況的偏差。因此,發(fā)現(xiàn)異常的關(guān)鍵就是定量地對網(wǎng)絡(luò)參數(shù)偏差的“顯著性”進(jìn)行分析。在第3節(jié),本文將針對上述問題進(jìn)行更加深入的討論和分析。
如前文所述,當(dāng)前的網(wǎng)絡(luò)管理系統(tǒng)普遍可以收集大量的網(wǎng)絡(luò)信息,而如何從大量的信息中自動獲取維護(hù)網(wǎng)絡(luò)正常運行的關(guān)鍵信息至關(guān)重要。網(wǎng)絡(luò)參數(shù)異常意味著即將或已經(jīng)發(fā)生某種網(wǎng)絡(luò)或設(shè)備故障。在網(wǎng)絡(luò)管理系統(tǒng)中,網(wǎng)絡(luò)參數(shù)會根據(jù)時間的先后順序進(jìn)行存儲,形成網(wǎng)絡(luò)參數(shù)的時間序列,本文基于網(wǎng)絡(luò)管理系統(tǒng)的這一特點,通過引入時間序列分析的方法展開網(wǎng)絡(luò)故障預(yù)測的研究。
時間序列分析是一種基于動態(tài)數(shù)據(jù)發(fā)掘內(nèi)在規(guī)律的統(tǒng)計分析方法,屬于統(tǒng)計學(xué)科的一個分支。其思想是根據(jù)有限長度的歷史記錄建立精確反映系統(tǒng)內(nèi)在運行規(guī)律的數(shù)學(xué)模型。在監(jiān)測獲得的網(wǎng)絡(luò)參數(shù)的時間序列中,可以認(rèn)為某一時刻t的網(wǎng)絡(luò)參數(shù)集Xt由其之前若干時刻的數(shù)據(jù)以及隨機干擾項所確定,即網(wǎng)絡(luò)參數(shù)表現(xiàn)出一定的記憶特性。因此,可以建立p階自回歸AR(p)模型:
其中,et是白噪聲,ω1,ω2,…,ωp表示此前各對應(yīng)時刻對當(dāng)前時刻的影響強度。式(1)表示的網(wǎng)絡(luò)參數(shù)集帶有p階的記憶性,當(dāng)網(wǎng)絡(luò)狀態(tài)發(fā)生變化或者產(chǎn)生“異常”時,上述關(guān)系會出現(xiàn)較大的偏差,具體體現(xiàn)為et的變化。因此,對于et的跟蹤和分析是判斷網(wǎng)絡(luò)狀態(tài)、預(yù)測網(wǎng)絡(luò)異常的關(guān)鍵所在。
上述任務(wù)采用統(tǒng)計學(xué)方式描述:可以視為一個假設(shè)檢驗的問題,即設(shè)e1,e2,…,et服從正態(tài)分布H,其均值和方差為μ、σ2,設(shè)E(et+n)=μ+w,則網(wǎng)絡(luò)異常需要判斷et+n是否與分布H無差,即w是否為0。e1,e2,…,et的概率密度函數(shù)(PDF)可以寫作:
因此,μ、σ2的最大似然估計是:
若網(wǎng)絡(luò)可能存在異常,則對于et+n,其μ、σ2應(yīng)該寫為:
于是,采用似然比檢驗的假設(shè)檢驗方式可以計算網(wǎng)絡(luò)存在異常的似然比,似然比為:
因此,可以通過不斷對似然比 進(jìn)行監(jiān)測獲得對網(wǎng)絡(luò)狀態(tài)的判斷。該方法的優(yōu)點是所需數(shù)據(jù)量較少,計算復(fù)雜度較低,可以在保障一定可靠性的情況下快速對網(wǎng)絡(luò)當(dāng)前的狀況進(jìn)行分析判斷,并對于網(wǎng)絡(luò)可能出現(xiàn)的故障進(jìn)行預(yù)先判斷?;谠摲椒▽W(wǎng)絡(luò)管理系統(tǒng)進(jìn)行升級,可以在充分利用運營商現(xiàn)有系統(tǒng)的前提下大大提升網(wǎng)絡(luò)故障處理的效率。
如前所述,利用對網(wǎng)絡(luò)參數(shù)進(jìn)行時間序列分析可以更好地提升網(wǎng)絡(luò)管理人員對于網(wǎng)絡(luò)異常的發(fā)現(xiàn)效率。網(wǎng)絡(luò)異常預(yù)警系統(tǒng)從對網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)采集開始,通過不斷對采集到的數(shù)據(jù)進(jìn)行時間序列分析,就可能在故障發(fā)生前實現(xiàn)對故障的提前預(yù)測,網(wǎng)絡(luò)異常預(yù)警系統(tǒng)的系統(tǒng)架構(gòu)如圖2所示。
在對網(wǎng)絡(luò)進(jìn)行異常預(yù)警時,一個關(guān)鍵的步驟是確定模型的參數(shù)。以某骨干網(wǎng)絡(luò)節(jié)點的網(wǎng)絡(luò)流量數(shù)據(jù)為例,說明系統(tǒng)的實現(xiàn)原理。網(wǎng)絡(luò)正常情況下在某個網(wǎng)絡(luò)節(jié)點監(jiān)測到的網(wǎng)絡(luò)流量數(shù)據(jù)變化情況如圖3所示。網(wǎng)絡(luò)異常預(yù)警系統(tǒng)的任務(wù)就是首先建立網(wǎng)絡(luò)正常情況的模型,發(fā)現(xiàn)網(wǎng)絡(luò)參數(shù)偏離這一模型后,則產(chǎn)生異常報警。
采用AR模型對網(wǎng)絡(luò)數(shù)據(jù)流量進(jìn)行建模,本例中擬采用AR(2)模型對數(shù)據(jù)流量進(jìn)行建模。根據(jù)統(tǒng)計學(xué)相關(guān)理論,AR(2)模型滿足平穩(wěn)性的要求是:
經(jīng)過AR(2)模型擬合,對于上述觀測數(shù)據(jù)的AR(2)模擬結(jié)果可以滿足平穩(wěn)性要求。如上文所述,對觀測數(shù)據(jù)采用AR(2)模型擬合后的殘差et是網(wǎng)絡(luò)故障分析的關(guān)鍵,觀測數(shù)據(jù)經(jīng)過處理后的殘差結(jié)果如圖4所示。
為了更進(jìn)一步驗證模型的準(zhǔn)確性,采用統(tǒng)計學(xué)中的Q-Q圖(quintile-quintile plot)對殘差進(jìn)行分析。若網(wǎng)絡(luò)不存在異常,則采集到的數(shù)據(jù)與模型相符合,計算出來的殘差符合正態(tài)分布,此時殘差結(jié)果在Q-Q圖上呈線性;反之,則不成立。將圖4的結(jié)果用Q-Q圖進(jìn)行呈現(xiàn),如圖5所示。
從圖5中可以看到,樣本經(jīng)過處理后的殘差呈現(xiàn)出較強的線性特點,基本服從正態(tài)分布,因此采樣數(shù)據(jù)不含網(wǎng)絡(luò)異常數(shù)據(jù)。這一結(jié)果也從一個方面證明了本文所提方法的有效性。與此類似,網(wǎng)絡(luò)的異常檢測則是基于對采樣數(shù)據(jù)殘差偏離正態(tài)分布的情況實現(xiàn)的,由于其判別過程與上述流程類似,且異常產(chǎn)生的表現(xiàn)多種多樣,本文不再累述。
實際上,運營商對網(wǎng)絡(luò)異常預(yù)警的需求不僅是盡可能準(zhǔn)確地檢查出網(wǎng)絡(luò)中可能的故障,同時還要求對于非故障錯誤判斷的虛警率盡可能小。對于網(wǎng)絡(luò)故障預(yù)警系統(tǒng)的性能判斷也應(yīng)該全面考慮上述兩點需求。本文以某骨干網(wǎng)一周的監(jiān)測和報警的歷史數(shù)據(jù)為基礎(chǔ),將歷史數(shù)據(jù)輸入本文所提出的系統(tǒng)來驗證該方案的可行性,其結(jié)果判斷通過對比告警處理的工單來確定。對結(jié)果進(jìn)行統(tǒng)計分析,并通過ROC曲線(receiver operating characteristic curve)進(jìn)行呈現(xiàn),結(jié)果如圖6所示。
從圖6可以看到,本文所提出的故障預(yù)警方案不僅故障判斷總體正確率明顯高于傳統(tǒng)的閾值方案,同時虛警率的表現(xiàn)也好于傳統(tǒng)的閾值方案。雖然,采用本文所提算法在一定程度上提升了系統(tǒng)的計算復(fù)雜度,然而試驗表明,采用本文所提方案可以將故障檢測準(zhǔn)確率提升到90%以上。這種性能提升顯示了本文所提方案具有一定的使用價值,對該算法進(jìn)行進(jìn)一步改進(jìn)和驗證將是筆者未來工作的重要方向。
隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和通信技術(shù)的發(fā)展,網(wǎng)絡(luò)管理工作也面臨著越來越多的挑戰(zhàn)。本文就網(wǎng)絡(luò)故障的預(yù)測和監(jiān)測方法進(jìn)行了研究,希望基于大數(shù)據(jù)的思想,充分挖掘蘊含在大量網(wǎng)絡(luò)數(shù)據(jù)中的有用信息,并將之用于網(wǎng)絡(luò)故障發(fā)現(xiàn)和預(yù)測。從本文的結(jié)論可以看到,大數(shù)據(jù)和網(wǎng)絡(luò)管理方法的結(jié)合已經(jīng)顯現(xiàn)出越來越大的潛力,隨著兩者結(jié)合的不斷深入,必將為未來網(wǎng)絡(luò)管理的發(fā)展帶來更多的突破。
1 Hanemann A,Sailer M,Sehmitz D.Towards a framework for it service fault management.Proceedings of the European University Information Systems Conference(EUNIS2005),Manehester,England,2010
2 Steindler M,Sethi A S.Probabilities fault diagnosis in communication systems through incremental hypothesis updating.Computer Networks,2011,45(4):537~562
3 Box E P,Jenkins G M,Reinsel G C.時間序列分析—預(yù)測與控制.顧嵐,范金減譯.北京:中國統(tǒng)計出版社,2011
4 Basu S,Mukherjee A,Klivansky S.Time series models for internet traffic.http://hdl.handle.net/1853/6696,1996
5 Frost V,Melamed B.Traffic modeling for telecommunications networks.IEEE Communication Magazine,2004,32(3):70~81