摘要:文章提出了一種基于大數(shù)據(jù)技術(shù)的應(yīng)用方式,通過(guò)挖掘告警強(qiáng)關(guān)聯(lián)規(guī)則深入挖掘網(wǎng)絡(luò)故障隱患,提升故障及隱患處理效率;通過(guò)構(gòu)建季節(jié)性時(shí)間序列分析模型揭示歷史數(shù)據(jù)中故障隱患發(fā)生、發(fā)展的規(guī)律,對(duì)故障隱患進(jìn)行有效預(yù)警,將故障隱患從被動(dòng)處理的傳統(tǒng)模式革新到主動(dòng)處理的預(yù)控層面上。
關(guān)鍵詞:大數(shù)據(jù)分析;告警關(guān)聯(lián)規(guī)則;故障預(yù)測(cè)
Research and Application of Network Hazard Analysis System Based on Big Data
ZHANG Rui, HUANG Jianbo, WANG Ruyue, ZHU Kunyuan, ZHAN Pengfei
(China Mobile Communications Corporation, Guangzhou 510000, China)
Abstract: The article proposes an application method based on big data technology, which deeply mines network fault hidden dangers by mining strong alarm association rules, and improves the efficiency of fault and hidden danger processing; By constructing a seasonal time series analysis model to reveal the occurrence and development patterns of fault hazards in historical data, effective early warning of faults and hazards can be provided, and fault hazards can be innovated from the traditional passive processing mode to the proactive pre control level.
Key words: big data analysis; alarm association rules; fault prediction
現(xiàn)階段網(wǎng)絡(luò)隱患主要通過(guò)人為方式對(duì)網(wǎng)絡(luò)告警及性能進(jìn)行定性分析,無(wú)法有效挖掘出海量告警中的隱藏價(jià)值,不能實(shí)現(xiàn)多業(yè)務(wù)復(fù)雜網(wǎng)絡(luò)中的故障及隱患的快速處理[1]。大數(shù)據(jù)技術(shù)可以有效推動(dòng)網(wǎng)絡(luò)分析工作的開(kāi)展,但在當(dāng)前5G背景下,在移動(dòng)網(wǎng)絡(luò)中應(yīng)用大數(shù)據(jù)分析技術(shù)仍舊存在一些問(wèn)題,導(dǎo)致無(wú)法有效地開(kāi)展故障隱患處理及預(yù)測(cè)工作[2]?;诖?,本文提出了一種基于大數(shù)據(jù)平臺(tái)技術(shù)的應(yīng)用方案,通過(guò)挖掘告警強(qiáng)關(guān)聯(lián)規(guī)則深入排查網(wǎng)絡(luò)故障隱患。
1" "大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)及功能實(shí)現(xiàn)
1.1 大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)
大數(shù)據(jù)平臺(tái)基于Hadoop HDFS組件實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ),通過(guò)Hive+Spark SQL模塊實(shí)現(xiàn)數(shù)據(jù)的分布式運(yùn)算,通過(guò)Apache Kylin模塊實(shí)現(xiàn)數(shù)據(jù)多維分析。最后通過(guò)關(guān)聯(lián)規(guī)則(Apriori)深入挖掘告警性能與隱患的強(qiáng)關(guān)聯(lián)規(guī)則,開(kāi)展隱患挖掘;通過(guò)構(gòu)建季節(jié)性差分整合移動(dòng)平均自回歸模型(SARIMA)對(duì)歷史數(shù)據(jù)進(jìn)行故障預(yù)測(cè),開(kāi)展故障預(yù)防性維護(hù)。大數(shù)據(jù)平臺(tái)技術(shù)整體架構(gòu)體系如圖1所示。
1.2 大數(shù)據(jù)平臺(tái)功能實(shí)現(xiàn)
(1)數(shù)據(jù)采集及存儲(chǔ)模塊:系統(tǒng)數(shù)據(jù)通過(guò)各廠家網(wǎng)管及故障管理系統(tǒng)實(shí)時(shí)采集和離線采集,共采集性能、告警、故障、割接、投訴5大類不同來(lái)源的178列屬性字段的數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在HDFS中。
(2)數(shù)據(jù)處理模塊:通過(guò)SQL語(yǔ)句盡可能賦予屬性名和屬性值明確的含義,統(tǒng)一多數(shù)據(jù)源的屬性值編碼,統(tǒng)一多數(shù)據(jù)源的時(shí)間計(jì)算方法,去除重復(fù)性、去除空白字段、去除干擾字段等。通過(guò)數(shù)據(jù)預(yù)處理、清洗操作,最終獲得包含性能名稱、告警名稱、故障類型、網(wǎng)元名稱、網(wǎng)元經(jīng)緯度、發(fā)生時(shí)間、持續(xù)時(shí)間、設(shè)備信息、專線路由、復(fù)用段信息等關(guān)鍵特征的數(shù)據(jù)。
(3)數(shù)據(jù)分析及應(yīng)用模塊:數(shù)據(jù)清洗完成后通過(guò)Python使用Apache Kylin、Spark SQL提供數(shù)據(jù)查詢與多維分析,同時(shí)通過(guò)Matplotlib和Seaborn庫(kù)提供豐富靈活的可視化圖表統(tǒng)計(jì)分析服務(wù)。通過(guò)表間關(guān)聯(lián),利用關(guān)聯(lián)規(guī)則(Apriori)挖掘關(guān)鍵告警性能數(shù)據(jù)與故障、隱患、業(yè)務(wù)投訴之間的強(qiáng)關(guān)聯(lián)規(guī)則,有效攔截處理故障及隱患事件。通過(guò)構(gòu)建季節(jié)性差分整合移動(dòng)平均自回歸模型(SARIMA)對(duì)歷史故障及隱患數(shù)據(jù)進(jìn)行預(yù)測(cè),實(shí)現(xiàn)故障隱患的預(yù)防性維護(hù)。
2" "隱患分析模型研究
2.1 關(guān)聯(lián)規(guī)則分析
通信網(wǎng)絡(luò)設(shè)備多、規(guī)模大且組網(wǎng)結(jié)構(gòu)復(fù)雜,當(dāng)一個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),產(chǎn)生的告警、性能信息都有千絲萬(wàn)縷的關(guān)聯(lián)[3]。挖掘出根源告警、根源性能事件與故障之間的強(qiáng)關(guān)聯(lián)規(guī)則,可以極大地提高故障定位及處理效率[3,4]。在隱患挖掘關(guān)聯(lián)規(guī)則(Apriori)實(shí)施前,首先對(duì)長(zhǎng)期存在或特別指定的工程網(wǎng)元及監(jiān)控規(guī)則界定的閃報(bào)類告警進(jìn)行過(guò)濾,僅對(duì)有效告警進(jìn)行關(guān)聯(lián)規(guī)則挖掘;其次將全量告警區(qū)分為設(shè)備類、通信類、環(huán)境類、時(shí)鐘類、網(wǎng)管類、光層類、電層類、指示類8大類,最后由于告警、故障、性能的上報(bào)時(shí)間并不同步,存在一定的延遲現(xiàn)象,因此設(shè)置滑動(dòng)的時(shí)間窗口按類、逐層迭代,對(duì)告警進(jìn)行關(guān)聯(lián)規(guī)則分析。關(guān)聯(lián)規(guī)則實(shí)施步驟圖2所示。將每一類告警對(duì)應(yīng)的數(shù)據(jù)定義為數(shù)據(jù)集D,掃描其所有的事務(wù),計(jì)算每一個(gè)項(xiàng)的支持度,生成候選項(xiàng)集C1,然后通過(guò)比較最小支持度生成頻繁項(xiàng)集L1,通過(guò)頻繁項(xiàng)集L1組合生成候選項(xiàng)集C2,然后逐層搜索迭代掃描數(shù)據(jù)庫(kù),使用頻繁k-項(xiàng)集,對(duì)比篩選出頻繁k+1-項(xiàng)集。例如,將線路類告警對(duì)應(yīng)的數(shù)據(jù)定義為數(shù)據(jù)集D1,掃描其所有的事務(wù),計(jì)算每一項(xiàng)支持度后,將與線路無(wú)關(guān)的告警剔除,繼續(xù)生成候選項(xiàng)集,計(jì)算支持度,生成頻繁項(xiàng)集,最終得到與線路類故障及隱患相關(guān)的根源告警及性能事件。
實(shí)施通過(guò)關(guān)聯(lián)規(guī)則(Apriori),獲取告警與故障及隱患之間的強(qiáng)關(guān)聯(lián)規(guī)則,可以在告警或性能上報(bào)時(shí)及時(shí)觸發(fā)強(qiáng)關(guān)聯(lián)規(guī)則,有效提升網(wǎng)絡(luò)監(jiān)控人員故障定位的效率。表1列舉了國(guó)際專網(wǎng)2023年1~4月的告警關(guān)聯(lián)率,介于83%~88%之間,這意味著實(shí)施告警強(qiáng)關(guān)聯(lián)規(guī)則將有效攔截或處理83%以上的故障及隱患,這對(duì)于改善網(wǎng)絡(luò)質(zhì)量有重要的意義。通過(guò)實(shí)施關(guān)聯(lián)規(guī)則,挖掘告警與專線投訴中斷或閃斷之間的強(qiáng)關(guān)聯(lián)規(guī)則,這對(duì)于攔截批量投訴具有一定的意義。
2.2 時(shí)間序列預(yù)測(cè)模型
通過(guò)對(duì)5大類(性能、告警、故障、割接、投訴)歷史數(shù)據(jù)的分析發(fā)現(xiàn)數(shù)據(jù)具有較明顯的季節(jié)特征,地理氣候、節(jié)假日等因素對(duì)某些省份、某些復(fù)用段故障隱患的發(fā)生有顯著影響。經(jīng)數(shù)據(jù)平穩(wěn)性檢驗(yàn)發(fā)現(xiàn)該時(shí)間序列數(shù)據(jù)為非平穩(wěn)數(shù)據(jù),因此可采取季節(jié)性差分整合移動(dòng)平均自回歸模型(SARIMA)開(kāi)展預(yù)測(cè)分析[5,6]。SARIMA也叫做季節(jié)性ARIMA,是ARIMA的擴(kuò)展,明確支持具有季節(jié)性成分的單變量時(shí)間序列數(shù)據(jù)。該模型表示為SARIMA(p,d,q)(P,D,Q)m,其中(p,d,q)是模型中的非季節(jié)部分,(P,D,Q)模型中的季節(jié)部分,m表示時(shí)序的周期性,這里我們選擇以月為周期m=1。通過(guò)對(duì)時(shí)間序列進(jìn)行了1階差分運(yùn)算,得到平穩(wěn)的時(shí)間序列,因此d=1。接下來(lái)通過(guò)網(wǎng)格搜索(Grid Search)法確定SARIMA模型參數(shù),用Python itertools函數(shù)生成不同的參數(shù)組合,通過(guò)AIC(Akaike InformationCruterion)準(zhǔn)則確定最優(yōu)模型參數(shù),選取AIC最小值147.14293對(duì)應(yīng)的參數(shù)組合SARIMA(0,1,1)x(0,1,1,1)。通過(guò)plot_diagnostics方法開(kāi)展殘差序列隨機(jī)性檢驗(yàn),殘差互相獨(dú)立,模型通過(guò)檢驗(yàn)殘差成立。流程如圖3所示。
接下來(lái)選取2017年—2021年的國(guó)際專網(wǎng)的歷史數(shù)據(jù)對(duì)2022年5月以來(lái)數(shù)據(jù)進(jìn)行SARIMA(0,1,1)(0,1,1,)1模型擬合,將預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)對(duì)比發(fā)現(xiàn)(圖4),模型預(yù)測(cè)值與真實(shí)值差異不大,計(jì)算均方誤差(Mean Squared Error,MSE)為1.415386,均方根誤差(Root Mean Squared Error,RMSE)為1.208941,說(shuō)明模型能較好地預(yù)測(cè)故障的發(fā)生。同時(shí)也對(duì)某復(fù)用段進(jìn)行了數(shù)據(jù)擬合,擬合后MSE=1.4,RMSE=1.183215,這說(shuō)明模型對(duì)數(shù)據(jù)具有良好的適應(yīng)性,可以較好地預(yù)測(cè)故障或隱患的發(fā)生。
基于SARIMA的時(shí)間序列模型的故障及隱患預(yù)測(cè)可以有效建立健全預(yù)警機(jī)制,提升處理故障效率。對(duì)于預(yù)測(cè)到即將發(fā)生較多故障及隱患的段落加強(qiáng)巡查,這對(duì)于優(yōu)化人員調(diào)度、提升故障處理效率,具有重大的意義[7]。
3" "系統(tǒng)使用效果及應(yīng)用場(chǎng)景
基于大數(shù)據(jù)技術(shù)的隱患智能分析系統(tǒng)自在現(xiàn)網(wǎng)應(yīng)用以來(lái),有效支撐了日常生產(chǎn)工作。以周為粒度開(kāi)展全網(wǎng)基礎(chǔ)數(shù)據(jù)與指標(biāo)管理,及時(shí)分析數(shù)據(jù)波動(dòng)情況,消除網(wǎng)絡(luò)隱患。2022年有效挖掘告警隱患220起,網(wǎng)絡(luò)質(zhì)量得到極大改善;工程告警占比從34.4%下降至1.3%,監(jiān)控效率進(jìn)一步提升;有效預(yù)測(cè)設(shè)備類(單板、連接單元等)隱患45起,性能劣化故障19起,預(yù)防性維護(hù)效果初現(xiàn)。
4" "結(jié)束語(yǔ)
基于大數(shù)據(jù)技術(shù)的隱患分析挖掘系統(tǒng)通過(guò)采用Hadoop HDFS組件的大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)了海量數(shù)據(jù)的分布式運(yùn)算及數(shù)據(jù)多維分析,提供靈活可視化報(bào)表服務(wù);通過(guò)關(guān)聯(lián)規(guī)則(Apriori)深入挖掘告警性能與隱患的強(qiáng)關(guān)聯(lián)規(guī)則,開(kāi)展隱患挖掘;通過(guò)構(gòu)建季節(jié)性差分整合移動(dòng)平均自回歸模型(SARIMA)對(duì)歷史數(shù)據(jù)進(jìn)行故障排查,開(kāi)展故障預(yù)防性維護(hù)。通過(guò)全面管控、有效預(yù)警、合理分析、信息互聯(lián),使網(wǎng)絡(luò)分析及隱患治理工作進(jìn)一步走向科學(xué)化、規(guī)范化與信息化,顯著提高了網(wǎng)絡(luò)質(zhì)量和管理水平。
參考文獻(xiàn)
[1] 李棟.大數(shù)據(jù)分析在網(wǎng)絡(luò)監(jiān)控中的實(shí)現(xiàn)與應(yīng)用[J].通信管理與技術(shù),2020(4):44-46.
[2] 齊小剛,胡秋秋,姚旭清,等.一種有效的通信網(wǎng)絡(luò)告警分析方法[J].西安電子科技大學(xué)學(xué)報(bào),2019,46(4):1-8,158.
[3] 李彤巖.基于數(shù)據(jù)挖掘的通信網(wǎng)告警相關(guān)性分析研究[D].成都:電子科技大學(xué),2010.
[4] 丁宏,周宏林.基于機(jī)器學(xué)習(xí)的通信網(wǎng)告警關(guān)聯(lián)分析綜述[J].東方電氣評(píng)論,2021,35(1):77-88.
[5] MAKRIDAKIS S. A survey of time series[J].International Statistical Review, 1976, 44(1): 29-70.
[6] 李明敏,裘煒毅,蔣舜等.一種基于修正ARIMA模型的軌道交通站點(diǎn)出站客流預(yù)測(cè)方法[J].交通與港航,2017,4(2):45-49.
[7] 陳穎.基于電信網(wǎng)管告警數(shù)據(jù)分析的網(wǎng)絡(luò)故障預(yù)測(cè)研究[D].北京:北京郵電大學(xué),2020.
作者簡(jiǎn)介:張" 蕊(1988-),女,漢族,河南新鄉(xiāng)人,工程師,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)告警、數(shù)據(jù)分析。