戴筠迪 周瑩 楊淋翔
【摘要】? ? 使用箱線算法、OCSVM算法和三次指數(shù)平滑算法,構(gòu)建出一套能準(zhǔn)確反映網(wǎng)絡(luò)運(yùn)行特點(diǎn)的風(fēng)險(xiǎn)預(yù)測(cè)算法模型,深挖網(wǎng)絡(luò)運(yùn)行過(guò)程中的海量數(shù)據(jù)并結(jié)合數(shù)字化專(zhuān)家經(jīng)驗(yàn),探索“事前預(yù)測(cè)”及“事后快速定界”的維護(hù)能力構(gòu)建,構(gòu)建VoLTE業(yè)務(wù)網(wǎng)絡(luò)風(fēng)險(xiǎn)的預(yù)測(cè)及防范能力,降低故障發(fā)生頻率,提升用戶網(wǎng)絡(luò)使用感知。
【關(guān)鍵詞】? ? 風(fēng)險(xiǎn)預(yù)測(cè)算法模型? ? VoLTE? ? 感知
一、業(yè)務(wù)背景介紹
VoLTE作為4G和未來(lái)5G演進(jìn)的主流語(yǔ)音解決方案,越來(lái)越多的運(yùn)營(yíng)商選擇了部署VoLTE技術(shù)。但是由于組網(wǎng)復(fù)雜等原因,工程師在日常維護(hù)過(guò)程中也面臨著前所未有的挑戰(zhàn),一方面用戶對(duì)網(wǎng)絡(luò)的依賴(lài)性越來(lái)越強(qiáng),對(duì)網(wǎng)絡(luò)的要求也越來(lái)越高;另一方面,VoLTE業(yè)務(wù)涉及到的網(wǎng)元類(lèi)型多(30+)、接口多(50+)、組網(wǎng)復(fù)雜(CS、IMS和PS多域疊加),這對(duì)維護(hù)人員的各專(zhuān)業(yè)技能也有較高的要求,造成了VoLTE的問(wèn)題定界定位耗時(shí)長(zhǎng)。另外VoLTE的總體指標(biāo)多,傳統(tǒng)基于單指標(biāo)固定閾值的指標(biāo)監(jiān)控不全面,采用固定閾值監(jiān)控網(wǎng)絡(luò)感知度差,導(dǎo)致了現(xiàn)網(wǎng)的風(fēng)險(xiǎn)隱患發(fā)現(xiàn)不及時(shí)。
所以我們需要通過(guò)大數(shù)據(jù)和AI算法,構(gòu)建“事前預(yù)測(cè)”及“事后快速定界”的維護(hù)能力,及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn)隱患,縮短處理時(shí)間,從而降低業(yè)務(wù)損失。
二、算法基本特征及其對(duì)應(yīng)的應(yīng)用
1.箱線算法(Boxplot):利用中位數(shù)、25%分位數(shù)、75%分位數(shù)、上邊界和下邊界等統(tǒng)計(jì)量來(lái)描述數(shù)據(jù)的整體分布情況。箱體包含了大部分的正常數(shù)據(jù),而在箱體上邊界和下邊界之外的就是異常數(shù)據(jù)。我們可以利用該算法處理具有波動(dòng)性的單指標(biāo)話統(tǒng)數(shù)據(jù),利用箱線圖可以避免提取數(shù)據(jù)中少量異常值的影響,能夠準(zhǔn)確穩(wěn)定地描述出數(shù)據(jù)離散的分布情況,得到合理的閾值。再根據(jù)周期性的判斷,得到不同的數(shù)據(jù)范圍。
2. OSCVM(One-class SV):?jiǎn)晤?lèi)支持向量機(jī)用來(lái)進(jìn)行無(wú)監(jiān)督異常數(shù)據(jù)檢測(cè),通過(guò)歷史數(shù)據(jù)學(xué)習(xí)出合理的邊界范圍,作為正常數(shù)據(jù)閾值。而那些超出閾值范圍的數(shù)據(jù)則視為異常數(shù)據(jù)。我們可以利用該算法處理具有波動(dòng)性的多指標(biāo)話統(tǒng)數(shù)據(jù),通過(guò)OSCVM算法,在多指標(biāo)結(jié)合計(jì)算時(shí),降低復(fù)雜度,提升運(yùn)算效率;自適應(yīng)性調(diào)整算法參數(shù)學(xué)習(xí)合理閾值邊界,提高檢測(cè)的準(zhǔn)確性。
3.三次指數(shù)平滑算法(Holt-winters):時(shí)間序列一般具有趨勢(shì)和季節(jié)性,趨勢(shì)描述的是時(shí)間序列的整體走勢(shì),季節(jié)性描述的是數(shù)據(jù)周期性的波動(dòng),可以基于已有的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的走勢(shì)。我們可以利用該算法處理具有周期性波動(dòng)性的單指標(biāo)話統(tǒng)數(shù)據(jù),三次指數(shù)平滑算法具有自適應(yīng)性,預(yù)測(cè)模型能夠自動(dòng)識(shí)別數(shù)據(jù)模式的變化而加以調(diào)整;基于時(shí)間序列的預(yù)測(cè),對(duì)不同時(shí)間的非等權(quán)處理更符合實(shí)際情況。
三、算法的實(shí)際運(yùn)用方案—VoLTE語(yǔ)音呼叫失敗預(yù)測(cè)預(yù)防
當(dāng)前VoLTE業(yè)務(wù)在業(yè)務(wù)維護(hù)上主要存在四大痛點(diǎn):
1. VoLTE業(yè)務(wù)組網(wǎng)復(fù)雜:VoLTE業(yè)務(wù)涉及業(yè)務(wù)涉及網(wǎng)元類(lèi)型多(30+)、接口多(50+),傳統(tǒng)設(shè)備和NFV設(shè)備混合組網(wǎng)。
2.故障范圍影響較大:核心網(wǎng)單網(wǎng)元容量大,覆蓋區(qū)域廣,如果現(xiàn)網(wǎng)出現(xiàn)故障,影響用戶一般會(huì)超過(guò)20萬(wàn)用戶。
3.故障處理時(shí)間長(zhǎng):70%的問(wèn)題為跨域故障,定界定位耗時(shí)長(zhǎng)(處理時(shí)長(zhǎng)比2/3G網(wǎng)絡(luò)高48%)。
4.現(xiàn)網(wǎng)故障隱患發(fā)現(xiàn)晚:傳統(tǒng)基于設(shè)備關(guān)鍵指標(biāo)的固定閾值進(jìn)行監(jiān)控,不能基于業(yè)務(wù)進(jìn)行全面體系化的監(jiān)控,不能及時(shí)發(fā)現(xiàn)現(xiàn)網(wǎng)故障風(fēng)險(xiǎn)&隱患。
基于此背景,我們可以利用大數(shù)據(jù)及機(jī)器學(xué)習(xí)提升網(wǎng)絡(luò)風(fēng)險(xiǎn)的預(yù)測(cè)及防范能力,通過(guò)實(shí)時(shí)監(jiān)測(cè)VoLTE業(yè)務(wù)相關(guān)的話統(tǒng)、告警、配置、CHR、操作日志&系統(tǒng)日志等數(shù)據(jù),提前識(shí)別業(yè)務(wù)風(fēng)險(xiǎn)及故障,縮短故障恢復(fù)時(shí)長(zhǎng),避免惡性事故的發(fā)生和降低事故的影響。
此方案有三大關(guān)鍵技術(shù)點(diǎn)。首先就是數(shù)據(jù)統(tǒng)一采集與存儲(chǔ):跨領(lǐng)域拉通IMS/EPC/的話統(tǒng)、告警、配置、CHR、日志等數(shù)據(jù)統(tǒng)一采集和存儲(chǔ),便于數(shù)據(jù)分析;其次是風(fēng)險(xiǎn)預(yù)測(cè):(1)基于VOLTE語(yǔ)音呼叫業(yè)務(wù)流,梳理各網(wǎng)元相關(guān)的KPI指標(biāo)和錯(cuò)誤碼,建立表征VOLTE語(yǔ)音呼叫是否正常的全面指標(biāo)體系;(2)通過(guò)AI&大數(shù)據(jù)算法對(duì)VoLTE全面指標(biāo)和CHR&日志進(jìn)行訓(xùn)練學(xué)習(xí),建立異常預(yù)測(cè)模型, 快速識(shí)別業(yè)務(wù)異常和預(yù)警,預(yù)測(cè)準(zhǔn)確率80%;最后是風(fēng)險(xiǎn)預(yù)防(定界定位):基于故障信息聚類(lèi)算法分析&呈現(xiàn)、全球網(wǎng)絡(luò)維護(hù)的專(zhuān)家經(jīng)驗(yàn)規(guī)則、IP Tracert定界定位算法,對(duì)現(xiàn)網(wǎng)風(fēng)險(xiǎn)和故障進(jìn)行定界定位建議或提供有效輔助信息。覆蓋現(xiàn)場(chǎng)常出的4大故障場(chǎng)景。
風(fēng)險(xiǎn)預(yù)測(cè)的邏輯如下圖1。
首先梳理VoLTE各網(wǎng)元相關(guān)的KPI指標(biāo)和錯(cuò)誤碼(1000+),建立全面指標(biāo)監(jiān)測(cè)體系,收集呼叫失敗的CHR(呼叫日志記錄)和系統(tǒng)日志。增加現(xiàn)網(wǎng)異常發(fā)現(xiàn)的維度。
接下來(lái)通過(guò)方差算法&自相關(guān)系數(shù)算法,自動(dòng)識(shí)別不同的數(shù)據(jù)特征(比如周期性和非周期性),自動(dòng)匹配不同算法。提取200+ CHR故障特征(如內(nèi)部失敗原因值、拆線網(wǎng)元等);提取系統(tǒng)日志故障特征,形成日志故障分析模板(規(guī)劃)。
完成特征提取后,我們構(gòu)建兩種模型來(lái)進(jìn)行數(shù)據(jù)算法研究,單指標(biāo)(通過(guò)箱線圖算法學(xué)習(xí)得到動(dòng)態(tài)閾值模型)和多指標(biāo)(通過(guò)OCSVM算法學(xué)習(xí)得到異常檢測(cè)模型)。
最后將現(xiàn)網(wǎng)實(shí)時(shí)數(shù)據(jù)與異常檢測(cè)模型進(jìn)行對(duì)比,實(shí)現(xiàn)現(xiàn)網(wǎng)風(fēng)險(xiǎn)的快速發(fā)現(xiàn),對(duì)預(yù)測(cè)結(jié)果進(jìn)行人工標(biāo)注反饋,系統(tǒng)基于人工反饋和異常的統(tǒng)計(jì)自動(dòng)觸發(fā)訓(xùn)練和調(diào)優(yōu),模型會(huì)持續(xù)優(yōu)化,并在后續(xù)的采集過(guò)程中進(jìn)行修正。
四、VoLTE語(yǔ)音呼叫失敗預(yù)測(cè)預(yù)防方案的效果
2月28日22:50分預(yù)測(cè)省內(nèi)某地WUXISBG5“MT接通率”下降風(fēng)險(xiǎn),接通率逐步下降,2.5小時(shí)后下降4%(低于95%傳統(tǒng)手段此時(shí)可監(jiān)控)。通過(guò)風(fēng)險(xiǎn)自動(dòng)鉆取告警信息,快速識(shí)別網(wǎng)絡(luò)呼叫振蕩問(wèn)題,根據(jù)震蕩號(hào)碼排查最終定位到智能網(wǎng)設(shè)備問(wèn)題。
該方案有三大關(guān)鍵特點(diǎn):
1.動(dòng)態(tài)閾值精準(zhǔn)監(jiān)控:基于歷史話統(tǒng)數(shù)據(jù),通過(guò)箱線圖算法訓(xùn)練得到指標(biāo)動(dòng)態(tài)閾值模型。
2.多指標(biāo)關(guān)聯(lián)判斷識(shí)別風(fēng)險(xiǎn):結(jié)合“MT接通率”、“MT試呼次數(shù)”之間的關(guān)系,識(shí)別出網(wǎng)絡(luò)風(fēng)險(xiǎn)隱患。
3.引入時(shí)間序列趨勢(shì)判斷:風(fēng)險(xiǎn)模型匹配后,根據(jù)接通率下降比例判斷,對(duì)于劣化比例較小的場(chǎng)景,引入多周期監(jiān)控,判斷出劣化趨勢(shì)后再進(jìn)行風(fēng)險(xiǎn)上報(bào)。
五、結(jié)束語(yǔ)
隨著數(shù)字化進(jìn)程不斷加快,運(yùn)營(yíng)商更要及時(shí)進(jìn)行數(shù)字化轉(zhuǎn)型。在網(wǎng)絡(luò)日常維護(hù)過(guò)程中,需要通過(guò)大數(shù)據(jù)和AI算法能力來(lái)提升維護(hù)效率,這既能夠節(jié)約維護(hù)成本,更能夠大幅減少故障影響,提升用戶感知,是未來(lái)通信網(wǎng)絡(luò)維護(hù)的中堅(jiān)力量。
戴筠迪(1992.12),女,漢族,江蘇鹽城,大學(xué)本科,中級(jí)工程師,研究方向:中國(guó)聯(lián)通智網(wǎng)創(chuàng)新中心網(wǎng)絡(luò)AI中心,從事智能運(yùn)維產(chǎn)品研發(fā)管理工作。
周瑩(1988.05.01),女,漢,江蘇泰州,南京郵電大學(xué)碩士研究生,通信網(wǎng)絡(luò)支撐系統(tǒng)工程師,中國(guó)聯(lián)通智網(wǎng)創(chuàng)新中心網(wǎng)絡(luò)AI中心,主要從事針對(duì)通信網(wǎng)絡(luò)支撐軟件的設(shè)計(jì)管理工作,面向運(yùn)營(yíng)商內(nèi)部維護(hù)人員提供系統(tǒng)支撐能力。
楊淋翔(1992.09), 男,漢族,江蘇鎮(zhèn)江,大學(xué)本科,中級(jí)工程師,研究方向:江蘇聯(lián)通IP城域網(wǎng)網(wǎng)絡(luò)維護(hù)、政企業(yè)務(wù)支撐。