劉天雪 郝雙洋 楊姣等
摘要:圍繞數(shù)字化運營建設要求,基于VoLTE端到端關聯(lián)分析系統(tǒng)多維度對IMS域網(wǎng)絡關鍵性能指標中的相關失敗次數(shù)做波動分析,實現(xiàn)網(wǎng)絡KPI波動告警和劣化指標異常原因定界定位,對網(wǎng)絡異常做出智能預警,在問題暴露前優(yōu)化網(wǎng)絡,以免對業(yè)務造成影響。通過數(shù)智化手段多維度分析定位移動網(wǎng)絡語音質(zhì)差根固,實現(xiàn)網(wǎng)絡隱患故障的早預警、早發(fā)現(xiàn)、早處理,提升運營效率和網(wǎng)絡質(zhì)量。
關鍵詞:數(shù)字化運營;語音質(zhì)差根因;運營效率
中圖法分類號:TN929 文獻標識碼:A
1 引言
隨著移動通信網(wǎng)的不斷發(fā)展,基于IMS 網(wǎng)絡的移動網(wǎng)絡語音方案已成為主流,但是VoLTE 語音呼叫流程復雜,一次呼叫經(jīng)過多個域,眾多網(wǎng)元、核心網(wǎng)側(cè)信令交互達100 多次,在發(fā)生定位故障及處理用戶投訴時,為了對每一個異常故障及呼叫做到準確歸因,需要有經(jīng)驗的工程師花費近1 小時或更長時間進行根因判斷定位,這不僅耗時耗力,而且效率低下。
傳統(tǒng)運維模式不僅低效,還消耗了大量的人力資源。傳統(tǒng)運維一直處于被動運維的狀態(tài),因此若要由被動變主動,提高維護效率是關鍵。本文從提升核心網(wǎng)網(wǎng)絡質(zhì)量和人員維護效率角度,構(gòu)建移動網(wǎng)絡語音質(zhì)差根因定位模型,通過監(jiān)控移動核心網(wǎng)網(wǎng)元關鍵指標閾值準確發(fā)現(xiàn)質(zhì)差指標,利用多接口關聯(lián)的端到端平臺,自動完成質(zhì)差指標的分析和定界,并將定界結(jié)果輸出給相關專業(yè)人員進行優(yōu)化,做到準確、及時、主動發(fā)現(xiàn)網(wǎng)絡隱患故障問題,以達到提升網(wǎng)絡質(zhì)量和維護效率的目的。
2 移動網(wǎng)絡語音質(zhì)差根因定位模型概述
2.1 整體描述
移動網(wǎng)絡語音質(zhì)差根因定位模型分為數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析與生產(chǎn)派單系統(tǒng)互通等模塊。
數(shù)據(jù)采集,結(jié)合維護一線在數(shù)字化轉(zhuǎn)型過程的使用需求,依托VoLTE 端到端關聯(lián)分析平臺數(shù)據(jù),將三域XDR 話單和MR 話單進行數(shù)據(jù)統(tǒng)一采集,具體采集5GC 域(8 個) N1/ N2,N7,N8,N10,N11,N12,N14,N26 等接口XDR 話單;EPC 域(1 個) S1?MME 接口XDR 話單;IMS 域(11 個) Gm,Mw,ISC,Mg,Mi/ Mj,Mx,Rx,Gx,Cx,Sh,SGi 媒體等接口XDR 話單,以及4G/5G MR 話單。其實現(xiàn)了各域數(shù)據(jù)的統(tǒng)一采集,為后續(xù)的數(shù)據(jù)分析提供有效、實時、準確的數(shù)據(jù)源。
數(shù)據(jù)處理,在深入理解移動網(wǎng)語音業(yè)務及信令特征的基礎上,將一次業(yè)務所涵蓋的5GC,IMS,EPC 三域各單接口話單以及MR 話單,根據(jù)時間、號碼、會話ID 等信息,合成一條多接口關聯(lián)的端到端話單。數(shù)據(jù)的統(tǒng)一整合、統(tǒng)一處理,實現(xiàn)了數(shù)字化能力的一點處理。
數(shù)據(jù)分析,是監(jiān)控5 分鐘粒度的關鍵指標。其利用策略梯度算法,學習預測動態(tài)閾值,精準發(fā)現(xiàn)質(zhì)差指標,結(jié)合多域端到端關聯(lián)數(shù)據(jù),進一步對指標進行大數(shù)據(jù)智能分析。按照不同維度、不同時間粒度聚類分析,利用決策樹算法,根據(jù)不同原因的劣化權重和劣化偏離度,自動匹配專家知識庫,定位質(zhì)差故障節(jié)點和故障原因,輸出質(zhì)差根因,從而實現(xiàn)網(wǎng)絡隱患故障的早預警、早發(fā)現(xiàn)、早處理,提升運營效率和網(wǎng)絡質(zhì)量。
與生產(chǎn)派單系統(tǒng)互通,實現(xiàn)帶有根因定位的異常KPI 波動告警,通過一級NFO 派發(fā)到專業(yè)人員,并對返單內(nèi)容進行分析處理。
2.2 主要功能描述
(1)數(shù)據(jù)采集。
采集5GC 域,EPC 域,IMS 域以及MR 話單,并對其進行校驗,自動修正異常數(shù)據(jù),按照分鐘級粒度將數(shù)據(jù)匯聚到文件,并對文件內(nèi)的記錄按照時間進行排序存儲。
(2)多接口話單呈現(xiàn)。
對采集到的數(shù)據(jù),進行全業(yè)務流程的端到端關聯(lián),形成多接口的VoLTE/ EPS 及FB/ VoNR 業(yè)務話單,同時關聯(lián)跨域端到端全流程的業(yè)務結(jié)果、首拆網(wǎng)元、錯誤碼、定界原因等業(yè)務質(zhì)量字段。
(3)移動網(wǎng)語音業(yè)務關鍵指標呈現(xiàn)。
通過報表和圖形化方式,呈現(xiàn)移動網(wǎng)語音業(yè)務關鍵指標,包括VoLTE 初始注冊成功、VoLTE 網(wǎng)絡接通率(剔除用戶原因) 、VoLTE TO VoLTE 接續(xù)時延、EPSFB 成功率、尋呼成功率等。
(4)質(zhì)差根因分析。
通過監(jiān)控5 分鐘粒度的關鍵指標,利用策略梯度算法,學習預測動態(tài)閾值,精準發(fā)現(xiàn)質(zhì)差指標,結(jié)合多域端到端關聯(lián)數(shù)據(jù),進一步對性能指標進行大數(shù)據(jù)智能分析,按照不同維度、不同時間粒度聚類分析,利用決策樹算法,根據(jù)不同原因的劣化權重和劣化偏離度,自動匹配專家知識庫,定位質(zhì)差故障節(jié)點和故障原因,數(shù)智化輸出質(zhì)差根因[1~2] 。
質(zhì)差根因分析模型的主要功能如下。
① KPI 指標異常檢測。通過監(jiān)控5 分鐘粒度的IMS 域關鍵性能指標,利用策略梯度算法,學習預測動態(tài)閾值,精準發(fā)現(xiàn)質(zhì)差指標。通過劣化指標可以及時發(fā)現(xiàn)網(wǎng)絡存在的風險、隱患等,以便運營人員及時采取相應的解決和優(yōu)化措施,降低網(wǎng)絡故障率,提高運營效率。
② 網(wǎng)元級聚類分析。按5 分鐘、15 分鐘、1 小時、1 天等多時間粒度,以關鍵KPI 為入口,自動實現(xiàn)網(wǎng)元維度異常原因的逐層鉆取分析,精準定位故障網(wǎng)元。
并以圖形化界面簡單清晰地呈現(xiàn)SIP 首拆占比、定界域占比、定界結(jié)果占比。
③ 用戶級聚類分析。以用戶業(yè)務記錄為入口,實現(xiàn)用戶任意時間粒度失敗業(yè)務的SIP 首拆消息、定界域、定界網(wǎng)元報表的高效呈現(xiàn)。
④ 小區(qū)級聚類分析。按5 分鐘、15 分鐘、1 小時、1 天等多時間粒度,以關鍵KPI 為入口,智能實現(xiàn)小區(qū)維度異常原因的逐層鉆取分析,精準定位質(zhì)差小區(qū),并以圖形化界面直觀呈現(xiàn)SIP 首拆占比、定界域占比、定界結(jié)果占比[3~6] 。
(5)專家?guī)炷P汀?/p>
針對不同網(wǎng)絡指標,通過地市維度、網(wǎng)元維度、小區(qū)維度、終端維度進行聚類分析,得出劣化的錯誤碼、警告代碼、警告正文等信息,若能匹配上專家?guī)?,則直接輸出專家?guī)斓亩ń缃Y(jié)果、定界原因和處理建議,轉(zhuǎn)專業(yè)人員直接優(yōu)化處理;若不能匹配上專家?guī)?,則轉(zhuǎn)專家分析,對分析結(jié)果進行現(xiàn)網(wǎng)驗證,固化該質(zhì)差場景的信令特征,并將其增加到專家根因庫。
專家?guī)鞂⒃蛎鞔_或經(jīng)過回單驗證過的根因和處理方法進行逐一匯總,并通過智能算法對回單結(jié)果進行分析處理,不斷優(yōu)化、更新、完善專家?guī)臁?/p>
移動網(wǎng)絡語音質(zhì)差根因定位系統(tǒng)根據(jù)不同的語音質(zhì)差場景建立對應的專家?guī)炷P?,如VoLT?初始注冊異常根因庫、VoLTE 網(wǎng)絡接通異常根因庫和EPSFB網(wǎng)絡接通率根因庫模型等。
(6)解決方案智能匹配。
針對劣化指標,關聯(lián)根因庫對其進行定界定位,基于根因定位結(jié)果,智能生成相應的解決方案。
(7)工單系統(tǒng)對接及交互。
和工單系統(tǒng)同步工單編號、工單主題、派單日期、工單狀態(tài)、質(zhì)差根因、解決方案。系統(tǒng)根據(jù)派單規(guī)則和根因定位情況,將KPI 指標異常的告警派發(fā)到相關單位或相關人員進行處理,攜帶信息主要包括網(wǎng)絡類型、網(wǎng)元名稱、KPI 名稱、時間、異常情況、波動子項信息、根因定位、建議處理步驟等。接單人對KPI 異常波動告警工單進行處理,直至告警恢復。告警恢復后,總結(jié)處理步驟,并按照固定格式回單。
(8)專家?guī)旄隆?/p>
專家?guī)旄虏扇≈悄埽粒?算法進行自動學習更新,系統(tǒng)支持根據(jù)回單結(jié)果對專家?guī)熘械母蚨ㄎ贿M行更新,包括對指標檢測閾值進行調(diào)整優(yōu)化,以不斷提升系統(tǒng)告警有效性和根因定位準確性。
系統(tǒng)根據(jù)關鍵字段對回單內(nèi)容進行機器學習建模,自動分析學習回單內(nèi)容,輸出關鍵詞匯,得到具體原因和處理步驟,并更新專家?guī)?。系統(tǒng)支持根據(jù)每次的回單內(nèi)容及分詞結(jié)果評估情況進行自我優(yōu)化。若KPI 屬于正常波動,則回單提出算法更新和告警閾值參數(shù)設置調(diào)整建議。
(9)功能視圖呈現(xiàn)。
功能視圖界面簡單、高效、準確地呈現(xiàn)質(zhì)差指標、指標趨勢、質(zhì)差告警、派單情況、根因分析和專家?guī)斓裙δ苣K。每個功能模塊動態(tài)呈現(xiàn),并可一鍵聯(lián)動,實現(xiàn)一點監(jiān)控、一點接入、一點處置,以便運營人員快速直觀地掌握移動網(wǎng)核心網(wǎng)質(zhì)差指標和業(yè)務指標運行情況,實時監(jiān)控質(zhì)差告警和工單處理情況,及時發(fā)現(xiàn)并解決網(wǎng)絡隱患和故障,提升網(wǎng)絡安全性、可靠性。
3 結(jié)束語
圍繞數(shù)字化運營要求,依托VoLTE 端到端關聯(lián)分析系統(tǒng),通過關鍵指標閾值準確發(fā)現(xiàn)質(zhì)差指標,利用多接口關聯(lián)的端到端系統(tǒng),智能完成核心網(wǎng)質(zhì)差指標的分析和定界,并將定界結(jié)果輸出給相關專業(yè)人員進行優(yōu)化,做到準確、及時、主動發(fā)現(xiàn)網(wǎng)絡隱患或故障,以達到提升網(wǎng)絡質(zhì)量和維護效率的目的,進而為數(shù)字化運營賦能,為一線維護人員減負。
本系統(tǒng)已在集約化vIMS 網(wǎng)絡實施,解決了運維工作中長期的痛點難點,具體如下。(1)提高了維護效率,減少了維護人員80%的維護量、維護效率提升90%以上;(2)降低了網(wǎng)絡故障率及客戶投訴率,較項目實施前減少了50%的故障及投訴量;(3)通過監(jiān)測移動核心網(wǎng)關鍵性能指標,先于告警和投訴發(fā)現(xiàn)隱患和故障,快速精準定界故障網(wǎng)元和故障原因,從而在規(guī)模故障爆發(fā)前解除隱患,減小影響范圍,縮短影響時長,提升了運營效率和網(wǎng)絡質(zhì)量。
移動網(wǎng)絡語音質(zhì)差根因定位模型經(jīng)過不斷優(yōu)化已具備模塊通用性,易移植、易推廣。隨著VoNR 的試商用,該模型已快速移植到VoNR 質(zhì)差根因定位中,實現(xiàn)隱患或故障的快速發(fā)現(xiàn)、快速定位、快速解決,從而縮短故障處理時長,降低故障發(fā)生率和用戶投訴率。
移動網(wǎng)絡語音質(zhì)差根因定位模型基于VoLTE 端到端關聯(lián)分析系統(tǒng)(包含EPC,5GC 域,無線域全量數(shù)據(jù))具備數(shù)據(jù)業(yè)務的端到端能力,可滿足4G/5G 用戶數(shù)據(jù)業(yè)務質(zhì)差根因定位的數(shù)字化運營需要,賦能5G智能化運維。
參考文獻:
[1] 唐建榮.提升VoLTE 客戶感知的優(yōu)化分析方法淺析[J].通訊世界,2017(7):87.
[2] 魏宗靜.VOLTE 語音質(zhì)量優(yōu)化方法研究[J].科技經(jīng)濟導刊,2016(5):33.
[3] 劉毅,肖濤,郭寶,等.提升VoLTE 用戶感知的保障策略研究[J].移動通信.2017(18):6?10.
[4] 唐建榮,文志成,亓新峰.VoLTE 關鍵性能指標分析[J].信息通信技術,2015(4):56?59.
[5] 孫平強.VoLTE 業(yè)務的性能分析及優(yōu)化研究[D].北京:北京郵電大學,2015.
[6] 聶飛翔.基于客戶感知的3G 與4G 一體化網(wǎng)絡的規(guī)劃與優(yōu)化[D].南京:南京郵電大學,2016.
作者簡介:劉天雪(1979—),本科,高級工程師,研究方向:移動核心網(wǎng)重構(gòu)。