許保德+巫江濤
隨著移動互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務的快速發(fā)展,以及電信網(wǎng)絡結(jié)構(gòu)的演變,傳統(tǒng)的網(wǎng)絡問題分析方法已經(jīng)不能適應當前服務環(huán)境和網(wǎng)絡環(huán)境,需要轉(zhuǎn)變思路。大數(shù)據(jù)技術提供了分布式并行處理大數(shù)據(jù)量的機制,能夠快速處理海量的數(shù)據(jù),為運營商以用戶感知為中心分析和定界定位問題提供了技術基礎。
定界定位的基本思路
每個運營商都在不定時產(chǎn)生著不同的業(yè)務數(shù)據(jù),當業(yè)務出現(xiàn)問題,就需要排查原因。傳統(tǒng)的問題定界定位方法一般是按照網(wǎng)絡設備的上下級關系逐級查找指標差的占比,例如從全網(wǎng)到核心網(wǎng)網(wǎng)元,然后分析與核心網(wǎng)網(wǎng)元交互的無線側(cè)小區(qū)的指標,希望能夠找出明顯劣化的點,找到劣化點后,再鉆取出異常的原始話單和原始信令,分析出原因。
這種金字塔式的分析方法存在以下弊端:
分析問題的入口是頂層的指標,而該指標是大量樣本綜合計算的結(jié)果,對少量的異常問題不夠敏感;
自頂向下的分析方法很大程度上依賴于孤立點的存在,當指標之間差距不明顯時,該方法往往失靈;
4G網(wǎng)絡具有扁平化、資源池化等特點,網(wǎng)絡設備的上下級關系不再明顯,也更加復雜,分析時很難再逐級查找問題;
只呈現(xiàn)指標的異常,還需要消耗較大的人力進行定界定位分析,才能找到問題。
而基于大數(shù)據(jù)分析,以用戶感知為中心的定界定位方法采取了一種新的定界定位技術,和傳統(tǒng)的方法相對應,稱之為倒立金字塔分析法。該方法直接將用戶話單的異常情況定界定位到劣質(zhì)點,并給出根本原因,由根因推導出需要優(yōu)化的網(wǎng)元。
該方法從最底層的原始話單入手,對于系統(tǒng)采集到的每一條原始的話單,判斷該話單是否有異常。如果有異常,存在什么樣的異常?會對哪些關鍵指標、哪些業(yè)務產(chǎn)生影響?產(chǎn)生該異常的原因是什么?經(jīng)過這樣的分析,我們就可以找到所有的異常話單,以及問題的原因。
數(shù)據(jù)的采集和處理過程
無線側(cè)的數(shù)據(jù)是與基站對接數(shù)據(jù),不需要探針,異廠家基站可以采用相關公有或私有的接口協(xié)商對接。核心網(wǎng)的控制面、用戶面數(shù)據(jù)通過探針采集,不受廠家設備不同的限制。將采集后的數(shù)據(jù)都輸出給大數(shù)據(jù)平臺,進行數(shù)據(jù)關聯(lián)、清洗、統(tǒng)計處理。圖1是數(shù)據(jù)采集示意圖。
大數(shù)據(jù)平臺采集到數(shù)據(jù)后首先將核心網(wǎng)的話單與無線關聯(lián),關聯(lián)后生成端到端的話單進行保存。然后按照上面的分析思路進行分析。
鑒于一次業(yè)務的異常同時在不同環(huán)節(jié)都會存在問題,因此需要在每個環(huán)節(jié)逐一判斷。
首先判斷無線指標情況,如果存在異常,無線側(cè)計數(shù)加一。
然后在核心網(wǎng)或互聯(lián)網(wǎng)側(cè)定界,首先判斷互聯(lián)網(wǎng)DNS/SP節(jié)點的問題,主要分析DNS、TCP、GET的交互過程情況,以及忙閑時的變化情況,如果存在異常計數(shù)加一。
再判斷核心網(wǎng)側(cè)SGW、MME等網(wǎng)元的全天指標情況,以及忙閑時的變化情況,如果存在異常計數(shù)加一。
最后再往終端定界,首先定時維護更新一個異常終端信息,異常終端是由一定周期內(nèi)連續(xù)性指標差等特征判斷出來,如果能夠與異常終端信息表匹配上,終端側(cè)定界計數(shù)加一。
如果以上過程都找不到問題的節(jié)點,就定界到其他問題。
我們在此基礎上再對異常話單做統(tǒng)計計算,就能得到多維度的統(tǒng)計結(jié)果。例如統(tǒng)計出不同環(huán)節(jié)的問題占比,每個環(huán)節(jié)的原因占比,統(tǒng)計出每個網(wǎng)元或區(qū)域問題波及的用戶數(shù)、波及的問題話單數(shù)量,將問題的嚴重程度進行量化,并為判斷是否是有價值的問題區(qū)域提供參照。
應用效果舉例
從某省份大數(shù)據(jù)平臺提取的影響用戶感知的異常話單原因分布占比如圖2所示??梢钥闯?,無線側(cè)和互聯(lián)網(wǎng)側(cè)原因占比較大。
無線側(cè)占比較高,查看定位的結(jié)果主要是弱覆蓋區(qū)域?qū)е??;ヂ?lián)網(wǎng)占比較高的原因,定位到的結(jié)果主要是一些國外SP距離較遠,以及國內(nèi)部分其他運營商的SP網(wǎng)絡傳輸存在丟包、負荷高。終端的情況主要是小米等。
手機的問題占比較高。從用戶的消費群體來看,小米手機使用者數(shù)量較多,其中大部分消費人群是青年人,根據(jù)對小米手機的使用流量業(yè)務統(tǒng)計發(fā)現(xiàn),即時通信、網(wǎng)頁類業(yè)務占比55%左右,而視頻、下載等消耗流量較大的業(yè)務相對較少,占比10%左右,其他類別占比35%。
由于即時通信、網(wǎng)頁類單次業(yè)務一般流量和時間都較小,測量到的速率類指標一般不高。核心網(wǎng)側(cè)問題較少,相對比較穩(wěn)定,在忙時有時會有負荷問題。該定界定位結(jié)果為該省運營商各個部門進行派單、問題處理提供了數(shù)據(jù)依據(jù)。
端到端自動定界定位技術是網(wǎng)絡問題分析自動化、網(wǎng)優(yōu)自動化、網(wǎng)優(yōu)無人化大趨勢中的基礎核心技術之一。中興通訊憑借30多年的網(wǎng)絡優(yōu)化技術積累及精品網(wǎng)交付經(jīng)驗,擁有絕對領先的網(wǎng)絡問題分析算法和數(shù)量龐大的問題經(jīng)驗庫。
隨著大數(shù)據(jù)技術及人工智能技術的迅速發(fā)展,中興通訊將在未來更高效地協(xié)助運營商保障和提升用戶的業(yè)務體驗。