韋強申,宋 勇,李紅霞,王希棟,葉曉舟,歐陽曄
(亞信科技(中國)有限公司 通信人工智能創(chuàng)新實驗室,北京 100193)
5G 核心網承擔著5G 網絡全局資源的調度和管理,需要承載5G 多樣化業(yè)務需求,是5G 網絡發(fā)展的核心引擎。2021 年以來,國外主流運營商多次遭遇5G 核心網故障導致的重大通信事故,這無疑給我國在5G 核心網的運維問題上敲響了警鐘。如何保障核心網高效、高可靠、低成本的運維,實現(xiàn)故障的快速發(fā)現(xiàn)與修復,是各大運營商5G 系統(tǒng)運維管理的關注焦點。
目前對于業(yè)務系統(tǒng)故障,以事后分析處理為主,但故障的產生往往會有前兆信息,如性能指標的劣化,而人工或其他傳統(tǒng)的分析方法很難基于復雜的系統(tǒng)結構和超大的信息量進行預判。采用人工智能(Artificial Intelligence,AI)將系統(tǒng)歷史告警數(shù)據(jù)和對應時間內的關鍵績效指標(Key Performance Indicator,KPI)性能指標異動情況進行關聯(lián)挖掘,可以自動發(fā)現(xiàn)故障和指標劣化之間的相關性。當預測性能指標出現(xiàn)劣化點時,及時對業(yè)務故障進行提前預警,是智能化運維的發(fā)展方向。
現(xiàn)有的5G 網絡故障分析方法,主要針對5G網絡故障發(fā)生后的場景,進行精準定位、智能決策、自動恢復。文獻[1]提出了5G 網絡環(huán)境下基于網絡拓撲的告警關聯(lián)挖掘算法,提升了故障跟蹤與故障定位的能力。文獻[2]針對多節(jié)點故障精準定位的問題,提出了一種基于神經網絡的5G 無線網絡多故障高效混合定位的方法,提高了故障快速定位、網絡快速恢復的能力。文獻[3]提出了一種智能5G無線網絡的安全容錯分布式管理方法,設計了靈活的認知故障管理功能的新方法,即根據(jù)實際的網絡需求和當前的負載動態(tài)調整。文獻[4]提出了基于深度學習的5G 無線網絡節(jié)點規(guī)劃與控制邏輯優(yōu)化分析,提升了5G 網絡的容錯能力,減少故障的發(fā)生。
提前預測故障發(fā)生的概率,可以避免故障的發(fā)生。故障預警方法是根據(jù)歷史故障發(fā)生前數(shù)據(jù)的變化規(guī)律來構建分析模型,然后依據(jù)實時數(shù)據(jù)分布預測故障發(fā)生的可能性。在電力、機械等方向故障預警研究的課題較多,文獻[5]提出了一種基于5G 和人工智能的輸電線路故障智能預警方法,結合無線網絡技術與人工智能技術預警故障發(fā)生的概率,避免故障發(fā)生。另外,文獻[6]、文獻[7]提出了基于深度學習方法在機械自動化中的故障預警方法。在5G 網絡應用方面,文獻[8]提出了一種基于線性預測的方法實現(xiàn)移動通信網絡故障預警。
5G 網絡故障預警方法是降低故障對5G 業(yè)務影響的關鍵方向。本文在現(xiàn)有工作研究基礎上,結合業(yè)務經驗與數(shù)據(jù)分析結果,構建有監(jiān)督學習模型預測5G 網元故障發(fā)生的可能性。對比已有的監(jiān)督學習方法,采用時序特征構建、時序異常檢測、時序關聯(lián)分析、告警特征編碼等多個維度構建特征,實現(xiàn)基于多維特征融合結果的監(jiān)督學習模型。該模型在5G 核心網6 類網元的多個指標上面均有不同程度的提升,驗證了該方法的有效性。
現(xiàn)有5G 核心網預警,主要依據(jù)網元KPI 數(shù)據(jù)時序分布,采用配置靜態(tài)閾值的方法,提取告警信息,然后依據(jù)告警級別,觸發(fā)預警機制。同時,依據(jù)KPI 時序結合歷史故障數(shù)據(jù),構建時序與故障關系模型,算法選型有統(tǒng)計機器學習算法XGBoost 和深度神經網絡(Deep Neural Networks,DNN)學習算法。
時序異常檢測是基于KPI 時序數(shù)據(jù)分布,采用統(tǒng)計方法、機器學習方法、深度學習方法等計算實時數(shù)據(jù)分布的動態(tài)閾值,用于檢測時序數(shù)據(jù)是否異常。文獻[9]提出了一種時序特征分析方法,依據(jù)時序窗口數(shù)據(jù)分布,提取均值、方差、標準差等特征,用于時序數(shù)據(jù)的異常檢測。文獻[10]針對海量時序數(shù)據(jù),提出了一種通用可擴展的檢測框架,該框架適用于多種時序的異常檢測,提升了異常檢測的性能。在實際應用中,網絡故障受設備的性能指標和網絡負載等影響,設備的性能指標可以擴展更多的維度。針對海量時序數(shù)據(jù)的異常檢測方法,文獻[11]提出了針對海量KPI的快速部署異常檢測模型,用于解決網絡指標時序異常檢測問題。文獻[12]提出了針對KPI 突變的參數(shù)自適應無監(jiān)督在線異常檢測,用于提升異常檢測結果的準確率。文獻[13]綜合了多種時序異常檢測算法,提出了時序特征的構建方法,包括偏度、峰度、差分均值等多種特征維度,并介紹了基于統(tǒng)計方法的異常檢測和基于深度學習方法的異常檢測。
故障預警是依據(jù)對KPI 時序數(shù)據(jù)和告警數(shù)據(jù)進行分析,提前預測故障發(fā)生概率,從而避免故障發(fā)生。目前故障預警與處理的技術多采用統(tǒng)計分析方法、業(yè)務分析方法,以下內容介紹了4 種故障預警與處理實現(xiàn)方案。文獻[14]提出了一種基于機器學習的網元故障診斷及預警技術實現(xiàn)方法,通過聚類的數(shù)據(jù)分布,劃分故障數(shù)據(jù)與正常數(shù)據(jù)。距離計算方法與聚類方法類似,目的是計算正常數(shù)據(jù)與故障數(shù)據(jù)的距離差異,從而識別故障數(shù)據(jù)。概率分布與密度估計方法是通過提取數(shù)據(jù)特征來計算特征分布的概率值,然后根據(jù)概率值區(qū)分故障數(shù)據(jù)與正常數(shù)據(jù)。統(tǒng)計機器學習的方法,通過構建時序特征,結合歷史故障數(shù)據(jù),分析特征與故障數(shù)據(jù)分布情況。此外,一般采用決策樹、邏輯回歸、隨機森林、梯度提升樹等算法來構建模型,然后通過模型預測后續(xù)故障發(fā)生的概率。文獻[15]、文獻[16]研究了5G網絡切片下動態(tài)網絡故障、業(yè)務故障的分布,提出了故障分析與診斷的方法。文獻[17]、文獻[18]研究了網絡虛擬化環(huán)境下的故障分析方法,提出了一種多層故障診斷方法(Multi-Layer Fault Diagnosis Method,MFDM),并采用分層策略解決了網絡虛擬化環(huán)境中的多層故障問題。
深度學習方法可以減少人工定義特征造成的誤差,直接對時序數(shù)據(jù)進行處理,然后搭建網絡結構,訓練時序特征,得到預警模型。該模式下,時序特征的構建多采用傅里葉變換、小波變換等方式,將時域信息轉化為時域和頻域信息,再通過深度學習生成更復雜的特征,從而構建模型,提高預測的準確率,常用網絡結構有卷積神經網絡(Convolutional Neural Networks,CNN)、長短期記憶網絡(Long Short-Term Memory,LSTM)、循環(huán)神經網絡(Recurrent Neural Networks,RNN)等。文獻[19]、文獻[20]提出了一種基于深度信任網絡的故障分析(Deep Belief Network-Fault Location,DBN-FL)模型,用于定位5G 網絡故障。這種模型根據(jù)歷史的故障數(shù)據(jù),綜合數(shù)據(jù)分析結果與專家經驗,設置了一系列故障規(guī)則識別模板,在故障識別過程中,通過實時數(shù)據(jù)分布與故障規(guī)則的匹配情況,得到故障發(fā)生的概率。
為了構建5G 網元故障預警方案,本文提取了5G 核心網中不同網元的各個指標,以及歷史的告警信息。多維特征矩陣的構建過程中,首先進行時序告警關聯(lián),其次提取時序特征、時序異常檢測、時序關聯(lián)分析、告警特征這4 個特征,最后分析多維特征下,預警模型的性能提升情況。本方法的故障預警方案設計如圖1 所示,實現(xiàn)過程中,先構建KPI 時序數(shù)據(jù)特征和多維特征,再分別對兩種特征構建方式,采用XGBoost算法與DNN算法來訓練模型,最后基于同一驗證集對比模型效果。
圖1 故障預警方案設計
為了提取時序特征,根據(jù)時序數(shù)據(jù)分布情況,構建時序窗口特征,并結合業(yè)務經驗,設置時間窗口為N,提取時間窗口的時序的特征包括均值、標準差、最大值、最小值、峰度、偏度以及趨勢等。另外,還要提取指標周期變化特征,包括當前點較上一周期的增幅,連續(xù)3 個周期的趨勢等。時序數(shù)據(jù)為x=(x1,…,xi,…,xT)。xi表示時刻i對應的數(shù)值,xT表示T時刻的KPI 對應的指標值。
KPI 集合由多個x組成,KPI集合為D={x j|1 基于統(tǒng)計方法對KPI 時序指標進行異常檢測,標記檢測出的異常點,并提取5G 核心網的性能指標,逐個進行異常檢測,最后提取指標中異常點的時間及異常值。異常檢測實現(xiàn)流程:首先分析時序波動類型,如周期型、階梯型、波動型等;其次根據(jù)不同類型的波形,采用不同的檢測算法。 異常點檢測算法包含四分位距(Interquartile Range,IQR)和3-sigma 準則運算,分別為: Quantile為分位值函數(shù);Q3表示3/4 位值,Q1表示1/4 位值,分別為IQR 公式計算的最大值、最小值代表的含義。 如果是周期型數(shù)據(jù),則提取數(shù)據(jù)的趨勢項、周期項、殘差項,設置滑動窗口與滑動步長,識別異常點。 基于上述異常檢測方法,計算得到對應時刻的異常點: 式中:Llower為i時刻的動態(tài)下限;Lupper為i時刻的動態(tài)上限。 時序x在時序上檢測結果表示為[0,1],編碼的向量為Fa=(a1,…,ai,…,aT),1 通過局部數(shù)據(jù)的相關系數(shù),判斷告警時刻,觀察KPI 指標的關聯(lián)關系是否有明顯的變化,窗口內的相關系數(shù)表示兩個KPI 之間的短時相關性。構建KPI 間相關性特征,形成指標相關時序向量。KPI指標相似度的計算方法為: 網元對應的n個KPI,則同一時刻KPI 關聯(lián)關系的組合有Cn2 種,每個時刻對應的KPI 間的關聯(lián)系數(shù)可生成對應的向量Ci=(Ci(x1,x2),Ci(x1,x3),…,Ci(x j,xk)),1 2,其中n表示KPI 數(shù)量,L為時刻i關聯(lián)系數(shù)向量的長度。關聯(lián)系數(shù)在時序上的特征向量為FC=(C1,…,Ci,…,CT),1 結合告警數(shù)據(jù)與時序數(shù)據(jù)的分析結果可知,告警有一定的關聯(lián)性,某類或某幾類持續(xù)的告警,會引發(fā)更高級別的告警,因此本方案考慮整合鄰近窗口內的告警信息,對告警信息采用向量表示,得到每個時刻對應的向量列表。告警集合為Dalarm={alarm|1 設定時間窗口為w,告警數(shù)據(jù)生成的ONEHOT 編碼為Ai=(a1,…,aj,…,am),aj∈{0,1},1 本方案分別采用統(tǒng)計機器學習算法與深度神經網絡兩種方式與現(xiàn)有方法進行對比,來觀察加入特征融合的效果提升情況。采用有監(jiān)督的方法訓練模型,并驗證模型效果。特征空間F為多維特征的拼接矩陣,,F(xiàn)為T×(8+1+L+m)的矩陣,矩陣的行索引為時刻i,共計T行;列索引為特征類型,時序特征8 列,異常檢測標記1列,時序相關性特征L列,告警特征m列,共計8+1+L+m列。 選取時序索引時刻i,向后鄰域窗口t時刻告警標志作為監(jiān)督標簽y。 時序上監(jiān)督標簽為Y=(y1,…,yi,…,yT),1 本文實驗過程,選取實際應用場景中,5G 核心網不同網元的KPI 數(shù)據(jù)以及歷史告警數(shù)據(jù)作為實驗數(shù)據(jù),采用有監(jiān)督的方法訓練模型,然后在測試集上預測告警發(fā)生的概率。為保障實驗效果的對比具有參考意義,實驗選取了魯棒性較好的XGBoost算法和深度神經網絡算法,分別對未融合多維特征的數(shù)據(jù)和融合多維特征后的數(shù)據(jù)進行建模與評估對比。 實驗選取5G 核心網中會話管理功能(Session Management Function,SMF)、接入和移動性管理功 能(Access and Mobility Management Function,AMF)、用戶平面功能(User Plane Function,UPF)、統(tǒng)一數(shù)據(jù)管理(Unified Data Management,UDM)、網絡存儲功能(Network Repository Function,NRF)、策略控制功能(Policy Control Function,PCF)6 大類網元,共計121 個子網元在2020 年12 月1 日—2021 年2 月26 日3 個月內的KPI 數(shù)據(jù)。數(shù)值的采集粒度為15 分鐘。告警數(shù)據(jù)選取對應時間段內網元的告警數(shù)據(jù),告警類型包括軟件系統(tǒng)、通信系統(tǒng)、網管內部、電源系統(tǒng)、硬件系統(tǒng)、環(huán)境系統(tǒng)、業(yè)務質量、信令系統(tǒng)等12 大類故障類型,告警包括無線接入網(NG Radio Access Network,NG-RAN)鏈路故障、容災業(yè)務自動探測異常、資源單元故障等359 類告警信息。網元性能指標名稱如表1 所示。 表1 網元性能指標 實驗對所有KPI 數(shù)據(jù)進行時序異常檢測,樣本數(shù)據(jù)的時間范圍為2020 年12 月1 日—2021 年2 月26 日,數(shù)據(jù)粒度為15 分鐘,由于部分KPI 數(shù)據(jù)有缺失,采樣點個數(shù)平均為1 693 個。 實驗選取周期型和波動型兩種時序類型數(shù)據(jù)的部分時段異常檢測結果,如圖2 所示。圖2(a)展示了周期型異常檢測結果。圖3(b)展示了波動型KPI 異常檢測結果。實驗選取指標間的關聯(lián)關系作為判斷故障發(fā)生的重要特征。 圖2 時序異常檢測 針對同類網元的KPI 數(shù)據(jù)計算時序間的關系,圖3 展示了統(tǒng)一數(shù)據(jù)網元(Unified Data Management,UDM)HTTP2 請求消息總數(shù)與響應消息總數(shù)的關聯(lián)關系。 圖3 指標關聯(lián)分析 依據(jù)網元信息,實驗對指標和告警信息進行關聯(lián),繪出告警時刻指標的變化情況,如圖4 所示。當出現(xiàn)告警時,KPI 指標的波動有明顯的變化,在大量的告警發(fā)生前,指標會有一些劣化的表現(xiàn),并且有一些零散的告警發(fā)生。 圖4 時序與告警關聯(lián)分析 實驗對所有的網元與告警類型,采用不同的特征組合方式構建預警模型,選取80%的數(shù)據(jù)作為模型的訓練集,20%的數(shù)據(jù)作為測試集。實驗數(shù)據(jù)內容描述如表2 所示,表中展示了6 大網元類型中每類網元包含的KPI 總數(shù)、KPI的數(shù)據(jù)量、告警的類型與告警次數(shù)等統(tǒng)計信息。 表2 數(shù)據(jù)描述 本實驗對比在融合多維特征(Feature Combination,F(xiàn)C)前后,不同算法的預警模型準確率與召回率,來驗證多維特征構建方法可以提升預警模型的效果。其中多維特征包含時序異常檢測結果、KPI 指標關聯(lián)結果和歷史告警信息ONE-HOT 編碼。多維特征融合后,訓練集中最大的特征列數(shù)共214 列。計算結果合并同一類型網元的準確率與召回率,取同一類型網元的均值,得到如表3 所示的評估結果。由圖4 可知,從時序波形與告警數(shù)據(jù)的分布情況來看,告警發(fā)生前,時序數(shù)據(jù)會有一定的波動,并且時序的相關性會發(fā)生一些變化。另外在批量告警發(fā)生前,在時間軸上會有一些零散的告警點。通過大量的KPI 指標和告警數(shù)據(jù)分析建模,驗證了故障預警方法的可行性。根據(jù)網元預警結果的評估指標來看,受告警數(shù)據(jù)分布的影響,不同類型的網元預警模型的性能指標差異較大。 表3 不同網元類型的評估結果 UDM 與SMF 網元的效果較好,不同類型的算法驗證效果的準確率和召回率都可以達到70%以上。UDM 與SMF 網元對應的KPI 數(shù)據(jù)質量較好,KPI的異常點與故障點分布基本一致,故障時刻KPI 間的關聯(lián)差異較大,SMF 網元故障預警綜合評估F1 值可達88.0%。圖5 比較了不同網元下,算法驗證效果對比圖。UDP、AMF、PCF、NRF 4 類網元的KPI 數(shù)據(jù)質量較差,采集的指標較少,時序數(shù)據(jù)的噪聲較高,數(shù)據(jù)的波動比較隨機,依據(jù)數(shù)據(jù)分布很難準確定位到異常點。時序的關聯(lián)分布與故障的關系不明顯,故障識別的效果較差。 圖5 網元驗證對比 整體來看,采用多維時序特征融合的方法,構建KPI的特征矩陣,可以達到故障預警的目的,與已有的直接采用KPI 時序數(shù)據(jù)作為訓練特征的方法相比,本文提出的方法加入了異常檢測、告警特征、時序關聯(lián)特征,實驗結果表明針對所有網元F1 值有明顯的提升,平均提升18%。 本文針對5G 核心網故障預警這一課題展開了分析與研究??偨Y了現(xiàn)有故障定位、故障預警、KPI 時序分析、KPI 時序異常檢測、時序關聯(lián)分析等方法。為提升故障預警的準確率,提出了采用多維特征融合的機器學習方法進行告警預測。通過數(shù)據(jù)分析與實驗,驗證了該方法的可行性,并且所提出的采用多特征融合的方法構建的預警模型較現(xiàn)有方法的提升效果比較明顯。 然而,本文實驗選取的部分網元數(shù)據(jù)質量一般,故障識別的效果不夠理想,研究時序數(shù)據(jù)如何去噪,以及噪聲如何構建多維特征是后續(xù)的一個研究方向。另外,本文的特征構建方法是結合業(yè)務經驗設計的,可以探索新的特征構建方法或采用深度學習的方法優(yōu)化效果,提升告警預測的效果。2.2 時序異常檢測
2.3 時序關聯(lián)分析
2.4 告警特征提取
2.5 模型設計
3 實 驗
3.1 數(shù)據(jù)準備
3.2 效果評估
4 結語