馬敏,賈子寒,王磊
(1.中國移動通信集團(tuán)設(shè)計(jì)院有限公司陜西分公司,陜西 西安 710065;2.中國移動通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080)
目前,LTE 網(wǎng)絡(luò)已經(jīng)進(jìn)入穩(wěn)定發(fā)展階段,形成了龐大的網(wǎng)絡(luò)規(guī)模,要保證全網(wǎng)數(shù)以萬計(jì)的基站正常、高效地運(yùn)行,對網(wǎng)絡(luò)運(yùn)維提出了很高的要求[1],尤其是隨著5G 網(wǎng)絡(luò)的規(guī)模部署和商用,基站數(shù)量將遠(yuǎn)遠(yuǎn)大于4G 網(wǎng)絡(luò)[2],網(wǎng)絡(luò)運(yùn)維面臨更大的挑戰(zhàn)。傳統(tǒng)的移動網(wǎng)運(yùn)維是以周期性巡檢、故障派單等方式為主,存在著運(yùn)維效率不高、運(yùn)維資源投放時效性不足等問題,這種非預(yù)防性運(yùn)維模式已完全不能滿足當(dāng)前網(wǎng)絡(luò)運(yùn)營的需要,運(yùn)用人工智能和大數(shù)據(jù)等新技術(shù),實(shí)現(xiàn)主動運(yùn)維、快速運(yùn)維和精準(zhǔn)運(yùn)維是網(wǎng)絡(luò)運(yùn)維發(fā)展的新趨勢?;井惓z測是新型網(wǎng)絡(luò)運(yùn)維模式的一項(xiàng)重要內(nèi)容,它的目標(biāo)是要實(shí)時了解基站的健康狀態(tài),提前發(fā)現(xiàn)基站的隱性問題,有針對性地進(jìn)行巡檢,從而減少和避免基站退服類嚴(yán)重故障的發(fā)生,起到預(yù)防性網(wǎng)絡(luò)維護(hù)的作用[3]。
目前基站異常檢測的方法主要有網(wǎng)絡(luò)指標(biāo)閾值對比法[4]、基于機(jī)器學(xué)習(xí)的方法[5]和基于深度學(xué)習(xí)的方法[6]等,指標(biāo)閾值法需要依賴人員經(jīng)驗(yàn),指標(biāo)的統(tǒng)計(jì)分析也相當(dāng)耗時耗力。采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,準(zhǔn)確率較高,但需要大量的樣本標(biāo)注,這在大規(guī)模應(yīng)用中很難做到。
本文提出一種基于深度自編碼器模型進(jìn)行基站異常度檢測的方法,通過對基站故障告警、性能KPI、OMC運(yùn)維指標(biāo)等多維數(shù)據(jù)建立深度自編碼器模型,挖掘基站正常運(yùn)行時各類告警出現(xiàn)的頻次規(guī)律、相關(guān)性能指標(biāo)的波動規(guī)律,以此來進(jìn)行當(dāng)前基站異常度的檢測。該方法具有準(zhǔn)確性高、評測粒度細(xì)、容易實(shí)施等特點(diǎn),為后續(xù)網(wǎng)絡(luò)運(yùn)維部門進(jìn)行基站精準(zhǔn)巡檢以及進(jìn)一步實(shí)現(xiàn)智能運(yùn)維提供了可靠的數(shù)據(jù)支撐。
自編碼器(AE,Auto Encoder)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法之一,采用無監(jiān)督學(xué)習(xí)方式,即送入網(wǎng)絡(luò)訓(xùn)練的只是數(shù)據(jù)本身,不需要對樣本數(shù)據(jù)打標(biāo)簽。AE 的學(xué)習(xí)目標(biāo)是重構(gòu)原始輸入,根據(jù)重構(gòu)結(jié)果與原始輸入之間的誤差來訓(xùn)練網(wǎng)絡(luò),使得輸入與輸出值盡可能接近。最簡單的AE 是一個三層的神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層,深度自編碼器是具有多個隱藏層結(jié)構(gòu)的自編碼器,它將多個基本的AE 堆疊形成深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),可用于輸入數(shù)據(jù)的特征提取、高維數(shù)據(jù)的降維以及深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練等。
自編碼器分為傳統(tǒng)的自編碼器和改進(jìn)的自編碼器[7],如降噪自編碼器(DAE,Denoising Auto-Encoder)、稀疏自編碼器(SAE,Sparse Auto-Encoder)、變分自編碼器(VAE,Variational Auto-Encoder)等,從數(shù)據(jù)規(guī)模、模型整體性能及模型健壯性等綜合因素考慮,本文采用了稀疏降噪自編碼器(SDAE,Sparse Denoising Auto-Encoder)模型。
基本的AE[8]網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,從輸入層到隱藏層是編碼過程,從隱藏層到輸出層是解碼過程,層與層之間相互全連接。
圖1 基本的自編碼器網(wǎng)絡(luò)結(jié)構(gòu)
假設(shè)對于樣本x={x1,x2,x3,…,xm},重構(gòu)輸出為,則AE 的編碼和解碼過程分別為式(1)和式(2)。
其中W為輸入層到隱藏層的權(quán)值矩陣,W′為隱藏層到輸出層的權(quán)值矩陣,通常取W′=WT,即W的轉(zhuǎn)置;b和b′ 分別為隱藏層和輸出層神經(jīng)元的偏置向量;f(x) 和g(h) 分別表示編碼和解碼的激活函數(shù),一般使用相同的Sigmoid 函數(shù)或relu 函數(shù)等。
降噪自編碼器(DAE)模型是通過對原始輸入數(shù)據(jù)人為加入一些噪聲,然后將這個加了噪聲的數(shù)據(jù)送入AE,使其盡量重構(gòu)出與干凈輸入相同的輸出。DAE 使重構(gòu)輸出對輸入中的噪聲具有一定的魯棒性,降低網(wǎng)絡(luò)對輸入樣本的敏感性。
稀疏自編碼器(SAE)模型是給AE 的隱藏層神經(jīng)元增加一些稀疏性約束,使得隱藏層大部分神經(jīng)元處于抑制的狀態(tài),只有少數(shù)被激活,目的是在保證模型重建精度的基礎(chǔ)上,使隱藏層更加稀疏簡明地表示,提高模型的性能。
稀疏降噪自編碼器(SDAE)模型是融合了DAE 和SAE 兩種模型,以SAE 為基本架構(gòu),輸入數(shù)據(jù)中加入干擾噪聲,模型重構(gòu)輸出的損失函數(shù)是在AE 損失函數(shù)的基礎(chǔ)上增加了稀疏性約束,使得隱藏神經(jīng)元的平均激活值保持在很小的范圍內(nèi)。式(4)給出了SDAE 的損失函數(shù)[8],其中,為稀疏性懲罰因子,β是控制稀疏性懲罰因子的權(quán)重,可取0~1 之間的任意值。
稀疏性懲罰因子如式(5) 所示。
式(5) 中,S為隱藏層中隱藏神經(jīng)元的個數(shù),j為隱藏層中的神經(jīng)元,ρ是稀疏參數(shù),通常是一個接近于0 的較小的值,代表所有訓(xùn)練樣本在j上的平均激活值,aj為j上的激活值。稀疏性懲罰因子采用散度來衡量ρ與之間的差別,在網(wǎng)絡(luò)訓(xùn)練過程中,若與ρ明顯不同時就會進(jìn)行懲罰,達(dá)到對隱藏層神經(jīng)元抑制的效果。
基于深度自編碼器進(jìn)行基站異常度檢測的總體流程如圖2 所示,包括特征參量選取、數(shù)據(jù)準(zhǔn)備、建模以及模型結(jié)果應(yīng)用等幾部分。
圖2 基于深度自編碼器的基站異常度檢測方法總體流程
特征參量選取是要確定能夠反映基站異常程度特性的參數(shù),由于基站退服類重要告警的發(fā)生常伴有次要告警、性能指標(biāo)波動、動環(huán)數(shù)據(jù)波動等,因此選擇故障告警頻次、與運(yùn)維相關(guān)的性能KPI 以及OMC 運(yùn)維指標(biāo)作為基站異常度檢測模型的特征參量。
數(shù)據(jù)準(zhǔn)備主要完成以上特征參量數(shù)據(jù)的采集、預(yù)處理(如剔除無效告警數(shù)據(jù)、按一定粒度進(jìn)行各告警頻次統(tǒng)計(jì)等),以及數(shù)據(jù)格式轉(zhuǎn)換、建立基站異常度檢測運(yùn)維數(shù)據(jù)庫等,抽取該數(shù)據(jù)庫中一定數(shù)量的歷史數(shù)據(jù)就得到模型輸入的樣本集。
建模部分是運(yùn)用深度自編碼器建模方法建立基站異常度檢測模型,具體建模過程見第2.2 節(jié)。由于故障告警數(shù)據(jù)是基于基站級的,性能KPI 數(shù)據(jù)是基于小區(qū)級的,OMC 運(yùn)維指標(biāo)是基于板卡級的,考慮到數(shù)據(jù)粒度不同,因此首先基于以上三種特征參量數(shù)據(jù)分別建立模型,最后再綜合三個模型的輸出結(jié)果(如對模型結(jié)果加權(quán)),對基站進(jìn)行更全面、更精細(xì)化的異常度評測。
模型結(jié)果應(yīng)用是對模型輸出結(jié)果進(jìn)行分析和后評估,如繪制所有待評測基站在評測時間段內(nèi)異常情況的變化趨勢圖、計(jì)算各基站異常程度的排序以及列出TopN異?;绢A(yù)警清單等(包括基站的隱患風(fēng)險(xiǎn)程度、異常項(xiàng)的具體信息等),提供給網(wǎng)絡(luò)運(yùn)維部門作為智能巡檢的數(shù)據(jù)依據(jù)。
(1)建模過程
基于深度自編碼器的基站異常度檢測建模過程實(shí)質(zhì)上就是對輸入的特征參量重構(gòu)的過程,下面以基站故障告警特征參量為例詳細(xì)說明。
圖3 給出了基于稀疏降噪自編碼器的基站故障告警序列重構(gòu)過程[9]。
圖3 基于稀疏降噪自編碼器的基站故障告警重構(gòu)過程
具體步驟如下:
1)對預(yù)處理后的基站原始故障告警序列{x}進(jìn)行加噪處理,得到有隨機(jī)噪聲的模型輸入{x'}。
2)對各隱藏層的神經(jīng)元加入稀疏性約束,將輸入{x'}作為第一層隱藏層輸入,單層訓(xùn)練得到第一層隱藏層的輸出,將該輸出作為第二層隱藏層輸入,依次類推,由下至上逐層訓(xùn)練,直到完成給定數(shù)量的隱藏層的訓(xùn)練,得到初始的網(wǎng)絡(luò)模型參數(shù)。
3)計(jì)算模型的誤差函數(shù)JSDAE(W,b,b′)。
4)迭代訓(xùn)練網(wǎng)絡(luò),利用后向傳播算法和梯度下降算法[10]等,再由上至下逐層進(jìn)行微調(diào),最終得到最優(yōu)化的網(wǎng)絡(luò)模型參數(shù)。
5)當(dāng)總體重構(gòu)誤差達(dá)到最小時,得到重構(gòu)的基站故障告警序列。
(2)模型輸入、輸出及樣本數(shù)據(jù)獲取
模型輸入,就是按照一定的格式要求輸入到基站異常度檢測模型的特征參量數(shù)據(jù),以下分別給出基于故障告警、性能KPI、OMC 運(yùn)維指標(biāo)的三個模型的輸入數(shù)據(jù)說明。
1)故障告警:包含無線、傳輸、動環(huán)的全量告警,模型輸入為在一定時間粒度(如每天)內(nèi)各個告警的頻次,表1 給出了故障告警數(shù)據(jù)輸入樣例。
表1 故障告警數(shù)據(jù)輸入樣例
2)性能KPI:依照專家經(jīng)驗(yàn),篩選出與運(yùn)維相關(guān)的性能KPI,模型輸入為各性能KPI 值,表2 給出了性能KPI 數(shù)據(jù)輸入樣例。
表2 性能KPI數(shù)據(jù)輸入樣例
3)OMC 運(yùn)維指標(biāo):主要有駐波比、設(shè)備溫度、光功率、基站輸入電壓等,模型輸入為各OMC 運(yùn)維指標(biāo)值,表3 給出了OMC 運(yùn)維數(shù)據(jù)輸入樣例。
表3 OMC運(yùn)維數(shù)據(jù)輸入樣例
模型輸出,即通過基站異常度檢測模型得到的輸入數(shù)據(jù)集的重構(gòu)誤差,為歐氏距離,將其作為基站異常度的檢測量。
樣本數(shù)據(jù)獲取,就是通過一定的方式得到模型訓(xùn)練的樣本集,分別通過移動網(wǎng)運(yùn)行的集中故障平臺、網(wǎng)優(yōu)大數(shù)據(jù)平臺以及綜合網(wǎng)管后臺指令方式等,采集相當(dāng)數(shù)量(如6 個月以上)的特征參量數(shù)據(jù),剔除無效數(shù)據(jù),按照以上模型輸入要求完成數(shù)據(jù)處理,最后得到近似基站正常態(tài)的樣本集。
本文基于Python 的Keras 深度學(xué)習(xí)庫搭建深度自編碼器模型,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集選取某省移動公司的基站運(yùn)維數(shù)據(jù),包括歷史6 個月的無線告警、傳輸告警和動環(huán)告警等,下面以基于故障告警的基站異常度檢測模型為例說明算例實(shí)現(xiàn)。
(1)數(shù)據(jù)預(yù)處理
1)在告警數(shù)據(jù)中剔除退服類告警(如小區(qū)不可用告警、鏈路異常告警等);不影響業(yè)務(wù)的告警類型(如證書失效告警、門禁告警等);因工程施工、測試、網(wǎng)絡(luò)割接等導(dǎo)致的異常告警;剔除工程預(yù)約、夜間節(jié)電、載波調(diào)度等白名單基站的告警。
2)統(tǒng)計(jì)每天各個基站發(fā)生各類告警的頻次,根據(jù)時間、基站名稱、基站所屬機(jī)房關(guān)聯(lián)各個維度告警數(shù)據(jù)(包括無線告警141 類、傳輸告警30 類、動環(huán)告警38 類),構(gòu)建訓(xùn)練樣本,共計(jì)86 912 條,如表4 所示。
表4 訓(xùn)練樣本
(2)參數(shù)選擇與優(yōu)化
將以上209 維告警樣本數(shù)據(jù)作為SDAE 模型的輸入,按照上述的建模過程進(jìn)行模型構(gòu)建和訓(xùn)練,選擇的SDAE網(wǎng)絡(luò)參數(shù)見表5。
表5 SDAE網(wǎng)絡(luò)參數(shù)
經(jīng)過實(shí)驗(yàn)訓(xùn)練對比,設(shè)置SDAE 模型隱藏層數(shù)為3 層,隱藏層神經(jīng)元個數(shù)設(shè)置為256、64 和16,稀疏性參數(shù)ρ設(shè)置為0.004,加入10% 的高斯噪聲比。
將訓(xùn)練數(shù)據(jù)輸入SDAE 模型,經(jīng)過200 次迭代訓(xùn)練,誤差函數(shù)JSDAE(W,b,b′) 在0.000 1 左右趨于平緩,如圖4所示,表明該降維序列能夠很好的體現(xiàn)原始序列的特征,有效重構(gòu)原始數(shù)據(jù)。
圖4 告警頻次序列的重構(gòu)誤差
實(shí)驗(yàn)采用5 折交叉驗(yàn)證方法,即將樣本分成5 部分,每次取4 部分做訓(xùn)練,剩余1 部分做測試,共需進(jìn)行5 次驗(yàn)證,取5 次訓(xùn)練后測試集重構(gòu)誤差的平均值作為最終的重構(gòu)誤差。
目前在運(yùn)維工作中,巡檢資源投放缺乏指導(dǎo)手段,傳統(tǒng)的巡檢工作為按計(jì)劃輪巡式安排巡檢任務(wù),不僅造成巡檢資源浪費(fèi),而且巡檢效果也不明顯?;诖藛栴},某省移動公司采用本文提出的基站異常度檢測模型進(jìn)行了LTE 網(wǎng)絡(luò)智能巡檢應(yīng)用試點(diǎn),初步取得了比較好的效果。
智能巡檢應(yīng)用試點(diǎn)以周粒度方式進(jìn)行,首先按照以上第3.1 節(jié)異常檢測模型算法自動計(jì)算出各待測基站的異常度,而后考慮到告警重要程度和基站告警發(fā)生時間對基站當(dāng)周異常程度的影響,在模型結(jié)果的基礎(chǔ)上,增加了告警重要程度和告警發(fā)生時間的加權(quán)項(xiàng):第一步根據(jù)告警級別以及告警是否影響業(yè)務(wù)配置權(quán)重;第二步根據(jù)告警發(fā)生時間與巡檢時間臨近的順序依次按照從高到低權(quán)重進(jìn)行加權(quán)。綜合以上基站異常度評測結(jié)果,排出基站巡檢優(yōu)先級,同時,針對高異常的告警維度生成巡檢重點(diǎn)關(guān)注項(xiàng),并對一周內(nèi)多天高異常度基站給出多天異常的預(yù)警提示,最終輸出TopN基站智能巡檢清單,如表6 所示,其中N可根據(jù)實(shí)際基站規(guī)模以及巡檢資源配置情況靈活選取。
表6 基站智能巡檢清單
本試點(diǎn)進(jìn)行了8 批次(每周為一批次)、1 098 個基站的巡檢,經(jīng)過后評估,巡檢過基站的告警量平均下降50.5%、故障工單量平均下降37.9%,具體每批次巡檢后告警量、工單量下降情況如圖5 所示。
圖5 智能巡檢后評估初步結(jié)果
智能運(yùn)維是未來網(wǎng)絡(luò)運(yùn)維的發(fā)展方向,人工智能在移動網(wǎng)絡(luò)運(yùn)維領(lǐng)域的深度應(yīng)用必將帶來其運(yùn)維模式的變革,推動網(wǎng)絡(luò)運(yùn)維的新發(fā)展。本文研究了無監(jiān)督方式的深度學(xué)習(xí)在基站異常檢測中的應(yīng)用,提出了一種基于稀疏降噪自編碼器的基站異常度檢測方法,該方法可以應(yīng)用于LTE 以及5G 網(wǎng)絡(luò)中。經(jīng)過實(shí)際的應(yīng)用試點(diǎn),驗(yàn)證了該模型能夠有效挖掘基站隱患,為提高運(yùn)維巡檢的有效性、降低運(yùn)維成本提供了有力的支持。進(jìn)一步的工作是對檢測出的基站隱患問題進(jìn)行根因定位,并結(jié)合專家經(jīng)驗(yàn)給出解決措施,形成一套行之有效的基站隱患預(yù)判方案,應(yīng)用到網(wǎng)絡(luò)運(yùn)維的實(shí)際工作中。