葉曉斌,姚麗紅,劉惜吾,馬丹丹,程亞鋒(中國聯(lián)通廣東分公司,廣東廣州 510627)
2019年6月6日中國聯(lián)通獲頒5G運營牌照,5G網(wǎng)絡的建設和商用進一步提速。廣東聯(lián)通作為5G 的先發(fā)城市,到2019 年底預計全省開通10 000 個以上5G站點。
5G 網(wǎng)絡建設的推進,促使網(wǎng)絡規(guī)模不斷擴大、網(wǎng)絡復雜度不斷提升,2G/3G/4G/5G 四代同堂,故障修復越來越難。與此同時,傳統(tǒng)的維護手段和工具,如性能監(jiān)控、告警類應用通常處理的數(shù)據(jù)量較小、數(shù)據(jù)相關性分析不足、故障前瞻性預測不夠。對5G網(wǎng)絡和業(yè)務的運行狀況進行持續(xù)有效的監(jiān)控,迅速實現(xiàn)故障恢復是5G業(yè)務保障的重要工作。
AI 技術誕生于20 世紀中葉,幾經(jīng)沉浮,近年來借助現(xiàn)代計算和數(shù)據(jù)存儲技術的迅猛發(fā)展再次復興,凡是給定場景涉及到了數(shù)據(jù)的統(tǒng)計、推斷、擬合、優(yōu)化及聚類,AI 均能找到其典型應用。目前,AI 應用已經(jīng)滲透到語音識別、圖片識別、視頻識別等技術領域,覆蓋行業(yè)包括車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等。
AI 技術為5G 網(wǎng)絡運維面臨的挑戰(zhàn)提供了一種超越傳統(tǒng)理念與性能的可能,已成為業(yè)界重點關注的研究方向,3GPP、ITU 等組織均提出了5G 與AI 相結合的研究項目。AI 取代緩慢易錯的人力決策部分,快速給出決策建議或提前規(guī)避故障,基于AI的運維創(chuàng)新將大大提升網(wǎng)絡運維效率。
廣東聯(lián)通2018 年底啟動“5G+AI 項目組”,選取基站及回傳網(wǎng)的主要故障場景進行了詳盡的分析,提出了基于AI的基站及回傳網(wǎng)故障定因解決方案,方案主要包括三大部分。
a)資源管理:通過移動回傳網(wǎng)與基站的資源動態(tài)關聯(lián),實時感知業(yè)務狀態(tài)。
b)事件推理:基于設備日志的學習及抓取,還原網(wǎng)絡中的關聯(lián)事件,提供最佳搶修建議。
c)根因定位:對關聯(lián)事件中的關鍵信息進行學習,由專家進行標注,直達故障根源。
廣東聯(lián)通目前無線基站數(shù)量已經(jīng)超過12萬,作為回傳網(wǎng)的IPRAN 設備數(shù)也已經(jīng)超過3萬,隨著5G 網(wǎng)絡建設的進一步加快,網(wǎng)元數(shù)量會更多。按照傳統(tǒng)的資源管理模式,廣東聯(lián)通要安排至少22個專職的工程師進行網(wǎng)絡資源數(shù)據(jù)的管理。
作為整個方案的基礎,提出通過基于基站與回傳網(wǎng)的信令鏈監(jiān)測,實現(xiàn)資源自動關聯(lián),同時做到4G/5G基站的自動識別,在故障處理時強化業(yè)務感知能力。基站和回傳網(wǎng)資源數(shù)據(jù)的自動識別為AI 算法在事件推理和根因分析中的應用提供必備的基礎。
目前IPRAN 網(wǎng)絡中對基站的地址管理,網(wǎng)絡部署方案采用L2VPN+L3VPN(簡稱L2+L3)和L3VPN+L3VPN(簡稱L3+L3)2 種,在不同的網(wǎng)絡部署方案中,基站的網(wǎng)關會配置在不同角色的設備上,其中L2+L3組網(wǎng)的基站網(wǎng)關配置在匯聚設備ASG,L3+L3 組網(wǎng)中基站網(wǎng)關配置在CSG上。
L2+L3基站發(fā)現(xiàn)流程如圖1所示。
a)無線側:通過FTP 服務器獲取無線基站相關信息,包括基站名稱、MAC、IP地址、GPS信息等。
b)IPRAN 側:采集所有基站的MAC 地址、IP 地址,采集ASG 至CSG PW 的連接信息,構建CSG 與基站MAC的關系。
c)無線側與IPRAN 跨專業(yè)關聯(lián):通過基站MAC與IP把無線的基站信息與IRPAN的CSG進行關聯(lián)。
L3+L3基站發(fā)現(xiàn)流程如圖2所示。
圖1 L2+L3基站發(fā)現(xiàn)流程
圖2 L3+L3基站發(fā)現(xiàn)流程
a)無線側:通過FTP 服務器獲取無線基站相關信息,包括基站名稱、MAC、IP地址、GPS信息等。
b)IPRAN 側:采集所有基站的MAC 地址、IP 地址,構建CSG與基站MAC的關聯(lián)關系。
c)無線側與IPRAN 跨專業(yè)關聯(lián):通過基站MAC與IP把無線的基站信息與IRPAN的CSG進行關聯(lián)。
以廣東某地(市)為例,通過上述方式發(fā)現(xiàn)的基站占比到達98%,準確度100%。
研究發(fā)現(xiàn),基站如支持新一代發(fā)現(xiàn)協(xié)議,如LLDP,系統(tǒng)可以通過60 s 刷新的粒度進行監(jiān)測,滿足后續(xù)分析的需要。
基于基站及回傳網(wǎng)設備的資源信息,系統(tǒng)可以快速收集全量網(wǎng)絡日志信息,并通過AI算法實現(xiàn)事件推理,最大程度地還原網(wǎng)絡發(fā)生的事件,從而給出最佳的搶修建議。事件推理通過離線分析積累故障經(jīng)驗庫,通過在線分析推理出故障原因。系統(tǒng)架構如圖3 所示。
圖3 事件推理技術架構
日志量、模塊數(shù)異常檢測:以5 min 的顆粒度對日志量以及模塊數(shù)以3σ準則進行異常數(shù)量檢測,假設當前時刻t6 的日志量和模塊數(shù)分別為N6 和C6,分別計算出前6 個周期(t0~t5)的日志量和模塊數(shù)的均值u1、u2和方差σ1、σ2,若(|N6-u1|>3 σ1)and(|C6-u2|>3σ2)則判定此時刻的日志為疑似異常,觸發(fā)日志異常檢測模塊。
日志截?。夯谌罩玖?、模塊數(shù),對疑似異常時間段取前后5 min 日志進行截取分析。對日志以10 s 時間粒度為界限,以滑動窗口方式進行截取,若10 s內出現(xiàn)新的日志窗口繼續(xù)后延10 s,直至無日志出現(xiàn)。
如將09:30:39 的數(shù)據(jù)進行合并,10 s 內的日志歸并為同一事件所產(chǎn)生的日志,即09:30:39—09:30:43的日志為同一個事件的日志。同理09:31:09—9:31:11的日志共4條為同一事件的日志。
基于日志內容NLP 異常檢測:基于歷史日志,使用異常檢測算法Autoencoder 對截取的日志內容進行異常檢測,判斷日志內容是否為異常。該方法采用autoencoder 作為編解碼器,分別為編碼encoder 與解碼decoder,其中encoder 和decoder 分別有2 層,其中encoder參數(shù)分別為16維、8維,decoder參數(shù)分別為8維、16維,輸入one-hot編碼的文本。
日志分類模型:若檢測日志內容為異常,利用離線訓練好的分類模型,對日志內容進行類別區(qū)分。
故障推理:故障推理是根據(jù)故障日志類別與故障經(jīng)驗庫進行比較,識別出故障類型,并根據(jù)日志中關鍵信息,提取出故障主體信息,從而繪制出完整的故障事件。
系統(tǒng)通過對日志信息的提取和分析,對關聯(lián)事件中的關鍵信息進行學習,并由專家進行標注,直達故障根源。
以日志The physical status of the port changed to Down.(EntPhysicalName=“GigabitEthernet0/5/0”,hw-PortDownReason=“LOS”)為例:
a)提取日志模板:將檢測出異常的日志,轉換為數(shù)字詞典的形式,同一類日志對應同一個數(shù)字,并提取其中變量,如案例日志提取為:[日志1,“GigabitEthernet0/5/0”,“LOS”]。
b)抽取重要日志:由專家進行標注訓練二分類模型,實現(xiàn)抽取性文本摘要功能,抽取出能反映根因的日志,并按照日志手冊返回時間、可能原因以及處理意見。
c)工程師注解:光丟失,建議派單至傳輸專業(yè)。
以廣東某地(市)2019 年3 月25 日發(fā)生雙開故障為例,通過該方法快速感應到故障所在位置,并且快速得出故障根因。
通過移動回傳網(wǎng)與基站的資源動態(tài)關聯(lián)快速感應到故障所在位置(見圖4)。
圖4 故障所在環(huán)路拓撲圖
3.2.1 流量異常告警
環(huán)路中的ASG 設備接口GigabitEthernet4/0/4 從2019-03-25T14:15就開始陸續(xù)出現(xiàn)流量異常告警。
3.2.2 日志異常告警
系統(tǒng)實時檢測環(huán)路中的設備,以5 min的顆粒度對日志量以及模塊數(shù)以3σ準則進行異常數(shù)量檢測,發(fā)現(xiàn)設備10.28.74.14在2019-03-25的14:15和14:50都有日志預警,該設備日志數(shù)量環(huán)比上升2 266%,日志成分數(shù)量環(huán)比上升466.6%,超過3σ 準則動態(tài)閾值,判定此時刻的日志為異常。此外算法還監(jiān)控到設備10.28.74.11 在2019-03-25 的14:50、設備10.28.74.19在2019-03-25的15:40均有日志異常。
上述算法識別出來的異常事件點的日志進一步模板格式化,為每一條日志打上分類標簽,并分配一個離線訓練好的模板ID,調用日志內容NLP 異常檢測算法Autoencoder,檢測到設備10.28.74.14 日志的還原誤差是918.2828993、設備10.28.74.22 日志的還原誤差是908.7424327、設備10.28.74.11 日志的還原誤差是595.5569471,還原誤差均超過誤差閾值50(經(jīng)驗設定值)。
系統(tǒng)通過算法Autoencoder 分析出<10.28.74.14>、<10.28.74.22>、<10.28.74.11>3 臺設備日志有異常。同時,捕捉到<10.28.74.14>設備在2019-03-25T14:17:18 有環(huán)口鏈路中斷日志,在2019-03-25T17:07:34有環(huán)口鏈路中斷恢復日志;捕捉到<10.28.74.22>設備在2019-03-25T14:49:00 有環(huán)口鏈路中斷日志,在2019-03-25T15:38:32 有環(huán)路鏈路恢復日志;算法捕捉到<10.28.74.11>設備在2019-03-25T14:49:00 有環(huán)口鏈路中斷日志,在2019-03-25T15:38:32 有環(huán)路鏈路恢復日志。
根據(jù)捕捉到的異常日志中的關鍵信息,結合故障主體信息,從而繪制出完整的故障事件。
與故障經(jīng)驗庫進行比較,進一步推理識別出故障類型,分析該故障的根因為鏈路雙開:2019-03-25T04:49,某地(市)AR**環(huán)路雙開引起大面積斷站。
基于研究的成果,先后在廣東聯(lián)通多個地(市)進行測試驗證,試點應用情況如下。
2019 年5 月在廣東某地(市)開始試用,完成2 次搶修驗證,搶修優(yōu)先級統(tǒng)籌時間由30 min 大幅縮減至3 min,提速90%。
對于故障的定因分析,2019 年5 月開始某地(市)試點,在線監(jiān)測分析22 個接入環(huán)、200 臺設備的日志,基于日志對歷史故障離線驗證5 次,跟工程師驗證效果吻合,準確率100%。
綜上所述,基于AI 的基站及回傳網(wǎng)故障定因方案,可以借助AI 算法和IT 系統(tǒng)的能力,切實解決困擾運維部門的維護難題,為廣東聯(lián)通在5G網(wǎng)絡運維提供了高效可行的技術手段,有望在未來的5G網(wǎng)絡運維中大幅提升工作效率和降低運營成本。