萬宏謀 蔡林峰 王榮 中國電信股份有限公司江西分公司 南昌市 330029
關(guān)鍵字:智能化 網(wǎng)絡(luò)故障 維護
云網(wǎng)故障處理的第一個階段主要以人工處理為主,工程師依靠經(jīng)驗進行逐段的網(wǎng)絡(luò)分析、故障定位及處理。第二個階段是人們依托綜合網(wǎng)管系統(tǒng),結(jié)合運維工程師經(jīng)驗和關(guān)聯(lián)規(guī)則進行故障處理。近年來,人工智能(AI)技術(shù)迅速發(fā)展,Gartner 在2016 年提出AIOps的概念,基于AI的云網(wǎng)故障分析和處理,將成為網(wǎng)絡(luò)故障運維的第三階段。
網(wǎng)絡(luò)故障的維護存在以下短板問題:①網(wǎng)絡(luò)告警故障工單的發(fā)起是自動的,而工單流轉(zhuǎn)環(huán)節(jié)中的轉(zhuǎn)派交互是人工的,需大量的人工閱讀、判斷、操作。②大量網(wǎng)絡(luò)告警故障,集中在幾類主要場景,其判斷、處理簡單重復(fù),占用了大量人力操作時間。③告警故障恢復(fù)后,業(yè)務(wù)的恢復(fù)驗證及回單需人工操作,工作量大,效率低。④用戶申告內(nèi)容的分析處理,由人工閱讀判斷,缺乏自動化處理能力。
①應(yīng)用AI技術(shù),進行工單內(nèi)容的NLP分析,實現(xiàn)自動化的故障工單識別轉(zhuǎn)派,避免人工閱讀、分析、轉(zhuǎn)派的操作。②應(yīng)用AI實現(xiàn)典型網(wǎng)絡(luò)故障場景的自動處理,減輕人工處理量;同時,減少故障工單的總體處理時限。③故障恢復(fù)的驗證,由AI執(zhí)行,并自動推送處理人員,自動關(guān)閉工單;④針對申告故障內(nèi)容,進行NLP自動分類、自動處理。
梳理并實現(xiàn)動環(huán)停電、基站斷站、小區(qū)退服、IP端口DOWN、IPRAN開環(huán)、智能片障等主要場景的告警自動處理流程,以下是動環(huán)停電、基站斷站處理流程示例:
圖1 動環(huán)停電工單自動處理流程
圖2 基站斷站故障工單自動處理流程
(1)自動處理的目的
① 告警派單后二次關(guān)聯(lián)處理,自動合并有關(guān)聯(lián)關(guān)系的多張工單。
② 主動調(diào)用網(wǎng)管能力幫助現(xiàn)場確認設(shè)備狀態(tài),輔助校驗。
③ 規(guī)范現(xiàn)場工單回單。
④ 自動結(jié)單,減少人工質(zhì)檢歸檔工作。
(2)實現(xiàn)情況
工單自動處理,目前已完全實現(xiàn)6類工單自動處理目標,覆蓋工單2.3萬余張/月(占比75%),單張工單預(yù)處理時間1-2分鐘。
基于開源深度學習框架BERT模型對現(xiàn)場的故障處理回單內(nèi)容進行NLP分類學習建模,識別回單是否符合規(guī)范。圖3是Transformer模型結(jié)構(gòu)。
圖3 BERT TRANSFORMER模型結(jié)構(gòu)
如圖4所示,在工單處理建模的準確率達到了98%,實際生產(chǎn)環(huán)境中的線上準確率為93%,完全能夠滿足生產(chǎn)需求。
圖4 回單質(zhì)檢模型準確率
◎應(yīng)用場景:在故障工單現(xiàn)場回單后,根據(jù)回單內(nèi)容智能分類,決策進行下一步工單處理的動作,自動進行工單調(diào)度(銷障、轉(zhuǎn)派或退單)。
◎完成情況:通過爬蟲獲取工單回單反饋數(shù)據(jù)70多萬條,由于轉(zhuǎn)派、退單等數(shù)據(jù)量和銷障的數(shù)據(jù)量嚴重不均衡,銷障的量占比99%以上,不能用來全部進行學習訓練,最終選取了5515張銷障數(shù)據(jù)、全部轉(zhuǎn)派數(shù)據(jù)5249張、全部退單數(shù)據(jù)268張,進行訓練,細分場景還是存在不均衡,通過上采樣擴充較少的數(shù)據(jù)樣本。
◎應(yīng)用效果:月度覆蓋工單3萬余張,判斷耗時十幾秒左右。對于識別出的處理場景,結(jié)合后續(xù)的自動處理動作,實現(xiàn)工單的自動結(jié)單、 智能轉(zhuǎn)派或自動退單等自動流轉(zhuǎn)調(diào)度。
圖5 結(jié)單、轉(zhuǎn)派、退單場景的運行時長
圖6 智能轉(zhuǎn)派示例
針對告警恢復(fù),故障是否真正恢復(fù)的問題,開發(fā)自動化驗證程序,解決告警恢復(fù)需人工回單確認的問題,實現(xiàn)主動驗證恢復(fù)工單120余張/天,主動關(guān)閉告警150余條/天,驗證的工單覆蓋100%在途的告警工單。
圖7 全部在途告警工單驗證一輪耗時5分鐘以內(nèi)
每月有大約5000多寬帶用戶申告,由監(jiān)控值班人員人工進行預(yù)處理后,再轉(zhuǎn)派到地市維護崗位進行處理,耗費大量的預(yù)處理及轉(zhuǎn)派時間。梳理自動預(yù)處理流程,通過整合 PON網(wǎng)管、3A能力及工單處理調(diào)度能力,自動進行預(yù)處理及轉(zhuǎn)派,節(jié)省大量的重復(fù)工作,加快工單的流轉(zhuǎn)效率,工單流轉(zhuǎn)歷時1分鐘內(nèi),同時在處理過程中定期進行業(yè)務(wù)恢復(fù)自動測試,輔助現(xiàn)場處理。
圖8 用戶申告工單自動化處理流程
圖9 用戶申告工單的自動流轉(zhuǎn)處理界面
(1)時間節(jié)省
①網(wǎng)絡(luò)故障工單自動預(yù)處理月均處理工單23000余張,單張2分鐘預(yù)處理時間,合計768小時。相比人工平均40分鐘/每張,需15360小時,節(jié)約大量時長。
②工單自動轉(zhuǎn)派月均成功轉(zhuǎn)派工單300余張,單張節(jié)約時間1分鐘,合計5小時。
寬帶客戶申告單月均處理工單5000余張,單張節(jié)約處理時間2分鐘,合計167小時。
合計節(jié)約時間489小時/月,按工作人員月均186小時折合計算,相當于2.6人/月的人工量。
(2)效率提升
自動轉(zhuǎn)派流轉(zhuǎn)耗時1分鐘內(nèi),對比原先人工處置平均耗時38分鐘,效率提升97%。
寬帶用戶申告工單自動預(yù)處理流轉(zhuǎn)耗時1分鐘內(nèi),對比原先人工處置平均耗時9分鐘,效率提升89%。
寬帶用戶申告工單處理時長較年中下降11%,維護作業(yè)單處理時長較年中壓降71%。
綜上所述,本文中將AI和大數(shù)據(jù)技術(shù)應(yīng)用于通信網(wǎng)絡(luò)故障的自動化處理,提升了網(wǎng)絡(luò)故障的自動化處理效率,縮短處理時長,提升了云網(wǎng)運營的效率、服務(wù)水平。當前,基于AI的網(wǎng)絡(luò)智能運維方興未艾,成為通信行業(yè)研究的技術(shù)熱點,在應(yīng)用AI技術(shù)進行網(wǎng)絡(luò)故障的綜合定位、故障隱患的智能預(yù)測、主動發(fā)現(xiàn)等方面,應(yīng)用前景非常廣闊,AI技術(shù)與云網(wǎng)運維的深入結(jié)合,將進一步提升云網(wǎng)智能化運營水平。