何璐璐 杜智超 嵇 聰 章 勇 劉 璐
1 中國移動通信集團云南有限公司 昆明 650228
2 中國移動通信集團設(shè)計院有限公司重慶分公司 重慶 401121
在運營商傳統(tǒng)網(wǎng)絡(luò)運維中,因智慧維護演進路線及自智分級評估不明確,較難對無線網(wǎng)絡(luò)運維域中各項核心能力、子場景進行有效評價,導(dǎo)致出現(xiàn)實際工作目標不清晰、資源投放精準性不高等問題,嚴重影響網(wǎng)絡(luò)運維的效率和成本。針對現(xiàn)有維護域的工作模式,在TM Forum自動駕駛網(wǎng)絡(luò)分級框架的指導(dǎo)原則下,依據(jù)集團自智能力分級細則,并結(jié)合省內(nèi)智慧網(wǎng)絡(luò)運維管理的實際需求出發(fā),亟需構(gòu)建智慧維護平臺,由被動處理問題改為積極預(yù)防問題,從而提高整體資源的利用率和維護效率,實現(xiàn)2025年L4的整體智能水平。
TM Forum自動駕駛網(wǎng)絡(luò)旨在面向消費者和垂直行業(yè)客戶提供全自動、零等待、零接觸、零故障的創(chuàng)新網(wǎng)絡(luò)服務(wù)與ICT業(yè)務(wù),打造自服務(wù)、自修復(fù)、自優(yōu)化的通信網(wǎng)絡(luò),為通信網(wǎng)絡(luò)運維數(shù)智化轉(zhuǎn)型明晰了目標架構(gòu)和實現(xiàn)路徑[1]。自智網(wǎng)絡(luò)目標框架如圖1所示。
圖1 自智網(wǎng)絡(luò)目標框架
結(jié)合自動化基礎(chǔ)理論和通信網(wǎng)絡(luò)特征,完成分級方法標準制定,基本形成產(chǎn)業(yè)共識,并在網(wǎng)絡(luò)運維層面,已進一步細化形成相對完善的分級評估體系,開展規(guī)模評估驗證,如圖2所示。分級評估體系的制定過程包括以下四個方面:1)流程抽象:基于自動化/智能化基礎(chǔ)理論,抽象出網(wǎng)絡(luò)管控通用工作流程;2)確定原則:以“系統(tǒng)”替代“人工”完成工作流程的自主程度作為智能化水平評判基本原則;3)制定方法:根據(jù)各流程的需求優(yōu)先級和產(chǎn)業(yè)成熟度,制定其在分級方法中的演進順序、代際特征;4)評估量化:對單點應(yīng)用/任務(wù)流程分別評估確定級別,對評估范圍整體進行綜合量化統(tǒng)計。
圖2 自智網(wǎng)絡(luò)分級方法和代際特征
其中圖2中自智網(wǎng)絡(luò)等級L0-L5具體內(nèi)容如下。
L0:全流程人工完成。
L1:輔助人工,在執(zhí)行和感知環(huán)節(jié)實現(xiàn)線上采集(記錄),提高工作效率。
L2:自主執(zhí)行,依賴人工預(yù)定義的固化規(guī)則輔助感知和分析過程。
L3:自主感知,根據(jù)人工配置/編排的規(guī)則(規(guī)則解耦),輔助分析/決策。
L4:自主分析/決策,根據(jù)用戶意圖需求自動生成規(guī)則/策略(規(guī)則注智)。
L5:全流程智能化,具備完全意圖管理能力,實現(xiàn)自動演進。
以某省為例,2021年底省內(nèi)運維域中共涉及6個自智網(wǎng)絡(luò)核心能力,共有42個子場景,其中絕大部分處于L2水平,即基于固定規(guī)則的輔助分析階段,整體評級約為2.2,如圖3所示,與L3(網(wǎng)絡(luò)自主感知)近期目標及L4(網(wǎng)絡(luò)自主分析/決策)中遠期目標仍有較大差距,亟需通過建設(shè)智慧維護平臺滿足目前集團現(xiàn)有自智網(wǎng)絡(luò)維護域演進需求,以及契合省內(nèi)實際生產(chǎn)維護“降本增效”的發(fā)展需要。
圖3 自智網(wǎng)絡(luò)能力評估結(jié)果
為實現(xiàn)提升智慧維護網(wǎng)絡(luò)的自智水平目標,通過智慧維護平臺的設(shè)計與實現(xiàn),在故障識別、隱患識別、定界定位、處理方案關(guān)聯(lián)、故障處理、指令巡檢等六大核心能力方面進行重點研究。智慧維護平臺技術(shù)架構(gòu)主要包括原始數(shù)據(jù)采集、數(shù)據(jù)ETL(Extract-Transform-Load)、數(shù)據(jù)存儲和后臺業(yè)務(wù)處理、業(yè)務(wù)處理控制、業(yè)務(wù)展現(xiàn)層5個部分,如圖4所示。
圖4 端到端運維軟件架構(gòu)
其中原始數(shù)據(jù)可通過北向平臺、EOMS工單系統(tǒng)、代維資產(chǎn)管理系統(tǒng)、動環(huán)檢測系統(tǒng)及外部相關(guān)API接口數(shù)據(jù)(地理天氣數(shù)據(jù)信息)進行采集。按照通用數(shù)據(jù)ETL處理方式,將數(shù)據(jù)從來源端經(jīng)過抽取(Extract)、交互轉(zhuǎn)換(Transform)、加載(Load)至目的端,從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終依據(jù)預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫并存儲至Hadoop集群中,通過AI平臺算法及功能(聚類算法、常規(guī)分類算法、異常檢測算法、深度置信網(wǎng)絡(luò)、堆疊自動編碼器、循環(huán)神經(jīng)網(wǎng)絡(luò)等[2-3])結(jié)合專家知識庫進行智能任務(wù)調(diào)度及后臺業(yè)務(wù)處理。業(yè)務(wù)處理控制主要細化各模塊功能,通過相關(guān)業(yè)務(wù)邏輯中間件實現(xiàn)模塊功能。業(yè)務(wù)展現(xiàn)層基于前端公共模塊相關(guān)技術(shù)對站點畫像、區(qū)域畫像、隱患管理、地理化分析等進行界面化呈現(xiàn)。
智慧維護平臺功能架構(gòu)主要由兩大部分組成:網(wǎng)絡(luò)運營中心NOC(Network Operation Center)和現(xiàn)場外線,如圖5所示。
圖5 智慧維護平臺功能架構(gòu)
NOC是實現(xiàn)遠程實時監(jiān)控服務(wù)運營和檢測設(shè)備狀況的網(wǎng)絡(luò)化中心,主要涉及運維設(shè)計、運維監(jiān)控、故障分析、診斷測試等幾大功能模塊,可結(jié)合運營商EOMS(Electric Operation Maintenance System)電子運維系統(tǒng)進行任務(wù)工單派發(fā),將NOC嵌入現(xiàn)有運維流程可提高相關(guān)技術(shù)、流程、組織及管理效率,進而提升網(wǎng)絡(luò)與服務(wù)的穩(wěn)定性與可預(yù)見性。其中運維監(jiān)控、故障分析、診斷測試等模塊主要提升維護域中故障識別、隱患識別、定界定位、處理方案關(guān)聯(lián)等自智網(wǎng)絡(luò)核心能力。
現(xiàn)場外線主要是承載、處理、閉環(huán)EMOS電子運維系統(tǒng)所派發(fā)任務(wù)工單,包括現(xiàn)場維護人員的任務(wù)調(diào)度、資源調(diào)度及部分指令巡檢無法解決的,需要最終現(xiàn)場進行排障巡檢。
3.1.1 運維設(shè)計功能
運維設(shè)計功能主要包括兩部分功能設(shè)計:運維規(guī)則設(shè)計與AI輔助規(guī)則設(shè)計,主要應(yīng)對自智網(wǎng)絡(luò)L3評級標準要求,即將經(jīng)驗規(guī)則從系統(tǒng)中解耦,系統(tǒng)支持圖形化界面自主配置故障識別特征和識別模板,系統(tǒng)基于規(guī)則自動關(guān)聯(lián)跨域故障、隱患,識別網(wǎng)絡(luò)故障事件或隱患事件,并按照解耦的規(guī)則自動定界定位故障原因,生成結(jié)構(gòu)化處理方案,當(dāng)規(guī)則需要調(diào)整時,只需二次配置。
其中運維規(guī)則設(shè)計主要來源于運營商長期積累的相關(guān)運維經(jīng)驗,制定分析規(guī)則、診斷規(guī)則、派發(fā)規(guī)則、調(diào)度規(guī)則、激活規(guī)則等,將上述規(guī)則應(yīng)用于可視化設(shè)計分析中,為自動化運維提供快速設(shè)計能力[4]。
AI輔助規(guī)則設(shè)計則是由傳統(tǒng)技術(shù)專家進行專業(yè)設(shè)計轉(zhuǎn)變?yōu)橥ㄟ^AI技術(shù)輔助進行根因規(guī)則設(shè)計。將相關(guān)網(wǎng)元類型、告警類型、告警信息、告警碼、位置信息等作為輸入項,通過神經(jīng)網(wǎng)絡(luò)相關(guān)算法最終輸出AI輔助規(guī)則[5-6]。
3.1.2 運維監(jiān)控功能
通過對數(shù)據(jù)源、數(shù)據(jù)表等分析進行場景監(jiān)控設(shè)計,可視化呈現(xiàn)多系統(tǒng)、多界面的監(jiān)控。
場景運維監(jiān)控可對網(wǎng)絡(luò)全景監(jiān)控,也可選擇性針對主題監(jiān)控,定制適合實際需求的個性化監(jiān)控功能。將之前被動運維、基本無故障預(yù)測轉(zhuǎn)變?yōu)殡[患故障可預(yù)測及規(guī)避。
3.1.3 故障分析功能
通過部署RCA(Root Cause Analysis)根因分析規(guī)則挖掘工具,根據(jù)算法學(xué)習(xí)出固有規(guī)律,形成規(guī)則放入RCA中進行告警根因查看和告警抑制壓減。
再結(jié)合性能指標、參數(shù)配置、相關(guān)變更情況、問題日志等進行多源關(guān)聯(lián)分析,從而對故障進一步確認,提高故障分析的準確性及效率性。
3.1.4 診斷測試功能
診斷測試功能主要包含人工診斷指令及自動診斷腳本兩部分。
首先通過人工診斷指令下發(fā)至網(wǎng)元管理系統(tǒng)(Element Management System,EMS),再由EMS反饋診斷結(jié)果至人工診斷指令部分;自動診斷腳本可批量生成指令,再由EMS反饋上報相關(guān)診斷報告,將診斷結(jié)果或診斷報告中異常問題自動創(chuàng)建維護工單并指派現(xiàn)場處理,交由現(xiàn)場工單管理,進行后續(xù)流程處理。
3.1.5 工單派發(fā)功能
工單關(guān)聯(lián)RCA的關(guān)聯(lián)規(guī)則,進行根故障派單、子故障合并派單,綜合考慮網(wǎng)絡(luò)拓撲、運維經(jīng)驗等信息,例如同一基站下所有小區(qū)退服,則合并為一個業(yè)務(wù)工單,從源頭減少派單量,提高故障解決效率,如圖6所示。
圖6 工單派發(fā)功能
T1為告警消除最大量時間點,T2為關(guān)聯(lián)指派時間點,T3為告警派發(fā)最長時限,通過分析歷史告警,給出最佳關(guān)聯(lián)時間點閾值,減少消除告警的無效派單量,通過關(guān)聯(lián)減少派單總量,提升運維效率,通過動態(tài)設(shè)置派單時間閾值,追加合并派單,減少無效派單、重復(fù)派單。
3.2.1 故障單處理
集中故障告警平臺針對告警監(jiān)控進行結(jié)果輸出,在創(chuàng)建TT(Trouble Ticket)工單之前,需要等待一定告警清除時間,避免相關(guān)工單追回。當(dāng)系統(tǒng)收到TT的告警清除消息后,可以自動關(guān)閉TT單和相對應(yīng)的WO(Work Order)單,如圖7所示。
圖7 故障單處理
通過運維經(jīng)驗和對歷史工單進行機器學(xué)習(xí)、挖掘工單相關(guān)性規(guī)則,啟動策略歸并重復(fù)工單,去除無效工單。
3.2.2 任務(wù)及資源調(diào)度
對于外部系統(tǒng)派發(fā)的TT單,在某些應(yīng)用場景下,不需要相關(guān)分析處理,可以直接派發(fā)至外場工程師處進行解決。對于這種應(yīng)用場景,系統(tǒng)提供TT單自動受理并派發(fā)子單的功能。當(dāng)系統(tǒng)接收到TT單時,自動以系統(tǒng)超級用戶來受理TT單,然后進行處理,在處理該步驟時可自動選擇生成WO單,并生成子單。智能調(diào)度主要是將任務(wù)通過AI調(diào)度引擎進行工單計劃制訂、位置及路線規(guī)劃、員工能力及工具需求分析,把任務(wù)與資源相結(jié)合達到最佳匹配效果。通過人員調(diào)度、資源調(diào)度、路徑規(guī)劃等可實現(xiàn)工單“零”時間指派、合理安排人員工作任務(wù)量,提升派單準確率、提升平均工單響應(yīng)時長及資源使用效率。
3.2.3 自動巡檢管理
自動巡檢管理主要涉及巡檢配置管理、巡檢規(guī)則管理、巡檢任務(wù)列表、指令適配/執(zhí)行及自動輸出巡檢報告功能,如圖8、圖9所示。
圖9 自動巡檢流程
巡檢配置管理包括基礎(chǔ)數(shù)據(jù)配置管理、設(shè)備網(wǎng)元配置管理、任務(wù)/方案管理及門限/通知管理。
巡檢規(guī)則管理的功能是制定相關(guān)巡檢規(guī)則(專業(yè)網(wǎng)信息、作業(yè)計劃等)以及配置解析規(guī)則。
巡檢任務(wù)列表可對巡檢計劃定義接口、巡檢定時任務(wù),以及查看巡檢任務(wù)列表。
指令適配及執(zhí)行由自動巡檢功能發(fā)現(xiàn)維護類問題,通過模板初始化規(guī)則及指令創(chuàng)建規(guī)則生成巡檢測試工單,再與指令模板進行匹配映射創(chuàng)建巡檢任務(wù),指令執(zhí)行后將指令結(jié)果反饋閉環(huán)輸出巡檢報告。
系統(tǒng)可將相關(guān)維護要求結(jié)合站點資產(chǎn)信息進行綜合呈現(xiàn);歷史數(shù)據(jù)包含告警次數(shù)、故障處理次數(shù)、站點話務(wù)量、數(shù)據(jù)量等信息;地理位置、區(qū)域、地形特征(高山、平原、河岸、洼地等)、耐候性;氣象機構(gòu)輸出的相關(guān)天氣數(shù)據(jù),共同制定動態(tài)巡檢計劃,聚焦故障高發(fā)站點,主動預(yù)防歷史故障重發(fā),減少維護資源的浪費。
3.2.4 隱患管理
隱患管理主要針對異常項目生成智能巡檢告警,自動完成對告警信息的分析,自動生成維護作業(yè)計劃告警工單,維護人員根據(jù)隱患工單來處理隱患問題[7]。
在巡檢設(shè)備上(鐵塔、基站等),放置NFC(Near Field Communication)標簽,通過近距離無線通訊技術(shù),巡檢人員按照路線的設(shè)置,依次到每個地點進行巡檢并自動顯示巡檢內(nèi)容。
4.1.1 站點健康度評估
基于站點設(shè)備種類、性能情況,結(jié)合站點環(huán)境、停電情況、備電時長、站點歷史故障等信息建立站點健康度評估指標體系,并設(shè)定告警閾值自動觸發(fā)維護工單有效預(yù)警,降低站點告警故障。
4.1.2 區(qū)域可視化
采用多種代維指標和站點客觀運行指標,可以實現(xiàn)區(qū)域綜合可視化,以區(qū)域為對象,提供整體指標統(tǒng)計分析,主要提升運維質(zhì)量監(jiān)控能力。
4.1.3 站點維護成本分析
通過對歷史故障維護數(shù)據(jù)包括維護人員、車輛、油機、故障發(fā)生頻率等信息提供站點維護成本數(shù)據(jù),為過程成本量化、站點維護預(yù)算及后續(xù)投標成本核算提供數(shù)據(jù)支撐。
4.1.4 制定站點維護計劃
基于站點重要級別、歷史故障信息、天氣狀況等制定維護計劃,對維護備件提供預(yù)測管理并減少站點故障率,降低單站維護成本。
4.2.1 GIS資產(chǎn)全景圖
以維護網(wǎng)格為基礎(chǔ)單元,對資源信息(人員、車輛、站點、油機)進行實時位置展示,工單關(guān)聯(lián)、軌跡回放,實時了解資源狀況,方便調(diào)度管理。
4.2.2 板卡板件全量監(jiān)控
通過對現(xiàn)網(wǎng)板卡板件的入網(wǎng)時長、現(xiàn)網(wǎng)設(shè)備的返修總數(shù)/比例統(tǒng)計,按省市縣的地理維度、廠家維度、板卡板件的類型維度進行全量監(jiān)控,對存在硬件隱患、頻繁老化返修等問題設(shè)備構(gòu)建“機歷卡”“病例庫”,監(jiān)控中心可全面掌握板卡板件的資源使用及健康度情況。
4.2.3 人員效率指標分析
對人員工單效率指標進行統(tǒng)計分析,包括上站任務(wù)詳細信息及工作時長信息,對車輛效率指標分析,包括上站里程、規(guī)劃里程分析,發(fā)現(xiàn)人員運維效率短板進行改進,提升效率,如表1所示。
表1 效率指標總體統(tǒng)計數(shù)據(jù)
智慧維護平臺在提升自智網(wǎng)絡(luò)水平評級方面,由L2.2提升至L3.0,有效提高了維護域內(nèi)各項工作的管理能力,以及主動預(yù)防性運維及快速應(yīng)急處理能力。隨著實際應(yīng)用的進一步深入,將繼續(xù)完善智慧維護系統(tǒng)的技術(shù)架構(gòu)演進,并將核心能力應(yīng)用深度嵌入問題識別、問題分析、問題處理、問題質(zhì)檢等實際生產(chǎn)環(huán)節(jié),達到助力網(wǎng)絡(luò)運營降本增效的目的。