張國光,趙占強(qiáng),許國平,孫 宏,趙 煜,褚 旭(.中國聯(lián)通江蘇省分公司,江蘇南京 009;.中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,北京 00033)
隨著5G 時代來臨,AI 技術(shù)蓬勃發(fā)展,新業(yè)務(wù)和新應(yīng)用不斷涌現(xiàn),業(yè)界已經(jīng)認(rèn)識到需要一個高度智能的自動化網(wǎng)絡(luò),中國聯(lián)通以5G 建設(shè)為契機(jī),全面引入云化、大數(shù)據(jù)、智能化等技術(shù),探索網(wǎng)絡(luò)自動化與智能化轉(zhuǎn)型升級之路,并于2020 年5 月發(fā)布了《中國聯(lián)通自動駕駛網(wǎng)絡(luò)白皮書V1.0》,首次公布了構(gòu)建中國聯(lián)通自動駕駛網(wǎng)絡(luò)目標(biāo)架構(gòu)的關(guān)鍵要素和網(wǎng)絡(luò)智能化指數(shù)的分級評估方法,為電信產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型提供指導(dǎo)。2019年6月6日,工信部頒發(fā)5G牌照,2019年9月中國聯(lián)通、中國電信聯(lián)合推進(jìn)5G 網(wǎng)絡(luò)共建共享,加快5G 網(wǎng)絡(luò)部署。5G 新技術(shù)、新網(wǎng)絡(luò)給運維帶來新變化、新挑戰(zhàn),網(wǎng)絡(luò)NFV 化、基礎(chǔ)設(shè)施IT化、第三方新應(yīng)用常態(tài)化,也給網(wǎng)絡(luò)運維運營帶來新挑戰(zhàn)。
隨著5G 網(wǎng)絡(luò)的部署,運營商將會面對4 代共存的復(fù)雜網(wǎng)絡(luò),設(shè)備存量與技術(shù)復(fù)雜度都成倍增加,基于當(dāng)前的運維生產(chǎn)關(guān)系與生產(chǎn)力預(yù)測,未來1~2 年內(nèi)運維優(yōu)化人力需求將會有大幅度的持續(xù)增長,但隨著大數(shù)據(jù)、AI 技術(shù)的不斷成熟,將會持續(xù)驅(qū)動運維工作自動化、優(yōu)化智能化程度提升,預(yù)期5G 試商用的2~3 年后運維人力會回歸當(dāng)前規(guī)模,甚至通過運維模式轉(zhuǎn)變低于當(dāng)前人力規(guī)模并持續(xù)優(yōu)化組織人員,提升運維效率。
2.1.1 方案架構(gòu)
5G 自動化排障方案架構(gòu)如圖1 所示。其主要特點如下:
a)自動識別根因告警,基于根因告警生成衍生告警和派單,提升派單準(zhǔn)確性。
b)自動統(tǒng)計規(guī)模退服所影響的基站數(shù)量,并支持導(dǎo)出退服告警清單,縮短規(guī)模退服通報時長。
c)提供故障根因診斷結(jié)果和關(guān)聯(lián)拓?fù)鋱D查詢,提升代維人員故障處理效率。
d)通過故障自動愈合,減少工單數(shù)量,降低運維成本。
2.1.2 5G自動化排障業(yè)務(wù)流程
如圖2 所示,整個5G 智能排障業(yè)務(wù)流程分為2 個部分:故障跨域根因定位和故障自動診斷和愈合。
2.1.2.1 故障跨域根因定位
圖1 5G自動化排障方案架構(gòu)
圖2 5G智能排障業(yè)務(wù)流程
故障跨域根因定位包括如下關(guān)鍵步驟。
a)從資源平臺采集的資源存入資源模型庫。
b)通過拓?fù)溥€原算法,將各個獨立的資源,還原成有跨域鏈接關(guān)系的拓?fù)洹?/p>
c)RCA 分析模塊利用跨域關(guān)聯(lián)規(guī)則和拓?fù)滟Y源模塊信息,對海量跨域告警進(jìn)行分析,輸出定位根因。
d)將定位根因返回給綜合監(jiān)控系統(tǒng)。
至此,系統(tǒng)通過一系列的自動化和智能化手段,完成跨域告警的定界和定位。
2.1.2.2 跨域根因RCA算法
RCA 模塊為跨域告警關(guān)聯(lián)引擎,通過調(diào)用跨域關(guān)聯(lián)規(guī)則與網(wǎng)絡(luò)拓?fù)洌I(yè)務(wù)路徑)對實時告警進(jìn)行關(guān)聯(lián),識別跨域P/C關(guān)系。
支持跨域告警關(guān)聯(lián)及壓縮,通過告警邏輯運算以及規(guī)則配置,系統(tǒng)給符合規(guī)則告警進(jìn)行PC 標(biāo)注(規(guī)則關(guān)聯(lián)類型=P/C/KC),方便運維人員在告警列表中觀察重要告警,以提升監(jiān)控效率。
跨域告警關(guān)聯(lián)(RCA)技術(shù)方案如圖3所示。
a)將拓?fù)溥€原模塊輸出的“通用拓?fù)渎窂奖恚╨ink)”進(jìn)行數(shù)據(jù)抽取,抽取后按照一定的資源模型算法運算,計算出拓?fù)涠淤Y源模型。即通用拓?fù)渎窂奖砝锏臄?shù)據(jù),包含了各個層次的結(jié)果,但是RCA 跨域關(guān)聯(lián)可能只需要某一層次的結(jié)果。
b)將拓?fù)涠淤Y源數(shù)據(jù)放入Redis 高速緩存,便于RCA引擎調(diào)用。
c)告警過濾:通過過濾規(guī)則篩選出要做RCA分析的告警。
d)告警-資源映射:根據(jù)映射規(guī)則抽取告警字段中的值拼接成資源模型ID,如果拼接的資源模型ID在拓?fù)滟Y源庫中存在,則建立告警和拓?fù)滟Y源模型的映射關(guān)系。
e)狀態(tài)傳遞:在拓?fù)渎窂街袠?biāo)注受影響的資源節(jié)點(Eg:A→B→C,發(fā)現(xiàn)A有故障告警,則將B,C也做上標(biāo)記)。
f)跨域關(guān)聯(lián):根據(jù)告警關(guān)聯(lián)關(guān)系規(guī)則,查看受影響的資源節(jié)點是否有對應(yīng)的告警,并分析出根因告警及子告警(Eg:查找B,C 上是否也有對應(yīng)的故障告警,若B 有,C 沒有,則將A 節(jié)點故障告警標(biāo)識為P(Parent),B節(jié)點故障告警標(biāo)識為C(Child))。
g)關(guān)聯(lián)結(jié)果回寫:在RCA 關(guān)聯(lián)分析完成后,需要對分析的結(jié)果進(jìn)行合并,因為一個告警可能存在于多個跨域場景中,必須對此類告警的結(jié)果進(jìn)行合并。在合并完成后,將關(guān)聯(lián)結(jié)果(RCA Result:P/C)回寫到告警的RCA Result字段。
其中,RCA 資產(chǎn)包中告警過濾/關(guān)聯(lián)關(guān)系規(guī)則(PC),也可通過AABD 智能算法基于歷史告警&拓?fù)鋽?shù)據(jù)自動生成,生成后由專家再進(jìn)行優(yōu)化。
2.1.3 故障自動診斷及愈合
故障自動診斷及愈合包括如下關(guān)鍵步驟。
a)通過綜合告警監(jiān)控系統(tǒng)采集告警,入告警管理庫。
b)匹配到診斷規(guī)則庫中的診斷規(guī)則,觸發(fā)診斷流程。
c)診斷流程中觸發(fā)對應(yīng)的診斷執(zhí)行動作,通過統(tǒng)一指令平臺下發(fā)到對應(yīng)的設(shè)備。
圖3 跨域告警關(guān)聯(lián)流程
d)滿足復(fù)位條件時,復(fù)位決策模塊進(jìn)行復(fù)位。
e)最后將診斷根因和自愈結(jié)果再回寫到對應(yīng)的告警信息中。
至此,系統(tǒng)通過一系列的自動化手段,完成了對告警的診斷和愈合,找到了根因并完成告警的自愈。
2.1.3.1 診斷模塊
通過診斷表或診斷API 匹配故障規(guī)則、故障樹實現(xiàn)故障診斷,診斷成功時,輸出對應(yīng)的根因和處理建議,并具備把可進(jìn)行遠(yuǎn)程恢復(fù)的故障,推送到故障事件恢復(fù)子模塊能力。
a)基于診斷表診斷:對于有些故障場景,在原始告警中已經(jīng)攜帶根因,或者故障識別模塊已經(jīng)分析出根源告警,則無需再進(jìn)行深入診斷,這一類故障,可通過配置一些診斷表的規(guī)則快速診斷,減少系統(tǒng)開銷。
b)基于診斷命令診斷:對于通過告警無法直接得到故障根因的場景,則需要向設(shè)備下發(fā)命令進(jìn)行深入診斷。
2.1.3.2 恢復(fù)模塊
實現(xiàn)故障事件恢復(fù)前的業(yè)務(wù)影響查詢判決,對滿足遠(yuǎn)程恢復(fù)條件的故障事件進(jìn)行遠(yuǎn)程恢復(fù),并對遠(yuǎn)程恢復(fù)的結(jié)果進(jìn)行確認(rèn)。記錄所有的遠(yuǎn)程恢復(fù)日志和結(jié)果信息。
故障事件診斷及恢復(fù)流程如下。
a)接收事件識別模塊傳遞的事件信息,或者直接從數(shù)據(jù)采集和治理模塊接收告警數(shù)據(jù)。
b)根據(jù)故障識別模塊傳遞的“是否需要ADX”標(biāo)識,判決是否需要啟動該時間對應(yīng)的診斷流程,如果該標(biāo)識為“否”,不用啟動診斷任務(wù)。如果該標(biāo)識為“是”,進(jìn)入場景判決。
c)根據(jù)“設(shè)備領(lǐng)域”字段進(jìn)行判決,當(dāng)前“設(shè)備領(lǐng)域”為“無線”時,進(jìn)入現(xiàn)像告警判決。
d)當(dāng)“現(xiàn)象告警”為“告警ID/告警名稱”時,進(jìn)入“XXX”對應(yīng)的診斷支持診斷流程。
e)根據(jù)“現(xiàn)象告警”告警中,攜帶的告警源,在Datahub中,查詢到對應(yīng)的物理站點、機(jī)房站點信息、對應(yīng)的控制器父節(jié)點信息等關(guān)聯(lián)站點的信息。
f)通過查詢到的關(guān)聯(lián)物理站點信息、機(jī)房站點信息,獲取在規(guī)定時間窗內(nèi)該站點的全量告警信息。
g)如果需要基礎(chǔ)公共信息,登陸對應(yīng)的物理站點或者父節(jié)點信息,下發(fā)MML 命令,獲取對應(yīng)的公共參數(shù)信息。
h)根據(jù)故障樹,故障規(guī)則,診斷輸出診斷根因、診斷概要、處理建議;如果診斷模塊中,未診斷輸出根因,調(diào)用OWS 系統(tǒng)功能AI 模塊,根據(jù)歷史根因,提供推薦根因。
i)通過接口模塊輸出診斷結(jié)論到SDM 模塊或者事件模塊,對具備恢復(fù)能力的故障,傳遞恢復(fù)需要的參數(shù)X 柜X 框X 槽X 端口號、設(shè)備類型、設(shè)備編號等信息到恢復(fù)模塊。
j)恢復(fù)模塊收到診斷模塊信息后,判斷告警是否恢復(fù),生成對應(yīng)的恢復(fù)腳本。
k)收集恢復(fù)預(yù)置條件數(shù)據(jù),判決本次恢復(fù)是否會影響本制式的其他小區(qū)業(yè)務(wù)、是否會影響其他制式的小區(qū)業(yè)務(wù)。當(dāng)預(yù)置條件滿足的時候,進(jìn)入恢復(fù)流程。
l)執(zhí)行恢復(fù)措施,并對恢復(fù)結(jié)果進(jìn)行驗證。
2.1.3.3 應(yīng)用場景
單域:完成5G 小區(qū)不可用、gNodeB 退服智能排障場景。
跨域:完成單域/跨域告警關(guān)聯(lián)、拓?fù)溥€原的基礎(chǔ)功能驗證。
2.2.1 5G網(wǎng)絡(luò)優(yōu)化面臨的挑戰(zhàn)
5G網(wǎng)絡(luò)優(yōu)化面臨如下挑戰(zhàn)。
a)5G 產(chǎn)品形態(tài)豐富,單產(chǎn)品安裝特性、質(zhì)量和前期產(chǎn)品有較大的差異,RF 調(diào)整更加復(fù)雜,需要專門的輔助工具,增加了傳統(tǒng)人工RF優(yōu)化方式的難度。
b)需要同時考慮SSB 和CSI-RS 兩層波束覆蓋優(yōu)化,權(quán)值不同,一損俱損。
c)道路與整網(wǎng)覆蓋優(yōu)化如何兼顧?
d)G/U/L/NR 多制式共天饋,RF 優(yōu)化難度大幅增加。
2.2.2 基于Pattern尋優(yōu)的5G網(wǎng)絡(luò)優(yōu)化智能化
基于當(dāng)前的優(yōu)化挑戰(zhàn)以及降本增效的大趨勢,本文嘗試基于5G MIMO 特性的波束優(yōu)化研究,分別選取點、面進(jìn)行基于Pattern 尋優(yōu)的5G 網(wǎng)絡(luò)優(yōu)化智能化試點。通過大數(shù)據(jù)以及智能算法的支撐,不僅解決了傳統(tǒng)人工優(yōu)化存在的各類問題,而且大大減少了傳統(tǒng)人工優(yōu)化周期長、不能兼顧、大量人員車輛投入等一系列問題。不僅可以更精準(zhǔn)快速地解決網(wǎng)絡(luò)問題,而且大大降低了同樣優(yōu)化效果的成本投入。
通過設(shè)定的弱覆蓋、干擾和重疊覆蓋的優(yōu)化目標(biāo),結(jié)合準(zhǔn)確的數(shù)據(jù)輸入,對數(shù)據(jù)進(jìn)行柵格化評估得出質(zhì)差網(wǎng)格,然后利用迭代尋優(yōu)算法對質(zhì)差網(wǎng)格進(jìn)行多次模擬優(yōu)化直到總體網(wǎng)絡(luò)性能達(dá)到設(shè)定的優(yōu)化目標(biāo),最后將優(yōu)化方案輸出并預(yù)測優(yōu)化結(jié)果。
Pattern 尋優(yōu)主要是通過參數(shù)調(diào)整AAU 的覆蓋場景、數(shù)字方位角、數(shù)字下傾角來提升柵格級、小區(qū)級、網(wǎng)絡(luò)級的指標(biāo)。為應(yīng)對覆蓋場景的多樣性,當(dāng)前5G Massive MIMO 波束具備覆蓋場景、水平波瓣、垂直波瓣調(diào)整能力,共支持17類覆蓋場景(見表1)。
表1 17類覆蓋場景
根據(jù)不同的覆蓋目標(biāo)和覆蓋場景,Pattern 尋優(yōu)會充分考慮SSB 波束和CSI 波束覆蓋,自動選擇最優(yōu)化的覆蓋場景ID 并給出最優(yōu)的方位角、下傾角搭配,充分考慮外包絡(luò)天線的覆蓋,可以實現(xiàn)單點及連片區(qū)域的網(wǎng)絡(luò)質(zhì)量、用戶感知的提升,可以通過后臺調(diào)整快速響應(yīng),免去了塔工上站工作。
Pattern尋優(yōu)圍繞通信網(wǎng)絡(luò)優(yōu)化智能化,基于DT數(shù)據(jù)、現(xiàn)網(wǎng)工參對優(yōu)化區(qū)域設(shè)定目標(biāo),對SSB 弱覆蓋、SINR 質(zhì)差和重疊覆蓋路段進(jìn)行識別,然后通過參數(shù)迭代調(diào)優(yōu)提升道路覆蓋、質(zhì)量、速率等網(wǎng)絡(luò)指標(biāo)。實現(xiàn)技術(shù)主要分為以下幾個方面。
a)高維解空間迭代尋優(yōu)?;谠O(shè)定的參數(shù)調(diào)整優(yōu)先級,搜索各小區(qū)Pattern 和RF 參數(shù)最佳取值(見圖4)。
圖4 Pattern尋優(yōu)迭代示意
b)網(wǎng)絡(luò)質(zhì)量評分和增益預(yù)測?;趦?yōu)化目標(biāo)和權(quán)重計算進(jìn)行網(wǎng)絡(luò)質(zhì)量評分(Fitness),計算調(diào)整前后分值變化,預(yù)測優(yōu)化增益,正增益保留并繼續(xù)尋優(yōu),負(fù)增益回退。Fitness 計算公式如下:Fitness=wrsrp×SSB_RSRPf+woverlap×Overlapf+wsinr×SSB_SINRf基于DT實測數(shù)據(jù)獲取空間初始路損,在迭代尋優(yōu)過程中,基于3D 天線文件和BT 傳播模型,計算RF 或Pattern 參數(shù)調(diào)整后天線增益和路損的變化,準(zhǔn)確預(yù)測RF調(diào)整后各柵格內(nèi)各小區(qū)的RSRP 變化,并進(jìn)一步預(yù)測優(yōu)化后的SINR以及重疊覆蓋率指標(biāo):
Step1:計算初始路損
Pathloss=TX Power -Feeder loss+Antenna Gain-RSRPbefore。
Step2:計算天線增益變化。
Step3:利用BT傳播模型仿真路損變化。
c)波束場景選擇。基于地物矢量輪廓確定水平和垂直波寬可調(diào)范圍。Pattern 尋優(yōu)目前已集成14 款A(yù)AU 及RRU 天線文件,遍歷所有波束場景、數(shù)字傾角和數(shù)字方位角組合,并考慮時隙配比、波束加密等特性對波束數(shù)量的影響,單款A(yù)AU 天線文件數(shù)超過10 000+,支持SSB 波束方向圖3D 和2D 呈現(xiàn),支持廣播波束Pattern 全量范圍尋優(yōu)。天線文件能夠表征AAU 或無源天線在三維空間中各個方向(水平0~359°,垂直-90~90°,步長1°)上的天線增益,是Pattern 尋優(yōu)覆蓋預(yù)測的重要輸入。為提高工具運行效率,數(shù)字方位角以5°為步長進(jìn)行迭代尋優(yōu)。
d)建模優(yōu)化。在Cluster 單用戶峰值速率優(yōu)化場景,綜合考慮道路周邊小區(qū)的覆蓋、質(zhì)量、速率和距離等因素,進(jìn)行各條路段最優(yōu)服務(wù)小區(qū)建模(即切換鏈建模),并基于建模結(jié)果進(jìn)行RF參數(shù)尋優(yōu),以獲得更好的道路覆蓋和峰值速率。具體如下:
(a)候選小區(qū)集合:篩選每個路測采樣點上與最強(qiáng)小區(qū)的RSRP差值在6 dB內(nèi)的小區(qū)作為候選集。
(b)質(zhì)量排序:綜合考慮SINR、速率、距離、扇區(qū)朝向等因素進(jìn)行候選小區(qū)排序。
(c)異常小區(qū)排除:排除存在越區(qū)覆蓋、覆蓋不連續(xù)和采樣點數(shù)量小于10的候選小區(qū)。
(d)生成最優(yōu)切換鏈:考慮候選小區(qū)排序和減少切換因素,生成各路段目標(biāo)服務(wù)小區(qū)輸出調(diào)整方案。
2.2.3 5G網(wǎng)絡(luò)優(yōu)化智能化應(yīng)用
5G網(wǎng)絡(luò)優(yōu)化智能化具體操作流程如下。
a)數(shù)據(jù)采集。采集準(zhǔn)確的工程參數(shù)、電子地圖、DT測試數(shù)據(jù)、現(xiàn)網(wǎng)XML配置數(shù)據(jù)。
b)現(xiàn)網(wǎng)覆蓋問題評估。通過得到的數(shù)據(jù)進(jìn)行弱覆蓋、質(zhì)差問題柵格識別。
c)迭代尋優(yōu)。對識別出的問題柵格進(jìn)行區(qū)域性匯聚,并分析問題區(qū)域之間的關(guān)聯(lián)性以及相關(guān)覆蓋小區(qū),隨后對相關(guān)覆蓋小區(qū)進(jìn)行優(yōu)先級排序并分析問題小區(qū)當(dāng)前參數(shù)設(shè)置,隨后嘗試對問題小區(qū)的參數(shù)設(shè)置修改并建模模擬調(diào)整后效果,將模擬出的效果與設(shè)置的優(yōu)化目標(biāo)進(jìn)行對比,若不滿足設(shè)定的優(yōu)化效果則繼續(xù)對相關(guān)小區(qū)進(jìn)行參數(shù)調(diào)整,直至模擬出的效果滿足設(shè)定的優(yōu)化目標(biāo)。
d)參數(shù)優(yōu)化調(diào)整。輸出優(yōu)化調(diào)整建議,包括覆蓋場景選擇(17 種可選覆蓋方案)以及相應(yīng)的數(shù)字方位角和數(shù)字下傾角設(shè)置。
以某試驗區(qū)為例,Pattern尋優(yōu)方案利用5G的Massive MIMO 特性,在大型綜合居民密集區(qū)域,對不同場景使用不同Pattern 進(jìn)行立體覆蓋調(diào)優(yōu)。仿真結(jié)果顯示SSB RSRP≥-115 dBm的室內(nèi)覆蓋率提升10.86%,根據(jù)仿真結(jié)果進(jìn)行方案調(diào)優(yōu)后,選取高層樓宇、中層樓宇進(jìn)行實地測試來驗證。
Pattern 調(diào)優(yōu)前后,室內(nèi)CQT 測試,低、中層樓宇覆蓋稍微改善,高層樓宇調(diào)優(yōu)前無信號,調(diào)優(yōu)后覆蓋改善明顯(見圖5)。
圖5 改善對比分析圖
5G 維護(hù)自動化以5G 智能故障管理解決方案為主,聚焦故障識別與故障診斷、自動化排障。通過采集各領(lǐng)域的告警與資源信息,還原出無線與IPRAN/動環(huán)設(shè)備的拓?fù)湫畔?,并基于?biāo)準(zhǔn)化故障場景與告警關(guān)聯(lián)壓縮規(guī)則,將現(xiàn)網(wǎng)告警根據(jù)故障進(jìn)行分類;通過對已分類的故障中根源告警進(jìn)行診斷,定位故障的真正根因,并通過自愈手段遠(yuǎn)程修復(fù),或派單進(jìn)行上站精準(zhǔn)修復(fù);通過系列的自動化手段,完成了對告警的診斷,找到了根因告警并完成了告警的自愈。
5G 優(yōu)化智能化通過參數(shù)化調(diào)整覆蓋場景、數(shù)字傾角、數(shù)字方位角,解決了傳統(tǒng)人工RF優(yōu)化難以應(yīng)對5G產(chǎn)品形態(tài)各異且優(yōu)化手段不盡相同的問題,并且減少了傳統(tǒng)優(yōu)化手段所需的大量車輛、塔工、網(wǎng)優(yōu)人員支出,簡化了優(yōu)化操作;同時考慮SSB 和CSI-RS 的覆蓋和干擾,在不影響5G終端的初始接入和切換性能的情況下提升網(wǎng)絡(luò)覆蓋能力,在不影響5G 終端的CQI 上報、MCS 選階、RANK 等的情況下提升用戶的體驗速率;5G 商用初期用戶較少但高價值用戶多,RF 優(yōu)化以DT 數(shù)據(jù)為主。DT 數(shù)據(jù)僅能反映道路覆蓋水平,單純優(yōu)化道路覆蓋可能導(dǎo)致真實用戶感知下降,需要提升道路覆蓋和速率的同時考慮整網(wǎng)覆蓋優(yōu)化,兼顧初期的測試比拼和高價值用戶感知;另外優(yōu)化5G的同時還應(yīng)兼顧對存量制式的影響。