朱佳佳,馬 昱,楊潔艷,田元兵,(.中國聯(lián)通研究院,北京 0076;.中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,北京 00033)
隨著5G無線網(wǎng)絡(luò)的發(fā)展,多種先進(jìn)技術(shù)和大量微基站的引入,網(wǎng)絡(luò)設(shè)備云化和智能化同時(shí)帶來了大量的維護(hù)和優(yōu)化工作,這使得網(wǎng)絡(luò)管理更加復(fù)雜。在此背景下,自組織網(wǎng)絡(luò)(SON)作為5G 系統(tǒng)與人工智能技術(shù)結(jié)合的一個(gè)關(guān)鍵領(lǐng)域,獲得了越來越多的關(guān)注。自組織網(wǎng)絡(luò)的目的是降低運(yùn)維成本,提高網(wǎng)絡(luò)效率,提高網(wǎng)絡(luò)的性能和穩(wěn)定性,實(shí)現(xiàn)網(wǎng)絡(luò)自配置、網(wǎng)絡(luò)自優(yōu)化和網(wǎng)絡(luò)自愈3個(gè)目標(biāo)。自配置指對新入網(wǎng)的網(wǎng)元部署自動(dòng)化,并為這些網(wǎng)元確定適當(dāng)?shù)膮?shù)配置;自優(yōu)化是指當(dāng)網(wǎng)絡(luò)處于運(yùn)行狀態(tài)時(shí),不需要人工干預(yù)的情況下,在覆蓋范圍、容量和用戶感知等方面自動(dòng)優(yōu)化,如移動(dòng)負(fù)載平衡、切換優(yōu)化、自動(dòng)鄰區(qū)關(guān)系、覆蓋和容量優(yōu)化、小區(qū)間干擾協(xié)調(diào)和節(jié)能等;自愈指故障管理和故障糾正過程的自動(dòng)化,以保持網(wǎng)絡(luò)的正常運(yùn)行。在建網(wǎng)前期,自配置技術(shù)可以實(shí)現(xiàn)基站的即插即用,隨著網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)越來越多,借助人工智能算法就可以一定程度上實(shí)現(xiàn)自優(yōu)化和自愈。
最小化路測技術(shù)(MDT)是SON 中的關(guān)鍵技術(shù),主要通過移動(dòng)終端上報(bào)測量報(bào)告或者網(wǎng)絡(luò)側(cè)其他測量數(shù)據(jù)來分析網(wǎng)絡(luò)性能,以達(dá)到降低運(yùn)營商網(wǎng)絡(luò)優(yōu)化維護(hù)成本的目的。3GPP Release 17 在2020 年的規(guī)劃中,著重提出:SON 中的MDT 是2020年Q2和Q3考慮的重點(diǎn),而MDT 中的一個(gè)重要應(yīng)用就是實(shí)現(xiàn)覆蓋智能優(yōu)化?,F(xiàn)階段使用的MDT 數(shù)據(jù)主要是帶經(jīng)緯度的原始MR數(shù)據(jù)。
本文將重點(diǎn)討論利用5G 中MDT 數(shù)據(jù),結(jié)合聚類算法,實(shí)現(xiàn)網(wǎng)絡(luò)自組織技術(shù)中的覆蓋問題智能定位。
覆蓋問題智能定位的目標(biāo)是將網(wǎng)絡(luò)中能反映覆蓋的指標(biāo)數(shù)據(jù),通過人工智能算法,定位網(wǎng)絡(luò)中的問題,同時(shí)獲取問題所在的地理位置。主要分為2 個(gè)階段:第1階段,利用5G中的MDT數(shù)據(jù)進(jìn)行聚類,得到覆蓋問題點(diǎn);第2階段,將覆蓋問題點(diǎn)基于經(jīng)緯度進(jìn)行聚類,得到地理范圍上較為密集的區(qū)域,為問題解決提供優(yōu)先級。在2 個(gè)階段中根據(jù)不同的目標(biāo)需求,分別采用不同的聚類算法。
常見的聚類算法可以大致分成幾類:
a)基于劃分的聚類方法:將數(shù)據(jù)集分裂成K個(gè)分組,每一個(gè)分組是一個(gè)類。大部分基于劃分的聚類算法是基于樣本點(diǎn)間的距離,同一個(gè)類內(nèi)的對象盡可能相近,不同類內(nèi)的對象盡可能遠(yuǎn)離。K-Means 算法是最典型的基于劃分的聚類方法。
b)基于密度的聚類方法:與其他方法的聚類算法根本區(qū)別在于,它不是基于樣本點(diǎn)間的距離,而是基于密度的,這樣就可以發(fā)現(xiàn)數(shù)據(jù)集中的疏密關(guān)系。DBSCAN算法是最典型的基于密度的聚類方法。
c)基于模型的聚類方法:假定每一個(gè)聚類符合一個(gè)模型的分布,然后去尋找能夠很好滿足這個(gè)模型的數(shù)據(jù)集。高斯混合模型算法是最典型的基于模型的聚類算法。
本文中,基于聚類算法的覆蓋問題劃分,是希望利用聚類算法,根據(jù)采樣點(diǎn)的覆蓋指標(biāo)獲取表現(xiàn)較差的采樣點(diǎn),故采用基于相似度的劃分聚類方法。而對于覆蓋差點(diǎn)的地理聚類,目標(biāo)是找到覆蓋差點(diǎn)的連片或密度集中區(qū)域,則選擇基于密度的聚類方法。下面將分兩節(jié)來分別闡述覆蓋問題智能定位的2個(gè)階段。
在5G 中評價(jià)覆蓋質(zhì)量的指標(biāo)是RSRP 和RSRQ,3GPP TS 38.215中提出的覆蓋指標(biāo)包括SS-RSRP、SSRSRQ、CSI-RSRP 和CSI-RSRQ。SS-RSRP 定義為承載輔同步信號(hào)(SS)的資源單元的功率的線性平均值。SS-RSRP 測量時(shí)間位于SS/PBCH 塊測量時(shí)間配置(SMTC)窗口持續(xù)時(shí)間內(nèi)。終端支持RRC-Connected、RRC-IDLE 和RRC-Inactive 態(tài)的同頻和異頻測量。CSI-RSRP 定義為在所配置的CSI中,在其測量頻率帶寬范圍內(nèi),承載用于RSRP測量的CSI參考信號(hào)的資源單元的功率線性平均值。終端支持RRC-Connected態(tài)的同頻和異頻測量。截至2020 年2 月,終端還未支持CSI-RSRP 的上報(bào)。綜合對比應(yīng)用情況、資源開銷,以及目前的芯片支持情況,在現(xiàn)階段建議將SS-RSRP 和SS-RSRQ 作為5G 網(wǎng)絡(luò)覆蓋情況的評價(jià)標(biāo)準(zhǔn)。SSRSRP和CSI-RSRP的對比見表1。
隨著5G 網(wǎng)絡(luò)拓?fù)涞膹?fù)雜化,針對不同的場景、區(qū)域及業(yè)務(wù)情況,設(shè)定絕對門限,簡單地將采樣點(diǎn)分成覆蓋好壞2 類或者優(yōu)良中差4 類的“一刀切”方法是不合適的。另外,建網(wǎng)初期,缺乏對RSRP 評估門限的經(jīng)驗(yàn)值,難以對采集到的原始數(shù)據(jù)基于一個(gè)理論的絕對門限值來評價(jià)覆蓋的好壞。隨著網(wǎng)絡(luò)的運(yùn)行數(shù)據(jù)源增多,也可將評價(jià)標(biāo)準(zhǔn)擴(kuò)展到RSRP 和RSRQ 以外,綜合考慮速率等用戶感知情況,結(jié)合多維數(shù)據(jù)對網(wǎng)絡(luò)覆蓋情況進(jìn)行評價(jià)。
聚類算法的初衷是對沒有先驗(yàn)知識(shí)的數(shù)據(jù)進(jìn)行聚集,故使用5G MR 中的RSRP、RSRQ 作為聚類的輸入向量的維度,對原始的MR 采樣點(diǎn)進(jìn)行聚類,得到目標(biāo)區(qū)域中覆蓋相對較差的采樣點(diǎn)。不事先設(shè)定聚類的類數(shù),而是通過聚類算法自動(dòng)地將采樣點(diǎn)分成若干類,計(jì)算分成不同類的聚類結(jié)果評價(jià)系數(shù),確定覆蓋采樣點(diǎn)最終的分類個(gè)數(shù),也就是讓網(wǎng)絡(luò)智能、自動(dòng)地去發(fā)現(xiàn)區(qū)域內(nèi)相對的覆蓋差點(diǎn)。
AP 算法(Affinity Propagation Algorithm)是通過數(shù)據(jù)點(diǎn)之間的消息傳遞來發(fā)現(xiàn)聚類,并在很短的時(shí)間內(nèi)發(fā)現(xiàn)帶有更低誤差的聚類結(jié)果。它將一對數(shù)據(jù)點(diǎn)之間的相似度作為輸入,在數(shù)據(jù)點(diǎn)之間交換有真實(shí)價(jià)值的消息(real-valued messages),直到一個(gè)最優(yōu)的類代表點(diǎn)集合和聚類逐漸形成。此時(shí),所有的數(shù)據(jù)點(diǎn)到其最近的類代表點(diǎn)的相似度之和最大。對于給定數(shù)據(jù)集合D={X1,X2...,XN},計(jì)算各點(diǎn)之間的相似度矩陣。利用歐式距離來反映2點(diǎn)之間的相似度,任意2 點(diǎn)之間的相似度為2 點(diǎn)歐氏距離平方的負(fù)數(shù)。對于點(diǎn)Xi和點(diǎn)Xk,
每一個(gè)數(shù)據(jù)點(diǎn)k需要預(yù)先設(shè)定其參數(shù)s(k,k)=pk(k=1,2,...,N),初始pk越大,說明相應(yīng)數(shù)據(jù)點(diǎn)k被選中為類代表點(diǎn)的可能性越大。假設(shè)所有數(shù)據(jù)點(diǎn)被選中成為類代表點(diǎn)的可能性相同,即s(k,k)取相同值p。該算法中有2 種消息交換,即響應(yīng)度矩陣R=和效應(yīng)度矩陣。響應(yīng)度矩陣描述數(shù)據(jù)點(diǎn)k適合作為點(diǎn)i的類樣本的程度;效應(yīng)度矩陣描述數(shù)據(jù)點(diǎn)i選擇點(diǎn)k作為其類樣本的適合程度。AP算法循環(huán)迭代并更新這2種消息,更新公式如下:
為避免迭代過程的震蕩發(fā)生并促進(jìn)收斂,引入阻尼系數(shù)λ,在每一次循環(huán)迭代中,r(i,k)和a(i,k)被設(shè)置為:
迭代過程中,當(dāng)r(k,k)+a(k,k)>0,則選擇數(shù)據(jù)點(diǎn)k為類樣本點(diǎn),設(shè)聚類標(biāo)記為,則AP 算法可看作一個(gè)搜索能量函數(shù)最小值的方法,即
當(dāng)算法收斂(即能量函數(shù)最小化)或達(dá)到最大迭代次數(shù),則算法停止并輸出聚類結(jié)果。
AP 算法輸出的聚類數(shù)目依賴于輸入的參數(shù)p,但對給定的數(shù)據(jù)集,p取何值能獲得最佳聚類質(zhì)量卻是未知的。所以引入自適應(yīng)的AP 算法來確定最優(yōu)分類。首先確定參數(shù)p的搜索范圍,其對應(yīng)的分類結(jié)果分別為將全部數(shù)據(jù)點(diǎn)分為一類以及將全部數(shù)據(jù)點(diǎn)分為若干類。設(shè)定2 種調(diào)整步長:分別用于逃離震蕩以及調(diào)整分類個(gè)數(shù)。算法從p=pmax開始運(yùn)算,若分類結(jié)果無法收斂,則下降一個(gè)步長pstep1,如此直到算法可以收斂。之后,下降步長pstep2,以逐漸減少分類個(gè)數(shù)。
在聚類結(jié)束后,采用Calinski-Harabaz 分?jǐn)?shù)來評價(jià)不同聚類的好壞,該評價(jià)公式為:
式中:
Bk——類間協(xié)方差平均值
Wk——類內(nèi)協(xié)方差
Tr——矩陣的跡
N——聚類的采樣點(diǎn)數(shù)
K——經(jīng)過聚類算法得到的類數(shù)
類內(nèi)的協(xié)方差越小越好,類間的協(xié)方差越大越好,所以對于該評價(jià)公式來說,得分越高表示分類效果越好。通過調(diào)整AP 聚類算法的參數(shù)p,將原始采樣點(diǎn)分成一類到若干類,通過Calinski-Harabaz 分?jǐn)?shù)評價(jià)將原始采樣點(diǎn)分成幾類時(shí)為最優(yōu)分類。
通過聚類算法得到網(wǎng)絡(luò)中存在的覆蓋問題點(diǎn)后,若將覆蓋問題點(diǎn)根據(jù)經(jīng)緯度撒在地圖中,會(huì)出現(xiàn)很多零散的點(diǎn),難以用肉眼去判斷每個(gè)區(qū)域內(nèi)的問題點(diǎn)分布密度,也就難以為優(yōu)化工作綜合統(tǒng)籌,提供一個(gè)解決問題的優(yōu)先級。故利用覆蓋問題點(diǎn)的經(jīng)緯度進(jìn)行聚類,即可得到所關(guān)心的區(qū)域中,弱覆蓋問題點(diǎn)的密集區(qū)域。
在上文提到的基于劃分、密度和模型的聚類算法中,考慮到此處聚類的目標(biāo)是發(fā)現(xiàn)采樣點(diǎn)的密集區(qū)域,選取DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法對弱覆蓋采樣點(diǎn)進(jìn)行聚類。DBSCAN 算法可以找到樣本點(diǎn)的全部密集區(qū)域,并把這些密集區(qū)域聚成一個(gè)一個(gè)的類,其他稀疏的點(diǎn)會(huì)被當(dāng)作噪聲點(diǎn)分成一類。DBSCAN 的優(yōu)勢在于對遠(yuǎn)離密度核心的噪聲點(diǎn)具有魯棒性,無需知道聚類簇的數(shù)量,可以發(fā)現(xiàn)任意形狀的聚類簇,完全符合基于經(jīng)緯度的聚類需求。
DBSCAN 算法需要設(shè)定2 個(gè)參數(shù),鄰域E和最小樣本點(diǎn)MinPts,以下是算法的一些基本概念:
a)鄰域E:對于任意樣本i和給定距離E,樣本i的E鄰域是指所有與樣本i距離不大于E的樣本集合。
b)核心對象:若樣本i的E鄰域中至少包含MinPts個(gè)樣本,則i是一個(gè)核心對象。
c)密度直達(dá):若樣本j在樣本i的E鄰域中,且i是核心對象,則稱樣本j由樣本i密度直達(dá)。
d)密度可達(dá):對于樣本i和樣本j,如果存在樣本序列p1,p2,...,pn,其中p1=i,pn=j,并且pm由pm-1 密度直達(dá),則稱樣本i與樣本j密度可達(dá)。
e)密度相連:對于樣本i和樣本j,若存在樣本k使得i與j均由k密度可達(dá),則稱i與j密度相連。
基于以上概念,DBSCAN 將類定義為:由密度可達(dá)關(guān)系導(dǎo)出的最大的密度相連的樣本點(diǎn)集合。算法具體流程如圖1所示。
圖1 DBSCAN算法流程
針對第2 章描述的覆蓋智能定位的2 個(gè)階段,利用5G 現(xiàn)網(wǎng)中的真實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。由于目前5G網(wǎng)絡(luò)暫無收集到帶經(jīng)緯度的MR 數(shù)據(jù),故在此利用北京各環(huán)路上的5G 測試數(shù)據(jù)來模擬5G 的原始MR 采樣點(diǎn)數(shù)據(jù)。
首先,將數(shù)據(jù)中的RSRP 和RSRQ 組成向量,通過調(diào)整AP 聚類算法中的參數(shù)p,將采樣點(diǎn)聚類成了2~10類,并利用Calinski-Harabaz評價(jià)算法來評價(jià)將采樣點(diǎn)分成不同個(gè)數(shù)的類的聚類效果。圖2是將采樣點(diǎn)分成2~10 類,不同的分類結(jié)果下,Calinski-Harabaz 系數(shù)的得分。由于選取的聚類評價(jià)指標(biāo)值越大說明聚類質(zhì)量越高,也就是意味著類內(nèi)越緊湊,類間可分度越高。從圖2 中可以看出把北京各環(huán)路上收集到的RSRP 和RSRQ 采樣點(diǎn)組成的數(shù)據(jù)向量分為6 類為最優(yōu)分類。
圖2 聚類質(zhì)量評價(jià)指標(biāo)曲線
圖3 覆蓋采樣點(diǎn)最優(yōu)分類
按照最優(yōu)分類,將RSRP 和RSRQ 組成的向量,分成6 類,如圖3 所示。這樣就得到了在分析的目標(biāo)區(qū)域中覆蓋較差的一類采樣點(diǎn),也就是圖3 中紫色的采樣點(diǎn)類。進(jìn)入第2 階段,將重點(diǎn)關(guān)注覆蓋較差的采樣點(diǎn)的密集區(qū)域。
將弱覆蓋的點(diǎn)的經(jīng)緯度撒到地圖中,如圖4 中的紅點(diǎn)所示,可以看出采樣點(diǎn)較為分散,難以區(qū)分優(yōu)化整改的優(yōu)先級,所以對弱覆蓋的點(diǎn)進(jìn)行地理化處理,基于DBSCAN算法對其經(jīng)緯度進(jìn)行聚類。
圖4 覆蓋問題點(diǎn)地理化
首先計(jì)算經(jīng)緯度之間的球面距離,作為DBSCAN聚類算法的相似度矩陣輸入。DBSCAN 算法有2 個(gè)關(guān)鍵的參數(shù),即鄰域距離E和鄰域最小樣本個(gè)數(shù)MinPts。考慮在測試過程中,車速為60 km/h 左右,一秒一個(gè)采樣點(diǎn),故理論上采樣點(diǎn)之間的距離在16 m 左右。所以,在為DBSCAN 設(shè)定參數(shù)時(shí),將鄰域距離E設(shè)置為0.5 km,最小樣本個(gè)數(shù)設(shè)置為5,10,15。通過設(shè)定鄰域內(nèi)最小樣本個(gè)數(shù),可以控制聚類得到的有效類的采樣點(diǎn)密度,對應(yīng)到實(shí)際意義,也就是控制聚集的弱覆蓋區(qū)域內(nèi)弱覆蓋采樣點(diǎn)的密度。圖5~圖7為不同參數(shù)配置下所有弱覆蓋的點(diǎn)在北京的5個(gè)環(huán)路的分布。淺藍(lán)色的點(diǎn)為噪聲點(diǎn),也就是弱覆蓋的稀疏點(diǎn),其他彩色的點(diǎn)是聚類得到的有效點(diǎn),也就是弱覆蓋點(diǎn)比較密集的需要優(yōu)先考慮整改的區(qū)域。在此不采用評價(jià)系數(shù)來評價(jià)聚類算法,一方面是由于常用的聚類算法普遍是用來評價(jià)基于凸的簇,對基于密度的簇評價(jià)普遍不好。另一方面是由于DBSCAN 算法調(diào)參,是可以控制聚類得到的區(qū)域密度,根據(jù)一線優(yōu)化人員的需要,來確定需要整改的區(qū)域大小及密度。
圖5 DBSCAN算法參數(shù)配置1
圖6 DBSCAN算法參數(shù)配置2
圖7 DBSCAN算法參數(shù)配置3
本文在介紹了5G 與SON 技術(shù)后,首先提出了基于聚類算法的覆蓋問題劃分,通過5G中的路測數(shù)據(jù)模擬MR 數(shù)據(jù),利用AP 聚類算法動(dòng)態(tài)調(diào)整系數(shù),得到不同的分類結(jié)果,并利用評價(jià)公式對聚類結(jié)果進(jìn)行評價(jià),得到最優(yōu)分類?;谧顑?yōu)分類發(fā)現(xiàn)網(wǎng)絡(luò)中的覆蓋問題點(diǎn)。第2 步根據(jù)覆蓋問題點(diǎn)的經(jīng)緯度,利用DBSCAN 算法,對經(jīng)緯度進(jìn)行聚類,通過調(diào)整參數(shù),得到網(wǎng)絡(luò)中不同密度的覆蓋問題區(qū)域。隨著5G 網(wǎng)絡(luò)數(shù)據(jù)采集的逐漸成熟,該算法可以針對網(wǎng)絡(luò)中更多豐富的數(shù)據(jù)源做擴(kuò)展應(yīng)用,提升問題定位的準(zhǔn)確性,提升網(wǎng)絡(luò)維護(hù)和優(yōu)化效率。