陳 鋒,李張錚,連 慧(中國聯通福州分公司,福建福州 350000)
在目前5G 網絡大規(guī)模部署背景下,要拉動5G 業(yè)務收入增長,運營商面臨的首要關鍵問題是5G用戶的常駐區(qū)域的網絡質量。保障最容易出問題的覆蓋地點,是5G網絡端網協(xié)同優(yōu)化的重中之重。傳統(tǒng)網絡保障通過路測數據(DT)或者測量數據(MR)分析發(fā)現網絡缺陷,其中DT 數據只能反映點線上的問題,無法做到全網精細化評估,而MR 數據雖然全面但是5G R15版本終端暫不支持帶位置信息的測量數據,即使后續(xù)版本支持也存在部分終端不上報MR 位置的問題,對5G網絡質量的評估造成影響。
機器學習技術作為人工智能的重要組成部分,是國家發(fā)展戰(zhàn)略重點扶持的目標[1]和當下各行業(yè)關注應用的焦點。本文通過使用用戶終端APP 上產生的用戶無線網絡數據(OTT)來補償5G MR 的缺陷,利用神經網絡算法[2]和DBSCAN 聚類算法[3]構建5G用戶位置模型和弱覆蓋小區(qū)分布,為5G用戶網絡感知精細化保障奠定良好基礎。
在當下5G 端網協(xié)同優(yōu)化中,5G 用戶感知精細化保障始終是一個難點。由于5G MR 不攜帶用戶經緯度信息,網絡分析嚴重依賴于人的優(yōu)化經驗等方面的特點,急需引入大數據和機器學習的優(yōu)化方式,實現5G端網協(xié)同優(yōu)化的智能化。
MR 是UE 在網絡中上報的無線網絡測量數據,包含小區(qū)電平、小區(qū)質量和小區(qū)覆蓋范圍等無線環(huán)境指標。在4G 中MR 還包含了測量報告發(fā)生地點的經緯度信息,網優(yōu)人員可以利用經緯度信息來評估特定地點的網絡覆蓋情況,對網絡感知進行精細化保障。目前5G 用戶級MR 文件不攜帶經緯度數據,MR 平臺僅有天級的小區(qū)MR 指標,對感知差的特定時間、特定位置和特定用戶無法進行精細化網絡指標分析,造成網絡優(yōu)化的瓶頸。
傳統(tǒng)端網協(xié)同優(yōu)化主要通過路測或者用戶投訴發(fā)現無線網絡覆蓋問題,是目前主流的網絡優(yōu)化方法,其能在一定程度上解決無線覆蓋問題,但對于覆蓋問題不能第一時間解決,往往在問題發(fā)生后才能進行排查;解決問題階段,目前主流分析方法為人工分析、排查收集到的質差數據,判斷弱覆蓋類型、弱覆蓋原因并預估解決方案,分析人員的主觀判斷在這個過程中起主要作用,容易出現誤判且消耗大量人力[4]。
5G 終端MR 經緯度位置信息的缺失直接影響到5G端網協(xié)同精細化分析,只能實現小區(qū)級的網絡質量分析,另外傳統(tǒng)根據MR 采樣點人工搜尋弱覆蓋區(qū)域的優(yōu)化方法費時費力。面對5G網絡不斷壯大的規(guī)模,亟待MR精細化智能化應用的出現。
本文通過研究OTT 數據和MR 數據的關聯性,利用機器學習算法基于OTT 數據建立5G 用戶位置預測模型,再遷移到MR 數據上進行應用,預測出5G 用戶MR 發(fā)生位置。計算出MR 的位置后,對MR 的主小區(qū)電平值進行聚類分析,得到弱覆蓋小區(qū)分布。該算法可在網絡指標優(yōu)化、RF 優(yōu)化、用戶投訴分析等網優(yōu)日常5G優(yōu)化工作中起到積極作用。
3.1.1 OTT數據
OTT數據來自于真實的用戶在真實的應用場景下產生的真實網絡狀況,而且覆蓋范圍廣,包含異網運營商甚至Wi-Fi運營商的信息。
OTT數據采集的主要內容如下。
a)數據覆蓋數百個手機APP,包括視頻、直播、新聞、支付等。
b)數據覆蓋中國的安卓用戶,包含三大運營商及2G/3G/4G/5G網絡用戶。
c)數據包含無線網質量、Wi-Fi、定位、時間、基站、終端及APP等信息。
具體地,OTT 大數據采集信息包括用戶一些特定的APP 上報的終端型號、運營商標識、網絡制式、網絡設備標識、網絡指標(如RSRP、RSRQ 及SINR)、鄰區(qū)PCI、鄰區(qū)電平、經緯度、室內外標識、檢測最強Wi-Fi信息、Wi-Fi信號強度等(見表1)。
表1 OTT數據采集字段信息
3.1.2 MR數據
MR 數據主要來自終端對周邊無線網絡環(huán)境進行測量時產生的報告。MR 數據包含終端當前位置服務小區(qū)/鄰區(qū)ID、頻點、PCI、RSRP、RSRQ 和SINR 等無線測量信息,目前R15 版本不支持經緯度位置信息的上報。5G MR數據和OTT數據的對應關系如表2所示。
表2 OTT字段和MR數據對應關系
受限于R15 5G 終端MR 不包含經緯度,如何利用AI 手段學習已有的帶位置信息的數據來預測不帶位置信息的5G MR 樣本成為網優(yōu)智能化的重要方向。本文對獲取到的5G用戶OTT數據,嘗試使用神經網絡算法對數據樣本進行訓練生成用戶位置預測模型,鑒于全網統(tǒng)一建模的效果不理想,將數據分地域進行差異化建模,取得了較好的預測效果(見圖1)。
圖1 基于OTT數據的5G用戶位置預測流程
3.2.1 數據集準備
根據獲取到的某市聯通5G用戶OTT數據,結合小區(qū)工參中經緯度、區(qū)縣、方位角、下傾角和覆蓋類型,共生成39 個特征維度和2 個標簽維度的數據,將數據按7∶3的比例切分為訓練集和測試集,如表3所示。
表3 訓練集/測試集特征標簽
3.2.2 數據預處理
3.2.2.1 高基數特征處理
基數(cardinality)指的是類別特征所有可能的不同值的數量,對于高基數的類別特征,直接使用Label Encoding 和One-Hot Encoding 的數據預處理的方法往往得不到令人滿意的結果[5]。分析此處enbid、pci類別特征可以發(fā)現存在高基數問題,如果直接進行One-Hot 編碼會形成上百列的稀疏矩陣,易消耗大量內存和訓練時間;同時映射之間完全獨立,并不能表示出不同類別之間的關系。本文基于神經網絡算法使用Embedding 層來處理高基數特征,Embedding 技術的一個非常普遍的應用就是實現高維稀疏特征向量向低維稠密特征向量的轉換,也就是把離散特征經過獨熱編碼后的稀疏向量表達轉化成稠密的特征向量表達。訓練中可以通過優(yōu)化網絡的參數和權重來減少損失以改善embedding表示。
3.2.2.2 室分小區(qū)方位角的表示
通常工參里覆蓋類型為室分的小區(qū)方位角都是0,這與實際室分小區(qū)為全向覆蓋不符,故室分小區(qū)的方位角需修正。修正方法如下:若室分小區(qū)與宏站鄰小區(qū)同經緯度,則室分小區(qū)取宏站鄰小區(qū)的方位角;若室分小區(qū)與室分鄰小區(qū)同經緯度,則室分小區(qū)方位角取值-1;若室分小區(qū)與鄰小區(qū)不同經緯度,則室分小區(qū)方位角取室分小區(qū)與鄰小區(qū)連線與正北方向的順時針夾角(r見圖2)。
圖2 室分小區(qū)方位角定義
設室分小區(qū)經緯度(X1,Y1),鄰小區(qū)經緯度(X2,Y2),具體小區(qū)連線夾角r計算公式如下:
圖3給出了室分小區(qū)方位角特征校正代碼。
圖3 室分小區(qū)方位角特征校正代碼
3.2.3 神經網絡模型構建及訓練
本文神經網絡模型設計采用Embedding 層+全連接層的構建方式,模型結構如圖4所示。模型共包括4個隱藏層,第一隱藏層包含3×2 個Embedding 層輸入s_enbid/n1_ enbid/n2_ enbid 和s_pci/n1_pci/n2_pci 高基數特征和1個Dense層輸入其他數值特征;后面連續(xù)接3 個Dense 層,最后輸出層有2 個神經元分別對應經緯度。建模框架使用tensorflow2.0 的keras 庫,主要使用的網絡層有Embedding、Dense,另外還涉及優(yōu)化器、損失函數等訓練參數的配置。訓練中的訓練集和驗證集損失函數變化如圖5 所示,驗證集loss 從0.017 9降低到0.007 2,達到較好的訓練效果。
圖4 基于OTT數據的5G用戶位置預測神經網絡模型結構
圖5 神經網絡模型訓練集損失值和驗證集損失值變化曲線
訓練參數配置如下。
a)激活函數:ReLU函數的變種ELU。
b)優(yōu)化器:Adma。
c)損失函數:MeanAbsoluteError。
d)超參數:訓練輪數為356,批大小為200,使用tf.keras.callbacks.ReduceLROnPlateau()自動動態(tài)調整學習率。
3.2.4 用戶位置預測結果及分析
使用獲取到的某市全網13 個區(qū)縣所有OTT 5G 用戶數據進行訓練,測試集上預測全網用戶位置平均誤差為210 m,各誤差段(以100 m 為標準)的分布如圖6所示。
圖6 神經網絡模型預測用戶位置誤差距離分布
觀察預測結果誤差分布,可以發(fā)現誤差在不同區(qū)縣間存在明顯的差異(見圖7),原因可能是地域間網絡結構的不同或者用戶行為不同。其中該市全網平均預測誤差為210 m,有4 個區(qū)優(yōu)于平均水平;普通郊區(qū)誤差大于200 m,特別偏遠地區(qū)誤差最大,在1 km左右。
圖7 基于神經網絡模型的OTT平均預測誤差
受實際環(huán)境中不同區(qū)縣間的網絡發(fā)展不平衡和用戶行為習慣不同等因素的影響,采用全網全量數據建立統(tǒng)一的模型存在如下缺陷:數據分布差異大,導致模型性能不佳;數據量巨大,模型訓練時間長。因此后續(xù)考慮對每個區(qū)縣分開建模,建立差異化模型,提升模型精確度。
3.2.5 差異化分地域神經網絡建模結果分析
分別選取某市五城區(qū)OTT 5G 用戶數據樣本作為訓練集進行神經網絡模型訓練,并在測試集進行測試,平均誤差距離為74 m,相對全網統(tǒng)一建模神經網絡算法精度有較大提升。改進后該市五城區(qū)的差異化建模測試效果如表4所示。
表4 某市五城區(qū)差異化模型用戶位置預測效果
建立差異化用戶位置預測模型后,根據表2 中OTT 字段和5G 用戶MR 數據對應關系,將預測模型輸入的OTT 特征替換為MR 樣本特征,預測出5G MR 的經緯度。后續(xù)就可利用帶經緯度的5G 用戶MR 開展5G網絡優(yōu)化工作。
對于龐大復雜的5G無線網絡,網絡覆蓋問題層出不窮,現有無線覆蓋分析的局限性日趨明顯,如何盡可能減少人工路測成本和分析成本、提高分析判斷準確性成為重中之重[6]。本文實現基于DBSCAN 算法的5G智能覆蓋優(yōu)化,在5G用戶MR位置可以預測的基礎上,利用密度聚類算法定位問題,高效挖掘MR 弱覆蓋區(qū)域。
5G MR 數據攜帶終端接收電平值等反映無線網絡覆蓋的信息,再加上前面建立的5G MR 位置預測模型得到5G MR 所在經緯度信息,在空間上可以通過密度聚類算法對存在弱覆蓋問題的樣本點進行聚類分析,挖掘得到弱覆蓋區(qū)域。對某產業(yè)園用戶5G MR 采樣點進行篩選,定義服務小區(qū)RSRP<-110 dBm 的采樣點為弱覆蓋點,共篩選出弱覆蓋采樣點1 923 個,如圖8所示。
圖8 某產業(yè)園5G弱覆蓋點分布
對這些弱覆蓋點開展模型參數搜索,設定DBSCAN 參數最少樣本個數以10 為步長,從10 變化到50,半徑取0.5。從計算結果可以發(fā)現,當最少樣本個數為10 時輪廓系數值最高。此時聚類數量為23 個,即發(fā)現該區(qū)域有23 個弱覆蓋場景需要RF 優(yōu)化(見圖9)。對比原始弱覆蓋采樣點的位置,可以發(fā)現DBSCAN 算法精準地定位到了弱覆蓋的位置,避免了人工搜索。
圖9 基于OTT+MR數據的5G覆蓋智能優(yōu)化
傳統(tǒng)5G端網協(xié)同優(yōu)化是網優(yōu)工作的重點和難點,人工優(yōu)化方法費時費力。由于當前5G 用戶級MR 不支持攜帶經緯度信息,優(yōu)化中無法使用MR 數據進行網絡精細化分析。本文通過引入OTT 數據建立5G 用戶位置預測模型,利用OTT 與MR 數據的關聯性獲得5G 用戶級MR 的經緯度信息。在此基礎上,開展基于DBSCAN 算法的5G MR 覆蓋智能分析,提升了優(yōu)化效率,實現5G端網協(xié)同優(yōu)化的智能化。