邢旭東 高暉 顧軍
摘要:提出一個基于機器學習的無線網絡流量預測及流量增長潛力評估方案。該方案分析蜂窩網絡中的實際業(yè)務流量數(shù)據(jù)在時間維度上的變化規(guī)律,并借助高斯過程的機器學習方法來預測業(yè)務變化趨勢,從短期角度為運營商的網絡優(yōu)化部署提供指導?;跇O限梯度提升(XGBoost)機器學習框架,建立網絡中其他運營數(shù)據(jù)與業(yè)務流量的多維映射關系,應用改進的量子粒子群算法進一步尋找蜂窩小區(qū)所能承載的流量上限,從長期角度為網絡優(yōu)化部署提供指導,提升網絡流量水平、釋放流量增長潛力。
關鍵詞:機器學習;移動網絡數(shù)據(jù)分析;流量預測;流量增長潛力評估
Abstract: A wireless network traffic prediction and traffic growth potential evaluation scheme based on machine learning is proposed. Based on the actual traffic data in the cellular network, this scheme analyzes the change rule in the time dimension and uses the machine learning method of Gaussian process to predict the trend of traffic, which provides guidance for the network optimization deployment of operators in the short term. Based on the eXtreme Gradient Boosting (XGBoost) machine learning framework, the multi-dimensional mapping relationship between other operation data and traffic in the network is established, and the revised quantum particle swarm optimization algorithm is applied to further find the upper limit of traffic that the cellular cell can carry, so as to provide guidance for network optimization deployment from a long-term perspective, improve the network traffic level, and release the traffic growth potential.
Keywords: machine learning; mobile network data analysis; traffic prediction; traffic growth potential evaluation
隨著無線設備數(shù)量的飛速增長,移動用戶對更高性能無線服務的需求正在逐年上升。在這樣的背景下,5G應運而生。更密集的組網、更快的速率、更低的時延和更可靠的移動性保障是5G的特點[1]。隨著5G商業(yè)化進程的逐步推進,物聯(lián)網、云計算、大數(shù)據(jù)等領域將呈現(xiàn)裂變式發(fā)展態(tài)勢,逐步形成5G產業(yè)生態(tài),為行業(yè)升級提供強勁動力。
近年來,在無線網絡流量預測和流量增長潛力挖掘等領域中,基于人工智能和機器學習等方法的研究引起了學術界和產業(yè)界的極大關注[2]。無線網絡流量預測方法是指,將網絡流量隨時間的變化視作一個時間序列,根據(jù)過往的流量變化規(guī)律來預測未來的變化趨勢,并將預測流量與當前流量之間的差異作為流量增長潛力的量化結果[3-4]。典型的時間序列預測方法包括差分整合移動平均自回歸模型(ARIMA)[5]、季節(jié)性ARIMA[6]等。在對規(guī)律不明顯、構成成分復雜的時間序列進行預測時,傳統(tǒng)方法的預測性能已經明顯下降。因此,人們需要尋找新的方法來應對復雜的流量模式。得益于硬件計算能力的極大提升,當前業(yè)界也在嘗試使用深度學習模型來預測網絡流量。例如,文獻[7]首先對流量數(shù)據(jù)做柵格化預處理,然后以柵格為單元,利用堆疊自編碼器(SAE)提取柵格流量在不同歷史時刻的特征,并利用這些特征訓練長短期記憶(LSTM)網絡,最終實現(xiàn)對柵格單元的網絡流量預測。然而,自定義柵格忽視了單個蜂窩小區(qū)的流量浮動,這導致深度學習模型容易出現(xiàn)過擬合現(xiàn)象。鑒于此,本文提出一種基于機器學習的可解釋性強、泛化性能好的流量預測方法,從短期角度指導網絡優(yōu)化部署。
長期來看,對網絡流量增長潛力的評估能夠有效解決網絡的優(yōu)化部署問題。蜂窩網絡流量的波動意味著小區(qū)的負載也會隨之波動。如果小區(qū)的歷史指標經常處于高負載狀態(tài),就說明其覆蓋范圍內的數(shù)據(jù)傳輸需求高于網絡本身的負載水平。這意味著該小區(qū)具有較大的運營收益潛力。為此,運營商通常會實施網絡擴容,在滿足用戶需求的同時擴大收益。反之,如果網絡的業(yè)務量沒有達到相對較高的收益水平,增長受到抑制,則需要收集多種指標數(shù)據(jù),分析具體原因,并制定相應的優(yōu)化策略,以提升網絡流量,釋放流量增長潛力[8]。因此,在充分挖掘大量蜂窩網絡業(yè)務數(shù)據(jù)的基礎上,本文設計一種基于機器學習的獲取無線網絡高價值狀態(tài)的通用方法,從長期角度釋放網絡流量增長潛力。同時,本文以現(xiàn)網中的實際業(yè)務數(shù)據(jù)為基礎,從小區(qū)流量的短期變化趨勢與長期增長潛力兩個方面考慮,圍繞蜂窩網絡流量指標來設計解決方案。在小區(qū)流量短期預測方面,本文提出基于高斯過程(GP)的流量預測方案?;诟咚惯^程對物理資源塊(PRB)利用率預測的研究[9],本文進一步綜合考慮分組數(shù)據(jù)匯聚協(xié)議(PDCP)服務數(shù)據(jù)單元(SDU)下行流量、PRB利用率等指標,將各指標的歷史時刻流量作為輸入,采用高斯過程核函數(shù)分別對其短期、長期變化趨勢等因素進行擬合建模,并將模型預測的流量變化趨勢作為輸出。在小區(qū)流量長期增長潛力評估方面,本文首先分析其他網絡指標對流量指標的影響情況,即建立其他指標與流量指標之間的映射關系;其次,調整其他指標的取值使流量指標最大化,即基于該映射關系挖掘蜂窩網絡的高價值狀態(tài)。
1流量預測及增長潛力評估的問題描述
本節(jié)分別對流量預測和流量增長潛力評估兩部分內容進行數(shù)學描述,首先將其抽象為數(shù)學問題,然后分析相應的難點并提出解決思路。
1.1基于高斯過程的業(yè)務流量預測
1.2基于XGBoost方法的多元流量增長潛力評估
實現(xiàn)流量增長潛力評估需要應對兩個主要挑戰(zhàn):(1)建立網絡流量指標與其他業(yè)務指標之間的多元映射關系,以量化不同指標對網絡流量的影響;(2)基于多元映射關系來挖掘高價值狀態(tài)信息,即當多元映射關系返回的流量達到最大時,需要明確其他指標的取值狀態(tài)。
在給定機器學習模型F(·)的前提下,挖掘網絡高價值狀態(tài)相當于解決優(yōu)化問題maxF(x)。其中,x表示一組包含各個網絡指標取值的特征向量。
2流量預測及增長潛力評估方案
2.1基于高斯過程的流量預測
高斯回歸過程作為后深度學習時代的統(tǒng)計建模工具,天然地擁有數(shù)據(jù)驅動和清晰的模型解釋性等特點。因此,本文基于高斯回歸過程設計一種無線流量預測方法。
3基于網管數(shù)據(jù)的實驗
本節(jié)采用的數(shù)據(jù)集由某運營商在中國的真實數(shù)據(jù)組成。采樣時間跨度為2018年10月15日—2019年1月15日,采樣粒度為24 h/d。每個小區(qū)共有2 232條記錄,每條記錄均包含平均激活用戶設備(UE)數(shù)、PDCP層平均速率、平均信道質量指示(CQI)、下行PDCP SDU數(shù)據(jù)量等指標。我們從中隨機抽取80%的數(shù)據(jù)作為訓練數(shù)據(jù),并將剩余20%的數(shù)據(jù)作為測試數(shù)據(jù)。結合相關網絡運營方面的專家經驗,本研究從現(xiàn)有數(shù)據(jù)集包含的指標中遴選網絡下行流量指標和其他6種不同業(yè)務行為的指標,即D = 6。這些指標分別是平均激活UE數(shù)、物理下行共享信道(PDSCH)利用率、下行PDCP層平均速率、平均CQI、下行64正交振幅調制(QAM)占比、下行PRB滿負荷時間和下行PDCP SDU數(shù)據(jù)量。
3.1基于高斯過程的流量預測仿真
實驗中,我們采用MATLAB中的基于高斯過程的機器學習包(GPML)進行建模,利用高斯過程對PRB利用率和下行PDCP SDU流量進行預測。本實驗分別利用單小區(qū)的300 h歷史時刻的PRB利用率和下行PDCP SDU流量數(shù)據(jù),來預測下一個小時的數(shù)據(jù)。預測結果基本符合真實數(shù)據(jù)的變化趨勢。該模型對突變比較明顯的數(shù)據(jù)缺乏一定的適應性,但對變化平穩(wěn)的數(shù)據(jù)具有很高的預測精度。從平均絕對百分比誤差(MAPE)來看,基于高斯過程建立的模型對PDCP SDU流量數(shù)據(jù)和PRB利用率的預測性能分別為0.3551和0.2068,而基于ARIMA建立的模型在這兩個指標上的表現(xiàn)分別是0.4015和0.3081。由此可見,高斯過程預測模型的表現(xiàn)要優(yōu)于ARIMA模型。
3.2多元流量增長潛力建模
3.3最優(yōu)運營狀態(tài)挖掘
充分擬合數(shù)據(jù)的機器學習模型能夠量化不同網絡業(yè)務指標對網絡下行流量的影響。本文中,我們測試多種群體智能算法在多元回歸模型上的搜索性能,使用RQPSO算法從基于XGBoost量化的模型中挖掘最優(yōu)網絡運營狀態(tài),并將基本粒子群算法(PSO)和QPSO算法作為對照。3種算法各迭代60次,它們的收斂過程如圖2所示。
由圖2可知,PSO算法在早期的收斂速度較快,但在10次迭代之后,該算法的搜索基本陷入停滯狀態(tài)。QPSO算法的收斂速度慢于RQPSO算法,在同樣的迭代次數(shù)內沒有獲得相對較優(yōu)的優(yōu)化結果。RQPSO算法在前30次的迭代中搜索速度較快,在迭代末期逐步收斂在28 GB左右。因此,RQPSO算法的優(yōu)化結果在3種算法中是最優(yōu)的。與QPSO算法相比,帶有混合量子搜索行為的RQPSO算法能夠充分發(fā)掘流量評估模型潛力,得到最高的網絡流量潛力值和與之對應的高價值運營狀態(tài)。在高價值運營狀態(tài)下的各個網絡指標的取值如圖3所示。
3.4網絡優(yōu)化指導
以基于機器學習方法得到的蜂窩網絡運營高流量價值(流量潛力上限狀態(tài))為參考,我們列舉一些評估流量增長潛力的實例。圖4中的兩張子圖分別展示不同蜂窩小區(qū)在某單位時段內的各網絡指標的真實統(tǒng)計值與機器學習方法得到的高價值狀態(tài)的對比。其中,藍色雷達圖表示由機器學習方法得到的蜂窩網絡運營高流量價值狀態(tài),紅色雷達圖表示實際的網絡運營數(shù)據(jù)值。高價值狀態(tài)的各項指標依次是:流量潛力上限為27.94 GB,平均激活用戶數(shù)為42,PDSCH資源利用率為96%,下行PDCP層平均速率為72 Mbit/s,平均CQI為14,下行64QAM調制占比為81%,下行PRB滿負荷時間為2 391 s。
在圖4(a)中,網絡實際流量為16.15 GB,比上限流量少了約12 GB。用戶數(shù)、PDSCH利用率和PRB滿負荷時間基本相同。平均CQI為11,比最優(yōu)狀態(tài)低3個等級。下行64QAM調制占比僅為28%,與最優(yōu)狀態(tài)相比,差距較大。下行速率為38 Mbit/s,差距也較大??偟膩碚f,流量增長潛力受到抑制的原因在于當前蜂窩網絡的整體覆蓋能力偏弱。因此,我們應當分析造成弱覆蓋的具體原因,并進行相應優(yōu)化,以釋放流量增長潛力。
在圖4(b)中,網絡實際流量約15.02 GB(比最優(yōu)狀態(tài)的流量少了約13 GB),平均CQI為14,下行64QAM調制占比為85%,這說明覆蓋質量良好。用戶數(shù)、PDSCH利用率和下行PRB滿負荷時間等其他指標,與最優(yōu)狀態(tài)相比,差距較大??偟膩碚f,流量差距較大的主要原因在于該小區(qū)覆蓋范圍內的激活用戶數(shù)量較少。如果網絡長時間處于這種狀態(tài),就需要運營商加大業(yè)務推送力度,增加新用戶來提升流量,從而釋放流量增長潛力。
4結束語
本文提出一個基于機器學習的無線網絡流量預測和流量潛力評估方案。與傳統(tǒng)方法相比,高斯過程回歸的無線流量預測方法能夠顯著提高預測精度,從短期角度指導網絡優(yōu)化部署。同時,流量增長潛力評估方案可以量化其他指標與流量的關系,構建多維映射模型。本文提出的RQPSO算法能夠對多維映射模型進行最大化求解,從長期角度指導網絡優(yōu)化部署,更好地為運營商提供網絡優(yōu)化量化指導,從而提高運營商的經濟效益。
致謝
本研究得到中興通訊產學研合作基金的資助。感謝項目負責人北京郵電大學許文俊教授。北京郵電大學項目組團隊中的童偉強、林元杰、蒲俊林、鄭遠、黃春雷、胡卓爾等對本文的研究工作做出大量貢獻,在此謹致謝意。
參考文獻
[1] IMT-2020 (5G)推進組. 5G愿景與需求白皮書[EB/OL]. (2014-05-28) [2021-01-20]. http:// www.imt2020.org.cn/zh/documents/1
[2]呂惠.中國電信發(fā)布人工智能發(fā)展白皮書[J].計算機與網絡, 2019, (13): 15
[3] LI R, ZHAO Z, ZHOU X, et al. The prediction analysis of cellular radio access network traffic: from entropy theory to networking practice [J]. IEEE communications magazine, 2014, 52(6): 234-240. DOI: 10.1109/MCOM.2014.6829969
[4] YANG S, KUIPERS F A. Traffic uncertainty models in network planning [J]. IEEE communications magazine, 2014, 52(2): 172-177. DOI: 10.1109/MCOM.2014.6736759
[5] ZHANG M, FU H, LI Y, et al. Understanding urban dynamics from massive mobile traffic data[J]. IEEE transactions on big data, 2017, 5(2): 266-278. DOI: 10.1109/TBDATA.2017.2778721
[6] SHU Y, YU M, YANG O, et al. Wireless traffic modeling and prediction using seasonal ARIMA models [J]. IEICE transactions on communications, 2005, 88(10): 3992-3999
[7] WANG J, TANG J, XU Z, et al. Spatiotemporal modeling and prediction in cellular networks: a big data enabled deep learning approach[C]//IEEE INFOCOM 2017-IEEE Conference on Computer Communications. Atlanta, GA, USA: IEEE, 2017: 1-9. DOI: 10.1093/ietcom/ e88-b.10.3992
[8]李一,楊雨蒼,李菲,等.基于用戶感知的FDD LTE網絡擴容方法研究[J].郵電設計技術, 2018, (3): 54-58. DOI: 10.12045/j.issn.1007-3043.2018.03.012
[9] RASMUSSEN C E. Gaussian processes in machine learning [C]//Summer School on Machine Learning. Berlin, Heidelberg, Germany: Springer, 2003: 63-71
[10] CHEN T, GUESTRIN C. Xgboost: a scalable tree boosting system [C]//The 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. San Francisco, CA, USA: ACM, 2016: 785-794
[11] SUN J, FENG B, XU W. Particle swarm optimization with particles having quantum behavior [C]//IEEE 2004 Congress on Evolutionary Computation. Portland, OR, USA: IEEE, 2004, 1: 325-331
作者簡介
邢旭東,北京郵電大學可信分布式計算與服務教育部重點實驗室在讀碩士研究生;研究方向為機器學習、深度學習算法在無線網絡大數(shù)據(jù)分析中的應用。
高暉,北京郵電大學信息與通信工程學院副教授;主要從事5 G /B 5 G物理層新理論及關鍵技術、無線大數(shù)據(jù)及人工智能等方面的研究;主持并參與多個國家自然科學基金、國家重點研發(fā)計劃等項目;發(fā)表論文1 6 0余篇,申請專利2 0余項。
顧軍,中興通訊股份有限公司高級方案架構師;主要從事4 G /5 G無線組網方案及性能方面的研究工作;發(fā)表論文5篇,申請專利2 0余項。