李建東 盛敏 文娟
摘要:高效、精準(zhǔn)預(yù)測無線網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù),例如業(yè)務(wù)的到達(dá)率、用戶數(shù)以及吞吐量等,將為網(wǎng)絡(luò)提供用戶的實時需求,是實現(xiàn)無線網(wǎng)絡(luò)智能化的關(guān)鍵。然而,由于無線網(wǎng)絡(luò)傳輸?shù)牟豢煽啃?、采集設(shè)備故障、采樣率低等原因,使得無線大數(shù)據(jù)具有不可避免的非完備性。將使系統(tǒng)丟失大量有用信息,從而給無線網(wǎng)絡(luò)業(yè)務(wù)預(yù)測帶來巨大挑戰(zhàn)。為了應(yīng)對該挑戰(zhàn),提出了基于非完備數(shù)據(jù)集的業(yè)務(wù)預(yù)測架構(gòu),從缺失值補充以及空時信息挖掘2個維度高效利用非完備數(shù)據(jù)集,提升預(yù)測精度,助力無線網(wǎng)絡(luò)的智能化。
關(guān)鍵詞:業(yè)務(wù)預(yù)測;智能無線網(wǎng)絡(luò);非完備數(shù)據(jù)
Abstract: High efficient and accurate wireless traffic prediction, such as arrival rate, user account, and throughput, will provide users real demand for network providers, which is the key for intelligent wireless networks. However, there exists incomplete nature for wireless big data because of the unreliable wireless transmission, the failure of data acquisition and low sample rate. This unique feature may make wireless networks lose massive useful information and bring great challenge for accurate traffic prediction. To meet this challenge, an incomplete data-based traffic prediction framework is proposed, leveraging the incomplete data set efficiently via filling the missing data and digging the temporal-spatial information.
Key words: traffic prediction; intelligent wireless networks; incomplete data set
無線網(wǎng)絡(luò)正經(jīng)歷著從基于信息論的可靠傳輸?shù)交谥悄艿母咝ㄐ诺木薮笞兏颷1]。智能無線資源管理是無線網(wǎng)絡(luò)智能化的核心,其目標(biāo)是通過無線資源的動態(tài)調(diào)配使網(wǎng)絡(luò)資源與用戶需求精準(zhǔn)適配。具體來講,網(wǎng)絡(luò)將根據(jù)用戶業(yè)務(wù)需求的時空分布,在相對較大的時間尺度內(nèi),合理地配置各區(qū)域網(wǎng)絡(luò)資源,使網(wǎng)絡(luò)資源結(jié)構(gòu)最優(yōu)化;在小時間尺度內(nèi),動態(tài)地為各用戶分配網(wǎng)絡(luò)資源,使系統(tǒng)資源利用率以及用戶體驗最大化[2]。由此可見,高效、準(zhǔn)確預(yù)測無線網(wǎng)絡(luò)業(yè)務(wù)需求,是無線網(wǎng)絡(luò)實現(xiàn)智能化的重要基礎(chǔ)。
然而,網(wǎng)絡(luò)結(jié)構(gòu)的異構(gòu)化和密集化使網(wǎng)絡(luò)干擾異常復(fù)雜,加劇了無線網(wǎng)絡(luò)傳輸?shù)牟豢煽啃?,使得無線業(yè)務(wù)信息在傳輸過程中產(chǎn)生不可避免的丟失[3]。此外,數(shù)據(jù)采集設(shè)備故障或供電不足都將導(dǎo)致業(yè)務(wù)數(shù)據(jù)在收集過程中的缺失。最后,由于硬件設(shè)備限制導(dǎo)致的低采樣率往往無法準(zhǔn)確獲得業(yè)務(wù)變化的重要信息。這些原因都將使無線網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)具備如圖1所示的非完備特性,即數(shù)據(jù)缺失或者無法反應(yīng)業(yè)務(wù)變化趨勢,從而給無線網(wǎng)絡(luò)業(yè)務(wù)預(yù)測帶來巨大挑戰(zhàn)。
目前,對于缺失數(shù)據(jù)處理方法主要是根據(jù)已有數(shù)據(jù)的統(tǒng)計特性,如均值、中位數(shù)等,對缺失值進(jìn)行補充[4]。此類方法對于統(tǒng)計規(guī)律比較強的數(shù)據(jù)有很好的作用;但是,當(dāng)數(shù)據(jù)統(tǒng)計規(guī)律較弱時,其統(tǒng)計特性無法較好地反應(yīng)數(shù)據(jù)本身特點。此時用其統(tǒng)計特性進(jìn)行缺失值填充會引入大量噪聲,從而影響數(shù)據(jù)預(yù)測效果。如表1所示,傳統(tǒng)業(yè)務(wù)預(yù)測方法主要從時間以及空間2個維度,采用時間序列分析[5]、機器學(xué)習(xí)[6],以及深度學(xué)習(xí)[8-9]等方法,對收集到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)測,但是基本沒有考慮數(shù)據(jù)集的非完備特性對業(yè)務(wù)預(yù)測帶來的影響。
1 非完備海量數(shù)據(jù)業(yè)務(wù)預(yù)測
為了應(yīng)對非完備數(shù)據(jù)給業(yè)務(wù)預(yù)測帶來的挑戰(zhàn),本文中我們提出了如圖2所示的基于非完備無線大數(shù)據(jù)的業(yè)務(wù)預(yù)測架構(gòu),從缺失值填充、時空信息挖掘2個維度,高效利用非完備數(shù)據(jù)集,助力無線網(wǎng)絡(luò)智能化。
簡單來講,當(dāng)預(yù)測數(shù)據(jù)規(guī)律性較強時,例如辦公樓以及住宅區(qū)域的業(yè)務(wù)數(shù)據(jù)呈現(xiàn)明顯的“潮汐現(xiàn)象”,我們根據(jù)待預(yù)測數(shù)據(jù)的統(tǒng)計特性對缺失值進(jìn)行補充,然后選取合適的預(yù)測算法對待預(yù)測數(shù)據(jù)直接進(jìn)行預(yù)測。當(dāng)預(yù)測數(shù)據(jù)規(guī)律性較弱時,例如交通樞紐區(qū)域等業(yè)務(wù)數(shù)據(jù)流動性強、規(guī)律弱,如果仍根據(jù)其統(tǒng)計特性對缺失值補充,將會引入大量噪聲;因此我們直接將缺失值丟棄,并充分利用空間維度信息進(jìn)行數(shù)據(jù)挖掘,對待預(yù)測數(shù)據(jù)進(jìn)行間接預(yù)測。
首先,我們采用時間序列分解法,將待預(yù)測數(shù)據(jù)分解為規(guī)律項和隨機項,并根據(jù)規(guī)律項占業(yè)務(wù)量比值的大小,將待預(yù)測數(shù)據(jù)分為規(guī)律性強或弱2種情況。具體做法為:將待預(yù)測數(shù)據(jù)[x=x1,x2,…xn](其中[xt,1≤t≤n]表示第[t]時刻待預(yù)測的業(yè)務(wù)量,例如用戶數(shù)、流量等)分解為周期項[pt]、趨勢項[mt]以及隨機項[rt],并且將周期項與趨勢項的和稱為規(guī)律項[yt=pt+mt]。當(dāng)規(guī)律項與業(yè)務(wù)量的比值高于某一門限值[R]時,待預(yù)測數(shù)據(jù)規(guī)律性較強;反之,當(dāng)規(guī)律項與業(yè)務(wù)量的比值低于某一門限值[R]時,待預(yù)測數(shù)據(jù)規(guī)律性較弱。
當(dāng)待測數(shù)據(jù)規(guī)律性較強時,其歷史數(shù)據(jù)的統(tǒng)計特性例如均值,可較好地反映待測數(shù)據(jù)規(guī)律;因此,我們可利用缺失值歷史信息的均值,對其進(jìn)行填充,擴充訓(xùn)練樣本數(shù)。我們可以將填充好后的數(shù)據(jù)直接輸入所選擇的預(yù)測算法,對待預(yù)測數(shù)據(jù)直接進(jìn)行預(yù)測。
當(dāng)待測數(shù)據(jù)規(guī)律性較弱時,其歷史數(shù)據(jù)的統(tǒng)計特性無法較好地反映待測數(shù)據(jù)規(guī)律。如果對缺失值進(jìn)行強行填充,將會引入較多噪聲,從而影響預(yù)測精度。此時,我們將缺失值直接刪除,確保使用數(shù)據(jù)的真實性。經(jīng)過研究發(fā)現(xiàn),在無線網(wǎng)絡(luò)中,即使單小區(qū)的業(yè)務(wù)規(guī)律性較弱,由多個小區(qū)構(gòu)成的小區(qū)簇的業(yè)務(wù)規(guī)律性一般都很強。因此,可以充分挖掘相鄰小區(qū)的空間信息,先對小區(qū)簇的業(yè)務(wù)總量進(jìn)行預(yù)測,然后再對目標(biāo)小區(qū)業(yè)務(wù)與小區(qū)簇業(yè)務(wù)比值進(jìn)行預(yù)測,最后將這2部分的預(yù)測值相乘,即可得到基于空間信息獲得的目標(biāo)小區(qū)待測業(yè)務(wù)量。為了進(jìn)一步提升預(yù)測精度,我們采用“提升”(boosting)算法的基本思想,即設(shè)計多個好而不同的預(yù)測方法對同一問題進(jìn)行預(yù)測,并將其結(jié)果進(jìn)行融合,通過模型和數(shù)據(jù)的分集增益提升預(yù)測精度。為此,我們采用與基于空間信息預(yù)測模型不同的預(yù)測方法對刪除缺失值后的數(shù)據(jù)直接進(jìn)行預(yù)測。最后,將預(yù)測結(jié)果與基于空間信息的預(yù)測結(jié)果進(jìn)行有機融合,便可利用模型和數(shù)據(jù)的分集增益提升預(yù)測精度。
2 仿真設(shè)計與分析
為了驗證本文提出的基于非完備大數(shù)據(jù)業(yè)務(wù)預(yù)測架構(gòu)的有效性,我們采用校園網(wǎng)實測數(shù)據(jù)對各個區(qū)域各時間段的用戶數(shù)進(jìn)行預(yù)測。
為了判斷待預(yù)測數(shù)據(jù)規(guī)律性的強弱,我們假設(shè)門限值R=0.8。對于規(guī)律性比較強的業(yè)務(wù)數(shù)據(jù),我們采用均值對相應(yīng)缺失值進(jìn)行補充,并使用補充后的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,采用嶺回歸(Ridge)方法對其進(jìn)行直接預(yù)測。圖3對比了對缺失值進(jìn)行均值填充和缺失值刪除后的預(yù)測效果。為此,我們將獲得的相對完整的數(shù)據(jù)看做實驗中的“完備”數(shù)據(jù)集,然后在人為隨機刪除部分?jǐn)?shù)據(jù)進(jìn)行驗證。從圖3中可以看出,當(dāng)待測數(shù)據(jù)規(guī)律性較強時,當(dāng)缺失值比例不大時,采用均值補充可以有效提升預(yù)測精度。此外,刪除某些數(shù)據(jù)時,例如異常值,也可提升預(yù)測精度。因此,我們在對數(shù)據(jù)進(jìn)行預(yù)測前,要先分析數(shù)據(jù)的特性,并根據(jù)數(shù)據(jù)的特性進(jìn)行相應(yīng)的處理。
對于規(guī)律性相對較弱的業(yè)務(wù)數(shù)據(jù),我們先將缺失值刪除,然后使用刪除缺失值后的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,并采用基于時空信息的預(yù)測方法對其預(yù)測。具體來講,分別采用Ridge、隨機森林(RF)以及輕量級梯度提升機(Light-GBM)方法對目標(biāo)小區(qū)用戶數(shù)、小區(qū)簇用戶數(shù)以及目標(biāo)小區(qū)和小區(qū)簇用戶數(shù)的比例進(jìn)行預(yù)測,然后將預(yù)測出的小區(qū)簇用戶數(shù)和相應(yīng)比例相乘,所得結(jié)果與直接預(yù)測的用戶數(shù)以合適比例融合,得出最后的目標(biāo)小區(qū)用戶數(shù)預(yù)測值。圖4對比了僅基于時間信息的業(yè)務(wù)預(yù)測與基于時空信息的業(yè)務(wù)預(yù)測精度。從圖中我們可以看出,借助于空間信息可有效提高業(yè)務(wù)預(yù)測精度。
3 結(jié)束語
基于無線大數(shù)據(jù),結(jié)合人工智能算法,將使無線網(wǎng)絡(luò)的設(shè)計、管理與優(yōu)化更加自動化、智能化與智慧化。然而,無線網(wǎng)絡(luò)信道傳輸?shù)牟豢煽啃?、業(yè)務(wù)多樣性以及網(wǎng)絡(luò)結(jié)構(gòu)密集化、異構(gòu)化等特點使得無線大數(shù)據(jù)呈現(xiàn)非完備性、空時大尺度變化等特點,為無線大數(shù)據(jù)挖掘以及人工智能算法應(yīng)用與結(jié)合帶來巨大挑戰(zhàn)。本文中,我們提出了基于非完備無線大數(shù)據(jù)業(yè)務(wù)預(yù)測的基本架構(gòu),對非完備無線大數(shù)據(jù)的應(yīng)用具有重要啟發(fā)意義。在無線網(wǎng)絡(luò)智能化的關(guān)鍵時期,仍需要我們不斷探索如何針對無線網(wǎng)絡(luò)特異性,最大限度地挖掘無線大數(shù)據(jù)的價值并設(shè)計相應(yīng)的智能算法。
參考文獻(xiàn)
[1] LI R P, ZHAO Z F, ZHOU X, et al. Intelligent 5G: When Cellular Networks Meet Artificial Intelligence [J]. IEEE Wireless Communications, 2017, 24(5): 175-183. DOI:10.1109/mwc.2017.1600304wc
[2] 張琰, 盛敏, 李建東. 大數(shù)據(jù)驅(qū)動的“人工智能”無線網(wǎng)絡(luò)[J]. 中興通訊技術(shù), 2018, 24(2): 2-5
[3] LIU J Y, SHENG M, LIU L, et al. Interference Management in Ultra-Dense Networks: Challenges and Approaches [J]. IEEE Network, 2017, 31(6): 70-77. DOI:10.1109/mnet.2017.1700052
[4] SESSA J, SYED D. Techniques to Deal with Missing Data[C]//2016 5th International Conference on Electronic Devices, Systems and Applications (ICEDSA). United Arab Emirates:ICEDSA, 2016: 1-4. DOI:10.1109/ICEDSA.2016.7818486
[5] XU F L, LIN Y Y, HUANG J X, et al. Big Data Driven Mobile Traffic Understanding and Forecasting: A Time Series Approach [J]. IEEE Transactions on Services Computing, 2016, 9(5): 796-805. DOI:10.1109/tsc.2016.2599878
[6] ZARE MOAYEDI H, MASNADI-SHIRAZI M A. Arima Model for Network Traffic Prediction and Anomaly Detection[C]//2008 International Symposium on Information Technology. Malaysia, 2008: 1-6. DOI:10.1109/ITSIM.2008.4631947
[7] WANG X, ZHOU Z M, YANG Z, et al. Spatio-Temporal Analysis and Prediction of Cellular Traffic in Metropolis[C]//2017 IEEE 25th International Conference on Network Protocols (ICNP). Canada: ICNP, 2017: 1-10. DOI:10.1109/ICNP.2017.8117559
[8] WANG J, TANG J, XU Z, et al. Spatiotemporal Modeling and Prediction in Cellular Networks: A Big Data Enabled Deep Learning Approach[C]//IEEE INFOCOM. USA: IEEE, 2017:1-9