李 超 熊 楨 蔣俊康
(江西理工大學(xué)理學(xué)院,江西 贛州341000)
隨著移動通信技術(shù)的發(fā)展,移動端設(shè)備的大范圍普及,4G、5G給人們帶來了極大的便利?;咀鳛槌休d網(wǎng)絡(luò)流量的基礎(chǔ)設(shè)施,其流量負(fù)荷問題變得越來越重要。由于基站數(shù)量巨大,無法通過人工實(shí)時關(guān)注每個基站的流量變化,需要給每個基站設(shè)置根據(jù)時段開關(guān)自動載頻的程序,這樣就需要知道一段時間內(nèi)基站流量關(guān)于時段的變化,特別是基站在每個小時的上下流量值,從而可以知道基站在每個時段需要的載頻的數(shù)量,進(jìn)而設(shè)置一定時間內(nèi)基站載頻自動開關(guān)的程序。
基于python中pandas庫對數(shù)據(jù)進(jìn)行讀取,根據(jù)信息進(jìn)行相關(guān)統(tǒng)計(jì)分析,讀取發(fā)現(xiàn)數(shù)據(jù)共有144138200條,其中指標(biāo)分別為日期、時間、小區(qū)編號、上行業(yè)務(wù)量GB、下行業(yè)務(wù)量GB。為了對小區(qū)流量數(shù)據(jù)更好地統(tǒng)計(jì)描述,先對數(shù)據(jù)清理,采用季節(jié)性自回歸綜合滑動平均模型對流量進(jìn)行預(yù)測,最后使用GOSS(基于梯度的單邊采樣)算法進(jìn)行訓(xùn)練樣本采樣的優(yōu)化。
本文是利用模型來進(jìn)行小區(qū)流量預(yù)測,對眾多模型中得到一個最佳的,對常用的評價模型是RMSE(均方根誤差),其定義如下:
其中,yi表示的是第i個樣本的真實(shí)值,yi表示的是第i個樣本的預(yù)測值,n表示的是樣本的個數(shù).RMSE使用的是平均誤差,對模型的評價在本文中會較為準(zhǔn)確。
利用python讀取選取附件二中小區(qū),提取出該小區(qū)2018年3月1日至4月19日的數(shù)據(jù)作為數(shù)據(jù)集,分別提取“月”、“天”、“小時”為特征,定義“2018-03-0100:00:00”為初始日期,取80%的數(shù)據(jù)為訓(xùn)練集,20%的數(shù)據(jù)為驗(yàn)證集。
2.2.1 LightGBM算法預(yù)測
在jupyter notebook中導(dǎo)入lightgbm、LGBMRegressor進(jìn)行預(yù)測,導(dǎo)入sklearn調(diào)用mean_squaered_error()函數(shù)計(jì)算均方根誤差,導(dǎo)入小區(qū)的流量數(shù)據(jù) (以221小區(qū)上行流 量為例)進(jìn)行預(yù)測,其均方差誤差為0.0014008。為了提高模型的精度,同時提升模型 的泛化能力,通過隨機(jī)搜索最優(yōu)參數(shù)來提升算法準(zhǔn)確性,導(dǎo)入 sklearn.model_selection庫中RandomizedSearchCV模塊,來隨機(jī)搜索最優(yōu)參數(shù),對于LightGBM算法,利用隨機(jī)搜索參數(shù)訓(xùn)練1000次。一般來說,訓(xùn)練數(shù)值越大,獲得參數(shù)精度越大,但是搜索時間越長,設(shè)置參數(shù)num_leaves為30至150迭代、參數(shù)min_child_sample為20至500迭代,最終通過超參數(shù)搜索后RMSE為0.0013629,準(zhǔn)確度提升了2.70%。
2.2.2 SVR算法預(yù)測
導(dǎo)入sklearn.svm中SVR庫,帶入小區(qū)流量分別采用線性核函數(shù)初始化的SVR、多項(xiàng)式核函數(shù)初始化的SVR和徑向基核函數(shù)初始化的SVR進(jìn)行預(yù)測,由于三者RMSE誤差效果較差,支持向量機(jī)的效果普遍較差,對算法下一步的參數(shù)優(yōu)化也毫無意義。
長短期記憶模型(Long-ShortTermMemory,LSTM)是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長期依賴問題。LSTM是一種經(jīng)過精心巧妙設(shè)計(jì)的RNN網(wǎng)絡(luò),盡管LSTM和原始RNN總的來看都會有三大層,即輸入層、隱含層、輸出層,但是LSTM和原始RNN在隱含層設(shè)計(jì)上有較大的差異,主要是LSTM是在隱含層具備特殊的cell結(jié)構(gòu)(圖1)。
圖1 LSTM隱藏狀態(tài)計(jì)算示意圖
基于深度學(xué)習(xí)對短小區(qū)流量預(yù)測,采用LSTM算法,在jupyter notebook中導(dǎo)入keras.models庫中的Sequential,導(dǎo)入keras.layers中的Dense、LSTM、Dropout模塊。先將數(shù)據(jù)集重構(gòu)為負(fù)荷LSTM要求的數(shù)據(jù)格式,即樣本、時間步、特征,帶入測試集數(shù)據(jù)和驗(yàn)證集數(shù)據(jù)設(shè)置參數(shù)epochs為2000,參數(shù)batch_size為32,參數(shù)verbose為2,測試221號小區(qū)流量輸入,其RMSE誤差為0.00016501 ,繪制出預(yù)測曲線效果圖,如圖2。
圖2 LSTM預(yù)測效果圖
基于簡單的蜂窩網(wǎng)絡(luò),設(shè)網(wǎng)絡(luò)基站為BS,小區(qū)內(nèi)的用戶(流量使用者)為UE,記第m個基站為BSm和第i個小區(qū)的用戶為UEi。將網(wǎng)絡(luò)表示呈基站、用戶以及它們聯(lián)系關(guān)系的二部圖,在此基礎(chǔ)上建立基站動態(tài)選擇配置算法,假設(shè)網(wǎng)絡(luò)頻率復(fù)用因子為1,則用戶接收端UEi的SINR值為:
綜上所訴,基于基站動態(tài)選擇配置算法,將整個過程表示為基于預(yù)測流量的基站動態(tài)配置機(jī)制,基于小區(qū)用戶的QoS和基站負(fù)載以及基站配置能耗綜合,采取線性算法度量,幫助基站在未來某時刻選擇最佳的模式,使得基站能耗最低,并且達(dá)到保證網(wǎng)絡(luò)通信質(zhì)量,能起到很好的節(jié)約能效的作用。
本文預(yù)測模型從不同角度進(jìn)行考慮,分別從傳統(tǒng)時間序列模型、機(jī)器學(xué)習(xí)預(yù)測算法、深度學(xué)習(xí)預(yù)測算法進(jìn)行研究,通過各種算法進(jìn)行對比,得到最優(yōu)的預(yù)測模型,其模型穩(wěn)定性好,能較準(zhǔn)確地得到短期小區(qū)預(yù)測的上下行流量。最后從傳統(tǒng)時間序列模型入手,采用Stacking集成算法進(jìn)行預(yù)測。