杜施默,陳國軍,陸 敏,張 晨,周海驕
(中國移動(dòng)通信集團(tuán)浙江有限公司杭州分公司,杭州 310015)
隨著科學(xué)技術(shù)的進(jìn)步以及互聯(lián)網(wǎng)內(nèi)容的延伸發(fā)展,網(wǎng)絡(luò)早已從一種先進(jìn)的傳播方法發(fā)展成為人們一種不可或缺的生活方式。根據(jù)思科對(duì)網(wǎng)絡(luò)發(fā)展的預(yù)測,用戶數(shù)與無線流量不斷攀升,移動(dòng)流量將以每年42%的速度增長[1],然而重要城區(qū)內(nèi)基站密度已趨于飽和,無線承載網(wǎng)絡(luò)面臨巨大的壓力。因此,收集各項(xiàng)歷史信息發(fā)掘基站流量變化規(guī)律以對(duì)鏈路流量進(jìn)行準(zhǔn)確的預(yù)測極為必要[2]。合適的網(wǎng)絡(luò)流量預(yù)測方法一方面能夠指導(dǎo)網(wǎng)絡(luò)管理與調(diào)度,提高整個(gè)網(wǎng)絡(luò)的數(shù)據(jù)傳送效率[3-4];另一方面針對(duì)流量預(yù)測結(jié)果優(yōu)化資源配置,防止流量擁塞,提高用戶體驗(yàn)質(zhì)量[5]。
當(dāng)前研究多是探尋歷史流量間的關(guān)聯(lián)關(guān)系從而進(jìn)行預(yù)測,然而考慮到無線基站流量與其覆蓋范圍內(nèi)用戶數(shù)及用戶流量使用行為息息相關(guān),上述方法存在一定局限性,即預(yù)測樣本較為單一,并未將基站周邊多維度環(huán)境因素考慮進(jìn)來。因此,有學(xué)者將目光轉(zhuǎn)向基于環(huán)境因素的無線網(wǎng)絡(luò)流量預(yù)測[2,6-7]。然而,當(dāng)前無線通信一個(gè)重要的特點(diǎn)是與用戶聚集性和聚集群體的偏好強(qiáng)相關(guān),上述幾種方法均是將相對(duì)平穩(wěn)的外界信息源作為預(yù)測模型的輸入,并未將此類突發(fā)性納入考慮。
因此,本文以指導(dǎo)無線網(wǎng)絡(luò)臨時(shí)性活動(dòng)保障前軟硬件擴(kuò)容為目的,將有效捕獲影響臨時(shí)性流量的波動(dòng)特征,并在該特征的基礎(chǔ)上實(shí)現(xiàn)對(duì)臨時(shí)性流量預(yù)測作為本文研究思路的核心,提出基于梯度提升樹(Gradient Boosting Decision Tree,GBDT)的多標(biāo)簽無線網(wǎng)絡(luò)流量預(yù)測方法。本文以無線網(wǎng)絡(luò)中忙時(shí)流量預(yù)測為框架,以“天”為采集時(shí)間間隔,以“小時(shí)”為采集樣本粒度,研究適合小區(qū)域突發(fā)性流量的預(yù)測方法(每天最大單小時(shí)流量),以指導(dǎo)臨時(shí)性活動(dòng)前的資源分配。
對(duì)于小區(qū)域內(nèi)的網(wǎng)絡(luò)資源投入,由于缺乏準(zhǔn)確有效的流量預(yù)測方法,當(dāng)前的網(wǎng)絡(luò)資源主要根據(jù)活動(dòng)類型,依靠優(yōu)化人員經(jīng)驗(yàn)測算此區(qū)域在后續(xù)時(shí)間段內(nèi)的流量最大值,從而計(jì)算資源投入量。本文從電力負(fù)荷預(yù)測中環(huán)境因素的相關(guān)概念方法中得到啟示,將外部環(huán)境考量用于小區(qū)域的網(wǎng)絡(luò)流量預(yù)測,以應(yīng)對(duì)現(xiàn)網(wǎng)用戶區(qū)域性聚集及流量突發(fā)性增長。
鑒于無線網(wǎng)絡(luò)流量是由該基站覆蓋區(qū)域內(nèi)的用戶行為信息匯聚而成,流量預(yù)測本質(zhì)上說就是將用戶行為引發(fā)的流量變動(dòng)趨勢挖掘出來。從圖1可以發(fā)現(xiàn),大區(qū)域流量由于范圍擴(kuò)大模糊了小區(qū)域流量中用戶聚集帶來的突發(fā)性,其自相關(guān)性明顯增強(qiáng),大區(qū)域流量預(yù)測方法不再適用于小區(qū)域。
(a)小區(qū)域流量變動(dòng)趨勢
(a)大區(qū)域流量變動(dòng)趨勢圖1 無線網(wǎng)絡(luò)忙時(shí)流量變動(dòng)趨勢
因此,針對(duì)突發(fā)性明顯的無線網(wǎng)流量序列,僅利用歷史數(shù)據(jù)中包含的信息不足以形成精確預(yù)測。因此,本文進(jìn)行反向思考,從影響用戶行為的外部因素入手,量化外部因素的貢獻(xiàn)度,從而實(shí)現(xiàn)預(yù)測流量。
考慮引起用戶聚散、流量突增或陡降的原因,大體可分為天氣因素、覆蓋場景、日類型、活動(dòng)事件類型等,小區(qū)域內(nèi)主要影響因素的選擇直接影響到預(yù)測精度。為選取合適的外部影響因素,衡量對(duì)于流量變動(dòng)的貢獻(xiàn),本文以信息增益分析。
1.2.1 天氣對(duì)流量影響分析
天氣因素對(duì)當(dāng)日流量大小有著較大影響,例如發(fā)生高溫、降雨等。由于天氣因素對(duì)于當(dāng)日流量的影響具有“隱含性”,即天氣因素對(duì)于流量的貢獻(xiàn)度隱含于歷史流量序列中,當(dāng)天氣因素?zé)o明顯變動(dòng)時(shí)僅使用平穩(wěn)時(shí)間序列預(yù)測便有可能利用隱含天氣信息得出較準(zhǔn)確的預(yù)測結(jié)果;但當(dāng)天氣因素明顯改變時(shí),其信息無法從歷史流量序列中體現(xiàn)出來,必須另作考量。參照基本成熟的電力負(fù)荷預(yù)測領(lǐng)域[8],流量預(yù)測相關(guān)天氣特征提取如表1所示。
表1 天氣因素特征提取及說明
1.2.2 覆蓋場景對(duì)流量影響分析
日常運(yùn)維發(fā)現(xiàn),基站流量與其覆蓋場景強(qiáng)相關(guān),為量化各覆蓋場景類型對(duì)流量的貢獻(xiàn)度,本文采用2020年8~10月OMC上采集的基站流量數(shù)據(jù),計(jì)算信息增益進(jìn)行衡量。為突顯覆蓋場景對(duì)于流量影響,本文對(duì)同一地市內(nèi)同類型場景進(jìn)行流量匯聚,以平衡特殊活動(dòng)事件帶來的影響。
對(duì)全網(wǎng)基站忙時(shí)流量分布進(jìn)行統(tǒng)計(jì),得到其概率分布(Probability Density Function,PDF)如圖2所示。
圖2 全網(wǎng)基站忙時(shí)流量概率分布圖
分析圖2可知,覆蓋場景對(duì)于基站忙時(shí)流量有著明顯的影響。以全網(wǎng)綜合流量分別作為對(duì)照,忙時(shí)流量分布近似于對(duì)數(shù)正態(tài)分布,風(fēng)景區(qū)流量的分布較為集中,醫(yī)院場景流量的分布較為平均。為進(jìn)一步量化覆蓋場景對(duì)于忙時(shí)流量的貢獻(xiàn)大小,本文以熵為切入點(diǎn),計(jì)算考慮覆蓋場景后忙時(shí)流量不確定性減少的程度(即信息增益)。
綜合場景內(nèi)的忙時(shí)流量可看作是一個(gè)連續(xù)信源,則不考慮場景時(shí)忙時(shí)流量的信息熵為
(1)
式中:X代表綜合場景下的某站的忙時(shí)流量,流量的大小用x表示,p(x)則代表此忙時(shí)流量為x的概率,Hc(X)為X的信息熵即事件X出現(xiàn)的不確定性。
當(dāng)加入X的場景信息Y后,X的不確定性降低至式(2)所示:
(2)
式中:yi(i=1,2,…,n)表示n個(gè)場景中的某一種(如y1代表居民區(qū))。如此可得到每類場景對(duì)應(yīng)忙時(shí)流量的不確定性減少量,如式(3)所示:
Gaini(X,Y)=Hc(X)-Hc(X|Y=yi)。
(3)
得到各場景下的信息增益如圖3所示,其中山農(nóng)木林由于流量較小,且與現(xiàn)網(wǎng)其他場景流量相比最為明顯,其信息增益最大;居民區(qū)、集貿(mào)市場的流量由于用戶活動(dòng)行為與現(xiàn)網(wǎng)無明顯差異,其信息增益較小。根據(jù)信息增益篩選貢獻(xiàn)明顯的覆蓋場景作為特征項(xiàng),選取“風(fēng)景區(qū)、交通樞紐、鄉(xiāng)鎮(zhèn)村莊、校園(高校)、校園(中小學(xué))、寫字樓/企事業(yè)單位、休閑娛樂場所、工業(yè)園區(qū)、醫(yī)院、山農(nóng)牧林、大型場館/廣場公園、其他”分別用0~11表示。
圖3 覆蓋場景信息增益
1.2.3 日類型對(duì)流量影響分析
基于電力負(fù)荷預(yù)測中對(duì)于日類型的影響的分析,本文選取相關(guān)特征因素如表2所示。
表2 日類型因素特征提取及說明
1.2.4 活動(dòng)事件對(duì)流量影響分析
本文通過整理日常網(wǎng)絡(luò)運(yùn)維過程中的輿情上報(bào)信息,選取特殊活動(dòng)事件如表3所示。
表3 活動(dòng)事件因素特征提取及說明
基于第1小節(jié)中的流量特征分析可以得出,天氣、場景及特殊事件對(duì)無線網(wǎng)絡(luò)流量的影響不可忽視。然而,當(dāng)前對(duì)于網(wǎng)絡(luò)流量的研究成果中并沒有考慮此類因素的影響,導(dǎo)致無法精確指導(dǎo)優(yōu)化維護(hù)人員進(jìn)行網(wǎng)絡(luò)擴(kuò)容[9-10]。因此,本文在充分考慮整合移動(dòng)平均自回歸(Autoregressive Integrated Moving Average,ARIMA)模型與日常網(wǎng)絡(luò)流量自相似性的匹配優(yōu)勢的基礎(chǔ)上,結(jié)合決策樹對(duì)多標(biāo)簽樣本預(yù)測的方法,將日常等比流量預(yù)測結(jié)果嵌入到?jīng)Q策樹中,構(gòu)建多標(biāo)簽預(yù)測模型。
考慮到手機(jī)已然成為日常生活中不可或缺的社交工具,當(dāng)前無線流量中承載著豐富的用戶行為活動(dòng)信息,如此流量的波動(dòng)趨勢必然與用戶的活動(dòng)息息相關(guān)。進(jìn)一步,本文在日常流量自相似性模型的基礎(chǔ)上,從終端行為考慮用決策樹分類方法加以校正。預(yù)測模型總體結(jié)構(gòu)如圖4所示。
圖4 多標(biāo)簽流量預(yù)測模型
為最大程度上弱化流量的突發(fā)性,本文借助宏觀上全網(wǎng)大尺度流量變動(dòng)趨勢,模糊場景及特殊事件對(duì)局部流量的影響,以觀測日常流量增長趨勢。本文中以日常等比預(yù)測指代。
利用擴(kuò)展的迪克富勒檢驗(yàn)(Augmented Dickey-Fuller,ADF)判斷流量序列平穩(wěn)性,得到p值為0.167,大于判斷標(biāo)準(zhǔn)值0.05,說明流量序列為非平穩(wěn)序列。進(jìn)一步,對(duì)原始流量進(jìn)行一階差分得到P值為0.000 013,一階差分序列滿足平穩(wěn)性要求。圖5為對(duì)差分后的數(shù)據(jù)定階,可以看到自相關(guān)和偏相函數(shù)均具有拖尾的特點(diǎn),且都存在明顯一階相關(guān)性,即可用ARIMA模型(1,1,1)擬合,如式(4)所示。
(a)自相關(guān)函數(shù)(ACF)
(b)偏自相關(guān)函數(shù)(PACF)圖5 流量相關(guān)分析
(1-αB)(1-B)×Xt=(1-βB)×εt。
(4)
式中:B為滯后算子,(1-αB)為自回歸系數(shù),(1-B)為差分算子,(1-βB)稱為滑動(dòng)平均系數(shù),εt為零均值白噪聲。
鑒于無線網(wǎng)絡(luò)流量對(duì)于外部因素的敏感性,本文以GBDT引入外部影響因素y參與訓(xùn)練流量序列Xt的預(yù)測模型訓(xùn)練提高預(yù)測準(zhǔn)確性,初始化弱學(xué)習(xí)器如式(5)所示:
(5)
式中:N為訓(xùn)練樣本數(shù)量,F(xiàn)0為初始模型,γ為使損失函數(shù)L最小的常數(shù)值。對(duì)于第m次迭代(迭代輪數(shù)m=1,2,…,M),以找到損失L最小的弱學(xué)習(xí)器為目標(biāo),更新強(qiáng)學(xué)習(xí)器。其中m次迭代的第t個(gè)值的損失函數(shù)負(fù)梯度可表示為
(6)
用(yt,rmt)擬合第m顆CART回歸樹,針對(duì)葉子節(jié)點(diǎn)區(qū)域Rmj(j=1,2,…,J,J為葉子節(jié)點(diǎn)個(gè)數(shù))計(jì)算最佳擬合值:
(7)
即m次迭代后的預(yù)測模型Fm為
(8)
式中:I為指示函數(shù),
(9)
得到強(qiáng)學(xué)習(xí)器:
(10)
本文采集2020年10月某小區(qū)域的流量樣本進(jìn)行預(yù)測效果對(duì)比分析。由于本文目的是借助流量預(yù)測結(jié)果指導(dǎo)資源投放,因此采用每日忙時(shí)流量(一小時(shí)內(nèi)最大流量)進(jìn)行預(yù)測效果驗(yàn)證。
首先選取同時(shí)段大區(qū)域流量進(jìn)行ARIMA一步預(yù)測(即根據(jù)10月1~16日數(shù)據(jù)擬合模型參數(shù))進(jìn)行對(duì)比分析,第2節(jié)中已根據(jù)自相關(guān)與偏自相關(guān)函數(shù)確定模型階數(shù)為ARIMA(1,1,1),本文使用Python建立ARIMA模型,預(yù)測結(jié)果如圖6所示。
圖6 流量預(yù)測結(jié)果對(duì)比
同時(shí),BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)的預(yù)測值也在圖6中示出,取500個(gè)數(shù)據(jù)用于訓(xùn)練預(yù)測模型,鑒于流量序列具有一定的周關(guān)聯(lián)性,輸入層節(jié)點(diǎn)數(shù)為7(即以上一周的流量數(shù)據(jù)為輸入數(shù)據(jù)),單隱藏層由三個(gè)隱藏節(jié)點(diǎn)組成,且輸入時(shí)滯為5、輸出層節(jié)點(diǎn)數(shù)為1(預(yù)測一天的數(shù)據(jù),即一步預(yù)測)。
多標(biāo)簽預(yù)測則是首先建立ARIMA(1,1,1)模型,其參數(shù)與對(duì)比算法相同,后用Python 的機(jī)器學(xué)習(xí)擴(kuò)展包sklearn 實(shí)現(xiàn),將300組歷史數(shù)據(jù)集用于GBDT訓(xùn)練,輸入為第1節(jié)中分析的各特征項(xiàng)及ARIMA預(yù)測結(jié)果。其中參數(shù)設(shè)置通過網(wǎng)格搜索法選取最佳參數(shù),損失函數(shù)采用均方誤差。最終模型訓(xùn)練結(jié)果為:學(xué)習(xí)率0.1,決策樹最大深度4,決策樹個(gè)數(shù)160。
從圖6可以看出,由于匯聚區(qū)域較小,實(shí)際流量具有很大的突發(fā)性,ARIMA模型由于僅依靠歷史數(shù)據(jù)進(jìn)行訓(xùn)練很難適應(yīng)外部因素引起的突發(fā)趨勢;神經(jīng)網(wǎng)絡(luò)模型雖然同樣依靠歷史數(shù)據(jù),但部分影響流量的外界因素已隱含在訓(xùn)練序列中,如“工作日”“活動(dòng)場所”等,其預(yù)測準(zhǔn)確度相對(duì)于ARIMA有所提升;多標(biāo)簽預(yù)測則由于盡可能多地將外部影響因素考慮進(jìn)來,預(yù)測結(jié)果更加準(zhǔn)確,尤其在突發(fā)趨勢擬合上更具優(yōu)勢。
本文以相對(duì)均方根誤差(Relative Root Mean Square Error,RRMSE)和平均相對(duì)誤差(Mean Absolute Percentage Error,MAPE)為衡量標(biāo)準(zhǔn),分別如式(11)和(12)所示:
(11)
(12)
小區(qū)域多標(biāo)簽預(yù)測模型與ARIMA預(yù)測、PBNN預(yù)測結(jié)果的比較(訓(xùn)練模型與3.1節(jié)相同,共選取100個(gè)區(qū)域參與模擬預(yù)測,即N=100),各項(xiàng)預(yù)測算法誤差在表4中列出。
表4 預(yù)測結(jié)果比較
從表4中的預(yù)測結(jié)果可以得出,多標(biāo)簽預(yù)測在RRMSE、MAPE上表現(xiàn)出明顯的優(yōu)越性;ARIMA預(yù)測由于僅依據(jù)近期流量本身的信息進(jìn)行參數(shù)擬合,將其用于突發(fā)性極強(qiáng)的小區(qū)域流量預(yù)測會(huì)產(chǎn)生較大的誤差;神經(jīng)網(wǎng)絡(luò)方法雖然在預(yù)測領(lǐng)域廣為應(yīng)用,但同樣由于未考慮外部影響因素,其預(yù)測誤差高于多標(biāo)簽預(yù)測方法。
本文在充分分析小區(qū)域通信網(wǎng)絡(luò)流量特征之后,利用外部因素對(duì)流量的影響程度構(gòu)建適用于小區(qū)域范圍內(nèi)通信網(wǎng)流量的預(yù)測算法。仿真結(jié)果表明,本文提出的多標(biāo)簽預(yù)測算法相對(duì)于當(dāng)前單純依靠歷史數(shù)據(jù)的流量預(yù)測方法能夠提供更加準(zhǔn)確的預(yù)測結(jié)果,從而為下一步的網(wǎng)絡(luò)資源合理分配提供研究基礎(chǔ),實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)維工作由被動(dòng)防御走向主動(dòng)優(yōu)化。