亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

應(yīng)用梯度提升樹的小區(qū)域無線網(wǎng)絡(luò)多標(biāo)簽流量預(yù)測*

2022-06-28 06:53:04杜施默陳國軍周海驕

電訊技術(shù) 2022年6期

杜施默，陳國軍，陸敏，張晨，周海驕

(中國移動(dòng)通信集團(tuán)浙江有限公司杭州分公司，杭州 310015)

0 引言

隨著科學(xué)技術(shù)的進(jìn)步以及互聯(lián)網(wǎng)內(nèi)容的延伸發(fā)展，網(wǎng)絡(luò)早已從一種先進(jìn)的傳播方法發(fā)展成為人們一種不可或缺的生活方式。根據(jù)思科對(duì)網(wǎng)絡(luò)發(fā)展的預(yù)測，用戶數(shù)與無線流量不斷攀升，移動(dòng)流量將以每年42%的速度增長[1]，然而重要城區(qū)內(nèi)基站密度已趨于飽和，無線承載網(wǎng)絡(luò)面臨巨大的壓力。因此，收集各項(xiàng)歷史信息發(fā)掘基站流量變化規(guī)律以對(duì)鏈路流量進(jìn)行準(zhǔn)確的預(yù)測極為必要[2]。合適的網(wǎng)絡(luò)流量預(yù)測方法一方面能夠指導(dǎo)網(wǎng)絡(luò)管理與調(diào)度，提高整個(gè)網(wǎng)絡(luò)的數(shù)據(jù)傳送效率[3-4]；另一方面針對(duì)流量預(yù)測結(jié)果優(yōu)化資源配置，防止流量擁塞，提高用戶體驗(yàn)質(zhì)量[5]。

當(dāng)前研究多是探尋歷史流量間的關(guān)聯(lián)關(guān)系從而進(jìn)行預(yù)測，然而考慮到無線基站流量與其覆蓋范圍內(nèi)用戶數(shù)及用戶流量使用行為息息相關(guān)，上述方法存在一定局限性，即預(yù)測樣本較為單一，并未將基站周邊多維度環(huán)境因素考慮進(jìn)來。因此，有學(xué)者將目光轉(zhuǎn)向基于環(huán)境因素的無線網(wǎng)絡(luò)流量預(yù)測[2,6-7]。然而，當(dāng)前無線通信一個(gè)重要的特點(diǎn)是與用戶聚集性和聚集群體的偏好強(qiáng)相關(guān)，上述幾種方法均是將相對(duì)平穩(wěn)的外界信息源作為預(yù)測模型的輸入，并未將此類突發(fā)性納入考慮。

因此，本文以指導(dǎo)無線網(wǎng)絡(luò)臨時(shí)性活動(dòng)保障前軟硬件擴(kuò)容為目的，將有效捕獲影響臨時(shí)性流量的波動(dòng)特征，并在該特征的基礎(chǔ)上實(shí)現(xiàn)對(duì)臨時(shí)性流量預(yù)測作為本文研究思路的核心，提出基于梯度提升樹(Gradient Boosting Decision Tree，GBDT)的多標(biāo)簽無線網(wǎng)絡(luò)流量預(yù)測方法。本文以無線網(wǎng)絡(luò)中忙時(shí)流量預(yù)測為框架，以“天”為采集時(shí)間間隔，以“小時(shí)”為采集樣本粒度，研究適合小區(qū)域突發(fā)性流量的預(yù)測方法(每天最大單小時(shí)流量)，以指導(dǎo)臨時(shí)性活動(dòng)前的資源分配。

對(duì)于小區(qū)域內(nèi)的網(wǎng)絡(luò)資源投入，由于缺乏準(zhǔn)確有效的流量預(yù)測方法，當(dāng)前的網(wǎng)絡(luò)資源主要根據(jù)活動(dòng)類型，依靠優(yōu)化人員經(jīng)驗(yàn)測算此區(qū)域在后續(xù)時(shí)間段內(nèi)的流量最大值，從而計(jì)算資源投入量。本文從電力負(fù)荷預(yù)測中環(huán)境因素的相關(guān)概念方法中得到啟示，將外部環(huán)境考量用于小區(qū)域的網(wǎng)絡(luò)流量預(yù)測，以應(yīng)對(duì)現(xiàn)網(wǎng)用戶區(qū)域性聚集及流量突發(fā)性增長。

1 小區(qū)域無線網(wǎng)絡(luò)流量特征分析

1.1 日常無線網(wǎng)絡(luò)流量趨勢分析

鑒于無線網(wǎng)絡(luò)流量是由該基站覆蓋區(qū)域內(nèi)的用戶行為信息匯聚而成，流量預(yù)測本質(zhì)上說就是將用戶行為引發(fā)的流量變動(dòng)趨勢挖掘出來。從圖1可以發(fā)現(xiàn)，大區(qū)域流量由于范圍擴(kuò)大模糊了小區(qū)域流量中用戶聚集帶來的突發(fā)性，其自相關(guān)性明顯增強(qiáng)，大區(qū)域流量預(yù)測方法不再適用于小區(qū)域。

(a)小區(qū)域流量變動(dòng)趨勢

(a)大區(qū)域流量變動(dòng)趨勢圖1 無線網(wǎng)絡(luò)忙時(shí)流量變動(dòng)趨勢

因此，針對(duì)突發(fā)性明顯的無線網(wǎng)流量序列，僅利用歷史數(shù)據(jù)中包含的信息不足以形成精確預(yù)測。因此，本文進(jìn)行反向思考，從影響用戶行為的外部因素入手，量化外部因素的貢獻(xiàn)度，從而實(shí)現(xiàn)預(yù)測流量。

1.2 外部各因素影響分析

考慮引起用戶聚散、流量突增或陡降的原因，大體可分為天氣因素、覆蓋場景、日類型、活動(dòng)事件類型等，小區(qū)域內(nèi)主要影響因素的選擇直接影響到預(yù)測精度。為選取合適的外部影響因素，衡量對(duì)于流量變動(dòng)的貢獻(xiàn)，本文以信息增益分析。

1.2.1 天氣對(duì)流量影響分析

天氣因素對(duì)當(dāng)日流量大小有著較大影響，例如發(fā)生高溫、降雨等。由于天氣因素對(duì)于當(dāng)日流量的影響具有“隱含性”，即天氣因素對(duì)于流量的貢獻(xiàn)度隱含于歷史流量序列中，當(dāng)天氣因素?zé)o明顯變動(dòng)時(shí)僅使用平穩(wěn)時(shí)間序列預(yù)測便有可能利用隱含天氣信息得出較準(zhǔn)確的預(yù)測結(jié)果；但當(dāng)天氣因素明顯改變時(shí)，其信息無法從歷史流量序列中體現(xiàn)出來，必須另作考量。參照基本成熟的電力負(fù)荷預(yù)測領(lǐng)域[8]，流量預(yù)測相關(guān)天氣特征提取如表1所示。

表1 天氣因素特征提取及說明

1.2.2 覆蓋場景對(duì)流量影響分析

日常運(yùn)維發(fā)現(xiàn)，基站流量與其覆蓋場景強(qiáng)相關(guān)，為量化各覆蓋場景類型對(duì)流量的貢獻(xiàn)度，本文采用2020年8～10月OMC上采集的基站流量數(shù)據(jù)，計(jì)算信息增益進(jìn)行衡量。為突顯覆蓋場景對(duì)于流量影響，本文對(duì)同一地市內(nèi)同類型場景進(jìn)行流量匯聚，以平衡特殊活動(dòng)事件帶來的影響。

對(duì)全網(wǎng)基站忙時(shí)流量分布進(jìn)行統(tǒng)計(jì)，得到其概率分布(Probability Density Function,PDF)如圖2所示。

圖2 全網(wǎng)基站忙時(shí)流量概率分布圖

分析圖2可知，覆蓋場景對(duì)于基站忙時(shí)流量有著明顯的影響。以全網(wǎng)綜合流量分別作為對(duì)照，忙時(shí)流量分布近似于對(duì)數(shù)正態(tài)分布，風(fēng)景區(qū)流量的分布較為集中，醫(yī)院場景流量的分布較為平均。為進(jìn)一步量化覆蓋場景對(duì)于忙時(shí)流量的貢獻(xiàn)大小，本文以熵為切入點(diǎn)，計(jì)算考慮覆蓋場景后忙時(shí)流量不確定性減少的程度(即信息增益)。

綜合場景內(nèi)的忙時(shí)流量可看作是一個(gè)連續(xù)信源，則不考慮場景時(shí)忙時(shí)流量的信息熵為

(1)

式中：X代表綜合場景下的某站的忙時(shí)流量，流量的大小用x表示，p(x)則代表此忙時(shí)流量為x的概率，Hc(X)為X的信息熵即事件X出現(xiàn)的不確定性。

當(dāng)加入X的場景信息Y后，X的不確定性降低至式(2)所示：

(2)

式中：yi(i=1,2,…,n)表示n個(gè)場景中的某一種(如y1代表居民區(qū))。如此可得到每類場景對(duì)應(yīng)忙時(shí)流量的不確定性減少量，如式(3)所示：

Gaini(X,Y)=Hc(X)-Hc(X|Y=yi)。

(3)

得到各場景下的信息增益如圖3所示，其中山農(nóng)木林由于流量較小，且與現(xiàn)網(wǎng)其他場景流量相比最為明顯，其信息增益最大；居民區(qū)、集貿(mào)市場的流量由于用戶活動(dòng)行為與現(xiàn)網(wǎng)無明顯差異，其信息增益較小。根據(jù)信息增益篩選貢獻(xiàn)明顯的覆蓋場景作為特征項(xiàng)，選取“風(fēng)景區(qū)、交通樞紐、鄉(xiāng)鎮(zhèn)村莊、校園(高校)、校園(中小學(xué))、寫字樓/企事業(yè)單位、休閑娛樂場所、工業(yè)園區(qū)、醫(yī)院、山農(nóng)牧林、大型場館/廣場公園、其他”分別用0～11表示。

圖3 覆蓋場景信息增益

1.2.3 日類型對(duì)流量影響分析

基于電力負(fù)荷預(yù)測中對(duì)于日類型的影響的分析，本文選取相關(guān)特征因素如表2所示。

表2 日類型因素特征提取及說明

1.2.4 活動(dòng)事件對(duì)流量影響分析

本文通過整理日常網(wǎng)絡(luò)運(yùn)維過程中的輿情上報(bào)信息，選取特殊活動(dòng)事件如表3所示。

表3 活動(dòng)事件因素特征提取及說明

2 基于GBDT的流量預(yù)測方法

基于第1小節(jié)中的流量特征分析可以得出，天氣、場景及特殊事件對(duì)無線網(wǎng)絡(luò)流量的影響不可忽視。然而，當(dāng)前對(duì)于網(wǎng)絡(luò)流量的研究成果中并沒有考慮此類因素的影響，導(dǎo)致無法精確指導(dǎo)優(yōu)化維護(hù)人員進(jìn)行網(wǎng)絡(luò)擴(kuò)容[9-10]。因此，本文在充分考慮整合移動(dòng)平均自回歸(Autoregressive Integrated Moving Average,ARIMA)模型與日常網(wǎng)絡(luò)流量自相似性的匹配優(yōu)勢的基礎(chǔ)上，結(jié)合決策樹對(duì)多標(biāo)簽樣本預(yù)測的方法，將日常等比流量預(yù)測結(jié)果嵌入到?jīng)Q策樹中，構(gòu)建多標(biāo)簽預(yù)測模型。

2.1 多標(biāo)簽流量預(yù)測模型

考慮到手機(jī)已然成為日常生活中不可或缺的社交工具，當(dāng)前無線流量中承載著豐富的用戶行為活動(dòng)信息，如此流量的波動(dòng)趨勢必然與用戶的活動(dòng)息息相關(guān)。進(jìn)一步，本文在日常流量自相似性模型的基礎(chǔ)上，從終端行為考慮用決策樹分類方法加以校正。預(yù)測模型總體結(jié)構(gòu)如圖4所示。

圖4 多標(biāo)簽流量預(yù)測模型

2.2 基于ARIMA的日常增長等比預(yù)測方法

為最大程度上弱化流量的突發(fā)性，本文借助宏觀上全網(wǎng)大尺度流量變動(dòng)趨勢，模糊場景及特殊事件對(duì)局部流量的影響，以觀測日常流量增長趨勢。本文中以日常等比預(yù)測指代。

利用擴(kuò)展的迪克富勒檢驗(yàn)(Augmented Dickey-Fuller，ADF)判斷流量序列平穩(wěn)性，得到p值為0.167，大于判斷標(biāo)準(zhǔn)值0.05，說明流量序列為非平穩(wěn)序列。進(jìn)一步，對(duì)原始流量進(jìn)行一階差分得到P值為0.000 013，一階差分序列滿足平穩(wěn)性要求。圖5為對(duì)差分后的數(shù)據(jù)定階，可以看到自相關(guān)和偏相函數(shù)均具有拖尾的特點(diǎn)，且都存在明顯一階相關(guān)性，即可用ARIMA模型(1,1,1)擬合，如式(4)所示。

(a)自相關(guān)函數(shù)(ACF)

(b)偏自相關(guān)函數(shù)(PACF)圖5 流量相關(guān)分析

(1-αB)(1-B)×Xt=(1-βB)×εt。

(4)

式中：B為滯后算子，(1-αB)為自回歸系數(shù)，(1-B)為差分算子，(1-βB)稱為滑動(dòng)平均系數(shù)，εt為零均值白噪聲。

2.3 基于梯度模型樹的流量預(yù)測方法

鑒于無線網(wǎng)絡(luò)流量對(duì)于外部因素的敏感性，本文以GBDT引入外部影響因素y參與訓(xùn)練流量序列Xt的預(yù)測模型訓(xùn)練提高預(yù)測準(zhǔn)確性，初始化弱學(xué)習(xí)器如式(5)所示：

(5)

式中：N為訓(xùn)練樣本數(shù)量，F(xiàn)0為初始模型，γ為使損失函數(shù)L最小的常數(shù)值。對(duì)于第m次迭代(迭代輪數(shù)m=1,2,…,M)，以找到損失L最小的弱學(xué)習(xí)器為目標(biāo)，更新強(qiáng)學(xué)習(xí)器。其中m次迭代的第t個(gè)值的損失函數(shù)負(fù)梯度可表示為

(6)

用(yt,rmt)擬合第m顆CART回歸樹，針對(duì)葉子節(jié)點(diǎn)區(qū)域Rmj(j=1,2,…,J，J為葉子節(jié)點(diǎn)個(gè)數(shù))計(jì)算最佳擬合值：

(7)

即m次迭代后的預(yù)測模型Fm為

(8)

式中：I為指示函數(shù)，

(9)

得到強(qiáng)學(xué)習(xí)器：

(10)

3 預(yù)測效果驗(yàn)證與分析

3.1 模型預(yù)測結(jié)果

本文采集2020年10月某小區(qū)域的流量樣本進(jìn)行預(yù)測效果對(duì)比分析。由于本文目的是借助流量預(yù)測結(jié)果指導(dǎo)資源投放，因此采用每日忙時(shí)流量(一小時(shí)內(nèi)最大流量)進(jìn)行預(yù)測效果驗(yàn)證。

首先選取同時(shí)段大區(qū)域流量進(jìn)行ARIMA一步預(yù)測(即根據(jù)10月1～16日數(shù)據(jù)擬合模型參數(shù))進(jìn)行對(duì)比分析，第2節(jié)中已根據(jù)自相關(guān)與偏自相關(guān)函數(shù)確定模型階數(shù)為ARIMA(1,1,1)，本文使用Python建立ARIMA模型，預(yù)測結(jié)果如圖6所示。

圖6 流量預(yù)測結(jié)果對(duì)比

同時(shí)，BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)的預(yù)測值也在圖6中示出，取500個(gè)數(shù)據(jù)用于訓(xùn)練預(yù)測模型，鑒于流量序列具有一定的周關(guān)聯(lián)性，輸入層節(jié)點(diǎn)數(shù)為7(即以上一周的流量數(shù)據(jù)為輸入數(shù)據(jù))，單隱藏層由三個(gè)隱藏節(jié)點(diǎn)組成，且輸入時(shí)滯為5、輸出層節(jié)點(diǎn)數(shù)為1(預(yù)測一天的數(shù)據(jù)，即一步預(yù)測)。

多標(biāo)簽預(yù)測則是首先建立ARIMA(1,1,1)模型，其參數(shù)與對(duì)比算法相同，后用Python 的機(jī)器學(xué)習(xí)擴(kuò)展包sklearn 實(shí)現(xiàn)，將300組歷史數(shù)據(jù)集用于GBDT訓(xùn)練，輸入為第1節(jié)中分析的各特征項(xiàng)及ARIMA預(yù)測結(jié)果。其中參數(shù)設(shè)置通過網(wǎng)格搜索法選取最佳參數(shù)，損失函數(shù)采用均方誤差。最終模型訓(xùn)練結(jié)果為：學(xué)習(xí)率0.1，決策樹最大深度4，決策樹個(gè)數(shù)160。

從圖6可以看出，由于匯聚區(qū)域較小，實(shí)際流量具有很大的突發(fā)性，ARIMA模型由于僅依靠歷史數(shù)據(jù)進(jìn)行訓(xùn)練很難適應(yīng)外部因素引起的突發(fā)趨勢；神經(jīng)網(wǎng)絡(luò)模型雖然同樣依靠歷史數(shù)據(jù)，但部分影響流量的外界因素已隱含在訓(xùn)練序列中，如“工作日”“活動(dòng)場所”等，其預(yù)測準(zhǔn)確度相對(duì)于ARIMA有所提升；多標(biāo)簽預(yù)測則由于盡可能多地將外部影響因素考慮進(jìn)來，預(yù)測結(jié)果更加準(zhǔn)確，尤其在突發(fā)趨勢擬合上更具優(yōu)勢。

3.2 預(yù)測誤差對(duì)比

本文以相對(duì)均方根誤差(Relative Root Mean Square Error,RRMSE)和平均相對(duì)誤差(Mean Absolute Percentage Error,MAPE)為衡量標(biāo)準(zhǔn)，分別如式(11)和(12)所示：

(11)

(12)

小區(qū)域多標(biāo)簽預(yù)測模型與ARIMA預(yù)測、PBNN預(yù)測結(jié)果的比較(訓(xùn)練模型與3.1節(jié)相同，共選取100個(gè)區(qū)域參與模擬預(yù)測，即N=100)，各項(xiàng)預(yù)測算法誤差在表4中列出。

表4 預(yù)測結(jié)果比較

從表4中的預(yù)測結(jié)果可以得出，多標(biāo)簽預(yù)測在RRMSE、MAPE上表現(xiàn)出明顯的優(yōu)越性；ARIMA預(yù)測由于僅依據(jù)近期流量本身的信息進(jìn)行參數(shù)擬合，將其用于突發(fā)性極強(qiáng)的小區(qū)域流量預(yù)測會(huì)產(chǎn)生較大的誤差；神經(jīng)網(wǎng)絡(luò)方法雖然在預(yù)測領(lǐng)域廣為應(yīng)用，但同樣由于未考慮外部影響因素，其預(yù)測誤差高于多標(biāo)簽預(yù)測方法。

4 結(jié) 論

本文在充分分析小區(qū)域通信網(wǎng)絡(luò)流量特征之后，利用外部因素對(duì)流量的影響程度構(gòu)建適用于小區(qū)域范圍內(nèi)通信網(wǎng)流量的預(yù)測算法。仿真結(jié)果表明，本文提出的多標(biāo)簽預(yù)測算法相對(duì)于當(dāng)前單純依靠歷史數(shù)據(jù)的流量預(yù)測方法能夠提供更加準(zhǔn)確的預(yù)測結(jié)果，從而為下一步的網(wǎng)絡(luò)資源合理分配提供研究基礎(chǔ)，實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)維工作由被動(dòng)防御走向主動(dòng)優(yōu)化。