亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LightGBM算法的MR網(wǎng)絡(luò)信號(hào)預(yù)測(cè)

2020-11-18 08:12:50張碩偉裴明麗高有利劉賢松中國(guó)聯(lián)通網(wǎng)絡(luò)AI中心上海00050科大國(guó)創(chuàng)軟件股份有限公司安徽合肥30000

郵電設(shè)計(jì)技術(shù) 2020年10期

張碩偉，裴明麗，高有利，黃銘，劉賢松（.中國(guó)聯(lián)通網(wǎng)絡(luò)AI中心，上海 00050；.科大國(guó)創(chuàng)軟件股份有限公司，安徽合肥 30000）

1 概述

隨著LTE網(wǎng)絡(luò)大規(guī)模應(yīng)用以及市場(chǎng)競(jìng)爭(zhēng)的白熱化，用戶越來越重視自身的感知體驗(yàn)，因此運(yùn)營(yíng)商對(duì)覆蓋優(yōu)化和質(zhì)量?jī)?yōu)化的要求也越來越高［1］?，F(xiàn)階段的無線網(wǎng)絡(luò)優(yōu)化工作［2］，主要采用CQT（Call Quality Test）、DT（Driving Test）和用戶投訴等方式發(fā)現(xiàn)覆蓋問題和質(zhì)量問題［3-6］。但是CQT和DT方式需要運(yùn)營(yíng)商投入大量的時(shí)間和人力，用戶投訴方式又嚴(yán)重影響用戶感知和滿意度。

針對(duì)傳統(tǒng)方法存在的弊端，本文提出了一種基于LightGBM算法的網(wǎng)絡(luò)信號(hào)預(yù)測(cè)的新方法，使用MR數(shù)據(jù)和LightGBM算法對(duì)未知地區(qū)的網(wǎng)絡(luò)信號(hào)進(jìn)行預(yù)測(cè)，不僅解決了現(xiàn)有技術(shù)數(shù)據(jù)采集成本高、數(shù)據(jù)分析過程煩瑣等問題，還創(chuàng)新地將AI技術(shù)與網(wǎng)絡(luò)優(yōu)化相結(jié)合，提高無線網(wǎng)絡(luò)優(yōu)化的自動(dòng)化水平。

2 LightGBM算法介紹

在機(jī)器學(xué)習(xí)算法領(lǐng)域，監(jiān)督學(xué)習(xí)算法中最常用的2類算法為回歸（Regression）算法和分類（Classification）算法［7］?；貧w算法和分類算法的區(qū)別在于輸出變量的類型不同，定量輸出或者連續(xù)變量預(yù)測(cè)稱為“回歸”；定性輸出或者離散變量預(yù)測(cè)稱為“分類”［8］。而對(duì)網(wǎng)絡(luò)信號(hào)預(yù)測(cè)過程是一個(gè)典型的回歸問題，因此，可以利用回歸算法對(duì)網(wǎng)絡(luò)信號(hào)進(jìn)行精準(zhǔn)預(yù)測(cè)。目前比較流行的回歸算法是集成學(xué)習(xí)Boosting算法中的梯度提升樹（GBDT——Gradient Boosting Decision Tree）算法［9-10］和極端梯度提升（XGBOOST——eXtreme Gradient Boosting）算法［11-12］。其中，GBDT算法是一種迭代的決策樹算法，該算法由多棵決策樹組成，所有決策樹的結(jié)果累加起來做為最終結(jié)果。在機(jī)器學(xué)習(xí)領(lǐng)域中，GBDT是一個(gè)經(jīng)久不衰的模型：

GBDT=Gradient Boosting+Decision Tree

GBDT具有Gradient Boosting和Decision Tree的功能特性，主要優(yōu)點(diǎn)是訓(xùn)練效果好、不易過擬合且泛化能力較強(qiáng)。通過多輪迭代，每輪迭代產(chǎn)生一個(gè)弱分類器，后續(xù)每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練，如圖1所示。

圖1 GBDT的模型訓(xùn)練過程

XGBOOST算法是GBDT的改進(jìn)，它是大規(guī)模并行boostedtree的工具，是目前最快最好的開源boostedtree工具包。在XGBOOST之后，微軟公司又提出了一種LightGBM算法來增強(qiáng)GBDT的性能［13］。LightGBM是一個(gè)實(shí)現(xiàn)GBDT算法的框架，主要用于解決GBDT在大規(guī)模數(shù)據(jù)處理上遇到的問題。采用帶深度限制的Leaf-wise的葉子生長(zhǎng)策略［14］，其計(jì)算代價(jià)小，且避免了過擬合。為了減小存儲(chǔ)成本和計(jì)算成本，LightGBM算法是一種基于Histogram的決策樹算法。此外Light-GBM直接支持類別特征處理，使其性能得到較好的提升。因此，基于以上集成機(jī)器學(xué)習(xí)算法優(yōu)劣勢(shì)比較，提出了一種基于LightGBM算法的網(wǎng)絡(luò)信號(hào)預(yù)測(cè)方法。

3 一種網(wǎng)絡(luò)信號(hào)的預(yù)測(cè)方法

為了提高算法模型預(yù)測(cè)的準(zhǔn)確性，本文采用了LightGBM機(jī)器學(xué)習(xí)算法和迭代優(yōu)化的訓(xùn)練方式。該模型算法的整體流程框架如圖2所示，整個(gè)模型訓(xùn)練過程可分為5個(gè)步驟：數(shù)據(jù)收集、數(shù)據(jù)處理、模型訓(xùn)練、模型驗(yàn)證和精度評(píng)價(jià)。

3.1 數(shù)據(jù)采集與處理

本文采集了某市不同基站的MR原始樣本數(shù)據(jù)，MR數(shù)據(jù)是一種測(cè)量報(bào)告，由用戶終端周期性上報(bào)給基站控制器（包含小區(qū)下行信號(hào)強(qiáng)度、信號(hào)質(zhì)量等信息），再由基站控制器收集和統(tǒng)計(jì)［15］。將采集到的MR數(shù)據(jù)映射到柵格上，得到柵格基本信息，包括位置信息和小區(qū)配置數(shù)據(jù)，其中位置信息包括區(qū)域、經(jīng)度、緯度、位置類型（室內(nèi)/室外）；小區(qū)配置數(shù)據(jù)包括基站位置、基站高度、小區(qū)方位角、工作頻段、總下傾角、中心載頻的信道號(hào)等。具體字段描述如表1所示。

本文提出一種子?xùn)鸥竦母拍睿瑢?0×50柵格根據(jù)道路和樓棟的GIS邊界進(jìn)一步細(xì)分成子?xùn)鸥?。首先，將帶有?jīng)緯度的MR數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗和室內(nèi)室外用戶識(shí)別；其次，將帶有室內(nèi)室外標(biāo)簽的MR數(shù)據(jù)映射到對(duì)應(yīng)子?xùn)鸥裰?。同時(shí)，為便于對(duì)MR數(shù)據(jù)主鄰小區(qū)計(jì)算處理，根據(jù)當(dāng)前主鄰小區(qū)的記錄數(shù)，將單條MR記錄拆分多條記錄，新增主鄰小區(qū)標(biāo)識(shí)，包括中心載頻的信道號(hào)、物理小區(qū)識(shí)別碼和識(shí)別鄰區(qū)CGI等信息。最后，基于小區(qū)間和電平值間的相似性，利用Kmeans聚類算法將MR樣本點(diǎn)分組，提升子區(qū)域內(nèi)電平值的特征性，得到子?xùn)鸥竦幕拘畔ⅰ?/p>

圖2 模型整體流程圖

表1 MR原始數(shù)據(jù)信息表

子?xùn)鸥裥畔⒕唧w字段信息如表2所示，其中字段rsrp能夠用于判斷是否需要調(diào)整小區(qū)的天線天饋角以及確定小區(qū)各位置的信號(hào)強(qiáng)度。

表2 子?xùn)鸥裥畔⒈?/p>

柵格位置信息表反應(yīng)了每個(gè)柵格中子?xùn)鸥竦木唧w位置信息，具體字段如表3所示。

表3 柵格位置信息表

3.2 特征工程

特征工程是機(jī)器學(xué)習(xí)研究課題中最重要的部分。在這一過程中需要找到最能反映分類本質(zhì)的特征來完成原始數(shù)據(jù)的分類工作?？傊卣鞴こ痰难芯渴欠窬?xì)，會(huì)直接影響到模型的預(yù)測(cè)性能。因此，需要對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征處理。

3.2.1 處理無效值和缺失值

對(duì)MR原始樣本數(shù)據(jù)集進(jìn)行刪除、去重和缺失值填充等處理，刪除數(shù)據(jù)集中缺失經(jīng)緯度以及group_id、date無關(guān)字段，去除數(shù)據(jù)集中重復(fù)數(shù)據(jù)以及中心載頻的信道號(hào)（center_freq_point）中的空值以平均數(shù)填充。

3.2.2 文本數(shù)值化

MR原始樣本數(shù)據(jù)集中有很多字段是文本形式，如位置類型（location_type）、基站覆蓋場(chǎng)景（cover_scene）、基站工作頻段（work frqband）、基站覆蓋類型（jail_scene）、基站覆蓋類型（cover_type）等字段。文本形式計(jì)算機(jī)無法識(shí)別，需要做數(shù)值化映射操作。

3.2.3 特征構(gòu)造

首先，將子?xùn)鸥窠?jīng)度lon、子?xùn)鸥窬暥萳at、基站經(jīng)度longitude、基站緯度latitude轉(zhuǎn)化為對(duì)應(yīng)的弧度值lon1、lat1、lon2、lat2，然后分別計(jì)算經(jīng)緯度差值：

其次，計(jì)算空間距離，構(gòu)造相應(yīng)特征：

最后，計(jì)算空間距離，構(gòu)建相應(yīng)特征：

3.3 模型訓(xùn)練

本文研究了包括GBDT、XGBOOST和LightGBM 3種最常用的機(jī)器學(xué)習(xí)算法的區(qū)別和特點(diǎn)，通過比較預(yù)測(cè)精度和復(fù)雜度，最終選擇了LightGBM作為整個(gè)模型的核心算法，并通過Python編程語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)處理和模型訓(xùn)練。其中，Python中的LightGBM參數(shù)設(shè)置如表4所示。

表4 模型參數(shù)設(shè)置表

3.4 模型驗(yàn)證

為了保障模型的泛化性及精準(zhǔn)度，將MR數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集，通過MR測(cè)試數(shù)據(jù)集驗(yàn)證模型對(duì)新的MR樣本數(shù)據(jù)的判別能力，以測(cè)試誤差作為模型泛化誤差的近似值，最后選擇泛化能力強(qiáng)的模型作為最終模型。本文采用留出法劃分樣本數(shù)據(jù)集，具體過程如下。

a）將MR樣本數(shù)據(jù)集D劃分為訓(xùn)練數(shù)據(jù)集X和測(cè)試數(shù)據(jù)集C，比例為9∶1。X?C=?，X?C=D。

b）將訓(xùn)練數(shù)據(jù)集X再次劃分為模型訓(xùn)練數(shù)據(jù)集T和模型驗(yàn)證集Y，比例為8∶2。T?Y=?，T?Y=X。

c）為了保證訓(xùn)練和測(cè)試數(shù)據(jù)集的隨機(jī)性，采用對(duì)MR樣本數(shù)據(jù)集D多次劃分的方式，每次數(shù)據(jù)集劃分模型都會(huì)重新訓(xùn)練，計(jì)算每次模型訓(xùn)練的rsrp誤差率，來反應(yīng)模型預(yù)測(cè)效率。

3.5 精度評(píng)估

為了保證模型訓(xùn)練后的精確度，采用均方根誤差（RMSE——Root Mean Squared Error）來評(píng)估其預(yù)測(cè)精度［16］。RMSE的值越小，說明模型的預(yù)測(cè)結(jié)果越準(zhǔn)確，即具有更好的精確度，RMSE公式如下：

式中：

N——觀測(cè)次數(shù)

yt——信號(hào)強(qiáng)度（rsrp）的真實(shí)值

4 實(shí)驗(yàn)分析

4.1 不同學(xué)習(xí)率對(duì)RMSE結(jié)果的影響

如圖3所示，橫坐標(biāo)表示迭代次數(shù)，縱坐標(biāo)表示RMSE值。在同樣的迭代次數(shù)下，學(xué)習(xí)率為0.3時(shí)，RMSE的值最小，即模型預(yù)測(cè)效果越好。隨著迭代次數(shù)的不斷增加，5種不同的學(xué)習(xí)率表現(xiàn)出不一樣的預(yù)測(cè)效果，RMSE值越來越小，呈現(xiàn)較為明顯的下降趨勢(shì)，并慢慢地達(dá)到收斂狀態(tài)。此外，也可看出，雖然隨著迭代次數(shù)的不斷增加，其RMSE值越來越小，即模型預(yù)測(cè)精度有所提升，但模型訓(xùn)練時(shí)間也會(huì)不斷增加。

4.2 不同學(xué)習(xí)率對(duì)rsrp誤差率均值的影響

圖3 不同學(xué)習(xí)率的RMSE結(jié)果對(duì)比

如圖4所示，橫坐標(biāo)表示學(xué)習(xí)率，縱坐標(biāo)表示所有rsrp誤差率的平均值。模型迭代次數(shù)為50 000次，隨之學(xué)習(xí)率不斷減小，其rsrp誤差率均值越來越大，最大差值達(dá)到5.1%，即反應(yīng)了模型效果越來越差。從圖4中可以看出，學(xué)習(xí)率為0.3時(shí)，rsrp誤差率均值達(dá)到最小，模型的泛化性更好。

圖4 不同學(xué)習(xí)率的rsrp誤差率均值對(duì)比

綜合圖3和圖4可知，RMSE值越小，rsrp誤差率均值越小，二者相輔相成，并且都能夠體現(xiàn)模型對(duì)信號(hào)預(yù)測(cè)的效果，RMSE值越小，模型預(yù)測(cè)精度越高。

4.3 同學(xué)習(xí)率、不同迭代次數(shù)時(shí)不同模型RMSE值對(duì)比

如圖5所示，橫坐標(biāo)表示迭代次數(shù)，縱坐標(biāo)表示RMSE值。從圖5可以看出，當(dāng)學(xué)習(xí)率為0.3時(shí)，隨著迭代次數(shù)的不斷增加，RMSE值越來越小，3個(gè)模型均慢慢地達(dá)到收斂狀態(tài)。另外在同樣的迭代次數(shù)下，Light-GBM模型訓(xùn)練結(jié)果RMSE值始終優(yōu)于XGBOOST和GBDT，其平均預(yù)測(cè)精度要比XGBOOST高出8.4%，比GBDT高出15.36%。

4.4 同迭代次數(shù)、不同學(xué)習(xí)率時(shí)不同模型RMSE值對(duì)比

圖5 同學(xué)習(xí)率、不同迭代次數(shù)時(shí)不同模型RMSE值對(duì)比

如圖6所示，橫坐標(biāo)表示學(xué)習(xí)率，縱坐標(biāo)表示RMSE值。圖6反映了當(dāng)?shù)螖?shù)為30 000時(shí)，隨著學(xué)習(xí)率的不斷減小，RMSE值越來越大，說明了3個(gè)模型在學(xué)習(xí)率為0.3時(shí)，取得較好效果，在學(xué)習(xí)率為0.001時(shí)，模型效果最差。另外在同樣的學(xué)習(xí)率下，LightGBM模型下訓(xùn)練結(jié)果RMSE值始終優(yōu)于XGBOOST和GBDT，其平均預(yù)測(cè)精度比XGBOOST高出13.84%，比GBDT高出27.85%。

圖6 同迭代次數(shù)、不同學(xué)習(xí)率時(shí)不同模型RMSE值對(duì)比

5 結(jié)束語(yǔ)

本文提取了某市各區(qū)域基站的MR樣本數(shù)據(jù)，首先對(duì)數(shù)據(jù)進(jìn)行柵格化并清洗，再對(duì)模型進(jìn)行訓(xùn)練，從網(wǎng)絡(luò)信號(hào)強(qiáng)度預(yù)測(cè)結(jié)果得出：使用LightGBM算法進(jìn)行預(yù)測(cè)，修改訓(xùn)練迭代次數(shù)和學(xué)習(xí)率參數(shù)，模型訓(xùn)練取得了較好的效果，令人較滿意。從rsrp誤差率均值可以得出：不同學(xué)習(xí)率下，隨著迭代次數(shù)的增加，模型能夠快速收斂，且模型訓(xùn)練效果也越來越好。