張碩偉,裴明麗,高有利,黃 銘,劉賢松(.中國(guó)聯(lián)通網(wǎng)絡(luò)AI中心,上海 00050;.科大國(guó)創(chuàng)軟件股份有限公司,安徽合肥 30000)
隨著LTE網(wǎng)絡(luò)大規(guī)模應(yīng)用以及市場(chǎng)競(jìng)爭(zhēng)的白熱化,用戶越來越重視自身的感知體驗(yàn),因此運(yùn)營(yíng)商對(duì)覆蓋優(yōu)化和質(zhì)量?jī)?yōu)化的要求也越來越高[1]?,F(xiàn)階段的無線網(wǎng)絡(luò)優(yōu)化工作[2],主要采用CQT(Call Quality Test)、DT(Driving Test)和用戶投訴等方式發(fā)現(xiàn)覆蓋問題和質(zhì)量問題[3-6]。但是CQT和DT方式需要運(yùn)營(yíng)商投入大量的時(shí)間和人力,用戶投訴方式又嚴(yán)重影響用戶感知和滿意度。
針對(duì)傳統(tǒng)方法存在的弊端,本文提出了一種基于LightGBM算法的網(wǎng)絡(luò)信號(hào)預(yù)測(cè)的新方法,使用MR數(shù)據(jù)和LightGBM算法對(duì)未知地區(qū)的網(wǎng)絡(luò)信號(hào)進(jìn)行預(yù)測(cè),不僅解決了現(xiàn)有技術(shù)數(shù)據(jù)采集成本高、數(shù)據(jù)分析過程煩瑣等問題,還創(chuàng)新地將AI技術(shù)與網(wǎng)絡(luò)優(yōu)化相結(jié)合,提高無線網(wǎng)絡(luò)優(yōu)化的自動(dòng)化水平。
在機(jī)器學(xué)習(xí)算法領(lǐng)域,監(jiān)督學(xué)習(xí)算法中最常用的2類算法為回歸(Regression)算法和分類(Classification)算法[7]?;貧w算法和分類算法的區(qū)別在于輸出變量的類型不同,定量輸出或者連續(xù)變量預(yù)測(cè)稱為“回歸”;定性輸出或者離散變量預(yù)測(cè)稱為“分類”[8]。而對(duì)網(wǎng)絡(luò)信號(hào)預(yù)測(cè)過程是一個(gè)典型的回歸問題,因此,可以利用回歸算法對(duì)網(wǎng)絡(luò)信號(hào)進(jìn)行精準(zhǔn)預(yù)測(cè)。目前比較流行的回歸算法是集成學(xué)習(xí)Boosting算法中的梯度提升樹(GBDT——Gradient Boosting Decision Tree)算法[9-10]和極端梯度提升(XGBOOST——eXtreme Gradient Boosting)算法[11-12]。其中,GBDT算法是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有決策樹的結(jié)果累加起來做為最終結(jié)果。在機(jī)器學(xué)習(xí)領(lǐng)域中,GBDT是一個(gè)經(jīng)久不衰的模型:
GBDT=Gradient Boosting+Decision Tree
GBDT具有Gradient Boosting和Decision Tree的功能特性,主要優(yōu)點(diǎn)是訓(xùn)練效果好、不易過擬合且泛化能力較強(qiáng)。通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器,后續(xù)每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練,如圖1所示。
圖1 GBDT的模型訓(xùn)練過程
XGBOOST算法是GBDT的改進(jìn),它是大規(guī)模并行boostedtree的工具,是目前最快最好的開源boostedtree工具包。在XGBOOST之后,微軟公司又提出了一種LightGBM算法來增強(qiáng)GBDT的性能[13]。LightGBM是一個(gè)實(shí)現(xiàn)GBDT算法的框架,主要用于解決GBDT在大規(guī)模數(shù)據(jù)處理上遇到的問題。采用帶深度限制的Leaf-wise的葉子生長(zhǎng)策略[14],其計(jì)算代價(jià)小,且避免了過擬合。為了減小存儲(chǔ)成本和計(jì)算成本,LightGBM算法是一種基于Histogram的決策樹算法。此外Light-GBM直接支持類別特征處理,使其性能得到較好的提升。因此,基于以上集成機(jī)器學(xué)習(xí)算法優(yōu)劣勢(shì)比較,提出了一種基于LightGBM算法的網(wǎng)絡(luò)信號(hào)預(yù)測(cè)方法。
為了提高算法模型預(yù)測(cè)的準(zhǔn)確性,本文采用了LightGBM機(jī)器學(xué)習(xí)算法和迭代優(yōu)化的訓(xùn)練方式。該模型算法的整體流程框架如圖2所示,整個(gè)模型訓(xùn)練過程可分為5個(gè)步驟:數(shù)據(jù)收集、數(shù)據(jù)處理、模型訓(xùn)練、模型驗(yàn)證和精度評(píng)價(jià)。
本文采集了某市不同基站的MR原始樣本數(shù)據(jù),MR數(shù)據(jù)是一種測(cè)量報(bào)告,由用戶終端周期性上報(bào)給基站控制器(包含小區(qū)下行信號(hào)強(qiáng)度、信號(hào)質(zhì)量等信息),再由基站控制器收集和統(tǒng)計(jì)[15]。將采集到的MR數(shù)據(jù)映射到柵格上,得到柵格基本信息,包括位置信息和小區(qū)配置數(shù)據(jù),其中位置信息包括區(qū)域、經(jīng)度、緯度、位置類型(室內(nèi)/室外);小區(qū)配置數(shù)據(jù)包括基站位置、基站高度、小區(qū)方位角、工作頻段、總下傾角、中心載頻的信道號(hào)等。具體字段描述如表1所示。
本文提出一種子?xùn)鸥竦母拍睿瑢?0×50柵格根據(jù)道路和樓棟的GIS邊界進(jìn)一步細(xì)分成子?xùn)鸥?。首先,將帶有?jīng)緯度的MR數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗和室內(nèi)室外用戶識(shí)別;其次,將帶有室內(nèi)室外標(biāo)簽的MR數(shù)據(jù)映射到對(duì)應(yīng)子?xùn)鸥裰?。同時(shí),為便于對(duì)MR數(shù)據(jù)主鄰小區(qū)計(jì)算處理,根據(jù)當(dāng)前主鄰小區(qū)的記錄數(shù),將單條MR記錄拆分多條記錄,新增主鄰小區(qū)標(biāo)識(shí),包括中心載頻的信道號(hào)、物理小區(qū)識(shí)別碼和識(shí)別鄰區(qū)CGI等信息。最后,基于小區(qū)間和電平值間的相似性,利用Kmeans聚類算法將MR樣本點(diǎn)分組,提升子區(qū)域內(nèi)電平值的特征性,得到子?xùn)鸥竦幕拘畔ⅰ?/p>
圖2 模型整體流程圖
表1 MR原始數(shù)據(jù)信息表
子?xùn)鸥裥畔⒕唧w字段信息如表2所示,其中字段rsrp能夠用于判斷是否需要調(diào)整小區(qū)的天線天饋角以及確定小區(qū)各位置的信號(hào)強(qiáng)度。
表2 子?xùn)鸥裥畔⒈?/p>
柵格位置信息表反應(yīng)了每個(gè)柵格中子?xùn)鸥竦木唧w位置信息,具體字段如表3所示。
表3 柵格位置信息表
特征工程是機(jī)器學(xué)習(xí)研究課題中最重要的部分。在這一過程中需要找到最能反映分類本質(zhì)的特征來完成原始數(shù)據(jù)的分類工作??傊卣鞴こ痰难芯渴欠窬?xì),會(huì)直接影響到模型的預(yù)測(cè)性能。因此,需要對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行特征處理。
3.2.1 處理無效值和缺失值
對(duì)MR原始樣本數(shù)據(jù)集進(jìn)行刪除、去重和缺失值填充等處理,刪除數(shù)據(jù)集中缺失經(jīng)緯度以及group_id、date無關(guān)字段,去除數(shù)據(jù)集中重復(fù)數(shù)據(jù)以及中心載頻的信道號(hào)(center_freq_point)中的空值以平均數(shù)填充。
3.2.2 文本數(shù)值化
MR原始樣本數(shù)據(jù)集中有很多字段是文本形式,如位置類型(location_type)、基站覆蓋場(chǎng)景(cover_scene)、基站工作頻段(work frqband)、基站覆蓋類型(jail_scene)、基站覆蓋類型(cover_type)等字段。文本形式計(jì)算機(jī)無法識(shí)別,需要做數(shù)值化映射操作。
3.2.3 特征構(gòu)造
首先,將子?xùn)鸥窠?jīng)度lon、子?xùn)鸥窬暥萳at、基站經(jīng)度longitude、基站緯度latitude轉(zhuǎn)化為對(duì)應(yīng)的弧度值lon1、lat1、lon2、lat2,然后分別計(jì)算經(jīng)緯度差值:
其次,計(jì)算空間距離,構(gòu)造相應(yīng)特征:
最后,計(jì)算空間距離,構(gòu)建相應(yīng)特征:
本文研究了包括GBDT、XGBOOST和LightGBM 3種最常用的機(jī)器學(xué)習(xí)算法的區(qū)別和特點(diǎn),通過比較預(yù)測(cè)精度和復(fù)雜度,最終選擇了LightGBM作為整個(gè)模型的核心算法,并通過Python編程語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)處理和模型訓(xùn)練。其中,Python中的LightGBM參數(shù)設(shè)置如表4所示。
表4 模型參數(shù)設(shè)置表
為了保障模型的泛化性及精準(zhǔn)度,將MR數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,通過MR測(cè)試數(shù)據(jù)集驗(yàn)證模型對(duì)新的MR樣本數(shù)據(jù)的判別能力,以測(cè)試誤差作為模型泛化誤差的近似值,最后選擇泛化能力強(qiáng)的模型作為最終模型。本文采用留出法劃分樣本數(shù)據(jù)集,具體過程如下。
a)將MR樣本數(shù)據(jù)集D劃分為訓(xùn)練數(shù)據(jù)集X和測(cè)試數(shù)據(jù)集C,比例為9∶1。X?C=?,X?C=D。
b)將訓(xùn)練數(shù)據(jù)集X再次劃分為模型訓(xùn)練數(shù)據(jù)集T和模型驗(yàn)證集Y,比例為8∶2。T?Y=?,T?Y=X。
c)為了保證訓(xùn)練和測(cè)試數(shù)據(jù)集的隨機(jī)性,采用對(duì)MR樣本數(shù)據(jù)集D多次劃分的方式,每次數(shù)據(jù)集劃分模型都會(huì)重新訓(xùn)練,計(jì)算每次模型訓(xùn)練的rsrp誤差率,來反應(yīng)模型預(yù)測(cè)效率。
為了保證模型訓(xùn)練后的精確度,采用均方根誤差(RMSE——Root Mean Squared Error)來評(píng)估其預(yù)測(cè)精度[16]。RMSE的值越小,說明模型的預(yù)測(cè)結(jié)果越準(zhǔn)確,即具有更好的精確度,RMSE公式如下:
式中:
N——觀測(cè)次數(shù)
yt——信號(hào)強(qiáng)度(rsrp)的真實(shí)值
如圖3所示,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示RMSE值。在同樣的迭代次數(shù)下,學(xué)習(xí)率為0.3時(shí),RMSE的值最小,即模型預(yù)測(cè)效果越好。隨著迭代次數(shù)的不斷增加,5種不同的學(xué)習(xí)率表現(xiàn)出不一樣的預(yù)測(cè)效果,RMSE值越來越小,呈現(xiàn)較為明顯的下降趨勢(shì),并慢慢地達(dá)到收斂狀態(tài)。此外,也可看出,雖然隨著迭代次數(shù)的不斷增加,其RMSE值越來越小,即模型預(yù)測(cè)精度有所提升,但模型訓(xùn)練時(shí)間也會(huì)不斷增加。
圖3 不同學(xué)習(xí)率的RMSE結(jié)果對(duì)比
如圖4所示,橫坐標(biāo)表示學(xué)習(xí)率,縱坐標(biāo)表示所有rsrp誤差率的平均值。模型迭代次數(shù)為50 000次,隨之學(xué)習(xí)率不斷減小,其rsrp誤差率均值越來越大,最大差值達(dá)到5.1%,即反應(yīng)了模型效果越來越差。從圖4中可以看出,學(xué)習(xí)率為0.3時(shí),rsrp誤差率均值達(dá)到最小,模型的泛化性更好。
圖4 不同學(xué)習(xí)率的rsrp誤差率均值對(duì)比
綜合圖3和圖4可知,RMSE值越小,rsrp誤差率均值越小,二者相輔相成,并且都能夠體現(xiàn)模型對(duì)信號(hào)預(yù)測(cè)的效果,RMSE值越小,模型預(yù)測(cè)精度越高。
如圖5所示,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示RMSE值。從圖5可以看出,當(dāng)學(xué)習(xí)率為0.3時(shí),隨著迭代次數(shù)的不斷增加,RMSE值越來越小,3個(gè)模型均慢慢地達(dá)到收斂狀態(tài)。另外在同樣的迭代次數(shù)下,Light-GBM模型訓(xùn)練結(jié)果RMSE值始終優(yōu)于XGBOOST和GBDT,其平均預(yù)測(cè)精度要比XGBOOST高出8.4%,比GBDT高出15.36%。
圖5 同學(xué)習(xí)率、不同迭代次數(shù)時(shí)不同模型RMSE值對(duì)比
如圖6所示,橫坐標(biāo)表示學(xué)習(xí)率,縱坐標(biāo)表示RMSE值。圖6反映了當(dāng)?shù)螖?shù)為30 000時(shí),隨著學(xué)習(xí)率的不斷減小,RMSE值越來越大,說明了3個(gè)模型在學(xué)習(xí)率為0.3時(shí),取得較好效果,在學(xué)習(xí)率為0.001時(shí),模型效果最差。另外在同樣的學(xué)習(xí)率下,LightGBM模型下訓(xùn)練結(jié)果RMSE值始終優(yōu)于XGBOOST和GBDT,其平均預(yù)測(cè)精度比XGBOOST高出13.84%,比GBDT高出27.85%。
圖6 同迭代次數(shù)、不同學(xué)習(xí)率時(shí)不同模型RMSE值對(duì)比
本文提取了某市各區(qū)域基站的MR樣本數(shù)據(jù),首先對(duì)數(shù)據(jù)進(jìn)行柵格化并清洗,再對(duì)模型進(jìn)行訓(xùn)練,從網(wǎng)絡(luò)信號(hào)強(qiáng)度預(yù)測(cè)結(jié)果得出:使用LightGBM算法進(jìn)行預(yù)測(cè),修改訓(xùn)練迭代次數(shù)和學(xué)習(xí)率參數(shù),模型訓(xùn)練取得了較好的效果,令人較滿意。從rsrp誤差率均值可以得出:不同學(xué)習(xí)率下,隨著迭代次數(shù)的增加,模型能夠快速收斂,且模型訓(xùn)練效果也越來越好。