熊建勝 孫洋洋 鄭 圣 尤 耀 季成健
中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司江蘇省分公司
近年來(lái),移動(dòng)通信網(wǎng)絡(luò)快速發(fā)展,多制式網(wǎng)絡(luò)共存,各類新業(yè)務(wù)不斷涌現(xiàn),設(shè)備連接海量化,移動(dòng)數(shù)據(jù)流量爆發(fā)式增長(zhǎng),隨之而來(lái)的是基站數(shù)量和能耗的快速增長(zhǎng),節(jié)能降耗、提升網(wǎng)絡(luò)能效已經(jīng)成為通信網(wǎng)絡(luò)發(fā)展的必然要求。
傳統(tǒng)基站節(jié)能方案主要基于人工經(jīng)驗(yàn),確定各關(guān)鍵指標(biāo)閾值及節(jié)能時(shí)段,低于閾值時(shí)啟動(dòng)節(jié)能,或者基于歷史業(yè)務(wù)數(shù)據(jù)的統(tǒng)計(jì)分析,得到每天業(yè)務(wù)的閑時(shí)和忙時(shí)時(shí)段,再對(duì)閑時(shí)時(shí)段(如00:00-06:00)進(jìn)行節(jié)能操作。面對(duì)通信網(wǎng)絡(luò)復(fù)雜化、業(yè)務(wù)場(chǎng)景多樣化的發(fā)展趨勢(shì),難以在保障用戶業(yè)務(wù)性能、不引起用戶投訴的前提下實(shí)現(xiàn)最大化節(jié)能,而人工智能技術(shù)(AI)在通信領(lǐng)域的應(yīng)用為這個(gè)問(wèn)題帶來(lái)了新的解決方案。
目前已有不少學(xué)者提出基于AI的節(jié)能方案,很多方案采用時(shí)間序列預(yù)測(cè)的方法,基于歷史數(shù)據(jù)預(yù)測(cè)關(guān)鍵業(yè)務(wù)指標(biāo)在未來(lái)一段時(shí)間的走勢(shì),并與設(shè)置好的閾值對(duì)比,當(dāng)關(guān)鍵指標(biāo)低于閾值時(shí),則對(duì)小區(qū)進(jìn)行相關(guān)的節(jié)能操作;另外也有方案是基于智能場(chǎng)景識(shí)別,利用AI聚類算法識(shí)別出話務(wù)流量潮汐現(xiàn)象明顯的場(chǎng)景,對(duì)其實(shí)施節(jié)能操作。
上述AI算法方案均沒(méi)有綜合利用多個(gè)業(yè)務(wù)指標(biāo),本文引入基站小區(qū)價(jià)值度的概念,利用多個(gè)關(guān)鍵業(yè)務(wù)指標(biāo)對(duì)每個(gè)基站小區(qū)每小時(shí)的價(jià)值度進(jìn)行綜合評(píng)估預(yù)測(cè),使得基站能夠在節(jié)能的同時(shí),實(shí)現(xiàn)重點(diǎn)用戶的差異化保障。本文利用多個(gè)機(jī)器學(xué)習(xí)算法模型融合的算法方案對(duì)現(xiàn)網(wǎng)大量數(shù)據(jù)進(jìn)行分析,建立業(yè)務(wù)模型,實(shí)現(xiàn)參數(shù)訓(xùn)練及業(yè)務(wù)預(yù)測(cè)?;趦r(jià)值度預(yù)測(cè)結(jié)果,識(shí)別未來(lái)一段時(shí)間內(nèi)基站小區(qū)業(yè)務(wù)負(fù)載低、用戶數(shù)少的低價(jià)值時(shí)段,為節(jié)能策略提供更科學(xué)的支持。
為更好的評(píng)估基站小區(qū)是否可節(jié)能,引入基站小區(qū)價(jià)值度的概念,多角度考慮多個(gè)關(guān)鍵指標(biāo),摒棄以往節(jié)能中只考慮單個(gè)指標(biāo)的情況。共選擇6個(gè)關(guān)鍵指標(biāo)用于計(jì)算小區(qū)價(jià)值度,包括上下行流量、上下行PRB利用率四個(gè)網(wǎng)絡(luò)業(yè)務(wù)指標(biāo),以及VIP用戶數(shù)、4/5G用戶數(shù)兩個(gè)用戶指標(biāo)。用戶指標(biāo)根據(jù)網(wǎng)絡(luò)類型進(jìn)行調(diào)整。下面以4G網(wǎng)絡(luò)為例進(jìn)行說(shuō)明。
對(duì)國(guó)內(nèi)某省會(huì)城市一個(gè)月內(nèi)所有基站的逐小時(shí)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并去除缺失值、異常值等,數(shù)據(jù)量超過(guò)三百萬(wàn)。
關(guān)鍵指標(biāo)有6個(gè),分別為上行流量、下行流量、上行PRB利用率、下行PRB利用率、4G用戶數(shù)、VIP用戶數(shù)。根據(jù)統(tǒng)計(jì)分析可知,各個(gè)關(guān)鍵指標(biāo)的數(shù)據(jù)分布均近似于指數(shù)分布,故可以用指數(shù)分布對(duì)各個(gè)關(guān)鍵指標(biāo)進(jìn)行擬合,得到每個(gè)指標(biāo)的指數(shù)概率密度函數(shù)。
由概率密度函數(shù)積分可得到各個(gè)關(guān)鍵指標(biāo)的累積概率分布函數(shù),累積概率分布函數(shù)F(X)定義如下:其中,X是一個(gè)隨機(jī)變量,x是任意實(shí)數(shù)。表示隨機(jī)變量X取值小于等于x時(shí)的概率。
根據(jù)6個(gè)指標(biāo)的累積概率分布函數(shù),當(dāng)各個(gè)指標(biāo)的概率值小于0.2時(shí),相應(yīng)指標(biāo)的取值均很小,基站小區(qū)基本處于空閑狀態(tài),業(yè)務(wù)負(fù)載低,用戶數(shù)很少,可認(rèn)為該狀態(tài)下的小區(qū)為低價(jià)值小區(qū)。
由此引出本文中小區(qū)價(jià)值度的定義:6個(gè)關(guān)鍵指標(biāo)的累積概率分布函數(shù)值的加權(quán)平均值。實(shí)際應(yīng)用中計(jì)算基站小區(qū)價(jià)值度時(shí),根據(jù)大量歷史數(shù)據(jù)擬合得到的指數(shù)分布函數(shù),將當(dāng)前小區(qū)各關(guān)鍵指標(biāo)數(shù)值代入函數(shù)中計(jì)算對(duì)應(yīng)的累積概率分布函數(shù)值,再取平均值,公式為:公式中,m為關(guān)鍵指標(biāo)個(gè)數(shù),F(xiàn)(x)為關(guān)鍵指標(biāo)取值為x時(shí)的累積概率分布函數(shù)值。
可以看到,小區(qū)價(jià)值度取值范圍為[0,1],當(dāng)小區(qū)價(jià)值度低于0.2時(shí),認(rèn)為該小區(qū)為低價(jià)值小區(qū)。各個(gè)指標(biāo)的權(quán)重可根據(jù)需要進(jìn)行調(diào)整,如更關(guān)注小區(qū)的業(yè)務(wù)負(fù)載,只有當(dāng)業(yè)務(wù)負(fù)載很低時(shí)才認(rèn)為是低價(jià)值小區(qū),則可增大價(jià)值度中網(wǎng)絡(luò)業(yè)務(wù)指標(biāo)的權(quán)重。
為了實(shí)現(xiàn)基站小區(qū)精準(zhǔn)節(jié)能,設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的基站小區(qū)節(jié)能算法方案,如圖1所示。
圖1 算法方案流程
步驟一:采集基站小區(qū)的性能數(shù)據(jù)、話單數(shù)據(jù)、小區(qū)感知數(shù)據(jù)、MR數(shù)據(jù)等,并進(jìn)行解析入庫(kù);
步驟二:對(duì)采集的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、特征構(gòu)建、特征選擇等操作,使其滿足機(jī)器學(xué)習(xí)算法訓(xùn)練和預(yù)測(cè)的要求;
步驟三:基于處理后的歷史數(shù)據(jù)計(jì)算基站小區(qū)價(jià)值度,作為場(chǎng)景聚類和時(shí)序模型的輸入;
步驟四:基于30天的基站小區(qū)歷史價(jià)值度數(shù)據(jù),利用時(shí)間序列模型對(duì)未來(lái)一段時(shí)間內(nèi)的基站小區(qū)價(jià)值度進(jìn)行預(yù)測(cè);
步驟五:基于基站小區(qū)歷史價(jià)值度數(shù)據(jù),采用時(shí)間序列形狀聚類k-shape算法進(jìn)行聚類,識(shí)別相似場(chǎng)景,并基于場(chǎng)景聚類結(jié)果進(jìn)一步分場(chǎng)景訓(xùn)練分類模型進(jìn)行小區(qū)價(jià)值度預(yù)測(cè),以提升分類模型準(zhǔn)確率;
步驟六:將分類模型和時(shí)序模型結(jié)果進(jìn)行融合,對(duì)基站小區(qū)每一時(shí)次價(jià)值度預(yù)測(cè)結(jié)果取兩者最大值,以提升基站小區(qū)價(jià)值度預(yù)測(cè)查準(zhǔn)率;
步驟七:模型融合結(jié)果經(jīng)過(guò)策略過(guò)濾后,生成可節(jié)能的基站小區(qū)清單;
步驟八:對(duì)基站小區(qū)節(jié)能效果進(jìn)行監(jiān)控,包括投訴、感知以及用戶相關(guān)反饋信息,以輔助優(yōu)化模型,調(diào)整模型參數(shù)、低價(jià)值小區(qū)閾值等,實(shí)現(xiàn)整個(gè)算法方案的閉環(huán)。
2.2.1 數(shù)據(jù)準(zhǔn)備
從Hadoop平臺(tái)上定時(shí)獲取模型所需數(shù)據(jù),包括設(shè)備層、網(wǎng)絡(luò)層、業(yè)務(wù)層、用戶感知四類數(shù)據(jù),如表1所示。
表1 模型數(shù)據(jù)說(shuō)明
類型 字段 獲取頻次業(yè)務(wù)層 上下行流量、4G用戶數(shù)、5G用戶數(shù)、VIP用戶數(shù)等 每小時(shí)用戶感知 上下行TCP建立成功率、RRC掉線率、上下行RTT總時(shí)延等 每小時(shí)
2.2.2 數(shù)據(jù)處理
涉及多模型,對(duì)于不同的模型采用不同的數(shù)據(jù)處理方法。
聚類模型基于時(shí)間序列進(jìn)行形狀聚類,故聚類模型與時(shí)間序列模型數(shù)據(jù)處理方法一致。
時(shí)間序列模型基于一個(gè)月的基站小區(qū)歷史價(jià)值度數(shù)據(jù)進(jìn)行預(yù)測(cè)。對(duì)大量基站小區(qū)歷史價(jià)值度數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析表明,該時(shí)間序列數(shù)據(jù)具有明顯的周期性,因此數(shù)據(jù)處理主要針對(duì)異常值去除和缺失值填充,以提升時(shí)間序列模型擬合效果。異常值去除采用箱線圖法,當(dāng)某一數(shù)值超過(guò)下四分位值減去1.5倍四分位距,或者上四分位值加上1.5倍四分位距時(shí),即認(rèn)為該數(shù)值為異常值,予以去除。時(shí)間序列模型要求時(shí)間序列中不能存在缺失值,故需對(duì)去除的異常值及原始存在的缺失值進(jìn)行填充,由于該時(shí)間序列存在明顯周期性,故首先利用歷史數(shù)據(jù)一周內(nèi)同一時(shí)次的平均值進(jìn)行缺失值填充,然后利用雙線性插值算法進(jìn)行第二次缺失值填充,保證數(shù)據(jù)的完整性。
圖2為商業(yè)中心某小區(qū)的5天價(jià)值度時(shí)序圖示例,時(shí)序存在明顯的周期性,凌晨?jī)r(jià)值度低,上午11點(diǎn)和下午15點(diǎn)前后價(jià)值度高。
圖2 商業(yè)中心小區(qū)價(jià)值度時(shí)序
分類模型中數(shù)據(jù)處理主要包括數(shù)據(jù)標(biāo)注、特征選擇及特征構(gòu)造。
利用方差法、相關(guān)系數(shù)、假設(shè)檢驗(yàn)等方法篩選模型特征,共篩選出以下幾類特征:(1)價(jià)值度相關(guān)特征,包括過(guò)去24、48、72小時(shí)的各個(gè)關(guān)鍵指標(biāo)數(shù)值;(2)時(shí)間特征,包括小時(shí)、天、節(jié)假日等;(3)統(tǒng)計(jì)特征,如根據(jù)基站小區(qū)ID、小時(shí)、節(jié)假日進(jìn)行分組后,對(duì)標(biāo)簽求均值作為特征;(4)基站小區(qū)屬性特征,包括小區(qū)ID、小區(qū)所屬城市、地區(qū)等。
對(duì)特征數(shù)據(jù)進(jìn)行缺失值處理后,將其劃分為訓(xùn)練集和測(cè)試集。
2.2.3 數(shù)據(jù)建模
時(shí)間序列模型采用三次指數(shù)平滑算法(Holt-Winters)和統(tǒng)計(jì)分析相結(jié)合的方案。
三次指數(shù)平滑算法可以預(yù)測(cè)有趨勢(shì)且有周期性的時(shí)間序列,由于基站小區(qū)價(jià)值度周期性變化明顯,故利用Holt-Winters模型預(yù)測(cè)時(shí),引入歷史數(shù)據(jù)的影響,對(duì)一個(gè)月的歷史數(shù)據(jù)根據(jù)一周內(nèi)同一天同一小時(shí)分組后取均值,與模型預(yù)測(cè)結(jié)果進(jìn)行加權(quán),以減小單一的Holt-Winters模型的預(yù)測(cè)偏差,權(quán)重可根據(jù)實(shí)際數(shù)據(jù)進(jìn)行適當(dāng)調(diào)整。
為將基站小區(qū)根據(jù)不同的業(yè)務(wù)場(chǎng)景進(jìn)行區(qū)分,采用k-shape算法進(jìn)行聚類分析,依據(jù)時(shí)間序列數(shù)據(jù)的形狀相似性,將形狀相似的時(shí)間序列聚為一個(gè)類別,由此可得到多個(gè)業(yè)務(wù)場(chǎng)景。
為提高分類模型的準(zhǔn)確率,分類模型在聚類模型基礎(chǔ)上進(jìn)行訓(xùn)練,對(duì)于聚類出的場(chǎng)景,分別進(jìn)行分類模型的建模,分類模型均采用LightGBM算法,LightGBM算法相對(duì)于其他boosting算法,如GBDT和XGBoost算法,訓(xùn)練速度更快,且準(zhǔn)確率依然很好,對(duì)于大量的高維度基站小區(qū)數(shù)據(jù),采用LightGBM算法進(jìn)行處理能夠更好地適用于生產(chǎn)環(huán)境。
為將分類模型預(yù)測(cè)結(jié)果與時(shí)序模型預(yù)測(cè)結(jié)果融合,需要對(duì)分類模型預(yù)測(cè)結(jié)果進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換公式為:V=1–Pred,該式中,Pred為分類模型預(yù)測(cè)概率值,V為價(jià)值度預(yù)測(cè)值。當(dāng)預(yù)測(cè)概率值很大時(shí),即有很大的概率該小區(qū)該時(shí)次為低價(jià)值,利用上述公式可以將概率轉(zhuǎn)換為價(jià)值度。若對(duì)價(jià)值度低于0.2的基站小區(qū)進(jìn)行節(jié)能,即可認(rèn)為是對(duì)分類模型結(jié)果中有80%的概率為低價(jià)值的小區(qū)進(jìn)行節(jié)能,此種轉(zhuǎn)換可以保證節(jié)能的準(zhǔn)確性。
為進(jìn)一步提升節(jié)能算法的準(zhǔn)確性,對(duì)時(shí)間序列模型和分類模型的價(jià)值度預(yù)測(cè)結(jié)果進(jìn)行融合,對(duì)基站小區(qū)每一時(shí)次價(jià)值度預(yù)測(cè)結(jié)果取兩者最大值,將其作為最終的模型預(yù)測(cè)結(jié)果。
完整的數(shù)據(jù)建模流程如下:
2.2.4 模型驗(yàn)證
基于全量樣本集劃分出的五百萬(wàn)數(shù)據(jù)量測(cè)試集,對(duì)模型效果進(jìn)行驗(yàn)證,模型AUC值為0.96。為在實(shí)際應(yīng)用中測(cè)試模型準(zhǔn)確性,2021年春節(jié)期間對(duì)江蘇全省價(jià)值度預(yù)測(cè)結(jié)果進(jìn)行效果評(píng)估表明,模型查準(zhǔn)率95%以上,對(duì)分類錯(cuò)誤的樣本進(jìn)行分析表明,絕大部分樣本的價(jià)值度均較低,與正負(fù)樣本劃分的價(jià)值度閾值0.2相近,由此可保證節(jié)能的效果。
2020年江蘇省試點(diǎn)節(jié)能期間,對(duì)南京和蘇州基站小區(qū)節(jié)能前后兩個(gè)月的投訴工單數(shù)據(jù)進(jìn)行分析,結(jié)果表明,節(jié)能前10月份投訴總量為2637,節(jié)能后11月份投訴總量為2383,未發(fā)現(xiàn)由于節(jié)能引起投訴總量的明顯變化。因節(jié)能時(shí)段為0-6點(diǎn),根據(jù)投訴手機(jī)號(hào)查找其晚常駐基站小區(qū),并與參與節(jié)能的基站小區(qū)進(jìn)行比對(duì),結(jié)果表明,未發(fā)現(xiàn)由于基站小區(qū)節(jié)能引起的投訴。
上述節(jié)能算法方案在江蘇全省4G基站小區(qū)進(jìn)行了推廣應(yīng)用,節(jié)能策略較保守,根據(jù)業(yè)務(wù)部門需求,從算法提供的低價(jià)值基站小區(qū)清單中篩選部分參與節(jié)能的小區(qū),將節(jié)能時(shí)段限制為凌晨0點(diǎn)至6點(diǎn),在保證用戶感知和鄰區(qū)覆蓋的情況下,對(duì)一個(gè)月的節(jié)能小區(qū)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)表明,AI算法日均可節(jié)省電量超過(guò)1萬(wàn)度,涉及節(jié)能的小區(qū)近4萬(wàn)個(gè),持續(xù)應(yīng)用,預(yù)計(jì)年度省電超過(guò)400萬(wàn)度。
基于AI技術(shù),引入基站小區(qū)價(jià)值度概念,提出利用時(shí)間序列和分類算法相結(jié)合預(yù)測(cè)小區(qū)價(jià)值度的方案,基于價(jià)值度預(yù)測(cè)結(jié)果可進(jìn)行相關(guān)節(jié)能操作。小區(qū)價(jià)值度的引入使得節(jié)能時(shí)可綜合考慮各個(gè)關(guān)鍵指標(biāo)的作用,此外,也使得我們可以利用基站歷史數(shù)據(jù)對(duì)小區(qū)以及整個(gè)基站的價(jià)值度進(jìn)行分析,對(duì)于高價(jià)值的基站,可以提供更好的保障服務(wù)。