[李杰 吳威 關(guān)偉杰]
在教育、醫(yī)療、金融、社科等領(lǐng)域都涉及了大量的通信資源使用,通信網(wǎng)絡(luò)在人們的生活中占據(jù)了越來(lái)越重要的位置。如何創(chuàng)建一個(gè)更優(yōu)秀的網(wǎng)絡(luò)體系、更高效的維護(hù)體系、更良好的用戶(hù)感知體系,已經(jīng)成為一個(gè)非常值得研究的課題。如何從海量數(shù)據(jù)中采集到信息、又如何從信息中歸納知識(shí),是一項(xiàng)高技術(shù)并且勞動(dòng)強(qiáng)度很大的工作。為了減輕人們的勞動(dòng)量,同時(shí)也為了節(jié)約社會(huì)成本,出現(xiàn)了一些載有能代替人類(lèi)腦力勞動(dòng)算法的機(jī)器硬件,這些算法被稱(chēng)為智能算法。將智能算法與傳統(tǒng)的通信領(lǐng)域相結(jié)合,將大量的通信數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析處理,從而轉(zhuǎn)化成的具有特定用途和使用價(jià)值的數(shù)據(jù),并其與已知的信息進(jìn)行比較后得出相應(yīng)的結(jié)論用于支撐通信領(lǐng)域的相關(guān)工作,使其更加自動(dòng)化、智能化。
通信網(wǎng)絡(luò)經(jīng)歷了長(zhǎng)期的發(fā)展,衍生出各大分支。技術(shù)的進(jìn)步不僅帶來(lái)了電信業(yè)務(wù)種類(lèi)的增加,隨著數(shù)據(jù)庫(kù)等技術(shù)的發(fā)展,通信數(shù)據(jù)量也呈現(xiàn)了爆發(fā)性的增長(zhǎng)。而通信網(wǎng)絡(luò)屬于一個(gè)動(dòng)態(tài)的網(wǎng)絡(luò),網(wǎng)絡(luò)資源緊張,業(yè)務(wù)密度分布不均、網(wǎng)絡(luò)負(fù)荷過(guò)載等問(wèn)題,在業(yè)務(wù)量逐年增加的情況下尤顯突出。雖然各大運(yùn)營(yíng)商已投入了大量的人力物力進(jìn)行優(yōu)化,但仍有較大的改善空間;此外,在人們使用通信網(wǎng)絡(luò)越來(lái)越頻繁的背景下,用戶(hù)感知也成為一個(gè)不容無(wú)視不容忽視的問(wèn)題。通過(guò)對(duì)主流機(jī)器學(xué)習(xí)算法的理論研究,可以將智能算法融入到日常的網(wǎng)絡(luò)優(yōu)化、維護(hù)等工作中,為廣東移動(dòng)的網(wǎng)絡(luò)質(zhì)量提升工作提供幫忙幫助,具有一定的現(xiàn)實(shí)意義。
智能化是中國(guó)移動(dòng)集團(tuán)公司發(fā)展戰(zhàn)略的一項(xiàng)重要內(nèi)容,是驅(qū)動(dòng)移動(dòng)公司優(yōu)化服務(wù)質(zhì)量、高效運(yùn)維的有效手段。而人工智能主要依托于計(jì)算機(jī)超凡的存儲(chǔ)能力,記憶大量的數(shù)據(jù)或是方案,再?gòu)闹羞x取最匹配數(shù)據(jù)與最佳方案反饋輸出。人工智能主要依托于大數(shù)據(jù),而通信網(wǎng)絡(luò)具備海量的數(shù)據(jù)源,將通信網(wǎng)絡(luò)與基于人工智能技術(shù)的深度學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法結(jié)合,將進(jìn)一步推進(jìn)通信領(lǐng)域朝著自動(dòng)化、智能化的演變方向邁進(jìn)。
應(yīng)用建模主要依據(jù)如下算法選擇原則。
(1)依據(jù)任務(wù)需求進(jìn)行算法類(lèi)別的選擇;
(2)根據(jù)數(shù)據(jù)特征以及計(jì)算條件等評(píng)判依據(jù)進(jìn)行具體的詳細(xì)算法選擇;
(3)一般可以選擇多個(gè)算法進(jìn)行模型搭建;
(4)結(jié)合業(yè)務(wù)需求以及算法驗(yàn)證結(jié)果對(duì)模型進(jìn)行最終的確定。
分類(lèi)是一個(gè)有監(jiān)督的學(xué)習(xí)過(guò)程,目標(biāo)數(shù)據(jù)庫(kù)中有哪些類(lèi)別是已知的,分類(lèi)過(guò)程需要做的就是把每一條記錄歸到對(duì)應(yīng)的類(lèi)別之中。由于必須事先知道各個(gè)類(lèi)別的信息,并且所有待分類(lèi)的數(shù)據(jù)條目都默認(rèn)有對(duì)應(yīng)的類(lèi)別。
適用場(chǎng)景:在具體有哪些類(lèi)別是已知的的情況下預(yù)測(cè)目標(biāo)數(shù)據(jù)的歸屬類(lèi)別,適用于投訴用戶(hù)預(yù)測(cè)、離網(wǎng)用戶(hù)預(yù)測(cè)等。
常用算法特征如圖1所示。
回歸通常是機(jī)器學(xué)習(xí)中使用的第一個(gè)算法。通過(guò)學(xué)習(xí)因變量和自變量之間的關(guān)系實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)。
圖1 分類(lèi)算法特征
適用場(chǎng)景:判斷自變量和因變量之間的關(guān)系,以及不同自變量對(duì)因變量影響的強(qiáng)度,適用于指標(biāo)劣化預(yù)測(cè)、告警關(guān)聯(lián)預(yù)測(cè)等。
常用算法特征如圖2所示。
圖2 回歸算法特征
聚類(lèi)是無(wú)監(jiān)督學(xué)習(xí)的典型算法,不需要標(biāo)記結(jié)果。試圖探索和發(fā)現(xiàn)一定的模式,用于發(fā)現(xiàn)共同的群體,按照內(nèi)在相似性將數(shù)據(jù)劃分為多個(gè)類(lèi)別,判斷其內(nèi)相似性。
適用場(chǎng)景:將一系列點(diǎn)分成若干類(lèi),事先是沒(méi)有類(lèi)別的。有時(shí)候也作為監(jiān)督學(xué)習(xí)中稀疏特征的預(yù)處理。適用于用戶(hù)標(biāo)簽分類(lèi)、呼叫記錄詳細(xì)分析、警報(bào)自動(dòng)化聚類(lèi)預(yù)測(cè)等。
常用算法特征如圖3所示。
圖3 聚類(lèi)算法特征
關(guān)聯(lián)分析又稱(chēng)關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。
適用場(chǎng)景:從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。適用于業(yè)務(wù)推廣、入網(wǎng)拉新等。
常用算法特征如圖4所示。
圖4 關(guān)聯(lián)算法特征
時(shí)間序列是按照時(shí)間順利排列的一組數(shù)據(jù)序列。時(shí)間序列算法就是發(fā)現(xiàn)這組數(shù)據(jù)的變動(dòng)規(guī)律并用于預(yù)測(cè)的統(tǒng)計(jì)技術(shù)。,且具有假設(shè)事物發(fā)展趨勢(shì)會(huì)延伸到未來(lái)、預(yù)測(cè)所依據(jù)的數(shù)據(jù)具有不規(guī)則性和不考慮事物發(fā)展之間的因果關(guān)系的特點(diǎn)。
適用場(chǎng)景:通過(guò)時(shí)間延展的方式找到數(shù)據(jù)中的變化規(guī)律。一般都用于流量、話(huà)務(wù)量等基于時(shí)間的預(yù)測(cè)。
項(xiàng)目目標(biāo):由于用戶(hù)群體的分布以及用戶(hù)行為的變化,可能導(dǎo)致網(wǎng)絡(luò)資源配置無(wú)法滿(mǎn)足實(shí)際資源需求,亦可能存在部分資源浪費(fèi)的情況。本模型根據(jù)歷史數(shù)據(jù)分析流量使用的規(guī)律性來(lái)預(yù)測(cè)用戶(hù)的實(shí)際使用情況,并以分析結(jié)果作為調(diào)整參照,可以更合理地分配網(wǎng)絡(luò)資源,避免資源浪費(fèi)以及減少用戶(hù)投訴問(wèn)題,達(dá)到提前預(yù)知提前準(zhǔn)備的目的。
模型創(chuàng)建依照如下步驟進(jìn)行。
(1)數(shù)據(jù)預(yù)處理:缺失值、異常值進(jìn)行分析,并進(jìn)行插補(bǔ)替換處理。如圖5所示。
(2)繪制時(shí)間序列圖觀察趨勢(shì):采用時(shí)序平滑化與季節(jié)性分解。如圖6所示。
圖6 時(shí)間序列圖
(3)分析序列平穩(wěn)性并進(jìn)行平穩(wěn)化:通過(guò)平穩(wěn)性檢驗(yàn)、白噪聲檢驗(yàn)。
通過(guò)根檢驗(yàn)(ADF)方法進(jìn)行平穩(wěn)性檢驗(yàn),觀測(cè)序列根檢驗(yàn)對(duì)應(yīng)p值小于0.05,屬于非平穩(wěn)序列,二階滯后差分滿(mǎn)足平穩(wěn)序列,如表1所示。
表1 根檢驗(yàn)(ADF)
為了驗(yàn)證序列中有用的信息是否已被提取完畢,需要對(duì)序列進(jìn)行白噪聲檢驗(yàn)。采用LB統(tǒng)計(jì)量的方法進(jìn)行白噪聲檢驗(yàn),二階滯后差分后的p值系數(shù)小于0.05,如表2所示。
表2 LB統(tǒng)計(jì)量
(4)ARIMA模型定階
針對(duì)一階差分后的時(shí)序輸出自相關(guān)與偏自相關(guān)圖,計(jì)算得到ARIMA(1,0,0)模型,如圖7所示。
圖7 一階差分后的時(shí)序輸出自相關(guān)與偏自相關(guān)圖
計(jì)算ARMA(p,q)取p和q均小于等于15的所有組合的BIC信息量,如圖8所示。
圖8 計(jì)算ARMA(p,q)的BIC信息量
選取顯著變量為Φ1、Φ9、Φ12和θ5、θ12,輸出模型ARMA(1,5),ARMA(1,12),ARMA(9,5),ARMA(9,12),ARMA(12,5),ARMA(12,12)。
(5)模型評(píng)估與預(yù)測(cè)
檢查其殘差序列是否為白噪聲,是否滿(mǎn)足平穩(wěn)序列。如果不是白噪聲,說(shuō)明殘差中還存在有用信息,需要修正模型或者進(jìn)一步提取。針對(duì)選出的模型進(jìn)行擬合,模型的AIC值,ARIMA(1,1,12)的AIC值為最優(yōu),如表3所示。
表3 模型評(píng)估與預(yù)測(cè)表
通過(guò)預(yù)測(cè)結(jié)果并結(jié)合經(jīng)驗(yàn)分析,可以針對(duì)網(wǎng)絡(luò)資源進(jìn)行針對(duì)性的調(diào)整,如圖9所示。
圖9 針對(duì)性調(diào)整
項(xiàng)目目標(biāo):采用線(xiàn)性回歸模型對(duì)無(wú)線(xiàn)傳播模型進(jìn)行校正。通過(guò)無(wú)線(xiàn)信號(hào)采集數(shù)據(jù)帶入線(xiàn)性回歸模型,從而對(duì)SPM模型進(jìn)行K值的求解,最終實(shí)現(xiàn)傳播信號(hào)的預(yù)測(cè)。能有效的模擬用戶(hù)實(shí)際的信號(hào)使用情況,對(duì)網(wǎng)絡(luò)規(guī)劃以及網(wǎng)絡(luò)優(yōu)化都起到了重要的參考作用。
基于采集數(shù)據(jù)將其帶入SPM模型,如圖10所示。
圖10 SPM模型
采用線(xiàn)性回歸算法創(chuàng)建信號(hào)強(qiáng)度的預(yù)測(cè)模型,通過(guò)如下指標(biāo)進(jìn)行綜合評(píng)估,如表4所示。
表4 評(píng)估模型
最終確定的模型輸出結(jié)果如圖11所示。
圖11 模型輸出
紅色為現(xiàn)網(wǎng)數(shù)據(jù),藍(lán)色為預(yù)測(cè)數(shù)據(jù)。從結(jié)果上可以看到,預(yù)測(cè)偏差為可接受范圍內(nèi),該模型可投入實(shí)際的規(guī)劃仿真工作中使用。
項(xiàng)目目標(biāo):用戶(hù)感知目前已經(jīng)成為生活用中越來(lái)越關(guān)注的話(huà)題,如果要能讓用戶(hù)用得開(kāi)心,預(yù)防勝于治療是關(guān)鍵。通過(guò)DPI指標(biāo)結(jié)合告警信息進(jìn)行模型創(chuàng)建,采用決策樹(shù)分類(lèi)器預(yù)測(cè)潛在投訴用戶(hù),可以做到先知先預(yù)防的作用。
(1)采集用戶(hù)投訴記錄、投訴前對(duì)應(yīng)時(shí)段的DPI指標(biāo)、投訴前時(shí)段的告警數(shù)據(jù)作為數(shù)據(jù)集,并將其進(jìn)行關(guān)聯(lián)處理形成信息寬表,如表5所示。
表5 信息寬表
(2)針對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理,圍繞缺失值、異常值、數(shù)據(jù)規(guī)范化三部分進(jìn)行,處理后的訓(xùn)練集保留1:1比例,如表6所示。
表6 采集數(shù)據(jù)預(yù)處理
(3)考慮到數(shù)據(jù)集的特征,優(yōu)先選取隨機(jī)邏輯回歸的結(jié)果,再結(jié)合建模情況增加部分信息增益和卡方檢驗(yàn)特征。通過(guò)前剪枝與后剪枝的兩種方式進(jìn)行決策樹(shù)建模,輸出樹(shù)形結(jié)果,如圖12所示。
圖12 決策樹(shù)
(4)將原有訓(xùn)練集中的0.3部分劃分為交叉訓(xùn)練集,針對(duì)劃分后的訓(xùn)練集進(jìn)行模型訓(xùn)練,選取優(yōu)質(zhì)模型參數(shù),并在交叉訓(xùn)練集中進(jìn)行驗(yàn)證,如圖13所示。
圖13 交叉訓(xùn)練集驗(yàn)證
(5)挑選準(zhǔn)確率大于70%且召回率較高的單項(xiàng)規(guī)則進(jìn)行組合訓(xùn)練,模型輸出如圖14所示。
圖14 組合訓(xùn)練模型輸出