■ 中國(guó)移動(dòng)通信集團(tuán)河北有限公司 曹雷雷 李云
編者按:本文提出一種基于決策樹(shù)的4G網(wǎng)絡(luò)客戶感知預(yù)測(cè)模型,從而實(shí)現(xiàn)了4G網(wǎng)絡(luò)客戶滿意度指標(biāo)體系的構(gòu)建。
圖1 整體設(shè)計(jì)思路
對(duì)于電信運(yùn)營(yíng)商及移動(dòng)互聯(lián)網(wǎng)來(lái)說(shuō),以客戶為中心,關(guān)注客戶體驗(yàn),提高客戶網(wǎng)絡(luò)感知,提升客戶滿意度是重點(diǎn)工作內(nèi)容。傳統(tǒng)獲取客戶滿意度的方式包括市場(chǎng)調(diào)研、客戶服務(wù),響應(yīng)周期長(zhǎng)、服務(wù)客戶范圍局限,傳統(tǒng)的優(yōu)化方法,僅依靠網(wǎng)絡(luò)接通、掉線指標(biāo)定位質(zhì)差小區(qū),此類的網(wǎng)絡(luò)優(yōu)化確實(shí)有效果,但方法滯后,已很難滿足當(dāng)前激烈的市場(chǎng)競(jìng)爭(zhēng)需求和較高的業(yè)務(wù)時(shí)效性要求。因此,建立一套集網(wǎng)絡(luò)客戶感知預(yù)測(cè)、網(wǎng)絡(luò)問(wèn)題定位、分析及應(yīng)用的基于機(jī)器學(xué)習(xí)的4G網(wǎng)絡(luò)客戶感知分析及應(yīng)用,能夠在用戶投訴之前發(fā)現(xiàn)網(wǎng)絡(luò)問(wèn)題,成為4G時(shí)代提高4G網(wǎng)絡(luò)客戶感知的重要舉措。
基于以上思考,本文提出了一種 “4G網(wǎng)絡(luò)感知預(yù)測(cè)模型”預(yù)測(cè)網(wǎng)絡(luò)問(wèn)題的方法,“4G網(wǎng)絡(luò)客戶感知預(yù)測(cè)模型”是一種基于C5.0決策樹(shù)的客戶網(wǎng)絡(luò)感知預(yù)測(cè)模型。該方法核心思想是根據(jù)4G投訴客戶的投訴特征,構(gòu)建4G網(wǎng)絡(luò)指標(biāo)體系,使用決策樹(shù)算法,借用樣本數(shù)據(jù)開(kāi)展建模。如圖1所示,通過(guò)投訴客戶特征和無(wú)線網(wǎng)指標(biāo)的采集和整理,構(gòu)建客戶影響力指標(biāo)體系;C5.0決策樹(shù)算法借用樣本和反樣本數(shù)據(jù)不斷機(jī)械訓(xùn)練構(gòu)建模型,輸出客戶網(wǎng)絡(luò)感知差小區(qū),其后對(duì)感知差小區(qū)進(jìn)行分析和優(yōu)化處理;模型構(gòu)建是一個(gè)長(zhǎng)期不斷訓(xùn)練樣本數(shù)據(jù)、提高準(zhǔn)確率的過(guò)程,因此每月將客戶投訴數(shù)據(jù)進(jìn)行不斷更新,以便完善模型。
1.決策樹(shù)
決 策 樹(shù)(Decision Tree),它是用樹(shù)的結(jié)構(gòu)來(lái)構(gòu)建分類模型,每個(gè)節(jié)點(diǎn)代表著一個(gè)屬性,根據(jù)這個(gè)屬性的劃分,進(jìn)入這個(gè)節(jié)點(diǎn)的兒子節(jié)點(diǎn),直至葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都表征著一定的類別,從而達(dá)到分類的目的。其重要的能力是將看似無(wú)序、離散、雜亂的已知的實(shí)例(例如已知的客戶感知差小區(qū)),通過(guò)某種技術(shù)手段將它們轉(zhuǎn)化成可以預(yù)測(cè)未知實(shí)例的樹(shù)形模型。
常用的決策樹(shù)有C4.5,C5.0,CART等。在生成樹(shù)的過(guò)程中,需要選擇用那個(gè)特征進(jìn)行剖分,選取的原則是,分開(kāi)后能盡可能地提升純度,可以用信息增益,增益率,以及基尼系數(shù)等指標(biāo)來(lái)衡量。如果是一棵樹(shù)的話,為了避免過(guò)擬合,還要進(jìn)行剪枝,取消那些可能會(huì)導(dǎo)致驗(yàn)證集誤差上升的節(jié)點(diǎn)。
圖2 客戶網(wǎng)絡(luò)感知指標(biāo)體系
圖3 模型構(gòu)建流程
在此處,使用了C5.0決策樹(shù)算法,在面對(duì)數(shù)據(jù)遺漏和輸入字段很多的問(wèn)題時(shí)非常穩(wěn)??;比一些其他類型的模型易于理解,模型退出的規(guī)則有非常直觀的解釋;同時(shí)也提供強(qiáng)大技術(shù)以提高分類的精度。針對(duì)預(yù)測(cè)未知的客戶網(wǎng)絡(luò)感知差的小區(qū),使用C5.0進(jìn)行分析,通過(guò)投訴用戶感知差的小區(qū)做樣本數(shù)據(jù),提取全網(wǎng)小區(qū)做反樣本數(shù)據(jù)(樣本/反樣本指標(biāo)是由投訴客戶特征整理與無(wú)線網(wǎng)指標(biāo)的結(jié)合構(gòu)建的指標(biāo)體系)通過(guò)以“樹(shù)”的形式盡最大化進(jìn)行指標(biāo)分叉,構(gòu)建決策樹(shù)模型,為了避免過(guò)擬合,可進(jìn)行剪枝,取消那些可能會(huì)導(dǎo)致驗(yàn)證集誤差上升的節(jié)點(diǎn)。
2.4G網(wǎng)絡(luò)感知預(yù)測(cè)模型構(gòu)建
(1)構(gòu)建客戶感知指標(biāo)體系
構(gòu)建客戶網(wǎng)絡(luò)感知指標(biāo)體系,要使用聚類算法,對(duì)投訴客戶特征進(jìn)行聚類分析(此處提取了兩個(gè)月投訴用戶的投訴特征進(jìn)行聚類),并結(jié)合投訴小區(qū)的網(wǎng)絡(luò)指標(biāo),初步構(gòu)建有覆蓋類、上網(wǎng)類、通話類三類20個(gè)網(wǎng)絡(luò)感知指標(biāo)體系,如圖2所示。隨著模型算法的不斷完善以及投訴用戶樣本的不斷增加和更新,影響力指標(biāo)體系也會(huì)不斷修改、增加和調(diào)整。
(2)樣本采集
從兩個(gè)月的投訴數(shù)據(jù)中選取了樣本數(shù)據(jù)和反樣本數(shù)據(jù)(投訴樣本1000、反 樣 本5000個(gè)),并將樣本數(shù)據(jù)進(jìn)行指標(biāo)化處理。為了使模型訓(xùn)練更加準(zhǔn)確,在模型訓(xùn)練前對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)降噪,減少“噪音”數(shù)據(jù)的污染。
(3)模型構(gòu)建及訓(xùn)練
使用SPSS模型構(gòu)建工具進(jìn)行模型構(gòu)建,并進(jìn)行不斷迭代完善。在SPSS工具中使用C5.0決策樹(shù)進(jìn)行算法機(jī)械學(xué)習(xí),將樣本及反樣本訓(xùn)練集導(dǎo)入到工具中,然后通過(guò)數(shù)據(jù)探索、理解,使用決策樹(shù)不斷進(jìn)行機(jī)械學(xué)習(xí),最終構(gòu)建模型,在SPSS環(huán)境下,使用了CHAID、C5.0決策樹(shù)算法進(jìn)行算法比對(duì),C5.0算法不需要花費(fèi)很多的訓(xùn)練次數(shù)進(jìn)行模型構(gòu)建,在訓(xùn)練7次后,模型初步形成;用此算法形成模型比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋。通過(guò)不斷更新樣本數(shù)據(jù),模型不斷迭代完善,從而保障數(shù)據(jù)模型的準(zhǔn)確性。如圖3模型構(gòu)建過(guò)程所示。
3.模型檢驗(yàn)
依據(jù)反向驗(yàn)證方法,選取樣本小區(qū)10個(gè),將網(wǎng)絡(luò)指標(biāo)輸入到模型中進(jìn)行模型準(zhǔn)確性驗(yàn)證。已訓(xùn)練出的模型算法會(huì)根據(jù)樣本指標(biāo)進(jìn)行分類判斷,定位是否感知差小區(qū)。如表1所示,樣本數(shù)據(jù)展示出的結(jié)果,包括10個(gè)樣本指標(biāo)體系和模型判斷的結(jié)果。例如樣本1,模型定性為感知差小區(qū),其MR指標(biāo)較弱,出現(xiàn)網(wǎng)絡(luò)覆蓋問(wèn)題,故投訴用戶較多,造成網(wǎng)絡(luò)感知差。
根據(jù)模型驗(yàn)證結(jié)果,可了解到驗(yàn)證的準(zhǔn)確率是60%,此結(jié)果只是針對(duì)于選擇的樣本,并不能代表全市以及全省。目前已經(jīng)開(kāi)展此項(xiàng)模型的全網(wǎng)應(yīng)用。根據(jù)大數(shù)據(jù)模型機(jī)械學(xué)習(xí)的優(yōu)點(diǎn),隨著投訴樣本的不斷增加和更新,用戶感知因素不斷完善,指標(biāo)評(píng)估體系進(jìn)一步擴(kuò)展,模型將不斷完善,準(zhǔn)確率也不斷提高。
表1 模型驗(yàn)證表
表2 4G投訴情況觀察觀測(cè)
在模型訓(xùn)練好后,提取每個(gè)月最后一周網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)導(dǎo)入模型進(jìn)行運(yùn)算,輸出全網(wǎng)各個(gè)小區(qū)的網(wǎng)絡(luò)感知情況(是否是感知差小區(qū)),篩選出100個(gè)感知差小區(qū)不采取整治措施留作觀察測(cè)試,剩余其他感知差小區(qū)進(jìn)行整治,即進(jìn)行網(wǎng)絡(luò)規(guī)劃和優(yōu)化,優(yōu)化措施等。
從三個(gè)周期的指標(biāo)來(lái)看,100個(gè)觀察測(cè)試小區(qū)中均有60多產(chǎn)生了投訴見(jiàn)表2,說(shuō)明該模型在4G投訴預(yù)處理過(guò)程中的有效性,即通過(guò)模型輸出感知差小區(qū)并采取優(yōu)化策略可以在投訴發(fā)生前避免投訴的發(fā)生。另外經(jīng)過(guò)實(shí)際分析發(fā)現(xiàn)100個(gè)感知差的小區(qū)中有80多個(gè)小區(qū)需要進(jìn)行優(yōu)化處理見(jiàn)表2。
通過(guò)觀察采取整治措施小區(qū)的投訴情況來(lái)看,發(fā)現(xiàn)投訴小區(qū)量有效遞減,且投訴值明顯低于優(yōu)化前(模型使用前)的投訴量。說(shuō)明該模型在4G投訴預(yù)處理提高客戶感知中的有效性。
另外,發(fā)現(xiàn)模型實(shí)施后4G質(zhì)差小區(qū)量和4G高負(fù)荷小區(qū)量都明顯下降,說(shuō)明該模型在網(wǎng)絡(luò)規(guī)劃與網(wǎng)絡(luò)優(yōu)化建設(shè)中能起到很有效的作用。