姜群
(中國移動通信集團(tuán)云南有限公司 云南省昆明市)
在通信企業(yè)中,體驗滿意度評價體系通常包含網(wǎng)絡(luò)、服務(wù)和業(yè)務(wù)三方面?;诮y(tǒng)計分析,用戶最關(guān)注網(wǎng)絡(luò)因素,建立主觀網(wǎng)絡(luò)滿意度調(diào)研結(jié)果和客觀指標(biāo)間的對應(yīng)模型,能夠更有針對性和更有效的指導(dǎo)業(yè)務(wù)主管部門采取更加合理的網(wǎng)絡(luò)優(yōu)化措施。
網(wǎng)絡(luò)監(jiān)控和日常維護(hù)業(yè)務(wù)質(zhì)量指標(biāo)繁多,暫無較為有效手段分析各類與用戶感知體驗強相關(guān)的指標(biāo)。導(dǎo)致基于部分指標(biāo)異常的網(wǎng)絡(luò)優(yōu)化措施落地后,用戶滿意度并沒有顯著改善。為此,開展了大數(shù)據(jù)建模網(wǎng)絡(luò)滿意度應(yīng)用研究,研究關(guān)注調(diào)研問卷設(shè)計與分析、主客觀關(guān)聯(lián)建模與滿意預(yù)測的解決方案。
調(diào)研設(shè)計包括問卷內(nèi)容制定、抽樣方法、樣本數(shù)量、調(diào)研客群和調(diào)研方式等內(nèi)容。按場景劃分調(diào)研用戶群,將用戶打分和場景對應(yīng)客觀體驗指標(biāo)關(guān)聯(lián)分析,運用數(shù)據(jù)挖掘技術(shù)分離出客觀樣本,引入聚類、單變量異常檢測、局部異常因子、離群點檢測等關(guān)鍵技術(shù),剔除與網(wǎng)絡(luò)體驗客觀指標(biāo)不一致的無效樣本,對樣本分布、與友商的對比和滿意度與提及率的關(guān)聯(lián)進(jìn)行分析,進(jìn)行有效的調(diào)研和獲取合格的樣本數(shù)據(jù),提高訓(xùn)練集樣本質(zhì)量,提升模型預(yù)測性能。
通過將主觀調(diào)研樣本數(shù)據(jù)與體現(xiàn)用戶網(wǎng)絡(luò)體驗的客觀數(shù)據(jù)相關(guān)聯(lián),引入IV(信息價值增益)算法,對建模候選指標(biāo)集實施特征工程,識別預(yù)測性能好的關(guān)鍵指標(biāo),剔除相關(guān)性低的指標(biāo),減少干擾因素,進(jìn)行建模和模型調(diào)優(yōu),實現(xiàn)對全量用戶的滿意預(yù)測和特征指標(biāo)識別。
2.1.1 問卷設(shè)計原則
問卷設(shè)計確保最佳訪問效果,訪問時長控制在3 分鐘內(nèi);滿意度指標(biāo)在問卷中采取十分制進(jìn)行詢問,語音貼合客戶受訪習(xí)慣;結(jié)構(gòu)化與非結(jié)構(gòu)化問題相結(jié)合,給被訪者以表達(dá)空間[1]。
2.1.2 測評維度與重點
從網(wǎng)絡(luò)、服務(wù)、業(yè)務(wù)等維度建立多層級的指標(biāo)體系,用于推薦、中立、貶損原因歸類,見圖1。
根據(jù)科克倫在抽樣技術(shù)中關(guān)于樣本容量的定理:“唯一完全精確的樣本是普查,隨機樣本并不精確,必定會產(chǎn)生抽樣誤差[2]?!彪S機樣本容量越大,精確度越高,抽樣誤差越小。每次抽樣最少樣本數(shù)量3 萬份,其中,模型訓(xùn)練2 萬份,模型校驗1 萬份;最優(yōu)樣本數(shù)量5 萬份,其中模型訓(xùn)練3 萬份,模型校驗2 萬份。
圖1:問卷結(jié)構(gòu)
圖2:特征工程增強
客觀數(shù)據(jù)由網(wǎng)絡(luò)指標(biāo)體系構(gòu)成,數(shù)據(jù)準(zhǔn)備主要包括:
自然日單用戶級的粒度數(shù)據(jù),SEQ(網(wǎng)絡(luò)性能管理)平臺PSPU(每用戶每業(yè)務(wù))探針話單XDR 數(shù)據(jù)、無線MR(Measurement Report)/CHR 數(shù)據(jù)、B 域(Business Support System);
數(shù)據(jù)累積要比調(diào)研提前1-4 周開始。且累積周期要和調(diào)研周期保持基本一致。因調(diào)研時用戶反饋的一般都是1-4 周前的使用感受;
對用戶級數(shù)據(jù)清洗和預(yù)處理。含空值替換、刪除重復(fù)值和異常值、指標(biāo)轉(zhuǎn)換、指標(biāo)間關(guān)聯(lián)及降維處理等;
引入IV 算法,對建模候選指標(biāo)集實施特征工程,識別預(yù)測性能好的關(guān)鍵指標(biāo),剔除相關(guān)性低的指標(biāo),減少干擾因素,提升模型預(yù)測性能,見圖2。
預(yù)測潛在不滿意用戶,需要使用到預(yù)測類相關(guān)大數(shù)據(jù)挖掘算法,該模型采用了二分類預(yù)測算法來實現(xiàn)[3]。通過對常見的邏輯回歸分類算法嘗試對比,選擇在隨機森林(多個決策樹)算法的基礎(chǔ)上增強和優(yōu)化,得到最適合本場景的二分類預(yù)測算法,采用二分類隨機森林建模結(jié)合機器學(xué)習(xí)技術(shù),專注貶損預(yù)測[4]。主要過程如下:
3.2.1 樣本分區(qū)
避免出現(xiàn)過擬合的現(xiàn)象,采用了對訓(xùn)練模型的數(shù)據(jù)源進(jìn)行劃分。一部分用于建模,一部分用于評估模型的方法來驗證模型結(jié)果是否具備普遍適用性。一般情況下,參與模型訓(xùn)練的數(shù)據(jù)占整體數(shù)據(jù)集的70%以上。
圖3:大數(shù)據(jù)建模指標(biāo)集
圖4:五輪建模調(diào)優(yōu)
3.2.2 樣本平衡
在建模過程中,調(diào)研樣本中正樣本(不滿意)的數(shù)量占比30%,少于負(fù)樣本(滿意),為了提高不平衡數(shù)據(jù)分類的準(zhǔn)確率,通過抽樣與欠抽樣用于樣本平衡。
3.2.3 特征分析與選擇
TMF(TeleManagement Forum)建議了使用階段各類業(yè)務(wù)的KQI 體驗點和體驗指標(biāo),包括了覆蓋、語音和上網(wǎng)三個方面指標(biāo)。
為提高模型準(zhǔn)確性,減少模型過擬合的風(fēng)險,加快訓(xùn)練速度,方便數(shù)據(jù)可視化和增強模型的可解釋性,特征選擇是文章研究的關(guān)鍵。研究主要針對上網(wǎng)和語音場景劃分指標(biāo)集,指標(biāo)集映射支撐不同場景,并根據(jù)IV 算法,制定出參與建模的強相關(guān)指標(biāo)和重要性指數(shù),最終實現(xiàn)270 個場景化指標(biāo)精準(zhǔn)匯聚及建模,見圖3。
3.2.4 效果評估
經(jīng)過五輪的大數(shù)據(jù)建模持續(xù)調(diào)優(yōu),模型查準(zhǔn)率保持在68%,查全率提升到75%,超過60%的平均水平,見圖4。為進(jìn)一步擴大研究成效,校準(zhǔn)實驗數(shù)據(jù),大數(shù)據(jù)建模網(wǎng)絡(luò)滿意度模型在昆明手機上網(wǎng)和VOLTE 語音業(yè)務(wù)中試行,實現(xiàn)核心網(wǎng)、SP、終端、小區(qū)等網(wǎng)絡(luò)端到端貶損問題定位整治和客戶感知精準(zhǔn)修復(fù)。經(jīng)過為期一年的運行后,對收集到的客戶體驗和調(diào)研數(shù)據(jù)進(jìn)行分析,貶損客戶數(shù)減少15%,客戶體驗KQI 指標(biāo)顯著改善,網(wǎng)絡(luò)滿意度領(lǐng)先度(客戶調(diào)研滿意度表現(xiàn)值領(lǐng)先友商水平)0.9,較模型部署應(yīng)用前提升1.9,取得了較為明顯的成效。在云南移動的實踐應(yīng)用,為全國其他省公司以及其他行業(yè)提供了可借鑒的理論和實踐案例。
通過大數(shù)據(jù)建模,建立主觀網(wǎng)絡(luò)滿意度調(diào)研結(jié)果和客觀指標(biāo)間的對應(yīng)模型,識別潛在不滿意用戶,再將用戶聚集到問題小區(qū)和網(wǎng)元,能夠更有針對性和更有效的指導(dǎo)采取合理的網(wǎng)絡(luò)調(diào)整和優(yōu)化措施,確保最終網(wǎng)絡(luò)滿意的提升。