張靖 侯曉晶
摘? 要:隨著全市家庭寬帶市場的飽和,寬帶用戶新增速度放緩,保有存量用戶、控制用戶離網(wǎng)業(yè)已成為促進寬帶市場發(fā)展的重要舉措。文章對家庭寬帶離網(wǎng)用戶特征進行研究,基于lightGBM、XGBoost、RandomForest三類集成學習的決策樹算法,使用PyCharm軟件構(gòu)建家庭寬帶離網(wǎng)用戶預(yù)警模型,輸出預(yù)離網(wǎng)用戶供業(yè)務(wù)人員進行挽留,模型應(yīng)用后,寬帶月離網(wǎng)用戶百分比從0.76%下降至0.35%,預(yù)計全年可挽回預(yù)離網(wǎng)用戶7 776戶,保有客戶價值101.1萬元。
關(guān)鍵詞:離網(wǎng);大數(shù)據(jù);預(yù)測;量化;寬帶用戶
中圖分類號:TP311? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)15-0085-04
Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.
Keywords: off-network; big data; prediction; quantification; broadband user
0? 引? 言
家庭寬帶作為CHBN(Customer, Home, Business, New, CHBN)四大市場中的重要組成部分,在多產(chǎn)品融合營銷、智慧家庭體系建立、實現(xiàn)用戶價值提升等方面扮演著愈來愈重要的角色。截至2020年底,全市我網(wǎng)家庭寬帶用戶數(shù)達到20.3萬,市場份額46.8%,通信運營商在家庭寬帶市場上的競爭會長期存在,面對全市家庭寬帶用戶幾近飽和、市場增速放緩的形勢[1],存量寬帶用戶保有形勢愈發(fā)嚴峻。但我網(wǎng)2020年全年家庭寬帶離網(wǎng)用戶1.61萬,離網(wǎng)率7.94%。
面對市場發(fā)展壓力,我公司迫切需要深挖家庭寬帶市場的保有潛力,通過多專業(yè)(市場側(cè)+網(wǎng)絡(luò)側(cè))歷史數(shù)據(jù),篩查并掌握寬帶離網(wǎng)客群特征,隨之而來的信息過載問題和用戶無目的搜索[2],使得數(shù)理統(tǒng)計、數(shù)據(jù)庫分析等方法解決此類問題時,存在高質(zhì)量有價值信息難覓、獲取信息成本高、時間周期長等諸多弊端。
如何建立有效預(yù)測家庭寬帶用戶離網(wǎng)的數(shù)據(jù)模型?掌握哪些用戶會離網(wǎng),離網(wǎng)傾向有多高?需要用大數(shù)據(jù)技術(shù)協(xié)助解決。
1? 模型概述
我們利用已有的多類用戶特征,對寬帶用戶是否離網(wǎng)進行預(yù)判,根據(jù)輸出預(yù)離網(wǎng)明細進行針對挽回。首先,將預(yù)測寬帶離網(wǎng)用戶的應(yīng)用場景轉(zhuǎn)化為有監(jiān)督的二分類問題,再經(jīng)過數(shù)據(jù)準備、特征選擇、模型建立、效果評估、迭代優(yōu)化、成果應(yīng)用等六個階段,構(gòu)建基于lightGBM、XGBoost、RandomForest三類算法的混合模型——家庭寬帶離網(wǎng)用戶預(yù)警模型。
模型開發(fā)環(huán)境為Python 3.7,通過PyCharm開發(fā)工具實現(xiàn)。以單月全量家庭寬帶用戶數(shù)據(jù)為輸入,包含用戶屬性、投訴情況、寬帶網(wǎng)絡(luò)性能等屬性,并將原始數(shù)據(jù)按區(qū)域類型、帶寬速率、投訴情況劃分為8個客戶群,分別適配lightGBM、XGBoost、RandomForest中的不同算法達到最優(yōu),最終完成家庭寬帶離網(wǎng)用戶預(yù)警模型的構(gòu)建,并輸出對存量寬帶用戶次月的離網(wǎng)預(yù)測。
2? 模型構(gòu)建
通過需求分析,將應(yīng)用場景轉(zhuǎn)化為預(yù)測寬帶用戶離網(wǎng)與在網(wǎng)的分類問題[3],調(diào)取單月全量家庭寬帶用戶數(shù)據(jù),包含用戶屬性(如年齡、性別)、業(yè)務(wù)屬性(如寬帶入網(wǎng)時間、用戶套餐、用戶月消費等)、使用習慣(如寬帶上網(wǎng)時長、上網(wǎng)流量等)、投訴情況(如月投訴頻次、投訴類型等)及寬帶網(wǎng)絡(luò)性能(如帶寬、上網(wǎng)平均速率)等數(shù)據(jù);完成多表關(guān)聯(lián)、匯總后,形成包含347個特征的原始數(shù)據(jù),其中數(shù)值型特征307個、類別型特征40個,以“isnt_kd_lost_label”(是否次月寬帶離網(wǎng)用戶)作為類別標簽。
2.1? 數(shù)據(jù)預(yù)處理及特征選擇
2.1.1? 特征初篩
為保證特征的有效性,首先去掉值全為空、對分類無貢獻的5個特征,再去掉數(shù)據(jù)波動小、方差等于0的41個特征,最后去掉存儲內(nèi)容為文本(例如:民?;▓@小區(qū))的32個特征,共涉及78個特征。
2.1.2? 空值填充
對于數(shù)值型特征選用“中位數(shù)”填充,對于類別型特征選用“向前、向后”填充。
2.1.3? 相似度分析
對于|相關(guān)系數(shù)|≥0.8的特征,認為其屬于強相關(guān),為保證模型的簡化,選擇僅保留其中一個特征,共丟棄124個特征。如圖1所示。
2.1.4? 數(shù)據(jù)集劃分
預(yù)留10%的數(shù)據(jù)作為最終測試集(test set),剩余數(shù)據(jù)再按照8:2的比例劃分為訓練集(train set)和驗證集(validation set)用于模型構(gòu)建。
2.1.5? 正負樣本不均衡處理
以“離網(wǎng)”作為正類,“在網(wǎng)”作為負類,訓練集原始數(shù)據(jù)正負樣本比為1:142,存在明顯數(shù)據(jù)不均衡,分別采用過采樣、欠采樣兩種方式,按正負比1:2和1:4兩種比例生成用于模型訓練的數(shù)據(jù)集。如表1所示。
2.2? 場景細分
2.2.1? 劃分維度
結(jié)合日常寬帶用戶的投訴處理、故障維護經(jīng)驗,將訓練數(shù)據(jù)按照區(qū)域類型、帶寬速率、投訴情況[4]三個維度劃分為8個客戶群。如圖2所示。
2.2.2? 細分標準
區(qū)域類型包括城市、農(nóng)村;帶寬速率包括高帶寬、低帶寬,其中100 MB及以下為低帶寬、200 MB及以上為高帶寬;投訴情況包括有投訴、無投訴。
2.3? 模型建立
2.3.1? 基線模型
對于劃分好的8個客戶群的訓練數(shù)據(jù)集,依次使用lightGBM、XGBoost、RandomForest算法訓練,最終訓練出24個模型,作為基線模型,并從準確率、召回率、F1值對所有基線模型的預(yù)測結(jié)果進行評估。
2.3.2? 終版模型
根據(jù)評估指標,選擇召回率為首要評估指標,確定每類客戶群預(yù)測效果最優(yōu)的模型算法,其中,3個客戶群選擇lightGBM算法、3個客戶群選擇XGBoost算法、2個客戶群選擇RandomForest算法,并最終混合組成家庭寬帶離網(wǎng)用戶預(yù)警模型。
2.4? 效果分析
2.4.1? 評估指標
將模型應(yīng)用在8個客戶群的測試數(shù)據(jù)集上,并輸出準確率、召回率、F1值三項評估指標,對終版模型的各客群預(yù)測結(jié)果進行評估,以正類召回率作為首要評估指標[5]。
2.4.2? 預(yù)測效果
在8個客戶群的正類召回率中,6個客戶群在90%以上、1個89.34%、1個75%;模型在測試集上的正類召回率為89.64%。如表2所示。
2.5? 調(diào)優(yōu)
在模型構(gòu)建過程中,需要根據(jù)模型的評估指標,多次進行迭代優(yōu)化,主要解決以下兩個問題。
2.5.1? 訓練樣本均衡問題
原始訓練數(shù)據(jù),正負樣本比例懸殊,同時引入上采樣、下采樣方式,按1:4和1:2比例生產(chǎn)訓練數(shù)據(jù)集,進行探索。通過評估各訓練集生成模型的預(yù)測召回率,最終選定上采樣(1:2)作為最終訓練數(shù)據(jù)。
2.5.2? 過擬合問題
通過訓練數(shù)據(jù)集生成的基線模型,準確率、召回率、F1均在98%以上,但在測試集上召回率僅65%,出現(xiàn)了明顯的過擬合、泛化能力不足的情況。通過調(diào)整reg_alpha、reg_lambda、max_depth等參數(shù),加入L1、L2正則化,限制樹的最大深度,降低模型的擬合精度,增強泛化能力。
2.6? 預(yù)測結(jié)果輸出
模型最終的預(yù)測結(jié)果以csv文件格式輸出,包含用戶ID、離網(wǎng)概率、是否離網(wǎng)等字段信息。如圖3所示。
3? 應(yīng)用效果
3.1? 降低家寬離網(wǎng)率
通過模型從全市20余萬寬帶用戶中,篩選出0.22萬/月存在離網(wǎng)可能的用戶,供業(yè)務(wù)部門針對用戶進行挽留。
模型應(yīng)用后,寬帶月離網(wǎng)率持續(xù)改善,從0.76%下降至0.35%,5~6月全省月離網(wǎng)率全省最低;預(yù)計2021年全年家庭寬帶離網(wǎng)率5.66%,較2020年改善2.28 PP。如圖4所示。
3.2? 挽回用戶創(chuàng)造收益
模型應(yīng)用前,寬帶離網(wǎng)中位數(shù)1 544戶/月,應(yīng)用后,寬帶離網(wǎng)中位數(shù)896戶/月;挽回寬帶用戶648戶/月,全年預(yù)計挽回7 776戶。
離網(wǎng)意味著用戶資費降檔或手機銷戶,按每戶20元/月資費變動估算;首月挽回用戶創(chuàng)造收益1.3萬元,全年預(yù)計創(chuàng)造收益101.1萬元。
4? 結(jié)? 論
實踐證明,此寬帶用戶離網(wǎng)預(yù)測模型解決了信息過載和用戶無目的搜索的問題,達到降低用戶離網(wǎng)率、為企業(yè)創(chuàng)造收益及降低成本的目的,同時豐富了寬帶用戶運營手段,是通過大數(shù)據(jù)輔助市場經(jīng)營的有效嘗試。
參考文獻:
[1] 王遠征,吳峰,夏明鏡,等.電信寬帶用戶離網(wǎng)大數(shù)據(jù)預(yù)測實例 [J].電信技術(shù),2016(10):83-87.
[2] 云晴.大數(shù)據(jù)實踐重要影響因素 [J].中國電信業(yè),2017(8):57-59.
[2] 盧光躍,張宏建,閆真光,等.基于特征選擇和SVM的電信客戶離網(wǎng)預(yù)測 [J].西安郵電大學學報,2019,24(2):21-25.
[3] 陳小鳳.寬帶用戶維系新思路 [J].電子技術(shù)與軟件工程,2018(14):14.
[4] 谷娜.基于AI和大數(shù)據(jù)的寬帶服務(wù)支撐體系研究 [J].通信與信息技術(shù),2021(4):81-82.
[5] 云晴.大數(shù)據(jù)實踐重要影響因素 [J].中國電信業(yè),2017(8):57-59.
作者簡介:張靖(1986—),男,漢族,山西朔州人,中級工程師,碩士研究生,研究方向:神經(jīng)網(wǎng)絡(luò);侯曉晶(1987—),女,漢族,山西省運城人,中級工程師,碩士研究生,研究方向:數(shù)據(jù)挖掘。
3478500338218