亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        家庭寬帶離網(wǎng)用戶預(yù)警模型構(gòu)建研究

        2021-03-13 14:38:43張靖侯曉晶
        現(xiàn)代信息科技 2021年15期
        關(guān)鍵詞:大數(shù)據(jù)

        張靖 侯曉晶

        摘? 要:隨著全市家庭寬帶市場的飽和,寬帶用戶新增速度放緩,保有存量用戶、控制用戶離網(wǎng)業(yè)已成為促進寬帶市場發(fā)展的重要舉措。文章對家庭寬帶離網(wǎng)用戶特征進行研究,基于lightGBM、XGBoost、RandomForest三類集成學習的決策樹算法,使用PyCharm軟件構(gòu)建家庭寬帶離網(wǎng)用戶預(yù)警模型,輸出預(yù)離網(wǎng)用戶供業(yè)務(wù)人員進行挽留,模型應(yīng)用后,寬帶月離網(wǎng)用戶百分比從0.76%下降至0.35%,預(yù)計全年可挽回預(yù)離網(wǎng)用戶7 776戶,保有客戶價值101.1萬元。

        關(guān)鍵詞:離網(wǎng);大數(shù)據(jù);預(yù)測;量化;寬帶用戶

        中圖分類號:TP311? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)15-0085-04

        Abstract: With the saturation of the home broadband market in the whole Shuozhou city, the growth rate of broadband users has slowed down. Retaining existing users and controlling user off-network have become important measures to promote the development of the broadband market. This paper studies the characteristics of home broadband off-network users, based on the decision tree algorithm of integrated learning of lightGBM, XGBoost and RandomForest, PyCharm software is used to construct home broadband off-network users early warning model, which outputs pre off-network users for business personnel to retain. After the application of the model, the percentage of monthly broadband off-network user drops from 0.76% to 0.35%. It is expected that 7 776 pre off-network users can be retained throughout the year, keeping a customer value of 1.101 million yuan.

        Keywords: off-network; big data; prediction; quantification; broadband user

        0? 引? 言

        家庭寬帶作為CHBN(Customer, Home, Business, New, CHBN)四大市場中的重要組成部分,在多產(chǎn)品融合營銷、智慧家庭體系建立、實現(xiàn)用戶價值提升等方面扮演著愈來愈重要的角色。截至2020年底,全市我網(wǎng)家庭寬帶用戶數(shù)達到20.3萬,市場份額46.8%,通信運營商在家庭寬帶市場上的競爭會長期存在,面對全市家庭寬帶用戶幾近飽和、市場增速放緩的形勢[1],存量寬帶用戶保有形勢愈發(fā)嚴峻。但我網(wǎng)2020年全年家庭寬帶離網(wǎng)用戶1.61萬,離網(wǎng)率7.94%。

        面對市場發(fā)展壓力,我公司迫切需要深挖家庭寬帶市場的保有潛力,通過多專業(yè)(市場側(cè)+網(wǎng)絡(luò)側(cè))歷史數(shù)據(jù),篩查并掌握寬帶離網(wǎng)客群特征,隨之而來的信息過載問題和用戶無目的搜索[2],使得數(shù)理統(tǒng)計、數(shù)據(jù)庫分析等方法解決此類問題時,存在高質(zhì)量有價值信息難覓、獲取信息成本高、時間周期長等諸多弊端。

        如何建立有效預(yù)測家庭寬帶用戶離網(wǎng)的數(shù)據(jù)模型?掌握哪些用戶會離網(wǎng),離網(wǎng)傾向有多高?需要用大數(shù)據(jù)技術(shù)協(xié)助解決。

        1? 模型概述

        我們利用已有的多類用戶特征,對寬帶用戶是否離網(wǎng)進行預(yù)判,根據(jù)輸出預(yù)離網(wǎng)明細進行針對挽回。首先,將預(yù)測寬帶離網(wǎng)用戶的應(yīng)用場景轉(zhuǎn)化為有監(jiān)督的二分類問題,再經(jīng)過數(shù)據(jù)準備、特征選擇、模型建立、效果評估、迭代優(yōu)化、成果應(yīng)用等六個階段,構(gòu)建基于lightGBM、XGBoost、RandomForest三類算法的混合模型——家庭寬帶離網(wǎng)用戶預(yù)警模型。

        模型開發(fā)環(huán)境為Python 3.7,通過PyCharm開發(fā)工具實現(xiàn)。以單月全量家庭寬帶用戶數(shù)據(jù)為輸入,包含用戶屬性、投訴情況、寬帶網(wǎng)絡(luò)性能等屬性,并將原始數(shù)據(jù)按區(qū)域類型、帶寬速率、投訴情況劃分為8個客戶群,分別適配lightGBM、XGBoost、RandomForest中的不同算法達到最優(yōu),最終完成家庭寬帶離網(wǎng)用戶預(yù)警模型的構(gòu)建,并輸出對存量寬帶用戶次月的離網(wǎng)預(yù)測。

        2? 模型構(gòu)建

        通過需求分析,將應(yīng)用場景轉(zhuǎn)化為預(yù)測寬帶用戶離網(wǎng)與在網(wǎng)的分類問題[3],調(diào)取單月全量家庭寬帶用戶數(shù)據(jù),包含用戶屬性(如年齡、性別)、業(yè)務(wù)屬性(如寬帶入網(wǎng)時間、用戶套餐、用戶月消費等)、使用習慣(如寬帶上網(wǎng)時長、上網(wǎng)流量等)、投訴情況(如月投訴頻次、投訴類型等)及寬帶網(wǎng)絡(luò)性能(如帶寬、上網(wǎng)平均速率)等數(shù)據(jù);完成多表關(guān)聯(lián)、匯總后,形成包含347個特征的原始數(shù)據(jù),其中數(shù)值型特征307個、類別型特征40個,以“isnt_kd_lost_label”(是否次月寬帶離網(wǎng)用戶)作為類別標簽。

        2.1? 數(shù)據(jù)預(yù)處理及特征選擇

        2.1.1? 特征初篩

        為保證特征的有效性,首先去掉值全為空、對分類無貢獻的5個特征,再去掉數(shù)據(jù)波動小、方差等于0的41個特征,最后去掉存儲內(nèi)容為文本(例如:民?;▓@小區(qū))的32個特征,共涉及78個特征。

        2.1.2? 空值填充

        對于數(shù)值型特征選用“中位數(shù)”填充,對于類別型特征選用“向前、向后”填充。

        2.1.3? 相似度分析

        對于|相關(guān)系數(shù)|≥0.8的特征,認為其屬于強相關(guān),為保證模型的簡化,選擇僅保留其中一個特征,共丟棄124個特征。如圖1所示。

        2.1.4? 數(shù)據(jù)集劃分

        預(yù)留10%的數(shù)據(jù)作為最終測試集(test set),剩余數(shù)據(jù)再按照8:2的比例劃分為訓練集(train set)和驗證集(validation set)用于模型構(gòu)建。

        2.1.5? 正負樣本不均衡處理

        以“離網(wǎng)”作為正類,“在網(wǎng)”作為負類,訓練集原始數(shù)據(jù)正負樣本比為1:142,存在明顯數(shù)據(jù)不均衡,分別采用過采樣、欠采樣兩種方式,按正負比1:2和1:4兩種比例生成用于模型訓練的數(shù)據(jù)集。如表1所示。

        2.2? 場景細分

        2.2.1? 劃分維度

        結(jié)合日常寬帶用戶的投訴處理、故障維護經(jīng)驗,將訓練數(shù)據(jù)按照區(qū)域類型、帶寬速率、投訴情況[4]三個維度劃分為8個客戶群。如圖2所示。

        2.2.2? 細分標準

        區(qū)域類型包括城市、農(nóng)村;帶寬速率包括高帶寬、低帶寬,其中100 MB及以下為低帶寬、200 MB及以上為高帶寬;投訴情況包括有投訴、無投訴。

        2.3? 模型建立

        2.3.1? 基線模型

        對于劃分好的8個客戶群的訓練數(shù)據(jù)集,依次使用lightGBM、XGBoost、RandomForest算法訓練,最終訓練出24個模型,作為基線模型,并從準確率、召回率、F1值對所有基線模型的預(yù)測結(jié)果進行評估。

        2.3.2? 終版模型

        根據(jù)評估指標,選擇召回率為首要評估指標,確定每類客戶群預(yù)測效果最優(yōu)的模型算法,其中,3個客戶群選擇lightGBM算法、3個客戶群選擇XGBoost算法、2個客戶群選擇RandomForest算法,并最終混合組成家庭寬帶離網(wǎng)用戶預(yù)警模型。

        2.4? 效果分析

        2.4.1? 評估指標

        將模型應(yīng)用在8個客戶群的測試數(shù)據(jù)集上,并輸出準確率、召回率、F1值三項評估指標,對終版模型的各客群預(yù)測結(jié)果進行評估,以正類召回率作為首要評估指標[5]。

        2.4.2? 預(yù)測效果

        在8個客戶群的正類召回率中,6個客戶群在90%以上、1個89.34%、1個75%;模型在測試集上的正類召回率為89.64%。如表2所示。

        2.5? 調(diào)優(yōu)

        在模型構(gòu)建過程中,需要根據(jù)模型的評估指標,多次進行迭代優(yōu)化,主要解決以下兩個問題。

        2.5.1? 訓練樣本均衡問題

        原始訓練數(shù)據(jù),正負樣本比例懸殊,同時引入上采樣、下采樣方式,按1:4和1:2比例生產(chǎn)訓練數(shù)據(jù)集,進行探索。通過評估各訓練集生成模型的預(yù)測召回率,最終選定上采樣(1:2)作為最終訓練數(shù)據(jù)。

        2.5.2? 過擬合問題

        通過訓練數(shù)據(jù)集生成的基線模型,準確率、召回率、F1均在98%以上,但在測試集上召回率僅65%,出現(xiàn)了明顯的過擬合、泛化能力不足的情況。通過調(diào)整reg_alpha、reg_lambda、max_depth等參數(shù),加入L1、L2正則化,限制樹的最大深度,降低模型的擬合精度,增強泛化能力。

        2.6? 預(yù)測結(jié)果輸出

        模型最終的預(yù)測結(jié)果以csv文件格式輸出,包含用戶ID、離網(wǎng)概率、是否離網(wǎng)等字段信息。如圖3所示。

        3? 應(yīng)用效果

        3.1? 降低家寬離網(wǎng)率

        通過模型從全市20余萬寬帶用戶中,篩選出0.22萬/月存在離網(wǎng)可能的用戶,供業(yè)務(wù)部門針對用戶進行挽留。

        模型應(yīng)用后,寬帶月離網(wǎng)率持續(xù)改善,從0.76%下降至0.35%,5~6月全省月離網(wǎng)率全省最低;預(yù)計2021年全年家庭寬帶離網(wǎng)率5.66%,較2020年改善2.28 PP。如圖4所示。

        3.2? 挽回用戶創(chuàng)造收益

        模型應(yīng)用前,寬帶離網(wǎng)中位數(shù)1 544戶/月,應(yīng)用后,寬帶離網(wǎng)中位數(shù)896戶/月;挽回寬帶用戶648戶/月,全年預(yù)計挽回7 776戶。

        離網(wǎng)意味著用戶資費降檔或手機銷戶,按每戶20元/月資費變動估算;首月挽回用戶創(chuàng)造收益1.3萬元,全年預(yù)計創(chuàng)造收益101.1萬元。

        4? 結(jié)? 論

        實踐證明,此寬帶用戶離網(wǎng)預(yù)測模型解決了信息過載和用戶無目的搜索的問題,達到降低用戶離網(wǎng)率、為企業(yè)創(chuàng)造收益及降低成本的目的,同時豐富了寬帶用戶運營手段,是通過大數(shù)據(jù)輔助市場經(jīng)營的有效嘗試。

        參考文獻:

        [1] 王遠征,吳峰,夏明鏡,等.電信寬帶用戶離網(wǎng)大數(shù)據(jù)預(yù)測實例 [J].電信技術(shù),2016(10):83-87.

        [2] 云晴.大數(shù)據(jù)實踐重要影響因素 [J].中國電信業(yè),2017(8):57-59.

        [2] 盧光躍,張宏建,閆真光,等.基于特征選擇和SVM的電信客戶離網(wǎng)預(yù)測 [J].西安郵電大學學報,2019,24(2):21-25.

        [3] 陳小鳳.寬帶用戶維系新思路 [J].電子技術(shù)與軟件工程,2018(14):14.

        [4] 谷娜.基于AI和大數(shù)據(jù)的寬帶服務(wù)支撐體系研究 [J].通信與信息技術(shù),2021(4):81-82.

        [5] 云晴.大數(shù)據(jù)實踐重要影響因素 [J].中國電信業(yè),2017(8):57-59.

        作者簡介:張靖(1986—),男,漢族,山西朔州人,中級工程師,碩士研究生,研究方向:神經(jīng)網(wǎng)絡(luò);侯曉晶(1987—),女,漢族,山西省運城人,中級工程師,碩士研究生,研究方向:數(shù)據(jù)挖掘。

        3478500338218

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        亚洲精品国产精品国自产观看| 在线播放av不卡国产日韩| 亚洲sm另类一区二区三区| 国产suv精品一区二区| 国产一区二区欧美丝袜| 极品少妇一区二区三区| 亚洲线精品一区二区三区| 99香蕉国产精品偷在线观看| 精品少妇爆乳无码aⅴ区| 久久久精品久久久国产| 四虎影在永久在线观看| 中文字幕一区二区人妻| 亚洲av在线播放观看| 成人自拍三级在线观看| 国产成人综合美国十次| 无码人妻精品一区二区三区在线 | 国内精品久久久久影院薰衣草| 中文字幕人妻丝袜美腿乱| 日本国产一区二区三区在线观看 | 久久午夜av一区二区三区| 日韩高清在线观看永久| 精品国产一区二区三区亚洲人| 精品国产女主播一区在线观看| 胸大美女又黄的网站| 狠狠躁夜夜躁无码中文字幕| 国产精品性一区二区三区| 国产一区二区三区在线蜜桃| 亚洲午夜无码av毛片久久| 久久久久久国产精品免费网站| 天堂av国产一区二区熟女人妻| 国产一区二区精品久久岳| 国产性猛交╳xxx乱大交| 国产三级黄色的在线观看| 亚洲久悠悠色悠在线播放| 性色av无码久久一区二区三区| 亚洲欧美日韩中文v在线| 国产一区二区三区男人吃奶| 久久精品国产亚洲av影院| 国产精品亚洲欧美天海翼| 一区=区三区国产视频| 国产99视频精品免视看7 |