亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征選擇的存量客戶流失預(yù)警分析

        2022-10-14 13:05:12李瓊陽(yáng)何月華
        許昌學(xué)院學(xué)報(bào) 2022年5期
        關(guān)鍵詞:樣本數(shù)決策樹(shù)建模

        李瓊陽(yáng),何月華

        (許昌學(xué)院 數(shù)理學(xué)院,河南 許昌 461000)

        智能手機(jī)的廣泛應(yīng)用,使得移動(dòng)、聯(lián)通和電信在最近的10年里快速發(fā)展.但隨著攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,運(yùn)營(yíng)商的客戶量增速遲緩,發(fā)卡量穩(wěn)步不前.運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)日益激烈,互相挖取競(jìng)爭(zhēng)對(duì)手客戶的事情時(shí)常發(fā)生,客戶流失已成為電信行業(yè)里亟待解決的主要問(wèn)題,高質(zhì)量客戶的轉(zhuǎn)網(wǎng)往往會(huì)給企業(yè)帶來(lái)非常大的損失.從成本角度來(lái)看,爭(zhēng)取一個(gè)新客戶的運(yùn)營(yíng)成本遠(yuǎn)比維護(hù)高質(zhì)量老客戶的成本高.因此,建立一套具有實(shí)際意義的預(yù)警監(jiān)察系統(tǒng),幫助企業(yè)在客戶流失前做出預(yù)警防范,具有極其重要的作用.

        客戶流失預(yù)警歸根結(jié)底是分類(lèi)問(wèn)題,把現(xiàn)存客戶分為兩類(lèi):即將流失和非流失,本質(zhì)是一個(gè)二分類(lèi)問(wèn)題.對(duì)于二分類(lèi)問(wèn)題有很多種數(shù)據(jù)挖掘技術(shù)可以利用,如邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等.國(guó)內(nèi)外許多學(xué)者都曾利用這些方法進(jìn)行相應(yīng)的研究,楊英英[1]建立了基于組合決策樹(shù)模型的手機(jī)客戶流失預(yù)警系統(tǒng);林濤[2]利用卡方檢驗(yàn)和相關(guān)系數(shù)檢驗(yàn)等方式選擇特征,基于邏輯回歸構(gòu)建寬帶用戶流失預(yù)警模型;彭佳雯[3]建立了基于SOM神經(jīng)網(wǎng)絡(luò)的客戶價(jià)值評(píng)估及流失分析體系;楊榮等[4]建立了基于基尼系數(shù)的決策樹(shù)模型,對(duì)存量客戶進(jìn)行流失預(yù)警;崔亞奇[5]基于C5.0算法進(jìn)行了航空客戶流失分析;戴鳳英[6]先使用Adaboost算法計(jì)算變量特征重要度,選擇重要建模特征,后分別使用Logistic回歸、Adaboost算法和XGBoost算法建立客戶流失預(yù)測(cè)模型;李?lèi)?ài)民[7]使用K-means聚類(lèi)分析和Logistic回歸建立客戶流失預(yù)警模型,深刻研究客戶流失原因,分析各種因素對(duì)客戶流失的影響程度,從而制定有效的客戶挽留策略.在算法選擇上,用得最多的是邏輯回歸和決策樹(shù),主要是因?yàn)槟P涂山忉審?qiáng),算法簡(jiǎn)便.本文主要基于客戶消費(fèi)數(shù)據(jù),利用統(tǒng)計(jì)方法篩選出重要的特征,結(jié)合決策樹(shù)探索構(gòu)建運(yùn)營(yíng)商客戶流失預(yù)警模型.

        1 研究方法

        為構(gòu)建可靠的客戶流失預(yù)警模型,需要選擇對(duì)目標(biāo)變量影響力較強(qiáng)的解釋變量,即選擇建模特征.本文采用信息值作為篩選建模變量的依據(jù),用可解釋性強(qiáng)、計(jì)算方法簡(jiǎn)單、可輸出分類(lèi)標(biāo)簽的決策樹(shù)模型作為建模方法.

        1.1 解釋變量重要性的度量

        信息值(informationofvalue)簡(jiǎn)記為IV,常用于度量建模特征對(duì)目標(biāo)變量的影響強(qiáng)度,是建模過(guò)程中選擇建模特征的一個(gè)非常重要的指標(biāo),它與信息理論中的熵比較類(lèi)似,主要用于二分類(lèi)問(wèn)題,下面介紹信息值的計(jì)算.為表述方便,可將二分類(lèi)問(wèn)題中的目標(biāo)變量用0、1表示,其中流失客戶表示為1,現(xiàn)存客戶表示為0.證據(jù)權(quán)重記為W,表示建模特征取某一個(gè)具體值時(shí)對(duì)研究問(wèn)題中的流失比例造成的影響,譬如當(dāng)建模特征取值為j時(shí)對(duì)流失比例造成的影響記為Wj,其計(jì)算公式為

        (1)

        這里BT表示總樣本中的流失客戶樣本數(shù),GT表示總樣本中的現(xiàn)存客戶樣本數(shù),Bj表示總樣本中該建模特征取值為j時(shí)的流失客戶樣本數(shù),Gj指表示總樣本中建模特征取值為j時(shí)的現(xiàn)存客戶樣本數(shù).

        信息值主要用來(lái)衡量一個(gè)建模特征中包含的信息量,假設(shè)該建模特征有q個(gè)取值,則其對(duì)應(yīng)的信息值計(jì)算方法如下:

        (2)

        從上述公式可知,信息值其實(shí)是建模特征每個(gè)取值所對(duì)應(yīng)的證據(jù)權(quán)重的加權(quán)和式,信息值的大小決定了建模特征對(duì)目標(biāo)變量影響力的強(qiáng)弱.

        根據(jù)IV信息值判定一個(gè)變量對(duì)目標(biāo)變量影響程度的規(guī)則如下:

        ①若IV<0.02,幾乎無(wú)影響,不予考慮;

        ②若0.02≤IV<0.1,說(shuō)明該變量對(duì)目標(biāo)變量有微弱的影響力;

        ③若0.1≤IV<0.3,說(shuō)明該變量對(duì)目標(biāo)變量影響力一般;

        ④若IV≥0.3,說(shuō)明該變量對(duì)目標(biāo)變量有比較強(qiáng)的影響力.

        1.2 決策樹(shù)

        決策樹(shù)是一種常見(jiàn)的機(jī)器學(xué)習(xí)分類(lèi)算法,原理簡(jiǎn)單,對(duì)連續(xù)型變量有很好的處理方法,對(duì)缺失數(shù)據(jù)也不敏感.其具備獨(dú)特的樹(shù)形結(jié)構(gòu),因而能夠高效處理高維、大規(guī)模的樣本數(shù)據(jù).決策樹(shù)建模的核心是如何在樹(shù)形結(jié)構(gòu)劃分時(shí)選擇最優(yōu)的結(jié)點(diǎn)特征.通常,隨著樹(shù)形結(jié)構(gòu)的不斷劃分,決策樹(shù)結(jié)點(diǎn)中的樣本應(yīng)盡可能是同類(lèi)的,即決策樹(shù)結(jié)點(diǎn)的“純度”應(yīng)不斷增大.

        決策樹(shù)建模中常用“信息熵”來(lái)衡量樣本集合的純度.假設(shè)目前樣本集合D中第k類(lèi)樣本占比為pk(k=1,2,…,m),則D的信息熵記為E,計(jì)算公式為

        (3)

        E(D)的值愈小,則表示樣本集合D愈“純”.

        假設(shè)某特征a是離散的,有n個(gè)可能值{a1,a2,…,an},若用特征a來(lái)對(duì)集合D進(jìn)一步劃分,則會(huì)產(chǎn)生n個(gè)分支結(jié)點(diǎn),而且第i個(gè)結(jié)點(diǎn)囊括了D中所有在特征a上取值為ai的樣本,記為Di.可利用(3)式算出Di的信息熵.一般說(shuō)來(lái)n個(gè)分支結(jié)點(diǎn)所含有的樣本數(shù)不相同,故賦給每個(gè)分支結(jié)點(diǎn)一定的權(quán)重:|Di|/|D|,其中,|D|是指樣本集合中的樣本數(shù),|Di|指樣本集合中D中所有在特征a上取值為ai的樣本數(shù).由此可算出利用特征a對(duì)樣本集合D進(jìn)一步劃分得到的“信息增益”,記為G,計(jì)算公式為

        (4)

        通常,信息增益越大,表示利用特征a對(duì)樣本集合D進(jìn)行劃分,使得各分支結(jié)點(diǎn)的純度越高.因此“信息增益”在決策樹(shù)劃分屬性的選擇上有較為廣泛的應(yīng)用.

        2 實(shí)證分析

        2.1 數(shù)據(jù)獲取和預(yù)處理

        數(shù)據(jù)獲取:建模數(shù)據(jù)是某地運(yùn)營(yíng)商提供的客戶消費(fèi)行為數(shù)據(jù),共有100 000個(gè)樣本,樣本數(shù)據(jù)集中有當(dāng)月消費(fèi)額、套餐金額、每月通話時(shí)長(zhǎng)、入網(wǎng)時(shí)長(zhǎng)、流量使用、賬戶余額、是否為流失客戶等共有82個(gè)變量.其中有29 060個(gè)樣本為已流失的樣本,標(biāo)記為“1”,有70 940個(gè)樣本為現(xiàn)存客戶,標(biāo)記為“0”,正負(fù)樣本比例約為1∶ 2.4.

        數(shù)據(jù)預(yù)處理:運(yùn)營(yíng)商提供的數(shù)據(jù)并不能夠直接使用,其中可能存在著缺失值、異常值和重復(fù)樣本等問(wèn)題,數(shù)據(jù)質(zhì)量不高,為了保證建模型效率,往往需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.

        缺失值的處理方法比較多,對(duì)于樣本來(lái)說(shuō),一個(gè)樣本中如果有20%以上的變量值是缺失的,這個(gè)樣本可以直接刪掉.經(jīng)過(guò)計(jì)算,建模數(shù)據(jù)中沒(méi)有樣本的變量缺失值比例達(dá)到20%.

        對(duì)于變量來(lái)說(shuō),當(dāng)此變量只有一種取值時(shí),表明此變量包含的信息量太少,無(wú)研究的必要,可以直接刪掉.當(dāng)變量的缺失值很少時(shí),可以將缺失值直接賦值為0或者是填補(bǔ)一個(gè)合適的值.根據(jù)實(shí)際情況,可以用同一個(gè)常數(shù)、均值、眾數(shù)、中位數(shù)或用某種預(yù)測(cè)的方法預(yù)測(cè)的一個(gè)值[8].經(jīng)過(guò)初步探索,共剔除了3個(gè)無(wú)研究?jī)r(jià)值的變量,剩余的79個(gè)變量中有50個(gè)變量存在缺失值,其中2個(gè)變量缺失比例超過(guò)了70%,故而直接刪除了這兩個(gè)變量,30個(gè)有缺失值的變量缺失比例不超過(guò)5%,18個(gè)有缺失值的變量缺失比例不超過(guò)10%,缺失比例不高,可將缺失值置為0.是否為流失客戶這個(gè)目標(biāo)變量沒(méi)有缺失值.

        在處理異常值時(shí)要根據(jù)情況具體分析,如本月消費(fèi)金額,顯然該變量是非負(fù)的.如果某個(gè)樣本在該變量上的值是負(fù)數(shù),則一定是有問(wèn)題的,可考慮用0來(lái)代替.本文在處理異常值時(shí),用此變量的均值±3倍標(biāo)準(zhǔn)差來(lái)代替.

        經(jīng)過(guò)樣本數(shù)據(jù)主鍵的比較,無(wú)重復(fù)樣本.

        在實(shí)證分析中,使用R、Excel編寫(xiě)代碼和計(jì)算.

        2.2 特征的選擇

        首先計(jì)算每個(gè)解釋變量的信息值,選擇信息值大于0.4的變量進(jìn)入模型.為了保證建模效果,最大限度避免變量之間可能存在的多重共線性,所以繼續(xù)計(jì)算篩選出來(lái)的變量之間的相關(guān)系數(shù),對(duì)于相關(guān)系數(shù)較強(qiáng)的變量,不宜全部進(jìn)入模型,可根據(jù)變量獲取的難度、變量觀測(cè)數(shù)據(jù)的質(zhì)量、對(duì)目標(biāo)變量的影響力等予以刪除.

        最終選出9個(gè)對(duì)目標(biāo)變量(是否為流失用戶)有重要影響的解釋變量,如表1所示

        表1 建模變量的影響力

        2.3 分類(lèi)器的構(gòu)建及對(duì)比

        以是否為流失客戶為被解釋變量,以2.2中篩選出來(lái)的9個(gè)變量為解釋變量,將100 000個(gè)樣本按照7∶ 3的比例隨機(jī)分成訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集中正負(fù)樣本比例大致為1∶ 2.4.訓(xùn)練集中有70 000個(gè)樣本,其中有49 628個(gè)現(xiàn)存客戶樣本,20 372個(gè)流失客戶樣本;測(cè)試集中有30 000個(gè)樣本,其中有21 312個(gè)現(xiàn)存客戶樣本,8 688個(gè)流失客戶樣本.分別構(gòu)建決策樹(shù)和邏輯回歸模型,將二者在訓(xùn)練集和測(cè)試集上的查準(zhǔn)率、查全率進(jìn)行比較,結(jié)果如下:

        表2 建模效果對(duì)比

        表中(0,0)表示為正確識(shí)別現(xiàn)存用戶的樣本數(shù),記為a;(0,1)表示將現(xiàn)存用戶誤判為流失用戶的樣本數(shù),記為b;(1,0)表示將流失用戶誤判為現(xiàn)存用戶的樣本數(shù),記為c;(1,1)表示正確識(shí)別流失的用戶樣本數(shù),記為d;查全率記為r,查準(zhǔn)率記為p,計(jì)算公式如下:

        (5)

        (6)

        結(jié)果表明,經(jīng)由信息值篩選出來(lái)的變量是合理的,是對(duì)目標(biāo)變量影響力較強(qiáng)的變量,不論是邏輯回歸算法還是決策樹(shù)算法,都達(dá)到了80%以上的準(zhǔn)確率.但是,決策樹(shù)算法的建模結(jié)果無(wú)論是查準(zhǔn)率還是查全率,都要優(yōu)于邏輯回歸算法,而且決策樹(shù)模型在測(cè)試集的建模結(jié)果依然穩(wěn)健,表明首先基于信息值篩選出來(lái)重要變量,繼而采用決策樹(shù)算法構(gòu)建客戶流失預(yù)警模型是具有一定的實(shí)用價(jià)值的.

        3 結(jié)論

        攜號(hào)轉(zhuǎn)網(wǎng)政策的施行,使得三家運(yùn)營(yíng)商面臨著客戶流失的困境,精準(zhǔn)快速地識(shí)別出即將轉(zhuǎn)網(wǎng)的用戶,對(duì)于企業(yè)的生存和發(fā)展至關(guān)重要.決策樹(shù)算法是目前在建立客戶流失預(yù)警體系中應(yīng)用最廣泛的分類(lèi)算法之一,本文基于信息值構(gòu)建的分類(lèi)器在識(shí)別流失客戶上效果顯著,具有較高的實(shí)用價(jià)值.可基于上述模型,對(duì)現(xiàn)存客戶進(jìn)行預(yù)測(cè),將現(xiàn)存客戶分為即將流失和不會(huì)流失兩類(lèi),對(duì)于即將流失的用戶精準(zhǔn)施策,不僅能夠保障運(yùn)營(yíng)商的用戶量,還可以為企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展提供強(qiáng)有力的支撐.

        猜你喜歡
        樣本數(shù)決策樹(shù)建模
        勘 誤 聲 明
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        不對(duì)稱(chēng)半橋變換器的建模與仿真
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
        国产精品视频牛仔裤一区| 人人妻人人澡人人爽精品日本 | 老师翘臀高潮流白浆| 狠狠久久精品中文字幕无码| 无人视频在线播放在线观看免费| 青青草原综合久久大伊人精品| 在线播放真实国产乱子伦| 越南女子杂交内射bbwbbw| 国产精品一区2区三区| 一区二区三区免费自拍偷拍视频| 精品国产av一区二区三区四区 | 东京热加勒比日韩精品| 亚洲av高清一区二区三区| 国产一区二区三区在线电影| 国产精品久久久久久麻豆一区| 99日本亚洲黄色三级高清网站| 精品国产一区二区三区a | 91亚洲国产三上悠亚在线播放| 亚洲av日韩av天堂久久不卡| 国产大屁股喷水视频在线观看| 无码av免费一区二区三区| 揄拍成人国产精品视频肥熟女 | 双腿张开被9个男人调教| 亚洲AV伊人久久综合密臀性色| 一本之道加勒比在线观看| 激情人妻另类人妻伦| 性欧美暴力猛交69hd| 99成人无码精品视频| 国产一区二区中文字幕在线观看| 久久精品国产只有精品96| 亚洲人成人影院在线观看| 人妻少妇喷水意淫诱惑| 精品国产一区二区三区不卡在线| 亚洲日韩精品无码专区网站| 亚洲一区二区欧美色妞影院| 久久九九精品国产不卡一区| 无码一区二区三区免费视频| 久久久精品免费观看国产| 国产av一区二区三区在线| 精品国产精品三级精品av网址| 色悠久久久久综合欧美99|