亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹的存量客戶流失預警模型*

        2019-10-16 10:41:06趙娟娟賈郭軍
        關(guān)鍵詞:基尼結(jié)點存量

        楊 榮 趙娟娟 賈郭軍

        (山西師范大學數(shù)學與計算機科學學院,山西 臨汾 044600)

        0 引 言

        隨著全業(yè)務運營,各運營商之間的競爭日趨激烈,電信行業(yè)的傳統(tǒng)業(yè)務面臨巨大的壓力.因此,各運營商都加大了在存量市場的爭奪,對于不同業(yè)務的后進入者,市場競爭往往選擇跟隨策略,競爭目標多為存量市場,導致客戶在各運營商之間的流轉(zhuǎn)加快,各運營商拆機率均居高不下.與此同時,存量流失造成用戶發(fā)展效率低,資源消耗嚴重,損害了企業(yè)價值,存量下滑成為公司發(fā)展的重要風險.因此,實現(xiàn)存量用戶基本穩(wěn)定、提升客戶忠誠度,提升客戶價值已成為各大運營商的經(jīng)營理念之一.有效降低存量客戶的流失率才能固其根本.

        為加強針對存量經(jīng)營工作的大數(shù)據(jù)支撐能力,形成以客戶為中心的管理運營模式,就需以存量客戶為切入點,并建立存量客戶流失預警模型,通過加強對高流失概率的用戶進行提前預警維系,以達到存量客戶保有率的提升效果.

        1 國內(nèi)外研究現(xiàn)狀

        客戶流失預警模型的應用研究如今已非常廣泛,常用算法包含神經(jīng)網(wǎng)絡(luò)、決策樹、隨機森林等.李愛民[1]采用K-means聚類分析和Logistic回歸建立客戶流失預警模型相結(jié)合的算法來分析各種因素對客戶流失的影響程度.周靜等[2]構(gòu)建了計量經(jīng)濟模型,并研究了公司保留策略與延長客戶生命周期之間的相關(guān)性;陳紀銘[3]使用樸素貝葉斯算法建立了學員流失預警模型,但該模型假設(shè)屬性之間相互獨立,但在實際使用中屬性個數(shù)比較多或者屬性之間相關(guān)性較大時效果較差.林明輝[4]利用神經(jīng)網(wǎng)絡(luò)的自適應算法,將代表離網(wǎng)用戶行為特征的45個指標進行樣本訓練,最終得到客戶流失行為傾向的判斷模型;Huang和He[5]提出了優(yōu)化PSO算法和BP神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的方法來建立企業(yè)客戶流失預警模型,但神經(jīng)網(wǎng)絡(luò)模型需要大量的參數(shù),且黑盒操作,不能觀察之間的學習過程,輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和可接受程度;同時大多數(shù)公司都使用建模工具來直接建立流失預警機制,準確率仍然較低,本文使用python環(huán)境進行建模,并使用決策樹模型,并對模型進行優(yōu)化,使模型算法結(jié)果的預測準確率更高.

        2 相關(guān)算法介紹及算法實現(xiàn)

        2.1 CART算法概述

        本文使用的是決策樹中的CART算法,決策樹學習一般分為三個步驟,即特征的選擇、決策樹的建立、決策樹的剪枝;該算法是一種二叉樹形式的決策樹算法,其中,二叉樹算法只把每個非葉節(jié)點引申為兩個分支,首先進行二元分割,將樣本數(shù)據(jù)劃分成兩個子集,其次對子集再分割,自頂向下不斷遞歸生成樹,直至分支差異結(jié)果不再顯著下降,即分支沒有意義,決策樹建立完成[6].因此確定分枝標準是CART算法的核心,從眾多分組變量中找到最佳分割點,本文通過 Gini 指標來衡量數(shù)據(jù)純度.

        2.2 Gini系數(shù)

        假設(shè)樣本數(shù)據(jù)分為K類,其中樣本點屬于第k類的概率為pk,則概率分布的基尼指數(shù)定義為:

        (1)

        對于二分類問題,若樣本點屬于第1個類的概率是p,則概率分布的基尼指數(shù)為

        Gini(p)=2p(1-p).

        對于給定的樣本集合D,其基尼指數(shù)為

        (2)

        這里,Ck是D中屬于第k類的樣本子集,K是類的個數(shù).

        如果樣本集合D根據(jù)特征A是否取某一可能值a被分割為D1和D2兩部分,即

        D1={(x,y)∈D|A(x)=a},D2=1-D1.

        (3)

        則在特征A的條件下,集合D的基尼指數(shù)定義為

        (4)

        基尼系數(shù)Gini(D)表示集合D的不確定性,基尼指數(shù)Gini(D,A)表示經(jīng)A=a分割后集合D的不確定性,基尼指數(shù)越大,樣本集合的不確定性也就越大.

        2.3 決策樹建立

        輸入:訓練數(shù)據(jù)集D,停止計算的條件

        輸出:CART決策樹

        根據(jù)訓練數(shù)據(jù)集,從根結(jié)點開始,遞歸地對每個結(jié)點進行以下操作,構(gòu)建二叉決策樹:

        (1)設(shè)結(jié)點的訓練數(shù)據(jù)集為D,計算現(xiàn)有特征對該數(shù)據(jù)集的基尼指數(shù).此時,對每一特征A,對其可能取的每個值a,根據(jù)樣本點對A=a的測試為“是”或“否”分割為D1和D2兩部分,利用式(4)計算A=a時的基尼指數(shù).

        (2)在所有可能的特征A以及他們所有可能的切分點a中,選擇基尼系數(shù)最小的特征及其對應的切分點作為最優(yōu)特征與最優(yōu)切分點.依最優(yōu)特征與最優(yōu)切分點,從現(xiàn)結(jié)點生成兩個子結(jié)點,將訓練數(shù)據(jù)集依特征分配到兩個子結(jié)點中去.

        (3)對兩個子結(jié)點遞歸地調(diào)用(1)和(2),直至滿足停止條件

        (4)生成CART決策樹

        2.4 決策樹剪枝

        算法過程如下:

        輸入: CART算法生成的決策樹T0

        輸出: 最優(yōu)決策樹Tα

        1)初始化αmin=∞, 最優(yōu)子樹集合ω={T};

        3)得到所有節(jié)點的α值的集合M;

        5)最優(yōu)子樹集合ω=ω∪Tkω,M=M-{αk};

        6)如果M不為空,則回到步驟4.否則就已經(jīng)得到了所有的可選最優(yōu)子樹集合ω;

        7)采用交叉驗證在ω中選擇最優(yōu)子樹Tα.

        3 實驗過程

        3.1 數(shù)據(jù)處理及分析

        (1)數(shù)據(jù)定義

        數(shù)據(jù)表中共包含十個字段,如表1所示,表中部分數(shù)據(jù)如表2所示:

        (2)缺失值處理及變量篩選

        處理過程中未發(fā)現(xiàn)缺失值且未出現(xiàn)重復ID,因此可直接進行變量篩選.

        分析發(fā)現(xiàn)已流失客戶的使用月數(shù)均小于25,因此判定該字段并不關(guān)鍵,選擇以下字段作為特征變量extra_time,extra_flow,pack_type, pack_change, asso_pur、contract以及group_use,并將連續(xù)變量轉(zhuǎn)換為二分類變量,將沒有超出套餐的通話時間和流量記為0,超出的記為1.轉(zhuǎn)換后部分數(shù)據(jù)如表3所示:

        表1 相關(guān)字段及定義

        表2 表中部分數(shù)據(jù)展示

        表3 表中部分數(shù)據(jù)展示(處理后)

        (3)相關(guān)性分析

        通過相關(guān)性矩陣熱力圖觀察各變量之間的相關(guān)性,可發(fā)現(xiàn)各屬性間相關(guān)性較低.

        圖1 相關(guān)性矩陣熱力圖

        3.2 建模過程

        (1)建立自變量x,因變量y的二維數(shù)組;

        (2)以7∶3的比例拆分訓練集及測試集;

        (3)使用CART算法建立決策樹模型并擬合訓練,基于Gini系數(shù)進行分類,設(shè)置樹的最大深度為6,區(qū)分一個內(nèi)部節(jié)點需要的最少的樣本數(shù)為9,一個葉節(jié)點所需要的最小樣本數(shù)為5;

        (4)模型評分值對比

        針對測試集和訓練集分別進行評分,如表4,得知測試集和訓練集評分值較接近,模型效果較好.

        表4 評分值對比

        3.3 模型優(yōu)化

        對于決策樹來說,可調(diào)參數(shù)有

        max_depth:限定了決策樹的最大深度,可有效防止過擬合;

        min_samples_leaf:限定了葉子節(jié)點包含的最小樣本數(shù),該屬性可有效防止數(shù)據(jù)碎片問題;

        min_samples_split:分裂所需最小樣本數(shù);

        min_impurity_split:該值限制了決策樹的增長,若某節(jié)點的不純度(基尼系數(shù),信息增益,均方差,絕對差)小于這個閾值,則該節(jié)點不再生成子節(jié)點.

        圖2 模型參數(shù)與評分效果的關(guān)系

        由于本文訓練數(shù)據(jù)有限,易出現(xiàn)過擬合現(xiàn)象,故期望能通過調(diào)整參數(shù)來有效防止過擬合.本文選擇對max_depth進行調(diào)整,緩慢增加深度來對模型進行訓練,并計算評分數(shù)據(jù),利用交叉驗證法找出評分最高的索引.同時輸出模型參數(shù)與評分效果的關(guān)系圖及最優(yōu)參數(shù)值,如圖2所示,優(yōu)化后評分值對比如表5所示.

        表5 評分值對比(調(diào)參后)

        3.4 模型評估及可視化結(jié)果

        輸出決策樹模型評價結(jié)果,如表6所示.可得出建立的預測模型的精確率為0.86,說明在預測為流失的用戶中,實際流失的用戶占86%;同時召回率也為0.86,說明實際為流失的用戶中,預測為流失的占86%,F(xiàn)1值為0.86.使用邏輯回歸算法預測模型精確率為0.83,預測精度較低,且邏輯回歸算法易欠擬合,對比可得出決策樹模型算法的綜合效果較優(yōu).輸出決策樹模型的roc曲線圖,如圖3所示,可得auc值為0.73,模型還有待優(yōu)化.同時輸出決策樹結(jié)構(gòu)圖,如圖4所示,部分決策樹詳情可見圖5.

        表6 模型評價結(jié)果對比

        圖3 roc曲線圖

        圖4 決策樹結(jié)構(gòu)圖

        圖5 決策樹部分分支展示

        4 總 結(jié)

        本文通過決策樹中的CART算法成功預測到即將流失的客戶,預測成功率達到0.86,與邏輯回歸算法相較更優(yōu),且AUC達0.73,證明模型效果較好;但實際應用中要盡可能的找全部實際將流失的用戶,即實際流失的用戶中,模型能準確預測到的客戶規(guī)模.

        在今后預測模型的優(yōu)化上,還有很多的改進之處,如調(diào)整決策樹的參數(shù),特征的精細化篩選,或采用隨機森林、遺傳算法多算法相結(jié)合的方式進行模型評估,并分析用戶分類、生命周期以及各變量之間的交叉性和相關(guān)性等等,以達到更好的預測效果.

        猜你喜歡
        基尼結(jié)點存量
        Wimbledon Tennis
        存量時代下,房企如何把握舊改成本?
        Ladyzhenskaya流體力學方程組的確定模與確定結(jié)點個數(shù)估計
        吉林存量收費公路的PPP改造
        中國公路(2017年5期)2017-06-01 12:10:10
        卷入選戰(zhàn)的布基尼
        強制“脫衫”
        腐敗存量
        東西南北(2015年9期)2015-09-10 07:22:44
        盤活存量與擴大增量齊步走
        基于Raspberry PI為結(jié)點的天氣云測量網(wǎng)絡(luò)實現(xiàn)
        基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話穩(wěn)定性研究與設(shè)計
        国产熟女露脸91麻豆| 国产精品黄色片在线观看| 国产乱人视频在线看| 国产精品,在线点播影院| 国语自产啪在线观看对白| 手机免费在线观看av网址| 免费看黄a级毛片| 九九免费在线视频| 国产亚洲精选美女久久久久| 亚洲av一区二区三区网站| 91精品国产色综合久久 | 2021久久精品国产99国产精品| 国产香蕉97碰碰视频va碰碰看| 99re这里只有热视频| 天堂最新在线官网av| 中文字幕亚洲乱码熟女1区2区| 成人一区二区三区激情视频| 中国一级黄色片久久久| 亚洲精品乱码久久久久久中文字幕| 国内精品人妻无码久久久影院导航 | 亚洲熟妇一区二区蜜桃在线观看| 中文字幕在线亚洲三区| 亚洲av综合av成人小说| 中文字幕精品一二三四五六七八| 在线中文字幕有码中文| 亚洲精品aⅴ无码精品丝袜足| 国产成人高清视频在线观看免费| 亚洲天堂精品一区入口| 亚洲综合激情五月丁香六月| 国产午夜福利不卡在线观看视频| 天堂av在线播放观看| 色欲一区二区三区精品a片| 狠狠色婷婷久久综合频道日韩| 国产在线观看入口| 日韩中文字幕乱码在线| 日本一区二区在线高清| 免费又黄又爽又色的视频| 最近中文字幕视频完整版在线看| 波多野结衣一区二区三区视频| 亚洲精品综合中文字幕组合| 青青青爽在线视频观看|