亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多算法融合的移動(dòng)通信客戶流失預(yù)測(cè)模型

        2018-08-21 02:07:56王榮波王亞杰黃孝喜諶志群
        關(guān)鍵詞:基尼決策樹(shù)準(zhǔn)確度

        王榮波,王亞杰,黃孝喜,諶志群

        (杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

        0 引 言

        隨著現(xiàn)代社會(huì)通信技術(shù)的飛速發(fā)展,手機(jī)等移動(dòng)通信設(shè)備幾乎成了人們生活中不可缺少的一部分,面對(duì)中國(guó)13億的巨量人口,一場(chǎng)對(duì)通信用戶的競(jìng)爭(zhēng)在各電信運(yùn)營(yíng)商之間愈演愈烈。隨著競(jìng)爭(zhēng)的白熱化,客戶的流失成了各大電信運(yùn)營(yíng)商面臨的主要困難,同時(shí)挖掘一個(gè)新客戶所投入的成本也越來(lái)越高。有數(shù)據(jù)顯示,成功贏得一個(gè)新客戶比維護(hù)一個(gè)老客戶所付出的代價(jià)要高出5倍左右[1]??蛻舻牧魇б馕吨际袌?chǎng)份額縮小,在競(jìng)爭(zhēng)中處于不利地位,甚至還存在著用戶故意欠費(fèi)后離網(wǎng)的異常行為等,這些都大大增加了運(yùn)營(yíng)商的運(yùn)營(yíng)成本。因此,在發(fā)展新用戶的同時(shí),維護(hù)老用戶不離網(wǎng)成了各大運(yùn)營(yíng)商在市場(chǎng)爭(zhēng)奪戰(zhàn)中的核心競(jìng)爭(zhēng)力,同時(shí),對(duì)本網(wǎng)用戶是否即將離網(wǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè)有助于運(yùn)營(yíng)商及時(shí)有針對(duì)性地調(diào)整營(yíng)銷策略來(lái)挽留用戶。所以,用戶流失預(yù)測(cè)模型對(duì)電信運(yùn)營(yíng)商維護(hù)自身利益有著非凡的意義。

        傳統(tǒng)的預(yù)測(cè)模型主要有決策樹(shù)[2-4]、Logistic回歸[5]、貝葉斯分類器[6-7]和聚類[8-9]。比較智能的方法有神經(jīng)網(wǎng)絡(luò)[10-11]、自組織映射[12]、進(jìn)化學(xué)習(xí)算法[13]、支持向量機(jī)[14]等。然而并沒(méi)有一種模型適用于所有情況,每種模型都有各自的優(yōu)點(diǎn)與不足,對(duì)于同一個(gè)數(shù)據(jù)集,不同的預(yù)測(cè)模型可能會(huì)得到不同的預(yù)測(cè)結(jié)果。目前國(guó)內(nèi)的移動(dòng)通信運(yùn)營(yíng)商擁有極其強(qiáng)大的數(shù)據(jù)存儲(chǔ)和查詢能力,但其使用的預(yù)測(cè)方法仍是基于單一算法預(yù)測(cè)的模型。為進(jìn)一步提高客戶流失預(yù)測(cè)的正確率,針對(duì)決策樹(shù)、Logistic回歸和人工神經(jīng)網(wǎng)絡(luò)這三種算法模型的特點(diǎn)和數(shù)據(jù)倉(cāng)庫(kù)[15]提供的大量信息,文中嘗試將這三種模型進(jìn)行合理的結(jié)合來(lái)構(gòu)造優(yōu)于它們單獨(dú)預(yù)測(cè)效果的模型,并利用構(gòu)造出的模型在該移動(dòng)通信企業(yè)提供的數(shù)據(jù)集中進(jìn)行預(yù)測(cè),驗(yàn)證其有效性。

        1 決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)

        1.1 決策樹(shù)

        決策樹(shù)是分類與回歸的基本方法之一,決策樹(shù)模型呈樹(shù)狀結(jié)構(gòu),在分類問(wèn)題中,基于實(shí)例各個(gè)特征的分類過(guò)程可以看作是一個(gè)if-then規(guī)則集,也可以看作是定義在類空間和特征空間上的條件概率分布。它的主要特點(diǎn)是模型具有可讀性并且分類的速度快。學(xué)習(xí)時(shí),該模型是根據(jù)訓(xùn)練數(shù)據(jù)集和最小損失函數(shù)來(lái)建立的,預(yù)測(cè)時(shí),訓(xùn)練好的模型將對(duì)新數(shù)據(jù)進(jìn)行分類。決策樹(shù)學(xué)習(xí)通常由三步組成:特征的選擇、決策樹(shù)的生成和決策樹(shù)的剪枝。這里,通過(guò)基尼指數(shù)[16-17]來(lái)進(jìn)行特征的選擇,通過(guò)CART生成算法[18]來(lái)進(jìn)行決策樹(shù)的生成。

        1.1.1 基尼指數(shù)

        基尼指數(shù)是用來(lái)描述一個(gè)數(shù)據(jù)集的不確定性,基尼指數(shù)越大,數(shù)據(jù)集的不確定性也就越大??蛻袅魇У念A(yù)測(cè)問(wèn)題屬于二分類問(wèn)題,對(duì)于二分類問(wèn)題,若整個(gè)數(shù)據(jù)集D中樣本屬于正類的概率為p,則該樣本集的基尼指數(shù)為:

        Gini(D)=2p(1-p)

        (1)

        在該數(shù)據(jù)集中,根據(jù)特征A是否取某個(gè)值將其劃分為兩個(gè)獨(dú)立的數(shù)據(jù)集D1和D2,則該數(shù)據(jù)集D基于特征A的基尼指數(shù)為:

        (2)

        1.1.2 CART生成算法

        CART生成算法的主要思想是通過(guò)訓(xùn)練集生成盡可能大的決策樹(shù),之后利用驗(yàn)證數(shù)據(jù)集通過(guò)最小化損失函數(shù)的方法來(lái)修剪出最優(yōu)子樹(shù),其算法步驟如下:

        Step1:設(shè)節(jié)點(diǎn)的數(shù)據(jù)集為D,則對(duì)數(shù)據(jù)集D中的每個(gè)特征A的每個(gè)取值a,計(jì)算所有的基尼指數(shù)Gini(D,A)。

        Step2:選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的值,根據(jù)該特征是否取這個(gè)值從數(shù)據(jù)集D生成兩個(gè)子節(jié)點(diǎn)。

        Step3:對(duì)這兩個(gè)子節(jié)點(diǎn)遞歸地調(diào)用Step1和Step2,直到滿足停止條件。

        Step4:生成CART決策樹(shù)。

        1.1.3 CART剪枝算法

        CART剪枝算法從“完全”的決策樹(shù)的底部剪去一些子樹(shù),使原來(lái)的“完全”決策樹(shù)變得簡(jiǎn)單,修剪后的決策樹(shù)具有更好的泛化能力。該修剪過(guò)程主要分為兩步:從“完全”決策樹(shù)T0的底部不斷進(jìn)行修剪,直到T0根節(jié)點(diǎn),該過(guò)程形成若干棵子樹(shù),組成序列{T0,T1,…,Tn};在獨(dú)立的驗(yàn)證數(shù)據(jù)集上通過(guò)交叉驗(yàn)證法選擇最優(yōu)子樹(shù)。

        1.2 Logistic回歸

        對(duì)于二分類問(wèn)題,Logistic回歸是非常典型且應(yīng)用極為廣泛的模型,其本質(zhì)上是利用線性回歸模型[19]來(lái)逼近真實(shí)結(jié)果標(biāo)記幾率的自然對(duì)數(shù)。這種分類方法具有很多優(yōu)點(diǎn),例如可以直接對(duì)分類問(wèn)題進(jìn)行建模,而不需要事先的分布假設(shè),從而避免了不準(zhǔn)確的分布假設(shè)帶來(lái)的問(wèn)題。這種方式不僅僅是預(yù)測(cè)“類別”,而是預(yù)測(cè)所得類別的概率,這對(duì)許多使用概率進(jìn)行決策的任務(wù)是非常有意義的。此外,Logistic回歸采用的Sigmoid函數(shù)是具有任意階導(dǎo)數(shù)的凸函數(shù),具有良好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多優(yōu)化算法都可直接用于求解最優(yōu)解[20]。假設(shè)輸出的正類標(biāo)記為“1”,輸出的負(fù)類標(biāo)記為“0”,則

        (3)

        其中,w為輸入的權(quán)重向量;x為輸入的特征向量;b為偏置值。

        1.3 神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)是一種基于人的大腦進(jìn)行仿真的數(shù)據(jù)分析模型,可以對(duì)海量數(shù)據(jù)進(jìn)行并行處理和計(jì)算,用來(lái)表示認(rèn)知、決策等智能控制行。典型的神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層,由若干神經(jīng)元相互連接,如圖1所示。BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出為:

        H=fi(∑wijxi+θj)

        (4)

        其中,wij為權(quán)重;fi為傳輸函數(shù);θj為偏置值;xi輸入。

        BP神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督的方式進(jìn)行學(xué)習(xí),能夠?qū)θ我鈴?fù)雜的非線性關(guān)系進(jìn)行擬合,通過(guò)最小化輸出誤差來(lái)逐層修正各個(gè)權(quán)值和偏置值,學(xué)習(xí)過(guò)程如圖2所示。

        圖2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程

        2 組合預(yù)測(cè)模型的構(gòu)建

        由于單一的算法模型可能對(duì)不同的數(shù)據(jù)集預(yù)測(cè)效果變化較大,有時(shí)還存在著不能容忍的劣勢(shì),現(xiàn)考慮將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行線性組合,以對(duì)三種單一算法模型相互取長(zhǎng)補(bǔ)短。為確定最佳權(quán)值系數(shù),構(gòu)造拉格朗日函數(shù)[21]作為評(píng)價(jià)指標(biāo)。

        (β1h1i+β2h2i+β3h3i-h3i)2+

        λ(β1h1i+β2h2i+β3h3i-1)]

        (5)

        其中,N為訓(xùn)練樣本集中的樣本總數(shù);β1,β2,β3分別為組合模型中決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)值系數(shù);h1i,h2i,h3i分別為決策樹(shù)模型、Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)第i個(gè)樣本的預(yù)測(cè)結(jié)果;λ為拉格朗日算子。

        由于L(β1,β2,β3)為二次凸函數(shù),故有唯一的極值,即最小值,令:

        (6)

        (7)

        基于多算法組合的移動(dòng)通信客戶流失預(yù)測(cè)流程如圖3所示。

        圖3 組合模型預(yù)測(cè)流程

        具體的組合模型預(yù)測(cè)過(guò)程如下:

        Step1:將預(yù)處理后的數(shù)據(jù)集進(jìn)行劃分,80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),剩余的20%作為測(cè)試集數(shù)據(jù)。

        Step2:使用決策樹(shù)、Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)集上進(jìn)行建模,其中,決策樹(shù)的特征選擇使用基尼指數(shù),決策樹(shù)的生成使用CART生成算法,最后對(duì)生成的決策樹(shù)進(jìn)行剪枝。

        Step3:使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)結(jié)果分析。

        Step4:將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型得出的預(yù)測(cè)結(jié)果帶入構(gòu)造好的拉格朗日函數(shù),得出組合模型中各單一模型的權(quán)值系數(shù),并構(gòu)建組合模型。

        Step5:根據(jù)構(gòu)建的組合模型得出預(yù)測(cè)結(jié)果。

        3 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)中的數(shù)據(jù)來(lái)自浙江省杭州市某移動(dòng)通信公司數(shù)據(jù)倉(cāng)庫(kù),通過(guò)HQL查詢得出20 000條客戶個(gè)人信息和近兩個(gè)月歷史消費(fèi)情況的記錄,其中包含某個(gè)客戶是否離網(wǎng)的標(biāo)記。對(duì)原始數(shù)據(jù)進(jìn)行清洗,去除異常數(shù)據(jù),如寬帶號(hào)碼、手機(jī)號(hào)碼不是11位,手機(jī)號(hào)碼不是以“1”開(kāi)頭,手機(jī)imei號(hào)碼為“-99”(異常標(biāo)記)等異常號(hào)碼,并進(jìn)行特征選擇,最后選取該數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,余下的20%作為測(cè)試集,使用決策樹(shù)模型、Logistic回歸模型、BP網(wǎng)絡(luò)模型和組合模型分別在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí),利用訓(xùn)練好的模型在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè),結(jié)果如表1所示(由于數(shù)據(jù)量太大的緣故,這里僅列出了10條數(shù)據(jù))。

        表1 三種單一模型與組合模型的客戶流失預(yù)測(cè)結(jié)果

        為了進(jìn)一步比較3種單一模型和組合模型的預(yù)測(cè)效果,對(duì)表1的測(cè)試預(yù)測(cè)結(jié)果進(jìn)行了詳細(xì)的統(tǒng)計(jì),結(jié)果表明:決策樹(shù)模型的準(zhǔn)確度為88.13%,Logistic回歸模型的準(zhǔn)確度為85.69%,BP神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度為87.90%,組合模型的準(zhǔn)確度為93.06%,如圖4所示。

        圖4 各預(yù)測(cè)模型準(zhǔn)確度對(duì)比

        可以看出,組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)勢(shì),預(yù)測(cè)效果要優(yōu)于任意一個(gè)單一預(yù)測(cè)模型,大大提高了預(yù)測(cè)客戶流失的準(zhǔn)確度,高達(dá)93.06%,與單一預(yù)測(cè)模型的效果相比,準(zhǔn)確度提高了近6%。

        4 結(jié)束語(yǔ)

        在移動(dòng)通信企業(yè)中,客戶流失對(duì)其經(jīng)濟(jì)收益有著非常重要的影響,并且在運(yùn)營(yíng)過(guò)程中是常常出現(xiàn)的問(wèn)題,只有有效地控制客戶流失才能立于不敗之地。由于企業(yè)對(duì)這部分客戶制定策略的盲目性,使移動(dòng)運(yùn)營(yíng)企業(yè)在營(yíng)銷過(guò)程中遭受了不可忽視的損失。根據(jù)決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型各自的特點(diǎn),文中提出的組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)點(diǎn),通過(guò)通信企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中用戶的信息和消費(fèi)特征等海量數(shù)據(jù)進(jìn)行學(xué)習(xí),使預(yù)測(cè)的準(zhǔn)確度得到了一定程度的提高。移動(dòng)通信企業(yè)可根據(jù)組合模型得出的預(yù)測(cè)結(jié)果采取相應(yīng)的營(yíng)銷手段來(lái)減少因客戶流失而造成的損失。組合模型更高的準(zhǔn)確度使運(yùn)營(yíng)企業(yè)在制定營(yíng)銷策略時(shí)更具有針對(duì)性。

        猜你喜歡
        基尼決策樹(shù)準(zhǔn)確度
        Wimbledon Tennis
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        卷入選戰(zhàn)的布基尼
        強(qiáng)制“脫衫”
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        動(dòng)態(tài)汽車衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        高爐重量布料準(zhǔn)確度的提高
        天津冶金(2014年4期)2014-02-28 16:52:58
        性色做爰片在线观看ww| 91国产视频自拍在线观看| 中文字幕一区二区三区6| 亚洲中文字幕人成乱码在线| 欧美老妇牲交videos| 无遮挡呻吟娇喘视频免费播放 | 午夜免费观看国产视频| 无码国产精品一区二区免费式芒果| 伊人久久大香线蕉av网禁呦| 性夜夜春夜夜爽aa片a| 中文字幕一区二区三区在线视频| 国产黄色三级三级三级看三级| av日韩高清一区二区| 少妇愉情理伦片| 国产99久久亚洲综合精品| 欧洲国产成人精品91铁牛tv| 中文字幕一区二区三区亚洲| 中国一级黄色片久久久| 亚洲中文字幕无码中文字在线| 99久久国语露脸精品国产| 国产精品国产三级国产在线观| 蜜臀av一区二区三区| 内射中出日韩无国产剧情| 中国人妻被两个老外三p| 国产伦精品一区二区三区四区| 亚洲免费看三级黄网站| 国产精品国产三级野外国产| 欧美成人猛交69| 亚洲不卡av不卡一区二区| 男人的av天堂狠狠操| 精品人妻久久一日二个| 亚洲午夜久久久久久久久久| 亚洲男人天堂| 亚洲日本精品一区久久精品| 男性av天堂一区二区| 国产精品爽爽久久久久久竹菊| 国自产偷精品不卡在线| 无码精品人妻一区二区三区98| h视频在线免费观看视频| 日本在线 | 中文| 国产香蕉97碰碰视频va碰碰看 |