亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多算法融合的移動(dòng)通信客戶流失預(yù)測(cè)模型

2018-08-21 02:07:56王榮波王亞杰黃孝喜諶志群

計(jì)算機(jī)技術(shù)與發(fā)展 2018年8期

王榮波，王亞杰，黃孝喜，諶志群

(杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院，浙江杭州 310018)

0 引言

隨著現(xiàn)代社會(huì)通信技術(shù)的飛速發(fā)展，手機(jī)等移動(dòng)通信設(shè)備幾乎成了人們生活中不可缺少的一部分，面對(duì)中國(guó)13億的巨量人口，一場(chǎng)對(duì)通信用戶的競(jìng)爭(zhēng)在各電信運(yùn)營(yíng)商之間愈演愈烈。隨著競(jìng)爭(zhēng)的白熱化，客戶的流失成了各大電信運(yùn)營(yíng)商面臨的主要困難，同時(shí)挖掘一個(gè)新客戶所投入的成本也越來(lái)越高。有數(shù)據(jù)顯示，成功贏得一個(gè)新客戶比維護(hù)一個(gè)老客戶所付出的代價(jià)要高出5倍左右[1]?？蛻舻牧魇б馕吨际袌?chǎng)份額縮小，在競(jìng)爭(zhēng)中處于不利地位，甚至還存在著用戶故意欠費(fèi)后離網(wǎng)的異常行為等，這些都大大增加了運(yùn)營(yíng)商的運(yùn)營(yíng)成本。因此，在發(fā)展新用戶的同時(shí)，維護(hù)老用戶不離網(wǎng)成了各大運(yùn)營(yíng)商在市場(chǎng)爭(zhēng)奪戰(zhàn)中的核心競(jìng)爭(zhēng)力，同時(shí)，對(duì)本網(wǎng)用戶是否即將離網(wǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè)有助于運(yùn)營(yíng)商及時(shí)有針對(duì)性地調(diào)整營(yíng)銷策略來(lái)挽留用戶。所以，用戶流失預(yù)測(cè)模型對(duì)電信運(yùn)營(yíng)商維護(hù)自身利益有著非凡的意義。

傳統(tǒng)的預(yù)測(cè)模型主要有決策樹(shù)[2-4]、Logistic回歸[5]、貝葉斯分類器[6-7]和聚類[8-9]。比較智能的方法有神經(jīng)網(wǎng)絡(luò)[10-11]、自組織映射[12]、進(jìn)化學(xué)習(xí)算法[13]、支持向量機(jī)[14]等。然而并沒(méi)有一種模型適用于所有情況，每種模型都有各自的優(yōu)點(diǎn)與不足，對(duì)于同一個(gè)數(shù)據(jù)集，不同的預(yù)測(cè)模型可能會(huì)得到不同的預(yù)測(cè)結(jié)果。目前國(guó)內(nèi)的移動(dòng)通信運(yùn)營(yíng)商擁有極其強(qiáng)大的數(shù)據(jù)存儲(chǔ)和查詢能力，但其使用的預(yù)測(cè)方法仍是基于單一算法預(yù)測(cè)的模型。為進(jìn)一步提高客戶流失預(yù)測(cè)的正確率，針對(duì)決策樹(shù)、Logistic回歸和人工神經(jīng)網(wǎng)絡(luò)這三種算法模型的特點(diǎn)和數(shù)據(jù)倉(cāng)庫(kù)[15]提供的大量信息，文中嘗試將這三種模型進(jìn)行合理的結(jié)合來(lái)構(gòu)造優(yōu)于它們單獨(dú)預(yù)測(cè)效果的模型，并利用構(gòu)造出的模型在該移動(dòng)通信企業(yè)提供的數(shù)據(jù)集中進(jìn)行預(yù)測(cè)，驗(yàn)證其有效性。

1 決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)

1.1 決策樹(shù)

決策樹(shù)是分類與回歸的基本方法之一，決策樹(shù)模型呈樹(shù)狀結(jié)構(gòu)，在分類問(wèn)題中，基于實(shí)例各個(gè)特征的分類過(guò)程可以看作是一個(gè)if-then規(guī)則集，也可以看作是定義在類空間和特征空間上的條件概率分布。它的主要特點(diǎn)是模型具有可讀性并且分類的速度快。學(xué)習(xí)時(shí)，該模型是根據(jù)訓(xùn)練數(shù)據(jù)集和最小損失函數(shù)來(lái)建立的，預(yù)測(cè)時(shí)，訓(xùn)練好的模型將對(duì)新數(shù)據(jù)進(jìn)行分類。決策樹(shù)學(xué)習(xí)通常由三步組成：特征的選擇、決策樹(shù)的生成和決策樹(shù)的剪枝。這里，通過(guò)基尼指數(shù)[16-17]來(lái)進(jìn)行特征的選擇，通過(guò)CART生成算法[18]來(lái)進(jìn)行決策樹(shù)的生成。

1.1.1 基尼指數(shù)

基尼指數(shù)是用來(lái)描述一個(gè)數(shù)據(jù)集的不確定性，基尼指數(shù)越大，數(shù)據(jù)集的不確定性也就越大?？蛻袅魇У念A(yù)測(cè)問(wèn)題屬于二分類問(wèn)題，對(duì)于二分類問(wèn)題，若整個(gè)數(shù)據(jù)集D中樣本屬于正類的概率為p，則該樣本集的基尼指數(shù)為：

Gini(D)=2p(1-p)

(1)

在該數(shù)據(jù)集中，根據(jù)特征A是否取某個(gè)值將其劃分為兩個(gè)獨(dú)立的數(shù)據(jù)集D1和D2，則該數(shù)據(jù)集D基于特征A的基尼指數(shù)為：

(2)

1.1.2 CART生成算法

CART生成算法的主要思想是通過(guò)訓(xùn)練集生成盡可能大的決策樹(shù)，之后利用驗(yàn)證數(shù)據(jù)集通過(guò)最小化損失函數(shù)的方法來(lái)修剪出最優(yōu)子樹(shù)，其算法步驟如下：

Step1：設(shè)節(jié)點(diǎn)的數(shù)據(jù)集為D，則對(duì)數(shù)據(jù)集D中的每個(gè)特征A的每個(gè)取值a，計(jì)算所有的基尼指數(shù)Gini(D,A)。

Step2：選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的值，根據(jù)該特征是否取這個(gè)值從數(shù)據(jù)集D生成兩個(gè)子節(jié)點(diǎn)。

Step3：對(duì)這兩個(gè)子節(jié)點(diǎn)遞歸地調(diào)用Step1和Step2，直到滿足停止條件。

Step4：生成CART決策樹(shù)。

1.1.3 CART剪枝算法

CART剪枝算法從“完全”的決策樹(shù)的底部剪去一些子樹(shù)，使原來(lái)的“完全”決策樹(shù)變得簡(jiǎn)單，修剪后的決策樹(shù)具有更好的泛化能力。該修剪過(guò)程主要分為兩步：從“完全”決策樹(shù)T0的底部不斷進(jìn)行修剪，直到T0根節(jié)點(diǎn)，該過(guò)程形成若干棵子樹(shù)，組成序列{T0,T1,…,Tn}；在獨(dú)立的驗(yàn)證數(shù)據(jù)集上通過(guò)交叉驗(yàn)證法選擇最優(yōu)子樹(shù)。

1.2 Logistic回歸

對(duì)于二分類問(wèn)題，Logistic回歸是非常典型且應(yīng)用極為廣泛的模型，其本質(zhì)上是利用線性回歸模型[19]來(lái)逼近真實(shí)結(jié)果標(biāo)記幾率的自然對(duì)數(shù)。這種分類方法具有很多優(yōu)點(diǎn)，例如可以直接對(duì)分類問(wèn)題進(jìn)行建模，而不需要事先的分布假設(shè)，從而避免了不準(zhǔn)確的分布假設(shè)帶來(lái)的問(wèn)題。這種方式不僅僅是預(yù)測(cè)“類別”，而是預(yù)測(cè)所得類別的概率，這對(duì)許多使用概率進(jìn)行決策的任務(wù)是非常有意義的。此外，Logistic回歸采用的Sigmoid函數(shù)是具有任意階導(dǎo)數(shù)的凸函數(shù)，具有良好的數(shù)學(xué)性質(zhì)，現(xiàn)有的許多優(yōu)化算法都可直接用于求解最優(yōu)解[20]。假設(shè)輸出的正類標(biāo)記為“1”，輸出的負(fù)類標(biāo)記為“0”，則

(3)

其中，w為輸入的權(quán)重向量；x為輸入的特征向量；b為偏置值。

1.3 神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一種基于人的大腦進(jìn)行仿真的數(shù)據(jù)分析模型，可以對(duì)海量數(shù)據(jù)進(jìn)行并行處理和計(jì)算，用來(lái)表示認(rèn)知、決策等智能控制行。典型的神經(jīng)網(wǎng)絡(luò)主要分為輸入層、隱含層和輸出層，由若干神經(jīng)元相互連接，如圖1所示。BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法，其輸出為：

H=fi(∑wijxi+θj)

(4)

其中，wij為權(quán)重；fi為傳輸函數(shù)；θj為偏置值；xi輸入。

BP神經(jīng)網(wǎng)絡(luò)通過(guò)有監(jiān)督的方式進(jìn)行學(xué)習(xí)，能夠?qū)θ我鈴?fù)雜的非線性關(guān)系進(jìn)行擬合，通過(guò)最小化輸出誤差來(lái)逐層修正各個(gè)權(quán)值和偏置值，學(xué)習(xí)過(guò)程如圖2所示。

圖2 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程

2 組合預(yù)測(cè)模型的構(gòu)建

由于單一的算法模型可能對(duì)不同的數(shù)據(jù)集預(yù)測(cè)效果變化較大，有時(shí)還存在著不能容忍的劣勢(shì)，現(xiàn)考慮將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行線性組合，以對(duì)三種單一算法模型相互取長(zhǎng)補(bǔ)短。為確定最佳權(quán)值系數(shù)，構(gòu)造拉格朗日函數(shù)[21]作為評(píng)價(jià)指標(biāo)。

(β1h1i+β2h2i+β3h3i-h3i)2+

λ(β1h1i+β2h2i+β3h3i-1)]

(5)

其中，N為訓(xùn)練樣本集中的樣本總數(shù)；β1,β2,β3分別為組合模型中決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型的權(quán)值系數(shù)；h1i,h2i,h3i分別為決策樹(shù)模型、Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)模型對(duì)第i個(gè)樣本的預(yù)測(cè)結(jié)果；λ為拉格朗日算子。

由于L(β1,β2,β3)為二次凸函數(shù)，故有唯一的極值，即最小值，令：

(6)

(7)

基于多算法組合的移動(dòng)通信客戶流失預(yù)測(cè)流程如圖3所示。

圖3 組合模型預(yù)測(cè)流程

具體的組合模型預(yù)測(cè)過(guò)程如下：

Step1：將預(yù)處理后的數(shù)據(jù)集進(jìn)行劃分，80%的數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)，剩余的20%作為測(cè)試集數(shù)據(jù)。

Step2：使用決策樹(shù)、Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)集上進(jìn)行建模，其中，決策樹(shù)的特征選擇使用基尼指數(shù)，決策樹(shù)的生成使用CART生成算法，最后對(duì)生成的決策樹(shù)進(jìn)行剪枝。

Step3：使用訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)測(cè)結(jié)果分析。

Step4：將決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型得出的預(yù)測(cè)結(jié)果帶入構(gòu)造好的拉格朗日函數(shù)，得出組合模型中各單一模型的權(quán)值系數(shù)，并構(gòu)建組合模型。

Step5：根據(jù)構(gòu)建的組合模型得出預(yù)測(cè)結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)中的數(shù)據(jù)來(lái)自浙江省杭州市某移動(dòng)通信公司數(shù)據(jù)倉(cāng)庫(kù)，通過(guò)HQL查詢得出20 000條客戶個(gè)人信息和近兩個(gè)月歷史消費(fèi)情況的記錄，其中包含某個(gè)客戶是否離網(wǎng)的標(biāo)記。對(duì)原始數(shù)據(jù)進(jìn)行清洗，去除異常數(shù)據(jù)，如寬帶號(hào)碼、手機(jī)號(hào)碼不是11位，手機(jī)號(hào)碼不是以“1”開(kāi)頭，手機(jī)imei號(hào)碼為“-99”(異常標(biāo)記)等異常號(hào)碼，并進(jìn)行特征選擇，最后選取該數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集，余下的20%作為測(cè)試集，使用決策樹(shù)模型、Logistic回歸模型、BP網(wǎng)絡(luò)模型和組合模型分別在訓(xùn)練數(shù)據(jù)集上進(jìn)行學(xué)習(xí)，利用訓(xùn)練好的模型在測(cè)試數(shù)據(jù)集上進(jìn)行預(yù)測(cè)，結(jié)果如表1所示(由于數(shù)據(jù)量太大的緣故，這里僅列出了10條數(shù)據(jù))。

表1 三種單一模型與組合模型的客戶流失預(yù)測(cè)結(jié)果

為了進(jìn)一步比較3種單一模型和組合模型的預(yù)測(cè)效果，對(duì)表1的測(cè)試預(yù)測(cè)結(jié)果進(jìn)行了詳細(xì)的統(tǒng)計(jì)，結(jié)果表明：決策樹(shù)模型的準(zhǔn)確度為88.13%，Logistic回歸模型的準(zhǔn)確度為85.69%，BP神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確度為87.90%，組合模型的準(zhǔn)確度為93.06%，如圖4所示。

圖4 各預(yù)測(cè)模型準(zhǔn)確度對(duì)比

可以看出，組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)勢(shì)，預(yù)測(cè)效果要優(yōu)于任意一個(gè)單一預(yù)測(cè)模型，大大提高了預(yù)測(cè)客戶流失的準(zhǔn)確度，高達(dá)93.06%，與單一預(yù)測(cè)模型的效果相比，準(zhǔn)確度提高了近6%。

4 結(jié)束語(yǔ)

在移動(dòng)通信企業(yè)中，客戶流失對(duì)其經(jīng)濟(jì)收益有著非常重要的影響，并且在運(yùn)營(yíng)過(guò)程中是常常出現(xiàn)的問(wèn)題，只有有效地控制客戶流失才能立于不敗之地。由于企業(yè)對(duì)這部分客戶制定策略的盲目性，使移動(dòng)運(yùn)營(yíng)企業(yè)在營(yíng)銷過(guò)程中遭受了不可忽視的損失。根據(jù)決策樹(shù)模型、Logistic回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型各自的特點(diǎn)，文中提出的組合模型綜合了三種單一預(yù)測(cè)模型的優(yōu)點(diǎn)，通過(guò)通信企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中用戶的信息和消費(fèi)特征等海量數(shù)據(jù)進(jìn)行學(xué)習(xí)，使預(yù)測(cè)的準(zhǔn)確度得到了一定程度的提高。移動(dòng)通信企業(yè)可根據(jù)組合模型得出的預(yù)測(cè)結(jié)果采取相應(yīng)的營(yíng)銷手段來(lái)減少因客戶流失而造成的損失。組合模型更高的準(zhǔn)確度使運(yùn)營(yíng)企業(yè)在制定營(yíng)銷策略時(shí)更具有針對(duì)性。