程昊 樊重俊
摘要:文章以C5.0、Neural Net和Logistic三種算法作為構(gòu)建預(yù)測(cè)混合模型的基礎(chǔ)算法。在實(shí)證研究過(guò)程中,分別采用品牌、地區(qū)、網(wǎng)齡和賬單作為客戶細(xì)分變量,構(gòu)建了不同的客戶流失預(yù)測(cè)混合模型,用命中率和接受者操作特性(ROC)曲線對(duì)預(yù)測(cè)結(jié)果比較評(píng)估,得到以地區(qū)為客戶細(xì)分變量的混合模型預(yù)測(cè)效果最佳,以賬單為客戶細(xì)分變量的混合模型預(yù)測(cè)效果,其次以網(wǎng)齡和品牌為客戶細(xì)分變量的混合模型預(yù)測(cè)效果較差的結(jié)論。省級(jí)電信公司在構(gòu)建流失預(yù)測(cè)系統(tǒng)過(guò)程中,以客戶賬單(或客戶消費(fèi)層次)作為細(xì)分變量,對(duì)各地區(qū)客戶單獨(dú)構(gòu)建流失預(yù)測(cè)模型;同時(shí),要加強(qiáng)品牌管理,提高各品牌對(duì)客戶的區(qū)隔效果。
關(guān)鍵詞:決策樹(shù);神經(jīng)網(wǎng)絡(luò);客戶流失
客戶是指與企業(yè)建立長(zhǎng)期穩(wěn)定的關(guān)系并愿意為企業(yè)提供的產(chǎn)品和服務(wù)承擔(dān)合適價(jià)格的購(gòu)買者。客戶關(guān)系管理(customer relationship management)CRM是近年來(lái)比較流行的新興管理概念,最早由著名IT項(xiàng)目系統(tǒng)論證與決策權(quán)威機(jī)構(gòu)Gartner Group提出,是隨著互聯(lián)網(wǎng)與電子商務(wù)流入中國(guó)的管理理念之一。從科學(xué)管理的角度來(lái)觀察,客戶關(guān)系管理是由市場(chǎng)營(yíng)銷理論演化而來(lái)的,從解決問(wèn)題的角度來(lái)觀察,客戶關(guān)系管理是利用高科技信息技術(shù)將現(xiàn)代管理理念和營(yíng)銷手段結(jié)合在一起應(yīng)用到市場(chǎng)中,幫助企業(yè)解決難題,它凝聚了市場(chǎng)營(yíng)銷、銷售管理、客戶關(guān)懷、客戶服務(wù)等要素在里面。
以品牌為細(xì)分變量將訓(xùn)練集X1分為全球通數(shù)據(jù)子集、神州行數(shù)據(jù)子集和動(dòng)感地帶數(shù)據(jù)子集,分別占比為7.2%、80.7%和12.1%。在對(duì)每個(gè)數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓(xùn)練集和測(cè)試集兩部分,分別占60.0%和40.0%;在訓(xùn)練模型前進(jìn)行特征選擇。然后,分別對(duì)每個(gè)數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對(duì)該數(shù)據(jù)子集的建模模型。各品牌數(shù)據(jù)子集分別采用三種模型的預(yù)測(cè)結(jié)果的AUC如表1所示。
由表1中測(cè)試結(jié)果可知,對(duì)全球通數(shù)據(jù)子集和神州行數(shù)據(jù)子集來(lái)說(shuō),都是Neural Net的預(yù)測(cè)效果最好;對(duì)動(dòng)感地帶數(shù)據(jù)子集說(shuō)C5.0的預(yù)測(cè)效果最好。因此,得到混合預(yù)測(cè)模型如圖1所示。
以地區(qū)為細(xì)分變量將訓(xùn)練集X1分為地區(qū)A數(shù)據(jù)子集、地區(qū)B數(shù)據(jù)子集和地區(qū)C數(shù)據(jù)子集,分別占比為52.5%、20.3%和27.2%。在對(duì)每個(gè)數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓(xùn)練集和測(cè)試集兩部分,分別占60.0%和40.0%;在訓(xùn)練模型前進(jìn)行特征選擇。然后,分別對(duì)每個(gè)數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對(duì)該數(shù)據(jù)子集的建模模型。各地區(qū)數(shù)據(jù)子集分別采用三種模型的預(yù)測(cè)結(jié)果的AUC如表2所示。
由表2中測(cè)試結(jié)果可知,對(duì)地區(qū)A、地區(qū)B和地區(qū)C數(shù)據(jù)子集來(lái)說(shuō),都是Neural Net的預(yù)測(cè)效果最好。因此,得到混合預(yù)測(cè)模型如圖2所示。
以網(wǎng)齡為細(xì)分變量將訓(xùn)練集X1分低網(wǎng)齡數(shù)據(jù)子集、中網(wǎng)齡數(shù)據(jù)子集和高網(wǎng)齡數(shù)據(jù)子集,分別占比為22.7%、44.9%和32.4%。在對(duì)每個(gè)數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓(xùn)練集和測(cè)試集兩部分,分別占60.0%和40.0%;在訓(xùn)練模型前進(jìn)行特征選擇。然后,分別對(duì)每個(gè)數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對(duì)該數(shù)據(jù)子集的建模模型。各網(wǎng)齡層次數(shù)據(jù)子集分別采用三種模型的預(yù)測(cè)結(jié)果的AUC如表3所示。
由表3中測(cè)試結(jié)果可知,對(duì)低網(wǎng)齡數(shù)據(jù)子集和高網(wǎng)齡數(shù)據(jù)子集來(lái)說(shuō),都是Neural Net的預(yù)測(cè)效果最好;對(duì)中網(wǎng)齡數(shù)據(jù)子集來(lái)說(shuō)Logistic的預(yù)測(cè)效果最好。因此,得到混合預(yù)測(cè)模型如圖3所示。
以三個(gè)月的月均賬單額為細(xì)分變量將訓(xùn)練集X1分為低消費(fèi)數(shù)據(jù)子集、中消費(fèi)數(shù)據(jù)子集和高消費(fèi)數(shù)據(jù)子集,分別占比為54.4%、28.9%和16.7%。在對(duì)每個(gè)數(shù)據(jù)子集建模前再將數(shù)據(jù)分區(qū)為訓(xùn)練集和測(cè)試集兩部分,分別占60.0%和40.0%;在訓(xùn)練模型前進(jìn)行特征選擇。然后,分別對(duì)每個(gè)數(shù)據(jù)子集采用C5.0、Logistic、Neural Net三種基本模型建模,選擇ROC曲線下方面積AUC最大的基本模型作為對(duì)該數(shù)據(jù)子集的建模模型。各消費(fèi)層次數(shù)據(jù)子集分別采用三種模型的預(yù)測(cè)結(jié)果的AUC如表4所示。
由表4中測(cè)試結(jié)果可知,對(duì)低消費(fèi)數(shù)據(jù)子集來(lái)說(shuō),C5.0的預(yù)測(cè)效果最好;對(duì)中消費(fèi)數(shù)據(jù)子集說(shuō)Logistic的預(yù)測(cè)效果最好;對(duì)于高消費(fèi)數(shù)據(jù)子集來(lái)說(shuō),Neural Net的預(yù)測(cè)效果最好。因此,得到混合預(yù)測(cè)模型如圖4所示。
(一)命中率比較
各種細(xì)分標(biāo)準(zhǔn)的混合模型對(duì)測(cè)試集X2預(yù)測(cè)的命中率結(jié)果如表5所示。
比較表5中的數(shù)據(jù)可知,以地區(qū)為細(xì)分變量構(gòu)建混合模型對(duì)測(cè)試集X2預(yù)測(cè)的命中率最高,達(dá)到86.1%;以賬單額為細(xì)分變量構(gòu)建混合模型對(duì)數(shù)據(jù)集X2預(yù)測(cè)的命中率次之,為85.9%;以品牌和網(wǎng)齡為細(xì)分變量構(gòu)建混合模型對(duì)測(cè)試集X2預(yù)測(cè)的命中率較低,分別為81.2%和76.2%。
(二)ROC曲線比較
用SPSS15.0對(duì)各混合模型在對(duì)測(cè)試集X2上的預(yù)測(cè)結(jié)果構(gòu)建ROC曲線,如圖5所示。
由各混合模型ROC曲線計(jì)算曲線下方的面積(AUC)如表6所示。
比較表6中的數(shù)據(jù)可知,以地區(qū)和賬單為細(xì)分標(biāo)準(zhǔn)構(gòu)建的混合模型,對(duì)測(cè)試集X2的預(yù)測(cè)效果較好,AUC分別為0.888和0.855;以網(wǎng)齡和品牌為細(xì)分標(biāo)準(zhǔn)構(gòu)建混合模型,對(duì)測(cè)試集X2的預(yù)測(cè)效果相對(duì)較差,其AUC分別為0.845和0.828。
本文分別以品牌、地區(qū)、網(wǎng)齡和賬單為細(xì)分變量細(xì)分客戶,以SPSS Clementine12.0中C5.0、Logistic、Neural Net三種分類算法模型作為基礎(chǔ)模型,構(gòu)建客戶流失預(yù)測(cè)混合模型,分別采用命中率和ROC曲線對(duì)各模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,得到一致的結(jié)論:當(dāng)以地區(qū)為標(biāo)準(zhǔn)細(xì)分時(shí)的預(yù)測(cè)效果最好,以賬單為細(xì)分標(biāo)準(zhǔn)的預(yù)測(cè)效果其次,以網(wǎng)齡和品牌為細(xì)分標(biāo)準(zhǔn)的預(yù)測(cè)效果相對(duì)較差。因此,在今后的流失預(yù)測(cè)實(shí)踐中,建議省級(jí)電信公司以客戶消費(fèi)賬單作為細(xì)分變量,對(duì)各地區(qū)客戶單獨(dú)構(gòu)建流失預(yù)測(cè)混合模型;同時(shí),要加強(qiáng)品牌管理,提高各品牌對(duì)客戶的區(qū)隔效果。
參考文獻(xiàn):
[1]武小軍,孟蘇芳.基于客戶細(xì)分和AdaBoost的電子商務(wù)客戶流失預(yù)測(cè)研究[J].工業(yè)工程,2017(02).
[2]葉志龍,黃章樹(shù).線上會(huì)員客戶流失的建模與預(yù)測(cè)研究[J].管理現(xiàn)代化,2016(03).
[3]邵帥鋒.基于BP神經(jīng)網(wǎng)絡(luò)對(duì)保險(xiǎn)公司客戶流失進(jìn)行分析和預(yù)測(cè)研究[D].蘭州大學(xué),2016.
[4]高潔.基于灰色模型和神經(jīng)網(wǎng)絡(luò)的客戶流失量預(yù)測(cè)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2015(06).
[5]單其帥.基于粗糙集-BP神經(jīng)網(wǎng)絡(luò)的電信企業(yè)客戶失風(fēng)險(xiǎn)預(yù)警研究[D].河北工程大學(xué),2014.
(作者單位:上海理工大學(xué))