余婉露
摘? 要: 如何幫助企業(yè)提前識(shí)別高風(fēng)險(xiǎn)流失客戶,已成為許多管理者關(guān)心的問(wèn)題。許多數(shù)據(jù)挖掘方法用于通訊客戶流失案例中時(shí),存在因變量的分布不均勻?qū)е滤惴ň认陆档膯?wèn)題。文章采用人工數(shù)據(jù)合成法來(lái)解決該問(wèn)題,提出四種客戶流失預(yù)警模型:GLM-logistic回歸模型,GAM-logistic回歸模型,Sem-parameter GAM-logistic回歸模型和隨機(jī)森林模型。以AUC和覆蓋率-捕獲率作為評(píng)價(jià)指標(biāo)進(jìn)行比較,構(gòu)建出最合適該案例的Sem-parameter GAM-logistic預(yù)警模型,以幫助企業(yè)減少不必要的客戶流失及由此帶來(lái)的企業(yè)損失。
關(guān)鍵詞: 人工數(shù)據(jù)合成法; 預(yù)警模型; Sem-parameter GAM-logistic; 覆蓋率-捕獲率
中圖分類號(hào):O213? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? 文章編號(hào):1006-8228(2021)07-06-04
Communication customer churn prediction model with synthetic data generation
Yu Wanlu
(Jinshan College of Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)
Abstract: How to help enterprises identify high-risk customer churn in advance has become one of the concerns of many enterprise managers. When many data mining methods are used in communication customer churn cases, the uneven distribution of dependent variables leads to the decline of algorithm's accuracy. In this paper, synthetic data generation is used to solve this problem, and four customer churn early warning models are put forward, i.e. GLM-logistic regression model, GAM-logistic regression model, Sem-parameter GAM-logistic regression model and random forest model. And AUC and coverage rate-capture rate are used as evaluation indexes to build the most suitable Sem-parameter GAM-logistic early warning model for the case, so as to help the enterprise reduce unnecessary customer churn and the losses caused thereby.
Key words: synthetic data generation; prediction model; Sem-parameter GAM-logistic; coverage rate-capture rate
0 引言
隨著大數(shù)據(jù)處理和分析技術(shù)的不斷發(fā)展,客戶選擇產(chǎn)品以及服務(wù)的形式越來(lái)越多樣化,所以,企業(yè)如何對(duì)客戶數(shù)據(jù)進(jìn)行深度挖掘,減少現(xiàn)有客戶群流失且發(fā)現(xiàn)新的客戶群體,顯得十分重要。以通訊運(yùn)營(yíng)商企業(yè)為例,通訊企業(yè)想要在日益激烈的市場(chǎng)環(huán)境下穩(wěn)定快速發(fā)展,并收獲最大經(jīng)濟(jì)、社會(huì)效益,就離不開(kāi)高質(zhì)量的企業(yè)客戶維系管理[1],因此,通訊客戶流失量預(yù)測(cè)與分析成為各大運(yùn)營(yíng)商關(guān)注的焦點(diǎn)問(wèn)題。
數(shù)據(jù)挖掘技術(shù)不斷進(jìn)步,越來(lái)越多的客戶流失預(yù)警模型都用到了數(shù)據(jù)挖掘技術(shù)。在眾多預(yù)警模型中,常用的數(shù)據(jù)挖據(jù)算法有邏輯回歸模型、廣義可加模型、支持向量機(jī)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等[2-3]。正確選擇以及處理預(yù)警模型對(duì)模型預(yù)測(cè)的準(zhǔn)確性及效率有著很大影響。
本文深入分析和研究了一些常用客戶流失預(yù)警模型的相關(guān)算法[4],比較各種模型的優(yōu)勢(shì)和不足。目前有許多數(shù)據(jù)挖掘方法還僅限于理論研究,在客戶資源流失預(yù)測(cè)領(lǐng)域的運(yùn)用仍存在著許多的缺失。①大多數(shù)現(xiàn)實(shí)案例選用的流失預(yù)警模型的算法單一,預(yù)測(cè)效果不佳,無(wú)法幫助企業(yè)精準(zhǔn)識(shí)別高風(fēng)險(xiǎn)流失客戶,也因此影響了客戶流失預(yù)警模型的一般性。②客戶流失量數(shù)據(jù)是一種典型的不平衡數(shù)據(jù),流失客戶為小規(guī)模用戶,在客戶流失預(yù)警模型的預(yù)測(cè)過(guò)程中,容易掩蓋流失客戶數(shù)據(jù)行為的大量變化特征,使得客戶流失量預(yù)測(cè)的準(zhǔn)確性降低。③針對(duì)客戶流失預(yù)警模型的評(píng)價(jià)方法缺乏合理性。對(duì)模型采取的評(píng)價(jià)指標(biāo)不同,會(huì)影響對(duì)模型效果好壞的判定,最終影響企業(yè)管理者對(duì)高風(fēng)險(xiǎn)流失客戶的保護(hù)策略。
為解決上述問(wèn)題,本文以通訊客戶為案例,基于人工數(shù)據(jù)合成法的基礎(chǔ)上,提出四種客戶流失預(yù)警模型:GLM-logistic回歸,GAM-logistic回歸,Sem-parameter GAM-logistic回歸模型,隨機(jī)森林。
1 數(shù)據(jù)說(shuō)明及處理
1.1 樣本及其來(lái)源
文章研究數(shù)據(jù)來(lái)自某移動(dòng)通信公司,隨機(jī)選取5萬(wàn)個(gè)左右VIP(平均每月花費(fèi)大于80元)客戶,2014-2015年月度的基礎(chǔ)通訊數(shù)據(jù)和通話詳單數(shù)據(jù)為樣本,數(shù)據(jù)來(lái)源于文獻(xiàn)《自我網(wǎng)絡(luò)特征對(duì)電信客戶流失的影響》[5]。樣本量為48393,隨機(jī)取30000個(gè)數(shù)據(jù)為訓(xùn)練集;18393為測(cè)試集。
1.2 數(shù)據(jù)說(shuō)明及處理
1.2.1 因變量說(shuō)明及處理
文章研究的因變量表示客戶是否流失,為1-0變量,1表示客戶流失,0表示客戶不流失,具體的因變量介紹見(jiàn)表1。
從表1可以發(fā)現(xiàn),流失客戶為小規(guī)模用戶,在客戶流失的預(yù)測(cè)過(guò)程中流失客戶的數(shù)據(jù)行為的大量變化特征將被掩蓋,不平衡數(shù)據(jù)使得算法精度下降,尤其對(duì)于小類的預(yù)測(cè)精度會(huì)很低,所以本文采用人工數(shù)據(jù)合成法(Synthetic Data Generation),解決數(shù)據(jù)的不平衡問(wèn)題。該方法是利用生成人工數(shù)據(jù),而不是重復(fù)原始觀測(cè)來(lái)解決不平衡性。借助R語(yǔ)言統(tǒng)計(jì)分析軟件[6]實(shí)現(xiàn)人工數(shù)據(jù)合成法,得到改善后的因變量見(jiàn)表2。
從表2可以看出,借助人工數(shù)據(jù)合成法(Synthetic Data Generation),客戶流失率從1.34%提升到49.6%,有效解決數(shù)據(jù)的不平衡問(wèn)題。
1.2.2 自變量說(shuō)明及處理
文章研究的因變量包括在網(wǎng)時(shí)長(zhǎng)、當(dāng)月費(fèi)用、費(fèi)用的變化率、聯(lián)系強(qiáng)度、個(gè)體的度、個(gè)體度的變化率、個(gè)體信息熵,自變量說(shuō)明見(jiàn)表3。
自變量的生成方法以及推導(dǎo)過(guò)程,可參考文獻(xiàn)[5]。由于自變量皆為連續(xù)變量,在后文的模型建立中,所有自變量數(shù)據(jù)作標(biāo)準(zhǔn)化處理。
2 通訊客戶流失預(yù)警模型的實(shí)證研究
為了給通訊企業(yè)提供性價(jià)比高的客戶識(shí)別方案,對(duì)于客戶是否流失這樣的分類問(wèn)題,建立以下四種分類模型,來(lái)做分析比較。
2.1 GLM-logistic回歸模型
GLM-logistic回歸模型的一般形式如下:
[logitPY=1=logp1-p=β0+β1x1+β2x2+…+βmxm] ⑴
公式⑴可計(jì)算得出在給定一系列[X]取值時(shí)[Y=1]的概率,系數(shù)[βi]的大小可以用來(lái)反映用來(lái)反映因變量[Y]與自變量[X]之間的某種關(guān)聯(lián)。針對(duì)本案例數(shù)據(jù),GLM-logistic回歸模型具體如下:
[logitPY=1=β0+β1tenure+β2expense+? ? ? ? ? ? ? ? ? ? ?β3degree+β4tightness+β5entropy+]
[? ? ? ? ? ? ? ? ? ? ?β6chgexpense+β7chgdegree] ⑵
使用該模型在測(cè)試集上的混淆矩陣結(jié)果見(jiàn)表4。
2.2 GAM-logistic回歸模型
GAM模型是一種非參數(shù)模型,該模型相比參數(shù)模型的優(yōu)勢(shì)在于其不需要假設(shè)某種函數(shù)形式,只需要滿足自變量對(duì)因變量的影響是獨(dú)立即可。該模型的一般形式如下:
[gμ=β0+f1(x1)+f2(x2)+…+fm(xm)]? ⑶
其中,[μ=E(Y|X1,X2,…Xm)]。在客戶流失的案例中,因變量通常表示客戶是否流失,所以文章采用GAM模型與logistic回歸分析相結(jié)合的方法,對(duì)通訊客戶案例進(jìn)行客戶流失預(yù)警分析。GAM-logistic回歸模型的一般形式如下:
[logitPY=1=logp1-p=β0+f1(x1)+f2(x2)+…+fm(xm)] ⑷
在公式⑷中,[fi(xi)]為平滑函數(shù),[ i=i,2,…,m],用來(lái)代替有固定參數(shù)的傳統(tǒng)線性項(xiàng)。針對(duì)本案例數(shù)據(jù),GAM-logistic回歸模型具體如下:
[logitPY=1=? ?β0+f1tenure+f2expense+? ? ? ? ? ? ? ? ? ? f3degree+f4tightness+f5entropy+? ? ? ? ? ? ? ? ? ?f6(chgexpense)+f7(chgdegree)]? ⑸
使用該模型在測(cè)試集上的混淆矩陣結(jié)果見(jiàn)表5。
2.3 Sem-parameter GAM-logistic回歸模型
在現(xiàn)實(shí)的應(yīng)用中,所有的變量作線性假設(shè)往往不太合理,為了增加模型的可解釋性和靈活性,半?yún)V義可加模型是基于統(tǒng)計(jì)模型方法的較好選擇。綜合考慮廣義可加模型的回歸結(jié)果,[entropy]、[expense]這兩個(gè)變量線性成分明顯,其他的變量非線性成分均明顯,所以,在本部分分別將[entropy]、[expense]作為線性成分處理,其他變量均以非線性形式出現(xiàn)在模型中。
[logitPY=1=β0+f1tenure+β2expense+? ? ? ? ? ? f3degree+f4tightness+β5entropy +]
[? ? ? ? ? ? f6(chgexpense)+f7(chgdegree)]? ⑹
使用該模型在測(cè)試集上的混淆矩陣結(jié)果見(jiàn)表6。
2.4 隨機(jī)森林
隨機(jī)森林(random forest)是一種有監(jiān)督學(xué)習(xí)方法,隨機(jī)森林模型中可以同時(shí)生成多個(gè)預(yù)測(cè)模型,并匯總模型的結(jié)果以提升分類準(zhǔn)確率。該方法的優(yōu)勢(shì)在于不存在過(guò)擬合問(wèn)題,并且分類性能好[7]。本模型采用隨機(jī)森林進(jìn)行分析。利用R語(yǔ)言統(tǒng)計(jì)分析軟件,可以得到變量的重要性度量,如圖1所示。
由圖1可以看出幾個(gè)變量重要程度都較高,其中最重要的變量分別為個(gè)體的度和個(gè)體度的變化率,這說(shuō)明客戶通話人數(shù)對(duì)該客戶流失與否的影響很大,通訊企業(yè)應(yīng)重點(diǎn)關(guān)注客戶這兩個(gè)變量的情況。使用該模型在測(cè)試集上的混淆矩陣結(jié)果見(jiàn)表7。
3 模型評(píng)價(jià)
文章采取兩個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),第一個(gè)指標(biāo)是測(cè)試集上的AUC;第二個(gè)指標(biāo)是在測(cè)試集上計(jì)算覆蓋率—捕獲率[5]。
3.1 指標(biāo)1——AUC
在數(shù)據(jù)挖掘領(lǐng)域,AUC值是作為客戶流失預(yù)警模型的常用評(píng)價(jià)指標(biāo)之一。AUC值越大,效果越好。本案例中四個(gè)模型最終得到的AUC值如表8所示。
由表8可知,若以AUC值為評(píng)價(jià)指標(biāo),Sem-parameter GAM-logistic回歸模型效果最佳。
3.2 指標(biāo)2——覆蓋率-捕獲率
本研究還采用覆蓋率-捕獲率作為評(píng)判模型預(yù)測(cè)精度的指標(biāo)。覆蓋率-捕獲率曲線指的是在給定成本下,我們根據(jù)模型或者隨機(jī)選取一定的客戶,能找到真正流失的客戶占總流失客戶的比例,這個(gè)值越高,表明模型越好。
假設(shè)通訊企業(yè)選取20%的客戶進(jìn)行保護(hù),則采用不同預(yù)警模型抽中流失客戶的比例也不同。具體結(jié)果如表9所示。
從表9可知,若以覆蓋率-捕獲率作為評(píng)判模型預(yù)測(cè)精度的指標(biāo),可發(fā)現(xiàn)半?yún)AM-logistic回歸模型效果最好,GLM-logistic回歸模型的效果最差。
4 結(jié)論
客戶流失管理正越來(lái)越受到企業(yè)的關(guān)注和重視。客戶流失預(yù)警作為一種有效的客戶流失管理方法,對(duì)潛在流失客戶進(jìn)行預(yù)測(cè)分析,及時(shí)預(yù)警并采取相應(yīng)挽留措施,可以有效減少不必要的客戶流失,一定程度上減少企業(yè)損失。在這樣的背景下,本文提出了基于數(shù)據(jù)挖掘的客戶流失預(yù)警模型研究,通過(guò)對(duì)比模型的預(yù)測(cè)效果,發(fā)現(xiàn)無(wú)論是從指標(biāo)1還是指標(biāo)2來(lái)看,Sem-parameter GAM-logistic回歸模型在是否流失的分類問(wèn)題上,效果均顯示較好。此外,無(wú)論使用哪種預(yù)測(cè)模型,預(yù)測(cè)效果均明顯優(yōu)于不使用模型的隨機(jī)預(yù)測(cè)效果。
因此,建議企業(yè)可采取的措施有:借助客戶流失預(yù)警模型,根據(jù)成本預(yù)算來(lái)選擇不同的覆蓋率,對(duì)客戶進(jìn)行預(yù)測(cè),設(shè)定閾值,一旦預(yù)測(cè)的流失概率超過(guò)了設(shè)定的閾值,那么企業(yè)應(yīng)重點(diǎn)關(guān)注該客戶。
本研究還存在著一些不足和需要改進(jìn)的地方,如所構(gòu)建的四種流失預(yù)警模型的拓展性不強(qiáng),當(dāng)現(xiàn)實(shí)案例出現(xiàn)新的數(shù)據(jù)集時(shí),預(yù)測(cè)效果缺乏穩(wěn)定性。因此,我們下一步的研究方向是在不同領(lǐng)域?qū)ふ易顑?yōu)的客戶流失預(yù)警模型算法。
參考文獻(xiàn)(References):
[1] 羅彬,邵培基,羅盡堯等.基于預(yù)算限制和客戶挽留價(jià)值最大化的電信客戶流失挽留研究[J].管理學(xué)報(bào),2012.9(2):280
[2] 盛昭瀚,柳炳祥.客戶流失危機(jī)分析的決策樹(shù)方法[J].管理科學(xué)學(xué)報(bào),2005.8(2):20-25
[3] Hastie T,Tibshirani R, Friedman J. The Elements of
Statistical Learning Data Mining,Inference,and Prediction, Second Edition[M].世界圖書(shū)出版公司,2009.
[4] YANG Q, WU X. 10 challenging problems in data mining
research[J].International Journal of Information Technology & Decision Making,2006.5(4):597-604
[5] 周靜,周小宇,王漢生.自我網(wǎng)絡(luò)特征對(duì)電信客戶流失的影響[J].管理科學(xué),2017.5.
[6] 方匡南,朱建平,姜葉飛.R數(shù)據(jù)分析方法與案例詳解[M].電子工業(yè)出版社,2015.
[7] LI X K, CHEN W, ZHANG Q, et al. Building auto-encoder
intrusion detection system based on random forest feature selection[J]. Computers & Security,2020.95:101851