陳光鎂 孫雪蓮
摘要:針對(duì)銀行行業(yè)的客戶(hù)流失問(wèn)題,構(gòu)建基于地域、收入、信用卡、銀行存款等屬性的銀行客戶(hù)指標(biāo)體系,研究中采用K-Means對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析,細(xì)分客戶(hù)類(lèi)型,將細(xì)分結(jié)果作為XGBoost、ANN預(yù)測(cè)模型的輸入,從而融合XGBoost與K-Means模型,經(jīng)過(guò)分析發(fā)現(xiàn)單一模型acc(準(zhǔn)確率)在85%左右,融合模型的acc在87%以上,根據(jù)K-Means-XGBoost融合模型與K-Means-ANN融合模型的預(yù)測(cè)結(jié)果,利用流失概率公式構(gòu)建XGBoost-ANN組合模型,通過(guò)調(diào)節(jié)兩個(gè)模型占比來(lái)確定最優(yōu)模型,根據(jù)組合模型計(jì)算acc。實(shí)驗(yàn)顯示,組合模型的acc、F1-Score等均高于單一算法模型與融合模型。
關(guān)鍵詞:客戶(hù)流失;XGBoost;ANN神經(jīng)網(wǎng)絡(luò);聚類(lèi)算法;融合模型;組合模型
中圖分類(lèi)號(hào):TP301? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)13-0055-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
目前銀行在客戶(hù)競(jìng)爭(zhēng)方面面臨著嚴(yán)峻挑戰(zhàn),面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng),如何盡可能留住老客戶(hù),減少客戶(hù)流失是目前銀行應(yīng)重點(diǎn)關(guān)注的問(wèn)題[1]。研究表明,對(duì)銀行業(yè)而言,客戶(hù)流失會(huì)給利潤(rùn)帶來(lái)巨大的影響[2],當(dāng)客戶(hù)流失率減少5%,企業(yè)的利潤(rùn)增長(zhǎng)是30%到85%,發(fā)展新客戶(hù)的成本是挽留老客戶(hù)成本的5~7倍[3]。所以銀行必須在深入發(fā)現(xiàn)客戶(hù)需求的基礎(chǔ)上,對(duì)客戶(hù)賦予優(yōu)質(zhì)的、非同質(zhì)化的服務(wù)[4],從而滿(mǎn)足不同客戶(hù)的要求,從而提升客戶(hù)對(duì)銀行項(xiàng)目和服務(wù)的滿(mǎn)意程度,提高客戶(hù)對(duì)銀行的忠誠(chéng)度,這樣才能實(shí)現(xiàn)銀行盈利的持續(xù)增加。
客戶(hù)希望銀行可以根據(jù)他們的需求和資產(chǎn)情況推出需要的投資理財(cái)相關(guān)的產(chǎn)品或服務(wù),而這就要求銀行要積極建立完整的客戶(hù)需求體系、主動(dòng)維護(hù)良好的客戶(hù)關(guān)系,并及時(shí)關(guān)注客戶(hù)意向的轉(zhuǎn)變,定制并提供具有個(gè)性化的產(chǎn)品及服務(wù)[5]。因此,有效預(yù)測(cè)客戶(hù)流失可能性,制定相應(yīng)的挽回措施,防止客戶(hù)的流失,是銀行提升核心競(jìng)爭(zhēng)力的關(guān)鍵。基于銀行客戶(hù)數(shù)據(jù)建立RFM模型同時(shí)使用K-Means進(jìn)行聚類(lèi)分析,將客戶(hù)類(lèi)型進(jìn)行細(xì)分。對(duì)XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型實(shí)驗(yàn)得到兩個(gè)的預(yù)測(cè)值和準(zhǔn)確度,將兩者的流失概率組合成新模型,通過(guò)新模型不斷地調(diào)整兩個(gè)模型的比重,直到模型的準(zhǔn)確度和擬合度最高[5]。
1 預(yù)測(cè)模型
1.1 K-Means融合模型
選擇預(yù)測(cè)效果、輪廓系數(shù)均最優(yōu)的類(lèi)簇進(jìn)行聚類(lèi)[6],將K-Means聚類(lèi)結(jié)果(3類(lèi))進(jìn)行處理,生成三個(gè)新的數(shù)據(jù)集,將三個(gè)數(shù)據(jù)集作為XGBoost、ANN預(yù)測(cè)模型的輸入(每個(gè)數(shù)據(jù)集單獨(dú)預(yù)測(cè)),構(gòu)建K-Means與XGBoost、ANN的融合模型,進(jìn)行融合模型的訓(xùn)練測(cè)試,得出結(jié)果,搭建步驟如下:
1) 使用K-Means進(jìn)行兩次聚類(lèi),選擇預(yù)測(cè)效果和SH系數(shù)均佳簇個(gè)數(shù)([k1=2]、[k2=2]) ,將客戶(hù)類(lèi)型細(xì)分為3類(lèi)得到3組數(shù)據(jù),在手肘法的基礎(chǔ)之上進(jìn)行輪廓系數(shù)的比較[6],最終使用SH系數(shù)進(jìn)行評(píng)價(jià)。
2) 對(duì)K-Means細(xì)分客戶(hù)[6]的三個(gè)數(shù)據(jù)集進(jìn)行處理,數(shù)據(jù)沒(méi)有缺失、異常等問(wèn)題,將K-Means輸出分別存儲(chǔ)到不同的文件中,為模型融合做準(zhǔn)備。
3) 將細(xì)分客戶(hù)類(lèi)型分別代入ANN、XGBoost模型中進(jìn)行訓(xùn)練,訓(xùn)練完畢后,兩個(gè)模型在測(cè)試集上進(jìn)行測(cè)試,得出準(zhǔn)確率。
4) K-Means[7]與ANN、XGBoost融合得出預(yù)測(cè)結(jié)果,最終得到準(zhǔn)確率、精確率等。
1.2 組合模型
對(duì)于XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型[8],兩者都能在客戶(hù)流失管理中對(duì)潛在的流失客戶(hù)進(jìn)行預(yù)測(cè),通過(guò)實(shí)驗(yàn)可以分別得到兩個(gè)模型的預(yù)測(cè)值和準(zhǔn)確率[8]。本文將兩者組合起來(lái)建立組合建模,并進(jìn)行分析。設(shè)XGBoost流失預(yù)測(cè)模型的預(yù)測(cè)結(jié)果為[X],預(yù)測(cè)準(zhǔn)確率為[α];ANN神經(jīng)網(wǎng)絡(luò)流失預(yù)測(cè)模型的預(yù)測(cè)結(jié)果為[Y],預(yù)測(cè)準(zhǔn)確率為[β]。其中,[X]和[Y]的取值為0或者1,0-未流失,1-流失。[α]和[β]的取值范圍為[0,1]。設(shè)[Tw]為組合模型的流失概率,則[Tw]的計(jì)算如公式(1) 所示。
[Tw=k1αX+k2βY]? ? ? (1)
初始時(shí)設(shè)置[k1],[k2]為0.1、0.9,然后不斷調(diào)整兩個(gè)模型的占比,直至找出最佳的[Tw]值。對(duì)于組合模型來(lái)說(shuō),若XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型都預(yù)測(cè)為未流失[9],即[X], [Y]都取值為0,則[Tw]也為0,組合模型預(yù)測(cè)結(jié)果為流失;若兩個(gè)模型都預(yù)測(cè)為未流失,即[X],[Y]都取值為1,若[Tw]大于等于70%,則組合模型預(yù)測(cè)結(jié)果為流失,反之組合模型預(yù)測(cè)結(jié)果為未流失;若兩個(gè)模型中,一個(gè)模型預(yù)測(cè)為流失,一個(gè)為未流失,則依據(jù)組合模型的流失概率來(lái)判斷,則[Tw]大于35%,表明組合模型預(yù)測(cè)結(jié)果為流失,反之組合模型預(yù)測(cè)結(jié)果為未流失。后續(xù)不斷地調(diào)整XGBoost模型和ANN神經(jīng)網(wǎng)絡(luò)模型的占比[9],調(diào)整時(shí)從兩個(gè)模型分別占比10%、90%,一直調(diào)整到兩個(gè)模型分別占比90%、10%。直至模型的準(zhǔn)確度和擬合度最高[9]。
2 客戶(hù)類(lèi)型分析結(jié)果
2.1 特征重要性排序
文中選用隨機(jī)森林進(jìn)行特征重要性的排序,選取前十行為[x]的取值,最后一列為[y]的取值,算法實(shí)現(xiàn)后特征重要性排序如圖1所示。當(dāng)[n_estimators=10000]時(shí),Geography特征的重要性系數(shù)為0.166 258(最高),其次是IsActiveMember、Age分別為0.163 906、0.153 392,最低的是Tenure,重要性系數(shù)僅為0.039 8,估計(jì)收入情況、使用信用卡支付次數(shù)、性別、信用分?jǐn)?shù)等重要程度在0.126 007到0.057 710之間。
2.2 K-Means客戶(hù)類(lèi)型細(xì)分
第一次聚類(lèi)k=2時(shí)輪廓系數(shù)為0.467 4,類(lèi)型0數(shù)據(jù)占總數(shù)據(jù)的超60%,而類(lèi)型1的數(shù)據(jù)大約占總數(shù)據(jù)的38%,類(lèi)型0單獨(dú)進(jìn)行預(yù)測(cè)準(zhǔn)確率偏低,單獨(dú)將類(lèi)型0再進(jìn)行一次聚類(lèi)分析。第二次聚類(lèi)k=2時(shí)輪廓系數(shù)為0.495 8,且類(lèi)型0(第二次)占據(jù)占比50%,類(lèi)型1(第二次)占據(jù)了接近50%。
文中定義了3種客戶(hù)類(lèi)型,利用RFM的分類(lèi)原理,結(jié)合隨機(jī)森林特征重要性排序,選Salary、Balance、CreditScore三種屬性作為指標(biāo),兩次K-means得到的聚類(lèi)特征分布情況如圖2所示。據(jù)分析,第一簇人群:3 799人,客戶(hù)Balance、EstimatedSalary、CreditScore三個(gè)指標(biāo)數(shù)據(jù)均值高,將類(lèi)型0定義為低流失風(fēng)險(xiǎn)客戶(hù);第二簇人群:3 135人,類(lèi)型1客戶(hù)EstimatedSalary偏高,Balance、CreditScore都是偏低的,將其定義為高流失風(fēng)險(xiǎn)客戶(hù);第三簇人群:3 057人,類(lèi)型2的三個(gè)指標(biāo)均值較高,定義為中流失風(fēng)險(xiǎn)客戶(hù)。
3 實(shí)證研究
3.1 融合模型預(yù)測(cè)
低流失風(fēng)險(xiǎn)客戶(hù)實(shí)驗(yàn)中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 500次alpha=0.000 1結(jié)果對(duì)比圖如圖3所示,從圖中可知對(duì)于該類(lèi)型客戶(hù)而言,XGBoost融合模型的準(zhǔn)確率提高了0.017 2,ANN融合模型的準(zhǔn)確率提高了0.032 0。高流失風(fēng)險(xiǎn)客戶(hù)實(shí)驗(yàn)中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 000次alpha=0.000 1結(jié)果對(duì)比圖如圖3所示,XGBoost融合模型的預(yù)測(cè)準(zhǔn)確率提高了0.060 7,ANN融合模型預(yù)測(cè)準(zhǔn)確率提高了0.055 1。中流失風(fēng)險(xiǎn)客戶(hù)實(shí)驗(yàn)中test_size=0.1,XGBoost的max_depth=2,ANN中訓(xùn)練1 500次alpha=0.000 1結(jié)果對(duì)比圖如圖3所示,XGBoost融合模型的準(zhǔn)確率提高了0.023 3,ANN融合模型的準(zhǔn)確率提高了0.021 9。
3.2 ANN-XGBoost組合模型預(yù)測(cè)
低流失風(fēng)險(xiǎn)客戶(hù)組合模型為[Tw2=0.5αX+0.5βY]時(shí)模型最優(yōu),組合模型準(zhǔn)確率比融合模型提高了0.0424,比單一模型分別提高了0.069 6、0.064 6;高流失風(fēng)險(xiǎn)客戶(hù)組合模型為[Tw2=0.6αX+0.4βY]時(shí)預(yù)測(cè)效果最好(最優(yōu)模型),組合模型準(zhǔn)確率比融合模型準(zhǔn)確率平均提高了0.05,比最初的單一模型分別提高了0.105 4、0.110 4;中流失風(fēng)險(xiǎn)客戶(hù)組合模型為[Tw2=0.4αX+0.6βY]時(shí)模型最優(yōu),中流失風(fēng)險(xiǎn)客戶(hù)K-Means-XGBoos融合模型的準(zhǔn)確率提高了0.023 3,K-Means-ANN的準(zhǔn)確率提高了0.021 9,XGBoost-ANN組合模型比融合模型準(zhǔn)確率平均提高了0.0287,比單一模型平均提高了0.051 3,各評(píng)價(jià)指標(biāo)對(duì)比圖如圖4所示。相較于前兩個(gè)階段而言,組合模型很大程度上提高了預(yù)測(cè)的準(zhǔn)確率,在K-Means聚類(lèi)的基礎(chǔ)上XGBoost與ANN組合對(duì)預(yù)測(cè)模型的改進(jìn)是有效的。
4 結(jié)束語(yǔ)
通過(guò)對(duì)多種機(jī)器學(xué)習(xí)算法的應(yīng)用,進(jìn)行特征的重要程度排序,進(jìn)一步確定流失預(yù)測(cè)所需要的重要指標(biāo),避免了特征的浪費(fèi)也避免的特征過(guò)度帶來(lái)的麻煩,結(jié)合特征工程、RFM模型理論等手段,建立K-Means聚類(lèi)模型實(shí)現(xiàn)更為科學(xué)化的客戶(hù)細(xì)分體系,分析影響客戶(hù)類(lèi)型的各項(xiàng)指標(biāo),更為準(zhǔn)確地進(jìn)行客戶(hù)的類(lèi)型。將K-Means與XGBoost、ANN融合對(duì)客戶(hù)流失進(jìn)行預(yù)測(cè),再將融合后的XGBoost與ANN結(jié)合,更好的反映客戶(hù)所處在的狀態(tài)以及在當(dāng)前狀態(tài)下結(jié)合該客戶(hù)的類(lèi)型能夠提出更貼合實(shí)際的策略。但是對(duì)于銀行客戶(hù)的價(jià)值體系,需要不斷完善和更改,適當(dāng)?shù)氖站o評(píng)估體系,同時(shí)在對(duì)客戶(hù)進(jìn)行聚類(lèi)分析的時(shí)候采用的是單一K-Means算法,應(yīng)考慮更新且改進(jìn)后的算法,如KNN或者加權(quán)值的K-Means算法。
參考文獻(xiàn):
[1] 張蕓.基于復(fù)合CatBoost的銀行客戶(hù)流失預(yù)測(cè)模型[D].蘭州:蘭州大學(xué),2021.
[2] 陳靜,余建波,李艷冰.基于隨機(jī)森林的用戶(hù)流失預(yù)警研究[J].精密制造與自動(dòng)化,2021(2):21-24,51.
[3] Becker J U,Spann M,Schulze T.Implications of minimum contract durations on customer retention[J].Marketing Letters,2015,26(4):579-592.
[4] 李波,謝玖祚.生成對(duì)抗網(wǎng)絡(luò)的銀行不平衡客戶(hù)流失預(yù)測(cè)研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35(8):136-143.
[5] 程勇,梁吉祥.基于數(shù)據(jù)挖掘的掌銀客戶(hù)流失預(yù)測(cè)建模方法研究[J].中國(guó)金融電腦,2019(8):10.
[6] 閆春,張馨予.基于改進(jìn)的K-means和BP-Adaboost的壽險(xiǎn)客戶(hù)流失預(yù)測(cè)算法研究[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,41(1):54-65.
[7] 劉玥.基于改進(jìn)的K-means算法的銀行客戶(hù)聚類(lèi)研究[D].長(zhǎng)春:吉林大學(xué),2016.
[8] 張安琳,張啟坤,黃道穎,等.基于CNN與BiGRU融合神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)模型[J].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2022,43(3):37-43.
[9] 劉海航.基于XGBoost和BP神經(jīng)網(wǎng)絡(luò)的會(huì)員流失預(yù)測(cè)及內(nèi)容推薦方法的研究[D].呼和浩特:內(nèi)蒙古大學(xué), 2019.
【通聯(lián)編輯:王力】