胡永培,張 琛
(1.徽商銀行 大數(shù)據(jù)部,安徽 合肥 230601;2.合肥學(xué)院 人工智能與大數(shù)據(jù)學(xué)院,安徽 合肥 230601)
隨著大數(shù)據(jù)、人工智能、區(qū)塊鏈技術(shù)的快速發(fā)展,利率市場(chǎng)化進(jìn)程不斷推進(jìn),銀行利差在逐漸收窄,傳統(tǒng)的經(jīng)營(yíng)模式已不能滿足日益變化的市場(chǎng)需要,各家銀行紛紛開展數(shù)字化轉(zhuǎn)型[1-2],銀行零售業(yè)務(wù)板塊表現(xiàn)的尤為迫切。
各家銀行零售客戶一直以來都表現(xiàn)出明顯的“二八定律”,更有甚者可能出現(xiàn)“一九定律”,即銀行20%的零售客戶貢獻(xiàn)了80%的零售利潤(rùn)[3],20%的客戶一般為各家銀行的優(yōu)質(zhì)客戶,是各家銀行重點(diǎn)維護(hù)的對(duì)象,所以各家銀行在努力拓展新的優(yōu)質(zhì)客戶的同時(shí),有效防止存量客戶資產(chǎn)下降同樣重要。有相關(guān)研究表明,客戶流失率下降5%,能給銀行多帶來25%~85%的零售利潤(rùn)[4]。挽回一個(gè)老客戶所花費(fèi)的成本遠(yuǎn)遠(yuǎn)低于拓展一個(gè)新客戶,因此如何找出影響客戶流失的關(guān)鍵因素,精準(zhǔn)預(yù)測(cè)客戶流失的可能性,是各家銀行挽回客戶的核心。
近年來,隨著客戶流失預(yù)警越來越被關(guān)注,國(guó)內(nèi)外相關(guān)學(xué)者也對(duì)此進(jìn)行了很多的研究,不斷提高模型預(yù)測(cè)的準(zhǔn)確性。張宇[5]使用C5.0分析了企業(yè)客戶流失預(yù)測(cè)模型。Prasad 和Madhavi[6]分別用CART和C5.0兩種方法分析了銀行業(yè)客戶流失情況。丁君美[7]使用隨機(jī)森林分析了電信業(yè)客戶流失問題。楊力[8]采用極限學(xué)習(xí)機(jī)分析了電子商務(wù)客戶流失量預(yù)測(cè)模型。為了克服客戶流失數(shù)據(jù)集的不平衡性,Lemmens和Croux[9]引入了集成學(xué)習(xí);Nikulin和Mclachlan[10]提出用平衡的隨機(jī)數(shù)據(jù)集為不平衡的客戶流失數(shù)據(jù)進(jìn)行分類;Karthik[11]將屬性選擇引入了客戶流失模型中。
為了提高預(yù)測(cè)的準(zhǔn)確率,一般需要進(jìn)行屬性選擇,屬性約簡(jiǎn)可以減少樣本空間維數(shù),剔除無關(guān)的、影響較小的屬性,提高預(yù)測(cè)的準(zhǔn)確率。而聚類是屬性選擇的一種方式,通過聚類將相似的一類屬性聚在一起,然后在每一類中選擇代表屬性,構(gòu)成屬性子集,使用屬性子集進(jìn)行預(yù)測(cè)。該文擬計(jì)算屬性區(qū)分能力,將其作為相似性度量依據(jù),然后使用Affinity Propagation Clustering(AP)[12-13]聚類方法進(jìn)行聚類。達(dá)到屬性選擇的目的。
從現(xiàn)有研究來看,各項(xiàng)研究主要集中在針對(duì)模型預(yù)測(cè)準(zhǔn)確性的提高,缺乏根據(jù)銀行實(shí)際營(yíng)銷過程中關(guān)注的重點(diǎn)客群進(jìn)行流失研究,因此針對(duì)銀行實(shí)際關(guān)注的客群進(jìn)行流失模型的建立,對(duì)流失客戶的挽回有著更加重要的意義。
綜上,針對(duì)銀行實(shí)際關(guān)注的客群進(jìn)行流失挽回,對(duì)各家銀行具有重要意義。該文與以往研究稍有不同,以某商業(yè)銀行為例,根據(jù)銀行實(shí)際營(yíng)銷現(xiàn)狀,重新對(duì)客戶流失進(jìn)行定義,重點(diǎn)關(guān)注銀行優(yōu)質(zhì)客戶,并利用隨機(jī)森林方法建立客戶流失預(yù)警模型,預(yù)測(cè)零售優(yōu)質(zhì)客戶未來3個(gè)月流失的可能性。
AP聚類算法是由Freya等人在2007年提出的一種快速、有效的聚類方法,該方法通過消息傳遞實(shí)現(xiàn)聚類,無需事先指定聚類數(shù)目。實(shí)際上對(duì)于很多的實(shí)際問題,是無法事先知道聚類個(gè)數(shù)的。
AP算法用歐氏距離衡量相似性,任意兩點(diǎn)xi與xk之間的相似度為:
(1)
AP算法引入兩類信息:吸引信息r(i,k),是從xi指向候選代表點(diǎn)xk,反映了xk適合作為xi的類代表點(diǎn)所積累的證據(jù);歸屬信息a(i,k),是從候選代表點(diǎn)xk指向xi,反映了xi選擇xk作為其代表點(diǎn)的合適程度所聚類的證據(jù)。迭代中,這兩個(gè)信息交替更新:
r(i,k)←
(2)
a(i,k')←
(3)
在AP算法中引入阻尼因子λ(λ∈[0,1]),阻尼因子能夠提高收斂性,克服迭代中的震蕩現(xiàn)象,每一次的迭代更新均由上次迭代結(jié)果和本次更新得到。
r(τ+1)(i,k)←
(1-λ)r(τ+1)(i,k)+λr(τ)(i,k)
(4)
a(τ+1)(i,k)←
(1-λ)a(τ+1)(i,k)+λa(τ)(i,k)
(5)
其中,τ為當(dāng)前迭代時(shí)刻,通過a(i,k)和r(i,k)的交替更新,所確定的最優(yōu)類代表點(diǎn)為:
(6)
屬性選擇采用屬性的區(qū)分能力來度量屬性相似性,利用聚類方法將屬性區(qū)分能力相似的屬性聚為同一類簇,然后選取各類簇的聚類中心屬性作為代表屬性,那么,所有類簇的代表屬性集合即為屬性集合的約簡(jiǎn)結(jié)果[14]。具體步驟如下:
(1)數(shù)據(jù)離散化;
(2)計(jì)算條件屬性對(duì)決策屬性的重要度作為屬性的區(qū)分能力;
(3)采用AP算法將相似性屬性聚為一類;
(4)將聚類后的類簇聚類中心作為代表屬性;
(5)所有類簇的代表屬性集合即為屬性約簡(jiǎn)集合。
隨機(jī)森林RF(random forest)是一種基于集成學(xué)習(xí)的算法[15],是一個(gè)包含多個(gè)決策樹的分類器,將多棵決策樹集成起來,得到最終的分類結(jié)果。隨機(jī)森林從N個(gè)樣本中采用可放回抽樣方法重復(fù)抽取N個(gè)樣本,每個(gè)決策樹的節(jié)點(diǎn)從所有屬性m中隨機(jī)選擇p(p?m)個(gè)屬性,使用Gini指數(shù)生成非剪枝的CART決策樹。采用上述方法構(gòu)造多棵決策樹,將這些決策樹集合起來構(gòu)成隨機(jī)森林。隨機(jī)森林先采用隨機(jī)抽樣方法抽取樣本,然后隨機(jī)選擇分類屬性,因此,隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象。
隨機(jī)森林的算法如下所述:
(1)假設(shè)存在數(shù)據(jù)集D={xi1,xi2,…,xim,yi}(i∈[1,N]),采用Bootstraping方法從N個(gè)訓(xùn)練樣本中有放回地抽取N個(gè)訓(xùn)練樣本,共進(jìn)行k輪,得到k個(gè)訓(xùn)練集。
(2)在每個(gè)訓(xùn)練集上,從m個(gè)屬性中隨機(jī)選擇p個(gè)屬性,每個(gè)抽樣訓(xùn)練集為dj={xi1,xi2,…,xip,yi}(i∈[1,N]),j∈[1,k],共訓(xùn)練生成k棵CART決策樹hj(x),j∈[1,k]。
(3)采用多數(shù)投票法,對(duì)k個(gè)決策樹的分類結(jié)果進(jìn)行集成,得到最終的分類結(jié)果,H(x)=φ(hj(x)),j∈[1,k],其中φ(x)是多數(shù)投票法。
具體流程見圖1[16]。
圖1 隨機(jī)森林模型構(gòu)造流程
為了驗(yàn)證隨機(jī)森林方法優(yōu)于一般的分類算法,該文在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行驗(yàn)證。
數(shù)據(jù)集如表1所示。
表1 實(shí)驗(yàn)所用數(shù)據(jù)集情況
分別使用CART算法和隨機(jī)森林(RF)在上述數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果如表2所示。
表2 CART與隨機(jī)森林在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
從表2可以看出,采用隨機(jī)森林方法在準(zhǔn)確率、精確率、召回率和F值上均優(yōu)于單個(gè)分類算法CART,因此該文采用隨機(jī)森林方法來搭建銀行客戶流失模型。
該文將AP聚類算法和隨機(jī)森林用于某商業(yè)銀行的零售優(yōu)質(zhì)客戶流失預(yù)警,預(yù)測(cè)未來3個(gè)月客戶流失的可能性,并與CART決策樹方法進(jìn)行對(duì)比分析。其中優(yōu)質(zhì)客戶指月日均資產(chǎn)大于等于5萬元以上的客戶。
2.2.1 構(gòu)造數(shù)據(jù)集
本次研究以某商業(yè)銀行零售客戶流失預(yù)警數(shù)據(jù)進(jìn)行實(shí)證研究,數(shù)據(jù)時(shí)間窗口為2018年7月到2019年3月。2018年7~12月設(shè)定為觀察期,2019年1~3月設(shè)定為表現(xiàn)期。流失客戶的定義:客戶T月月日均資產(chǎn)達(dá)到5萬及以上,后三個(gè)月(T+1,T+2,T+3)月日均資產(chǎn)均較T月下降30%以上。
為保證模型數(shù)據(jù)的有效性,該文從某商業(yè)銀行所有樣本中隨機(jī)挑選了10萬條樣本數(shù)據(jù),并保證樣本的正負(fù)樣本與商業(yè)銀行總體樣本分布一致。由于流失客戶數(shù)據(jù)集是不平衡數(shù)據(jù)集,而不平衡數(shù)據(jù)集對(duì)模型預(yù)測(cè)效果是有影響的,為了消除不平衡數(shù)據(jù)集對(duì)模型的影響,采用隨機(jī)向上(過)采樣技術(shù)(random over sampling,ROS)平衡訓(xùn)練樣本集中不同類別的樣本數(shù)量。
2.2.2 模型指標(biāo)構(gòu)建
從業(yè)務(wù)的角度出發(fā),根據(jù)影響零售客戶流失的因素,結(jié)合指標(biāo)的數(shù)據(jù)質(zhì)量,從客戶基本信息、交易信息、資產(chǎn)負(fù)債信息、簽約信息、偏好信息、渠道信息以及其他關(guān)聯(lián)信息等角度選取了181個(gè)影響指標(biāo),作為本次模型構(gòu)建的初始指標(biāo)。
在使用隨機(jī)森林建模之前,需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,首先對(duì)缺失值和異常值進(jìn)行預(yù)處理,例如產(chǎn)品類指標(biāo),針對(duì)理財(cái)余額、定期存款余額存在缺失值的情況取0處理,年齡超過100歲的按100處理,因客戶群體本身為優(yōu)質(zhì)客戶,數(shù)據(jù)質(zhì)量相對(duì)較好,缺失值處理較少。其次將字符型變量轉(zhuǎn)化為數(shù)值型標(biāo)量,并采用Z-score方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
在標(biāo)準(zhǔn)化處理以后,采用基于AP聚類的屬性約簡(jiǎn)方法進(jìn)行屬性選擇,通過對(duì)原始的181個(gè)指標(biāo)進(jìn)行篩選后,最終得到16個(gè)指標(biāo)用于構(gòu)建隨機(jī)森林模型,具體見表3。
表3 影響客戶流失的相關(guān)指標(biāo)
2.2.3 模型評(píng)價(jià)指標(biāo)
為了驗(yàn)證隨機(jī)森林模型的實(shí)際效果,采用常用的準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F值(F-measure)作為客戶流失模型的評(píng)價(jià)標(biāo)準(zhǔn)。
設(shè)預(yù)測(cè)為流失的客戶中,tt為實(shí)際流失客戶數(shù),tf為實(shí)際未流失客戶數(shù);預(yù)測(cè)為未流失的客戶中,ft為實(shí)際流失客戶數(shù),ff為實(shí)際未流失客戶數(shù)。
準(zhǔn)確率為預(yù)測(cè)正確的客戶數(shù)占全部樣本的比例:
(7)
精確率為預(yù)測(cè)正確的流失客戶占預(yù)測(cè)為流失客戶比例:
(8)
召回率為預(yù)測(cè)正確的流失客戶占實(shí)際流失客戶的比例:
(9)
F統(tǒng)計(jì)值為:
(10)
該文采用5-fold交叉驗(yàn)證來評(píng)估構(gòu)造的模型??偣策M(jìn)行5次5-fold交叉驗(yàn)證,驗(yàn)證結(jié)果取平均值作為5次5-fold交叉驗(yàn)證的結(jié)果,具體見表4。
表4 5次5-fold交叉驗(yàn)證結(jié)果 %
同時(shí)運(yùn)用傳統(tǒng)的CART決策樹算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),與隨機(jī)森林進(jìn)行對(duì)比,具體評(píng)價(jià)指標(biāo)見表5。從表5中可以看出,隨機(jī)森林算法具有較高的準(zhǔn)確率,以及較好的精確率、召回率和F值,遠(yuǎn)好于CART算法,說明隨機(jī)森林模型更加可靠,預(yù)測(cè)性更好。
表5 隨機(jī)森林方法與CART決策樹的對(duì)比結(jié)果 %
針對(duì)銀行實(shí)際關(guān)注的零售優(yōu)質(zhì)客戶群體,重新定義零售流失客戶,并構(gòu)建了基于AP聚類算法和隨機(jī)森林算法的零售客戶流失模型,在銀行零售流失預(yù)警的評(píng)估結(jié)果中表現(xiàn)出較好的效果,在銀行實(shí)際運(yùn)用中具有更加重要的意義。
計(jì)算機(jī)技術(shù)與發(fā)展2021年2期