亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AP聚類與隨機(jī)森林的客戶流失預(yù)測(cè)研究

        2021-03-08 01:06:10胡永培
        關(guān)鍵詞:銀行模型

        胡永培,張 琛

        (1.徽商銀行 大數(shù)據(jù)部,安徽 合肥 230601;2.合肥學(xué)院 人工智能與大數(shù)據(jù)學(xué)院,安徽 合肥 230601)

        0 引 言

        隨著大數(shù)據(jù)、人工智能、區(qū)塊鏈技術(shù)的快速發(fā)展,利率市場(chǎng)化進(jìn)程不斷推進(jìn),銀行利差在逐漸收窄,傳統(tǒng)的經(jīng)營(yíng)模式已不能滿足日益變化的市場(chǎng)需要,各家銀行紛紛開展數(shù)字化轉(zhuǎn)型[1-2],銀行零售業(yè)務(wù)板塊表現(xiàn)的尤為迫切。

        各家銀行零售客戶一直以來都表現(xiàn)出明顯的“二八定律”,更有甚者可能出現(xiàn)“一九定律”,即銀行20%的零售客戶貢獻(xiàn)了80%的零售利潤(rùn)[3],20%的客戶一般為各家銀行的優(yōu)質(zhì)客戶,是各家銀行重點(diǎn)維護(hù)的對(duì)象,所以各家銀行在努力拓展新的優(yōu)質(zhì)客戶的同時(shí),有效防止存量客戶資產(chǎn)下降同樣重要。有相關(guān)研究表明,客戶流失率下降5%,能給銀行多帶來25%~85%的零售利潤(rùn)[4]。挽回一個(gè)老客戶所花費(fèi)的成本遠(yuǎn)遠(yuǎn)低于拓展一個(gè)新客戶,因此如何找出影響客戶流失的關(guān)鍵因素,精準(zhǔn)預(yù)測(cè)客戶流失的可能性,是各家銀行挽回客戶的核心。

        近年來,隨著客戶流失預(yù)警越來越被關(guān)注,國(guó)內(nèi)外相關(guān)學(xué)者也對(duì)此進(jìn)行了很多的研究,不斷提高模型預(yù)測(cè)的準(zhǔn)確性。張宇[5]使用C5.0分析了企業(yè)客戶流失預(yù)測(cè)模型。Prasad 和Madhavi[6]分別用CART和C5.0兩種方法分析了銀行業(yè)客戶流失情況。丁君美[7]使用隨機(jī)森林分析了電信業(yè)客戶流失問題。楊力[8]采用極限學(xué)習(xí)機(jī)分析了電子商務(wù)客戶流失量預(yù)測(cè)模型。為了克服客戶流失數(shù)據(jù)集的不平衡性,Lemmens和Croux[9]引入了集成學(xué)習(xí);Nikulin和Mclachlan[10]提出用平衡的隨機(jī)數(shù)據(jù)集為不平衡的客戶流失數(shù)據(jù)進(jìn)行分類;Karthik[11]將屬性選擇引入了客戶流失模型中。

        為了提高預(yù)測(cè)的準(zhǔn)確率,一般需要進(jìn)行屬性選擇,屬性約簡(jiǎn)可以減少樣本空間維數(shù),剔除無關(guān)的、影響較小的屬性,提高預(yù)測(cè)的準(zhǔn)確率。而聚類是屬性選擇的一種方式,通過聚類將相似的一類屬性聚在一起,然后在每一類中選擇代表屬性,構(gòu)成屬性子集,使用屬性子集進(jìn)行預(yù)測(cè)。該文擬計(jì)算屬性區(qū)分能力,將其作為相似性度量依據(jù),然后使用Affinity Propagation Clustering(AP)[12-13]聚類方法進(jìn)行聚類。達(dá)到屬性選擇的目的。

        從現(xiàn)有研究來看,各項(xiàng)研究主要集中在針對(duì)模型預(yù)測(cè)準(zhǔn)確性的提高,缺乏根據(jù)銀行實(shí)際營(yíng)銷過程中關(guān)注的重點(diǎn)客群進(jìn)行流失研究,因此針對(duì)銀行實(shí)際關(guān)注的客群進(jìn)行流失模型的建立,對(duì)流失客戶的挽回有著更加重要的意義。

        綜上,針對(duì)銀行實(shí)際關(guān)注的客群進(jìn)行流失挽回,對(duì)各家銀行具有重要意義。該文與以往研究稍有不同,以某商業(yè)銀行為例,根據(jù)銀行實(shí)際營(yíng)銷現(xiàn)狀,重新對(duì)客戶流失進(jìn)行定義,重點(diǎn)關(guān)注銀行優(yōu)質(zhì)客戶,并利用隨機(jī)森林方法建立客戶流失預(yù)警模型,預(yù)測(cè)零售優(yōu)質(zhì)客戶未來3個(gè)月流失的可能性。

        1 相關(guān)算法

        1.1 AP聚類

        AP聚類算法是由Freya等人在2007年提出的一種快速、有效的聚類方法,該方法通過消息傳遞實(shí)現(xiàn)聚類,無需事先指定聚類數(shù)目。實(shí)際上對(duì)于很多的實(shí)際問題,是無法事先知道聚類個(gè)數(shù)的。

        AP算法用歐氏距離衡量相似性,任意兩點(diǎn)xi與xk之間的相似度為:

        (1)

        AP算法引入兩類信息:吸引信息r(i,k),是從xi指向候選代表點(diǎn)xk,反映了xk適合作為xi的類代表點(diǎn)所積累的證據(jù);歸屬信息a(i,k),是從候選代表點(diǎn)xk指向xi,反映了xi選擇xk作為其代表點(diǎn)的合適程度所聚類的證據(jù)。迭代中,這兩個(gè)信息交替更新:

        r(i,k)←

        (2)

        a(i,k')←

        (3)

        在AP算法中引入阻尼因子λ(λ∈[0,1]),阻尼因子能夠提高收斂性,克服迭代中的震蕩現(xiàn)象,每一次的迭代更新均由上次迭代結(jié)果和本次更新得到。

        r(τ+1)(i,k)←

        (1-λ)r(τ+1)(i,k)+λr(τ)(i,k)

        (4)

        a(τ+1)(i,k)←

        (1-λ)a(τ+1)(i,k)+λa(τ)(i,k)

        (5)

        其中,τ為當(dāng)前迭代時(shí)刻,通過a(i,k)和r(i,k)的交替更新,所確定的最優(yōu)類代表點(diǎn)為:

        (6)

        1.2 基于AP聚類的屬性選擇方法

        屬性選擇采用屬性的區(qū)分能力來度量屬性相似性,利用聚類方法將屬性區(qū)分能力相似的屬性聚為同一類簇,然后選取各類簇的聚類中心屬性作為代表屬性,那么,所有類簇的代表屬性集合即為屬性集合的約簡(jiǎn)結(jié)果[14]。具體步驟如下:

        (1)數(shù)據(jù)離散化;

        (2)計(jì)算條件屬性對(duì)決策屬性的重要度作為屬性的區(qū)分能力;

        (3)采用AP算法將相似性屬性聚為一類;

        (4)將聚類后的類簇聚類中心作為代表屬性;

        (5)所有類簇的代表屬性集合即為屬性約簡(jiǎn)集合。

        1.3 隨機(jī)森林

        隨機(jī)森林RF(random forest)是一種基于集成學(xué)習(xí)的算法[15],是一個(gè)包含多個(gè)決策樹的分類器,將多棵決策樹集成起來,得到最終的分類結(jié)果。隨機(jī)森林從N個(gè)樣本中采用可放回抽樣方法重復(fù)抽取N個(gè)樣本,每個(gè)決策樹的節(jié)點(diǎn)從所有屬性m中隨機(jī)選擇p(p?m)個(gè)屬性,使用Gini指數(shù)生成非剪枝的CART決策樹。采用上述方法構(gòu)造多棵決策樹,將這些決策樹集合起來構(gòu)成隨機(jī)森林。隨機(jī)森林先采用隨機(jī)抽樣方法抽取樣本,然后隨機(jī)選擇分類屬性,因此,隨機(jī)森林不會(huì)產(chǎn)生過擬合現(xiàn)象。

        隨機(jī)森林的算法如下所述:

        (1)假設(shè)存在數(shù)據(jù)集D={xi1,xi2,…,xim,yi}(i∈[1,N]),采用Bootstraping方法從N個(gè)訓(xùn)練樣本中有放回地抽取N個(gè)訓(xùn)練樣本,共進(jìn)行k輪,得到k個(gè)訓(xùn)練集。

        (2)在每個(gè)訓(xùn)練集上,從m個(gè)屬性中隨機(jī)選擇p個(gè)屬性,每個(gè)抽樣訓(xùn)練集為dj={xi1,xi2,…,xip,yi}(i∈[1,N]),j∈[1,k],共訓(xùn)練生成k棵CART決策樹hj(x),j∈[1,k]。

        (3)采用多數(shù)投票法,對(duì)k個(gè)決策樹的分類結(jié)果進(jìn)行集成,得到最終的分類結(jié)果,H(x)=φ(hj(x)),j∈[1,k],其中φ(x)是多數(shù)投票法。

        具體流程見圖1[16]。

        圖1 隨機(jī)森林模型構(gòu)造流程

        2 基于隨機(jī)森林的銀行優(yōu)質(zhì)客戶流失預(yù)測(cè)方法研究

        2.1 隨機(jī)森林在UCI數(shù)據(jù)集上的驗(yàn)證

        為了驗(yàn)證隨機(jī)森林方法優(yōu)于一般的分類算法,該文在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行驗(yàn)證。

        數(shù)據(jù)集如表1所示。

        表1 實(shí)驗(yàn)所用數(shù)據(jù)集情況

        分別使用CART算法和隨機(jī)森林(RF)在上述數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果如表2所示。

        表2 CART與隨機(jī)森林在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        從表2可以看出,采用隨機(jī)森林方法在準(zhǔn)確率、精確率、召回率和F值上均優(yōu)于單個(gè)分類算法CART,因此該文采用隨機(jī)森林方法來搭建銀行客戶流失模型。

        2.2 基于隨機(jī)森林的銀行優(yōu)質(zhì)客戶流失預(yù)測(cè)方法研究

        該文將AP聚類算法和隨機(jī)森林用于某商業(yè)銀行的零售優(yōu)質(zhì)客戶流失預(yù)警,預(yù)測(cè)未來3個(gè)月客戶流失的可能性,并與CART決策樹方法進(jìn)行對(duì)比分析。其中優(yōu)質(zhì)客戶指月日均資產(chǎn)大于等于5萬元以上的客戶。

        2.2.1 構(gòu)造數(shù)據(jù)集

        本次研究以某商業(yè)銀行零售客戶流失預(yù)警數(shù)據(jù)進(jìn)行實(shí)證研究,數(shù)據(jù)時(shí)間窗口為2018年7月到2019年3月。2018年7~12月設(shè)定為觀察期,2019年1~3月設(shè)定為表現(xiàn)期。流失客戶的定義:客戶T月月日均資產(chǎn)達(dá)到5萬及以上,后三個(gè)月(T+1,T+2,T+3)月日均資產(chǎn)均較T月下降30%以上。

        為保證模型數(shù)據(jù)的有效性,該文從某商業(yè)銀行所有樣本中隨機(jī)挑選了10萬條樣本數(shù)據(jù),并保證樣本的正負(fù)樣本與商業(yè)銀行總體樣本分布一致。由于流失客戶數(shù)據(jù)集是不平衡數(shù)據(jù)集,而不平衡數(shù)據(jù)集對(duì)模型預(yù)測(cè)效果是有影響的,為了消除不平衡數(shù)據(jù)集對(duì)模型的影響,采用隨機(jī)向上(過)采樣技術(shù)(random over sampling,ROS)平衡訓(xùn)練樣本集中不同類別的樣本數(shù)量。

        2.2.2 模型指標(biāo)構(gòu)建

        從業(yè)務(wù)的角度出發(fā),根據(jù)影響零售客戶流失的因素,結(jié)合指標(biāo)的數(shù)據(jù)質(zhì)量,從客戶基本信息、交易信息、資產(chǎn)負(fù)債信息、簽約信息、偏好信息、渠道信息以及其他關(guān)聯(lián)信息等角度選取了181個(gè)影響指標(biāo),作為本次模型構(gòu)建的初始指標(biāo)。

        在使用隨機(jī)森林建模之前,需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,首先對(duì)缺失值和異常值進(jìn)行預(yù)處理,例如產(chǎn)品類指標(biāo),針對(duì)理財(cái)余額、定期存款余額存在缺失值的情況取0處理,年齡超過100歲的按100處理,因客戶群體本身為優(yōu)質(zhì)客戶,數(shù)據(jù)質(zhì)量相對(duì)較好,缺失值處理較少。其次將字符型變量轉(zhuǎn)化為數(shù)值型標(biāo)量,并采用Z-score方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

        在標(biāo)準(zhǔn)化處理以后,采用基于AP聚類的屬性約簡(jiǎn)方法進(jìn)行屬性選擇,通過對(duì)原始的181個(gè)指標(biāo)進(jìn)行篩選后,最終得到16個(gè)指標(biāo)用于構(gòu)建隨機(jī)森林模型,具體見表3。

        表3 影響客戶流失的相關(guān)指標(biāo)

        2.2.3 模型評(píng)價(jià)指標(biāo)

        為了驗(yàn)證隨機(jī)森林模型的實(shí)際效果,采用常用的準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F值(F-measure)作為客戶流失模型的評(píng)價(jià)標(biāo)準(zhǔn)。

        設(shè)預(yù)測(cè)為流失的客戶中,tt為實(shí)際流失客戶數(shù),tf為實(shí)際未流失客戶數(shù);預(yù)測(cè)為未流失的客戶中,ft為實(shí)際流失客戶數(shù),ff為實(shí)際未流失客戶數(shù)。

        準(zhǔn)確率為預(yù)測(cè)正確的客戶數(shù)占全部樣本的比例:

        (7)

        精確率為預(yù)測(cè)正確的流失客戶占預(yù)測(cè)為流失客戶比例:

        (8)

        召回率為預(yù)測(cè)正確的流失客戶占實(shí)際流失客戶的比例:

        (9)

        F統(tǒng)計(jì)值為:

        (10)

        2.3 實(shí)驗(yàn)結(jié)果

        該文采用5-fold交叉驗(yàn)證來評(píng)估構(gòu)造的模型??偣策M(jìn)行5次5-fold交叉驗(yàn)證,驗(yàn)證結(jié)果取平均值作為5次5-fold交叉驗(yàn)證的結(jié)果,具體見表4。

        表4 5次5-fold交叉驗(yàn)證結(jié)果 %

        同時(shí)運(yùn)用傳統(tǒng)的CART決策樹算法對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),與隨機(jī)森林進(jìn)行對(duì)比,具體評(píng)價(jià)指標(biāo)見表5。從表5中可以看出,隨機(jī)森林算法具有較高的準(zhǔn)確率,以及較好的精確率、召回率和F值,遠(yuǎn)好于CART算法,說明隨機(jī)森林模型更加可靠,預(yù)測(cè)性更好。

        表5 隨機(jī)森林方法與CART決策樹的對(duì)比結(jié)果 %

        3 結(jié)束語

        針對(duì)銀行實(shí)際關(guān)注的零售優(yōu)質(zhì)客戶群體,重新定義零售流失客戶,并構(gòu)建了基于AP聚類算法和隨機(jī)森林算法的零售客戶流失模型,在銀行零售流失預(yù)警的評(píng)估結(jié)果中表現(xiàn)出較好的效果,在銀行實(shí)際運(yùn)用中具有更加重要的意義。

        猜你喜歡
        銀行模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        10Gb/s transmit equalizer using duobinary signaling over FR4 backplane①
        中關(guān)村銀行、蘇寧銀行獲批籌建 三湘銀行將開業(yè)
        銀行家(2017年1期)2017-02-15 20:27:53
        ??到拥貧獾摹巴零y行”
        3D打印中的模型分割與打包
        “存夢(mèng)銀行”破產(chǎn)記
        銀行激進(jìn)求變
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产av综合网站不卡| 天啦噜国产精品亚洲精品| 亚洲一区二区国产精品视频| 国产精品一区二区熟女不卡| 国产在线精品一区二区三区| 射死你天天日| 日韩中文字幕一区二区高清| 日本高清在线一区二区三区| 精品天堂色吊丝一区二区| 日本老熟妇50岁丰满| 免费av在线国模| 成人全视频在线观看免费播放| 亚洲高清在线免费视频| 97人人模人人爽人人少妇| 欧美在线不卡视频| 亚洲av一区二区三区网站| 亚洲精品国产第一综合色吧| 久久久无码人妻精品一区 | 日本精品网| 国内精品女同一区二区三区| 无套熟女av呻吟在线观看| 免费看泡妞视频app| 91福利国产在线观一区二区| 日本高清成人一区二区三区| 天天躁夜夜躁狠狠是什么心态| 被群cao的合不拢腿h纯肉视频| 白白色发布在线播放国产| 国产色第一区不卡高清| 疯狂做受xxxx高潮视频免费| 1000部精品久久久久久久久| 国产熟女av一区二区三区四季| 少妇被按摩出高潮了一区二区| 免费无码毛片一区二区app| 欧洲中文字幕| 视频在线播放观看免费| 激情综合色综合啪啪开心| 亚洲欧美日韩国产精品专区| 国产午夜精品久久久久九九| 91偷拍与自偷拍亚洲精品86| 97人人模人人爽人人少妇| 在线精品日韩一区二区三区|