亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的銀行客戶流失預(yù)測

        2022-08-08 02:56:14謝宇許紅
        關(guān)鍵詞:分類特征用戶

        謝宇 許紅

        (成都信息工程大學(xué) 四川成都 610103)

        一、引言及文獻(xiàn)綜述

        在第三次工業(yè)革命的推動下,信息時代繼往開來,重塑了各行各業(yè),其中金融業(yè)也不例外。中國人民銀行、工業(yè)和信息化部、公安部等十部委聯(lián)合發(fā)布《關(guān)于促進(jìn)互聯(lián)網(wǎng)金融健康發(fā)展的指導(dǎo)意見》,落實了互聯(lián)網(wǎng)支付、眾籌融資和互聯(lián)網(wǎng)消費金融等業(yè)態(tài)的監(jiān)管責(zé)任,明確其業(yè)務(wù)邊界?;ヂ?lián)網(wǎng)公司的入局,一方面爭奪傳統(tǒng)金融業(yè)的市場份額,另一方面以客戶至上為核心的理念在算法和流量加持下得到長足發(fā)展。歸根結(jié)底,這是對客戶的爭奪。很多銀行總是不停地獲得新用戶,而對于現(xiàn)有客戶缺少關(guān)注。而現(xiàn)在,金融市場用戶增長放緩,拉取新用戶的成本遠(yuǎn)高于維護(hù)現(xiàn)有客戶的成本,且現(xiàn)有客戶也有著更高的價值。更嚴(yán)重的是,流失的客戶會壯大競爭對手的客戶隊伍和規(guī)模,還會導(dǎo)致銀行的聲譽受損。

        針對潛在流失客戶進(jìn)行積極聯(lián)系和營銷活動,可以極大挖掘這部分用戶的價值。這也是在私域流量大熱下,銀行日常運營應(yīng)當(dāng)關(guān)注的重點工作,根據(jù)客戶現(xiàn)有特征,預(yù)測客戶流失意向,有的放矢地進(jìn)行召回,是提升銀行運營能力的關(guān)鍵一步。

        對于客戶流失的研究,一般集中于三個方面。

        首先是關(guān)于客戶流失因素的探究。國外學(xué)者提出服務(wù)缺失、定價問題、便利性缺失是商業(yè)銀行客戶流失的主要原因。國內(nèi)學(xué)者在對流失因素進(jìn)行多角度分析后,建立忠誠用戶分類模型,專門針對商業(yè)銀行客戶流失因素進(jìn)行相關(guān)性分析,并指出主動交易時間間隔最為重要。

        其次是對于客戶流失的預(yù)測研究??蛻袅魇栴}屬于分類問題,國內(nèi)外學(xué)者運用邏輯回歸、決策樹、隨機(jī)森林及神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行相關(guān)研究。盧美琴結(jié)合某商業(yè)銀行客戶流失狀況,運用決策樹進(jìn)行客戶流失預(yù)測,再采用聚類方法進(jìn)行用戶分類,提出挽救措施。

        最后是客戶的挽回策略研究。國外學(xué)者Farquhar通過與英國銀行業(yè)各級職員訪談,指出客戶價值、品牌價值、產(chǎn)品質(zhì)量和管理渠道等七個要素是挽留客戶的關(guān)鍵要素。國內(nèi)學(xué)者陳明亮根據(jù)客戶的當(dāng)前價值和未來潛在價值進(jìn)行分類,根據(jù)每類客戶的特征制定召回策略。李賽結(jié)合金融互聯(lián)網(wǎng)背景下的外部壓力,提出多渠道發(fā)揮優(yōu)勢,差異化提供產(chǎn)品,提升用戶體驗的對策。

        二、理論準(zhǔn)備

        (一)相關(guān)算法介紹

        本文涉及的建模問題為機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),屬于分類問題中的二分類,有較多的經(jīng)典模型可以使用。本文擬采用及時性和效果均得到認(rèn)可的主流分類機(jī)器學(xué)習(xí)模型,如表1所示。

        表1 主要分類器

        (二)分類評價指標(biāo)

        本文需針對客戶的信息,構(gòu)建分類模型以預(yù)測客戶流失情況。在實際的生產(chǎn)情況下,流失的用戶所占比例較大幅度低于留存客戶,所以該問題又屬于樣本不平衡的分類問題。對于此類問題,除了平時常用的基于ROC(Receiver Operating Characteristic)的曲線AUC(Area Under Curve),評價指標(biāo)需要顧及多個方面,尤其是要關(guān)注召回率。本文結(jié)合混淆矩陣,對準(zhǔn)確率、召回率指標(biāo)進(jìn)行簡單介紹。

        在監(jiān)督學(xué)習(xí)中,通常將關(guān)注的類看作正類,一般標(biāo)注為1,其余的類為負(fù)類(標(biāo)注為0),根據(jù)分類器在測試集的預(yù)測結(jié)果,將以上實際情況和預(yù)測結(jié)果進(jìn)行兩兩組合,可以得到四種情況的數(shù)量情況,分別是:Ture Positive(TP)——正類預(yù)測為正類數(shù);False Negative(FN)——正類預(yù)測為負(fù)類數(shù);False Positive(FP)——負(fù)類預(yù)測為正類數(shù);True Negative(TN)——負(fù)類預(yù)測為負(fù)類數(shù)?;诖?,部分常用指標(biāo)如表2所示。

        表2 常用評價指標(biāo)

        三、數(shù)據(jù)準(zhǔn)備及清洗

        (一)數(shù)據(jù)來源

        本文所用數(shù)據(jù)來自kaggle——創(chuàng)建于2010年的數(shù)據(jù)科學(xué)競賽平臺。該平臺通過眾包的形式,由一方發(fā)布數(shù)據(jù)或者問題,平臺用戶提供解決方案。本文所用數(shù)據(jù)是一份銀行客戶流失數(shù)據(jù),總共有10000個樣本,含有年齡、地區(qū)、賬戶余額和購買產(chǎn)品數(shù)等14個特征。

        (二)數(shù)據(jù)基本情況

        從流失客戶比例來看,在10000個樣本數(shù)據(jù)中,流失客戶占比為20.4%,屬于一般不均衡問題。

        再看部分分類特征,其柱狀圖如圖1所示。從中可以看出,在地區(qū)上,法國人數(shù)最多,西班牙與德國人數(shù)相當(dāng)。有趣的是,德國的流失客戶反而最多,法國整體的運營情況良好。在性別上,男性人數(shù)高于女性,但其流失客戶數(shù)略低于女性。這說明男性客戶相對更為穩(wěn)定,而女性用戶則是需要特別維護(hù)。有信用卡用戶的數(shù)量是無信用卡用戶的兩倍,但是流失比例在有無信用卡方面差距不大,這也是與常識略有不同的地方?;钴S客戶人數(shù)略高于非活躍客戶,但是活躍客戶流失比例低于非活躍客戶。銀行或考慮通過一些活動,促進(jìn)非活躍客戶轉(zhuǎn)化為活躍客戶。

        圖1 分類變量與流失客戶柱狀圖

        部分連續(xù)型變量與客戶流失情況的箱線圖如圖2。從年齡來看,流失客戶的年齡分布極端值較少,但是流失客戶的年齡整體大于未流失客戶。未流失客戶的分布相較于流失客戶較為集中,銀行應(yīng)當(dāng)更加關(guān)注新獲取的用戶和高于平均留存年限的客戶。令人擔(dān)憂的是,流失客戶的賬戶余額分布更為均勻,且數(shù)額更大,這或許是由于含有部分加入時間長的客戶。而在用戶的信用分?jǐn)?shù)、工資或者產(chǎn)品數(shù)方面,客戶流失與否沒有太明顯差異。整體來看,對流失客戶的關(guān)注是有章可循的,并且會產(chǎn)生積極影響。

        圖2 連續(xù)變量與客戶流失箱線圖

        四、模型建立

        (一)特征工程

        在傳統(tǒng)的數(shù)據(jù)科學(xué)建模步驟中,特征工程是第一步,是在描述性統(tǒng)計的基礎(chǔ)上對數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)處理會根據(jù)變量類型采取不同方法。本次對連續(xù)變量,比如年齡、余額進(jìn)行最大最小值編碼,以實現(xiàn)不同量綱的數(shù)據(jù)去量綱化,剔除了不同特征在數(shù)值絕對值上的差異,同時提升模型在訓(xùn)練時的速度。而對于離散型變量,如性別、國籍等,借鑒于數(shù)字電路,運用二進(jìn)制表示特征的取值。啞變量的引入使得屬性數(shù)據(jù)得到很好的處理,而獨熱編碼也會造成特征空間的膨脹,本次實踐中,特征數(shù)量不多,可以直接使用,在數(shù)據(jù)維度更加豐富的情況下,可以結(jié)合主成分分析等降維手段,提升模型的擬合能力。

        預(yù)處理過后的特征工程,是建模中的關(guān)鍵環(huán)節(jié)。在輸入數(shù)據(jù)確定的情況下,通過特征工程,可以使模型的能力逼近真實情況,得到最接近實際情況的預(yù)測結(jié)果。常見的特征工程有結(jié)合業(yè)務(wù)背景的特征構(gòu)造和基于數(shù)理變換的暴力構(gòu)造。在數(shù)據(jù)科學(xué)的比賽中,選手為了提升精度會使用暴力構(gòu)造,但該方法往往解釋性弱,故在實際工作中會缺少指導(dǎo)意義,也就用得相對較少。

        根據(jù)該問題的背景和數(shù)據(jù),構(gòu)造余額薪酬比、會籍年限年齡比和信用評分年齡比幾個特征。余額薪酬比一定程度上反映客戶的消費透支情況,并能反映客戶的風(fēng)險偏好和信用情況。會籍年限年齡比反映開通信用卡和年齡的相對關(guān)系,可以用于區(qū)分不同年齡段對卡的持有情況。信用評分年齡比,因為信用評分和客戶流失沒有描述性上的差異,這里創(chuàng)造性構(gòu)造該指標(biāo),用于探究。

        通過隨機(jī)種子200進(jìn)行抽樣,以獲得8∶2的訓(xùn)練集和測試集,以用于本地模型測試。

        (二)參數(shù)調(diào)優(yōu)

        一般的超參數(shù)調(diào)優(yōu)方法有網(wǎng)格搜索、隨機(jī)搜索和貝葉斯優(yōu)化,關(guān)于其原理此處不再贅述。本文采用應(yīng)用最為廣泛、性能穩(wěn)定的網(wǎng)格搜索方法進(jìn)行最優(yōu)超參數(shù)的選擇。具體調(diào)參結(jié)果如表3所示。

        表3 主要超參數(shù)結(jié)果

        從網(wǎng)格篩選的結(jié)果來看,樹模型在訓(xùn)練集上的效果略優(yōu)于其他模型,但是會出現(xiàn)過擬合的情況。因此,在求得最優(yōu)參數(shù)的基礎(chǔ)上,利用各種方法的最優(yōu)模型進(jìn)行測試集上的效果測試。

        (三)實證結(jié)果分析

        利用上一節(jié)中的結(jié)果,訓(xùn)練各個方法下的最優(yōu)模型。各個模型在正類上的評價指標(biāo)結(jié)果如表4所示。

        表4 主要模型結(jié)果

        由上表可知,樹模型的整體表現(xiàn)較好。由于屬于樣本不均衡問題,準(zhǔn)確率方面不會有太明顯的差異。而極限提升決策樹的召回率最高,實現(xiàn)了最大限度地預(yù)測流失客戶,但是其精確率略低于支持向量機(jī)或者隨機(jī)森林,這表明預(yù)測結(jié)果中有少量錯誤的預(yù)測。

        為了糾正模型的偏差,發(fā)揮模型的優(yōu)勢,通過對模型結(jié)果進(jìn)行軟投票,以避免投票影響整體結(jié)果,最終樣本量為2000的驗證集精確率為0.80,召回率為0.37,F(xiàn)1值為0.51。模型精度尚可,有實際參考價值。

        對于具體特征情況,可以參考圖3的極限提升決策樹特征重要性。這個特征重要性是根據(jù)特征在分類時所使用的次數(shù)得出的。從圖中可以看出,賬戶余額和年齡是較為重要的原始特征。這兩個變量在前面的描述性分析部分已體現(xiàn)出較為明顯的差異。緊隨其后的是余額薪酬比和信用評分年齡比兩個構(gòu)造特征,證明了根據(jù)業(yè)務(wù)背景進(jìn)行特征工程的實用性。

        圖3 特征重要性樹狀圖

        樹模型可以為我們提供特征的重要程度,即特征在分類時可以帶來最大信息增益的次數(shù),反映特征的有用性。但是,特征對于客戶的流失情況起正向還是負(fù)向作用則需要借助回歸模型,通過其系數(shù)的正負(fù)來判斷對流失情況是積極還是消極影響。

        在回歸模型的系數(shù)中,信用分、賬戶余額薪酬比和賬戶余額是對客戶流失有正向作用的特征。尤其是信用分高的優(yōu)質(zhì)客戶,需要格外重視,而賬戶余額高的客戶流失也不是好的現(xiàn)象,需要進(jìn)一步了解主要的流失原因,采取針對措施。信用評分年齡比、是否為活躍用戶和產(chǎn)品數(shù)量是抑制客戶流失的特征,證明高信用低年齡是穩(wěn)定的客戶群體?;钴S用戶和購買產(chǎn)品更多的客戶留存可能性更大,也是符合常識的。

        五、結(jié)論與不足

        綜上所述,活躍用戶及高信用低年齡的客戶群體是銀行的基本盤,需要重點監(jiān)測,比如當(dāng)活躍度降低,銀行應(yīng)當(dāng)通過一些類似優(yōu)惠券的活動對客戶進(jìn)行召回。而賬戶余額高的客戶存在著高流失風(fēng)險,這部分用戶需要重點維護(hù)。客戶本來有著較強(qiáng)的購買力,卻沒有挖掘出其價值,銀行應(yīng)當(dāng)針對這部分用戶進(jìn)行有的放矢的營銷。而對于信用分指標(biāo),高分值用戶也有著較高的流失可能性,一方面需要進(jìn)一步研究信用分打分體系是否符合實際情況,能否對業(yè)務(wù)進(jìn)行指導(dǎo),另一方面則是關(guān)注這部分用戶流失的現(xiàn)實狀況,進(jìn)一步探究。

        本文的目的是識別流失客戶的概率并且提前采取運營措施以實現(xiàn)客戶召回,所以對于模型的整體準(zhǔn)確率不必過多關(guān)注。數(shù)據(jù)整體的流失概率為20%,只要精確率大于這一比率,隨著該比例的增大,模型就越少浪費資源在錯誤的分類上。該模型已經(jīng)較好地預(yù)測出流失客戶并且沒有過多浪費資源。

        未來的工作可以收集更多數(shù)據(jù)維度,明確針對已有重點特征的召回或激活策略,并持續(xù)跟蹤,持續(xù)優(yōu)化。

        猜你喜歡
        分類特征用戶
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        久久婷婷人人澡人人喊人人爽| 中文字幕精品久久一区二区三区 | 四虎影院在线观看| 69国产成人综合久久精| 国产日产久久福利精品一区| 一区二区三区精品免费| 中文字幕在线乱码一区| 国产成人无码av一区二区| 国产无码夜夜一区二区| 精品人妻中文字幕一区二区三区| 一区二区在线视频免费蜜桃| 亚洲a∨无码一区二区三区| 欧美丰满大爆乳波霸奶水多| 日本精品久久性大片日本| 熟女人妻在线中文字幕| 日本亚洲欧美色视频在线播放| 日韩亚洲欧美中文高清在线| 一区二区视频网站在线观看| 精品人妻一区三区蜜桃| 奇米影视777撸吧| 性做久久久久久久| 蜜桃视频一区视频二区| 日韩av无码一区二区三区不卡| 亚洲av久久无码精品九九| 亚洲欧洲日产国码无码av野外| 中文字幕一二三四五六七区| 伊人久久大香线蕉综合影院首页| 日本在线视频网站www色下载| 国产呦系列视频网站在线观看 | 亚洲精品视频中文字幕| 欧美中日韩免费观看网站| 久久久久久久98亚洲精品| 国产精品午夜福利亚洲综合网| 在线观看特色大片免费视频| 婷婷综合缴情亚洲| 精品熟妇av一区二区三区四区| 亚洲中文字幕在线一区| 色八区人妻在线视频免费| 亚洲九九九| 国内嫩模自拍偷拍视频| 成人网站免费看黄a站视频 |