盧美琴 吳傳威
摘要:銀行同業(yè)對(duì)高端客戶的爭(zhēng)奪日趨激烈,互聯(lián)網(wǎng)金融憑借其高收益的優(yōu)勢(shì)也對(duì)高端客戶形成分流,因此建立貴賓客戶流失預(yù)警模型對(duì)于銀行的生存發(fā)展意義重大。結(jié)合我國(guó)商業(yè)銀行業(yè)務(wù)現(xiàn)狀,綜合運(yùn)用決策樹分析、支持向量機(jī)、貝葉斯網(wǎng)絡(luò)等方法,分別創(chuàng)建流失預(yù)警子模型,再利用神經(jīng)網(wǎng)絡(luò)對(duì)三個(gè)預(yù)警子模型的結(jié)果進(jìn)行組合,生成組合預(yù)測(cè)模型。實(shí)證表明,組合后的模型在準(zhǔn)確率、覆蓋率、命中率、提升度等指標(biāo)上都有明顯優(yōu)化。
關(guān)鍵詞:大數(shù)據(jù);組合預(yù)測(cè);貴賓客戶;客戶流失
引言
隨著國(guó)內(nèi)外經(jīng)濟(jì)環(huán)境出現(xiàn)重大變化,我國(guó)商業(yè)銀行的經(jīng)營(yíng)形勢(shì)發(fā)生著天翻地覆的變化。金融脫媒和互聯(lián)網(wǎng)金融造成銀行的風(fēng)險(xiǎn)和營(yíng)運(yùn)成本上升,利率市場(chǎng)化導(dǎo)致銀行利差大幅縮窄,M2增速下降引發(fā)銀行資產(chǎn)增速下降。信用風(fēng)險(xiǎn)、息差縮窄、資產(chǎn)增速下降對(duì)銀行利潤(rùn)造成了重大影響。越來越多的商業(yè)銀行將經(jīng)營(yíng)重心轉(zhuǎn)向零售業(yè)務(wù),高端個(gè)人客戶成為競(jìng)爭(zhēng)焦點(diǎn)。經(jīng)濟(jì)新常態(tài)和監(jiān)管趨嚴(yán)背景下,大力發(fā)展零售業(yè)務(wù)成為眾多銀行的必然選擇。
統(tǒng)計(jì)分析表明貴賓客戶在銀行業(yè)務(wù)中的作用符合帕累托定律,即20%的貴賓客戶起到了個(gè)人客戶總體80%的利潤(rùn)貢獻(xiàn)度。貴賓客戶具有綜合維護(hù)成本低、貢獻(xiàn)度大等特點(diǎn),對(duì)銀行的經(jīng)營(yíng)起到至關(guān)重要的作用,是銀行業(yè)務(wù)發(fā)展和收入的重要來源。然而,隨著供給側(cè)改革升級(jí),貴賓客戶對(duì)金融服務(wù)的要求進(jìn)一步提高,互聯(lián)網(wǎng)金融企業(yè)的沖擊等因素導(dǎo)致銀行貴賓客戶群體的粘性下降,流失傾向變強(qiáng)??蛻袅魇г谠黾訝I(yíng)銷新客戶費(fèi)用的同時(shí)還會(huì)對(duì)企業(yè)形象造成負(fù)面影響??蛻袅魇?duì)銀行業(yè)利潤(rùn)有著重大的影響,研究表明客戶流失率減少百分之五,利潤(rùn)卻可以增長(zhǎng)三到八成。挽留老客戶的難度是營(yíng)銷新客戶的16倍,而代價(jià)卻僅為1/5~1/7。因此,有效預(yù)測(cè)客戶流失概率是防止客戶流失的前提,對(duì)銀行提升經(jīng)濟(jì)效益和實(shí)現(xiàn)可持續(xù)發(fā)展具有重要意義。
國(guó)內(nèi)外學(xué)者對(duì)客戶流失原因、流失預(yù)測(cè)和挽回措施等方面進(jìn)行了大量的研究,研究方法包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等模型,取得了較好的成果。如李洋[4]使用神經(jīng)網(wǎng)絡(luò)構(gòu)建客戶流失預(yù)測(cè)模型;王未卿等通過單因素分析和逐步判斷分析來識(shí)別對(duì)客戶流失的影響因子,并使用Cox模型來進(jìn)行對(duì)客戶流失的預(yù)測(cè);Prasad和Madhavi[51分別用CART和C5.0算法對(duì)商業(yè)銀行客戶流失情況進(jìn)行了研究;賀本嵐[6]對(duì)logistic回歸模型、線性SVM、徑向基SVM在商業(yè)銀行客戶流失預(yù)測(cè)中的有效性進(jìn)行了比較,結(jié)論認(rèn)為線性SVM可以取得比較好的效果。
通過對(duì)現(xiàn)有研究的比較可知,各種方法均有其優(yōu)點(diǎn)和缺點(diǎn):貝葉斯方法有較強(qiáng)的數(shù)學(xué)理論支持,但是很難獲取先驗(yàn)知識(shí);神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率高,但其網(wǎng)絡(luò)結(jié)構(gòu)的黑箱性導(dǎo)致其難以提取業(yè)務(wù)規(guī)則;支持向量機(jī)SVM在解決小樣本問題有明顯優(yōu)勢(shì),但在實(shí)際商業(yè)大數(shù)據(jù)的處理上所需資源較大;決策樹分類算法容易提取業(yè)務(wù)規(guī)則,但預(yù)測(cè)精度往往不如神經(jīng)網(wǎng)絡(luò)。從已有銀行客戶分析研究可以看出,現(xiàn)有研究缺乏針對(duì)貴賓客戶群體的流失研究,因此對(duì)貴賓客戶群體流失問題進(jìn)行研究具有現(xiàn)實(shí)意義,并且由于銀行貴賓客戶流失是一個(gè)受經(jīng)濟(jì)環(huán)境、文化和政府監(jiān)管等多種因素影響的非線性問題,單一模型往往難以兼顧流失的各個(gè)方面,因此,針對(duì)貴賓客戶建立流失組合預(yù)測(cè)模型,綜合利用各種預(yù)測(cè)模型的優(yōu)點(diǎn),對(duì)提高銀行客戶流失預(yù)測(cè)準(zhǔn)確率有顯著作用。
綜上所述,提高客戶流失預(yù)測(cè)準(zhǔn)確性、降低貴賓客戶流失率對(duì)銀行的穩(wěn)定經(jīng)營(yíng)和可持續(xù)發(fā)展具有重要意義。本文探討綜合利用多種預(yù)測(cè)方法構(gòu)造貴賓客戶流失組合預(yù)測(cè)模型,提前定位可能流失的客戶,幫助銀行更好地進(jìn)行貴賓客戶關(guān)系管理,并對(duì)某商業(yè)銀行某分行客戶數(shù)據(jù)進(jìn)行實(shí)證分析。
1、理論基礎(chǔ)
1.1決策樹
決策樹是在已知事件發(fā)生概率的基礎(chǔ)上,通過構(gòu)造樹對(duì)待分類樣本進(jìn)行評(píng)價(jià)的方法。算法如下:
設(shè)D為樣本集合,|D|為樣本數(shù)量,Ci,i∈{..n}為類別屬性i的類別集合,使用屬性A對(duì)D進(jìn)行劃分,則對(duì)應(yīng)的信息熵由以下公式計(jì)算得出:
信息熵越小,表示屬性A劃分效果越好。
C5.0是決策樹的商業(yè)版本,在運(yùn)行效率和內(nèi)存占用,上的優(yōu)勢(shì)使得其在現(xiàn)實(shí)商業(yè)環(huán)境中得到廣泛應(yīng)用。
1.2支持向量機(jī)
支持向量機(jī)(SVM)是Vapnik等人在90年代提出的,旨在尋找一個(gè)超平面對(duì)二分類進(jìn)行劃分,使得分類錯(cuò)誤最小化的模型
定義數(shù)據(jù)集為(x;y),i=1...n,x;為輸入,y;為輸出。在高維特征空間中尋找分類函數(shù):
w為權(quán)重,b為偏置。
求解最優(yōu)分類面的問題可轉(zhuǎn)化為:
求解其對(duì)偶問題,則可得線性最優(yōu)分類決策函數(shù):
1.3貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)又稱為信度網(wǎng)絡(luò),是一種基于概率推理的圖形化網(wǎng)絡(luò),是Bayes方法的擴(kuò)展。貝葉斯網(wǎng)絡(luò)由代表變量的節(jié)點(diǎn)、代表相互關(guān)系的邊以及條件概率表示的關(guān)聯(lián)強(qiáng)度構(gòu)成的有向無(wú)環(huán)圖。貝葉斯網(wǎng)絡(luò)具有很強(qiáng)的不確定性問題處理能力,因此近年來在統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛使用。
1.4RBF神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN)以其強(qiáng)大的非線性映射能力、自適應(yīng)和容錯(cuò)性得到了廣泛的應(yīng)用。Powell提出的徑向基函數(shù)(RBF)網(wǎng)絡(luò)是一種三層前向網(wǎng)絡(luò),有效避免了BP神經(jīng)網(wǎng)絡(luò)的局部極值問題,且學(xué)習(xí)收斂速度快,因此經(jīng)常被應(yīng)用于非線性函數(shù)的模擬中。
2、銀行貴賓客戶流失組合預(yù)測(cè)模型
商業(yè)銀行的貴賓客戶流失涉及的因素很多,并且數(shù)據(jù)來源多樣,數(shù)據(jù)屬性也很復(fù)雜,甚至一些屬性間存在相關(guān)關(guān)系。因此,對(duì)于一個(gè)非線性、非對(duì)稱、多屬性的流失預(yù)測(cè)問題,采用單一的預(yù)測(cè)模型其效果難以達(dá)到要求。學(xué)術(shù)界針對(duì)此類問題通常使用組合模型的方法,即按照某些規(guī)則將多種預(yù)測(cè)模型進(jìn)行組合,綜合利用各種模型的優(yōu)點(diǎn),以提高預(yù)測(cè)的有效性。
通過對(duì)常用預(yù)測(cè)模型特性的評(píng)價(jià)對(duì)比,本文選擇線性支持向量機(jī)LSVM、決策樹C50及貝葉斯網(wǎng)絡(luò)作為子分類器來進(jìn)行組合預(yù)測(cè)模型的構(gòu)建,如圖1。
2.1模型構(gòu)造
利用組合模型進(jìn)行銀行貴賓客戶流失預(yù)測(cè)的步驟如下:
(1)數(shù)據(jù)預(yù)處理:對(duì)原始數(shù)據(jù)進(jìn)行屬性規(guī)約、轉(zhuǎn)換等預(yù)處理,將數(shù)據(jù)集按1:1比例劃分為模型訓(xùn)練數(shù)據(jù)集和模型驗(yàn)證數(shù)據(jù)集;
(2)構(gòu)建各個(gè)子分類器模型:使用LSVM、決策樹C50、貝葉斯網(wǎng)絡(luò)等模型分別對(duì)模型訓(xùn)練數(shù)據(jù)集建模;
(3)利用各子分類器得出預(yù)測(cè)結(jié)果:整理訓(xùn)練數(shù)據(jù)集在三個(gè)子分類器的預(yù)測(cè)結(jié)果;
(4)構(gòu)建組合預(yù)測(cè)模型:將三個(gè)子分類器的預(yù)測(cè)結(jié)果作為RBF神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)際流失結(jié)果作為輸出,對(duì)RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,由此得出基于LSVM、決策樹、貝葉斯網(wǎng)絡(luò)組合的RBF神經(jīng)網(wǎng)絡(luò)模型;
(5)利用組合預(yù)測(cè)模型計(jì)算客戶流失結(jié)果:對(duì)模型驗(yàn)證數(shù)據(jù)集分別計(jì)算其LSVM、決策樹、貝葉斯網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,作為RBF神經(jīng)網(wǎng)絡(luò)模型的輸入,最終得出組合模型計(jì)算出的預(yù)測(cè)結(jié)果。
2.2模型評(píng)價(jià)
為驗(yàn)證組合模型的有效性,使用如下指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià):
Tab.1Predictionevaluationindex
流失覆蓋率=A/(A+B)
預(yù)測(cè)準(zhǔn)確率=A/(A+C)
模型總體準(zhǔn)確率=(A+D)/(A+B+C+D)
提升系數(shù)=預(yù)測(cè)準(zhǔn)確率/實(shí)際客戶流失率
流失覆蓋率表示模型定位到實(shí)際流失客戶的比例;預(yù)測(cè)準(zhǔn)確率表示被模型標(biāo)記為流失,其中實(shí)際為流失客戶的比例;模型總體準(zhǔn)確率反映的是模型對(duì)實(shí)際流失非流失客戶的預(yù)測(cè)能力;提升系數(shù)反映了使用預(yù)測(cè)模型跟不使用預(yù)測(cè)模型的效果差異,本文將綜合采用上述4個(gè)指標(biāo)來評(píng)價(jià)預(yù)測(cè)模型的有效性。
3、實(shí)證分析
3.1數(shù)據(jù)來源
根據(jù)研究目的,本文對(duì)貴賓客戶定義如下:年日均資產(chǎn)在10萬(wàn)以上的客戶。
貴賓客戶流失定義如下:貴賓客戶在(T-2,T-1,T)期間的月日均資產(chǎn)在10萬(wàn)以上,并且在年日均資產(chǎn)50%以上,(T+1,T+2,T+3)三個(gè)月中日均資產(chǎn)流失達(dá)90%以上,且隨后三個(gè)月未回復(fù),確認(rèn)為流失。
數(shù)據(jù)來源于某商業(yè)銀行某分行數(shù)據(jù)倉(cāng)庫(kù),經(jīng)過數(shù)據(jù)清洗及處理,共得到275.83萬(wàn)條完整客戶數(shù)據(jù),按照以上貴賓客戶流失定義,流失率為2.57%。將數(shù)據(jù)集按50%:50%比例切分成訓(xùn)練集和驗(yàn)證集,分別用于模型訓(xùn)練和模型有效性驗(yàn)證。
3.2預(yù)測(cè)指標(biāo)篩選
影響銀行貴賓客戶流失的因素很多,但在實(shí)際中受限于數(shù)據(jù)來源,可獲得的客戶屬性相對(duì)有限,不同屬性對(duì)客戶流失的相關(guān)性所有區(qū)別,且屬性之間還可能存在重復(fù)信息需要進(jìn)行約簡(jiǎn)。根據(jù)銀行實(shí)際數(shù)據(jù)可獲得性,并參考以往研究,本文選取了50個(gè)初始指標(biāo)。進(jìn)一步對(duì)這些指標(biāo)影響客戶流失的重要性進(jìn)行檢驗(yàn),并排除指標(biāo)間的信息重復(fù),具體步驟如下:一,計(jì)算每個(gè)指標(biāo)與客戶流失的相關(guān)性,剔除相關(guān)性較弱的指標(biāo);二,對(duì)其余指標(biāo)按相關(guān)性從大到小排序,并刪除與當(dāng)前指標(biāo)相關(guān)性大的指標(biāo),以此消除重復(fù)信息。
本文使用Pearson系數(shù)來度量指標(biāo)間的相關(guān)性。Pearson系數(shù)的取值為[一1,1],絕對(duì)值越大,表明相關(guān)性越強(qiáng)(負(fù)數(shù)表示負(fù)相關(guān)),值為零表示不相關(guān)。對(duì)初始指標(biāo)進(jìn)行Pearson計(jì)算及去除信息冗余后,最終得到15個(gè)特征變量用于構(gòu)建預(yù)測(cè)模型,涉及客戶自然屬性、賬戶及產(chǎn)品簽約屬性、交易行為特征屬性等方面。
3.3預(yù)測(cè)效果分析
使用數(shù)據(jù)挖掘軟件SpssModeler18實(shí)現(xiàn)各子模型及組合模型。從組合模型對(duì)驗(yàn)證數(shù)據(jù)集的預(yù)測(cè)結(jié)果來看(見表3),從總體準(zhǔn)確率、流失覆蓋率、預(yù)測(cè)準(zhǔn)確率、提升系數(shù)等指標(biāo)可以看出,組合預(yù)測(cè)模型的性能均有不同程度的提高,顯示出組合模型對(duì)于各子分類器來說有明顯優(yōu)勢(shì)。由此可知,本研究設(shè)計(jì)的多算法組合模型可以有效識(shí)別客戶流失傾向,滿足銀行業(yè)關(guān)于貴賓客戶流失預(yù)警的需求。
4、結(jié)束語(yǔ)
隨著經(jīng)濟(jì)形勢(shì)及行業(yè)競(jìng)爭(zhēng)狀況的變化,維系貴賓客戶,防止貴賓客戶流失已經(jīng)成為商業(yè)銀行的工作重點(diǎn)。本文對(duì)貴賓客戶的流失影響因素進(jìn)行識(shí)別,并以此為基礎(chǔ)構(gòu)建貴賓客戶流失預(yù)測(cè)模型對(duì)潛在流失客戶進(jìn)行識(shí)別;針對(duì)銀行貴賓客戶流失問題復(fù)雜非線性,使用單一模型難以取得較好效果的特點(diǎn),通過使用RBF神經(jīng)網(wǎng)絡(luò)對(duì)LSVM、決策樹、貝葉斯網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行組合,明顯提高了預(yù)測(cè)的效果;通過對(duì)實(shí)際客戶流失數(shù)據(jù)的驗(yàn)證,表明本文提出的思路可以成為銀行進(jìn)行客戶關(guān)系管理的有效選擇。
參考文獻(xiàn):
[1]賀本嵐.支持向量機(jī)模型在銀行客戶流失預(yù)測(cè)中的應(yīng)用研究[J].金融論壇,2014(9):70-74.
[2]王未卿,姚嬈,劉澄,等.商業(yè)銀行客戶流失的影響因素[J].金融論壇,2014(1):73-79.
[3]肖進(jìn),劉敦虎,賀昌政.基于GMDH的“一步式”客戶流失測(cè)集成建模[J].系統(tǒng)工程理論與實(shí)踐,2012,32(4):808-813.
[4]李洋.基于神經(jīng)元網(wǎng)絡(luò)的客戶流失數(shù)據(jù)挖掘預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用,2013,33(S1):48-51.
[5] PRASAD D,MADHAVI S. Prediction of churn behaviorof bank customer customers using data mining tools[J].Business Intelligence Journal, 2012,5(1):96-101.
[6]賀本嵐.支持向量機(jī)模型在銀行客戶流失預(yù)測(cè)中的應(yīng)用研究[J].金融論壇,2014(9):70-74.
[7]洪麗平,覃錫忠,賈振紅.基于后驗(yàn)概率支持向量機(jī)在客戶流失中的預(yù)測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(2):430-432.
[8]羅彬,邵培基,羅盡堯,劉獨(dú)玉,夏國(guó)恩.基于粗糙集理論-神經(jīng)網(wǎng)絡(luò)-蜂群算法集成的客戶流失研究[J].管理學(xué)報(bào),2011(2):265:272.
[9]盧美琴,吳傳威.商業(yè)銀行貴賓客戶流失預(yù)測(cè)研究[J].福建商學(xué)院學(xué)報(bào),2018(02):31-36.
[10]王紅武,朱紹濤,蔡海博.基于決策樹算法的上市公司股東行為研究[J].數(shù)理統(tǒng)計(jì)與管理,2017,36(1):139-150.