葛源溢
摘 ?要:本文針某銀行電話營銷定期存款的數(shù)據(jù),綜合應(yīng)用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和決策樹等數(shù)據(jù)挖掘方法,運(yùn)用R軟件建立銀行電話營銷模型,運(yùn)用案例分析法和比較分析法,通過預(yù)測(cè)誤差發(fā)現(xiàn),決策樹和隨機(jī)森林模型效果較好。本文的研究結(jié)果對(duì)于商業(yè)銀行的客戶管理,發(fā)掘有價(jià)值客戶,維護(hù)客戶的忠誠度有重要的理論價(jià)值和現(xiàn)實(shí)意義。
關(guān)鍵詞:決策樹;隨機(jī)森林;支持向量機(jī);精準(zhǔn)營銷;數(shù)據(jù)挖掘
引言
隨著計(jì)算機(jī)技術(shù)和金融機(jī)構(gòu)的不斷發(fā)展,互聯(lián)網(wǎng)技術(shù)與金融的聯(lián)系越來越密切。金融從業(yè)人員也認(rèn)識(shí)到,數(shù)據(jù)挖掘能夠從大量的客戶歷史數(shù)據(jù)中挖掘出他們所需要的信息。然而,大多數(shù)的金融專業(yè)人士在實(shí)際分析、挖掘這些客戶歷史數(shù)據(jù)時(shí)都存在不同的缺陷,即使一些金融機(jī)構(gòu)引進(jìn)了數(shù)據(jù)挖掘系統(tǒng),也只是做一些簡(jiǎn)單的數(shù)據(jù)分析工作,并沒有對(duì)客戶歷史數(shù)據(jù)進(jìn)行深度的挖掘。
1 決策樹模型
決策樹是目前最流行的機(jī)器學(xué)習(xí)算法之一,在基本的決策樹分類算法中,信息增益(information gain)準(zhǔn)則被用來做分割變量的選擇。決策樹算法的基本步驟如下:
Step1:計(jì)算每個(gè)屬性/特征的數(shù)據(jù)集的熵;
Step2:
a.計(jì)算所有分類值的熵;
b.獲取當(dāng)前屬性;
c.計(jì)算當(dāng)前屬性的平均信息熵;
Step3:選取最高增益屬性,重復(fù),直到得到想要的樹。
本文利用 R 軟件建立決策樹模型。選擇復(fù)雜度參數(shù)為 0.02 作為決策樹的剪枝參數(shù),從而將樹的大小控制在理想范圍內(nèi)。最終得到部分分類規(guī)則如下:
規(guī)則1:若 nr.emplo >= 5088 且 duration < 455 則不簽訂定期存款協(xié)議的可能性為98%,簽訂定期存款的可能性為 2%。
規(guī)則2:若 nr.emplo >= 5088 且 455<=duration < 682 則不簽訂定期存款協(xié)議的可能性為 80%,簽訂定期存款的可能性為 20%。
規(guī)則3:若 nr.emplo >= 5088 且 duration >= 682 且 job = ent、hsm、mng、rtr、srv、std、tch 時(shí)則不簽訂定期存款協(xié)議的可能性為 58%,簽訂定期存款的可能性為 42%。
規(guī)則4:若 nr.emplo >= 5088 且 duration >= 682 且 job 不是 ent、hsm、mng、rtr、sl?、srv、std、tch 時(shí)則不簽訂定期存款協(xié)議的可能性為 65%,簽訂定期存款的可能性為 35%。
2 隨機(jī)森林模型
隨機(jī)森林(random forest)是一種組成式的監(jiān)督學(xué)習(xí)方法。在模型建立時(shí),首先從訓(xùn)練集中有放回地隨機(jī)抽取 489 個(gè)觀測(cè)點(diǎn),在每棵樹的每個(gè)節(jié)點(diǎn)隨機(jī)抽取 3 個(gè)變量,從而生成了 500 棵傳統(tǒng)決策樹。由建立的隨機(jī)森林模型分類結(jié)果可以看出:該隨機(jī)森林模型中包含了 500 棵決策樹,每棵決策樹節(jié)點(diǎn)處所選擇的變量個(gè)數(shù)為 4。在訓(xùn)練數(shù)據(jù)集上模型總的預(yù)測(cè)誤差為9.06%。
建立隨機(jī)森林算法模型時(shí)部分變量的相對(duì)重要程度:duration(225.421),euribor3m(83.005),job(56.243),age(56.039),cons.price.idx(20.629),emp.var.rate(17.461),marital(16.091),previous(12.155)。
由上表可以看出,在此數(shù)據(jù)集上應(yīng)用隨機(jī)森林算法建立模型時(shí),變量
duration(最后一次通話持續(xù)時(shí)間)、euribor3m(歐元銀行3月匯率)、job(工作類型)、age(客戶年齡)等變量相對(duì)重要程度較高。說明與客戶最近一次聯(lián)系持續(xù)的時(shí)間、客戶的工作類型、歐元銀行3月匯率、客戶的年齡、雇員人數(shù)等對(duì)客戶簽訂定期存款協(xié)議有著密切的聯(lián)系。因此,在營銷項(xiàng)目中可以重點(diǎn)關(guān)注這些變量的取值,從而更有針對(duì)性的尋找客戶。
3 支持向量機(jī)模型與綜合比較
3.1 支持向量機(jī)模型
支持向量機(jī)(Support-vector machine)是一類可用于分類和回歸的監(jiān)督機(jī)器學(xué)習(xí)模型,簡(jiǎn)稱為 SVM,具體的包括線性和非線性分類器。本文將支持向量機(jī)模型應(yīng)用于測(cè)試集數(shù)據(jù),得到測(cè)試結(jié)果如下表1所示:
該模型在測(cè)試集上的總誤差為 10.6%,在不簽訂銀行定期存款協(xié)議(即 no 類)的預(yù)測(cè)錯(cuò)誤率為 7.2%,在簽訂銀行定期存款協(xié)議(即 yes 類)的預(yù)測(cè)錯(cuò)誤率將為 63.0%。
3.2 模型比較
綜上,本文實(shí)現(xiàn)三個(gè)模型的預(yù)測(cè)誤差如下表2。
通過以上三個(gè)模型誤差的比較,假設(shè)不考慮模型的用時(shí)時(shí)長,通過綜合比較,決策樹分類算法與隨機(jī)森林算法總誤差均較小,預(yù)測(cè)能力較優(yōu),且解釋性也強(qiáng),因此較推薦選擇決策樹與隨機(jī)森林算法。
根據(jù)前文算法,應(yīng)該認(rèn)識(shí)到良好的信譽(yù)有助于增加客戶的忠誠度,在銀行營銷的過程中,老客戶的響應(yīng)度往往更加強(qiáng)烈,這也正是所說的忠誠客戶。這種類型的客戶是銀行業(yè)務(wù)改革、發(fā)展新產(chǎn)品所最需要的人員,而客戶流失不僅會(huì)帶來資金的外流,還會(huì)影響銀行新體制的創(chuàng)建,所以銀行應(yīng)該嚴(yán)防客戶流失。
結(jié)論
本文綜合應(yīng)用多種數(shù)據(jù)挖掘方法建立銀行電話營銷模型,選擇的分類器顯示了不同年齡、職業(yè)、婚姻狀況、受教育程度的客戶對(duì)銀行電話營銷會(huì)產(chǎn)生不同的結(jié)果,因此銀行應(yīng)該緊跟數(shù)據(jù)時(shí)代,建立自己獨(dú)特的數(shù)據(jù)庫,這不僅有助于提高電話營銷的效率,還有助于銀行客戶的管理。
參考文獻(xiàn)
[1] ?高麗. 銀行電話營銷成功之路的分析與預(yù)測(cè)[D].華中師范大學(xué),2017.
[2] ?王琴. 數(shù)據(jù)挖掘在銀行電話營銷中的應(yīng)用[D].華中科技大學(xué),2015.
[3] ?宣子岳.基于數(shù)據(jù)挖掘的銀行電話營銷預(yù)測(cè)研究[J].現(xiàn)代商業(yè),2018(24):24-26.