李云菊 牛貴敏
摘? 要: 采用數據挖掘手段,基于某銀行零售業(yè)的數據,分析了客戶的投資偏好。采用CART決策樹進行特征篩選,發(fā)現(xiàn)客戶群體年齡大于30歲,資產處于5萬以上且工作穩(wěn)定的保守型客戶更傾向于購買銀行基金產品。此外,還構建了邏輯回歸模型對客戶購買基金的概率進行預測。結果表明,通過數據挖掘相關方法所篩選得到的客戶群體有更高的購買概率,因此極大地提高了銀行從業(yè)人員的工作效率。
關鍵詞: 特征篩選; 數據挖掘; 決策樹; 邏輯回歸; 基金預測
Abstract: Using data mining method, based on the data of a bank's retail trade, this paper analyzes customers' investment preferences. Using CART decision tree for feature selection, it is found that conservative customers with age over 30, assets over 50,000 and stable work are more inclined to buy bank fund products. In addition, a logistic regression model is also constructed to predict the probability of customers purchasing funds. The results show that the customer groups screened by data mining have higher purchase probability, so it greatly improves the work efficiency of the bank employees.
0 引言
隨著5G技術的不斷普及應用,數據規(guī)模增長趨勢加劇,在看似繁雜無序的數據背后,往往隱藏著具有價值的信息或知識,其對我們的生產生活具有積極的指導意義。因此從海量的、不完全的、有噪聲的數據中可以抽象出人們未知但又潛在的具有實際意義的信息,即通過數據挖掘的方式對海量數據進行精細化加工,用機器學習的方式挖掘出數據間的關系,用人們易于理解的方式呈現(xiàn),有助于人們更好的進行生活生產活動[1]。對于企業(yè)而言,用數據挖掘的方式對客戶有關數據進行分析,有助于企業(yè)更好的了解客戶行為,順應市場變化,調整營銷策略,縮減營銷成本。
此外,隨著互聯(lián)網“快時代”的到來以及人們消費升級,人們在選擇消費目標或者投資目標產品時愿意花費的時間比以前更短,因此,對于各行各業(yè)來說采取更加便捷、簡單、個性化的營銷推薦方式,選擇真正符合客戶心理需求的服務才能贏得客戶的青睞,對于銀行業(yè)來說也不例外。為適應這種發(fā)展趨勢,提高再本行業(yè)內的競爭力,銀行業(yè)應加快轉變“廣撒網”“大概率”的傳統(tǒng)營銷方式,由產品導向轉為客戶導向,從而形成以“互聯(lián)網+”為依托,以“數據驅動”為關鍵理念的創(chuàng)新“新零售”模式。通過數據挖掘發(fā)現(xiàn)客戶群體特征,對潛在的客戶進行有效預測并為其提供更及時有針對性的服務。
具有相似特征的客戶,往往會有相似的行為方式。因此在“新零售”模式下,發(fā)現(xiàn)客戶群體的主要特征是重要前提。通過訓練機器學習模型可以從海量的歷史數據中“學”到客戶特征,從而形成“客戶畫像”從多維度來識別客戶群體,有利于企業(yè)進一步的整合銷售渠道與銷售產品類型,合理規(guī)劃營銷策略,在諸如“廣告推送”的營銷手段中有針對性的發(fā)送到目標客戶手中[2]。此外在選擇營銷客戶對象時,利用機器學習模型對客戶購買情況做出有效的預測,也能在保證營銷效果的基礎上降低營銷成本,提高營銷效率。
因此,在大數據時代下,基于銀行業(yè)零售客戶大量的歷史數據,挖掘數據所隱含的有價值信息,可以對客戶群體特征以及購買基金產品的概率進行預測。本文的分析重點是運用機器學習模型對銀行零售業(yè)中基金產品用戶進行特征提取并對新用戶購買基金的概率進行有效預測。
1 數據挖掘算法
數據挖掘當前采用的技術主要包括分類、回歸分析、聚類、關聯(lián)規(guī)則、特征分析等,在數據挖掘過程中根據不同分析目標選擇不同的手段進行模型構建。其中分類是數據挖掘最常采用的分析方式之一,分類算法包括決策樹、邏輯回歸、隨機森林、貝葉斯網絡、支持向量機等[3]。本文采用分類算法中的決策樹算法對購買基金的客戶群體特征進行提取,并用邏輯回歸算法對新客戶購買基金的概率進行預測。模型參數的確定均采用網格搜索算法進行參數尋優(yōu),來保證模型的訓練效果。
1.1 CART決策樹算法
決策樹(Descision Tree)作為一種典型的監(jiān)督式學習主要用來解決分類問題,通過對數據的分類迭代,最終形成特征屬性與最終類別之間的樹形結構。決策樹的樹形結構包括三類節(jié)點,分別是問題最初所在位置的根節(jié)點,問題的結論即最終所屬類別的葉子節(jié)點以及在根節(jié)點和葉子節(jié)點之間的節(jié)點為中間節(jié)點。
決策樹根據不同的最優(yōu)劃分屬性方式可以分為ID3、C4.5、CART等,與ID3、C4.5相比,CART采用基尼系數(公式1)決定最優(yōu)劃分屬性[4],并采用二分遞歸分割方式構建決策樹,使得CART既可以解決分類問題也可用作解決回歸問題,此外CART決策樹還支持連續(xù)值的處理且適合數據復雜,變量多的數據,因此CART決策樹相較于ID3、C4.5來說應用更為廣泛。
由于整個決策樹的構建過程理論清晰,可以將訓練得到的決策樹模型以二叉樹的方式進行輸出,最終形成的決策樹結構具有很好的可讀性,因此決策樹作為一種白盒模型除了用于分類之外也可用于特征提取。在本文中CART決策樹用于購買基金客戶特征的提取。
1.2 邏輯回歸算法
與常見的回歸模型不同,邏輯回歸(Logistic Regression)是一種概率模型用于預測分類因變量的概率,采用Sigmod函數(圖1)作為判別函數,圖1所示的S形曲線形象的解釋了概率和自變量之間的關系,對于常見的二分類問題,通過輸入未知類別對象的屬性特征序列得到對象所處的類別,并通過區(qū)間分布對類別進行區(qū)分,即如果Y值大于等于0.5,則判定為正樣本,如果Y值小于0.5,則判定為負樣本[5]。在本文我們探討的是新客戶是否購買基金為典型的二分類問題,因此,我們將構建邏輯回歸模型對客戶購買基金的情況進行預測。
1.3 網格搜索算法
機器學習的主要任務包括分類和回歸兩種,而機器學習模型構建的關鍵是各類參數的設置,其直接影響著模型的分類或回歸效果,因此若僅僅依靠個人經驗確定模型參數將是一項費時費力的工作?!熬W格搜索法”(Grid_Search)是一種暴力窮舉搜索的方法,即在所有的候選的參數選擇中,通過遍歷給定的參數的組合并通過交叉驗證的方式來嘗試每一種可能性,并返回最優(yōu)模型下的參數取值,從而進行模型優(yōu)化[6]。本文中CART決策樹以及邏輯回歸模型的參數均通過網格搜索方法進行參數尋優(yōu)。
2 算法在銀行零售業(yè)的應用
數據挖掘的應用渠道非常廣泛,就銀行業(yè)來說,它應用于銀行客戶管理生命周期的各個階段,如獲取客戶、保留客戶和優(yōu)化客戶服務等等過程之中。而基金業(yè)務對于提高銀行綜合收益起到了舉足輕重的作用,但由于獲取客戶難度高導致的基金業(yè)務難做成為銀行業(yè)的痛點。因此本文針對銀行業(yè)內普遍存在的這一難題通過數據挖掘方式進行改善。
本文的研究過程如圖2所示,主要包括三部分,其中第一部分介紹了數據集的來源以及數據集的預處理過程;第二部分采用CART決策樹進行基金購買客戶群體的特征提取;第三部分則在以上2部分的基礎上用邏輯回歸進行新客戶購買基金的概率進行科學預測。
2.1 數據集介紹以及數據預處理
本文研究的數據集來自于某銀行零售部門的客戶數據(已經過嚴格脫敏),共計105780條有效數據,其中特征屬性包含客戶基本信息、使用渠道、客戶評價和資產負債這4大類別,共計17維度,其中基金購買狀態(tài)為標簽列,具體數據集的特征屬性描述如表1所示。
為了方便模型訓練和實驗結果的歸納,本文將連續(xù)型變量即“年齡”與“資產量(月日均)”這兩個特征屬性進行如表2所示的離散化處理。其中“年齡”劃分標準依據數據分布特點,“資產量(月日均)”的離散化標準為銀行業(yè)內對客戶資金段的劃分標準。將零售客戶數據集進行數據去重等數據集清洗工作后,得到總計37360條數據。
2.2 CART決策樹進行特征提取
基于零售客戶數據集,采用CART決策樹,以“基金購買狀態(tài)”為標簽列,根據CART決策樹算法所訓練的決策樹模型對數據集中除“基金購買”標簽列的16維數據特征進行進一步的特征篩選,進而得到實際與客戶基金購買結果相關的因素。
實驗結果得到影響客戶基金購買的相關的特征為包括“資產數量(月日均)”,“年齡”,“性別”,“職業(yè)”,“婚姻狀況”,“代發(fā)簽約狀態(tài)”,“信用卡簽約狀態(tài)”,“微信銀行簽約狀態(tài)”,“其他理財產品數量”共計9維特征屬性。進一步的我們發(fā)現(xiàn),大于30歲的資產月日均在5萬以上具有穩(wěn)定工作且消費為“保守型”的客戶與其他銀行客戶相比,更傾向于購買基金理財產品,其中信用卡簽約狀態(tài)為未簽約的客戶我們認為其消費類型為“保守型”。
2.3 邏輯回歸進行基金購買情況預測
基于CART決策樹模型所得到的特征篩選結果,即在“資產量(月日均)”等9維特征屬性以及“基金購買狀態(tài)”這一標簽列的基礎上,采用邏輯回歸(Logistic Regression)算法訓練基金購買預測模型,對新客戶購買基金的可能性進行預測。并將最終預測結果映射為0—1的之間的概率值,且數值越大,表明客戶購買基金的可能性越大,即當映射的概率值為1時,邏輯回歸模型將判定用戶購買基金產品的可能性為100%。
本文采用留出法對模型進行評估,其中數據集的70%作為訓練集進行邏輯回歸模型訓練,數據集的30%作為測試集來測試模型效果。模型參數,用網格搜索法進行參數尋優(yōu)來確定。
由于本文實驗目的是在保障客戶預測準確率的同時盡可能多的發(fā)現(xiàn)基金客戶,為此我們在選擇模型參數時犧牲了部分準確率(Precision)來得到更高的查全率(Recall)。最終基于零售客戶數據集訓練所得到的基因購買邏輯回歸預測模型在測試集上的準確率達到70%,查全率為75%,F(xiàn)1值(F-Measure)為70%。
3 結束語
大數據產業(yè)鏈的驅動下的數據分析與數據挖掘作為其中的一個重要環(huán)節(jié)對于加強產業(yè)與信息服務之間的聯(lián)系,促進產業(yè)發(fā)展具有十分積極的作用。本文基于銀行業(yè)零售基金購買情況的數據集,通過CART決策樹進行特征提取,我們發(fā)現(xiàn)客戶群體符合年齡在30歲以上,資產處于5萬以上且工作穩(wěn)定的“保守型”客戶更傾向于購買基金,另外,基于訓練得到的邏輯回歸模型,可以對客戶購買基金的可能性進行有效的預測。本文為銀行業(yè)基金理財產品精準營銷提供了科學有效的方法,實驗結果表明,通過數據挖掘方法得到的客戶比隨機進行基金產品營銷更準確方便,此法極大地減少了銀行從業(yè)人員的工作量,提高了銀行從業(yè)人員決策的準確性。
參考文獻(References):
[1] 邵峰晶.數據挖掘原理與算法[M].中國水利水電出版社,2003.
[2] 趙飛鴻.基于金融類客戶畫像的二分K均值算法分析研究與應用[D].中國科學院大學(工程管理與信息技術學院),2016.
[3] Han J, Micheline K. Data mining: concepts and techniques[J]. 2006.5(4):1-18
[4] 周志華.機器學習[J].航空港,2018.2:94-94
[5] 李平,戴月明,王艷.基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J].計算機工程,2017.12:198-202,208
[6] 劉道文,忽海娜.基于網格搜索支持向量機的網絡流量預測[J].計算機應用與軟件,2012.29(11):191-192,253