牛亞琴 盧苗苗
摘要:隨著金融行業(yè)競爭愈加劇烈,加之互聯網金融的快速發(fā)展,銀行業(yè)利差不斷收窄、波動劇烈,使其正面臨著全方位的挑戰(zhàn)。如何更有效地進行精準營銷在很大程度上決定銀行是否能在激烈的競爭中脫穎而出。該研究將80%預處理后數據作為訓練集,20%的數據用于驗證集,利用數據挖掘技術中的 Logistic回歸和XGBoost兩種客戶提升模型分別對存量客戶數據進行了比對分析。通過對比兩種模型的ROC和Lift曲線后發(fā)現XGBoost模型提升客戶數量更多、預測準確率較高。
關鍵詞:銀行業(yè);數據挖掘;客戶提升
中圖分類號:TP311? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)10-0205-02
Abstract: With the fiercer competition in the financial sector and the rapid development of Internet finance, the banking industry is facing comprehensive challenges due to the narrowing and drastic fluctuation of interest rate spreads. How to carry out precision marketing effectively determines whether it can stand out in the fierce competition. In this study, 80% of the pre-processed data was taken as a training data, and 20% of the data was used for a validation set. Through data mining techniques, two customer improvement models including Logistic regression and XGBoost were used for comparative analysis of the existing customer data. By comparing the ROC and Lift curves of these two models, it was found that the XGBoost model can simultaneously improve the number of the customers and the accuracy of prediction.
Key words: banking industry; data mining; customers improvement
隨著大數據時代來臨,越來越多行業(yè)利用數據挖掘技術鎖定目標客戶群,從而進行精準營銷,降低經營成本,提升整體效益。對公業(yè)務是商業(yè)銀行的經營基礎和利潤效益的主要來源,對公業(yè)務的發(fā)展直接影響商業(yè)銀行經營狀況與資產質量,因此對公業(yè)務營銷能力的提升首當其沖。本文通過比對XGBoost和Logistic回歸兩種算法,尋找影響客戶提升的主要因素。一方面可以幫助銀行找出具有提升空間的潛在客戶,并有針對性的為用戶提供其感興趣的服務和產品,推動用戶的價值成長;另一方面可以幫助銀行確定影響客戶提升的主要因素,通過調整市場和產品戰(zhàn)略來改善這些因素,進一步提升銀行的競爭力。
1數據挖掘技術
數據挖掘是發(fā)現暗藏的、未被發(fā)現的知識的行為,是指從海量的、隨機的數據中抽取那些隱含的、有利用價值的知識的過程[1]。數據挖掘是對數據庫技術的一種深層次的應用,提高了信息資源的使用價值和效率,更好地解決日益復雜多變的決策問題,進一步提高決策的準確性和可靠性[2]。數據挖掘的過程可以分為定義問題、分析數據、數據收集及預處理、建立模型、模型評估及模型應用等六個階段。
2 數據抽取、數據探索以及數據預處理
以我國北方A銀行為例,該行存量對公客戶中,年日均小于10W以下的客戶數量在全行對公客戶中占比65%,具有相當大的提升空間。通過技術分析手段可從未提升客戶中發(fā)掘有潛力的客戶進行針對性營銷,從而提升客戶活躍度,增加銀行業(yè)績。確定好客戶提升價值模型后,即可對某A銀行歷史數據中抽取數據進行探索和預處理,主要包括客戶號、開戶時長、基本賬戶標志、近6-12個月AUM日均余額、交易金額等屬性。
2.1 數據探索
銀行的數據主要存放于ODS數據庫和數據倉庫中,銀行數據倉庫80%的數據來源于ODS系統,而ODS數據庫中的數據來源于不同交易系統,通過數據抽取、加載過程完成系統內數據更新。
2.2 數據預處理
在信息大爆炸的當今社會,銀行業(yè)同樣順應時代潮流需要對客戶信息進行高效處理??蛻舻男畔祿鶕唧w情況需要存儲在不同操作系統(如Linux、IBM AIX)的數據庫中,但是數據庫的種類較多,包括Oracle、Sybase以及DB2等。因此,在數據抽取(Extract)、轉換(Transform)、加載(Load)時不可避免地會出現一定程度的數據質量問題。為得到準確客戶信息,需對海量數據進行有目的性的清理,最大限度保證預測模型的準確性,為客戶提升提供數據質量上的保證。數據清洗是對“臟數據”的處理,是解決對象識別問題、減少錯誤和不一致性的必要過程。目前已存在成型的數據清洗框架模型,如Bohn模型,Trillium模型和AJAX模型,根據其結構特點,可從源數據層、ODS層和數據倉庫層對數據進行清洗。本文中的清洗方法是通過ETL工具Datastage實現。具體清洗過程如下:
1)源數據層清洗:當數據從銀行外部源數據文件和源數據庫中抽取到ODS系統時對數據進行清洗稱為數據模式清洗。造成數據模式問題的主要原因是屬性之間缺乏完整性約束和數據庫設計不合理。
2)ODS層清洗:數據加載到ODS系統后對數據行清洗,為清洗數據實例?!芭K”數據通常在屬性值中以“臟”數據的形式出現:即異常值、空值、錯誤值和拼寫錯誤等。
3)數據倉庫層清洗:上述兩步清洗完成后,數據將從ODS系統加載到數據倉庫中。從數據庫中提取數據,可能會提取重復記錄,這一步的清洗工作是清除重復的記錄。
3 模型構建
數據預處理后,根據本次數據挖掘的要求,利用客戶的歷史信息來建立客戶提升模型,判斷其是否為可提升用戶是一個二分類問題??蛻籼嵘P统S玫乃惴ㄓ蠰ogistic回歸模型、決策樹模型、神經網絡模型、XGBoost模型。按照可解釋性和以往經驗,本研究選擇Logistic回歸模型和XGBoost模型進行比較,然后選擇冠軍模型進行預測,生成潛在提升客戶名單,為對公基礎戶、有效戶提升,提供精準營銷支持,為銀行業(yè)績增長需求提供有力數據支撐。根據銀行存量客戶數,分析年日均小于10w以下的客戶數量,通過分析構建模型從年日均小于10w以下的客戶中發(fā)掘有潛力的可以提升的客戶。將預處理后的數據中選擇80%的數據作為訓練數據,20%的數據用于驗證集。通過數據驗證兩種算法構建的模型,輸出模型訓練結果,用驗證集數據驗證模型訓練結果的準確性。通過驗證集的預測結果輸出預測概率,通過ROC曲線的AUC值評估模型效果,利用Lift提升度曲線評估預測效果。
4 實驗結果
4.1 ROC曲線
圖1為Logistic和XGBoost模型的ROC曲線,ROC曲線離左上角越近的點預測準確率越高。該方法簡單、直觀,可觀察分析學習器的準確性,并可用肉眼做出判斷。利用ROC曲線下方面積(AUC值)評估模型優(yōu)劣,AUC取值越高模型越準確。Logistic模型AUC取值為0.76,XGBoost模型AUC取值為0.85。
4.2Lift曲線
Lift曲線衡量的是與隨機抽樣模型相比,模型的預測能力“變好”了多少,lift曲線越平滑,模型的效果越好。圖2表示logistic和XGBoost模型的Lift曲線,由圖可知,logistic模型隨著數據急劇減少,XGBoost模型減少的相對緩慢。
5結束語
建立有效的客戶價值提升模型對銀行決策可以提供有力的技術支撐,采用數據挖掘的方法尋找潛在的提升客戶,從而為企業(yè)提供更好的營銷策略是非常有效的手段。本文采用Logistic回歸算法和XGBoost算法進行分析預測,經過實驗模擬與數據驗證,使用ROC曲線和Lift曲線對比,綜合兩種評估指標發(fā)現XGBoost模型提升客戶數量更多、預測準確率較高,最終選擇XGBoost模型為最終模型。
參考文獻:
[1] 段薇,馬麗,路向陽.基于信息增益和最小距離分類的決策樹改進算法[J].科學技術與工程,2013,13(6):1643-1646,1652.
[2] 許惠君,李彩林,劉曉安.數據挖掘技術在水庫調度中的研究與應用[J].計算機與數字工程,2006,34(9):61-63.
【通聯編輯:代影】