陳 靜 余建波 李艷冰
(1.同濟大學 機械與能源工程學院 上海201804;2.上海質(zhì)量管理科學研究院 上海200052)
近年來用戶流失預測問題在學術界引起了廣泛關注, 范圍涉及 MOOC 平臺、社交平臺、電信等多個領域。它是結(jié)合用戶的歷史數(shù)據(jù),對其進行建模,從而訓練出能判別用戶是否流失的分類器,是一個常見的二分類問題[1]。 流失用戶在傳統(tǒng)意義是指曾經(jīng)某時間段內(nèi)使用過某產(chǎn)品或服務,后期由于種種原因退訂該產(chǎn)品或服務。對于流失用戶的定義依行業(yè)不同而不同,APP領域以用戶一定時期內(nèi)不再登錄、卸載軟件且不再二次安裝以及選擇其他同類APP為標準界定流失用戶[2],而商業(yè)銀行用戶流失是指終結(jié)與商業(yè)銀行所有業(yè)務往來的情形,包括交易銳減、停止交易或者清戶[3]。
1.1.1 數(shù)據(jù)清洗
對數(shù)據(jù)集進行分析發(fā)現(xiàn),無重復值,而對于缺失值和異常值,考慮銀行數(shù)據(jù)的敏感性本文未進行處理,對無關字段用戶ID進行了刪除。
1.1.2 數(shù)據(jù)轉(zhuǎn)換
通過數(shù)據(jù)觀察可以了解到,性別、家庭住址和電話信息為字符型變量,本文采用LabelEncoder編碼,將文本數(shù)據(jù)轉(zhuǎn)換成連續(xù)的數(shù)值型變量,即對不連續(xù)的數(shù)字或者文本進行編號。如表1所示。
表1 字符型變量編碼
數(shù)據(jù)不平衡,又稱樣本比例失衡,以二分類問題為例,假設正類的樣本數(shù)量遠大于負類的樣本數(shù)量,即稱為不平衡數(shù)據(jù)集。正類的樣本數(shù)量如圖 1所示。
圖1 正負樣本數(shù)量
由圖1可知,本文數(shù)據(jù)集的正負樣本比例接近10:1,采用SMOTE合成少數(shù)類過采樣技術,其基本原理是利用自助法和K近鄰法,基于特征空間生成與少數(shù)類相似的新數(shù)據(jù),來降低分類器的誤差。由于該算法產(chǎn)生了新的少數(shù)類數(shù)據(jù),與采用對少數(shù)類數(shù)據(jù)簡單復制的隨機上采樣的方式有很大不同,盡量避免了模型過擬合現(xiàn)象,有效解決了數(shù)據(jù)不平衡所帶來的分類器性能下降問題[4-5]。
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換成能被計算機算法所理解的特征體系的工程活動,為了提高模型的準確度和泛化能力,就要從原始數(shù)據(jù)中提取盡可能多的有用信息供算法使用[6]。
1.3.1 特征選取
1) 隨機森林特征重要性排序
隨機森林/CART樹在使用時一般通過gini值作為切分節(jié)點的標準,將變量的重要性評分用 VIM來表示,gini 值用 CI 表示,假設有 m 個特征x1,x2,x3,…,xm,現(xiàn)在要計算出每個特征 xj的gini 指數(shù)評分VIMj,即第j 個特征在隨機森林所有決策樹中節(jié)點分裂不純度的平均改變量,gini指數(shù)的計算公式如下表示[7]:
式中,K表示樣本數(shù);Pmk表示節(jié)點m (將第m 個特征逐行對節(jié)點計算gini 值變化量)中類別K所占的比例;表示特征Xj在節(jié)點m的重要性,即節(jié)點m 分枝前后的gini 指數(shù);表示如果特征Xj在決策樹i中出現(xiàn)的節(jié)點在集合M中,那么Xj在第i棵樹的重要性;最后把所有求得的重要性評分進行歸一化處理就得到重要性的評分:
2) 皮爾遜相關系數(shù)
本文采用皮爾遜相關系數(shù),分析各個特征之間的相關程度。其公式如下:
其中Cov(X,Y) 為X和Y的協(xié)方差,σx,σy分別為X和Y的標準差。
3) 特征提取
首先利用隨機森林 指數(shù)計算所有特征的重要性分數(shù)并降序排序,選取排名前30的特征,并查看這些特征的Person相關系數(shù),對一些相關性極強的特征進行剔除,消除多重共線性。同時為了防止減少特征量會出現(xiàn)過擬合,此處特征剔除的邏輯設置為: (1)兩個特征相關系數(shù)大于等于0.8;(2)對因變量的解釋性更弱。對此提取出特征及各特征的重要性分數(shù)值見表2。
表2 選取特征及其重要性分數(shù)
提取特征的相關性熱力圖如圖2所示。
圖2 選取特征的相關性熱力圖
1.3.2 one-hot編碼
one-hot編碼又稱為獨熱編碼,其方法是使用N位狀態(tài)寄存器來對 N個狀態(tài)進行編碼,每個狀態(tài)都由他獨立的寄存器位,并且在任意時候,其中只有一位有效[7]。本文共選取特征數(shù)量19個,故編碼示意圖如下圖3所示。
圖3 特征獨熱編碼示意圖
TGI指數(shù)反應目標群體在特定研究范圍內(nèi)的強勢或弱勢的指數(shù)。其中TGI指數(shù)大于100,表明某類用戶更具有相應的傾向或者偏好,數(shù)值越大傾向性和偏好性越強,TGI指數(shù)小于100則相反,而等于100表示在平均水平。圖3表示不同性別流失情況的TGI指數(shù),其中0表示男性, “1”表示女性,“2”表示未知性別。性別與流失率關系如圖4所示。
圖4 性別與流失率關系圖
由上圖可知,由于未知性別用戶其樣本量過小,所以參考價值不大,男性用戶流失的 TGI指數(shù)為113,女性用戶流失的TGI指數(shù)為87,表明男性用戶較女性用戶更易流失。
年齡與流失率關系如圖5所示。
圖5 年齡與流失率關系圖
由上圖可知,年齡在40~80歲之間的中老年用戶TGI指數(shù)小于100,不容易流失,而小于40歲的用戶,尤其是小于20歲的用戶流失率更高。
開戶時長與流失率關系的如圖6所示。
圖6 開戶時長與流失率關系圖
可以看出,開戶時長小于 50天或者大于 160天的用戶TGI指數(shù)小于100,容易流失,而開戶時長在50到160天之內(nèi)的用戶更穩(wěn)定而不易流失。
隨機森林算法(RandomForest,RF)是一種組成式的有監(jiān)督學習方法。它通過Bagging集成學習的思想組合多個決策樹,最終結(jié)果通過投票法或取均值法取得,使模型整體的性能得以提升。隨機森林中的決策樹在分裂過程中先是從所有的待選特征中隨機選取一個包含多個特征的子集,然后根據(jù)特征劃分準則從隨機選取的特征中選擇最優(yōu)的特征劃分當前節(jié)點,這樣能使系統(tǒng)更具多樣性,提升模型的分類能力[2]。算法原理流程圖如圖7所示。
圖7 隨機森林原理流程圖
為增強實驗的可靠性和實用性,對隨機森林參數(shù):決策樹個數(shù)n_estimators、構(gòu)建決策樹最優(yōu)模型時考慮的最大特征 max_features、決策樹最大深度max_depth、葉子節(jié)點含有的最少樣本min_samples_leaf、節(jié)點可分的最小樣本數(shù)min_samples_split以及是否使用袋外樣本評估模型好壞。參數(shù)設置如表3。
表3 實驗參數(shù)范圍
網(wǎng)格搜索法是指定參數(shù)值的一種窮舉搜索方法,其核心原理是先設置好要搜索的參數(shù)區(qū)域,然后將該區(qū)域劃分成網(wǎng)格,而網(wǎng)格中所有的交叉點就是要搜索的所有參數(shù)組合[8-9]。
通過網(wǎng)格搜索法,得到模型訓練數(shù)據(jù)如下表4。
表4 最優(yōu)實驗參數(shù)表
對調(diào)整參數(shù)后的模型進行評估,評估得到準確率、召回率、F1分數(shù)如表5所示。
表5 分類結(jié)果評估分數(shù)表
從表5可看出,模型對留存客戶和流失客戶的預測準確性相差不大,在所有判定為流失的客戶中有75%是真實流失的,在所有實際流失的客戶中判定為流失的客戶有82%,模型總體的精確度為78%,召回率為77%,F(xiàn)1值為77%,準確度為77%,較未調(diào)參的模型提高了0.4個百分點。
實驗得到的ROC曲線如圖8所示。
圖8 ROC曲線圖
ROC是反應敏感性與特異性之間的關系的曲線,橫坐標X軸為FPR,即假陽率,縱坐標Y軸為TPR,表示真陽率,曲線下方的面積AUC用來預測準確性,值越大表示預測準確率越高,曲線越接近左上角,預測準確率越高。觀察 ROC曲線圖可以看出,曲線靠近左上角,即在假陽率很低的情況下真陽率較高,并且AUC面積為0.77,表示模型效果良好,可用于預測。
在獲客成本越來越高的今天,如何留住客戶是一個值得考慮的問題。由隨機森林Gini指數(shù)得到特征重要性排序可知,ASSET_CUR_ALL_BAL(活期資產(chǎn)總金額)、AGE(年齡)、OPEN_ACC_DUR(開戶時長)是影響客戶流失的最重要因素,由此建議銀行:(1明確目標客戶群,鎖定目標收入和年齡層的客戶,有助于銀行實行針對性策略和精細化運營,提高競爭力;(2)采取用戶關懷策略,對開戶時長不同的用戶群采用不同的關懷策略,可以采用會員積分、會員優(yōu)先等活動,為了吸引新用戶,可以通過各種優(yōu)惠方式如開戶免傭金、發(fā)送代金券、等優(yōu)惠方式激勵新用戶向老用戶轉(zhuǎn)化。
本文通過建立基于隨機森林的用戶流失預警模型,在用戶尚未發(fā)生流失前采取一定的召回策略,可以有效地防范用戶流失。通過分析各個階段流失率的變化,也可以了解企業(yè)運營健康情況。