【摘" 要】當前互聯(lián)網(wǎng)經(jīng)濟迅速發(fā)展,網(wǎng)絡信貸規(guī)模不斷擴大,貸前識別作為網(wǎng)貸平臺風控的重要一環(huán),也成為大家研究的熱點問題。論文將集成學習算法XGBoost應用于識別客戶貸前逾期風險的問題,選取P2P平臺LendingClub數(shù)據(jù)庫中2019年的貸款記錄為研究樣本,選取12個變量構(gòu)建貸前預測模型,并引入了SHAP解釋框架對模型進行可視化表達,并將最終的結(jié)果與XGBoost模型輸出的特征重要性作比較,進一步對模型結(jié)果進行解釋,可以幫助貸款平臺更好地進行客戶貸款風險判斷,從而降低逾期風險。
【關(guān)鍵詞】貸前逾期預測;機器學習;XGBoost;SHAP解釋框架
【中圖分類號】F830.5;F713.36" " " " " " " " " " " " " " " " " " " " " " "【文獻標志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號】1673-1069(2024)02-0050-03
1 引言
隨著經(jīng)濟社會的發(fā)展,我國信用貸款市場規(guī)模不斷擴大,P2P網(wǎng)貸模式日益興起。對于網(wǎng)貸平臺,風控非常重要,而貸前逾期識別又是風控中的關(guān)鍵環(huán)節(jié),因此對于網(wǎng)貸平臺而言,信貸逾期預測模型的重要性不言而喻。
構(gòu)建預測模型的方法主要有兩類:一類是運用統(tǒng)計分析的方法,如線性回歸[1]、Logistics回歸[2];另一類是基于機器學習構(gòu)建模型,如決策樹[3]、支持向量機[4]等。與這些單一分類器相比,Chen et al.[5]推出了集成式機器學習算法XGBoost,該算法是在GBDT的基礎(chǔ)上將梯度提升樹模型進一步優(yōu)化,在回歸與分類問題上都有很好的表現(xiàn)[6]。在此之后,XGBoost被廣泛運用于各個領(lǐng)域。
當前流行的集成式機器學習算法,雖然大大提高了預測能力,但模型的可解釋性也越來越差,被稱為“黑盒”。為了更好地解釋機器學習模型的輸出,Lundberg et al.[7]介紹了SHAP解釋框架的原理,SHAP主要將博弈論和局部解釋結(jié)合起來。Ribeiro et al.[8]提出了解釋技術(shù)LIME,主要通過局部學習來解釋模型,它可以為任意的模型提供解釋。
綜上所述,本文以LendingClub數(shù)據(jù)庫中2019年的貸款記錄為樣本,選擇XGBoost算法,構(gòu)建貸前逾期預測模型,同時引入SHAP解釋框架,更好地分析影響用戶逾期的主要因素。
2 XGBoost模型介紹
XGBoost的全稱是極度提升樹(eXtreme Gradient Boosting),是一種基于決策樹的分布式高效梯度提升算法,其基本思想是將幾個弱分類器進行組合形成一個強的學習器,用迭代的方法降低犯錯的概率。
2.1 模型函數(shù)表達
假設(shè)所給的數(shù)據(jù)集共有n個樣本,m個特征,每個樣本有唯一對應的標簽y,則定義數(shù)據(jù)集D={(xi,yi)},D=n。其中xi=[xi1,xi2,…,xim]是m維數(shù)組,表示第i個樣本的m個特征,yi為第i個樣本對應的標簽。假設(shè)該模型共需迭代K次,則目標函數(shù)如下:
2.2 目標函數(shù)優(yōu)化
在梯度提升算法的迭代中,每一次迭代會生成一個弱分類器(即一棵決策樹),假設(shè)當前為第t次迭代,此時目標函數(shù)是L■,則L■是由前t-1次迭代的結(jié)果與第t次迭代引入的決策樹ft(x)計算所得。迭代過程如下:
我們的目標是要使得預測值盡量接近真實值y,那么本次迭代的目標是找到一個決策樹模型ft(x)使本輪的目標函數(shù)L[y,ft(xi)]最小。目標函數(shù)可記為:
其中,目標函數(shù)的值越小,就代表這個樹的結(jié)構(gòu)越好,只要能夠確定樹結(jié)構(gòu),就可以求得該結(jié)構(gòu)下的最優(yōu)值。
為了確定當前根節(jié)點,首先要找到具有最大損失增益的特征節(jié)點作為當前的根節(jié)點,在當前根節(jié)點,把樣本集一分為二,得到兩個子節(jié)點樣本集;再分別對兩個子節(jié)點集合,重復上述過程,直到達到分裂的停止條件,即可完成第棵樹的生成。在每棵樹生成后,將其加入原有模型中,并根據(jù)上述規(guī)則不斷迭代,最終完成整個模型的構(gòu)建。
3 SHAP解釋框架介紹
SHAP是解決模型可解釋性的一種方法。假設(shè)第i個樣本的第j個特征取值為xi,j,機器學習模型對第i個樣本的預測值是■i,模型的基礎(chǔ)值是?準0,xi,j的Shapley值是?準i,j,那么有下述等式成立:
其中,f(xi)是機器學習模型對樣本xi的預測值,F(xiàn)是解釋函數(shù),?準i,j ∈R是第i個樣本,第j個特征取值xi,j的Shapley值,z'i,j∈{0,1}m是特征組合向量,輸入1表示相應的特征值存在,輸入0表示相應的特征值不存在。對于樣本xi,第j個特征值xi,j的Shapley值?準i,j的計算,滿足下面的公式:
4 實證分析
4.1 數(shù)據(jù)來源
本文使用LendingClub庫中2019年的貸款記錄,利用XGBoost構(gòu)建貸款違約預測模型。原始數(shù)據(jù)共518 125個樣本,將loan_status作為標簽,其余列作為變量。
數(shù)據(jù)庫中的原始特征冗余繁雜,經(jīng)過特征工程之后選取12個特征來作為入模特征,如表1所示。
4.2 構(gòu)建模型
數(shù)據(jù)集中共有518 125個樣本,將loan_status作為標簽,將“Fully Paid”標記為好樣本,“Charged Off、Late(31~120 days)、In Grace Period、Late(16~30 days)、Default”標記為壞樣本,總樣本有134 548個,其中好樣本97 048個,壞樣本37 500個,好壞樣本比例約為3∶1。
將總樣本的80%劃分為訓練集,20%劃分為測試集。通過訓練得到最優(yōu)的XGBoost模型,模型指標如表2所示。
將K-S值作為模型區(qū)分能力的指標,其值越大代表模型的區(qū)分性越好。AUC值越大說明模型的效果越好。
5 模型解釋
5.1 特征重要性分析
通過對上面SHAP和XGBoost指標重要性順序?qū)Ρ?,可以明顯看出SHAP的前12項和XGBoost的前12項共同指標有很多。
5.2 SHAP值的解釋框架
SHAP框架下各變量的影響分析如圖3所示。圖3中顯示了前12個變量對模型影響效果,此圖客觀地展現(xiàn)了各變量由大到小變化對SHAP的影響。例如,變量last _fico_ range_low線條有黑色變?yōu)榛疑琒HAP Value由正到負,表示隨著數(shù)值增大,變量對模型預測的負向效果越明顯,即該樣本貸前預期風險越低。
5.2.1 單變量影響下的SHAP值
為了更直觀得到各變量到SHAP值的影響關(guān)系,繪制各變量對SHAP值影響圖(見圖4、圖5)。圖4表明隨著installment數(shù)值增大,SHAP值也越來越大,違約風險相應增加,并且當installment數(shù)值大于600時,SHAP值為正,對模型預測為正向效果并趨于穩(wěn)定。如圖5所示,last _fico_ range_low數(shù)值大多分布在500~900,且隨著last _fico_ range_low值的增加SHAP整體上呈現(xiàn)下降趨勢,且當
last _fico_ range_low值小于600時,SHAP值為正,對模型起正向影響,貸前預期風險越高;當last _fico_ range_low值大于600時,SHAP值為負,對模型起負向影響,貸前預期風險越低。
圖6展示此樣本中每個特征的各自貢獻,將模型基礎(chǔ)SHAP值-1.0推到最終的-3.19lt;0,因此該樣本是一個好樣本。樣本中將預測值推高特征用灰色表示,推低的用黑色表示?;液诮唤缣帍挠业阶蠡疑卣鳛閠erm=1.0,int_rate=22.0,installment=781.0,這3個特征對模型起較大的正向影響效果,灰黑交界處從左到右黑色特征為last_fico_range_low=715.0,last_fico_range_high=679.0,這兩個特征對模型起較大負向影響效果,所有特征的SHAP值之和為,利用公式(11)得到樣本的模型概率為0.040。
6 結(jié)論
本文使用LendingClub庫中的數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,最終選用12個特征入模,通過XGBoost模型得到了變量特征重要性排序,但是并不清楚各個特征是如何影響模型。SHAP能夠清楚反映單個變量變化對SHAP值的影響,最重要的SHAP能對樣本進行量化分析,能夠直觀得到樣本中每個特征的SHAP值,從而對樣本進行好壞評判,可以對黑盒模型進行解釋。
【參考文獻】
【1】BERGER S C,GLEISNER F.Emergence of financial interme-diariesin electronic markets: the case of online P2P lending[J].Business Research,2010,2(1):39-65.
【2】Hand D J,KeHy M G.Superscorecards[J].Ima Journal ofManagement Mathematics,2018,13(4):273-281.
【3】沈玉溪,徐浩.P2P網(wǎng)貸借款人違約風險評估——基于決策樹的研究[J].經(jīng)營與管理,2018(9):13-15.
【4】曾玲玲,潘霄,葉曼.基于BP-KMV模型的非上市公司信用風險度量[J].財會月刊,2017(6):47-55.
【5】Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[J]. Knowledge Discovery and Data Mining,2016:785-794.
【6】Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine[J].AnnalS of Statistics,2001,29(5):1189-1232.
【7】Lundberg S M,Lee S I.Consistent feature attribution for tree ensembles[J].Human Interpretability in Machine Learning,2017:31-38.
【8】Ribeiro M T , Singh S , Guestrin C .\"Why Should I Trust You?\": Explaining the Predictions of Any Classifier[J].ACM,2016.