亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于XGBoost的貸前逾期識別模型及可解釋性研究

2024-01-01 00:00:00李嘉培馬詠莉

中小企業(yè)管理與科技·下旬刊 2024年2期

關(guān)鍵詞：機器學習

【摘" 要】當前互聯(lián)網(wǎng)經(jīng)濟迅速發(fā)展，網(wǎng)絡信貸規(guī)模不斷擴大，貸前識別作為網(wǎng)貸平臺風控的重要一環(huán)，也成為大家研究的熱點問題。論文將集成學習算法XGBoost應用于識別客戶貸前逾期風險的問題，選取P2P平臺LendingClub數(shù)據(jù)庫中2019年的貸款記錄為研究樣本，選取12個變量構(gòu)建貸前預測模型，并引入了SHAP解釋框架對模型進行可視化表達，并將最終的結(jié)果與XGBoost模型輸出的特征重要性作比較，進一步對模型結(jié)果進行解釋，可以幫助貸款平臺更好地進行客戶貸款風險判斷，從而降低逾期風險。

【關(guān)鍵詞】貸前逾期預測；機器學習；XGBoost；SHAP解釋框架

【中圖分類號】F830.5；F713.36" " " " " " " " " " " " " " " " " " " " " " "【文獻標志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號】1673-1069（2024）02-0050-03

1 引言

隨著經(jīng)濟社會的發(fā)展，我國信用貸款市場規(guī)模不斷擴大，P2P網(wǎng)貸模式日益興起。對于網(wǎng)貸平臺，風控非常重要，而貸前逾期識別又是風控中的關(guān)鍵環(huán)節(jié)，因此對于網(wǎng)貸平臺而言，信貸逾期預測模型的重要性不言而喻。

構(gòu)建預測模型的方法主要有兩類：一類是運用統(tǒng)計分析的方法，如線性回歸[1]、Logistics回歸[2]；另一類是基于機器學習構(gòu)建模型，如決策樹[3]、支持向量機[4]等。與這些單一分類器相比，Chen et al.[5]推出了集成式機器學習算法XGBoost，該算法是在GBDT的基礎(chǔ)上將梯度提升樹模型進一步優(yōu)化，在回歸與分類問題上都有很好的表現(xiàn)[6]。在此之后，XGBoost被廣泛運用于各個領(lǐng)域。

當前流行的集成式機器學習算法，雖然大大提高了預測能力，但模型的可解釋性也越來越差，被稱為“黑盒”。為了更好地解釋機器學習模型的輸出，Lundberg et al.[7]介紹了SHAP解釋框架的原理，SHAP主要將博弈論和局部解釋結(jié)合起來。Ribeiro et al.[8]提出了解釋技術(shù)LIME，主要通過局部學習來解釋模型，它可以為任意的模型提供解釋。

綜上所述，本文以LendingClub數(shù)據(jù)庫中2019年的貸款記錄為樣本，選擇XGBoost算法，構(gòu)建貸前逾期預測模型，同時引入SHAP解釋框架，更好地分析影響用戶逾期的主要因素。

2 XGBoost模型介紹

XGBoost的全稱是極度提升樹（eXtreme Gradient Boosting），是一種基于決策樹的分布式高效梯度提升算法，其基本思想是將幾個弱分類器進行組合形成一個強的學習器，用迭代的方法降低犯錯的概率。

2.1 模型函數(shù)表達

假設(shè)所給的數(shù)據(jù)集共有n個樣本，m個特征，每個樣本有唯一對應的標簽y，則定義數(shù)據(jù)集D={（xi，yi）}，D=n。其中xi=[xi1，xi2，…，xim]是m維數(shù)組，表示第i個樣本的m個特征，yi為第i個樣本對應的標簽。假設(shè)該模型共需迭代K次，則目標函數(shù)如下：

2.2 目標函數(shù)優(yōu)化

在梯度提升算法的迭代中，每一次迭代會生成一個弱分類器（即一棵決策樹），假設(shè)當前為第t次迭代，此時目標函數(shù)是L■，則L■是由前t-1次迭代的結(jié)果與第t次迭代引入的決策樹ft（x）計算所得。迭代過程如下：

我們的目標是要使得預測值盡量接近真實值y，那么本次迭代的目標是找到一個決策樹模型ft（x）使本輪的目標函數(shù)L[y，ft（xi）]最小。目標函數(shù)可記為：

其中，目標函數(shù)的值越小，就代表這個樹的結(jié)構(gòu)越好，只要能夠確定樹結(jié)構(gòu)，就可以求得該結(jié)構(gòu)下的最優(yōu)值。

為了確定當前根節(jié)點，首先要找到具有最大損失增益的特征節(jié)點作為當前的根節(jié)點，在當前根節(jié)點，把樣本集一分為二，得到兩個子節(jié)點樣本集；再分別對兩個子節(jié)點集合，重復上述過程，直到達到分裂的停止條件，即可完成第棵樹的生成。在每棵樹生成后，將其加入原有模型中，并根據(jù)上述規(guī)則不斷迭代，最終完成整個模型的構(gòu)建。

3 SHAP解釋框架介紹

SHAP是解決模型可解釋性的一種方法。假設(shè)第i個樣本的第j個特征取值為xi，j，機器學習模型對第i個樣本的預測值是■i，模型的基礎(chǔ)值是？準0，xi，j的Shapley值是？準i，j，那么有下述等式成立：

其中，f（xi）是機器學習模型對樣本xi的預測值，F(xiàn)是解釋函數(shù)，？準i，j ∈R是第i個樣本，第j個特征取值xi，j的Shapley值，z'i，j∈{0，1}m是特征組合向量，輸入1表示相應的特征值存在，輸入0表示相應的特征值不存在。對于樣本xi，第j個特征值xi，j的Shapley值？準i，j的計算，滿足下面的公式：

4 實證分析

4.1 數(shù)據(jù)來源

本文使用LendingClub庫中2019年的貸款記錄，利用XGBoost構(gòu)建貸款違約預測模型。原始數(shù)據(jù)共518 125個樣本，將loan_status作為標簽，其余列作為變量。

數(shù)據(jù)庫中的原始特征冗余繁雜，經(jīng)過特征工程之后選取12個特征來作為入模特征，如表1所示。

4.2 構(gòu)建模型

數(shù)據(jù)集中共有518 125個樣本，將loan_status作為標簽，將“Fully Paid”標記為好樣本，“Charged Off、Late（31～120 days）、In Grace Period、Late（16～30 days）、Default”標記為壞樣本，總樣本有134 548個，其中好樣本97 048個，壞樣本37 500個，好壞樣本比例約為3∶1。

將總樣本的80%劃分為訓練集，20%劃分為測試集。通過訓練得到最優(yōu)的XGBoost模型，模型指標如表2所示。

將K-S值作為模型區(qū)分能力的指標，其值越大代表模型的區(qū)分性越好。AUC值越大說明模型的效果越好。

5 模型解釋

5.1 特征重要性分析

通過對上面SHAP和XGBoost指標重要性順序?qū)Ρ?，可以明顯看出SHAP的前12項和XGBoost的前12項共同指標有很多。

5.2 SHAP值的解釋框架

SHAP框架下各變量的影響分析如圖3所示。圖3中顯示了前12個變量對模型影響效果，此圖客觀地展現(xiàn)了各變量由大到小變化對SHAP的影響。例如，變量last _fico_ range_low線條有黑色變?yōu)榛疑琒HAP Value由正到負，表示隨著數(shù)值增大，變量對模型預測的負向效果越明顯，即該樣本貸前預期風險越低。

5.2.1 單變量影響下的SHAP值

為了更直觀得到各變量到SHAP值的影響關(guān)系，繪制各變量對SHAP值影響圖（見圖4、圖5）。圖4表明隨著installment數(shù)值增大，SHAP值也越來越大，違約風險相應增加，并且當installment數(shù)值大于600時，SHAP值為正，對模型預測為正向效果并趨于穩(wěn)定。如圖5所示，last _fico_ range_low數(shù)值大多分布在500～900，且隨著last _fico_ range_low值的增加SHAP整體上呈現(xiàn)下降趨勢，且當

last _fico_ range_low值小于600時，SHAP值為正，對模型起正向影響，貸前預期風險越高；當last _fico_ range_low值大于600時，SHAP值為負，對模型起負向影響，貸前預期風險越低。

圖6展示此樣本中每個特征的各自貢獻，將模型基礎(chǔ)SHAP值-1.0推到最終的-3.19lt;0，因此該樣本是一個好樣本。樣本中將預測值推高特征用灰色表示，推低的用黑色表示?；液诮唤缣帍挠业阶蠡疑卣鳛閠erm=1.0，int_rate=22.0，installment=781.0，這3個特征對模型起較大的正向影響效果，灰黑交界處從左到右黑色特征為last_fico_range_low=715.0，last_fico_range_high=679.0，這兩個特征對模型起較大負向影響效果，所有特征的SHAP值之和為，利用公式（11）得到樣本的模型概率為0.040。

6 結(jié)論

本文使用LendingClub庫中的數(shù)據(jù)，經(jīng)過數(shù)據(jù)篩選，最終選用12個特征入模，通過XGBoost模型得到了變量特征重要性排序，但是并不清楚各個特征是如何影響模型。SHAP能夠清楚反映單個變量變化對SHAP值的影響，最重要的SHAP能對樣本進行量化分析，能夠直觀得到樣本中每個特征的SHAP值，從而對樣本進行好壞評判，可以對黑盒模型進行解釋。

【參考文獻】

【1】BERGER S C，GLEISNER F.Emergence of financial interme-diariesin electronic markets： the case of online P2P lending[J].Business Research，2010，2（1）：39-65.

【2】Hand D J，KeHy M G．Superscorecards[J].Ima Journal ofManagement Mathematics，2018，13（4）：273-281.

【3】沈玉溪，徐浩.P2P網(wǎng)貸借款人違約風險評估——基于決策樹的研究[J].經(jīng)營與管理，2018（9）：13-15.

【4】曾玲玲，潘霄，葉曼.基于BP-KMV模型的非上市公司信用風險度量[J].財會月刊，2017（6）：47-55.

【5】Chen T ， Guestrin C . XGBoost： A Scalable Tree Boosting System[J]. Knowledge Discovery and Data Mining，2016：785-794.

【6】Friedman J H.Greedy Function Approximation：A Gradient Boosting Machine[J].AnnalS of Statistics，2001，29（5）：1189-1232.

【7】Lundberg S M，Lee S I.Consistent feature attribution for tree ensembles[J].Human Interpretability in Machine Learning，2017：31-38.

【8】Ribeiro M T ， Singh S ， Guestrin C .\"Why Should I Trust You？\"： Explaining the Predictions of Any Classifier[J].ACM，2016.