亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的貸前逾期識別模型及可解釋性研究

        2024-01-01 00:00:00李嘉培馬詠莉
        關(guān)鍵詞:機器學習

        【摘" 要】當前互聯(lián)網(wǎng)經(jīng)濟迅速發(fā)展,網(wǎng)絡信貸規(guī)模不斷擴大,貸前識別作為網(wǎng)貸平臺風控的重要一環(huán),也成為大家研究的熱點問題。論文將集成學習算法XGBoost應用于識別客戶貸前逾期風險的問題,選取P2P平臺LendingClub數(shù)據(jù)庫中2019年的貸款記錄為研究樣本,選取12個變量構(gòu)建貸前預測模型,并引入了SHAP解釋框架對模型進行可視化表達,并將最終的結(jié)果與XGBoost模型輸出的特征重要性作比較,進一步對模型結(jié)果進行解釋,可以幫助貸款平臺更好地進行客戶貸款風險判斷,從而降低逾期風險。

        【關(guān)鍵詞】貸前逾期預測;機器學習;XGBoost;SHAP解釋框架

        【中圖分類號】F830.5;F713.36" " " " " " " " " " " " " " " " " " " " " " "【文獻標志碼】A" " " " " " " " " " " " " " " " " " " " " " " " "【文章編號】1673-1069(2024)02-0050-03

        1 引言

        隨著經(jīng)濟社會的發(fā)展,我國信用貸款市場規(guī)模不斷擴大,P2P網(wǎng)貸模式日益興起。對于網(wǎng)貸平臺,風控非常重要,而貸前逾期識別又是風控中的關(guān)鍵環(huán)節(jié),因此對于網(wǎng)貸平臺而言,信貸逾期預測模型的重要性不言而喻。

        構(gòu)建預測模型的方法主要有兩類:一類是運用統(tǒng)計分析的方法,如線性回歸[1]、Logistics回歸[2];另一類是基于機器學習構(gòu)建模型,如決策樹[3]、支持向量機[4]等。與這些單一分類器相比,Chen et al.[5]推出了集成式機器學習算法XGBoost,該算法是在GBDT的基礎(chǔ)上將梯度提升樹模型進一步優(yōu)化,在回歸與分類問題上都有很好的表現(xiàn)[6]。在此之后,XGBoost被廣泛運用于各個領(lǐng)域。

        當前流行的集成式機器學習算法,雖然大大提高了預測能力,但模型的可解釋性也越來越差,被稱為“黑盒”。為了更好地解釋機器學習模型的輸出,Lundberg et al.[7]介紹了SHAP解釋框架的原理,SHAP主要將博弈論和局部解釋結(jié)合起來。Ribeiro et al.[8]提出了解釋技術(shù)LIME,主要通過局部學習來解釋模型,它可以為任意的模型提供解釋。

        綜上所述,本文以LendingClub數(shù)據(jù)庫中2019年的貸款記錄為樣本,選擇XGBoost算法,構(gòu)建貸前逾期預測模型,同時引入SHAP解釋框架,更好地分析影響用戶逾期的主要因素。

        2 XGBoost模型介紹

        XGBoost的全稱是極度提升樹(eXtreme Gradient Boosting),是一種基于決策樹的分布式高效梯度提升算法,其基本思想是將幾個弱分類器進行組合形成一個強的學習器,用迭代的方法降低犯錯的概率。

        2.1 模型函數(shù)表達

        假設(shè)所給的數(shù)據(jù)集共有n個樣本,m個特征,每個樣本有唯一對應的標簽y,則定義數(shù)據(jù)集D={(xi,yi)},D=n。其中xi=[xi1,xi2,…,xim]是m維數(shù)組,表示第i個樣本的m個特征,yi為第i個樣本對應的標簽。假設(shè)該模型共需迭代K次,則目標函數(shù)如下:

        2.2 目標函數(shù)優(yōu)化

        在梯度提升算法的迭代中,每一次迭代會生成一個弱分類器(即一棵決策樹),假設(shè)當前為第t次迭代,此時目標函數(shù)是L■,則L■是由前t-1次迭代的結(jié)果與第t次迭代引入的決策樹ft(x)計算所得。迭代過程如下:

        我們的目標是要使得預測值盡量接近真實值y,那么本次迭代的目標是找到一個決策樹模型ft(x)使本輪的目標函數(shù)L[y,ft(xi)]最小。目標函數(shù)可記為:

        其中,目標函數(shù)的值越小,就代表這個樹的結(jié)構(gòu)越好,只要能夠確定樹結(jié)構(gòu),就可以求得該結(jié)構(gòu)下的最優(yōu)值。

        為了確定當前根節(jié)點,首先要找到具有最大損失增益的特征節(jié)點作為當前的根節(jié)點,在當前根節(jié)點,把樣本集一分為二,得到兩個子節(jié)點樣本集;再分別對兩個子節(jié)點集合,重復上述過程,直到達到分裂的停止條件,即可完成第棵樹的生成。在每棵樹生成后,將其加入原有模型中,并根據(jù)上述規(guī)則不斷迭代,最終完成整個模型的構(gòu)建。

        3 SHAP解釋框架介紹

        SHAP是解決模型可解釋性的一種方法。假設(shè)第i個樣本的第j個特征取值為xi,j,機器學習模型對第i個樣本的預測值是■i,模型的基礎(chǔ)值是?準0,xi,j的Shapley值是?準i,j,那么有下述等式成立:

        其中,f(xi)是機器學習模型對樣本xi的預測值,F(xiàn)是解釋函數(shù),?準i,j ∈R是第i個樣本,第j個特征取值xi,j的Shapley值,z'i,j∈{0,1}m是特征組合向量,輸入1表示相應的特征值存在,輸入0表示相應的特征值不存在。對于樣本xi,第j個特征值xi,j的Shapley值?準i,j的計算,滿足下面的公式:

        4 實證分析

        4.1 數(shù)據(jù)來源

        本文使用LendingClub庫中2019年的貸款記錄,利用XGBoost構(gòu)建貸款違約預測模型。原始數(shù)據(jù)共518 125個樣本,將loan_status作為標簽,其余列作為變量。

        數(shù)據(jù)庫中的原始特征冗余繁雜,經(jīng)過特征工程之后選取12個特征來作為入模特征,如表1所示。

        4.2 構(gòu)建模型

        數(shù)據(jù)集中共有518 125個樣本,將loan_status作為標簽,將“Fully Paid”標記為好樣本,“Charged Off、Late(31~120 days)、In Grace Period、Late(16~30 days)、Default”標記為壞樣本,總樣本有134 548個,其中好樣本97 048個,壞樣本37 500個,好壞樣本比例約為3∶1。

        將總樣本的80%劃分為訓練集,20%劃分為測試集。通過訓練得到最優(yōu)的XGBoost模型,模型指標如表2所示。

        將K-S值作為模型區(qū)分能力的指標,其值越大代表模型的區(qū)分性越好。AUC值越大說明模型的效果越好。

        5 模型解釋

        5.1 特征重要性分析

        通過對上面SHAP和XGBoost指標重要性順序?qū)Ρ?,可以明顯看出SHAP的前12項和XGBoost的前12項共同指標有很多。

        5.2 SHAP值的解釋框架

        SHAP框架下各變量的影響分析如圖3所示。圖3中顯示了前12個變量對模型影響效果,此圖客觀地展現(xiàn)了各變量由大到小變化對SHAP的影響。例如,變量last _fico_ range_low線條有黑色變?yōu)榛疑琒HAP Value由正到負,表示隨著數(shù)值增大,變量對模型預測的負向效果越明顯,即該樣本貸前預期風險越低。

        5.2.1 單變量影響下的SHAP值

        為了更直觀得到各變量到SHAP值的影響關(guān)系,繪制各變量對SHAP值影響圖(見圖4、圖5)。圖4表明隨著installment數(shù)值增大,SHAP值也越來越大,違約風險相應增加,并且當installment數(shù)值大于600時,SHAP值為正,對模型預測為正向效果并趨于穩(wěn)定。如圖5所示,last _fico_ range_low數(shù)值大多分布在500~900,且隨著last _fico_ range_low值的增加SHAP整體上呈現(xiàn)下降趨勢,且當

        last _fico_ range_low值小于600時,SHAP值為正,對模型起正向影響,貸前預期風險越高;當last _fico_ range_low值大于600時,SHAP值為負,對模型起負向影響,貸前預期風險越低。

        圖6展示此樣本中每個特征的各自貢獻,將模型基礎(chǔ)SHAP值-1.0推到最終的-3.19lt;0,因此該樣本是一個好樣本。樣本中將預測值推高特征用灰色表示,推低的用黑色表示?;液诮唤缣帍挠业阶蠡疑卣鳛閠erm=1.0,int_rate=22.0,installment=781.0,這3個特征對模型起較大的正向影響效果,灰黑交界處從左到右黑色特征為last_fico_range_low=715.0,last_fico_range_high=679.0,這兩個特征對模型起較大負向影響效果,所有特征的SHAP值之和為,利用公式(11)得到樣本的模型概率為0.040。

        6 結(jié)論

        本文使用LendingClub庫中的數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,最終選用12個特征入模,通過XGBoost模型得到了變量特征重要性排序,但是并不清楚各個特征是如何影響模型。SHAP能夠清楚反映單個變量變化對SHAP值的影響,最重要的SHAP能對樣本進行量化分析,能夠直觀得到樣本中每個特征的SHAP值,從而對樣本進行好壞評判,可以對黑盒模型進行解釋。

        【參考文獻】

        【1】BERGER S C,GLEISNER F.Emergence of financial interme-diariesin electronic markets: the case of online P2P lending[J].Business Research,2010,2(1):39-65.

        【2】Hand D J,KeHy M G.Superscorecards[J].Ima Journal ofManagement Mathematics,2018,13(4):273-281.

        【3】沈玉溪,徐浩.P2P網(wǎng)貸借款人違約風險評估——基于決策樹的研究[J].經(jīng)營與管理,2018(9):13-15.

        【4】曾玲玲,潘霄,葉曼.基于BP-KMV模型的非上市公司信用風險度量[J].財會月刊,2017(6):47-55.

        【5】Chen T , Guestrin C . XGBoost: A Scalable Tree Boosting System[J]. Knowledge Discovery and Data Mining,2016:785-794.

        【6】Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine[J].AnnalS of Statistics,2001,29(5):1189-1232.

        【7】Lundberg S M,Lee S I.Consistent feature attribution for tree ensembles[J].Human Interpretability in Machine Learning,2017:31-38.

        【8】Ribeiro M T , Singh S , Guestrin C .\"Why Should I Trust You?\": Explaining the Predictions of Any Classifier[J].ACM,2016.

        猜你喜歡
        機器學習
        基于詞典與機器學習的中文微博情感分析
        基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        下一代廣播電視網(wǎng)中“人工智能”的應用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計算模型
        基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
        基于圖的半監(jiān)督學習方法綜述
        機器學習理論在高中自主學習中的應用
        極限學習機在圖像分割中的應用
        人妻中文久久人妻蜜桃| 久久久久亚洲av成人网址| 亚洲AV日韩AV高潮喷潮无码| 亚洲长腿丝袜中文字幕| 伊人久久大香线蕉av波多野结衣| 无码中文字幕日韩专区视频| 久久国产亚洲AV无码麻豆| 色哟哟精品中文字幕乱码| 一区二区三区高清在线观看视频| 亚洲妇女无套内射精| 99这里只有精品| 亚洲国产色图在线视频| 青草久久婷婷亚洲精品| 在线观看精品视频网站| 成人免费xxxxx在线视频| 精品蜜桃视频在线观看| 国产高清成人午夜视频| 亚洲精品国产av天美传媒| 久久综合第一页无码| 国产一区二区三区白浆在线观看| 不卡av网站一区二区三区| 粉嫩被粗大进进出出视频| 日韩精品久久久一区| 国产一级黄片久久免费看| 亚洲av无码乱码国产麻豆| 亚洲日韩欧洲无码av夜夜摸 | 日韩视频中文字幕精品偷拍| 久久国产精品不只是精品| 少妇人妻出水中文字幕乱码| 国产视频一区二区三区在线免费 | 高跟丝袜一区二区三区| 老女人下面毛茸茸的视频| 国产美女精品一区二区三区| av中文字幕不卡无码| 久久这黄色精品免费久| 精品免费国产一区二区三区四区| 久久精品中文字幕一区| 亚洲欧美成人久久综合中文网| 婷婷色精品一区二区激情| 精品久久久久久无码人妻热| 97色偷偷色噜噜狠狠爱网站97|