亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于XGBOOST的個(gè)人微貸逾期預(yù)測研究

2020-10-11 10:01:20倪子鑒

經(jīng)濟(jì)技術(shù)協(xié)作信息 2020年28期

◎倪子鑒

近年來，隨著互聯(lián)網(wǎng)金融的不斷發(fā)展，個(gè)人小微貸款不斷出現(xiàn)，對個(gè)人信貸的風(fēng)險(xiǎn)預(yù)測也越來越重要，風(fēng)險(xiǎn)控制已經(jīng)成為當(dāng)下熱點(diǎn)。而隨著互聯(lián)網(wǎng)信息產(chǎn)業(yè)的不斷完善，海量數(shù)據(jù)被沉淀了下來。運(yùn)用大數(shù)據(jù)，自動(dòng)化的分析與預(yù)測個(gè)人信貸風(fēng)險(xiǎn)不僅可以有效的提高預(yù)測的準(zhǔn)確性，還能很好的節(jié)約審核成本。本文通過對5萬多用戶的小微貸款信息數(shù)據(jù)進(jìn)行分析，提取其中有價(jià)值的信息，基于Xgboost建立信貸逾期預(yù)測模型，為實(shí)現(xiàn)自動(dòng)化小微貸款審核提供理論支持。

一、引言

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展，許多各行各業(yè)的人士將數(shù)據(jù)挖掘技術(shù)應(yīng)用于自身的領(lǐng)域。金融行業(yè)也不例外，隨著互聯(lián)網(wǎng)金融的發(fā)展，如今人們已經(jīng)很少使用現(xiàn)金進(jìn)行交易。而在貸款領(lǐng)域中，也逐漸開啟線上模式，進(jìn)行互聯(lián)網(wǎng)化。而銀行與一些老牌的金融機(jī)構(gòu)仍然在使用一些傳統(tǒng)的信用審核辦法。主要包括人工審核法與標(biāo)準(zhǔn)評分卡法。這兩種審核方式效率不高，且前期開發(fā)審核體系的時(shí)間過長。顯然在這個(gè)高速發(fā)展的互聯(lián)網(wǎng)時(shí)代，傳統(tǒng)銀行機(jī)構(gòu)的人工審核模式與信用評級(jí)標(biāo)準(zhǔn)已經(jīng)慢慢的無法適應(yīng)新的快速的變化。

而對于新興的互聯(lián)網(wǎng)金融企業(yè)單日申請貸款的人數(shù)十分眾多，所以需要通過數(shù)據(jù)挖掘技術(shù)來快速、精準(zhǔn)的對用戶進(jìn)行風(fēng)險(xiǎn)評估。一方面，這有利于互聯(lián)網(wǎng)金融公司的業(yè)務(wù)開展，把控逾期風(fēng)險(xiǎn)，減少平臺(tái)暴雷事件發(fā)生。另一方面，也有助于加快貸款用戶的放款到賬時(shí)效，優(yōu)化用戶體驗(yàn)。

本文采用業(yè)界常用的數(shù)據(jù)挖掘技術(shù)Xgboost模型，結(jié)合用戶的各種行為記錄，為貸款用戶提供全面的信用評估。進(jìn)而可以為互聯(lián)網(wǎng)金融的小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型的建立提供參考，為風(fēng)險(xiǎn)控制自動(dòng)化預(yù)測提供理論支持。

二、模型建立

（一）Xgboost模型概述

Xgboost（Extreme Gradient Boosting）模型是當(dāng)下比較流行的機(jī)械學(xué)習(xí)算法。這種方法是提升樹的一種。提升樹在數(shù)據(jù)挖掘領(lǐng)域有著相當(dāng)廣泛的應(yīng)用，包括提升樹和梯度提升樹。其中提升樹模型采用加法模型與前向分步算法，同時(shí)基函數(shù)采用決策樹算法，對待分類問題采用二叉分類樹，對于回歸問題采用二叉回歸樹。提升樹模型可以看作是決策樹的加法模型：

其中T（）表示決策樹，M為樹的個(gè)數(shù)，Θ表示決策樹的參數(shù)；

而對于梯度提升樹其學(xué)習(xí)流程與提升樹類似只是不再使用殘差作為新的訓(xùn)練數(shù)據(jù)而是使用損失函數(shù)的梯度作為新的新的訓(xùn)練數(shù)據(jù)的y值。提升樹模型每一次的提升都是靠上次的預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)的label值差值作為新的訓(xùn)練數(shù)據(jù)進(jìn)行重新訓(xùn)練，GDBT則是將殘差計(jì)算替換成了損失函數(shù)的梯度方向，將上一次的預(yù)測結(jié)果帶入梯度中求出本輪的訓(xùn)練數(shù)據(jù)。

Xgboost則是在GDBT的基礎(chǔ)上，又進(jìn)行了如下改進(jìn)：

第一，GBDT將目標(biāo)函數(shù)泰勒展開到一階，而Xgboost將目標(biāo)函數(shù)泰勒展開到了二階。相比于GBDT的一階展開，二階展開保留了更多有關(guān)目標(biāo)函數(shù)的信息，故對于模型能學(xué)習(xí)到更多信息，這就使得模型的整體穩(wěn)定性與泛化能力大大提升。

第二，GBDT是給新的基模型尋找新的擬合標(biāo)簽（前面加法模型的負(fù)梯度），而Xgboost是給新的基模型尋找新的目標(biāo)函數(shù)（目標(biāo)函數(shù)關(guān)于新的基模型的二階泰勒展開）。

第三，Xgboost加入了和葉子權(quán)重的L2正則化項(xiàng)，因而有利于模型獲得更低的方差。并且一定程度避免了過擬合現(xiàn)象。

第四，Xgboost增加了自動(dòng)處理缺失值特征的策略。通過把帶缺失值樣本分別劃分到左子樹或者右子樹，比較兩種方案下目標(biāo)函數(shù)的優(yōu)劣，從而自動(dòng)對有缺失值的樣本進(jìn)行劃分，無需對缺失特征進(jìn)行填充預(yù)處理。

（二）數(shù)據(jù)集及其預(yù)處理

本文使用的數(shù)據(jù)維度主要包括小微貸款用戶的基本個(gè)人信息、信用卡信息、用戶瀏覽行為信息與銀行流水信息。獲取的數(shù)據(jù)全部通過脫敏處理后，對數(shù)據(jù)集進(jìn)行進(jìn)一步的缺失值處理、特征預(yù)處理、特征篩選。

對于本數(shù)據(jù)集，原始數(shù)據(jù)共包括367個(gè)特征。我們首先剔除缺失值占比過大的特征，因?yàn)槿绻笔е嫡急冗^大，該特征將無法有效的對結(jié)果進(jìn)行解釋。然后我們將相關(guān)性過大的一組特征剔除一個(gè)，保留其中與因變量相關(guān)性更大，這樣有助于模型的準(zhǔn)確。最后我們剔除特征方差過小接近于0的特征。因?yàn)樘卣鞣讲钸^小說明該特征對于樣本的區(qū)分沒有實(shí)質(zhì)性的幫助。最終模型包含278個(gè)特征，模型的建立與驗(yàn)證都是基于這278個(gè)特征。

三、結(jié)果分析

（一）評價(jià)指標(biāo)

評價(jià)一個(gè)模型的好壞需要一定指標(biāo)來進(jìn)行評估度量。本文使用精確率、召回率、整體準(zhǔn)確率、AUC與KS統(tǒng)計(jì)量來對模型進(jìn)行評價(jià)。

精確率是表示預(yù)測是正例的所有結(jié)果中，預(yù)測正確的實(shí)例的占比。

召回率表示真實(shí)情況是正例，預(yù)測正確的實(shí)例的占比。

在理想的情況下，我們模型的精確率和召回率都應(yīng)越高越好，但在實(shí)際情況中，這兩個(gè)指標(biāo)往往是一對相互矛盾的度量。精確率偏低時(shí)，召回率往往偏高，精確率偏高時(shí)，召回率往往偏低。

整體準(zhǔn)確率是針對整個(gè)模型，它表示在整個(gè)模型中，預(yù)測結(jié)果正確的情況占總體數(shù)據(jù)的比重。

AUC（Area Under Curve）被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好，而作為一個(gè)數(shù)值，對應(yīng)AUC更大的分類器效果更好。

KS（Kolmogorov-Smirnov）值衡量的是好壞樣本累計(jì)分部之間的差值。好壞樣本累計(jì)差異越大，KS指標(biāo)越大，那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。但是KS指標(biāo)不能過大，如果KS值太高（一般認(rèn)為大于0.7），則模型可能存在問題。

（二）Xgboost模型評估與調(diào)優(yōu)

首先，我們采用對數(shù)據(jù)依然存在的缺失值不做填充處理。因?yàn)閄gboost算法對于缺失值的存在有很好的默認(rèn)處理機(jī)制，該算法會(huì)自動(dòng)幫助我們對缺失值進(jìn)行處理，且比人工處理的效果一般要更優(yōu)。然后我們對數(shù)據(jù)訓(xùn)練集采用2：8的比例進(jìn)行劃分，20%的訓(xùn)練集數(shù)據(jù)做為驗(yàn)證集，采用80%的訓(xùn)練集數(shù)據(jù)對Xgboost模型進(jìn)行訓(xùn)練。用訓(xùn)練好的模型驗(yàn)證，得到驗(yàn)證集的混淆矩陣如下表所示：

通過上表數(shù)據(jù)，我們可以計(jì)算出此模型的召回率為0.089，精確率為0.565，整體準(zhǔn)確率為87.52%，即存在約12.5%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC值為0.784，KS值為0.45。通過這兩個(gè)指標(biāo)我們不難看出，訓(xùn)練出的模型預(yù)測效果較好，能較好的評估預(yù)測出用戶的逾期情況。但是召回率和精確率偏低，這種問題經(jīng)分析有可能是正負(fù)樣本分布不均導(dǎo)致的，該數(shù)據(jù)集的正負(fù)樣本數(shù)為8.9：1。訓(xùn)練集的AUC基本是在0.9以上的，而驗(yàn)證集的AUC數(shù)值則在0.78左右，故此我們可以推斷，在訓(xùn)練模型時(shí)模型出現(xiàn)了過擬合現(xiàn)象。于是我們將scale_pos_weight的值下調(diào)，從1.1調(diào)為0.9，控制正樣本權(quán)重，調(diào)節(jié)正負(fù)樣本不平衡問題。然后我們將模型的學(xué)習(xí)率由原來的0.03調(diào)為0.08。調(diào)整后驗(yàn)證集的混淆矩陣如下表所見：

通過上表數(shù)據(jù)，我們可以計(jì)算出此模型的召回率為0.099，精確率為0.783，整體準(zhǔn)確率為88.17%，即存在約12%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC為0.78，KS值為0.436，從這兩個(gè)指標(biāo)可以看出，訓(xùn)練出的模型效果是比較好的。調(diào)參后，精確率得到了提高，并且召回率也得到了提高，說明模型在一定程度上改善了過擬合與正負(fù)樣本分布不均問題?？傊?，我們可以看到Xgboost模型在預(yù)測小微貸款用戶逾期情況上，有較好的效果。

四、論文結(jié)論與總結(jié)

本文通過對5萬多條小微貸款用戶數(shù)據(jù)進(jìn)行研究，對Xgboost模型在預(yù)測小微貸款用戶逾期風(fēng)險(xiǎn)情況的表現(xiàn)進(jìn)行了測試與探討，得出了Xgboost模型能較為有效的用于小微貸款逾期風(fēng)險(xiǎn)預(yù)測的初步結(jié)論。個(gè)人認(rèn)為可以對公司建立小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型提供以下的建議：

從整個(gè)建模過程，我們不難看出，對數(shù)據(jù)的預(yù)處理與特征篩選，是整個(gè)建模過程的關(guān)鍵。哪些特征進(jìn)入模型將極大的影響所建模型的精確程度。即使特征存在缺失值也不能輕易剔除，要盡可能把它作為一種特征來處理。對于模型的后期調(diào)整與優(yōu)化，是提高模型精度的重要手段。這樣在使用Xgboost模型預(yù)測小微貸款用戶時(shí)，才能建立出更加精確的模型。