亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBOOST的個(gè)人微貸逾期預(yù)測研究

        2020-10-11 10:01:20倪子鑒
        關(guān)鍵詞:數(shù)據(jù)挖掘特征用戶

        ◎倪子鑒

        近年來,隨著互聯(lián)網(wǎng)金融的不斷發(fā)展,個(gè)人小微貸款不斷出現(xiàn),對個(gè)人信貸的風(fēng)險(xiǎn)預(yù)測也越來越重要,風(fēng)險(xiǎn)控制已經(jīng)成為當(dāng)下熱點(diǎn)。而隨著互聯(lián)網(wǎng)信息產(chǎn)業(yè)的不斷完善,海量數(shù)據(jù)被沉淀了下來。運(yùn)用大數(shù)據(jù),自動(dòng)化的分析與預(yù)測個(gè)人信貸風(fēng)險(xiǎn)不僅可以有效的提高預(yù)測的準(zhǔn)確性,還能很好的節(jié)約審核成本。本文通過對5萬多用戶的小微貸款信息數(shù)據(jù)進(jìn)行分析,提取其中有價(jià)值的信息,基于Xgboost建立信貸逾期預(yù)測模型,為實(shí)現(xiàn)自動(dòng)化小微貸款審核提供理論支持。

        一、引言

        隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,許多各行各業(yè)的人士將數(shù)據(jù)挖掘技術(shù)應(yīng)用于自身的領(lǐng)域。金融行業(yè)也不例外,隨著互聯(lián)網(wǎng)金融的發(fā)展,如今人們已經(jīng)很少使用現(xiàn)金進(jìn)行交易。而在貸款領(lǐng)域中,也逐漸開啟線上模式,進(jìn)行互聯(lián)網(wǎng)化。而銀行與一些老牌的金融機(jī)構(gòu)仍然在使用一些傳統(tǒng)的信用審核辦法。主要包括人工審核法與標(biāo)準(zhǔn)評分卡法。這兩種審核方式效率不高,且前期開發(fā)審核體系的時(shí)間過長。顯然在這個(gè)高速發(fā)展的互聯(lián)網(wǎng)時(shí)代,傳統(tǒng)銀行機(jī)構(gòu)的人工審核模式與信用評級(jí)標(biāo)準(zhǔn)已經(jīng)慢慢的無法適應(yīng)新的快速的變化。

        而對于新興的互聯(lián)網(wǎng)金融企業(yè)單日申請貸款的人數(shù)十分眾多,所以需要通過數(shù)據(jù)挖掘技術(shù)來快速、精準(zhǔn)的對用戶進(jìn)行風(fēng)險(xiǎn)評估。一方面,這有利于互聯(lián)網(wǎng)金融公司的業(yè)務(wù)開展,把控逾期風(fēng)險(xiǎn),減少平臺(tái)暴雷事件發(fā)生。另一方面,也有助于加快貸款用戶的放款到賬時(shí)效,優(yōu)化用戶體驗(yàn)。

        本文采用業(yè)界常用的數(shù)據(jù)挖掘技術(shù)Xgboost模型,結(jié)合用戶的各種行為記錄,為貸款用戶提供全面的信用評估。進(jìn)而可以為互聯(lián)網(wǎng)金融的小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型的建立提供參考,為風(fēng)險(xiǎn)控制自動(dòng)化預(yù)測提供理論支持。

        二、模型建立

        (一)Xgboost模型概述

        Xgboost(Extreme Gradient Boosting)模型是當(dāng)下比較流行的機(jī)械學(xué)習(xí)算法。這種方法是提升樹的一種。提升樹在數(shù)據(jù)挖掘領(lǐng)域有著相當(dāng)廣泛的應(yīng)用,包括提升樹和梯度提升樹。其中提升樹模型采用加法模型與前向分步算法,同時(shí)基函數(shù)采用決策樹算法,對待分類問題采用二叉分類樹,對于回歸問題采用二叉回歸樹。提升樹模型可以看作是決策樹的加法模型:

        其中T()表示決策樹,M為樹的個(gè)數(shù),Θ表示決策樹的參數(shù);

        而對于梯度提升樹其學(xué)習(xí)流程與提升樹類似只是不再使用殘差作為新的訓(xùn)練數(shù)據(jù)而是使用損失函數(shù)的梯度作為新的新的訓(xùn)練數(shù)據(jù)的y值。提升樹模型每一次的提升都是靠上次的預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)的label值差值作為新的訓(xùn)練數(shù)據(jù)進(jìn)行重新訓(xùn)練,GDBT則是將殘差計(jì)算替換成了損失函數(shù)的梯度方向,將上一次的預(yù)測結(jié)果帶入梯度中求出本輪的訓(xùn)練數(shù)據(jù)。

        Xgboost則是在GDBT的基礎(chǔ)上,又進(jìn)行了如下改進(jìn):

        第一,GBDT將目標(biāo)函數(shù)泰勒展開到一階,而Xgboost將目標(biāo)函數(shù)泰勒展開到了二階。相比于GBDT的一階展開,二階展開保留了更多有關(guān)目標(biāo)函數(shù)的信息,故對于模型能學(xué)習(xí)到更多信息,這就使得模型的整體穩(wěn)定性與泛化能力大大提升。

        第二,GBDT是給新的基模型尋找新的擬合標(biāo)簽(前面加法模型的負(fù)梯度),而Xgboost是給新的基模型尋找新的目標(biāo)函數(shù)(目標(biāo)函數(shù)關(guān)于新的基模型的二階泰勒展開)。

        第三,Xgboost加入了和葉子權(quán)重的L2正則化項(xiàng),因而有利于模型獲得更低的方差。并且一定程度避免了過擬合現(xiàn)象。

        第四,Xgboost增加了自動(dòng)處理缺失值特征的策略。通過把帶缺失值樣本分別劃分到左子樹或者右子樹,比較兩種方案下目標(biāo)函數(shù)的優(yōu)劣,從而自動(dòng)對有缺失值的樣本進(jìn)行劃分,無需對缺失特征進(jìn)行填充預(yù)處理。

        (二)數(shù)據(jù)集及其預(yù)處理

        本文使用的數(shù)據(jù)維度主要包括小微貸款用戶的基本個(gè)人信息、信用卡信息、用戶瀏覽行為信息與銀行流水信息。獲取的數(shù)據(jù)全部通過脫敏處理后,對數(shù)據(jù)集進(jìn)行進(jìn)一步的缺失值處理、特征預(yù)處理、特征篩選。

        對于本數(shù)據(jù)集,原始數(shù)據(jù)共包括367個(gè)特征。我們首先剔除缺失值占比過大的特征,因?yàn)槿绻笔е嫡急冗^大,該特征將無法有效的對結(jié)果進(jìn)行解釋。然后我們將相關(guān)性過大的一組特征剔除一個(gè),保留其中與因變量相關(guān)性更大,這樣有助于模型的準(zhǔn)確。最后我們剔除特征方差過小接近于0的特征。因?yàn)樘卣鞣讲钸^小說明該特征對于樣本的區(qū)分沒有實(shí)質(zhì)性的幫助。最終模型包含278個(gè)特征,模型的建立與驗(yàn)證都是基于這278個(gè)特征。

        ?

        三、結(jié)果分析

        (一)評價(jià)指標(biāo)

        評價(jià)一個(gè)模型的好壞需要一定指標(biāo)來進(jìn)行評估度量。本文使用精確率、召回率、整體準(zhǔn)確率、AUC與KS統(tǒng)計(jì)量來對模型進(jìn)行評價(jià)。

        精確率是表示預(yù)測是正例的所有結(jié)果中,預(yù)測正確的實(shí)例的占比。

        召回率表示真實(shí)情況是正例,預(yù)測正確的實(shí)例的占比。

        在理想的情況下,我們模型的精確率和召回率都應(yīng)越高越好,但在實(shí)際情況中,這兩個(gè)指標(biāo)往往是一對相互矛盾的度量。精確率偏低時(shí),召回率往往偏高,精確率偏高時(shí),召回率往往偏低。

        整體準(zhǔn)確率是針對整個(gè)模型,它表示在整個(gè)模型中,預(yù)測結(jié)果正確的情況占總體數(shù)據(jù)的比重。

        AUC(Area Under Curve)被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線并不能清晰的說明哪個(gè)分類器的效果更好,而作為一個(gè)數(shù)值,對應(yīng)AUC更大的分類器效果更好。

        KS(Kolmogorov-Smirnov)值衡量的是好壞樣本累計(jì)分部之間的差值。好壞樣本累計(jì)差異越大,KS指標(biāo)越大,那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。但是KS指標(biāo)不能過大,如果KS值太高(一般認(rèn)為大于0.7),則模型可能存在問題。

        (二)Xgboost模型評估與調(diào)優(yōu)

        首先,我們采用對數(shù)據(jù)依然存在的缺失值不做填充處理。因?yàn)閄gboost算法對于缺失值的存在有很好的默認(rèn)處理機(jī)制,該算法會(huì)自動(dòng)幫助我們對缺失值進(jìn)行處理,且比人工處理的效果一般要更優(yōu)。然后我們對數(shù)據(jù)訓(xùn)練集采用2:8的比例進(jìn)行劃分,20%的訓(xùn)練集數(shù)據(jù)做為驗(yàn)證集,采用80%的訓(xùn)練集數(shù)據(jù)對Xgboost模型進(jìn)行訓(xùn)練。用訓(xùn)練好的模型驗(yàn)證,得到驗(yàn)證集的混淆矩陣如下表所示:

        ?

        通過上表數(shù)據(jù),我們可以計(jì)算出此模型的召回率為0.089,精確率為0.565,整體準(zhǔn)確率為87.52%,即存在約12.5%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC值為0.784,KS值為0.45。通過這兩個(gè)指標(biāo)我們不難看出,訓(xùn)練出的模型預(yù)測效果較好,能較好的評估預(yù)測出用戶的逾期情況。但是召回率和精確率偏低,這種問題經(jīng)分析有可能是正負(fù)樣本分布不均導(dǎo)致的,該數(shù)據(jù)集的正負(fù)樣本數(shù)為8.9:1。訓(xùn)練集的AUC基本是在0.9以上的,而驗(yàn)證集的AUC數(shù)值則在0.78左右,故此我們可以推斷,在訓(xùn)練模型時(shí)模型出現(xiàn)了過擬合現(xiàn)象。于是我們將scale_pos_weight的值下調(diào),從1.1調(diào)為0.9,控制正樣本權(quán)重,調(diào)節(jié)正負(fù)樣本不平衡問題。然后我們將模型的學(xué)習(xí)率由原來的0.03調(diào)為0.08。調(diào)整后驗(yàn)證集的混淆矩陣如下表所見:

        ?

        通過上表數(shù)據(jù),我們可以計(jì)算出此模型的召回率為0.099,精確率為0.783,整體準(zhǔn)確率為88.17%,即存在約12%的用戶會(huì)被預(yù)測錯(cuò)誤。該模型的AUC為0.78,KS值為0.436,從這兩個(gè)指標(biāo)可以看出,訓(xùn)練出的模型效果是比較好的。調(diào)參后,精確率得到了提高,并且召回率也得到了提高,說明模型在一定程度上改善了過擬合與正負(fù)樣本分布不均問題??傊?,我們可以看到Xgboost模型在預(yù)測小微貸款用戶逾期情況上,有較好的效果。

        四、論文結(jié)論與總結(jié)

        本文通過對5萬多條小微貸款用戶數(shù)據(jù)進(jìn)行研究,對Xgboost模型在預(yù)測小微貸款用戶逾期風(fēng)險(xiǎn)情況的表現(xiàn)進(jìn)行了測試與探討,得出了Xgboost模型能較為有效的用于小微貸款逾期風(fēng)險(xiǎn)預(yù)測的初步結(jié)論。個(gè)人認(rèn)為可以對公司建立小微貸款逾期風(fēng)險(xiǎn)預(yù)測模型提供以下的建議:

        從整個(gè)建模過程,我們不難看出,對數(shù)據(jù)的預(yù)處理與特征篩選,是整個(gè)建模過程的關(guān)鍵。哪些特征進(jìn)入模型將極大的影響所建模型的精確程度。即使特征存在缺失值也不能輕易剔除,要盡可能把它作為一種特征來處理。對于模型的后期調(diào)整與優(yōu)化,是提高模型精度的重要手段。這樣在使用Xgboost模型預(yù)測小微貸款用戶時(shí),才能建立出更加精確的模型。

        猜你喜歡
        數(shù)據(jù)挖掘特征用戶
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        如何獲取一億海外用戶
        北岛玲亚洲一区二区三区| 精品国产三级a∨在线观看| 亚洲精品国产v片在线观看| 国产午夜无码精品免费看动漫| 午夜香蕉av一区二区三区| 男男亚洲av无一区二区三区久久| 亚洲精品天天影视综合网| 久久人人妻人人做人人爽| 免费高清日本中文| 99精品又硬又爽又粗少妇毛片| 精品国产三级a在线观看不卡| 国产一区内射最近更新| 人人妻人人澡av天堂香蕉| 天堂av一区二区在线观看| 青青草精品在线免费观看| 久久亚洲av成人无码电影| 欧美成人午夜精品久久久| 色www亚洲| 在线观看二区视频网站二区 | 日本又色又爽又黄又免费网站| 国产亚洲av人片在线观看| 免费国产调教视频在线观看| 国产三级精品三级在线专区| 国模无码一区二区三区| 久久青草伊人精品| 亚洲在线一区二区三区| 国产成人av无码精品| 国产人妻久久精品二区三区| www.av在线.com| 少妇太爽了在线观看免费| 东北女人毛多水多牲交视频| 巨爆乳中文字幕爆乳区| 国产福利一区二区三区在线观看| 领导边摸边吃奶边做爽在线观看 | 国产影片中文字幕| 无码人妻丝袜在线视频| 女同恋性吃奶舌吻完整版| 国产精品永久免费| 国产真人无遮挡免费视频| 中文字幕亚洲中文第一| 国产乱人偷精品人妻a片|