亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost算法和LightGBM 算法的貸款違約預(yù)測模型研究

        2022-01-11 09:42:28唐一峰
        現(xiàn)代計算機 2021年32期
        關(guān)鍵詞:貝葉斯貸款變量

        唐一峰

        (廣西師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,桂林 541006)

        0 引言

        近年來,隨著社會生活水平的提高,人們的消費需求、消費能力日益增長,但是絕大多數(shù)的年輕人并沒有一定的經(jīng)濟儲蓄,這就意味著大多數(shù)人的消費都離不開貸款的支持,例如:房貸、車貸以及各種分期消費貸款等等。隨著互聯(lián)網(wǎng)企業(yè)的興起,貸款不再是銀行獨有的業(yè)務(wù),支付寶的“借唄”“花唄”,微信的“微粒貸”,京東的“白條”等等,還有各種互聯(lián)網(wǎng)P2P平臺都能提供一定額度的貸款,貸款與人們的生活日益緊密。根據(jù)中國人民銀行最新公布的金融機構(gòu)人民幣信貸收支數(shù)據(jù)顯示,2021 年1 月各項存款為2161418.83 億元,貸款總額為1763234.93 億元,其中住戶貸款為644532.95億元;2021年2月各項存款為2172935.17 億元,貸款總額為1776828.68億元,其中住戶貸款為645994.37 億元;2021 年3月各項存款為2209233.14 億元,貸款總額為1804131.37 億元,其中住戶貸款為657466.81 億元。各項數(shù)據(jù)均顯示貸款是我國的社會經(jīng)濟發(fā)展的重要一環(huán),因此各金融機構(gòu)要嚴格控制貸款發(fā)放,針對用戶的貸款違約風(fēng)險預(yù)測就顯得尤為重要。

        針對貸款違約風(fēng)險預(yù)測,由于機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)逐漸興起,越來越多的學(xué)者將這些技術(shù)應(yīng)用到了貸款違約風(fēng)險預(yù)測。趙曉翠(2006)[1]針對商業(yè)銀行信貸風(fēng)險評估應(yīng)用主成分分析和支持向量機的方法,首先利用主成分分析提取關(guān)鍵特征,降低維數(shù),然后利用支持向量機的方法構(gòu)造廣義最優(yōu)超平面,結(jié)果表明這一方法有很好的分類正確率;張晟(2020)[2]針對互聯(lián)網(wǎng)P2P 借貸平臺的數(shù)據(jù)應(yīng)用XGBoost 算法、隨機森林算法、投票分類算法對違規(guī)用戶進行畫像分析,根據(jù)評價指標AUC 值,得分最高的是隨機森林算法,第二是XGBoost 算法,第三是投票分類算法,但是在數(shù)據(jù)樣本較大的情況下集成學(xué)習(xí)整體運算時間較長,調(diào)參也有一定難度,容易出現(xiàn)過擬合現(xiàn)象;宋點白(2019)[3]針對消費為主的個人短期貸款利用Logistic 和RUSBoost 隨機森林模型對違約風(fēng)險因素進行分析,得出商業(yè)銀行可根據(jù)掌握的人口特征和貸款特征判斷個人短期貸款違約風(fēng)險,并提前進行風(fēng)險應(yīng)對。

        基于其他學(xué)者的研究,發(fā)現(xiàn)LightGBM 算法應(yīng)用的較少,本文選擇XGBoost 算法和LightGBM 算法建立模型,利用大數(shù)據(jù)挖掘技術(shù),對貸款違約因素進行分析,并選擇合適的評價指標對兩個模型進行比較,最后給出本文的結(jié)論和建議。

        1 算法理論簡介

        1.1 XGBoost算法簡介

        利用泰勒二階展開式得到損失函數(shù)的極小值,然后,采用精確或近似方法貪心搜索出得分最高的切分點,進行下一步切分并擴展葉節(jié)點[5]。

        1.2 LightGBM算法簡介

        LightGBM 是微軟亞洲院提出的一種基于梯度提升決策樹的算法,對標XGBoost,它最大的特點就是運算速度快、效率高。LightGBM 在尋找損失函數(shù)的最優(yōu)分割點時基于梯度的單邊采樣,對于樣本xi,其梯度gi越小說明yi與yi已經(jīng)非常接近了,在尋找分割點時可以把它的權(quán)重放低一點。另外在特征方面LightGBM 運用互斥特征捆綁,試圖把盡可能多互斥的特征捆綁在一起,降低數(shù)據(jù)維度的同時,最大程度的保留數(shù)據(jù)的信息,加快了運算速度。在樹的節(jié)點生長方面,LightGBM 按Leaf-Wise 策略生長,選擇能夠使損失函數(shù)減少的最多的節(jié)點分裂,可以通過設(shè)置max_leaf 參數(shù)讓樹停止生長。最后,在樹模型中,位置越靠前的分類器在模型中重要程度越高,而位置越靠后的模型,則對整體的影響很小。Light-GBM 使用DART技術(shù)使得后面的分類器也發(fā)揮較大的作用[5]。

        1.3 評價指標AUC值簡介

        本文引入混淆矩陣的概念,如表1所示。

        表1 混淆矩陣

        在邏輯回歸里面,對于正負例的界定,通常會設(shè)一個閾值,大于閾值的為正例,小于閾值為反例。如果我們減小這個閥值,更多的樣本會被識別為正例,提高正類的識別率,但同時也會使得更多的反例被錯誤識別為正例。為了直觀表示這一現(xiàn)象,引入ROC。

        根據(jù)分類結(jié)果計算得到ROC 空間中相應(yīng)的點,連接這些點就形成ROC curve,橫坐標為False Positive Rate(FPR:假正率),縱坐標為True Positive Rate(TPR:真正率)。ROC 曲線與x軸所圍成的面積就是AUC(area under ROC curve)值。一般情況下,這個曲線都應(yīng)該處于(0,0)和(1,1)連線的上方,也就是AUC值大于0.5。

        2 實證分析

        2.1 數(shù)據(jù)分析及預(yù)處理

        數(shù)據(jù)來源于天池平臺上金融風(fēng)控比賽的數(shù)據(jù)集,數(shù)據(jù)集有15 萬條,數(shù)據(jù)集數(shù)據(jù)包含47 列變量信息,其中idDefault是是否違約,是目標變量,另外有15 列為匿名變量,并且對employment-Title、purpose、postCode 和title 等變量信息已經(jīng)脫敏過了。大致可以把變量分為四類:貸款信息、借款人信息、借款人信用信息以及n系列匿名變量,部分變量介紹如表2所示。

        表2 部分變量介紹

        本文先對數(shù)據(jù)的變量特征進行一個大概的了解,對于日期變量:earliesCreditLine、employmentLength、issueDate,日期變量都需要經(jīng)過處理才能代入模型.issueDate 的格式是“2014/7/1”這樣的,本文將這個變量另外命名為issueDateDT,表示該issueDate 的日期與數(shù)據(jù)集里最早的日期的間隔天數(shù),操作之后把issueDate 刪除;employmentLength 的格式是“<1 year、2 years、8 years、10+years”這樣的,操作以后employment-Length 變成范圍在0~10 之間的數(shù)值變量;earliesCreditLine 的格式是“May-1992、Sep-1994 、Nov-2010”,操作之后只保留后面的年份,也變成了數(shù)值變量。

        下面本文對數(shù)值型變量的值進行分析,發(fā)現(xiàn)policyCode 全都是值1,所以把該變量刪除;然后來查看變量中的缺失值情況,如圖1所示。

        圖1 缺失值分布情況

        變量中缺失值最多的是n11,有13033條缺失值,n10、n4、n5、n9、n8、n7、n14、n3、n2、n1、n0、n6 以及employmentLength 的缺失值在6000~8000 之間,這里本文選擇用平均數(shù)對數(shù)值型變量進行填補,對類別型變量本文使用眾數(shù)進行填補。將數(shù)值型變量分為離散和連續(xù)型兩種,觀察連續(xù)型數(shù)值型變量的分布情況,對于分布不符合正態(tài)分布進行對數(shù)化變換,使得該變量更加接近正態(tài)分布,因為一些情況下正態(tài)型變量可以讓模型更快的收斂,并且貝葉斯算法對數(shù)據(jù)正態(tài)有喜好,部分連續(xù)變量分布如圖2所示。

        圖2 部分連續(xù)型變量的分布情況

        接下來,對于類別變量grade 有“A、B…F、G”七個等級,本文用1~7 的值來對應(yīng);對類型數(shù)在2 之上,又不是高維稀疏且純分類的變量homeOwnership、verificationStatus、purpose、region-Code、subGrade,本文使用pandas 的get_deummies函數(shù)得到它們的虛擬變量。

        2.2 特征工程

        圖3 剩余變量相關(guān)系數(shù)

        到這里,本文對數(shù)據(jù)集的特征工程部分就可以結(jié)束了,下面開始建立模型。

        2.3 建模調(diào)參

        本文使用的算法是LightGBM 算法和XGBoost算法,調(diào)參用的方法是貝葉斯優(yōu)化方法。貝葉斯優(yōu)化的原理[4]是:①根據(jù)最大化采集函數(shù)來選擇下一個最有“潛力”的評估點xi。②根據(jù)選擇的點xi評估目標函數(shù)yi=f(xi) +εi。③把新得到的輸入觀測值對(xi,yi)添加到歷史觀測集中,并更新概率代理模型,為下一次迭代做準備。本文先分別建立兩個模型要估計參數(shù)的CV 函數(shù),給出各個參數(shù)的估計范圍,經(jīng)過貝葉斯優(yōu)化之后,得到最優(yōu)的參數(shù)。LightGBM 算法和XGBoost 算法的參數(shù)如表3所示。

        表3 部分重要參數(shù)的值

        2.4 模型預(yù)測結(jié)果

        本文利用模型交叉五折驗證,LightGBM 模型的最優(yōu)迭代次數(shù)大約是1420次,得到的AUC值為0.7221。XGBboost 模型的最優(yōu)迭代次數(shù)大約是4004 次,得到的AUC 值為0.7285。ROC 曲線如圖4所示。

        圖4 兩個模型的ROC曲線對比

        3 結(jié)語

        經(jīng)過本文對兩個模型的特征重要性分析,貸款發(fā)放時間、信貸周轉(zhuǎn)余額合計、債務(wù)收入比、年收入、分期付款金額、信用等級、貸款金額等變量對模型的貢獻度較高。顯而易見,貸款發(fā)放時間越長違約率越高,信貸周轉(zhuǎn)余額越少違約率越高,債務(wù)收入比越高違約率越高,年收入越高違約率越低,分期付款金額越高違約率越高,信用等級越高違約率越高,貸款金額越高違約率越高,進一步說明了本文的兩個模型是合理的。

        本文的兩個模型得到的AUC 值還算理想,也比較接近,說明兩個模型都有不錯的學(xué)習(xí)能力和預(yù)測能力,但是在實際操作過程中XGBoost 算法的運算速度實在是太慢了,在貝葉斯調(diào)參過程和模型訓(xùn)練的過程中都很慢,雖然XGBoost 得到的結(jié)果稍微比LightGBM 好一點,但是電腦配置不行的話,本文還是主推LightGBM模型。

        建議金融機構(gòu)在發(fā)放貸款的時候,一定要完善貸款人的信息,嚴格審核貸款人的貸款資格,健全自身的風(fēng)險評估體系,有科學(xué)明確的發(fā)展方向。

        猜你喜歡
        貝葉斯貸款變量
        抓住不變量解題
        也談分離變量
        Wang Yuan: the Brilliant Boy
        My Huckleberry Friends:Even if the Whole World Stand against me,I Will always Stand by You
        貝葉斯公式及其應(yīng)用
        貸款為何背上黑鍋?
        基于貝葉斯估計的軌道占用識別方法
        還貸款
        讀寫算(上)(2016年11期)2016-02-27 08:45:29
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        国产成人亚洲精品无码mp4| 一区二区人妻乳中文字幕| 精品久久亚洲中文字幕| 国产日产精品一区二区三区四区的特点| 在线播放亚洲第一字幕| 久久亚洲成a人片| 亚洲国产一区二区a毛片| 少妇高潮喷水久久久影院| 久久久亚洲欧洲日产国码是AV| 免费看片的网站国产亚洲| 午夜dy888国产精品影院| 日本边添边摸边做边爱的网站| 思思99热| 人妻体体内射精一区中文字幕| 精品露脸国产偷人在视频| 好男人日本社区www| 无套内谢孕妇毛片免费看看| 日本熟妇hd8ex视频| 手机在线播放成人av| 亚洲欧洲成人a∨在线观看| 国产极品美女高潮抽搐免费网站| 亚洲九九九| 成人男性视频在线观看 | 日本高清一区二区三区水蜜桃| 人妻av一区二区三区高| 国产精品亚洲在钱视频| 色吧噜噜一区二区三区| 国产精品无码久久久久| 欧美日韩国产成人综合在线影院| 久久人妻精品免费二区| 亚洲av无码一区二区一二区| 亚洲av无码一区二区乱子伦as | 免费一区二区三区久久| 日本五十路熟女在线视频| 日韩精品熟女中文字幕| 国语自产偷拍精品视频偷| 奇米影视久久777中文字幕| 亚洲av噜噜狠狠蜜桃| 亚洲视频一区二区三区视频 | 日韩精品人妻少妇一区二区| 久久久精品视频网站在线观看|