亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析

2017-03-25 22:21:13李卯

時(shí)代金融 2017年6期

李卯

【摘要】為了有效控制和防范信貸風(fēng)險(xiǎn)，商業(yè)銀行必須對(duì)借款人做出準(zhǔn)確的信用評(píng)估。本文通過(guò)利用傳統(tǒng)的Logistic回歸與隨機(jī)森林模型，分別建立信用評(píng)分模型，并比較兩個(gè)模型的優(yōu)缺點(diǎn)以達(dá)到最佳的預(yù)測(cè)效果，從而有效的降低商業(yè)銀行的個(gè)人信用評(píng)估風(fēng)險(xiǎn)，更好地實(shí)現(xiàn)銀行利潤(rùn)最大化。

【關(guān)鍵詞】信用評(píng)分 Logistic回歸隨機(jī)森林

一、引言

常用的信用評(píng)分技術(shù)一般分統(tǒng)計(jì)學(xué)方法和非統(tǒng)計(jì)學(xué)方法。統(tǒng)計(jì)學(xué)方法包括線(xiàn)性回歸、判別分析、Logistic回歸，決策樹(shù)等，非統(tǒng)計(jì)學(xué)方法包括線(xiàn)性規(guī)劃、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。但是對(duì)于這些開(kāi)發(fā)信用模型的技術(shù)，哪種方法最好，還沒(méi)有一致的結(jié)論。

Logistic回歸方法以其強(qiáng)大的穩(wěn)健性和泛化能力被較多地應(yīng)用到評(píng)估方法中；神經(jīng)網(wǎng)絡(luò)對(duì)不完全信息具有很強(qiáng)的處理能力，能夠解決現(xiàn)實(shí)生活中的非線(xiàn)性問(wèn)題，而且分類(lèi)精度非常高，也是優(yōu)先選擇的信用評(píng)估方法；支持向量機(jī)能處理小樣本、高維度的數(shù)據(jù)，并且獲得較高的分類(lèi)精度，對(duì)處于發(fā)展階段的信用評(píng)估系統(tǒng)也是一個(gè)不錯(cuò)的選擇。

總的來(lái)說(shuō)評(píng)價(jià)指標(biāo)體系被分為兩大類(lèi)：體現(xiàn)還款能力的指標(biāo)和體現(xiàn)還款意愿的指標(biāo)。這些指標(biāo)相對(duì)較容易獲得，并且能在一定程度上反映個(gè)人的真實(shí)還款能力和還款意愿，但是這些指標(biāo)比較片面，容易出現(xiàn)誤判，而且門(mén)檻非常高。

本文以真實(shí)的信貸數(shù)據(jù)為分析對(duì)象，使用常見(jiàn)的Logistic回歸、隨機(jī)森林來(lái)進(jìn)行研究。利用它們分別建立模型，對(duì)客戶(hù)進(jìn)行分類(lèi)，并比較模型預(yù)測(cè)結(jié)果。對(duì)比發(fā)現(xiàn)，兩個(gè)模型都有一定的預(yù)測(cè)能力，能將好壞客戶(hù)適度地區(qū)分開(kāi)來(lái)。

二、樣本數(shù)據(jù)

本文建模時(shí)所采用的數(shù)據(jù)集Credit是一家數(shù)據(jù)挖掘網(wǎng)站上提供的真實(shí)數(shù)據(jù)，客戶(hù)資料為一家德國(guó)信貸銀行的信貸審批數(shù)據(jù)（German Credit data）。該數(shù)據(jù)包含了個(gè)人客戶(hù)在向銀行提出貸款申請(qǐng)時(shí)所提供的個(gè)人信息（如：性別、年齡、資產(chǎn)情況等）。其中該數(shù)據(jù)包括1000條記錄，定義了兩類(lèi)信用卡客戶(hù)，第一類(lèi)為700個(gè)“好客戶(hù)”，第二類(lèi)為300個(gè)“壞客戶(hù)”。該數(shù)據(jù)集中有21個(gè)變量，其中20個(gè)是特征變量（自變量），而good-bad是響應(yīng)變量（因變量）。

三、實(shí)證研究

（一）Logistic回歸分析

在建立Logistic回歸模型時(shí)，隨機(jī)選取700樣本作為訓(xùn)練集，余下300樣本作為測(cè)試集，以0.5為概率界限，對(duì)訓(xùn)練集樣本和測(cè)試集樣本中的客戶(hù)進(jìn)行預(yù)測(cè)分類(lèi)。

本文利用軟件選用逐步變量選擇法，從模型的輸出結(jié)果中，可以計(jì)算出一個(gè)客戶(hù)是一個(gè)好客戶(hù)的概率：首先，使用樣本中為“好客戶(hù)”的比率作為閾值。對(duì)整個(gè)數(shù)據(jù)集進(jìn)行預(yù)測(cè)，雖然總的精度達(dá)到0.74，但是對(duì)于“壞客戶(hù)”的預(yù)測(cè)錯(cuò)誤率為74/（12+74）=0.86，沒(méi)有達(dá)到理想中的效果。當(dāng)閾值為0.5時(shí)預(yù)測(cè)效果沒(méi)有達(dá)到理想狀況，因此嘗試采用曲線(xiàn)來(lái)選擇最佳的診斷界限值，使用軟件得出回歸分析的曲線(xiàn)如圖3-1所示。

通過(guò)曲線(xiàn)確定的閾值，并由此進(jìn)行預(yù)測(cè)，其分類(lèi)混合矩陣如下所示。

由預(yù)測(cè)結(jié)果可知，測(cè)試集樣本預(yù)測(cè)結(jié)果精度高達(dá)0.76，而且“壞客戶(hù)”預(yù)測(cè)為“好客戶(hù)”的錯(cuò)誤率下降到26/（39+26）=0.4。采用ROC曲線(xiàn)來(lái)確定閾值，對(duì)訓(xùn)練集來(lái)說(shuō)，這種預(yù)測(cè)方式不僅總的預(yù)測(cè)精度得到提升，更重要的事對(duì)“壞客戶(hù)”的預(yù)測(cè)精度得到提升，因?yàn)轭A(yù)測(cè)成功可能產(chǎn)生違約風(fēng)險(xiǎn)的“壞客戶(hù)”對(duì)于銀行來(lái)說(shuō)才是最重要的。

（二）隨機(jī)森林分析

本文選取500顆樹(shù)在訓(xùn)練集上建立隨機(jī)森林模型，與Logistic回歸一樣，隨機(jī)選取700樣本作為訓(xùn)練集，余下300樣本作為測(cè)試集，在測(cè)試集上進(jìn)行預(yù)測(cè)。通過(guò)基于OOB數(shù)據(jù)的模型誤判率均值確定隨機(jī)森林模型當(dāng)mtry數(shù)值為10時(shí)誤差最小。

由結(jié)果可以看到，訓(xùn)練樣本誤差率為0，測(cè)試樣本誤差率為（56+17）/300=0.24。從結(jié)果看，隨機(jī)森林預(yù)測(cè)結(jié)果的誤差率是比較小的。

四、總結(jié)

在將信用好的客戶(hù)判定為信用不好的客戶(hù)從而拒絕其貸款申請(qǐng)的方面，無(wú)論是訓(xùn)練樣本還是測(cè)試樣本，其預(yù)測(cè)正確精度是：隨機(jī)森林大于Logistic回歸模型；在第二類(lèi)誤判，即將信用不好的客戶(hù)判定為信用好的客戶(hù)從而接受其貸款申請(qǐng)方面，無(wú)論是訓(xùn)練樣本還是測(cè)試樣本，其預(yù)測(cè)正確精度是：隨機(jī)森林大于Logistic回歸模型（一般而言，在銀行和其他金融機(jī)構(gòu)的實(shí)際操作中，第二類(lèi)誤判給銀行造成的損失更大）。從整體分類(lèi)精度來(lái)看，隨機(jī)森林的整體預(yù)測(cè)精度能達(dá)到75%以上，而傳統(tǒng)的Logistic回歸模型整體分類(lèi)精度只能達(dá)到70%左右。

從以上分析可以得出，兩種方法都可用于信用評(píng)分模型，其中Logistic回歸目前在信用評(píng)價(jià)領(lǐng)域應(yīng)用最為廣泛，而隨機(jī)森林算法是數(shù)據(jù)挖掘領(lǐng)域較為成功的算法。從預(yù)測(cè)結(jié)果也可以看出，模型的穩(wěn)健性是Logistic回歸的優(yōu)點(diǎn)，而缺點(diǎn)在于其預(yù)測(cè)精度不如隨機(jī)森林等數(shù)據(jù)挖掘算法；對(duì)于隨機(jī)森林算法，其模型的訓(xùn)練效果和預(yù)測(cè)精度都很好。綜上所述，本文認(rèn)為利用隨機(jī)森林算法建立信用評(píng)分模型比較合適的方法。

傳統(tǒng)的分析方法與新型的機(jī)器學(xué)習(xí)方法各有利弊，在選擇和運(yùn)用時(shí)要注意具體情況。在此也可以做出如此猜想，將傳統(tǒng)的分析方法與機(jī)器學(xué)習(xí)相結(jié)合使用。例如，可嘗試采用參數(shù)方法與非參數(shù)方法相結(jié)合的方式建立混合模型，即用決策樹(shù)或隨機(jī)森林提取特征變量交互作用項(xiàng)，引入到回歸方程中，從而完善Logistic回歸，起到變量選擇，考慮交互作用項(xiàng)的作用。

在國(guó)際金融危機(jī)背景下，利用先進(jìn)的計(jì)量分析技術(shù)構(gòu)建有效的消費(fèi)者信用評(píng)估體系成為平衡控制風(fēng)險(xiǎn)與追求增長(zhǎng)的關(guān)鍵。消費(fèi)者信用評(píng)估是通過(guò)建立信用評(píng)分模型，對(duì)信貸申請(qǐng)客戶(hù)的后續(xù)信用行為進(jìn)行預(yù)測(cè)，并基于客戶(hù)的特征變量將其劃分為“好客戶(hù)”和“壞客戶(hù)”，其分類(lèi)精度直接關(guān)系信貸的風(fēng)險(xiǎn)。

參考文獻(xiàn)

[1]任瀟，姜明輝，車(chē)凱，王尚.個(gè)人信用評(píng)估組合模型選擇方案研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2016（5），67-71.

[2]朱曉明，劉治國(guó).信用評(píng)分模型綜述[J].統(tǒng)計(jì)與決策，2007（2）：103-105.

[3]蕭超武，蔡文學(xué)，黃曉字，陳康.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理科學(xué)，2014（6）：111-113.

[4]王帥.個(gè)人信用評(píng)分混合模型研究[D].華東師范大學(xué)碩士學(xué)位論文，2010.

[5]張麗娜，趙敏.我國(guó)商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J].市場(chǎng)周刊（理論研究），2007（8）：115-117.