亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析

        2017-03-25 22:21:13李卯
        時(shí)代金融 2017年6期
        關(guān)鍵詞:隨機(jī)森林

        李卯

        【摘要】為了有效控制和防范信貸風(fēng)險(xiǎn),商業(yè)銀行必須對(duì)借款人做出準(zhǔn)確的信用評(píng)估。本文通過(guò)利用傳統(tǒng)的Logistic回歸與隨機(jī)森林模型,分別建立信用評(píng)分模型,并比較兩個(gè)模型的優(yōu)缺點(diǎn)以達(dá)到最佳的預(yù)測(cè)效果,從而有效的降低商業(yè)銀行的個(gè)人信用評(píng)估風(fēng)險(xiǎn),更好地實(shí)現(xiàn)銀行利潤(rùn)最大化。

        【關(guān)鍵詞】信用評(píng)分 Logistic回歸 隨機(jī)森林

        一、引言

        常用的信用評(píng)分技術(shù)一般分統(tǒng)計(jì)學(xué)方法和非統(tǒng)計(jì)學(xué)方法。統(tǒng)計(jì)學(xué)方法包括線(xiàn)性回歸、判別分析、Logistic回歸,決策樹(shù)等,非統(tǒng)計(jì)學(xué)方法包括線(xiàn)性規(guī)劃、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。但是對(duì)于這些開(kāi)發(fā)信用模型的技術(shù),哪種方法最好,還沒(méi)有一致的結(jié)論。

        Logistic回歸方法以其強(qiáng)大的穩(wěn)健性和泛化能力被較多地應(yīng)用到評(píng)估方法中;神經(jīng)網(wǎng)絡(luò)對(duì)不完全信息具有很強(qiáng)的處理能力,能夠解決現(xiàn)實(shí)生活中的非線(xiàn)性問(wèn)題,而且分類(lèi)精度非常高,也是優(yōu)先選擇的信用評(píng)估方法;支持向量機(jī)能處理小樣本、高維度的數(shù)據(jù),并且獲得較高的分類(lèi)精度,對(duì)處于發(fā)展階段的信用評(píng)估系統(tǒng)也是一個(gè)不錯(cuò)的選擇。

        總的來(lái)說(shuō)評(píng)價(jià)指標(biāo)體系被分為兩大類(lèi):體現(xiàn)還款能力的指標(biāo)和體現(xiàn)還款意愿的指標(biāo)。這些指標(biāo)相對(duì)較容易獲得,并且能在一定程度上反映個(gè)人的真實(shí)還款能力和還款意愿,但是這些指標(biāo)比較片面,容易出現(xiàn)誤判,而且門(mén)檻非常高。

        本文以真實(shí)的信貸數(shù)據(jù)為分析對(duì)象,使用常見(jiàn)的Logistic回歸、隨機(jī)森林來(lái)進(jìn)行研究。利用它們分別建立模型,對(duì)客戶(hù)進(jìn)行分類(lèi),并比較模型預(yù)測(cè)結(jié)果。對(duì)比發(fā)現(xiàn),兩個(gè)模型都有一定的預(yù)測(cè)能力,能將好壞客戶(hù)適度地區(qū)分開(kāi)來(lái)。

        二、樣本數(shù)據(jù)

        本文建模時(shí)所采用的數(shù)據(jù)集Credit是一家數(shù)據(jù)挖掘網(wǎng)站上提供的真實(shí)數(shù)據(jù),客戶(hù)資料為一家德國(guó)信貸銀行的信貸審批數(shù)據(jù)(German Credit data)。該數(shù)據(jù)包含了個(gè)人客戶(hù)在向銀行提出貸款申請(qǐng)時(shí)所提供的個(gè)人信息(如:性別、年齡、資產(chǎn)情況等)。其中該數(shù)據(jù)包括1000條記錄,定義了兩類(lèi)信用卡客戶(hù),第一類(lèi)為700個(gè)“好客戶(hù)”,第二類(lèi)為300個(gè)“壞客戶(hù)”。該數(shù)據(jù)集中有21個(gè)變量,其中20個(gè)是特征變量(自變量),而good-bad是響應(yīng)變量(因變量)。

        三、實(shí)證研究

        (一)Logistic回歸分析

        在建立Logistic回歸模型時(shí),隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測(cè)試集,以0.5為概率界限,對(duì)訓(xùn)練集樣本和測(cè)試集樣本中的客戶(hù)進(jìn)行預(yù)測(cè)分類(lèi)。

        本文利用軟件選用逐步變量選擇法,從模型的輸出結(jié)果中,可以計(jì)算出一個(gè)客戶(hù)是一個(gè)好客戶(hù)的概率:首先,使用樣本中為“好客戶(hù)”的比率作為閾值。對(duì)整個(gè)數(shù)據(jù)集進(jìn)行預(yù)測(cè),雖然總的精度達(dá)到0.74,但是對(duì)于“壞客戶(hù)”的預(yù)測(cè)錯(cuò)誤率為74/(12+74)=0.86,沒(méi)有達(dá)到理想中的效果。當(dāng)閾值為0.5時(shí)預(yù)測(cè)效果沒(méi)有達(dá)到理想狀況,因此嘗試采用曲線(xiàn)來(lái)選擇最佳的診斷界限值,使用軟件得出回歸分析的曲線(xiàn)如圖3-1所示。

        通過(guò)曲線(xiàn)確定的閾值,并由此進(jìn)行預(yù)測(cè),其分類(lèi)混合矩陣如下所示。

        由預(yù)測(cè)結(jié)果可知,測(cè)試集樣本預(yù)測(cè)結(jié)果精度高達(dá)0.76,而且“壞客戶(hù)”預(yù)測(cè)為“好客戶(hù)”的錯(cuò)誤率下降到26/(39+26)=0.4。采用ROC曲線(xiàn)來(lái)確定閾值,對(duì)訓(xùn)練集來(lái)說(shuō),這種預(yù)測(cè)方式不僅總的預(yù)測(cè)精度得到提升,更重要的事對(duì)“壞客戶(hù)”的預(yù)測(cè)精度得到提升,因?yàn)轭A(yù)測(cè)成功可能產(chǎn)生違約風(fēng)險(xiǎn)的“壞客戶(hù)”對(duì)于銀行來(lái)說(shuō)才是最重要的。

        (二)隨機(jī)森林分析

        本文選取500顆樹(shù)在訓(xùn)練集上建立隨機(jī)森林模型,與Logistic回歸一樣,隨機(jī)選取700樣本作為訓(xùn)練集,余下300樣本作為測(cè)試集,在測(cè)試集上進(jìn)行預(yù)測(cè)。通過(guò)基于OOB數(shù)據(jù)的模型誤判率均值確定隨機(jī)森林模型當(dāng)mtry數(shù)值為10時(shí)誤差最小。

        由結(jié)果可以看到,訓(xùn)練樣本誤差率為0,測(cè)試樣本誤差率為(56+17)/300=0.24。從結(jié)果看,隨機(jī)森林預(yù)測(cè)結(jié)果的誤差率是比較小的。

        四、總結(jié)

        在將信用好的客戶(hù)判定為信用不好的客戶(hù)從而拒絕其貸款申請(qǐng)的方面,無(wú)論是訓(xùn)練樣本還是測(cè)試樣本,其預(yù)測(cè)正確精度是:隨機(jī)森林大于Logistic回歸模型;在第二類(lèi)誤判,即將信用不好的客戶(hù)判定為信用好的客戶(hù)從而接受其貸款申請(qǐng)方面,無(wú)論是訓(xùn)練樣本還是測(cè)試樣本,其預(yù)測(cè)正確精度是:隨機(jī)森林大于Logistic回歸模型(一般而言,在銀行和其他金融機(jī)構(gòu)的實(shí)際操作中,第二類(lèi)誤判給銀行造成的損失更大)。從整體分類(lèi)精度來(lái)看,隨機(jī)森林的整體預(yù)測(cè)精度能達(dá)到75%以上,而傳統(tǒng)的Logistic回歸模型整體分類(lèi)精度只能達(dá)到70%左右。

        從以上分析可以得出,兩種方法都可用于信用評(píng)分模型,其中Logistic回歸目前在信用評(píng)價(jià)領(lǐng)域應(yīng)用最為廣泛,而隨機(jī)森林算法是數(shù)據(jù)挖掘領(lǐng)域較為成功的算法。從預(yù)測(cè)結(jié)果也可以看出,模型的穩(wěn)健性是Logistic回歸的優(yōu)點(diǎn),而缺點(diǎn)在于其預(yù)測(cè)精度不如隨機(jī)森林等數(shù)據(jù)挖掘算法;對(duì)于隨機(jī)森林算法,其模型的訓(xùn)練效果和預(yù)測(cè)精度都很好。綜上所述,本文認(rèn)為利用隨機(jī)森林算法建立信用評(píng)分模型比較合適的方法。

        傳統(tǒng)的分析方法與新型的機(jī)器學(xué)習(xí)方法各有利弊,在選擇和運(yùn)用時(shí)要注意具體情況。在此也可以做出如此猜想,將傳統(tǒng)的分析方法與機(jī)器學(xué)習(xí)相結(jié)合使用。例如,可嘗試采用參數(shù)方法與非參數(shù)方法相結(jié)合的方式建立混合模型,即用決策樹(shù)或隨機(jī)森林提取特征變量交互作用項(xiàng),引入到回歸方程中,從而完善Logistic回歸,起到變量選擇,考慮交互作用項(xiàng)的作用。

        在國(guó)際金融危機(jī)背景下,利用先進(jìn)的計(jì)量分析技術(shù)構(gòu)建有效的消費(fèi)者信用評(píng)估體系成為平衡控制風(fēng)險(xiǎn)與追求增長(zhǎng)的關(guān)鍵。消費(fèi)者信用評(píng)估是通過(guò)建立信用評(píng)分模型,對(duì)信貸申請(qǐng)客戶(hù)的后續(xù)信用行為進(jìn)行預(yù)測(cè),并基于客戶(hù)的特征變量將其劃分為“好客戶(hù)”和“壞客戶(hù)”,其分類(lèi)精度直接關(guān)系信貸的風(fēng)險(xiǎn)。

        參考文獻(xiàn)

        [1]任瀟,姜明輝,車(chē)凱,王尚.個(gè)人信用評(píng)估組合模型選擇方案研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2016(5),67-71.

        [2]朱曉明,劉治國(guó).信用評(píng)分模型綜述[J].統(tǒng)計(jì)與決策,2007(2):103-105.

        [3]蕭超武,蔡文學(xué),黃曉字,陳康.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理科學(xué),2014(6):111-113.

        [4]王帥.個(gè)人信用評(píng)分混合模型研究[D].華東師范大學(xué)碩士學(xué)位論文,2010.

        [5]張麗娜,趙敏.我國(guó)商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J].市場(chǎng)周刊(理論研究),2007(8):115-117.

        猜你喜歡
        隨機(jī)森林
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于隨機(jī)森林算法的B2B客戶(hù)分級(jí)系統(tǒng)的設(shè)計(jì)
        基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)
        亚洲一区二区三区无码国产| 精品人妻在线一区二区三区在线| 白白发在线视频免费观看2| 国产做爰又粗又大又爽动漫| 国产丝袜美女| 国产福利精品一区二区| 日本精品人妻无码77777| 手机看片久久国产免费| 久久中文字幕久久久久| 久久久诱惑一区二区三区| 久久偷拍国内亚洲青青草| 日本人妻系列中文字幕| 国内揄拍国内精品少妇| 国产又色又爽无遮挡免费动态图| 成人无码激情视频在线观看| av免费观看网站大全| 亚洲youwu永久无码精品| 国产精品www夜色视频| 中文字幕av一区中文字幕天堂| 久久久久这里只有精品网| 精品午夜一区二区三区| 97中文字幕一区二区| 91精品国产福利在线观看麻豆| 又紧又大又爽精品一区二区| 久久婷婷香蕉热狠狠综合| 伊香蕉大综综综合久久| 日本成年少妇人妻中文字幕 | av日韩一区二区三区四区| 日韩精品成人无码专区免费| 国产美女露脸口爆吞精| 色系免费一区二区三区| 极品少妇高潮在线观看| 成午夜福利人试看120秒| 熟妇人妻无乱码中文字幕| 日日摸夜夜欧美一区二区| 蜜桃视频中文在线观看| 国产成人精品人人做人人爽97| 亚洲精品成人网线在线播放va| 老色鬼永久精品网站| 国产成人av三级三级三级在线 | 婷婷色中文字幕综合在线|