亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于決策樹的用戶信用評分模型的構(gòu)建

2019-07-08 03:32:55吳錦華王志生劉重陽胡龍彪

無線互聯(lián)科技 2019年8期

吳錦華王志生劉重陽胡龍彪

摘 ? 要：信用評分系統(tǒng)在信用風(fēng)險(xiǎn)管理中發(fā)揮比較重要的作用，通過大數(shù)據(jù)分析技術(shù)構(gòu)建評估分析模型來解決信用風(fēng)險(xiǎn)預(yù)測問題。文章在scikit-learn機(jī)器學(xué)習(xí)工具的基礎(chǔ)上，通過利用特征選擇方法生成有效特征集并結(jié)合決策樹方法來構(gòu)建信用評分模型，并在實(shí)際數(shù)據(jù)集得出評分結(jié)果，同時(shí)所得結(jié)果為評估人員提供信用決策建議。

關(guān)鍵詞：信用評分;scikit-learn;特征選擇;決策樹

1 ? ?信用簡介

“信用”是長時(shí)間積累的信任和誠信度，如“信用風(fēng)險(xiǎn)”是銀行主要信用卡審批過程中常見的風(fēng)險(xiǎn)，是銀行授信的最主要風(fēng)險(xiǎn)。過去對申請信用卡的申請人主要是依據(jù)于信貸員的評估，或者信貸決策委員會(huì)對申請人進(jìn)行綜合評價(jià)，而這種評估結(jié)果往往受其主觀因素的影響。最近幾年來，信用市場不斷擴(kuò)大，人工信用評估具有較大的局限性和不全面性。目前階段的信貸問題較為嚴(yán)重，各行各業(yè)都面臨著信用問題，欺詐時(shí)有發(fā)生，導(dǎo)致信用危機(jī)的發(fā)生。為了防范風(fēng)險(xiǎn)，最大限度地降低風(fēng)險(xiǎn)，減少壞賬，提前預(yù)警不守信用的個(gè)人或企業(yè)，從而拒絕給其提供金融服務(wù)，如貸款、辦理信用卡等業(yè)務(wù)[1]。在這種巨大的信用風(fēng)險(xiǎn)考驗(yàn)下，建立全面有效的信用評分系統(tǒng)是目前各大金融機(jī)構(gòu)亟需解決的問題。

信用評分是評分技術(shù)在信用風(fēng)險(xiǎn)管理方面的應(yīng)用，通過建立方法模型進(jìn)行預(yù)測。以申請信用評分為例，利用海量的數(shù)據(jù)，借助機(jī)器學(xué)習(xí)相關(guān)方法模型給申請客戶進(jìn)行信用打分[2-3]，并依據(jù)不同的分值劃分客戶信用等級，從而預(yù)測客戶信用風(fēng)險(xiǎn)。

本文通過對Kaggle上的Give Me Some Credit數(shù)據(jù)的挖掘分析，結(jié)合信用評分卡的建立原理，對數(shù)據(jù)集進(jìn)行預(yù)處理、特征選擇以及利用scikit-learn平臺中的決策樹模型分別進(jìn)行預(yù)測以及其結(jié)果相應(yīng)對比分析，為個(gè)人信用評估工作人員提供參考。

2 ? ?數(shù)據(jù)分析與模型建立

2.1 ?數(shù)據(jù)預(yù)處理

對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行分析，初步觀察發(fā)現(xiàn)，Monthly Incom和Number of Dependents存在缺失值，另外部分age值為0，因此年齡值低于0均視為異常值。另外，對數(shù)據(jù)集的缺失率進(jìn)行計(jì)算，得到Monthly Income和Number of Dependents數(shù)據(jù)存在缺失，monthlyIncome 缺失數(shù)據(jù)最多，缺失率最高。Number of Dependents變量缺失值比較少，直接刪除，對總體模型不會(huì)造成太大影響，另外，對缺失值處理完之后，刪除重復(fù)項(xiàng)。

因此，在本文中，對age異常值進(jìn)行處理，認(rèn)為>90歲或者≤0歲的為異常值，在此數(shù)據(jù)集中，使用單變量離群值檢測判斷異常值，異常的樣本不多，則直接刪除。

經(jīng)過上面的數(shù)據(jù)預(yù)處理之后，就認(rèn)為現(xiàn)在的數(shù)據(jù)均為正常數(shù)據(jù)，而不是臟數(shù)據(jù)。所以接下來就可以對數(shù)據(jù)進(jìn)行一些各個(gè)變量之間的相關(guān)性分析來篩選一些重要的特征。首先，通過Python里面的seaborn包，調(diào)用heatmap（）繪圖函數(shù)進(jìn)行繪制各個(gè)變量之間的相關(guān)性的熱力，如圖1所示。

從圖1中可看出，各個(gè)特征之間的相關(guān)性還是比較小的，并不存在多重共線性問題，因此，不需要進(jìn)行降維處理或剔除相關(guān)變量，為后面模型的穩(wěn)定性提供了好的基礎(chǔ)。

2.2 ?特征選擇

本文采用決策樹來構(gòu)建分類模型時(shí)，經(jīng)常需要對自變量進(jìn)行篩選。比如有40個(gè)特征量時(shí)，通常情況不直接把40個(gè)變量直接放到模型中進(jìn)行訓(xùn)練，而是通過特征選擇方法從40個(gè)自變量中挑選一些出來。挑選過程比較復(fù)雜，需要考慮的因素很多，比如變量的預(yù)測能力、變量之間相關(guān)性、變量的簡單性、強(qiáng)壯性、變量的可解釋性等。但是，最主要和最直接的衡量標(biāo)準(zhǔn)是變量的預(yù)測能力。通過將用戶的信用卡數(shù)據(jù)進(jìn)行證據(jù)權(quán)重（Weight of Evidence，WOE）分箱后，再計(jì)算數(shù)據(jù)中的10個(gè)自變量生成預(yù)測能力如圖2所示。

2.3 ?特征變量的預(yù)測能力

從圖2中可以看出，數(shù)據(jù)集中的“月收入”“逾期30～59天筆數(shù)”“信貸數(shù)量”“家屬數(shù)量”和“固定資產(chǎn)貸款量”預(yù)測能力值均小于0.2，因此在信息價(jià)值（Information Value，IV）篩選的時(shí)候，IV值為0.1以上被認(rèn)為具有一般預(yù)測能力，0.2以上算比較有預(yù)測能力。所以在接下來的模型建立的過程中將篩掉這些預(yù)測能力差的特征。

2.4 ?模型預(yù)測分析

經(jīng)過數(shù)據(jù)預(yù)處理以及特征選擇之后，選擇決策樹對數(shù)據(jù)進(jìn)行分類，在機(jī)器學(xué)習(xí)中，決策樹是一個(gè)預(yù)測模型，它代表對象屬性與對象值之間的一種映射關(guān)系[1]。本文通過使用scikit-learn平臺中的決策樹工具構(gòu)建方法模型。另外，為了評估方法模型的有效性，采用交叉驗(yàn)證法來評價(jià)分類器性能，另外選擇受試者工作特征（Receiver Operating Characteristic curve，ROC）曲線下的坐標(biāo)軸圍成的面積（Area Under Curve，AUC）值作為評分標(biāo)準(zhǔn)，對應(yīng)AUC更大的分類器效果更好。繪制出的AUC曲線如圖3所示。另外，訓(xùn)練模型以及調(diào)節(jié)相應(yīng)參數(shù)，計(jì)算出方法模型的準(zhǔn)確率、精確率、召回率、f1-score，具體如表1所示。

由表1看出，經(jīng)過調(diào)參優(yōu)化后的決策樹方法模型，在測試集上召回率達(dá)到0.990 2，稍低于訓(xùn)練集，但結(jié)果所表現(xiàn)的性能比較優(yōu)秀，能夠較好地對用戶的信用進(jìn)行評分和預(yù)測。

3 ? ?結(jié)語

本文基于scikit-learn平臺構(gòu)建特征選擇方法模型，并在真實(shí)數(shù)據(jù)集進(jìn)行預(yù)測分析，最終調(diào)優(yōu)出來的方法模型在預(yù)測數(shù)據(jù)的準(zhǔn)確度、精確度等性能指標(biāo)上表現(xiàn)良好，在實(shí)際場景中具有一定的研究意義。

[參考文獻(xiàn)]

[1]王芝珺，吳純志.P2P網(wǎng)絡(luò)借貸平臺的個(gè)人信用評估模型研究—基于決策樹和Logistic回歸[C].杭州：第十屆海峽兩岸統(tǒng)計(jì)與概率研討會(huì)，2016.

[2]陳安.基于機(jī)器學(xué)習(xí)的信用卡風(fēng)險(xiǎn)評估研究[D].南昌：江西財(cái)經(jīng)大學(xué)，2018.

[3]袁海瑛.大數(shù)據(jù)背景下的互聯(lián)網(wǎng)融資信用評價(jià)體系構(gòu)建[J].上海經(jīng)濟(jì)研究，2017（12）：66-72.

無線互聯(lián)科技2019年8期

無線互聯(lián)科技的其它文章: 高職院?？萍碱惿鐖F(tuán)管理中的問題與對策分析; BIM技術(shù)在項(xiàng)目工程全生命周期運(yùn)用; 基于半監(jiān)督的SVM多標(biāo)簽圖數(shù)據(jù)分類算法研究; 信息公司物資管理系統(tǒng)的開發(fā)和實(shí)施; 職業(yè)技能大賽競賽規(guī)程解析; 高職院校學(xué)分積累與轉(zhuǎn)換制度建設(shè)探究