亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信用評(píng)分和數(shù)據(jù)挖掘?qū)ι虡I(yè)貸款違約情況的預(yù)測(cè)方法研究

2020-04-20 11:24:52聶紀(jì)予

全國(guó)流通經(jīng)濟(jì) 2020年4期

摘要：隨著貸款消費(fèi)的發(fā)展，信貸管理中存在著諸多問(wèn)題并且也面臨著一些難以掌控的風(fēng)險(xiǎn)，如果能利用數(shù)據(jù)挖掘技術(shù)，通過(guò)對(duì)貸款人的各類數(shù)據(jù)進(jìn)行分析，從而得出一個(gè)相對(duì)準(zhǔn)確的借貸判斷，那么對(duì)于金融部門(mén)會(huì)有很大價(jià)值。本文對(duì)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和相關(guān)挖掘分析方法進(jìn)行了分析與解釋，利用現(xiàn)有的數(shù)據(jù)對(duì)多個(gè)模型進(jìn)行比較得出了相對(duì)準(zhǔn)確性較高的建模方法，最后對(duì)這一方法對(duì)社會(huì)的價(jià)值進(jìn)行了簡(jiǎn)要的評(píng)述。

關(guān)鍵詞：貸款違約;支持向量機(jī);CART;信用評(píng)分模型

中圖分類號(hào)：F832.33;F224 文獻(xiàn)識(shí)別碼：A文章編號(hào)：2096-3157（2020）04-0144-04

一、研究背景

隨著國(guó)家經(jīng)濟(jì)實(shí)力的穩(wěn)步發(fā)展，國(guó)民生活條件得到了進(jìn)一步的提高，人們的支出也隨之加大，貸款這種方式也因此越來(lái)越受到人們的青睞。而且信息技術(shù)的不斷發(fā)展使貸款脫離了銀行的限制，越來(lái)越多的商業(yè)團(tuán)體也開(kāi)通了貸款業(yè)務(wù)，如螞蟻花唄等方式使得貸款消費(fèi)更加得大眾化，選擇貸款消費(fèi)的人也越來(lái)越多。貸款違約現(xiàn)象給金融部門(mén)會(huì)帶來(lái)嚴(yán)重的經(jīng)濟(jì)損失。因此，建立合適的個(gè)人信用評(píng)分方法迫在眉睫。

為保障銀行或者其他金融部門(mén)的安全，信用評(píng)分應(yīng)運(yùn)而生。該模型利用客戶的歷史資料和行為特征，對(duì)客戶進(jìn)行評(píng)分，從而來(lái)決定客戶所能持有的金額限度，保證還款等業(yè)務(wù)的安全性。20世紀(jì)40年代以來(lái)，信用評(píng)分技術(shù)發(fā)展速度驚人。以美國(guó)為代表的西方資本主義國(guó)家已經(jīng)建立了非常完善的信用評(píng)分系統(tǒng)。我國(guó)目前也在進(jìn)行這方面的研究，但是還不太成熟，這個(gè)領(lǐng)域中仍然還有很多機(jī)會(huì)。

傳統(tǒng)的理念當(dāng)中，采用的變量較少，每個(gè)變量均與客戶信用具有較強(qiáng)的關(guān)聯(lián)關(guān)系，對(duì)信用評(píng)估起著決定性作用。但當(dāng)前的大數(shù)據(jù)背景，使得可用于評(píng)分的變量增多，每個(gè)變量的比重有所下降，但變量的聯(lián)合可以進(jìn)行更好的預(yù)測(cè)。當(dāng)然這需要對(duì)大量的數(shù)據(jù)進(jìn)行復(fù)雜的分析處理。而處理許多變量和弱特征時(shí)，就需要一種復(fù)雜的技術(shù)算法作為其基礎(chǔ)。

利用數(shù)據(jù)挖掘的方法來(lái)處理貸款問(wèn)題在國(guó)外已有初步研究。Herzog等在對(duì)抵押預(yù)期的分析中，發(fā)現(xiàn)收入波動(dòng)性大的借款人更有可能發(fā)生拖欠行為[1]。我國(guó)這方面的研究起步較晚，但在研究的階段也取得了一定的成果。孫大力提出在應(yīng)用信用評(píng)分模型時(shí)除了借鑒國(guó)外的成熟方法，還應(yīng)注意結(jié)合我國(guó)國(guó)情與特殊情況，特別關(guān)注總體樣本、個(gè)人信用動(dòng)態(tài)變化、特征變量的選取、臨界值判斷等具體問(wèn)題[2]。王春峰等采用多種方法，主要有Logit回歸、線性判別法、神經(jīng)網(wǎng)絡(luò)模型和遺傳規(guī)劃模型等，研究了信用風(fēng)險(xiǎn)控制理論[3]。

二、數(shù)據(jù)與方法

1.研究數(shù)據(jù)

在本研究中，筆者選用了UCI網(wǎng)站的數(shù)據(jù)集（http：//archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients）。該數(shù)據(jù)集共包含30000條數(shù)據(jù)。因變量Y是是否違約，0是未違約，1是違約。自變量給出了23個(gè)選項(xiàng)。

2.模型描述

根據(jù)UCI上的違約信用評(píng)分?jǐn)?shù)據(jù)，我們采用混合SVM的方法建立分類模型，模型判別的結(jié)果是消費(fèi)者是否違約。我們的建模思路主要分以下兩步進(jìn)行。第一步，使用CART模型選擇合適的特征;第二步，將第一步選出的特征放入SVM進(jìn)行分類。

首先，我們對(duì)所使用方法的基本原理進(jìn)行簡(jiǎn)要介紹。

（1）CART算法

CART（Classification And Regression Tree，分類回歸樹(shù)）是在給定輸入X條件下輸出隨機(jī)變量Y的條件概率分布的學(xué)習(xí)方法，本身屬于決策樹(shù)分類法。決策樹(shù)的生成過(guò)程就是使用滿足劃分準(zhǔn)則的特征不斷將數(shù)據(jù)集劃分為純度更高，不確定性更小的子集。對(duì)于當(dāng)前數(shù)據(jù)集D的每一次劃分，我們都希望根據(jù)某特征劃分之后的各個(gè)子集的純度更高，不確定性更小。這里我們選擇CART方法進(jìn)行分類，對(duì)特征重要性排序，從而選出有研究?jī)r(jià)值的特征。

CART二分每個(gè)特征（包括標(biāo)簽特征、連續(xù)特征，即分類型與數(shù)值型數(shù)據(jù)均可），經(jīng)過(guò)最優(yōu)二分特征及其最優(yōu)二分特征值的選擇、切分、二叉樹(shù)生成、剪枝來(lái)實(shí)現(xiàn)CART算法。與其他決策樹(shù)算法不同的是，CART選擇使得基尼系數(shù)最小的剪枝方法。圖1所示為CART算法與其他決策樹(shù)算法的對(duì)比，決策樹(shù)的ID3算法和C4.5算法利用熵來(lái)度量，生成了相對(duì)較為復(fù)雜的多叉樹(shù)，且只能處理分類問(wèn)題。CART算法使用基尼系數(shù)來(lái)代替信息增益比，基尼指數(shù)Gini（D）表示表示在樣本集合中一個(gè)隨機(jī)選中的樣本被分錯(cuò)的概率。如圖2所示，基尼指數(shù)越大，樣本的不確定性也就越大，可以作為熵模型的一個(gè)近似替代，由此避免大量對(duì)數(shù)運(yùn)算，簡(jiǎn)化模型同時(shí)也不至于完全丟失熵模型的優(yōu)點(diǎn)。

其中：

基尼指數(shù)（基尼不純度）= 樣本被選中的概率 ×樣本被分錯(cuò)的概率（1）

在分類問(wèn)題中，假設(shè)有K類，樣本點(diǎn)屬于第k類的概率為pk，則基尼系數(shù)表達(dá)式為：

Gini（p）=∑Kk=1pk（1-pk）=1-∑Kk=1p2k（2）

對(duì)于分類問(wèn)題：設(shè)Ck為D中屬于第k類的樣本子集，則基尼指數(shù)為：

Gini（D）=1-∑Kk=1|Ck||D|2（3）

對(duì)于樣本D，如果根據(jù)特征A的某個(gè)值a，把D分成D1和D2兩部分，則在特征A的條件下，D的基尼系數(shù)表達(dá)式為：

Gini（D，A）=|D1||D|Gini（D1）+|D2||D|Gini（D2）（4）

（2）支持向量機(jī)模型

SVM（Support Vector Machine，支持向量機(jī)）的分類思想本質(zhì)上和線性回歸LR分類方法類似，即求出一組權(quán)重系數(shù)，通過(guò)線性表示進(jìn)行分類。先使用一組訓(xùn)練集來(lái)訓(xùn)練SVM中的權(quán)重系數(shù)，得到分割超平面，該平面即為分類的決策邊界，分在平面兩邊的就是兩類。進(jìn)而找到離分隔超平面最近的點(diǎn)，確保它們離分隔面的距離盡可能遠(yuǎn)，最大化支持向量到分隔面的距離。顯然，經(jīng)典的SVM算法（圖3）只適用于兩類分類問(wèn)題。

但經(jīng)過(guò)改進(jìn)之后，SVM也可以適用于多類分類問(wèn)題。實(shí)際上，低維非線性的分界線在高維是線性可分的。由于從輸入空間到特征空間的這種映射會(huì)使得維度發(fā)生爆炸式的增長(zhǎng)，因此上述約束問(wèn)題中的內(nèi)積運(yùn)算會(huì)非常大以至于計(jì)算機(jī)無(wú)法承受。通常需要構(gòu)造一個(gè)kernel函數(shù)。通過(guò)kernel核函數(shù)，將低維函數(shù)轉(zhuǎn)化為高維函數(shù)，只需要在輸入空間內(nèi)就可以進(jìn)行特征空間的內(nèi)積運(yùn)算。

常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯（RBF）核函數(shù)、sigmoid核函數(shù)等，每種核函數(shù)均具有自己的特征和使用情形。

三、計(jì)算與結(jié)果分析

1.模型預(yù)處理

在模型建立之前，首先要進(jìn)行數(shù)據(jù)的預(yù)處理。數(shù)據(jù)的預(yù)處理主要包含以下幾個(gè)方面：

第一，對(duì)數(shù)據(jù)集進(jìn)行了切分處理，在切分過(guò)程保持正負(fù)樣本比例。以下是數(shù)據(jù)集切分結(jié)果（表2），切割中訓(xùn)練集和測(cè)試集的比例是8∶2。

第二，通過(guò)欠采樣和過(guò)采樣處理正負(fù)樣本分布不均的問(wèn)題。為了解決類別不平衡對(duì)模型輸出的影響，通過(guò)采用欠采樣和過(guò)采樣的方式，來(lái)調(diào)整數(shù)據(jù)的不平衡。為了保證結(jié)果的可比性，要始終保持同一測(cè)試集對(duì)效果進(jìn)行檢驗(yàn)，通過(guò)采樣的方式來(lái)調(diào)整數(shù)據(jù)的不平衡。欠采樣是從不違約的人數(shù)中隨機(jī)抽取，進(jìn)而使不違約人數(shù)數(shù)量減小，與為違約人數(shù)相同。過(guò)采樣是從違約的數(shù)據(jù)集中有放回抽樣，進(jìn)而使違約人數(shù)數(shù)量增加，與未違約人數(shù)相同。表3是在核函數(shù)為RBF函數(shù)的時(shí)候，樣本未處理與欠采樣、過(guò)采樣的模型效果對(duì)比，可見(jiàn)采樣的方式可以顯著提高模型效果。

第三，對(duì)數(shù)據(jù)進(jìn)行歸一化處理。常見(jiàn)的數(shù)據(jù)歸一化的方法有兩種，第一種方法是利用min-max標(biāo)準(zhǔn)化的離差標(biāo)準(zhǔn)化方法，max為樣本數(shù)據(jù)的最大值，min為最小值。該方法是對(duì)原始數(shù)據(jù)的線性變換，使結(jié)果落到[0，1]區(qū)間。第二種方法是z-score的標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法。該方法下經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。將數(shù)據(jù)進(jìn)行歸一化，便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)，也能顯著提高模型的訓(xùn)練速度。

第四，對(duì)分類型數(shù)據(jù)進(jìn)行離散化處理。對(duì)于數(shù)值型數(shù)據(jù)來(lái)說(shuō)，不同數(shù)據(jù)之間的差值是有意義的，較小的差值可以反映變量的相似情況。但是對(duì)于分類型數(shù)據(jù)來(lái)說(shuō)，不同代碼數(shù)字之間的差值是無(wú)意義的，因此采用one-hot的編碼方法進(jìn)行二元化處理。表4是利用該編碼處理的一個(gè)例子，從中可以更清晰地看到編碼方法。

第五，利用CART進(jìn)行特征選擇。利用Salford System公司的軟件CATR 4.0和MART 2.0進(jìn)行特征選取。這樣不僅能很好地解決分類與回歸問(wèn)題，而且可以對(duì)變量的重要程度進(jìn)行排名，是很好的特征選取工具。得到的結(jié)果如圖5所示。

2.模型調(diào)參

模型調(diào)參主要分為三個(gè)部分：利用不同的核函數(shù)進(jìn)行處理，進(jìn)行特征選擇和對(duì)原始數(shù)據(jù)進(jìn)行采樣。在核函數(shù)調(diào)參過(guò)程中，主要使用了線性核（linear）、多項(xiàng)式核（poly）、徑向基函數(shù)（rbf）函數(shù)進(jìn)行模型調(diào)整;在數(shù)據(jù)的特征選擇中，主要使用CART方法，選擇了重要程度更高的特征;在于原始數(shù)據(jù)采樣中，采用了不處理、欠采樣和過(guò)采樣三種方法對(duì)數(shù)據(jù)進(jìn)行處理。

3.模型評(píng)估

對(duì)于模型效果的評(píng)價(jià)，主要選擇以下指標(biāo)來(lái)說(shuō)明模型效果。

根據(jù)混淆矩陣可以得到TP、FN、FP、TN四個(gè)值，TP即為預(yù)測(cè)正確的違約用戶的個(gè)數(shù)，F(xiàn)N為預(yù)測(cè)錯(cuò)誤（預(yù)測(cè)為不違約）的違約用戶個(gè)數(shù)，根據(jù)這四個(gè)值即可計(jì)算精確率、召回率和F1。

精確率（Precision）為T(mén)P/（TP+FP），即為在預(yù)測(cè)為違約的用戶中，預(yù)測(cè)正確（實(shí)際為違約）的人占比。

召回率（Recall）為T(mén)P/（TP+FN），即為在實(shí)際為違約的用戶中，預(yù)測(cè)正確（預(yù)測(cè)也為違約）的用戶占比。

F1值是精確率和召回率的調(diào)和均值，即F1=2PR/（P+R），相當(dāng)于精確率和召回率的綜合評(píng)價(jià)指標(biāo)。在輸出結(jié)果不平衡的模型中，F(xiàn)1值是對(duì)模型結(jié)果的綜合考量。

第一類錯(cuò)誤，為FN/（TP+FN）。即在預(yù)測(cè)違約的用戶中，實(shí)際是不違約的用戶。

第二類錯(cuò)誤，為FP/（FP+TN）。即在預(yù)測(cè)不違約的用戶中，實(shí)際是違約的用戶的占比。

在商業(yè)信貸模型中，用戶違約帶來(lái)的損失是更大的，因此，第二類錯(cuò)誤是重點(diǎn)關(guān)注的指標(biāo)。

表5為不同模型下的計(jì)算結(jié)果，可以看出，CART1+SVM（RBF）能夠產(chǎn)生最好的分類效果。并且在該方法在欠采樣的情況下，第二類錯(cuò)誤也可以得到很好的控制。

四、結(jié)論

準(zhǔn)確的信用評(píng)分模型和對(duì)用戶是否違約的判斷，對(duì)銀行業(yè)務(wù)來(lái)說(shuō)是至關(guān)重要的，因?yàn)橛脩暨`約對(duì)銀行帶來(lái)的損失是非常大的。這也要求模型要做到對(duì)違約用戶的有效甄別。

就建模過(guò)程來(lái)講，本研究的意義在于建模過(guò)程和方法的指導(dǎo)。研究表明，CART1+SVM（RBF）能夠產(chǎn)生最好的分類效果。因此，在利用SVM建模的時(shí)候，推薦使用CART1先進(jìn)行變量選擇，利用重要的變量進(jìn)行SVM，能夠取得更好的效果。CART1+SVM（RBF）的方法，不僅具有較好的召回率和精確度，而且犯第二類錯(cuò)誤的概率也更小。

參考文獻(xiàn)：

[1]Herzog，I.P.，&Earley，J.S.Home Mortgage Delinquency and Foreclosure[J].New York：National Bureau of Economic Research，1970，34～41.

[2]孫大利.個(gè)人信用評(píng)分模型綜述與應(yīng)用分析[J].中國(guó)信用卡，2006，（9）：27～34.

[3]王春峰，萬(wàn)海暉，張維.基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估[J].系統(tǒng)工程理論與實(shí)踐，1999，（9）：24～32.

作者簡(jiǎn)介：聶紀(jì)予，唐山市第二中學(xué)學(xué)生。

全國(guó)流通經(jīng)濟(jì)2020年4期

全國(guó)流通經(jīng)濟(jì)的其它文章: 淺議企業(yè)成本控制及分析; 商業(yè)銀行管理會(huì)計(jì)與財(cái)務(wù)核算分析; 人民幣匯率波動(dòng)如何影響我國(guó)金融服務(wù)貿(mào)易流量; 股份制商業(yè)銀行一級(jí)分行風(fēng)險(xiǎn)管理工作的思考; 國(guó)內(nèi)外農(nóng)業(yè)保險(xiǎn)研究梳理; 股價(jià)波動(dòng)影響因素及長(zhǎng)虹美菱未來(lái)發(fā)展趨勢(shì)分析