魏冠男
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程,安徽 蚌埠 233030)
基于支持向量機和決策樹CART的個人信用評估
魏冠男*
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程,安徽 蚌埠 233030)
為了更好地控制借款人的信用風(fēng)險,利用支持向量機對個人信用進行預(yù)測與分析,在支持向量機對個人信用評估產(chǎn)生缺陷的基礎(chǔ)上提出基于代價敏感學(xué)的CART決策樹預(yù)測個人信用的方法。實證分析表明:該方法能夠較好地對借款人信用狀況進行預(yù)測,為互聯(lián)網(wǎng)金融機構(gòu)進行相關(guān)風(fēng)險管理提供理論依據(jù)。
支持向量機;個人信用;互聯(lián)網(wǎng)金融機構(gòu);CART決策樹;風(fēng)險管理
隨著社會經(jīng)濟的發(fā)展,互聯(lián)網(wǎng)金融對促進小微企業(yè)融資和擴大就業(yè)產(chǎn)生了積極影響。但由于目前國內(nèi)征信體系不完善、違約成本低等原因極易出現(xiàn)借款人違約等信用風(fēng)險。風(fēng)險的出現(xiàn)無疑會給相關(guān)金融機構(gòu)和投資人帶來巨大的損失,最終不利于互聯(lián)網(wǎng)金融的健康發(fā)展。因此,建立互聯(lián)網(wǎng)金融標準時應(yīng)將信用管理作為一個關(guān)鍵指標。美國互聯(lián)網(wǎng)金融機構(gòu)把FICO信用分[1]作為信用風(fēng)險控制最重要的參考數(shù)據(jù),而國內(nèi)尚缺乏這樣的信用評分體系,不能精確估計消費信貸的風(fēng)險。同時,由于互聯(lián)網(wǎng)金融與傳統(tǒng)商業(yè)銀行在客戶定位上的根本性差異,兩者的信用評價模式也就不同。傳統(tǒng)商業(yè)銀行客戶信用評價模式依賴于提供足夠的抵押物或有效擔(dān)保,或提供合適的財務(wù)報表等“硬信息”;互聯(lián)網(wǎng)金融小微客戶缺乏充足的抵押物,難以提供有效擔(dān)保,且財務(wù)報表往往不規(guī)范、不全或失真,因此,我國應(yīng)在基于本國國情的基礎(chǔ)上結(jié)合客戶的特征進行風(fēng)險管理。充分利用積累的信息和數(shù)據(jù),采用合適的信用評估方法對不同類別的借款人進行有效的信用評估。目前國內(nèi)學(xué)者已經(jīng)提出關(guān)于個人信用評估的多種分類方法:如李太勇等[2]針對傳統(tǒng)信用評估方法分類精度低、特征可解釋性差等問題,提出了一種使用稀疏貝葉斯學(xué)習(xí)方法來進行個人信用評估的模型(SBLCredit)。張燕等[3]針對個人信用評估中未標號數(shù)據(jù)獲取容易而已標號數(shù)據(jù)獲取相對困難,以及普遍存在的數(shù)據(jù)不對稱問題,提出了基于改進圖半監(jiān)督學(xué)習(xí)技術(shù)的個人信用評估模型。湯浩龍等[4]以個人貸款信用評估為切入點,將支持向量機(Support Vector Machines,SVM)方法應(yīng)用到個人貸款信用評估模型中。本文在利用Clementine軟件基于支持向量機方法對個人信用評估進行評估的基礎(chǔ)上提出了不平衡類問題,并提出基于代價敏感學(xué)習(xí)的分類決策樹(Classification And Regression Tree,CART)的解決辦法。
1.1 支持向量機分類原理
SVM是一種監(jiān)督式學(xué)習(xí)的方法,基本思想是把輸入空間的樣本通過非線性變換映射到高維特征空間,然后在特征空間中求取把樣本線性分開的最優(yōu)分類面[5],如圖1所示。
圖1 支持向量機的分類原理圖
圖1中,H代表分類線,H1和H2分別將樣本分開且離分類線最近且平行于分類線的直線,它們之間的距離稱為分類間隔(Margin)。最優(yōu)分類線能將兩類樣本正確分開,并且使分類間隔最大。分類線的方程表示為x·w+b=0,對于給定線性可分的樣本集(xi,yi),i=1,2,…,n,xi∈Rd,y∈{-1,1}滿足
yi(w·xi+b)-1≥0(i=1,2,…,n),
(1)
得到分類間隔為2/││w││,當分類間隔最大時,即等價于││w││2最小,滿足條件式(1)并且使││w││2/2最小的分類面就叫做最優(yōu)分類面,H1、H2上的訓(xùn)練樣本叫做支持向量。
(2)
常用的核函數(shù)有線性核函數(shù)K(xi,x)=xixj;多項式核函數(shù)K(xi,xj)=[(xixj)+1]q;RBF核函數(shù)K(xi,xj)=exp(-(xi-xj)2/σ2);Sigmoid核函數(shù)K(xi,xj)=tanh(v(xixj)+c)。
1.2 個人信用評估的SVM模型建立
本文通過運用數(shù)據(jù)挖掘中的Clementine軟件來對樣本數(shù)據(jù)進行建模分析,具體過程如下:
1.2.1 商業(yè)理解
目前,住房按揭、消費信貸、汽車貸款、信用卡等信用消費已經(jīng)逐步浮出水面,但是國內(nèi)商業(yè)銀行對消費貸款的風(fēng)險管理水平較低,管理手段與方法均較落后,本研究利用信貸評估實例數(shù)據(jù)進行實證分析,采用最合適的任務(wù)安排和挖掘算法,為商業(yè)銀行評估個人信用狀況,并進行相關(guān)風(fēng)險管理提供了理論依據(jù)。
1.2.2 數(shù)據(jù)理解
數(shù)據(jù)理解的關(guān)鍵是數(shù)據(jù)源的選擇。本研究選用德國一銀行信貸評估實例數(shù)據(jù)進行實證分析,實例數(shù)據(jù)中主要有20個影響違約狀況的因素,第21個指標為該德國銀行根據(jù)前面20個屬性指標進行綜合判斷后對每個各戶給出的信用評估類別。該樣本數(shù)據(jù)中共包含1 000個客戶,被銀行批準獲得貸款的“好客戶”有700個,同時未獲得銀行貸款的“壞客戶”有300個。
1.2.3 數(shù)據(jù)準備
在構(gòu)建模型時,數(shù)據(jù)的處理對模型的評估結(jié)果有很大的影響。為了使模型的評估結(jié)果更準確,需要對數(shù)據(jù)進行預(yù)處理。我們將其中關(guān)于各個屬性對應(yīng)的狀態(tài)編碼數(shù)字化,首先根據(jù)每個屬性的不同的狀態(tài)按照0,1,2,…由小到大按順序進行編號,其次將所有的屬性及狀態(tài)標號匯總在同一張Excel表中用于導(dǎo)入到Clementine軟件中進行分析。
1.2.4 模型建立
選取 Clementine中的支持向量機節(jié)點建模,并分別用不同的核函數(shù)進行分類,具體的操作過程為:
Step1:將德國信用數(shù)據(jù)集Excel表導(dǎo)入其中作為源節(jié)點,將表節(jié)點附加到變量文件節(jié)點并執(zhí)行流,將一個類型節(jié)點附加到源節(jié)點,將客戶類別的字段值類型設(shè)置為“標志”,方向設(shè)置為“輸出”,其他所有指標字段的方向設(shè)置為輸入。
Step2:SVM 節(jié)點提供多個可選的核函數(shù)用于執(zhí)行處理過程。由于無法知道哪個函數(shù)對于任意給定的數(shù)據(jù)集性能最佳,依次選用RBF(徑向基函數(shù))、poly(多項式函數(shù))、Sigmoid函數(shù)和 line(線性函數(shù))進行比較研究。
Step3:依次運行4個SVM節(jié)點可以生成4種核函數(shù)的分類模型,在最后一個模型后面附加一個分析節(jié)點并執(zhí)行分析節(jié)點來對模型進行比較。
1.2.5 模型分析
將分析節(jié)點附加到最后一個模型節(jié)點上,然后使用分析節(jié)點的默認設(shè)置來執(zhí)行。在完成模型實施階段之后,數(shù)據(jù)流設(shè)計中的數(shù)據(jù)流圖如圖2所示。
圖2 SVM模型實施階段數(shù)據(jù)流圖界面
支持向量機中不同核函數(shù)的運行結(jié)果如表1所示。
表1 模型預(yù)測數(shù)據(jù)分析表
表1給出了不同的核函數(shù)對于樣本數(shù)據(jù)分類為正確或不正確的準確性。通過運行分析節(jié)點,可以得到每個模型的預(yù)測效果,來自分析節(jié)點的輸出顯示 RBF 函數(shù)可以正確地預(yù)測 99%的觀測值,多項式函數(shù)可以正確預(yù)測每個觀測值中的診斷。而Sigmoid函數(shù)和線性函數(shù)則只能預(yù)測70%和63%的觀測值。這就意味著多項式函數(shù)相比其他3種核函數(shù)在預(yù)測個人信用方面要更加實用一些。
在分類過程中,屬于不同類的實例數(shù)量都不成比例,對于銀行來說,拒絕“好”客戶和接受“壞”客戶所造成的損失并不相等。接受“壞”客戶,銀行可能遭受較大的違約風(fēng)險;而拒絕“好”客戶,損失的是貸款利息[6]。也就是說,接受“壞”客戶比拒絕“好”客戶的成本高。雖然欺詐的量級可能是百分之一,但其所帶來的損失必將是大于其收益的,因此,本文提出了基于代價敏感學(xué)習(xí)的個人信用預(yù)測方法。
2.1 CART決策樹簡介
CART決策樹模型使用二叉樹將預(yù)測空間遞歸地劃分為若干子集,而樹中的節(jié)點對應(yīng)著劃分不同區(qū)域,劃分是由每個內(nèi)部節(jié)點相關(guān)的分支規(guī)則來確定的,通過從樹根到節(jié)點移動,一個預(yù)測樣本被賦予一個唯一的葉節(jié)點,應(yīng)變量在該節(jié)點上的條件分布也即被確定。CART算法包含3部分內(nèi)容:分支變量即拆分點的選擇、樹的修剪和模型樹的評估[7-9]。
2.2 CART決策樹建模
Step1:采用的方法是將1 000個樣本數(shù)據(jù)按照2∶1的比例分為訓(xùn)練樣本(667個,從第一個到第667個樣本)和測試樣本(333個,從第668個到第1 000個樣本)
Step2:將接受“壞”客戶損失與拒絕“好”客戶的損失比例分別設(shè)置為不同的比例時,對333個測試樣本進行測試。
Step3:按照支持向量機的建模過程得到CART決策樹的數(shù)據(jù)流如圖3所示。
圖3 CART模型實施階段數(shù)據(jù)流圖界面
2.3 不同誤分類損失比例的結(jié)果分析
根據(jù)上述實驗得到的結(jié)果如表2所示,其中a為接受“壞”客戶損失與拒絕“好”客戶的損失比例。
表2 CART模型預(yù)測結(jié)果表
從表2可以看出,隨著接受“壞”客戶損失與拒絕“好”客戶的損失比例的加大,把“好”的客戶誤判為“壞”客戶的可能性也加大,其預(yù)測結(jié)果的正確率會降低。
信用評估準確率直優(yōu)劣直接影響到互聯(lián)網(wǎng)金融機構(gòu)的利益和投資者的資金安全,影響到整個行業(yè)的健康發(fā)展。專業(yè)的信用風(fēng)險控制能夠?qū)⑵脚_的逾期和壞賬率控制到最低,可以保證金融機構(gòu)長期運營的穩(wěn)定和規(guī)范化發(fā)展。因此,無論是傳統(tǒng)的銀行借貸,還是互聯(lián)網(wǎng)金融借貸,都應(yīng)該把控好借款人質(zhì)量,維護投資人的利益。
[1] FICO信用評級介紹[EB/OL].(2014-06-18)[2016-04-10]. http://wenku.baidu.com/link?url=aZF2-QNJMMe1cetFot x0jvJeJigr9VTxVlG_qW3ga6Rag_cVmJiSQE18PfO6T9BVHG8Cx5El 3zp4t6EB2JzQjWFIgMlje_ddcqqB_ta70DS.
[2] 李太勇,王會軍,吳江,等.基于稀疏貝葉斯學(xué)習(xí)的個人信用評估[J].計算機應(yīng)用,2013,33(11):3094-3096.
[3] 張燕,張晨光,張夏歡.基于改進圖半監(jiān)督學(xué)習(xí)的個人信用評估方法[J].計算機科學(xué)與探索,2012,6(5):473-480.
[4] 湯浩龍,和炳全,周薇.基于SVM的銀行個人貸款信用評估模型研究[J].西部經(jīng)濟管理論壇,2012,23(1):45-50,55.
[5] 葉俊勇,汪同慶,楊波,等.基于支持向量機的人臉檢測算法[J].計算機工程,2003,29(2):23-24.
[6] 宓文斌. 數(shù)據(jù)挖掘在銀行信貸業(yè)務(wù)中的應(yīng)用[D].上海:上海交通大學(xué),2012.
[7] 王鶴琴,朱萍,程代娣. 決策樹算法分析及其未成年人犯罪行為分析應(yīng)用[J].合肥學(xué)院學(xué)報(自然科學(xué)版),2011,21(1):59-62.
[8] 高尚.支持向量機及個人信用評估[M].西安:西安電子科技大學(xué)出版社,2013:引用頁碼.
[9] TAN P N, STEINBACH M, KUMAR V.Introduction to data mining[M].Addison-Wesley Longman Publishing Co.Inc.2005.
Personal Credit Evaluation based on Support Vector Machines and Classification and Regression Tree
WEIGuannan*
(Anhui University of Finance and Economics, Institute of Management Science and Engineering, Bengbu,233030)
To predict and analysis individual credit by using support vector machine (SVM),the author puts forward a method of personal credit evaluation approach based on cost-sensitive CART, which provides a theoretical basis to commercial banks of the assessment for personal credit status about related risk management .
Support Vector Machine(SVM); personal credit; online financing;classification and regression tree; risk management
10.13542/j.cnki.51-1747/tn.2016.04.015
2016-06-27
魏冠男(1989— ),男(漢族),河南南陽人,在讀碩士研究生,研究方向:互聯(lián)網(wǎng)金融,通信作者郵箱:nan_shan@foxmail.com。
F830.49
A
2095-5383(2016)04-0060-03