石振華
(貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)
基于決策樹算法的銀行信用評分
石振華
(貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)
銀行卡在給銀行創(chuàng)造了高額利潤的同時,也帶來了很大的信用風(fēng)險(xiǎn).對于銀行來說,嚴(yán)格把控信用申請者,對其進(jìn)行有效的信用評分和預(yù)測十分關(guān)鍵.采用數(shù)據(jù)挖掘技術(shù)中的決策樹算法能有效屏蔽銀行信用評估中的主觀因素,通過海量數(shù)據(jù)預(yù)處理、決策樹生成等步驟,最后通過相關(guān)算法實(shí)現(xiàn)能客觀地形成預(yù)測值,從而準(zhǔn)確地進(jìn)行信用評分.
信用評分;決策樹;算法
在個人消費(fèi)信貸已經(jīng)成為人們慣常消費(fèi)方式的今天,信用卡業(yè)務(wù)越發(fā)體現(xiàn)了其高額利潤和巨大的市場空間,中國的各大商業(yè)銀行也都在加快速度增加在銀行卡業(yè)務(wù)上的投入.但是這樣廣泛的開發(fā)信用卡市場最大的問題就在于高利潤必然伴隨著高風(fēng)險(xiǎn),對信用卡的風(fēng)險(xiǎn)控制逐漸成為一個關(guān)注重點(diǎn).
伴隨著計(jì)算機(jī)及網(wǎng)絡(luò)的迅速發(fā)展,信用評分廣泛應(yīng)用于銀行卡發(fā)放,但信用評分只能主觀地對信用卡申請者進(jìn)行評估,缺乏合理依據(jù).采用數(shù)據(jù)挖掘技術(shù)進(jìn)行信用評分能客觀地從海量數(shù)據(jù)中構(gòu)建出評分模型,評分結(jié)果更為準(zhǔn)確、有效,有助于信用卡的發(fā)放及管理.
使用數(shù)據(jù)挖掘方法中的決策樹算法[1]實(shí)現(xiàn)信用卡申請者的信用評分.下面就該算法的生成過程、構(gòu)造算法、以及具體實(shí)現(xiàn)算法進(jìn)行詳細(xì)介紹,重點(diǎn)敘述該算法運(yùn)用于信用評分的過程.
從銀行的客戶信息數(shù)據(jù)庫中提取相應(yīng)記錄.在客戶信息表中,有很多屬性雜亂無章或者特征不顯著,在數(shù)據(jù)預(yù)處理時要經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成及轉(zhuǎn)換、數(shù)據(jù)消減等步驟,將所有特征屬性進(jìn)行概化,為下一步生成合理、準(zhǔn)確的決策樹做準(zhǔn)備.
在客戶信息記錄中,有大量數(shù)據(jù)取值離散并且無共性特征,還有一些數(shù)據(jù)可以用另外一些屬性值來概括,那么就可以刪除掉這些無用數(shù)據(jù).得到屬性如下表1所示.
表1 個人信用數(shù)據(jù)表
在個人信用評估的輸入要素中,有“年齡”、“年收入”2個屬性的屬性值為連續(xù)型數(shù)據(jù).
將屬性逐一進(jìn)行概化,例如:文化程度分為4類;職業(yè)類別按工作性質(zhì)來分,共分9類.另外,決策樹技術(shù)進(jìn)行信用評分主要是針對離散型數(shù)據(jù)進(jìn)行分析處理,所以需要將連續(xù)型數(shù)據(jù)離散化,故而進(jìn)行以下調(diào)整:將年收入分為7組離散型數(shù)據(jù);對年齡可分為五組連續(xù)性數(shù)據(jù).
對大規(guī)模數(shù)據(jù)庫內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時間,這就常常使得這樣的分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時.數(shù)據(jù)消減能從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并保持原有數(shù)據(jù)集的完整性.通過檢測和消除無關(guān)、弱相關(guān)或冗余的屬性達(dá)到消減的目的.
擬選客戶管理特征作為建模的目標(biāo)變量.客戶的管理特征分為優(yōu)良客戶、一般客戶、限制客戶和淘汰客戶.本文的建模目標(biāo)只是劃分為三類:H1:好客戶;H2:一般客戶;H3:淘汰客戶.
在數(shù)據(jù)預(yù)處理后,進(jìn)行歸納決策樹.用信息增益率來選擇屬性,它克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足,在樹構(gòu)造過程中或者構(gòu)造完成之后,進(jìn)行剪枝,完成對連續(xù)屬性的離散化處理并對于不完整數(shù)據(jù)進(jìn)行處理,采用的知識表示形式為決策樹,并最終可以形成產(chǎn)生式規(guī)則.決策樹算法的主要處理過程如下:
設(shè) T 為數(shù)據(jù)集,類別集合為 Ci(i=1,2,……,m),Ti為類別集合Ci中的樣本數(shù),計(jì)算公式為:
其中Pi是類別Ci的發(fā)生概率,可以用Ti/T來估計(jì).本例中,客戶分為“好客戶”、“一般客戶”和“淘汰客戶”3類:m=3.
設(shè)屬性T具有v個值(X1,X2……Xv),它將T分成v個子集(S1,S2……Sv),其中Tj包含T中這樣的一些樣本,它們在屬性X上具有值Xj(j=1,2,……v),以屬性 X為分類所需的期望值(條件值)是:
屬性X的信息增益函數(shù)為:
信息增益率可以彌補(bǔ)信息增益函數(shù)輸出分枝多,預(yù)測不準(zhǔn)確這個缺陷.信息增益率能夠去除多分枝屬性的影響.信息增益率在考慮每一次劃分所產(chǎn)生的子結(jié)點(diǎn)的個數(shù)的同時也限制了每個子結(jié)點(diǎn)的大小(包含的數(shù)據(jù)實(shí)例的個數(shù)),而不再考慮分類所蘊(yùn)涵的信息量,屬性X的信息增益率為:
其中V為該節(jié)點(diǎn)的分枝數(shù),且為第1個分枝下的記錄個數(shù).
根據(jù)以上決策樹算法,計(jì)算出每個屬性的信息增益I(C,V)以及信息增益率Gaingate(X),在決策樹生成規(guī)則時,應(yīng)該選取信息增益率為最大值的屬性,但信息增益的最小值不低于所有屬性平均值的屬性作為測試點(diǎn),以該屬性作為根結(jié)點(diǎn),根據(jù)屬性的分布逐一畫出分枝,據(jù)此劃分?jǐn)?shù)據(jù).樹葉是所有樣本都在同一個類的結(jié)點(diǎn),需進(jìn)行標(biāo)注,可用客戶類別進(jìn)行標(biāo)注.按照該原則逐步分析,當(dāng)分析到在主屬性上子集中的數(shù)據(jù)記錄取值完全相同,或者屬性已經(jīng)劃分完畢,則形成決策樹對應(yīng)規(guī)則.
采用面向?qū)ο蟮姆椒ㄟM(jìn)行算法程序的設(shè)計(jì),決策樹部分代碼如下:
從該評分模型的決策樹算法的剖析中,可以看出決策樹的第一個選擇屬性是年收入,說明年收入是第一個主要的影響因素,這與平常經(jīng)驗(yàn)統(tǒng)計(jì)判斷所得結(jié)果相吻合.而對于高收入群體主要取決于受教育的情況,受教育程度高則信用情況相對較好,根據(jù)大量數(shù)據(jù)得到準(zhǔn)確結(jié)論.
數(shù)據(jù)挖掘技術(shù)正在被越來越多的銀行大力投入應(yīng)用,數(shù)據(jù)挖掘技術(shù)的正確使用能幫助銀行改善包括銀行卡業(yè)務(wù)在內(nèi)的各種類型的業(yè)務(wù),并且能增強(qiáng)銀行風(fēng)險(xiǎn)管理、增進(jìn)銀行與客戶的關(guān)系,提高競爭力.運(yùn)用建立的決策樹模型對銀行卡用戶進(jìn)行信用評分,分值高于或等于臨界分值(C1=76)的用戶將獲得通過,并給予較高的信用額度;信用分值低于臨界分值(C0=59)的用戶將被直接拒絕.而信用分值低于臨界分值(C1=76),但高于或等于臨界分值(C0=59)的用戶也將獲得通過,但只給予較低的信用額度,在今后的使用中銀行會根據(jù)實(shí)際用卡情況進(jìn)行實(shí)時的數(shù)據(jù)挖掘采取相關(guān)的營銷策略,這樣銀行可以實(shí)現(xiàn)“低風(fēng)險(xiǎn)、高回報(bào)”.最終最大限度的規(guī)避銀行卡發(fā)放的風(fēng)險(xiǎn),有效地為銀行卡業(yè)務(wù)保駕護(hù)航!
〔1〕朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.
〔2〕陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.
F830.589
A
1673-260X(2012)01-0075-02