王 黎,廖聞劍
(1.武漢郵電科學(xué)研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)
基于GBDT的個(gè)人信用評(píng)估方法
王 黎1,2,廖聞劍1,2
(1.武漢郵電科學(xué)研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)
近年來,個(gè)人信用評(píng)估問題成為信貸行業(yè)的研究熱點(diǎn),針對(duì)當(dāng)前應(yīng)用于信用評(píng)估的分類算法大多存在只對(duì)某種類型的信用數(shù)據(jù)集具有較好的分類效果的問題,提出了基于Gradient Boosted Decision Tree(GBDT)的個(gè)人信用評(píng)估方法。GBDT天然可處理混合數(shù)據(jù)類型的數(shù)據(jù)集,可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合,不需要做復(fù)雜的特征變換,對(duì)于特征類型復(fù)雜的信用數(shù)據(jù)集有明顯的優(yōu)勢(shì),且其通過其損失函數(shù)可以很好地處理異常點(diǎn)。在基于兩個(gè)UCI公開信用審核數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,GBDT明顯優(yōu)于傳統(tǒng)常用的支持向量機(jī)(Support Vector Machine,SVM)以及邏輯回歸(Logistic Regression,LR)的信用評(píng)估效果,具有較好的穩(wěn)定性和普適性。
信用評(píng)估;分類算法;GBDT
信用風(fēng)險(xiǎn)分析在信貸行業(yè)起著非常重要的作用,對(duì)信貸申請(qǐng)者的準(zhǔn)確信用評(píng)估可幫助信貸商家有效規(guī)避信用風(fēng)險(xiǎn)[1]。近年來,許多分類算法都被應(yīng)用于個(gè)人信用評(píng)估,如線性判別分析[2]、LR[3]、K-NN最近鄰算法、樸素貝葉斯、決策樹[4]、神經(jīng)網(wǎng)絡(luò)[5]、SVM[6]等。這些方法中,神經(jīng)網(wǎng)絡(luò)多數(shù)情況下具有更高的評(píng)估準(zhǔn)確率[7-8],而關(guān)于支持向量機(jī)的研究則表明,支持向量機(jī)可以克服神經(jīng)網(wǎng)絡(luò)的不足,包括結(jié)構(gòu)選擇和小樣本下泛化能力不足等問題。然而,在數(shù)據(jù)集維度較復(fù)雜時(shí)這些算法存在不能主動(dòng)進(jìn)行特征選擇和特征組合的問題,因此準(zhǔn)確率會(huì)受到無(wú)關(guān)維度的影響,甚至產(chǎn)生維度災(zāi)難[9],并且在數(shù)據(jù)預(yù)處理中若不剔除異常點(diǎn),也會(huì)對(duì)分類結(jié)果的準(zhǔn)確率產(chǎn)生影響。如對(duì)于LR模型,特征組合非常關(guān)鍵,但又無(wú)法直接通過特征笛卡爾積解決,只能依靠人工經(jīng)驗(yàn),耗時(shí)耗力同時(shí)并不一定會(huì)帶來效果提升。GBDT是一種通過將弱分類器組合來提升分類器性能的方法[10]。GBDT算法可有效解決自動(dòng)進(jìn)行特征選擇和處理異常點(diǎn)問題,還能在一定程度上避免模型過擬合問題。在UCI兩個(gè)公開信用數(shù)據(jù)集[11]上的對(duì)比實(shí)驗(yàn)有效驗(yàn)證了GBDT在個(gè)人信用評(píng)估應(yīng)用上的適用性和穩(wěn)定性。
GBDT模型在1999年由Jerome Friedman提出[12],是決策樹與Boosting方法相結(jié)合的應(yīng)用。GBDT每顆決策樹訓(xùn)練的是前面決策樹分類結(jié)果中的殘差。這也是Boosting思想在GBDT中的體現(xiàn)。具體算法思想如圖1所示。
圖1 GBDT算法思想示意圖
從上圖可以看出GBDT的訓(xùn)練過程是線性的,是無(wú)法并行訓(xùn)練決策樹的。第一棵決策樹T1訓(xùn)練的結(jié)果與真實(shí)值T的殘差是第二棵樹T2訓(xùn)練優(yōu)化的目標(biāo),而模型最終的結(jié)果是將每一棵決策樹的結(jié)果進(jìn)行加和得到的。即公式(1):
GBDT對(duì)于迭代求優(yōu)常用的有兩種損失函數(shù)。一種方式是直接對(duì)殘差進(jìn)行優(yōu)化,另一種是對(duì)梯度下降值進(jìn)行優(yōu)化。從上圖也可以看出,GBDT與傳統(tǒng)的boosting不同,GBDT每次迭代的是優(yōu)化目標(biāo),boosting每次迭代的是重新抽樣的樣本。下面,以一個(gè)二元分類為例,介紹GBDT的原理,如圖2所示。
圖2 二元分類示例圖
對(duì)于一個(gè)待分裂的節(jié)點(diǎn)R,其輸出值以不同樣本y的平均值μ作為節(jié)點(diǎn)輸出值,即公式(2):
于是,節(jié)點(diǎn)的誤差可以表示為公式(3):
在節(jié)點(diǎn)分裂的過程中,需要選擇分裂增益最大的屬性進(jìn)行劃分,分裂增益G的計(jì)算方法如公式(4):
采用方差作為損失函數(shù),可以得到Sj,如公式(5):
于是,每個(gè)節(jié)點(diǎn)分裂問題就變成尋找一個(gè)屬性使分裂增益最大。分別將S,Sj展開,如公式(6):
GBDT采用Shrinkage(縮減)的策略通過參數(shù)設(shè)置步長(zhǎng),避免過擬合。Shrinkage的思想認(rèn)為,每次走一小步逐漸逼近結(jié)果的效果,要比每次邁一大步很快逼近結(jié)果的方式更容易避免過擬合。即它不完全信任每一棵殘差樹,它認(rèn)為每棵樹只學(xué)到了真理的一小部分,累加的時(shí)候只累加一小部分,通過多學(xué)幾棵樹彌補(bǔ)不足。Shrinkage仍然以殘差作為學(xué)習(xí)目標(biāo),但對(duì)于殘差學(xué)習(xí)出來的結(jié)果,只累加一小部分(step*殘差)逐步逼近目標(biāo),step一般都比較小,如0.01~0.001,導(dǎo)致各個(gè)樹的殘差是漸變的而不是陡變的。本質(zhì)上,Shrinkage為每棵樹設(shè)置了一個(gè)權(quán)重,累加時(shí)要乘以這個(gè)權(quán)重。
2.1 信用數(shù)據(jù)的獲取與預(yù)處理
由于我國(guó)個(gè)人征信體系剛剛起步,信用數(shù)據(jù)不易獲得,因此本次實(shí)驗(yàn)基于UCI的兩個(gè)公開信用審核數(shù)據(jù)集,分別是澳大利亞信用數(shù)據(jù)集和德國(guó)信用數(shù)據(jù)集。其中澳大利亞信用數(shù)據(jù)集的特征含義被隱去以保護(hù)數(shù)據(jù)源的機(jī)密性,而德國(guó)信用數(shù)據(jù)集包含以下指標(biāo),分別是 credit history、account balance、loan purpose、loan amount、employment status、personal information、age、housing和job等。這兩個(gè)信用數(shù)據(jù)集的指標(biāo)類型均包含數(shù)值型變量以及離散型變量。數(shù)據(jù)集的具體信息如表1所示。
表1 信用數(shù)據(jù)集
在獲得這些信用數(shù)據(jù)集后,需要首先對(duì)這些原始數(shù)據(jù)進(jìn)行一些預(yù)處理,如指標(biāo)的數(shù)值化,標(biāo)準(zhǔn)化和缺失值填補(bǔ)等。數(shù)值化即把定性指標(biāo)的屬性值轉(zhuǎn)換成數(shù)值,以UCI澳大利亞信用數(shù)據(jù)集為例,A1指標(biāo)的兩個(gè)屬性值a和b,在本文中分別被數(shù)值化為0和1。雖然GBDT算法不需要對(duì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,但對(duì)比實(shí)驗(yàn)中使用的SVM和LR算法中的目標(biāo)函數(shù)往往認(rèn)為數(shù)據(jù)集中的特征是標(biāo)準(zhǔn)化的并且具有同階方差的,因此為避免某一指標(biāo)因方差階數(shù)太大而主導(dǎo)了目標(biāo)函數(shù),使得目標(biāo)函數(shù)無(wú)法從其他特征進(jìn)行學(xué)習(xí),需要在預(yù)處理中統(tǒng)一對(duì)數(shù)據(jù)集指標(biāo)標(biāo)準(zhǔn)化處理。本文將數(shù)據(jù)集處理成符合高斯分布的標(biāo)準(zhǔn)數(shù)據(jù)。對(duì)缺失值的填補(bǔ),數(shù)值型變量采取中值填補(bǔ)方法,離散型變量采用眾數(shù)填補(bǔ)。
2.2 基于GBDT方法的個(gè)人信用評(píng)估
根據(jù)前面介紹的GBDT的原理可知,GBDT分類模型的可調(diào)參數(shù)包括弱分類器(回歸樹)的個(gè)數(shù)M,每棵回歸樹的深度h,每棵樹最大葉子節(jié)點(diǎn)數(shù)N,模型學(xué)習(xí)步長(zhǎng) step,損失函數(shù)(Loss Function),每個(gè)分裂節(jié)點(diǎn)最少樣本數(shù),每個(gè)葉子節(jié)點(diǎn)最少樣本數(shù),葉子節(jié)點(diǎn)樣本的最小加權(quán)分?jǐn)?shù),子樣本分?jǐn)?shù),以及分裂節(jié)點(diǎn)的特征數(shù)等。其中學(xué)習(xí)步長(zhǎng)的范圍為,是通過Shrinkage控制模型過擬合的參數(shù),根據(jù)經(jīng)驗(yàn),較好的策略是選取較小的學(xué)習(xí)步長(zhǎng),對(duì)應(yīng)的選取較多的回歸樹。樹的深度和樹的最大葉子節(jié)點(diǎn)參數(shù)都是來控制回歸樹大小的。如果定義樹的最大深度為h,則會(huì)生成深度為h的完全二叉樹,該樹至多有2h-1個(gè)葉子節(jié)點(diǎn)和2h-1-1個(gè)分裂節(jié)點(diǎn);如果定義樹的葉子節(jié)點(diǎn)數(shù)k,則會(huì)通過best-first search生成樹,該樹的深度為k-1,有k-1個(gè)分裂節(jié)點(diǎn)。而后一種方法較前一種方法有更快的訓(xùn)練速度,代價(jià)是相對(duì)較高的訓(xùn)練誤差,本課題訓(xùn)練樣本數(shù)較少,暫不考慮訓(xùn)練時(shí)間的問題,為保證盡可能低的訓(xùn)練誤差,本文選擇設(shè)置樹的深度h參數(shù),而由于GBDT的 boosting特性,訓(xùn)練的每一步都會(huì)在上一步的基礎(chǔ)上更加擬合原數(shù)據(jù),模型是可以一定程度上保證較低的偏差(bias)的,那么為了同樣保證較低的方差(variance),樹的深度h的設(shè)置不需要太大。
GBDT可以通過優(yōu)化損失函數(shù)來優(yōu)化訓(xùn)練過程,本文使用Deviance作為GBDT的損失函數(shù),那么對(duì)應(yīng)的梯度為 I(yi=Gk)-pk(xi),pk表示樣本xi屬于第k個(gè)類別的概率,通過Softmax方法求得。因?yàn)橛衚個(gè)類別,所以得到k個(gè)系列的回歸樹,每個(gè)系列最終的預(yù)測(cè)值分別為f1(x),f2(x),…,fk(X),具體計(jì)算公式如(7)所示:
I(·)為指示函數(shù)。也就是當(dāng)預(yù)測(cè)第k個(gè)類別的概率時(shí),如果真實(shí)類別恰好為該類別,梯度為1-pk(xi),否則為-pk(xi)。所以后一棵樹擬合的也就是之前預(yù)測(cè)值的殘差。
本文基于UCI公開的澳大利亞信用數(shù)據(jù)集和德國(guó)信用數(shù)據(jù)集分別對(duì)支持向量機(jī),邏輯回歸,以及GBDT方法進(jìn)行了信用分類性能比較實(shí)驗(yàn)。支持向量機(jī)采用的是 LIBSVM[13],核函數(shù)(kernel function)是徑向基核 (radial basis function,RBF)。 為了保證GBDT具有最好的分類性能,每次訓(xùn)練時(shí)都在訓(xùn)練集上利用5折交叉驗(yàn)證對(duì)GBDT中的參數(shù)進(jìn)行網(wǎng)格搜索。實(shí)驗(yàn)中我們采取k折交叉驗(yàn)證(k-fold Cross Validation)的方式。所謂k折交叉驗(yàn)證指樣本集被分成k組,輪流將其中的k-1組作為訓(xùn)練集,剩下1組作為測(cè)試集,實(shí)驗(yàn)結(jié)果取這k次實(shí)驗(yàn)結(jié)果的平均值。
我們?cè)诿總€(gè)數(shù)據(jù)集上的實(shí)驗(yàn)分為5組,分別是5、10、15、20、25 折交叉驗(yàn)證, 實(shí)驗(yàn)結(jié)果如表 2 和表3。表2為基于澳大利亞信用審核數(shù)據(jù)集的各算法信用分類結(jié)果。表3為基于德國(guó)信用審核數(shù)據(jù)集的各算法信用分類結(jié)果。其中P、R、F分別表示Precision、Recall和 F-Score。
從表2和表3中可以看出,GBDT在澳大利亞和日本信用數(shù)據(jù)集上的各組實(shí)驗(yàn)中都獲得了比LR和SVM更高的Precision、Recall和F-Score值。而對(duì)于信用數(shù)據(jù)集中正負(fù)例非常不平衡的德國(guó)數(shù)據(jù)集,雖然3種算法的F-Score均明顯下降,但是GBDT方法依然保持相對(duì)較好的評(píng)估效果。在澳大利亞信用數(shù)據(jù)集上顯示GBDT的平均F值比LR和SVM方法分別高出4.5%和6.7%;在德國(guó)信用數(shù)據(jù)集上GBDT的平均F值比LR和SVM方法分別高出12.8%和24.9%。從德國(guó)信用數(shù)據(jù)集來看,隨著交叉驗(yàn)證的折數(shù)從 5變化到 25,LR的 F值變化了14.3%,SVM的F值變化了19%,GBDT的F值變化了10.4%。從圖3中也能看出,GBDT相較于LR和SVM隨實(shí)驗(yàn)折數(shù)的變化相對(duì)平穩(wěn)。這說明GBDT相比于LR和SVM的信用分類效果不僅更好,并且具有較高的穩(wěn)定性和有效性,對(duì)于正負(fù)例非均衡的數(shù)據(jù)集[15]也能保持相對(duì)較好的分類準(zhǔn)確率。
表2 LR、SVM和GBDT在澳大利亞信用審核數(shù)據(jù)集上的評(píng)估效果(%)
表3 LR、SVM和GBDT在德國(guó)信用審核數(shù)據(jù)集上的評(píng)估效果(%)
圖3 LR、SVM和GBDT的F-Score隨折數(shù)的變化
文中針對(duì)當(dāng)前應(yīng)用于信用評(píng)估的分類算法大多存在只對(duì)某種類型的信用數(shù)據(jù)集具有較好的分類效果的問題,提出了基于GBDT的個(gè)人信用評(píng)估方法。實(shí)驗(yàn)表明在不同類型的信用數(shù)據(jù)集上,GBDT算法相對(duì)于工業(yè)常用的LR和SVM分類算法能保持較高的分類準(zhǔn)確率,以及更好的穩(wěn)定性和普適性。
[1]Burton D.Credit scoring, risk, and consumer lendingscapes in emerging markets [J].Environment and Planning A,2012,44(1):111-124.
[2]Basens B, Gestel T, Viaene S, et al.Benchmarking state-of-art classification algorithms for credit scoring [J].Journal of the OperationalResearch Society, 2003, 5(4):627-635.
[3]Sarlija N,Bensic M,Zekic-Susac M.Modeling customer revolving credit scoring using logistic regression survival analysis and neural networks[C]//Proceedings of the 7th WSEAS International Conference on Neural Networks, Cavtat, Croatia,2006.Stevens Point, Wisconsin, USA:WSEAS,2006:164-169.
[4]Bahnsen A,Aouada D,Ottersten B.Exampledependent cost-sensitive decision trees[J].Expert Systems with Applications, 2015, 42(19):6609-6619.
[5]West D.Neural network credit scoring models[J].Neural Networks in Business, 2000,27(11):1131-1152.
[6]Huang C L,Chen M C,Wang C J.Credit scoring with a data mining approach based on support vector machines [J].Expert Systems with Applications,2007,33(4):847-856.
[7]Lee T S, Chiu C C, Lu C J, et al.Credit scoring using the hybrid neural discriminant technique[J].Expert Systems with Applications, 2002,23(3):245-254.
[8]Blanco A,Pino-Mejias R,Lara J,Rayo S.Credit scoring models for the microfinance industry using neral networks:Evidence from peru [J].Expert Systems with Applications, 2013,40(1):356-364.
[9]Aryuni M,Madyatmadja E.Feature selection in credit scoring model for credit card applicant in xyz bank:A comparative study [J].International Journal of Multimedia and Ubiquitous Engineering, 2015,10(5):17-24.
[10]Florez-Lopez R,Ramon-Jeronimo J.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment.a correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015,42(13):5737-5753.
[11]Asuncion A,Newman D.UCI machine learning repository[EB/OL].(2008)[2011-02].http://archive.ics.uci.edu/ml
[12]Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine [J].Annals of Statistics,2001,29(5):1189-1232.
[13]Chang C C,Lin C J.LIBSVM:a library for support vector machines[CP/OL].(2001)[2011-02].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[14]Fawcett T.An introduction to ROC analysis[J].Pattern Recognition Letters, 2006,27(8):867-874.
[15]Brown I,Mues C.An experimental comparison of classification algorithms for imbalance credit scoring data sets[J].Expert Systems with Applications, 2012,39(3):3446-3453.
Personal credit scoring method using gradient boosting decision tree
WANG Li1,2,LIAO Wen-jian2
(1.Wuhan Research Institute of Posts and Telecommunications, Wuhan 430074,China;2.Ltd.Nanjing R&D,F(xiàn)iberHome Communications Science&Technology Development Co., Nanjing 210019,China)
In recent years,the personal credit scoring problem has become the research hotspots in the credit industry.In view of the current classification algorithms applied in credit scoring only have a good effect for some type of credit data set,a personal credit scoring method based on gradient boosted decision tree (GBDT) methods is put forward in this paper.GBDT is naturally able to deal with mixed types of data sets and find distinguishing features and feature combinations without doing complex feature transformation.GBDT shows obvious advantages for credit data set of complex data types,and by the loss function outliers can be well processed.The contrast experiment based on two UCI public credit audit data sets shows that credit scoring results of GBDT is obviously superior to the result of Support Vector Machine(SVM)and Logistic Regression(LR)with good stability and universal applicability.
credit scoring; classification algorithms; GBDT
TN02
:A
:1674-6236(2017)15-0068-05
2016-07-11稿件編號(hào):201607087
王 黎(1992—),女,湖北宜昌人,碩士。研究方向:數(shù)據(jù)挖掘。