蘭軍 嚴(yán)廣樂(lè)
摘要信用評(píng)估是商業(yè)銀行控制和防范信貸風(fēng)險(xiǎn)的關(guān)鍵途徑.決策樹(shù)模型較好的直觀解釋性使其成為當(dāng)前個(gè)人信用評(píng)估中的常用模型,但決策樹(shù)模型存在容易導(dǎo)致過(guò)擬合且預(yù)測(cè)精度有限的問(wèn)題.通過(guò)在決策樹(shù)模型算法中引入類隨機(jī)森林隨機(jī)有放回的抽樣模式,運(yùn)用機(jī)器自動(dòng)循環(huán)迭代尋求最優(yōu)樹(shù)的建模思想,建立了自適應(yīng)最優(yōu)C5.0決策樹(shù)個(gè)人信用評(píng)估模型.該模型具有快速收斂特征變量、較好的泛化能力和高預(yù)測(cè)精度的特點(diǎn),在實(shí)證分析中對(duì)商業(yè)銀行個(gè)人信用評(píng)估模型質(zhì)量提升帶來(lái)比較明顯的改進(jìn)效果.
關(guān)鍵詞數(shù)量經(jīng)濟(jì)學(xué);個(gè)人信用評(píng)估;決策樹(shù);隨機(jī)森林;迭代
中圖分類號(hào)N945文獻(xiàn)標(biāo)識(shí)碼A
Research and Empirical Analysis on Personal
Credit Evaluation Model Based on Iterative Adaptive
Random Decision Tree Algorithm
Jun Lan,Guangle Yan
(Management School University of Shanghai for Science and Technology, Shanghai200093 China)
AbstractCredit evaluation is a crucial approach to control and reduce credit risk. The direct expression feature of decision tree model has made it a commonly used model in individual credit evaluation. However, this model has the disadvantages of over fitting and limited accuracy. By utilizing random forest sampling with replacement in decision tree model, with autoiteration for optimal result, an autofitting optimal C50 decision tree for individual credit evaluation model is established. The model has features such as rapidly converging character variables, good generalization ability and high predicting accuracy, and is shown to have phenomenal improvement on quality of individual credit evaluation in real practical analysis.
Key wordsmathematical economics; personal credit assessment; decision tree; random forest; iteration
1引言
近年來(lái),隨著中國(guó)經(jīng)濟(jì)的飛速發(fā)展,個(gè)人的信用狀況越來(lái)越受到重視,貸款購(gòu)房、貸款購(gòu)車、申領(lǐng)信用卡等各種個(gè)人消費(fèi)貸款都需要了解個(gè)人的信用信息.個(gè)人信用制度是國(guó)家信用體系的一部分,科學(xué)合理有效的個(gè)人信用評(píng)估體系是個(gè)人信用體系的核心問(wèn)題之一.對(duì)個(gè)人信用狀況進(jìn)行科學(xué)評(píng)估,是發(fā)展個(gè)人消費(fèi)信貸的基礎(chǔ),也是中國(guó)市場(chǎng)經(jīng)濟(jì)發(fā)展的有益補(bǔ)充和完善.中國(guó)已經(jīng)加入世界貿(mào)易組織(WTO)多年,逐步開(kāi)放的信用市場(chǎng),對(duì)建立個(gè)人信用評(píng)估體系提出了嚴(yán)峻挑戰(zhàn).當(dāng)前中國(guó)個(gè)人信用制度不完善,個(gè)人信用信息欠完備,個(gè)人信用難以評(píng)估,已經(jīng)比較嚴(yán)重地影響了經(jīng)濟(jì)增長(zhǎng).如何建立一個(gè)統(tǒng)一、科學(xué)的個(gè)人信用評(píng)估體系已經(jīng)成為一個(gè)亟待解決的重要課題.目前,中國(guó)個(gè)人信用評(píng)估體系尚不夠健全和完善,評(píng)估的指標(biāo)和權(quán)重帶有較大的主觀性,需要引入科學(xué)方法來(lái)確定評(píng)估指標(biāo),采用科學(xué)的評(píng)估方法來(lái)評(píng)估個(gè)人信用.
個(gè)人信用評(píng)級(jí)是預(yù)測(cè)貸款申請(qǐng)人或現(xiàn)有借款人違約可能性的一種定量分析方法,這種方法量化分析現(xiàn)有的客戶資料,找出客戶信用行為的影響因子,以現(xiàn)有的客戶資料為樣本建立數(shù)學(xué)模型,然后再使用該模型預(yù)測(cè)新客戶進(jìn)行違約風(fēng)險(xiǎn).國(guó)外的經(jīng)驗(yàn)表明,個(gè)人信用具有快速處理客戶貸款申請(qǐng)、處理客戶申請(qǐng)的成本較低、對(duì)客戶申請(qǐng)的處理標(biāo)準(zhǔn)具有一致性和客觀性以及能夠定量地評(píng)估客戶的信用風(fēng)險(xiǎn)等優(yōu)點(diǎn).自從上世紀(jì)80年代起,在美國(guó)等社會(huì)信用體系較為發(fā)達(dá)的國(guó)家已經(jīng)將信用方法引入到消費(fèi)信貸管理領(lǐng)域.Makowski(1985) [1]第一次把分類樹(shù)方法應(yīng)用于個(gè)人信用評(píng)估.美聯(lián)儲(chǔ)曾在《平等貸款機(jī)會(huì)法案》中稱這種方法是在信用系統(tǒng)中經(jīng)過(guò)實(shí)證檢驗(yàn)并且在統(tǒng)計(jì)意義上完美的辦法,Coffman對(duì)分類樹(shù)和線性判別分析在個(gè)人信用評(píng)估方面的應(yīng)用進(jìn)行了比較,并認(rèn)為當(dāng)指標(biāo)之間存在相互作用時(shí)前者優(yōu)于后者,而當(dāng)指標(biāo)之間相互聯(lián)系時(shí)后者優(yōu)于前者.經(jīng)過(guò)數(shù)十年的發(fā)展,個(gè)人信用評(píng)估方法已經(jīng)取得了長(zhǎng)足的發(fā)展,不僅被廣泛地應(yīng)用于信用卡等消費(fèi)信貸、住房按揭貸款等領(lǐng)域,也被成功地應(yīng)用于中小企業(yè)貸款申請(qǐng)?jiān)u估、信用卡欺詐預(yù)防、基于風(fēng)險(xiǎn)的利率定價(jià)、相應(yīng)評(píng)分及資產(chǎn)證券化等領(lǐng)域.
與國(guó)外商業(yè)銀行廣泛將信用作為有效的信用風(fēng)險(xiǎn)管理技術(shù)相比,符合中國(guó)國(guó)情的個(gè)人信用評(píng)分模型在中國(guó)金融實(shí)業(yè)界使用剛剛開(kāi)始起步.學(xué)術(shù)界對(duì)于個(gè)人信用評(píng)分模型的研究主要集中在個(gè)人信用評(píng)分模型數(shù)據(jù)挖掘技術(shù)的探討、基于各種技術(shù)建立個(gè)人信用評(píng)分模型的實(shí)證比較以及個(gè)人信用評(píng)分模型的應(yīng)用領(lǐng)域探討等幾個(gè)方面.姜明輝、王歡、王雅林(2003) [2]在闡述分類樹(shù)基本原理的基礎(chǔ)上,結(jié)合國(guó)內(nèi)外學(xué)者的研究成果將分類樹(shù)與其他方法進(jìn)行比較研究,分析了其對(duì)個(gè)人信用評(píng)估的適用性.通過(guò)建立符合中國(guó)實(shí)際情況的指標(biāo)體系,選取樣本數(shù)據(jù)進(jìn)行應(yīng)用分析,證實(shí)了分類樹(shù)在變量選擇和分類準(zhǔn)確度上明顯優(yōu)于其他方法.徐少鋒、王延臣(2003) [3]利用美國(guó)花旗銀行某分支機(jī)構(gòu)部分客戶的貸款數(shù)據(jù),用回歸模型進(jìn)行實(shí)證分析,指出通過(guò)對(duì)以信貸申請(qǐng)書(shū)為基礎(chǔ)的風(fēng)險(xiǎn)程度進(jìn)行定量分析,使信貸決策合理化,從而降低個(gè)人信用風(fēng)險(xiǎn).詹原瑞、田宏偉(2003)[4]就中國(guó)商業(yè)銀行在個(gè)人消費(fèi)信貸中如何使用分類樹(shù)設(shè)計(jì)個(gè)人信用評(píng)分模型作了介紹,設(shè)計(jì)出了個(gè)人信用評(píng)分模型并作了實(shí)證檢驗(yàn).樓際通,樓文高,余秀榮(2013) [5]年在商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)的投影尋蹤建模及其實(shí)證研究中運(yùn)用于商業(yè)銀行個(gè)人信用分類問(wèn)題,可以提升風(fēng)險(xiǎn)識(shí)別正確率,還有利于銀行降低采集數(shù)據(jù)的成本和節(jié)約時(shí)間.王穎,聶廣禮,石勇(2012) [6]在基于信用評(píng)分模型的中國(guó)商業(yè)銀行客戶違約概率研究中通過(guò)對(duì)歷史數(shù)據(jù)構(gòu)建模型測(cè)算客戶的違約概率,發(fā)現(xiàn)債務(wù)人或交易對(duì)手無(wú)力履行合同所規(guī)定的義務(wù)或信用質(zhì)量發(fā)生變化,影響金融產(chǎn)品價(jià)值,從而給債權(quán)人或金融產(chǎn)品持有人造成經(jīng)濟(jì)損失.龔尚花(2013)[7]年在互聯(lián)網(wǎng)環(huán)境下消費(fèi)信貸行為研究中運(yùn)用從而建立了消費(fèi)信貸行為影響因素的概念模型.
2個(gè)人信用評(píng)估模型
提升模型對(duì)用戶信用風(fēng)險(xiǎn)的識(shí)別和預(yù)測(cè)準(zhǔn)確率,目前正式投入使用的主要建模算法為邏輯回歸和決策樹(shù)兩大類.邏輯回歸建模方法通過(guò)分析消費(fèi)者還款能力與意愿與違約概率之間的作用路徑關(guān)系.相比較邏輯回歸,決策樹(shù)因?yàn)檩^好的直觀解釋能力和預(yù)測(cè)精度,被廣泛地應(yīng)用于銀行信用風(fēng)險(xiǎn)領(lǐng)域中.決策樹(shù)模型,通過(guò)對(duì)訓(xùn)練樣本的學(xué)習(xí),建立并依據(jù)分類規(guī)則,實(shí)現(xiàn)對(duì)新樣本的分類,屬于有監(jiān)督式的機(jī)器學(xué)習(xí),有兩類變量:目標(biāo)變量(輸出變量)和特征變量(輸入變量).C5.0是經(jīng)典的決策樹(shù)模型算法之一,JRQuinlan(1979) [8]年提出了ID3算法,主要針對(duì)離散型屬性數(shù)據(jù),其后又不斷的改進(jìn),形成C4.5,它在ID3基礎(chǔ)上增加了對(duì)連續(xù)屬性的離散化,采用增益率來(lái)加以改進(jìn)方法,選取有最大增益率的分割變量作為準(zhǔn)則,避免ID3算法過(guò)度適配的問(wèn)題.C5.0是C4.5應(yīng)用于大數(shù)據(jù)集上的分類算法,采用最大信息增益來(lái)計(jì)算屬性差異,同時(shí)采用Boosting方式提高模型準(zhǔn)確率,在軟件上計(jì)算速度比較快,占用的內(nèi)存資源較少,在執(zhí)行效率和內(nèi)存使用方面都得到了提升.
C5.0決策樹(shù)屬于單一分類器,容易導(dǎo)致過(guò)擬合且預(yù)測(cè)精度有限的問(wèn)題.通過(guò)對(duì)C5.0算法進(jìn)行優(yōu)化改進(jìn),改善C5.0在信用評(píng)估模型建立過(guò)程中存在的過(guò)度擬合的缺點(diǎn),提高模型的有效性和泛化能力,具體表現(xiàn)為在保持訓(xùn)練集預(yù)測(cè)精度不大幅降低的情況下提高測(cè)試集的預(yù)測(cè)精度,同時(shí)保證模型的直觀解釋性.
2.1基于自適應(yīng)隨機(jī)決策樹(shù)的個(gè)人信用評(píng)估模型
對(duì)于單一分類器C5.0決策樹(shù)存在的缺點(diǎn),Yangchang(2013) [9]提出了組合分類器的改進(jìn)方式,隨機(jī)森林就是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器.簡(jiǎn)單來(lái)說(shuō),隨機(jī)森林就是由多棵CART(Classification And Regression Tree)構(gòu)成的.對(duì)于每棵樹(shù),它們使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來(lái)的,這意味著,總的訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹(shù)的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹(shù)的訓(xùn)練集中.在訓(xùn)練每棵樹(shù)的節(jié)點(diǎn)時(shí),使用的屬性是從所有屬性中按照一定比例隨機(jī)地?zé)o放回的抽取的,最終形成一組CART.Jafa (2013) [10]對(duì)于分類問(wèn)題,發(fā)現(xiàn)預(yù)測(cè)結(jié)果為所有樹(shù)中預(yù)測(cè)概率總和最大的那一個(gè)分類.隨機(jī)森林雖然提高了預(yù)測(cè)的精度,但是與決策樹(shù)不同,需要費(fèi)工夫才能使得模型符合數(shù)據(jù),而且該模型不容易理解,無(wú)法生成可解釋性的模型,在個(gè)人信用評(píng)估模型應(yīng)用中,風(fēng)險(xiǎn)模型更多是決策的參考,風(fēng)險(xiǎn)專家根據(jù)業(yè)務(wù)特點(diǎn)和發(fā)展人為的調(diào)整模型以適應(yīng)于信用評(píng)估,模型的可解釋性非常重要.
在模型訓(xùn)練中,導(dǎo)致模型存在過(guò)度擬合和有偏的問(wèn)題,往往是由于關(guān)鍵變量沒(méi)有進(jìn)入模型或者引入了噪音變量(即非重要變量),能否在給定數(shù)據(jù)樣本中提取出關(guān)鍵變量是提高模型預(yù)測(cè)精度的關(guān)鍵.考慮到C5.0決策樹(shù)在根據(jù)大量水平的屬性進(jìn)行劃分時(shí)往往是有偏的和存在過(guò)度擬合的問(wèn)題,以及隨機(jī)森林預(yù)測(cè)結(jié)果的不可解釋性,嘗試提出了一種基于機(jī)器迭代自適應(yīng)隨機(jī)決策樹(shù)改進(jìn)算法的個(gè)人信用評(píng)估模型,通過(guò)借鑒隨機(jī)森林訓(xùn)練子樹(shù)的方式,對(duì)樣本集和特征集進(jìn)行有條件的隨機(jī)抽樣,同時(shí)引入變量淘汰機(jī)制,通過(guò)機(jī)器自動(dòng)循環(huán)迭代不斷生成多顆C5.0決策樹(shù),比較每顆決策樹(shù)預(yù)測(cè)精度,選擇出性能最優(yōu)的C5.0決策樹(shù),這樣模型既防止了在訓(xùn)練集上過(guò)度擬合的情況,又可以提高在測(cè)試集上的預(yù)測(cè)精度,并保證模型樹(shù)形結(jié)構(gòu)良好的可解釋性.
基于機(jī)器迭代自適應(yīng)隨機(jī)決策樹(shù)算法充分利用計(jì)算機(jī)計(jì)算資源,先剔除噪音變量,優(yōu)先剔除噪音變量對(duì)模型產(chǎn)生的副作用影響,防止有偏的問(wèn)題,能夠在大范圍的屬性變量中快速收斂得到特征變量,利用機(jī)器自動(dòng)化循環(huán)迭代能力建立模型,不斷自動(dòng)重復(fù)抽取建模的樣本和入模屬性,生成決策樹(shù),每次抽樣建模完畢,得到本次基于測(cè)試集T的預(yù)測(cè)精度,迭代模型在迭代次數(shù)足夠多的情況下,能找到最優(yōu)的模型,在訓(xùn)練集和測(cè)試集上表現(xiàn)都好,從而達(dá)到高的泛化能力,解決模型的過(guò)度擬合問(wèn)題.自動(dòng)化迭代建模結(jié)束后,比較所有循環(huán)建模中預(yù)測(cè)精度最優(yōu)的C5.0決策樹(shù)提供給因?yàn)樽罱K模型結(jié)果.因?yàn)槟P徒Y(jié)果依然為層次狀樹(shù)形結(jié)構(gòu),可解釋性強(qiáng),通俗易懂,能夠較好幫助風(fēng)險(xiǎn)管理人員作為信用評(píng)估決策參考.
3算法步驟
通過(guò)上述描述,基于機(jī)器迭代自適應(yīng)隨機(jī)決策樹(shù)模型的具體建模過(guò)程如圖1所示.模型算法流程圖如圖2所示.
1)給定訓(xùn)練集S和測(cè)試集T,屬性維數(shù)F.在訓(xùn)練集上首先對(duì)全部屬性做一次C5.0決策樹(shù)建模,得到模型C,同時(shí)在測(cè)試集T上預(yù)測(cè)得到預(yù)測(cè)精度A,根據(jù)建模結(jié)果,剔除重要性5%以下的屬性維數(shù),得到屬性維數(shù)M;
設(shè)定迭代次數(shù)t,對(duì)于i=1-t:
2)對(duì)訓(xùn)練集S隨機(jī)抽取n個(gè)樣本(n 3)不斷重復(fù)2),直到達(dá)到迭代次數(shù)t或者其他預(yù)設(shè)條件(如執(zhí)行時(shí)間或預(yù)測(cè)精度等); 4)輸出最后的模型Ci; 4案例分析 4.1數(shù)據(jù)說(shuō)明和處理 利用基于機(jī)器迭代自適應(yīng)隨機(jī)決策樹(shù)算法,在某商業(yè)銀行個(gè)人信用評(píng)估模型建立過(guò)程中進(jìn)行實(shí)證研究.數(shù)據(jù)采用某商業(yè)銀行個(gè)人貸款違約數(shù)據(jù)樣本進(jìn)行建模比對(duì),抽取了2013至2017年的已結(jié)束的業(yè)務(wù)數(shù)據(jù),共計(jì)41518條樣本數(shù),經(jīng)過(guò)前期的數(shù)據(jù)處理(缺失值替換、變量刪除和變量衍生),選擇22個(gè)屬性變量進(jìn)行建模,數(shù)據(jù)和建模均采用R進(jìn)行處理.數(shù)據(jù)包含了41518個(gè)觀察值和22個(gè)屬性(變量),22個(gè)屬性中包含1個(gè)因子屬性、1個(gè)整數(shù)數(shù)據(jù)類型屬性和2個(gè)數(shù)值類型屬性;數(shù)據(jù)主要包含了個(gè)人的基本信息和貸款的信息,從個(gè)人和業(yè)務(wù)的角度出發(fā)去評(píng)估該客戶的信用,其中breachIndex變量為本次建模的目標(biāo)變量,取值yes表示客戶違約,no值則相反,其他變量含義如表1所示.
圖4展示了各個(gè)屬性變量與目標(biāo)變量的相關(guān)圖,由于屬性存在離散和連續(xù)兩類變量,而目標(biāo)變量本身為離散變量,故圖中表現(xiàn)出兩類圖,箱圖為目標(biāo)變量與連續(xù)變量的關(guān)系圖,塊圖表現(xiàn)為目標(biāo)變量與離散變量之間的關(guān)系圖.
從業(yè)務(wù)類型可以看出,違約中個(gè)人類業(yè)務(wù)占比要超過(guò)小微企業(yè)類業(yè)務(wù);而非行員的違約情況要大大超過(guò)行員;違約的人群,合同平均金額較高;還有違約客戶群中,擔(dān)保方式大都為保證類型,而非違約客戶國(guó)有公司擔(dān)保占大部分;而客戶群中,平均年齡為40;男性違約占比略高于女性,等等.
由于目標(biāo)變量“是否違約”為二分變量,現(xiàn)計(jì)算所有特征變量與目標(biāo)變量的IV值,能得到各特征變量對(duì)于目標(biāo)變量的信息量,有助于進(jìn)一步的模型構(gòu)建,結(jié)果如圖5所示.
根據(jù)Yue He(2016) [11]的對(duì)信用模型入模變量選擇的研究,一般選擇IV值大于0.02的變量進(jìn)入模型,通過(guò)IV值可篩選有效變量,剔除噪音變量.從圖5可以看出,合同業(yè)務(wù)品種、合同擔(dān)保方式、合同金額和貸款期限IV較高,對(duì)目標(biāo)變量影響較大(后面的實(shí)證研究也證實(shí)了這幾個(gè)變量屬于模型的重要變量,影響決策樹(shù)的決策分支).
將數(shù)據(jù)按照7:3的比例隨機(jī)拆分訓(xùn)練集和測(cè)試集,分別為trainData和testData,訓(xùn)練集和測(cè)試集分別包含29062和12456個(gè)觀察值和22個(gè)屬性(變量).以下模型均基于訓(xùn)練集做建模,評(píng)估標(biāo)準(zhǔn)均采用在同一測(cè)試集上的預(yù)測(cè)精度和在各自訓(xùn)練集上的表現(xiàn).
4.2模型結(jié)果
設(shè)置自適應(yīng)的隨機(jī)決策樹(shù)的迭代次數(shù)為5000次,屬性重要度為5%以上,抽取樣本比例為70%,抽取特征集個(gè)數(shù)為2Sqrt(屬性總個(gè)數(shù)平方根的兩倍),并返回最優(yōu)的模型,結(jié)果如圖6所示.
決策樹(shù)的節(jié)點(diǎn)數(shù)為32.經(jīng)計(jì)算,個(gè)人信用評(píng)估模型在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)精度分別為91.201%和91.3392%,在訓(xùn)練精度降低了0.46%之后,測(cè)試精度同步上升了0.43%,模型用到的特征變量進(jìn)一步確定,最終鎖定到了contractBusinessType、contractAmount、contractGuaranteeType、position、career、marital、businessType和contractTerm這8個(gè)變量,最后決策樹(shù)經(jīng)過(guò)翻譯和整合,得到如圖7所示的個(gè)人信用評(píng)估模型.
基于最優(yōu)決策樹(shù)的個(gè)人信用評(píng)估模型的AUC值達(dá)到0.87,KS值為0.59,模型ROC曲線和KS曲線如圖8所示.
4.3模型對(duì)比結(jié)果
分別運(yùn)用單一C5.0決策樹(shù)、隨機(jī)森林、迭代自適應(yīng)隨機(jī)決策樹(shù)三種算法,在同一訓(xùn)練集上建模,并計(jì)算基于同一測(cè)試集的預(yù)測(cè)精度,比較模型的有效性和泛化能力.模型對(duì)比結(jié)果如表2所示.
第一,單一C5.0決策樹(shù)在全屬性建模下訓(xùn)練集精度較高,但可能存在過(guò)度擬合的問(wèn)題,而通過(guò)迭代自適應(yīng)隨機(jī)決策樹(shù)算法,雖然訓(xùn)練集精度比單一C5.0決策樹(shù)低,但在測(cè)試集精度卻更高,說(shuō)明通過(guò)抽樣屬性的方式有效的解決了過(guò)度擬合的問(wèn)題,同時(shí)也提高了模型的泛化能力.
第二,由于組合分類器,隨機(jī)森林在三種算法中訓(xùn)練集的精度最高,測(cè)試集精度也高于單一C5.0,但稍低于迭代自適應(yīng)隨機(jī)決策樹(shù)算法,穩(wěn)定度也略低.
第三,迭代自適應(yīng)隨機(jī)決策樹(shù)算法選擇的最優(yōu)C5.0決策樹(shù),不但提高了測(cè)試集的精度,同時(shí)模型的K值也得到提升,說(shuō)明既提高了泛化能力,同時(shí)也提高了模型的穩(wěn)定性.
5結(jié)論
商業(yè)銀行在個(gè)人信用風(fēng)險(xiǎn)管理領(lǐng)域越來(lái)越多地運(yùn)用數(shù)據(jù)和模型技術(shù),以提升自身風(fēng)險(xiǎn)管理能力和水平.提出了一種可應(yīng)用在商業(yè)銀行個(gè)人信用評(píng)估實(shí)證分析中的基于機(jī)器迭代自適應(yīng)隨機(jī)決策樹(shù)算法,與單一C5.0決策樹(shù)和隨機(jī)森林模型進(jìn)行對(duì)比分析,結(jié)果顯示基于機(jī)器迭代的自適應(yīng)隨機(jī)決策樹(shù)模型,能夠?qū)崿F(xiàn)特征變量在大規(guī)模屬性變量中的快速收斂,自動(dòng)迭代生成的最優(yōu)樹(shù)具有更好的泛化能力和穩(wěn)定性,以直觀的層次狀樹(shù)形結(jié)構(gòu)解釋在個(gè)人信用評(píng)估模型中,貸款業(yè)務(wù)品種、合同金額、合同擔(dān)保方式、職務(wù)、職業(yè)、婚姻狀況、業(yè)務(wù)類型和貸款期限對(duì)信用風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確率有顯著的影響.為風(fēng)險(xiǎn)管理人員的科學(xué)決策提供有力的數(shù)據(jù)支持.
從實(shí)證改進(jìn)的效果來(lái)看,機(jī)器迭代自適應(yīng)決策樹(shù)算法的預(yù)測(cè)精度的提升幅度沒(méi)有泛化能力的提升明顯,后續(xù)研究可以考慮將以有方向的方式抽取樣本和特征集,保證精度按梯度提升作為進(jìn)一步優(yōu)化的方向.
參考文獻(xiàn)
[1]張美靈,歐志偉 信用評(píng)估理論與實(shí)務(wù)[M].上海:復(fù)旦大學(xué)出版社,2004.
[2]姜明輝,姜磊,王雅林,線性判別式分析在個(gè)人信用評(píng)估中的應(yīng)用[J].管理科學(xué), 2003,16(8):78-87.
[3]徐少鋒,土延臣,個(gè)人信用評(píng)估中的模型[J].天津輕業(yè)學(xué)院學(xué)報(bào), 2003,18(9):78-87.
[4]詹原瑞,宏偉,信用評(píng)分模型的設(shè)計(jì)與決策分析[J].中國(guó)管理科學(xué), 2003,6(4):78-87.
[5]樓際通,樓文高,余秀榮.商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)的投影尋蹤建模及其實(shí)證研究[J]. 經(jīng)濟(jì)數(shù)學(xué).2013, 30(4):27-33.
[6]王穎,聶廣禮,石勇.基于信用評(píng)分模型的我國(guó)商業(yè)銀行客戶違約概率研究[J].管理評(píng)論,2012,12(2):78-87.
[7]龔尚花 互聯(lián)網(wǎng)環(huán)境下消費(fèi)信貸行為研究[J]. 經(jīng)濟(jì)數(shù)學(xué)2013, 30(4):71-78.
[8]SATHYADEVAN S, REMYA R. Nair.Comparative analysis of decision tree algorithms: ID3, C4.5 and Random Forest[J].Springer,2014,12(3):549-562.
[9]ZHAO Y.Decision trees and random forest[J].Elsevier,2013(10):27-40.
[10]TANHA J. Semisupervised selftraining for decision tree classifiers[J].International Journal of Machine Learning and Cybernetics, 2017,8(1):355-370.
[11]HE Y. An approach to group decision making with hesitant information and its application in credit risk evaluation of enterprises[J].Elsevier B.V.,2016,6(2):02-10.