亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

個(gè)人信用評(píng)分關(guān)鍵技術(shù)研究的新進(jìn)展

2011-04-02 00:20:43楊勝剛

財(cái)經(jīng)理論與實(shí)踐 2011年4期

向暉,楊勝剛

(湖南大學(xué)金融與統(tǒng)計(jì)學(xué)院,湖南長(zhǎng)沙 410079)＊

美國(guó)次貸危機(jī)的教訓(xùn)讓國(guó)內(nèi)外商業(yè)銀行對(duì)個(gè)人信貸業(yè)務(wù)的拓展尤為審慎。為了在控制風(fēng)險(xiǎn)與追求利潤(rùn)之間找到平衡,建立有效的個(gè)人信用評(píng)分(credit scoring)體系是其中關(guān)鍵。早期的個(gè)人信用評(píng)分研究多局限于模型的設(shè)計(jì),而近期學(xué)者們則將個(gè)人信用評(píng)分視為一個(gè)集數(shù)據(jù)預(yù)處理、指標(biāo)體系篩選、模型設(shè)計(jì)為一體的系統(tǒng)評(píng)估方法。一些具有金融學(xué)理論基礎(chǔ)的統(tǒng)計(jì)學(xué)和計(jì)算機(jī)學(xué)者們將統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)等領(lǐng)域的最新成果應(yīng)用于個(gè)人信用評(píng)分研究的各個(gè)環(huán)節(jié),使信用評(píng)分研究取得了快速而全面的發(fā)展。

一、信用評(píng)分中的數(shù)據(jù)預(yù)處理

數(shù)據(jù)缺失、數(shù)據(jù)不平衡以及拒絕偏差是個(gè)人信用數(shù)據(jù)中普遍存在的三類樣本問題,對(duì)它們的預(yù)處理在很大程度上影響著信用評(píng)分模型的有效性。

(一)數(shù)據(jù)缺失(missing data)

數(shù)據(jù)缺失是一種在調(diào)查研究中普遍存在的現(xiàn)象。對(duì)數(shù)據(jù)缺失最簡(jiǎn)單的處理方法就是刪除(deletion),當(dāng)缺失數(shù)據(jù)較少時(shí),刪除法是簡(jiǎn)單有效的。而當(dāng)缺失數(shù)據(jù)較多時(shí),刪除法會(huì)造成資源的浪費(fèi)和分析結(jié)果的偏倚。更為合理的數(shù)據(jù)缺失處理方法是填補(bǔ)(Imputation)。為每個(gè)缺失值構(gòu)造一個(gè)替代值的方法被稱為單一填補(bǔ)(Simple imputation),常見的單一填補(bǔ)法包括均值填補(bǔ)、回歸填補(bǔ)、冷臺(tái)(Cold deck)和熱臺(tái)(Hot deck)填補(bǔ)等。為每個(gè)缺失值構(gòu)造多個(gè)替代值的方法被稱為多重填補(bǔ)(Multiple imputation)。目前個(gè)人信用評(píng)分領(lǐng)域缺乏對(duì)數(shù)據(jù)缺失問題的深入研究,絕大多數(shù)文獻(xiàn)忽略了信用樣本集中的數(shù)據(jù)缺失問題或僅采用刪除法來(lái)處理缺失數(shù)據(jù)。Batista和M ,onard(2003)對(duì)各種單一填補(bǔ)法的處理效果進(jìn)行了比較[1]。Chen(2004)提出了一種基于貝葉斯的多重填補(bǔ)方法,用于處理個(gè)人信用數(shù)據(jù)中的分類數(shù)據(jù)缺失問題[2]。實(shí)驗(yàn)結(jié)果顯示這種方法效果明顯且易于實(shí)施。沈翠華(2004)對(duì)國(guó)內(nèi)某商業(yè)銀行的信用數(shù)據(jù)缺失情況進(jìn)行了分析,并提出一種基于最近鄰法的多重填補(bǔ)法[3]。實(shí)驗(yàn)結(jié)果表明,基于最近鄰法的多重填補(bǔ)法的效果優(yōu)于冷臺(tái)填補(bǔ)法和均值填補(bǔ)法。

(二)數(shù)據(jù)不平衡(Imbalanced Dataset)

數(shù)據(jù)不平衡是指同一個(gè)數(shù)據(jù)集中某些類的實(shí)例數(shù)遠(yuǎn)遠(yuǎn)超過(guò)其他類的實(shí)例數(shù)。正常情況下,信貸機(jī)構(gòu)擁有的壞客戶比例一般不超過(guò)10%,因此,個(gè)人信用數(shù)據(jù)集中普遍存在較嚴(yán)重的數(shù)據(jù)平衡問題。忽視對(duì)數(shù)據(jù)不平衡問題將導(dǎo)致個(gè)人信用評(píng)分模型很難準(zhǔn)確抓住壞客戶的行為特征,給信貸機(jī)構(gòu)帶來(lái)巨大的經(jīng)濟(jì)損失。從已有的文獻(xiàn)來(lái)看,數(shù)據(jù)不平衡問題的處理方法可分為數(shù)據(jù)層面和算法層面兩種。數(shù)據(jù)層面的解決方法是對(duì)數(shù)據(jù)進(jìn)行過(guò)抽樣和欠抽樣。過(guò)抽樣和欠抽樣都能使兩類數(shù)據(jù)的比例更加合理,從而有效地突出壞客戶的特征,提高評(píng)分模型的分類精度。Zavgren(1985)最早關(guān)注了信用風(fēng)險(xiǎn)評(píng)估中的數(shù)據(jù)不平衡問題,他指出當(dāng)好壞樣本比例為2∶1時(shí)能夠取得更好的分類效果[4],但該文獻(xiàn)未對(duì)數(shù)據(jù)不平衡問題進(jìn)行系統(tǒng)研究。石曉軍等(2005)對(duì)兩類樣本配比問題進(jìn)行了系統(tǒng)研究,他們認(rèn)為好壞樣本配比比率對(duì)Logistic違約模型的估計(jì)和效率有明顯影響,3∶1的好壞樣本比例更為適合我國(guó)情況[5]。Paleologo等(2010)則提出一種subagging算法來(lái)解決數(shù)據(jù)不平衡問題,該算法通過(guò)參數(shù)動(dòng)態(tài)地調(diào)整訓(xùn)練集中的好壞樣本比例,實(shí)驗(yàn)結(jié)果表明該算法能有效解決個(gè)人信用數(shù)據(jù)中的不平衡問題[6]。算法層面的解決方法是指針對(duì)數(shù)據(jù)不平衡問題對(duì)信用評(píng)分模型進(jìn)行改進(jìn)和重新設(shè)計(jì)。沈翠華(2004)考慮了好壞客戶的誤分成本,并設(shè)計(jì)了基于代價(jià)敏感(cost sensitive)的支持向量機(jī)信用評(píng)分模型。Quinlan于2007年提出了C5.0決策樹算法,該算法允許用戶設(shè)定好壞客戶誤分成本矩陣,并根據(jù)該矩陣以最小化期望誤分成本總和為目標(biāo)生成決策樹。龐素琳和鞏吉章(2009)將C5.0算法應(yīng)用于信用評(píng)分并取得了良好的分類效果[7]。

(三)拒絕偏差(reject bias)

信貸機(jī)構(gòu)收集到的樣本數(shù)據(jù)通常僅限于那些通過(guò)了貸款申請(qǐng)的客戶數(shù)據(jù),而據(jù)此開發(fā)出來(lái)的信用評(píng)分模型卻被應(yīng)用于預(yù)測(cè)所有信貸申請(qǐng)者的違約概率。這一樣本數(shù)據(jù)缺陷被稱為拒絕偏差。解決這類問題的技術(shù)稱為拒絕推斷(reject inference)。Crook和Banasik(2004)的研究表明,在構(gòu)建信用評(píng)分模型時(shí)加入拒絕樣本會(huì)使判斷標(biāo)準(zhǔn)發(fā)生改變,并提高模型的預(yù)測(cè)能力[8]。Andrew Marshall(2010)的研究結(jié)果顯示,拒絕偏差對(duì)信用評(píng)分模型的錯(cuò)分率有顯著影響[9]。拒絕推斷技術(shù)分三類：第一類設(shè)法取得完全樣本,即不加區(qū)別地接受所有貸款申請(qǐng),但這是一個(gè)成本高昂的做法。第二類情況是,雖然樣本僅來(lái)自于被接受的信貸申請(qǐng)者,但假定被拒絕與被接受的貸款申請(qǐng)者的分布存在某種聯(lián)系,可通過(guò)外推(ex trapolation)和增補(bǔ)(augmentation)技術(shù)對(duì)被拒絕貸款申請(qǐng)者的分布進(jìn)行推斷。由于作出的假定往往很不合理,因此,這類方法具有較大局限性。第三類對(duì)被拒絕與被接受的貸款申請(qǐng)者的分布不做任何假定,是目前最廣為接受的拒絕偏差處理技術(shù),Heckman二階段法是其中最具影響力的方法。該方法將拒絕推斷視為一個(gè)樣本選擇偏差問題來(lái)研究,為拒絕推斷問題開辟了新的研究途徑。Crook和Banasik(2004)利用一個(gè)完全數(shù)據(jù)集(即所有貸款申請(qǐng)均被接受)對(duì)Heckman二階段法的使用效果進(jìn)行了測(cè)試并與其它方法進(jìn)行了比較。楊紹基和范閩(2007)利用中國(guó)的住房按揭貸款數(shù)據(jù)對(duì)Heckman二階段法進(jìn)行了實(shí)證研究[10],他們的研究結(jié)果表明,經(jīng)過(guò)Heckman二階段法糾正的信用評(píng)分模型具有更高的預(yù)測(cè)能力。

二、信用評(píng)分的指標(biāo)體系選擇

常見的信用評(píng)分指標(biāo)體系選擇定量方法有兩種：第一種方法是特征提取(feature extraction)方法,即通過(guò)對(duì)原特征向量空間進(jìn)行某種形式的變換,尋找新的空間。常用的特征提取方法是主成分分析法和因子分析法,近年來(lái)未見新的發(fā)展。第二種是特征選擇(feature selection)方法,即在原有特征向量空間中,基于某種優(yōu)化準(zhǔn)則選擇特征子集。特征選擇方法眾多且發(fā)展迅速,較早的研究多采用統(tǒng)計(jì)方法,近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)研究成果也被應(yīng)用于信用評(píng)分指標(biāo)體系選擇。

特征選擇的統(tǒng)計(jì)方法通過(guò)對(duì)每個(gè)特征的判別能力大小進(jìn)行排序,然后再進(jìn)行特征子集選擇。主要方法包括Kolmogorov-Smirnov檢驗(yàn)、卡方檢驗(yàn)、單變量線性判別分析法、t檢驗(yàn)、相關(guān)矩陣分析法、信息統(tǒng)計(jì)量、逐步回歸法等。Tsai(2008)對(duì)主成分分析、因子分析、相關(guān)矩陣分析、逐步回歸、t檢驗(yàn)進(jìn)行指標(biāo)體系選擇的有效性進(jìn)行了比較,研究結(jié)果表明,經(jīng)特征選擇后信用評(píng)分模型的精簡(jiǎn)性和準(zhǔn)確率得到了提高。其中利用t檢驗(yàn)選擇的特征子集能得到更高的預(yù)測(cè)精度[11]。

近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域相關(guān)研究成果為信用評(píng)分指標(biāo)體系的選取提供了多種新的定量方法。ReliefF法根據(jù)特征能否辨別相互鄰近的樣本來(lái)評(píng)價(jià)單個(gè)特征變量的判別能力。對(duì)兩個(gè)相鄰的來(lái)自不同類別的樣本,如果某特征取值差別大,而對(duì)每個(gè)相鄰的來(lái)自相同類別的樣本,該特征取值相同或相近,那么這個(gè)特征被認(rèn)為有較高的判別能力?；谙嚓P(guān)性的方法、基于一致性的方法和包裹法則可評(píng)價(jià)特征子集的判別能力?；谙嚓P(guān)性的方法的評(píng)價(jià)標(biāo)準(zhǔn)是：好的特征子集包含的每個(gè)特征與類別高度相關(guān),同時(shí)這些特征相互之間不相關(guān)或弱相關(guān)。基于一致性的方法認(rèn)為好的特征子集具有的特點(diǎn)是：如果某些樣本對(duì)該特征子集的取值相同,則這些樣本的類別也應(yīng)該趨于一致。包裹法則直接利用后續(xù)分類算法的訓(xùn)練準(zhǔn)確率評(píng)估特征子集的判別能力。劉揚(yáng)和劉偉江(2006)對(duì)以上四種方法在神經(jīng)網(wǎng)絡(luò)模型中的表現(xiàn)進(jìn)行了比較,認(rèn)為它們可以在精簡(jiǎn)性、速度和準(zhǔn)確率三個(gè)方面提高信用評(píng)分模型的表現(xiàn),其中基于一致性的方法和包裹法表現(xiàn)優(yōu)于ReliefF方法和基于相關(guān)性的方法[12]。Somol和Baesens(2005)研究了如何使用特征選擇方法進(jìn)行信用指標(biāo)體系篩選,他們認(rèn)為,特征選擇應(yīng)該成為信用評(píng)分的一部分,而包裹法在通常情況下要優(yōu)于其他方法[13]。

特征選擇還可被視為一種組合優(yōu)化問題,而遺傳算法正是機(jī)器學(xué)習(xí)領(lǐng)域一種通過(guò)模擬自然進(jìn)化過(guò)程來(lái)搜索最優(yōu)解的方法。Cheng-Lung Huang(2006)等嘗試?yán)眠z傳算法進(jìn)行了信用指標(biāo)篩選,然后建立了支持向量機(jī)模型[14];孫瑾和許青松(2008)引入遺傳算法作為篩選屬性變量和調(diào)節(jié)參數(shù)的優(yōu)化算法,建立了基于遺傳算法和支持向量機(jī)的個(gè)人信用評(píng)分模型[15]。他們的研究結(jié)果都表明遺傳算法在指標(biāo)篩選方面具有良好的效果。

三、個(gè)人信用評(píng)分模型設(shè)計(jì)新成果

模型設(shè)計(jì)一直是信用評(píng)分領(lǐng)域的研究熱點(diǎn)。建立信用評(píng)分模型所使用的方法非常多,20世紀(jì)90年代以前主要有判別分析、Logistic回歸、決策樹、最近鄰法、線性規(guī)劃等,九十年代以后,計(jì)算機(jī)和信息技術(shù)得到了極大的發(fā)展,神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法成為信用評(píng)分研究的前沿。近年來(lái),學(xué)者們一方面繼續(xù)對(duì)已有方法進(jìn)行改進(jìn)和優(yōu)化,另一方面則繼續(xù)探索建立信用評(píng)分模型的新方法。

(一)對(duì)已有方法的改進(jìn)和優(yōu)化

Logistic回歸法是建立信用評(píng)分模型的主要方法,具有使用前提假設(shè)少、準(zhǔn)確性和穩(wěn)定性較高等優(yōu)點(diǎn)。Cramer(2004)的研究表明貸款違約概率并不服從logistic分布,因此,logistic回歸模型無(wú)法準(zhǔn)確預(yù)測(cè)違約概率,而邊界logistic(bounded-logistic)回歸模型能獲得更好的預(yù)測(cè)效果[16]。石曉軍等(2006)采用Bayes分析方法對(duì)邊界Logistic模型的后驗(yàn)分布性質(zhì)進(jìn)行了分析,從理論上證明了邊界Logistic模型的優(yōu)越性[17]。實(shí)證研究結(jié)果表明,邊界Logistic模型對(duì)臨界值不敏感,同時(shí)預(yù)測(cè)精度較高。

決策樹方法曾被美聯(lián)儲(chǔ)在《平等貸款機(jī)會(huì)法》中稱為是在信用系統(tǒng)中經(jīng)過(guò)實(shí)證檢驗(yàn)并且在統(tǒng)計(jì)意義上完美的辦法。目前,決策樹已從最初的ID3算法發(fā)展出了E4.5、C5.0、CART、Public等多種算法,后續(xù)算法不僅克服了ID3方法偏向選擇取值多的屬性的缺點(diǎn),還提高了運(yùn)算效率,并更適合處理大規(guī)模數(shù)據(jù)。Lee(2006)、Chrzanow ska等(2009)對(duì)多種決策樹方法應(yīng)用于信用評(píng)分的效果進(jìn)行了比較,他們認(rèn)為決策樹模型能獲得較高的預(yù)測(cè)精度,但與logistic回歸模型相比缺乏穩(wěn)健性[18,19]。

多數(shù)學(xué)者認(rèn)為神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度高于其它統(tǒng)計(jì)方法,但存在穩(wěn)健性差、參數(shù)結(jié)構(gòu)難以確定以及缺乏解釋性等缺點(diǎn)。Baesens等(2003)從可解釋性的角度研究了神經(jīng)網(wǎng)絡(luò)模型,他嘗試從多層感知器(M LP)信用評(píng)分模型中提取信貸決策規(guī)則[20]。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在提取決策規(guī)則準(zhǔn)確度上神經(jīng)網(wǎng)絡(luò)模型要明顯優(yōu)于logistic回歸模型。吳德勝等(2004)提出遺傳算法輔助網(wǎng)絡(luò)訓(xùn)練策略,修正BP網(wǎng)絡(luò)權(quán)值與偏差,以克服網(wǎng)絡(luò)訓(xùn)練過(guò)程中的局部極小化缺陷,經(jīng)遺傳算法輔助的神經(jīng)網(wǎng)絡(luò)信用評(píng)分模型獲得了更高的預(yù)測(cè)精度[21]。Brad和Amelia(2007)進(jìn)一步對(duì)神經(jīng)網(wǎng)絡(luò)信用評(píng)分模型的解釋性進(jìn)行了研究[22],他們使用的神經(jīng)網(wǎng)絡(luò)連接權(quán)值技術(shù)能解釋特征變量對(duì)信用分值的貢獻(xiàn),但研究結(jié)果僅限于單隱層的神經(jīng)網(wǎng)絡(luò)。

(二)建立信用評(píng)分模型的新方法

支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)是用于建立個(gè)人信用評(píng)分模型的最新方法。SVM是統(tǒng)計(jì)學(xué)習(xí)理論中的最新的內(nèi)容,近年來(lái)其理論研究和算法實(shí)現(xiàn)發(fā)展極為迅速,在解決小樣本問題上表現(xiàn)出諸多特有的優(yōu)勢(shì)。

Baesens和Gestel(2003)最早將支持向量機(jī)方法運(yùn)用于信用評(píng)分,他們認(rèn)為支持向量機(jī)方法明顯優(yōu)于線性回歸和神經(jīng)網(wǎng)絡(luò)方法。Schebesch和Stecking(2005)將基于線性核和非線性核支持向量機(jī)信用評(píng)分模型進(jìn)行了比較[23],研究結(jié)果表明非線性核支持向量機(jī)理論上能得到更優(yōu)的分類結(jié)果,但由于現(xiàn)實(shí)數(shù)據(jù)的相對(duì)稀疏,優(yōu)勢(shì)并不明顯。Bellotti和Crook(2008)測(cè)試了支持向量機(jī)在大樣本情況下的表現(xiàn),并提出可以利用支持向量機(jī)進(jìn)行特征變量選擇[24]。國(guó)內(nèi)學(xué)者鐘波和肖智(2005)使用最小二乘支持向量機(jī)(LS-SVM)進(jìn)行了信用評(píng)分建模[25],他們認(rèn)為L(zhǎng)S-SVM方法泛化能力強(qiáng)、預(yù)測(cè)精度高、運(yùn)行速度快且特別適合小樣本情況下的信用評(píng)分建模。肖文兵和費(fèi)奇(2006)對(duì)線性核、多項(xiàng)式核、徑向基核、signoid核支持向量機(jī)及多種傳統(tǒng)方法在信用評(píng)分建模上的表現(xiàn)進(jìn)行了對(duì)比,結(jié)果表明支持向量機(jī)有很好的預(yù)測(cè)能力[26]。盡管眾多研究表明支持向量機(jī)在個(gè)人信用評(píng)分領(lǐng)域具有良好的應(yīng)用前景,但支持向量機(jī)在信用評(píng)分領(lǐng)域的應(yīng)用也存在不少問題。如：支持向量機(jī)的核函數(shù)選擇及最優(yōu)參數(shù)設(shè)置依賴于專家知識(shí)和經(jīng)驗(yàn),無(wú)確定的公式可供計(jì)算;支持向量機(jī)具有“黑箱”特點(diǎn),從個(gè)人信用評(píng)分模型中無(wú)法得到個(gè)人信用評(píng)分系統(tǒng)的結(jié)構(gòu)特征,這些問題都值得進(jìn)一步研究。

(三)組合信用評(píng)分模型

個(gè)人信用評(píng)分研究經(jīng)過(guò)20世紀(jì)八九十年代的蓬勃發(fā)展后經(jīng)歷了一段低潮期,原因是傳統(tǒng)方法已很難有所突破。近年來(lái)對(duì)個(gè)人信用評(píng)分的研究除了繼續(xù)探索新方法外,熱點(diǎn)向組合模型進(jìn)行轉(zhuǎn)移。組合模型是目前模式識(shí)別領(lǐng)域的一個(gè)重要研究方向,已在語(yǔ)音識(shí)別、手寫識(shí)別、醫(yī)療診斷等方面得到了廣泛應(yīng)用,但在個(gè)人信用評(píng)分領(lǐng)域的相關(guān)研究還不多見。

目前的個(gè)人信用評(píng)分組合模型有三種構(gòu)建思路,其一是將多種單一模型進(jìn)行串行組合,模型A的預(yù)測(cè)結(jié)果和其他特征變量一起作為模型B的輸入,最后由模型B輸出最終的預(yù)測(cè)結(jié)果。Tian-Shyug Lee等(2002)提出了一種“兩階段混合神經(jīng)網(wǎng)絡(luò)判別方法”[27],做法是將判別分析模型的預(yù)測(cè)結(jié)果和其他特征變量一起作為輸入單元建立神經(jīng)網(wǎng)絡(luò)模型。他們認(rèn)為,這樣的模型可以縮短神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間并可以提高預(yù)測(cè)的精度。石慶焱(2005)提出了一種“神經(jīng)網(wǎng)絡(luò)-Logistic回歸的混合兩階段個(gè)人信用評(píng)分模型”[28],他將神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果和其他特征變量一起作為logistic回歸模型的自變量來(lái)建立信用評(píng)分模型,并利用因子分析法來(lái)解決logistic回歸模型中的多重共線性問題。研究結(jié)果表明組合模型的預(yù)測(cè)精度比logistic回歸模型要高,穩(wěn)健性比神經(jīng)網(wǎng)絡(luò)模型要好,且組合模型具有較好的解釋性。第二種構(gòu)建思路是將多種個(gè)人信用評(píng)分模型的預(yù)測(cè)結(jié)果進(jìn)行并行組合,每種個(gè)人信用評(píng)分模型都采用不同的分類算法。姜明輝等(2007)將logistic模型和RBF神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果通過(guò)線性方法進(jìn)行組合[29],結(jié)果表明組合模型在總體預(yù)測(cè)精度和第二類誤判率上具有優(yōu)勢(shì)。Sun和Li(2009)使用加權(quán)投票法對(duì)多重判別、logistic回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)以及最近鄰模型的預(yù)測(cè)結(jié)果進(jìn)行了組合,他們認(rèn)為組合模型的預(yù)測(cè)總精度和穩(wěn)健性都得到了提高[30]。第三種構(gòu)建思路是通過(guò)bagging或boosting等算法產(chǎn)生多個(gè)訓(xùn)練集,并選取某種不穩(wěn)定的分類算法(即訓(xùn)練集的微小變動(dòng)能夠使得分類結(jié)果顯著變動(dòng),如決策樹、神經(jīng)網(wǎng)絡(luò)等)在這些訓(xùn)練集上建立模型,最后對(duì)這些模型預(yù)測(cè)結(jié)果進(jìn)行適當(dāng)?shù)亟M合。這種組合建模方法也稱為集成或融合(ensem ble)。DavidWest(2005)采用bagging和boosting方法構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型集成模型[31],Chrzanouska等(2009)使用bagging和boosting構(gòu)建了集成決策樹模型,他們認(rèn)為集成方法可以顯著提高信用評(píng)分模型的預(yù)測(cè)精度及泛化能力。Finlay和Steven(2011)建立了多種bagging和boosting集成個(gè)人信用評(píng)分模型,并將它們的應(yīng)用效果與傳統(tǒng)單一模型進(jìn)行了比較,結(jié)果表明集成模型要明顯優(yōu)于單一模型[32]。

另外,姜明輝(2006)對(duì)組合模型中的線性組合權(quán)重?zé)o非負(fù)約束及非負(fù)約束問題,非變權(quán)組合與變權(quán)組合問題和組合模型中冗余方法識(shí)別問題進(jìn)行了系統(tǒng)研究[33]。Wang(2011)對(duì)多種組合模型在信用評(píng)分領(lǐng)域的應(yīng)用效果進(jìn)行了比較[34]。Paleologo等(2010)研究了在不平衡數(shù)據(jù)中構(gòu)建組合模型的問題。

四、簡(jiǎn)要評(píng)述

21世紀(jì)以來(lái),個(gè)人信用評(píng)分研究取得不少重大進(jìn)展。多重填補(bǔ)法取代刪除法和簡(jiǎn)單填補(bǔ)法成為信用數(shù)據(jù)缺失填補(bǔ)的首選;過(guò)抽樣、欠抽樣以及基于代價(jià)敏感的信用評(píng)分建模方法在處理不平衡數(shù)據(jù)問題時(shí)都能取得良好的效果;在拒絕推斷方面,Heckman兩階段法為拒絕偏差糾正開辟了新的研究途徑;機(jī)器學(xué)習(xí)領(lǐng)域的特征選擇方法為信用評(píng)分指標(biāo)體系的篩選提供了新的定量方法;支持向量機(jī)被認(rèn)為在信用評(píng)分建模領(lǐng)域具有良好的應(yīng)用前景;組合模型能夠有效地提高信用評(píng)分模型的精確性和穩(wěn)定性。可以說(shuō),個(gè)人信用評(píng)分已經(jīng)發(fā)展成為一個(gè)成熟而完整的理論體系并得到了廣泛應(yīng)用。盡管如此,個(gè)人信用評(píng)分領(lǐng)域仍存在許多問題有待深入研究。例如信用評(píng)分模型的預(yù)測(cè)精度仍需進(jìn)一步提高,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型缺乏穩(wěn)定性和可解釋性的問題尚未得到解決,組合模型中基分類器的選取標(biāo)準(zhǔn)以及組合模型結(jié)構(gòu)的確定尚未達(dá)成一致結(jié)論等。另外將個(gè)人信用評(píng)分的目標(biāo)由客戶違約率最小化轉(zhuǎn)為公司利潤(rùn)最大化則是個(gè)人信用評(píng)分的未來(lái)發(fā)展方向。

[1]Batista.G and M onard.M.An analysis of fou r missing data treatmen tmethods for supervised learning[J].Applied A rtificial In telligence,2003,17(5-6)：519-533.

[2]Chen.G.Sam pling issues in credit scoring：M issing data,reject inference and treatment effects[D].2004,University ofWaterloo(Canada)：Canada.

[3]沈翠華.基于支持向量機(jī)的消費(fèi)信貸中個(gè)人信用評(píng)估方法研究[D].博士學(xué)位論文,中國(guó)農(nóng)業(yè)大學(xué),2004,11.

[4]Christine.V. Zavg ren.Assessing the vulnerability to failure of Am \\erican industrial firm s：a logistic analysis[J].Journal of Business Finance&Accoun ting,1985,12(1)：19-45.

[5]石曉軍,肖遠(yuǎn)文,任若恩.Logistic違約率模型的最優(yōu)樣本配比與分界點(diǎn)研究[J].財(cái)經(jīng)研究,2005,(9)：38-48.

[6]Paleologo.G,A.Elisseeff,G.Antonini.Subagging for credit scoring models[J].European Journal of Operational Research,2010,201(2)：490-499.

[7]龐素琳,鞏吉章.C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2009,29(12)：94-104.

[8]Crook.Jand J.Banasik.Does reject inference really im prove the performance of application scoring models?[J].Journal of Banking&Finance,2004,28(4)：857-874.

[9]And rew Marshall,et al.,Variab le reduction,sample selection bias and bank retail credit scoring[J].Journal of Empirical Finance,2010,(17)：501-512.

[10]楊紹基,范閩.信用評(píng)分模型的拒絕偏差與H eckit糾正[J].南方金融,2007,(5)：12-15.

[11]Tsai,C.-F.Feature selection in bankruptcy prediction[J].Know ledge-Based Sy stems,2008,22(2)：.120-127.

[12]劉揚(yáng),劉偉江.特征選擇方法在信用評(píng)估指標(biāo)選取中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2006,(6)：667-674.

[13]Petr Somol,Filter-versus w rap per-based feature selection for credit scoring[J].International Journal of Intelligent System s in Accounting,2005,20(10)：985-999.

[14]Huang,C.-L,M.-C.Chen,C.-J.Wang.Credit scoring with a data mining approach based on support vector machines[J].Expert Systems with Applications,2007,33(4)：847-856.

[15]孫瑾,許青松.基于遺傳算法和支持向量機(jī)的銀行個(gè)人信用評(píng)估[J].統(tǒng)計(jì)與決策,2008,(12)：126-128.

[16]J.S.Cramer.Scoring bank loans that may go wrong：a case study[J].Statistica Neerlandica,2004,(58)：365-380.

[17]石曉軍,任若恩,肖遠(yuǎn)文.邊界Logistic違約率模型Bayes分析及實(shí)證研究[J].中國(guó)管理科學(xué),2006,14(4)：25-29.

[18]Lee,T.-S.,C.-C.Chiu,Y.-C.Chou,C.-J.Lu.Mining the customer credit using classification and reg ression tree and multivariate adaptive regression splines[J].Computational Statistics&Data Analy sis,2006,50(4)：1113-1130.

[19]Chrzanow ska.M,E.A lfaro,D.Witkow ska.The individual borrow ers recognition：single and ensemble trees[J].Ex pert System sw ith Applications,2009,3(2)：6409-6414.

[20]Baesens,B and Van Gestel.T.Benchmarking state-of-the-art classification algorithm s for credit scoring[J].Jou rnal of the Operational Research Society,2003,(54)：627-635.

[21]吳德勝,梁樑.遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)及信用評(píng)價(jià)研究[J].中國(guó)管理科學(xué),2004.12(1)：68-74.

[22]Brad S.T rinkle,Am elia A.Baldw in.Interp retab le credit modeldevelopment via artificial neuralnet works[J].Intelligent Systems in Accounting,Finance and Managemen t.2007,15(3-4)：123-147.

[23]Schebesch.K.B,R.Stecking.Support vector machines for classifying and describing credit applican ts：detecting typical and critical regions[J].Jou rnalof the Operational Research Society,2005,56：1082-1088.

[24]Bellotti.T.and J.Crook.Support vector machines for credit scoring and discovery of significant features[J].Expert Systems w ith Applications,2008,36(2)：3302-3308.

[25]鐘波,肖智.基于LS-SVM的信用評(píng)價(jià)方法[J].統(tǒng)計(jì)研究,2005,(11)：29-31.

[26]肖文兵,費(fèi)奇.基于支持向量機(jī)的個(gè)人信用評(píng)估模型及最優(yōu)參數(shù)選擇研究[J].系統(tǒng)工程理論與實(shí)踐,2006,(10)：73-79.

[27]Lee,T.-S,C.-C.Chiu,C.-J.Lu,I.F.Chen.C redit scoring using the hybrid neural discriminant technique[J].Expert Systems with Applications,2002,23(3)：245-254.

[28]石慶焱.一個(gè)基于神經(jīng)網(wǎng)絡(luò)——Logistic回歸的混合兩階段個(gè)人信用評(píng)分模型研究[J],統(tǒng)計(jì)研究,2005,(5)：45-49.

[29]姜明輝,謝行恒,王樹林,溫瀟.個(gè)人信用評(píng)估的Logistic-RBF組合模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,(39)：1128-1130.

[30]Sun.J,H.Li.Financial distress prediction based on serial combination of multiple classifiers[J].Expert Systems with Applications,2009,36(4)：8659-8666.

[31]W est.D,S.Dellana,J.Qian.Neu ral netw ork ensemble strategies for financial decision applications[J].Computers&Operations Research,2005,32(10)：2543-2559.

[32]Finlay.S.Multiple classifier architectures and their application to credit risk assessment[J].European Journal of Operational Research,2011,210(2)：368-378.

[33]姜明輝,銀行個(gè)人信用評(píng)估組合預(yù)測(cè)方法研究[D].博士學(xué)位論文,哈爾濱工業(yè)大學(xué),2006.

[34]Wang.G,J.Hao,J.Ma,H.Jiang.A com parative assessmen t of ensemble learning for credit scoring[J].Expert Systems w ith Applications,2011,38(1)：223-230.