姜明輝,許 佩,韓旖桐,覃 志
(哈爾濱工業(yè)大學(xué) 管理學(xué)院,黑龍江 哈爾濱 150001)
個(gè)人信用評(píng)分興起于20世紀(jì)五六十年代,是社會(huì)經(jīng)濟(jì)發(fā)展的必然產(chǎn)物,同時(shí)也極大地推進(jìn)了社會(huì)經(jīng)濟(jì)的發(fā)展。經(jīng)濟(jì)危機(jī)之后,個(gè)人信用評(píng)分引起了金融機(jī)構(gòu)的高度重視[1]。目前國(guó)內(nèi)外的信用評(píng)分模型以統(tǒng)計(jì)學(xué)模型和人工智能模型為主。統(tǒng)計(jì)學(xué)模型理論基礎(chǔ)豐富,具有較強(qiáng)的解釋能力但精度不高,對(duì)數(shù)據(jù)分布要求苛刻[2],人工智能方法精度較高但解釋性及穩(wěn)定性不強(qiáng)。此外,這些成熟的個(gè)人信用評(píng)分模型都面臨著樣本偏差的問(wèn)題,亟待解決[3]。
我國(guó)的個(gè)人信用制度建設(shè)起步較晚,灰色收入和數(shù)據(jù)造假的存在使已有數(shù)據(jù)庫(kù)有效性和權(quán)威性較低。同時(shí),我國(guó)正處在經(jīng)濟(jì)文化社會(huì)的高速發(fā)展時(shí)期,個(gè)人信用還面臨著人口漂移和信用樣本動(dòng)態(tài)變化等問(wèn)題[4],所以還需要尋求一種新的方法,既能夠解決中國(guó)存在的現(xiàn)實(shí)問(wèn)題,又能夠保留傳統(tǒng)方法的優(yōu)點(diǎn),具備一定精確度,穩(wěn)定性和解釋性,案例推理(CBR)就是在這樣的環(huán)境下應(yīng)運(yùn)而生。
案例推理(Case-Based Reasoning,CBR)興起于20世紀(jì)八九十年代,它主要是通過(guò)對(duì)已有案例的積累來(lái)獲取新案例的解決方案[5]。CBR具有自我學(xué)習(xí),逐步完善的特點(diǎn),且與RBR相比,CBR不受統(tǒng)計(jì)規(guī)則的束縛[6],因此近年來(lái)案例推理逐漸成為人工智能方法中的研究熱點(diǎn),并在計(jì)算機(jī)、自動(dòng)化、機(jī)械制造、經(jīng)濟(jì)學(xué)等領(lǐng)域得到了廣泛利用[7]。
CBR主要由案例庫(kù)及案例推理循環(huán)構(gòu)成。已有的數(shù)據(jù)通過(guò)案例表達(dá)形成由特征集及案例解構(gòu)成的案例,形成案例庫(kù);案例推理循環(huán)為CBR的核心步驟,主要包括四步:案例檢索,在案例庫(kù)中尋找新案例的相似案例;案例重用,輸出相似案例的解,形成建議解集;案例修正,基于建議解集對(duì)新案例的解進(jìn)行判別;案例保存,將新案例保存至案例庫(kù)[8]。
將CBR應(yīng)用于個(gè)人信用評(píng)分,可以通過(guò)案例推理循環(huán)將拒絕樣本加入案例庫(kù),主要思路如下。
首先,已接受的客戶通過(guò)案例表達(dá)構(gòu)成原始案例庫(kù),每個(gè)案例包括特征集(個(gè)人信用評(píng)分指標(biāo),如表1)和案例解(客戶違約與否)構(gòu)成;其次,采用基于歐式距離的KNN算法檢索與被拒絕的客戶相似的案例,輸出建議解集,并采用基于多數(shù)投票原則的等權(quán)重投票進(jìn)行案例修正,得到被拒絕客戶的解,即其違約情況;最后,將被拒絕客戶通過(guò)案例重用加入原始案例庫(kù),形成全面案例庫(kù)。對(duì)于新的待判案例,將基于全面案例庫(kù)進(jìn)行信用評(píng)分。
CBR模擬人類大腦認(rèn)知過(guò)程,具有一定的自我學(xué)習(xí)能力,將CBR應(yīng)用于個(gè)人信用評(píng)分,不僅能夠解決樣本偏差問(wèn)題,同時(shí)能夠?qū)崿F(xiàn)樣本的動(dòng)態(tài)管理,滿足我國(guó)個(gè)人信用評(píng)分的需求。
(1)解決樣本偏差問(wèn)題
樣本偏差問(wèn)題的實(shí)質(zhì)為拒絕推論,即已有的模型是以被接受的客戶的數(shù)據(jù)為基礎(chǔ)進(jìn)行信用評(píng)分,缺乏被拒絕客戶的數(shù)據(jù),從而導(dǎo)致信用樣本有偏。CBR可以將被拒絕的客戶作為新案例通過(guò)案例循環(huán)加入到案例庫(kù)中,且無(wú)需因樣本規(guī)模的變動(dòng)而構(gòu)建新的模型,進(jìn)而解決樣本偏差問(wèn)題。
(2)實(shí)現(xiàn)樣本的動(dòng)態(tài)管理
對(duì)CBR而言,可以通過(guò)對(duì)特征指標(biāo)的權(quán)值進(jìn)行修正來(lái)適應(yīng)人口特征的變化,并且通過(guò)及時(shí)更新數(shù)據(jù)庫(kù)以適應(yīng)新的環(huán)境,實(shí)現(xiàn)系統(tǒng)的持續(xù)性學(xué)習(xí),從而解決個(gè)人信用評(píng)分中遇到的信用樣本動(dòng)態(tài)變化的問(wèn)題。
(3)干擾數(shù)據(jù)的有效處理
與統(tǒng)計(jì)學(xué)方法不同,CBR對(duì)信用樣本數(shù)據(jù)分布并無(wú)嚴(yán)格要求,且CBR通過(guò)科學(xué)合理的案例表達(dá)能夠盡可能的將有效信息納入到案例中去,同時(shí)剔除噪聲數(shù)據(jù)和冗余數(shù)據(jù),提高案例庫(kù)的有效性。
將CBR應(yīng)用于個(gè)人信用評(píng)分,仍面臨著來(lái)自傳統(tǒng)CBR假設(shè)條件的制約。
(1)案例檢索假設(shè)制約
案例檢索是篩選相似案例的關(guān)鍵步驟,傳統(tǒng)CBR方法假設(shè)特征集中各特征變量具有相同權(quán)重,這與個(gè)人信用評(píng)分實(shí)際不符。在個(gè)人信用評(píng)分中,不同地區(qū)不同指標(biāo)對(duì)客戶違約與否的影響不同,且指標(biāo)的權(quán)重也能夠?yàn)樯虡I(yè)銀行的政策制定提供很大的指導(dǎo)作用,需要評(píng)分模型能夠提供準(zhǔn)確的輸出。
(2)案例修正假設(shè)制約
案例修正是輸出待判案例解的最后一步,傳統(tǒng)CBR方法假設(shè)所有相似案例具有相同權(quán)重,與現(xiàn)實(shí)不符,容易導(dǎo)致最近鄰代表的知識(shí)將被其他鄰近案例覆蓋,這種影響在k值較大時(shí)比較明顯。相似案例權(quán)重相等,將導(dǎo)致已有數(shù)據(jù)信息無(wú)法得到充分利用。在我國(guó)個(gè)人信用數(shù)據(jù)有限的現(xiàn)狀下,這些有效信息更應(yīng)該被充分挖掘。
針對(duì)案例推理模型應(yīng)用于個(gè)人信用評(píng)分時(shí)所表現(xiàn)出的局限性,本節(jié)將采用基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法對(duì)案例檢索進(jìn)行優(yōu)化,以相似案例距離為權(quán)重進(jìn)行投票對(duì)案例修正進(jìn)行優(yōu)化,優(yōu)化后模型如圖1所示。
圖1 基于優(yōu)化CBR的個(gè)人信用評(píng)分模型圖
BP神經(jīng)網(wǎng)路具有較強(qiáng)的非線性映射能力,能夠進(jìn)行復(fù)雜的模式識(shí)別,能夠較為合理的確定案例檢索中各指標(biāo)權(quán)重。但BP神經(jīng)網(wǎng)絡(luò)穩(wěn)定性較差,易收斂到局部極小值點(diǎn),且神經(jīng)網(wǎng)絡(luò)還會(huì)出現(xiàn)“過(guò)擬合”的現(xiàn)象,即隨著訓(xùn)練能力的提高,預(yù)測(cè)能力會(huì)下降,收斂速度變慢,對(duì)樣本存在著過(guò)度依賴。鑒于此,本文選取了穩(wěn)健性較強(qiáng)Logisitc回歸方法對(duì)BP神經(jīng)網(wǎng)絡(luò)計(jì)算出的權(quán)重進(jìn)行調(diào)整。
(1)基于BP神經(jīng)網(wǎng)絡(luò)的權(quán)重計(jì)算
本文采用如圖2所示的三層BP神經(jīng)網(wǎng)絡(luò)進(jìn)行指標(biāo)權(quán)重計(jì)算。其中,輸入層為客戶指標(biāo)值向量,輸出層為客戶違約情況。
圖2 三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
權(quán)重的計(jì)算應(yīng)考慮信息源和測(cè)度兩個(gè)層面,本文采用如表1所示的權(quán)重計(jì)算方法[9-11〗。
表1 四種計(jì)算權(quán)重的方法
1.敏感度
敏感度Si指將第i個(gè)輸入去除,測(cè)度輸出的變化程度。
(1)
其中,P0是每一個(gè)訓(xùn)練案例對(duì)應(yīng)的正常輸出,Pi是第i個(gè)輸入去除后的輸出。L是訓(xùn)練案例庫(kù),n是訓(xùn)練案例的個(gè)數(shù)。
2.活躍度
活躍度Aj指第j個(gè)神經(jīng)元對(duì)訓(xùn)練數(shù)據(jù)活躍程度的方差。
(2)
(3)
則第i個(gè)輸入神經(jīng)元的活躍度為:
(4)
其中,d是輸入神經(jīng)元的個(gè)數(shù),M是隱含層神經(jīng)元的個(gè)數(shù)。
3.顯著性
一個(gè)權(quán)重的顯著性是通過(guò)計(jì)算相關(guān)權(quán)重的誤差的二次導(dǎo)而測(cè)度的,計(jì)算方法如下:
(5)
4.相關(guān)性
當(dāng)神經(jīng)元的最大權(quán)重去除后,該神經(jīng)元的相關(guān)性能好的預(yù)測(cè)預(yù)期誤差將增加。第j個(gè)隱含神經(jīng)元的相關(guān)性計(jì)算方法如下:
Rj=(wj)2×var(wji)
(6)
第i個(gè)輸入神經(jīng)元的整體相關(guān)性計(jì)算方法如下:
(7)
(2)基于Logisitic回歸的模擬群決策權(quán)重計(jì)算
為了進(jìn)一步加強(qiáng)Logistic回歸的穩(wěn)定性,本文將抽取s組樣本對(duì)Logistic回歸進(jìn)行訓(xùn)練,以取對(duì)數(shù)的方式將其轉(zhuǎn)換為線性模型,以各指標(biāo)前的系數(shù)的絕對(duì)值(指標(biāo)對(duì)違約與否的貢獻(xiàn)程度)與總系數(shù)和之比作為基礎(chǔ)權(quán)重,進(jìn)而得到s組權(quán)重?cái)?shù)據(jù),并引入群決策算法,將s組權(quán)重?cái)?shù)據(jù)看作s組專家打分結(jié)果,計(jì)算每次實(shí)驗(yàn)得出的權(quán)重值和總體實(shí)驗(yàn)得出的權(quán)重值之間的差異,并據(jù)此調(diào)整權(quán)重,縮減二者之間的差異,增強(qiáng)權(quán)重的合理性。
設(shè)s次實(shí)驗(yàn)得到的權(quán)重組和為E={e1,e2,…,e3},第k次實(shí)驗(yàn)ek的權(quán)重為λk,0≤λk≤1,1≤k≤s。
(8)
從而得到s次的特征重要矩陣為:
A=(aij)m×n
(9)
則第i個(gè)案例的第j個(gè)特征的初始指標(biāo)權(quán)值為
(10)
每次實(shí)驗(yàn)對(duì)于第i個(gè)案例的第j個(gè)指標(biāo)的得分值為:
(11)
首先,第k次實(shí)驗(yàn)對(duì)于第i個(gè)案例中的j個(gè)指標(biāo)權(quán)重的確定與總體實(shí)驗(yàn)權(quán)重確定的結(jié)果偏差為:
(12)
其次,第k次實(shí)驗(yàn)對(duì)于i案例所有指標(biāo)的確定的權(quán)重與總體實(shí)驗(yàn)確定的權(quán)重的偏差和為
(13)
第k次實(shí)驗(yàn)對(duì)于第i個(gè)案例的第j個(gè)特征個(gè)體確定的權(quán)重與總體實(shí)驗(yàn)確定的權(quán)重的偏差權(quán)值為:
(14)
根據(jù)偏差進(jìn)行調(diào)整,調(diào)整后的權(quán)重為:
(15)
從而得權(quán)重向量Wi=(ωi1,ωi2,…,ωin)T(1≤i≤m)。
(3)權(quán)重調(diào)整算法
用兩種方法分別計(jì)算出各自的權(quán)重之后,本文將以BP神經(jīng)網(wǎng)絡(luò)得到的四種權(quán)重為基礎(chǔ),以模擬群決策算法得出的權(quán)重為依據(jù)對(duì)其進(jìn)行調(diào)整。對(duì)這兩種權(quán)重之間的距離進(jìn)行測(cè)量,求出權(quán)重調(diào)整系數(shù)以及綜合權(quán)值。這樣,不僅能夠加強(qiáng)權(quán)重確定的穩(wěn)定性,同時(shí)能夠充分的利用樣本數(shù)據(jù)中的有效信息。
設(shè)BP神經(jīng)網(wǎng)絡(luò)算法的權(quán)重Wi=(ωi1,ωi2,…,ωin)T,模擬群決策算法的權(quán)重為B=(β1,β2,…,βm)T,則二者間的相似性的量為Si=(si1,si2,…,sin)T,則
(16)
其中,sij=1表示兩種計(jì)算方法無(wú)差異;若ωij>βi表示兩種計(jì)算方法正相似;若ωij≤βi,表示兩種計(jì)算方法負(fù)相似。
(17)
(18)
由于本文假設(shè)以模擬群決策算法的結(jié)果為參考,則可以設(shè)正理想解F*=B,則得F*的相似度量為S*=(1,1,…,1)T,由補(bǔ)集關(guān)系知負(fù)理想解F0的相似度量為S0=(0,0,…,0)T,從而有計(jì)算結(jié)果與正負(fù)理想解間的差異分別為
(19)
(20)
(21)
則兩種算法的調(diào)整系數(shù)為
(22)
根據(jù)調(diào)整系數(shù)τi對(duì)BP神經(jīng)網(wǎng)絡(luò)算法得到的權(quán)重進(jìn)行線性加權(quán)計(jì)算和調(diào)整,得
(23)
為了避免相似案例等權(quán)重問(wèn)題帶來(lái)的有效信息的缺失,本文以各相似案例間經(jīng)過(guò)案例檢索所得的距離為基礎(chǔ)賦予各相似案例投票權(quán),計(jì)算其投票權(quán)重。
本文采用深圳某銀行的數(shù)據(jù)對(duì)基于優(yōu)化CBR的個(gè)人信用評(píng)分模型進(jìn)行實(shí)證實(shí)驗(yàn),指標(biāo)體系及賦值方法見(jiàn)表2。對(duì)于存在數(shù)據(jù)缺失的樣本采取了剔除的處理方法。在經(jīng)過(guò)數(shù)據(jù)的預(yù)處理之后,數(shù)據(jù)庫(kù)中共有4500個(gè)個(gè)人信用評(píng)分樣本。
為了研究方便和排除其他干擾因素的影響,按照信用好壞樣本1∶1的比例,采用分層抽樣的方法隨機(jī)從標(biāo)的銀行的數(shù)據(jù)庫(kù)中抽取,共抽取2000個(gè)個(gè)人信用評(píng)分樣本,包括1000個(gè)違約樣本及1000個(gè)未違約樣本。在這2000個(gè)個(gè)人信用評(píng)分樣本中,以好壞樣本1∶1的比例分別抽取60%作為訓(xùn)練樣本集A,20%作為檢驗(yàn)樣本集B,10%作
表2 指標(biāo)體系及數(shù)據(jù)預(yù)處理方法表
為拒絕樣本庫(kù)CU,10%作為補(bǔ)充樣本庫(kù)DU。本節(jié)利用現(xiàn)有標(biāo)準(zhǔn)信用評(píng)分模型模擬銀行信用評(píng)分機(jī)制來(lái)模擬生成拒絕樣本集C,標(biāo)準(zhǔn)信用模型采用logistic回歸模型。具體做法為在拒絕樣本庫(kù)CU中,
對(duì)樣本進(jìn)行l(wèi)ogistic回歸模型判定,對(duì)于違約概率大于65%的樣本將被認(rèn)定為拒絕樣本;違約概率低于65%的樣本將被認(rèn)定為已接受貸款的樣本,共抽取86個(gè)樣本形成拒絕樣本集C。為了排除樣本量對(duì)模型精確度的影響,本文還將進(jìn)一步從補(bǔ)充樣本庫(kù)DU中以好壞樣本1∶1的比例抽取86個(gè)樣本形成補(bǔ)充樣本集D,如表3所示。
表3 樣本結(jié)構(gòu)表
本文構(gòu)建的BP神經(jīng)網(wǎng)絡(luò),第一層和第二層神經(jīng)元分別采用了logsig和purelin激活函數(shù)。為了確定隱含層個(gè)數(shù),實(shí)驗(yàn)中設(shè)計(jì)了一個(gè)研究不同隱含層個(gè)數(shù)與網(wǎng)絡(luò)預(yù)測(cè)誤差關(guān)系的環(huán)節(jié)。實(shí)驗(yàn)結(jié)果表示隱含層神經(jīng)元個(gè)數(shù)與預(yù)測(cè)誤差的關(guān)系如圖2所示的曲線。
圖2中橫軸為隱含層中神經(jīng)元的個(gè)數(shù),縱軸為BP網(wǎng)絡(luò)預(yù)測(cè)誤差。從圖中可以發(fā)現(xiàn),網(wǎng)絡(luò)預(yù)測(cè)誤差隨著隱含層個(gè)數(shù)的不同而發(fā)生變化;當(dāng)隱含層數(shù)量設(shè)置為20時(shí),該BP網(wǎng)絡(luò)預(yù)測(cè)誤差較小,整體性能最佳。所以,本系統(tǒng)用中的BP網(wǎng)絡(luò)隱含層神經(jīng)元個(gè)數(shù)設(shè)置為20個(gè)。其中,輸入層神經(jīng)元個(gè)數(shù)為10。
圖2 隱含層神經(jīng)元與預(yù)測(cè)誤差關(guān)系圖
用訓(xùn)練樣本A訓(xùn)練初始化后的BP網(wǎng)絡(luò),并分別計(jì)算每個(gè)輸入變量的敏感度、活躍度、顯著性和相關(guān)性,綜合四種權(quán)重算法結(jié)合Logistic回歸進(jìn)行權(quán)重計(jì)算。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 案例檢索權(quán)重設(shè)計(jì)圖
由圖3可知,4種權(quán)重設(shè)計(jì)結(jié)果基本一致,而且權(quán)重最小的單位性質(zhì)變量和標(biāo)準(zhǔn)評(píng)分模型被排除在模型外的變量相一致。這說(shuō)明權(quán)重的設(shè)計(jì)合理,能夠反映各指標(biāo)在信用評(píng)分中的重要程度。這也為將為銀行制定相關(guān)信貸政策提供重要指導(dǎo)信息。
為了從多方面比較優(yōu)化案例推理的優(yōu)化效果,分別對(duì)模型優(yōu)化前后進(jìn)行了實(shí)驗(yàn),并將優(yōu)化模型與統(tǒng)計(jì)學(xué)模型、人工智能模型對(duì)比,對(duì)結(jié)果進(jìn)行了分析。
對(duì)優(yōu)化CBR與傳統(tǒng)CBR分別做基于原始案例庫(kù),拒絕樣本判別,基于全面案例庫(kù)和系統(tǒng)在線學(xué)習(xí)等四個(gè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。其中第一類準(zhǔn)確率是系統(tǒng)將良好客戶識(shí)別為良好客戶的比率,第二類準(zhǔn)確率是體統(tǒng)將違約客戶識(shí)別為違約客戶的比率。商業(yè)銀行最為關(guān)心的是第二類準(zhǔn)確率。
在基于原始案例庫(kù)的實(shí)驗(yàn)中,BP神經(jīng)網(wǎng)絡(luò)選取顯著性和相關(guān)性計(jì)算權(quán)重系統(tǒng)整體效果較好,而且這兩種權(quán)重的計(jì)算方法較為簡(jiǎn)便迅速,故之后的實(shí)驗(yàn)只考慮這兩種權(quán)重設(shè)計(jì)方法。
如表4所示,優(yōu)化后的模型雖然在總體分類精度上比傳統(tǒng)的案例推理略有下降,但是最為重要的第二類準(zhǔn)確率明顯提高,這明顯提升了系統(tǒng)的
表4 優(yōu)化CBR與傳統(tǒng)CBR效果對(duì)比表
應(yīng)用價(jià)值。且在線學(xué)習(xí)的優(yōu)化案例推理系統(tǒng)整體性能又有了一次明顯的提升。兩種權(quán)重設(shè)計(jì)方法下的優(yōu)化案例推理系統(tǒng)都已超過(guò)了傳統(tǒng)案例推理的表現(xiàn)。特別是最終確定的選取BP神經(jīng)網(wǎng)絡(luò)顯著性權(quán)重設(shè)計(jì)方法下的案例推理系統(tǒng)的第二類正確率已經(jīng)比傳統(tǒng)的案例推理方法有了很大程度的提高。
此外,優(yōu)化后的模型不僅能夠?qū)ふ页雠c客戶最相似的K個(gè)案例,同時(shí)也能輸出特征屬性的權(quán)重,通過(guò)這些權(quán)重的賦值,就可以看出各種特征屬性對(duì)違約風(fēng)險(xiǎn)的影響程度,給出各種特種屬性對(duì)信用綜合評(píng)分的重要性,有利于銀行制定相應(yīng)的政策。
為了進(jìn)一步驗(yàn)證優(yōu)化CBR在個(gè)人信用評(píng)分上的應(yīng)用效果,選取統(tǒng)計(jì)學(xué)模型及人工智能模型中常用的Logistic回歸與BP神經(jīng)網(wǎng)絡(luò)模型與優(yōu)化模型進(jìn)行對(duì)比,其中,優(yōu)化CBR在BP神經(jīng)網(wǎng)絡(luò)權(quán)重計(jì)算一步上選取顯著性作為權(quán)重計(jì)算標(biāo)準(zhǔn)。樣本使用及分類結(jié)果如表5所示。
表5 優(yōu)化CBR與其他模型分類結(jié)果表
由實(shí)驗(yàn)結(jié)果可知,優(yōu)化的CBR模型整體準(zhǔn)確率較高,且在第二類準(zhǔn)確率上均高于Logistic回歸與BP神經(jīng)網(wǎng)絡(luò),能夠?yàn)殂y行政策制定給出更好的參考與指導(dǎo)。
本文針對(duì)信用評(píng)分領(lǐng)域中存在的問(wèn)題,尤其是從拒絕推論和個(gè)人信用動(dòng)態(tài)變化問(wèn)題出發(fā),分析了CBR應(yīng)用于個(gè)人信用信用評(píng)分時(shí)的優(yōu)勢(shì)與局限性。針對(duì)局限性對(duì)CBR進(jìn)行優(yōu)化,并通過(guò)實(shí)證數(shù)據(jù)驗(yàn)證了優(yōu)化后的模型更加適用于個(gè)人信用評(píng)分,主要研究結(jié)論如下。
1.CBR能夠很好的解決個(gè)人信用評(píng)分中的樣本偏差及信用樣本動(dòng)態(tài)漂移的問(wèn)題,同時(shí)能夠?qū)崿F(xiàn)干擾數(shù)據(jù)的有效處理。CBR可以將被拒絕的客戶作為新案例通過(guò)案例循環(huán)加入到案例庫(kù)中,完善數(shù)據(jù)樣本,且與其他方法相比,CBR無(wú)需因樣本規(guī)模的變動(dòng)而構(gòu)建新的模型,有效解決個(gè)人信用評(píng)分中的樣本偏差問(wèn)題。此外,CBR可以通過(guò)對(duì)特征指標(biāo)的權(quán)值進(jìn)行修正來(lái)適應(yīng)人口特征的變化,通過(guò)及時(shí)更新數(shù)據(jù)庫(kù)以適應(yīng)新的環(huán)境,實(shí)現(xiàn)系統(tǒng)的持續(xù)性學(xué)習(xí),有效解決個(gè)人信用評(píng)分中的信用樣本動(dòng)態(tài)變化的問(wèn)題。此外,CBR對(duì)數(shù)據(jù)分布無(wú)嚴(yán)格要求,且能夠通過(guò)合理的案例表達(dá)剔除噪聲數(shù)據(jù)和冗余數(shù)據(jù),盡可能的保留有效信息。
2.CBR在應(yīng)用于個(gè)人信用評(píng)分時(shí)具有一定局限性。CBR的案例檢索環(huán)節(jié)假設(shè)各指標(biāo)變量具有相同的權(quán)重,而個(gè)人信用評(píng)分中,不同的指標(biāo)對(duì)個(gè)人信用的影響不同,其重要性不同,對(duì)各指標(biāo)變量設(shè)置相同的權(quán)重與個(gè)人信用評(píng)分實(shí)際不符;CBR的案例修正環(huán)節(jié)假設(shè)所有的相似案例具有相同的權(quán)重,容易導(dǎo)致最近鄰代表的知識(shí)將被其他鄰近案例覆蓋,不能充分利用個(gè)人信用評(píng)分已有的信息。
3. 采用基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法及基于距離的投票算法分別優(yōu)化案例檢索和案例修正環(huán)節(jié),通過(guò)實(shí)驗(yàn)證明優(yōu)化的CBR能夠有效的提高個(gè)人信用評(píng)分模型精確性和解釋性,降低錯(cuò)分率降低,更加適用于個(gè)人信用評(píng)分。
結(jié)合BP神經(jīng)網(wǎng)絡(luò)識(shí)別能力強(qiáng)和Logistic回歸穩(wěn)定性強(qiáng)的優(yōu)點(diǎn),設(shè)計(jì)了基于Logistic回歸-BP神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整算法。首先,構(gòu)建三層BP神經(jīng)網(wǎng)絡(luò),考慮信息源和測(cè)度兩個(gè)層面,從敏感度、活躍度、顯著性、相關(guān)性四個(gè)角度出發(fā)計(jì)算各指標(biāo)變量的權(quán)重大??;其次,抽取s組樣本對(duì)Logistic回歸進(jìn)行訓(xùn)練,得到s組權(quán)重?cái)?shù)據(jù),并引入群決策算法,進(jìn)一步增強(qiáng)權(quán)重的合理性和穩(wěn)定性;最后,對(duì)由BP神經(jīng)網(wǎng)絡(luò)和Logistic回歸兩種方法產(chǎn)生的權(quán)重之間的距離進(jìn)行測(cè)量,求出權(quán)重調(diào)整系數(shù)以及綜合權(quán)值,最終得到能夠充分保留樣本數(shù)據(jù)有效信息,體現(xiàn)樣本數(shù)據(jù)特征,同時(shí)穩(wěn)定性及解釋性強(qiáng)的個(gè)人信用評(píng)分特征變量的權(quán)重。
為了避免相似案例等權(quán)重問(wèn)題帶來(lái)的有效信息的缺失,設(shè)計(jì)基于距離的投票算法,以各相似案例間經(jīng)過(guò)案例檢索所得的距離為基礎(chǔ),計(jì)算案例間距離與相似案例與待判案例距離和之比,賦予各相似案例投票權(quán)。
采用分層抽樣的方法隨機(jī)從標(biāo)的銀行的數(shù)據(jù)庫(kù)中抽取,共抽取2000個(gè)個(gè)人信用評(píng)分樣本,抽取10%作為模擬拒絕樣本庫(kù),進(jìn)行實(shí)證實(shí)驗(yàn)。實(shí)驗(yàn)建立了三層BP神經(jīng)網(wǎng)絡(luò),基于預(yù)測(cè)誤差確定了神經(jīng)網(wǎng)絡(luò)隱含層數(shù)為20層,并通過(guò)實(shí)驗(yàn)得出基于敏感度、活躍度、顯著性、相關(guān)性的四種權(quán)重設(shè)計(jì)結(jié)果基本一致,說(shuō)明了權(quán)重設(shè)計(jì)合理,能夠有效的反映各指標(biāo)在信用評(píng)分中的重要程度。將優(yōu)化后的CBR與傳統(tǒng)CBR進(jìn)行比較,優(yōu)化后的模型雖然在總體分類精度上偶爾比傳統(tǒng)CBR略有下降,但是最為重要的第二類準(zhǔn)確率明顯提高,且在線學(xué)習(xí)的優(yōu)化案例推理系統(tǒng)整體性能有了明顯的提升,且能輸出指標(biāo)變量及相似案例的權(quán)重,系統(tǒng)的應(yīng)用價(jià)值有所提高。將優(yōu)化后的CBR與統(tǒng)計(jì)學(xué)模型和人工智能模型中的代表Logistic回歸及BP神經(jīng)網(wǎng)絡(luò)模型對(duì)比,得出優(yōu)化的CBR模型整體準(zhǔn)確率較高,且在第二類準(zhǔn)確率上均高于Logistic回歸與BP神經(jīng)網(wǎng)絡(luò),能夠?yàn)殂y行政策制定給出更好的參考與指導(dǎo)。
由于研究的問(wèn)題較為復(fù)雜,本文還有待在以下3個(gè)方面進(jìn)一步完善及豐富:一是在案例表達(dá)環(huán)節(jié)的系統(tǒng)研究,如何通過(guò)更加合理的案例表達(dá)充分保留個(gè)人信用評(píng)分的有效信息,可以加入時(shí)間因素及環(huán)境因素,考慮二者對(duì)個(gè)人信用的影響;二是案例檢索環(huán)節(jié),可以通過(guò)建立多個(gè)有效子相似案例庫(kù),來(lái)提高模型的精確度和穩(wěn)定性;三是將CBR模型進(jìn)一步與個(gè)人信貸的政策環(huán)境相結(jié)合,可以通過(guò)繪制好客戶先驗(yàn)概率與準(zhǔn)確率的關(guān)系曲線,根據(jù)該曲線商業(yè)銀行可以在總體后果可預(yù)知的前提下,適當(dāng)調(diào)節(jié)良好客戶出現(xiàn)的先驗(yàn)概率,更好的適應(yīng)商業(yè)銀行信用政策。
參考文獻(xiàn):
[1] MARQUéS A I, GARCA V, SNCHEZ J S. A literature review on the application of evolutionary computing to credit scoring[J]. Journal of the Operational Research Society, 2012, 64(9): 1384-1399.
[2] HAND D J, HENLEY W E. Statistical classification methods in consumer credit scoring: A review[J]. Journal of the Royal Statistical Society: Series A:Statistics in Society,1997, 160(3): 523-541.
[3] 張景肖,魏秋萍,姜玉霞,等. 基于兩階段思想處理拒絕推斷的信用評(píng)分模型[J]. 數(shù)理統(tǒng)計(jì)與管理,2012(6):1049-1060.
[4] 李建平,徐偉宣. 消費(fèi)者信用評(píng)估中的PCALWM方法研究[J]. 中國(guó)管理科學(xué),2004(2):18-22.
[5] RIESBECK C K, SCHANK R C. Inside case-based reasoning[M]. Psychology Press, 2013.
[6] MARLING C, PETOT G, STERLING L. A CBR/RBR hybrid for designing nutritional menus[C]//Multimodal Reasoning: Papers from the 1998 AAAI Spring Symposium.AAAI Press, Menlo Park,1998.
[7] MARLING C, RISSLAND E, AAMODT A. Integrations with case-based reasoning[J]. The Knowledge Engineering Review, 2005, 20(3): 241-245.
[8] CRAW S. Case-based reasoning[J]. Encyclopedia of Machine Learning, 2010: 147-154.
[9] KWANG HyukIm, SANG Chan Park. Case-based reasoning and neural network based expert system for personalization[J]. Expert Systems with Applications,2007 (32): 77-85.
[10] BUHMANN J M, EMBRECHTS M, ZURADA J M. Special issue on neural networks for data mining and knowledge discovery[M]. IEEE, 2000.
[11] SHIN C K, YUN U T, KIM H K,et al. A hybrid approach of neural network and memory-based learning to data mining[J]. IEEE Transactions On Neural Networks,2000,11(3): 637-644.