亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CS-RF模型的微額信貸風(fēng)險(xiǎn)預(yù)測(cè)

2019-04-23 01:17:14趙迎何華吳超

時(shí)代金融 2019年8期

趙迎何華吳超

摘要：在金融市場(chǎng)中，互聯(lián)網(wǎng)征信是規(guī)避損失風(fēng)險(xiǎn)的重要參考依據(jù)，其中違約用戶(hù)識(shí)別率的準(zhǔn)確性對(duì)征信來(lái)說(shuō)則更為重要。從這一角度出發(fā)，本文提出了改進(jìn)的隨機(jī)森林算法（CS-RF）。利用金融公司的實(shí)際數(shù)據(jù)，從隨機(jī)森林原模型基礎(chǔ)上加以改進(jìn)，在訓(xùn)練樣本生成決策樹(shù)后引入代價(jià)敏感函數(shù)，為多類(lèi)樣本和少類(lèi)樣本的錯(cuò)誤分類(lèi)賦予不同的代價(jià)，搜索出更優(yōu)的決策樹(shù)集成。通過(guò)實(shí)證分析，將預(yù)測(cè)結(jié)果與Logistic回歸模型，決策樹(shù)，傳統(tǒng)隨機(jī)森林，BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比，得出CS-RF模型預(yù)測(cè)效果最優(yōu)。

關(guān)鍵詞：互聯(lián)網(wǎng)征信隨機(jī)森林非平衡樣本代價(jià)敏感函數(shù)

一、引言

隨著互聯(lián)網(wǎng)金融快速發(fā)展，各種信貸新模式不斷挑戰(zhàn)傳統(tǒng)金融領(lǐng)域。新型金融業(yè)態(tài)層出不窮，P2P網(wǎng)絡(luò)借貸，微額借貸，眾籌，互聯(lián)網(wǎng)公司上線金融借貸業(yè)務(wù)等，這些新模式推動(dòng)了信貸模式的轉(zhuǎn)型，互聯(lián)網(wǎng)金融新經(jīng)濟(jì)對(duì)信用風(fēng)險(xiǎn)評(píng)價(jià)提出了更高的要求。從廣義上來(lái)說(shuō)，互聯(lián)網(wǎng)征信是指采集用戶(hù)在互聯(lián)網(wǎng)金融服務(wù)以及互聯(lián)網(wǎng)其他服務(wù)過(guò)程中留存下來(lái)的信息和數(shù)據(jù)，并結(jié)合線下渠道采集的公共信息數(shù)據(jù)，利用云計(jì)算，機(jī)器學(xué)習(xí)等技術(shù)手段進(jìn)行信用評(píng)估和評(píng)價(jià)的活動(dòng)。互聯(lián)網(wǎng)征信相對(duì)于傳統(tǒng)征信，數(shù)據(jù)上實(shí)時(shí)動(dòng)態(tài)性更強(qiáng)，時(shí)時(shí)產(chǎn)生互聯(lián)網(wǎng)行為數(shù)據(jù)信用評(píng)估，即時(shí)反映用戶(hù)信用水平變化。評(píng)估指標(biāo)上來(lái)源更加豐富，更能反映綜合信用水平，具有較強(qiáng)的社會(huì)性。技術(shù)手段上更加多元化，傳統(tǒng)統(tǒng)計(jì)學(xué)方法與新興機(jī)器學(xué)習(xí)相融合，云計(jì)算與分布式計(jì)算的發(fā)展，更是為互聯(lián)網(wǎng)征信的運(yùn)行提供了技術(shù)保障。

隨著機(jī)器學(xué)習(xí)方法的普遍應(yīng)用，已經(jīng)有許多文獻(xiàn)把機(jī)器學(xué)習(xí)方法與統(tǒng)計(jì)學(xué)方法用于信用評(píng)估模型的建立，主要的方法包括神經(jīng)網(wǎng)絡(luò)，貝葉斯網(wǎng)絡(luò)[1]，SVM[2]，Logistic回歸[3]，隨機(jī)森林等。相關(guān)研究表明，對(duì)不同的算法進(jìn)行有效組合形成一系列互補(bǔ)型的集成算法，預(yù)測(cè)效果優(yōu)于單一算法。Yu et al.[2]研究了基于支持向量機(jī)的多主體集成學(xué)習(xí)方法進(jìn)行風(fēng)險(xiǎn)評(píng)估的預(yù)測(cè)，根據(jù)數(shù)據(jù)集多樣性，參數(shù)多樣性，核函數(shù)多樣性建立了支持向量機(jī)不同組合的集成方法，并利用數(shù)據(jù)對(duì)違約情況進(jìn)行了預(yù)測(cè)，實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)性能要優(yōu)于單一原始算法模型。Xiao et al.[4]實(shí)證分析了在信用評(píng)估的應(yīng)用中，隨機(jī)森林比KNN，RBF-NET，SVM等單一算法以及GBDT算法更精準(zhǔn)和穩(wěn)定。Zhou et al.[5]提出了選擇性集成的概念，是指在已有分類(lèi)器中依據(jù)某種策略選擇一部分作為集成。相對(duì)于單一學(xué)習(xí)方法的預(yù)測(cè)精度不夠高，泛化性能不夠好的缺點(diǎn)，集成學(xué)習(xí)技術(shù)本身在很多方面都具有優(yōu)越性，但并不能做到對(duì)所有樣本的平等對(duì)待。如Wang et al.[6]利用遺傳算法對(duì)隨機(jī)森林中的決策樹(shù)進(jìn)行進(jìn)化搜索，選出決策樹(shù)的滿(mǎn)意組合，這些決策樹(shù)再以某種策略相結(jié)合構(gòu)成新的集成。通過(guò)對(duì)隨機(jī)森林算法的優(yōu)化，即便在最后分類(lèi)結(jié)果的準(zhǔn)確率上有所提升，但是對(duì)于少類(lèi)樣本的精準(zhǔn)識(shí)別率并不是很高，這是很多算法不能解決的。

在非平衡樣本分類(lèi)問(wèn)題中，通常會(huì)出現(xiàn)兩類(lèi)錯(cuò)誤，第一類(lèi)錯(cuò)誤是將多類(lèi)樣本錯(cuò)誤預(yù)測(cè)為少類(lèi)樣本，第二類(lèi)錯(cuò)誤是將少類(lèi)樣本錯(cuò)誤預(yù)測(cè)為多類(lèi)樣本。在信用數(shù)據(jù)中，少類(lèi)樣本為違約樣本，多類(lèi)樣本為未違約樣本。多數(shù)文獻(xiàn)中，為提高總體準(zhǔn)確率，會(huì)出現(xiàn)忽視第二類(lèi)錯(cuò)誤的問(wèn)題?？梢园l(fā)現(xiàn)有些模型經(jīng)過(guò)改進(jìn)后，預(yù)測(cè)準(zhǔn)確率達(dá)到了95.58%，但由于信用數(shù)據(jù)的非平衡性，導(dǎo)致有大量第二類(lèi)錯(cuò)誤發(fā)生。對(duì)于金融服務(wù)公司來(lái)說(shuō)，第二類(lèi)錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)損失要遠(yuǎn)遠(yuǎn)高于第一類(lèi)錯(cuò)誤。本文對(duì)模型進(jìn)行優(yōu)化，提出隨機(jī)森林改進(jìn)模型CS-RF，旨在控制和降低第二類(lèi)錯(cuò)誤的發(fā)生率。CS-RF模型引入代價(jià)敏感函數(shù)，以期望代價(jià)最小為原則選擇最優(yōu)分類(lèi)器組合。在保證總體準(zhǔn)確率不下降的情況下，提升違約用戶(hù)的預(yù)測(cè)準(zhǔn)確率。

二、模型與算法改進(jìn)

（一）隨機(jī)森林的生成

隨機(jī)森林由LeoBreiman（2001）[7]提出，是一種集成學(xué)習(xí)技術(shù)，由大量決策樹(shù)的聚合組成，與單個(gè)決策樹(shù)相比，這種聚合形式導(dǎo)致方差減小?；驹硎怯肂agging的方式把眾多的決策樹(shù)組合起來(lái)，最終得到一個(gè)龐大的決策模型[8]。

隨機(jī)森林算法訓(xùn)練過(guò)程具體步驟如下：

步驟1：原始訓(xùn)練集為N，應(yīng)用bootstrap法有放回地隨機(jī)抽取k個(gè)新的自助樣本集，并由此構(gòu)建k棵分類(lèi)樹(shù)，每次未被抽到的樣本組成了k個(gè)袋外數(shù)據(jù);

步驟2：設(shè)有mall個(gè)特征，則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)特征，然后在mtry中選擇一個(gè)最具有分類(lèi)能力的特征，特征分類(lèi)的閾值通過(guò)檢查每一個(gè)分類(lèi)點(diǎn)確定;

步驟3：每棵樹(shù)最大限度地生長(zhǎng)，不做任何修剪;

步驟4：將生成的多棵分類(lèi)樹(shù)組成隨機(jī)森林，用隨機(jī)森林分類(lèi)器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類(lèi)，分類(lèi)結(jié)果按樹(shù)分類(lèi)器的投票多少而定。

（二）改進(jìn)隨機(jī)森林（CS-RF）的構(gòu)建

如上所述，隨機(jī)森林算法的泛化能力比較強(qiáng)，而且可以進(jìn)行并行運(yùn)算，計(jì)算效率有明顯優(yōu)勢(shì)，在諸多領(lǐng)域的預(yù)測(cè)精度也都很高。盡管如此，隨機(jī)森林模型應(yīng)用在信貸數(shù)據(jù)上仍然存在著一定的不足。信貸數(shù)據(jù)是典型的非平衡樣本，非平衡樣本是指在數(shù)據(jù)樣本中某些類(lèi)的樣本數(shù)量要遠(yuǎn)遠(yuǎn)少于其他類(lèi)，正如信貸樣本中未違約用戶(hù)的數(shù)量是遠(yuǎn)遠(yuǎn)多于違約用戶(hù)的。而Silke在研究中指出隨機(jī)森林對(duì)于非平衡樣本進(jìn)行預(yù)測(cè)時(shí)，分類(lèi)結(jié)果會(huì)偏向多類(lèi)樣本[9]。金融公司需要的則是對(duì)少類(lèi)樣本的識(shí)別，因?yàn)檫`約行為預(yù)測(cè)為非違約時(shí)帶來(lái)的損失是遠(yuǎn)遠(yuǎn)超過(guò)對(duì)未違約行為進(jìn)行審查的成本的。因此，針對(duì)隨機(jī)森林模型在信貸樣本這方面的不足，本文引入代價(jià)敏感學(xué)習(xí)從而進(jìn)行改進(jìn)。通過(guò)設(shè)置代價(jià)矩陣，對(duì)兩類(lèi)錯(cuò)誤設(shè)置不同的代價(jià)，提高違約樣本預(yù)測(cè)時(shí)出現(xiàn)誤分的代價(jià)，采用平均誤分代價(jià)最小的原則搜索出最優(yōu)的分類(lèi)決策樹(shù)，以投票策略結(jié)合，生成最終的新隨機(jī)森林。

代價(jià)敏感學(xué)習(xí)算法是根據(jù)不同錯(cuò)誤分類(lèi)產(chǎn)生的代價(jià)引入不同的懲罰因子，并選擇總體錯(cuò)誤分類(lèi)代價(jià)最小或平均錯(cuò)誤分類(lèi)代價(jià)最小的原理來(lái)設(shè)計(jì)分類(lèi)器[10]。例如二元分類(lèi)問(wèn)題，正類(lèi)樣本預(yù)測(cè)為正類(lèi)稱(chēng)為真正例（True Positive，TP，也稱(chēng)真陽(yáng)），反類(lèi)樣本預(yù)測(cè)為反類(lèi)稱(chēng)為真反例（True Negative，TN，也稱(chēng)真陰），相應(yīng)地，另外兩種情況分別稱(chēng)為偽反例（False Negative，F(xiàn)N，也稱(chēng)假陰）和偽正例（False Positive，F(xiàn)P，也稱(chēng)假陽(yáng)）。錯(cuò)誤分類(lèi)代價(jià)所用的代價(jià)矩陣可以設(shè)置為如表1所示。

三、實(shí)證分析

（一）數(shù)據(jù)準(zhǔn)備

本次實(shí)驗(yàn)所用的數(shù)據(jù)來(lái)自某微額金融信息服務(wù)有限公司的微額借款用戶(hù)人的借貸數(shù)據(jù)。目的是通過(guò)對(duì)實(shí)際借款數(shù)據(jù)進(jìn)行建模分析申請(qǐng)用戶(hù)的信用狀況，預(yù)測(cè)其未來(lái)是否會(huì)違約。本次所用到的一共有15000條觀測(cè)數(shù)據(jù)，其中包含1138個(gè)特征和一個(gè)結(jié)果標(biāo)簽，標(biāo)簽1的為正樣本，表示不會(huì)違約，標(biāo)簽為0的為負(fù)樣本，表示會(huì)違約。1138個(gè)特征經(jīng)過(guò)脫敏處理，在實(shí)驗(yàn)之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，通過(guò)不同的算法對(duì)數(shù)據(jù)集進(jìn)行分析，證明CS-RF模型有更好的效果。

（二）實(shí)驗(yàn)設(shè)置

果越好，但同時(shí)計(jì)算復(fù)雜度也會(huì)增加，而且隨著樹(shù)個(gè)數(shù)的增加，效果的提升是遞減的，結(jié)合錯(cuò)誤率與復(fù)雜度決策樹(shù)的個(gè)數(shù)設(shè)置為500。在代價(jià)敏感學(xué)習(xí)中，TP和TN的代價(jià)設(shè)為0，F(xiàn)P的錯(cuò)誤分類(lèi)代價(jià)因子始終為1（也就是），通過(guò)調(diào)節(jié)FN的誤分類(lèi)代價(jià)因子來(lái)改變平均誤差代價(jià)，分別計(jì)算值為1，2，4，8，16，32，64時(shí)的結(jié)果。通過(guò)實(shí)驗(yàn)計(jì)算發(fā)現(xiàn)時(shí)效果最好，因此，決策樹(shù)生成時(shí)以平均誤差代價(jià)最小化為原則進(jìn)行搜索。

預(yù)測(cè)模型的好壞需要適合的衡量指標(biāo)來(lái)評(píng)估。本次實(shí)驗(yàn)采用常用的評(píng)價(jià)指標(biāo)：敏感性，特異性，準(zhǔn)確性，AUC值，混淆矩陣來(lái)描述詳細(xì)結(jié)果。

四、結(jié)論

互聯(lián)網(wǎng)征信已經(jīng)成為金融市場(chǎng)領(lǐng)域的一個(gè)研究熱點(diǎn)。在信貸風(fēng)險(xiǎn)評(píng)價(jià)分析中信貸數(shù)據(jù)為非平衡樣本，第二類(lèi)錯(cuò)誤的發(fā)生率會(huì)偏高，但對(duì)于金融公司來(lái)說(shuō)，第二類(lèi)錯(cuò)誤造成的代價(jià)是遠(yuǎn)遠(yuǎn)超于第一類(lèi)錯(cuò)誤的。傳統(tǒng)隨機(jī)森林無(wú)法區(qū)分兩類(lèi)錯(cuò)誤，針對(duì)這一問(wèn)題，本文將代價(jià)敏感學(xué)習(xí)引入隨機(jī)森林中，為兩類(lèi)錯(cuò)誤賦予不同的代價(jià)，得出更優(yōu)的決策樹(shù)集成。改進(jìn)后隨機(jī)森林模型保持原有的預(yù)測(cè)效果，在精度上有所提高，考慮上對(duì)未違約用戶(hù)和違約用戶(hù)錯(cuò)誤分類(lèi)的實(shí)際代價(jià)，為金融公司降低損失風(fēng)險(xiǎn)提供決策，具有現(xiàn)實(shí)意義。

參考文獻(xiàn)：

[1]李旭升，郭春香，陳凱亞.最小總風(fēng)險(xiǎn)準(zhǔn)則的貝葉斯網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[J].計(jì)算機(jī)應(yīng)用研究，2009，26（1）：50-58.

[2]Lean Yu，Wuyi Yue，Shouyang Wang，etal. Support vector machine based multiagent ensemble learning for credit risk evaluation[J]. Expert Systems with Applications，2010，37：1351–1360.

[3]方匡南，范新妍.基于網(wǎng)絡(luò)結(jié)構(gòu)Logistic模型的企業(yè)風(fēng)險(xiǎn)預(yù)警[J].統(tǒng)計(jì)研究，2016，33（4）：50-55.

[4]蕭超武等.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理現(xiàn)代化，2014，（06），111-113.

[5]Zhihua Zhou. Ensemble methods：foundations and

algorithms[M]. Boca Raton：CRC Press，2012.72-73.

[6]Jin-Hyuk Hong，Sung-Bae Cho. The classification

of cancer based on DNA microarray data that uses diverse ensemble genetic programming[J]. Artificial Intelligence in Medicine，2006，36（1）：43-58.

[7]Breiman L. Random forest[J]. Machine Learning，2001，45（1）：5-32.

[8]Alam M S，Vuong S T. Random forest classification for detecting android malware[C]. Green Computing and Communications.2013：663-669.

[9]Silke Janitza，Carolin Strobl，Anne-Laure Boulesteix.

An AUC-based permutation variable importance measure for

randomforest[J]. BMC Bioinformatics，2013，14（1）：119-130.

[10]Peter Harrington. Machine learning in action[M]. Beijing：PTPRESS，2013.127-133.

基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目（11471218）。

（作者單位：趙迎、何華任職于河北工業(yè)大學(xué);吳超任職于中國(guó)人民銀行天津分行）