亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

集成學(xué)習(xí)框架下的個人信用評分模型研究

2020-08-16 14:02:29陳磊范宏

中國市場 2020年20期

陳磊　范宏

[摘要]在大數(shù)據(jù)時代背景下，建立適當(dāng)?shù)膫€人信用評分模型對用戶違約風(fēng)險進(jìn)行有效預(yù)測，對于預(yù)防互聯(lián)網(wǎng)金融風(fēng)險極其重要。文章基于人工智能前沿技術(shù)，引入Bagging、Boosting以及Stacking集成學(xué)習(xí)框架來構(gòu)建個人信用評分模型，并在融360平臺近3.5萬的用戶貸款數(shù)據(jù)集上進(jìn)行實證研究。首先，選用隨機(jī)森林、GBDT以及XGBoost算法分別建立了單一信用評分模型;其次，將以上三種同質(zhì)集成樹算法作為Stacking異質(zhì)集成框架第一層的基分類器，以Logistic regression為第二層的元分類器，進(jìn)行模型融合。結(jié)果表明，Stacking異質(zhì)集成模型在三種評估角度下均表現(xiàn)優(yōu)異。

[關(guān)鍵詞]信用評分模型;同質(zhì)集成算法;異質(zhì)集成算法;隨機(jī)森林;GBDT;XGBoost

[DOI] 10.13939/j.cnki.zgsc.2020.20.164

1 引言

近年來，互聯(lián)網(wǎng)金融在我國發(fā)展勢頭猛烈，但繁榮與風(fēng)險往往相伴而生，那些隱藏的風(fēng)險也不容小覷。特別地，針對信貸領(lǐng)域的個人違約風(fēng)險，需要建立大數(shù)據(jù)時代下的高精度個人信用評分模型對用戶個人信貸風(fēng)險進(jìn)行有效預(yù)測。針對單一算法的預(yù)測效果有限且泛化能力不佳，Stephen（2010）指出集成學(xué)習(xí)算法能有效降低偏差、方差，提升信用風(fēng)險評估模型的準(zhǔn)確度與穩(wěn)定性[1]。當(dāng)下比較流行的集成方法是基于不同訓(xùn)練集將若干個同一類型的弱分類器融合成一個強(qiáng)分類器的同質(zhì)集成學(xué)習(xí)算法，主要分為Bagging和梯度提升Boosting這兩大族。后來，周志華研究發(fā)現(xiàn)，Stacking異質(zhì)集成學(xué)習(xí)框架更為強(qiáng)大，可通過某種策略將多個不同的分類器融合在一起[2]。

2 集成學(xué)習(xí)框架下的個人信用評分模型

2.1 算法機(jī)理

本文選用的基分類器是Bagging并行訓(xùn)練決策樹得到的隨機(jī)森林，Boosting串行訓(xùn)練決策樹得到的GBDT以及改進(jìn)GDBT后得到的XGBoost。Boosting集成技術(shù)主要以降低偏差為主，其集成的模型在擬合能力上更有優(yōu)勢;Bagging集成技術(shù)主要是降低方差，其集成的模型有更優(yōu)秀的泛化能力。不同于Boosting和Bagging這兩種采用相同的分類算法訓(xùn)練單個分類器的同質(zhì)集成方式，Stacking屬于一種異質(zhì)集成方法，通過融合不同的基分類器，以修正其偏差的方式提高模型的泛化能力。從結(jié)構(gòu)上看，Stacking集成框架是一種分層結(jié)構(gòu)，將第1層的分類器稱為基分類器，而第2層用于結(jié)合的分類器則稱為元分類器。

2.2 數(shù)據(jù)及特征處理

本文的實驗數(shù)據(jù)來源于融360網(wǎng)絡(luò)金融服務(wù)公司，全部樣本量有33465萬，其中，30465條數(shù)據(jù)是有類別標(biāo)簽的被接受客戶樣本，這30465個接受樣本中違約樣本有1837個，履約樣本有28628個，違約率為6.03%;有類別標(biāo)簽的被拒絕客戶樣本數(shù)據(jù)有3000條，這3000條拒絕樣本中違約樣本有361個，履約樣本有2639個，違約率達(dá)到12.03%。本文的數(shù)據(jù)集中測試集的構(gòu)成是1300個有類別標(biāo)簽的接受樣本與3000個有類別標(biāo)簽的拒絕樣本，即本文實證劃分出的訓(xùn)練集是29165個有類別標(biāo)簽的接受樣本，測試集是4300條有類別標(biāo)簽的接受/拒絕樣本數(shù)據(jù)。

在特征工程階段，首先，將每個樣本包含的6745維特征用變量f1.f6745來進(jìn)行特征轉(zhuǎn)換。其次，選擇皮爾森相關(guān)系數(shù)分析法結(jié)合未訓(xùn)練的XGBoost重要特征篩選法來做特征篩選，本文篩選出2000個特征作為建模輸入。

2.3 超參數(shù)優(yōu)化

分類模型訓(xùn)練的重點之一就是確定并優(yōu)化超參數(shù)集。由于本文選用的基分類器都是樹模型，因此確定需要優(yōu)化的超參數(shù)有：單棵樹的最大深度（max_depth）、樹的學(xué)習(xí)率（learning rate）、樹的數(shù)目（n_estimators）以及隨機(jī)采樣率（Subsample）。

實驗采用grid search法來調(diào)節(jié)超參數(shù)，得到如下的最優(yōu)超參數(shù)集為：Random forest 、GBDT、XGBoost的max_depth分別為5、6、10;learning rate分別為無、0.061、0.1;n_estimators分別為100、180、400;Subsample分別為無、0.998、0.904。

2.4 評價結(jié)果分析

本文的評價標(biāo)準(zhǔn)主要是三個方面：一是誤判經(jīng)濟(jì)成本的角度來評價模型的分類效果，選用的指標(biāo)是第Ⅰ類錯誤率;二是模型在正類預(yù)測上的性能的角度，選用的指標(biāo)是F2值;三是從模型整體預(yù)測能力和泛化能力的角度，選用的指標(biāo)是AUC值。

由表1可以看出，Stacking異質(zhì)集成模型的第I類錯誤率是0.1209，四個模型中最低，說明它的誤判經(jīng)濟(jì)成本最低;F2值為0.4860，四個模型中是最高的，說明它在正類上的預(yù)測性能最優(yōu);AUC值達(dá)到了0.8077，也是最高的，說明經(jīng)過異質(zhì)集成后的模型的預(yù)測能力更高，泛化能力更強(qiáng)。

3 結(jié)論

本文建立了集成學(xué)習(xí)框架下的個人信用評分模型，并從誤判經(jīng)濟(jì)成本、兼顧誤判經(jīng)濟(jì)成本和模型在正類預(yù)測上的性能以及模型整體的預(yù)測能力和泛化能力三個角度對隨機(jī)森林、GBDT、XGBoost這三種同質(zhì)集成樹模型以及Stacking異質(zhì)集成學(xué)習(xí)模型的優(yōu)劣進(jìn)行了評估。實證表明，融合了三種同質(zhì)集成樹算法的Stacking異質(zhì)集成學(xué)習(xí)模型表現(xiàn)出了強(qiáng)大的性能，在三種評估角度下均表現(xiàn)優(yōu)異。不但經(jīng)濟(jì)誤判成本最低，同時能較好地兼顧在正類上的預(yù)測性能（即能較好的識別出違約客戶），還具備最優(yōu)異的總體分類效果和泛化能力。

參考文獻(xiàn)：

[1]DEFU ZHANG，XIYUE ZHOU，STEPHEN C H LEUNG，et al.Vertical bagging decision trees model for credit scoring[J]. Expert Systems with Applications， 2010（37）： 7838.7843

[2]周志華.機(jī)器學(xué)習(xí)[M].北京：清華大學(xué)出版社，2016.

[作者簡介] 陳磊（1995—），女，漢族，江蘇南通人，東華大學(xué)旭日工商管理學(xué)院，碩士研究生，統(tǒng)計學(xué)專業(yè)，研究方向：金融信用風(fēng)險研究;范宏（1971—），女，漢族，上海人，東華大學(xué)旭日工商管理學(xué)院，教授，日本東京大學(xué)博士，研究方向：金融網(wǎng)絡(luò)風(fēng)險分析。