亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于增強多維多粒度級聯(lián)森林的信用評分模型

2021-09-18 06:21:52卞凌志王直杰

計算機應用 2021年9期

關(guān)鍵詞：方法模型

卞凌志，王直杰

（東華大學信息科學與技術(shù)學院，上海 201620）

（*通信作者電子郵箱wangzj@dhu.edu.cn）

0 引言

隨著金融業(yè)的不斷發(fā)展，向商業(yè)銀行貸款的人數(shù)也越來越多，這在增加了銀行可周轉(zhuǎn)資金的同時也使銀行面臨信用風險的威脅［1］。根據(jù)中國銀行業(yè)監(jiān)督管理委員會統(tǒng)計，銀行不良貸款余額近年來呈上升趨勢，因此，構(gòu)建有效、可靠的信用評分模型對于銀行避免損失和在激烈競爭的市場中生存至關(guān)重要［2］。

利用借款人個人信息對違約概率進行預測可以衡量借款人無法償還債務的風險。為了提高信用評分的準確度，要求對借款人的信息進行全面的分析并建立合適的模型。

目前信用評分的模型可分為兩類：一種是基于傳統(tǒng)統(tǒng)計學習的方法，另一種是基于機器學習的方法。傳統(tǒng)基于統(tǒng)計學習的方法利用數(shù)據(jù)在統(tǒng)計方面的性質(zhì)和規(guī)律進行建模，主要的方法有邏輯回歸（Logistic Regression，LR）與線性判別分析（Linear Discriminant Analysis，LDA）。如Steenackers 等［3］利用LR 的統(tǒng)計學習思想對信用評分進行建模；Baesens 等［4］分別使用LDA與LR方法對信用評分進行建模。LR使用極大似然法的迭代方式，從而找到參數(shù)中最接近真實的估計值；LDA通過計算原始分類樣本的均值與方差，并計算新的樣本在投影后得到的特征屬于各分類的概率。這兩種方法可以有效解決各種分類問題，但是統(tǒng)計學習強烈依賴于獨立變量和非獨立變量之間的線性關(guān)系，不能有效地利用現(xiàn)有的特征學習的方法，因此預測準確度不高。繼傳統(tǒng)方法后，在分類問題中逐漸開始使用基于集成學習的機器學習方法，集成學習在信用評分模型中的應用分為裝袋法（Bagging）和提升法（Boosting）。Bagging 方法的主要想法是分別訓練幾個模型，并對這些模型進行平均，從而得到較好的模型，如Breiman［5］提出了隨機森林（Random Forest，RF）方法，將每個決策樹得到的結(jié)果進行平均，可以有效提高單個決策樹模型的預測結(jié)果準確度，并用于解決各類回歸與分類問題。Boosting 方法的主要想法是將弱分類器組裝為強分類器，常用的方法有Freund 等［6］提出的自適應增強（Adaptive Boosting，AdaBoost）和Friedman［7］提出的梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）。近年來，Chen 等［8］提出的極端梯度提升（eXtreme Gradient Boosting，XGBoost）高效地實現(xiàn)了GBDT 算法并在算法上的有許多改進。Ke 等［9］提出的輕量級梯度提升機（Light Gradient Boosting Machine，LightGBM）算法同樣高效地實現(xiàn)了GBDT算法，在原理上與XGBoost 算法相似，但是LightGBM 具有更快的運行速度并且可以直接處理類別數(shù)據(jù)。XGBoost 與LightGBM 都是競賽中常用的方法，在對提取好的特征進行訓練分類中都能取得不錯的效果。各類集成學習的方法廣泛應用于信用評分模型中，在不同的數(shù)據(jù)集上表現(xiàn)各不相同，在預測結(jié)果上仍然具有改進的余地。

在近三年的信用評分研究中，Arora等［10］提出了基于嵌入式的Lasso 方法的改進版本，即Bolasso 方法分別改進支持向量機（Support Vector Machine，SVM）、樸素貝葉斯（Naive Bayes，NB）、K-近鄰（K-Nearest Neighbors，KNN）與隨機森林算法建立信用評分模型，該方法在訓練數(shù)據(jù)有輕微變化時，可以選擇不同的特征子集，但在預測準確度上仍有提升的空間。Moscato 等［11］使用常用的機器學習方法與可解釋人工智能工具，在信用評分問題中同時評估分類器的準確性性能及其可解釋性，但僅在一個數(shù)據(jù)集上進行了研究，模型的泛化能力有待改進。

本文在模型方面選擇Zhou 等［12］提出的多維多粒度級聯(lián)森林（multi-dimensional and multi-grained cascade Forest，gcForest）算法。這是一種基于隨機森林的算法，通過多維多粒度掃描提出數(shù)據(jù)的特征，利用級聯(lián)森林模塊去學習并生成模型，通過引入層的概念很好地解決了RF、XGBoost、LightGBM 等集成樹算法容易過擬合的問題。為了進一步提高特征提取的多樣性，并在增加隨機森林層數(shù)后避免梯度爆炸或梯度消失問題，從而能在保持之前的模型效果的基礎上繼續(xù)增加學習特征的能力，借鑒深度學習中殘差網(wǎng)絡的結(jié)構(gòu)，在gcForest 的基礎上進行改進，本文提出了多維多粒度級聯(lián)殘差森林（multi-dimensional and multi-grained cascade residual Forest，grcForest）模型，并考慮了信用評分建模的整個過程，包括數(shù)據(jù)預處理、建立模型、調(diào)參、算法改進和評估。通過AUC（Area Under Curve）、準確率等評價指標對模型結(jié)果進行論證，同時與現(xiàn)有的各種機器學習算法在四個不同的信用評分數(shù)據(jù)集上進行對比。

1 gcForest算法

1.1 級聯(lián)森林結(jié)構(gòu)

gcForest是一種決策樹集成方法，通過級聯(lián)的方式堆疊多層隨機森林，以獲得更好的特征表示和學習性能。相較于深度學習，gcForest 只需要很少的訓練數(shù)據(jù)，就能獲得很好的性能，而且基本不需要調(diào)節(jié)超參數(shù)的設置。gcForest由兩部分組成：級聯(lián)森林與多粒度掃描結(jié)構(gòu)。

在級聯(lián)森林中，每一層都可以包含多個不同的隨機森林，這樣能夠增強模型的泛化能力。如圖1 所示，在實驗中使用了兩種隨機森林：隨機森林（實線）與極限森林（虛線）。級聯(lián)森林的層數(shù)可以自己確定，每一層隨機森林學習輸入特征向量的特征信息，經(jīng)過處理后輸入到下一層，每層結(jié)束后都會在驗證集上進行估計，如果預測效果沒有明顯提升，就不再繼續(xù)增加深度，訓練過程就會終止。

圖1 級聯(lián)森林結(jié)構(gòu)Fig.1 Structure of cascade forest

在級聯(lián)森林中，隨機森林的每棵決策樹對于輸入特征向量都會產(chǎn)生一個關(guān)于每類的預測概率，對所有決策樹產(chǎn)生的概率分布向量進行平均就得到隨機森林輸出的類分布向量。然后將這些類分布向量與原始的特征向量進行拼接，得到下一層的輸入向量，不斷迭代直到收斂為止。

1.2 多粒度掃描結(jié)構(gòu)

受到卷積神經(jīng)網(wǎng)絡的啟發(fā)，對輸入特征使用多粒度掃描的方式產(chǎn)生級聯(lián)森林的輸入特征向量。

例如在圖2 中對于400 維的輸入數(shù)據(jù)，如果采用100 維的滑動窗口對輸入特征進行處理，最終得到301個100維的特征向量。在本實驗中使用多個不同大小的滑動窗口，從而生成不同粒度的特征向量。

圖2 多粒度掃描結(jié)構(gòu)Fig.2 Structure of multi-grained scanning

1.3 總體結(jié)構(gòu)

圖3 是gcForest 模型的總體框架圖，假設輸入特征為400維，多粒度掃描模塊具有3 個滑動窗口，并使用這些數(shù)據(jù)作為一個隨機森林和一個極限森林的輸入，如果是二分類預測，那么能得到1 204維特征向量，然后輸入到第一級級聯(lián)森林中進行訓練。

圖3 gcForest模型的總體框架Fig.3 Overall framework of gcForest model

另外兩個窗口掃描后分別得到804維與404維特征向量，將它們用于訓練二級和三級級聯(lián)森林，不斷重復這一過程，直到驗證性能收斂為止。

2 算法改進

類似于深度神經(jīng)網(wǎng)絡（Deep Neural Network，DNN），隨著隨機森林層數(shù)的增加，模型能夠獲取的特征與信息也就越多，但也有可能出現(xiàn)梯度消失或梯度爆炸的問題。針對這一問題，在神經(jīng)網(wǎng)絡中引入了殘差網(wǎng)絡（ResNet），使得在增加網(wǎng)絡層數(shù)后能在保持之前的模型效果的基礎上繼續(xù)增加學習特征的能力。

為了在gcForest 中增加隨機森林層數(shù)時避免梯度爆炸或消失問題，提出了grcForest，即在級聯(lián)森林模塊中也采取類似殘差網(wǎng)絡的結(jié)構(gòu)，將第一層隨機森林得到的結(jié)果加到后面的隨機森林輸入特征中，從而提高了特征提取的多樣性，并使得在增加隨機森林層數(shù)時模型能夠在保留之前效果的基礎上向最優(yōu)值靠近。

如圖4～5 所示，輸入特征在經(jīng)過多粒度掃描后的特征值輸入兩類隨機森林中，由于實驗為二分類問題，因此每個隨機森林產(chǎn)生兩個分類結(jié)果，將這些結(jié)果保存下來并與相應的多粒度掃描得到的特征值一起輸入后面每一層的隨機森林中，不斷重復這一過程，直到驗證性能不再提高為止。

圖4 grcForest流程Fig.4 Flowchart of grcForest

圖5 級聯(lián)殘差森林結(jié)構(gòu)Fig.5 Structure of cascade residual forest

3 信用評分實驗

3.1 評價指標

在分類算法中，常見的分類指標有準確率Acc（Accuracy）、精確率Pre（Precision）、召回率Rec（Recall）、真正例率TPR（True Positive Rate）、假正例率FPR（False Positive Rate）、F1-Score、ROC（Receiver Operating Characteristic）曲線［13］、AUC（Area Under Curve）［14］等，這些指標都要通過混淆矩陣（Confuse Matrix）中的真正類TP（True Positive）、假負類FN（False Negative）、假正類FP（False Positive）和真負類TN（True Negative）進行計算。此外，Brier 分數(shù)BS（Brier Score）［15］也經(jīng)常用于分類問題中，它的值越低就代表預測結(jié)果越好。

準確率Acc是預測正確的概率：

精確率Pre指正確預測為正樣本（TP）占所有預測為正樣本（TP+FP）的比率：

召回率Rec指正確預測為正樣本（TP）占所有正樣本（TP+FN）的比率：

精確率和召回率是相互影響的，F(xiàn)1-Score值可以同時兼顧兩者：

真正例率與召回率公式相同，都表示正確預測為正樣本占所有預測為正樣本的比率：

假正例率指錯誤預測為正樣本占所有實際為負樣本的比率：

ROC曲線是以FPR作為X軸，TPR作為Y軸的函數(shù)。AUC值是ROC 曲線與X軸、Y軸圍成的面積，AUC值越接近1，則預測方法的真實性越高。

其中：n是樣本的數(shù)量；r是類別；fti是模型預測第t個樣本的類別為i的概率；oti是第t個樣本的真實值（類別為i則取1，否則取0）。

在本文中，主要使用的評價指標是AUC與Acc，其他一些指標（F1-Score、BS與TPR）也作為參考一同列出。

3.2 數(shù)據(jù)集預處理

在信用評分模型中，借款人的各種個人信息一般包括如貸款金額、期限、年齡、職業(yè)、銀行存款、住房情況、消費記錄、還款記錄等數(shù)據(jù)。由于數(shù)據(jù)集中還包含許多類別數(shù)據(jù)與無用數(shù)據(jù)，因此在建模前要先對數(shù)據(jù)進行預處理。在填補缺失數(shù)據(jù)并將類別數(shù)據(jù)轉(zhuǎn)化為數(shù)值后對數(shù)據(jù)進行特征提取，常用的特征提取方法有卡方檢驗［16］、主成分分析（Principal Component Analysis，PCA）、遞歸特征消除（Recursive Feature Elimination，RFE）［17］、線性判別分析［18］等方法。本文中使用RFE方法進行特征提取。

實驗中數(shù)據(jù)集使用機器學習開放數(shù)據(jù)集網(wǎng)站UC Irvine Machine Learning Repository 中的德國、澳大利亞信用數(shù)據(jù)集［19］，Kaggle 網(wǎng)站上的公開信用數(shù)據(jù)集與P2P 平臺Lending Club網(wǎng)站上的貸款數(shù)據(jù)［20］。

在有些數(shù)據(jù)集，如Kaggle 與P2P 數(shù)據(jù)集中存在一些丟失數(shù)據(jù)，如果丟失數(shù)據(jù)為數(shù)值類型，則用平均值填充；如果為類別類型，則用眾數(shù)填充，并用數(shù)值對這些類別進行編碼替代。在P2P 數(shù)據(jù)集中樣本過大，有423 808 組數(shù)據(jù)。由于邊際效應，過多數(shù)據(jù)并不會提高模型準確度，反而大幅地降低了模型效率，因此對數(shù)據(jù)集進行隨機抽樣，對正、負樣本分別抽取5 500組數(shù)據(jù)組成新的數(shù)據(jù)集。

表1 所示為數(shù)據(jù)預處理后的實驗數(shù)據(jù)集與它們的數(shù)據(jù)維度、樣本大小與樣本正負比。

表1 實驗中的數(shù)據(jù)集Tab.1 Datasets used in experiments

此外，在這些數(shù)據(jù)集中除了建模必要的信息外還有許多冗余的數(shù)據(jù)，如果直接輸入機器學習模型中可能會降低學習效率，因此先對這些數(shù)據(jù)集使用RFE方法進行特征提取。

4 實驗與結(jié)果分析

為了證實對gcForest 方法改進的有效性，在不同數(shù)據(jù)集上將grcForest 與未改動的gcForest 方法以及其他當下常用的信用評分方法進行對比實驗，并與近幾年其他文獻在信用評分模型上的表現(xiàn)進行對比。在每個數(shù)據(jù)集的實驗中使用5 折交叉驗證的方法提高實驗結(jié)果的可靠性。

表2～5 是分別使用隨機森林（RF）、邏輯回歸（LR）、XGBoost、LightGBM、gcForest 與改進后的grcForest 對3.2 節(jié)中經(jīng)過預處理的德國、澳大利亞、Kaggle 與P2P 數(shù)據(jù)集進行分類預測后得到結(jié)果的各項指標?？梢钥吹絞rcForest模型在各數(shù)據(jù)集上都表現(xiàn)出色。

表2 各模型在德國數(shù)據(jù)集上的結(jié)果Tab.2 Results of different models on German dataset

在德國數(shù)據(jù)集中，grcForest的AUC值為0.768，排名第一，比排名第二的gcForest 高0.005，比第三的LightGBM 高0.012；而Acc值為最高的0.75，超過排名第二的gcForest 0.011，比LightGBM 高0.035；在其他指標中也都是最好的。因此在德國數(shù)據(jù)集中，grcForest效果最好。

表3 各模型在澳大利亞數(shù)據(jù)集上的結(jié)果Tab.3 Results of different models on Australian dataset

在澳大利亞數(shù)據(jù)集中，grcForest 的AUC值是最高的，為0.919，比排名第二的gcForest 高0.010；Acc值與RF 相同，排名第二，都為0.877，比gcForest 高0.054，而最高的XGBoost為0.891；BS值為0.098，僅比最低的LR 高0.002，在其他指標中也都優(yōu)于gcForest。因此在澳大利亞數(shù)據(jù)集中，grcForest與XGBoost效果較好。

表4 各模型在Kaggle數(shù)據(jù)集上的結(jié)果Tab.4 Results of different models on Kaggle dataset

在Kaggle 數(shù)據(jù)集中，grcForest 的AUC值為0.761，排名最高，比第二的gcForest 高0.003；Acc值為0.818，排名第二，略低于第一的LightGBM，比gcForest 高0.003；在其他指標上也都表現(xiàn)穩(wěn)定。grcForest 與LightGBM 在Acc和BS上僅差0.001而在其他指標上都略優(yōu)于LightGBM；在關(guān)鍵的指標AUC與Acc上均略高于gcForest，因此在Kaggle 數(shù)據(jù)集中，grcForest 效果最好。

表5 各模型在P2P數(shù)據(jù)集上的結(jié)果Tab.5 Results of different models on P2P dataset

在P2P 數(shù)據(jù)集中，grcForest 的AUC值是最高的，為0.9，比gcForest 高0.003；Acc值為0.824 排名第二，與gcForest 相同，比第一的LightGBM 低0.004，但在其他指標上都優(yōu)于LightGBM；在指標F1-Score、BS和TPR上均表現(xiàn)最好。因此在P2P數(shù)據(jù)集中，grcForest效果最好。

在近三年信用評分模型研究中同樣有在現(xiàn)有機器學習模型基礎上進行改進的，在表6 中將grcForest 與文獻［10］中經(jīng)過Bolasso 方法改進的SVM、NB、KNN 與RF 算法（簡寫為BSSVM、BS-NB、BS-KNN 與BS-RF）使用信用評分模型中最重要的兩個評價指標：AUC與Acc進行對比。由于在該文獻中沒有在澳大利亞與P2P 數(shù)據(jù)集上進行實驗，因此只在德國與Kaggle數(shù)據(jù)集上進行對比。

表6 grcForest模型與其他文獻算法效果對比Tab.6 Effect comparison of grcForest model and other models in literatures

從表6 可以看出，grcForest 的AUC值在兩個數(shù)據(jù)集中都是最高的，Acc值也都表現(xiàn)不錯，明顯優(yōu)于經(jīng)過Bolasso 方法改進后的SVM、NB 與KNN 算法；雖然Acc值低于BS-RF 算法，但AUC值均更高。在信用評分模型中，相較于Acc指標，AUC更能對一個模型作出全面的評價，因此grcForest 的表現(xiàn)是最好的。

圖6～9 是各模型在4 個數(shù)據(jù)集上的ROC 曲線，并在曲線下方列出了各模型對應的AUC值。

圖6 各模型在德國數(shù)據(jù)集上的ROC曲線Fig.6 ROC curves of different models on German dataset

結(jié)合表2～5中的各項評價指標可以看出如下幾點：

1）在當下常用的信用評分方法中，LightGBM 與XGBoost比其他方法的效果更好。

2）在各數(shù)據(jù)集上gcForest 與LightGBM、XGBoost 方法效果接近。

3）改進后的grcForest 比gcForest 方法表現(xiàn)更穩(wěn)定，效果更好，除在澳大利亞數(shù)據(jù)集中與XGBoost 結(jié)果相當，在其他數(shù)據(jù)集中均表現(xiàn)最好，其AUC值相較于LightGBM 平均高1.13%，相較于XGBoost平均高1.44%。

圖7 各模型在澳大利亞數(shù)據(jù)集上的ROC曲線Fig.7 ROC curves of different models on Australian dataset

圖8 各模型在Kaggle數(shù)據(jù)集上的ROC曲線Fig.8 ROC curves of different models on Kaggle dataset

圖9 各模型在P2P數(shù)據(jù)集上的ROC曲線Fig.9 ROC curves of different models on P2P dataset

5 結(jié)語

隨著計算機科學的不斷發(fā)展，信用評分模型也得到不斷改進，從而更好地幫助銀行抵御信用風險。本文將一種深度森林的機器學習方法gcForest 應用于信用評分，并在此基礎上對gcForest 進行改進，將級聯(lián)森林模塊中第一層隨機森林得到的結(jié)果加入后面每一層隨機森林的輸入中，從而提升了在信用評分模型中的效果。

在未來的工作中，信用評分模型仍然有一些可以改進的地方，例如將grcForest與其他機器學習算法進行融合；使用優(yōu)化算法對grcForest 的超參數(shù)進行優(yōu)化；對多粒度掃描模塊進行優(yōu)化并使運行速率得到提升。