顧清華, 宋思遠(yuǎn), 張新生, 暴子旗
(1.西安建筑科技大學(xué) 資源工程學(xué)院,陜西 西安 710055; 2.西安市智慧工業(yè)感知計算與決策重點實驗室,陜西 西安 710055; 3.西安建筑科技大學(xué) 管理學(xué)院,陜西 西安 710055)
隨著我國經(jīng)濟(jì)快速發(fā)展,良好的信用經(jīng)濟(jì)環(huán)境是我國社會發(fā)展的經(jīng)濟(jì)基礎(chǔ)。從商業(yè)銀行的視角來看,隨著個人信貸業(yè)務(wù)的快速擴(kuò)張,個人信用風(fēng)險已成為商業(yè)銀行面臨的重要風(fēng)險,也是導(dǎo)致國家金融體系不穩(wěn)定的重要原因之一,因此如何更好評價個人信用風(fēng)險成為當(dāng)務(wù)之急。
在個人信用風(fēng)險預(yù)測問題中,分析以往的金融借貸數(shù)據(jù)可知,借貸行為產(chǎn)生后,最終可以如期還款的用戶占大部分,僅有少數(shù)違約用戶由于其還款能力有限不能按時還款,因此形成不平衡的風(fēng)險數(shù)據(jù)。不平衡數(shù)據(jù)會使得樣本分類準(zhǔn)確率急速下降,不能滿足模型對分類效果的要求[1,2]。為了降低不平衡數(shù)據(jù)的傾斜度,現(xiàn)有研究對不平衡數(shù)據(jù)的處理主要包括過采樣[3]、欠采樣[4]以及混合采樣[5]三種方式。由于個人信用風(fēng)險數(shù)據(jù)極度不平衡,違約樣本數(shù)量遠(yuǎn)遠(yuǎn)大于非違約樣本,而被錯分的違約樣本會造成銀行企業(yè)的利潤損失,欠采樣容易造成信息損失,為了保證分類模型的樣本數(shù)量以及足夠的訓(xùn)練,大都采用過采樣技術(shù)[6]。
信用風(fēng)險評估的方法有很多, FERNANDES和ARTES[7]使用LR衡量客戶違約風(fēng)險,模型簡單好解釋,但信用評價準(zhǔn)確度不高。BUTARU等[8]在信用卡拖欠問題上,發(fā)現(xiàn)決策樹和隨機(jī)森林的預(yù)測效果優(yōu)于邏輯回歸。程硯秋[9]使用違約樣本正確識別率代替以往的非違約樣本識別率的度量指標(biāo),并采用不均衡支持向量機(jī)對信用風(fēng)險評價指標(biāo)進(jìn)行賦權(quán),從而有效區(qū)分樣本。個人信用風(fēng)險數(shù)據(jù)維度較大,傳統(tǒng)單模型受到變量維度的限制,不能在大環(huán)境下使用,且客戶數(shù)據(jù)情況復(fù)雜,使用單一分類器可能不能很好將其區(qū)分開,而集成學(xué)習(xí)的應(yīng)用大大改善了這一缺點。陳舒期和梁雪春[10]提出基于AR-SKB的SVM集成模型大大提高了支持向量機(jī)的分類識別性能。ZHU等[11]比較了信用風(fēng)險預(yù)測的六種方法,顯示集成學(xué)習(xí)有更高的準(zhǔn)確性。柳向東和李鳳[12]通過對比RF,ANN,CART算法,實驗表明RF適合處理不平衡數(shù)據(jù)集,且對信用風(fēng)險的識別能力較好。ZHANG等[13]和NIU等[14]使用Bagging對數(shù)據(jù)類別進(jìn)行有效識別,獲得了良好的信用預(yù)測性能。上述研究表明,集成算法可以更好地保證模型的穩(wěn)健性,在信用風(fēng)險評估上也可以表現(xiàn)出更好的性能。而本文使用的Stacking方法是一種新穎的集成算法,通過組合不同性能的學(xué)習(xí)器來更好的預(yù)測信用風(fēng)險,將集成的知識遷移到簡單分類器上,顯著提升預(yù)測效果。雖然Stacking方法已被廣泛用于其他領(lǐng)域[15-17],但是目前在信用風(fēng)險評估的相關(guān)研究工作還很少。
基于此,本文提出了改進(jìn)BS-Stacking集成模型,首先對Borderline SMOTE-2算法進(jìn)行改進(jìn),在強化小眾樣本邊界區(qū)域識別的基礎(chǔ)上,進(jìn)一步對噪聲點進(jìn)行去除,從而保證對違約樣本的精確預(yù)測;此外,針對Stacking集成算法中分類器存在冗余情況、可能會降低預(yù)測性能的問題,使用網(wǎng)格搜索進(jìn)行調(diào)參,并提出使用LR對個體學(xué)習(xí)器進(jìn)行貢獻(xiàn)度分析,從而得到最優(yōu)個體學(xué)習(xí)器組合,使得整個模型達(dá)到最優(yōu)性能。通過與單分類器以及不同堆疊方式的比較,驗證了所提出集成模型的有效性。
本文提出一種基于改進(jìn)BS-Stacking模型的個人信用風(fēng)險評估方法,其中改進(jìn)后的模型用于處理不平衡的個人信用風(fēng)險評估數(shù)據(jù)。模型主要包括5個部分:(1)使用改進(jìn)后的Borderline SMOTE-2對不平衡個人信用風(fēng)險數(shù)據(jù)進(jìn)行采樣;(2)網(wǎng)格搜索調(diào)參;(3)利用采樣后的數(shù)據(jù)與尋優(yōu)后的參數(shù)對個體學(xué)習(xí)器進(jìn)行訓(xùn)練;(4)利用個體學(xué)習(xí)器訓(xùn)練生成的新特征對元模型進(jìn)行訓(xùn)練;(5)利用元模型LR對各個體學(xué)習(xí)器進(jìn)行貢獻(xiàn)度分析;(6)得出最終模型以及性能測試結(jié)果。模型流程見圖1。
圖1 模型流程圖
Borderline-SMOTE[18]是一種自適應(yīng)綜合過采樣方法,主要思想是找到小眾樣本的邊界區(qū)域,對邊界區(qū)域的小眾樣本采用SMOTE方法進(jìn)行樣本生成。該算法有兩個變種:Borderline SMOTE-1和Borderline SMOTE-2,這兩種方法都可以加強邊界處模糊樣本的存在感,而Borderline SMOTE-2是在方法1的基礎(chǔ)上,在生成樣本點時考慮將K近鄰中的任意一個樣本進(jìn)行線性插值,使新增樣本更加靠近真實值。
在Borderline SMOTE-2中,算法將處于大小樣本分類邊界的樣本點進(jìn)行線性插值生成新的樣本點,未對安全區(qū)的樣本點以及噪聲點進(jìn)行處理。噪聲點的出現(xiàn)有兩種情況:輸出錯誤與輸入錯誤,個人信用風(fēng)險數(shù)據(jù)數(shù)據(jù)量大,管理規(guī)范不統(tǒng)一,容易出現(xiàn)以上兩種情況。而噪聲點的存在勢必會影響算法學(xué)習(xí)的性能與效果,因此本研究在Borderline SMOTE-2的基礎(chǔ)上,將噪聲點進(jìn)行過濾,可以使算法更好地學(xué)習(xí)數(shù)據(jù)。圖2為原理圖,算法流程如下:
圖2 Borderline SMOTE-2 原理圖
輸入:小眾樣本P,大眾樣本N,訓(xùn)練集T
輸出:生成后的新數(shù)據(jù)集
Step1對于少數(shù)類P中的每一個樣本P′,從整個訓(xùn)練集中計算其m個最近鄰,其中m個最近鄰中多數(shù)類樣本的數(shù)量為m′(0≤m′≤m);
Step2對于若0≤m′≤m/2,則該樣本點為安全點,不對其做任何改動;
Step3對于若m′=m,即m個最近鄰均為多數(shù)類樣本,則該樣本點為噪聲點,在該步驟中去除該類點;
Step4對于若m/2≤m′≤m,則該樣本點為危險點,即容易被誤分類的點,設(shè)置集合Danger={P′},并進(jìn)行下一步操作;
本研究所用數(shù)據(jù)集是基于UCI公開的德國個人信用數(shù)據(jù)集,其中包含1000個樣本,24個特征,為二分類數(shù)據(jù)。其中好壞樣本占比700:300,為不平衡數(shù)據(jù)集,因此對其使用改進(jìn)后的Borderline SMOTE-2方法對數(shù)據(jù)進(jìn)行處理。通過算法處理后的數(shù)據(jù)集正負(fù)樣本比為700:661,共1361條數(shù)據(jù),共有噪聲點39個。
Stacking是一種分層模型集成框架,通常使用異質(zhì)弱學(xué)習(xí)器,并行的學(xué)習(xí)他們,并通過一個元模型將其組合起來,根據(jù)不同弱模型的預(yù)測結(jié)果作為新特征集合供元模型訓(xùn)練使用,并輸出一個最終的預(yù)測結(jié)果。Stacking算法的并行計算在于學(xué)習(xí)模型的穩(wěn)定性,并且分層預(yù)測的計算結(jié)果遠(yuǎn)遠(yuǎn)優(yōu)于向量均值化和投票機(jī)制。
本文使用兩個堆疊層進(jìn)行了實驗。第一層由8種不同的基礎(chǔ)模型組成(SVC,GBDT,RF,AdaBoost,XGBoost,LightGBM,KNN,LR),第二層只包含一個最終模型或元模型(LR)。該框架如圖3所示。
圖3 堆疊概要圖
在第一層模型中,以Adaboost為代表的Boosting在訓(xùn)練過程中對于錯分?jǐn)?shù)據(jù)給予較大的權(quán)重,從而提升整體模型的準(zhǔn)確率;以RF為代表的Bagging使用有放回隨機(jī)抽樣,數(shù)據(jù)集之間相互獨立,可以提高不穩(wěn)定模型的準(zhǔn)確率,并降低過擬合的程度;其他單算法則保證了模型輸出數(shù)據(jù)的多樣性。Stacking能夠成功的關(guān)鍵在于第一層模型能針對原始訓(xùn)練數(shù)據(jù)得出有差異性且預(yù)測能力好的輸出值,第二層模型繼續(xù)學(xué)習(xí)后,進(jìn)一步提升整體模型預(yù)測的準(zhǔn)確度和穩(wěn)定性。
邏輯回歸在個人信用評估領(lǐng)域的應(yīng)用已經(jīng)相當(dāng)成熟,具有良好的適用性和穩(wěn)健性。假設(shè)具有p個獨立變量的觀測向量x=(x1,x2,…,xp),根據(jù)觀測值某件事情發(fā)生的條件概率為P(Y=1|x)。邏輯回歸模型采用如下方法計算該條件概率:首先將特征線性求和,然后使用邏輯函數(shù)進(jìn)行映射,求得條件概率。
特征向量各個分量線性求和公式為:hθ(x)=z=θTx。其中θ是模型中體現(xiàn)貢獻(xiàn)度的參數(shù),x是輸入。邏輯函數(shù)(也稱sigmoid函數(shù))的表達(dá)式為公式(1),樣本特征向量和權(quán)值線性求和,之后依據(jù)sigmoid函數(shù)的形式求出公式(1),根據(jù)決策邊界可以進(jìn)行兩類樣本的分類。
(1)
函數(shù)圖像如圖4所示。
圖4 Sigmoid函數(shù)圖
邏輯回歸損失函數(shù)為公式(2),在求解參數(shù)θ的過程中利用梯度下降法可以得到θ的更新公式,見公式(3)。
(2)
(3)
其中m:訓(xùn)練樣本的個數(shù);y:原訓(xùn)練樣本中的y值;上角標(biāo)i:第i個樣本;α:步長;下標(biāo)j:參數(shù)θ的第j個元素。
2.1.1 數(shù)據(jù)描述
數(shù)據(jù)集是銀行真實的數(shù)據(jù),來自UCI公開的德國信用數(shù)據(jù)集(網(wǎng)址http://archive.ics.uci.edu/ml/datasets/Statlog+%28German+Credit+Data%29),該數(shù)據(jù)集有1000個樣本,屬于小型數(shù)據(jù)集,正類樣本(非違約,標(biāo)簽為1)有700個,負(fù)類樣本(違約,標(biāo)簽為2)有300個,每個原始樣本有20個指標(biāo)屬性,便于數(shù)據(jù)分析,該數(shù)據(jù)集被增加至24個屬性,表1是20個數(shù)據(jù)特征描述。
表1 樣本特征描述
2.1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)集中包括定性指標(biāo)與定量指標(biāo),定性指標(biāo)即表示類別的指標(biāo),對于定性指標(biāo)之間的數(shù)學(xué)計算是沒有意義的,因此不能直接使用。通常有兩種方法進(jìn)行處理:一是處理只作為分類的指標(biāo),二是處理有區(qū)域劃分的有序指標(biāo),表2為基于這兩種方法對定性指標(biāo)的處理結(jié)果,定量化處理后的指標(biāo)與余下的指標(biāo)進(jìn)行歸一化處理,保證數(shù)據(jù)分析的結(jié)果不受到量綱的影響,最終得到我們最終的評價指標(biāo)體系數(shù)據(jù)。
表2 定性指標(biāo)處理
本研究是基于Stacking的個人信用風(fēng)險預(yù)測,選用準(zhǔn)確率(Accuracy)和AUC值來衡量預(yù)測的準(zhǔn)確性,利用精準(zhǔn)率(Precision)、召回率(Recall)、F1得分、特異度(Specificity)來衡量模型的有效性。
2.3.1 改進(jìn)后的Borderline SMOTE-2測試結(jié)果比較
在最初算法中,選用SVC,GBDT,RF,AdaBoost,XGBoost,LightGBM,KNN,LR共8個模型作為個體學(xué)習(xí)器,選擇LR作為元模型訓(xùn)練個體學(xué)習(xí)器的輸出,采用5折交叉驗證結(jié)合網(wǎng)格搜索的方式確定分類器參數(shù),訓(xùn)練集與測試集劃分比例為7:3,從而進(jìn)行實驗,結(jié)果如表3、表4所示,表3、表4數(shù)據(jù)均為10次試驗之后的平均值,meta1為未進(jìn)行刪減的8個基模型。
表3 使用不平衡處理算法對數(shù)據(jù)進(jìn)行處理的準(zhǔn)確率實驗結(jié)果對比
表4 堆疊模型在個人信用風(fēng)險數(shù)據(jù)上測試結(jié)果比較
表3為使用各種不平衡算法以及本文算法處理前后的模型結(jié)果對比,數(shù)據(jù)表明改進(jìn)后的算法對比其他算法表現(xiàn)最佳,集成分類器相比單分類器增加效果顯著,且Stacking集成后的模型與Bagging、Boosting算法性能相比較,性能最少提升3%,也由此驗證了Stacking模型的有效性,也可以看出改進(jìn)后的不平衡數(shù)據(jù)處理方法對提升模型性能有著重要的作用。
圖5為各不平衡算法處理后的準(zhǔn)確率變化圖,可以看出RF,LightGBM,GBDT,XGBoost,AdaBoost漲幅最為明顯,其次是KNN,而SVC,LR浮動不明顯,更有下降的趨勢,一方面說明結(jié)合改進(jìn)后的BS算法使用時,集成算法較傳統(tǒng)單分類器可以更好的處理信用風(fēng)險數(shù)據(jù),對數(shù)據(jù)集的適應(yīng)能力很強,從而實現(xiàn)精準(zhǔn)分類;另一方面LR這種單分類器容易欠擬合,可能會影響整體模型的精度,因此需要對分類器進(jìn)行篩選,確定最優(yōu)組合模型。
圖5 各不平衡處理算法的準(zhǔn)確率結(jié)果
2.3.2 基模型貢獻(xiàn)度排序
圖6是基于元模型對基模型做的貢獻(xiàn)度分析,整體算法將基于圖6來進(jìn)行模型的最終確定。
圖6 基模型貢獻(xiàn)度
在所提出的模型中,基模型的輸出預(yù)測結(jié)果作為元模型的新特征使用,那么在訓(xùn)練完成后,LR分類器依據(jù)公式(2)和公式(3)得出一組權(quán)值θo,θ1,…,θp。在本模型中,可以得到各分類器的權(quán)值并進(jìn)行排序,從而起到篩選的效果,使得整體Stacking模型達(dá)到最優(yōu)。
2.3.3 整體測試結(jié)果說明
表4為各堆疊組合在個人信用風(fēng)險數(shù)據(jù)上測試結(jié)果的比較,由數(shù)據(jù)可知,使用堆疊模型比單純使用單模型的各項指標(biāo)都要好,meta1在精度上比最高的RF提高了1%,對違約樣本識別的指標(biāo)上提高了1%。meta2為通過表3分析刪去LR的集成模型,meta(3-6)為通過貢獻(xiàn)度排序來進(jìn)行逐步刪除分類器的集成模型。
圖7是每個指標(biāo)的變化趨勢,Accuracy,Precision,F1與Specificity均是在meta3之后開始降低,說明在meta3模型組合時,整體精確度、特異度與穩(wěn)定性達(dá)到最高,而Recall與刪減前相比變化不大,說明對非違約樣本的識別沒有變化。在個人信用風(fēng)險評估中,更需要識別的是違約樣本,因此特異度指標(biāo)更值得考慮,最終以meta3組合作為最終模型,即以GBDT,RF,AdaBoost,XGBoost,LightGBM,KNN為基模型,LR為元模型構(gòu)建改進(jìn)BS-Stacking模型。
(a)Accuracy
(b)Precision
(c)F1-Score
(d)Recall
(e)Specificity
2.3.4Roc-Auc指標(biāo)說明
圖8是meta3堆疊模型在訓(xùn)練集上的測試效果。
圖8 模型的ROC曲線圖
圖8中,ROC曲線下的面積為0.8811,和第一層模型的6個分類器相比在表現(xiàn)最優(yōu),可以表明Stacking模型使用基模型組成新特征方式的分類性能要優(yōu)于單分類器,所提出的模型在個人信用風(fēng)險評估問題上分類效果精確且穩(wěn)定,可以更好的識別違約樣本。
個人信用風(fēng)險評估對于企業(yè)識別用戶風(fēng)險至關(guān)重要,能否準(zhǔn)確識別違約用戶對于社會經(jīng)濟(jì)發(fā)展具有重要的影響。本研究所用數(shù)據(jù)集由1000個樣本、24個特征組成,根據(jù)個人信用風(fēng)險數(shù)據(jù)特點對Borderline SMOTE-2算法進(jìn)行改進(jìn),在生成邊界區(qū)域樣本的基礎(chǔ)上對噪聲點進(jìn)行有針對性的去除,大大提高了預(yù)測性能,然后選用Stacking堆疊模型對處理后的數(shù)據(jù)進(jìn)行分類預(yù)測,整合八種有差異化的分類器形成一種新的集成框架,并創(chuàng)新性的使用了LR對基模型進(jìn)行貢獻(xiàn)度分析從而對個體學(xué)習(xí)器進(jìn)行篩選,得到最優(yōu)組合模型,使得集成模型性能達(dá)到最優(yōu)狀態(tài)。
實驗結(jié)果顯示,提出的模型準(zhǔn)確度為88.2%,ROC為88.1%,Recall為92.4%,F1為89%,各項指標(biāo)均有提升,特別是在對違約樣本的識別率上,所提出模型表現(xiàn)最好。試驗從多個角度證明了不平衡算法以及集成算法的有效性,也表明本算法在個人信用風(fēng)險評估上可以實現(xiàn)較高的精度與穩(wěn)健性。