亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不平衡數(shù)據(jù)的個人信貸違約測度探索

        2021-03-17 09:49:52
        關(guān)鍵詞:樣本預(yù)測指標(biāo)

        郭 暢

        (安徽大學(xué)經(jīng)濟學(xué)院,安徽 合肥 230601)

        0 引言

        信貸風(fēng)險一直是商業(yè)銀行不可避免的信用風(fēng)險之一,然而信用風(fēng)險管控對風(fēng)險評級模型有較高的要求,2019年來,隨著數(shù)字普惠金融模式“開放銀行+”的推進,帶來了個人、小微信貸業(yè)務(wù)的提升[1]。此時,隨著數(shù)據(jù)量的快速增多,如何對抗不平衡數(shù)據(jù)的弊端,建立更加精確的信用風(fēng)險違約預(yù)測模型,降低商業(yè)銀行所遭受的客戶信貸風(fēng)險,在當(dāng)今金融科技浪潮下更凸顯其重要意義。信貸違約預(yù)測的目標(biāo)是提前預(yù)知哪些客戶更傾向于違約。然而違約事件的發(fā)生是少數(shù)的,收集到的信貸數(shù)據(jù)往往呈現(xiàn)出正負(fù)樣本分布不平衡的結(jié)構(gòu)。常用的機器學(xué)習(xí)算法往往建立在訓(xùn)練集各個類別數(shù)目分布比例大致均等的假設(shè)上[2-3],而在非平衡數(shù)據(jù)集中的表現(xiàn)一般較差。因此,如何處理不平衡的信貸數(shù)據(jù)集對風(fēng)控模型精度的提升顯得尤為重要。

        隨著人工智能第三次浪潮來襲,以神經(jīng)網(wǎng)絡(luò)、支持向量機和集成方法為首的機器學(xué)習(xí)算法越來越多地涌入信用風(fēng)險評估領(lǐng)域。陳力[4]通過綜合不同的采樣方法,并結(jié)合集成學(xué)習(xí)算法和模型評價指標(biāo)構(gòu)建新的算法模型RHSBoost,將“數(shù)據(jù)”和“算法”兩個方面結(jié)合來對銀行信用評級的不同數(shù)據(jù)集進行分類預(yù)測并得到了不錯的效果。古平等[5]在結(jié)合“數(shù)據(jù)”和“算法”的層面上提出AdaBoost-SVM-MSA算法,按照一定規(guī)則將SVM分錯的樣本劃分為噪聲樣本、危險樣本、安全樣本三種類型,然后直接刪除噪聲樣本,取安全樣本進行SMOTE過采樣,顯著提高了模型分類準(zhǔn)確率。董路安等[6]在文獻[5]的基礎(chǔ)上,運用“安全樣本”消除噪聲干擾,并將Weight-SMOTE方法應(yīng)用于決策樹模型中,提升了信用評級模型的可解釋性,但對正負(fù)樣本均進行同原數(shù)據(jù)比例的SMOTE抽樣卻忽略了信用評估數(shù)據(jù)的不平衡結(jié)構(gòu)。李毅等[9]分別采取過采樣[7]、欠采樣[7]、SMOTE人工合成[8]的三種方法得到三個數(shù)據(jù)集,對處理后的三個數(shù)據(jù)集分別建立三個機器學(xué)習(xí)模型,并與未處理數(shù)據(jù)的三種模型結(jié)果進行對比試驗,得出過采樣結(jié)合隨機森林模型評估的結(jié)果高于其他模型。陳啟偉等[10]從欠抽樣方法入手,從多數(shù)類樣本中反復(fù)抽取和少數(shù)類樣本量已知的樣本組成多個子數(shù)據(jù)集,對多個數(shù)據(jù)子集建立模型并采用簡單平均集成得到較好的預(yù)測性能。然而,文獻[7-9]未討論現(xiàn)有欠抽樣方法上的改進效果,文獻[10]未從子模型個數(shù)和模型評價效果方面進行研究。

        結(jié)合上述文獻的不足,本文同時從“數(shù)據(jù)”的修正和“算法”的改進入手,選擇UCI真實業(yè)務(wù)場景的30 000條記錄23個指標(biāo)的臺灣客戶信用卡信貸數(shù)據(jù),將“數(shù)據(jù)”和“算法”兩個層面改進的Batch-US-RF集成模型、Batch-US-Xgboost集成模型與Batch-US處理后的單模型、未經(jīng)Batch-US處理的單個集成模型,與單模型進行對比,并研究模型在不平衡信用卡信貸數(shù)據(jù)上的違約預(yù)測效果。

        1 方法與模型

        1.1 Batch-US-集成模型

        批量欠采樣(Batch-US)是基于隨機欠采樣(random under sample)方法造成的多數(shù)類樣本信息缺失的改進,它對多數(shù)類樣本采取多次欠采樣,再和少數(shù)類樣本組合成一系列新樣本,來消除由于信息缺失帶來的分類器分類效果不穩(wěn)定的缺陷。首先,使用欠采樣將多數(shù)類樣本劃分為多個部分,其中每部分與少數(shù)類樣本數(shù)相同;接著,將這些數(shù)據(jù)和所有少數(shù)類樣本組成新的子集;然后,對不同的訓(xùn)練子集建立差異化的集成模型;最后,將每折交叉驗證的預(yù)測集預(yù)測其概率并進行簡單算數(shù)平均后再組合。算法的整體結(jié)構(gòu)見圖1所示,其中本文訓(xùn)練的子模型分別選擇隨機森林和Xgboost,將所有子模型的輸出概率的平均作為分類結(jié)果輸出。

        輸入: 數(shù)據(jù)集D={(xi,yi),i=1,2,…,N,yi∈{0,1}}。0類(多數(shù)類)樣本數(shù)記為Nm,1類(稀有類)樣本數(shù)記為Ns,有Nm+Ns=N。

        算法步驟:

        1)將數(shù)據(jù)集D中的0類樣本和1類樣本分別記為Sm和Ss,k=ceil(Sm/Ss)進一取整;

        2)forj=1,2,…,k,do;

        3) 從1~(Ns-i+1)中隨機抽樣,取出對應(yīng)序號的樣本x′;

        4) 在類0樣本中取出所選樣本Ss=Ss-x′;

        5) 隨機欠采樣后的數(shù)據(jù)集{Dj′=(xi,yi),i=1,2,…,N-Ss·RS/(RS+1),j=1,2,…,k,yi∈{0,1}},RS表示采樣比率;

        6) 對每個Dj′訓(xùn)練一個子模型,記hj(x);

        7)end for;

        1.2 子模型確定

        1.2.1 隨機森林模型

        集成學(xué)習(xí)模型有兩個重要的方面——基于Bagging的集成模型和基于Boosting的集成模型?;贐agging的集成模型是將多個有差異的分類器取平均,能夠解決一定程度上的模型不穩(wěn)定問題。隨機森林(random forest,RF)作為典型的Bagging類模型,可和采樣技術(shù)結(jié)合被用于解決類不平衡問題。本文就是利用樣本采樣技術(shù)構(gòu)造平衡隨機森林[11],并對隨機森林的預(yù)測結(jié)果再次組合。

        隨機森林是基于Bagging的集成學(xué)習(xí)方法,它采用bootstrap自助抽樣從數(shù)據(jù)集中抽取多個子樣本,對抽樣后的子樣本分別建立具有差異性的CART決策樹模型(每個模型隨機選取m個特征,本文選擇使模型誤差最小的m),最后對每個分類器的預(yù)測結(jié)果進行組合,組合方法采用多數(shù)表決(投票法),算法的流程如圖2所示。

        1.2.2 極限梯度提升模型

        基于Boosting的集成模型Xgboost[12]使用貪心算法和加法模型,每次構(gòu)建一個當(dāng)下最優(yōu)的樹模型,將所有樹模型的最終結(jié)果求和作為最終的預(yù)測結(jié)果。其優(yōu)點在于GBDT算法的求解采用了二階梯度,并加入了正則化項,由于樹模型容易過擬和,因此通過同時控制模型損失函數(shù)和模型復(fù)雜度得到更優(yōu)結(jié)果。模型的原理和推導(dǎo)見文獻[10]。當(dāng)基模型同樣選擇樹模型時算法的流程如圖3所示。

        2 研究設(shè)計

        2.1 指標(biāo)類型

        本文數(shù)據(jù)源于UCI機器學(xué)習(xí)網(wǎng)站(http://archive.ics.uci.edu/)公布的臺灣客戶信用卡信貸數(shù)據(jù)集,3萬條樣本數(shù)據(jù)包括來自三個方面用戶信息的23個指標(biāo)數(shù)據(jù)。其中:正??蛻粽紨?shù)據(jù)的77.88%,違約客戶占22.12%;人口統(tǒng)計學(xué)特征的用戶基本屬性信息指標(biāo)包括性別、年齡、教育程度、婚姻狀況等4個變量;金融特征的借貸相關(guān)信息指標(biāo)包括月還款情況、月賬單、月支付金額等19個字段。由于數(shù)據(jù)存在錯誤值和離群值。對數(shù)據(jù)進行簡單預(yù)處理后,具體的數(shù)據(jù)說明見表1。

        表1 變量說明表

        續(xù)表

        2.2 模型建立與評價

        2.2.1 評價指標(biāo)

        對于本文正負(fù)樣本比例約3.5∶1的不均衡的數(shù)據(jù)集,傳統(tǒng)的基于準(zhǔn)確率的模型評價指標(biāo)已經(jīng)不再適用[13-14]?;诖?,本文選取F1指標(biāo)和ROC曲線下面積AUC來評價模型的預(yù)測精度,用KS值(kolmogorov smirnov)[15]檢測實際風(fēng)控模型的好壞。KS取值越接近1則模型區(qū)分度越高,預(yù)測能力越強。模型評價指標(biāo)由表2混淆矩陣計算得出,指標(biāo)計算公式為:查準(zhǔn)率P=NTP/(WTP+NFP);查全率R=NTP/(NTP+NFN);F1=2×precision×recall/(precison+recall)。

        表2 二分類結(jié)果混淆矩陣Tab.2 Confusion matrix of classification results真實情況Actual預(yù)測結(jié)果Predict0類Class 01類Class 10類Class 0TN(正負(fù)例)FP(假正例)1類 Class 1FN(假負(fù)例)TP(真正例)

        2.2.2 模型建立和評估

        由表1變量說明可見,本文選用的客戶信用卡信貸數(shù)據(jù)間量綱差別較大,需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理。本文為了更好地進行模型評估,增強模型穩(wěn)定性,對每個模型分別進行5折交叉驗證(模型如表3所示)。對于本文不平衡的信用卡信貸數(shù)據(jù),經(jīng)閾值調(diào)優(yōu),對未經(jīng)平衡處理的數(shù)據(jù)閾值設(shè)定為0.45,處理后的數(shù)據(jù)閾值設(shè)定為0.55。

        表3 模型類型及名稱Tab.3 Model type and name模型類型Model type模型名稱Model name單模型Single modelDTLRKNN單個集成模型Single ensemble modelRFXgboost單模型Batch-US-集成Single model Batch-US-EnsembleBatch-US-DTBatch-US-KNNBatch-US-LR集成模型Batch-US-集成Ensemble model Batch-US-EnsembleBatch-US-RFBatch-US-Xgboost

        由于樹模型容易過擬和,本文對選擇的每個樹模型進行參數(shù)調(diào)優(yōu)(見表4),并在Batch-US模型集成過程的Rstudio中構(gòu)建ovun.sample隨機欠采樣函數(shù),通過設(shè)置seed隨機種子的不同,對每一折交叉驗證數(shù)據(jù)構(gòu)建多個隨機欠采樣子樣本,得到多個平衡子樣本,再加上參數(shù)調(diào)節(jié),使每個子模型更具差異性,從而增加集成模型的泛化能力。其中對Batch-US改進的模型分別構(gòu)建10個差異性的子模型。

        表4 樹模型調(diào)優(yōu)參數(shù)及范圍

        本文對文獻[10]中的評價指標(biāo)進行改進,基于準(zhǔn)確率對不平衡數(shù)據(jù)的缺陷,選擇用F1值衡量模型精度,用AUC值評估模型的優(yōu)劣,用KS值衡量模型的穩(wěn)健性和風(fēng)控能力。將10個模型經(jīng)五折交叉驗證后的預(yù)測指標(biāo)平均,匯總至表5。

        表5 模型結(jié)果匯總

        由表5模型結(jié)果可知,不管是單模型還是集成模型,在通過本文的Batch-US批量欠采樣集成后,在F1值、AUC值和KS值3個評價指標(biāo)上都有明顯的提升。在本身就較優(yōu)的集成模型上更能進一步提升模型的表現(xiàn)能力。Batch-US-RF模型的F1值、AUC值和KS值分別比改進前提高了3.57%、1.29%、1.61%;Batch-US-Xgboost模型的F1值、AUC值和KS值分別比改進前提高了7.11%、0.4%、0.66%。Batch-US-集成模型的精度衡量指標(biāo)F1值和AUC值都是10個模型中最優(yōu)的,并且觀察其區(qū)分度指標(biāo)KS值也大于0.4且排名在10個模型中前三,說明模型風(fēng)控能力較好。

        表5評價指標(biāo)結(jié)果均為本模型數(shù)量選擇k=10的結(jié)果。為了進一步研究子模型數(shù)量是否對模型精度造成影響,本文將兩個Batch-US-集成模型通過設(shè)定子模型數(shù)量k為10,20,…,110時的模型評價效果繪制學(xué)習(xí)曲線,如圖4、圖5所示。

        由圖4、圖5可知,Batch-US-Xgboost模型通過增加子模型數(shù)量,其F1值和AUC值在一開始的確有一個上升幅度,但是隨著模型不斷增多,這三個評價指標(biāo)均先趨于穩(wěn)定而后隨子模型個數(shù)上升甚至出現(xiàn)輕微下降趨勢。Batch-US-RF模型通過增加子模型數(shù)量,其AUC值在一開始的確有一個上升幅度,但是隨著子模型不斷增多AUC值趨于穩(wěn)定;其F1值在前60個模型的整體趨勢不斷上升,但是在60個子模型后圍繞一個固定值波動(認(rèn)為其趨于穩(wěn)定)。因此,子模型數(shù)量并非越多越好,兩個Batch-US-集成模型的子模型數(shù)量在60個左右能夠取得AUC和F1指標(biāo)的較優(yōu)和模型較穩(wěn)定的結(jié)果。

        3 結(jié)論

        本文使用UCI臺灣客戶信用卡信貸數(shù)據(jù),分別對數(shù)據(jù)進行單模型、集成模型和Batch-US處理后建模。由表5可以看出,基于欠采樣改進的Batch-US-集成模型的建模結(jié)果明顯優(yōu)于處理之前的數(shù)據(jù)建模結(jié)果。由于在風(fēng)控模型中千分之一的精度改變帶來的影響也是巨大的,對不平衡數(shù)據(jù)的處理具有較大意義,本文進行Batch-US集成后模型的確提升了模型預(yù)測效果,且Batch-US-集成模型總能表現(xiàn)出更好結(jié)果。

        該系列模型從“數(shù)據(jù)”層面使用批量欠采樣處理修正了隨機欠采樣的弊端,從“算法”層面對多個模型采用簡單平均集成增加了分類器的穩(wěn)定性。通過實證分析,結(jié)合模型評價指標(biāo),驗證了Batch-US-RF和Batch-US-Xgboost模型不管從模型精度、綜合效果方面還是從實際風(fēng)控效果方面都具有較高的表現(xiàn)能力,尤以Batch-US-Xgboost模型有效性和精度最高。本文通過繪制不同子模型個數(shù)和模型評價指標(biāo)的學(xué)習(xí)曲線,得出結(jié)論:對于Batch-US-集成模型并非子模型數(shù)量越多越好,子模型的數(shù)量可以根據(jù)模型復(fù)雜度和不同評價指標(biāo)的傾向性進行選擇。

        猜你喜歡
        樣本預(yù)測指標(biāo)
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        用樣本估計總體復(fù)習(xí)點撥
        最新引用指標(biāo)
        莫讓指標(biāo)改變初衷
        商周刊(2018年26期)2018-12-29 12:56:00
        推動醫(yī)改的“直銷樣本”
        不必預(yù)測未來,只需把握現(xiàn)在
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        亚洲中文字幕日产喷水| 亚洲 另类 日韩 制服 无码| 爽爽午夜影视窝窝看片| 青草青草伊人精品视频| 国产91中文| 性色av成人精品久久| 成人免费av色资源日日| 国产69精品久久久久777| 国产偷窥熟女精品视频| 国产内射视频在线播放| 24小时在线免费av| 中文字幕日韩人妻不卡一区| 欧美激情αv一区二区三区| 人妻熟女中文字幕在线视频 | av人摸人人人澡人人超碰妓女| 日韩中文网| 成人激情视频一区二区三区 | 国产AV无码专区久久精品网站| 偷拍激情视频一区二区| 国产精品网站91九色| 被黑人猛躁10次高潮视频| 亚洲AV无码国产永久播放蜜芽| 极品新娘高清在线观看| 永久免费毛片在线播放| 欧美第一黄网免费网站| 亚洲国产日韩欧美高清片a| 亚洲女厕偷拍一区二区| 久久久久久久波多野结衣高潮| 在线欧美不卡| 国产青春草在线观看视频| 色综合久久蜜芽国产精品| 中文字幕人妻丝袜美腿乱| 亚洲一区二区情侣| 蜜桃视频在线观看网址| 最近在线更新8中文字幕免费| 国产精品亚洲片夜色在线 | 中文字幕亚洲精品第1页| 女主播国产专区在线观看| 正在播放老肥熟妇露脸| 久热这里只有精品99国产| 亚洲伊人伊成久久人综合|