張佳倩,李 偉,阮素梅
(安徽財(cái)經(jīng)大學(xué)金融學(xué)院,安徽蚌埠,233030)
隨著經(jīng)濟(jì)的發(fā)展,公眾對(duì)貸款的需求越來(lái)越大。央行數(shù)據(jù)顯示,截止2020年2月,全國(guó)總貸款量為1 630 709.2億元,其中大型商業(yè)銀行貸款總量為749 435.34億元;全國(guó)小型商業(yè)銀行的貸款總量為748 799.3億元,占全國(guó)總貸款量的91.8%。同比往期數(shù)據(jù),居民和企業(yè)的貸款需求呈大幅增長(zhǎng)、穩(wěn)步上升的趨勢(shì)。大量的貸款需求使得除了銀行、信用社等傳統(tǒng)的放貸機(jī)構(gòu),一些網(wǎng)絡(luò)借貸平臺(tái)也應(yīng)運(yùn)而生,如P2P,這種直接融資模式的誕生拓寬了傳統(tǒng)貸款渠道,彌補(bǔ)了新時(shí)代下傳統(tǒng)金融機(jī)構(gòu)的不足。
在這樣的背景下,仍有一部分公眾因?yàn)闆](méi)有信用記錄、記錄不全、資料有誤無(wú)法核實(shí)等而難以獲得貸款,從而被不可靠的放貸人利用。商業(yè)銀行是我國(guó)金融市場(chǎng)的主要放貸主體,貸款業(yè)務(wù)是其主要贏利手段和高風(fēng)險(xiǎn)項(xiàng)目之一。不良貸款率增加會(huì)導(dǎo)致銀行信用風(fēng)險(xiǎn)提高,每一筆貸款的風(fēng)險(xiǎn)控制情況最終會(huì)影響銀行營(yíng)運(yùn)、償付能力。因此,銀行必須建立一種有效機(jī)制提高對(duì)借款人按時(shí)還貸的預(yù)測(cè)能力,在有效降低不良貸款率和信用風(fēng)險(xiǎn)的基礎(chǔ)上為無(wú)信用記錄或記錄不足的人群提供貸款。
過(guò)去銀行等傳統(tǒng)金融業(yè)對(duì)貸款業(yè)務(wù)的評(píng)估主要依靠5C分類法和經(jīng)驗(yàn)判斷法,效率較低,且過(guò)于依賴審核人員的主觀判斷。因此,傳統(tǒng)的資信審查和風(fēng)控模式逐漸無(wú)法滿足日益增長(zhǎng)的龐大貸款需求。機(jī)器學(xué)習(xí)能夠在短時(shí)間內(nèi)對(duì)大量數(shù)據(jù)多次模擬訓(xùn)練達(dá)到理想效果。銀行等貸款機(jī)構(gòu)利用機(jī)器學(xué)習(xí)算法,結(jié)合借款人提交的信息和各種替代數(shù)據(jù)來(lái)預(yù)測(cè)客戶的還款能力,既可以為銀行構(gòu)建智能風(fēng)控模型,又可以為因征信信息不足等原因無(wú)法獲得貸款但實(shí)際具有還款能力的公眾提供便利。故本文選取Kaggle大賽中的Home Credit Default Risk中的樣本數(shù)據(jù)進(jìn)行研究,采用機(jī)器學(xué)習(xí)的方法,建立隨機(jī)森林、邏輯回歸、XGBoost和樸素貝葉斯等模型,分析樸素貝葉斯方法對(duì)貸款違約風(fēng)險(xiǎn)的預(yù)測(cè)準(zhǔn)確率是否更高,并進(jìn)一步分析幾種模型的優(yōu)劣。
貸款違約預(yù)測(cè)是業(yè)界長(zhǎng)期關(guān)注的重要問(wèn)題,已有眾多學(xué)者對(duì)此進(jìn)行研究,并將取得的理論模型應(yīng)用于銀行實(shí)踐。最初主要用傳統(tǒng)的統(tǒng)計(jì)類方法結(jié)合專家的個(gè)人經(jīng)驗(yàn)進(jìn)行預(yù)測(cè),20世紀(jì)80年代學(xué)者們對(duì)模型應(yīng)用的擴(kuò)展到新興的機(jī)器學(xué)習(xí)領(lǐng)域。
Malekipirbazari(2015)等將隨機(jī)森林模型運(yùn)用于信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域,結(jié)果表明該模型能夠有效識(shí)別違約貸款。[1]Guo等(2016)為了與已有的評(píng)級(jí)模型進(jìn)行比較,基于Logistic模型和核回歸模型建立貸款風(fēng)險(xiǎn)評(píng)級(jí)模型,結(jié)果表明改進(jìn)的模型能更準(zhǔn)確地評(píng)估出貸款風(fēng)險(xiǎn)。[2]劉開(kāi)元(2016)選用商業(yè)銀行汽車信貸數(shù)據(jù),建立隨機(jī)森林、邏輯回歸、決策樹(shù)和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行貸款違約預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示邏輯回歸模型表現(xiàn)最優(yōu)。[3]郭曉云(2017)為幫助P2P平臺(tái)辨別貸款風(fēng)險(xiǎn)得到最優(yōu)貸款組合,建立支持向量機(jī)模型對(duì)貸款樣本進(jìn)行分類。[4]阮素梅(2017)運(yùn)用P2P網(wǎng)貸數(shù)據(jù)建立支持向量機(jī)與決策樹(shù)模型,實(shí)驗(yàn)結(jié)果表明決策樹(shù)能獲得更高預(yù)測(cè)準(zhǔn)確率。[5]陳耀飛等(2017)通過(guò)對(duì)比Logistic回歸和GBDT等算法,發(fā)現(xiàn)XGBoost模型表現(xiàn)最優(yōu),不僅預(yù)測(cè)效果最好且訓(xùn)練速度最快。[6]舒揚(yáng)等(2017)選用Logistic模型和Probit模型在汽車貸款領(lǐng)域進(jìn)行違約預(yù)測(cè),結(jié)果顯示Logistic模型更適用于貸款違約預(yù)測(cè)。[7]涂艷等(2018)發(fā)現(xiàn)隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)算法用于P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)預(yù)警能有效識(shí)別高風(fēng)險(xiǎn)借款人。[8]Ma Xiaojun(2018)等分別建立LightGBM模型對(duì)貸款違約原因進(jìn)行分析,并建立貸款信用評(píng)級(jí)模型,發(fā)現(xiàn)LightGBM模型均有較好的表現(xiàn)[9-10]。Sing等人(2018)發(fā)現(xiàn)深度學(xué)習(xí)模型比傳統(tǒng)模型在風(fēng)險(xiǎn)評(píng)估方面更具優(yōu)勢(shì)。[11]李天陽(yáng)等(2020)在傳統(tǒng)的二分類Logistic模型上進(jìn)行改進(jìn),發(fā)現(xiàn)基于加權(quán)懲罰Logistic模型對(duì)于貸款違約預(yù)測(cè)起到重要作用。[12]張春杰(2020)選取Lending Club中97個(gè)特征變量構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的貸款違約預(yù)測(cè)模型,結(jié)果顯示卷積神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)模型評(píng)估更準(zhǔn)確。[13]陶艷麗(2020)引進(jìn)改進(jìn)的隨機(jī)森林模型,解決決策樹(shù)分類效果差的問(wèn)題,結(jié)果顯示改進(jìn)的隨機(jī)森林模型更適應(yīng)于個(gè)人信用評(píng)估。[14]
文獻(xiàn)研究發(fā)現(xiàn),機(jī)器學(xué)習(xí)模型在違約預(yù)測(cè)和風(fēng)險(xiǎn)評(píng)估方面,比傳統(tǒng)模型表現(xiàn)出更高的預(yù)測(cè)精度和穩(wěn)定性。但其中選用XGBoost、隨機(jī)森林、SVM和神經(jīng)網(wǎng)絡(luò)的較多,少有嘗試用貝葉斯模型來(lái)進(jìn)行違約預(yù)測(cè)或風(fēng)險(xiǎn)評(píng)估分類。因此,本研究建立隨機(jī)森林、邏輯回歸、XGBoost和樸素貝葉斯模型,比較不同算法在貸款違約預(yù)測(cè)領(lǐng)域的預(yù)測(cè)準(zhǔn)確率,探索樸素貝葉斯模型是否更優(yōu),并分析影響違約概率的因素。
1.數(shù)據(jù)來(lái)源
使用Home Credit提供的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),共有307 511個(gè)樣本??紤]到變量的重要性、相關(guān)性以及維數(shù)爆炸等因素,選擇70個(gè)變量,其中包括借款人貸款類型、性別、子女人數(shù)、收入狀況、貸款申請(qǐng)額、貸款年金、消費(fèi)貸款的商品實(shí)際價(jià)格、借款人收入類型、受教育情況、職務(wù)、年齡、聯(lián)系方式、婚姻狀況、居住狀況、居住地人口密集度、Home Credit對(duì)申請(qǐng)人居住區(qū)域的評(píng)分等級(jí)、借款人工作所屬組織類型、外部數(shù)據(jù)源(1、2、3)的標(biāo)準(zhǔn)化評(píng)分、借款人居住環(huán)境各項(xiàng)指標(biāo)的標(biāo)準(zhǔn)化評(píng)分等。其中借款人還款風(fēng)險(xiǎn)包括還款風(fēng)險(xiǎn)高和還款風(fēng)險(xiǎn)低兩類,這里將1視為未按時(shí)償還貸款,0視為按時(shí)償還貸款。樣本中部分主要變量分布情況如表1所示。
表1 描述性統(tǒng)計(jì)
2.數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要是對(duì)缺失值和異常值的處理使其能夠滿足建模要求。首先是缺失值,變量的缺失值占比超過(guò)60%,則對(duì)預(yù)測(cè)結(jié)果的精確度產(chǎn)生較大影響,考慮將這些變量刪除;占比低于60%的變量,如 EXT_SOURCE_2、EXT_SOURCE_3和 AMT_GOODS_PRICE等數(shù)值型變量,采用中位數(shù)對(duì)空缺值進(jìn)行補(bǔ)充,如OCCUPATION_TYPE、NAME_TYPE_SUITE屬于類別變量,則將缺失值定義為一個(gè)新的類別。由于現(xiàn)階段特征尚未構(gòu)建完畢,因此缺失值部分暫時(shí)只對(duì)變量維度的缺失情況進(jìn)行考察。異常值問(wèn)題是針對(duì)數(shù)值型數(shù)據(jù)的合理性,主要檢測(cè)數(shù)據(jù)是否存在邏輯錯(cuò)誤或特殊情況。觀察發(fā)現(xiàn)數(shù)值型變量DAYS_EMPLOYED出現(xiàn)異常,最大值為1 000年。嘗試對(duì)DAYS_EMPLOYED的異常值與非異常值總體違約情況進(jìn)行分析,發(fā)現(xiàn)異常和非異常值的違約率之比為1∶1.6,異常值對(duì)違約率沒(méi)有明顯影響。所以將異常值作為缺失值處理,采用中位數(shù)進(jìn)行填充,并定義新的一列告訴模型這些數(shù)據(jù)最初是異常的。
經(jīng)過(guò)以上處理,初步構(gòu)建了一個(gè)適合模型訓(xùn)練的數(shù)據(jù)集,但是由于各變量與目標(biāo)變量之間的相關(guān)性不同,變量預(yù)測(cè)能力參差不齊,采用相關(guān)性分析法對(duì)變量之間的關(guān)系進(jìn)行分析。在所選取的變量中,DAYS_BIRTH與目標(biāo)變量之間表現(xiàn)出最強(qiáng)的正相關(guān)性為0.078 2。為了方便觀察,DAYS_BIRTH除以365天換成Age表示(如圖1),發(fā)現(xiàn)隨著貸款申請(qǐng)人年齡的增長(zhǎng),其表現(xiàn)出的違約風(fēng)險(xiǎn)越低,年齡最小的三組的違約率高于1%,DAYS_BIRTH最大的組違約率低于0.5%,表明年輕借款人的違約傾向比年長(zhǎng)借款人高。
圖1 隨年齡增加貸款違約情況
根據(jù)相關(guān)性分析,與目標(biāo)的負(fù)相關(guān)性最強(qiáng)的三個(gè) 變 量 是 EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3。DAYS_BIRTH與EXT_SOURCE_1的相關(guān)系數(shù)為0.6,表現(xiàn)出較強(qiáng)的正相關(guān)性,說(shuō)明借款人年齡可能是該評(píng)分中的一個(gè)主要因素。為了嘗試提高模型的訓(xùn)練效果,采用特征組合方法,將EXT_SOURCE_1、EXT_SOURCE_2、EXT_SOURCE_3和DAYS_BIRTH四個(gè)變量進(jìn)行組合形成交互項(xiàng),采用3階為最高階數(shù)形成了35個(gè)新變量,發(fā)現(xiàn)與原始變量相比,形成的新組合變量表現(xiàn)出更強(qiáng)的相關(guān)性,相關(guān)系數(shù)為-0.193 9。在構(gòu)建模型時(shí),本文將嘗試使用和不使用這些新變量,以確定它們是否有助于模型學(xué)習(xí)。
為了使得到的模型訓(xùn)練效果方便進(jìn)行比較分析,本文選用AUC、準(zhǔn)確率和召回率來(lái)量化模型性能。
AUC是二分類模型使用的主要評(píng)測(cè)指標(biāo)之一,由接受者工作特征曲線(ROC)下的面積計(jì)算,可用于評(píng)估模型的整體能力。值通常在0.5到1之間,越大則分類器正確率越高。
準(zhǔn)確率(accuracy)是二分類問(wèn)題中的另一常用指標(biāo),是分類正確、錯(cuò)誤的樣本之和與總樣本數(shù)之比(混淆矩陣見(jiàn)表2),準(zhǔn)確率越高則模型預(yù)測(cè)越準(zhǔn)確,準(zhǔn)確率的公式見(jiàn)式(1):
表2 違約預(yù)測(cè)模型的混淆矩陣
召回率(recall)同樣經(jīng)常用于二分類問(wèn)題。召回率表現(xiàn)為分類器能預(yù)測(cè)準(zhǔn)確的正例數(shù)占實(shí)際正例數(shù)的多少,可理解為查全率。召回率越高則模型表現(xiàn)出更好的訓(xùn)練性能,其公式見(jiàn)式(2):
1.隨機(jī)森林模型(Random Forest)
隨機(jī)森林模型以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bag?ging集成,在訓(xùn)練過(guò)程中引入隨機(jī)屬性選擇。隨機(jī)森林模型中基學(xué)習(xí)器具有的多樣性來(lái)自樣本擾動(dòng)和屬性擾動(dòng),最終集成的泛化性能通過(guò)不同個(gè)體學(xué)習(xí)器之間差異的增加而提升,從而有效防止過(guò)擬合。其能夠處理很高維數(shù)據(jù)且訓(xùn)練速度很快,即使遺失大部分特征,仍可以維持較高的準(zhǔn)確率。
2.邏輯回歸模型(Logistic Regression)
邏輯回歸模型是最經(jīng)典的二分類模型,在線性分類問(wèn)題中應(yīng)用廣泛,對(duì)變量要求較低,具有廣泛的適應(yīng)性。邏輯回歸是一個(gè)條件概率模型,見(jiàn)下式:
其中x∈Rn是輸入,Y∈{0,1}是輸出,w∈Rn,w稱為權(quán)值向量。邏輯回歸根據(jù)式(3)和式(4)求出的結(jié)果,將樣本分到概率較大的類別。
3.XGBoost模型
XGBoost是Boosting算法的一個(gè)提升,以CART樹(shù)中的回歸樹(shù)作為基分類器,給定訓(xùn)練數(shù)據(jù)后其單個(gè)樹(shù)的結(jié)構(gòu)基本可以確定。XGBoost也是CART樹(shù)的一種加法模型,將t-1棵樹(shù)組合模型產(chǎn)生的誤差作為參考建立第t棵樹(shù),每加入一棵樹(shù)其損失函數(shù)不斷降低,可以通過(guò)特征的列采集防止過(guò)擬合。它的預(yù)測(cè)模型為:
損失函數(shù)為:
其中K為樹(shù)的總個(gè)數(shù),fk表示第k棵樹(shù),i表示樣本xi的預(yù)測(cè)結(jié)果,為樣本xi的訓(xùn)練誤差,Ω(fk)表示第k棵樹(shù)的正則項(xiàng)。Obj又稱結(jié)構(gòu)分?jǐn)?shù),是一個(gè)類似基尼系數(shù)的對(duì)樹(shù)結(jié)構(gòu)進(jìn)行打分的函數(shù),分?jǐn)?shù)越小代表樹(shù)的結(jié)構(gòu)越好。
4.高斯樸素貝葉斯(GaussianNB)
樸素貝葉斯模型是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,特點(diǎn)是結(jié)合先驗(yàn)概率和后驗(yàn)概率,避免只使用先驗(yàn)概率的主觀偏見(jiàn),也避免單獨(dú)使用樣本信息的過(guò)擬合現(xiàn)象,在樣本量較大的情況下與其他分類方法相比具有最小的誤差率。樸素貝葉斯的判定準(zhǔn)則為:
其中d為屬性數(shù)目,xi為x在第i個(gè)屬性上的取值,y={c1,c2,…,cN}表示N種可能的類別標(biāo)記。P(c)是先驗(yàn)概率,P(x|c)是類別c的條件概率。本文在這里選取高斯樸素貝葉斯分類器作為模型進(jìn)行訓(xùn)練,即P(xi,c)服從這樣的高斯分布,所以P(xi,c)的概率密度函數(shù)為:
其中μc,i和分別是第c類樣本在第i個(gè)屬性上取值的均值和方差。
在機(jī)器學(xué)習(xí)所有的分類算法中,樸素貝葉斯和其他絕大多數(shù)的分類算法不同。大多數(shù)的分類算法比如決策樹(shù)、邏輯回歸、支持向量機(jī)等都屬于判別方法,即直接學(xué)習(xí)出特征,輸出Y和特征X之間的關(guān)系,要么是決策函數(shù)Y=f(X),要么是條件分布P(Y|X)。但樸素貝葉斯是生成類方法,即直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出結(jié)果。故選用樸素貝葉斯建模,探索分析生成類算法是否比判別類算法表現(xiàn)更優(yōu)。樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不敏感,不僅算法簡(jiǎn)單,對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)較好,且能很好地處理分類任務(wù)。本文數(shù)據(jù)來(lái)源于Kaggle大賽,為不平衡數(shù)據(jù),為了減少其帶來(lái)的影響,選用貝葉斯中的高斯貝葉斯模型。高斯貝葉斯是用各個(gè)類別的樣本去極大似然估計(jì)出高斯分布的均值和方差,使模型訓(xùn)練準(zhǔn)確率受樣本影響較小。
學(xué)者曾將違約預(yù)測(cè)進(jìn)行研究探索時(shí)所用的方法分為兩大類:一類是普通的統(tǒng)計(jì)分類模型,如線性判別分析、Probit回歸、因子分析等;另一類是機(jī)器學(xué)習(xí)算法,如決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等。為了探索生成類模型樸素貝葉斯是否更適用于貸款違約預(yù)測(cè),選取隨機(jī)森林模型、邏輯回歸模型、XG?Boost模型與高斯樸素貝葉斯模型進(jìn)行對(duì)比分析。
首先嘗試在隨機(jī)森林模型的訓(xùn)練集中加入35個(gè)交互項(xiàng),根據(jù)模型的實(shí)證結(jié)果,發(fā)現(xiàn)隨機(jī)森林模型訓(xùn)練的AUC評(píng)分為0.678,而未加入交互項(xiàng)的隨機(jī)森林模型的訓(xùn)練結(jié)果的AUC評(píng)分為0.676,見(jiàn)表3。AUC的值越大,表明模型的擬合效果越好,根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),加入新變量未使模型的預(yù)測(cè)能力明顯提高?;谏衔姆治隹芍?,EXT_SOURCE_1和DAYS_BIRTH存在較強(qiáng)的正相關(guān)性,使得它們組成的交互項(xiàng)沒(méi)能給模型提供有意義的參考。
表3 新變量加入前后模型AUC評(píng)分
本文構(gòu)建了多個(gè)模型進(jìn)行對(duì)比,用AUC、準(zhǔn)確率和召回率作為評(píng)估標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估。根據(jù)上文所述,新變量對(duì)模型的擬合能力沒(méi)有明顯的改善,為了減少維數(shù)提高模型的擬合能力,以后的訓(xùn)練中不再加入新變量。根據(jù)實(shí)驗(yàn)結(jié)果,邏輯回歸模型訓(xùn)練的AUC評(píng)分為0.597,準(zhǔn)確率和召回率分別為0.623和0.109。與未加入新變量的隨機(jī)森林模型對(duì)比,邏輯回歸模型的AUC評(píng)分、準(zhǔn)確率和召回率都比隨機(jī)森林要低,其中準(zhǔn)確率表現(xiàn)出的差距最大,兩者相差0.276,說(shuō)明隨機(jī)森林模型比邏輯回歸模型表現(xiàn)出更優(yōu)的性能。
圖2 隨機(jī)森林模型的ROC曲線
圖3 邏輯回歸模型的ROC曲線
作為一個(gè)基于決策樹(shù)的梯度提升算法,XGBoost可以自動(dòng)補(bǔ)全缺失值并獲取特征重要性,從而有效地進(jìn)行特征的篩選,提高模型的擬合能力。通過(guò)實(shí)證結(jié)果(如圖4):EXT_SOURCE_2、EXT_SOURCE_3、EDUCATION_TYPE(受教育程度)、GENDER、IN?COME_TYPE(收入類型)、ORGANIZATION_TYPE(工作群體)、CONTRACT_TYPE(貸款類型)、EXT_SOURCE_1、FAMILY_STATUS(家庭情況)、FLAG_OWN(抵押品)等特征在預(yù)測(cè)借款人是否會(huì)產(chǎn)生違約行為中是最重要的,與日常生活經(jīng)驗(yàn)相符。由上文EXT_SOURCE_1、EXT_SOURCE_2和EXT_SOURCE_3是根據(jù)借款人的資料打出的標(biāo)準(zhǔn)化評(píng)分,評(píng)分越高,借款人越傾向于還貸。INCOME_TYPE、ORGANI?ZATION_TYPE和OCCUPATION_TYPE在一定程度上能反映借款人的財(cái)富積累情況,代表著其對(duì)貸款償還能力的大小。最終得到XGBoost模型的AUC評(píng)分為0.738,準(zhǔn)確率和召回率分別為0.668和0.154。
圖4 特征重要性排序
由前文的分析,已知借款人是否違約主要由INCOME、EXT_SOURCE_2、EXT_SOURCE_3、OC?CUPATION_TYPE等11個(gè)特征決定,其他特征也能產(chǎn)生一定影響,而組合成的35個(gè)交互項(xiàng)特征對(duì)模型預(yù)測(cè)優(yōu)化影響甚微。所以本文用高斯樸素貝葉斯分類器進(jìn)行模型訓(xùn)練時(shí),從數(shù)據(jù)源中剔除35個(gè)組合變量。根據(jù)實(shí)證結(jié)果,高斯樸素貝葉斯分類器擬合訓(xùn)練的AUC評(píng)分為0.605,準(zhǔn)確率和召回率分別為0.899和0.082。
圖5 XGBoost模型的ROC曲線
圖6 高斯樸素貝葉斯模型的ROC曲線
由表4可知,根據(jù)AUC評(píng)分來(lái)看,XGBoost模型表現(xiàn)最優(yōu),比評(píng)分最低的邏輯回歸模型高0.141。準(zhǔn)確率最高的模型是高斯樸素貝葉斯為0.899,最低的是邏輯回歸模型為0.623,樸素貝葉斯模型的準(zhǔn)確率提高了44.3%。XGBoost模型的召回率最高為0.154,高斯樸素貝葉斯模型的召回率最低為0.082。綜合四個(gè)模型的三個(gè)評(píng)估指標(biāo)結(jié)果,不難發(fā)現(xiàn)XGBoost模型在三個(gè)指標(biāo)評(píng)分中綜合表現(xiàn)最好,而高斯樸素貝葉斯模型雖然準(zhǔn)確率較高,但AUC和召回率相對(duì)較低。綜上,可以認(rèn)為高斯貝葉斯模型在貸款違約預(yù)測(cè)問(wèn)題上表現(xiàn)不是特別好。
表4 四種算法的訓(xùn)練結(jié)果對(duì)比
本文采用隨機(jī)森林模型、邏輯回歸模型、XG?Boost模型和高斯樸素貝葉斯模型,選用Home Credit提供的客戶數(shù)據(jù)進(jìn)行貸款違約預(yù)測(cè),并根據(jù)XG?Boost特征重要性排序結(jié)果,嘗試對(duì)違約原因進(jìn)行分析,發(fā)現(xiàn)除了EXT_SOURCE_2和EXT_SOURCE_3,對(duì)貸款違約影響最大的因素是借款人的性別、年齡、工作、家庭、受教育程度、收入狀況等??偨Y(jié)如下:
第一,研究結(jié)論對(duì)貸款違約預(yù)測(cè)的模型、特征的選擇有重要啟示。相比判別類模型,生成類模型高斯樸素貝葉斯沒(méi)有表現(xiàn)出更優(yōu)的預(yù)測(cè)能力。而作為樹(shù)模型的隨機(jī)森林和XGBoost相比表現(xiàn)更好。加入35個(gè)交互項(xiàng)未能使模型預(yù)測(cè)能力得到很大提升,在以后的實(shí)驗(yàn)中,可以不考慮這些變量,并采用樹(shù)模型對(duì)貸款違約預(yù)測(cè)做進(jìn)一步嘗試。
第二,研究結(jié)論對(duì)貸款業(yè)務(wù)發(fā)展有重要啟示。年長(zhǎng)、女性群體通常比年輕、男性群體更偏向于按時(shí)還貸,現(xiàn)實(shí)中年長(zhǎng)、女性群體更偏好風(fēng)險(xiǎn)規(guī)避,避免自身陷入財(cái)務(wù)危機(jī)。近年,女性群體的消費(fèi)能力逐漸提升,貸款機(jī)構(gòu)可根據(jù)女性消費(fèi)、風(fēng)險(xiǎn)特征推出專項(xiàng)消費(fèi)信貸。年輕群體雖更傾向于逾期還貸,但貸款機(jī)構(gòu)應(yīng)為其提供更多指導(dǎo)或財(cái)務(wù)計(jì)劃提示來(lái)幫助年輕客戶按時(shí)還貸,而不是拒絕放貸。
第三,研究結(jié)論對(duì)貸款審查項(xiàng)目有重要啟示。受教程度高、高薪職業(yè)群體誠(chéng)信意識(shí)更強(qiáng),高就業(yè)率、較強(qiáng)的專業(yè)技能和工作能力、高水平收入使其未來(lái)的收入更樂(lè)觀,為按時(shí)還貸提供了有力的資金支持。貸款機(jī)構(gòu)在進(jìn)行貸款資格審查時(shí)增強(qiáng)學(xué)歷學(xué)位影響因子占比,核驗(yàn)借款人真實(shí)學(xué)歷水平,能更有效地對(duì)借款人的違約概率進(jìn)行評(píng)估。
第四,研究結(jié)論對(duì)提高貸款違約預(yù)測(cè)準(zhǔn)確率有重要啟示。已婚、有子女貸款群體傾向于按時(shí)還貸,他們通常比未婚借款人更具穩(wěn)定性,有較為固定的居住、工作場(chǎng)所。且夫妻雙方均有收入,另一方無(wú)形充當(dāng)了擔(dān)保人角色。貸款機(jī)構(gòu)在對(duì)借款人進(jìn)行資格審查時(shí),可調(diào)研已婚借款人夫妻雙方的收入水平,從而更精準(zhǔn)地判斷借款人違約可能性。
長(zhǎng)春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2021年4期