◎司孟慧 郭威 陳傳龍
信貸市場上存在嚴重的信息不對稱問題,由于借貸雙方信息不流通,商業(yè)銀行等借貸機構難以真正掌控申請用戶的全部有用信息。為了有效降低信用卡風險,一方面需要完善用戶的個人信息,另一方面需要建立一套完善的信用評級體系,以有效管理信息不對稱引發(fā)的信用卡風險,克服對用戶信用的主觀臆斷,提升信用卡事前風險識別和事中風險管理能力。許多國家在2008年國際金融危機后相繼加強了對金融風險的管控,而信用風險是金融風險的主要部分,因此加強信用風險管理研究成為各國防范系統(tǒng)性金融風險的重要舉措(李衛(wèi)娥,2020)。
當前與信用卡違約風險有關的文獻主要集中在兩個方面:一是研究信用卡的影響因素。一些學者側重分析持卡人的個人特征、家庭特征及信用卡消費狀況等因素對信用卡違約的影響。如宋紅敏、范杰(2015)使用Logistic回歸模型分析了信用卡的申請使用是否受性別和年齡、受教育程度、收入、家庭負擔和社會保障等因素影響。張曉紅等(2017)利用非參數Kruskal Wallis檢驗方法研究了性別、年齡、受教育程度和收入等因素對信用卡使用情況的影響。吳錕、吳衛(wèi)星(2018)基于Probit模型和IV Probit模型在控制戶主年齡、學歷、家庭凈財富、收入、住房等變量后,分析了金融素養(yǎng)對使用信用卡的影響,得出金融素養(yǎng)水平同居民家庭使用信用卡成正相關的結論?;蒌J、郭華世(2019)通過建立VAR模型,分析了主要宏觀經濟指標對我國商業(yè)銀行信用風險的影響。
二是研究信用卡違約的影響因素以及對違約風險的評估或預測。在信用卡違約的影響因素方面,Li et al.(2019)使用COX比例風險模型,研究了中國信用卡用戶的多樣性、獨立性和社會因素對信用卡違約的影響,發(fā)現信用卡違約與信用卡用戶收入的多少無關,而與收入的穩(wěn)定性顯著相關。劉陽、張雨涵(2020)采用Probit模型在控制戶主特征變量、家庭特征變量及宏觀經濟變量后,研究了居民金融素養(yǎng)水平對信用卡違約的影響。在對信用卡違約風險進行評估或預測方面,葛君(2010)利用因子分析方法選取了變量,使用Logistic回歸方法對信用卡違約風險進行了預測。方匡南等(2010)采用基尼法判斷重要變量,使用隨機森林方法建立了信用卡違約風險預測模型,并與Logistic方法、支持向量機、分類回歸樹進行比較,結果發(fā)現隨機森林方法的預測準確率較高。方匡南等(2014)引入了能夠進行變量選擇和參數估計的Lasso-logistic降維方法建立了信用卡違約風險預測模型,在比較其他logistic方法后發(fā)現Lasso-logistic方法預測精度較高。劉銘等(2017)在考慮變量實際意義和相關性分析的基礎上選取指標,分別基于改進的神經網絡、傳統(tǒng)神經網絡、支持向量機和分類決策樹法建立了信用卡用戶違約預測模型,比較后發(fā)現改進的神經網絡法準確率較高。
綜上所述,要對信用卡違約風險進行準確預測,重要的是選取具有高關聯度的變量去構建科學準確的信用評級指標體系,并選擇有效的方法建立預測模型。構建有效的信用評級指標體系,關鍵是要識別出核心變量。建立預測模型則要注重模型外推預測效果,選用模型時充分考慮到模型之間的互補性,嘗試采用構建組合模型對信用卡違約風險進行預測。本文主要貢獻在于:第一,構建基于互補性的Lasso-GBDT組合式信用評級模型,并測算出高準確率的客戶違約結果;第二,引入具有懲罰項的Ridge Regression、Lasso Regression和Elastic net Regression方法對變量進行篩選,既可以解決多重共線性的過度擬合問題,又可以減輕算法計算難度(上述方法具有篩選變量的功能)。
本文構建能夠進行變量篩選和信用風險預測的組合模型,引入帶有懲罰項的Ridge Regression、Lasso Regression和Elastic net Regression三個模型實現變量初步篩選,并在此基礎上構建GBDT信用評級模型。
因變量個人信用卡是二元離散變量,需要首先構建logistic線性回歸表達式。假設有獨立同分布的觀測值(xi,yi),i=1,2,3…,n,其中xi=(xi1,…xip)和yi分別是解釋變量和被解釋變量。則logistic線性回歸方程的條件概率為:
式子(4)和(5)通過引入不同的懲罰項(L1和L2范數正則化)實現對影響信用卡違約率的變量進行篩選,以剔除不必要的變量。前者通過懲罰項實現系數壓縮,系數不會壓縮到0(Tibshirani R et al.,2004);后者能夠在回歸系數的絕對值之和小于常數的約束條件下最小化殘差平方和,從而使得某些變量的系數為0。式子(6)中,當2=0時,Elastic net Regression方法即為Ridge Regression方法;當2=1時,Elastic net Regression方法即為Lasso Regression方法。Elastic net回歸方法的2介于0和1之間。
在上一步基礎之上構建的GBDT模型具有適合低維數據、調參時間短、預測率高等特點。GBDT由Friedman(2001)首先提出,是一種基于梯度提升集成決策樹的非線性模型,用損失函數負梯度來擬合本輪損失近似值。即通過梯度提升讓每一次迭代都在減少殘差方向建立一個決策樹,以增加預測精確性。在GBDT迭代中,假設前一輪得到的強學習器是fm-1(X),損失函數是L(y,fm-1(X)),此輪迭代目標就是找到一個弱學習器hm(X),使得損失函數即L(y,fm(x))=L(y,fm-1(X)+hm(X))最小。GBDT的分類損失函數為:
如果達到迭代次數或誤差達到閾值,即返回fM(x),然后得出預測概率值,并根據概率閾值將其歸到相應的類別。通過以上迭代過程,即使用二元類別預測概率值和真實概率值的差來擬合損失,不斷地接近真實的信用卡違約概率值,達到準確預測個人信用卡違約的目的。
本文數據來源于2020年我國某大型商業(yè)銀行的信用卡部,共有39923筆信用卡信貸數據,數據中的客戶違約有7218筆,而非違約有1957筆。由于文章缺失數據比例較低,因而將缺失值與異常值所在行進行刪除。教育程度和學位兩個變量數據缺失嚴重,將以上兩列數據予以刪除。解釋變量中包含性別二元離散數據變量及多個連續(xù)型數據變量,考慮到不同連續(xù)型數值變量單位各有不同,本文對所有數值變量進行均值中心化和方差規(guī)?;葮藴驶幚?,使得模型參數估計系數具有可比性。具體特征如表1所示。
表1 變量說明
表2 Elastic Net Regression 模型RMSE 值
選擇合適的信用評級指標體系是建模的基礎。由于存在的冗余變量并不能幫助我們有效預測信用風險,反而測算結果可能由于變量間的自相關性等影響模型效果。選取合適的解釋變量作為信用評級指標體系有助于銀行體系信用卡發(fā)卡銀行的審核和重點監(jiān)控。為了識別對因變量有用的特征、提升模型預測準確率,本文首先對所選用的39個特征變量運用Frank(1993)的Ridge Regression、Tibshirani(1996)的Lasso Regression和Hui&Hastie(2005)提出的Elastic Net Regression模型三種方法進行特征選擇,即調用R軟件分別對式子(4)、(5)和(6)進行參數估計。
圖1 三種模型下的系數路徑圖
圖2 三種模型下的交叉驗證結果圖
變量篩選模型中,三個模型控制高相關性數據的懲罰參數α取值有所不同,Ridge Regression和Lasso Regression模型α值固定為0和1,而Elastic Net Regression模型α值介于0和1之間。因此,為更好地選取Elastic Net Regression模型,我們通過對比0.1~0.9這9個不同α值下的RMSE,RMSE值越小,則模型的預測能力越強。通過選取最小的RMSE值所對應的α值可以確定Elastic Net Regression模型,具體的測算結果如表2所示。
通過表2的結果可知,當α值為0.9時,Elastic Net Regression模型的RMSE值最小,為80.98122。我們選擇的Elastic Net Regression模型懲罰參數α取值為0.9。本文將使用懲罰參數各為0、1和0.9的Ridge Regression、Lasso Regression和Elastic Net Regression三種模型對數據進行變量篩選,其系數路徑和交叉驗證結果分別如圖1、圖2所示。
圖1-(a)、圖1-(b)和圖1-(c) 縱坐標是所選擇變量的系數值,分別為Ridge Regression模型、Lasso Regression模型和Elastic Net Regression模型的選擇路徑圖,隨著橫坐標λ值的不斷增大,其對系數的壓縮程度越大,模型篩選掉的變量就越多,因而圖1中3個子圖上側的變量數目也越來越少。從三個模型的系數路徑圖可知,39個特征變量被選擇留在模型中的數目越來越少,特征變量按照重要性程度依次被選擇到模型中,最先進入模型中的變量具有較強的預測能力,表示其違約概率估計的影響越大。
表3 變量選擇和參數估計結果
本文采用交叉驗證的方法選擇最為適合的參數λ,以提高模型的穩(wěn)健性。Ridge Regression、Lasso Regression和Elastic Net Regression模 型的交叉驗證結果如圖2-(a)、圖2-(b)和圖2-(c)所示,與圖1三個子圖一一對應,圖2三個子圖中橫坐標為λ取值,縱坐標為交叉驗證的誤差平方和。圖2中三個子圖都有兩條垂直虛線,左側虛線為lambda.min,是給出最小平均交叉驗證誤差的λ值,右側虛線為是lambda.1se,該虛線與橫坐標交叉的λ值給出了模型,使得誤差在最小值的一個標準誤差以內,同時也是一個方差范圍內得到最簡單模型的那一個λ值。Tibshirani(1996)認為,λ估計值在左右兩側虛線區(qū)間內模型預測偏差變動幅度相對較小,一般建議選取使模型相對簡潔的λ值。我們利用廣義交叉驗證直接選擇使模型誤差較小且相對簡潔的λ值,即lambda.lse所對應的λ值。根據R運行結果,Ridge Regression模型、Lasso Regression模型和Elastic Net Regression模型選取的λ值分別為0.0905、0.0045和0.0038,圖2三個子圖中l(wèi)ambda.lse值從左至右依次為lnλ1=-2.4025、lnλ2=-5.4028和lnλ3=-5.5766。此時R語言運行結果顯示,Ridge Regression模型并未刪除任何特征變量,選取的變量數目為39個,而Lasso Regression模型將16個冗余變量進行刪除,篩選出的變量為23個,Elastic Net模型的變量篩選數目介于以上兩模型中間,為27個變量。以上三種模型在實現變量篩選的同時,也對變量系數進行了測算,為了更便于三種模型之間的橫向對比,現將三種模型的初步變量篩選結果進行系數估計,如表3所示。
由結果可知,信用卡信用違約概率中具有重要解釋作用的特征變量均被列入模型中。變量X28、X23、X29、X35和X18在Ridge Regression模型中是影響信用卡違約概率測算的重要變量,而在Lasso Regression模型中, 變 量X28、X18、X29、X30和X21是影響信用卡信用風險的五個 重 要 變 量,X18、X21、X28、X29、X30等5 個 變 量 對Elastic Net Regression模型來說較為重要。可以看出變量X28對三個模型的影響最為重要。接下來,基于三個模型變量篩選的結果來測算三個模型的RMSE值,該值越小則說明模型的預測能力越強,對比結果如表4所示。
Lasso Regression模型的均方根誤差最小,因此在接下來的建模過程中,我們將使用該模型篩選出的特征變量進行測算。
表4 三種模型預測能力對比
圖3 RF變量重要度排序
圖4 GBDT變量重要程度排序
表5 模型組合的指標體系
表6 準確率和AUC 測算結果
在信用卡信用評級模型確定之前,有必要選擇合適的信用評級指標體系。上文中Lasso Regression模型已經篩選出與因變量相關的23個特征變量,為進一步對比變量重要性,利用構建的GBDT模型對23個特征變量的重要性進行排序和分析,使用RF模型作為對比,變量排序結果如圖3和圖4所示。
通過對比圖3和圖4的結果,可知23個特征變量在RF和GBDT兩個模型變量選擇結果中存在差異。持有信用卡天數對兩個模型來說是最重要的特征變量,年齡在RF模型中的重要程度排名第二,而在GBDT模型中卻并不是特別重要的特征變量,從用戶是否有工商標識在兩個模型測算結果的排名中可以看出,該特征變量對用戶違約率影響程度不大?;橐鰻顩r在RF中對信用卡評級的影響較大;但在GBDT模型中,該特征變量卻對信用違約率影響較小,該模型的研究結果與Chen et al.(2009)的研究結果一致。而兩個模型對學歷的研究結果與Din&Kleimeie(2007)在越南學歷和信用風險的關系研究結果存在差異,本文構建RF和GBDT模型的結果顯示學歷對信用違約率存在一定影響,而Din&Kleimeie(2007)則認為學歷對信用違約率并沒有顯著性影響。為了找出重要變量,縮減無關變量是統(tǒng)計分析中的常規(guī)做法。為了更好對比RF與GBDT兩個模型違約率準確度,我們將選擇對模型重要程度超過0.01的特征變量分別進行模型測算,兩組模型變量確定的指標體系如表5所示。
RF以17個重要特征變量作為輸入變量建立信用評級模型,GBDT將輸入前20個特征變量建立信用評級模型。當前我們的總體數據具有不平衡性,測算前需要對數據進行隨機過采樣處理。為了驗證模型的準確率預測能力,將樣本數據集劃分為訓練和測試集,訓練集用于建模,測試集用于驗證模型測算準確率。將訓練和測試集分別劃分為9:1、8:2、7:3、6:4和5:5以確定最優(yōu)劃分比例。構建一個分類器,需要選擇評價標準對分類器的性能進行評估(李艷霞等,2019)。選擇常規(guī)的準確率評價標準對分類模型性能進行評估,表6為Lasso-RF和Lasso-GBDT組合模型的準確率和AUC測算結果。
從表6的結果可以看出,Lasso-RF組合模型在訓練和測試集劃分比例分別為9:1、8:2、7:3、6:4和5:5的預測結果中,訓練集AUC預測都超過了99%,比例為9:1的測試集預測結果在三者中最高,AUC值為66.3%。Lasso-GBDT組合模型中,比例為9:1的測試集預測的AUC值最高。Lasso-RF和Lasso-GBDT兩組模型在訓練和測試集劃分比例為9:1的測試集預測結果最優(yōu)。從表6的結果可以看出,RF的訓練和測試集預測結果差距超過20%,Lasso-GBDT的訓練和測試集預測結果差距雖然小于Lasso-RF模型,但也存在一定差距??紤]到RF和GBDT模型會存在過度擬合問題,接下來對兩組模型預測結果最優(yōu)的9:1訓練和測試集劃分比例進行調參處理。
調參方式為隨機、網格和貝葉斯調參。為使泛化誤差達到最低點以獲得最優(yōu)預測準確率,決定分別使用這三種調參方式對比例為9:1的數據進行調參,通過對比來選取最優(yōu)調參結果。隨機、網格和貝葉斯調參結果如表7和圖5所示。
表7 調參后準確率結果
圖5 調參后AUC結果
由結果可知,兩組模型調參后縮小了訓練和測試集的準確率測算結果差距,RF模型隨機調參結果最為理想,隨機調參后AUC結果最高,為70.19%。經隨機調參后GBDT預測結果最理想,模型預測的訓練和測試集差距最小,調參后AUC值為70.75%。調參后GBDT模型AUC結果都高于RF模型,說明GBDT模型在信用卡違約率測算中預測準確度高于RF模型。
在信用評估中,銀行等金融機構最關注的是用戶的違約預測準確率,即把違約用戶預測為非違約用戶的概率,原因在于如果將違約客用戶預測成非違約用戶,會提高用戶違約風險率,將帶來巨大經濟損失。因而有必要將用戶違約率細分為違約預測與非違約預測準確率,表8為根據GBDT模型預測得到的分類準確率表格,顯示了該模型對用戶違約和非違約準確率的預測。
3049個信用卡用戶中,被GBDT模型正確判斷的有2099個,被錯判的有995個,預測準確率為67.84%;859個信用卡違約用戶中,551個用戶被正確判斷,308個被錯判為非違約用戶,準確率為64.14%;GBDT模型總預測準確率為67.04%,總體看該模型預測效果良好。
表8 違約準確率與非違約準確率
當前市場存在信息不對稱問題,因而抵押貸款可通過抵押品實現信息傳遞,但是在沒有抵押的信用卡市場中,金融機構只能依靠充分利用用戶歷史信息、挖掘用戶違約特征等人工智能方式提高信用風險管理水平,提升對違約用戶的識別能力(王正位等,2020)。學者們希望研究的信用評估模型能夠給貸款機構帶來最大的期望利潤,或者帶來最小的錯誤分類成本。為提升信用卡用戶違約準確率,基于分析單一模型的基礎上,引入信用評級組合模型對樣本數據進行測算。使用Lasso Regression模型對樣本數據進行變量篩選,有效剔除與因變量Y不相關的自變量,有效避免建模過程中無關變量特征對模型效果的影響。
本文構建了基于互補性的Lasso-GBDT組合模型,實證研究表明該組合模型比Lasso-RF組合模型更具準確性。通過實證分析得出以下結論:一方面,相較于單個模型,組合模型數據測算中能夠充分利用每個模型的優(yōu)點,并且有效避免單個模型數據測算存在的弊端,提高數據測算的準確率。另一方面,通過Lasso-GBDT信用評級模型可知,持有信用卡天數、工資、信用卡消費金額的層級、性別和借記卡天數、歷史貸款最長逾期天數是最具影響力的變量,而人們普遍關注的婚姻和年齡變量卻很少帶來信用卡的違約風險,與方匡南等(2010)、賴輝(2017)的結論不太一致,他們認為婚姻狀況和年齡是影響用戶信用卡違約的關鍵因素。
本文基于國際先進評級機構的成熟經驗,從銀行和政府兩方面對如何完善我國信用評級體系提出政策建議。
1.完善信用評級系統(tǒng)。(1)完善基礎數據庫?;趯嵶C結果可知,完善的用戶數據積累是金融機構進行信用評級的重要基礎。基礎數據庫包括事前數據和事后數據,事前數據是信用評級前收集整理的用戶基礎數據,用以防范信息不對稱問題;而事后數據是對信用評級結果統(tǒng)計分析后的數據庫。商業(yè)銀行等金融機構應完善包括事前數據和事后數據在內的信用評級基礎數據庫。(2)建立信用評級跟蹤監(jiān)測體系。信用評級體系并非一蹴而就,而是一項需要持續(xù)更新并不斷優(yōu)化的長期工作,需要在評級的整個過程實行動態(tài)監(jiān)控和靜態(tài)監(jiān)控相結合的全程監(jiān)控模式,以保證信用評級體系有效運行。(3)建立專業(yè)隊伍。建立一套科學系統(tǒng)的信用評級體系需要一支具備專業(yè)素質和具備一定分析與判斷能力的人才隊伍作為重要支撐。金融機構應加強對信用評級人員的培訓。一方面,與穆迪等國外先進評級機構合作,定期派人員外出學習國外先進經驗;另一方面,聘請國外專家對我國的信用評級進行指導,以保證人員知識體系持續(xù)更新。
2.人民銀行、銀保監(jiān)會等金融監(jiān)管機構應為信用卡的健康發(fā)展創(chuàng)造良好的市場環(huán)境?;谛庞迷u級機構的社會性和國內信用評級業(yè)發(fā)展現狀,我國有必要建立健全金融監(jiān)管機構體系,以實現對該行業(yè)的管理。一方面,監(jiān)管機構應該對銀行等信用評級實行資格認定制度,增強信用風險監(jiān)管力。另一方面,建立健全信用評級法律法規(guī)。2004年頒布的《新巴塞爾資本協議》明確了信用評級的重要性,我國應在該協議的基礎上建立信用評級法律,加強對于銀行信用評級本身業(yè)務經營的法律法規(guī)建設,為我國信用評級創(chuàng)造良好的市場環(huán)境。