摘要: 首先分析了互聯(lián)網(wǎng)消費金融違約風(fēng)險的特征,運(yùn)用信息經(jīng)濟(jì)學(xué)研究互聯(lián)網(wǎng)消費金融借款人違約風(fēng)險的形成機(jī)制,構(gòu)建了借款人信用風(fēng)險評價指標(biāo)體系。然后構(gòu)建集XGBoost、LightGBM和CatBoost的二分類加權(quán)硬投票融合模型,用于預(yù)測借款人違約風(fēng)險。通過實證檢驗比較不同分類器訓(xùn)練下的預(yù)測結(jié)果發(fā)現(xiàn):融合模型的預(yù)測精準(zhǔn)度優(yōu)于單一模型XGBoost、LightGBM和CatBoost;基于特征重要性排序結(jié)果,發(fā)現(xiàn)影響貸款者違約的關(guān)鍵因素主要包括貸款利率、年收入、公共事業(yè)差評數(shù)記錄、循環(huán)信貸余額等。最后提出了加強(qiáng)借款人違約風(fēng)險管理的建議。
關(guān)鍵詞: 互聯(lián)網(wǎng)消費金融; 二分類加權(quán)硬投票; 違約風(fēng)險
中圖分類號: F832.39文獻(xiàn)標(biāo)識碼: ADOI: 10.3963/j.issn.1671-6477.2022.03.003
近年來,我國互聯(lián)網(wǎng)消費金融快速發(fā)展,市場規(guī)模不斷擴(kuò)大。Wind數(shù)據(jù)顯示,2019年互聯(lián)網(wǎng)消費金融市場交易規(guī)模達(dá)22800億元,互聯(lián)網(wǎng)消費金融從2013年的60億元增長到2019年的22800億元,年平均增長率達(dá)169.13%。盡管2020年受新冠疫情影響,互聯(lián)網(wǎng)消費金融增長速度有所減緩,但后疫情時代還將迎來快速增長。然而,由于我國互聯(lián)網(wǎng)消費金融發(fā)展尚處于探索階段,主要服務(wù)對象是低收入弱信用的長尾人群,加上我國征信體系尚不完善、平臺內(nèi)部風(fēng)險控制機(jī)制還不健全等,借款人違約現(xiàn)象頻發(fā)。中國銀監(jiān)會和保監(jiān)會的數(shù)據(jù)顯示,消費金融行業(yè)不良率逐年攀升,由2012年的0.56%上升至2018年的8%,7年間增長了1328.57%。
本文構(gòu)建了消費金融借款人違約風(fēng)險評估的二分類加權(quán)硬投票融合模型,對借款人違約率和違約因素作出預(yù)測,并采用Kaggle網(wǎng)站發(fā)布的某互聯(lián)網(wǎng)消費金融平臺交易數(shù)據(jù)作實證分析,以檢驗該模型的預(yù)測精度,以期為我國互聯(lián)網(wǎng)消費金融違約風(fēng)險管理提供新方法。
一、 相關(guān)文獻(xiàn)綜述
目前學(xué)界在對借款人違約特征及影響因素的研究上,主要集中在內(nèi)源性因素與外源性因素兩個方面。林慰曾等指出,互聯(lián)網(wǎng)消費金融發(fā)展失范的根源在于信用錯配,特別是平臺次級客戶高額授信會誘發(fā)違約行為[1]。岳森認(rèn)為互聯(lián)網(wǎng)消費金融平臺無法準(zhǔn)確審核借款人信息真實性,導(dǎo)致授信準(zhǔn)確度難以保障,會增加違約風(fēng)險[2]。張茂軍等認(rèn)為,金融科技的發(fā)展增強(qiáng)了信息獲取能力,卻在信息處理能力上存在局限性,使之在決策時存在偏差,加劇了平臺的違約風(fēng)險[3]。Chiang SL認(rèn)為借款人抵押貸款的凸性對違約概率變化影響最大[4]。Lee等的實證研究表明,借款人樣本語音數(shù)據(jù)提取的參數(shù)可作為違約風(fēng)險評級水平的決定因素[5]。Sangwan S提出借款人的家庭社會經(jīng)濟(jì)地位特征將顯著影響違約行為發(fā)生的可能性[6]。
在對借款人違約的評價指標(biāo)體系的研究方面,周永圣等選取借款人的基礎(chǔ)信息、行為和心理等三個方面因素構(gòu)建了互聯(lián)網(wǎng)消費金融違約風(fēng)險指標(biāo)體系[7],王正位等提出了個人特征、信用變量、歷史表現(xiàn)、借款信息等四項一級指標(biāo),對網(wǎng)貸平臺違約風(fēng)險進(jìn)行評估[8],Carlos Eduardo Canfield等從信用評分和借貸者特征兩方面構(gòu)建網(wǎng)貸平臺違約風(fēng)險指標(biāo)體系[9],Oded Netzer等分別從借款人的人種、性別、外貌等特征方面構(gòu)建互聯(lián)網(wǎng)消費金融違約風(fēng)險指標(biāo)體系,實證結(jié)果表明,黑人的借款成本更高[10],F(xiàn)rydman H等在評價違約風(fēng)險時,更注重借款人基本信息、借貸信息、還款能力三個層面[11]。
在對借款人違約的預(yù)測方法的研究方面,李汛等運(yùn)用多個機(jī)器學(xué)習(xí)模型預(yù)測借款人的違約概率,其研究表明,機(jī)器學(xué)習(xí)預(yù)測借款人違約行為的準(zhǔn)確率普遍高于傳統(tǒng)回歸模型[12],馬曉君等采用CatBoost算法構(gòu)建P2P違約預(yù)測模型,并與LightGBM,XGBoost進(jìn)行對比,發(fā)現(xiàn)CatBoost的性能總體上優(yōu)于LightGBM,XGBoost[13],杜梅慧等采用兩步子抽樣方法抽取樣本,建立logistic回歸模型,提高了違約率預(yù)測精度[14],Cowden C等基于支持向量機(jī)算法建立違約風(fēng)險預(yù)測模型,其模型具有良好的特征穩(wěn)定性與分類準(zhǔn)確性[15],KHAN等使用Fama-French五因子模型考察了新興市場背景下違約風(fēng)險因子的有效性,與其他模型相比,可以提高選取特征變量的準(zhǔn)確率[16]。
綜上可知,國內(nèi)外學(xué)者對借款人違約的相關(guān)研究主要集中在對風(fēng)險評估的指標(biāo)選擇與算法測定上,對一般性消費金融違約風(fēng)險的研究較多,且多是將傳統(tǒng)金融機(jī)構(gòu)管理客戶違約風(fēng)險的算法和模型應(yīng)用到消費金融之中,對互聯(lián)網(wǎng)消費金融違約風(fēng)險及其預(yù)測方法的研究不夠。本文通過確定借款人違約風(fēng)險預(yù)測指標(biāo)體系,構(gòu)建改進(jìn)的XGBoost-Light、GBM-CatBoost三階段融合模型,以用于預(yù)測借款人違約風(fēng)險,為互聯(lián)網(wǎng)消費金融平臺的風(fēng)險管理提供依據(jù)。
二、 理論分析與研究設(shè)計
(一) 互聯(lián)網(wǎng)消費金融違約風(fēng)險及其特征
互聯(lián)網(wǎng)消費金融的違約風(fēng)險,是指借款人不能履行借款合約的還款義務(wù),使貸款平臺遭受損失的情況。其一方面表現(xiàn)為借款人收入不穩(wěn)定時產(chǎn)生的被動違約行為,強(qiáng)調(diào)其非預(yù)謀性[17];其另一方面表現(xiàn)為借款人事先有違約動機(jī),在有支付能力的前提下,不按期還款而產(chǎn)生的主動違約行為,強(qiáng)調(diào)其預(yù)謀性。
互聯(lián)網(wǎng)消費金融的違約風(fēng)險有如下特征:一是客戶的特殊性?;ヂ?lián)網(wǎng)消費金融的客戶群體大多是被傳統(tǒng)金融排斥的長尾客戶,他們往往是低收入或無穩(wěn)定收入、無資產(chǎn)抵押、無財務(wù)記錄、征信數(shù)據(jù)缺乏,部分借款人還存在非理性消費行為。二是消費行為的多樣性。目前消費貸場景主要集中在購物、租房、裝修、旅游等方面。一些電商平臺基于數(shù)據(jù)挖掘技術(shù)精確分析客戶行為特征,給客戶大量推送金融營銷廣告和具有吸引力的商品,在支付環(huán)節(jié)提供各種“分期、免息、免費”的金融產(chǎn)品,對消費者形成了極大的誘惑,導(dǎo)致一部分消費者出現(xiàn)“超前消費”“過度消費”的情況,并因此而背負(fù)沉重的債務(wù)包袱。三是貸款產(chǎn)品的特殊性。消費金融產(chǎn)品貸款額度小、期限短、放款快,為了彌補(bǔ)較高的違約風(fēng)險,借款利率往往高于銀行一般性商業(yè)貸款。四是平臺管理不規(guī)范。一些游離在金融監(jiān)管之外的中介機(jī)構(gòu)通過互聯(lián)網(wǎng)渠道,以“低息、低費、快速、無抵押、無擔(dān)保、無須審查征信”等廣告宣傳誘導(dǎo)消費者貸款,使部分消費者陷入“貸款陷阱”。
(二) 互聯(lián)網(wǎng)消費金融形成違約風(fēng)險的理論分析
互聯(lián)網(wǎng)消費金融平臺主要服務(wù)于低收入的弱信用群體,因而面臨比傳統(tǒng)金融風(fēng)險更高的信用風(fēng)險。由于借款人客群分散、線上融資,互聯(lián)網(wǎng)消費金融平臺難以全面獲知和辨別借款人的真實準(zhǔn)確的信用信息。信用等級低的借款人會掩飾個人收入狀況,甚至提供虛假信息,以提高信用等級而獲得貸款,于是就會出現(xiàn)逆向選擇問題,從而增加違約風(fēng)險。
借款人在獲得貸款后,可能違背貸款協(xié)議,出現(xiàn)了到期不能按時還款的現(xiàn)象,即發(fā)生了道德風(fēng)險。出現(xiàn)道德風(fēng)險的原因在于:首先,由于信息不對稱和借款人高度分散的特征,貸款平臺出于成本考慮,難以對借款人進(jìn)行事后監(jiān)督,借款人在獲得貸款后,可能會違反借、貸雙方對貸款用途的約定,將貸款用于高風(fēng)險的投機(jī)活動,一旦投機(jī)活動受挫,違約風(fēng)險就不可避免。其次,即使借款人將貸款用于約定的消費用途,借款人也可能由于意外事件出現(xiàn)而導(dǎo)致收入困難乃至難以還款,從而發(fā)生違約風(fēng)險。
(三) 借款人違約風(fēng)險指標(biāo)體系的構(gòu)建
根據(jù)互聯(lián)網(wǎng)消費金融平臺和借款人特征,參考國內(nèi)外相關(guān)文獻(xiàn)所選取的指標(biāo),考慮到指標(biāo)數(shù)據(jù)的可獲得性和量化性,基于定性和定量指標(biāo)相結(jié)合的原則,本文構(gòu)建借款人違約風(fēng)險預(yù)測指標(biāo)體系,以借款人解釋變量作為自變量,將所搜集到的借款人信息進(jìn)行分類,其內(nèi)容包含借款人基本信息、借貸信息、信用狀況、還款能力四個一級指標(biāo),以及19個二級指標(biāo),同時將借款人違約與否作為因變量,具體分組見表1。
1.借款人基本信息,包括年齡、性別、受教育程度等,它們在一定程度上反映了借款人的收入情況,特別是借款人的房產(chǎn)情況直接反映出其資產(chǎn)水平,是判斷借款人還款能力的重要指標(biāo)。此外,借款人的婚姻狀況、工作職稱等指標(biāo)與借款人發(fā)生逾期后所需承擔(dān)的違約成本相關(guān)。
2.借款人借貸信息,包括借款金額、借款周期、借款目的等,能夠幫助審核人員了解當(dāng)前借款人的資金使用情況,從而有助于分析借款人正常還款的可能性,也便于了解貸款的內(nèi)在風(fēng)險。同時,審核人員可通過借款人貸款狀態(tài)判斷其信用品質(zhì),是影響貸款回收金額的重要因素。
3.借款人信用狀況,包括信用等級、未結(jié)信用額度、公共事業(yè)差評數(shù)等。借款人的信用歷史可以很直觀地體現(xiàn)出其償還借款的意愿。能主動且及時履約的借款人,一般都具有良好的信用,而曾經(jīng)發(fā)生過借款逾期甚至經(jīng)常發(fā)生逾期的借款人,則屬于高危借款人群。
4.借款人還款能力,包括未平倉交易數(shù)、負(fù)債率、賬戶余額等。這些指標(biāo)反應(yīng)借款人的資金流向和資產(chǎn)狀況,方便審核人員對借款人的資金進(jìn)行監(jiān)管,有助于判斷借款人能否按時足額還本付息,以防范違約行為的產(chǎn)生。
(四) 模型構(gòu)建
GBDT模型是由多個決策樹共同構(gòu)建的一種加性回歸模型①。與傳統(tǒng)的統(tǒng)計學(xué)模型相比,GBDT模型可以有效量化捕捉不同單位或數(shù)量級的自變量對因變量的影響程度,并通過對數(shù)據(jù)進(jìn)行學(xué)習(xí)來調(diào)整自變量權(quán)重,進(jìn)而提高模型的估計精度,因此,利用GBDT對互聯(lián)網(wǎng)消費金融違約行為進(jìn)行建模是可行的。在研究互聯(lián)網(wǎng)消費金融的違約問題中,假設(shè)x和y分別表示借款人的解釋變量與借款人違約狀態(tài),可將其算法列為T={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Nm,yi∈(-1,1)。目前,GBDT有許多不同的改進(jìn)模型,其中最具代表性的分別為XGBoost、LightGBM、CatBoost。
1.XGBoost模型。XGBoost與GBDT模型最大的區(qū)別在于對借款人解釋變量數(shù)據(jù)集進(jìn)行訓(xùn)練時所需的損失函數(shù)不同,XGBoost所運(yùn)用的算法機(jī)制更易實現(xiàn)。GBDT的均方差損失函數(shù)如公式(1)所示:L(y,G(x))=[y-G(x)]2 (1)XGBoost相較于GBDT的改進(jìn)在于對損失函數(shù)可運(yùn)用二階泰勒公式求近似值,通過加入正則項Ω(gi)來控制模型的復(fù)雜程度,表達(dá)式如公式(2)所示:Ω(gi)=rD+12λ∑Jj=1ω2j(2)2.LightGBM模型。LightGBM分別從借款人解釋變量的維度與特征兩個方面對GBDT加以改進(jìn),其核心技術(shù)是實現(xiàn)精度與效率的平衡。GBDT通過使用葉子節(jié)點后的方差來衡量信息收益,可用公式(3)表示:VL/Q(e)=1nQ∑{xi∈Q,xiL≤d}ginLI/Q(e)2+∑{xi∈Q,xiL>d}ginLr/Q(e)2" (3)LightGBM則通過GOSS算法來減少梯度較小的樣本比例,僅采用梯度較大的樣本估計信息增益L(e),如公式(4)所示:L(e)=1n∑{xi∈A,xiL≤d}gi+1-ab∑{xi∈A,xiL≤d}gi2nLI(e)
+∑{xi∈A,xiL>d}gi+1-ab∑{xi∈A,xiL>d}gi2nLr(e)(4)3.CatBoost模型。CatBoost的基本原理是解決原始GBDT中所存在的各種數(shù)據(jù)偏移問題,能夠更好地處理類別特征。GBDT算法在處理借款人類別型變量,如性別、婚姻狀況等,常用其對應(yīng)的數(shù)據(jù)集平均值來代替,并把它作為決策樹中節(jié)點分裂的標(biāo)準(zhǔn)。這種方法被稱為Greedy TBS,具體公式如下:im=∑nj=1[xj,m=xi,m]Gi∑nj=1[xj,m=xi,m] (5) Greedy TBS使得處理后的借款人二級指標(biāo)中對比實際數(shù)據(jù)集包含更多信息,所以用實際數(shù)據(jù)集的平均值來替代解釋變量,在訓(xùn)練集和測試集數(shù)據(jù)分布與結(jié)構(gòu)不同的情況下容易出現(xiàn)條件偏移。
針對這種情況,CatBoost通過添加先驗分布項的方式改進(jìn)Greedy TBS,減少了噪聲和低頻數(shù)據(jù)對于數(shù)據(jù)分布的影響,具體公式如下:im=∑K-1j=1[xσj,m=xσj,m]Gσj+ak∑K-1j=1[xσj,m=xσj,m]+a (6)4.XGBoost-LightGBM-CatBoost融合模型。本文所設(shè)計的XGBoost-LightGBM-CatBoost融合模型如圖1所示。在訓(xùn)練階段采用5折交叉驗證方式尋找到模型的最優(yōu)參數(shù);在測試階段將特征變量作為XGBoost、LightGBM和CatBoost的輸入,并對三個分類器輸出的類別進(jìn)行二分類加權(quán)硬投票法得出預(yù)測結(jié)果。
圖2所示的二分類加權(quán)硬投票,就是指根據(jù)XGBoost、LightGBM和CatBoost預(yù)測的準(zhǔn)確率計算出其加權(quán)準(zhǔn)確率,觀察三個分類器的預(yù)測結(jié)果并比照準(zhǔn)確率高的分類器來確定最終的預(yù)測值。例如,XGBoost、LightGBM、CatBoost三個分類器預(yù)測的準(zhǔn)確率分別為0.65、0.68、0.96;計算其加權(quán)的準(zhǔn)確率為0.28、0.3、0.42。通過觀察發(fā)現(xiàn),任意兩個分類器其加權(quán)準(zhǔn)確率相加的值大于0.5。使用Sigmoid函數(shù)對其進(jìn)行分類,當(dāng)任意兩個分類器預(yù)測結(jié)果相同時,樣本標(biāo)簽0或1將與結(jié)果保持一致。
三、 實證分析
(一) 數(shù)據(jù)來源與處理
1.描述性統(tǒng)計
本文數(shù)據(jù)來源于Kaggle網(wǎng)站上某消費金融平臺的交易數(shù)據(jù),采集了個人信貸申請記錄252970條,特征數(shù)量61個。這里將每一筆數(shù)據(jù)中的目標(biāo)變量“Target”取值為0與1,分別代表借款人正常還款與違約。其中,正常還款數(shù)據(jù)為207722條,違約數(shù)據(jù)為45248條,可得其違約率為17.9%。
貸款周期方面,分別為36個月與60個月,占比70.05%、29.95%,分別對應(yīng)15.88%、20.93%的違約率,由此可見,貸款周期越長,違約發(fā)生的可能性就越大。工作年限方面,其數(shù)據(jù)主要集中在1到10年,各個工作年限的逾期率差異不大,5~7年相對較高,均在7%以上。
如圖3所示,平臺客戶的貸款利率在5%到37%之間;在10%到20%這一區(qū)間,各個利率對應(yīng)的概率密度分布比較均勻,其他區(qū)間概率密度較低。從圖3中可看出,違約客戶分布更右偏,其對應(yīng)的貸款利率水平相對更高。
如圖4所示,借款人的負(fù)債率在-3%到40.5%之間;對于違約客戶而言,-3%到20%對應(yīng)的區(qū)間面積要略大于20%到40.5%,說明借款人負(fù)債率在-3%到20%之間產(chǎn)生違約行為的概率更高。對于正??蛻?,則情況正好相反,13%到40.5%的區(qū)間面積大于-2%到13%,說明當(dāng)負(fù)債比高于13%時,其履約行為隨著負(fù)債比的增加而下降。
表2所示為貸款申請人的信用評級信息。其中信用評級A到G的占比分別為16.71%、30.07%、25.82%、16.02%、7.58%、3.03%、0.77%,對應(yīng)的違約率分別為6.19%、12.51%、19.35%、25.89%、32.62%、38.30%、40.87%。這表明平臺的主要服務(wù)對象為信用評級在A-D區(qū)間內(nèi)的人群,而且信用評級越高,貸款違約率越低。
資產(chǎn)狀況反映了借款人的償債能力,與違約率呈負(fù)相關(guān)關(guān)系。在申請貸款的客戶中,無房產(chǎn)客戶與其他客戶人數(shù)占樣本量萬分之三左右,但其違約率占比高達(dá)27%;擁有房產(chǎn)(包括抵押與自用)的借款人占比60%,其對應(yīng)的違約率最低,僅占總?cè)藬?shù)13%,說明無固定資產(chǎn)的借款人違約率較高。在年收入方面,正??蛻裟晔杖刖禐?4161元,違約客戶為65085元,違約客戶年收入整體偏低。在所有賬戶活期余額方面,正常客戶與違約客戶均值分別為143791元與114454元,說明違約客戶擁有更少的流動資金。
2.數(shù)據(jù)預(yù)處理
由于平臺給予的數(shù)據(jù)信息不完整,通常含有缺失值或格式不統(tǒng)一等問題,因此需要對數(shù)據(jù)進(jìn)行預(yù)處理。具體分為缺失值處理、獨熱編碼以及類別平衡等。
(1)缺失值處理。由于XGBoost、LightGBM和CatBoost本身具有自動處理缺失值的能力,所以在數(shù)據(jù)預(yù)處理階段對數(shù)值型變量和連續(xù)型變量不處理缺失值;而對于類別型變量的缺失值使用“1”填充,同時對缺失值比例大于50%的變量予以刪除;數(shù)據(jù)集中異常值存量非常少,可以忽略不計,不做異常值處理。
(2)獨熱編碼(OneHotEncoder)獨熱編碼是將字符型的特征轉(zhuǎn)化為二進(jìn)制向量,主要用于處理類別型變量(如收入來源是否核實),特征取值之間不存在任何關(guān)聯(lián)關(guān)系。使用獨熱編碼將類別型變量轉(zhuǎn)化為數(shù)值,如將“收入來源是否核實”中的“已核實”“未核實”分別轉(zhuǎn)換成“1”“2”。如表3所示,將整數(shù)值表示為二進(jìn)制向量,除該整數(shù)被表示為“1”外,其余均為“0”。
(3)類別平衡?;ヂ?lián)網(wǎng)消費金融的信貸業(yè)務(wù)常常面臨類別不平衡問題。將樣本按7∶3的比例劃分訓(xùn)練集和測試集,其正負(fù)樣本比約為4.6∶1,此時正樣本與負(fù)樣本差別過大,即使將所有負(fù)樣本的錯誤預(yù)判都?xì)w類于正樣本,模型預(yù)測準(zhǔn)確率也能達(dá)到93%,此時的模型不具有實際意義。本文采用代價敏感學(xué)習(xí)法②,通過設(shè)置權(quán)重來處理類別不平衡的問題。
3.特征選擇
(1)基于相關(guān)系數(shù)的特征選擇。相關(guān)系數(shù)屬于包裹式③特征選擇方法。本文采用相關(guān)系數(shù)法對特征進(jìn)行篩選,剔除解釋變量系數(shù)小于0.001的特征,總共剔除4個特征(如表4所示),保留特征數(shù)57個。
(2)基于Catboost的特征篩選。Catboost是一種嵌入式④特征選擇方法。經(jīng)過相關(guān)系數(shù)法篩選特征,剩余特征數(shù)57個,數(shù)量較多,易發(fā)生維數(shù)災(zāi)難或產(chǎn)生過擬合現(xiàn)象。本文根據(jù)Catboost可返回抽樣學(xué)習(xí)的特點,對57個特征作進(jìn)一步選擇,設(shè)定閾值為3%,最終保留46個特征。
(二) 分類效果的評價
為了辨別基于二分類加權(quán)硬投票的互聯(lián)網(wǎng)消費金融違約預(yù)測模型的分類效果是否比其他分類器更優(yōu),本文采用四種評價指標(biāo)進(jìn)行說明,分別是ROC曲線、AUC值、KS值與準(zhǔn)確率,其評價指標(biāo)均可通過混淆矩陣(如表5所示)計算得出。
ROC曲線稱為受試者工作特征曲線,通過模型得到不同閾值下的分類結(jié)果,其橫縱坐標(biāo)分別用真正率TPR(True Positive)和假正率FPR(False Positive)表示。當(dāng)TPR越高,F(xiàn)PR越低時,ROC曲線向左上角移動,模型的預(yù)測能力越強(qiáng)。AUC表示ROC曲線下方面積,AUC值越大意味著樣本預(yù)測排序質(zhì)量越好。TPR=TP/(TR+FN)" (7)
FPR=FP/(FP+TN) (8)KS值表示TPR曲線與FPR曲線的最大間隔距離,反映了模型區(qū)分正負(fù)樣本的能力。KS在0到1的范圍內(nèi)取值。一般而言,當(dāng)KS值小于0.8時,值越大意味著模型區(qū)分正負(fù)樣本的能力越強(qiáng)。
準(zhǔn)確率(Accuracy)表示被正確預(yù)測的正常還款借款人與違約借款人的樣本個數(shù)占總樣本的比率,其數(shù)值越高代表模型的預(yù)測效果越好。Accuracy=(TP+TN)/(TP+FP+TN+FN)(9)(三) 模型預(yù)測結(jié)果的對比分析
經(jīng)過對樣本的數(shù)據(jù)預(yù)處理,特征篩選和基于貝葉斯調(diào)參的XGBoost-LightGBM-CatBoost模型訓(xùn)練后,采用訓(xùn)練好的最優(yōu)參數(shù)XGBoost-LightGBM-CatBoost對測試集進(jìn)行分類。同時,本文比較了單模型XGBoost、LightGBM、CatBoost在測試集上的分類效果,以上單模型均經(jīng)過貝葉斯調(diào)參達(dá)到最優(yōu)。為保證各單模型分類效果的穩(wěn)定,所有數(shù)據(jù)均通過五折交叉驗證并取其平均值。數(shù)據(jù)實驗的操作環(huán)境為Python 3.7,依賴包為pandas、numpy、sklearn、seaborn、datetime、scipy、XGBoost、lightGBM、CatBoost。具體計算結(jié)果如表6所示。
圖5為處于最優(yōu)參數(shù)時,測試集與訓(xùn)練集上XGBoost-LightGBM-CatBoost模型的ROC曲線。
由表6可知,XGBoost-LightGBM-CatBoost融合模型在測試集上的準(zhǔn)確率為0.826,AUC值為7.18,KS值為0.320,其指標(biāo)值均優(yōu)于其他三個單分類器,說明融合模型具有更好的預(yù)測性能。同時,由圖5可知,XGBoost-LightGBM-CatBoost模型其測試集的ROC曲線被訓(xùn)練集包裹,測試集中AUC的值為0.72,訓(xùn)練集中AUC的值為0.75,這表明XGBoost-LightGBM-CatBoost模型在貸款申請人的樣本數(shù)據(jù)中存在輕微過擬合學(xué)習(xí)問題,可忽略不計。
(四) 結(jié)果分析
本文從借款人的基本信息、信貸信息、歷史信用狀況、銀行賬戶信息四個維度出發(fā),分析其所包含的二級指標(biāo)來判斷違約的影響因素。同時,由表6可知Catboost模型對于大規(guī)模、多維度的數(shù)據(jù)處理比其他兩個分類器更具優(yōu)勢,因此本文通過Catboost模型對借款人特征進(jìn)行重要性排序,具體情況如表7所示。
表7列出了各解釋變量對模型的貢獻(xiàn)情況,將位于前十的各解釋變量貢獻(xiàn)度由高到低進(jìn)行排列,分別為貸款利率、年收入、負(fù)債比、公共事業(yè)差評紀(jì)錄、信貸循環(huán)余額、賬戶余額、信用額度、未平倉交易數(shù)、循環(huán)信用額度占比、貸款金額。貸款利率的貢獻(xiàn)度最大,高達(dá)20.3%;年收入與負(fù)債比分別貢獻(xiàn)了14%、9%;其中前十個特征貢獻(xiàn)度高達(dá)70.7%。
在前十個特征中并未完全體現(xiàn)一級指標(biāo)的重要性,不能對所歸類的四個維度進(jìn)行很好的解釋,因此本文通過將一級指標(biāo)項下的特征所得分進(jìn)行加總求其算數(shù)平均值,獲得一級指標(biāo)的重要性排序,具體情況如表8所示。
在本文歸類的四個一級指標(biāo)中,借款人信貸信息占比最高,說明借款人的信貸信息對借款人違約與否影響最大;借款人的基本信息對借款人違約情況的影響最小。由表8可知,四個維度的影響程度由高到低排序為:借貸信息、信用狀況、還款能力、基本信息。
從影響違約因素的解釋變量中可以發(fā)現(xiàn):(1)貸款利率的貢獻(xiàn)度高達(dá)20.3%,貸款金額重要性排序占比為3.5%,兩個指標(biāo)都反映了借款人的信貸信息,其中貸款利率與貸款金額所對應(yīng)的數(shù)值越高,意味著借款人每月需要償還的金額越多,財務(wù)壓力的增大將增加違約產(chǎn)生的可能性;(2)年收入、負(fù)債率、賬戶活期余額與未平倉交易數(shù)累計貢獻(xiàn)率為26.8%,這四類指標(biāo)在一定程度上反映了借款人的財務(wù)狀況,通過對其進(jìn)行監(jiān)測來判斷借款人貸款到期時能否按時足額還本付息;(3)公共事業(yè)差評記錄、信貸循環(huán)余額、信用額度、循環(huán)信用額度占比累計貢獻(xiàn)率為20.1%,以上指標(biāo)反映了第三方機(jī)構(gòu)對借款人的信用評價,在一定程度上體現(xiàn)了借款人的履約意愿。除圖6中出現(xiàn)的十類指標(biāo)外,其余指標(biāo)貢獻(xiàn)度均低于3%,因此在對本文建立的借款人違約行為指標(biāo)進(jìn)行分析時,貸款利率與貸款金額應(yīng)作為借款人借貸信息的主要參考指標(biāo);年收入、負(fù)債率、賬戶活期余額與未平倉交易數(shù)應(yīng)作為借款人還款能力的主要參考指標(biāo);公共事業(yè)差評記錄、信貸循環(huán)余額、信用額度、循環(huán)信用額度應(yīng)作為借款人信用狀況的主要參考指標(biāo)。
四、 研究結(jié)論與建議
通過上述研究,本文得出如下結(jié)論:
其一,互聯(lián)網(wǎng)消費金融平臺與借款人之間存在高度的信息不對稱,容易出現(xiàn)借款人違約行為;對這個弱信用群體的違約率的預(yù)測不能采用傳統(tǒng)方法,要結(jié)合互聯(lián)網(wǎng)消費金融的特性開發(fā)新的違約風(fēng)險預(yù)測方法。
其二,根據(jù)互聯(lián)網(wǎng)消費金融的運(yùn)行特征和客戶特性,建立了客戶違約風(fēng)險指標(biāo)體系,包括借款人基本信息、借貸信息、信用狀況、還款能力四個一級指標(biāo),以及19個二級指標(biāo)。
其三,XGBoost-LightGBM-CatBoost融合模型對于互聯(lián)網(wǎng)消費金融借款人的違約風(fēng)險預(yù)測效果較單模型更好,其精確度更高。
其四,XGBoost-LightGBM-CatBoost融合模型的預(yù)測準(zhǔn)確率為82.6%,即預(yù)測平臺違約率為17.4%,而根據(jù)Kaggle網(wǎng)站數(shù)據(jù)計算得出的實際違約率為17.9%,說明運(yùn)用XGBoost-LightGBM-CatBoost融合模型構(gòu)建互聯(lián)網(wǎng)消費金融借款人違約預(yù)測模型在分類精度、分類準(zhǔn)確度上具有一定優(yōu)勢,對實際結(jié)果的擬合效果較好。
其五,本文采用Kaggle數(shù)據(jù),歸納了違約風(fēng)險預(yù)測中需要關(guān)注的四類特征,通過Catboost模型進(jìn)行特征篩選,選出權(quán)重值高的三類特征中貢獻(xiàn)度排名前十的二級指標(biāo),供平臺篩選貸款申請人時參考。
根據(jù)以上研究結(jié)論,本文就互聯(lián)網(wǎng)消費金融平臺加強(qiáng)違約風(fēng)險管理提出以下建議:
第一,應(yīng)加強(qiáng)借款人信用信息采集,提高信用評價效率。為避免客戶惡意違約行為,互聯(lián)網(wǎng)消費金融平臺可以設(shè)置客戶群體畫像,首先依據(jù)客戶基本信息進(jìn)行初步分層與評級,對老人、未成年人、低學(xué)歷者普及消費金融及相關(guān)產(chǎn)品知識,說明其優(yōu)點與潛在的風(fēng)險;對風(fēng)險偏好型客戶進(jìn)行重點跟蹤監(jiān)測,提示客戶該行為潛在的風(fēng)險和負(fù)擔(dān)的后果;利用人工智能模型搜集客戶的消費習(xí)慣和社交區(qū)域,將客戶的借款意愿與還款意愿進(jìn)行量化并及時反饋,平臺根據(jù)分析結(jié)果對信用數(shù)據(jù)良好的客戶給予消費優(yōu)惠,對信用狀況差的客戶進(jìn)行消費限制。
第二,應(yīng)通過與消費場景第三方的結(jié)合,獲得更多的客戶信息。消費金融公司可以基于個人消費者的客戶信息作為聚合的消費場景,根據(jù)各類消費場景進(jìn)行差異化定價,并對消費場景進(jìn)行細(xì)分,深化消費場景建設(shè),然后從中找到合適的消費場景切入消費金融業(yè)務(wù)中。同時,在已有的服務(wù)場景中,通過深度挖掘推出更多的子場景或延伸場景。
第三,應(yīng)加強(qiáng)互聯(lián)網(wǎng)消費金融平臺風(fēng)險控制能力建設(shè)。充分運(yùn)用以大數(shù)據(jù)、云計算、人工智能和區(qū)塊鏈等為代表的金融科技手段,建立互聯(lián)網(wǎng)消費信貸貸前識別與反欺詐、貸中追蹤與預(yù)警、貸后智能催收的全信貸周期智能風(fēng)控系統(tǒng),以提升互聯(lián)網(wǎng)消費金融平臺的信用風(fēng)險精細(xì)化管理水平。以數(shù)據(jù)共享為風(fēng)控導(dǎo)向,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)技術(shù)為驅(qū)動,創(chuàng)新互聯(lián)網(wǎng)消費金融業(yè)務(wù)和風(fēng)控模式,設(shè)計高度適配的信用風(fēng)險評估模型,增強(qiáng)對平臺信用風(fēng)險的預(yù)見性,有效緩解平臺的逆向選擇和道德風(fēng)險。
注釋:
①加性回歸模型是指通過采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過程產(chǎn)生的殘差來達(dá)到將數(shù)據(jù)分類或者回歸的算法。
②代入敏感學(xué)習(xí)法是機(jī)器學(xué)習(xí)領(lǐng)域中的一種新方法,它主要考慮了在分類中,當(dāng)不同的分類錯誤會導(dǎo)致不同的懲罰力度時如何訓(xùn)練分類器。
③包裹式特征選擇方法是從原始特征集中不斷選擇特征子集、訓(xùn)練模型,并通過學(xué)習(xí)器對特征子集進(jìn)行評價,選出最終訓(xùn)練子集。
④嵌入式特征選擇將特征選擇融合在模型訓(xùn)練的過程中,依據(jù)模型表現(xiàn)分析特征重要性,在訓(xùn)練過程中自動完成特征選擇。
[參考文獻(xiàn)]
[1] 林慰曾,施心德.互聯(lián)網(wǎng)消費金融:信用錯配、修復(fù)與完善[J].南方金融,2018(6):73-81.
[2]岳森.我國互聯(lián)網(wǎng)金融風(fēng)險監(jiān)管及治理體系建設(shè)研究[J].技術(shù)經(jīng)濟(jì)與管理研究,2019(8):91-95.
[3]張茂軍,王儉,張尹,張鄴丹.金融科技、監(jiān)管政策與P2P平臺風(fēng)險:基于信用風(fēng)險和流動性風(fēng)險視角[J].金融與經(jīng)濟(jì),2021(8):38-45.
[4]Chiang SL,Tsai MS,Jiang S.The Influences of Foreclosure Factors on the Value,Yield,Duration and Convexity of a Mortgage[J].Real Estate Economics,2021,2(49):361-394.
[5]Lee,Sang Min.Determining Personal Credit Rating through Voice Analysis:Case of P2P loan borrowers[J].KSII Transactions on Internet and Information Systems,2021,15(10):3627-3641.
[6]Sangwan S,Nayak NC,Harshita,Sangwan V.Borrowers’ credit Risk Factors,Perception Towards Repayment Interventions and Moral Hazard in Loan Delinquency:An Investigation of Indian Microfinance Institutions[J].Applied Economics,2021,53(56):6554-6569.
[7]周永圣,孫苗苗,王晶.互聯(lián)網(wǎng)消費金融債權(quán)信用研究:基于螞蟻花唄業(yè)務(wù)模式的分析[J].價格理論與實踐,2019(3):126-129.
[8]王正位,周從意,廖理,張偉強(qiáng).消費行為在個人信用風(fēng)險識別中的信息含量研究[J].經(jīng)濟(jì)研究,2020 (1):149-163.
[9]Carlos Eduardo Canfield.Determinants of Default in P2P Lending:the Mexican Case[J].Independent Journal of Management amp; Production,2018,9(1):1-24.
[10]Oded Netzer,Alain Lemaire,Michal Herzenstein.When Words Sweat:Identifying Signals for Loan Default in the Text of Loan Applications[J].Journal of Marketing Research,2019, 56(6):960-980.
[11]Frydman H,Matuszyk A,Li C,Zhu WC.A New Framework for Examining Credit worthiness of Borrowers:the Mover-Star Model with Covariate and Macroeconomic Effects[J].Quantitative Finance,2021,21(9):1491-1499.
[12]李汛,龍真,付懷宇,劉品璐.基于機(jī)器學(xué)習(xí)的P2P違約預(yù)測算法比較:以“人人貸”為例[J].統(tǒng)計與管理,2019(6):104-109.
[13]馬曉君,宋嫣琦,常百舒,袁銘憶,蘇衡.基于CatBoost算法的P2P違約預(yù)測模型應(yīng)用研究[J].統(tǒng)計與信息論壇,2020 (7):9-17.
[14]杜梅慧,李莉莉,張璇.基于兩步子抽樣算法的P2P信用風(fēng)險預(yù)測研究[J].系統(tǒng)科學(xué)與數(shù)學(xué),2021 (2):566-576.
[15]Cowden C,F(xiàn)abozzi FJ,Nazemi A.Default Prediction of Commercial Real Estate Properties Using Machine Learning Techniques[J].Journal of Portfolio Management,2019,45(7):55-67.
[16]KHAN Usama Ehsan,IQBAL Javed.The Relationship between Default Risk and Asset Pricing:Empirical Evidence from Pakistan[J].The Journal of Asian Finance,2021,8(3):717-729.
[17]封思賢,那晉領(lǐng).P2P借款人的定價偏差與被動違約風(fēng)險:基于“人人貸”數(shù)據(jù)的分析[J].金融研究,2020(03):134-151.
(責(zé)任編輯文格)
Default Risk Prediction of Internet Consumer Finance Based
on Weighted Hard Voting Fusion Model
SI Xiao-han, WEI Jian-guo, WEI Ying-jie
(School of Economics,Wuhan University of Technology,Wuhan 430070,Hubei,China)
Abstract:This paper first analyzes the characteristics ofInternet consumer finance default risk,studies the formation mechanism of Internet consumer finance borrower default risk by using information economics,and constructs the Borrower Credit Risk Evaluation Index System and two-class weighted hard voting fusion model.This model is composed of Xgboost,LightGBM and CatBoost to predict the default risk of borrowers.It is found that the fusion model is superior to the single model XGBoost,LightGBM and CatBoost in prediction accuracy,and that the key factors affecting the borrower’s default mainly include loan interest rate,annual income,bad rating record of public utilities,revolving credit balance and so on.Finally,the paper puts forward some suggestions on how to strengthen default risk management of internet consumer finance platform.
Key words:Internet consumer finance; binary weighted hard voting; the risk of default