王琴英+由林青
【摘要】本文對(duì)可能影響逾期行為的因素采用隨機(jī)森林的方法進(jìn)行粗選,發(fā)現(xiàn)借款人所在的地區(qū)、借款用途、性別、有無(wú)子女、學(xué)歷等因素的特征得分較高,通過(guò)建立邏輯回歸,對(duì)粗選的結(jié)果采用逐步回歸的方法,結(jié)果表明:婚姻狀況、區(qū)域因素、貸款年限、學(xué)歷、工作單位對(duì)逾期行為產(chǎn)生有較強(qiáng)的影響。
一、引言
2014年以來(lái),我國(guó)P2P行業(yè)迅速發(fā)展,成為全世界P2P發(fā)展最快的國(guó)家,但與此同時(shí),跑路的平臺(tái)也急劇增加,類似e租寶等平臺(tái)占到30%以上,針對(duì)該行業(yè)的整體態(tài)勢(shì),國(guó)家監(jiān)管部門出臺(tái)《私募股權(quán)眾籌融資管理辦法(試行)(征求意見(jiàn)稿)》,加強(qiáng)了對(duì)P2P等行業(yè)的監(jiān)管,本文主要從信用風(fēng)險(xiǎn)得角度,以國(guó)內(nèi)某一大型P 2P公司為研究對(duì)象,探究客戶逾期行為的影響因素。
國(guó)內(nèi)對(duì)于P2P行業(yè)逾期行為的研究有很多,談超等將影響逾期的因素劃分為標(biāo)的特征、信用特征、個(gè)人特征和往期借款4個(gè)維度,從中選取15個(gè)變量,通過(guò)建立logit回歸方程,探究逾期行為與這些變量的關(guān)系:王重潤(rùn)以“紅嶺創(chuàng)投”的真實(shí)業(yè)務(wù)數(shù)據(jù)為基礎(chǔ),選取借款者違約行為的9個(gè)特征因素建立Logit模型進(jìn)行分析,探究影響逾期的因素。
二、還款逾期特征變量的選擇
1.數(shù)據(jù)說(shuō)明
因變量是客戶類型,其中l(wèi)代表新增逾期客戶;0代表非逾期客戶。
本文選取我國(guó)某一較大規(guī)模的P2P公司,獲取該公司2015年1月為M0,2016年1月為M1,2016年2月為M2,共931條新增逾期客戶在2016年1月的數(shù)據(jù),以及2015年12月,2016年1月,2016年2月為M0,共931條正常客戶在2016年1月的931條數(shù)據(jù),共1862條數(shù)據(jù)進(jìn)行分析。其中M0:客戶逾期0-30天:M1:客戶逾期30-60天;M2:客戶逾期60-90天;在實(shí)際業(yè)務(wù)中,習(xí)慣定義M2為新增逾期。
選取的自變量包括:合同版本、貸款品種、片區(qū)、性別、是否續(xù)貸、綜合費(fèi)率、判斷貸款信息是否提交過(guò)、判斷個(gè)人信息是否添加過(guò)、判斷工作信息是否添加過(guò)、判斷聯(lián)系人信息是否添加、貸款用途、學(xué)歷、婚姻狀態(tài)等信息。
2.變量篩選
本文對(duì)可能影響客戶分類的35個(gè)因素采用隨機(jī)森林的方法對(duì)關(guān)鍵變量進(jìn)行提取,同時(shí),為了避免分布不均勻的問(wèn)題,采用五重交叉驗(yàn)證,具體過(guò)程如下:
(1)將樣本分為訓(xùn)練集和測(cè)試集,其中測(cè)試集占30%。
(2)將訓(xùn)練集樣本隨機(jī)均勻分成5份樣本,取其中4份樣本記為N1,另一份樣本記為n。
(3)將N1采用隨機(jī)森林的方法,提取特征集S1,并去掉特征分x小于0.01的特征變量。
三、模型的建立及應(yīng)用
1.Logit回歸方程
本文對(duì)篩選出的變量采用逐步回歸的方法建立Logit方程。具體過(guò)程如下:
3.模型檢驗(yàn)
3.3.1模型泛化誤差
運(yùn)用建立的模型,對(duì)30%的測(cè)試集進(jìn)行測(cè)試,結(jié)果如下:
四、結(jié)論及建議
1.結(jié)論
綜上所述,影響新增逾期的因素包括:
(1)婚姻狀況。一般而言離異,喪偶,再婚的客戶逾期率要高一點(diǎn)。
(2)學(xué)歷。學(xué)歷越低,逾期率越高;一般而言學(xué)歷在大專,高中,高中以下的逾期率相對(duì)來(lái)說(shuō)要高。
(3)區(qū)域因素。華東地區(qū)整體信用狀況和華北相比較差,導(dǎo)致華東地區(qū)逾期率較高,華北片區(qū)逾期率較低。
(4)貸款年限。一般而言期限越長(zhǎng)的逾期率較高,風(fēng)險(xiǎn)越高。
(5)工作單位。從單位性質(zhì)來(lái)看,機(jī)關(guān)單位、國(guó)企性質(zhì)的單位逾期率較低。
2.建議
(1)避免期限較長(zhǎng)的產(chǎn)品。平臺(tái)在產(chǎn)品設(shè)計(jì)時(shí),盡量避免貸款期限超過(guò)一年的產(chǎn)品,對(duì)于超過(guò)一年的產(chǎn)品,加強(qiáng)風(fēng)控部門對(duì)客戶的事中管理。
(2)盡快完善P 2 P行業(yè)的信息共享機(jī)制。目前,由于P 2 P公司對(duì)客戶的信息不共享,因此,部分客戶存在倒賬行為,行業(yè)整體的系統(tǒng)性風(fēng)險(xiǎn)偏高,因此,盡快實(shí)現(xiàn)行業(yè)內(nèi)部的信息共享機(jī)制,有利于降低這類風(fēng)險(xiǎn),降低逾期率。
因此,預(yù)測(cè)的準(zhǔn)確度86.95%,模型的泛化誤差較小。