鐘教聰 方華
摘 要:以P2P網(wǎng)絡(luò)借貸為例,從人人貸中選取2015—2018年共7 559條記錄,通過數(shù)據(jù)挖掘模型來對(duì)借款人違約風(fēng)險(xiǎn)進(jìn)行分析,并識(shí)別出影響借款人違約的主要因素,這些數(shù)據(jù)挖掘模型主要包括決策樹、支持向量機(jī)和隨機(jī)森林。主要結(jié)論包括:第一,運(yùn)用數(shù)據(jù)挖掘模型來預(yù)測(cè)違約風(fēng)險(xiǎn)效果都很好,其中最好的是隨機(jī)森林;第二,特征重要性程度前五依次為信用等級(jí)、借款金額、借款周期、借款利率、借款人所在企業(yè)的規(guī)模。
關(guān)鍵詞:P2P網(wǎng)絡(luò)借貸;數(shù)據(jù)挖掘;違約風(fēng)險(xiǎn)
中圖分類號(hào):F832? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2020)10-0088-04
引言
近年來,互聯(lián)網(wǎng)與金融的結(jié)合更加廣泛,互聯(lián)網(wǎng)金融憑借其支付優(yōu)勢(shì)、流程優(yōu)勢(shì)等優(yōu)勢(shì)逐漸深入人心,同時(shí)也對(duì)我國(guó)經(jīng)濟(jì)的發(fā)展起到了很大的促進(jìn)作用。其中,P2P網(wǎng)絡(luò)借貸是互聯(lián)網(wǎng)金融的一個(gè)分支。P2P網(wǎng)絡(luò)借貸,通常是指?jìng)€(gè)體和個(gè)體通過互聯(lián)網(wǎng)平臺(tái)進(jìn)行的直接借貸活動(dòng)。艾瑞咨詢統(tǒng)計(jì)結(jié)果顯示,截至2017年,我國(guó)網(wǎng)絡(luò)借貸超過了2萬億元,且年增長(zhǎng)率高達(dá)40%,用戶高達(dá)2億人,相較2016年增長(zhǎng)23.1%,可見網(wǎng)絡(luò)借貸發(fā)展之蓬勃。
P2P網(wǎng)絡(luò)借貸開始出現(xiàn)是在英國(guó),因?yàn)槠湎噍^于傳統(tǒng)銀行更加方便,回報(bào)率高,很快便快速蔓延至其他國(guó)家。2007年6月,我國(guó)第一家P2P網(wǎng)貸公司成立,從此網(wǎng)絡(luò)借貸在我國(guó)拉開了序幕。在2013年前,我國(guó)P2P網(wǎng)貸平臺(tái)發(fā)展的很慢,屬于萌芽期。2013開始,我國(guó)P2P網(wǎng)貸行業(yè)在用戶和平臺(tái)都開始爆發(fā)性增長(zhǎng)。但是在爆發(fā)性增長(zhǎng)的同時(shí)也伴隨著很多風(fēng)險(xiǎn),截至2017年,停業(yè)的P2P網(wǎng)貸平臺(tái)已達(dá)1 500家,網(wǎng)貸平臺(tái)壞賬率普遍達(dá)到了10%以上,這顯著高于傳統(tǒng)金融機(jī)構(gòu)。網(wǎng)貸平臺(tái)的高風(fēng)險(xiǎn),有一個(gè)主要原因是,網(wǎng)貸不需要抵押,借款人違約成本較低,如果出現(xiàn)很多借款人違約,則會(huì)對(duì)平臺(tái)現(xiàn)金流產(chǎn)生影響,會(huì)影響平臺(tái)的可持續(xù)發(fā)展。在此背景下,對(duì)借款者的違約風(fēng)險(xiǎn)進(jìn)行分析顯得尤為重要。
本文主要運(yùn)用數(shù)據(jù)挖掘的方法,基于數(shù)據(jù)借款人信息,找出影響借款人的違約因素,以期能給網(wǎng)貸平臺(tái)和投資者提供些參考。本文選用的模型相對(duì)于傳統(tǒng)的風(fēng)險(xiǎn)分析模型主要優(yōu)勢(shì)是,傳統(tǒng)的模型大多需要設(shè)定參數(shù),對(duì)前提假設(shè)有很嚴(yán)格的限制,如最小二乘模型要求數(shù)據(jù)必須符合正態(tài)分布、序列沒有關(guān)聯(lián)且沒有噪聲。Logistic要求自變量不能存在多重共線性,而數(shù)據(jù)挖掘?qū)?shù)據(jù)并無限制。
一、文獻(xiàn)綜述
由于網(wǎng)絡(luò)借貸的快速發(fā)展,對(duì)金融業(yè)產(chǎn)生了較大的沖擊,因此引起了學(xué)術(shù)界的廣泛關(guān)注,中外學(xué)者對(duì)進(jìn)行了很多關(guān)于網(wǎng)絡(luò)借貸違約的研究。
從違約風(fēng)險(xiǎn)來看。由于信息不對(duì)稱使得投資人和網(wǎng)貸平臺(tái)不能很好地評(píng)價(jià)借款人違約風(fēng)險(xiǎn)的大小,從而增加了投資者和網(wǎng)貸平臺(tái)的風(fēng)險(xiǎn)(劉麗麗,2013)。同時(shí)由于網(wǎng)貸借款人在借款人并不是抵押借款,違約成本比較低,且貸款用途沒有限制,這使得貸款風(fēng)險(xiǎn)顯著增加(李淵琦、陳芳,2015)。社會(huì)資本的存在能有效降低借款人的違約風(fēng)險(xiǎn),這些社會(huì)資本包括借款列表被推薦的額次數(shù)、是否加入小組、增加投資者中朋友的個(gè)數(shù)等等(繆蓮英、陳金龍,2014)。通過使用多元線性回歸模型對(duì)拍拍貸進(jìn)行違約風(fēng)險(xiǎn)分析,發(fā)現(xiàn)隨著年齡的增加違約風(fēng)險(xiǎn)越低(劉鵬翔,2017)。借款人聲譽(yù)能有效緩解信息不對(duì)稱,聲譽(yù)變量包括借款人以往違約次數(shù)和借款成功次數(shù)為代表,實(shí)證得出借款人聲譽(yù)對(duì)違約風(fēng)險(xiǎn)的識(shí)別效應(yīng),且如果借款人還款能力增加,這種識(shí)別能力也會(huì)增強(qiáng)(李鑫,2019)。以拍拍貸為例,研究學(xué)歷在網(wǎng)絡(luò)借貸上的作用,發(fā)現(xiàn)隨著學(xué)歷的上升,借款人逾期的風(fēng)險(xiǎn)越小,且借款成功的概率更高(程瑤,2018)。
就研究模型來看,經(jīng)典的預(yù)測(cè)借款人違約的模型,如Logistic、Probit,OLS預(yù)測(cè)效果有太多的約束,如對(duì)樣本要求比較嚴(yán)格,在特征較為復(fù)雜的情況下,預(yù)測(cè)效果會(huì)大打折扣(Hill Griffiths and Lim,2011)。相較于經(jīng)典的預(yù)測(cè)模型,數(shù)據(jù)挖掘模型對(duì)樣本沒有較多約束,且能應(yīng)對(duì)更為復(fù)雜的自變量,通常情況下,預(yù)測(cè)效果好于經(jīng)典預(yù)測(cè)模型(Goyal,A.and R.Kaur,2016)。
二、模型選擇
本文所選用的數(shù)據(jù)挖掘模型包括支持向量機(jī)(SVM)、決策樹(DT)和隨機(jī)森林(RF),這三種模型都是監(jiān)督學(xué)習(xí)算法,都是可以通過訓(xùn)練樣本獲得最優(yōu)模型的。
(一)支持向量機(jī)
支持向量機(jī)的目標(biāo)是創(chuàng)建一個(gè)平面邊界,稱為超平面,從而將具有不同性質(zhì)的樣本進(jìn)行劃分,劃分的原則是間隔最大化。支持向量機(jī)從20世紀(jì)90年代開始快速發(fā)展,目前在很多領(lǐng)域都得到廣泛應(yīng)用。支持向量機(jī)可以將低維度空間樣本分類的問題投影到高維度空間,從而可以在新的空間上得出最優(yōu)超平面。
目前,支持向量機(jī)模型常用來解決分類問題的核函數(shù)包括以下四種:線性核函數(shù)、多項(xiàng)式核函數(shù)、S形核函數(shù)以及高斯RBF核函數(shù)。本文所采用的是線性核函數(shù),其設(shè)定如下:
其中,xi表示第i個(gè)特征。
(二)決策樹
決策樹是一種有監(jiān)督的算法,按照一定的劃分規(guī)則,對(duì)數(shù)據(jù)進(jìn)行持續(xù)的劃分,最后根據(jù)根據(jù)投票結(jié)果進(jìn)行分類。決策樹在任何領(lǐng)域上幾乎都能用,可以說是應(yīng)用最廣泛的數(shù)據(jù)挖掘模型了。決策樹的算法主要包括ID3算法、GART算法和C4.5算法,本文采用的是C4.5算法。
C4.5算法用信息增益率選擇決策屬性。C4.5算法有兩個(gè)步驟,第一,先選取一個(gè)屬性Ai,按照Ai的某個(gè)值將n維空間進(jìn)行劃分成兩個(gè)部分。第二,按照第一步重新選擇另一個(gè)屬性進(jìn)行劃分,直到n維空間都被劃分了。C4.5算法劃分的標(biāo)準(zhǔn)是信息增益率(Info Gain Ratio)指標(biāo)。假設(shè)數(shù)據(jù)集D有m個(gè)類別,數(shù)據(jù)D的熵可定義為:
其中,pi表示類別i占樣本的比率,數(shù)據(jù)集的種類越多,則Info(D)越大,當(dāng)數(shù)據(jù)集只有一個(gè)類別時(shí),Info(D)為0。現(xiàn)假定屬性A對(duì)數(shù)據(jù)集D進(jìn)行劃分,且劃分為K個(gè)Dj子集,則劃分后的數(shù)據(jù)集D的熵為:
D表示數(shù)據(jù)集D的樣本量,Dj表示數(shù)據(jù)集Dj的樣本量,則信息增益為:
要想得出信息增益率,必須先求出使用“分裂信息”值,分裂信息定義為:
在C4.5算法中,信息增益率最大的屬性為劃分標(biāo)準(zhǔn)。最后,信息增益率為:
(三)隨機(jī)森林
隨機(jī)森林是一種集合學(xué)習(xí)的方法,隨機(jī)森林通過隨機(jī)建立一個(gè)森林,這森林里包括很多個(gè)決策樹,隨機(jī)森林里的每棵決策樹都是相互獨(dú)立的。在建立隨機(jī)森立后,當(dāng)輸入一個(gè)樣本,則隨機(jī)森林里的每棵決策樹樹都會(huì)對(duì)樣本進(jìn)行決策,然后在通過這些決策樹進(jìn)行投票,從而得出最終的預(yù)測(cè)值。隨機(jī)森林有效地提高了預(yù)測(cè)精度,并且能夠給出每個(gè)特征變量的重要程度。
三、實(shí)證分析
第一,數(shù)據(jù)來源。人人貸是我國(guó)較早進(jìn)行網(wǎng)絡(luò)借貸的平臺(tái),也是發(fā)展的比較好的平臺(tái)。本文通過python爬蟲的方法從人人貸平臺(tái)上選取了2015—2018年上半年的個(gè)人借款數(shù)據(jù),由于存在到大量與個(gè)人信用無關(guān)的信息,如借款人昵稱、貸款編號(hào)等,若加入模型,可能會(huì)造成不必要的干擾。此外,有些變量是字符型的,也改成數(shù)值型。最終,借款人的信息包括個(gè)人信息(借款人年齡、學(xué)歷、性別、工作區(qū)域、是否有房、是否有車、是否有房貸、是否有車貸,婚姻狀況、工資、公司規(guī)模以及工齡);借款人信用情況(信用評(píng)級(jí));借款信息(借款利率、借款金額、借款用途、借款周期)。在刪除了缺失值后,得到了7 599條完整記錄的數(shù)據(jù)。在所選取的數(shù)據(jù)中,6 482條是沒有違約的,1 117條是違約的。
第二,變量選取及處理。網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)測(cè)中并沒有標(biāo)準(zhǔn)的變量選取方法,本文通過參考國(guó)內(nèi)外眾多文獻(xiàn),最終確定了16個(gè)解釋變量,可分為三大類,分別是借款人基本情況、借款產(chǎn)品信息以及借款人信用情況。1個(gè)預(yù)測(cè)變量,即是否違約。我們對(duì)各個(gè)變量進(jìn)行了處理,具體(如表1所示)。
第三,實(shí)證結(jié)果。本文分別使用了支持向量機(jī)(SVM)、決策樹(DT)和隨機(jī)森林(RF)進(jìn)行預(yù)測(cè),先在不同訓(xùn)練集下的建立模型,然后在測(cè)試集上進(jìn)行預(yù)測(cè),結(jié)果(如表2和表3所示)。
從以上數(shù)據(jù)可以得出,在進(jìn)行違約率的預(yù)測(cè)時(shí),三個(gè)數(shù)據(jù)挖掘模型的預(yù)測(cè)效果都比較好,其中最好的是隨機(jī)森林模型。同時(shí),我們?cè)谟?xùn)練集為90%的情況下,根據(jù)隨機(jī)森林模型得出了各個(gè)變量的重要性程度。
各個(gè)解釋變量的重要性依次為信用等級(jí)、借款數(shù)額、借款周期、借款利率、公司規(guī)模、工作時(shí)間、年齡、工資、學(xué)歷、工作區(qū)域、婚姻狀況、是否有車、是否有房、是否有房貸、性別、是否車貸。
四、結(jié)論與建議
第一,本文通過使用數(shù)據(jù)挖掘模型(支持向量機(jī)、決策樹、隨機(jī)森林)對(duì)網(wǎng)貸數(shù)據(jù)進(jìn)行建模預(yù)測(cè)得出以下結(jié)論。首先,這三種模型對(duì)借款人的違約預(yù)測(cè)效果都很好,總體預(yù)測(cè)正確率都達(dá)到了87%以上,而對(duì)違約樣本的預(yù)測(cè)正確率也都達(dá)到了82%以上,尤其以隨機(jī)森林的預(yù)測(cè)效果最好,這可以為投資人和網(wǎng)貸平臺(tái)在選擇借款人時(shí)提供一些參考。其次,影響借款人違約的最重要的十個(gè)特征是借款人信用等級(jí)、借款數(shù)額、借款周期、借款利率、公司規(guī)模、工作時(shí)間、年齡、工資、學(xué)歷、工作區(qū)域。
第二,基于以上結(jié)論,并結(jié)合中國(guó)P2P網(wǎng)貸行業(yè)發(fā)展現(xiàn)狀,提出以下兩點(diǎn)建議:首先,信用等級(jí)對(duì)借款人是否違約有重要的參考意義,所以網(wǎng)貸平臺(tái)應(yīng)該建立起一套標(biāo)準(zhǔn)的信用評(píng)級(jí)體系,能對(duì)借款人的信用等級(jí)進(jìn)行有效的評(píng)分。其次,網(wǎng)貸平臺(tái)間應(yīng)該建立信息共享平臺(tái),使得平臺(tái)間的征信信息能夠得到有效共享,以降低違約風(fēng)險(xiǎn)。
參考文獻(xiàn):
[1]? 劉麗麗.我國(guó)P2P網(wǎng)絡(luò)借貸發(fā)展存在的風(fēng)險(xiǎn)及其監(jiān)管對(duì)策[J].征信,2013,(11):29-32.
[2]? 李淵琦,陳芳.我國(guó)P2P網(wǎng)貸風(fēng)險(xiǎn)的風(fēng)險(xiǎn)分析及監(jiān)管對(duì)策[J].上海金融,2015,(7):78-81.
[3]? 繆蓮英,陳金龍.P2P網(wǎng)絡(luò)借貸中社會(huì)資本對(duì)借款者違約風(fēng)險(xiǎn)的影響——以Prosper為例[J].金融論壇,2014,(3):9-15.
[4]? 劉鵬翔.P2P網(wǎng)貸平臺(tái)借款人信用風(fēng)險(xiǎn)的影響因素分析——以拍拍貸平臺(tái)為例[J].征信,2017,(3):71-76.
[5]? 李鑫.借款人聲譽(yù)與風(fēng)險(xiǎn)識(shí)別——來自P2P網(wǎng)絡(luò)借貸的證據(jù)[J].金融發(fā)展研究,2019,(6):3-11.
[6]? 程瑤.學(xué)歷水平在借貸市場(chǎng)上的作用——來自P2P市場(chǎng)的經(jīng)驗(yàn)證據(jù)[J].上海金融,2018,(2):47-55.
[7]? Hill R.C,W.E.Griffiths,G.C.Lim:“Principles of econometrics”,Danvers,MA:John Wiley & Sons,Inc,2011.
[8]? Goyal A.,R.Kau:“Accuracy pre-diction for loan risk using machine learning models”,International Journal of Computer Science Trendsand Technology,2016,(1):52-57.
Analysis on the Risk of Default of Network Loan Based on Data Mining
ZHONG Jiao-cong,F(xiàn)ANG Hua
(University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:Taking P2P network lending as an example,this paper selected 7559 records from personal loans from 2015 to 2018,analyzed borrowers default risk through data mining model,and identified the main factors affecting borrowers default.These data mining models mainly include decision tree,support vector machine and random forest.The main conclusions include:firstly,using data mining model to predict default risk is very good,the best of which is random forest;secondly,the top five characteristics of importance are credit rating,loan amount,loan cycle,loan interest rate and working time of borrowers.
Key words:P2P network lending;data mining;default risk
收稿日期:2019-10-08
作者簡(jiǎn)介:鐘教聰(1995-),男,海南昌江人,碩士研究生,從事互聯(lián)網(wǎng)金融研究。