涂 艷, 王翔宇
(中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081)
P2P借貸是一種創(chuàng)新的金融形式,能夠滿足中小企業(yè)及個人的借款需求,緩解“金融排斥”現(xiàn)象。然而,P2P借貸存在較大的風(fēng)險,P2P借貸平臺面臨著信用風(fēng)險、技術(shù)風(fēng)險、合規(guī)風(fēng)險等問題[1],其中信用風(fēng)險是最突出的風(fēng)險之一[2]。由于P2P借貸中平臺和出借人風(fēng)險控制能力有限,以及業(yè)務(wù)模式的限制,借款人違約情況時有發(fā)生。傳統(tǒng)借貸中,商業(yè)銀行通過線下實地考察等方式防控借款人的風(fēng)險,但P2P借貸業(yè)務(wù)大多發(fā)生于線上,借貸雙方僅通過網(wǎng)絡(luò)平臺進行借貸交易,交易可信度大大降低[3]。目前,一些平臺建立了追償機制,并設(shè)置風(fēng)險準(zhǔn)備金作為對出借人的資金保障。然而,這些舉措并未從根本上降低P2P借貸交易中存在的違約風(fēng)險。
在實踐中,平臺可通過分析借款人的硬信息、軟信息對其違約風(fēng)險進行預(yù)警,為出借人決策提供參考。例如,通過借款金額、利率、期限、身份等硬信息和社交關(guān)系、照片等軟信息對借款人的違約行為進行預(yù)測[4-5]。諸多學(xué)者采用Logistic模型預(yù)測借款人的違約概率,但使用機器學(xué)習(xí)算法進行違約風(fēng)險預(yù)測的研究成果較為鮮見,然而,機器學(xué)習(xí)在各領(lǐng)域的分類問題中均表現(xiàn)出了極好的運算效果和較強的場景適用性,能否將其應(yīng)用于P2P借貸違約風(fēng)險預(yù)警這一研究問題呢?本文將選取多類主流的機器學(xué)習(xí)算法,通過使之與傳統(tǒng)計量回歸模型預(yù)測效果的實驗對比研究,深入探討機器學(xué)習(xí)算法對P2P網(wǎng)絡(luò)借貸中借款人違約風(fēng)險預(yù)警效果的影響,繼而剖析各算法對P2P借貸違約風(fēng)險預(yù)測的適用性。
在P2P網(wǎng)絡(luò)借貸交易中,信息不對稱問題較為突出[6],由此而引致的道德風(fēng)險及逆向選擇問題導(dǎo)致借款人的違約率居高不下。因此,無論是學(xué)術(shù)界還是實業(yè)界,對借款人的違約風(fēng)險進行有效預(yù)警成為亟待解決的問題。
當(dāng)前對P2P網(wǎng)絡(luò)借貸違約風(fēng)險預(yù)警問題的研究主要使用計量分析方法,建立Logistic、Probit、Cox比例風(fēng)險等回歸模型[7],通過研究借款人身份信息(包括年齡、性別、收入等)、標(biāo)的信息(包括借款金額、利率、期限等)、社交信息(包括朋友數(shù)、群組社交活動等)對借款人違約概率的影響,繼而識別出對借款人違約行為影響較大的關(guān)鍵變量,并對借款人的違約風(fēng)險概率進行預(yù)測[8-12]。
由于風(fēng)險預(yù)警的本質(zhì)在于預(yù)測借款人違約的概率,屬于“違約”和“不違約”的二分類問題。一方面,盡管傳統(tǒng)計量回歸模型兼具預(yù)測功能,但是其研究重點卻并不在違約概率的預(yù)測問題上,而是分析相關(guān)變量對違約概率影響的方向和大小,繼而甄別出變量之間的影響關(guān)系;另一方面,由于現(xiàn)有風(fēng)險預(yù)警模型大多為線性模型,對于非線性的分類預(yù)測問題效果不佳,與之相反,分類及預(yù)測問題卻是神經(jīng)網(wǎng)絡(luò)、支持向量機等機器學(xué)習(xí)算法的核心功能。鑒于上述原因,本文提出使用機器學(xué)習(xí)算法改進計量方法的研究思路,采用主流機器學(xué)習(xí)方法建立風(fēng)險預(yù)警模型,預(yù)測借款人違約概率。
關(guān)于機器學(xué)習(xí)方法在P2P網(wǎng)絡(luò)借貸研究中的應(yīng)用而言,Wang發(fā)現(xiàn)使用貝葉斯網(wǎng)絡(luò)可輔助出借人進行投資決策,并取得較好收益[13];Zhao等使用改進的UCF(User-based Collaborative Filtering Recommendation)推薦算法為出借人推薦風(fēng)險較低、收益較高的標(biāo)的[14];Zhang等發(fā)現(xiàn)決策樹對風(fēng)險預(yù)警的效果較明顯,樣本外準(zhǔn)確率達到81.22%[15]。目前,采用機器學(xué)習(xí)算法進行風(fēng)險預(yù)警的研究成果較少,現(xiàn)有文獻采用的算法模型亦較為有限,缺乏多種不同機器學(xué)習(xí)算法的性能對比分析及其適用性的系統(tǒng)研究。本文將采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、KNN(K-Nearest Neighbor)分類算法、隨機森林和Adaboost等算法預(yù)測借款人違約概率,并分析各算法的預(yù)測準(zhǔn)確率,探討不同算法的適用場景,為P2P借貸平臺建立風(fēng)險預(yù)警模型提供參考。
BP神經(jīng)網(wǎng)絡(luò)是一種多層前向神經(jīng)網(wǎng)絡(luò),它的學(xué)習(xí)過程包括信號的正向傳播與誤差的反向傳播兩個部分。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,就BP神經(jīng)網(wǎng)絡(luò)在P2P借貸違約風(fēng)險預(yù)警中的應(yīng)用而言,可將借款人身份信息、標(biāo)的信息等輸入網(wǎng)絡(luò),輸出層輸出借款人違約的結(jié)果。輸出層計算實際輸出與期望輸出的誤差,將誤差分攤給各隱含層的神經(jīng)元,通過公式計算出調(diào)整后的權(quán)重,直到誤差小于給定閾值或?qū)W習(xí)次數(shù)達到設(shè)定上限為止。在P2P借貸中,影響借款人違約概率的變量較多,因此,輸入層的神經(jīng)元個數(shù)較多,而輸出層僅有一個神經(jīng)元,以0和1分別表示不違約和違約。隱含層的神經(jīng)元個數(shù)通過經(jīng)驗公式或遺傳算法等尋優(yōu)算法確定。圖1以三層BP神經(jīng)網(wǎng)絡(luò)為例,展示了BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。其中X0、X1為輸入層的神經(jīng)元,U0、U1、U2為隱含層的神經(jīng)元,Y0為輸出層的神經(jīng)元,ωxu為輸入層到隱含層的權(quán)重向量,ωUY為隱含層到輸出層的權(quán)重向量。由于神經(jīng)網(wǎng)絡(luò)原始輸出的結(jié)果是二值數(shù)據(jù),即借款人是否違約,而不是連續(xù)的違約概率,實際上神經(jīng)網(wǎng)絡(luò)在輸出時進行了轉(zhuǎn)化,即使用Logistic、relu等激活函數(shù),將連續(xù)數(shù)據(jù)轉(zhuǎn)化為二分類數(shù)據(jù),因此,本文將直接使用轉(zhuǎn)化前的連續(xù)數(shù)據(jù)作為借款人的違約風(fēng)險概率。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
支持向量機主要針對二值分類問題提出,屬于監(jiān)督式學(xué)習(xí)方法,其被廣泛運用于統(tǒng)計分類及回歸分析中。就支持向量機在P2P借貸違約風(fēng)險預(yù)警中的應(yīng)用而言,支持向量機力圖尋找超平面,實現(xiàn)違約標(biāo)的和非違約標(biāo)的分離,其原理主要是通過核函數(shù)將低維空間特征轉(zhuǎn)化為高維空間特征,進而實現(xiàn)線性可分。支持向量實際指“支持”該超平面的點,即在間隔區(qū)邊緣的訓(xùn)練樣本點,支持向量機基本示例如圖2所示,其中黑色實線即為所選超平面,將黑色樣本點和灰色樣本點劃分為兩大區(qū)域,支持向量機指兩條虛線上的樣本點。由于支持向量機對二分類問題預(yù)測效果較好,同時P2P借貸交易中借款人違約預(yù)測恰好符合二分類問題情境,因此,從理論上推測,支持向量機適用于解決本研究問題。
圖2 支持向量機示例
決策樹是以實例為基礎(chǔ)的算法,從實例中推導(dǎo)出決策樹后,進而形成分類器進行預(yù)測。決策樹的構(gòu)建過程包括決策樹的生成和剪枝兩個步驟,其中,決策樹的生成是自頂向下的過程,在決策樹的每個非葉子結(jié)點上,對測試屬性值進行測試,使用信息增益、信息增益率、基尼系數(shù)等指標(biāo)比較測試結(jié)果,選擇最佳屬性,從而將樣本分為若干子集。最后,基于全體樣本訓(xùn)練出一棵完整的決策樹,每個結(jié)點代表一條合取規(guī)則,在預(yù)測新樣本時,從根節(jié)點開始,沿各節(jié)點選擇不同的分枝,直到葉子節(jié)點。決策樹的剪枝技術(shù)旨在去除噪聲,減小決策樹的復(fù)雜程度,預(yù)防過擬合問題。在P2P網(wǎng)絡(luò)借貸中,出借人投資決策是多層次的,考慮變量先后順序,例如當(dāng)標(biāo)的借款金額大于2萬時,出借人將查看借款人的認證情況,以做出合理的投資決策;或只有當(dāng)借款人信用等級為AAA及以上時,出借人將繼續(xù)投資決策,否則放棄投資。這種多層次的順序決策過程在Logistic回歸中無法體現(xiàn),但決策樹恰好可以模擬該類決策過程。
KNN同樣是基于實例的分類算法。以P2P借貸風(fēng)險預(yù)警為例,訓(xùn)練集中已知相關(guān)借款人信息及標(biāo)的違約情況,對于新入樣本,通過距離公式計算新樣本與其它借款人和標(biāo)的的相似度,確定樣本的K個近鄰,以大多數(shù)近鄰的違約狀況預(yù)測該樣本的違約狀況。鄰居間距離以不同借款人相似性表示,這種相似性來源于身份信息、標(biāo)的信息等數(shù)據(jù)的相似性。另外,不同距離的近鄰權(quán)重可以設(shè)置為不同取值,使權(quán)重與距離呈現(xiàn)負相關(guān),這樣的結(jié)果將更加準(zhǔn)確。
隨機森林與Adaboost都是對決策樹模型的擴展。其一,隨機森林使用多個決策樹訓(xùn)練樣本進行預(yù)測并形成模型,通過數(shù)據(jù)、特征的隨機選取,構(gòu)建多棵決策樹,最后,由多棵決策樹的眾數(shù)決定輸出類別。在P2P借貸中,基于借款人身份信息、借款標(biāo)的等信息,隨機選取構(gòu)建多棵決策樹,構(gòu)成隨機森林,以提高預(yù)測準(zhǔn)確率。其二,Adaboost同樣是基于多棵決策樹模型的分類器模型。廣義Adaboost不僅可對決策樹模型進行強化訓(xùn)練,同時可對任何弱分類器進行強化。Adaboost首先訓(xùn)練弱分類器,最小化權(quán)重誤差函數(shù),隨后計算并更新弱分類器權(quán)重,使分類器對誤判樣例分類效果更好,直到形成最終的強分類器為止。本文將基于決策樹的Adaboost,對訓(xùn)練集訓(xùn)練不同的決策樹弱分類器模型,將所有決策樹模型集合為強分類器。
機器學(xué)習(xí)算法更符合P2P借貸交易的大數(shù)據(jù)特征,因此,從理論上推斷它也將更適合P2P借貸情境下的違約風(fēng)險預(yù)警問題分析。本文將建立上述機器學(xué)習(xí)算法,并基于“拍拍貸”平臺上的實際P2P網(wǎng)絡(luò)借貸交易數(shù)據(jù),對P2P借貸違約風(fēng)險預(yù)警準(zhǔn)確率進行實驗對比研究,進而探討各類機器學(xué)習(xí)算法用于借款人違約預(yù)測的實際效果。
數(shù)據(jù)來源于中國P2P借貸平臺之一的拍拍貸,爬取借款人身份信息、標(biāo)的信息,并隨機抽樣形成本文的數(shù)據(jù)集。全部的自變量包括借款人認證情況、職業(yè)、性別、年齡、信用等級、注冊時間、歷史還款次數(shù)、歷史違約但還清次數(shù)、出借次數(shù)、自有頭像、金額、利率、期限和標(biāo)的類型,因變量是借款人是否違約。使用相關(guān)自變量對二分類因變量進行預(yù)測。該項預(yù)測本質(zhì)上是分類問題,可以用相關(guān)機器學(xué)習(xí)算法進行分類預(yù)測。
將借款成功的借款列表分為80%的訓(xùn)練集和20%的測試集,并利用訓(xùn)練集樣本訓(xùn)練各算法模型,利用測試集樣本測試各類算法模型對P2P網(wǎng)絡(luò)借貸違約風(fēng)險的預(yù)警準(zhǔn)確率。首先,在實際數(shù)據(jù)處理過程中,由于違約標(biāo)的與非違約標(biāo)的數(shù)量不平衡,為了避免正負樣本數(shù)目不平衡,造成模型構(gòu)建及準(zhǔn)確率計算存在偏差,本文通過隨機抽樣方法,控制并確保正負樣本比例均衡。具體而言,在借款成功的借款列表中,總標(biāo)的數(shù)量為130 271條,其中違約標(biāo)的共5 157條,不違約標(biāo)的共125 114條,違約率為3.96%。因此,本文從非違約標(biāo)的中隨機抽樣提取出5 157條樣本數(shù)據(jù),與5 157條違約標(biāo)的樣本組成本文模型實證分析的數(shù)據(jù)來源,共計10 314條交易標(biāo)的數(shù)據(jù)。然后,在違約標(biāo)的與非違約標(biāo)的中各進行80%、20%的訓(xùn)練集和測試集樣本劃分,保證訓(xùn)練集和測試集內(nèi)正負樣本均為1∶1。最后,對連續(xù)變量進行歸一化處理,以保證各類機器學(xué)習(xí)算法的效率和實驗對比結(jié)果的準(zhǔn)確性。
本文構(gòu)建的風(fēng)險預(yù)警模型具體實現(xiàn)機制為:其一,針對神經(jīng)網(wǎng)絡(luò)算法,使用Keras包實現(xiàn)。主要原因在于神經(jīng)網(wǎng)絡(luò)算法涉及到大量調(diào)參步驟,而每一步的迭代次數(shù)均較高,由于Keras支持GPU計算,可節(jié)省大量調(diào)參過程中消耗的計算資源,因此,采用Keras包可有效提升神經(jīng)網(wǎng)絡(luò)算法的計算效率。其二,除神經(jīng)網(wǎng)絡(luò)外的其它算法均由scikit-learn包實現(xiàn)。
1.Logistic回歸
建立Logistic回歸模型如下:
(1)
其中y代表借款人違約概率,xi代表借款人相關(guān)信息,包括身份信息、標(biāo)的信息等。由于Logistic回歸模型目的是預(yù)測分類,因此本文不剔除顯著性較差的變量,將全部變量納入模型中,保證分類準(zhǔn)確率。
2.神經(jīng)網(wǎng)絡(luò)
在神經(jīng)網(wǎng)絡(luò)中,本文進行了最優(yōu)參數(shù)的選擇過程,這是因為神經(jīng)網(wǎng)絡(luò)的調(diào)參過程對于提高神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率及運算性能十分關(guān)鍵。
本文采用經(jīng)典的3層BP神經(jīng)網(wǎng)絡(luò)。設(shè)置最大迭代次數(shù)為1 000次,并設(shè)置了兩種激勵函數(shù)——sigmoid和relu進行對比。已有理論證明,3層BP神經(jīng)網(wǎng)絡(luò)即可逼近任意連續(xù)函數(shù),因此只需對隱含層節(jié)點數(shù)進行確定即可。神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點數(shù)經(jīng)驗公式如下:
(2)
m=log2n
(3)
(4)
其中m代表隱含層節(jié)點數(shù),n代表輸入層節(jié)點數(shù),l代表輸出層節(jié)點數(shù),α代表1~10之間的常數(shù)。經(jīng)過計算,本文神經(jīng)網(wǎng)絡(luò)節(jié)點數(shù)設(shè)置為5~18。從中選擇最佳節(jié)點數(shù)。
分別在兩種激勵函數(shù)sigmoid和relu以及不同節(jié)點數(shù)中進行選擇,不同激勵函數(shù)和節(jié)點數(shù)的準(zhǔn)確率結(jié)果如圖3和表1所示。由圖3和表1可知,激勵函數(shù)為relu、節(jié)點數(shù)為17時,效果最佳,準(zhǔn)確率達到89.9%。因此,本文采用該參數(shù)作為神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。
圖3 神經(jīng)網(wǎng)絡(luò)尋優(yōu)過程
神經(jīng)元個數(shù)準(zhǔn)確率sigmoid激勵函數(shù)relu激勵函數(shù)50.8850.87560.8740.88770.8790.87880.8680.88290.8860.889100.8850.878110.8800.887120.8930.892130.8830.885140.8800.888150.8780.894160.8870.887170.8820.899180.8810.890
3.支持向量機
核函數(shù)是支持向量機的關(guān)鍵,它將高維空間的內(nèi)積運算轉(zhuǎn)化為低維空間計算,解決高維空間“維數(shù)災(zāi)難”問題。支持向量機中可選核函數(shù)眾多,如線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)、冪指數(shù)核函數(shù)、拉普拉斯核函數(shù)、ANOVA核函數(shù)等。本文選擇兩種常用的核函數(shù)進行對比,一種是rbf徑向基函數(shù),另一種是linear線性核函數(shù)。徑向基函數(shù)是局部性較強的核函數(shù),函數(shù)作用范圍隨著其參數(shù)σ增加而減弱。線性核函數(shù)是最簡單的核函數(shù),主要用于線性可分情形,優(yōu)點是參數(shù)少、速度快。使用兩種核函數(shù)建立支持向量機模型,結(jié)果如表2所示。由數(shù)據(jù)分析結(jié)果可知,盡管linear核函數(shù)的準(zhǔn)確率較高,但由于其運行時間過長,因此,本文在綜合考慮準(zhǔn)確率與運行時間之后,選取rbf作為支持向量機的核函數(shù)進行各算法的實驗準(zhǔn)確率對比分析。
表2 支持向量機尋優(yōu)過程
4.KNN
在KNN分類算法中,鄰居數(shù)是最重要的參數(shù)之一。KNN算法中鄰居是正確分類的對象,在對待測樣本分類時,只根據(jù)最鄰近的一個或幾個“鄰居”決定該樣本點的類別。本文將鄰居數(shù)設(shè)置為從1到100,進行最佳鄰居數(shù)的尋優(yōu)。不同鄰居數(shù)的KNN算法準(zhǔn)確率如表3和圖2所示。由表3和圖4可知,鄰居數(shù)設(shè)為1時,準(zhǔn)確率最高。鄰居數(shù)遞增時,準(zhǔn)確率降低,在鄰居數(shù)為46以后,準(zhǔn)確率基本收斂于77.5%附近。因此,本文在各算法的實驗對比研究中,將KNN算法的鄰居數(shù)設(shè)定為1。
表3 KNN尋優(yōu)過程
圖4 KNN尋優(yōu)過程
5.決策樹
有兩種經(jīng)典的決策樹算法——ID3和CART算法。ID3在分枝時采用“信息增益”衡量分類集合的熵值。信息增益由信息熵與條件熵的差得出。信息熵的計算公式為:
(5)
其中D代表樣本,H為信息熵,pi表示所有樣本第i個子類的概率。
條件熵指選取某個特征后的信息熵,公式為:
(6)
其中A代表某一特征,H(D|A)為條件熵,qi表示某一特征下樣本第i個子類的概率。
信息增益為信息熵與條件熵的差,即:
g=H(D)-H(D|A)
(7)
而CART在分枝時采用“分類基尼指數(shù)”衡量分類集合的熵值?;嶂笖?shù)計算公式為:
(8)
其中Ck是D中屬于k類子集的數(shù)量。
在特征A條件下,樣本D被分為D1和D2,則基尼指數(shù)為:
(9)
基尼指數(shù)反應(yīng)的是特征劃分樣本D的不確定程度,因此在對決策樹剪枝時,采用基尼指數(shù)小的特征。
本文將兩種算法進行比較,結(jié)果見表4。由于CART算法是在ID3算法的基礎(chǔ)上提出的,由表4數(shù)據(jù)分析結(jié)果可知,CART算法的準(zhǔn)確率較高,因此,本文將采用CART算法作為決策樹分枝時的首選算法。
表4 決策樹尋優(yōu)過程
6.隨機森林
隨機森林是由不同決策樹組成的,基于決策樹中CART算法的良好性能,在隨機森林中,本文將沿用CART算法。隨機森林是從原始訓(xùn)練集中有放回隨機抽取樣本,并從所有特征中隨機選擇特征,生成新的訓(xùn)練集構(gòu)建決策樹的方法。不同決策樹最終形成一個隨機森林模型。本文將優(yōu)化特征數(shù)參數(shù),設(shè)置特征數(shù)為1到60,進行最佳特征數(shù)的尋優(yōu)。尋優(yōu)結(jié)果如表5和圖5所示。分析數(shù)據(jù)可知,當(dāng)特征數(shù)為55時,準(zhǔn)確率最高,達到91.3%,當(dāng)特征數(shù)為1時,準(zhǔn)確率最低,為81.0%。特征數(shù)從1到15時,準(zhǔn)確率有較大提高,特征數(shù)在15和56之間時,準(zhǔn)確率波動較小,基本收斂于90%附近。
綜上所述,本文通過訓(xùn)練集樣本逐步訓(xùn)練并確定了各模型的相關(guān)參數(shù)、函數(shù)、迭代次數(shù)及具體算法,并將繼續(xù)使用測試集對各機器學(xué)習(xí)算法的預(yù)警準(zhǔn)確率進行對比實驗分析,以確定各算法在P2P網(wǎng)絡(luò)借貸違約風(fēng)險預(yù)警問題上的適用性。
表5 隨機森林尋優(yōu)過程
圖5 隨機森林尋優(yōu)過程
針對上述各算法模型,經(jīng)由測試集樣本測試,發(fā)現(xiàn)對照組Logistic和實驗組中各機器學(xué)習(xí)方法準(zhǔn)確率如圖6所示。結(jié)果顯示,在實驗組中,隨機森林算法的準(zhǔn)確率最高,達到91.3%,顯著高于對照組Logistic算法的違約風(fēng)險預(yù)警準(zhǔn)確率;而KNN的準(zhǔn)確率最低,為80.5%,低于對照組Logistic算法的預(yù)警準(zhǔn)確度。
圖6 各算法模型的預(yù)警準(zhǔn)確率對比
第一,從預(yù)警準(zhǔn)確率視角而言,多數(shù)機器學(xué)習(xí)算法的預(yù)警準(zhǔn)確率均超出了基準(zhǔn)算法Logistic的預(yù)警準(zhǔn)確率,該結(jié)果表明,多數(shù)機器學(xué)習(xí)算法對P2P網(wǎng)絡(luò)借貸場景下借款人的違約風(fēng)險預(yù)警效果顯著。主要原因在于:一是Logistic算法本質(zhì)上仍屬于線性模型,而P2P借貸違約預(yù)測問題屬于非線性問題,例如決策樹算法對應(yīng)的P2P借貸多層次決策情景,因此,Logistic算法在違約風(fēng)險預(yù)警問題上的適用性較之于機器學(xué)習(xí)算法更弱,存在欠擬合問題;二是經(jīng)典計量算法使用特定的分布,例如Logistic算法使用標(biāo)準(zhǔn)Logistic分布,Probit算法使用標(biāo)準(zhǔn)正態(tài)分布,而機器學(xué)習(xí)算法并不受此限制;三是P2P網(wǎng)絡(luò)借貸交易樣本數(shù)據(jù)符合金融大數(shù)據(jù)屬性,樣本量較多,與機器學(xué)習(xí)算法的適用條件契合度更高。因此,不難看出,在P2P網(wǎng)絡(luò)借貸違約風(fēng)險預(yù)警方面,多數(shù)機器學(xué)習(xí)算法的適用性更強。然而,通過圖6所示的對比結(jié)果觀察發(fā)現(xiàn),KNN算法的預(yù)警準(zhǔn)確率較低,預(yù)警效果較差,主要原因在于:其一,KNN的分類原理不適用于預(yù)測P2P網(wǎng)絡(luò)借貸中的違約風(fēng)險。KNN主要基于尋找與待測樣本最相近的N個鄰居,依據(jù)此N個鄰居中大多數(shù)鄰居的所屬類別,判定該樣本的類別,導(dǎo)致樣本最終的分類結(jié)果僅與部分相鄰樣本相關(guān),而這一原理的出發(fā)點與P2P網(wǎng)絡(luò)借貸的樣本特征不符。其二,在P2P網(wǎng)絡(luò)借貸情景中,個體間差異較大,特征較多且分散度較高,因此,依據(jù)全部特征的距離來判斷違約并無明顯效果,該問題也是導(dǎo)致KNN算法準(zhǔn)確率較低的原因之一。其三,KNN算法不適用于樣本比例不平衡的研究情景。P2P網(wǎng)絡(luò)借貸中正負樣本的比例差別較為懸殊,盡管本文在數(shù)據(jù)處理階段盡可能控制并確保了正負樣本比例的平衡,以避免此問題對各算法預(yù)測精度的影響,然而,在實際運用階段,必將使用全部樣本作為分析數(shù)據(jù),此時,KNN的表現(xiàn)將大受影響。其四,KNN算法的計算量較大,需占用較多計算資源。
第二,從結(jié)論的可解釋性視角而言,Logistic回歸與決策樹算法的結(jié)論可解釋度較強。盡管在P2P網(wǎng)絡(luò)借貸的違約風(fēng)險預(yù)警情境下,Logistic回歸模型存在欠擬合現(xiàn)象,然而,模型中的自變量系數(shù)仍然能夠較為直觀地反映出其對因變量的影響方向和作用大小。同樣,決策樹算法較好地刻畫與描述多層次的決策判定過程,并產(chǎn)生決策規(guī)則,進而識別出對違約風(fēng)險影響作用較大的關(guān)鍵因素。
第三,從算法分析機制視角而言,一方面,在BP神經(jīng)網(wǎng)絡(luò)中,relu形式的激勵函數(shù)比sigmoid函數(shù)效果更好。該實驗結(jié)果與Glorot等人的研究結(jié)果一致[16];另一方面,隨機森林與Adaboost比決策樹模型的預(yù)警準(zhǔn)確率更高。主要原因在于:隨機森林與Adaboost算法均是基于決策樹算法提出的改進性算法模型,該實驗結(jié)果恰好說明了上述兩種算法作為決策樹模型的增強版算法,確實提高了決策樹算法的預(yù)警準(zhǔn)確率。
綜上所述,本文將上述Logistic模型及各機器學(xué)習(xí)算法的適用情況進行匯總,如表6所示。
表6 各機器學(xué)習(xí)算法適用性總結(jié)
P2P網(wǎng)絡(luò)借貸作為新興的互聯(lián)網(wǎng)金融借貸形式,為推動普惠金融的實現(xiàn)發(fā)揮了重要作用,然而,由于其存在顯著的信息不對稱現(xiàn)象,進而導(dǎo)致借款人違約問題嚴重,制約著P2P借貸業(yè)務(wù)的健康發(fā)展,因此,P2P網(wǎng)絡(luò)借貸中的違約風(fēng)險預(yù)警成為了亟待解決的關(guān)鍵問題?,F(xiàn)有研究主要使用Logistic回歸等計量方法預(yù)測借款人的違約概率,然而,Logistic回歸模型仍屬于線性模型,對P2P借貸違約預(yù)測這一多層次非線性問題的預(yù)測效果不佳,而各類機器學(xué)習(xí)算法在P2P網(wǎng)絡(luò)借貸情景中具有適用性,可對現(xiàn)有風(fēng)險預(yù)警模型進行有效補充,進而優(yōu)化P2P網(wǎng)絡(luò)借貸違約風(fēng)險預(yù)警模型。
本文基于拍拍貸平臺的實際交易數(shù)據(jù),分別使用BP神經(jīng)網(wǎng)絡(luò)、支持向量機、KNN、決策樹、隨機森林等機器學(xué)習(xí)算法對P2P借貸違約風(fēng)險進行預(yù)警,并將其與傳統(tǒng)Logistic模型進行實驗對比分析,發(fā)現(xiàn)大部分機器學(xué)習(xí)算法預(yù)警準(zhǔn)確率較高,對P2P網(wǎng)絡(luò)借貸違約預(yù)警具有較強的適用性。當(dāng)需要提高預(yù)測準(zhǔn)確率時,隨機森林等算法的預(yù)警效果較好。當(dāng)需要對模型進行解釋時,決策樹等算法效果較好。KNN算法不適于對P2P借貸違約風(fēng)險進行預(yù)警。
使用機器學(xué)習(xí)算法對P2P網(wǎng)絡(luò)借貸違約風(fēng)險進行預(yù)警,能夠有效識別風(fēng)險較高的借款人,避免因信息不對稱所引發(fā)的逆向選擇和道德風(fēng)險問題,有效降低P2P借貸違約風(fēng)險。因此,P2P網(wǎng)絡(luò)借貸平臺可考慮使用機器學(xué)習(xí)算法建立違約風(fēng)險預(yù)警模型,完善信用評價體系,警示風(fēng)險較高的借款人,引導(dǎo)出借人投資于信用狀況較好的借款人標(biāo)的項目,進而提高P2P網(wǎng)絡(luò)借貸交易過程中的信息透明度,并降低潛在的違約風(fēng)險。
本文的研究工作還可從以下方面予以擴充:第一,改進和豐富機器學(xué)習(xí)算法。例如可將循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)或全連接神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法納入對比實驗,測度并觀測各深度學(xué)習(xí)算法對P2P網(wǎng)絡(luò)借貸違約風(fēng)險的預(yù)警效果。第二,擴充機器學(xué)習(xí)算法調(diào)整參數(shù)的種類和范圍,使其更加契合P2P借貸交易的相關(guān)數(shù)據(jù)特征。第三,針對樣本集正負樣本比例不平衡等問題,可考慮嘗試使用過采樣、交叉驗證等方法進行處理,并觀測相應(yīng)的數(shù)據(jù)處理效果。
參考文獻:
[1] Wei S.Internet Lending in China:Status Quo,Potential Risks and Regulatory Options[J].Computer Law & Security Review,2015,31(6).
[2] 牛豐,楊立.基于博弈理論的P2P借貸信用風(fēng)險產(chǎn)生機制分析[J].財務(wù)與金融,2016(1).
[3] Liu D,Brass D J,Lu Y,et al.Friendships in Online Peer-to-Peer Lending[J].MIS Quarterly,2015,39(3).
[4] Barasinska N,Sch?fer D.Is Crowdfunding Different? Evidence on the Relation between Gender and Funding Success from a German Peer-to-Peer Lending Platform[J].German Economic Review,2014,15(4).
[5] Lin M,Prabhala N R,Viswanathan S.Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].Management Science,2013,59(1).
[6] Byungjoon Yoo,Seongmin Jeon,Hyunmyung Do.Information Asymmetry Issues in Online Lending :A Case Study of P2P Lending Site[J].The Journal of Society for E-business Studies,2010,15(4).
[7] Li J,Hsu S,Chen Z,et al.Risks of P2P Lending Platforms in China:Modeling Failure Using a Cox Hazard Model[J].Chinese Economy,2016,49(3).
[8] Duarte J,Siegel S,Young L.Trust and Credit:The Role of Appearance in Peer-to-Peer Lending[J].Review of Financial Studies,2012,25(8).
[9] Li S,Qiu J,Lin Z,et al.Do Borrowers Make Homogeneous Decisions in Online P2P Lending Market? An Empirical Study of PPDai in China[C]// The 8th International Conference on Service Systems and Service Management,IEEE,2011.
[10] 廖理,李夢然,王正位,等.觀察中學(xué)習(xí):P2P網(wǎng)絡(luò)投資中信息傳遞與羊群行為[J].清華大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015(1).
[11] Emekter R,Tu Y.Evaluating Credit Risk and Loan Performance in Online Peer-to-Peer (P2P) Lending[J].Applied Economics,2015,47(1).
[12] 廖理,吉霖,張偉強.語言可信嗎?借貸市場上語言的作用——來自P2P平臺的證據(jù)[J].清華大學(xué)學(xué)報:自然科學(xué)版,2015(4).
[13] Wang X,Zhang D,Zeng X,et al.A Bayesian Investment Model for Online P2P Lending[J].Communications in Computer & Information Science,2013(7).
[14] Zhao H,Wu L,Liu Q,et al.Investment Recommendation in P2P Lending:A Portfolio Perspective with Risk Management[C]// 2014 International Conference on Data Mining,IEEE,2015.
[15] Zhang Y,Jia H,Diao Y,et al.Research on Credit Scoring by Fusing Social Media Information in Online Peer-to-Peer Lending[J].Procedia Computer Science,2016,91(4).
[16] Glorot X,Bordes A,Bengio Y.Deep Sparse Rectifier Neural Networks[J].Journal of Machine Learning Research,2012(15).