羅雅晨
?
類別不平衡的集成學(xué)習(xí)預(yù)測P2P網(wǎng)貸信用風(fēng)險
羅雅晨
(同濟大學(xué)經(jīng)濟與管理學(xué)院,上海 201804)
國內(nèi)的P2P網(wǎng)貸行業(yè)經(jīng)監(jiān)管整治后呈現(xiàn)出越來越重視線上風(fēng)控的趨勢,機器學(xué)習(xí)等技術(shù)被廣泛應(yīng)用于構(gòu)建信用評價體系。而違約的和正常還款的樣本類別不平衡是建模的一大難點,有針對性地構(gòu)建了一種比例平衡的隨機森林模型(Ratio-balanced Random Forest)。模型對多數(shù)類進行多次欠采樣,和少數(shù)類合并生成多個比例均衡的樣本子集,再融合隨機子空間添加屬性擾動,最后利用隨機森林構(gòu)建集成的分類器模型。在拍拍貸真實借貸數(shù)據(jù)集上與機器學(xué)習(xí)單模型、集成模型和平衡的集成模型三類方法做對比實驗,結(jié)果驗證了該模型的有效性,并指出平衡的集成模型方法在解決不平衡分類問題上的優(yōu)越性。
P2P網(wǎng)絡(luò)借貸;信用風(fēng)險;違約預(yù)測;類別不平衡
隨著大數(shù)據(jù)技術(shù)的高速發(fā)展,傳統(tǒng)金融也更多融入了互聯(lián)網(wǎng)思維,這其中的典型就是P2P網(wǎng)絡(luò)借貸。P2P是“Peer to Peer”的縮寫,即個人對個人的借貸,指出借人與借款人之間通過網(wǎng)絡(luò)借貸平臺而非金融機構(gòu)產(chǎn)生的無抵押貸款[1]。
截至2018-04,中國累計P2P網(wǎng)貸平臺數(shù)量達到6 114個,但尚在運營的只有1 877個,這是由于2016年政府出臺了一系列管控政策,淘汰了一大批資質(zhì)不全的問題平臺,并指出平臺不得提供擔(dān)保,應(yīng)秉承小額分散原則,采用信息中介這樣的發(fā)展模式。
在這種發(fā)展模式下,平臺對于借款標的的風(fēng)險控制變得尤為重要。平臺風(fēng)控系統(tǒng)對每筆借款是否會違約做出預(yù)測,并決定是否審核通過,符合機器學(xué)習(xí)中的二分類問題。于是各種統(tǒng)計學(xué)方法大量被用于P2P網(wǎng)貸領(lǐng)域。王會娟以人人貸為例,使用因子分析和回歸模型分析了信用認證指標和機制及其對借貸行為的影響[2]。進一步的,機器學(xué)習(xí)方法也被逐漸應(yīng)用到該分類預(yù)測問題中。裴平則利用了機器學(xué)習(xí)中的貝葉斯網(wǎng)絡(luò)建立借款人信用評價模型[3]。
但是由于違約貸款和正常還款貸款的樣本數(shù)量是高度不平衡的,僅考慮分類準確率是不全面的,而直接套用一般的機器學(xué)習(xí)模型更有可能導(dǎo)致實驗失敗。類別不平衡問題已被列為數(shù)據(jù)挖掘的十大最有挑戰(zhàn)性難題之一。因此近期有學(xué)者針對此問題提出一些方法,尤其是集成學(xué)習(xí)。Gang Wang提出結(jié)合Bagging和隨機子空間的兩種集成模型,并在UCI德國和澳大利亞信用數(shù)據(jù)集上驗證[4],陳啟偉等提出一種考慮代價敏感和類別不平衡并引入多種參數(shù)擾動的集成學(xué)習(xí)的模型,給出用戶信用分數(shù)[5],但其實驗在UCI德國數(shù)據(jù)集上進行,未在中國平臺上驗證。
可知在不平衡的中國P2P網(wǎng)貸數(shù)據(jù)建立信用評價模型方面研究還很少,因此本文致力于彌補這一缺口,有針對性地構(gòu)建了一種比例平衡的隨機森林模型(Ratio-balanced Random Forest)。在拍拍貸真實借貸數(shù)據(jù)集上與機器學(xué)習(xí)單模型、集成模型和平衡的集成模型這三類方法做對比實驗,并取得較好的結(jié)果。
目前解決類別不平衡問題的方法主要分為數(shù)據(jù)層面和算法層面。在數(shù)據(jù)層面主要是基于過采樣和欠采樣的重采樣技術(shù),在算法層面結(jié)合了代價敏感的分類算法和集成學(xué)習(xí)。
在數(shù)據(jù)預(yù)處理過程中,重采樣是一種常用的方法,即對不平衡的兩類數(shù)據(jù)重新進行人工采樣使之達到平衡,主要包括過采樣和欠采樣。對少數(shù)類的過采樣可以通過簡單復(fù)制原始樣本,使少數(shù)類樣本量與多數(shù)類持平。欠采樣技術(shù)主要也分為兩類,一類是簡單隨機刪除多數(shù)類中的樣本,使兩類樣本趨于均衡;另一類通過各種算法進行有選擇性的拋棄樣本。
Boosting是一種串行地將一系列弱學(xué)習(xí)器組合成強學(xué)習(xí)器的集成學(xué)習(xí)算法。通過在每輪調(diào)節(jié)樣本分布,提高被錯分樣本的權(quán)重,使其在下一輪訓(xùn)練中更有可能被抽取,如此重復(fù)從而得到最終的加權(quán)分類器。
Bagging是另一種并行的集成方法?;赽ootstrap(自助采樣法,即有放回的抽樣)抽取個訓(xùn)練集,相應(yīng)構(gòu)造個基學(xué)習(xí)器,再將這些基學(xué)習(xí)器組合,對于分類任務(wù),最后通過簡單投票得出結(jié)果[6]。如果在Bagging構(gòu)造基學(xué)習(xí)器之前或之中對樣本進行重采樣使之平衡,則可以得到不同平衡的集成學(xué)習(xí)算法。這類算法每個平衡的子集只含部分數(shù)據(jù),但從全局來看,卻不會丟失信息。
近兩年,集成學(xué)習(xí)方法開始被用來解決P2P網(wǎng)貸中的類別不平衡問題。例如陳啟偉等提出一種考慮代價敏感和不平衡的多種參數(shù)擾動的結(jié)合GBDT和Bagging的模型,做用戶違約概率的回歸預(yù)測[5]。
平衡的隨機森林(Balanced Random Forest ,BRF[7])是基于隨機森林算法,針對類別不平衡問題做出的改進算法,過程描述如下:①對于隨機森林的每輪迭代,對少數(shù)類進行bootstrap采樣,相應(yīng)地從多數(shù)類中有放回的取樣等量樣本,組成樣本子集。②從樣本子集中生成不剪枝的CART分類決策樹,在樹的每個節(jié)點劃分時,只從隨機挑選的部分屬性集里尋找最優(yōu)劃分屬性,而不是搜索屬性全集。③重復(fù)以上兩步直至規(guī)定時間,整合各決策樹預(yù)測結(jié)果并做出最終預(yù)測。集成學(xué)習(xí)追求基分類器的“好而不同”[6],決策樹在大多數(shù)分類任務(wù)中都是一個不錯的學(xué)習(xí)器。BRF的bootstrap抽樣帶來數(shù)據(jù)樣本擾動,劃分節(jié)點時帶來屬性擾動。又由于決策樹是數(shù)據(jù)敏感的,所以不同的樣本集會生成很不相似的決策樹,因此能保證基分類器的多樣性。但BRF模型也存在一些缺點,bootstrap采樣會帶來一些重復(fù)樣本,而剩余的包外樣本沒有得到充分利用,結(jié)合P2P網(wǎng)貸情景來看,違約樣本量本就稀少,再舍棄一部分可能造成關(guān)鍵信息丟失,從而弱化基分類器。再加之BRF初始構(gòu)建樣本子集時為重采樣至兩類平衡,但會改變數(shù)據(jù)本身的分布,過度突顯少數(shù)類的特征。尤其在信貸場景下,借款的批準與否以利潤為導(dǎo)向,而不是單純預(yù)測準確率導(dǎo)向,如果為了盡量減少違約風(fēng)險而拒絕大量正常借款,也會降低整體利潤。
鑒于現(xiàn)有研究存在以上問題,本文基于BRF模型,做出如下改進:①為了使基分類器多樣化,在生成每棵決策樹之前,運用隨機子空間(Random subspace method,RSM[8])抽取部分特征而不是用所有特征來訓(xùn)練每個分類器,添加了輸入屬性擾動,也可以進一步減小訓(xùn)練模型時的搜索空間,節(jié)省時間和內(nèi)存。②將欠采樣出類別平衡的子集改為構(gòu)建不同類別比例的子集,增加輸入數(shù)據(jù)樣本的擾動。可根據(jù)具體應(yīng)用實例調(diào)整類別比例值,使分類器具有偏好,調(diào)和對類別特征的抓取關(guān)注度。③使用Bagging并行地集成CART決策樹,所以算法的時間復(fù)雜度與訓(xùn)練單棵決策樹為同數(shù)量級。在保證高預(yù)測性能的同時,簡化模型框架,使之具有更強的可用性和更廣的適用范圍。
本文提出的比例平衡的隨機森林模型(Ratio-balanced Random Forest)框架如圖1所示,算法過程偽代碼如表1所示。
圖1 比例平衡的隨機森林模型(Ratio-balanced Random Forest)框架圖
本文采用拍拍貸平臺上2016-09—2016-10發(fā)布的共99 215條借款標的信息。包含Listing Id、借款金額、借款期限、借款利率、借款成功日期、初始評級、借款類型、是否首標、年齡、性別、手機認證、戶口認證、視頻認證、學(xué)歷認證、征信認證、淘寶認證、歷史成功借款次數(shù)、歷史成功借款金額、總待還本金、歷史正常還款期數(shù)、歷史逾期還款期數(shù)、標當(dāng)前逾期天數(shù)、標當(dāng)前狀態(tài),共計23個屬性指標。在輸入模型訓(xùn)練之前,應(yīng)對樣本進行數(shù)據(jù)清洗,清洗后的數(shù)據(jù)集共有98 597個樣本,其中正例96 816個,反例1 781個。樣本不均衡比為54∶1,屬于類別高度不平衡的數(shù)據(jù)集。
對于類別不平衡的分類問題,單純使用錯誤率、精度、查準率、查全率等指標是不恰當(dāng)?shù)?。例如一個數(shù)據(jù)集含正類樣本98個,反類樣本2個,那么即使分類器“傻瓜式”將全部樣本分類為正類,也可以得到98%的準確率。因此本文除了采用常規(guī)的召回率和正確率,也會采用F1、G-mean和AUC作為模型分類能力評價指標,同時記錄模型訓(xùn)練時間作為模型運行能力評價指標。
表1 比例平衡的隨機森林模型算法過程偽代碼
算法:比例平衡的隨機森林模型 輸入:多數(shù)類全集N,少數(shù)類全集P,|N|<|P|, 欲合成的新子集數(shù)n, 采樣后的多數(shù)類樣本比少數(shù)類比例r, 屬性抽取比例k, 過程: For i = 1,2,…,n: 從N中隨機抽取Ni,使Ni=rp; Di=Ni+P;#合并生成新子集 ; #抽取屬性生成隨機子空間訓(xùn)練子集 ; #用隨機森林中的決策樹訓(xùn)練基分類器 End 輸出: 簡單投票法集成學(xué)習(xí)器 輸出預(yù)測類別
G-mean是一種追求真正例率和真反例率都高的指標,在不平衡的二分類問題評估中區(qū)分能力優(yōu)秀:
為了驗證本文提出的比例平衡的隨機森林模型(記為R-Balanced RF)在中國P2P網(wǎng)貸信用評價上的應(yīng)用,實驗采用留出法驗證,將樣本總體劃分為70%訓(xùn)練集和30%驗證集。實驗比較本文模型與現(xiàn)有常用的信用風(fēng)險預(yù)測模型結(jié)果。各類模型的具體選擇如表2所示。
表2 各類模型的具體選擇
類型模型相關(guān)文獻 單模型決策樹(DT)Arminger G. et al.(1997)[9] 邏輯回歸(LR)Arminger G. et al.(1997)[9] 樸素貝葉斯(NB)Lessmann S. rt al.(2015)[10] 支持向量機(SVM)Chow et al.(2018)[11] 集成模型AdaboostChow et al.(2018)[11] GBDT朱夢瑩等(2016)[12] BaggingAbellan and Masegosa(2010)[13] 隨機森林(RF)Raquel Florez-Lopez et al.(2015)[14] 平衡的集成模型Balanced BaggingXu-Ying Liu et al.(2009)[15] Balanced Bagging+GBDT陳啟偉等(2017)[5] Balanced RFChao Chen(2004)[7] R-Balanced RF本文
12個分類模型在驗證集上測試結(jié)果如表3所示。
表3 12個分類模型在驗證集上測試結(jié)果
模型召回率(多數(shù)類)召回率(少數(shù)類)正確率F1AUCG-mean用時/s DT0.990.560.980.9840.7770.7470.38 LR1.000.000.980.9740.5000.000*1.76 NB0.990.020.970.9690.5020.124*0.04 SVM1.000.440.990.9870.7190.662511.82 Adaboost1.000.000.980.9740.5000.000*2.03 GBDT1.000.010.980.9740.5040.088*5.05 Bagging1.000.000.980.9740.5000.000*0.15 RF1.000.420.990.9860.6960.6270.63 Balanced Bagging0.730.830.730.8290.7790.7772.27 Balanced Bagging+GBDT0.780.790.780.8600.7830.783146.51 Balanced RF0.740.800.740.8350.7690.7681.86 R-Balanced RF0.900.690.890.9300.7930.7861.80
在4個單模型中,LR和NB在高度不均衡的數(shù)據(jù)集上失效,而SVM的Accuracy和F1值最高,但花費時間過多,在數(shù)據(jù)量很大時不適宜做基分類器。實驗表明單棵決策樹是一個具有一定判別能力的弱學(xué)習(xí)器,又由于其易受擾動的特性,使其符合集成學(xué)習(xí)對于基學(xué)習(xí)器具有準確性和多樣性的要求。
在集成學(xué)習(xí)模型中,Adaboost,GBDT和Bagging這3種在各領(lǐng)域應(yīng)用頗廣的經(jīng)典模型均失效(用時加*號列),所以機器學(xué)習(xí)單模型和集成學(xué)習(xí)模型在未改造時均不適宜進行網(wǎng)貸違約預(yù)測。
當(dāng)賦予集成學(xué)習(xí)器處理不均衡數(shù)據(jù)的能力時,其性能均得到大幅提升。平衡的集成學(xué)習(xí)模型相對于經(jīng)典機器學(xué)習(xí)模型,對少數(shù)類的Recall率提高很多,但對多數(shù)類的Recall率則有下降,造成正確率的下降。本文的R-Balanced RF模型在顯著提高對少數(shù)類的識別能力的同時,將對多數(shù)類的判別仍保持在一個較高的水平上,從而保證了整體的正確率。
隨著P2P網(wǎng)貸領(lǐng)域線上模式越來越重要,機器學(xué)習(xí)方法突顯優(yōu)勢。本文著眼于中國網(wǎng)貸平臺特點和借款違約與正常還款的樣本類別不平衡這一難點,總結(jié)前人的研究,針對性提出一種比例平衡的隨機森林模型。模型采用欠采樣的方法得到多個接近均衡比例的樣本子集,并引入樣本擾動和參數(shù)擾動,再進行隨機森林的集成學(xué)習(xí)。實驗比較了3類模型的預(yù)測及運行性能,得出平衡的集成學(xué)習(xí)方法效果更好的結(jié)論,也證實本模型分類預(yù)測更準確。
從該研究中可以得到如下啟示:①類別不平衡問題在實際應(yīng)用中很常見,在應(yīng)用機器學(xué)習(xí)方法時可采用本文結(jié)論靈活解決。②雖然我國P2P平臺缺少硬性個人信用數(shù)據(jù),但充分挖掘海量的相關(guān)數(shù)據(jù)也可以達到很高的精確度。
未來的研究方向可從以下幾個方面著手:①P2P網(wǎng)貸領(lǐng)域信息不對稱性高,羊群效應(yīng)顯著,如何基于此構(gòu)建模型分析投資人決策心理。②如何自動化地制訂投資組合,幫助投資人分散風(fēng)險。
[1]M.lin,N.R.Prabhala,S.Viswanathan.Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].INFORMS,2013(1).
[2]王會娟,廖理.中國P2P網(wǎng)絡(luò)借貸平臺信用認證機制研究——來自“人人貸”的經(jīng)驗證據(jù)[J].中國工業(yè)經(jīng)濟,2014(4).
[3]裴平,郭永濟.基于貝葉斯網(wǎng)絡(luò)的P2P網(wǎng)貸借款人信用評價模型[J].中國經(jīng)濟問題,2017(2).
[4]G.Wang,J.Ma,L.Huang,et al.Two credit scoring models based on dual strategy ensemble trees[J].Knowledge-Based Systems,2012(26):61-68.
[5]陳啟偉,王偉,馬迪,等.基于Ext-GBDT集成的類別不平衡信用評分模型計算機應(yīng)用研究[J] 2018(2):421-427.
[6]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[7]C.Chen,A.Liaw,L.Breiman.Using Random Forest to Learn Imbalanced Data.http://www.stat.berkeley.edu/tech?-reports/666.pdf.2004.
[8]T.K.Ho.The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence,1998(9).
[9]G. Arminger,D. Enache,T. Bonne.Analyzing credit risk data:A comparison of logistic discrimination,classification tree analysis, and feedforward networks[J].Social Science Electronic Publishing,1997(1).
[10]S.Lessmann,B.Baesens,H.-V.Seow,et al. Benchmarking state-of-the-art classification algorithms for credit scoring:An update of research, European Journal of Operational Research[J].European Journal of Operational Research,2015(1).
[11]J. C. Chow.Analysis of Financial Credit Risk Using Machine Learning[J].Papers,2018(2).
[12]朱夢瑩,鄭小林,王朝暉.基于風(fēng)險和剩余價值的在線 P2P借貸投資推薦方法[J].計算機研究與發(fā)展,2016(12):2708-2720.
[13]J.Abellán,A.R.Masegosa.Bagging Decision Trees on Data Sets with Classification Noise[J].In International Conference on Foundations of Information and Knowledge Systems,2010(2):248-265.
[14]R.Florez-Lopez,J.M.Ramon-Jeronimo.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment. A correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015(13):5737-5753.
[15]X.Y.Liu,J.Wu,Z.H.Zhou.Exploratory undersampling for class-imbalance learning[J].IEEE Transactions on Systems Man & Cybernetics Part B,2009(4):539-550.
2095-6835(2018)24-0001-04
F724.6;F832.4
A
10.15913/j.cnki.kjycx.2018.24.001
羅雅晨(1994—),女,安徽滁州人,碩士研究生,研究方向為數(shù)據(jù)挖掘與機器學(xué)習(xí)。
〔編輯:嚴麗琴〕