鐘華星
【摘要】針對(duì)金融借貸數(shù)據(jù)存在的較嚴(yán)重的類別不平衡問題,構(gòu)建基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型。作為一種集成學(xué)習(xí)方法,RUSBoost算法利用欠采樣實(shí)現(xiàn)了訓(xùn)練集的類別均衡,同時(shí)又通過對(duì)基學(xué)習(xí)器的獨(dú)立采樣有效克服了因欠采樣而造成的信息丟失問題,從而實(shí)現(xiàn)了對(duì)類別不平衡數(shù)據(jù)的較強(qiáng)適應(yīng)能力。基于某網(wǎng)絡(luò)借貸平臺(tái)的金融大數(shù)據(jù),首次將RUSBoost算法應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè),同時(shí)也將隨機(jī)森林、決策樹以及支持向量機(jī)等數(shù)據(jù)挖掘方法分別應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè)問題,并與傳統(tǒng)的Logistic回歸方法和最小二乘模型進(jìn)行對(duì)比分析。從實(shí)驗(yàn)結(jié)果來看,絕大部分?jǐn)?shù)據(jù)挖掘模型的預(yù)測(cè)性能要明顯優(yōu)于傳統(tǒng)模型,而基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型又明顯優(yōu)于其他數(shù)據(jù)挖掘模型。
【關(guān)鍵詞】集成學(xué)習(xí);數(shù)據(jù)挖掘;違約風(fēng)險(xiǎn);網(wǎng)絡(luò)借貸
【中圖分類號(hào)】F832.4 ? ? ?【文獻(xiàn)標(biāo)識(shí)碼】A ? ? ?【文章編號(hào)】1004-0994(2020)10-0074-7
一、引言
信息不對(duì)稱是導(dǎo)致金融市場(chǎng)效率不高、風(fēng)險(xiǎn)積聚的重要原因之一。而在新技術(shù)條件下,金融行業(yè)積累、沉淀了海量的多源異構(gòu)數(shù)據(jù)。因此,有必要深入研究如何通過大數(shù)據(jù)技術(shù)緩解金融市場(chǎng)中的信息不對(duì)稱問題,提升金融市場(chǎng)效率。在此背景下,本文研究了數(shù)據(jù)挖掘方法,尤其是RUSBoost算法在信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域的應(yīng)用。
金融大數(shù)據(jù)通常具有模式復(fù)雜、維度較高、非線性較強(qiáng)、數(shù)據(jù)類型較多等特點(diǎn),而傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)估方法(包括Logistic回歸、OLS模型等)并不能很好地適應(yīng)上述數(shù)據(jù)特征。同時(shí),傳統(tǒng)方法在處理海量、高維數(shù)據(jù)時(shí)還面臨計(jì)算復(fù)雜度較高的問題。但數(shù)據(jù)挖掘方法可以通過模型選擇和參數(shù)調(diào)整適應(yīng)不同特點(diǎn)的數(shù)據(jù),例如:通過特征選擇和降維學(xué)習(xí)可以高效地處理高維數(shù)據(jù)。此外,利用數(shù)據(jù)挖掘方法在建模時(shí)可以引入更多維度的異構(gòu)信息。信用風(fēng)險(xiǎn)的分析評(píng)估對(duì)于提升金融中介效率、控制和預(yù)防金融風(fēng)險(xiǎn)具有重要意義。其中,網(wǎng)絡(luò)借貸的違約風(fēng)險(xiǎn)一直是近幾年社會(huì)關(guān)注的焦點(diǎn)問題。本文將利用某網(wǎng)絡(luò)借貸平臺(tái)數(shù)據(jù),分別構(gòu)建基于RUSBoost算法、隨機(jī)森林、決策樹以及SVM算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型,并且將上述各數(shù)據(jù)挖掘模型與傳統(tǒng)的Logistic回歸方法和最小二乘模型(OLS)進(jìn)行對(duì)比分析。本文首次將RUSBoost算法應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè),從實(shí)驗(yàn)結(jié)果來看,該算法取得了不錯(cuò)的效果。
正常情況下,大部分網(wǎng)絡(luò)借貸平臺(tái)的違約率都在5%以內(nèi)。這意味著在所獲得的數(shù)據(jù)集中只有不到5%的樣本是違約數(shù)據(jù),剩余95%以上的樣本都是未違約數(shù)據(jù)。在將數(shù)據(jù)挖掘方法應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè)的過程中,上述類別不平衡(class-imbalance)問題是影響算法性能的主要因素之一。
應(yīng)對(duì)類別不平衡問題的常用方法主要有兩類[1] :一種是“欠采樣”(undersampling),即從樣本數(shù)量較大的類別中去除一部分樣本數(shù)據(jù),使得類別分布更均衡;另一種是“過采樣”(oversampling),即通過各種二次采樣方法增加某些類別的樣本數(shù)量。欠采樣方法的最大缺點(diǎn)是因舍棄樣本數(shù)據(jù)而丟失了部分信息[2] ,優(yōu)點(diǎn)是簡(jiǎn)化了模型的訓(xùn)練過程,縮短了訓(xùn)練時(shí)間。過采樣方法不存在信息丟失問題,但頻繁地重復(fù)采樣不僅導(dǎo)致數(shù)據(jù)集規(guī)模上升、模型訓(xùn)練的時(shí)間成本增加,也容易造成嚴(yán)重的過擬合問題[3] 。本文所采用的RUSBoost算法[4] 是一種結(jié)合了欠采樣方法與Boosting算法[5] 的混合算法。
二、文獻(xiàn)綜述
在信用風(fēng)險(xiǎn)研究領(lǐng)域,尤其是針對(duì)借款人的違約風(fēng)險(xiǎn)預(yù)測(cè)問題,主要存在兩類方法:一類是以Logistic回歸、Probit模型以及OLS等為代表的傳統(tǒng)方法;另一類是近幾年才開始逐步流行的數(shù)據(jù)挖掘方法,包括隨機(jī)森林、決策樹以及SVM算法等。目前的多數(shù)研究仍以經(jīng)典的傳統(tǒng)方法為主,但傳統(tǒng)方法對(duì)數(shù)據(jù)分布有嚴(yán)格的假設(shè)前提[6] ,這限制了傳統(tǒng)方法的預(yù)測(cè)效果,使得在大多數(shù)情況下傳統(tǒng)方法的準(zhǔn)確度低于數(shù)據(jù)挖掘方法[7] 。
因此,現(xiàn)在出現(xiàn)了將傳統(tǒng)方法與機(jī)器學(xué)習(xí)方法相結(jié)合的新趨勢(shì)。Khandani等[8] 將CART(Classification And Regression Tree)算法與非參數(shù)估計(jì)方法相結(jié)合,構(gòu)建了非線性的違約風(fēng)險(xiǎn)預(yù)測(cè)模型,從而利用交易數(shù)據(jù)和征信數(shù)據(jù)預(yù)測(cè)信用卡持有者的逾期和違約情況。Tsai等[9] 針對(duì)消費(fèi)者信用評(píng)級(jí)問題,設(shè)計(jì)和比較了幾種不同的統(tǒng)計(jì)回歸方法與機(jī)器學(xué)習(xí)方法相結(jié)合的方式,最后研究發(fā)現(xiàn)基于Logistic回歸與神經(jīng)網(wǎng)絡(luò)的混合模型預(yù)測(cè)準(zhǔn)確率最高。
近年來,數(shù)據(jù)挖掘方法被越來越多地應(yīng)用于信用風(fēng)險(xiǎn)領(lǐng)域。Huang等[10] 嘗試采用SVM算法對(duì)信用卡進(jìn)行評(píng)分,而Lee[11] 則將SVM算法應(yīng)用于企業(yè)信用評(píng)級(jí),并且通過交叉驗(yàn)證實(shí)驗(yàn)證明了該方法的性能優(yōu)于傳統(tǒng)的統(tǒng)計(jì)回歸方法。方匡南等[12,13] 首次將非參數(shù)隨機(jī)森林分類方法分別應(yīng)用于信用卡的信用風(fēng)險(xiǎn)評(píng)估以及住房貸款的違約風(fēng)險(xiǎn)評(píng)估,實(shí)驗(yàn)表明該方法的預(yù)測(cè)準(zhǔn)確率明顯高于Logitic模型等其他方法。呂勁松等[14] 針對(duì)商業(yè)銀行信貸資產(chǎn)質(zhì)量審計(jì)問題,通過將屬性選擇、決策樹和SVM算法相結(jié)合,可以部分識(shí)別影響銀行資產(chǎn)質(zhì)量的貸款記錄。針對(duì)網(wǎng)絡(luò)借貸的違約風(fēng)險(xiǎn)預(yù)測(cè)問題,范超等[15] 以及鄒欣[16] 分別比較了不同數(shù)據(jù)挖掘方法和統(tǒng)計(jì)回歸模型在預(yù)測(cè)性能上的優(yōu)劣,并且分析了影響借款人違約的主要因素。
總之,目前基于數(shù)據(jù)挖掘方法的信用風(fēng)險(xiǎn)研究并不多,但由于對(duì)樣本數(shù)據(jù)和應(yīng)用場(chǎng)景的限制較少,使得多數(shù)情況下數(shù)據(jù)挖掘方法的性能要優(yōu)于經(jīng)典的統(tǒng)計(jì)回歸方法[7] 。而國內(nèi)在這方面的研究起步較晚,未來將有廣闊的發(fā)展空間。
三、基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型
針對(duì)樣本數(shù)據(jù)存在的嚴(yán)重的類別分布不平衡問題,本文將利用RUSBoost算法來構(gòu)建違約風(fēng)險(xiǎn)預(yù)測(cè)模型。該算法通過欠采樣使得訓(xùn)練數(shù)據(jù)的類別分布更均衡,同時(shí)縮短了訓(xùn)練時(shí)間。此外,由于每個(gè)基學(xué)習(xí)器的訓(xùn)練集都是獨(dú)立采樣獲得的,因而該算法可以有效克服因欠采樣而造成的信息丟失問題。已有研究也表明,相較于其他算法而言,RUSBoost算法是一種更簡(jiǎn)潔、高效的方法,可以更好地適應(yīng)類別不平衡問題[4] 。但目前在信用風(fēng)險(xiǎn)領(lǐng)域還沒有相關(guān)研究,本文首次將該算法應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè)。
RUSBoost算法是一種結(jié)合了欠采樣方法與Boosting的混合算法[4] 。Boosting是一種將多個(gè)簡(jiǎn)單的基學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法[5] ,最常用的Boosting方法是Freund等[17] 提出的AdaBoost算法。本文中的RUSBoost算法亦是基于AdaBoost算法構(gòu)建的。RUSBoost算法首先利用初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器;再根據(jù)當(dāng)前基學(xué)習(xí)器的訓(xùn)練誤差調(diào)整每個(gè)訓(xùn)練樣本的分布權(quán)重,通過增大被誤分類樣本的權(quán)重,使其在后續(xù)訓(xùn)練過程中獲得更多關(guān)注;然后利用調(diào)整后的樣本訓(xùn)練出下一個(gè)基學(xué)習(xí)器;如此反復(fù)迭代,直至生成T個(gè)基學(xué)習(xí)器;最后將根據(jù)上述T個(gè)基學(xué)習(xí)器的加權(quán)投票結(jié)果來預(yù)測(cè)未標(biāo)記樣本。
RUSBoost算法的流程如圖1所示。首先,所有樣本的分布初始化為1/m;其次,利用欠采樣方法生成訓(xùn)練集St',并且通過對(duì)St'中各樣本的原有權(quán)重進(jìn)行歸一化處理,以獲得新分布Λt';然后,在訓(xùn)練集St'和分布Λt'下訓(xùn)練獲得基學(xué)習(xí)器ht,并且更新最優(yōu)權(quán)重αt和樣本分布Λt+1,以用于下次迭代;最終通過T次迭代,輸出全部基學(xué)習(xí)器的加權(quán)線性組合。在迭代過程中,RUSBoost算法通過調(diào)整樣本權(quán)重的分布(即增加被誤分類樣本的權(quán)重)來提升后續(xù)基學(xué)習(xí)器的準(zhǔn)確率。
四、其他違約風(fēng)險(xiǎn)預(yù)測(cè)模型
除了RUSBoost算法,本文還分別利用隨機(jī)森林、決策樹以及SVM算法等數(shù)據(jù)挖掘方法構(gòu)建對(duì)應(yīng)的違約風(fēng)險(xiǎn)預(yù)測(cè)模型,以比較各類方法的性能。
1. 隨機(jī)森林。隨機(jī)森林是由Breiman[18] 提出的一種基于Bagging策略的并行式集成學(xué)習(xí)方法。它通過T次隨機(jī)采樣獲得T個(gè)不同的訓(xùn)練集,并且基于每個(gè)訓(xùn)練集訓(xùn)練出對(duì)應(yīng)的基學(xué)習(xí)器,最后通過投票或者平均的方法集成上述T個(gè)基學(xué)習(xí)器的輸出結(jié)果。隨機(jī)森林一般以決策樹作為基學(xué)習(xí)器,并且在訓(xùn)練過程中引入了隨機(jī)屬性選擇,即:在每個(gè)結(jié)點(diǎn)決策樹會(huì)首先從屬性集中隨機(jī)選擇出一個(gè)候選子集,然后再從上述候選子集中選擇一個(gè)最優(yōu)屬性作為決策樹的一個(gè)劃分結(jié)點(diǎn)。
與傳統(tǒng)決策樹相比,隨機(jī)森林通過引入屬性擾動(dòng)增加了基學(xué)習(xí)器的多樣性,使得其集成后的泛化性能有顯著提升。
2. 決策樹。決策樹是通過屬性測(cè)試構(gòu)建出一棵樹模型,一般以信息增益為準(zhǔn)則來選擇最優(yōu)屬性。假設(shè)數(shù)據(jù)全集D在屬性a上取值為ai的樣本集為Di,樣本數(shù)量為|Di|,而D中第k類樣本占全部樣本的比例為pk,則對(duì)數(shù)據(jù)集D按照屬性q進(jìn)行劃分后的信息增益定義為:
式(13)表示數(shù)據(jù)集的信息熵。信息增益越大,說明按照該屬性劃分后數(shù)據(jù)集的類別純度提升越大。所以,決策樹模型在每個(gè)結(jié)點(diǎn)會(huì)選擇信息增益最大的屬性進(jìn)行劃分。
本文采用C4.5決策樹算法[19] 構(gòu)建對(duì)應(yīng)的違約風(fēng)險(xiǎn)預(yù)測(cè)模型。該算法以增益率為準(zhǔn)則來選擇最優(yōu)屬性,其定義為:
該式表征了屬性a在不同取值下的熵。C4.5算法將先過濾出信息增益高于平均值的屬性,再從上述候選屬性集中選擇增益率最高的屬性。這樣可以避免算法偏好于取值數(shù)目較多的屬性。
3. 支持向量機(jī)。支持向量機(jī)[20] 首先用核函數(shù)將樣本數(shù)據(jù)映射到某個(gè)高維空間,然后通過構(gòu)造最優(yōu)超平面實(shí)現(xiàn)高維空間上的線性分類。本文采用高斯核函數(shù)構(gòu)建違約風(fēng)險(xiǎn)預(yù)測(cè)模型,其定義為:
其中,σ>0為高斯核的帶寬。
五、數(shù)據(jù)描述與變量說明
1. 數(shù)據(jù)描述。本文研究的樣本數(shù)據(jù)來源于網(wǎng)絡(luò)借貸平臺(tái)“人人貸”2010年10月 ~ 2018年5月發(fā)布的借款訂單數(shù)據(jù)。該初始樣本包含了1358004個(gè)借款訂單,涉及1132918個(gè)借款人。所有訂單的借款額以及借款期限的分布情況分別如圖2和圖3所示,其中縱軸為訂單數(shù)量,橫軸分別為借款額(單位為元)和借款期限(單位為月)。從圖2可以看出,大部分訂單的借款額在5.5萬元以內(nèi),訂單數(shù)量分布最集中的前三個(gè)區(qū)間分別為10萬 ~ 15萬元、5萬 ~ 5.5萬元以及3萬 ~ 3.5萬元。同時(shí),由圖3可知,借款期限的分布更集中。對(duì)于大部分借款成功的訂單,其還款期限長(zhǎng)則1 ~ 2年,短則3 ~ 6個(gè)月。其中,申請(qǐng)還款期限為36個(gè)月的訂單雖然數(shù)量較多,但大部分都是借款額在10萬元以上的大額訂單,借款成功率很低。
所有訂單被分為4種狀態(tài):已流標(biāo)、進(jìn)行中、已還清和已違約。其中,已流標(biāo)訂單為579315個(gè),占全部訂單的42.66%;進(jìn)行中的訂單為485006個(gè),占全部訂單的35.71%;已還清和已違約訂單各289431?個(gè)和4251?個(gè),占比分別為21.31%和0.31%。
由于進(jìn)行中的訂單暫時(shí)無法判斷其是否違約,而已流標(biāo)訂單已經(jīng)借款失敗,故在進(jìn)行違約風(fēng)險(xiǎn)分析時(shí),本文只考慮已還清和已違約兩種狀態(tài)的訂單。所以,本文的研究樣本共包含了293682?個(gè)有效訂單,其中違約訂單4251個(gè),違約率為1.45%。由于兩類訂單的樣本數(shù)量分布嚴(yán)重不平衡,在后續(xù)研究中,本文將采用欠采樣方法來構(gòu)建類別均衡的數(shù)據(jù)集,每次從289431?個(gè)已還清訂單中隨機(jī)抽樣出4251個(gè)樣本,再將已獲得的8502個(gè)類別均衡的樣本按照一定比例劃分為訓(xùn)練集和測(cè)試集。
2. 變量說明。在本文所構(gòu)建的違約風(fēng)險(xiǎn)預(yù)測(cè)模型中,其目標(biāo)變量(被解釋變量)是預(yù)測(cè)訂單是否違約。若違約,則目標(biāo)變量取值為1;否則為0。
同時(shí),本文的違約風(fēng)險(xiǎn)預(yù)測(cè)模型涉及34個(gè)特征變量(解釋變量),分為以下6類:①個(gè)人基本信息:借款人的性別,出生日期,出生地點(diǎn),是否已婚。②訂單信息:本次借款的借款額,借貸期限,利息率,借款開始時(shí)間,借款用途和還款來源。③借貸歷史:借款人在本平臺(tái)上已申請(qǐng)的借款訂單數(shù)量,以及其中借款成功、已還清和已違約的訂單數(shù)量;借款人已申請(qǐng)的借款訂單的總借款額,以及其中借款成功的借款額與所付利息、已還清的借款額與所付利息。④資產(chǎn)與負(fù)債信息:借款人是否有其他貸款,是否有房產(chǎn),是否有房貸,是否有車產(chǎn),是否有車貸。⑤工作與收入信息:借款人的收入水平,工作年限,工作職級(jí),工作地點(diǎn),工作單位類型,所屬行業(yè),企業(yè)規(guī)模。⑥教育背景:借款人的學(xué)歷水平、畢業(yè)學(xué)校類型、畢業(yè)年份。
本文通過研究發(fā)現(xiàn)借款人的收入水平和學(xué)歷水平對(duì)借款成功率的影響較大。不同收入水平借款人的整體占比、借款成功率與違約率情況如表1所示,而不同學(xué)歷水平借款人的借款結(jié)果見表2。
從收入水平來看,月收入在1000元以下的借款人成功率較高,違約率為零,這是因?yàn)樵搶蛹?jí)的訂單數(shù)量較少、借款額較小,其統(tǒng)計(jì)結(jié)果可能不具有代表性;月收入在50000元以上的借款人可能存在收入信息證明不真實(shí)、借款額較大的問題,導(dǎo)致該層級(jí)的借款成功率有所下降、違約率上升。而從其他5個(gè)收入層級(jí)可以看出,隨著收入水平的上升,借款成功率明顯提高、違約率逐步下降。
從學(xué)歷水平來看,高學(xué)歷借款者的借款成功率更高、違約率更低。其中,研究生及以上學(xué)歷者的借款成功率低于本科學(xué)歷者,主要是由于前者的樣本數(shù)量較少的緣故。
六、實(shí)證結(jié)果及分析
為了驗(yàn)證各數(shù)據(jù)挖掘方法的違約風(fēng)險(xiǎn)預(yù)測(cè)性能,本文采用10折交叉驗(yàn)證(10-Fold Cross Validation)的方式比較了不同模型預(yù)測(cè)結(jié)果的平均準(zhǔn)確率。所謂“10折交叉驗(yàn)證”是將數(shù)據(jù)集劃分為10個(gè)規(guī)模相等的互斥子集,每次隨機(jī)選擇其中一份數(shù)據(jù)子集作為測(cè)試集,剩余9份子集都作為訓(xùn)練集,從而可以進(jìn)行10次訓(xùn)練和測(cè)試,最終以這10次測(cè)試結(jié)果的平均準(zhǔn)確率來評(píng)價(jià)每個(gè)模型的預(yù)測(cè)性能。
在10折交叉驗(yàn)證方式下,不同模型的平均準(zhǔn)確率如圖4所示。這里既包含了RUSBoost、隨機(jī)森林、決策樹以及SVM等數(shù)據(jù)挖掘模型,也比較了傳統(tǒng)的Logistic回歸方法和最小二乘模型(OLS)。從圖4中可以看出,除SVM模型外,其他3種數(shù)據(jù)挖掘模型的平均準(zhǔn)確率都保持在70%以上,明顯高于傳統(tǒng)模型。其中,RUSBoost算法的平均準(zhǔn)確率最高,達(dá)到83.47%;其次是隨機(jī)森林和決策樹模型,分別為79.33%和71.46%。這充分驗(yàn)證了RUSBoost算法在違約風(fēng)險(xiǎn)預(yù)測(cè)方面的良好性能。
為了進(jìn)一步分析每個(gè)模型對(duì)已違約訂單和未違約訂單兩類樣本的區(qū)分能力,本文采用K-S值(Kolmogorov-Smirnov Statistic)來分析評(píng)價(jià)每個(gè)模型的分類能力。K-S值是針對(duì)Kolmogorov-Smirnov檢驗(yàn)(K-S檢驗(yàn))構(gòu)建的統(tǒng)計(jì)量,而K-S檢驗(yàn)是一種用于檢驗(yàn)兩個(gè)累積分布函數(shù)(或者經(jīng)驗(yàn)分布函數(shù))是否具有顯著性差異的非參數(shù)方法。由于其不需要假設(shè)被檢驗(yàn)數(shù)據(jù)符合正態(tài)分布,故該方法非常適合于對(duì)不滿足正態(tài)分布的小樣本數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)。
若已違約和未違約的樣本類別分別表示為c1和c2,則每個(gè)類別的經(jīng)驗(yàn)分布函數(shù)為Fci(t)=P[p(x)≤t|ci]。其中,p(x)是由模型預(yù)測(cè)出的樣本屬于該類別的后驗(yàn)概率(頻率),0≤t≤1。因此,K-S值定義為上述兩個(gè)經(jīng)驗(yàn)分布函數(shù)之間的最大距離,即:
K-S值最大可以達(dá)到1,最小為0。K-S值越大,說明模型對(duì)不同類別的區(qū)分能力越強(qiáng),模型的預(yù)測(cè)準(zhǔn)確性也越高。一般來說,K-S值大于0.2即可認(rèn)為模型有較強(qiáng)的類別區(qū)分能力。
不同模型的K-S值比較結(jié)果如圖5所示。從圖5中可以看出,K-S值的對(duì)比結(jié)果與平均準(zhǔn)確率相類似。除SVM模型外,其他3種數(shù)據(jù)挖掘模型的K-S值明顯高于傳統(tǒng)模型。RUSBoost算法的K-S值為0.7312,是所有模型中最高的。這主要得益于RUSBoost算法對(duì)類別不平衡問題有較強(qiáng)的適應(yīng)能力,其通過對(duì)每個(gè)基學(xué)習(xí)器分別構(gòu)建不同的訓(xùn)練集,可以有效克服因欠采樣而造成的信息丟失問題。
ROC曲線(Receiver Operating Characteristic Curve)和AUC(Area Under Curve)值是另一類常用的分析評(píng)價(jià)模型預(yù)測(cè)性能的指標(biāo)。ROC曲線描述了預(yù)測(cè)模型的TPR(True Positive Rate)與FPR(False Positive Rate)在不同分類閾值下的變化關(guān)系。其中,TPR是指模型預(yù)測(cè)違約正確的樣本數(shù)量占全部實(shí)際違約樣本的比例;FPR是指模型預(yù)測(cè)違約錯(cuò)誤的樣本數(shù)量占全部實(shí)際未違約樣本的比例。顯然,ROC曲線越靠近(0,1)點(diǎn),則模型的預(yù)測(cè)效果越好。因?yàn)椋?,1)點(diǎn)是所有違約樣本都預(yù)測(cè)正確且對(duì)未違約樣本沒有預(yù)測(cè)錯(cuò)誤的理想模型。而ROC曲線越靠近原點(diǎn)至(1,1)點(diǎn)的對(duì)角線,則說明模型的預(yù)測(cè)性能越接近“隨機(jī)猜測(cè)”。此外,還可以用AUC值(即ROC曲線與橫坐標(biāo)軸圍成的面積)比較不同模型的ROC曲線。AUC值越大,則模型的預(yù)測(cè)性能越好。
不同模型的ROC曲線及其對(duì)應(yīng)的AUC值分別如圖6和圖7所示。從中可以看出,SVM模型和Logistic回歸模型的ROC曲線最接近對(duì)角線,它們的AUC值也是最小的。而RUSBoost算法的ROC曲線最靠近左上角,并且基本包含了其他模型的ROC曲線。這說明基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型是有效的。
七、結(jié)論
本文構(gòu)建了基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型,并且利用網(wǎng)絡(luò)借貸平臺(tái)的金融大數(shù)據(jù),對(duì)各類基于數(shù)據(jù)挖掘方法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型進(jìn)行了對(duì)比分析。從實(shí)驗(yàn)結(jié)果來看,絕大部分?jǐn)?shù)據(jù)挖掘模型的預(yù)測(cè)性能要明顯優(yōu)于傳統(tǒng)模型,而基于RUSBoost算法的違約風(fēng)險(xiǎn)預(yù)測(cè)模型又明顯優(yōu)于其他數(shù)據(jù)挖掘模型。這是因?yàn)镽USBoost算法利用欠采樣實(shí)現(xiàn)了訓(xùn)練集的類別均衡,同時(shí)又通過對(duì)每個(gè)基學(xué)習(xí)器分別構(gòu)建不同的訓(xùn)練集,可以有效克服因欠采樣而造成的信息丟失問題,從而實(shí)現(xiàn)對(duì)類別不平衡問題較強(qiáng)的適應(yīng)能力。
本文首次將RUSBoost算法應(yīng)用于違約風(fēng)險(xiǎn)預(yù)測(cè),雖然取得了不錯(cuò)的預(yù)測(cè)性能,但仍有很大的提升空間。在未來的研究中,可以充分利用金融借貸數(shù)據(jù)中已經(jīng)存在的大量文本信息。這些文本數(shù)據(jù)所蘊(yùn)含的豐富信息,對(duì)進(jìn)一步提升模型的預(yù)測(cè)性能具有重要意義。
【 主 要 參 考 文 獻(xiàn) 】
[ 1 ] ? Weiss G. M.. Mining with rarity: A unifying framework[ J].ACM SIGKDD Explorations Newsletter,2004(1):7 ~ 19.
[ 2 ] ? Batista G. E., Prati R. C., Monard M. C.. A study of the behavior of several methods for balancing machine learning training data[ J].ACM SIGKDD Explorations Newsletter,2004(1):20 ~ 29.
[ 3 ] ? Drummond C., Holte R. C.. C4.5, class imbalance, and cost sensitivity: Why under-sampling beats over-sampling[C].Workshop on learningfrom imbalanced datasets II. Washington,DC: Citeseer,2003:1 ~ 8.
[ 4 ] ? Seiffert C., Khoshgoftaar T. M., Van Hulse J., et al.. RUSBoost:A hybrid approach to alleviating class imbalance[ J].IEEE Transactions onSystems Man & Cybernetics Part A Systems & Humans,2009(1):185 ~ 197.
[ 5 ] ? Freund Y., Schapire R., Abe N.. A short introduction to boosting[ J].Journal-Japanese Society for Artificial Intelligence,1999(771-780):1612.
[ 6 ] ? Hill R. C., Griffiths W. E., Lim G. C.. Principles of econometrics[M].New Jersey: John Wiley & Sons,2018:196 ~ 315.
[ 7 ] ? Goyal A., Kaur R.. Accuracy prediction for loan risk using machine learning models[ J].International Journal of Computer Science Trendsand Technology,2016(1):52 ~ 57.
[ 8 ] ? Khandani A. E., Kim A. J., Lo A. W.. Consumer credit-risk models via machine-learning algorithms[ J].Journal of Banking & Finance,2010(11):2767 ~ 2787.
[ 9 ] ? Tsai C. F., Chen M. L.. Credit rating by hybrid machine learning techniques[ J].Applied Soft Computing,2010(2):374 ~ 380.
[10] ? Huang C. L., Chen M. C., Wang C. J.. Credit scoring with a data mining approach based on support vector machines[ J].Expert Systemswith Applications,2007(4):847 ~ 856.
[11] ? Lee Y. C.. Application of support vector machines to corporate credit rating prediction[ J].Expert Systems with Applications,2007(1):67 ~ 74.
[12] ? 方匡南,吳見彬,朱建平等.信貸信息不對(duì)稱下的信用卡信用風(fēng)險(xiǎn)研究[ J].經(jīng)濟(jì)研究,2010(1):97 ~ 107.
[13] ? 方匡南,吳見彬.個(gè)人住房貸款違約預(yù)測(cè)與利率政策模擬[ J].統(tǒng)計(jì)研究,2013(10):54 ~ 60.
[14] ? 呂勁松,王志成,隋學(xué)深等.基于數(shù)據(jù)挖掘的商業(yè)銀行對(duì)公信貸資產(chǎn)質(zhì)量審計(jì)研究[ J].金融研究,2016(7):150 ~ 159.
[15] ? 范超,王磊,解明明.新經(jīng)濟(jì)業(yè)態(tài)P2P網(wǎng)絡(luò)借貸的風(fēng)險(xiǎn)甄別研究[ J].統(tǒng)計(jì)研究,2017(2):33 ~ 43.
[16] ? 鄒欣.基于數(shù)據(jù)挖掘模型的違約風(fēng)險(xiǎn)分析——以網(wǎng)絡(luò)借貸為例[ J].上海金融,2018(5):16 ~ 23.
[17] ? Freund Y., Schapire R. E.. Experiments with a new boosting algorithm[C].ICML,1996:148 ~ 156.
[18] ? Breiman L.. Random forests[ J].Machine Learning,2001(1):5 ~ 32.
[19] ? Quinlan J. R.. C4.5:Programs for machine learning[M].California: Elsevier,2014:17 ~ 80.
[20] ? Cortes C., Vapnik V.. Support-vector networks[ J].Machine Learning,1995(3):273 ~ 297.