蔣翠清,王睿雅,丁 勇
(合肥工業(yè)大學管理學院,安徽 合肥 230009)
融入軟信息的P2P網絡借貸違約預測方法
蔣翠清,王睿雅,丁 勇
(合肥工業(yè)大學管理學院,安徽 合肥 230009)
在P2P網絡借貸中,預測借款的違約概率是用戶信用評價的關鍵,也是借貸平臺與投資者關注的重點問題。由于P2P平臺所獲取的用戶財務信息有限,P2P借款信用評價和違約預測面臨新的挑戰(zhàn)。本文結合P2P平臺的信息特點,提出一種融入軟信息的網絡借款違約預測方法。首先利用主題模型抽取并量化文本軟信息中的相關變量,進而分析不同軟信息變量對借款違約的影響關系;其次,設計了一種兩階段的變量選擇方法對軟硬信息進行組合篩選;最后,引入隨機森林算法構建融入軟信息的違約預測模型,并結合P2P平臺的真實數(shù)據(jù)進行實證分析。結果表明,在P2P借款的違約預測模型中融入有價值的軟信息可以提高預測準確率。
P2P借貸;違約預測;軟信息;主題模型;變量選擇;隨機森林
P2P(Peer-to-Peer)網絡借貸是借貸雙方不經過金融中介機構,直接通過網絡平臺進行借貸的一種互聯(lián)網金融模式。近年來,這種借貸模式以其門檻低、收益高、方便快捷等特點迅速發(fā)展,逐漸成為小額借貸和民間融資的重要渠道。然而,由于受到網絡平臺虛擬性和征信體系不健全等多種因素的影響,較傳統(tǒng)的金融借貸模式而言,P2P模式面臨更大的信用問題和借貸違約風險[1]。因此,對P2P借款人的違約進行有效預測是保證P2P借貸平臺穩(wěn)定發(fā)展的關鍵。
針對P2P網絡借貸的違約預測問題,學者們沿用了銀行信用評價的相關方法,將借款人的收入、資產、負債、借款金額,以及第三方機構提供的個人信用分(如FICO分)等因素作為違約預測的重要依據(jù)[2]。這些因素主要來源于借款人的財務信息,也稱為硬信息[3]。然而不同于銀行等金融機構,P2P平臺的業(yè)務相對單一,難以獲得充足的硬信息來預測違約概率。研究發(fā)現(xiàn),在P2P網絡借貸中,依靠硬信息獲得較高信用分的借款人也經常出現(xiàn)違約的情況[4]。因而,完全基于硬信息對網絡借貸進行違約預測具有一定的局限性,P2P平臺需要從更豐富的用戶數(shù)據(jù)中找尋影響借款違約的關鍵因素。
P2P用戶在進行借款申請、還款等行為時,上傳或生成了大量非標準、人格化的數(shù)據(jù)信息,如人口基本信息、借款描述等。這些信息由P2P平臺收集,與用戶的還款能力和還款意愿密切相關,也被稱為軟信息。豐富的軟信息為違約預測提供了更多價值因素,可以緩解硬信息不足對違約預測造成的影響。現(xiàn)有研究發(fā)現(xiàn),在缺乏硬信息的情況下,軟信息對借貸用戶行為的影響作用更加明顯[5-6]。Dorfleitner等[5]學者針對借款描述軟信息,研究了文本長度、拼寫錯誤率、情感詞頻率三個因素與P2P借款違約行為之間的關系,取得了一定成果。王會娟等[7]也進行了類似研究,但該類研究僅考慮了某一特定軟信息對P2P借款違約的影響作用[8],忽略了多種價值信息的交叉和融合效果。由于軟信息通常以文本等非標準形式存在,現(xiàn)有研究主要圍繞易于量化的可分類軟信息進行違約預測[9],或通過人工標注方法提取出人格、情感等信息展開相關研究[5,7],并沒有充分挖掘復雜軟信息中的內容特征。
同時,網絡平臺收集的軟信息數(shù)目繁雜,信息質量層次不齊,若想利用軟信息進行P2P借款違約預測,必須采取有效的信息量化和篩選方法,找出違約預測建模的關鍵變量。以往的違約預測研究常采用Pearson系數(shù)、方差分析(ANOVA)、逐步法(Stepwise)等方法進行變量篩選[10]。這些方法以單變量篩選為主,適用于處理線性相關、數(shù)值型的硬信息變量。而軟信息大多為相關關系復雜的名詞型變量,需要進一步考慮各變量間的相互作用,上述方法難以直接用于軟信息變量的篩選,也無法將軟信息和硬信息變量有效融合。
針對P2P網絡借貸平臺的數(shù)據(jù)特點,本文嘗試將軟信息融入借款違約預測模型,以解決P2P違約預測中面臨的硬信息不足問題。為了保證軟信息能夠得以有效運用,參考了文本分析方法,對多種軟信息進行價值提取和量化,并針對軟、硬信息的差異性,提出一種兩階段組合的變量選擇方法,有效地將兩類信息融入違約預測模型。為了驗證本文方法的有效性,基于P2P平臺的真實數(shù)據(jù)進行了實驗,并取得了較好的應用效果。
本文內容安排如下:第二節(jié)介紹了軟信息的分類和量化方法;第三節(jié)分為兩部分,首先闡述本文提出的軟硬信息變量篩選方法,其次介紹基于隨機森林的違約預測建模方法?;谡鎸崝?shù)據(jù)集,在第四節(jié)展開實證研究,包括實驗設計介紹、軟信息量化結果、軟信息對借款違約的影響分析、以及模型的預測結果,并進一步做了比較分析。最后在第五節(jié)進行了研究總結。
軟信息是一類難以量化、檢驗及傳遞的非標準信息,常以文本形式存在,其中主觀和定性成分較多,具有人格化特征[11-12]。在P2P借貸中,網絡平臺是借款人信息的收集者,其收集的信息主要包括以下四類:人口基本信息、財務信息、歷史信息、借款信息。其中,軟信息大多由用戶自己向平臺提供,涉及借款人的基本信息和借款情況。硬信息則主要來自平臺外部或用戶在平臺上的行為記錄,涉及財務信息和歷史信息。因此,我們根據(jù)P2P平臺的信息類型,將軟信息劃分為兩類。
(1)借款人軟信息:指借款人的人口基本信息,主要涉及年齡、性別、婚姻狀況、教育程度、居住地、職業(yè)等,這些信息來源于P2P用戶,由網絡平臺收集并進行分類標記,是最常見的軟信息數(shù)據(jù)。該類信息反映了借款人的人格特征和基本條件,有利于判斷借款人的還款能力,以易于分類的文本為主。
(2)借款軟信息:指每筆借款的詳細情況,主要包括借款類型、借款描述、還款方式等文本類信息。由于不同類型的借款面臨的風險程度不同,在違約預測中不僅要考慮用戶的信用風險,也要考慮借款自身的風險。對P2P用戶而言,每個借款人會針對自己的借款申請做出相應的詳細描述,其中涉及借款用途、資產情況、收入能力、社交情況等多種價值信息,間接反映出借款人的借款態(tài)度和還款意愿。該類信息通常以文本形式存在,難以直接用于模型建模。
針對難以量化的借款軟信息進行重點分析,采用LDA主題模型抽取其中的價值信息,將有效的主題轉化為若干個關鍵詞變量并量化賦值。對于具有明顯類別區(qū)分的文本信息,則直接將其轉換為分類變量。
LDA模型是一種非監(jiān)督的主題模型,其主要思想是將每個文檔看作是所有主題的一個混合概率分布,將其中的每個主題看作是單詞上的一個概率分布。它由文檔集、文檔、單詞三層組成,模型結構如圖1所示。
圖1 LDA模型結構圖
圖1中,參數(shù)α反映潛在主題之間的相對強弱,β表示所有潛在主題的概率分布;θ表示目標文本在潛在主題上的概率分布,φ表示主題在單詞上的概率分布;T是主題數(shù),z表示該文檔分配在每個詞項上的潛在主題個數(shù),W 是目標文檔的詞向量表示,N表示一篇文檔中單詞的個數(shù),M是文檔集中文檔的個數(shù)。
假設j是一個潛在主題,wi是文檔d中的第i個單詞,則wi屬于主題j的概率為:
(1)
其中,P(wi)表示單詞wi在給定文檔d中出現(xiàn)的概率,對于任一文檔來說是可觀測的已知變量;P(wi|zi=j)表示單詞wi屬于潛在主題j的概率,即φ;P(zi=j)則表示j是文檔d的主題概率,即θ;二者分別服從超參數(shù)α和β的Dirichlet分布。同理可得出文檔d中包含特征詞w的概率P(w|d為:
(2)
對θ和φ進行參數(shù)估計,建立LDA三層模型。
運用LDA模型對所有文本段落信息進行主題抽取,并構建相應的主題變量;利用模型計算出文本在每個主題上的分布概率,以此度量文本與每個主題的相關程度,并為相應變量賦值。據(jù)此生成的主題變量即為相應文本段落信息的量化結果,具體結果見第4節(jié)。
借款違約是指借款人在合同規(guī)定時間內無法還本付息或履行相關義務,從而使投資者遭受損失。針對借款進行違約預測,主要分為還款能力分析和還款意愿分析。借款人的還款能力可以結合其收入能力、資產/負債情況等硬信息數(shù)據(jù),以及借款人軟信息進行分析;對于還款意愿,則可以從借款人的歷史記錄硬信息、借款描述軟信息等方面體現(xiàn)。因此,本文在硬信息基礎上融入軟信息進行建模,豐富P2P借貸違約的預測依據(jù),并設計一種兩階段的變量選擇方法對軟、硬信息變量進行混合篩選,以保證變量的有效性,提升模型效果。
量化后的軟信息可以與硬信息相結合,直接參與違約預測建模。但是,P2P平臺的軟信息變量數(shù)目繁多且質量參差不齊,其中包含大量與違約情況無關或冗余的變量,這些變量不僅會增加預測模型的訓練復雜度,同時還會降低模型精度。軟信息變量以名詞型變量為主,其與違約變量間大多為非線性關系,因此必須構建一種能夠同時處理軟信息和硬信息變量的篩選方法,以保證模型的預測效果。
為此,設計了一種先排序再封裝的兩階段組合選擇方法。首先,將量化后的軟信息與硬信息變量混合,利用三種度量標準分別對所有變量進行重要性排序并將排序結果集成;其次,為了保證變量間的組合效用,基于預測模型的精度對混合變量集進行封裝篩選,具體步驟如圖2所示。
(1)綜合排序
信息度量標準是一種無參、非線性的標準,可以很好地量化變量對于類別的不確定性程度,同時處理數(shù)值型或名義型變量。以往研究中,卡方檢驗、Person相關系數(shù)等統(tǒng)計值是常用的變量重要性度量標準,用于判定變量間的統(tǒng)計相關性。然而,軟信息的數(shù)據(jù)分布不確定,且變量間存在大量的非線性關系,基于統(tǒng)計相關性的方法難以準確度量軟信息變量與違約變量之間的關系。因此,將統(tǒng)計相關性度量標準和信息度量標準相結合,選取卡方統(tǒng)計值、信息增益、信息增益率三類準則分別對變量進行重要性排序,繼而對三個排序結果進行投票得出變量最終的綜合排序結果。
圖2 變量組合選擇方法流程圖
(2)封裝篩選
為了剔除變量集合中的冗余變量,同時保證軟硬信息的組合效果,在經過排序的變量集合上進一步進行封裝篩選。將集合中的全部變量作為模型的輸入變量,以預測準確率來評價該變量集合的整體效用。結合(1)得到的變量排序結果,運用序列后向選擇方法(SBS)依次刪除排序最低的變量并生成新的變量子集,將變量子集輸入模型得到預測精度,并重復上述步驟。比較已有變量集合的預測精度,選出預測效果最優(yōu)的變量集合作為模型的最終輸入變量集。
違約預測問題通常被視為分類問題,即對違約借款和非違約借款進行二分類[13-14]。機器學習和集成分類模型在違約預測中具有良好的應用效果[15-16],為了很好地解決軟信息變量造成的非線性問題,并同時處理數(shù)值型和名詞型變量,采用基于決策樹的集成模型——隨機森林算法,構建P2P借貸的違約預測建模型。
隨機森林(Random Forest, RF)是一種組合分類方法,是CART決策樹算法與Bagging方法的結合。RF利用bootstrap抽樣方法從原始樣本中抽取多個樣本,對每個bootstrap樣本進行決策樹建模,然后組合多棵決策樹的分類結果,通過投票得出最終預測結果。RF方法具有較高的預測準確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合。RF算法描述如表1所示。
表1 隨機森林算法流程
假設元組集合D包含N個類別的記錄,那么其Gini指標為:
(3)
其中,pi為D中元組屬于類別i的概率,當Gini(D)=0時,D中元組均屬于同一類別。Gini指數(shù)考慮每個屬性的二元劃分,當集合D劃分成D1和D2,則這個劃分的Gini指數(shù)為:
(4)
其中,|D|表示D中元組個數(shù)。
針對本文的違約情況分類,元組集合包含2個類別記錄:違約借款(標記為1)和非違約借款(標記為0)。模型訓練結束后,運用測試集進行模型檢驗,并采用多數(shù)投票法決定最終違約分類結果。
首先對軟信息進行量化處理,進而構建回歸分析模型,驗證軟信息變量對借款違約情況的影響關系。其次,基于3.1節(jié)提出的特征選擇方法,對軟信息和硬信息變量進行組合篩選,并在此基礎上,構建基于隨機森林算法的P2P借款違約預測模型,對軟信息變量的預測能力進行檢驗,并將模型的預測結果與平臺自身的評級結果進行比較分析。
本研究以“翼龍貸”平臺為例,收集了該平臺從2014年1月到2016年1月的借貸記錄,從中隨機選取了15806條已經還款結束的交易數(shù)據(jù)作為樣本,其中成功還款9006例,存在逾期未還的借款6800例。根據(jù)借款的還款狀態(tài),我們將違約變量分為兩類:成功完成還款的借款即未違約借款,賦值為0,存在逾期未還的借款即發(fā)生違約,賦值為1。樣本共包含45個屬性,剔除無關屬性和缺失嚴重的屬性,本研究共選取28個屬性作為模型變量,各變量信息如表2所示。
圖3 借款描述文本的主題分布
根據(jù)主題詞分布情況,最終從抽取出的主題中選取6個主題作為借款描述的文本特征,分別是資產、收入、工作、家庭、商業(yè)、農業(yè)??紤]到文本長度(即文本段落字數(shù))也是重要的語言特征,將其作為借款描述文本的特征之一參與后續(xù)分析。最終,借款描述文本共量化為7個變量,如表3所示。
通過構建回歸模型來驗證軟信息變量與P2P借款違約情況之間是否具有相關關系。模型的因變量為違約情況(Default),其中1代表違約,0代表非違約。模型的自變量包括軟信息變量和控制變量(Control Variables)??刂谱兞渴墙杩钕嚓P的硬信息變量(A1-A13),軟信息變量分為兩類:借款人軟信息(Borrower Soft Variables,變量A14-A22)和借款軟信息(Loan Soft Variables,變量A23-A26)。其中,借款描述文本(A24)經過量化后轉換為文本的主題特征變量(T1-T6)及文本長度LEN變量(見表3)。由于模型因變量違約情況(Default)是二分類變量,故采用二元Logistic回歸構建模型。為了單獨檢驗軟信息變量對借款違約的影響,共構建3個模型,模型1中只包含控制變量,模型2在模型1的基礎上加入了借款人軟信息變量,模型3在模型2的基礎上加入借款軟信息變量,具體如下:
表2 樣本數(shù)據(jù)集變量
表3 借款描述文本的量化結果
模型1:
Logistic(Default1)=αiControlVariablesi+εi
模型2:
Logistic(Default1)=αiControlVariablesi+βiBorroweVariablesi+εi
模型3:
Logistic(Default1)=αiControlVariablesi+βiBorroweVariablesi+γiLoanSoftVariablesi+εi
模型的Logistic回歸結果如表4所示。由表可知,在控制變量中,與借款人違約情況顯著相關的變量有:年收入、商業(yè)保險、信用卡額度、流標次數(shù)、利率和還款期限。其中,信用卡額度和借款利率與違約情況呈顯著正向相關,其余呈顯著負向相關。在模型2中,職稱、工作年限與借款違約在1%的水平上顯著相關,戶口所在地、居住地類型在5%的水平上顯著,而職業(yè)則在10%的水平上顯著。以上5個變量都與借款違約情況呈負向相關。在模型3中,還款方式變量以及從借款描述文本中抽取的主題變量都與違約情況在1%的水平上顯著相關,其中,借款描述文本的資產主題和文本長度變量與違約情況負向相關,其余為正向相關。這表明借款描述中涉及的資產描述信息越多,或文本越長,該筆借款發(fā)生違約可能性相對較小。反之,若借款人描述的信息中涉及家庭、工作、收入、農業(yè)和生意的內容越多,其發(fā)生違約的可能性相對更大。通過比較可以看出,加入借款人軟信息變量和借款軟信息變量后,模型的分類準確率分別提升了3.8%和7.9%,這說明加入軟信息后,Logistic回歸模型的解釋能力有所加強。
為了進一步判斷不同類型的軟信息對借款違約的影響情況,選取部分樣本進行對照實驗。同樣以硬信息變量為控制變量,根據(jù)回歸分析結果,與違約呈顯著相關的硬信息變量有年收入、商業(yè)保險、信用卡額度、流標次數(shù)、利率和還款期限,考慮到利率和還款期限與具體的借款金額密切相關,因此不作為對照組的控制變量。實驗共設置4組對照組:組1中,年收入水平為12萬以下,無商業(yè)保險,信用卡額度為0(無信用卡),流標次數(shù)為0;組2中,年收入水平為12萬以上,其余變量與組1相同;組3和組4的信用卡額度大于0(有信用卡),其余變量分別與組1和組2相同。對各組進行Logistic回歸,結果見表5。
表4 Logistic回歸分析結果
續(xù)表4
注:***、**、*分別表示l% 、5% 、10%的顯著水平;表中啞變量只列出顯著水平
由表5可以看出,當借款人的年收入處于中低水平時,不使用信用卡的借款人,其教育程度、職稱水平與違約情況呈負向相關,即教育水平越高、或職稱等級越高,其違約概率越小;使用信用卡的用戶,其工作年限與違約情況呈正向相關,同時還款方式也呈現(xiàn)顯著相關性。當借款人的年收入水平較高時,使用信用卡的借款人,其違約情況僅與職稱水平負向相關;無信用卡的借款人中,用戶的職業(yè)類型與違約情況呈現(xiàn)顯著相關性。另外,從借款描述文本中抽取的主題變量在4組實驗中都相對顯著,其中“資產”主題和文本長度與違約概率呈負相關,其余為正相關。
表5 違約影響對照實驗比較結果
注:表中值為模型系數(shù),***、**、*分別表示l%、5%、10%的顯著水平;控制變量結果未置于表中
基于隨機森林模型,構建P2P借款的違約預測模型,并對預測結果展開比較分析。首先驗證各類軟信息對借款違約的預測能力。將不同類型的軟信息變量與硬信息相結合,共設定了4組變量集合進行建模:模型A僅包含硬信息變量;模型B包含硬信息變量與借款人軟信息變量;模型C包含硬信息變量與借款軟信息變量;模型D包含上述3種變量。這里采用10折交叉驗證對模型進行訓練和評估,以準確率(Accuracy)、F值(F-mesure)和ROC曲線下面積(AUC)作為模型的評估標準。實驗結果見表6。
通過表6可以看出,基于硬信息所構建的模型A,其違約預測的準確率僅為63.58%,AUC值為0.664;在此基礎上分別加入有關借款人和借款的兩類軟信息后,模型B和模型C的準確率對應上升了8.96%和10.65%,AUC分別提升了0.125和0.154。若同時添加兩類軟信息,即模型D,其準確率達到了76.02%,AUC為0.837,顯著高于前三者。同時,在借貸違約預測中,P2P平臺更關注能否識別出可能發(fā)生違約的借款(能否識別出違約變量1),因此我們對4個模型的第二類錯誤率做了進一步比較。基于硬信息構建的模型A,其第二類錯誤率高達0.521,而加入軟信息變量后,模型D的錯誤率下降為0.329??梢钥闯?,融入了P2P平臺軟信息可以有效提高違約預測的準確率,同時能夠更好地識別出可能發(fā)生違約的借款,具有良好的實用性。
表6 模型預測結果
其次,為保證模型結果的有效性,采用3.1節(jié)提出的兩階段組合方法對軟信息和硬信息進行變量篩選。結合卡方統(tǒng)計值、信息增益、信息增益率三種準則對所有變量進行重要性排序,并對結果進行投票,得到變量重要性的綜合排序。將排序后的變量集進行封裝篩選,考慮到隨機森林是決策樹的組合模型,基于森林的封裝方法復雜度過高,因此,選擇CART決策樹作為變量重要性的評價模型。變量排序和篩選結果見表7。通過排序結果可以看出,經過量化的軟信息變量在所有變量中具有較高的重要性,軟信息與借款人的違約行為存在較強的相關關系。
表7 軟信息和硬信息變量排序和篩選結果
本文選取Hajek等[10]、Malekipirbazari和Aksakalli[5]等在研究中提到的相關性選擇方法(CBF)、信息增益選擇方法(IG),以及卡方統(tǒng)計分析方法,作為對比方法。實驗以融入軟信息后的全部變量為初始變量集合,以RF算法為分類模型,比較基于不同變量選擇方法構建的分類模型準確率,結果如圖4所示。
圖4 變量選擇方法比較結果
圖4展現(xiàn)了不同變量選擇方法對模型準確率的影響程度。在融入軟信息變量后,不經過變量篩選而直接構建的模型,其分類準確率為72.14%;基于卡方檢驗篩選出的變量,其相應的模型準確率反而下降至71.96%,可見基于單一的統(tǒng)計檢驗值不僅沒能選出有效的變量集,反而剔除了部分有用變量?;谛畔⒃鲆娣椒ǖ哪P蜏蚀_率也僅為72.41%,效果并不明顯。結果表明,CBF方法和本文提出的兩階段法對融入軟信息的變量集合來說效果較好,準確率分別為75.05%和76.02%,本文的方法效果更優(yōu)。通過比較可以看出,本文提出的兩階段選擇法更適用于融入了軟信息的變量集,從中篩選出相對有效的變量集合。
最后,將本文構建的借款違約預測模型所得到違約預測結果與P2P平臺自身的信用評級結果進行了進一步比較。該平臺的用戶信用等級共分為15級,首先我們選定擬接受借款的信用等級,計算出相應的借款接受比例閾值,進而在相同閾值下,根據(jù)RF模型生成的分數(shù)找出擬接受的借款,計算并比較兩者的錯誤率,即擬接受借款中實際發(fā)生違約的借款比例。比較結果如圖5所示。
當借款接受率較低時,利用平臺信用等級選出的擬接受借款,其違約率高達30%;僅利用硬信息構建的模型A所選出的擬接受借款,違約率為18%;在此基礎上分別加入有關借款人和借款的兩類軟信息后,模型B和模型C的違約率分別為10%和5%。而綜合考慮軟硬信息(模型D)所選出的擬接受借款,違約率僅為4%。隨著接受比例的升高,兩者選出的借款違約率逐步上升,但基于本文模型選出的擬接受借款,錯誤率明顯低于前者。同時,綜合考慮借款人和借款軟信息的借款違約預測模型在各個貸款接受率下的錯誤率均為最低。這表明平臺現(xiàn)有的信用評級方法難以準確識別借款人的違約情況,而使用本文方法對P2P借款進行違約預測則更為有效。
圖5 預測錯誤率比較
隨著P2P網絡借貸的興起,借款違約成為制約P2P模式發(fā)展的重要因素。針對P2P借貸平臺在違約預測中面臨的硬信息缺乏問題,提出將軟信息融入借款違約預測模型,以提高P2P借款違約預測的準確率。首先,對與違約行為有關的軟信息進行了分類討論,并采用主題建模方法對非標準化的文本軟信息進行量化處理。其次,針對軟信息與硬信息的差異性,設計了一種適用于軟、硬信息的兩階段變量選擇方法,從而為預測模型篩選出有效的變量集合。最后,運用隨機森林算法,構建了借款違約預測模型,并進行了實證研究,結果表明,將P2P平臺中有價值的軟信息融入違約預測模型能夠明顯提高預測準確率;同時,所提出的兩階段變量選擇方法能夠很好地應用于軟信息與硬信息的融合建模。
本文重點圍繞與借款有關的文本類軟信息進行分析,然而P2P平臺還可以收集用戶的社交關系等多種非標準化數(shù)據(jù),如何從更豐富的軟信息中提取影響借款違約的關鍵因素有待進一步研究。
[1] Pope D G, Sydnor J R. What's in a picture?: Evidence of discrimination from prosper.com[J]. Journal of Human Resources, 2011, 46(1):53-92.
[2] Michels J. Do unverifiable disclosures matter? evidence from peer-to-peer lending[J]. Accounting Review, 2012, 87(4):1385-1413.
[3] Emekter R, Tu Y. Evaluating credit risk and loan performance in online peer-to-peer (P2P) lending[J]. Applied Economics, 2015, 47(1):54-70.
[4] Angilella S, Mazzù S. The financing of innovative SMEs: A multicriteria credit rating model[J]. European Journal of Operational Research, 2015, 244(2):540-554.
[5] Malekipirbazari M, Aksakalli V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications, 2015, 42(10):4621-4631.
[6] Dorfleitner G, Priberny C, Schuster S, et al. Description-text related soft information in peer-to-peer lending - Evidence from two leading European platforms[J]. Journal of Banking & Finance, 2016, 64:169-187.
[7] 劉征馳, 賴明勇. 虛擬抵押品、軟信息約束與P2P互聯(lián)網金融[J]. 中國軟科學, 2015,(1):35-46.
[8] 王會娟, 何琳. 借款描述對P2P網絡借貸行為影響的實證研究[J]. 金融經濟學研究, 2015,(1):77-85.
[9] Gao Q, Lin M. Linguistic features and peer-to-peer loan quality: A machine learning approach[R]. Social Science Electronic Publishing, 2013.
[10] Cubiles-De-La-Vega M D, Blanco-Oliver A, Pino-Mejías R, et al. Improving the management of microfinance institutions by using credit scoring models based on Statistical Learning techniques[J]. Expert Systems with Applications, 2013, 40(17):6910-6917.
[11] Hajek P, Michalak K. Feature selection in corporate credit rating prediction[J]. Knowledge-Based Systems, 2013, 51(1):72-84.
[12] Petersen M A. Information: Hard and soft[R].Working paper, Northwestern University, 2004.
[13] 陳庭強, 何建敏. 基于復雜網絡的信用風險傳染模型研究[J]. 中國管理科學, 2014, 22(11):111-117.
[14] Lessmann S, Baesens B, Seow H V, et al. Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research[J]. European Journal of Operational Research, 2015, 247(1):1-32.
[15] 衣柏衡, 朱建軍, 李杰. 基于改進SMOTE的小額貸款公司客戶信用風險非均衡SVM分類[J]. 中國管理科學, 2016, 24(3):24-30.
[16] Finlay S. Multiple classifier architectures and their application to credit risk assessment[J]. European Journal of Operational Research, 2011, 210(2):368-378.
[17] Kruppa J, Schwarz A, Arminger G, et al. Consumer credit risk: Individual probability estimates using machine learning[J]. Expert Systems with Applications, 2013, 40(13):5125-5131.
The Default Prediction Combined with Soft Informationin Online Peer-to-Peer Lending
JIANGCui-qing,WANGRui-ya,DIGNYong
(School of Management, Hefei University of Technology, Hefei 230009,China)
P2P lending is a new type of loan mode formed by the intersection of Internet and traditional finance. It provides a more convenient loan platform and has been developing rapidly in China.However, the phenomenon of collapse in P2P is getting worse as P2P loans is facing default risk and bad debt losses seriously. Credit evaluation is an important basis for managing loan default risk and supporting lending decision. Compared with traditional loans, the financial data of borrowers collected by P2P platform is limited, which is also called the hard the information.However,there is lots of soft information generated during the loan application, such as loan description text,also involving some information about loans and borrowers. Therefore, a default prediction method combined with soft informationfor P2P lending is proposed. Firstly, the soft information is categorized according to the characteristics of P2P, and the LDA topic model is used to quantify valuable factors in the text of soft information. Secondly, some regression analysis and contrast experiments are performed to test the effect of soft information on P2P default probability. Moreover, a two-stage method is designed to selecteffective variablesets for default modeling, and the default prediction model is constructed through the random forest (RF) method.Finally, based on the data from a Chinese P2P platform—eloan.com, an experimental research is conducted to verify the effectiveness of methods we proposed.The results show that the soft information can improve the recognition rate of loan default, which can be used as the basis of P2P credit evaluation. The feature combination selection method proposed in this paper and the credit evaluation model based on Random Forest have achieved good classification accuracy.And the proposed method can improve predictionperformancesobviously compared withthe platform's own rating method, which has certain reference significance for the credit evaluation of P2P network lending.
P2P lending; default prediction; soft information; topic model; variable selection; RF model
1003-207(2017)11-0012-10
10.16381/j.cnki.issn1003-207x.2017.11.002
F832.4
A
2016-07-06;
2017-04-20
國家自然科學基金資助項目(71731005,71571059)
王睿雅(1992-),女(漢族),安徽合肥人,合肥工業(yè)大學管理學院,碩士研究生,研究方位:大數(shù)據(jù)分析、信用評價,E-mail:wrylr@163.com.