陳 卓 蔣 煒
(上海交通大學 安泰經濟與管理學院,上海 200030)
目前,以Lending Club和拍拍貸為首的國內外多數(shù)P2P平臺都將貸款人的信用評分作為投資人的參考依據(jù)。信用評分是一個分類問題,它以二元的“是否會違約”作為因變量,并應用邏輯回歸或神經網絡等技術試圖估計借款人的違約概率(PD)。然而在P2P平臺上,對于投資人而言,相較于借款人是否會違約,如何使自己的投資獲得最大的盈利才是更為直觀的最終目的。在這一點上,違約概率似乎并不是最佳放貸標準。低違約率的借款人雖然壞賬率低,但其利率也遠低于高違約率的借款人。而高違約率的借款人雖然很可能不償還整個貸款,但也會收回一定的金額,且風險最高的貸款類別也支持高利率,可以在一定程度上彌補拖欠的貸款。一個例子是小額信貸,貸款給經濟上被排除在外的人,但是鑒于他們的高利率,這些貸款可能有風險但有利可圖。
在貸款市場,內部收益率(Internal Rate of Return(IRR))是評估投資回報率的常用指標。IRR即資金流入現(xiàn)值總額與資金流出現(xiàn)值總額相等、凈現(xiàn)值等于零時的折現(xiàn)率。IRR的使用有兩個好處:首先,IRR是一個連續(xù)變量,與二分變量相比,可以提供更準確的信息。第二個好處是IRR不僅考慮貸款支付,而且還考慮貸款利率。風險最高的貸款有很高的違約率,但也為貸款人提供高利率來補償他們的高PD。
本論文采用Lending Club 2015年的貸款數(shù)據(jù),刪除缺失率大于70%的記錄以及還款仍在進行中的記錄后,共剩余213 730條貸款記錄,65個變量。其中,違約記錄為56 348條,占總記錄數(shù)的26.3%。
本文利用還款周期、月供金額以及總還款額來計算每筆貸款的內部收益率。結果表明,213 730條貸款記錄中,IRR為負值的記錄數(shù)為53 216,占總貸款記錄數(shù)的25%。具體IRR分布圖見圖1。由圖1可以看出,IRR并不遵循正態(tài)分布,而是不對稱分布。這種扭曲的分配是由于尾部極端的違約貸款造成的負IRR值較多。整體的平均內部收益率為-5.15%,中位數(shù)為6.01%,標準差為0.259 0。
表1呈現(xiàn)了不同F(xiàn)ICO等級的借款記錄間IRR的差異??梢钥闯?,F(xiàn)ICO等級越高,IRR的均值就越大,但與此同時,IRR的波動也逐漸增大。這從一定程度上說明,若以IRR作為投資決策的依據(jù),現(xiàn)有的信用等級系統(tǒng)仍有很大的改進空間。
圖1 所有貸款記錄的IRR分布直方圖
表1 按FICO等級對利率與IRR的分組分析
CHAID算法通過計算類別變量與特征變量之間的相關性檢驗統(tǒng)計量的p值,即卡方統(tǒng)計量對應的p值,p值越小,說明特征變量與類別變量之間的關系越密切,應當被選為最佳分組特征變量。然后繼續(xù)按此準則選擇后續(xù)特征變量,直至所有樣本被分類完畢。CHAID算法在構建決策樹時具有一定的優(yōu)勢,它從統(tǒng)計顯著性的角度來確定特征變量和分割數(shù)值,對決策樹的分枝過程優(yōu)化明顯。且CHAID算法是為數(shù)不多的可將連續(xù)型數(shù)值變量作為因變量的決策樹算法,因此,本文選擇了CHAID算法。
本文所建立的CHAID模型通過使用IBM SPSS Modeler來實施,旨在建立以連續(xù)型數(shù)值變量IRR為目標變量的決策樹模型,實現(xiàn)對貸款利潤率的準確預測。
此次建模,從213 730條貸款數(shù)據(jù)中隨機選取80%作為訓練集,剩余20%的記錄作為測試集,用于對模型擬合結果進行檢測。圖2展示了決策樹在預測貸款IRR的過程中,從65個自變量中所篩選采用的10個自變量及其相應的重要程度。表2是對上述變量的含義所作出的解釋。
圖2 決策樹所采用變量及其重要程度
此決策樹包含84個終端節(jié)點,表3總結列舉了其中8個節(jié)點的訓練和測試結果,顯示了該節(jié)點的分支,并揭示了獲得正向異常收益的某些策略。例如,向dti為11.26~13.79,按揭賬戶為1~3,且過去24個月內的交易數(shù)量不超過4的用戶借款,可獲得高于整體水平的收益。
表2 CHAID決策樹所用變量
為了將CHAID分析所得結果與傳統(tǒng)的信用評估方法相對比,本文參照前人的建模經驗,采用和CHAID一樣的訓練集和測試集,對上述建模所用數(shù)據(jù)進行邏輯回歸(Logistic Regression-LR)分析以評估其違約概率。LR提供從0到1的分數(shù),可以將其解釋為貸款的償付能力指標。將測試樣本中的貸款根據(jù)其LR評分進行排名,如果貸款人根據(jù)LR信用評分結果選擇前10%的最佳借款人,則將獲得平均1.0%的內部收益率。而在同樣的借款人集合中,根據(jù)FICO得分選擇前10%的最佳借款人將獲得平均1.6%的內部收益率,按CHAID得分選擇前10%的最佳借款人將獲得平均1.9%的內部收益率。圖3展示了兩種模型結果的差異,可以看出,CHAID模型在選擇高IRR的借款人時,較LR和FICO評分有著明顯而穩(wěn)定的優(yōu)勢。
表3 CHAID決策樹部分節(jié)點展示
圖3 CHAID模型和LR模型預測結果對比
由前文可以知曉,目前P2P行業(yè)存在較高的違約率和較低的IRR。這與目前P2P市場以信用評分為唯一的投資參考標準有關。在本文的研究中,我們提出了一個通過CHAID決策樹模型預測P2P貸款收益率,并將其作為P2P平臺投資人決策依據(jù)的思路。在建模過程中,本文發(fā)現(xiàn)了影響貸款收益率的重要因素,且模型結果顯示,使用CHAID模型的預測結果作為投資決策依據(jù)可以在一定范圍內穩(wěn)健提升投資人的收益率,使投資者更有積極性地將資金應用到網貸平臺,有助于網貸平臺更健康的發(fā)展。
本文的局限性在于,由于P2P數(shù)據(jù)獲取較為困難,本研究僅分析Lending Club單一電子平臺的數(shù)據(jù)。盡管確定內部收益率的因素已經確定,但這些結果不能擴展到其他P2P借貸平臺,所獲得的規(guī)則僅適用于分析的案例。