師應(yīng)來,張冰潔,姜 昊
(中南財經(jīng)政法大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,武漢 430074)
新經(jīng)濟業(yè)態(tài)下,P2P網(wǎng)絡(luò)借貸融資模式不再以傳統(tǒng)金融機構(gòu)作為中介,借貸雙方直接通過網(wǎng)絡(luò)平臺達成交易,平臺以低門檻、高效便捷等優(yōu)點吸引了大量用戶,交易規(guī)模和風(fēng)險也在日益擴大。截至2017年10月底,P2P網(wǎng)貸行業(yè)歷史累計成交量達到57812.89億元,與去年同期相比上升幅度達到94.98%。盡管自2016年8月《網(wǎng)絡(luò)借貸信息中介機構(gòu)業(yè)務(wù)活動管理暫行辦法》出臺以來,網(wǎng)貸行業(yè)正常運營平臺數(shù)量一直處于下降趨勢,部分平臺主動退出,現(xiàn)有平臺開始朝著“小額、普惠”方向轉(zhuǎn)型,P2P網(wǎng)貸平臺的風(fēng)險仍不容小覷。截至2017年10月底,P2P網(wǎng)貸平臺累計數(shù)量達到5949家(含破產(chǎn)及問題平臺),累計破產(chǎn)及問題平臺達到3974家。然而,目前國內(nèi)仍缺乏對P2P平臺的有效監(jiān)管,如何在網(wǎng)貸行業(yè)加速洗牌的過程中及時有效地甄別風(fēng)險顯得尤為重要。本文收集整理了我國500家P2P網(wǎng)貸平臺基礎(chǔ)數(shù)據(jù),在變量選取過程中,除傳統(tǒng)結(jié)構(gòu)化信息外,還通過網(wǎng)絡(luò)爬蟲、文本挖掘技術(shù)得到平臺的用戶評價情感得分。在模型構(gòu)建過程中,為克服模型過擬合問題,利用主成分分析提取主要變量,在此基礎(chǔ)上構(gòu)建Logistic、支持向量機、隨機森林模型對平臺風(fēng)險進行甄別。研究結(jié)果能夠有效甄別和預(yù)測平臺風(fēng)險,有利于投資者做出理性決策,并為政府監(jiān)管提供切實有效的參考意見。
本文主要研究平臺自身運營風(fēng)險,此類風(fēng)險主要是由于:平臺擔(dān)保能力有限,不能完全保障出借人賬款可以收回;平臺盈利能力有限,有倒閉風(fēng)險,收入可能不能覆蓋成本;政府監(jiān)管不到位,難以提供公平的競爭環(huán)境。這類風(fēng)險可以通過兩類變量加以識別:一類是平臺公布的、能夠直接獲得的基本信息,包括平臺成交量、平均預(yù)期收益率、平均借款期限、注冊資本、滿標用時、待還余額、資金凈流入、運營時間、投資人數(shù)、借款人數(shù)、借款標數(shù)、前十大房貸人待收金額占比、人均投資金額、前十大借款人待還金額占比、人均借款金額;另一類是外部信息,包括各平臺用戶評論的情感得分及各平臺的關(guān)注度。
網(wǎng)貸之家網(wǎng)站提供了P2P平臺近期的基本信息,包括每個平臺各時間段內(nèi)的基本數(shù)據(jù),本文根據(jù)網(wǎng)站的公開信息對平臺進行標注,低風(fēng)險平臺定義為y=1,高風(fēng)險平臺定義為y=0,在選取的500家網(wǎng)貸平臺數(shù)據(jù)中,共有366家屬于低風(fēng)險平臺,134家屬于高風(fēng)險平臺。根據(jù)影響網(wǎng)貸運營風(fēng)險因素,并考慮數(shù)據(jù)的可獲得性,本文計算了2017年5月至2017年11月500家平臺每個指標的均值,共計15個變量。變量說明見下頁表1。
用戶評論是判斷用戶對平臺感受的重要標準之一,可以通過評論中有感情傾向的詞語來反映情感得分。本文評論信息來自第三方網(wǎng)貸資訊平臺(網(wǎng)貸之家、網(wǎng)貸天眼),通過網(wǎng)絡(luò)爬蟲技術(shù)爬取5萬余條用戶評論,對評論文本采取分詞、去除停用詞處理并進行情感分析,識別每家P2P網(wǎng)貸平臺的用戶情感得分。本文使用BosonNLP情感詞典作為評論文本的匹配源,其數(shù)據(jù)來源豐富,主要有微博、新聞、論壇等。對爬取的評論數(shù)據(jù)進行缺失數(shù)據(jù)處理,最終從500家網(wǎng)貸平臺共獲取51077條評論,遍歷每一家平臺的評論文本,得到用戶對該平臺的綜合評分。部分評分如下頁表2所示。
表1 變量說明
表2 P2P網(wǎng)貸平臺情感得分
為利用已有數(shù)據(jù)對P2P網(wǎng)貸平臺風(fēng)險進行甄別,本文選取Logistic模型、SVM、隨機森林模型展開分析。通過對比三個模型預(yù)測效果,確定合適的模型對P2P平臺進行分類,并根據(jù)三個模型的結(jié)果,對影響P2P網(wǎng)貸平臺風(fēng)險的因素進行分析。
Logistic回歸主要用于因變量為二元變量的回歸分析,自變量可以分為分類變量,也可以為連續(xù)變量。它既可以從多個變量中選出對因變量有影響的自變量,也能估計出模型用于預(yù)測。模型的基本形式為:
對其做logit變換,變形后模型形式為:
其中,x1,x2,…,xn為自變量,Y 為因變量,模型的參數(shù)估計最常采用MLE法。
支持向量機算法的依據(jù)是結(jié)構(gòu)風(fēng)險最小化,先由訓(xùn)練樣本得到初步模型,模型具有較小誤差,這個較小的誤差在測試集中仍然可以保持。SVM分類模型可分為線性可分和線性不可分兩種情況,本文數(shù)據(jù)屬于線性不可分。模型求解的基本過程為:
設(shè)樣本為n維空間,其k個訓(xùn)練樣本輸入為 x1,x2,…,xk,對應(yīng)的所屬類別為兩類:yi∈{+ 1,-1},i=1,2,…,k ,其中,+1和-1分別表示兩類類別標識。假定分類的超平面為:w·x+b=0。為使樣本正確分類,超平面應(yīng)滿足約束條件:f(x)=wTx+b,且滿足條件 | f(x)|≥1,求解目標要求樣本與超平面的最小距離‖w‖盡可能大,由于部分樣本不能被超平面正確分類,因此在必要時可以放寬約束,可以通過引入一個松弛變量來實現(xiàn),此時的約束條件和目標函數(shù)分別為:
其中,C(C>0)為懲罰系數(shù),用其控制錯分樣本的懲罰程度;b為分類的閾值,在約束條件下求解目標函數(shù)最優(yōu)值,最終可以得到最優(yōu)分類函數(shù)。
隨機森林是由Leo Breiman提出的一種分類算法。其運算的原理實質(zhì)是對決策樹算法的一種改進。單棵樹分類的能力和精度都常常不能達到要求,但通過多棵決策樹(隨機產(chǎn)生),讓所有樹進行分類,選出支持率最高的分類結(jié)果,從而能夠在分類能力和精度上取得明顯的提升。
隨機森林算法的實現(xiàn):首先構(gòu)建分類樹。從訓(xùn)練樣本中有放回地抽取樣本集,未被抽到的樣本則構(gòu)成袋外數(shù)據(jù)。再分裂,每棵樹上都有富含信息的節(jié)點,通過隨機抽取和計算信息量并排序的方法選擇要分裂的節(jié)點。在過程中不對分類樹進行剪裁,不剪枝。最后生成隨機森林,對于解決分類問題,分類結(jié)果由樹分類器的投票多少而定。
本文初步選取了17個解釋變量,解釋變量維數(shù)較高,且一般信用風(fēng)險評估本身的復(fù)雜性及風(fēng)險因素之間也往往存在密切的相關(guān)性。因此無論采用經(jīng)典計量方法或者機器學(xué)習(xí)算法,都存在模型的指標具有高維性和高相關(guān)性,并會導(dǎo)致模型參數(shù)估計無效、模型過擬合等一系列后果。因此本文在實證分析之前先采用主成分分析法對變量進行預(yù)處理,得到9個主成分,再利用得到的主成分作為解釋變量進行實證分析。
對所選取的解釋變量做KMO&Bartlett球形檢驗,KMO值為0.683(KMO>0.6),在累計方差貢獻率達80%的基礎(chǔ)上選取了9個主成分,得到的旋轉(zhuǎn)成分矩陣如表3所示。
表3 主成分旋轉(zhuǎn)成分矩陣
由表3可知,第一主成分在X1、X2和X3上有較大載荷,表明F1與這三個變量具有較強的相關(guān)性,基本反映了平臺的歷史交易信息,定義為歷史交易因子;第二主成分在X4、X5和X6上有較大載荷,根據(jù)其指標特征,定義為平臺現(xiàn)狀因子;第三主成分在X7和X8上有較大載荷,且都是反映平臺發(fā)展,定義為平臺發(fā)展因子;第四主成分在X9、X10和X11上有較大載荷,與交易人數(shù)具有很強相關(guān)性,定義為交易人數(shù)因子;第五主成分在X12上有較大載荷,定義為平臺貸款因子;第六主成分在X13上有較大載荷,定義為客戶投資因子;第七主成分在X14和X15上有較大載荷,與客戶向平臺貸款有較大相關(guān)性,定義為平臺貸款因子;第八主成分在X16上有較大載荷,定義為情感因子;第九主成分在X17上占有較大載荷,與平臺評論數(shù)有較大相關(guān)性,定義為關(guān)注度因子。
在主成分分析提取的9個因子基礎(chǔ)上,本文從網(wǎng)貸之家網(wǎng)絡(luò)平臺選取了500家平臺進行風(fēng)險評估分析,其中低風(fēng)險平臺共有366家,高風(fēng)險平臺有134家,樣本比接近2:5,不存在樣本失衡問題,模型構(gòu)建具有可行性。且在使用各個模型進行分析時通過軟件選擇相同的訓(xùn)練集和測試集(其中訓(xùn)練集與測試集樣本量比為7:3),從而保證各模型的分類結(jié)果具有可比性。
首先利用SVM模型對平臺進行分類,為了使得SVM模型能夠根據(jù)提供的訓(xùn)練集訓(xùn)練出最佳模型,本文選擇多類模型參數(shù)、核函數(shù)進行訓(xùn)練,訓(xùn)練得到的模型對預(yù)測集預(yù)測的正確率如表4所示。
表4 SVM模型參數(shù)選擇 (單位:%)
根據(jù)表4得出,在SVM模型中,選擇懲罰系數(shù)為10和徑向基核對預(yù)測集預(yù)測效果最佳,預(yù)測正確率為76.67%,預(yù)測效果較好。
其次利用隨機森林模型和邏輯回歸模型對平臺進行分類,同時將這兩種模型與SVM模型擬合結(jié)果進行對比,對比結(jié)果如表5所示。
表5 模型預(yù)測結(jié)果對比 (單位:%)
由表5可知,利用Logistic模型對平臺進行分類,發(fā)現(xiàn)在測試集上的預(yù)測正確率不到80%,低于支持向量機(82%)和隨機森林(100%)對訓(xùn)練集的分類正確率。對于測試集,SVM的分類正確率達到76.67%,但隨機森林和Logistic回歸的分類正確率均未達到75%,對模型的分類效果均不如SVM,結(jié)合表4與表5,說明本文選取了相對合適的懲罰系數(shù)以及核函數(shù)來處理平臺風(fēng)險的分類問題。
從預(yù)測結(jié)果可以看出,利用高維變量對被解釋變量進行分類時的廣義線性模型預(yù)測效果低于非線性模型SVM,原因在于本文選取的風(fēng)險評估變量自身往往存在復(fù)雜的相關(guān)關(guān)系,線性模型難以估計,因而對于高維變量且之間存在復(fù)雜關(guān)系的變量進行分析時,應(yīng)多考慮利用非線性模型進行估計。而隨機森林模型的預(yù)測效果優(yōu)于支持向量機,原因在于隨機森林模型不需要預(yù)先設(shè)定函數(shù)形式,不進行交叉驗證,因而不易出現(xiàn)過擬合的現(xiàn)象,且可以保證預(yù)測精度。
對于本文選取的模型,雖然SVM和隨機森林模型對于平臺的分類具有較不錯的分析結(jié)果,但是缺乏可解釋性。因此綜合考慮模型對測試集預(yù)測的正確率及模型的可解釋性,本文以Logistic模型和隨機森林模型解釋各變量之間存在的聯(lián)系。
首先對于Logistic模型,本文將PCA得到的9個因子作為解釋變量與被解釋變量平臺風(fēng)險狀況進行擬合,得到的模型參數(shù)估計如下頁表6所示。
由表6的模型估計結(jié)果可以看出,平臺風(fēng)險狀況與主成分分析得到的主成分之間的相關(guān)關(guān)系,其中模型變量的顯著性檢驗表明,平臺發(fā)展因子、平臺貸款因子、情感因子以及關(guān)注度因子在5%的顯著性水平下顯著。原因在于:平臺發(fā)展因子主要由平臺資金凈流入和運營時間組成,一個平臺現(xiàn)持有的資金是其發(fā)展的基礎(chǔ),其對一個平臺的持續(xù)發(fā)展具有極大的影響。而與經(jīng)營時間短的平臺相比,經(jīng)營時間長的平臺在一定程度上處理風(fēng)險的能力更強。綜合該因子主要包含的兩個指標及該因子的參數(shù)正負性可知,該因子與平臺的風(fēng)險大小負相關(guān);對于平臺貸款因子,該因子主要由前十大放貸人待還金額占比和人均借款金額組成。對于某個平臺如果發(fā)放的貸款越多,在一定程度上可能會收到更多的傭金,但是平臺自身持有的資金將會大額減少,平臺應(yīng)對突發(fā)事件的能力會隨著平臺持有資金減少而下降,對一個平臺的穩(wěn)定性將產(chǎn)生很大影響。綜合考慮這兩項指標及因子的參數(shù)正負性可知,該指標越大,該平臺風(fēng)險越大;對于情感因子,該因子主要由情感得分因子組成,顯示網(wǎng)民對于平臺的情感評價該指標越大表示網(wǎng)民對于該平臺的評價越好,即在一定程度上可根據(jù)網(wǎng)民正向評論反映該平臺風(fēng)險較小。其次根據(jù)該參數(shù)的系數(shù)為正,綜合該指標大小及參數(shù)的正負可以得出情感因子越大,則平臺的風(fēng)險較小;對于關(guān)注度因子,該因子主要由各平臺的評論數(shù)組成,因為客戶進行投資的主要目的是盈利或至少是保值。因此如果一個平臺出現(xiàn)嚴重問題,則客戶一般會在該平臺下簡要介紹自己遇到的各種問題,為后續(xù)投資者提出警示,且實際查看各平臺的評論發(fā)現(xiàn)網(wǎng)民主要針對平臺存在的問題發(fā)出評論。因此綜合該指標大小及參數(shù)正負得出關(guān)注度因子越大,該平臺風(fēng)險越大。
表6 Logistic模型參數(shù)估計
對于隨機森林模型,根據(jù)表4可知該模型對訓(xùn)練集的擬合效果很好,而且該模型在進行精確分類的基礎(chǔ)上還可以給出各個變量的重要性,得出各變量的重要性結(jié)果如表7所示。
表7 隨機森林變量重要性排序
從表7結(jié)果可以得出:從誤差遞減的角度,最重要的四個影響因子排名為情感因子、客戶投資因子、關(guān)注度因子、平臺貸款因子;從精確度遞減的角度,最重要的四個因子排名為交易人數(shù)因子、情感因子、平臺貸款比重因子、客戶投資因子。將該結(jié)果與Logistic結(jié)果對比發(fā)現(xiàn),二者得到的重要因素基本相同。
在對網(wǎng)貸平臺進行風(fēng)險甄別的過程中,支持向量機、隨機森林非線性模型比廣義線性模型預(yù)測效果更優(yōu)。平臺發(fā)展因子、客戶投資因子、平臺貸款因子、情感因子和關(guān)注度因子對平臺的風(fēng)險甄別具有重要意義。因此,非線性模型更適合構(gòu)建P2P網(wǎng)貸平臺風(fēng)險甄別體系,想進行投資的用戶更應(yīng)關(guān)注平臺的發(fā)展情況、資金流及投資貸款信息,同時,用戶評論和平臺的關(guān)注度應(yīng)給予足夠重視?;谏鲜鰧嵶C分析,本文提出以下建議:
政府應(yīng)該增加對網(wǎng)貸平臺的管理力度。在數(shù)據(jù)搜集過程中,發(fā)現(xiàn)網(wǎng)絡(luò)貸款作為一種與互聯(lián)網(wǎng)相結(jié)合的新型金融形態(tài),平臺披露的信息仍然很有限,相關(guān)法律法規(guī)還不夠完善,這會導(dǎo)致投資者面臨的投資風(fēng)險增大、致使網(wǎng)貸平臺競爭環(huán)境喪失公平性。政府應(yīng)盡快完善法律法規(guī),保障P2P網(wǎng)貸的將抗發(fā)展環(huán)境,促使這種新型金融形態(tài)可持續(xù)發(fā)展。
建議相關(guān)部門對P2P平臺進行風(fēng)險監(jiān)測,實現(xiàn)風(fēng)險預(yù)警??蓞⒖急疚牡姆治鼋Y(jié)果,根據(jù)上述指標建立平臺風(fēng)險指數(shù),促使各平臺定期公布,從而使各平臺良性發(fā)展。同時在大數(shù)據(jù)時代數(shù)據(jù)豐富性基礎(chǔ)上,選取更多的信息對模型不斷訓(xùn)練,使其對平臺的風(fēng)險預(yù)測更加準確,進而促使P2P交易市場更加成熟。