盧華陽(yáng)
摘要:本文以支持向量機(jī)(SVM)作為學(xué)習(xí)器,運(yùn)用機(jī)器學(xué)習(xí)技術(shù),構(gòu)建基于支持向量分類機(jī)的評(píng)估模型來(lái)識(shí)別P2P網(wǎng)貸平臺(tái)借款人的違約風(fēng)險(xiǎn)。構(gòu)建模型時(shí)采用因子分析法進(jìn)行特征抽取,選擇公共因子。通過(guò)人人貸的交易數(shù)據(jù)進(jìn)行的實(shí)證研究結(jié)果表明:SUM法對(duì)借款人違約狀況的預(yù)測(cè)結(jié)果具有較高的準(zhǔn)確性,適用于P2P網(wǎng)貸借款人違約風(fēng)險(xiǎn)識(shí)別。同時(shí)還發(fā)現(xiàn),SVM方法的分類效率受到學(xué)習(xí)樣本中正常樣本與違約樣本的構(gòu)成比例影響。與比例失衡的樣本相比,比例均衡的樣本具有更高的分類精度。本研究對(duì)P2P網(wǎng)貸的違約風(fēng)險(xiǎn)評(píng)判具有應(yīng)用參考意義。
關(guān)鍵詞:P2P網(wǎng)貸;支持向量機(jī);信用風(fēng)險(xiǎn);機(jī)器學(xué)習(xí)
0 引言
P2P網(wǎng)絡(luò)借貸,自2005年在英國(guó)出現(xiàn)后迅速向全球蔓延。P2P網(wǎng)絡(luò)平臺(tái)迅猛發(fā)展要?dú)w因于其擁有傳統(tǒng)金融平臺(tái)無(wú)法比擬的優(yōu)點(diǎn):為融資者提供了更簡(jiǎn)便、快捷的融資服務(wù);為投資者開(kāi)辟了一條新的投資渠道;有效消解中小企業(yè)以及個(gè)人貸款難題。
但是,在P2P網(wǎng)貸平臺(tái)迅速發(fā)展的同時(shí),也面臨多種風(fēng)險(xiǎn),諸如政策風(fēng)險(xiǎn)、操作風(fēng)險(xiǎn)、監(jiān)管風(fēng)險(xiǎn)、網(wǎng)絡(luò)風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn)等(盧馨和李慧敏,2015),其中信用風(fēng)險(xiǎn)尤為突出,也是導(dǎo)致“跑路”、倒閉頻頻出現(xiàn)的主要原因。
具體來(lái)說(shuō),P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)可分為兩部分:平臺(tái)信用風(fēng)險(xiǎn)與借款人信用風(fēng)險(xiǎn)。本文側(cè)重于研究借款人信用風(fēng)險(xiǎn)。借款人信用風(fēng)險(xiǎn)源自于借貸雙方信息不對(duì)稱。在進(jìn)行借貸活動(dòng)之前,平臺(tái)負(fù)責(zé)對(duì)借款者信用進(jìn)行評(píng)估。但平臺(tái)無(wú)法對(duì)借款者提供的所有信息進(jìn)行全部核實(shí),難以保證借款者信息的真實(shí)性,也就難以保證信用評(píng)估的有效性。在借貸交易完成之后,投資者與平臺(tái)都無(wú)法對(duì)借款人的行為有效監(jiān)督,借款人有可能從事高風(fēng)險(xiǎn)活動(dòng)或者惡意逾期,最終導(dǎo)致貸款無(wú)法償還。同時(shí),P2P網(wǎng)貸借款門檻低,且無(wú)需抵押,這就使借款人的違約風(fēng)險(xiǎn)問(wèn)題更加嚴(yán)重(沈良輝和陳瑩,2014)。因此,在當(dāng)前形勢(shì)下,針對(duì)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)建立更準(zhǔn)確的風(fēng)險(xiǎn)識(shí)別模型,對(duì)網(wǎng)貸行業(yè)健康穩(wěn)定發(fā)展具有十分重要的現(xiàn)實(shí)意義。
本文針對(duì)于P2P網(wǎng)貸平臺(tái)的借款人信用風(fēng)險(xiǎn),運(yùn)用機(jī)器學(xué)習(xí)方法構(gòu)建基于SVM的P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別模型。文章第二部分對(duì)相關(guān)的研究成果進(jìn)行回顧與評(píng)述,第三部分簡(jiǎn)述SVM原理,第四部分運(yùn)用人人貸的數(shù)據(jù)進(jìn)行實(shí)證研究,最后一部分則是結(jié)論與建議。
1 文獻(xiàn)回顧
1.1 國(guó)外信用風(fēng)險(xiǎn)評(píng)估方法
傳統(tǒng)統(tǒng)計(jì)學(xué)方法在線性、正態(tài)性等方面有嚴(yán)格的假設(shè)。而現(xiàn)實(shí)數(shù)據(jù)往往不滿足這些假設(shè),限制了統(tǒng)計(jì)學(xué)方法在實(shí)踐中的應(yīng)用。目前,有很多風(fēng)險(xiǎn)識(shí)別方面的研究都開(kāi)始運(yùn)用突破這些嚴(yán)格的假設(shè)的方法。Hunt等人于1966年首次提出決策樹(shù)的概念,后來(lái)的學(xué)者在此概念的基礎(chǔ)上加以改進(jìn)。Chitra&Subashini;(2013)對(duì)學(xué)習(xí)過(guò)程有無(wú)監(jiān)督進(jìn)行了區(qū)分,指出可以將SVM方法應(yīng)用在識(shí)別銀行的信用欺詐領(lǐng)域,但并未得到嚴(yán)格的最優(yōu)算法。在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上,Vapnik提出了支持向量機(jī)機(jī)器學(xué)習(xí)方法。SVM可以完美地解決線性可分間題,針對(duì)線性不可分的樣本,SVM的解決思路是將原始樣本空間映射到更高維的特征空間中,使其變成線性可分間題。而高維空間的運(yùn)算可以通過(guò)原始樣本空間的內(nèi)積運(yùn)算進(jìn)行,免去了高維空間運(yùn)算的復(fù)雜性。正是由于SVM在處理非線性問(wèn)題上的優(yōu)越性,使得SVM算法越來(lái)越受到重視。
1.2 國(guó)內(nèi)信用風(fēng)險(xiǎn)評(píng)估方法
國(guó)內(nèi)學(xué)者對(duì)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別的研究大部分仍然基于傳統(tǒng)統(tǒng)計(jì)學(xué)方法。肖曼君等(2015)通過(guò)構(gòu)建排序選擇模型甄別影響平臺(tái)信用風(fēng)險(xiǎn)的因素,研究發(fā)現(xiàn)信用變量、歷史記錄、借款信息、借款人信息都是網(wǎng)貸信用風(fēng)險(xiǎn)的顯著因素。廖理等(2014)通過(guò)回歸分析得出投資者可以依據(jù)借款人的公開(kāi)信息識(shí)別違約風(fēng)險(xiǎn)的結(jié)論。將機(jī)器學(xué)習(xí)應(yīng)用到P2P網(wǎng)貸平臺(tái)信用識(shí)別的研究成果比較少。
1.3 現(xiàn)有文獻(xiàn)評(píng)述
可以看出,國(guó)外的信用風(fēng)險(xiǎn)識(shí)別運(yùn)用的方法較為多樣,而國(guó)內(nèi)依然沿襲了傳統(tǒng)商業(yè)銀行風(fēng)險(xiǎn)識(shí)別方法。而為數(shù)不多的運(yùn)用機(jī)器學(xué)習(xí)研究P2P網(wǎng)貸平臺(tái)風(fēng)險(xiǎn)的研究成果中,仍有一部分學(xué)者沿用著商業(yè)銀行的風(fēng)險(xiǎn)識(shí)別指標(biāo)。
2 支持向量機(jī)原理
SVM的原理可以看作是尋找一個(gè)滿足相應(yīng)分類條件的超平面,要求該超平面在實(shí)現(xiàn)樣本類分離的同時(shí)滿足距離超平面最近的樣本點(diǎn)到超平面的距離最大,即在約束下最大化樣本與超平面間距的條件。
最優(yōu)分類超平面可以將不同類的樣本數(shù)據(jù)準(zhǔn)確分開(kāi)意味著經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,而最大化分類間隔距離則意味著最小化推廣性的界的置信范圍,以此可求得最優(yōu)分類平面。
在二分類線性可分間題中,分類器是一個(gè)超平面f(x)=ωx+b,若f(x)>0則該點(diǎn)屬于1類,f(x)<0,則該點(diǎn)屬于-1類。SVM構(gòu)造的最優(yōu)分割超平面是使得1類中的點(diǎn)到超平面的最短距離和-1類中的點(diǎn)到超平面的最短距離這兩者的最大值達(dá)到最大,對(duì)應(yīng)于求解如下優(yōu)化間題,最終解得權(quán)重ω和偏移量b:
s.t.yi(ω*xi+b)≥1 i=1,2,3.....,n(2)
通過(guò)拉格朗日乘數(shù)法,該間題可以轉(zhuǎn)化為以下的對(duì)偶問(wèn)題:
在處理線性不可分間題時(shí),支持向量機(jī)的核心是通過(guò)核函數(shù)將非線性變量映射到更高位的空間中去,使他們變得線性可分。這樣支持向量機(jī)就避開(kāi)了求解非線性映射形式和高維數(shù)空間運(yùn)算的困難。
3 實(shí)證研究
3.1 研究方法與工具
本文采用機(jī)器學(xué)習(xí)的建模方式測(cè)度P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)。搜集“人人貸”平臺(tái)投資標(biāo)的中所有可得到的變量信息,通過(guò)因子分析進(jìn)行特征提取,隨后將因子與分類變量組合為新數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)。
本文實(shí)證工具采用SPSS 22通過(guò)因子分析完成特征提取過(guò)程,用Matlab 2015b進(jìn)行SVM學(xué)習(xí)與預(yù)測(cè)。
3.2 數(shù)據(jù)來(lái)源與指標(biāo)說(shuō)明
受數(shù)據(jù)可得性限制,本文用于實(shí)證分析的數(shù)據(jù)取自于2010年10月到2014年12月“人人貸”的借款數(shù)據(jù),共計(jì)301235條記錄,去除明顯無(wú)關(guān)變量(諸如貸款申請(qǐng)時(shí)間、認(rèn)證時(shí)間、貸款序號(hào)、貸款人姓名等)之后包括:貸款類型、貸款總額、利率、還款期限、抓取時(shí)狀態(tài)、保障方式、提前還款率、還款方式、月還本息、性別、年齡、學(xué)歷、婚姻、公司行業(yè)、公司規(guī)模、工作城市、工作時(shí)間、收入范圍、房產(chǎn)、房貸、車產(chǎn)、車貸、工作類型、信用等級(jí)、申請(qǐng)借款、成功還款、還清筆數(shù)、信用額度、借款總額、待還本息、逾期金額、逾期次數(shù)、嚴(yán)重逾期、信用報(bào)告、身份認(rèn)證、工作認(rèn)證、收入認(rèn)證、房產(chǎn)認(rèn)證、購(gòu)車認(rèn)證、結(jié)婚認(rèn)證、學(xué)歷認(rèn)證共計(jì)41個(gè)變量。
3.3 數(shù)據(jù)預(yù)處理
3.3.1 指標(biāo)量化與缺失值處理
指標(biāo)量化主要是將定性指標(biāo)進(jìn)行分類,并將每一類量化為一個(gè)數(shù)值以示區(qū)分。量化過(guò)程如下:
將抓取時(shí)狀態(tài)作為判斷借款人是否違約的標(biāo)志,樣本數(shù)據(jù)中的抓取時(shí)狀態(tài)分為已逾期、還款中、已墊付、已還清、已流標(biāo)五種狀態(tài)。平臺(tái)會(huì)為信用評(píng)級(jí)高于E級(jí)的借款人墊付,所以上述狀態(tài)中已逾期和已墊付表示借款人已經(jīng)發(fā)生違約,已還清表示借款人未發(fā)生違約。對(duì)于還款中和已流標(biāo)的狀態(tài)無(wú)法判斷,故將數(shù)據(jù)集中已流標(biāo)和還款中的記錄刪去,剩余10304條有效記錄。貸款類型區(qū)分為信、保、實(shí)三種;保障方式區(qū)分為本金保障、本金+利息保障;在10304條有效記錄中,還款方式僅剩按月還款/等額本息一種方式,故將該指標(biāo)刪去;性別區(qū)分為男、女;學(xué)歷區(qū)分為高中及以下、大專、本科、研究生及以上;婚姻區(qū)分為未婚、已婚、離異、喪偶;公司行業(yè)區(qū)分為一類行業(yè)、二類行業(yè)、三類行業(yè);公司規(guī)模區(qū)分為10人以下、10-100人、100-500人、500人以上;工作城市按照工作城市所屬省份劃分為東部地區(qū)、中部地區(qū)、西部地區(qū);工作時(shí)間區(qū)分為1年(含)以下、1-3年(含)、3-5年(含)、5年以上;收入范圍區(qū)分為1000元以下、1001-2000元、2000-5000元、5000-10000元、,10000-20000元、20000-50000元.50000元以上;房產(chǎn)、房貸、車產(chǎn)、車貸區(qū)分為有、無(wú);工作類型區(qū)分為工薪階層、私營(yíng)企業(yè)主、網(wǎng)絡(luò)商家、其他;信用等級(jí)區(qū)分為AA、A、B、C、D、E、HR;身份認(rèn)證、工作認(rèn)證、收入認(rèn)證、房產(chǎn)認(rèn)證、購(gòu)車認(rèn)證、結(jié)婚認(rèn)證、學(xué)歷認(rèn)證區(qū)分為認(rèn)證通過(guò)、未認(rèn)證。剔除變量缺失記錄。
經(jīng)上述處理之后,保留有效記錄為7859條,變量40個(gè)。變量名稱與縮寫如表1所示:
3.3.2 因子分析法特征提取
本文研究選取的是借款標(biāo)的全部變量,這些變量反映的信息會(huì)包含無(wú)用信息和重復(fù)信息。因此,對(duì)變量進(jìn)行篩選,保留且僅保留一組有用信息對(duì)提高模型的預(yù)測(cè)精確度很有必要。因此本文采用因子分析法對(duì)數(shù)據(jù)進(jìn)行降維。
(1)樣本標(biāo)準(zhǔn)化處理與相關(guān)性檢驗(yàn)
由于SPSS 22在做因子分析時(shí)會(huì)自動(dòng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因此可以省略該步驟。直接對(duì)數(shù)據(jù)做KMO檢驗(yàn)與巴特利球度檢驗(yàn),看數(shù)據(jù)是否適合做因子分析。結(jié)果如圖1:
結(jié)果顯示,巴特利球度檢驗(yàn)卡方值為366016.59(p=0.000),KMO值為0.798,說(shuō)明樣本適合做因子分析。
(2)因子提取
從結(jié)果來(lái)看,前11個(gè)因子的解釋能力已經(jīng)達(dá)到72.772%,說(shuō)明因子中包含了原始變量中72%的信息,既達(dá)到了濃縮指標(biāo)的目的,也保留了原始變量中的大部分信息。可以看到自第十一個(gè)主成分開(kāi)始,后續(xù)主成分的特征值開(kāi)始小于1,說(shuō)明后續(xù)的主成分對(duì)應(yīng)變量解釋能力不強(qiáng),因此選擇11個(gè)主成分是合適的。
為了更好地對(duì)公因子進(jìn)行解釋,本文采用方差最大旋轉(zhuǎn)法進(jìn)行旋轉(zhuǎn)。經(jīng)旋轉(zhuǎn)后變量與因子之間的關(guān)系較為明顯,選取系數(shù)絕對(duì)值最大的前幾個(gè)變量為代表變量,歸納因子含義,據(jù)此對(duì)因子進(jìn)行解釋。見(jiàn)表20
因此可以看到,網(wǎng)貸平臺(tái)借款人信用風(fēng)險(xiǎn)評(píng)價(jià)應(yīng)當(dāng)從上述十一個(gè)方面進(jìn)行。
(3)樣本轉(zhuǎn)化根據(jù)主成分系數(shù)
通過(guò)旋轉(zhuǎn)后的成分矩陣將原始樣本轉(zhuǎn)化為因子樣本地加入應(yīng)變量后可以生成一個(gè)新樣本,并將該樣本用于SVM模型。
3.4 模式應(yīng)用與結(jié)果展示
將新樣本按照7:3的比例分割為學(xué)習(xí)集和測(cè)試集??紤]到樣本中違約樣本僅有200條占總樣本的2.5%左右,因此需要將違約樣本與非違約樣本分別分割。得到學(xué)習(xí)樣本5501條,測(cè)試樣本2358條。
本部分實(shí)證使用matlab 2015b和python 3.6,采用libsvm-3.22和grid.py工具進(jìn)行。經(jīng)參數(shù)尋優(yōu)得到模型最優(yōu)參數(shù)c為128,最優(yōu)參數(shù)g為0.03125。
預(yù)測(cè)結(jié)果中,正常樣本預(yù)測(cè)準(zhǔn)確率與違約樣本預(yù)測(cè)準(zhǔn)確率如表3所示。
在確定樣本適合做因子分析后,采用主成分分析法,可以得到因子解釋原有變量總方差的情況,如圖2所示:
可以看到,違約樣本預(yù)測(cè)準(zhǔn)確率較低,且預(yù)測(cè)集的準(zhǔn)確率僅有55%左右,效果不理想。其原因可能是因?yàn)檫`約樣本過(guò)少,正常樣本過(guò)多,出現(xiàn)了過(guò)學(xué)習(xí)的現(xiàn)象。正常樣本過(guò)多,正常類別的支持向量也相應(yīng)的增多,會(huì)使得分類超平面出現(xiàn)偏離。
通過(guò)人為控制學(xué)習(xí)樣本中正常樣本與違約樣本比例,按照違約樣本/正常樣本=1/3的比例重新組織學(xué)習(xí)樣本。重組學(xué)習(xí)樣本量為560條,其中正常樣本420條,違約樣本140條,占新學(xué)習(xí)樣本總量的比例為25%。將原因子樣本都作為預(yù)測(cè)樣本重復(fù)之前實(shí)證過(guò)程后發(fā)現(xiàn),違約樣本的預(yù)測(cè)準(zhǔn)確率升高到100%,如表4所示。
根據(jù)預(yù)測(cè)結(jié)果可以看出,在提高學(xué)習(xí)樣本集中違約樣本所占比例之后,違約樣本預(yù)測(cè)精度確實(shí)出現(xiàn)了大幅提高,正常樣本預(yù)測(cè)準(zhǔn)確率略有下降,這主要是因?yàn)閷W(xué)習(xí)樣本較少(420條),而預(yù)測(cè)樣本太大(7659條)的緣故。通過(guò)上述實(shí)證可以證明,違約樣本的預(yù)測(cè)準(zhǔn)確率偏低是由于學(xué)習(xí)樣本中違約樣本與正常樣本比例失衡,正常樣本出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象,分類平面出現(xiàn)偏離所致。
4 結(jié)論與建議
本文通過(guò)機(jī)器學(xué)習(xí)的建模方式,選取“人人貸”標(biāo)的信息中所有變量作為研究樣本,通過(guò)人工判斷與因子分析將變量濃縮為十一個(gè)因子指標(biāo),并用SVM構(gòu)建借款人信用風(fēng)險(xiǎn)識(shí)別模型。模型預(yù)測(cè)準(zhǔn)確率達(dá)到96.3354%,能夠較好地識(shí)別不同類別的借款人信用風(fēng)險(xiǎn),表明該方法可以應(yīng)用于P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別,且效果較好。但在應(yīng)用時(shí)應(yīng)當(dāng)注意幾個(gè)方面:
(一)對(duì)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別應(yīng)當(dāng)從借款基本信息、借款人歷史借款信息、借款人信息可靠程度、借款人負(fù)債壓力、借款人償債能力、借款人歷史信用狀況、借款人固定資產(chǎn)狀況、借款人收入穩(wěn)定性、借款人事業(yè)發(fā)展前景、借款人收入和身份認(rèn)證這十一個(gè)方面進(jìn)行綜合考量,選取相應(yīng)數(shù)據(jù)作為變量體系,從而全面反應(yīng)借款人的整體信用狀況。
(二)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別具有一定的特殊性。該變量體系所需信息大體上與傳統(tǒng)商業(yè)銀行信貸模式所需信息吻合。但P2P網(wǎng)貸平臺(tái)的信用風(fēng)險(xiǎn)識(shí)別的側(cè)重點(diǎn)多出了借款人信息可靠程度和身份認(rèn)證,原因在于,傳統(tǒng)商業(yè)銀行信貸模式需要借款人提供相應(yīng)信息與紙質(zhì)證明,且銀行信息渠道廣泛核實(shí)成本較低。而網(wǎng)絡(luò)貸款發(fā)生于虛擬空間,借款人身份、借款人相關(guān)信息相對(duì)容易偽造,網(wǎng)貸平臺(tái)信息核查成本較高。這就要求監(jiān)管部門對(duì)P2P網(wǎng)貸平臺(tái)開(kāi)放信息渠道,同時(shí)加大借款人信息不實(shí)的處罰力度,以減小網(wǎng)絡(luò)貸款信用風(fēng)險(xiǎn)識(shí)別與銀行貸款信用風(fēng)險(xiǎn)識(shí)別之間的差異。
(三)在采用支持向量機(jī)機(jī)器學(xué)習(xí)方法構(gòu)建P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)識(shí)別體系時(shí)應(yīng)當(dāng)注意選取的樣本中正常樣本與違約樣本的構(gòu)成比例,避免因比例失衡而引起的過(guò)學(xué)習(xí)現(xiàn)象。
參考文獻(xiàn):
[1]盧馨,李慧敏.P2P網(wǎng)絡(luò)借貨的運(yùn)行模式與風(fēng)險(xiǎn)管控[J].改革,2015,(2):60-68.
[2]沈良輝,陳瑩.美國(guó)P2P網(wǎng)貨信用風(fēng)險(xiǎn)管理經(jīng)驗(yàn)及時(shí)我國(guó)的啟示[J].征信,2014,(6):61-65.
[3]肖曼君,歐緣媛,李穎.我國(guó)P2P網(wǎng)絡(luò)借貨信用風(fēng)險(xiǎn)影響因素研究——基于排序選擇模型的實(shí)證分析[J].財(cái)經(jīng)理論與實(shí)踐,2015,(1):2-6.
[4]廖理,李夢(mèng)然,王正位.《聰明的投資者:非完全市場(chǎng)化利率與風(fēng)險(xiǎn)識(shí)別——來(lái)自P2P網(wǎng)絡(luò)借貸的證據(jù)》.《經(jīng)濟(jì)研究》第7期,2014,(7):125-137.
[5]Chitra K.,B. Subashini, 2013, "Data Mining Techniques and itsApplications in Banking Sector",International Journal of EmergingTechnology and Advanced Engineering, 3, pp. 219-226.
[6]Hunt E.B.,J. Marin, P.J. Stone, "Experiments in induction",American Journal of Psychology, 80(4), 1966, pp. 17-19.