石澄賢,陳雪交
?
P2P網(wǎng)貸個人信用?
評價指標體系的構建
石澄賢,陳雪交
摘 要:為增加P2P網(wǎng)貸平臺信用評價的可信性,改善因信息不對稱而導致的企業(yè)信用風險問題,結合實際業(yè)務需求從表征信息、行為信息及狀態(tài)信息三個方面選擇個人信用評價指標變量。通過計算變量的WOE(Weight of Evidence)、IV(Information Value)值初步觀測變量對目標的顯著程度,再用SAS軟件對整體變量進行邏輯回歸。以IV和邏輯回歸相結合的方式篩選指標,遴選出22個指標作為P2P網(wǎng)貸平臺信用評價體系指標。這種個人信用評估指標的遴選結果保留了信息量大,對信用評價貢獻概率大的指標。
關鍵詞:P2P網(wǎng)貸平臺;個人信用評價;指標體系;邏輯回歸
P2P網(wǎng)絡借貸是互聯(lián)網(wǎng)技術與民間借貸相結合的一種金融創(chuàng)新模式,是出借人通過網(wǎng)絡借貸平臺將資金貸給借款人的一種民間借款方式,屬于無抵押貸款[1]。由于借貸雙方信息不對稱,使得P2P網(wǎng)貸過程中的個人信用評價成為影響借貸交易的重要因素。然而中國缺少高度透明的個人信用體系,借款人的信用評價完全由P2P網(wǎng)絡借貸平臺的信用認證機制做出[2]。而信用認證機制中最重要的一個環(huán)節(jié)就是評價指標的選取,如果評價指標過于單一,那么評價模型對其風險揭示作用就會存在局限性。為了進一步發(fā)揮信用認證機制的風險揭示作用并降低借貸雙方信息不對稱問題,應豐富和完善多層次認證指標體系并構建合理的信用指標。
關于個人信用評估指標體系,我國已有許多學者進行了深入研究。就信用評估指標考察的內(nèi)容而言,主要涉及還款能力與還款意愿兩個方面,當然也有學者在此基礎上提出了一些新的觀點,如郭昱等[3]156在還款意愿和還款能力的基礎上增加了考察成長潛力的信用評價指標體系;賴輝等[4]提出了“個人信用行為狀態(tài)”概念,從信用行為和信用狀態(tài)以及行為狀態(tài)的關聯(lián)上構建個人信用評估指標;蔣小兔等[5]主要從小額信貸的實際開展情況和市場特征上選取評價指標;就評估方法而言,主要涉及邏輯回歸、決策樹及支持向量機等,如張國政等[6]通過邏輯回歸測得影響個人信用風險的關鍵因素是借款人的年齡、婚姻情況、受教育程度等六項指標;孫同陽等[7]通過決策樹模型對信用風險進行評價;夏晗[8]通過主成分分析和支持向量機相結合的方法對信用風險進行預測。
縱覽眾多文獻發(fā)現(xiàn),雖然目前評估指標在內(nèi)容上開始偏向還款意愿及行為狀態(tài)方面,但整體考察的力度并不是那么大,在信用指標的選取上多數(shù)還是更強調(diào)還款能力而很少涉及還款意愿及個人的行為狀態(tài)信息。然而當具有還款能力時,借款人是否違約就取決于其還款意愿的強弱[9-10]及個人的行為狀態(tài)。因此對還款意愿及行為狀態(tài)的考察是極其重要的。此外,在評估的方法上,更多文獻采用單一的評估方法,由于評估方法本身的局限性可能導致選出的指標存在一些不合理性問題。因此結合以上分析,本文在評估內(nèi)容上從表征信息、行為信息及狀態(tài)信息三個方面構建個人信用評價指標體系,使還款能力與還款意愿相結合,行為信息與狀態(tài)信息相結合,更加全面細致地考察信用評估指標;在評估方法上采用IV與邏輯回歸相結合的方法選取指標,從而使選出的指標體系無論是在內(nèi)容上還是在方法上都更加合理可信。
個人信用評價指標體系的構建不僅要全面客觀,還要充分考慮所選指標是否符合P2P網(wǎng)貸的特點[3]157。通過借鑒當今P2P網(wǎng)貸平臺信用評價指標體系的研究結果和考慮P2P網(wǎng)貸平臺自身的特點及實際業(yè)務需求,從表征信息、行為信息以及狀態(tài)信息三個方面,構建了涵蓋定性與定量指標相結合的P2P網(wǎng)貸平臺個人信用評價指標體系。
本文中的表征信息主要涉及最基本的性別、年齡等信息,這些指標對客戶的行為預測并不具有因果關系,但是根據(jù)歷史數(shù)據(jù)統(tǒng)計可得到一定的規(guī)律。行為信息主要涉及產(chǎn)品類型、申請頻次、申請金額等,行為是內(nèi)部需求在外部特定環(huán)境下的一種表現(xiàn),是內(nèi)部需求的結果,對客戶的行為預測可以表現(xiàn)出相關性。而狀態(tài)信息是指客戶的社會經(jīng)濟狀態(tài)和社會網(wǎng)絡關系,對預測客戶行為具有一定的因果關系[11]。
本文數(shù)據(jù)來源于融360金融數(shù)據(jù)分析大賽,根據(jù)以上指標設計原則,結合實際業(yè)務需求,首先從135個變量中初步篩選了39個評價指標構成該指標體系,如表1所示;然后通過計算WOE,IV值及對變量進行邏輯回歸顯著性檢驗后對指標進一步篩選。
表1 初選信用指標體系
續(xù)表1
本文主要通過IV與邏輯回歸相結合的方法確定指標顯著性,再結合實際業(yè)務需求選取最終指標。涉及到的關鍵理論知識如下所示:
(一)WOE計算方法
由于樣本數(shù)據(jù)中連續(xù)變量較多,為降低變量屬性的個數(shù),并且平滑變量的變化趨勢,通常會先對變量的取值進行分箱并計算每個變量屬性的WOE(Weight of Evidence)值[12]。WOE主要是通過比較不同變量屬性之間的差異度來反映自變量對因變量的影響程度,原理是如果同一變量的不同屬性得出的WOE差異度越大,那么說明不同的變量取值對目標變量的區(qū)分度越大,進而說明該變量對目標變量的作用越顯著。計算公式如下:
式(1)中的woei是某變量第i個屬性對應的WOE值;gi是某變量第i個屬性對應的好客戶數(shù);bi是某變量第i個屬性對應的壞客戶數(shù);g是樣本中的總的好客戶數(shù);b是樣本中總的壞客戶數(shù)。
(二)IV計算方法
如果說WOE是自變量取某一個值時對目標變量的影響,那么IV(Information Value)則衡量的是某一個變量的信息量,從公式來看的話,相當于是自變量WOE值的一個加權求和,其值的大小決定了自變量對于目標變量的影響程度;這種影響程度可以從另一個角度來理解,式(2)中的gi/g與bi/b可以理解為某個自變量關于目標變量的條件密度,當這兩個條件密度距離越遠時,說明這個自變量對目標變量的辨識度越好。因此,只要IV值大就說明對目標變量影響顯著。計算公式如下:
式(2)中的woei是某變量第i個屬性對應的WOE值;gi是某變量第i個屬性對應的好客戶數(shù);bi是某變量第i個屬性對應的壞客戶數(shù);g是樣本中的總的好客戶數(shù);b是樣本中總的壞客戶數(shù)。
(三)邏輯回歸模型及變量篩選
邏輯回歸模型主要針對目標變量是分類變量構建的回歸模型,其數(shù)學模型如下:
假設在自變量x1,x2,…,xn作用下,以Y=1表示某事件發(fā)生,概率為p,Y=0表示該事件不發(fā)生,概率為(1-p),p/(1-p)為發(fā)生概率和不發(fā)生概率之比,記做“優(yōu)勢”(odds),若對odds取自然對數(shù),得到:logit(Y)=ln(odds)=ln(p/1-p)稱為Y的logit變換[13]233-234,則logistic回歸模型為:
式(3)中,x1,x2,…,xn是自變量,b1,b2,…,bn是自變量對應的回歸系數(shù),b0為常數(shù)項。
以x1,x2,…,x35分別表示表1中35個指標,以Y=1表示個人信用好,Y=0表示個人信用壞,利用式(3)可以構建個人信用好壞的logistic回歸模型式。對于logistic回歸模型式(3)是否要包含或刪除某預測變量xi,即為變量篩選問題。目前主要的變量篩選方法有向前回歸法、向后回歸法、逐步回歸法和全模型回歸法。本文主要采用逐步回歸法進行變量篩選。將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,并對已經(jīng)選入的解釋變量逐個進行t檢驗。當原來引入的解釋變量由于后面解釋變量的引入變得不再顯著時,則將其刪除,以確保每次引入新的變量之前回歸方程中只包含先主動變量[13]238。
首先根據(jù)公式(1)、(2)將所有數(shù)據(jù)用SAS軟件計算其對應的IV值(如表1所示),并用逐步進入的方法對所有變量進行邏輯回歸,得出最終的變量顯著性結果如表2所示:
表2 邏輯回歸最終確定的變量
通過對比表1和表2結果可知,除cash_receipts(現(xiàn)金收入)、pv_credit(信用卡總點擊量)、qid133(性別)和user_has_carI(用戶是否有車)這四個變量在IV表中的排名稍微靠后一些外,其余變量基本上在IV中排序都比較靠前,說明IV結果和邏輯回歸得出的結果具有一致性,而根據(jù)實際業(yè)務理解,“現(xiàn)金收入”“信用卡總點擊量”和“用戶是否有車”對是否批貸是有顯著影響的。此外參考其他學者大量實驗結果發(fā)現(xiàn),“性別”對是否批貸也是有顯著影響的。邏輯回歸中加入這4個變量是很符合實際的,另外,limit(申請金額)、qid122(婚姻狀況)、qid139(居住類型)在IV中的排名比較靠前,而在邏輯回歸中并沒有把其加入模型中。根據(jù)實際業(yè)務分析,“申請金額”對是否批貸具有顯著作用,“婚姻狀況”和“居住類型”通常也會對是否批貸產(chǎn)生一定影響,因此我們最終從39個變量中選出以下22個變量作為個人信用評價指標體系的最終指標,結果如表3所示。
表3 個人信用評價最終指標體系
續(xù)表3
目前P2P行業(yè)處于快速發(fā)展階段,借款需求相對旺盛,但對信用風險防控的要求也逐漸提高。如何構建合理可信的信用風險評估模型,選取全面客觀的信用指標體系,從而降低個人信用風險并減少P2P行業(yè)損失,成為擺在人們面前的一道難題。此外,由于我國的金融監(jiān)管機構并未出臺對P2P的監(jiān)管細則,P2P行業(yè)仍處于無準入門檻、無行業(yè)標準、無主管機構的三無狀態(tài)[14]。加之,個人信用機制的不健全以及一些借款人為了獲得借款提供虛假的信用材料,無形中增加了P2P行業(yè)信用風險評估及評價指標選取的難度。為了在某種程度上解決這一難題,也為了能給更多工作者在選取指標時提供一定參考,本文在借鑒諸多學者研究成果的基礎上進一步提出了P2P信用評價指標選取的方法。
從文中表1的IV值結果來看,對目標變量影響程度比較大的幾個指標基本上是行為信息或狀態(tài)信息中的指標。以往人們對個人信用指標的研究主要集中在表征信息這類基本信息的考察,對行為信息和狀態(tài)信息的考察并不太重視,但由以上結果可以看出,行為信息和狀態(tài)信息對個人信用評價有著至關重要的作用,有些指標的顯著程度比表征信息中的指標還要顯著。因此,本文建議在對個人信用指標進行篩選時加大對行為信息和狀態(tài)信息的考察。最后,本文P2P網(wǎng)貸平臺信用評價體系指標遴選以信息量大,logistic回歸模型分析對信用評價貢獻概率大為原則。這樣選取的個人信用評估指標保留了重要和核心指標??梢员3种笜诉x取的客觀全面,確保評估方法的合理可信性。這種通過對指標的實際數(shù)據(jù)進行分析,盡量做到不重不漏、科學合理的方法為評估關鍵指標的選取提供了有用的標準。這種在許多指標中遴選重要指標的辦法希望能夠給實際工作者提供有益的參考。
參考文獻:
[1]Mingfeng Lin,N R Prabhala,Siva Viswanathan.Judging borrowers by the company they keep:social networks and adverse selection in online Peer-to-Peer lending[J].Journal of Women's Health,2009
[2]王會娟,廖理.中國P2P網(wǎng)絡借貸平臺信用認證機制研究——來自“人人貸”的經(jīng)驗證據(jù)[J].中國工業(yè)經(jīng)濟,2014,28(4):137.
[3]郭昱,馬翻翻,鄭超文.我國小微企業(yè)信用評價指標體系的構建[J].金融經(jīng)濟,2015,22(2).
[4]賴輝,帥理,周宗放.個人信貸客戶信用評估的一種新方法[J].技術經(jīng)濟,2014,33(9):97-103.
[5]蔣小兔,査奇芬.常州市小額信貸信用風險評價研究[J].中國集體經(jīng)濟,2014,30(16):84-85.
[6]張國政,陳維煌,劉呈輝.基于Logistic模型的商業(yè)銀行個人消費信貸風險評估研究[J].金融理論與實踐,2015,34(3):53-57.
[7]孫同陽,謝朝陽.基于決策樹的P2P網(wǎng)貸信用風險評價[J].商業(yè)經(jīng)濟研究,2015,34(2):81.
[8]夏晗.基于主成分分析和支持向量回歸機組合模型的電子商務信用風險度預測研究[J].現(xiàn)代情報,2015,35(1):76-79.
[9]彭紅楓,葉永剛.基于資本監(jiān)管要求和還款意愿的貸款定價研究[J].中國管理科學,2009,17(2):8-14.
[10]彭紅楓,葉永剛.基于還款能力和還款意愿的貸款定價研究[J].中國管理科學,2011,19(6):41-47.
[11]常國珍.胸有成竹!數(shù)據(jù)分析的SASEG進階[M].北京:電子工業(yè)出版社,2015:136-137.
[12]楊池然.SAS開發(fā)經(jīng)典案例解析[M].北京:機械工業(yè)出版社,2013:315.
[13]姚志勇.SAS編程與數(shù)據(jù)挖掘商業(yè)案例[M].北京:機械工業(yè)出版社,2013.
[14]潘莊晨,邢博.我國P2P網(wǎng)絡借貸模式的發(fā)展現(xiàn)狀及風險揭示研究[J].未來與發(fā)展,2014,38(6):86-89.
The Constr?uction of P2PNetwork Lending Personal Credit Evaluation Index System
Shi Chengxian,Chen Xuejiao
Abstract:In order to increase the credibility of P2Pnetwork lending platform and solve the problem of enterprise credit risks caused by information asymmetry,personal credit evaluation index variables are selected in three aspects,namely,representation information,behavior information and status information combined with actual business needs.By calculating WOE and IV of variables,the significance of variables to targets in the preliminary observation is showed.The logistic regression of all variables is presented by use of SAS software.Combing IV and logistic regression,22variables are selected as P2P network lending platform credit evaluation indexes.Through the selection,indexes which contain a large amount of information and make a lot of contribution to credit evaluation are reserved.
Key words:P2Pnetwork lending platform;personal credit evaluation;index system;logistic regression
收稿日期:(2015-10-21;責任編輯:沈秀)
中圖分類號:F832.479
文獻標識碼:A
Doi:10.3969/j.issn.2095-042X.2016.01.012
作者簡介:石澄賢,常州大學數(shù)理學院教授,碩士生導師;陳雪交,常州大學數(shù)理學院碩士研究生。