游 運(yùn),萬常選,江騰蛟
1.江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌330013
2.東華理工大學(xué) 理學(xué)院,南昌330013
3.江西財(cái)經(jīng)大學(xué) 數(shù)據(jù)與知識工程江西省高校重點(diǎn)實(shí)驗(yàn)室,南昌330013
P2P借貸是基于因特網(wǎng)的一種新型金融模式,該平臺將擁有閑散資金的社會成員與資金的需求方聯(lián)系起來,不僅為中小企業(yè)融資和小額借貸提供了一個新的解決方案,也為社會成員提供了一種新的投資途徑。對于潛在的投資者來說,其決策的一個首要問題就是如何準(zhǔn)確預(yù)測P2P借貸市場中各投資項(xiàng)目的違約風(fēng)險,而預(yù)測特征的選擇則是這一首要問題的重要研究內(nèi)容,將直接影響項(xiàng)目違約風(fēng)險預(yù)測的有效性。在傳統(tǒng)金融市場的信用風(fēng)險評估模型中,一般是以項(xiàng)目的財(cái)務(wù)信息為預(yù)測指標(biāo)進(jìn)行預(yù)測。然而,在P2P 網(wǎng)絡(luò)借貸市場中,信息的不完全與非對稱等信息問題相較于傳統(tǒng)的金融市場更加尖銳,平臺借款人財(cái)務(wù)信息的不完全或信息質(zhì)量較低,將極大地影響項(xiàng)目風(fēng)險預(yù)測的有效性,導(dǎo)致投資者在市場交易過程中面臨較大的投資風(fēng)險。如何利用平臺可獲得的信息發(fā)掘具有項(xiàng)目違約風(fēng)險預(yù)測價值的有效特征并將其合理引入預(yù)測模型,對提升P2P借貸項(xiàng)目違約風(fēng)險預(yù)測效果,幫助投資者規(guī)避投資風(fēng)險至關(guān)重要。
當(dāng)前部分研究表明平臺社會網(wǎng)絡(luò)關(guān)系(如朋友關(guān)系)可有效反映借款人及其項(xiàng)目的當(dāng)前狀態(tài),在一定程度上降低由于市場信息不對稱所帶來的投資風(fēng)險[1-2]。文獻(xiàn)[3]分析了P2P 借貸市場在線社會網(wǎng)絡(luò)——朋友網(wǎng)絡(luò),討論了朋友網(wǎng)絡(luò)中的管道效應(yīng)、棱鏡效應(yīng)和羊群效應(yīng)及其對第三方投資者投標(biāo)行為的影響。文獻(xiàn)[4]根據(jù)來自拍拍貸市場交易數(shù)據(jù),分析了朋友層級網(wǎng)絡(luò)中與市場融資效率和借貸利率相關(guān)的朋友網(wǎng)絡(luò)相關(guān)變量,并分析這些變量對市場融資效率和借貸利率的影響。以上關(guān)于社會網(wǎng)絡(luò)的研究大多是從市場信息效率、市場參加者的投標(biāo)行為及借款人的融資效率等方面展開,缺乏對平臺社會網(wǎng)絡(luò)(如朋友關(guān)系)中關(guān)于項(xiàng)目違約風(fēng)險預(yù)測特征的全面發(fā)掘及有效運(yùn)用。
鑒于此,本文基于Prosper平臺的社會網(wǎng)絡(luò)關(guān)系(即朋友關(guān)系)相關(guān)信息及歷史交易數(shù)據(jù),分析平臺借款人的社會網(wǎng)絡(luò)相關(guān)信息,依據(jù)社會資本理論從社會網(wǎng)絡(luò)的結(jié)構(gòu)維度、關(guān)系維度和認(rèn)知維度,全面發(fā)掘借款人社會網(wǎng)絡(luò)關(guān)系中與項(xiàng)目違約風(fēng)險顯著相關(guān)的特征,即社會網(wǎng)絡(luò)風(fēng)險特征,構(gòu)建考慮社會網(wǎng)絡(luò)關(guān)系的項(xiàng)目違約風(fēng)險預(yù)測模型,并通過分析該類模型預(yù)測性能來檢驗(yàn)社會網(wǎng)絡(luò)風(fēng)險特征的違約風(fēng)險預(yù)測價值。
在P2P借貸項(xiàng)目違約風(fēng)險預(yù)測研究中,相關(guān)特征的選擇與發(fā)掘是關(guān)鍵。目前,關(guān)于P2P借貸項(xiàng)目特征的研究較多,主要體現(xiàn)在三個方面:
(1)傳統(tǒng)的財(cái)務(wù)指標(biāo)的研究。文獻(xiàn)[5]依據(jù)Lending Club 相關(guān)數(shù)據(jù)進(jìn)行研究發(fā)現(xiàn),借款人信用等級、債務(wù)收入比、FICO 評分、循環(huán)額度比與項(xiàng)目是否違約關(guān)系密切;文獻(xiàn)[6]通過實(shí)證研究發(fā)現(xiàn),與借款人還款能力相關(guān)的特征,如借款人的收入水平、是否有固定資產(chǎn)等能夠在一定程度上反映該借款人及其項(xiàng)目的風(fēng)險程度,可作為投資人決策的重要參考因素;文獻(xiàn)[7]采用來自Lending Club 數(shù)據(jù),研究了P2P 借貸項(xiàng)目違約的相關(guān)因素,發(fā)現(xiàn)與違約相關(guān)的因素有貸款目的、年收入、當(dāng)前住房狀態(tài)、信用歷史、負(fù)債和P2P借貸網(wǎng)站的等級劃分情況;文獻(xiàn)[8]利用logistic 模型進(jìn)行實(shí)證分析,發(fā)現(xiàn)與P2P 借貸風(fēng)險相關(guān)的因素有使用利率、借款時間、借款規(guī)模和信用分值,其中,使用利率、借款時間與風(fēng)險正相關(guān),信用分值與風(fēng)險負(fù)相關(guān)。
(2)非財(cái)務(wù)特征的研究,即主要就市場參加者的人口特征,如性別、種族、年齡、語言表述等進(jìn)行分析。文獻(xiàn)[9]通過對種族、年齡、性別等相關(guān)因素進(jìn)行研究,發(fā)現(xiàn)在貸款成功率方面黑人要低于白人,男性低于女性,60 歲以上的借款人和35 歲以下的借款人要低于35 到60歲之間的借款人。文獻(xiàn)[10]研究了軟因素對P2P借貸市場項(xiàng)目融資效率、借款利率、違約概率的影響,發(fā)現(xiàn)大多數(shù)軟因素(如借款人年齡、婚否、相關(guān)文本描述等)有助于判斷借款人的聲譽(yù),會對項(xiàng)目融資效率、借款利率產(chǎn)生重要影響,但在預(yù)測項(xiàng)目是否違約方面的價值有限。文獻(xiàn)[11]基于詞嵌入模型和5P理論,研究項(xiàng)目相關(guān)文本的語義特征,發(fā)現(xiàn)其中蘊(yùn)含著有助于提高信用評價模型預(yù)測效果的有用知識。
(3)社會網(wǎng)絡(luò)信息影響研究。文獻(xiàn)[12]依據(jù)Prosper借貸平臺相關(guān)數(shù)據(jù)分析社會資本對項(xiàng)目違約風(fēng)險的影響,研究結(jié)果表明,在P2P借貸市場中,項(xiàng)目被推薦的次數(shù),項(xiàng)目從屬的借款人是否加入群組及項(xiàng)目從屬的借款人的朋友數(shù)量等社會資本與項(xiàng)目違約風(fēng)險具有相關(guān)性,擁有良好社會資本的借款人,其項(xiàng)目違約風(fēng)險發(fā)生的可能性較低;文獻(xiàn)[4]研究結(jié)果表明,拍拍貸中由朋友聯(lián)系的數(shù)量和質(zhì)量所確定的結(jié)構(gòu)化朋友網(wǎng)絡(luò)是融資性能的重要影響因素,拍拍貸中結(jié)構(gòu)化的、親屬的和認(rèn)識的朋友關(guān)聯(lián)網(wǎng)絡(luò)對融資成功率具有重要影響;文獻(xiàn)[2]依據(jù)信息經(jīng)濟(jì)學(xué)及博弈論相關(guān)理論,分析P2P借貸社會網(wǎng)絡(luò)在緩解信用風(fēng)險方面的作用,認(rèn)為基于社會網(wǎng)絡(luò)的信用風(fēng)險緩釋機(jī)制可以有效緩解由于市場不利選擇所帶來的消極影響,降低違約等道德風(fēng)險行為發(fā)生的概率;文獻(xiàn)[13]通過研究市場中借貸信用風(fēng)險與貸款人相關(guān)團(tuán)隊(duì)之間的關(guān)系,發(fā)現(xiàn)團(tuán)隊(duì)在降低貸款違約風(fēng)險方面有一定的作用;文獻(xiàn)[14]通過分析區(qū)域社會資本與項(xiàng)目之間的關(guān)聯(lián),發(fā)現(xiàn)借款人的社會資本水平會對其融資效率產(chǎn)生重要影響,具有較高社會資本水平的借款人融資效率更高,其項(xiàng)目違約的可能性更低。
由以上研究可以發(fā)現(xiàn),財(cái)務(wù)信息與項(xiàng)目違約風(fēng)險密切相關(guān),是投資者投資決策的重要市場信號。對非財(cái)務(wù)指標(biāo)的研究主要集中在對融資效率及借款利率等方面,如果研究實(shí)驗(yàn)數(shù)據(jù)來源不同或者研究的側(cè)重點(diǎn)有出入,則研究結(jié)果之間會存在較大差異,對項(xiàng)目違約風(fēng)險預(yù)測的價值有限。關(guān)于社會網(wǎng)絡(luò)信息的部分研究表明,社交網(wǎng)絡(luò)可以降低P2P市場信息不對稱,肯定了社會網(wǎng)絡(luò)在降低P2P借貸信用風(fēng)險中的作用,但大多數(shù)研究主要側(cè)重于社會網(wǎng)絡(luò)信息對市場參加者的融資能力、經(jīng)濟(jì)行為和投資決策影響等方面,缺乏對社會網(wǎng)絡(luò)信息中與違約風(fēng)險相關(guān)的特征的綜合歸納和深入挖掘,以及關(guān)于社會網(wǎng)絡(luò)信息風(fēng)險預(yù)測價值具體分析和檢驗(yàn)。
因此,本文在前人研究的基礎(chǔ)上,通過對Prosper平臺中主要對象之間的關(guān)聯(lián)及社會網(wǎng)絡(luò)關(guān)系進(jìn)行分析,依據(jù)社會資產(chǎn)理論,從多維度發(fā)掘與項(xiàng)目違約風(fēng)險相關(guān)的特征,即社會網(wǎng)絡(luò)候選特征,并將其引入項(xiàng)目違約風(fēng)險預(yù)測模型,提出并驗(yàn)證以下兩個假設(shè)。
H1:在P2P網(wǎng)絡(luò)借貸平臺中,社會網(wǎng)絡(luò)關(guān)系中蘊(yùn)含著對借貸項(xiàng)目違約風(fēng)險具有顯著影響的特征。
H2:在P2P網(wǎng)絡(luò)借貸平臺中,社會網(wǎng)絡(luò)特征有助于提高借貸項(xiàng)目違約風(fēng)險預(yù)測的效果。
依據(jù)微觀社會資本理論,社會網(wǎng)絡(luò)中的個體行動者的社會地位狀況及關(guān)系指向特征將影響其市場行為與經(jīng)濟(jì)結(jié)果,可以從社會網(wǎng)絡(luò)的結(jié)構(gòu)維度、關(guān)系維度和認(rèn)知維度這三個方面對存在于其中的人與人之間的關(guān)系進(jìn)行解釋,分別用于描述社會網(wǎng)絡(luò)中的個人或?qū)嶓w之間是否存在聯(lián)系、聯(lián)系的質(zhì)量及資源共享的表述及說明情況[15]。P2P借貸在線社會網(wǎng)絡(luò),有別于傳統(tǒng)的社會網(wǎng)絡(luò),該網(wǎng)絡(luò)中的注冊成員之間可以不受時空的限制自由地組織聯(lián)系、快速地進(jìn)行信息分享和市場交易,并由此建立各種關(guān)聯(lián)。而在這些關(guān)聯(lián)中,蘊(yùn)含了大量的有價值的市場信息和經(jīng)濟(jì)信號。
基于P2P借貸平臺相關(guān)信息即歷史交易數(shù)據(jù),分析P2P借貸市場中主要對象之間的相互關(guān)系,構(gòu)建相應(yīng)的P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型,如圖1 所示,以分析P2P借貸平臺中主要對象之間的關(guān)聯(lián)關(guān)系。
圖1 P2P借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)示例
圖1 定義了P2P 借貸市場主要對象之間的關(guān)系圖G=(M,P,E),其中P表示借貸項(xiàng)目的集合,其相關(guān)特征包括貸款類別、貸款數(shù)量、貸款期限、貸款利率、貸款信用等級等內(nèi)容,M={L,B}表示P2P借貸平臺貸款人L和借款人B的集合,他們的相關(guān)特征包括成員角色、關(guān)鍵字、債務(wù)收入比、所在城市、受教育程度等內(nèi)容,E={E1,E2,E3}表示借款人、項(xiàng)目、貸款人之間的市場參加者(包括借貸人和貸款人)之間的社會網(wǎng)絡(luò)關(guān)系E1、借款人與項(xiàng)目之間的從屬關(guān)系E2、貸款人與項(xiàng)目之間的投資關(guān)系E3的集合。
如圖1 示例所示,l1,l2,l3∈L,b1,b2∈B,p1,p2,p3∈P,其中,(l2,b1)∈E1表示貸款人l2與借款人b1之間的社會網(wǎng)絡(luò)關(guān)系(如是否是直接朋友),對此可用一個二維向量R1描述借貸雙方的社會網(wǎng)絡(luò)(以朋友網(wǎng)絡(luò)為例)關(guān)聯(lián)特征,如雙方是否是朋友、朋友的類型,如R1(l2,b1)=(1,1)表示貸款人l2與借款人b1之間是朋友、且是直接朋友(朋友類型);(l2,p1)∈E2表示貸款人l2對項(xiàng)目p1進(jìn)行了投資,即貸款人l2與項(xiàng)目p1之間存在投資關(guān)系,可用一個三維向量R2描述貸款人l2與項(xiàng)目p1之間投資關(guān)聯(lián)特征,如是否投資、投資數(shù)額、投資回報率,如R2(l2,p1)=(1,50,2.2%)表示貸款人l2對項(xiàng)目p1進(jìn)行了投資,投資額為50,投資回報率為2.2%;(b2,p1)∈E表示項(xiàng)目p1屬于借款人b2,即項(xiàng)目p1與借款人b2之間存在從屬關(guān)系,可用變量R3描述借款人與項(xiàng)目之間的從屬關(guān)聯(lián)特征,如R3(b2,p1)=0,則表示項(xiàng)目p1不屬于借款人b2。
目前大多數(shù)研究側(cè)重于分析社會網(wǎng)絡(luò)關(guān)系對融資效率、借貸利率及投資決策行為等方面的影響。本節(jié)基于P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型及Prosper 平臺朋友關(guān)聯(lián)數(shù)據(jù),依據(jù)微觀社會資本理論從社會網(wǎng)絡(luò)的結(jié)構(gòu)維度、關(guān)系維度和認(rèn)知維度發(fā)掘其中可能具有違約風(fēng)險預(yù)測價值的特征,即社會網(wǎng)絡(luò)候選特征,如表1所示。
表1 社會網(wǎng)絡(luò)候選特征
首先,社會網(wǎng)絡(luò)的結(jié)構(gòu)維度的關(guān)鍵是社會網(wǎng)絡(luò)的中心性??梢酝ㄟ^考察該個體與這個網(wǎng)絡(luò)中其他個體的社會聯(lián)系數(shù)量來衡量個體在該社會網(wǎng)絡(luò)中的中心性[16]。Mollick通過計(jì)算個人在Facebook中的粉絲數(shù)來衡量個人的網(wǎng)絡(luò)聯(lián)系[17]。因此,基于P2P借貸對象關(guān)聯(lián)網(wǎng)絡(luò)模型及Prosper 平臺朋友關(guān)聯(lián)數(shù)據(jù),可用借款人在朋友網(wǎng)絡(luò)中的朋友數(shù)來反映其社會網(wǎng)絡(luò)聯(lián)系??紤]到項(xiàng)目借款人的朋友中不同角色的分布情況對其信用風(fēng)險的可能存在的影響,根據(jù)Prosper借貸平臺歷史數(shù)據(jù),本文除了考察借款人直接朋友數(shù)、借款人間接朋友數(shù)等一般網(wǎng)絡(luò)結(jié)構(gòu)維度的特征指標(biāo),還引入了借款人直接朋友為貸款人數(shù)、借款人直接朋友為借款人數(shù)、借款人間接朋友為借款人數(shù)、借款人間接朋友為貸款人、借款人的直接朋友為借款人的比例、借款人的直接朋友為貸款人的比例、借款人的間接朋友為借款人的比例、借款人的間接朋友為貸款人的比例等指標(biāo)來體現(xiàn)每個借款人關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)維度的特征,并進(jìn)一步分析這些特征與借貸項(xiàng)目違約風(fēng)險之間的關(guān)聯(lián)。
其次,社會網(wǎng)絡(luò)的關(guān)系維度是指社會網(wǎng)絡(luò)中成員之間相互聯(lián)系的質(zhì)量。對此,可以從成員間聯(lián)系的緊密程度及被聯(lián)系成員整體質(zhì)量兩個角度來進(jìn)行分析。顯然,基于P2P借貸對象關(guān)聯(lián)網(wǎng)絡(luò)模型,Prosper平臺借款人與朋友之間是否存在長期的信息分享、互為投資等情況可在一定程度上反映了借款人與其朋友之間的聯(lián)系強(qiáng)度。而借款人的朋友的信用水平和投資能力在一定程度上反映了其朋友的整體質(zhì)量水平。相比以前的研究,在考察借貸雙方聯(lián)系強(qiáng)度時,不僅考察借貸雙方的朋友關(guān)聯(lián)關(guān)系所衍生出來的聯(lián)系,還考察由于借款人與項(xiàng)目之間的從屬關(guān)聯(lián)關(guān)系和貸款人與項(xiàng)目之間的投資關(guān)聯(lián)關(guān)系所衍生出來的聯(lián)系,例如,如果一個投資者熱衷于對屬于某個借款人所有或絕大多數(shù)相關(guān)項(xiàng)目進(jìn)行投資,則這兩者之間應(yīng)該存在較強(qiáng)的聯(lián)系;考察朋友的整體質(zhì)量時,不僅考察朋友投資成功數(shù)的相關(guān)指標(biāo),還考察朋友投資成功額及投資收益的相關(guān)指標(biāo),投資成功額越高,表示該貸款人越有投資經(jīng)驗(yàn),而投資收益越高,則表示該貸款人投資能力越強(qiáng),對于一個有經(jīng)驗(yàn)且投資能力強(qiáng)的投資者所投資的項(xiàng)目,應(yīng)該更加可信,因此,要評價借款人的朋友質(zhì)量,應(yīng)該綜合考慮其直接朋友和間接朋友的投資成功情況和投資收益情況。根據(jù)Prosper借貸平臺歷史數(shù)據(jù),可用直接朋友投資項(xiàng)目總數(shù)、直接朋友成功投資項(xiàng)目數(shù)、每個借款人直接朋友投資比例、每個借貸項(xiàng)目直接朋友投資比例、每個借貸項(xiàng)目直接朋友投資額、直接朋友投資額、直接朋友投資成功率、借款人直接朋友投資收益率、間接朋友投資成功數(shù)、間接朋友投資項(xiàng)目總數(shù)、間接朋友投資成功率、借款人間接朋友投資收益率、間接朋友投資額、每個借貸項(xiàng)目間接朋友投資額、每個借貸項(xiàng)目間接朋友投資比例、每個借款人間接朋友投資比例等指標(biāo)來體現(xiàn)每個借款人關(guān)于網(wǎng)絡(luò)關(guān)系維度的整體特征。
社會網(wǎng)絡(luò)的認(rèn)知維度與提供資源共享的表示、解釋及系統(tǒng)的意義的資源相關(guān)[15]。根據(jù)Prosper 平臺相關(guān)數(shù)據(jù),本文將借款人的借款說明的字?jǐn)?shù)作為反映其社會網(wǎng)絡(luò)認(rèn)知維度的特征指標(biāo)。
(1)財(cái)務(wù)特征變量選擇
通過綜合考慮前人(如文獻(xiàn)[7])的研究成果及平臺信息內(nèi)容,計(jì)算每個借貸項(xiàng)目的“硬”信息所對應(yīng)的特征值,并進(jìn)行數(shù)據(jù)規(guī)范化處理和相關(guān)性分析,從中選取與項(xiàng)目違約風(fēng)險顯著相關(guān)的財(cái)務(wù)特征變量,即借款數(shù)量、借款利率、借款期限、信用等級、債務(wù)收入比、房屋狀態(tài)等,并基于這些傳統(tǒng)的財(cái)務(wù)指標(biāo)構(gòu)建項(xiàng)目違約風(fēng)險預(yù)測基準(zhǔn)模型。
(2)社會網(wǎng)絡(luò)候選特征分析與篩選
首先,根據(jù)第2 章所構(gòu)建的P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型及Prosper 平臺相關(guān)數(shù)據(jù),分析P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型中各對象之間的關(guān)聯(lián)特征,分別計(jì)算表1中所對應(yīng)的社會網(wǎng)絡(luò)候選特征值,并進(jìn)行數(shù)據(jù)數(shù)值化、規(guī)范化處理。
其次,通過秩和檢驗(yàn)、T 檢驗(yàn)和卡方檢驗(yàn)等方法分別分析社會網(wǎng)絡(luò)候選特征與項(xiàng)目違約風(fēng)險之間的相關(guān)關(guān)系,從中發(fā)掘出與借貸項(xiàng)目違約風(fēng)險存在顯著相關(guān)的特征,即社會網(wǎng)絡(luò)風(fēng)險特征。根據(jù)相關(guān)計(jì)算結(jié)果可對第1章所提出的假設(shè)H1進(jìn)行檢驗(yàn)。
最后,考慮到社會網(wǎng)絡(luò)風(fēng)險特征之間可能存在多重共線性,也為了降低預(yù)測模型的復(fù)雜性,對社會網(wǎng)絡(luò)風(fēng)險特征進(jìn)行主成分分析,并將分析的結(jié)果引入借貸項(xiàng)目違約風(fēng)險預(yù)測模型。
關(guān)于市場風(fēng)險預(yù)測的方法有很多,如統(tǒng)計(jì)模型、人工智能方法、運(yùn)籌方法等。在近年來的研究中,利用邏輯斯蒂回歸[8]、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法進(jìn)行P2P借貸違約風(fēng)險的預(yù)測非常常見。例如,文獻(xiàn)[18]通過分析P2P網(wǎng)絡(luò)借貸的特點(diǎn)及借款人行為關(guān)鍵影響因素,構(gòu)建了基于BP 神經(jīng)網(wǎng)絡(luò)的P2P 網(wǎng)絡(luò)借貸信用風(fēng)險評估模型;文獻(xiàn)[19]考慮到現(xiàn)實(shí)P2P 網(wǎng)絡(luò)借貸市場中數(shù)據(jù)的高維、非線性、非均衡性等特點(diǎn),采用了基于支持向量機(jī)的相關(guān)方法對該市場借款人的信用風(fēng)險進(jìn)行評估。
為了提高實(shí)驗(yàn)的有效性和檢驗(yàn)結(jié)果的可靠性,本文選擇了當(dāng)前信用風(fēng)險評估中較為常用的3 種非線性預(yù)測方法,即支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和邏輯斯蒂回歸來構(gòu)建項(xiàng)目違約風(fēng)險預(yù)測的基準(zhǔn)模型和驗(yàn)證模型。
在對第1 章所提出的H2進(jìn)行檢驗(yàn)的過程中,為了消除模型訓(xùn)練過程中由于隨機(jī)取樣所帶來的偏差,保證驗(yàn)證結(jié)果可信度,本文擬采用K-折交叉驗(yàn)證(一般K取值為10)方法,用于檢驗(yàn)社會網(wǎng)絡(luò)風(fēng)險特征的發(fā)掘與引入對借貸項(xiàng)目違約風(fēng)險預(yù)測的價值。
實(shí)驗(yàn)數(shù)據(jù)來源于美國Prosper網(wǎng)絡(luò)借貸平臺2006年以來的開放數(shù)據(jù)。該數(shù)據(jù)集包含相互關(guān)聯(lián)的7 類對象信息,分別是項(xiàng)目類別、群組、注冊成員、列表項(xiàng)目、貸款項(xiàng)目、投標(biāo)、角色,信息量巨大。其中,注冊成員1 309 510個,列表項(xiàng)目371 896個,投標(biāo)數(shù)為9 638 888。為了便于訓(xùn)練和測試,首先,對該數(shù)據(jù)集進(jìn)行了初步過濾,選取其中已完結(jié)且違約狀態(tài)明確的25 229 個貸款項(xiàng)目及與這些項(xiàng)目相關(guān)的列表項(xiàng)目、貸款項(xiàng)目、投標(biāo)和注冊成員等信息,針對每一個貸款項(xiàng)目,統(tǒng)計(jì)計(jì)算其投標(biāo)者信息,針對每一位貸款人,統(tǒng)計(jì)其直接朋友信息及投標(biāo)信息,以此作為構(gòu)建P2P借貸市場對象關(guān)聯(lián)模型的基礎(chǔ)數(shù)據(jù)A;其次,考慮到數(shù)據(jù)的完整性,從25 229 個貸款項(xiàng)目中選取了最終違約且相關(guān)數(shù)據(jù)完善的23 488個借貸項(xiàng)目,針對每一個貸款項(xiàng)目,計(jì)算傳統(tǒng)財(cái)務(wù)指標(biāo)特征值及社會網(wǎng)絡(luò)風(fēng)險特征值,并進(jìn)行數(shù)值化、規(guī)范化處理,以此作為樣本數(shù)據(jù)B;最后,為增強(qiáng)驗(yàn)證結(jié)果的可靠性,擬采用K-折交叉驗(yàn)證方法,將樣本數(shù)據(jù)B隨機(jī)抽取劃分成10 個等量樣本子集,以此作為驗(yàn)證H2的樣本數(shù)據(jù)C,對不同的項(xiàng)目違約風(fēng)險預(yù)測模型模型分別訓(xùn)練并測試。
前人研究表明,P2P借貸平臺社會網(wǎng)絡(luò)相關(guān)信息對投資者識別項(xiàng)目風(fēng)險具有一定的價值。通過對Prosper平臺已完結(jié)且是否違約已明確的25 229個借貸項(xiàng)目(即樣本數(shù)據(jù)A)進(jìn)行了Pearson 卡方檢驗(yàn),發(fā)現(xiàn)在朋友網(wǎng)絡(luò)中有朋友的借款人與沒有朋友的借款人在其項(xiàng)目是否違約上存在顯著差異,結(jié)果如表2、表3所示。在朋友網(wǎng)絡(luò)中沒有朋友的借款人違約概率為12.2%,在朋友網(wǎng)絡(luò)中有朋友的借款人違約的概率為8.4%,明顯低于沒有朋友的借款人。
表2 借款人是否有朋友與項(xiàng)目是否違約的交叉制表
表3 借款人是否有朋友與項(xiàng)目是否違約的卡方檢驗(yàn)
表2、表3的實(shí)驗(yàn)結(jié)果表明,社會網(wǎng)絡(luò)關(guān)系中蘊(yùn)含著與項(xiàng)目是否違約相關(guān)的有價值的知識,通過對社會網(wǎng)絡(luò)相關(guān)信息進(jìn)行分析,挖掘出其中與項(xiàng)目是否違約顯著相關(guān)的特征,將有利于提高項(xiàng)目違約風(fēng)險預(yù)測的有效性,有助于平臺風(fēng)險管理及投資者投資風(fēng)險規(guī)避。
為了驗(yàn)證假設(shè)H1,本節(jié)基于P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型及2.2 節(jié)所發(fā)掘的社會網(wǎng)絡(luò)候選特征,統(tǒng)計(jì)計(jì)算是否違約已明確且相關(guān)數(shù)據(jù)完善的23 488 個借貸項(xiàng)目(樣本數(shù)據(jù)B)的社會網(wǎng)絡(luò)候選特征值,并結(jié)合T檢驗(yàn)、秩和檢驗(yàn)及卡方檢驗(yàn)分析這些特征與項(xiàng)目是否違約之間的相關(guān)關(guān)系,從中篩選出與項(xiàng)目是否違約顯著相關(guān)的特征,即社會網(wǎng)絡(luò)風(fēng)險特征。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),2.2節(jié)所發(fā)掘的社會網(wǎng)絡(luò)候選特征中有24 個特征的Sig 值小于0.05,如表4 所示,這表明這24 個特征與項(xiàng)目是否違約之間存在顯著相關(guān),屬于社會網(wǎng)絡(luò)風(fēng)險特征,將社會網(wǎng)絡(luò)風(fēng)險特征合理引入項(xiàng)目違約風(fēng)險預(yù)測模型,有望提高P2P借貸項(xiàng)目的違約風(fēng)險預(yù)測的有效性。
表4 關(guān)于社會網(wǎng)絡(luò)候選特征的獨(dú)立樣本檢驗(yàn)
設(shè)本文所提出的引入社會網(wǎng)絡(luò)風(fēng)險特征后所構(gòu)建的非線性預(yù)測模型為驗(yàn)證模型,分別為SVM_1、NN_1、LOGIC_1,其中,SVM_1模型是指采用支持向量機(jī)的方法,在傳統(tǒng)財(cái)務(wù)指標(biāo)的基礎(chǔ)上,引入社會網(wǎng)絡(luò)風(fēng)險特征的項(xiàng)目違約風(fēng)險預(yù)測模型,NN_1 模型是指采用神經(jīng)網(wǎng)絡(luò)方法,在傳統(tǒng)財(cái)務(wù)指標(biāo)的基礎(chǔ)上,引入社會網(wǎng)絡(luò)風(fēng)險特征的項(xiàng)目違約風(fēng)險預(yù)測模型,LOGIC_1 模型是指采用邏輯斯諦回歸方法,在傳統(tǒng)財(cái)務(wù)指標(biāo)的基礎(chǔ)上,引入社會網(wǎng)絡(luò)風(fēng)險特征的項(xiàng)目違約風(fēng)險預(yù)測模型。以傳統(tǒng)財(cái)務(wù)指標(biāo)所構(gòu)建的非線性預(yù)測模型為基準(zhǔn)模型,分別為SVM_0、NN_0、LOGIC_0,其中SVM_0模型是指采用支持向量機(jī)的方法,基于傳統(tǒng)財(cái)務(wù)指標(biāo)構(gòu)建的項(xiàng)目違約風(fēng)險預(yù)測模型,NN_0模型是指采用神經(jīng)網(wǎng)絡(luò)方法,基于傳統(tǒng)財(cái)務(wù)指標(biāo)構(gòu)建的項(xiàng)目違約風(fēng)險預(yù)測模型,LOGIC_0模型是指采用邏輯斯蒂回歸方法,基于傳統(tǒng)財(cái)務(wù)指標(biāo)構(gòu)建的項(xiàng)目違約風(fēng)險預(yù)測模型。
為了分析引入社會網(wǎng)絡(luò)風(fēng)險特征后的項(xiàng)目違約風(fēng)險預(yù)測效果,本次實(shí)驗(yàn)步驟如下:首先,考慮到這些特征之間可能存在多重共線性,也為了降低預(yù)測模型的復(fù)雜性,提升預(yù)測的效果,對本文所發(fā)掘的24個社會網(wǎng)絡(luò)風(fēng)險特征進(jìn)行主成分分析,提取了其中6 個主成分,可解釋這24個朋友網(wǎng)絡(luò)特征中的76%的信息;其次,基于樣本數(shù)據(jù)C,對上述各基準(zhǔn)模型和驗(yàn)證模型進(jìn)行K-折交叉驗(yàn)證(K=10)并對所得結(jié)果進(jìn)行對比,即分析各個基準(zhǔn)模型與對應(yīng)的驗(yàn)證模型在風(fēng)險預(yù)測準(zhǔn)確率方面的差異,以考察在傳統(tǒng)財(cái)務(wù)指標(biāo)的基礎(chǔ)上引入社會網(wǎng)絡(luò)風(fēng)險特征所構(gòu)建的模型在風(fēng)險預(yù)測準(zhǔn)確率方面的變化實(shí)驗(yàn)結(jié)果如圖2所示。
從圖2中可以發(fā)現(xiàn),依據(jù)支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)及邏輯斯蒂回歸這3種傳統(tǒng)的非線性預(yù)測方法,與基于傳統(tǒng)財(cái)務(wù)指標(biāo)構(gòu)建的違約風(fēng)險預(yù)測模型的預(yù)測結(jié)果相比,基于混合特征(包含傳統(tǒng)財(cái)務(wù)指標(biāo)及本文所發(fā)掘的社會網(wǎng)絡(luò)風(fēng)險特征)構(gòu)建違約風(fēng)險預(yù)測模型的預(yù)測效果總體更好。
圖2 不同模型的預(yù)測結(jié)果對比
從圖2(d)可知,在神經(jīng)網(wǎng)絡(luò)模型的交叉驗(yàn)證結(jié)果中,基于混合特征的違約風(fēng)險預(yù)測模型(NN_1)的平均準(zhǔn)確率要比基于單純財(cái)務(wù)特征的違約風(fēng)險預(yù)測模型(NN_0)高出2.8個百分點(diǎn);在邏輯斯諦模型的交叉驗(yàn)證結(jié)果中,基于混合特征的違約風(fēng)險預(yù)測模型(LOGIC_1)的平均準(zhǔn)確率要比基于單純財(cái)務(wù)特征的違約風(fēng)險預(yù)測模型(LOGIC_0)高出2.0 個百分點(diǎn);在支持向量機(jī)的交叉驗(yàn)證結(jié)果中,基于混合特征的違約風(fēng)險預(yù)測模型(SVM_1)的平均準(zhǔn)確率要比基于單純財(cái)務(wù)特征的違約風(fēng)險預(yù)測模型(SVM_0)高出3.6 個百分點(diǎn)。這表明在Prosper 平臺的社會網(wǎng)絡(luò)關(guān)系中,蘊(yùn)含著與借貸項(xiàng)目違約風(fēng)險顯著相關(guān)的知識;通過從P2P借貸平臺發(fā)掘與項(xiàng)目違約風(fēng)險顯著相關(guān)的社會網(wǎng)絡(luò)風(fēng)險特征,并將這些特征合理地引入預(yù)測模型,對提升P2P借貸項(xiàng)目違約風(fēng)險效果具有重要意義,由此也可以驗(yàn)證假設(shè)H2成立。
本文基于Prosper平臺相關(guān)數(shù)據(jù)及多維社會資本理論,構(gòu)建P2P 借貸市場對象關(guān)聯(lián)網(wǎng)絡(luò)模型,提出一種考慮社會網(wǎng)絡(luò)關(guān)系的P2P借貸項(xiàng)目違約風(fēng)險預(yù)測方法。
該方法的特點(diǎn)體現(xiàn)在:(1)從社會網(wǎng)絡(luò)的結(jié)構(gòu)維度、關(guān)系維度和認(rèn)知維度,全面發(fā)掘P2P借貸在線社會網(wǎng)絡(luò)關(guān)系中與項(xiàng)目違約風(fēng)險相關(guān)的特征,不僅考察了社會網(wǎng)絡(luò)關(guān)系中的成員之間由于朋友關(guān)系而形成的朋友層次關(guān)聯(lián),還考察了社會網(wǎng)絡(luò)成員之間由于其他對象而形成的間接關(guān)聯(lián)(如投資關(guān)聯(lián)與從屬關(guān)聯(lián))。實(shí)驗(yàn)結(jié)果表明,在Prosper平臺的社會網(wǎng)絡(luò)關(guān)系中蘊(yùn)含著與項(xiàng)目違約風(fēng)險顯著相關(guān)的、具有項(xiàng)目違約風(fēng)險預(yù)測價值的特征,即社會網(wǎng)絡(luò)風(fēng)險特征,通過對這些特征進(jìn)行全面、系統(tǒng)的挖掘,可以豐富項(xiàng)目違約風(fēng)險預(yù)測特征,有助于提高預(yù)測的有效性。(2)相對于傳統(tǒng)的項(xiàng)目違約風(fēng)險預(yù)測方法主要依賴于財(cái)務(wù)特征進(jìn)行項(xiàng)目風(fēng)險預(yù)測,該方法基于支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)及邏輯斯蒂回歸等常用非線性預(yù)測方法,在傳統(tǒng)財(cái)務(wù)指標(biāo)的基礎(chǔ)上引入社會網(wǎng)絡(luò)風(fēng)險性特征,構(gòu)建考慮P2P借貸社會網(wǎng)絡(luò)關(guān)系的項(xiàng)目違約風(fēng)險預(yù)測模型。通過對引入社會網(wǎng)絡(luò)風(fēng)險特征的預(yù)測模型與沒有引入社會網(wǎng)絡(luò)風(fēng)險特征的預(yù)測模型的預(yù)測效果進(jìn)行了實(shí)證研究和對比分析,結(jié)果表明,將社會網(wǎng)絡(luò)風(fēng)險特征合理引入傳統(tǒng)的項(xiàng)目違約風(fēng)險預(yù)測模型,可有效提高項(xiàng)目違約風(fēng)險預(yù)測的準(zhǔn)確性,進(jìn)而幫助投資者及平臺規(guī)避由于市場關(guān)鍵信息(如財(cái)務(wù)信息)不完全或質(zhì)量較低所帶來的決策風(fēng)險。