亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法的網(wǎng)絡(luò)小額借款項(xiàng)目評(píng)估與篩選

        2022-05-27 13:38:48歐陽(yáng)夢(mèng)倩
        管理現(xiàn)代化 2022年2期
        關(guān)鍵詞:模型

        □ 歐陽(yáng)夢(mèng)倩

        (中共廣東省委黨校(廣東行政學(xué)院) 經(jīng)濟(jì)學(xué)教研部, 廣東 廣州 510053)

        [基金項(xiàng)目]2021年度全國(guó)黨校(行政學(xué)院)系統(tǒng)重點(diǎn)調(diào)研課題(2021DXXTZDDYKT065);廣州市哲學(xué)社科規(guī)劃2021年度課題(2021GZQN04)。

        一、引 言

        隨著我國(guó)互聯(lián)網(wǎng)普及率不斷提升,小額借款從線下走向線上,讓金融發(fā)展成果更多地惠及人民群眾。然而,網(wǎng)絡(luò)小額借款存在明顯的信息不對(duì)稱問(wèn)題,其中借款項(xiàng)目具有較高的信用風(fēng)險(xiǎn)。在互聯(lián)網(wǎng)金融、傳統(tǒng)金融體系和實(shí)體經(jīng)濟(jì)部門之間聯(lián)系日益緊密的趨勢(shì)下,網(wǎng)絡(luò)小額借款的信用風(fēng)險(xiǎn)可能跨市場(chǎng)、跨地區(qū)進(jìn)行傳播,甚至引發(fā)系統(tǒng)性金融風(fēng)險(xiǎn)[1]。中國(guó)銀保監(jiān)會(huì)同中國(guó)人民銀行等部門起草的《網(wǎng)絡(luò)小額貸款業(yè)務(wù)管理暫行辦法(征求意見(jiàn)稿)》要求,經(jīng)營(yíng)網(wǎng)絡(luò)小額貸款業(yè)務(wù)的小額貸款公司的業(yè)務(wù)系統(tǒng)應(yīng)“具有健全的風(fēng)險(xiǎn)防控體系,包括數(shù)據(jù)驅(qū)動(dòng)的風(fēng)控模型、反欺詐系統(tǒng)、風(fēng)險(xiǎn)識(shí)別機(jī)制、風(fēng)險(xiǎn)監(jiān)測(cè)手段、風(fēng)險(xiǎn)處置措施等,評(píng)定和防控客戶信用風(fēng)險(xiǎn)主要借助互聯(lián)網(wǎng)平臺(tái)內(nèi)生數(shù)據(jù)信息”。這意味著,在利潤(rùn)最大化和風(fēng)險(xiǎn)防控的雙目標(biāo)下,經(jīng)營(yíng)網(wǎng)絡(luò)小額貸款業(yè)務(wù)需要準(zhǔn)確預(yù)測(cè)借款項(xiàng)目的收益和風(fēng)險(xiǎn),設(shè)法在收益較高的借款項(xiàng)目中發(fā)掘出風(fēng)險(xiǎn)較低的借款項(xiàng)目,并投資這些質(zhì)量較優(yōu)的借款項(xiàng)目。

        部分文獻(xiàn)使用機(jī)器學(xué)習(xí)算法建立信用評(píng)分模型或利潤(rùn)評(píng)分模型[2],為評(píng)估借款項(xiàng)目質(zhì)量提供技術(shù)性支持。信用評(píng)分模型強(qiáng)調(diào)借款項(xiàng)目是否違約的二元狀態(tài);借款項(xiàng)目的違約概率越低,該模型對(duì)借款項(xiàng)目質(zhì)量的評(píng)價(jià)就越高。張衛(wèi)國(guó)等[3]提出一種基于非均衡模糊近似支持向量機(jī)的信用風(fēng)險(xiǎn)評(píng)估方法,該方法對(duì)借款項(xiàng)目是否違約有更好的分類效果;據(jù)該方法又進(jìn)一步建立了信用評(píng)分模型。利潤(rùn)評(píng)分模型強(qiáng)調(diào)借款項(xiàng)目所能帶來(lái)的收益;無(wú)論借款項(xiàng)目是否違約,只要借款項(xiàng)目帶來(lái)的收益越高,該模型對(duì)借款項(xiàng)目的評(píng)價(jià)就越高。Serrano-Cinca和Gutiérrez-Nieto[4]使用內(nèi)部收益率衡量投資借款項(xiàng)目的預(yù)期利潤(rùn),發(fā)現(xiàn)相比基于邏輯回歸的傳統(tǒng)信用評(píng)分模型,基于多元回歸的利潤(rùn)評(píng)分模型在挑選借款項(xiàng)目方面有更好的表現(xiàn)。

        然而,信用評(píng)分模型或利潤(rùn)評(píng)分模型不能完全滿足經(jīng)營(yíng)網(wǎng)絡(luò)小額貸款業(yè)務(wù)的需求。Bastani等[5]將這兩個(gè)模型組合在一起,提出一種兩階段的借款項(xiàng)目評(píng)估方法,該方法傾向?qū)⑤^好的評(píng)價(jià)給予那些一定風(fēng)險(xiǎn)水平下收益較高的借款項(xiàng)目。Guo等[6]和Chi等[7]通過(guò)在給定預(yù)期收益條件下最小化借款項(xiàng)目投資組合的風(fēng)險(xiǎn),得到最優(yōu)借款項(xiàng)目組合,實(shí)現(xiàn)較好的投資業(yè)績(jī)。這些文獻(xiàn)的實(shí)證分析數(shù)據(jù)來(lái)源于Lending Club或Prosper平臺(tái),在這兩個(gè)平臺(tái)上借貸交易有較為完善的社會(huì)信用體系支撐。在我國(guó)社會(huì)信用體系仍不成熟的情況下,綜合考慮風(fēng)險(xiǎn)和收益的借款項(xiàng)目評(píng)估方法的應(yīng)用效果有待進(jìn)一步探討。

        在已有文獻(xiàn)的基礎(chǔ)上,本文利用“人人貸”網(wǎng)絡(luò)借貸平臺(tái)數(shù)據(jù),結(jié)合借款違約率和收益率構(gòu)建基于機(jī)器學(xué)習(xí)算法的借款項(xiàng)目評(píng)估方法。研究設(shè)計(jì)是:第一,根據(jù)借款項(xiàng)目信息構(gòu)造特征變量,利用機(jī)器學(xué)習(xí)算法構(gòu)建借款項(xiàng)目違約率和收益率的預(yù)測(cè)模型,包括特征變量篩選、在訓(xùn)練數(shù)據(jù)上擬合模型并篩選出樣本內(nèi)預(yù)測(cè)效果最優(yōu)的模型、評(píng)價(jià)最優(yōu)模型在測(cè)試數(shù)據(jù)上的樣本外推能力;第二,使用第一步得到的最優(yōu)模型在測(cè)試數(shù)據(jù)上預(yù)測(cè)出借款項(xiàng)目的預(yù)期違約率和預(yù)期收益率,以閾值過(guò)濾和線性組合兩種方式綜合利用這兩個(gè)指標(biāo),篩選出質(zhì)量較優(yōu)的借款項(xiàng)目,并分析篩選效果。

        本文的創(chuàng)新點(diǎn)主要體現(xiàn)在:

        第一,本文利用機(jī)器學(xué)習(xí)算法在網(wǎng)絡(luò)小額借款項(xiàng)目信息中挖掘出能夠有效預(yù)測(cè)借款違約率和收益率的信息,用以構(gòu)建網(wǎng)絡(luò)小額借款項(xiàng)目的評(píng)估方法,豐富了小額借款項(xiàng)目評(píng)估在我國(guó)網(wǎng)絡(luò)環(huán)境下的研究發(fā)現(xiàn)。網(wǎng)絡(luò)小額借款項(xiàng)目信息具有非結(jié)構(gòu)化、真實(shí)度低、數(shù)量有限等特征;如何從中抽取出有效信息是網(wǎng)絡(luò)環(huán)境下評(píng)估小額借款項(xiàng)目需要重點(diǎn)解決的問(wèn)題。

        第二,本文在綜合考慮借款項(xiàng)目風(fēng)險(xiǎn)和收益的基礎(chǔ)上建立評(píng)估方法,并與僅考慮風(fēng)險(xiǎn)或收益的借款項(xiàng)目評(píng)估方法進(jìn)行比較,為網(wǎng)絡(luò)小額貸款相關(guān)企業(yè)作為投資者挑選借款項(xiàng)目提供實(shí)踐指導(dǎo)。以往文獻(xiàn)多從信用評(píng)級(jí)角度出發(fā),試圖構(gòu)造更精準(zhǔn)的借款人信用評(píng)級(jí)方法,或者建立更優(yōu)的借款項(xiàng)目違約風(fēng)險(xiǎn)評(píng)價(jià)體系,著重衡量借款項(xiàng)目的信用風(fēng)險(xiǎn),為審批借款項(xiàng)目提供參考依據(jù);而較少文獻(xiàn)從投資者角度出發(fā),評(píng)估借款項(xiàng)目可能帶來(lái)的收益,直接給出選擇借款項(xiàng)目的方法。

        第三,本文將借款人是否填寫某項(xiàng)信息和借款描述內(nèi)容用于預(yù)測(cè)借款違約率和收益率,從增加信息含量方面提高預(yù)測(cè)準(zhǔn)確性。借款人是否填寫某項(xiàng)信息反映了借款人對(duì)自身信用情況的認(rèn)知,借款描述內(nèi)容則反映了借款人的教育程度、財(cái)務(wù)能力、借款意愿等多方面的綜合情況,但仍較少文獻(xiàn)考慮這兩項(xiàng)信息對(duì)借款違約率或收益率的預(yù)測(cè)作用。

        二、相關(guān)文獻(xiàn)評(píng)述

        (一)借款項(xiàng)目質(zhì)量的衡量

        部分文獻(xiàn)使用機(jī)器學(xué)習(xí)算法預(yù)測(cè)借款違約率,為評(píng)估借款項(xiàng)目質(zhì)量提供準(zhǔn)確參考。在銀行個(gè)人貸款方面,信用評(píng)價(jià)最重要的工具就是信用評(píng)級(jí)[8],即用統(tǒng)計(jì)方法預(yù)測(cè)一個(gè)逾期客戶逾期一個(gè)借款項(xiàng)目的概率。由于機(jī)器學(xué)習(xí)算法能夠較精確地刻畫變量之間的復(fù)雜關(guān)系,有學(xué)者將機(jī)器學(xué)習(xí)算法應(yīng)用于個(gè)人借款項(xiàng)目的違約預(yù)測(cè)[9-11]。在網(wǎng)絡(luò)小額借款方面,借款客戶多為信用風(fēng)險(xiǎn)較高、缺乏高質(zhì)量抵押品的個(gè)人或小微企業(yè),是傳統(tǒng)金融業(yè)務(wù)的長(zhǎng)尾客戶;客戶數(shù)量龐大,但單個(gè)客戶的借款金額較小。這對(duì)統(tǒng)計(jì)方法的大數(shù)據(jù)處理能力提出較高要求,而機(jī)器學(xué)習(xí)算法在此方面也較有優(yōu)勢(shì),故有學(xué)者亦將機(jī)器學(xué)習(xí)算法應(yīng)用于網(wǎng)絡(luò)小額借款項(xiàng)目的違約預(yù)測(cè),取得了較好的預(yù)測(cè)效果[12-14]。

        相比借款違約率,以收益情況為預(yù)測(cè)目標(biāo)的模型對(duì)投資者評(píng)估借款項(xiàng)目質(zhì)量可能更具實(shí)際意義。在銀行個(gè)人貸款方面,Barrios等[15]提出使用累計(jì)收益與未償還債務(wù)之比衡量收益情況,并以此為預(yù)測(cè)目標(biāo)構(gòu)建模型;實(shí)證分析發(fā)現(xiàn),此模型比以違約率為預(yù)測(cè)目標(biāo)的模型有更高的組合回報(bào)。在網(wǎng)絡(luò)小額借款方面,Serrano-Cinca和Gutiérrez-Nieto[4]認(rèn)為,一方面,違約借款項(xiàng)目對(duì)應(yīng)的借款人可能在還款日期之后補(bǔ)交還款;另一方面,違約風(fēng)險(xiǎn)較高的借款項(xiàng)目往往具有較高的借款利率,為投資者帶來(lái)更高的投資收益。據(jù)此他們提出以收益率為預(yù)測(cè)目標(biāo)構(gòu)建借款項(xiàng)目的評(píng)分方法,結(jié)果發(fā)現(xiàn)與以違約率為預(yù)測(cè)目標(biāo)的評(píng)分方法相比,該方法篩選出的借款項(xiàng)目的收益更高。

        有文獻(xiàn)發(fā)現(xiàn),綜合考慮違約情況和收益情況可篩選出質(zhì)量更高的借款項(xiàng)目。在銀行個(gè)人貸款方面,Stewart[16]將與銀行利潤(rùn)相關(guān)的商業(yè)消費(fèi)預(yù)測(cè)和FICO信用分?jǐn)?shù)結(jié)合在一起,構(gòu)建批準(zhǔn)信用卡的決策模型,發(fā)現(xiàn)在相同壞賬率下,該決策模型可通過(guò)提高收益要求來(lái)實(shí)現(xiàn)更高的收益。在網(wǎng)絡(luò)小額借款方面,Guo等[6]和Chi等[7]首先預(yù)測(cè)借款項(xiàng)目的違約率和收益率,用以刻畫借款項(xiàng)目的風(fēng)險(xiǎn)和收益,然后在給定預(yù)期收益的條件下最小化借款項(xiàng)目投資組合的風(fēng)險(xiǎn),得到最優(yōu)的借款項(xiàng)目組合,實(shí)現(xiàn)較好的投資業(yè)績(jī)。Bastani等[5]基于Serrano-Cinca和Gutiérrez-Nieto[4]的結(jié)果提出一種兩階段評(píng)價(jià)模型,第一階段以違約率為預(yù)測(cè)目標(biāo)構(gòu)建模型,篩選出違約可能性較低的借款項(xiàng)目,第二階段以收益率為預(yù)測(cè)目標(biāo)構(gòu)建模型,在第一階段篩選出的借款項(xiàng)目中挑選出最終的借款項(xiàng)目。結(jié)果發(fā)現(xiàn),此兩階段評(píng)價(jià)模型挑選出的借款項(xiàng)目信用等級(jí)較低,收益率較高,適合那些風(fēng)險(xiǎn)偏好較高的投資者。相比之下,以Serrano-Cinca和Gutiérrez-Nieto[4]的評(píng)分方法挑選出的借款項(xiàng)目呈現(xiàn)信用等級(jí)多樣化和收益率差異較大的特征,適合那些偏好借款項(xiàng)目類型多元化的投資者,而以違約率為預(yù)測(cè)目標(biāo)的模型傾向挑出信用等級(jí)較高而收益率較差的借款項(xiàng)目。本文認(rèn)為,Bastani等[5]與Serrano-Cinca和Gutiérrez-Nieto[4]的挑選結(jié)果存在差異的原因是,Bastani等[5]在模型中增加考慮了借款項(xiàng)目違約率,使模型更擅長(zhǎng)于在投資回報(bào)高的借款項(xiàng)目中挖掘出實(shí)際違約風(fēng)險(xiǎn)低的借款項(xiàng)目。

        (二)網(wǎng)絡(luò)借款項(xiàng)目質(zhì)量的影響因素

        學(xué)者們對(duì)借款項(xiàng)目違約率的影響因素進(jìn)行了豐富的探討。研究發(fā)現(xiàn),借款項(xiàng)目信息(如借款利率等)[17]、借款人基本信息(如年齡、學(xué)歷等)[18-19]、借款人工作情況(如工作行業(yè)、工作經(jīng)驗(yàn)等)[18,20]、借款人經(jīng)濟(jì)情況(如月收入、房產(chǎn)情況等)[21]、借款人歷史借貸行為(如歷史成功借款次數(shù)等)[22-23]、借款人信用情況(信用等級(jí))[24]和借款描述[20,25]等對(duì)借款項(xiàng)目違約率有顯著影響。

        借款項(xiàng)目收益率與違約率應(yīng)存在部分相同的影響因素。因?yàn)榻杩铐?xiàng)目的借款利率在借貸關(guān)系成立時(shí)就已確定,且在還款期內(nèi)保持不變,所以借款項(xiàng)目收益率主要取決于它是否發(fā)生違約以及違約的嚴(yán)重程度。這意味著,影響借款項(xiàng)目違約率的因素也會(huì)影響其收益率。Serrano-Cinca和Gutiérrez-Nieto[4]與Bastani等[5]發(fā)現(xiàn),用于預(yù)測(cè)借款項(xiàng)目違約率的信用等級(jí)、借款利率、借款金額、年收入、房產(chǎn)情況、工作時(shí)長(zhǎng)等信息也可有效預(yù)測(cè)借款項(xiàng)目的收益率。

        三、數(shù)據(jù)與變量

        本文借助“人人貸”網(wǎng)絡(luò)借貸平臺(tái)數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)小額借款項(xiàng)目的評(píng)估和篩選方法。人人貸平臺(tái)成立于2010年,具有較高的市場(chǎng)占有率,所服務(wù)的借款客戶群體涵蓋范圍廣;基于該平臺(tái)數(shù)據(jù)的研究結(jié)論具有一定的代表性和廣泛性。

        (一)數(shù)據(jù)處理

        本文選取人人貸平臺(tái)2010年10月至2017年7月期間的借款項(xiàng)目作為研究對(duì)象,并對(duì)借款項(xiàng)目數(shù)據(jù)進(jìn)行處理:第一,刪除信息存在亂碼的借款項(xiàng)目;第二,刪去狀態(tài)為不可投、申請(qǐng)中、已流標(biāo)、還款中的借款項(xiàng)目,這些借款項(xiàng)目的違約情況和收益情況不可知;第三,排除還款方式為先息后本的借款項(xiàng)目,選擇此還款方式的借款項(xiàng)目極少;第四,刪去機(jī)構(gòu)擔(dān)保標(biāo)、實(shí)地認(rèn)證標(biāo)和智能理財(cái)標(biāo),這三種借款項(xiàng)目或有第三方機(jī)構(gòu)背書或有抵押擔(dān)保物,違約風(fēng)險(xiǎn)遠(yuǎn)小于信用認(rèn)證標(biāo),本文與廖理等[26]一樣僅對(duì)信用認(rèn)證標(biāo)作分析。

        在最終的有效樣本中共有27 865個(gè)借款項(xiàng)目;其中51個(gè)借款項(xiàng)目已逾期,4 036個(gè)借款項(xiàng)目已由人人貸平臺(tái)墊付償還,23 778個(gè)借款項(xiàng)目已還清。

        (二)預(yù)測(cè)變量:違約率和收益率

        違約率變量由借款項(xiàng)目是否違約二值變量delay刻畫,如借款項(xiàng)目違約,delay取值為1;否則為0。當(dāng)借款人超過(guò)規(guī)定還款時(shí)間30天未還款,人人貸平臺(tái)會(huì)將借款人的借款項(xiàng)目標(biāo)記為“已逾期”;而當(dāng)借款人超出規(guī)定還款時(shí)間90天仍未還款,人人貸平臺(tái)則會(huì)將其借款項(xiàng)目標(biāo)記為“已墊付”;當(dāng)完成所有月份的還款后,則被標(biāo)記為“已還清”。參考廖理等[27]和丁杰等[28],本文將“已墊付”和“已逾期”兩種狀態(tài)都視為違約,將“已還清”視為正常還款。在最終樣本27 865個(gè)借款項(xiàng)目中,違約借款項(xiàng)目所占比例為14.67%,遠(yuǎn)小于正常還款借款項(xiàng)目的比例85.33%,體現(xiàn)出這兩種類別樣本的不平衡性;故在構(gòu)建違約率預(yù)測(cè)模型時(shí),有必要對(duì)樣本不平衡問(wèn)題進(jìn)行處理。

        收益率變量的構(gòu)造則是參考廖理等[29]關(guān)于內(nèi)部收益率的計(jì)算方法,根據(jù)借款項(xiàng)目的借款金額和每期實(shí)際還款金額,由式(1)求解得到:

        (1)

        其中,totali表示借款項(xiàng)目i的借款金額,Ti表示借款項(xiàng)目i的還款期長(zhǎng),repaymentit表示借款項(xiàng)目i在還款期內(nèi)第t期的實(shí)際還款金額,irri表示借款項(xiàng)目i的內(nèi)部收益率。

        (三)特征變量

        本文根據(jù)借款項(xiàng)目投標(biāo)網(wǎng)頁(yè)界面上的信息,構(gòu)造特征變量。特征變量可分為七類:第一類是借款項(xiàng)目信息,包括借款金額、借款利率、還款期長(zhǎng);第二類是借款人基本信息,包含年齡、性別、教育程度和婚姻狀況;第三類是借款人工作信息,包括所屬行業(yè)、公司規(guī)模、公司所在地和工作經(jīng)驗(yàn);第四類是借款人財(cái)產(chǎn)信息,包括工資水平、房產(chǎn)情況、房貸情況、車產(chǎn)情況和車貸情況;第五類是借款人歷史借款信息,包括逾期金額、逾期次數(shù)、成功借款筆數(shù)、申請(qǐng)借款筆數(shù);第六類是借款人信用信息,包括信用等級(jí);第七類是借款描述信息,包括文本長(zhǎng)度、文本可理解性、文本復(fù)雜度和文本主題。

        值得注意的是,本文還根據(jù)借款人是否填寫了某項(xiàng)信息生成相應(yīng)的二值變量,也作為借款項(xiàng)目的特征變量。人人貸平臺(tái)允許借款人選擇性填寫部分信息,如婚姻狀況、公司規(guī)模等。從借款人的角度看,如果他認(rèn)為披露這些信息會(huì)對(duì)成功借款造成負(fù)面影響,那么他很可能選擇不填寫這些信息;這意味著,選擇不填寫某項(xiàng)信息在一定程度上說(shuō)明借款人的違約風(fēng)險(xiǎn)較高,故借款人是否填寫某項(xiàng)信息對(duì)借款項(xiàng)目違約率和收益率應(yīng)有預(yù)測(cè)作用。

        表1 由LDA主題模型得到的6個(gè)主題的代表性詞匯

        本文對(duì)連續(xù)型變量,使用平均值填補(bǔ)空缺值;對(duì)類別型變量,使用眾數(shù)填充空缺值。為避免特征變量量綱不同對(duì)模型預(yù)測(cè)的影響,本文還對(duì)連續(xù)型變量做標(biāo)準(zhǔn)化處理。

        四、違約率和收益率預(yù)測(cè)模型的構(gòu)建與分析

        本部分將第三部分所得數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),在訓(xùn)練數(shù)據(jù)上構(gòu)建違約率和收益率預(yù)測(cè)模型,再將這兩個(gè)模型應(yīng)用于測(cè)試數(shù)據(jù)上,得到相應(yīng)借款項(xiàng)目的違約率和收益率預(yù)測(cè)值,供第五部分評(píng)估和篩選借款項(xiàng)目使用。接下來(lái),首先,闡述違約率和收益率預(yù)測(cè)模型的構(gòu)建流程;然后,介紹在流程中衡量預(yù)測(cè)模型樣本內(nèi)外預(yù)測(cè)能力的指標(biāo);最后,按照流程順序,分析預(yù)測(cè)模型在數(shù)據(jù)上的構(gòu)建結(jié)果。

        (一)預(yù)測(cè)模型的構(gòu)建流程

        借款違約率和收益率預(yù)測(cè)模型的構(gòu)建流程相似,均可分為以下三步。

        第一步,篩選出重要的特征變量。如預(yù)測(cè)目標(biāo)為借款違約率,則先用Smote+Tomek處理訓(xùn)練數(shù)據(jù)的樣本不平衡問(wèn)題;如預(yù)測(cè)目標(biāo)為借款收益率時(shí),則無(wú)需做此處理。然后,在訓(xùn)練數(shù)據(jù)上使用基于隨機(jī)森林的遞歸特征消除(recursive feature elimination,簡(jiǎn)稱RFE)方法篩選出重要性排在前20%的特征變量集F。具體過(guò)程是:利用隨機(jī)森林估計(jì)全部特征變量的重要性,剔除其中重要性最低的一個(gè)特征變量,接著再次利用隨機(jī)森林重新估計(jì)余下特征變量的重要性,同樣剔除其中重要性最低的一個(gè)特征變量,如此重復(fù)下去直至達(dá)到期望的特征變量數(shù)量,得到最終的特征變量集F。

        第二步,挑選出最優(yōu)的機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練模型。在訓(xùn)練數(shù)據(jù)上,以第一步得到的F為特征變量,利用邏輯回歸(logit)/線性回歸(ols)、支持向量機(jī)(svm)、隨機(jī)森林(rf)、梯度提升樹(gdbt)和神經(jīng)網(wǎng)絡(luò)(nn)算法構(gòu)建預(yù)測(cè)模型。在訓(xùn)練數(shù)據(jù)上,使用K折交叉驗(yàn)證法評(píng)估各個(gè)算法構(gòu)建的模型的樣本內(nèi)預(yù)測(cè)效果(K=5);其中,如預(yù)測(cè)目標(biāo)為借款違約率,則須在K-1個(gè)子集的并集上先使用Smote+Tomek處理樣本不平衡問(wèn)題,再訓(xùn)練模型。比較篩選出樣本內(nèi)預(yù)測(cè)效果最優(yōu)的算法;用此算法在整個(gè)訓(xùn)練數(shù)據(jù)上訓(xùn)練得到最優(yōu)預(yù)測(cè)模型。

        第三步,評(píng)價(jià)模型在樣本外的預(yù)測(cè)能力。利用第二步得到的最優(yōu)預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上做預(yù)測(cè),評(píng)估最優(yōu)預(yù)測(cè)模型的樣本外推能力。

        本文所使用的算法均由Anaconda3軟件和scikit-learn庫(kù)實(shí)現(xiàn);除將邏輯回歸設(shè)置為不帶懲罰選項(xiàng),且以牛頓法為優(yōu)化算法,其余算法均使用scikit-learn庫(kù)的默認(rèn)參數(shù)設(shè)置。另外,借款違約率模型預(yù)測(cè)出的結(jié)果是取值范圍為[0,1]的概率值,表示該借款項(xiàng)目違約的概率;本文將此概率值大于0.5的借款項(xiàng)目判為違約,而小于0.5的借款項(xiàng)目判為正常還款,作為最終違約預(yù)測(cè)結(jié)果。

        (二)預(yù)測(cè)模型的衡量指標(biāo)

        對(duì)于違約率預(yù)測(cè)模型,本文選取正確率ACC、查準(zhǔn)率Precision、查全率Recall、F1Score和AUC五個(gè)指標(biāo),在不同的經(jīng)濟(jì)意義上考察模型的預(yù)測(cè)效果。根據(jù)借款項(xiàng)目的真實(shí)違約情況和違約率預(yù)測(cè)模型的預(yù)測(cè)結(jié)果,可將借款項(xiàng)目劃分為四類,如表2所示。

        表2 混淆矩陣

        正確率ACC是衡量模型預(yù)測(cè)效果最基礎(chǔ)的指標(biāo),是指預(yù)測(cè)類型與真實(shí)類型相同的借款項(xiàng)目在全部借款項(xiàng)目中所占的比例,如式(2)所示,反映了模型預(yù)測(cè)結(jié)果的正確程度。

        (2)

        當(dāng)違約借款項(xiàng)目數(shù)量遠(yuǎn)遠(yuǎn)小于正常還款的借款項(xiàng)目數(shù)量時(shí),正確率更多地反映了模型將真實(shí)正常還款的借款項(xiàng)目預(yù)測(cè)為正常還款的能力。

        實(shí)際上,我們更關(guān)心模型對(duì)違約借款項(xiàng)目的甄別效果,主要分為兩方面:一方面是模型預(yù)測(cè)違約借款項(xiàng)目的精確程度,可由查準(zhǔn)率Precision衡量;查準(zhǔn)率是在被預(yù)測(cè)為違約的借款項(xiàng)目中真實(shí)類型也為違約的借款項(xiàng)目所占的比例,如式(3)所示。

        (3)

        如果模型查準(zhǔn)率較低,則會(huì)錯(cuò)誤地將部分正常還款的借款項(xiàng)目預(yù)測(cè)為違約,那么投資者將因?yàn)榉艞壨顿Y這些借款項(xiàng)目而失去賺取利息的機(jī)會(huì)。另一方面是模型將全部違約借款項(xiàng)目甄別出來(lái)的能力,可由查全率Recall衡量;查全率是在真實(shí)類型為違約的借款項(xiàng)目中被預(yù)測(cè)為違約的借款項(xiàng)目所占的比例,如式(4)。

        (4)

        若模型查全率較低,則會(huì)錯(cuò)誤地將部分違約借款項(xiàng)目預(yù)測(cè)為正常還款,那么投資者將因投資這些借款項(xiàng)目而損失本金以及投資其他借款項(xiàng)目的機(jī)會(huì)成本。

        為綜合考慮查準(zhǔn)率和查全率,本文選取F1Score衡量模型對(duì)違約借款項(xiàng)目的甄別效果,計(jì)算方法見(jiàn)式(5)。

        (5)

        此外,本文還使用了機(jī)器學(xué)習(xí)中常用的模型性能衡量指標(biāo)AUC值。AUC值(Area Under Curve)是ROC曲線下與坐標(biāo)軸圍成的面積,較全面地反映了模型的預(yù)測(cè)效果,且不受樣本類別不平衡問(wèn)題的影響。

        (6)

        (7)

        (8)

        (9)

        MAE是預(yù)測(cè)值與真實(shí)值之間的平均距離,MSE是預(yù)測(cè)值與真實(shí)值之間的平方距離的均值,比MAE更能凸顯誤差;無(wú)論MAE還是MSE,取值越小說(shuō)明模型預(yù)測(cè)效果越好。EVS和R2都表示特征變量對(duì)收益率方差變化的解釋程度,取值越大說(shuō)明解釋程度越高,模型預(yù)測(cè)效果越好。

        (三)預(yù)測(cè)模型的構(gòu)建結(jié)果分析

        表3展示由遞歸特征消除法篩選出的預(yù)測(cè)借款違約率和收益率的重要特征。借款金額、借款利率、還款期長(zhǎng)、年齡、教育程度、歷史逾期金額、歷史成功借款次數(shù)、歷史申請(qǐng)借款次數(shù)、信用等級(jí)、借款描述長(zhǎng)度和內(nèi)容等特征對(duì)預(yù)測(cè)借款違約率和收益率都有重要作用。教育程度表征了借款人守信的行為特征[26],歷史成功借款次數(shù)和歷史申請(qǐng)借款次數(shù)反映了借款人在網(wǎng)絡(luò)借貸平臺(tái)上的聲譽(yù)[23],借款描述長(zhǎng)度體現(xiàn)了借款人的努力程度和愿意披露的信息量[30],而借款描述內(nèi)容反映了借款人的品質(zhì)、能力和生活狀況[31],這些因素刻畫了借款人的行為品格和還款能力,應(yīng)能較好地預(yù)測(cè)借款項(xiàng)目的違約率和收益率。

        公司規(guī)模、工作地點(diǎn)所屬省份、工作經(jīng)驗(yàn)、收入水平等工作信息未被選為預(yù)測(cè)違約率或收益率的重要特征,說(shuō)明由這些特征分類的借款項(xiàng)目在違約率和收益率上差異較小。這可能是因?yàn)槿巳速J平臺(tái)給借款人評(píng)定的信用等級(jí)已著重綜合考慮了借款人的工作情況,使信用等級(jí)相比工作信息更能解釋違約率和收益率的變化。此外,借款人是否填寫某項(xiàng)信息也未被選為任一預(yù)測(cè)指標(biāo)的重要特征,意味著借款人對(duì)是否填寫信息的選擇更多地出自于保護(hù)個(gè)人隱私的考慮。

        從整體看,預(yù)測(cè)違約率和收益率的重要特征均涵蓋借款項(xiàng)目特征、人口統(tǒng)計(jì)特征、歷史借款記錄特征、信用情況和借款描述等信息,而差異主要體現(xiàn)在房貸、車產(chǎn)等資產(chǎn)負(fù)債信息上。這側(cè)面反映了,相比違約的嚴(yán)重程度,資產(chǎn)負(fù)債信息對(duì)預(yù)測(cè)借款人是否違約更具價(jià)值。

        表3 各預(yù)測(cè)模型的特征篩選結(jié)果

        圖1給出基于各機(jī)器學(xué)習(xí)算法的違約率模型在訓(xùn)練數(shù)據(jù)上的正確率ACC、查準(zhǔn)率Precision、查全率Recall、F1Score、AUC值。從算法看,與邏輯回歸和線性支持向量機(jī)相比,隨機(jī)森林、梯度提升樹和神經(jīng)網(wǎng)絡(luò)在各指標(biāo)上都表現(xiàn)更好,說(shuō)明違約率與借款項(xiàng)目特征之間不是簡(jiǎn)單的線性關(guān)系,借助隨機(jī)森林、梯度提升樹和神經(jīng)網(wǎng)絡(luò)等非線性算法構(gòu)建違約率模型更合適。

        從衡量指標(biāo)看,在正確率上,隨機(jī)森林、梯度提升樹和神經(jīng)網(wǎng)絡(luò)都超過(guò)了95%,這可能僅是因?yàn)樗鼈儗⒄_€款借款項(xiàng)目預(yù)測(cè)為正常還款的能力較強(qiáng)。但是在實(shí)際的違約預(yù)測(cè)問(wèn)題中,我們往往更關(guān)心模型對(duì)違約借款項(xiàng)目的預(yù)測(cè)結(jié)果,因此這里要著重考察預(yù)測(cè)模型的查準(zhǔn)率和查全率。在查準(zhǔn)率上,隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和梯度提升樹依次降低;在查全率上,梯度提升樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)依次降低。本文認(rèn)為,相比因錯(cuò)失投資正常還款借款項(xiàng)目損失的機(jī)會(huì)成本,投資者應(yīng)更想避免投資到違約借款項(xiàng)目所帶來(lái)的損失,即投資者期望預(yù)測(cè)模型的查全率越高越好。故這里選擇梯度提升樹構(gòu)建違約率預(yù)測(cè)模型是最優(yōu)的。再者,相比隨機(jī)森林和神經(jīng)網(wǎng)絡(luò),梯度提升樹的F1Score和AUC值更高,進(jìn)一步說(shuō)明了在5種機(jī)器學(xué)習(xí)算法中,梯度提升樹是構(gòu)造違約率預(yù)測(cè)模型最優(yōu)的機(jī)器學(xué)習(xí)算法。

        注:作者基于人人貸平臺(tái)爬蟲數(shù)據(jù)計(jì)算得到。圖1 違約率預(yù)測(cè)模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)

        表4給出基于各機(jī)器學(xué)習(xí)算法的收益率模型在訓(xùn)練數(shù)據(jù)上的平均絕對(duì)誤差MAE、均方誤差MSE、解釋方差得分EVS和可決系數(shù)R2。從數(shù)值誤差的角度看,由表4的(Ⅰ)和(Ⅱ)可知,線性回歸、神經(jīng)網(wǎng)絡(luò)、線性支持向量機(jī)、梯度提升樹、隨機(jī)森林的MAE依次降低;線性支持向量機(jī)、線性回歸、神經(jīng)網(wǎng)絡(luò)、梯度提升樹、隨機(jī)森林的MSE依次降低。從方差解釋的角度看,由表4的(Ⅲ)和(Ⅳ)可知,隨機(jī)森林、梯度提升樹、神經(jīng)網(wǎng)絡(luò)、線性回歸方程、線性支持向量機(jī)的EVS和R2均是依次降低的。可見(jiàn),無(wú)論使用何種性能度量指標(biāo),線性回歸的表現(xiàn)都欠佳,說(shuō)明收益率和借款項(xiàng)目特征之間的關(guān)系也很可能是非線性的。由于隨機(jī)森林構(gòu)建的模型在數(shù)值誤差和方差解釋上都具有較好的表現(xiàn),本文選擇隨機(jī)森林構(gòu)建收益率預(yù)測(cè)模型。

        表4 收益率預(yù)測(cè)模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)

        在分別選定構(gòu)造兩個(gè)預(yù)測(cè)模型的最優(yōu)機(jī)器學(xué)習(xí)算法后,在全部的訓(xùn)練數(shù)據(jù)上,使用梯度提升樹構(gòu)建違約率預(yù)測(cè)模型,使用隨機(jī)森林構(gòu)建收益率預(yù)測(cè)模型,然后用訓(xùn)練好的兩個(gè)模型在測(cè)試數(shù)據(jù)上進(jìn)行預(yù)測(cè)。表5展示違約率和收益率預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上的表現(xiàn)。

        由表5,違約率預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上的正確率ACC略小于訓(xùn)練數(shù)據(jù)上的0.974 7,查準(zhǔn)率Precision、查全率Recall、F1Score 和AUC值分別大于其在訓(xùn)練數(shù)據(jù)上對(duì)應(yīng)的指標(biāo)(0.893 2、0.940 3、0.916 1、0.995 9)。這說(shuō)明違約率預(yù)測(cè)模型具有較強(qiáng)的泛化能力。收益率預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上的平均絕對(duì)誤差MAE、均方誤差MSE分別小于其在訓(xùn)練數(shù)據(jù)上的對(duì)應(yīng)指標(biāo)(0.138 6、0.247 0),而在測(cè)試數(shù)據(jù)上的解釋回歸模型的方差得分EVS和可決系數(shù)R2分別高于其在訓(xùn)練數(shù)據(jù)上的對(duì)應(yīng)指標(biāo)(0.753 5、0.753 4),說(shuō)明該模型在測(cè)試數(shù)據(jù)上準(zhǔn)確預(yù)測(cè)收益率的能力相對(duì)較弱,但能較好地解釋在測(cè)試數(shù)據(jù)上特征變量與收益率之間的復(fù)雜關(guān)系。

        表5 各預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上的表現(xiàn)

        五、借款項(xiàng)目的評(píng)估與篩選

        前一部分已得到違約率和收益率預(yù)測(cè)模型在測(cè)試數(shù)據(jù)上的預(yù)測(cè)值,本部分參考Serrano-Cinca和Gutiérrez-Nieto[4]與Stewart[16]的研究思路,討論如何根據(jù)這兩個(gè)預(yù)測(cè)值篩選出質(zhì)量較優(yōu)的借款項(xiàng)目,為網(wǎng)絡(luò)小額貸款相關(guān)企業(yè)作為投資者選擇借款項(xiàng)目提供實(shí)踐指導(dǎo)。這里將1減去違約率模型預(yù)測(cè)的概率值作為借款項(xiàng)目的預(yù)期還款率,將收益率模型的預(yù)測(cè)結(jié)果作為借款項(xiàng)目的預(yù)期收益率;使用預(yù)期還款率而不是預(yù)期違約率是為了與預(yù)期收益率保持相同的影響投資者投資意愿的方向。接下來(lái),結(jié)合預(yù)期還款率和預(yù)期收益率構(gòu)建兩種借款項(xiàng)目篩選方法:門檻篩選法和權(quán)重篩選法,先確定這兩種篩選方法的最優(yōu)參數(shù),再應(yīng)用到測(cè)試數(shù)據(jù)上篩選出指定數(shù)量的借款項(xiàng)目,統(tǒng)計(jì)這些借款項(xiàng)目的實(shí)際違約比率和實(shí)際收益率均值,據(jù)此比較這兩種方法的篩選效果。

        (一)門檻篩選方法

        門檻篩選方法是先對(duì)預(yù)期還款率設(shè)置過(guò)濾閾值,再根據(jù)預(yù)期收益率排序篩選出借款項(xiàng)目。具體地,對(duì)預(yù)期還款率設(shè)定一個(gè)閾值α(α∈{0,0.01,0.02,…,0.99}),保留預(yù)期還款率大于α的借款項(xiàng)目,再在這些借款項(xiàng)目中篩選出預(yù)期收益率最高的k個(gè)借款項(xiàng)目(k=5,10,15,20)。

        表6 所選借款項(xiàng)目實(shí)際收益率均值隨篩選方法系數(shù)的變化情況

        從篩選結(jié)果的實(shí)際違約比率看,無(wú)論閾值α和項(xiàng)目數(shù)k分別取何值,被篩選出的借款項(xiàng)目的實(shí)際違約比率均為,即這些借款項(xiàng)目實(shí)際都是正常還款的,說(shuō)明預(yù)期收益率可在一定程度上替代預(yù)期還款率去辨別借款項(xiàng)目是否違約。從篩選結(jié)果的實(shí)際收益率均值看,表6(Ⅰ)展示在不同k值下,門檻篩選法所選借款項(xiàng)目集合的實(shí)際收益率均值隨閾值α的變化情況??芍?當(dāng)k=5時(shí),隨著閾值α增加,收益率均值一直保持在0.020 0的水平不變;預(yù)期收益率較高的借款項(xiàng)目,其預(yù)期還款率一般也較高,此時(shí)無(wú)論預(yù)期還款率的過(guò)濾閾值取何值,預(yù)期收益率最高的5個(gè)借款項(xiàng)目是固定的。當(dāng)k=10,15,20時(shí),收益率均值隨閾值α的變化趨勢(shì)相同,隨閾值α增加,實(shí)際收益率均值先保持不變而后突然增加,并在α=0.99處取得最大值。這說(shuō)明,當(dāng)項(xiàng)目數(shù)k較大時(shí),對(duì)預(yù)期還款率設(shè)置較高的閾值有助于剔除部分風(fēng)險(xiǎn)較高的借款項(xiàng)目,從而實(shí)現(xiàn)較好的收益表現(xiàn)。根據(jù)實(shí)際收益率隨閾值α的變化趨勢(shì),可確定門檻篩選法在k=5,10,15,20下的最優(yōu)閾值均為0.99。

        (二)權(quán)重篩選方法

        權(quán)重篩選法是將預(yù)期違約率和預(yù)期收益率做線性組合,再按照該線性組合值排序篩選借款項(xiàng)目。具體地,按照權(quán)重β和1-β(β∈{0,0.01,0.02,…,0.99,1})對(duì)預(yù)期借款違約率和調(diào)整的預(yù)期收益率(對(duì)預(yù)期收益率做歸一化處理)進(jìn)行加權(quán)平均;然后,根據(jù)加權(quán)平均值對(duì)借款項(xiàng)目進(jìn)行排序,并篩選出排名前k的借款項(xiàng)目(k=5,10,15,20)。

        從篩選結(jié)果的實(shí)際違約比率看,無(wú)論權(quán)重β和項(xiàng)目數(shù)k分別取何值,所篩選出的借款項(xiàng)目均是正常還款的,與門檻篩選法的結(jié)果相同。從篩選結(jié)果的實(shí)際收益率均值看,表6(Ⅱ)展示在不同k值下,權(quán)重篩選法所選借款項(xiàng)目集合的實(shí)際收益率均值隨權(quán)重β的變化趨勢(shì)。在不同的項(xiàng)目數(shù)k下,實(shí)際收益率均值都呈現(xiàn)相似的變化趨勢(shì),先保持在一定水平周圍小幅度地變化,后約至β=0.9處轉(zhuǎn)而迅速下跌。當(dāng)k=5時(shí),實(shí)際收益率均值隨著權(quán)重β的增加,先保持在0.020 0不變而后迅速下降;當(dāng)k=10,15時(shí),隨權(quán)重β增加,實(shí)際收益率均值先在波動(dòng)中緩慢增加,之后快速下跌;當(dāng)k=20時(shí),實(shí)際收益率均值的變化趨勢(shì)又有所不同,先快速達(dá)到最高點(diǎn)而后在波動(dòng)中下跌,約至β=0.9處開(kāi)始迅速下跌。這說(shuō)明,在權(quán)重篩選方法下,適當(dāng)放松對(duì)借款項(xiàng)目預(yù)期還款率的要求可能有助于在更大的風(fēng)險(xiǎn)下獲得更高的收益。根據(jù)實(shí)際收益率隨權(quán)重β的變化情況,確定權(quán)重篩選法在k=5,10,15,20下的最優(yōu)權(quán)重β分別為0.00、0.59、0.60、0.13。

        (三)不同篩選方法的比較

        前面分別討論了門檻篩選方法和權(quán)重篩選方法的篩選結(jié)果,本節(jié)將比較分析這兩種篩選方法在各自最優(yōu)參數(shù)(閾值或權(quán)重)下得到的各個(gè)借款項(xiàng)目,并與僅使用預(yù)期還款率和預(yù)期收益率進(jìn)行篩選的方法進(jìn)行對(duì)比。表7展示在不同項(xiàng)目數(shù)k下不同篩選法所選借款項(xiàng)目的實(shí)際收益率;其中(Ⅰ)是實(shí)際收益率最高的20個(gè)借款項(xiàng)目的排序,(Ⅱ)~(Ⅴ)分別是在項(xiàng)目數(shù)k=5,10,15,20時(shí),具有最優(yōu)閾值的門檻篩選法和具有最優(yōu)權(quán)重的權(quán)重篩選法所得借款項(xiàng)目的實(shí)際收益率及其均值,(Ⅵ)和(Ⅶ)分別是預(yù)期還款率和預(yù)期收益率排名前20的借款項(xiàng)目實(shí)際收益率情況,以及排名前5、10、15、20的借款項(xiàng)目的實(shí)際收益率均值。

        由表7(Ⅰ),實(shí)際收益率排名前5的借款項(xiàng)目的實(shí)際收益率依次為0.086 3、0.071 0、0.063 3、0.051 9、0.051 2。從表7的(Ⅱ)~(Ⅴ)可知,在k=5時(shí),門檻篩選法和權(quán)重篩選法均挑選出實(shí)際收益率排名第5的借款項(xiàng)目(實(shí)際收益率為0.051 2)并將之排在第1位,且所選借款項(xiàng)目的實(shí)際收益率均值相同;此時(shí)權(quán)重篩選法與門檻篩選法的篩選效果一樣好。當(dāng)k=10時(shí),門檻篩選法和權(quán)重篩選法也都挑選出實(shí)際收益率排名第5的借款項(xiàng)目,且前者給予該借款項(xiàng)目的排序高于后者,但是門檻篩選法所選借款項(xiàng)目的實(shí)際收益率均值稍低于權(quán)重篩選法。綜合來(lái)看,門檻篩選法與權(quán)重篩選法的篩選效果差異不大。當(dāng)k=15時(shí),門檻篩選法挑選出了實(shí)際收益率排名5、6、14的借款項(xiàng)目,而權(quán)重篩選法挑選出排名2、5、14的借款項(xiàng)目,且與k=10時(shí)一樣,門檻篩選法所選借款項(xiàng)目的實(shí)際收益率均值依舊低于權(quán)重篩選法;無(wú)論從借款項(xiàng)目的排序看,還是從實(shí)際收益率總體情況看,門檻篩選法劣于權(quán)重篩選法。當(dāng)k=20時(shí),門檻篩選法與k=15時(shí)相同,僅能篩選出實(shí)際收益率排名5、6、14的借款項(xiàng)目,而權(quán)重篩選法可篩選出實(shí)際排名2、5、6、14的借款項(xiàng)目,再考慮到門檻篩選法所選借款項(xiàng)目的實(shí)際收益率均值依舊低于權(quán)重篩選法,故在此情形下權(quán)重篩選法的篩選效果是更優(yōu)的。

        表7 不同篩選法下借款項(xiàng)目的實(shí)際收益率

        對(duì)比表7(Ⅱ)~(Ⅶ)可得,當(dāng)k=5時(shí),門檻篩選法、權(quán)重篩選法和僅使用預(yù)期收益率的篩選法都能挑選出實(shí)際收益率排名第5的借款項(xiàng)目,而僅使用預(yù)期還款率排序的篩選方法未挑選出任一實(shí)際收益率排名前5的借款項(xiàng)目。門檻篩選法和權(quán)重篩選法的實(shí)際收益率均值都為0.020 0,大于僅使用預(yù)期還款率篩選的實(shí)際收益率均值0.011 3,同時(shí)等于僅使用預(yù)期收益率時(shí)的實(shí)際收益率均值0.020 0。當(dāng)k=10,15,20時(shí),門檻篩選法所挑選的借款項(xiàng)目與僅使用預(yù)期收益率的篩選方法相似,而僅使用預(yù)期還款率排序的篩選方法依舊未挑選出實(shí)際收益率排名前k的借款項(xiàng)目。無(wú)論門檻篩選法還是權(quán)重篩選法,挑選出的借款項(xiàng)目的實(shí)際收益率均值都高于僅使用預(yù)期收益率篩選的實(shí)際收益率均值,而僅使用預(yù)期收益率的實(shí)際收益率均值又高于僅使用預(yù)期違約率的情形。

        從上述k=5,10,15,20的篩選情況看,各篩選方法效果的排序是:權(quán)重篩選法>門檻篩選法>僅使用預(yù)期收益率篩選>僅使用預(yù)期還款率篩選。

        六、結(jié)論與建議

        本文利用“人人貸”網(wǎng)絡(luò)借貸平臺(tái)數(shù)據(jù),借助機(jī)器學(xué)習(xí)算法構(gòu)建網(wǎng)絡(luò)小額借款項(xiàng)目的評(píng)估篩選方法,為網(wǎng)絡(luò)小額貸款相關(guān)企業(yè)選擇投資借款項(xiàng)目提供技術(shù)性方法。

        首先,在訓(xùn)練數(shù)據(jù)上挑選出重要的借款項(xiàng)目特征作為特征變量,利用機(jī)器學(xué)習(xí)算法構(gòu)建借款項(xiàng)目違約率和收益率預(yù)測(cè)模型;然后,在測(cè)試數(shù)據(jù)上評(píng)價(jià)這兩個(gè)預(yù)測(cè)模型的樣本外推能力。

        結(jié)果發(fā)現(xiàn),借款項(xiàng)目的基本信息和借款人人口統(tǒng)計(jì)特征、歷史行為記錄、信用等級(jí)、借款描述對(duì)預(yù)測(cè)借款違約率和收益率均有重要作用;構(gòu)建違約率和收益率預(yù)測(cè)模型最適合的機(jī)器學(xué)習(xí)算法分別是梯度提升樹和隨機(jī)森林,基于梯度提升樹的違約率預(yù)測(cè)模型的樣本外推能力高于基于隨機(jī)森林的收益率預(yù)測(cè)模型。

        最后,我們綜合使用違約率和收益率預(yù)測(cè)模型的預(yù)測(cè)值構(gòu)造門檻篩選方法和權(quán)重篩選方法,并將這些方法與單獨(dú)使用其中一個(gè)預(yù)測(cè)值的篩選方法進(jìn)行比較。

        結(jié)果顯示,從篩選借款項(xiàng)目數(shù)量為5、10、15、20的情形看,權(quán)重篩選法對(duì)借款項(xiàng)目的篩選效果優(yōu)于門檻篩選法,而門檻篩選法又優(yōu)于僅使用預(yù)期還款率或預(yù)期收益率排序的篩選方法。

        在微觀層面,本研究為網(wǎng)絡(luò)小額貸款相關(guān)企業(yè)評(píng)估篩選借款項(xiàng)目提供一定的技術(shù)參考。第一,在評(píng)估借款項(xiàng)目質(zhì)量時(shí)應(yīng)著重考察借款項(xiàng)目的基本信息和借款人的歷史借貸行為記錄、年齡、教育程度、借款描述,這些信息對(duì)借款項(xiàng)目違約率和收益率有較強(qiáng)的預(yù)測(cè)作用;此外,在評(píng)估借款項(xiàng)目未來(lái)違約率時(shí)還可考察借款人的房貸和車產(chǎn)情況。第二,相比僅考慮預(yù)期違約率或預(yù)期收益率的借款項(xiàng)目篩選方法,結(jié)合兩者的篩選方法能夠在收益情況較高的借款項(xiàng)目中挖掘出違約風(fēng)險(xiǎn)較低的借款項(xiàng)目。故在篩選投資借款項(xiàng)目時(shí),應(yīng)綜合考慮借款項(xiàng)目的預(yù)期違約率和預(yù)期收益率,更全面地評(píng)價(jià)借款項(xiàng)目質(zhì)量。

        在宏觀層面,本研究為相關(guān)部門制定防范化解互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)具體措施提供一定的理論支持。在社會(huì)信用體系仍不完善的情況下,網(wǎng)絡(luò)小額貸款業(yè)務(wù)難以借助互聯(lián)網(wǎng)的“小額分散”特征實(shí)現(xiàn)分散借款項(xiàng)目信用風(fēng)險(xiǎn)的目的[34],這導(dǎo)致互聯(lián)網(wǎng)金融行業(yè)在發(fā)展中不斷累積信用風(fēng)險(xiǎn)。借款項(xiàng)目信息的強(qiáng)制披露在一定程度上能夠緩解缺乏權(quán)威信用信息參考的弊端。相關(guān)部門可將借款人年齡、教育程度界定為強(qiáng)制披露信息,將婚姻狀況等其他信息界定為自愿披露信息,進(jìn)一步完善網(wǎng)絡(luò)小額借款項(xiàng)目的信息披露規(guī)則;這有助于網(wǎng)絡(luò)小額貸款相關(guān)企業(yè)及早排除風(fēng)險(xiǎn)收益不匹配的借款項(xiàng)目,將互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)控制在合理范圍內(nèi),防范化解系統(tǒng)性金融風(fēng)險(xiǎn)?!?/p>

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        精品国产香蕉伊思人在线又爽又黄| 丰满少妇弄高潮了www| 国产揄拍国产精品| 综合网自拍| 一本大道久久香蕉成人网| 亚洲视频高清| 国产黄色一级到三级视频| 妃光莉中文字幕一区二区| 国产成熟人妻换╳╳╳╳| 欧美成人久久久| 性视频毛茸茸女性一区二区| 淫片一区二区三区av| 国产大屁股视频免费区| 亚洲av日韩专区在线观看| 加勒比精品久久一区二区三区| 91青青草视频在线播放| 精品国产av一区二区三区四区| 国产国拍精品av在线观看按摩| 久久99精品久久久久久齐齐百度 | 久久无码人妻一区二区三区午夜 | 香港aa三级久久三级| 亚洲黄色电影| 亚洲va精品va国产va| 91精品国产综合久久久密臀九色 | 人妻丰满熟妇av无码区hd| 最近中文字幕一区二区三区| 中文字幕亚洲乱码成熟女1区| 国产成人久久精品激情| 国产在线视欧美亚综合| 久久精品国产一区老色匹| 国内精品久久久久国产盗摄| 熟妇五十路六十路息与子| 欧美日韩免费一区中文字幕| 日产精品毛片av一区二区三区| 国产精品天天看天天狠| 国产农村乱子伦精品视频| 一区二区在线亚洲av蜜桃| 大又黄又粗又爽少妇毛片| 四虎成人精品在永久免费| 亚洲国产精品sss在线观看av | 亚洲av综合色区无码一二三区|