亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融入拒絕推斷的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)方法

        2020-11-07 02:12:48蔣翠清許天歌
        管理工程學(xué)報(bào) 2020年6期
        關(guān)鍵詞:評(píng)價(jià)方法模型

        蔣翠清,許天歌,王 釗

        一種融入拒絕推斷的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)方法

        蔣翠清,許天歌,王 釗

        (合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009)

        傳統(tǒng)的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)通常僅使用接受樣本建模,而模型的應(yīng)用對(duì)象是包括接受和拒絕的全部樣本,由此帶來(lái)的樣本選擇偏差問(wèn)題會(huì)影響模型的泛化能力,需要拒絕推斷校正樣本選擇偏差。利用半監(jiān)督方法構(gòu)建違約風(fēng)險(xiǎn)模型,可以將拒絕推斷過(guò)程嵌入到違約風(fēng)險(xiǎn)評(píng)價(jià)過(guò)程中,在訓(xùn)練違約風(fēng)險(xiǎn)評(píng)價(jià)模型的同時(shí)通過(guò)對(duì)添加到建模樣本中的拒絕樣本進(jìn)行篩選以控制噪音。本文提出基于樣本和特征雙重差異的協(xié)同訓(xùn)練模型TRICMV進(jìn)行P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)。該模型采用了一種基于“噪音學(xué)習(xí)理論”的自適應(yīng)的模型迭代機(jī)制,可以確定融入模型的拒絕樣本的最佳數(shù)量。最后,基于人人貸平臺(tái)標(biāo)的樣本進(jìn)行實(shí)證分析,結(jié)果驗(yàn)證了TRICMV模型優(yōu)于傳統(tǒng)的違約風(fēng)險(xiǎn)評(píng)價(jià)模型以及其它使用半監(jiān)督學(xué)習(xí)進(jìn)行拒絕推斷的違約風(fēng)險(xiǎn)評(píng)價(jià)模型。

        P2P網(wǎng)絡(luò)借貸;違約風(fēng)險(xiǎn)評(píng)價(jià);拒絕推斷;協(xié)同訓(xùn)練

        0 引言

        P2P(Peer-to-Peer)網(wǎng)絡(luò)借貸是指依托互聯(lián)網(wǎng)平臺(tái)為個(gè)體與個(gè)體之間提供借貸服務(wù)的新型金融模式,因其門檻低、放款快、審核容易、靈活性強(qiáng)等優(yōu)勢(shì)得以迅速發(fā)展,在一定程度上解決了個(gè)人和中小企業(yè)融資難的問(wèn)題。與此同時(shí),P2P平臺(tái)的虛擬性和信息的不對(duì)稱性使P2P借貸較傳統(tǒng)金融模式面臨著更嚴(yán)峻的違約風(fēng)險(xiǎn),有效的風(fēng)險(xiǎn)管控是投資者獲得收益和P2P平臺(tái)穩(wěn)健發(fā)展的基本保障[1]。

        在P2P平臺(tái)上,借款人發(fā)布標(biāo)的申請(qǐng),投資人根據(jù)個(gè)人偏好和風(fēng)險(xiǎn)承受能力投資滿意的標(biāo)的。在籌集期內(nèi)籌齊所需的借款總額,則該標(biāo)的借款成功(中標(biāo)),P2P平臺(tái)可以記錄其后續(xù)的還款信息;若未能籌齊,則借款失敗(流標(biāo))。由于拒絕樣本(流標(biāo)樣本)沒有還款信息,所以在傳統(tǒng)的違約風(fēng)險(xiǎn)建模中,通常只使用接受樣本(中標(biāo)樣本),但模型的應(yīng)用對(duì)象是包括中標(biāo)和流標(biāo)的全部標(biāo)的,因此模型構(gòu)建存在樣本選擇偏差問(wèn)題,即訓(xùn)練模型的樣本不是來(lái)自總體的簡(jiǎn)單隨機(jī)樣本。利用有偏樣本訓(xùn)練違約風(fēng)險(xiǎn)評(píng)價(jià)模型,會(huì)增加模型的泛化誤差,從而降低違約風(fēng)險(xiǎn)評(píng)價(jià)的準(zhǔn)確性[2,3]。尤其在P2P網(wǎng)貸場(chǎng)景下,借款申請(qǐng)的流標(biāo)率通常高于70%,因而,存在嚴(yán)重的樣本選擇偏差問(wèn)題。此外,拒絕樣本中存在著大量的標(biāo)的信息,具有潛在的違約風(fēng)險(xiǎn)判別能力。因此,如何利用拒絕樣本校正樣本選擇偏差,提高違約風(fēng)險(xiǎn)評(píng)價(jià)性能是對(duì)P2P平臺(tái)的借款人進(jìn)行有效的違約風(fēng)險(xiǎn)評(píng)價(jià)的關(guān)鍵。

        融入拒絕推斷的違約風(fēng)險(xiǎn)評(píng)價(jià)方法分為兩類:第一類方法首先進(jìn)行拒絕推斷以構(gòu)造接近申請(qǐng)樣本分布的總體樣本[4],然后基于總體樣本構(gòu)造違約風(fēng)險(xiǎn)評(píng)價(jià)模型。代表的拒絕推斷方法有擴(kuò)張法、經(jīng)驗(yàn)似然估計(jì)法、期望最大化(EM)算法、貝葉斯界定折疊(BC)法和外推法等。其中,擴(kuò)張法[4,5,6](Augmentation),又稱加權(quán)法(Re-weighting),通過(guò)對(duì)接受樣本進(jìn)行加權(quán)抽樣,以模擬總體樣本的分布,該方法存在的“加權(quán)”問(wèn)題會(huì)影響違約風(fēng)險(xiǎn)評(píng)價(jià)模型的預(yù)測(cè)效果[5,6]。而經(jīng)驗(yàn)似然估計(jì)法[7]、期望最大化算法[8]、貝葉斯界定折疊法[2,9]、外推法[5]和打包法通過(guò)填補(bǔ)拒絕樣本的缺失類標(biāo)來(lái)構(gòu)造總體樣本。該類方法的拒絕推斷過(guò)程和違約風(fēng)險(xiǎn)評(píng)價(jià)過(guò)程相互獨(dú)立,無(wú)法確定融入模型的拒絕樣本的最佳數(shù)量。此外,添加到建模樣本中的拒絕樣本里存在著一定量的錯(cuò)誤標(biāo)記樣本,未經(jīng)篩選直接添加到建模樣本中會(huì)帶來(lái)大量的噪音,在一定程度上影響模型的預(yù)測(cè)效果[10]。第二類方法僅使用接受樣本構(gòu)建違約風(fēng)險(xiǎn)評(píng)價(jià)模型,然后使用拒絕推斷校正模型中有偏的參數(shù),代表方法有Heckman兩階段模型[23],該模型對(duì)參數(shù)識(shí)別的弱有效性使得其對(duì)違約風(fēng)險(xiǎn)評(píng)價(jià)模型的改善非常有限[2]。

        利用半監(jiān)督方法構(gòu)建違約風(fēng)險(xiǎn)評(píng)價(jià)模型,可以將拒絕推斷過(guò)程嵌入到違約風(fēng)險(xiǎn)評(píng)價(jià)過(guò)程中,在模型訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行了拒絕樣本的推斷并對(duì)添加到建模樣本中的拒絕樣本進(jìn)行了篩選,避免已有的拒絕推斷方法引入過(guò)量的噪音而影響模型預(yù)測(cè)性能。本文提出一種基于樣本和特征雙重差異的協(xié)同訓(xùn)練模型TRICMV(Tri-Training combined with multiple views)進(jìn)行P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià),該模型使用一種自適應(yīng)的模型迭代機(jī)制,可以確定融入模型的拒絕樣本的最佳數(shù)量;并使用基于樣本和特征雙重差異的分類器進(jìn)行協(xié)同訓(xùn)練,可以從拒絕樣本里篩選可信的標(biāo)記樣本來(lái)擴(kuò)充建模樣本。實(shí)證研究表明TRICMV模型優(yōu)于傳統(tǒng)的違約風(fēng)險(xiǎn)評(píng)價(jià)模型和其它使用半監(jiān)督方法進(jìn)行拒絕推斷的違約風(fēng)險(xiǎn)評(píng)價(jià)模型。

        1 相關(guān)文獻(xiàn)回顧

        1.1 違約風(fēng)險(xiǎn)評(píng)價(jià)

        違約風(fēng)險(xiǎn),又稱信用風(fēng)險(xiǎn),是指借款人在規(guī)定的還款期內(nèi)不履行還本付息協(xié)議,致使投資者遭受損失的風(fēng)險(xiǎn)[11]。國(guó)內(nèi)外學(xué)者通常將違約風(fēng)險(xiǎn)評(píng)價(jià)看作分類問(wèn)題,使用一系列違約風(fēng)險(xiǎn)評(píng)價(jià)方法預(yù)測(cè)借款人的違約概率[12,13]。

        主流的違約風(fēng)險(xiǎn)評(píng)價(jià)方法主要包括以統(tǒng)計(jì)分析為基礎(chǔ)的違約風(fēng)險(xiǎn)評(píng)價(jià)方法和以機(jī)器學(xué)習(xí)分類算法為基礎(chǔ)的違約風(fēng)險(xiǎn)評(píng)價(jià)方法[12]。以統(tǒng)計(jì)分析為基礎(chǔ)的違約風(fēng)險(xiǎn)評(píng)價(jià)方法包括判別分析、回歸分析、K近鄰等,Sohn S Y等[14]和Verstraeten G等[15]采用邏輯回歸方法分別對(duì)小微企業(yè)和個(gè)人進(jìn)行違約風(fēng)險(xiǎn)評(píng)價(jià),該方法因?yàn)榫哂休^少的假設(shè)條件和較高的預(yù)測(cè)效果已逐漸成為違約風(fēng)險(xiǎn)評(píng)價(jià)的標(biāo)準(zhǔn)方法[16]。統(tǒng)計(jì)分析方法雖然具有較強(qiáng)的穩(wěn)定性和可解釋性,但數(shù)據(jù)需要滿足嚴(yán)格的統(tǒng)計(jì)學(xué)假設(shè)條件。以機(jī)器學(xué)習(xí)分類算法為基礎(chǔ)的違約風(fēng)險(xiǎn)評(píng)價(jià)方法因?yàn)楦咝院瓦m用性得到廣泛的運(yùn)用,包括神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、遺傳算法等[17]。近年來(lái),以集成學(xué)習(xí)為基礎(chǔ)的違約風(fēng)險(xiǎn)評(píng)價(jià)方法得到了廣泛的應(yīng)用,Lessman等[18]對(duì)基于單個(gè)分類器和集成分類器的41種違約風(fēng)險(xiǎn)評(píng)價(jià)模型進(jìn)行了綜述,驗(yàn)證了集成分類器總體上具有比單個(gè)分類器更好的預(yù)測(cè)能力和泛化能力。

        現(xiàn)有的違約風(fēng)險(xiǎn)評(píng)價(jià)通常僅使用有標(biāo)簽的接受樣本建模,而模型的應(yīng)用對(duì)象是包括接受樣本和拒絕樣本的全部樣本,由此帶來(lái)的樣本選擇偏差問(wèn)題會(huì)影響模型的泛化能力。

        1.2 拒絕推斷

        在違約風(fēng)險(xiǎn)評(píng)價(jià)中,拒絕推斷通常被用來(lái)校正樣本選擇偏差。Heckman[22]兩階段模型最早被用來(lái)校正樣本選擇偏差,Crook J等[4]對(duì)該模型應(yīng)用于違約風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域的有效性進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)了該模型對(duì)參數(shù)識(shí)別的弱有效性使得其對(duì)違約風(fēng)險(xiǎn)評(píng)價(jià)模型的改善非常有限。Crook J等[4]并對(duì)外推法對(duì)模型性能的影響進(jìn)行了研究,結(jié)果表明外推法中截止閾值的選擇會(huì)影響拒絕樣本的分類結(jié)果,通過(guò)調(diào)整閾值對(duì)模型預(yù)測(cè)性能的提高也是有限的。之后,Banasik J等[5]對(duì)擴(kuò)張法進(jìn)行了研究,指出了擴(kuò)張法雖然能夠在一定程度上平衡樣本偏差,但存在的“加權(quán)”問(wèn)題會(huì)影響模型的預(yù)測(cè)效果,且該方法的有效性依賴對(duì)拒絕樣本中違約率的準(zhǔn)確估計(jì)。Bucker M等[7]和Anderson B等[8]將拒絕推斷看作是缺失值填補(bǔ)問(wèn)題,并分別使用了經(jīng)驗(yàn)似然估計(jì)方法和EM算法填補(bǔ)拒絕樣本的缺失類標(biāo),這兩種缺失值填補(bǔ)方法的缺點(diǎn)在于將非隨機(jī)缺失的拒絕樣本的類標(biāo)看作隨機(jī)缺失,因而影響模型預(yù)測(cè)效果。針對(duì)該問(wèn)題,Chen等[9]和鄧超等[2]將數(shù)據(jù)非隨機(jī)缺失機(jī)制引入到拒絕推斷模型中,取得了較好的效果,但該類方法的有效性依賴于外部信息的獲取,即需要獲取和準(zhǔn)確估計(jì)出總體樣本中潛在的違約率,在P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)中,通常無(wú)法獲取總體樣本的違約率。Li Z等[3]將半監(jiān)督學(xué)習(xí)方法引入到拒絕推斷領(lǐng)域,克服了傳統(tǒng)拒絕推斷方法對(duì)外部信息的依賴并顯著地改善了模型的預(yù)測(cè)性能。

        1.3 協(xié)同訓(xùn)練

        協(xié)同訓(xùn)練是一種基于差異的半監(jiān)督學(xué)習(xí)方法,通過(guò)兩個(gè)或多個(gè)分類器,選擇若干置信度高的無(wú)標(biāo)簽樣本進(jìn)行相互標(biāo)記,從而利用無(wú)標(biāo)簽樣本改善模型學(xué)習(xí)性能[19,20,21]。協(xié)同訓(xùn)練的有效性依賴于分類器之間的差異性,包括分類器種類差異、特征差異和樣本差異。在保證基分類器自身性能的前提下,增加分類器之間的差異性可以提高對(duì)拒絕樣本標(biāo)記的準(zhǔn)確率,降低泛化誤差[12]。經(jīng)典的協(xié)同訓(xùn)練模型有基于特征差異的Co-Training模型和基于樣本差異的Tri-Training模型[10,19,20]。

        Co-Training模型將數(shù)據(jù)特征劃分為兩個(gè)獨(dú)立且充分的特征集,在兩個(gè)特征集上分別訓(xùn)練模型。利用每個(gè)分類器對(duì)拒絕樣本進(jìn)行推斷,加入到另一個(gè)模型的訓(xùn)練集中更新模型,從而避免了自身錯(cuò)誤的積累。Tri-Training模型是一種基于樣本差異的協(xié)同訓(xùn)練模型,通過(guò)Bootstrap引入了三個(gè)基于樣本差異的分類器,利用兩個(gè)分類器共同投票法方式對(duì)拒絕樣本進(jìn)行推斷來(lái)擴(kuò)充第三個(gè)分類器的訓(xùn)練集。Tri-Training模型沒有顯式地估計(jì)置信度,僅通過(guò)兩個(gè)分類器投票衡量隱式置信度,如果兩個(gè)分類器之間沒有足夠的差異性,隱式置信度的結(jié)果便無(wú)法篩選可信的標(biāo)記數(shù)據(jù),從而為第三個(gè)分類器的訓(xùn)練引入過(guò)量噪聲,導(dǎo)致迭代過(guò)早停止,模型性能無(wú)法得到充分改善。

        2 違約風(fēng)險(xiǎn)評(píng)價(jià)模型TRICMV

        本文提出了一種融入拒絕推斷的P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)模型TRICMV。在投票機(jī)制上,TRICMV模型構(gòu)造了基于樣本和特征的雙重差異的分類器進(jìn)行協(xié)同訓(xùn)練,通過(guò)Bootstrap構(gòu)造三個(gè)有差異的樣本,并將每個(gè)樣本的特征集劃分為兩個(gè)充分視圖,通過(guò)構(gòu)造基于樣本和特征雙重差異的多個(gè)分類器對(duì)拒絕樣本進(jìn)行投票,提高了對(duì)拒絕樣本標(biāo)記的準(zhǔn)確率。在迭代機(jī)制上,TRICMV模型基于噪音學(xué)習(xí)理論,建立了一種自適應(yīng)的模型迭代機(jī)制,控制了每一輪迭代中引入到訓(xùn)練集中的噪音量,保證了拒絕樣本的引入對(duì)模型預(yù)測(cè)效果的改善。

        2.1 基于噪音學(xué)習(xí)理論的模型迭代機(jī)制

        根據(jù)式(4),可得到模型迭代的充分條件:

        當(dāng)式(5)滿足時(shí),訓(xùn)練集的擴(kuò)充為模型帶來(lái)的正面影響要超過(guò)噪音的引入對(duì)模型帶來(lái)的負(fù)面影響,此時(shí)模型性能會(huì)得到提升。根據(jù)式(5),可以得到

        本文將基于噪音學(xué)習(xí)理論的自適應(yīng)的模型迭代機(jī)制應(yīng)用到TRICMV模型,可以確定融入模型的拒絕樣本的最佳數(shù)量,避免了引入過(guò)量含噪音的樣本對(duì)模型性能的影響。

        2.2 建模步驟

        TRICMV模型的建模流程如圖1所示,建模步驟如下:

        步驟1:使用Bootstrap從初始訓(xùn)練樣本L中抽取三個(gè)有差異的訓(xùn)練集,將每個(gè)訓(xùn)練集的特征集劃分為兩個(gè)充分的特征集,得到六個(gè)訓(xùn)練樣本,訓(xùn)練得到六個(gè)分類器。

        步驟2:在每一輪迭代中,首先判斷分類器是否滿足迭代條件。如果滿足迭代條件,則由另外兩個(gè)訓(xùn)練集的不同特征集構(gòu)建的分類器對(duì)拒絕樣例共同標(biāo)記,并將標(biāo)記一致的拒絕樣例及結(jié)果加入到該分類器的樣本候選集中,根據(jù)模型迭代機(jī)制判斷加入訓(xùn)練集的樣本量,更新該訓(xùn)練集并更新分類器。直至六個(gè)分類器都不滿足迭代條件,則TRICMV模型的迭代停止。

        步驟3:通過(guò)對(duì)六個(gè)分類器的預(yù)測(cè)概率求均值的方式集成分類器得到最終的模型。

        TRICMV模型的偽代碼如表1所示。

        圖1 TRICMV建模流程圖

        Figure 1 Flow diagram of TRICMV model

        表1 TRICMV模型的偽代碼

        表1(續(xù)) TRICMV模型的偽代碼

        3 實(shí)證分析

        3.1 樣本選擇

        人人貸是中國(guó)最大的P2P平臺(tái)之一,流標(biāo)率高達(dá)70%以上,高比例流標(biāo)的特點(diǎn)為拒絕推斷的研究提供了絕佳的應(yīng)用場(chǎng)景,本文選取了人人貸平臺(tái)的標(biāo)的樣本作為研究對(duì)象。標(biāo)的還款期限最長(zhǎng)為36個(gè)月,為了觀測(cè)到完整的還款信息,從人人貸網(wǎng)站上爬取了2011年至2014年的標(biāo)的數(shù)據(jù)共計(jì)300346條。剔除缺失值較多的數(shù)據(jù)后,得到299377條信息完整的有效數(shù)據(jù)。對(duì)于中標(biāo)樣本,根據(jù)借款人的還款狀態(tài)信息,標(biāo)記了借款人是否違約,即將在整個(gè)還款期內(nèi)存在逾期、壞賬或未償還記錄的標(biāo)的標(biāo)記為違約;將未出現(xiàn)違約記錄的標(biāo)的標(biāo)記為非違約。

        人人貸標(biāo)的樣本有三種類型:信用認(rèn)證標(biāo)、機(jī)構(gòu)擔(dān)保標(biāo)和實(shí)地認(rèn)證標(biāo)。其中實(shí)地認(rèn)證標(biāo)違約率最低,信用認(rèn)證標(biāo)違約率最高。在2011年和2012年,平臺(tái)的主要發(fā)展信用認(rèn)證標(biāo),因此平臺(tái)的違約率較高。自從2013年開始,平臺(tái)的業(yè)務(wù)類型開始轉(zhuǎn)變,主要發(fā)展具有較低違約風(fēng)險(xiǎn)的實(shí)地認(rèn)證標(biāo),因此,平臺(tái)的違約率大大降低。本文以2013年平臺(tái)業(yè)務(wù)轉(zhuǎn)型為界限,將標(biāo)的樣本劃分為2011-2012年數(shù)據(jù)集和2013-2014年數(shù)據(jù)集進(jìn)行分析,以便觀測(cè)模型在不同違約率和數(shù)據(jù)集下的表現(xiàn)是否穩(wěn)定。標(biāo)的樣本描述性統(tǒng)計(jì)如表2所示,平臺(tái)在2011年到2012年的違約率為23.32%,在2013年到2014年的違約率為5.40%。初始標(biāo)的樣本共有37個(gè)特征,剔除不相關(guān)、缺失嚴(yán)重和已經(jīng)暴露還款狀態(tài)的特征,選取了22個(gè)特征進(jìn)行實(shí)驗(yàn),其中包括標(biāo)的樣本的9個(gè)連續(xù)特征和13個(gè)離散特征。

        表2 樣本描述性統(tǒng)計(jì)表

        表2(續(xù)) 樣本描述性統(tǒng)計(jì)表

        3.2 實(shí)驗(yàn)設(shè)置

        為了分析驗(yàn)證本文提出的TRICMV模型的違約風(fēng)險(xiǎn)判別性能,分別比較監(jiān)督模型與融入拒絕推斷的半監(jiān)督模型的性能。在2011-2012年和2013-2014年的兩個(gè)數(shù)據(jù)集上,分別基于隨機(jī)森林、邏輯回歸、K近鄰和決策樹這四種基準(zhǔn)算法構(gòu)建五種違約風(fēng)險(xiǎn)評(píng)價(jià)模型:(1)基準(zhǔn)模型:僅使用基準(zhǔn)算法構(gòu)建監(jiān)督學(xué)習(xí)模型;(2)Self-Training模型:基準(zhǔn)算法結(jié)合Self-Training框架;(3)Co-Training模型:基準(zhǔn)算法結(jié)合基于特征差異的Co-Training框架;(4)Tri-Training模型:基準(zhǔn)算法結(jié)合基于樣本差異的Tri-Training框架;(5)TRICMV模型:基準(zhǔn)算法結(jié)合基于特征和樣本雙重差異的TRICMV框架。

        為了驗(yàn)證模型的效果及顯著性,選用重復(fù)交叉驗(yàn)證(repeated cross validation)[22]進(jìn)行模型的訓(xùn)練和評(píng)估,本文使用十次十折交叉驗(yàn)證,即將數(shù)據(jù)集劃分成十份,輪流用其中九份做訓(xùn)練集,一份做測(cè)試集,其余該過(guò)程隨機(jī)重復(fù)十次。

        3.3 實(shí)證結(jié)果與分析

        使用十次十折交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練和評(píng)估,基于隨機(jī)森林、K近鄰、決策樹和邏輯回歸四種基準(zhǔn)算法,比較五種違約風(fēng)險(xiǎn)評(píng)價(jià)模型的預(yù)測(cè)效果:基準(zhǔn)模型、Self-Training模型、Co-Training模型、Tri-Training模型和TRICMV模型。在2011-2012年和2013-2014年這兩個(gè)數(shù)據(jù)集上,各模型的AUC平均值及其95%置信區(qū)間分別如表3和表4所示,表中粗體表示在相同基準(zhǔn)算法下AUC均值最高的模型。

        從表3和表4中可以看出:(1)將Self-Training與基準(zhǔn)模型進(jìn)行比較, Self-Training的性能總體上低于基準(zhǔn)模型,說(shuō)明使用不恰當(dāng)?shù)木芙^推斷方法反而會(huì)降低模型違約風(fēng)險(xiǎn)評(píng)價(jià)的準(zhǔn)確性。而將Co-Training、Tri-Training、TRICMV與基準(zhǔn)模型進(jìn)行比較,發(fā)現(xiàn)這三種使用拒絕推斷的模型的性能總體上高于基準(zhǔn)模型,說(shuō)明使用恰當(dāng)?shù)木芙^推斷方法可以提升模型違約風(fēng)險(xiǎn)評(píng)價(jià)能力。(2)在基于四種基準(zhǔn)分類算法和兩個(gè)數(shù)據(jù)集上,TRICMV模型都優(yōu)于基準(zhǔn)模型、Self-Training模型、Co-Training模型和Tri-Training模型,證明了TRICMV模型的有效性。(3)以隨機(jī)森林作為基準(zhǔn)算法,使用TRICMV構(gòu)建違約風(fēng)險(xiǎn)預(yù)測(cè)模型時(shí),可以實(shí)現(xiàn)最佳的違約風(fēng)險(xiǎn)評(píng)價(jià)效果。(4)以隨機(jī)森林作為基準(zhǔn)算法,模型在數(shù)量較少的2011-2012年數(shù)據(jù)集上的提升效果更明顯,說(shuō)明對(duì)于小樣本,更有必要在構(gòu)建違約風(fēng)險(xiǎn)評(píng)價(jià)模型時(shí)融入拒絕推斷。

        表3 2011-2012年各模型的AUC值及95%的置信區(qū)間分布

        表4 2013-2014年各模型的AUC值及95%的置信區(qū)間分布

        圖2 模型在2011-2012年數(shù)據(jù)集上的排名

        Figure 2 Average rank of models on 2011-2012 data sets

        圖3 模型在2013-2014年數(shù)據(jù)集上的排名

        Figure 3 Average rank of models on 2013-2014 data sets

        對(duì)每一折交叉驗(yàn)證下五種模型的違約風(fēng)險(xiǎn)評(píng)價(jià)能力進(jìn)行排名并統(tǒng)計(jì)十次十折交叉驗(yàn)證后的各模型的平均排名,在2011-2012年和2013-2014年這兩個(gè)數(shù)據(jù)集上各模型違約風(fēng)險(xiǎn)評(píng)價(jià)能力的平均排名如圖2和圖3所示,從圖2和圖3中可以看出:(1)將Co-Training模型與Tri-Training模型進(jìn)行比較,發(fā)現(xiàn)以隨機(jī)森林作為基準(zhǔn)算法時(shí),Tri-Training的總體排名優(yōu)于Co-Training;以K近鄰和決策樹作為基準(zhǔn)算法時(shí),Co-Training的總體排名優(yōu)于Tri-Training。TRICMV模型集成了兩種模型的優(yōu)點(diǎn),無(wú)論使用何種基準(zhǔn)分類算法,TRICMV模型總是可以總是具有最優(yōu)的排名,證明了提出的TRICMV模型的有效性和穩(wěn)定性。(2)當(dāng)使用邏輯回歸作為基準(zhǔn)算法時(shí),各模型的排名無(wú)明顯差異。所以融入拒絕推斷對(duì)邏輯回歸的預(yù)測(cè)性能無(wú)顯著影響。

        本文利用Friedman成對(duì)檢驗(yàn)進(jìn)行模型性能之間的顯著性檢驗(yàn)。在2011-2012年和2013-2014年這兩個(gè)數(shù)據(jù)集上各模型的顯著性檢驗(yàn)結(jié)果分別如表5和表6所示。Friedman卡方統(tǒng)計(jì)量在各組數(shù)據(jù)中均顯著(P值小于0.05),證明各模型間存在顯著性差異,進(jìn)而進(jìn)行兩兩成對(duì)顯著性比較。成對(duì)比較的結(jié)果顯示:在使用隨機(jī)森林、K近鄰和決策樹作為基分類算法時(shí),TRICMV模型顯著優(yōu)于不使用拒絕推斷的基準(zhǔn)模型和融入了拒絕推斷的Self-Training模型、Co-Training模型和Tri-Training模型。證明了使用TRICMV模型進(jìn)行拒絕推斷的有效性。在使用邏輯回歸作為基準(zhǔn)算法時(shí),基于已有樣本量已經(jīng)足夠訓(xùn)練出具有一定穩(wěn)定性和泛化能力的模型。因此采用邏輯回歸作為基準(zhǔn)算法時(shí),5種模型之間的顯著性差異較低。

        表5 2011-2012年各模型顯著性檢驗(yàn)

        注:M1代表基準(zhǔn)模型,M2代表Self-Training模型,M3代表Co-Training模型,M4代表Tri-Training模型,M5代表TRICMV模型。

        表6 2013-2014年各模型顯著性檢驗(yàn)

        注:M1代表基準(zhǔn)模型,M2代表Self-Training模型,M3代表Co-Training模型,M4代表Tri-Training模型,M5代表TRICMV模型。

        4 結(jié)束語(yǔ)

        針對(duì)P2P平臺(tái)上存在的樣本選擇偏差問(wèn)題,提出將拒絕推斷融入到違約風(fēng)險(xiǎn)評(píng)價(jià)中,不僅能夠在一定程度上校正樣本選擇偏差,而且可以從拒絕樣本中挖掘違約風(fēng)險(xiǎn)判別潛力,從而降低模型的泛化誤差,提高預(yù)測(cè)性能。針對(duì)已有的融入拒絕推斷的違約風(fēng)險(xiǎn)評(píng)價(jià)方法存在的缺陷,采用了半監(jiān)督方法構(gòu)建違約風(fēng)險(xiǎn)評(píng)價(jià)模型,將拒絕推斷過(guò)程嵌入到違約風(fēng)險(xiǎn)評(píng)價(jià)過(guò)程中,在訓(xùn)練違約風(fēng)險(xiǎn)評(píng)價(jià)模型的同時(shí)通過(guò)對(duì)添加到建模樣本中的拒絕樣本進(jìn)行篩選以降低噪音對(duì)模型預(yù)測(cè)性能的影響。本文提出了基于樣本和特征雙重差異的協(xié)同訓(xùn)練模型TRICMV,采用了一種自適應(yīng)的模型迭代機(jī)制,可以確定融入模型的拒絕樣本的最佳數(shù)量。利用P2P平臺(tái)的標(biāo)的數(shù)據(jù)進(jìn)行實(shí)證分析,發(fā)現(xiàn)TRICMV模型優(yōu)于傳統(tǒng)違約風(fēng)險(xiǎn)評(píng)價(jià)模型以及Self-Training、Co-Training和Tri-Training這三種使用半監(jiān)督學(xué)習(xí)進(jìn)行拒絕推斷的違約風(fēng)險(xiǎn)評(píng)價(jià)模型,證明了使用TRICMV模型進(jìn)行拒絕推斷的有效性,為P2P網(wǎng)絡(luò)借貸違約風(fēng)險(xiǎn)評(píng)價(jià)提供新的思路。

        [1] 蔣翠清, 王睿雅, 丁勇. 融入軟信息的 P2P 網(wǎng)絡(luò)借貸違約預(yù)測(cè)方法[J]. 中國(guó)管理科學(xué), 2017, 11: 12-21.

        Jiang C Q, Wang R Y, Ding Y. The Default Prediction Combined with Soft Informationin Online Peer-to-Peer Lending[J]. Chinese Journal of Management Science, 2017, 11: 12-21.

        [2] 鄧超, 胡梅梅, 曾文潮, 等. 基于貝葉斯界定折疊法的小企業(yè)信用評(píng)分模型研究[J]. 管理工程學(xué)報(bào), 2017, 4(4):162-170.

        Deng C, Hu M M, Zeng W C, et al. Small Business Credit Scoring Model Based on Bayesian Inference Using Bound and Collapse[J]. Journal of Industrial Engineering and Engineering Management, 2017, 4(4):162-170.

        [3] Li Z, Tian Y, Li K, et al. Reject inference in credit scoring using Semi-supervised Support Vector Machines[J]. Expert Systems with Applications, 2017, 74:105-114.

        [4] Crook J, Banasik J. Does reject inference really improve the performance of application scoring models[J]. Journal of Banking & Finance. 2004, 28(4):857-874.

        [5] Banasik J, Crook J. Reject inference, augmentation, and sample selection[J]. European Journal of Operational Research,2007, 183(3): 1582-1594.

        [6] Banasik J, Crook J. Reject inference in survival analysis by augmentation[J]. Journal of the Operational Research Society, 2010, 61(3):473-485.

        [7] Bücker M, van Kampen M, Kr?mer W. Reject inference in consumer credit scoring with nonignorable missing data[J]. Journal of Banking & Finance, 2013, 37(3):1040-1045.

        [8] Anderson B, Hardin JM. Modified logistic regression using the EM algorithm for reject inference[J]. International Journal of Data Analysis Techniques and Strategies, 2013, 5(4):359-373.

        [9] Chen GG, Astebro T. Bound and collapse Bayesian reject inference for credit scoring[J]. Journal of the Operational Research Society, 2012, 63(10):1374-1387.

        [10] Zhou ZH, Li M. Tri-training: Exploiting unlabeled data using three classifiers[J]. IEEE Transactions on knowledge and Data Engineering, 2005, 17(11):1529-1541.

        [11] Guo Y, Zhou W, Luo C, et al. Instance-based credit risk assessment for investment decisions in P2P lending[J]. European Journal of Operational Research, 2016, 249(2):417-426.

        [12] 王昱. 基于組合分類的消費(fèi)者信用評(píng)估[J]. 管理工程學(xué)報(bào), 2015, 29(1):30-38.

        Wang Y. Customers Credit Scoring Based On Ensemble Classification[J]. Journal of Industrial Engineering and Engineering Management, 2015, 29(1):30-38.

        [13] Serrano-Cinca C, Gutiérrez-Nieto B. The use of profit scoring as an alternative to credit scoring systems in peer-to-peer (P2P) lending[J]. Decision Support Systems, 2016, 89: 113-122.

        [14] Sohn S Y, Hong S K. Random effects logistic regression model for default prediction of technology credit guarantee fund[J]. European Journal of Operational Research, 2007, 183(1):472-478.

        [15] Verstraeten G, Van d P D. The impact of sample bias on consumer credit scoring performance and profitability[J]. Journal of the Operational Research Society, 2005, 56(8):981-992.

        [16] 梁琪, 過(guò)新偉, 石寧. 基于隨機(jī)效應(yīng)logistic模型的中小企業(yè)財(cái)務(wù)失敗預(yù)警研究[J]. 管理工程學(xué)報(bào), 2014, 28(3):126-134.

        Liang Q, Guo X W, Shi N. Modeling Financial Distress Risks for SMEs Based on Random Effects Logistic Model[J]. Journal of IndustrialEngineering and Engineering Management, 2014, 28(3):126-134.

        [17] Kruppa J, Ziegler A, K?nig I R. Risk estimation and risk prediction using machine-learning methods[J]. Human genetics, 2012, 131(10): 1639-1654.

        [18] Lessmann S, Baesens B, Seow HV, et al. Benchmarking state-of -the-art classification algorithms for credit scoring: An update of research[J]. European Journal of Operational Research, 2015, 247(1): 124-136.

        [19] Appice A, Malerba D. A co-training strategy for multiple view clustering in process mining[J]. IEEE Transactions on Services Computing, 2016, 9(6): 832-845.

        [20] Goldman S A, Zhou Y. Enhancing supervised learning with unlabeled data[C]. Proceedings of the Seventeenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 2000.

        [21] 肖進(jìn), 薛書田, 黃靜. 客戶信用評(píng)估半監(jiān)督協(xié)同訓(xùn)練模型研究[J]. 中國(guó)管理科學(xué), 2016, 24(6):124-131.

        Xiao J, Xue S T, Huang J. A Semi-Supervised Co-Training Model for Customer Credit Scoring[J]. Chinese Journal of Management Science, 2016, 24(6):124-131.

        [22] Kim J H. estimating classification error rate: repeated cross-validation, repeated hold-out and bootstrap[J]. Computational Statistics & Data Analysis, 2009, 53(11):3735-3745.

        [23] Heckman J J. sample selection bias as a specification error[J]. Econometrica, 1979, 47(1):153-161.

        An approach to default risk assessment combined with reject inference in online peer-to-peer lending

        JIANG Cuiqing, XU Tiange, WANG Zhao

        (School of Management, Hefei University of Technology, Hefei 230009, China)

        The traditional P2P online lending’s default risk assessment usually uses accepting sample for modeling, however the application object of the model is all samples including both accepting and rejecting samples. As a result, the sample selection bias will affect the prediction performance of the model. In addition, there is a large amount of target information in the rejecting sample, and it also has the potential to discriminate against default risks. Therefore, how to use rejecting samples to correct sample selection bias and improve the performance of default risk evaluation is the key to effective default risk evaluation of P2P lending platform.

        Existing default risk assessment methods that incorporate rejection inference are divided into two categories: in the first category, the rejection inference process and the default risk process are independent of each other, the optimal number of rejection samples into the model cannot be determined, and noise data cannot be filtered; in the second category, the rejection reference process is embedded into the default risk process. However, the weak effectiveness for model parameter identification makes the improvement of the model effect very limited. Using the semi-supervised method to construct the default risk model, the rejection inference process can be embedded in the default risk evaluation process when the default risk evaluation model is trained, it automatically infers and screens out the rejection samples with high inference confidence to join the training sample set, thereby reducing the training sample noise for participation. This paper proposes a collaborative training model TRICMV (Tri-Training combined with multiple views) based on the double difference between samples and sample’s features to evaluate the default risk of P2P online lending. This model proposes an adaptive model iteration mechanism based on noise learning theory. Not only it can have the optimal number of rejecting samples integrated into the model, but also by constructing a classifier based on the double difference between samples and sample’s features, the rejecting sample with higher label confidence can be integrated to the model, thereby improving the prediction performance of the default risk evaluation model.

        Empirical analysis based on the lending data of Renrendai online platform to compare the performance of the benchmark default risk evaluation model and the four default risk evaluation models that incorporate rejection inference: Self-Training model, Co-Training model, Tri-Training model and the proposed TRICMV model. We use the repeated cross-validation to train and evaluate the models; use AUC to measure the discriminating ability against default risk; and use Friedman pair testing to perform the significance test of the models’ performance. The empirical research shows the comparison of the performance of each model and its statistics of the average ranking, and examines the significant difference between the performances of the model. The empirical results show that the TRICMV model is significantly better than the traditional default risk evaluation model and other default risk evaluation models that use semi-supervised learning to reject inference, and the effectiveness of the TRICMV model is proved.

        P2P lending; Default risk assessment; Reject inference; Collaborative training

        F832.4

        A

        1004-6062(2020)06-0165-008

        10.13587/j.cnki.jieem.2020.06.017

        2018-05-12

        2018-12-10

        Supported by the Key Program of National Natural Science Foundation of China (71731005) and the National Natural Science Foundation of China(71571059)

        2018-05-12

        2018-12-10

        國(guó)家自然科學(xué)基金資助重點(diǎn)項(xiàng)目(71731005);國(guó)家自然科學(xué)基金資助面上項(xiàng)目(71571059)

        蔣翠清(1965—),男,安徽無(wú)為人;合肥工業(yè)大學(xué)管理學(xué)院教授,博士生導(dǎo)師;研究方向:數(shù)據(jù)挖掘、信用評(píng)價(jià)等。

        中文編輯:杜 ??;英文編輯:Boping Yan

        猜你喜歡
        評(píng)價(jià)方法模型
        一半模型
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        亚洲综合免费| 三级做a全过程在线观看| 蜜桃无码一区二区三区| 国产乱人视频在线看| 日韩精品极品视频在线免费| 少妇人妻字幕精品毛片专区| 亚洲av综合a色av中文| 精品免费在线| 久久视频在线视频精品| 激情文学婷婷六月开心久久 | 国产麻传媒精品国产av| 亚洲欧美日韩综合在线观看| 日韩精品av在线一区二区| 久久久免费看少妇高潮| 熟女精品视频一区二区三区| 九九精品无码专区免费| 国语自产啪在线观看对白| 天天干天天日夜夜操| 久久夜色精品国产噜噜av| 国产欧美日韩不卡一区二区三区 | 亚洲一区二区三区少妇| 一区二区三区人妻无码| 亚洲毛片网| 我也色自拍俺也色自拍| 国产在线第一区二区三区| 亚州少妇无套内射激情视频| 九九久久精品大片| 一区二区二区三区亚洲| 久久亚洲av无码西西人体| 在线视频这里只有精品| 日本精品啪啪一区二区| 一边摸一边抽搐一进一出视频 | 国产一区二区精品在线观看 | 亚洲av综合a色av中文| 国产午夜精品一区二区三区视频| 日韩精品有码中文字幕| 给你免费播放的视频| 欧美国产日本高清不卡| 美女精品国产一区二区三区| 国产精品一区二区av不卡| 又爽又黄又无遮挡网站动态图|