亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合Logistic回歸與Tabnet模型的P2P網(wǎng)貸違約預(yù)測(cè)方法

2022-09-08 09:40:34朱益冬陳玉明盧俊文曾念峰

廈門理工學(xué)院學(xué)報(bào) 2022年3期

關(guān)鍵詞：借款人網(wǎng)貸神經(jīng)網(wǎng)絡(luò)

朱益冬，陳玉明*，盧俊文，曾念峰

(1.廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院，福建廈門 361024；2.易成功(廈門)信息科技有限公司，福建廈門 361024)

隨著個(gè)人借貸需求的不斷增長(zhǎng)，加上互聯(lián)網(wǎng)和金融的優(yōu)勢(shì)互補(bǔ)[1]，P2P平臺(tái)[2-3]應(yīng)運(yùn)而生。2007年8月，中國(guó)第一個(gè)P2P網(wǎng)貸平臺(tái)拍拍貸誕生[4]，此后P2P行業(yè)[5]進(jìn)入飛速發(fā)展階段。但網(wǎng)貸平臺(tái)的不規(guī)范經(jīng)營(yíng)給平臺(tái)機(jī)構(gòu)、融資者和投資者等帶來一系列風(fēng)險(xiǎn)。特別是到2018年下半年，多家網(wǎng)絡(luò)借貸平臺(tái)集中爆雷，對(duì)行業(yè)聲譽(yù)造成了較大負(fù)面影響。如何對(duì)借款人的信用進(jìn)行評(píng)估[5-6]，成為規(guī)范社會(huì)和金融穩(wěn)定發(fā)展的關(guān)鍵問題。

眾多學(xué)者應(yīng)用機(jī)器學(xué)習(xí)的方法在信用評(píng)估領(lǐng)域作了許多深入研究。普雪飛[7]提出了一種P2P網(wǎng)貸信用風(fēng)險(xiǎn)量化評(píng)估模型，基于P2P平臺(tái)Lending Club的真實(shí)借款數(shù)據(jù)，利用邏輯回歸算法構(gòu)建借款人信用評(píng)估方法。劉瀟雅等[8]提出基于支持向量機(jī)集成的個(gè)人信用評(píng)估研究，該方法較單一SVM模型和傳統(tǒng)集成方法效能明顯提高。然而這些研究都是將國(guó)外數(shù)據(jù)集作為考察對(duì)象，并且采用的模型都是傳統(tǒng)的機(jī)器學(xué)習(xí)，難以擬合復(fù)雜多變的指標(biāo)，使得預(yù)測(cè)精確度不高。王冬一等[9]提出基于大數(shù)據(jù)技術(shù)的個(gè)人信用動(dòng)態(tài)評(píng)價(jià)指標(biāo)體系研究的方法，選擇較新的算法進(jìn)行實(shí)驗(yàn)，然而缺乏對(duì)多維度數(shù)據(jù)進(jìn)行算法的優(yōu)化整合和應(yīng)用對(duì)比。王重仁等[10]提出融合深度神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估方法，采用基于注意力機(jī)制的長(zhǎng)短期記憶(long short-term memory,LSTM)模型和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型2個(gè)子模型。吳斌等[11]展開對(duì)P2P網(wǎng)貸個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型研究，提出一種混合果繩神經(jīng)網(wǎng)絡(luò)的方法，有效提升了個(gè)人信用違約預(yù)測(cè)精確度。Song等[12]提出基于距離模型和自適應(yīng)聚類的多視角集成學(xué)習(xí)，并用于P2P借貸中不平衡信用風(fēng)險(xiǎn)評(píng)估，然而無法在準(zhǔn)確性和多樣性上做到很好的權(quán)衡。Akanmu等[13]提出一種基于提升決策樹模型的P2P借貸違約預(yù)測(cè)方法，在美國(guó)小企業(yè)管理局公開可用的貸款管理數(shù)據(jù)集上取得了非常好的擬合效果。Cai[14]基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸違約分析，利用SMOTE算法平衡借貸數(shù)據(jù)集，并應(yīng)用隨機(jī)森林和交叉驗(yàn)證對(duì)特征進(jìn)行選擇。馬春文等[15]基于隨機(jī)森林分類模型對(duì)P2P網(wǎng)貸借款標(biāo)的信用風(fēng)險(xiǎn)因子進(jìn)行研究。Liu等[16]提出一種粗糙集的方法進(jìn)行信用評(píng)估，盡管粗糙集模型的分類精度不如決策樹、邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型，但粗糙集模型更準(zhǔn)確地預(yù)測(cè)信用不良的用戶。盡管這些方法都取得了不錯(cuò)的識(shí)別率，但是由于結(jié)構(gòu)復(fù)雜，缺乏可解釋性，難以對(duì)具體指標(biāo)展開分析。

信用風(fēng)險(xiǎn)評(píng)估與預(yù)測(cè)涉及的指標(biāo)眾多，采用流行的Logistic回歸(logistic regression,LR)模型，其參數(shù)簡(jiǎn)單，難以擬合復(fù)雜多變的信用指標(biāo)。因此，針對(duì)借款人信用評(píng)估與預(yù)測(cè)問題，結(jié)合P2P平臺(tái)的特點(diǎn)，本文提出基于Logistic回歸[17]和Tabnet模型[18]的融合方法，對(duì)平臺(tái)借款人違約概率進(jìn)行預(yù)測(cè)。

1 LR與Tabnet模型

1.1 LR模型

LR是一種廣義線性回歸分析模型[19]，在二分類和多分類應(yīng)用廣泛。LR的輸出映射在0～1，而信用風(fēng)險(xiǎn)預(yù)測(cè)的概率值同樣在0～1。

根據(jù)是否違約，信用評(píng)估劃分為0和1兩類，一般地，0表示未違約，1表示違約。按照廣義線性回歸模型的思想，最理想的方法是在線性組合后，通過一個(gè)單位階躍函數(shù)將輸出結(jié)果映射到0或者1。但是這種單位階躍函數(shù)的導(dǎo)數(shù)性質(zhì)不好，不利于權(quán)重優(yōu)化，因此用其他可導(dǎo)函數(shù)形式來近似表示。sigmoid函數(shù)可以很好地近似單位階躍函數(shù)，而且其導(dǎo)數(shù)性質(zhì)非常好。sigmoid函數(shù)表達(dá)式為：

(1)

sigmoid函數(shù)的坐標(biāo)如圖1所示。

圖1 sigmoid函數(shù)坐標(biāo)圖Fig.1 A sigmoid graph

sigmoid函數(shù)求導(dǎo)結(jié)果即是關(guān)于自身的一個(gè)函數(shù)。

(2)

因此，LR模型可表示為

(3)

其對(duì)數(shù)似然函數(shù)為

(4)

由于概率值的非線性，該對(duì)數(shù)似然函數(shù)的最優(yōu)w值不能直接求解，于是采用梯度下降的方式求解，經(jīng)過多次迭代即可得到最優(yōu)參數(shù)w:

(5)

式(5)中：γ為學(xué)習(xí)率；J是損失函數(shù)。

1.2 Tabnet模型

金融領(lǐng)域存在不同的數(shù)據(jù)類型，其中使用最廣泛的是表列數(shù)據(jù)，它給金融行業(yè)帶來直接的商業(yè)價(jià)值。決策樹模型非常適合處理表格類型的數(shù)據(jù)。Tabnet的主體思想是用神經(jīng)網(wǎng)絡(luò)來表示樹模型，實(shí)驗(yàn)證明，Tabnet在處理表列數(shù)據(jù)的表現(xiàn)已經(jīng)超過了GBDT[20]。

Tabnet使用序列化的注意力機(jī)制來選擇在每個(gè)決策步驟中要推理的特征，從而學(xué)習(xí)得到最顯著的特征，實(shí)現(xiàn)可解釋性和更有效的學(xué)習(xí)。Tabnet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 Tabnet結(jié)構(gòu)Fig.2 A Tabnet architecture

由圖2可知Tabnet的具體流程：Tabnet給每個(gè)步驟傳入相同維度特征f∈RB×D，其中，B是批大小，D是特征維度；接著進(jìn)行Tabnet的編碼處理，共有多個(gè)步驟的決策，每步?jīng)Q策的輸入特征受前一步信息影響；然后輸出處理好的特征表征結(jié)果和單步預(yù)測(cè)向量；最后將特征表征結(jié)果相加得到全局特征重要性，預(yù)測(cè)向量多步累加經(jīng)過全連接層得到最終輸出，完成預(yù)測(cè)。

從結(jié)構(gòu)上看，Tabnet從左到右由多個(gè)步驟的子模塊組成，每個(gè)步驟關(guān)注不同層級(jí)的特征。單個(gè)步驟包含注意力機(jī)制變換器、特征變換器及一些輔助的運(yùn)算。注意力機(jī)制變換器的作用是輸出特征的掩碼，用于衡量每個(gè)特征的重要程度，而特征變換器的作用是特征的提取，生成對(duì)樣本屬性更有效的表征。

注意力機(jī)制變換器輸出一個(gè)掩碼來進(jìn)行特征選擇，其掩碼M[i]計(jì)算公式為

M[i]=sparsemax(P[i-1]·hi(a[i-1]))。

(6)

為了達(dá)到選擇特征掩碼的稀疏性，在損失函數(shù)上加了正則項(xiàng)Lsparse，其公式為

(7)

式(7)中：Nsteps是步驟數(shù)；B是批次的大??；D是特征維度。

特征變換器的作用是特征的提取，包括共享參數(shù)層和獨(dú)立決策層，共享參數(shù)層以步驟參數(shù)共享，獨(dú)立決策層參數(shù)只由該步驟訓(xùn)練得到。一般是兩層參數(shù)共享，兩層獨(dú)立決策，構(gòu)成都是批正則化加ReLU激活函數(shù)，融合殘差連接。掩碼與原始特征內(nèi)積通過特征變換器后在分割層進(jìn)行，其公式為

(8)

式(8)中：d[i]作為最終結(jié)果輸出；a[i]作為下一步注意力機(jī)制變換器的輸入。

最后是特征屬性的輸出，它刻畫的是特征的全局重要性。模型先對(duì)一個(gè)步驟的輸出向量求和，得到一個(gè)標(biāo)量，這個(gè)標(biāo)量反映了這個(gè)步驟對(duì)于最終結(jié)果的重要性，那么它乘以這個(gè)步驟的掩碼矩陣就反映了這個(gè)步驟中每個(gè)特征的重要性，將所有步驟的結(jié)果加起來，就得到了特征的全局重要性。

總體上，Tabnet是一種類似于加性模型的神經(jīng)網(wǎng)絡(luò)，它采用的是順序多步的框架，很好地將樹模型的可解釋性與深度神經(jīng)網(wǎng)絡(luò)的表征能力結(jié)合在了一起。

2 融合Logistic與Tabnet的網(wǎng)貸違約預(yù)測(cè)方法

LR是當(dāng)前智能金融使用最廣泛且比較成熟的信用評(píng)估方法，具有解釋性強(qiáng)、簡(jiǎn)單易于理解、穩(wěn)定性高等優(yōu)勢(shì)。然而，LR要求解釋變量和事件發(fā)生的概率是線性關(guān)系，因此很可能會(huì)出現(xiàn)欠擬合及預(yù)測(cè)的精確度下降的情況。相反，神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確度較高，但是缺乏解釋性，不能很好確定各變量之間的關(guān)系，并且穩(wěn)定性較差。

為了將LR與神經(jīng)網(wǎng)絡(luò)結(jié)合起來，既能展示LR的穩(wěn)定性和解釋性，又能運(yùn)用神經(jīng)網(wǎng)絡(luò)提高精確度，達(dá)到最優(yōu)的預(yù)測(cè)效果，本文提出了一種融合LR與Tabnet神經(jīng)網(wǎng)絡(luò)的算法。

該融合算法采用自頂向下的組合方式，將兩個(gè)單一的模型連接。具體地，首先，將Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征，同時(shí)Tabnet分析特征的重要性，剔除特征重要性為0的特征。其次，將二者結(jié)合作為L(zhǎng)R模型的輸入變量。Tabnet是神經(jīng)網(wǎng)絡(luò)模型，其分類效果較好。這樣既能保留LR模型的可解釋性和穩(wěn)定性，又能得到Tabnet神經(jīng)網(wǎng)絡(luò)模型的高精確度。融合分類方法的過程如下：

1)獲取數(shù)據(jù)集，得到數(shù)據(jù)集之后，分析數(shù)據(jù)集特點(diǎn)，對(duì)數(shù)據(jù)進(jìn)行清洗和加工預(yù)處理。

2)采用IV和Pearson方法進(jìn)行變量篩選，剔除大量冗余及分類相關(guān)性較低的特征。本實(shí)例經(jīng)過這個(gè)步驟篩選出16個(gè)解釋變量。

3)數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集，并構(gòu)建Tabnet模型。根據(jù)網(wǎng)格搜索法尋找最優(yōu)參數(shù)，設(shè)置好參數(shù)后，將訓(xùn)練數(shù)據(jù)輸入Tabnet進(jìn)行學(xué)習(xí)，Tabnet輸出的原始預(yù)測(cè)結(jié)果作為新的特征。

4)將Tabnet模型作為進(jìn)一步特征選擇的工具，通過分裂增益特征選擇，輸出每個(gè)特征的重要性值，對(duì)前期篩選的16個(gè)變量進(jìn)行特征選擇，剔除特征重要性為0的特征，加上Tabnet預(yù)測(cè)所構(gòu)造的新特征，得到新的數(shù)據(jù)集，最后將新的數(shù)據(jù)樣本用于Logistic回歸模型進(jìn)行分類訓(xùn)練，得到最終的預(yù)測(cè)模型。

5)將測(cè)試集數(shù)據(jù)用于該融合模型預(yù)測(cè)，根據(jù)模型評(píng)價(jià)指標(biāo)來分析模型的優(yōu)劣。

圖3為L(zhǎng)R與Tabnet模型融合訓(xùn)練過程的示意圖。

圖3 LR與Tabnet融合模型步驟Fig.3 Model fusion steps of LR and Tabnet

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)樣本

利用爬蟲技術(shù)獲取人人貸借款人的資料信息，爬取的時(shí)間是2010—2019年。共獲取滿標(biāo)數(shù)據(jù)共500 000余條，其中違約數(shù)據(jù)共4 000余條。隨機(jī)選取違約樣本2 000條?？紤]人人貸最長(zhǎng)的還款期限為36個(gè)月，也就是最晚2017年放貸的樣本，要在2019年底才可以觀察到借款人是否還清貸款，則違約樣本時(shí)間范圍在2010—2017年。因此，在2010—2017年采用隨機(jī)采樣的方式抽取樣本，共獲得樣本容量為24 000余條的樣本集，每個(gè)樣本的特征維度是41。剔除了一些無用的解釋變量，將一些變量進(jìn)行組合，對(duì)離散型變量使用標(biāo)簽進(jìn)行編碼，對(duì)連續(xù)型變量采用信息價(jià)值法和Pearson分析法進(jìn)行篩選，最后確定入模變量共16個(gè)，具體如表1所示。

表1 入模變量Table 1 Variables into the model

將數(shù)據(jù)集按照3∶1劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練集共18 000條，用作模型的訓(xùn)練；測(cè)試集共6 000條，隨機(jī)劃分為3等分，用作模型的效果評(píng)估。樣本數(shù)據(jù)劃分情況如表2所示。

表2 樣本集劃分情況Table 2 A sample set splitting 單位：個(gè)

為了提高收斂速度、模型的穩(wěn)定性和精確度，需要先對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，即將數(shù)據(jù)按照行、列或者其他屬性值減去其均值再除以其標(biāo)準(zhǔn)差，所得到的數(shù)據(jù)都聚集在0附近。

3.2 模型性能評(píng)價(jià)

本文評(píng)估指標(biāo)為準(zhǔn)確率、精確率。根據(jù)真實(shí)數(shù)據(jù)標(biāo)簽和模型預(yù)測(cè)標(biāo)簽組合，將結(jié)果分為以下4類：

1)真正例(TP)，該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是違約樣本實(shí)例。

2)假正例(FP)，該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后卻是違約樣本實(shí)例。

3)真反例(TN)，該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是未違約樣本實(shí)例。

4)假反例(FN)，該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后為未違約樣本實(shí)例。

3.3 基于融合模型的違約預(yù)測(cè)評(píng)估

本實(shí)驗(yàn)在操作系統(tǒng)為Window11、顯卡為GTX1650、內(nèi)存為32 GB的電腦上進(jìn)行模型搭建調(diào)試和訓(xùn)練，數(shù)據(jù)分析依賴python的pandas庫(kù)，邏輯回歸模型基于scikit-learn實(shí)現(xiàn)，Tabnet基于開源框架pytorch實(shí)現(xiàn)。

首先對(duì)單個(gè)Logistic回歸和Tabnet模型分別實(shí)驗(yàn)，然后對(duì)Tabnet-LR模型進(jìn)行實(shí)驗(yàn)，最后以acc和pr作為評(píng)價(jià)指標(biāo)，橫向比較多個(gè)常用的機(jī)器學(xué)習(xí)算法。

3.3.1 LR模型實(shí)驗(yàn)

LR作為本實(shí)驗(yàn)的預(yù)測(cè)模型，滿足本文研究預(yù)測(cè)風(fēng)險(xiǎn)的需要。將被解釋變量借款狀態(tài)1或0作為二分類變量，Y=0表示未違約，Y=1表示違約。前面確定了16個(gè)指標(biāo)作為解釋變量，使用scikit-learn 中的Logistic Regression建立本實(shí)驗(yàn)的Logistic回歸模型，通過scikit-learn的網(wǎng)格搜索法得到最優(yōu)超參數(shù)，具體超參數(shù)組合如表3所示。

表3 LR超參數(shù)值Table 3 LR hyper parameters

設(shè)定好超參數(shù)后，將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn)，得到最優(yōu)的Logistic回歸分類模型。

3.3.2 Tabnet模型實(shí)驗(yàn)

Tabnet模型是基于pytorch的Tabnet網(wǎng)絡(luò)，TabnetClassifier是Tabnet用于分類的函數(shù)庫(kù)，該網(wǎng)絡(luò)適用于二分類。使用scikit-learn的網(wǎng)格搜索最優(yōu)參數(shù)，各超參數(shù)的值是：max_epochs為50，即最大迭代次數(shù)是50；patience為10，即模型迭代10次，loss不降低，則提前停止訓(xùn)練；batch_size設(shè)為1 024；virtual_batch_size設(shè)為128；num_workers設(shè)為0；weights設(shè)1；drop_last設(shè)為False；其他為默認(rèn)超參數(shù)。設(shè)定好超參數(shù)后，將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn)，訓(xùn)練Tabnet模型。結(jié)合Tabnet模型類似于樹模型選擇最優(yōu)特征劃分的原理，輸出特征重要性，具體如圖4所示。

圖4 特征重要性Fig.4 Importances of features

3.3.3 LR-Tabnet融合模型實(shí)驗(yàn)

表4 LR回歸、Tabnet模型和LR-Tabnet模型評(píng)價(jià)結(jié)果Table 4 Evaluation results of LR regression,Tabnet model and Tablet-LR model

由表4可見，測(cè)試集1和測(cè)試集3中組合模型的預(yù)測(cè)準(zhǔn)確率均高于其他單個(gè)模型，組合模型的預(yù)測(cè)精確率在所有測(cè)試集上均優(yōu)于其他模型的。組合模型的精確度和準(zhǔn)確度明顯優(yōu)于LR模型，說明組合模型極大改善了LR模型的預(yù)測(cè)能力。在準(zhǔn)確率和精確率上，組合模型的標(biāo)準(zhǔn)差均低于其他模型的，說明組合模型有很好的穩(wěn)定性。

3.4 分類性能比較

經(jīng)典的機(jī)器學(xué)習(xí)的分類算法有KNN、SVM、樸素貝葉斯和決策樹。本文采用acc(準(zhǔn)確度)和pr(精確度)來評(píng)價(jià)預(yù)測(cè)算法的能力。每個(gè)模型均采用網(wǎng)格搜索法設(shè)定最優(yōu)的超參數(shù)。實(shí)驗(yàn)均采用5折交叉驗(yàn)證的方式選取最優(yōu)模型。各分類器的評(píng)估結(jié)果如表5所示。

表5 各算法的分類性能比較Table 5 Classification performance of algorithms compared 單位：%

由表5可見，LR-Tabnet模型在3個(gè)測(cè)試集上要優(yōu)于其他算法，其次是決策樹分類。特別是在測(cè)試集1和測(cè)試集3上，LR-Tabnet模型的精確率比樸素貝葉斯分類器的提升了近17%，說明該融合算法是有效的。

3.5 融合模型的可解釋性

在實(shí)際場(chǎng)景中，不僅要滿足模型的效果，通常還會(huì)分析特征對(duì)模型結(jié)果的影響，這對(duì)解決現(xiàn)實(shí)問題至關(guān)重要。使用python的statsmodels包查看LR中的重要參數(shù)。R-squread是自變量與因變量直接關(guān)聯(lián)強(qiáng)度的檢驗(yàn)參數(shù)，得到參數(shù)R-squared為0.95，接近于1，可知變量之間的關(guān)聯(lián)性很強(qiáng)，模型的擬合優(yōu)度好。

coef是每個(gè)變量的估計(jì)系數(shù)，P值表示變量在邏輯回歸中起到的作用。一般認(rèn)為，P值小于0.05的自變量是顯著的，統(tǒng)計(jì)表明，該變量會(huì)影響被解釋變量為1的概率(即借款人違約的概率)。[0.025,0.975]是回歸系數(shù)的置信區(qū)間的下限、上限，某個(gè)回歸系數(shù)的置信區(qū)間以 95%的置信度包含該回歸系數(shù)。

在融合模型中，Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征，同時(shí)Tabnet分析特征重要性，剔除特征重要性為0，最后輸入Logistic回歸模型中訓(xùn)練的7個(gè)變量，觀察這7個(gè)變量P值、std err、coef值等，結(jié)果如表6所示。

表6 變量特征權(quán)重表Table 6 Weights of variable features

由此得到各變量與最終借款狀態(tài)的關(guān)系：公司規(guī)模系數(shù)為負(fù)，說明公司規(guī)模與借款人違約呈負(fù)相關(guān)，即公司規(guī)模越大，違約概率越低；年利率和違約概率呈正相關(guān)，表明隨著年利率的增加，借款人負(fù)擔(dān)不起這么高的年利率，從而導(dǎo)致逾期；借款人還清的筆數(shù)越多，說明借款人的還款意愿越高，因此逾期的概率越低；逾期金額和逾期次數(shù)均與違約呈正相關(guān)，說明逾期的金額和逾期次數(shù)增加，借款人就會(huì)更難以還上借款；信用評(píng)分反映的是借款人的綜合信用，評(píng)分越高的借款人發(fā)生違約的概率越低。

4 結(jié)論

本文提出一種融合Logistic回歸與Tabnet模型的P2P網(wǎng)貸違約預(yù)測(cè)方法，在對(duì)采集到的人人貸數(shù)據(jù)進(jìn)行預(yù)處理后，將處理得到的數(shù)據(jù)運(yùn)用到LR-Tabnet模型中。針對(duì)傳統(tǒng)的單個(gè)機(jī)器學(xué)習(xí)識(shí)別分類問題存在的局限性，本文結(jié)合神經(jīng)網(wǎng)絡(luò)在處理大量樣本和高維度的人人貸數(shù)據(jù)仍具有很好學(xué)習(xí)能力的優(yōu)勢(shì)，通過模型組合的方式，對(duì)比單個(gè)模型的識(shí)別準(zhǔn)確率和精確率，識(shí)別率得到了較大提升。同時(shí)，不僅保留了LR的可解釋性和穩(wěn)定性，還提高了LR的識(shí)別率。融合模型在3個(gè)測(cè)試集上的平均識(shí)別準(zhǔn)確率和精確率分別是99.60%、96.72%，相比于其他2個(gè)單個(gè)模型，平均識(shí)別準(zhǔn)確率和精確率分別提升了0.88%、4.5%和0.02%、1.25%。

本文選取的人人貸平臺(tái)雖在P2P平臺(tái)中排名靠前，但也不能代表整個(gè)網(wǎng)貸平臺(tái)，每個(gè)網(wǎng)貸平臺(tái)的借款人維度有所不同，需要針對(duì)具體問題具體分析。再加上沒有考慮外部經(jīng)濟(jì)因素和環(huán)境因素比如2020年初的新冠病毒侵襲的影響，本研究還存在一定的局限性，今后將采用更靈活的特征篩選和模型構(gòu)建的方式作進(jìn)一步的研究。