亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合Logistic回歸與Tabnet模型的P2P網(wǎng)貸違約預(yù)測(cè)方法

        2022-09-08 09:40:34朱益冬陳玉明盧俊文曾念峰
        關(guān)鍵詞:借款人網(wǎng)貸神經(jīng)網(wǎng)絡(luò)

        朱益冬,陳玉明*,盧俊文,曾念峰

        (1.廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024;2.易成功(廈門)信息科技有限公司,福建 廈門 361024)

        隨著個(gè)人借貸需求的不斷增長(zhǎng),加上互聯(lián)網(wǎng)和金融的優(yōu)勢(shì)互補(bǔ)[1],P2P平臺(tái)[2-3]應(yīng)運(yùn)而生。2007年8月,中國(guó)第一個(gè)P2P網(wǎng)貸平臺(tái)拍拍貸誕生[4],此后P2P行業(yè)[5]進(jìn)入飛速發(fā)展階段。但網(wǎng)貸平臺(tái)的不規(guī)范經(jīng)營(yíng)給平臺(tái)機(jī)構(gòu)、融資者和投資者等帶來一系列風(fēng)險(xiǎn)。特別是到2018年下半年,多家網(wǎng)絡(luò)借貸平臺(tái)集中爆雷,對(duì)行業(yè)聲譽(yù)造成了較大負(fù)面影響。如何對(duì)借款人的信用進(jìn)行評(píng)估[5-6],成為規(guī)范社會(huì)和金融穩(wěn)定發(fā)展的關(guān)鍵問題。

        眾多學(xué)者應(yīng)用機(jī)器學(xué)習(xí)的方法在信用評(píng)估領(lǐng)域作了許多深入研究。普雪飛[7]提出了一種P2P網(wǎng)貸信用風(fēng)險(xiǎn)量化評(píng)估模型,基于P2P平臺(tái)Lending Club的真實(shí)借款數(shù)據(jù),利用邏輯回歸算法構(gòu)建借款人信用評(píng)估方法。劉瀟雅等[8]提出基于支持向量機(jī)集成的個(gè)人信用評(píng)估研究,該方法較單一SVM模型和傳統(tǒng)集成方法效能明顯提高。然而這些研究都是將國(guó)外數(shù)據(jù)集作為考察對(duì)象,并且采用的模型都是傳統(tǒng)的機(jī)器學(xué)習(xí),難以擬合復(fù)雜多變的指標(biāo),使得預(yù)測(cè)精確度不高。王冬一等[9]提出基于大數(shù)據(jù)技術(shù)的個(gè)人信用動(dòng)態(tài)評(píng)價(jià)指標(biāo)體系研究的方法,選擇較新的算法進(jìn)行實(shí)驗(yàn),然而缺乏對(duì)多維度數(shù)據(jù)進(jìn)行算法的優(yōu)化整合和應(yīng)用對(duì)比。王重仁等[10]提出融合深度神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估方法,采用基于注意力機(jī)制的長(zhǎng)短期記憶(long short-term memory,LSTM)模型和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型2個(gè)子模型。吳斌等[11]展開對(duì)P2P網(wǎng)貸個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型研究,提出一種混合果繩神經(jīng)網(wǎng)絡(luò)的方法,有效提升了個(gè)人信用違約預(yù)測(cè)精確度。Song等[12]提出基于距離模型和自適應(yīng)聚類的多視角集成學(xué)習(xí),并用于P2P借貸中不平衡信用風(fēng)險(xiǎn)評(píng)估,然而無法在準(zhǔn)確性和多樣性上做到很好的權(quán)衡。Akanmu等[13]提出一種基于提升決策樹模型的P2P借貸違約預(yù)測(cè)方法,在美國(guó)小企業(yè)管理局公開可用的貸款管理數(shù)據(jù)集上取得了非常好的擬合效果。Cai[14]基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸違約分析,利用SMOTE算法平衡借貸數(shù)據(jù)集,并應(yīng)用隨機(jī)森林和交叉驗(yàn)證對(duì)特征進(jìn)行選擇。馬春文等[15]基于隨機(jī)森林分類模型對(duì)P2P網(wǎng)貸借款標(biāo)的信用風(fēng)險(xiǎn)因子進(jìn)行研究。Liu等[16]提出一種粗糙集的方法進(jìn)行信用評(píng)估,盡管粗糙集模型的分類精度不如決策樹、邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型,但粗糙集模型更準(zhǔn)確地預(yù)測(cè)信用不良的用戶。盡管這些方法都取得了不錯(cuò)的識(shí)別率,但是由于結(jié)構(gòu)復(fù)雜,缺乏可解釋性,難以對(duì)具體指標(biāo)展開分析。

        信用風(fēng)險(xiǎn)評(píng)估與預(yù)測(cè)涉及的指標(biāo)眾多,采用流行的Logistic回歸(logistic regression,LR)模型,其參數(shù)簡(jiǎn)單,難以擬合復(fù)雜多變的信用指標(biāo)。因此,針對(duì)借款人信用評(píng)估與預(yù)測(cè)問題,結(jié)合P2P平臺(tái)的特點(diǎn),本文提出基于Logistic回歸[17]和Tabnet模型[18]的融合方法,對(duì)平臺(tái)借款人違約概率進(jìn)行預(yù)測(cè)。

        1 LR與Tabnet模型

        1.1 LR模型

        LR是一種廣義線性回歸分析模型[19],在二分類和多分類應(yīng)用廣泛。LR的輸出映射在0~1,而信用風(fēng)險(xiǎn)預(yù)測(cè)的概率值同樣在0~1。

        根據(jù)是否違約,信用評(píng)估劃分為0和1兩類,一般地,0表示未違約,1表示違約。按照廣義線性回歸模型的思想,最理想的方法是在線性組合后,通過一個(gè)單位階躍函數(shù)將輸出結(jié)果映射到0或者1。但是這種單位階躍函數(shù)的導(dǎo)數(shù)性質(zhì)不好,不利于權(quán)重優(yōu)化,因此用其他可導(dǎo)函數(shù)形式來近似表示。sigmoid函數(shù)可以很好地近似單位階躍函數(shù),而且其導(dǎo)數(shù)性質(zhì)非常好。sigmoid函數(shù)表達(dá)式為:

        (1)

        sigmoid函數(shù)的坐標(biāo)如圖1所示。

        圖1 sigmoid函數(shù)坐標(biāo)圖Fig.1 A sigmoid graph

        sigmoid函數(shù)求導(dǎo)結(jié)果即是關(guān)于自身的一個(gè)函數(shù)。

        (2)

        因此,LR模型可表示為

        (3)

        其對(duì)數(shù)似然函數(shù)為

        (4)

        由于概率值的非線性,該對(duì)數(shù)似然函數(shù)的最優(yōu)w值不能直接求解,于是采用梯度下降的方式求解,經(jīng)過多次迭代即可得到最優(yōu)參數(shù)w:

        (5)

        式(5)中:γ為學(xué)習(xí)率;J是損失函數(shù)。

        1.2 Tabnet模型

        金融領(lǐng)域存在不同的數(shù)據(jù)類型,其中使用最廣泛的是表列數(shù)據(jù),它給金融行業(yè)帶來直接的商業(yè)價(jià)值。決策樹模型非常適合處理表格類型的數(shù)據(jù)。Tabnet的主體思想是用神經(jīng)網(wǎng)絡(luò)來表示樹模型,實(shí)驗(yàn)證明,Tabnet在處理表列數(shù)據(jù)的表現(xiàn)已經(jīng)超過了GBDT[20]。

        Tabnet使用序列化的注意力機(jī)制來選擇在每個(gè)決策步驟中要推理的特征,從而學(xué)習(xí)得到最顯著的特征,實(shí)現(xiàn)可解釋性和更有效的學(xué)習(xí)。Tabnet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 Tabnet結(jié)構(gòu)Fig.2 A Tabnet architecture

        由圖2可知Tabnet的具體流程:Tabnet給每個(gè)步驟傳入相同維度特征f∈RB×D,其中,B是批大小,D是特征維度;接著進(jìn)行Tabnet的編碼處理,共有多個(gè)步驟的決策,每步?jīng)Q策的輸入特征受前一步信息影響;然后輸出處理好的特征表征結(jié)果和單步預(yù)測(cè)向量;最后將特征表征結(jié)果相加得到全局特征重要性,預(yù)測(cè)向量多步累加經(jīng)過全連接層得到最終輸出,完成預(yù)測(cè)。

        從結(jié)構(gòu)上看,Tabnet從左到右由多個(gè)步驟的子模塊組成,每個(gè)步驟關(guān)注不同層級(jí)的特征。單個(gè)步驟包含注意力機(jī)制變換器、特征變換器及一些輔助的運(yùn)算。注意力機(jī)制變換器的作用是輸出特征的掩碼,用于衡量每個(gè)特征的重要程度,而特征變換器的作用是特征的提取,生成對(duì)樣本屬性更有效的表征。

        注意力機(jī)制變換器輸出一個(gè)掩碼來進(jìn)行特征選擇,其掩碼M[i]計(jì)算公式為

        M[i]=sparsemax(P[i-1]·hi(a[i-1]))。

        (6)

        為了達(dá)到選擇特征掩碼的稀疏性,在損失函數(shù)上加了正則項(xiàng)Lsparse,其公式為

        (7)

        式(7)中:Nsteps是步驟數(shù);B是批次的大??;D是特征維度。

        特征變換器的作用是特征的提取,包括共享參數(shù)層和獨(dú)立決策層,共享參數(shù)層以步驟參數(shù)共享,獨(dú)立決策層參數(shù)只由該步驟訓(xùn)練得到。一般是兩層參數(shù)共享,兩層獨(dú)立決策,構(gòu)成都是批正則化加ReLU激活函數(shù),融合殘差連接。掩碼與原始特征內(nèi)積通過特征變換器后在分割層進(jìn)行,其公式為

        (8)

        式(8)中:d[i]作為最終結(jié)果輸出;a[i]作為下一步注意力機(jī)制變換器的輸入。

        最后是特征屬性的輸出,它刻畫的是特征的全局重要性。模型先對(duì)一個(gè)步驟的輸出向量求和,得到一個(gè)標(biāo)量,這個(gè)標(biāo)量反映了這個(gè)步驟對(duì)于最終結(jié)果的重要性,那么它乘以這個(gè)步驟的掩碼矩陣就反映了這個(gè)步驟中每個(gè)特征的重要性,將所有步驟的結(jié)果加起來,就得到了特征的全局重要性。

        總體上,Tabnet是一種類似于加性模型的神經(jīng)網(wǎng)絡(luò),它采用的是順序多步的框架,很好地將樹模型的可解釋性與深度神經(jīng)網(wǎng)絡(luò)的表征能力結(jié)合在了一起。

        2 融合Logistic與Tabnet的網(wǎng)貸違約預(yù)測(cè)方法

        LR是當(dāng)前智能金融使用最廣泛且比較成熟的信用評(píng)估方法,具有解釋性強(qiáng)、簡(jiǎn)單易于理解、穩(wěn)定性高等優(yōu)勢(shì)。然而,LR要求解釋變量和事件發(fā)生的概率是線性關(guān)系,因此很可能會(huì)出現(xiàn)欠擬合及預(yù)測(cè)的精確度下降的情況。相反,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確度較高,但是缺乏解釋性,不能很好確定各變量之間的關(guān)系,并且穩(wěn)定性較差。

        為了將LR與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,既能展示LR的穩(wěn)定性和解釋性,又能運(yùn)用神經(jīng)網(wǎng)絡(luò)提高精確度,達(dá)到最優(yōu)的預(yù)測(cè)效果,本文提出了一種融合LR與Tabnet神經(jīng)網(wǎng)絡(luò)的算法。

        該融合算法采用自頂向下的組合方式,將兩個(gè)單一的模型連接。具體地,首先,將Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征,同時(shí)Tabnet分析特征的重要性,剔除特征重要性為0的特征。其次,將二者結(jié)合作為L(zhǎng)R模型的輸入變量。Tabnet是神經(jīng)網(wǎng)絡(luò)模型,其分類效果較好。這樣既能保留LR模型的可解釋性和穩(wěn)定性,又能得到Tabnet神經(jīng)網(wǎng)絡(luò)模型的高精確度。融合分類方法的過程如下:

        1)獲取數(shù)據(jù)集,得到數(shù)據(jù)集之后,分析數(shù)據(jù)集特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行清洗和加工預(yù)處理。

        2)采用IV和Pearson方法進(jìn)行變量篩選,剔除大量冗余及分類相關(guān)性較低的特征。本實(shí)例經(jīng)過這個(gè)步驟篩選出16個(gè)解釋變量。

        3)數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集,并構(gòu)建Tabnet模型。根據(jù)網(wǎng)格搜索法尋找最優(yōu)參數(shù),設(shè)置好參數(shù)后,將訓(xùn)練數(shù)據(jù)輸入Tabnet進(jìn)行學(xué)習(xí),Tabnet輸出的原始預(yù)測(cè)結(jié)果作為新的特征。

        4)將Tabnet模型作為進(jìn)一步特征選擇的工具,通過分裂增益特征選擇,輸出每個(gè)特征的重要性值,對(duì)前期篩選的16個(gè)變量進(jìn)行特征選擇,剔除特征重要性為0的特征,加上Tabnet預(yù)測(cè)所構(gòu)造的新特征,得到新的數(shù)據(jù)集,最后將新的數(shù)據(jù)樣本用于Logistic回歸模型進(jìn)行分類訓(xùn)練,得到最終的預(yù)測(cè)模型。

        5)將測(cè)試集數(shù)據(jù)用于該融合模型預(yù)測(cè),根據(jù)模型評(píng)價(jià)指標(biāo)來分析模型的優(yōu)劣。

        圖3為L(zhǎng)R與Tabnet模型融合訓(xùn)練過程的示意圖。

        圖3 LR與Tabnet融合模型步驟Fig.3 Model fusion steps of LR and Tabnet

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)樣本

        利用爬蟲技術(shù)獲取人人貸借款人的資料信息,爬取的時(shí)間是2010—2019年。共獲取滿標(biāo)數(shù)據(jù)共500 000余條,其中違約數(shù)據(jù)共4 000余條。隨機(jī)選取違約樣本2 000條??紤]人人貸最長(zhǎng)的還款期限為36個(gè)月,也就是最晚2017年放貸的樣本,要在2019年底才可以觀察到借款人是否還清貸款,則違約樣本時(shí)間范圍在2010—2017年。因此,在2010—2017年采用隨機(jī)采樣的方式抽取樣本,共獲得樣本容量為24 000余條的樣本集,每個(gè)樣本的特征維度是41。剔除了一些無用的解釋變量,將一些變量進(jìn)行組合,對(duì)離散型變量使用標(biāo)簽進(jìn)行編碼,對(duì)連續(xù)型變量采用信息價(jià)值法和Pearson分析法進(jìn)行篩選,最后確定入模變量共16個(gè),具體如表1所示。

        表1 入模變量Table 1 Variables into the model

        將數(shù)據(jù)集按照3∶1劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練集共18 000條,用作模型的訓(xùn)練;測(cè)試集共6 000條,隨機(jī)劃分為3等分,用作模型的效果評(píng)估。樣本數(shù)據(jù)劃分情況如表2所示。

        表2 樣本集劃分情況Table 2 A sample set splitting 單位:個(gè)

        為了提高收斂速度、模型的穩(wěn)定性和精確度,需要先對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即將數(shù)據(jù)按照行、列或者其他屬性值減去其均值再除以其標(biāo)準(zhǔn)差,所得到的數(shù)據(jù)都聚集在0附近。

        3.2 模型性能評(píng)價(jià)

        本文評(píng)估指標(biāo)為準(zhǔn)確率、精確率。根據(jù)真實(shí)數(shù)據(jù)標(biāo)簽和模型預(yù)測(cè)標(biāo)簽組合,將結(jié)果分為以下4類:

        1)真正例(TP),該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是違約樣本實(shí)例。

        2)假正例(FP),該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后卻是違約樣本實(shí)例。

        3)真反例(TN),該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是未違約樣本實(shí)例。

        4)假反例(FN),該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后為未違約樣本實(shí)例。

        3.3 基于融合模型的違約預(yù)測(cè)評(píng)估

        本實(shí)驗(yàn)在操作系統(tǒng)為Window11、顯卡為GTX1650、內(nèi)存為32 GB的電腦上進(jìn)行模型搭建調(diào)試和訓(xùn)練,數(shù)據(jù)分析依賴python的pandas庫(kù),邏輯回歸模型基于scikit-learn實(shí)現(xiàn),Tabnet基于開源框架pytorch實(shí)現(xiàn)。

        首先對(duì)單個(gè)Logistic回歸和Tabnet模型分別實(shí)驗(yàn),然后對(duì)Tabnet-LR模型進(jìn)行實(shí)驗(yàn),最后以acc和pr作為評(píng)價(jià)指標(biāo),橫向比較多個(gè)常用的機(jī)器學(xué)習(xí)算法。

        3.3.1 LR模型實(shí)驗(yàn)

        LR作為本實(shí)驗(yàn)的預(yù)測(cè)模型,滿足本文研究預(yù)測(cè)風(fēng)險(xiǎn)的需要。將被解釋變量借款狀態(tài)1或0作為二分類變量,Y=0表示未違約,Y=1表示違約。前面確定了16個(gè)指標(biāo)作為解釋變量,使用scikit-learn 中的Logistic Regression建立本實(shí)驗(yàn)的Logistic回歸模型,通過scikit-learn的網(wǎng)格搜索法得到最優(yōu)超參數(shù),具體超參數(shù)組合如表3所示。

        表3 LR超參數(shù)值Table 3 LR hyper parameters

        設(shè)定好超參數(shù)后,將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn),得到最優(yōu)的Logistic回歸分類模型。

        3.3.2 Tabnet模型實(shí)驗(yàn)

        Tabnet模型是基于pytorch的Tabnet網(wǎng)絡(luò),TabnetClassifier是Tabnet用于分類的函數(shù)庫(kù),該網(wǎng)絡(luò)適用于二分類。使用scikit-learn的網(wǎng)格搜索最優(yōu)參數(shù),各超參數(shù)的值是:max_epochs為50,即最大迭代次數(shù)是50;patience為10,即模型迭代10次,loss不降低,則提前停止訓(xùn)練;batch_size設(shè)為1 024;virtual_batch_size設(shè)為128;num_workers設(shè)為0;weights設(shè)1;drop_last設(shè)為False;其他為默認(rèn)超參數(shù)。設(shè)定好超參數(shù)后,將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn),訓(xùn)練Tabnet模型。結(jié)合Tabnet模型類似于樹模型選擇最優(yōu)特征劃分的原理,輸出特征重要性,具體如圖4所示。

        圖4 特征重要性Fig.4 Importances of features

        3.3.3 LR-Tabnet融合模型實(shí)驗(yàn)

        表4 LR回歸、Tabnet模型和LR-Tabnet模型評(píng)價(jià)結(jié)果Table 4 Evaluation results of LR regression,Tabnet model and Tablet-LR model

        由表4可見,測(cè)試集1和測(cè)試集3中組合模型的預(yù)測(cè)準(zhǔn)確率均高于其他單個(gè)模型,組合模型的預(yù)測(cè)精確率在所有測(cè)試集上均優(yōu)于其他模型的。組合模型的精確度和準(zhǔn)確度明顯優(yōu)于LR模型,說明組合模型極大改善了LR模型的預(yù)測(cè)能力。在準(zhǔn)確率和精確率上,組合模型的標(biāo)準(zhǔn)差均低于其他模型的,說明組合模型有很好的穩(wěn)定性。

        3.4 分類性能比較

        經(jīng)典的機(jī)器學(xué)習(xí)的分類算法有KNN、SVM、樸素貝葉斯和決策樹。本文采用acc(準(zhǔn)確度)和pr(精確度)來評(píng)價(jià)預(yù)測(cè)算法的能力。每個(gè)模型均采用網(wǎng)格搜索法設(shè)定最優(yōu)的超參數(shù)。實(shí)驗(yàn)均采用5折交叉驗(yàn)證的方式選取最優(yōu)模型。各分類器的評(píng)估結(jié)果如表5所示。

        表5 各算法的分類性能比較Table 5 Classification performance of algorithms compared 單位:%

        由表5可見,LR-Tabnet模型在3個(gè)測(cè)試集上要優(yōu)于其他算法,其次是決策樹分類。特別是在測(cè)試集1和測(cè)試集3上,LR-Tabnet模型的精確率比樸素貝葉斯分類器的提升了近17%,說明該融合算法是有效的。

        3.5 融合模型的可解釋性

        在實(shí)際場(chǎng)景中,不僅要滿足模型的效果,通常還會(huì)分析特征對(duì)模型結(jié)果的影響,這對(duì)解決現(xiàn)實(shí)問題至關(guān)重要。使用python的statsmodels包查看LR中的重要參數(shù)。R-squread是自變量與因變量直接關(guān)聯(lián)強(qiáng)度的檢驗(yàn)參數(shù),得到參數(shù)R-squared為0.95,接近于1,可知變量之間的關(guān)聯(lián)性很強(qiáng),模型的擬合優(yōu)度好。

        coef是每個(gè)變量的估計(jì)系數(shù),P值表示變量在邏輯回歸中起到的作用。一般認(rèn)為,P值小于0.05的自變量是顯著的,統(tǒng)計(jì)表明,該變量會(huì)影響被解釋變量為1的概率(即借款人違約的概率)。[0.025,0.975]是回歸系數(shù)的置信區(qū)間的下限、上限,某個(gè)回歸系數(shù)的置信區(qū)間以 95%的置信度包含該回歸系數(shù)。

        在融合模型中,Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征,同時(shí)Tabnet分析特征重要性,剔除特征重要性為0,最后輸入Logistic回歸模型中訓(xùn)練的7個(gè)變量,觀察這7個(gè)變量P值、std err、coef值等,結(jié)果如表6所示。

        表6 變量特征權(quán)重表Table 6 Weights of variable features

        由此得到各變量與最終借款狀態(tài)的關(guān)系:公司規(guī)模系數(shù)為負(fù),說明公司規(guī)模與借款人違約呈負(fù)相關(guān),即公司規(guī)模越大,違約概率越低;年利率和違約概率呈正相關(guān),表明隨著年利率的增加,借款人負(fù)擔(dān)不起這么高的年利率,從而導(dǎo)致逾期;借款人還清的筆數(shù)越多,說明借款人的還款意愿越高,因此逾期的概率越低;逾期金額和逾期次數(shù)均與違約呈正相關(guān),說明逾期的金額和逾期次數(shù)增加,借款人就會(huì)更難以還上借款;信用評(píng)分反映的是借款人的綜合信用,評(píng)分越高的借款人發(fā)生違約的概率越低。

        4 結(jié)論

        本文提出一種融合Logistic回歸與Tabnet模型的P2P網(wǎng)貸違約預(yù)測(cè)方法,在對(duì)采集到的人人貸數(shù)據(jù)進(jìn)行預(yù)處理后,將處理得到的數(shù)據(jù)運(yùn)用到LR-Tabnet模型中。針對(duì)傳統(tǒng)的單個(gè)機(jī)器學(xué)習(xí)識(shí)別分類問題存在的局限性,本文結(jié)合神經(jīng)網(wǎng)絡(luò)在處理大量樣本和高維度的人人貸數(shù)據(jù)仍具有很好學(xué)習(xí)能力的優(yōu)勢(shì),通過模型組合的方式,對(duì)比單個(gè)模型的識(shí)別準(zhǔn)確率和精確率,識(shí)別率得到了較大提升。同時(shí),不僅保留了LR的可解釋性和穩(wěn)定性,還提高了LR的識(shí)別率。融合模型在3個(gè)測(cè)試集上的平均識(shí)別準(zhǔn)確率和精確率分別是99.60%、96.72%,相比于其他2個(gè)單個(gè)模型,平均識(shí)別準(zhǔn)確率和精確率分別提升了0.88%、4.5%和0.02%、1.25%。

        本文選取的人人貸平臺(tái)雖在P2P平臺(tái)中排名靠前,但也不能代表整個(gè)網(wǎng)貸平臺(tái),每個(gè)網(wǎng)貸平臺(tái)的借款人維度有所不同,需要針對(duì)具體問題具體分析。再加上沒有考慮外部經(jīng)濟(jì)因素和環(huán)境因素比如2020年初的新冠病毒侵襲的影響,本研究還存在一定的局限性,今后將采用更靈活的特征篩選和模型構(gòu)建的方式作進(jìn)一步的研究。

        猜你喜歡
        借款人網(wǎng)貸神經(jīng)網(wǎng)絡(luò)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        P2P網(wǎng)貸中的消費(fèi)者權(quán)益保護(hù)
        鄉(xiāng)城流動(dòng)借款人信用風(fēng)險(xiǎn)與空間收入差異決定
        小微企業(yè)借款人
        網(wǎng)貸平臺(tái)未來亟需轉(zhuǎn)型
        商周刊(2017年17期)2017-09-08 13:08:58
        網(wǎng)貸十年:迎來“去偽存真” 時(shí)代
        商周刊(2017年17期)2017-09-08 13:08:58
        商業(yè)銀行對(duì)借貸人貸后監(jiān)控與風(fēng)險(xiǎn)治理
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        中國(guó)網(wǎng)貸地圖
        亚洲中文字幕永久网站| 国产va在线观看免费| 无限看片在线版免费视频大全| 538亚洲欧美国产日韩在线精品 | 国产国产人免费人成免费视频| 失禁大喷潮在线播放| 日韩在线精品在线观看| 在线亚洲精品中文字幕美乳色| 欧美怡春院一区二区三区| 亚洲产国偷v产偷v自拍色戒| 久久精品视频91| 久久精品国产亚洲av夜夜| 一本大道av伊人久久综合| 午夜亚洲av永久无码精品| 亚洲VA欧美VA国产VA综合| 国语对白自拍视频在线播放| 天堂在线资源中文在线8| 色婷婷综合中文久久一本| 99精品国产第一福利网站| 亚洲天堂一区二区三区| 好大好湿好硬顶到了好爽视频| 八戒网站免费观看视频| 波多野无码AV中文专区 | 99久久亚洲精品无码毛片| 国内精品久久久久国产盗摄 | 日本少妇一区二区三区四区| 人妻哺乳奶头奶水| 久久综合网天天 | 日本高清人妻一区二区| 五月天激情电影| 中文字幕人妻中文av不卡专区| 中文字幕亚洲精品人妻| 国产一区二区三区在线观看第八页| 国产精成人品日日拍夜夜免费| 中文字幕在线日韩| 国产av麻豆精品第一页| 人妻少妇精品无码专区| 亚洲h视频| 久久熟女精品—区二区蜜臀| 久久精品成人一区二区三区 | 亚洲av无码国产精品永久一区|