亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于寬深學習的P2P借款人違約風險預測

        2023-07-07 03:10:06張?zhí)覍?/span>梁雪春
        計算機應用與軟件 2023年6期
        關(guān)鍵詞:特征模型

        張?zhí)覍?梁雪春

        (南京工業(yè)大學電氣工程與控制科學學院 江蘇 南京 211816)

        0 引 言

        P2P借貸市場是基于互聯(lián)網(wǎng)的交易平臺。相較于傳統(tǒng)金融交易平臺,其交易成本更低、貸款更便利[1-2]。隨著我國對P2P的監(jiān)管力度不斷加深,P2P產(chǎn)業(yè)告別了野蠻式發(fā)展,平臺逐漸朝著健康發(fā)展的道路轉(zhuǎn)型[3]。然而,平臺與投資者之間仍然存在信息不對稱的問題,投資者易投資遭受損失,平臺也會因過多的不良貸款而逐漸失去投資人的信任[4]。從長遠來看,提高不良貸款的識別率、降低投資風險,對平臺方和投資者來說都非常必要。

        章雷等[5]認為增大數(shù)據(jù)量可以減輕信息不對稱所帶來的影響,更大的數(shù)據(jù)量能更好地評估借款人資質(zhì)。不平衡數(shù)據(jù)少數(shù)類存在分類精度較低的問題,增大數(shù)據(jù)量可以避免因欠采樣而導致模型過擬合[6]。通過獲取大量的借款人信息數(shù)據(jù),挖掘借款人信息與貸款違約的關(guān)聯(lián)性可以使投資者制定更加合理的投資策略,降低投資風險。在國內(nèi)P2P風險預測研究中,譚中明等[7]使用人人貸數(shù)據(jù),采集了約900個樣本,12個特征。張衛(wèi)國等[8]也采用人人貸數(shù)據(jù),共采集了1 500個樣本,有17個特征。謝雪梅等[9]從人人貸和拍拍貸上選取了共約65 000個樣本進行預測??梢钥吹?由于國內(nèi)大多數(shù)平臺不會公布其歷史借款人信息,研究者收集到的數(shù)據(jù)集的數(shù)據(jù)量較少,且格式不統(tǒng)一,不利于模型的比較分析。本文選用目前全球最大的P2P平臺Lending Club官方公開的借款人信息數(shù)據(jù)集,具有時間跨度大、數(shù)據(jù)量大和數(shù)據(jù)特征豐富的優(yōu)勢,也是近年來在P2P借貸違約預測和風險評估領(lǐng)域內(nèi)研究者們較為青睞的數(shù)據(jù)集,具有一定的基準性[10-12]。

        國內(nèi)外學者對借款人違約風險預測模型進行了許多研究,Teply等[13]基于Lending Club數(shù)據(jù)集,對比了10種主流分類算法的性能,其中邏輯回歸、神經(jīng)網(wǎng)絡(luò)和線性判別分析在分類任務中性能較好。Wang等[14]對P2P網(wǎng)貸數(shù)據(jù)進行了特征的相關(guān)分析,研究表明,在特征數(shù)量(158個)較大的情況下,邏輯回歸分類準確率最高。吳艇帆[15]對邏輯回歸分類器進行了改進,使用基于L1正則化的邏輯回歸模型進行P2P借款人風險測度,提升了預測的準確性。Guo[16]使用BP神經(jīng)網(wǎng)絡(luò)作為貸款的風險評估算法,通過比較后得出,基于BP神經(jīng)網(wǎng)絡(luò)的算法優(yōu)于傳統(tǒng)的Logistic回歸算法。上述研究表明,邏輯回歸和神經(jīng)網(wǎng)絡(luò)在借款人違約預測的應用中都能取得較好的結(jié)果。谷歌公司Cheng等[17]提出了應用于推薦系統(tǒng)的寬深度學習模型,該模型結(jié)合了寬模型(即邏輯回歸模型)記憶性強和深模型泛化能力強的優(yōu)點。本文采用寬深度學習模型對P2P借款人違約概率進行預測,但由于推薦系統(tǒng)數(shù)據(jù)集與借款人信用數(shù)據(jù)集有明顯區(qū)別,借款人信用數(shù)據(jù)集的類別型特征維數(shù)較低且原始模型沒有加入數(shù)值型特征。因此需要改善模型嵌入層的輸入并加入數(shù)值型特征。最后在數(shù)據(jù)量大、特征數(shù)多的真實借款人信息數(shù)據(jù)集上驗證該模型的預測性能。

        1 模型介紹

        1.1 寬模型

        寬模型部分選用的是廣義線性模型,即大規(guī)模分類問題中常見的邏輯回歸模型[14]。寬模型能夠更好地捕捉特征之間的相關(guān)信息,具有良好的記憶性。設(shè)模型的輸出為y,y是一個0到1之間的概率值,表示借款人的違約概率,y越接近1表示違約概率越大。計算借款人違約概率的公式為:

        y=σ(z)

        (1)

        (2)

        式中:zwide表示寬模型的輸出;σ(·)為Sigmoid函數(shù);借款人違約風險預測問題是一個二分類問題,標簽為1的樣本為違約樣本,標簽為0的樣本為非違約樣本,故采用二分類任務中常用的Sigmoid函數(shù)將模型的輸出轉(zhuǎn)換為0到1之間的概率值,最后將違約概率大于0.5的樣本預測為違約樣本。寬模型預測的借款人違約概率為y=σ(zwide),zwide計算方法如下:

        (3)

        式中:x=[x1,x2,…,xn]為特征向量;wwide=[w1,w2,…,wn]為模型權(quán)重;bwide為偏置。

        組合特征不僅能獲取類別型特征之間的交互信息,而且能用線性模型學習非線性信息,提高模型的泛化性。寬模型的輸入除了原始類別型特征之外還需增加組合特征。對于借款人數(shù)據(jù)集,特征向量x包括數(shù)值型特征和類別型特征,即x=[xnum,xcat]。為豐富寬度模型的輸入,可以利用類別型特征xcat構(gòu)造組合特征φ(xcat),組合特征定義如下:

        (4)

        式中:xcat表示所有原始的類別型特征,xi為單個類別型特征,xi∈xcat;d是組合特征的個數(shù);cki是一個布爾型的變量,cki=1表示第i個原始特征xi參與了第k個組合特征φk的特征交叉。如特征“性別”={男,女}與特征“職業(yè)”={老師,學生}可以交叉組合成“新特征”={(男,老師),(女,老師),(男,學生),(女,學生)}。加入組合特征φ(xcat)后,式(2)改寫為:

        (5)

        式中:φ(xcat)=[φ1(xcat),φ2(xcat),…,φd(xcat)]為新增的d個組合特征。寬模型的結(jié)構(gòu)如圖1所示。

        圖1 寬模型結(jié)構(gòu)

        1.2 深模型

        深模型部分是前饋神經(jīng)網(wǎng)絡(luò)[16]。深模型的輸入包括數(shù)值型特征xnum、類別型特征xcat與組合特征φ(xcat)。其中,對于原始類別型特征和組合特征這類稀疏特征,需要將其映射為稠密實值向量。用embed(x,k)表示將類別型特征x映射為k維的嵌入向量,則深模型的嵌入向量為:

        xemb=[embed(xcat,k1),embed(φ(xcat),k2)]

        (6)

        式中:k1、k2表示映射后的維度。原始類別型特征因其本身的維度較低,映射后的嵌入向量要比組合特征的嵌入向量維數(shù)更低,即k1

        數(shù)值型特征xnum與映射后的嵌入向量xemb拼接后作為神經(jīng)網(wǎng)絡(luò)的輸入接入第一層隱藏層,則第一層隱藏層的輸出z(1)為:

        z(1)=f(W(1)[xnum,xemb]+b(1))

        (7)

        其余各層隱藏層的輸出如下:

        z(l+1)=f(W(l)z(l)+b(l))

        (8)

        式中:l為當前隱藏層層數(shù);z(l)、b(l)與W(l)是第l層的輸出、偏置及權(quán)重;f為激活函數(shù),此處為線性整流函數(shù)(Rectified Linear Units, ReLU)。ReLU激活函數(shù)公式如下:

        f(x)=max(0,x)

        (9)

        設(shè)深模型共有L層隱藏層,則最后一層隱藏層的輸出為z(L),利用式(1)計算違約概率。對于深模型,式(1)中的z=zdeep。

        (10)

        式中:wwide與bwide為深模型輸出層的權(quán)重和偏置。深模型結(jié)構(gòu)如圖2所示。

        圖2 深模型結(jié)構(gòu)

        1.3 寬深模型

        寬深模型由寬模型和深模型共同組成[17],采用邏輯回歸損失函數(shù)來進行聯(lián)合訓練。此處寬度部分和深度部分的模型是聯(lián)合訓練,而非組合模型訓練。組合模型在訓練過程中,兩模型獨立訓練,分別優(yōu)化其參數(shù),損失函數(shù)也獨立。而在聯(lián)合訓練中,寬深度部分共享一個損失函數(shù),在訓練過程中同時優(yōu)化兩模型的參數(shù)。對于預測借款人違約概率的二分類問題,將寬模型和深模型的輸出之和輸入至式(1)計算得到違約概率:

        y=σ(zwide+zdeep)

        (11)

        式中:zwide和zdeep分別由式(5)和式(10)給出;σ(·)為Sigmoid函數(shù),由式(2)給出。

        為了避免過擬合,增強模型的魯棒性,本文在寬模型和深模型的輸出層加入dropout隨機失活層[18],設(shè)定一個概率p,對輸出層的每個輸出都以概率p來判定是否保留該輸出,將式(5)改進為:

        (12)

        式中:⊙表示兩向量對應元素相乘;r=[r1,r2,…,rn],n的大小與[x,φ(xcat)]的維度一致;ri∈{0,1}通過以概率為p的伯努利分布隨機生成。

        同理,將式(10)改進為:

        (13)

        同時,為了提高精度并加快訓練速度,避免模型過于關(guān)注取值較大的特征,在特征輸入隱藏層之前需要對數(shù)值型特征進行標準化,本文采用Z-Score標準化,標準化公式如下:

        (14)

        式中:μ和σ為數(shù)值型特征的均值和標準差。

        本文提出的寬深模型針對借款人數(shù)據(jù)的特點加入了數(shù)值型特征,更充分地利用嵌入層對數(shù)據(jù)進行壓縮和降維,豐富了模型的輸入的同時,擴展了模型的適用性。寬深模型結(jié)構(gòu)如圖3所示。

        圖3 寬深模型結(jié)構(gòu)

        2 數(shù)據(jù)預處理

        2.1 數(shù)據(jù)集

        實驗選用目前全球最大的P2P平臺LendingClub的借款人信息數(shù)據(jù)集。選用的數(shù)據(jù)時間范圍跨度從2016年至2019年,共約190萬個樣本。原始借款人數(shù)據(jù)集共有144個特征,其中以“l(fā)oan-status”(貸款狀態(tài))項作為判斷借款人是否違約的目標標簽,由于還款時限和貸款策略的不同,存在貸款狀態(tài)未完結(jié)的樣本,需要剔除掉這部分無效樣本??梢钥吹?年份越近,有效樣本數(shù)越少,剔除掉無效樣本后,剩下約90萬條有效樣本,違約率表示違約樣本數(shù)占有效樣本數(shù)的比例,數(shù)據(jù)集相關(guān)信息如表1所示。

        表1 Lending Club數(shù)據(jù)集信息

        2.2 缺失值處理

        由于原始數(shù)據(jù)集的缺失值較多,且存在部分取值為字符串型的類別型特征,無法直接應用到模型訓練中。因此需要對數(shù)據(jù)集進行基本的數(shù)據(jù)預處理工作。

        首先刪除缺失值占比超過15%的特征,由于缺失值數(shù)目過多,這些特征對模型訓練幫助有限。其次對于缺失值占比小于5%的特征,刪除掉有缺失值的樣本。剩下缺失值占比為5%~15%的特征中,對于特征取值分布符合正態(tài)分布的數(shù)值型特征用均值填補缺失值,其余特征用0值填充。對于類別型特征,缺失值用出現(xiàn)頻率最高的特征值填充。

        2.3 剔除冗余特征

        刪除相關(guān)度高的特征,如“funded_amnt” (申請貸款金額)和“funded_amnt_inv” (實發(fā)貸款金額)特征。該數(shù)據(jù)集中借款人的貸款申請都得到了通過,因此這兩項特征的取值高度一致。

        刪除特征取值頻率高于98%的特征,例如對于“policy_code”(是否公開信息)特征,取值為“1”的樣本占比高達99%。

        2.4 特征工程

        數(shù)據(jù)預處理完成后,將特征分為類別型特征和數(shù)值型特征分別進行簡單的特征工程。對于類別型特征,對其進行獨熱向量編碼,將一維類別型變量映射成多維的取值為0或1的特征。對于數(shù)值型特征,對其進行標準化。

        最后將預處理完畢后的特征匯總成新的數(shù)據(jù)集。數(shù)據(jù)預處理部分的流程如圖4所示。

        圖4 數(shù)據(jù)預處理流程

        3 實驗與結(jié)果分析

        3.1 實驗環(huán)境和模型參數(shù)

        實驗環(huán)境為Chromium OS 9.0, Intel(R) Xeon(R) CPU @ 2.30 GHz, 8 GB內(nèi)存, Tesla K80 12 GB GPU顯存, Python3.7, TensorFlow 2.2.0。在完成數(shù)據(jù)預處理后搭建訓練模型。實驗使用TensorFlow深度學習框架搭建模型。深度部分由兩層隱藏層組成,結(jié)點數(shù)分別為64和32。使用Adam優(yōu)化器優(yōu)化交叉熵損失函數(shù),學習率為10-4,迭代輪次為10,每批數(shù)據(jù)有2 048個樣本。

        3.2 評價指標

        本文采用召回率、精確率和準確率等指標衡量模型性能。正例表示違約樣本,負例表示非違約樣本。TP表示實際是正例,預測為正例的樣本數(shù);FP表示實際為負例,預測為正例的樣本數(shù);TN表示實際為負例,預測為負例的樣本數(shù);FN表示實際為正例,預測為負例的樣本數(shù)。

        召回率為模型找到的違約樣本數(shù)與實際違約樣本數(shù)的比例,其定義如下:

        (15)

        精確率為模型找到的違約樣本數(shù)與預測違約樣本數(shù)的比例,其定義如下:

        (16)

        準確率的定義如下:

        (17)

        F1-score的定義如下:

        (18)

        3.3 結(jié)果分析

        由于數(shù)據(jù)集特征數(shù)量較大,表2僅給出前文提到的和少數(shù)新增的包含部分特征的樣本樣例表。

        表2 包含部分特征的樣本樣例表

        表3 不同訓練集下3個模型的性能對比

        為了驗證數(shù)據(jù)集大小及時間對模型性能的影響,本文采用按年份對數(shù)據(jù)集進行的劃分方式對模型性能進行驗證。實驗使用2016年至2018年的樣本作為訓練集,2019年的數(shù)據(jù)作為測試集,模擬投資者根據(jù)過去的信息對未來進行決策的過程。將預處理完畢后的訓練集數(shù)據(jù)以一年為單位,對數(shù)據(jù)集進行組合劃分,然后分別對寬模型、深模型、寬深模型進行訓練。

        可以看出,以2018年作為訓練集得到的模型性能最佳,模型的召回率、準確率、F1-score分別為71.02%、93.27%、81.76%。此外可以看出,以2016年、2017年,2018年的樣本作為訓練集時,年份越接近2019年,模型的F1-Score、召回率、準確率越高,精確率有小幅下降。這說明由于經(jīng)濟時空背景的差異,年份越久遠的樣本對預測違約概率的貢獻程度越低,使得模型在利用過去的樣本進行訓練時,得到的模型較為保守,找出違約借款人樣本的能力較差,雖然精確率較高,但投資者更為重視的召回率偏低。

        同時可以看出,以2018年、2017年至2018年、2016年至2018年的樣本作為訓練集時,隨著數(shù)據(jù)集樣本數(shù)的增加,模型的F1-Score、召回率、準確率也在下降。說明盲目增加數(shù)據(jù)量并不一定能提升模型性能,反而可能會因降低了樣本質(zhì)量而導致模型性能下降。

        圖5展示了以2018年作為訓練集訓練得到的三個模型在訓練過程中性能指標的迭代曲線,可以看出,寬深模型在準確率和F1-score指標上的性能均優(yōu)于單一的寬模型或深模型。其中,寬模型的性能最差且上升慢,需要更多的訓練迭代輪次來提升寬模型的性能,而寬深模型各項指標隨迭代次數(shù)的上升明顯快于深模型和寬模型。寬深模型準確率和F1-score分別比深模型高5.38百分點和20.5百分點,該實驗結(jié)果表明了寬深模型應用于借款人違約預測的可行性與優(yōu)越性。

        4 結(jié) 語

        為提高不良貸款的識別率、降低投資風險。本文針對大數(shù)據(jù)時代下的借款人信息數(shù)據(jù)集數(shù)據(jù)量大和特征豐富的特點,提出一種基于寬深學習的借款人違約風險預測模型。該模型結(jié)合了寬模型的記憶性和深模型泛化性,并采用引入隨機失活層對其進行優(yōu)化。在進行數(shù)據(jù)預處理后,將數(shù)據(jù)集以年份為單位劃分并訓練模型。實驗結(jié)果表明,選用最新的數(shù)據(jù)進行投資決策分析和模型訓練對投資者而言十分重要;寬深模型具有更強的識別違約樣本的能力和更好的預測性能。本文僅采用了單平臺的借款人信息數(shù)據(jù)集,后續(xù)研究可以結(jié)合多家平臺的借款人信息數(shù)據(jù)集訓練模型,提高模型的泛化能力并進一步拓展寬深模型的應用范圍。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        欧美成年黄网站色视频| 国产精品无码午夜福利| 亚洲人成影院在线观看| 制服丝袜人妻中文字幕在线| 最新国产日韩AV线| 成 人 免费 黄 色 视频 | 日韩精品无码一区二区三区 | 婚外情长久的相处之道| 69国产成人精品午夜福中文| 乱人妻中文字幕| 99精品热这里只有精品| 丝袜国产高跟亚洲精品91| а的天堂网最新版在线| 亚洲一区二区三区在线激情| 日产精品高潮一区二区三区5月| 国产乱人偷精品人妻a片| 人妻无码aⅴ不卡中文字幕| 国产精品27页| 青青草免费在线手机视频| 蜜桃高清视频在线看免费1| 狠狠色噜噜狠狠狠8888米奇| 亚洲av日韩av在线观看| 亚洲av无码一区二区乱子伦as| 国产精品一区二区久久乐下载| 日本经典中文字幕人妻| 一本大道久久a久久综合精品| 女人被狂躁的高潮免费视频| 东京热人妻无码一区二区av | 国内久久婷婷精品人双人| 国产天堂av手机在线| 东京热加勒比视频一区| 一本大道无码人妻精品专区| 久久久久久久综合狠狠综合| 中文字幕精品久久天堂一区| 九九久久精品一区二区三区av| av高清在线不卡直播| 久久久亚洲欧洲日产国码αv| 久久精品国产亚洲av高清色欲| 精品国产高清a毛片| 亚洲一区域二区域三区域四| 久久精品国产亚洲超碰av|