亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于可解釋集成學(xué)習(xí)的信貸違約預(yù)測(cè)①

        2022-01-05 10:14:48蔡青松吳金迪白宸宇
        關(guān)鍵詞:解釋性信貸樣本

        蔡青松, 吳金迪, 白宸宇

        (北京工商大學(xué) 計(jì)算機(jī)學(xué)院, 北京 100048)

        近年來(lái), 關(guān)于信用貸款的違約預(yù)測(cè)已成為高??蒲腥藛T和金融機(jī)構(gòu)重點(diǎn)研究的內(nèi)容[1]. 信用貸款是根據(jù)借款人的綜合信用發(fā)放的一筆借款資金, 其不需要固定資產(chǎn)抵押, 但是對(duì)借款人征信有著嚴(yán)格要求. 網(wǎng)貸公司、互聯(lián)網(wǎng)公司等機(jī)構(gòu)的信貸業(yè)務(wù), 也伴隨著互聯(lián)網(wǎng)的高速發(fā)展而飛速前進(jìn), 與此同時(shí), 這些貸款機(jī)構(gòu)面臨著部分客戶無(wú)法按時(shí)還款的問(wèn)題, 違約現(xiàn)象愈發(fā)顯著[2].對(duì)于貸款申請(qǐng)是否通過(guò), 以前是憑借人工處理與機(jī)器審核相結(jié)合的方式來(lái)做出決策, 在大數(shù)據(jù)時(shí)代, 這種方式已經(jīng)不再適合市場(chǎng)發(fā)展的需要. 要解決此類(lèi)問(wèn)題, 必須構(gòu)建一個(gè)可靠的預(yù)測(cè)模型[3]. 信貸違約預(yù)測(cè)模型是金融大數(shù)據(jù)風(fēng)控領(lǐng)域必不可少的一部分, 能夠幫助審批人員準(zhǔn)確高效地識(shí)別客戶是否具有償還貸款的能力,在一定程度上能夠減輕貸款審批人員的工作壓力, 同時(shí)提高審批通過(guò)的準(zhǔn)確率. 因此, 對(duì)信貸違約預(yù)測(cè)模型進(jìn)行研究具有很大的現(xiàn)實(shí)意義[4].

        近年來(lái), 國(guó)內(nèi)外關(guān)于信貸違約預(yù)測(cè)的研究都取得了一定的成果. 章寧等人針對(duì)借貸過(guò)程中的信息不對(duì)稱(chēng)問(wèn)題, 為更有效地整合不同的數(shù)據(jù)源和貸款違約預(yù)測(cè)模型, 提出一種基于AUC和Q統(tǒng)計(jì)值的學(xué)習(xí)方法[5].Deng等人使用LendingClub平臺(tái)提供的數(shù)據(jù)進(jìn)行研究, 選出影響最大的前20個(gè)因素, 使用Logistic回歸模型, 確定了影響違約風(fēng)險(xiǎn)的主要因素, 并通過(guò)可視化一些變量之間的關(guān)系, 得到定性分析結(jié)果[6]. Kim等人提出了一種半監(jiān)督學(xué)習(xí)方法, 通過(guò)考慮社會(huì)借貸數(shù)據(jù)的特點(diǎn), 利用社會(huì)貸款的大量未標(biāo)記數(shù)據(jù)來(lái)強(qiáng)化邊界, 利用標(biāo)簽傳播、轉(zhuǎn)換支持向量機(jī)(TSVM)與Dempster-Shafer理論相結(jié)合的方法, 實(shí)現(xiàn)對(duì)社交借貸的準(zhǔn)確預(yù)測(cè)[7]. 魏力等人針對(duì)P2P信貸項(xiàng)目如何減少借貸過(guò)程中的風(fēng)險(xiǎn)沖擊, 建立由規(guī)則推導(dǎo)而成的標(biāo)簽?zāi)P? 從多角度描述用戶, 構(gòu)建客戶畫(huà)像, 提升分類(lèi)任務(wù)的效果[8].

        上述信貸違約預(yù)測(cè)模型主要是以簡(jiǎn)單模型為主.采用這種模型雖然保證了一定的可解釋性, 但也出現(xiàn)了預(yù)測(cè)精確率低的情況. 因此, 為了避免使用簡(jiǎn)單模型存在的問(wèn)題, 一些研究人員將目光投向了使用多模型的方式來(lái)構(gòu)建信貸違約預(yù)測(cè)模型. Tong等人針對(duì)英國(guó)的貸款違約問(wèn)題, 利用來(lái)自英國(guó)銀行的大量房屋抵押貸款違約數(shù)據(jù)集, 針對(duì)拖欠貸款產(chǎn)生的總損失金額建立了混合離散連續(xù)模型, 從而提高預(yù)測(cè)方面的性能[9].馬曉君等人運(yùn)用CatBoost算法對(duì)于P2P網(wǎng)絡(luò)借貸中的違約預(yù)測(cè)情況展開(kāi)了研究, 通過(guò)對(duì)違約影響因素進(jìn)行綜合分析, 使得模型出錯(cuò)所導(dǎo)致的損失成本進(jìn)行有效控制[10]. Ma等人又使用了多角度和多維的數(shù)據(jù)清洗方法, 將XGBoost算法應(yīng)用于真實(shí)數(shù)據(jù), 其使用基于分布式的模式結(jié)合弱學(xué)習(xí)器, 提高了模型的訓(xùn)練效率[11].

        受上述研究啟發(fā), 本文基于Stacking[12]策略, 構(gòu)建了基于LightGBM-DeepFM-Catboost的信貸違約預(yù)測(cè)模型[13-15]. 此外, 本文新穎性地引入了基于局部可解釋的、與模型無(wú)關(guān)的LIME方法[16], 能夠?qū)τ趶?fù)雜模型的預(yù)測(cè)結(jié)果做出值得人們信賴的解釋, 在提升違約預(yù)測(cè)精確度的同時(shí), 進(jìn)一步提升本文所提出模型的可解釋性.

        1 相關(guān)技術(shù)研究

        1.1 LightGBM算法

        LightGBM是對(duì)GBDT算法進(jìn)行改進(jìn)和提升后的優(yōu)化版本, 屬于集成模型, 主要采用了基于leaf-wise的決策樹(shù)生長(zhǎng)策略和基于直方圖的決策樹(shù)算法. 基于leafwise的決策樹(shù)生長(zhǎng)策略每次從當(dāng)前所有葉子中找到分裂增益最大的一個(gè)葉子, 然后分裂, 如此循環(huán), 因此同level-wise相比, 在分裂次數(shù)相同的情況下, leaf-wise可以降低更多誤差, 得到更好的精度, 在保證高效率的同時(shí)防止過(guò)擬合. 同時(shí)基于直方圖的決策樹(shù)算法不需要額外存儲(chǔ)預(yù)排序的結(jié)果, 而且可以只保存特征離散化后的值, 明顯降低了內(nèi)存消耗, 從而對(duì)于內(nèi)存的利用率會(huì)更低, 在二叉樹(shù)中可以通過(guò)利用葉節(jié)點(diǎn)的父結(jié)點(diǎn)和相鄰結(jié)點(diǎn)的直方圖的相減來(lái)獲得該葉節(jié)點(diǎn)的直方圖,所以只要為一個(gè)葉節(jié)點(diǎn)建立直方圖, 就可以通過(guò)直方圖的相減來(lái)獲得相鄰結(jié)點(diǎn)的直方圖, 因此花費(fèi)的代價(jià)較小, 有助于提高融合模型的效率.

        1.2 DeepFM算法

        DeepFM是一個(gè)集成了DeepNN和FM的神經(jīng)網(wǎng)絡(luò)框架, 由DeepNN和FM通過(guò)并行的方式組合而成.DeepNN是用來(lái)做特征之間的高階組合, 所有的特征都會(huì)被轉(zhuǎn)化成Embedding向量作為Deep部分的輸入,在DNN層利用深度學(xué)習(xí)數(shù)據(jù)在網(wǎng)絡(luò)間的傳播性得到高階特征. FM是用于特征之間的低階組合, 在Dense Embedding Layer的基礎(chǔ)上, 做了二項(xiàng)交叉特征, 能夠自動(dòng)識(shí)別特征組合, 來(lái)減少手工提取特征的工作量, 且計(jì)算過(guò)程中不需要用戶干預(yù). 這兩個(gè)部分分配同樣的特征輸入, 在經(jīng)過(guò)模型后, 將他們的輸出匯總成為最終的預(yù)測(cè)結(jié)果. 既考慮低階又考慮高階特征的方式在違約預(yù)測(cè)模型領(lǐng)域具有較好的覆蓋性.

        1.3 CatBoost算法

        CatBoost能夠很好地處理類(lèi)別型特征, 對(duì)于每個(gè)樣本, 都單獨(dú)構(gòu)建一個(gè)利用該樣本之前的樣本點(diǎn)的梯度估計(jì)得到的模型. 針對(duì)這些模型, 估計(jì)該樣本的梯度,然后利用新模型重新對(duì)樣本打分. 與原有的梯度提升方法不同, 它具有有序提升的特點(diǎn), 通過(guò)在每個(gè)訓(xùn)練步驟中, 使用獨(dú)立置換的歷史樣本進(jìn)行無(wú)偏差的提升, 相比其他提升算法能夠更好地響應(yīng)過(guò)擬合問(wèn)題. CatBoost還可以提供類(lèi)似于基于決策樹(shù)的特征重要性, 是在訓(xùn)練過(guò)程中處理類(lèi)別型特征, 而無(wú)需進(jìn)行包括調(diào)整超參數(shù)在內(nèi)的額外預(yù)處理. 因?yàn)槠浜?jiǎn)單性和高性能的特性,所以該算法已被越來(lái)越多的應(yīng)用在各領(lǐng)域中.

        1.4 Stacking策略

        集成方法可分為兩類(lèi), 分別是同質(zhì)集成和異質(zhì)集成, 同質(zhì)集成是使用同一種機(jī)器學(xué)習(xí)算法來(lái)構(gòu)建集成模型, 異質(zhì)集成是使用不同的機(jī)器學(xué)習(xí)算法來(lái)構(gòu)建集成模型. 傳統(tǒng)上構(gòu)建集成模型時(shí), 每個(gè)模型都具有相同的權(quán)重, 有時(shí)可能認(rèn)為某些模型更好或更準(zhǔn)確, 希望手動(dòng)為其分配更高的權(quán)重. 有一種方法是通過(guò)使用另一層學(xué)習(xí)算法來(lái)自動(dòng)地估計(jì)每個(gè)模型的權(quán)重, 這種方法稱(chēng)為Stacking策略, 具體流程如圖1所示.

        圖1 Stacking流程圖

        由于每個(gè)基模型都做出了重大貢獻(xiàn), 而且每個(gè)模型各有優(yōu)劣, 使用了Stacking策略后, 通過(guò)集成的方式使得其他模型的優(yōu)勢(shì)彌補(bǔ)了某個(gè)模型的弱點(diǎn)和不足,提高了整個(gè)預(yù)測(cè)模型的準(zhǔn)確度. 將Stacking策略應(yīng)用于現(xiàn)實(shí)世界中的大數(shù)據(jù)問(wèn)題, 也可以產(chǎn)生更高的預(yù)測(cè)準(zhǔn)確性. 其主要思想是將原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集, 采用交叉驗(yàn)證的方式對(duì)第一層的各種模型進(jìn)行訓(xùn)練, 使訓(xùn)練后的模型在驗(yàn)證集和測(cè)試集上進(jìn)行預(yù)測(cè), 將驗(yàn)證集上的預(yù)測(cè)結(jié)果疊加作為新的特征, 用作第二層學(xué)習(xí)模型的輸入, 將測(cè)試集上的預(yù)測(cè)結(jié)果的平均作為第二層模型的測(cè)試集. 該第二層算法經(jīng)過(guò)訓(xùn)練, 從而做出最終預(yù)測(cè)結(jié)果. 算法流程如算法1所示.

        算法1. Stacking算法D(x1,y1),···,(xn,yn) x′輸入: 訓(xùn)練集 ; 測(cè)試數(shù)據(jù)y′輸出: 預(yù)測(cè)結(jié)果i=1→m 1. for do hi←ci(D)2. 3. end for D′←?4. j=1→n 5. for do i=1→m 6. for do zji←hi(xj)7. 8. end for D′←D′∪((zj1,···,zjm),yj)9. 10. end for h′←c′(D′)11. y′←h′(h1(x′),···,hm(x′))12.

        1.5 模型解釋機(jī)制

        針對(duì)模型的可解釋性分為全局解釋和局部解釋,預(yù)測(cè)結(jié)果可解釋性對(duì)于本文研究問(wèn)題的意義有以下4點(diǎn): 首先針對(duì)于信貸領(lǐng)域. 可解釋性能夠?qū)⒉豢尚湃蔚念A(yù)測(cè)結(jié)果轉(zhuǎn)換為值得信任的, 讓用戶對(duì)于預(yù)測(cè)結(jié)果產(chǎn)生充分信任. 其次提供了觀察信貸違約預(yù)測(cè)模型的新視角, 以便應(yīng)對(duì)來(lái)自銀保監(jiān)會(huì)和人行的監(jiān)管壓力, 同時(shí)保證了信貸領(lǐng)域的公平性. 再次可以幫助金融機(jī)構(gòu)決定是否部署融合模型和進(jìn)一步改善模型. 最后可以消除風(fēng)控模型在金融機(jī)構(gòu)部署時(shí)的潛在威脅, 建立起機(jī)構(gòu)、用戶與信貸違約預(yù)測(cè)模型之間的信任關(guān)系.

        全局可解釋性是指能夠基于全部數(shù)據(jù)集上的響應(yīng)變量和輸入特征之間的互相作用來(lái)解釋模型的決策.對(duì)于本文所研究的信貸違約預(yù)測(cè)模型, 全局可解釋性可以在模塊級(jí)別上幫助我們理解模型, 比如說(shuō)針對(duì)不同特征, 目標(biāo)變量的分布是什么, 這對(duì)于本文的研究具有一定的意義, 但是對(duì)于參數(shù)級(jí)層面的解釋, 在信貸違約預(yù)測(cè)模型具有大量參數(shù)的情況下, 人們很難想象特征之間是如何通過(guò)相互作用, 才能獲得這樣的預(yù)測(cè)結(jié)果.

        LIME是一種利用簡(jiǎn)單模型來(lái)解釋任何復(fù)雜模型的局部解釋技術(shù), 與被解釋的模型無(wú)關(guān), 不需要進(jìn)行模型適配, 也不會(huì)深入模型內(nèi)部, 它用人們理解的方式來(lái)解釋模型. LIME解釋技術(shù)對(duì)于數(shù)據(jù)集中特征相關(guān)與否并無(wú)明確要求, 只是復(fù)雜模型的預(yù)測(cè)精度會(huì)隨著不相關(guān)特征的篩除而不斷上升, 其主要是通過(guò)擾動(dòng)局部的人類(lèi)容易理解的特征來(lái)改變輸入, 通過(guò)對(duì)復(fù)雜模型的局部近似, 觀察預(yù)測(cè)結(jié)果的變化來(lái)理解模型內(nèi)部的行為, 生成人們可以信賴的解釋. 對(duì)于模型預(yù)測(cè)結(jié)果進(jìn)行事后解釋, 我們能擁有更多的信息來(lái)決定是否信任信貸違約預(yù)測(cè)模型以及模型的預(yù)測(cè)結(jié)果.

        我們將g作為預(yù)測(cè)模型f的解釋:g∈G, 定義一個(gè)目標(biāo)函數(shù)ξ, 同時(shí), 為了測(cè)量g在局部如何逼近f, 我們定義了一個(gè)損失函數(shù)L, 在保持模型復(fù)雜度Ω (g)足夠低的同時(shí), 我們通過(guò)最小化損失函數(shù)L得到目標(biāo)函數(shù)ξ 的最優(yōu)解.

        目標(biāo)函數(shù)定義為:

        損失函數(shù)定義為:

        其中,z是原始數(shù)據(jù)集中一個(gè)被擾動(dòng)的樣本點(diǎn),z′是通過(guò)對(duì)該樣本隨機(jī)擾動(dòng)產(chǎn)生的新樣本點(diǎn)的集合, 通過(guò)LIME的可視化機(jī)制, 給出模型預(yù)測(cè)結(jié)果的局部解釋.

        2 基于Stacking與LIME信貸違約預(yù)測(cè)模型

        信貸違約預(yù)測(cè)模型通過(guò)在脫敏數(shù)據(jù)集上完成訓(xùn)練,來(lái)預(yù)測(cè)客戶后期產(chǎn)生違約的概率, 目的是幫助機(jī)構(gòu)人員對(duì)客戶的資質(zhì)完成審核, 預(yù)測(cè)客戶的還款能力, 提前發(fā)現(xiàn)貸款的潛在損失, 避免產(chǎn)生不必要的糾紛, 降低借貸風(fēng)險(xiǎn). 本文采用Stacking策略, 使用單個(gè)模型來(lái)學(xué)習(xí)如何最佳地組合互補(bǔ)模型, 并將第一層模型的輸出作為標(biāo)簽附加到我們的樣本中, 還需要使用交叉驗(yàn)證來(lái)比較模型的泛化性能.

        由于不同的算法模型具有不同的性能特征, 所以在綜合比較了常用的模型后, 我們選擇了LightGBM、DeepFM、CatBoost作為第一層模型, 將第一層基模型的輸出作為第二層模型的輸入. 由于CatBoost模型在Stacking中的應(yīng)用對(duì)于模型融合更為有效, 所以我們使用CatBoost模型作為第二層的次模型. CatBoost模型學(xué)習(xí)第一層模型中子模型的性能, 并根據(jù)子模型的誤差給子模型賦予不同的權(quán)重后進(jìn)行訓(xùn)練, 以進(jìn)行最終預(yù)測(cè). 因此, 如果單個(gè)模型表現(xiàn)不佳, 不一定會(huì)對(duì)結(jié)果產(chǎn)生不利影響. 兩層模型融合后的新模型優(yōu)于第一層的單個(gè)子模型, 這也表明多模型融合比單一模型具有更好的預(yù)測(cè)準(zhǔn)確度.

        基于Stacking與LIME信貸違約預(yù)測(cè)模型, 其預(yù)測(cè)的流程如圖2所示.

        圖2 信貸違約預(yù)測(cè)模型

        基于Stacking策略的融合模型, 通過(guò)引入LIME方法, 構(gòu)造了具備可解釋性的異質(zhì)集成模型. LIME為了搞清楚哪一部分輸入對(duì)預(yù)測(cè)結(jié)果產(chǎn)生貢獻(xiàn), 在要解釋的樣本周?chē)鑫⑿〉臄_動(dòng), 然后我們根據(jù)這些擾動(dòng)的數(shù)據(jù)點(diǎn)距離原始數(shù)據(jù)的距離分配權(quán)重, 基于學(xué)習(xí)得到一個(gè)可解釋的稀疏線性模型, 對(duì)于融合模型最終的預(yù)測(cè)結(jié)果, 事后解釋機(jī)制LIME通過(guò)可視化的方式在局部進(jìn)行了解釋.

        3 仿真實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        在實(shí)驗(yàn)過(guò)程中, 我們使用開(kāi)源語(yǔ)言Python 3編寫(xiě)代碼, 利用Python的NumPy和Pandas等進(jìn)行數(shù)據(jù)預(yù)處理和特征工程. 操作系統(tǒng)為Windows 10, 機(jī)器配置為2.40 GHz Intel i5-9300H GTX1650.

        3.2 數(shù)據(jù)描述

        本文使用的數(shù)據(jù)是來(lái)自Kaggle的公開(kāi)數(shù)據(jù)集, 包含了貸款客戶脫敏后的信用交易數(shù)據(jù), 并帶有一個(gè)標(biāo)簽, 指示客戶是否會(huì)違約. 3個(gè)數(shù)據(jù)集中分別存儲(chǔ)了不同用戶的基本信息數(shù)據(jù), 每一行代表一個(gè)樣本, 來(lái)自3個(gè)數(shù)據(jù)集的主要特征的含義均展示在如表1所示的主要特征含義表中.

        表1 主要特征含義表

        每筆借貸樣本屬性主要包括年齡、借款利率、借款用途、借款目的、借貸持續(xù)時(shí)間、信用賬戶額度、借款時(shí)長(zhǎng)、活期存款、借款人現(xiàn)在拖欠賬目的逾期情況、過(guò)去12個(gè)月的征信查詢次數(shù)、過(guò)去6個(gè)月的貸款違約次數(shù)、房屋狀況、教育程度、性別、工作等信息.

        3.3 實(shí)驗(yàn)流程

        (1) 數(shù)據(jù)預(yù)處理

        由于原始數(shù)據(jù)集具有缺失值、類(lèi)別不平衡和高維特征等問(wèn)題. 在預(yù)測(cè)模型中, 類(lèi)別不平衡會(huì)導(dǎo)致預(yù)測(cè)不準(zhǔn)確, 而高維稀疏數(shù)據(jù)也會(huì)產(chǎn)生維數(shù)問(wèn)題, 為了解決上述問(wèn)題, 我們進(jìn)行了以下工作. 首先關(guān)注類(lèi)別不平衡問(wèn)題, 經(jīng)過(guò)分析表明, 由于模型中正負(fù)樣本比例過(guò)大, 從而導(dǎo)致過(guò)擬合, 以至于訓(xùn)練后的模型預(yù)測(cè)效果差. 導(dǎo)致訓(xùn)練后的模型精度雖然高, 但是卻沒(méi)有價(jià)值, 通過(guò)下采樣對(duì)這一問(wèn)題進(jìn)行了控制.

        對(duì)于應(yīng)用了級(jí)聯(lián)原理模型的正負(fù)樣本閾值的確定,我們將數(shù)據(jù)集分出一部分作為驗(yàn)證集, 對(duì)于級(jí)聯(lián)中選取的每個(gè)基模型進(jìn)行訓(xùn)練后去不斷的動(dòng)態(tài)調(diào)整閾值,通過(guò)在實(shí)驗(yàn)中調(diào)整參數(shù), 找到在驗(yàn)證集上效果最好的閾值. 部分樣本的缺失值過(guò)多, 會(huì)影響模型訓(xùn)練效果.但是缺失數(shù)據(jù)的比例占總體樣本的比例較少, 而且缺失數(shù)據(jù)是隨機(jī)出現(xiàn)的, 所以我們從訓(xùn)練數(shù)據(jù)中直接刪除了這部分缺失值過(guò)高的數(shù)據(jù), 這樣刪除缺失數(shù)據(jù), 對(duì)后續(xù)的分析結(jié)果影響不大. 數(shù)據(jù)集中還有一些類(lèi)別特征樣本數(shù)過(guò)低的以及為0的特征, 由于它們對(duì)最終的預(yù)測(cè)結(jié)果影響不大, 因此, 我們將其進(jìn)行直接刪除.

        (2) 特征工程

        原始數(shù)據(jù)集中有近百維的數(shù)值特征變量, 擁有過(guò)多的維數(shù)容易導(dǎo)致過(guò)擬合問(wèn)題, 所以我們需要對(duì)數(shù)據(jù)進(jìn)行降維. 除了平常使用的PCA和t-SNE等方法外,我們還可以選擇克拉默相關(guān)系數(shù)、最大信息系數(shù)、皮爾遜相關(guān)系數(shù)等方法. 我們選擇使用皮爾遜相關(guān)系數(shù)來(lái)進(jìn)行連續(xù)特征的篩選. 皮爾遜相關(guān)系數(shù)是一種線性相關(guān)系數(shù), 是最常用的一種相關(guān)系數(shù), 記為r, 用來(lái)反映兩個(gè)變量X和Y的線性相關(guān)程度, 值介于-1到1之間.相關(guān)系數(shù)越接近于1或-1, 相關(guān)性越強(qiáng), 相關(guān)系數(shù)越接近于0, 相關(guān)度越弱. 通過(guò)計(jì)算特征間的皮爾森系數(shù)進(jìn)行特征降維, 兩個(gè)特征間皮爾遜相關(guān)系數(shù)高于0.95已經(jīng)是屬于極強(qiáng)相關(guān), 可以隨機(jī)選擇刪去一個(gè). 基于上述的方法, 可以用減少特征數(shù)量的方式實(shí)現(xiàn)對(duì)數(shù)據(jù)的降維.

        3.4 評(píng)價(jià)指標(biāo)

        為了驗(yàn)證該模型的性能, 選擇ACC、F1-Score、Precision和AUC作為評(píng)價(jià)指標(biāo), 其中AUC表示預(yù)測(cè)的正樣本排在負(fù)樣本前面的概率, 相較于ROC能夠更好的評(píng)價(jià)模型性能. 混淆矩陣如表2所示.

        表2 混淆矩陣

        3.5 結(jié)果分析

        將我們所提出的融合模型與其他3個(gè)模型進(jìn)行比較, 通過(guò)在3個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)可以看出, 本文所提出的模型較LightGBM、DeepFM、CatBoost來(lái)說(shuō),在AUC、ACC、Precision和F1-Score這些指標(biāo)上面均有明顯提升, 說(shuō)明本文所提出的模型有效的提升了信貸違約預(yù)測(cè)準(zhǔn)確度.

        從表3中我們可以得到如下結(jié)論: 我們提出的模型, 在4項(xiàng)指標(biāo)上對(duì)比LightGBM、DeepFM和CatBoost模型均有提高, 其中AUC最高提升了12.47%,F1-Score最高提升了2.8%,ACC最高提升了9%,Precision最高提升了9.07%. 通過(guò)對(duì)表4和表5中實(shí)驗(yàn)指標(biāo)的觀察分析, 可以看出我們提出的模型也優(yōu)于其他模型, 證實(shí)了我們所提出的模型有效提升了預(yù)測(cè)精確度.

        表3 German數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)照表

        表4 Lending club數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)照表

        表5 L&T數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)照表

        3.6 預(yù)測(cè)結(jié)果解釋

        我們用信貸違約預(yù)測(cè)模型的目的是判斷一個(gè)客戶在未來(lái)產(chǎn)生違約的可能性. 通過(guò)前邊的實(shí)驗(yàn)分析, 可以說(shuō)該模型適用于信貸機(jī)構(gòu)的需求, 但是想要理解一些客戶為什么會(huì)被預(yù)測(cè)為違約, 而其他客戶不會(huì)被預(yù)測(cè)為違約, 同時(shí)風(fēng)控部門(mén)也需要評(píng)估模型所作出的預(yù)測(cè)是否值得相信. 因此, 本文認(rèn)為能解釋每個(gè)模型的預(yù)測(cè)是獲取信任的一種重要方式.

        為了實(shí)現(xiàn)這一目標(biāo), 通過(guò)LIME方法來(lái)研究預(yù)測(cè)結(jié)果中不同特征的貢獻(xiàn), 可以證明我們的模型是值得信任的. 這將極大地改善風(fēng)控部門(mén)原有復(fù)雜模型解釋性不足的問(wèn)題.

        對(duì)于本文所提出的融合模型在公開(kāi)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果(圖3-圖5), 利用事后解釋機(jī)制LIME進(jìn)行可視化解釋, 輸出了模型對(duì)這3個(gè)數(shù)據(jù)集中單個(gè)樣本的解釋結(jié)果, 分別顯示影響樣本預(yù)測(cè)結(jié)果重要性前10的特征, 及其相應(yīng)貢獻(xiàn)度和特征對(duì)應(yīng)的值. 第1列表示從預(yù)測(cè)模型得到的負(fù)面結(jié)果和正面結(jié)果的預(yù)測(cè)概率, 第2列顯示某個(gè)特征對(duì)正面或負(fù)面結(jié)果的貢獻(xiàn), 為了清楚起見(jiàn), 只顯示了前10個(gè)特征. 第3列顯示特征的原始數(shù)據(jù)值或?qū)㈦x散變量經(jīng)Label編碼后的值.

        圖3 German數(shù)據(jù)集樣本預(yù)測(cè)結(jié)果解釋

        接下來(lái), 如圖3所示, 可以看出模型對(duì)該客戶有72%的概率相信其不會(huì)違約, 那么模型預(yù)測(cè)該客戶大概率不會(huì)違約的理由就是基于該客戶信用卡額度、借貸持續(xù)時(shí)間、儲(chǔ)蓄賬戶、年齡這些因素, 另外活期存款、房屋狀況、目的, 成為了預(yù)測(cè)該用戶不會(huì)違約的一個(gè)干擾. 這種解釋結(jié)果在現(xiàn)實(shí)世界中是有意義的, 并揭示了我們可以在一定程度上信任我們的預(yù)測(cè)模型.

        在圖4中, 對(duì)于該客戶模型有74%的概率相信他不會(huì)產(chǎn)生違約行為, 根據(jù)解釋結(jié)果可以得出, 該客戶在12個(gè)月中除了醫(yī)療收藏品以外的收藏品數(shù)目、借款利率、借款目的、12個(gè)月內(nèi)的貸款沖銷(xiāo)總數(shù)這些方面信用是十分好的, 但是該客戶現(xiàn)在拖欠賬目的逾期情況、過(guò)去12個(gè)月的征信查詢次數(shù), 會(huì)對(duì)系統(tǒng)的解釋結(jié)果產(chǎn)生負(fù)面影響. 用戶通過(guò)可解釋性結(jié)果了解自己接下來(lái)需要在哪方面進(jìn)行改進(jìn).

        圖4 Lending club數(shù)據(jù)集樣本預(yù)測(cè)結(jié)果解釋

        從圖5看出, 我們的融合模型判斷該客戶違約的概率是72%, 可解釋機(jī)制給我們的解釋就是基于該客戶在過(guò)去6個(gè)月的貸款違約次數(shù)、貸款資產(chǎn)的價(jià)值這些方面信用不好, 導(dǎo)致了該預(yù)測(cè)結(jié)果, 另外該客戶在資產(chǎn)成本、年齡這些方面的表現(xiàn)還是不錯(cuò)的, 接下來(lái)可以繼續(xù)加強(qiáng), 以提升自己的信用度.

        圖5 L&T數(shù)據(jù)集樣本預(yù)測(cè)結(jié)果解釋

        4 結(jié)論與展望

        本文為了獲得具備可解釋性的信貸違約預(yù)測(cè)模型,通過(guò)不同模型間的異質(zhì)集成, 以融合的方式構(gòu)建了一個(gè)由LightGBM、DeepFM和CatBoost算法組成的異質(zhì)融合模型, 用于信貸審批時(shí)預(yù)測(cè)申請(qǐng)人的違約風(fēng)險(xiǎn).在基于Stacking策略的融合模型中, 采用LightGBM、DeepFM和CatBoost三個(gè)不同的模型作為第一層的預(yù)測(cè)模型, 然后我們使用CatBoost作為第二層模型, 在預(yù)測(cè)精確度、泛化性能等方面都有較好的表現(xiàn). 實(shí)現(xiàn)了信貸違約預(yù)測(cè)模型預(yù)測(cè)精確度的提高. 此外, 通過(guò)引入事后解釋機(jī)制LIME, 也顯著的提升了模型的可解釋性. 通過(guò)在3個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明, 本文建立的融合模型可以在準(zhǔn)確預(yù)測(cè)信貸違約的同時(shí), 又兼具可解釋性. 對(duì)于具備解釋性的黑盒信貸違約模型的研究有一定的現(xiàn)實(shí)意義. 此外, 本文采用融合模型在提升準(zhǔn)確度的同時(shí), 還存在的時(shí)間效率較低的問(wèn)題, 在后續(xù)的研究中, 我們希望能夠改進(jìn)特征選擇方法, 進(jìn)一步降低原始特征中存在的冗余和噪聲, 將有意義的特征輸入機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練, 同時(shí)通過(guò)網(wǎng)格計(jì)算實(shí)現(xiàn)資源共享, 使用多線程模式結(jié)合基模型, 合理利用硬件資源, 以提高基于融合方法模型的時(shí)間效率.

        猜你喜歡
        解釋性信貸樣本
        著力構(gòu)建可解釋性模型
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        論行政自由裁量的“解釋性控權(quán)”
        法律方法(2021年4期)2021-03-16 05:35:16
        聚焦Z世代信貸成癮
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
        傳播力研究(2017年5期)2017-03-28 09:08:30
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        非解釋性憲法適用論
        村企共贏的樣本
        綠色信貸對(duì)霧霾治理的作用分析
        亚洲精品成人一区二区三区| 抽插丰满内射高潮视频| 久久国产亚洲AV无码麻豆| 亚洲av色在线观看网站| 日韩中文字幕一区二区二区| 大屁股人妻女教师撅着屁股| 亚洲人成网站在线观看播放| 日韩人妻无码精品系列专区无遮 | 久久国产精品美女厕所尿尿av| 亚洲av中文无码字幕色本草| 最近最好的中文字幕2019免费| 精品国产91久久综合| 亚洲精品女人天堂av麻| 无码一区二区三区| 国产精品va在线观看无码| 九一成人AV无码一区二区三区| 性感熟妇被我玩弄到高潮| 精品视频一区二区三区在线观看 | 成人午夜免费无码视频在线观看| 亚洲一区二区三区新视频| 人妻少妇被猛烈进入中文字幕| 久久国内精品自在自线图片| 国产午夜精品一区二区三区不| 在线亚洲精品免费视频| 国产精品久久久久久久久久红粉 | 久久国产精品亚洲婷婷片| 国产乱妇乱子在线播视频播放网站| 妞干网中文字幕| 女主播国产专区在线观看| 午夜性色一区二区三区不卡视频 | 亚洲一区二区三区久久不卡| 亚洲av永久一区二区三区| 日本大肚子孕妇交xxx| 国产欧美VA欧美VA香蕉在| 一区二区三区岛国av毛片 | 国产超碰女人任你爽| 亚洲欧美日韩国产一区| av手机天堂在线观看| 一本久道综合色婷婷五月| 欧美婷婷六月丁香综合色| 亚洲精品久久久中文字|