亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LightGBM算法的信用風(fēng)險評估模型研究

2019-12-04 01:47:08王思宇陳建平

軟件導(dǎo)刊 2019年10期

王思宇陳建平

摘要：對于銀行、P2P等金融機(jī)構(gòu)而言，如何在擴(kuò)大業(yè)務(wù)規(guī)模的同時，有效控制并合理防范信用風(fēng)險尤為重要?；贚ightGBM算法，根據(jù)借款申請人提供的相關(guān)個人信息，建立分類預(yù)測模型，對借款人是否會逾期、是否該發(fā)放貸款進(jìn)行預(yù)測研究。實驗結(jié)果表明，相較于普通決策樹算法，LightGBM預(yù)測精度提升了40.8%，且具有較好的魯棒性，可滿足信用評估要求?；贚ightGBM的信用評估模型不僅擁有更快的訓(xùn)練速度和更高的訓(xùn)練效率，同時還占用更少的內(nèi)存，具有支持?jǐn)?shù)據(jù)并行處理能力。利用該模型可對用戶信用風(fēng)險進(jìn)行較為準(zhǔn)確的預(yù)測，對貸款機(jī)構(gòu)風(fēng)險管理有重要參考價值。

關(guān)鍵詞：信用風(fēng)險;LightGBM;分類預(yù)測

DOI：10.11907/rjdk.191157開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

中圖分類號：TP301文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2019）010-0019-04

0引言

近年來，我國經(jīng)濟(jì)一直保持高速發(fā)展，居民的信貸意識日益提高，個人信貸業(yè)務(wù)也獲得蓬勃發(fā)展，在金融信貸機(jī)構(gòu)貸款業(yè)務(wù)中的占比持續(xù)增多。然而，品類繁多的信貸業(yè)務(wù)在為人們提供便利的同時，其潛在風(fēng)險也不容忽視。每年由于資金鏈斷裂、違約、騙貸等因素導(dǎo)致停業(yè)的金融信貸機(jī)構(gòu)就有上千家。由此可見，信用風(fēng)險評估對金融信貸機(jī)構(gòu)的平穩(wěn)運行具有重要意義。

隨著大數(shù)據(jù)時代的來臨，信用風(fēng)險評估理論及方法不斷涌現(xiàn)。劉錚錚、康為勛運用層次分析法對企業(yè)信用評級進(jìn)行研究;李昕、蔣志旺基于BP神經(jīng)網(wǎng)絡(luò)研究信用風(fēng)險預(yù)測模型;孫同陽、王雅靜則認(rèn)為利用決策樹方法進(jìn)行信用評估預(yù)測更為有效;Chen等通過樸素貝葉斯對申請人進(jìn)行信用評級;Bellotti等提出借款人違約的離散時間生存模型，通過模擬極端經(jīng)濟(jì)條件，展示了如何使用該模型對申請人進(jìn)行測試。上述方法都是基于傳統(tǒng)評估指標(biāo)，結(jié)合機(jī)器學(xué)習(xí)知識構(gòu)建的評估方法，仍存在一定的局限性，例如人工神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時，若訓(xùn)練次數(shù)不足則會過擬合，同時算法本身的收斂速度較慢，時常會陷入局部最優(yōu)解。因此，選擇一種精度高、運算速度快、不易過擬合的算法做評估模型尤為必要。

LiChtGBM算法具有速度快、效率高、占用資源少、支持并行處理等優(yōu)點。本文選用基于LightGBM的梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）算法，以某金融信貸機(jī)構(gòu)經(jīng)過脫敏處理后的數(shù)據(jù)為基礎(chǔ)，探索不同類別數(shù)據(jù)中的隱藏聯(lián)系，從而建立一個更為準(zhǔn)確的信用評估模型。如此既能減少人為因素導(dǎo)致的主觀性和盲目性，又能減輕因個別數(shù)據(jù)缺失對評估結(jié)果造成的影響，從而促進(jìn)個人信貸業(yè)務(wù)快速、安全發(fā)展。

1理論基礎(chǔ)

梯度提升決策樹（Gradient Boosting Decision 7ree，GB-DT）是一種迭代決策樹算法。該算法采用最速下降法，把損失函數(shù)的負(fù)梯度在當(dāng)前的值當(dāng)作殘差的近似值，然后利用殘差近似值擬合出一個回歸樹。該算法在決策過程中生成另外的決策樹，最后將所有樹的運行結(jié)果進(jìn)行累加得出最終結(jié)果。

GBDT算法在訓(xùn)練時，要對樣本進(jìn)行多次遍歷。若要減少訓(xùn)練耗時，需將訓(xùn)練數(shù)據(jù)全部加載到內(nèi)存中，這樣每次輸入的樣本數(shù)量就會受到限制，不能超過內(nèi)存容量。如果將樣本載人外存儲器中，應(yīng)采用決策樹算法，在I/O頻繁時，速度又會相應(yīng)降低。LightGBM則可以很好地改善上述情況。

1.1LightGBM

LiChtGBM（LiCbt Gradient Boosting Machine）是一個基于決策樹算法的提升框架，其優(yōu)點是訓(xùn)練速度快、準(zhǔn)確率高、內(nèi)存占用率低且支持并行計算，能夠處理規(guī)模龐大的數(shù)據(jù)集。

LiRhtGBM的特點之一是采用基于Histogram的決策樹算法，它首先將連續(xù)型的特征值離散成k個值，然后生成一個寬為k的直方圖。當(dāng)遍歷樣本時，將經(jīng)過離散的值當(dāng)作索引。在經(jīng)過一次遍歷后，直方圖累積了需要的統(tǒng)計量，然后通過直方圖的離散值，遍歷尋找最優(yōu)分割點。采用這種方式既能顯著降低內(nèi)存占用，又可降低時間復(fù)雜度。

LightGBM的另一個特點是采用效率更高的葉子生長策略，即帶深度限制的葉子生長策略（Lear-wise）。該策略在分裂前會首先遍歷樹中全部葉子，接著找到分裂增益最大的葉子進(jìn)行再分裂，并重復(fù)這一操作。實驗證明，同樣分裂次數(shù)下，Leaf-wise可以得到更高的精度，并在Leaf-wise中加入了防止過擬合的最大深度限制。Leaf-wise葉子生長策略如圖1所示，其中白點和黑點分別代表分裂增益最大和非最大的葉子。

LightGBM的一大優(yōu)點是Histogram作差加速。一般而言，構(gòu)造一個葉子直方圖，父節(jié)點和兄弟節(jié)點直方圖的寬度都為K，因此作差過程只需計算K次，從而提高了運行速度。

1.2改進(jìn)后的GBDT算法流程

2實證分析

本文基于某金融信貸機(jī)構(gòu)的數(shù)據(jù)集進(jìn)行實證研究，并與其它常見分類算法作對比分析。

2.1數(shù)據(jù)描述與預(yù)處理

該數(shù)據(jù)集共有約30萬條個人信貸記錄，每一條信貸記錄都包含顧客個人情況屬性變量和顧客“好”、“壞”標(biāo)簽變量。“好”顧客的定義為按時還款，用標(biāo)簽0代替;“壞”顧客的定義則是沒有按時還款，用標(biāo)簽1代替。個人情況屬性變量包含了有關(guān)顧客社會人口、個人金融、債權(quán)人財產(chǎn)和貸款明細(xì)4個方面的共121項指標(biāo)，其數(shù)據(jù)集格式如表1所示。

由表2可知，與邏輯回歸、決策樹、樸素貝葉斯、隨機(jī)森林、集成樹、XGBT等算法相比較，LightGBM的ROC_AUC得分最高，相較于普通決策樹算法提升了40.8%，準(zhǔn)確率也在70%以上，且具有較好的魯棒性，可滿足信用評估要求。

模型輸出結(jié)果如表3所示，信貸機(jī)構(gòu)可根據(jù)用戶得分，劃分不同的區(qū)間，并為每個區(qū)間制定相應(yīng)的評判等級，例如“優(yōu)秀”、“良好”、“一般”、“較差”等。

3結(jié)語

本文利用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行個人信用風(fēng)險評估研究與實現(xiàn)。對比分析不同算法模型表現(xiàn)，提出了基于LightGBM算法的信用風(fēng)險評估模型。相較于其它主流算法模型，LightGBM算法擁有速度快、效率高、占用內(nèi)存少及并行計算等優(yōu)點，而金融借貸平臺的數(shù)據(jù)集往往具有指標(biāo)多、噪聲復(fù)雜等特點，使用基于LightGBM算法的評估模型，對實際應(yīng)用具有重要參考價值。

本文不足之處在于數(shù)據(jù)涵蓋范圍具有一定局限性，相較于類型繁多的信用數(shù)據(jù)集僅是冰山一角;并且，雖然基于LightGBM算法的信用風(fēng)險評估模型在分類預(yù)測效果上有一定提升，但準(zhǔn)確率及精度還有進(jìn)一步提升的空間，可考慮將LightGBM與其它算法融合，使模型有更好的表現(xiàn)。

軟件導(dǎo)刊2019年10期

軟件導(dǎo)刊的其它文章: 社會性軟件在教育教學(xué)中的應(yīng)用現(xiàn)狀及建議; 計算機(jī)專業(yè)系統(tǒng)能力培養(yǎng)課程體系改革研究; 基于人工智能的大學(xué)英語教學(xué)模式研究; 面向新工科的《操作系統(tǒng)》課程改革研究; 基于文獻(xiàn)計量的我國智慧校園研究態(tài)勢分析; F#函數(shù)式編程教學(xué)方法研究