亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost算法模型的金融客戶信用評估研究

        2019-06-09 10:36:01陸健健江開忠
        軟件導刊 2019年4期

        陸健健 江開忠

        摘 要:針對銀行客戶信用評估模型不健全不完善等問題,在對比隨機森林(RF)、GBDT和XGBoost三種集成算法基礎上,提出基于XGBoost算法的金融客戶信用評估模型。從知名的UCI數(shù)據(jù)庫中選取德國某銀行客戶信用數(shù)據(jù)集,在對數(shù)據(jù)進行缺失值、標準化等預處理后,分別對隨機森林(RF)、GBDT算法和XGBoost三種集成算法建立個人信用評估模型,然后依據(jù)計算得到的相關多元評價指標對個人信用評估進行對比研究。實證結果表明,建立在XGBoost集成算法上的個人信用評估模型性能最優(yōu),在準確率指標上比隨機森林(RF)高出6%,比GBDT算法高0.8%。

        關鍵詞:信用評估;XGBoost算法;隨機森林(RF);GBDT算法;ROC曲線

        DOI:10. 11907/rjdk. 182067

        中圖分類號:TP319文獻標識碼:A文章編號:1672-7800(2019)004-0133-04

        0 引言

        隨著市場經(jīng)濟體制在全球的逐步確立,投資交易、經(jīng)濟融資、證券交易等業(yè)務在世界快速拓展。然而,由于市場經(jīng)濟的固有缺陷以及參與主體的紛繁復雜,使得諸多經(jīng)濟業(yè)務難以暢通有效運行,擁有交易秩序“潤滑劑”作用的信用評級應運而生。經(jīng)過150年的發(fā)展,信用評級體系已經(jīng)從資本市場、商業(yè)市場以及消費者個人3個層次對所有市場經(jīng)濟活動進行了覆蓋,標普、穆迪等國際性信用評級公司為世人所熟知。

        伴隨著互聯(lián)網(wǎng)技術的廣泛應用,金融機構面向個人推廣的服務在業(yè)務模式和運行機制上也愈發(fā)多樣。然而,在個人消費信貸業(yè)務活躍度顯著提升的同時,其所帶來的個人信用風險也呈現(xiàn)分散化、普遍化、非系統(tǒng)化等特點,給金融機構帶來莫大的困擾。因此,無論是國家還是金融機構,對精準、有效的個人信用評估模型需求都越來越大。

        我國的信用評分研究起步較晚[1]。經(jīng)過幾十年的發(fā)展,中國人民銀行征信中心是我國目前為止唯一一家負責個人征信系統(tǒng)建設、運行和管理的權威信用評級機構。中國人民銀行征信中心所采納的系統(tǒng)依據(jù)個人信用信息基礎數(shù)據(jù)庫中采集的個人基本信息、信貸信息,為有信貸記錄的消費者建立一個通用風險評分模型,針對消費者在將來一段時期內(nèi)的違約概率進行預測。

        個人信用評價研究[2]主要涉及個人信用評價指標選取和個人信用評價模型這兩個研究領域,本文主要研究個人信用評價模型建立。個人信用評估模型方法可分為線性判別分析法、回歸分析法、非參數(shù)法及基于樹的分類判別法、支持向量機、遺傳算法、神經(jīng)網(wǎng)絡等。

        傳統(tǒng)的個人信用評價模型較多采用單一方法進行信用評價,如徐少峰等[3]利用fisher判別分析,建立判別函數(shù)對個人進行信用評估。張成虎[4]則運用多元線性判別模型對個人信用評分體系進行分析。劉峙廷[5]運用AHP層次分析法建立P2P網(wǎng)絡信貸債務人風險評價體系。周軒[6]運用模糊層次分析法確定個人信用評分指標體系中各指標權重。肖江[7]建立了一個改進的基于BP神經(jīng)網(wǎng)絡的評價模型。羅方科[8]對個人小額貸款信用評估建立Logistic回歸模型。其它諸如線性回歸、邏輯斯遆克回歸等回歸分析法、決策樹、K近鄰判別(KNN)、聚類算法等方法也有較多學者使用。另外,神經(jīng)網(wǎng)絡法擁有強大的非線性處理能力[9],對信用評價過程具有原始數(shù)據(jù)篩選、預警精度增加、預測速度提高等作用,使其在近年來的單一評分方法中有較多頻次使用。

        面對眾多評估方法,模型選擇及優(yōu)化一度成為限制評級模型研究的瓶頸。然而近些年,多方法之間的集成綜合互補似乎成為提升模型評價質(zhì)量的突破口。姜明輝等[10]通過把PSO算法引入神經(jīng)網(wǎng)絡個人信用評級模型中,有效提高了檢測樣本分類中的預測精度。而后姜明輝又以CBR(案例推理)方法結合BP神經(jīng)網(wǎng)絡對個人信用評分模型的精確性與錯分率進行優(yōu)化研究。孫亞男[11]通過卡方交叉檢測與決策樹結合的方法,將誤差成本引入個人信用評級過程,進而增加信用壞型客戶的判別正確率。向暉[12]則把多元判別分析、logistic回歸、神經(jīng)網(wǎng)路、支持向量機等多種方法融入個人信用評價模型構建,發(fā)現(xiàn)新模型顯著增加了信用預測的精度與穩(wěn)健性。肖進等[13]針對銀行客戶信用建立動態(tài)分類器集成選擇模型,在進行模型融合的同時也為建模前處理原始數(shù)據(jù)提供了一種新的思路。陳力等[14]在銀行個人信用卡評級應用中建立Adaboost-Logistic集成算法融合模型。白鵬飛等[15]在研究互聯(lián)網(wǎng)信貸個人信用評估方法時試圖在SVM、隨機森林、XGBoost等集成模型之上再用投票思想對其進行集成融合,集成后的結果得到了一定優(yōu)化。楚天玥[16]引入新方法,將GCNN模型與LeNet-5模型相結合,對層結構特征進行優(yōu)化,加上個人信用風險特點,構造出新的個人信用評估模型。

        本文應用隨機森林、GBDT算法和XGBoost三種集成算法分別建立個人信用評估模型,依據(jù)模型評價指標對其進行對比研究[17],從而給信用評估研究者、相關企事業(yè)單位選擇模型提供參考。

        1 相關理論

        1.1 集成分類模型

        集成分類模型指基于多個單一的分類模型所集合而成的模型,而多個單分類器集成在一起的方法很多,最通用的有兩種[18]:①袋裝法(Bagging),利用相同訓練數(shù)據(jù)同時搭建多個獨立模型,通過投票的方式以少數(shù)服從多數(shù)原則作出最終分類決策,其中最具有代表性的模型是隨機森林分類器(Random Forest Classifier);②提升法(Boosting),其思想是按照一定的次序搭建多個分類器,這些分類器之間彼此存在依賴關系,每一個后續(xù)分類器的加入都對現(xiàn)有集成模型性能有所貢獻,進而不斷提升更新后的集成模型性能,其中較有代表性的是梯度提升決策樹(Gradient Tree Boosting)。

        1.2 XGBoost模型

        XGBoost全稱為Extreme Gradient Boosting,它可看作是GBDT的優(yōu)化。GBDT在生成每一棵樹時采用梯度下降思想,以所有單棵決策樹為基礎,以損失函數(shù)最小化為目標多走一步。與GBDT模型不同的是,XGBoost模型能自動利用CPU進行多線程并行計算,并且對損失函數(shù)進行泰勒公式二階展開,在損失函數(shù)后面增加正則項,用于約束損失函數(shù)的下降和模型整體的復雜度。

        XGBoost整體目標函數(shù)為:

        2 實證分析

        2.1 數(shù)據(jù)來源與描述

        本文數(shù)據(jù)來源于加州大學UCI數(shù)據(jù)庫中著名的信用數(shù)據(jù)集German數(shù)據(jù)集,它是關于德國某銀行信用卡個人用戶業(yè)務的數(shù)據(jù)。該數(shù)據(jù)集共有1000個樣本,其中信用好的用戶有700個,信用差的用戶有300,數(shù)據(jù)集中包含20個屬性列和1個標簽列,20個屬性中有7個數(shù)值型屬性和13個類別型屬性,標簽列有兩個值0或1,其中0代表信用好,1代表信用差,見表1。

        2.2 數(shù)據(jù)預處理

        在對原始數(shù)據(jù)進行建模分析之前,需要對數(shù)據(jù)進行預處理即特征工程。首先,對數(shù)據(jù)表中嚴重缺失數(shù)據(jù)的樣本記錄剔除,對少許缺失值樣本采用眾數(shù)(分類型變量)和均值填充。然后,對所有分類型數(shù)據(jù)進行編碼,本文采用的是獨熱0-1編碼。最后,對所有數(shù)值型數(shù)據(jù)進行標準化處理,本文采用極差標準化:

        2.3 模型評價指標

        在給出模型評價指標之前,先給出分類模型評價準則中最常用的混淆矩陣,如表2所示。

        其中:①正類代表信用差,負類代表信用好;②TP表示實際為正類預測也為正類的樣本個數(shù),F(xiàn)N表示實際為正類預測為負類的樣本個數(shù),F(xiàn)P表示實際為負類預測為正類的樣本個數(shù),TN表示實際為負類預測也為負類的樣本個數(shù)。

        (1)準確率(Accuracy)。在傳統(tǒng)分類模型評價指標體系中,準確率(Accuracy)是一個很重要的評價指標,它代表所有正負類中有多少被正確預測出來,其數(shù)學表達如下:

        (2)精確率(Precision)、召回率(Recall)和F1指標。在實際問題中并不關心總的預測正確率,而是更加關注模型對某一特定類別的預測能力。對于銀行來說,它更在意的是信用差的人被判為信用好的情況,也就是說假負類的比率越低越好。所以引入精確率(Precision)、召回率(Recall)和F1這3個指標。

        (3)ROC曲線及AUC值。ROC曲線又稱真正率偽正率圖,其中橫坐標表示偽正率,縱坐標表示真正率。

        由于直接用ROC曲線去定量評價不同的分類模型不是很直觀,因此人們通常采用ROC曲線下方的面積,即AUC值作為評價指標,AUC值越大越好。

        2.4 結果對比與分析

        本文模型的構建均采用python的sklean程序包實現(xiàn),此外,除了構建XGBoost算法模型,還建立了隨機森林模型和GBDT算法模型,在使用相同數(shù)據(jù)集的情況下,對比使用這3種模型。

        針對這3種算法模型,本文給出它們的ROC曲線,為直觀對比把ROC曲線放在了同一個圖中,如圖1所示。

        表3給出3種算法模型在相同數(shù)據(jù)集上的準確率、精準率、召回率、F1得分和AUC值,表中標粗的數(shù)字表示每列的最大值。從表中可以看出,XGBoost算法模型在準確率、召回率、F1得分和AUC值上都具有明顯優(yōu)勢,而隨機森林精準率較高,顯然XGBoost算法模型具有較好性能。

        3 結語

        建立合理有效而又科學的個人信用評估模型,能為銀行等金融機構提供更加可靠而科學的決策支持,減少不必要的損失,意義非常重大。本文在對比多個集成算法模型基礎上,建立基于目前最流行及性能較好的XGBoost集成算法的信用評估模型,并在相同的國際開源數(shù)據(jù)集上,對隨機森林、GBDT算法和XGBoost算法進行比較與對比研究。實證結果表明,在機器學習等領域具有顯著優(yōu)勢的XGBoost算法對個人信用評估的研究性能較優(yōu)。

        參考文獻:

        [1] 張釗. 基于支持向量機的個人信用評估模型與算法的研究[D]. 北京:首都師范大學,2008.

        [2] 郄彥平. 信用環(huán)境評價與“自然履約率”[J]. 金融教學與研究,2013(5):6-10,17.

        [3] 徐少鋒. FISHER判別分析在個人信用評估中的應用[J]. 統(tǒng)計與決策,2006(2):133-135.

        [4] 張成虎,李育林,吳鳴. 基于判別分析的個人信用評分模型研究與實證分析[J]. 大連理工大學學報:社會科學版,2009,30(1):6-10.

        [5] 劉峙廷. 我國P2P網(wǎng)絡信貸風險評估研究[D]. 南寧:廣西大學,2013.

        [6] 周軒. 基于數(shù)據(jù)挖掘技術的商業(yè)銀行個人信用評分模型研究[D].長沙:湖南大學,2014.

        [7] 肖江,陳璐瑜. 改進的P2P信貸借款人信用風險的研究[J]. 信息技術,2016(11):212-214,220.

        [8] 羅方科,陳曉紅. 基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J]. 財經(jīng)理論與實踐,2017,38(1):30-35.

        [9] 王穎林,賴芨宇,郭豐敏. 建設需求量預測分析中的人工神經(jīng)網(wǎng)絡和多元回歸方法[J]. 武漢工程大學學報,2013,35(11):77-80,86.

        [10] 殷爽,姜明輝. 基于PSO的個人信用評估組合預測模型[J]. 經(jīng)濟研究導刊,2008(14):83-86.

        [11] 朱毅峰,孫亞南. 精煉決策樹模型在個人信用評估中的應用[J]. 統(tǒng)計教育,2008(1):5-7.

        [12] 向暉,楊勝剛. 個人信用評分關鍵技術研究的新進展[J]. 財經(jīng)理論與實踐,2011,32(4):20-24.

        [13] 肖進,劉敦虎,顧新,等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學學報,2015,18(3):114-126.

        [14] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學習算法在銀行個人信用評級中的應用[J]. 價值工程,2017,36(18):170-172.

        [15] 白鵬飛,安琪,NICOLAAS FRANSDE ROOIJ,等. 基于多模型融合的互聯(lián)網(wǎng)信貸個人信用評估方法[J]. 華南師范大學學報:自然科學版,2017,49(6):119-123.

        [16] 楚天玥.? 基于LeNet-5模型和門卷積神經(jīng)網(wǎng)絡的信用評分模型實證研究[D]. 深圳:深圳大學,2017.

        [17] 張滄生,崔麗娟,楊剛,等. 集成學習算法的比較研究[J]. 河北大學學報:自然科學版,2007(5):551-554.

        [18] 周峰. 集成分類器模型的研究[D]. 上海:上海交通大學,2007.

        [19] 王飛.? 集成分類器及其在個人信用評估的應用[D]. 長沙:中南大學,2012.

        [20] 邵笑笑.? 個人信用評估集成模型研究[D]. 南京:南京信息工程大學,2016.

        [21] 房曉南.? 基于半監(jiān)督和集成學習的不平衡數(shù)據(jù)特征選擇和分類[D]. 濟南:山東師范大學,2016.

        (責任編輯:杜能鋼)

        亚洲成人精品在线一区二区| 九九九免费观看视频| 精品厕所偷拍一区二区视频| 欧美乱妇高清无乱码免费| 国产亚洲精品久久久久久国模美 | 亚洲成熟丰满熟妇高潮XXXXX| 国产精品亚洲美女av网站| 精品亚洲视频免费观看网站 | 伊人精品成人久久综合97| 亚洲av中文无码字幕色本草| 欧美乱大交xxxxx潮喷| 福利视频一二三在线观看| 中文字幕在线观看国产双飞高清| 欧美中出在线| 亚洲成人色黄网站久久| av在线播放免费观看| 国产一级二级三级在线观看视频| 伊甸园亚洲av久久精品| 久久久无码精品亚洲日韩按摩| 国产xxxx99真实实拍| 国产成人综合一区二区三区| 激情文学人妻中文字幕| 日韩精品一区二区免费| 337p人体粉嫩胞高清视频| 久久久久香蕉国产线看观看伊| 久久tv中文字幕首页| 国产成人国产在线观看| 亚欧同人精品天堂| av免费观看在线网站| 麻豆精品一区二区av白丝在线| 精品偷拍被偷拍在线观看| 久久久久久国产精品无码超碰动画| 偷窥村妇洗澡毛毛多| 亚洲乱码少妇中文字幕| 中文字幕日韩精品人妻久久久| 色综合久久无码五十路人妻| 大肉大捧一进一出好爽视频| 99久久亚洲精品无码毛片| 精品国产三级a| 亚洲一区二区三区中文视频| 亚洲精品中文字幕一二 |