亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的催收評(píng)分模型研究

        2019-04-19 08:51:16高姣
        科學(xué)與技術(shù) 2019年13期
        關(guān)鍵詞:風(fēng)險(xiǎn)管理

        高姣

        摘要:催收管理是信貸風(fēng)險(xiǎn)管理工作的最后一道屏障,是防范信貸風(fēng)險(xiǎn)的重要手段,對(duì)保障信貸資產(chǎn)安全有著十分重要的作用。催收評(píng)分模型是目前國(guó)際先進(jìn)銀行提升信用卡催收管理能力的主要依據(jù),可以實(shí)現(xiàn)自動(dòng)化的客戶細(xì)分,能在較低的成本下保持較好的回收水平。本文通過(guò)對(duì)債務(wù)人基本人口特征、信用歷史記錄和行為活動(dòng)等數(shù)據(jù)進(jìn)行分析,采用XGBoost建立催收評(píng)分模型,實(shí)現(xiàn)對(duì)客戶更為準(zhǔn)確的分類,對(duì)有早期逾期行為的債務(wù)人進(jìn)行提醒,降低風(fēng)險(xiǎn)并維護(hù)客戶關(guān)系。

        關(guān)鍵詞:風(fēng)險(xiǎn)管理;催收評(píng)分模型;信用評(píng)分;XGBoost

        1 引言

        通過(guò)對(duì)國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行分析,在貸后催收管理[1]中,當(dāng)前針對(duì)催收信用模型所采用的數(shù)據(jù)挖掘算法主要以決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、Logistic回歸三大類算法為主[2-3]。

        2 背景技術(shù)

        決策樹(shù):決策樹(shù)方法是一種非參數(shù)統(tǒng)計(jì)方法[4-5],以樹(shù)的形式表示目標(biāo)變量與預(yù)測(cè)變量之間的關(guān)系,樹(shù)中每個(gè)節(jié)點(diǎn)表示預(yù)測(cè)變量,每個(gè)節(jié)點(diǎn)的分叉表示預(yù)測(cè)變量的不同取值,每個(gè)葉子節(jié)點(diǎn)代表不同路徑對(duì)應(yīng)的預(yù)測(cè)值[6]。實(shí)際應(yīng)用時(shí),把新數(shù)據(jù)映射到某一個(gè)葉節(jié)點(diǎn),并根據(jù)計(jì)算平均值的方式得出當(dāng)前數(shù)據(jù)屬于某一類別的概率值。

        圖1 決策樹(shù)示意圖

        神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)是一種模仿人腦信息加工過(guò)程的智能化信息處理技術(shù),具有自組織性、自適應(yīng)性以及較強(qiáng)的穩(wěn)健性,在結(jié)構(gòu)上神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層[7-8]。輸入層的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)預(yù)測(cè)變量,從而全部的預(yù)測(cè)變量一起組成一個(gè)多維特征向量。輸出層的節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)變量,可有多個(gè)。在信用評(píng)分場(chǎng)景里,輸出層的物理含義表示違約與否,所以是一個(gè)二值離散變量。通過(guò)無(wú)監(jiān)督式的參數(shù)預(yù)訓(xùn)練,結(jié)合監(jiān)督式的參數(shù)優(yōu)化來(lái)構(gòu)建信用風(fēng)險(xiǎn)評(píng)價(jià)模型。神經(jīng)網(wǎng)絡(luò)能夠很好地處理那些數(shù)據(jù)結(jié)構(gòu)不太清楚的情況,預(yù)測(cè)精度相較于其他方法也比較高。

        圖2 神經(jīng)網(wǎng)絡(luò)示意圖 圖3 Logistic回歸示意圖

        Logistic回歸:作為廣義線性判別統(tǒng)計(jì)分析技術(shù)之一,Logistic回歸需要目標(biāo)變量是分類變量[9-10]。目標(biāo)變量的物理含義表示違約與否,是一個(gè)二值離散變量。運(yùn)用特征選擇的方法,從全部特征變量中選取與當(dāng)前的目標(biāo)變量最相關(guān)的一些特征變量,并且優(yōu)化目標(biāo)函數(shù),得到模型參數(shù)。

        決策樹(shù)模型屬于判別式分類器,能擬合任意非線性分類函數(shù),但是容易發(fā)生過(guò)擬合;神經(jīng)網(wǎng)絡(luò)模型搭建復(fù)雜,不容易對(duì)預(yù)測(cè)結(jié)果進(jìn)行直觀解釋,另外,網(wǎng)絡(luò)訓(xùn)練過(guò)程中,可能會(huì)陷入局部最小值點(diǎn),導(dǎo)致無(wú)法收斂,訓(xùn)練效率不高[11];Logistic回歸屬于線性分類器,所以需要嚴(yán)格挑選出跟目標(biāo)變量最相關(guān)的特征變量,一旦目標(biāo)變量與預(yù)測(cè)變量之間存在非線性關(guān)系,就會(huì)影響分類的效果,并且logistic回歸要求預(yù)測(cè)變量之間不能存在強(qiáng)相關(guān)關(guān)系,否則可能會(huì)使得預(yù)測(cè)結(jié)果誤入歧途。

        3 XGBoost原理介紹

        XGBoost[12]全名叫(eXtreme Gradient Boosting)極端梯度提升,是一種通用的Tree Boosting集成學(xué)習(xí)算法[13]。集成學(xué)習(xí)本身不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過(guò)構(gòu)建并結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),使組合后的模型具有更強(qiáng)的泛化能力。

        XGBoost的弱學(xué)習(xí)器使用CART回歸樹(shù)模型,通過(guò)多輪迭代,每輪迭代產(chǎn)生一個(gè)弱分類器,每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練,具體過(guò)程如下:首先使用訓(xùn)練集和樣本真值y訓(xùn)練一棵樹(shù),然后使用這棵樹(shù)模型預(yù)測(cè)訓(xùn)練集,得到每個(gè)樣本的預(yù)測(cè)值 ,由于預(yù)測(cè)值 與真值y存在偏差,所以二者相減可以得到“殘差”;接下來(lái)訓(xùn)練第二棵樹(shù),此時(shí)不再使用真值,而是使用殘差作為擬合值來(lái)訓(xùn)練;兩棵樹(shù)訓(xùn)練完成后,可以再次得到每個(gè)樣本的殘差,然后進(jìn)一步訓(xùn)練第三棵樹(shù),以此類推;樹(shù)的總棵數(shù)可以人為指定,也可以監(jiān)控某些指標(biāo)(例如驗(yàn)證集上的誤差)來(lái)停止訓(xùn)練。

        4 數(shù)據(jù)預(yù)處理

        4.1 數(shù)據(jù)準(zhǔn)備

        構(gòu)建模型的第一步是獲得合適的數(shù)據(jù)。本文建模時(shí)所采用的數(shù)據(jù)集是一家小貸公司的真實(shí)信貸審批數(shù)據(jù)。該數(shù)據(jù)集包含了客戶在向小貸公司提出貸款申請(qǐng)時(shí)所提供的個(gè)人信息如性別、年齡、身份證信息等基本人口特征,經(jīng)客戶授權(quán)后獲取的第三方信用歷史記錄數(shù)據(jù),以及客戶的貸后行為活動(dòng)等數(shù)據(jù)。建模數(shù)據(jù)集共提取了23.6萬(wàn)個(gè)客戶信用信息,其中每個(gè)客戶包含109個(gè)屬性(預(yù)測(cè)變量)和1個(gè)目標(biāo)變量label:

        好客戶是指貸款后可以按時(shí)還款的客戶,壞客戶是指貸款后不會(huì)按時(shí)還款的違約客戶。

        4.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗的目的是解決數(shù)據(jù)的質(zhì)量問(wèn)題。因?yàn)閿?shù)據(jù)建模的成功與否,將很大程度上取決于數(shù)據(jù)的質(zhì)量。而現(xiàn)實(shí)生活中收集的信用數(shù)據(jù)一般存在噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)和空缺數(shù)據(jù),并且表達(dá)形式多樣化,不利于進(jìn)一步的數(shù)據(jù)挖掘。為提高挖掘結(jié)果的精度和有效性,在構(gòu)建信用評(píng)分模型之前,必須要對(duì)數(shù)據(jù)進(jìn)行清洗。

        在實(shí)際中數(shù)據(jù)集最普遍的問(wèn)題是數(shù)據(jù)缺失情況嚴(yán)重,處理缺失數(shù)據(jù),首先需要分析缺失值產(chǎn)生的原因:

        (1)因?yàn)榭蛻舨辉竿嘎秱€(gè)人信息而未填寫,例如:一位客戶沒(méi)有填寫他的婚姻狀況,這種缺失的信息也包含著數(shù)據(jù)價(jià)值。

        因?yàn)锳PP版本等產(chǎn)品迭代,后期的產(chǎn)品中新引入某些特征,這類特征老客戶是缺失的,例如:產(chǎn)品更新的一版中加入了“學(xué)歷”特征,老客戶的這個(gè)特征是無(wú)法獲取的。

        (2)缺失數(shù)據(jù)的處理是數(shù)據(jù)清洗過(guò)程中的重要工作,考慮到缺失值隱含的數(shù)據(jù)價(jià)值,如果直接刪除會(huì)丟失信息,所以可以將缺失數(shù)據(jù)單獨(dú)看做一類客戶處理或者做衍生變量處理,如對(duì)于“職業(yè)”缺失的數(shù)據(jù),可以做一個(gè)變量“職業(yè)是否缺失”。

        數(shù)據(jù)清洗的另一種情況是極端值的處理,通常的做法是對(duì)離群點(diǎn)做截?cái)嗵幚恚蛘吒鶕?jù)領(lǐng)域?qū)<医ㄗh的特定值來(lái)代替。

        4.3 數(shù)據(jù)規(guī)范化

        原始數(shù)據(jù)的形式可能不利于數(shù)據(jù)分析,因此需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理。對(duì)于離散型數(shù)據(jù),如果類別過(guò)多需要將某些類別做合并處理。因?yàn)轭悇e過(guò)多會(huì)造成數(shù)據(jù)過(guò)于稀疏,從而影響建模效果。然后將離散變量做啞變量處理,轉(zhuǎn)化成模型可以識(shí)別的數(shù)據(jù)格式,例如對(duì)性別做如下處理:

        由于XGBoost算法屬于樹(shù)模型,可以不做數(shù)據(jù)標(biāo)準(zhǔn)化處理。

        4.4 特征衍生

        在建模過(guò)程中需要一些顯著性較高的特征來(lái)達(dá)到提升模型效果的作用,一般會(huì)從現(xiàn)有數(shù)據(jù)中結(jié)合業(yè)務(wù)需求構(gòu)造出一些特征。如根據(jù)原有數(shù)據(jù)字段通過(guò)加減乘除等操作生成新的字段:

        (1)單一變量的基礎(chǔ)轉(zhuǎn)換,如通過(guò)對(duì)單一變量進(jìn)行平方、開(kāi)根號(hào)、log轉(zhuǎn)換或指數(shù)轉(zhuǎn)換等。

        (2)通過(guò)添加時(shí)間維度進(jìn)行衍生,如:近3個(gè)月借貸平臺(tái)個(gè)數(shù)、手機(jī)入網(wǎng)時(shí)長(zhǎng)、近3個(gè)月征信報(bào)告查詢次數(shù)等。

        多變量的運(yùn)算,兩個(gè)變量相加、相乘或變量間計(jì)算一個(gè)比率后得到新變量,如:平均借款金額、額度使用率等

        5 建立模型

        5.1 數(shù)據(jù)抽樣

        本文將建模數(shù)據(jù)集隨機(jī)的拆分為兩部分訓(xùn)練集和驗(yàn)證集。在訓(xùn)練集上擬合模型,獲得模型參數(shù),并在驗(yàn)證集上對(duì)模型進(jìn)行校驗(yàn)。如果模型在訓(xùn)練集和驗(yàn)證集上的效果差別大,意味著模型穩(wěn)定性差或者有過(guò)度擬合發(fā)生。本文將數(shù)據(jù)集的70%用做訓(xùn)練集,30%用作驗(yàn)證集。

        5.2 特征篩選

        特征篩選是從原始特征中找出最有效的特征,這種做法的目的是降低數(shù)據(jù)冗余,減少模型計(jì)算,找出更有意義的特征。XGBoost模型的一個(gè)優(yōu)點(diǎn)是可以直接得到每個(gè)特征的重要性得分。一般來(lái)說(shuō),重要性分?jǐn)?shù)衡量了特征在模型中的價(jià)值。

        特征重要性是通過(guò)對(duì)數(shù)據(jù)集中的每個(gè)特征進(jìn)行計(jì)算,并進(jìn)行排序后得到的。在單個(gè)決策樹(shù)中通過(guò)每個(gè)特征分裂點(diǎn)改進(jìn)性能度量的量來(lái)計(jì)算特征重要性,由節(jié)點(diǎn)負(fù)責(zé)加權(quán)和記錄次數(shù)。也就說(shuō)一個(gè)特征對(duì)分裂點(diǎn)改進(jìn)性能度量越大、權(quán)值越大,被越多提升樹(shù)所選擇,特征越重要。性能度量可以是選擇分裂節(jié)點(diǎn)的Gini純度,也可以是其他度量函數(shù)。最終將一個(gè)特征在所有提升樹(shù)中的結(jié)果進(jìn)行加權(quán)求和后做平均,得到重要性得分。一個(gè)特征越多的被用來(lái)在模型中構(gòu)建決策樹(shù),它的重要性就相對(duì)越高。

        5.3 建立模型

        根據(jù)XGBoost的features_importance(特征重要性)篩選出65個(gè)特征進(jìn)行建模,優(yōu)化目標(biāo)函數(shù),用網(wǎng)格搜索法調(diào)整參數(shù)。

        6 模型效果評(píng)估

        6.1 模型評(píng)估指標(biāo)

        6.1.1 KS

        KS是使用同一評(píng)分標(biāo)尺下,累計(jì)好客戶百分比與壞客戶百分比的最大差距。通常評(píng)分越低客戶表現(xiàn)越壞,而評(píng)分越高客戶的表現(xiàn)越好。如果評(píng)分區(qū)分好壞客戶的能力越高,KS就會(huì)越高。理論上KS的取值在0-100%之間,常見(jiàn)的評(píng)分模型KS的取值范圍多在25%-70%之間。

        6.1.2 ROC與AUC

        ROC曲線就是通過(guò)在0-1之間改變用于創(chuàng)建混淆矩陣的閾值,繪制分類準(zhǔn)確的違約記錄比例與分類錯(cuò)誤的正常記錄比例。AUC值為ROC曲線所覆蓋的區(qū)域面積,AUC越大,分類器分類效果越好。

        6.1.3 PSI

        PSI(Population Stability Index)叫做群體穩(wěn)定性指標(biāo),用于衡量?jī)山M樣本的評(píng)分是否有顯著差異。PSI = sum(實(shí)際占比-預(yù)期占比)*ln(實(shí)際占比/預(yù)期占比)。通過(guò)如下標(biāo)準(zhǔn)來(lái)判斷評(píng)分的穩(wěn)定性:

        6.2 XGBoost模型實(shí)際效果評(píng)估

        在訓(xùn)練集上ROC達(dá)到91.97%,KS達(dá)到66.39%,說(shuō)明模型有良好的區(qū)分能力,分類效果良好。在驗(yàn)證集上ROC達(dá)到91.01%,KS達(dá)到64.01%,且ROC和KS在兩個(gè)數(shù)據(jù)集上的變化小于5%,說(shuō)明所開(kāi)發(fā)的催收評(píng)分模型有效,不存在過(guò)擬合。

        6.3 模型穩(wěn)定評(píng)估

        XGBoost催收評(píng)分模型穩(wěn)定性結(jié)果如下:

        由結(jié)果可知,PSI=0.0017,小于0.1,模型評(píng)分結(jié)果穩(wěn)定,XGBoost催收評(píng)分模型很穩(wěn)健。

        6.4 模型效果比較

        綜合來(lái)看,四種模型中XGBoost模型的預(yù)測(cè)能力和區(qū)分度是最好的,并且是較為穩(wěn)定的。

        7 結(jié)語(yǔ)

        本文采用數(shù)據(jù)挖掘技術(shù),運(yùn)用XGBoost算法,經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)清洗、特征衍生、特征篩選后建立催收評(píng)分模型。從模型最終效果來(lái)看,XGBoost催收評(píng)分模型是不錯(cuò)的選擇。該模型訓(xùn)練集和驗(yàn)證集的區(qū)分能力比較高且差距不大,模型比較穩(wěn)健。此外,XGBoost模型可解釋性比較強(qiáng),訓(xùn)練效率比較高。在貸后管理中可以應(yīng)用XGBoost催收評(píng)分模型的評(píng)分結(jié)果對(duì)客戶進(jìn)行差異化的催收策略,提高回款率,保障信貸資產(chǎn)安全。

        參考文獻(xiàn)

        [1]呂楠.淺談信用卡的催收管理[J].財(cái)經(jīng)界(學(xué)術(shù)版),2008(1).

        [2]朱德志,梁世棟,黃亮,etal.催收評(píng)分技術(shù)及其在個(gè)人信貸催收管理中的應(yīng)用[J].中國(guó)信用卡,2010(6):26-30

        [3]朱曉明,劉治國(guó).信用評(píng)分模型綜述[J]. 統(tǒng)計(jì)與決策,2007(2):103-105.

        [4]CrowdProcess,Inc.Machine Learning in Credit Risk Modeling[Z].NY,USA:CrowdProcess Inc.,2017.

        [5]朱毅峰,孫亞南.精煉決策樹(shù)模型在個(gè)人信用評(píng)估中的應(yīng)用[J].統(tǒng)計(jì)教育,2008(1):5-7.

        [6]呂曉丹,范宏.基于決策樹(shù)的信用評(píng)價(jià)模型及實(shí)證研究[J].市場(chǎng)周刊(理論研究),2013(8):80-83.

        [7]Vincenzo Pacelli,Michele Azzollini. An Artificial Neural Network Approach for Credit Risk Management[J].Journal of Intelligent Learning Systems and Applications,2011,3(3):103-112.

        [8]Eliana Angelini,Giacomo di Tollo,Andrea Roli.A Neural Network Approach for Credit Risk Evaluation[J].Kluwer Academic Publishers,2006.

        [9]范若愚[等].大數(shù)據(jù)時(shí)代的商業(yè)建模[M].上海:上??茖W(xué)技術(shù)文獻(xiàn)出版社出版,2013.

        [10]蘇誠(chéng).基于Logistic回歸模型的商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估研究[J].中國(guó)城市經(jīng)濟(jì),2011(12):72-72.

        [11]申華.基于數(shù)據(jù)挖掘的個(gè)人信用評(píng)分模型開(kāi)發(fā)[D].廈門大學(xué),2009.

        [12]Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].2016.

        [13]Chen T.Introduction to Boosted Trees[J].2014.

        (作者單位:中國(guó)人民大學(xué))

        猜你喜歡
        風(fēng)險(xiǎn)管理
        探討風(fēng)險(xiǎn)管理在呼吸機(jī)維護(hù)與維修中的應(yīng)用
        對(duì)企業(yè)合規(guī)風(fēng)險(xiǎn)管理的思考
        房地產(chǎn)合作開(kāi)發(fā)項(xiàng)目的風(fēng)險(xiǎn)管理
        商周刊(2018年23期)2018-11-26 01:22:28
        財(cái)務(wù)會(huì)計(jì)風(fēng)險(xiǎn)管理研究
        護(hù)理風(fēng)險(xiǎn)管理在冠狀動(dòng)脈介入治療中的應(yīng)用
        我國(guó)商業(yè)銀行風(fēng)險(xiǎn)管理研究
        發(fā)達(dá)國(guó)家商業(yè)銀行操作風(fēng)險(xiǎn)管理的經(jīng)驗(yàn)借鑒
        本地化科技翻譯的風(fēng)險(xiǎn)管理
        審判風(fēng)險(xiǎn)管理初探
        風(fēng)險(xiǎn)管理在工程建設(shè)中的應(yīng)用
        精品乱色一区二区中文字幕| 26uuu欧美日本在线播放| 无码av免费精品一区二区三区| 欧美成人一区二区三区在线观看| 欧美在线日韩| 级毛片无码av| 久久人妻精品中文字幕一区二区| 四季极品偷拍一区二区三区视频 | 女同三级伦理在线观看| 日本真人添下面视频免费| 制服丝袜中文字幕在线| 国产亚洲精品久久久久婷婷瑜伽| 中国一级毛片在线观看| 午夜爽毛片| 永久免费看黄在线观看| 99精品国产一区二区三区| 国模冰莲极品自慰人体| 国产精品成人国产乱| 亚洲都市校园激情另类| 视频一区中文字幕亚洲| 成人高清在线播放视频| 中字乱码视频| a级毛片无码久久精品免费| 中文字幕+乱码+中文字幕无忧| 日韩熟妇精品视频一区二区| 亚洲视频在线中文字幕乱码| 日本a爱视频二区三区| 制服丝袜中文字幕在线| 女同亚洲女同精品| 欧美综合自拍亚洲综合百度| 中文字幕久久精品一区二区| 精品天堂色吊丝一区二区| 黑森林福利视频导航| 超薄肉色丝袜一区二区| 一区二区无码精油按摩| 嫩呦国产一区二区三区av| 国产人妻大战黑人20p| 在线播放无码高潮的视频| 亚洲欧美日韩高清中文在线| 青青草免费观看视频免费| 亚洲国产精品无码成人片久久|