亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交易數(shù)據(jù)的信用評(píng)估方法

        2018-05-22 07:35:53周繼恩杜金泉
        關(guān)鍵詞:個(gè)人信用分類器信用

        陳 煜 周繼恩 杜金泉

        (中國(guó)銀聯(lián)股份有限公司 上海 200135)

        0 引 言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),各種各樣的用戶數(shù)據(jù)都可以用于轉(zhuǎn)化,評(píng)估,體現(xiàn)個(gè)人數(shù)據(jù)。日常消費(fèi)數(shù)據(jù)還有很大的挖掘價(jià)值。學(xué)術(shù)研究方面,國(guó)內(nèi)學(xué)者從定性和定量的角度對(duì)個(gè)人信用評(píng)估進(jìn)行了一系列的研究[5],但是目前為止尚未形成一種針對(duì)銀行卡交易數(shù)據(jù)的個(gè)人信用評(píng)估模型及體系。因此本文以個(gè)人信用評(píng)估方法為研究中心,結(jié)合銀行卡交易數(shù)據(jù),構(gòu)建一個(gè)新的個(gè)人信用評(píng)估模型。

        1941年,Divid Durand采用評(píng)分形式來(lái)評(píng)估個(gè)人信用,建立了經(jīng)典的消費(fèi)信貸評(píng)分標(biāo)準(zhǔn)。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,越來(lái)越多的計(jì)量方法應(yīng)用到了信用評(píng)估領(lǐng)域,比如統(tǒng)計(jì)學(xué)中的線性回歸方法和Logisitic回歸[6],機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)[3]、集成學(xué)習(xí)[8]、支持向量機(jī)[2]等,這些方法不斷完善著信用評(píng)估系統(tǒng)。

        1 信用模型構(gòu)建

        首先,本文著眼于個(gè)人信用模型的建立,采用的數(shù)據(jù)來(lái)源于線下刷卡、網(wǎng)上消費(fèi)等產(chǎn)生的交易數(shù)據(jù)。然后,針對(duì)問(wèn)題,提取有效的特征集,篩選特征并用于信用模型的訓(xùn)練。最后,對(duì)訓(xùn)練完成的信用評(píng)估模型驗(yàn)證,解釋結(jié)果,并做出相應(yīng)的決策建議。

        1.1 信用特征計(jì)算方法

        特征是指區(qū)分不同類型的本質(zhì)特點(diǎn),在信用評(píng)估的問(wèn)題下,更偏向?qū)ふ?,?jì)算那些能夠用于區(qū)分信用好的用戶及信用差的用戶的特征,用戶的信用畫(huà)像由這些信用相關(guān)的特征組成。因此特征提取在提高分類的準(zhǔn)確性中起著非常關(guān)鍵的作用。

        交易數(shù)據(jù)中包含的要素有:交易金額、交易時(shí)間、交易渠道、商戶代碼、交易地區(qū)、交易類型、商戶類型、卡類型、卡介質(zhì)、發(fā)卡機(jī)構(gòu)、收單機(jī)構(gòu)等。在研究中,本文根據(jù)交易數(shù)據(jù),提取了眾多的特征,大體的方法主要分為三類:

        (1) 基于統(tǒng)計(jì)方法的特征提取 每個(gè)人所持有的卡數(shù)和產(chǎn)生交易的次數(shù)都不同。本文基于統(tǒng)計(jì)的方法提取了大部分特征。提取特征的常見(jiàn)方法有均值、方差、最大值、最小值、時(shí)率、占比等?;旧辖灰字薪^大部分要素都可以通過(guò)統(tǒng)計(jì)的方法衍生出眾多的特征。

        (2) 利用聚類方法,計(jì)算行為特征模型 有些人偏愛(ài)消費(fèi),有些人偏愛(ài)存取。依據(jù)每個(gè)人不同的行為偏好,采用聚類的方法將目標(biāo)用戶分為幾類,利用聚類方法針對(duì)不同群體計(jì)算行為特征。聚類的場(chǎng)景可以是交易時(shí)間、交易渠道、交易金額、交易次數(shù)、交易頻率等。例如,消費(fèi)行為聚類特征,將交易渠道分為四類{ POS ,ATM,電腦互聯(lián)網(wǎng)消費(fèi),其他},計(jì)算每個(gè)持卡人各個(gè)渠道的交易占比,以此4個(gè)特征作為聚類特征,利用Kmeans算法,將樣本用戶劃分為幾類。

        (3) 依據(jù)經(jīng)驗(yàn)知識(shí),刻畫(huà)信用特征 構(gòu)造用戶畫(huà)像主要是依靠?jī)?nèi)部和外部的信用經(jīng)驗(yàn),抽象出影響個(gè)人信用風(fēng)險(xiǎn)的關(guān)鍵性因素,依據(jù)交易數(shù)據(jù)實(shí)現(xiàn)關(guān)鍵因素的計(jì)算。在信用領(lǐng)域、還款能力、還款意愿,資金管理能力等都是影響信用評(píng)估的關(guān)鍵。

        1.2 特征篩選

        通過(guò)以上三種方法,計(jì)算了大約2 000多特征。這里有許多特征對(duì)于信用評(píng)估是無(wú)用的,甚至有負(fù)面作用。特征選擇減少特征的數(shù)量,使模型泛化能力更強(qiáng)。本文采用特征選擇的方法有:

        (1) IV值 IV值,即information value,中文表述為信息量或信息值,其主要作用就是當(dāng)我們?cè)谟脹Q策樹(shù)或邏輯回歸構(gòu)建分類模型時(shí)對(duì)變量進(jìn)行篩選。IV值就是衡量自變量對(duì)于標(biāo)簽特征的區(qū)分能力,IV值越大,區(qū)分能力越強(qiáng)。本文設(shè)置IV值的閾值為0.04,篩選掉IV值小于0.04的特征變量。

        (2) 相關(guān)性過(guò)濾 相關(guān)系數(shù)用于考察兩個(gè)變量或特征之間的相關(guān)程度。如果相關(guān)性過(guò)高,會(huì)導(dǎo)致模型重復(fù)計(jì)算。因此,需要過(guò)濾掉相關(guān)性過(guò)高的特征,本文設(shè)定線性相關(guān)性閾值為0.5.當(dāng)兩個(gè)變量相關(guān)性大于0.5時(shí),保留IV值較大的特征變量。

        2 信用評(píng)分模型

        一般的分類算法,輸出的并不是一個(gè)評(píng)分,而是一個(gè)類別。信用評(píng)分的優(yōu)勢(shì)在于可以在實(shí)際評(píng)估審核用戶的貸款資格時(shí),依據(jù)其他信息,狀況做出更切實(shí)的調(diào)整;并且信用狀況本身通過(guò)二分類問(wèn)題簡(jiǎn)單描述,并不完全適合。因此本文通過(guò)集成學(xué)習(xí)方法,訓(xùn)練多個(gè)成員分類器,通過(guò)設(shè)計(jì)融合函數(shù),達(dá)到評(píng)分的效果。

        決策樹(shù)是一種實(shí)用,高效的學(xué)習(xí)算法。它有著許多良好的特性,比如訓(xùn)練時(shí)間負(fù)責(zé)度低,預(yù)測(cè)時(shí)間短等,但同時(shí),單獨(dú)一棵決策樹(shù)也有許多缺點(diǎn),比如容易過(guò)度擬合。通過(guò)集成學(xué)習(xí)方法,可以大大減少單決策樹(shù)帶來(lái)的負(fù)面影響。隨機(jī)森林是集成學(xué)習(xí)的一種方法,本文采用隨機(jī)森林的方法,利用上一步計(jì)算篩選所得的特征,引入隨機(jī)代價(jià)矩陣,學(xué)習(xí)和訓(xùn)練模型。

        2.1 引入隨機(jī)性

        一般而言,在信貸領(lǐng)域?qū)⒖蛻舴譃閮刹糠郑徊糠质切刨J行為較好的用戶,我們將客戶在借貸后,按期還款,視為“好客戶”;有一些客戶在借款后,未能按期還款,拖延達(dá)一定日期后,我們認(rèn)定這類客戶為“壞”客戶。為方便起見(jiàn),定義“壞”客戶為正樣本,“好”客戶為負(fù)樣本。樣本中正樣本和負(fù)樣本比例不均衡。同樣一個(gè)正例帶來(lái)的損失遠(yuǎn)遠(yuǎn)大于好客戶帶來(lái)的收益。因此在訓(xùn)練成員分類器時(shí),設(shè)置代價(jià)敏感矩陣。

        (1)

        式中:vbad是一個(gè)壞客戶被誤判為好客戶所造成的的損失,vgood是對(duì)于好客戶誤判造成的損失,正確分類的代價(jià)為0。

        隨機(jī)森林是由多個(gè)決策樹(shù)組成的分類器,為了確保成員分類器之間的差異性,隨機(jī)選擇F個(gè)輸入特征來(lái)對(duì)決策樹(shù)的結(jié)點(diǎn)進(jìn)行分裂。隨機(jī)森林的相關(guān)性取決與F的大小。F越小,成員樹(shù)之間的相關(guān)性越弱。

        集成學(xué)習(xí)對(duì)于弱分類器有提升效果,保證了成員分類器之間具有一定的差異性。本文設(shè)計(jì)隨機(jī)代價(jià)敏感矩陣向量,以提升成員分類器的差異性。設(shè)λ為均勻分布,記為λ~U(1/a,a)(a>1),隨機(jī)代價(jià)矩陣表示為:

        (2)

        針對(duì)每一個(gè)成員分類器產(chǎn)生一個(gè)隨機(jī)代價(jià)矩陣,從而形成隨機(jī)代價(jià)向量。隨機(jī)代價(jià)向量表示為:

        CV={cv1,cv2,…,cvm}

        (3)

        本文所提算法RCV-RF算法流程如下

        算法1,RCV-RF

        輸入:訓(xùn)練樣本集X=[x1,x2,…,xn]

        步驟1從訓(xùn)練集X中,采用booststrap方法有放回地隨機(jī)抽取m個(gè)樣本集,構(gòu)成新的樣本集X={X1,X2,…,Xm}。

        步驟2引入隨機(jī)代價(jià)敏感向量CV,設(shè)置每個(gè)子樹(shù)訓(xùn)練的代價(jià)敏感矩陣。

        步驟3設(shè)n個(gè)特征,則在每一棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取F個(gè)特征,進(jìn)行節(jié)點(diǎn)分裂。

        步驟4將生成的多棵樹(shù)組成隨機(jī)森林。

        2.2 融合函數(shù)

        通過(guò)訓(xùn)練產(chǎn)生m個(gè)成員分類器,在模型決策時(shí),需要將每個(gè)成員分類器預(yù)測(cè)的結(jié)果進(jìn)行融合,輸出一個(gè)評(píng)分。信用評(píng)分可以表示為多個(gè)成員分類器中認(rèn)為是好客戶的占比。信用評(píng)分可以表示為:

        (4)

        式中:Cj(x)為第j個(gè)成員分類器預(yù)測(cè)的結(jié)果,δ(·)為指示函數(shù),如果Cj(x)輸出等于good為1,否則為0。

        信用評(píng)分是由多個(gè)分類器投票產(chǎn)生,可能造成低分段和高分段的人數(shù)聚集過(guò)多,中間分段的人數(shù)過(guò)少。遇到這種情況,可以通過(guò)調(diào)大均勻分布的范圍來(lái)達(dá)到分值覆蓋人數(shù)相對(duì)均勻的目的。

        3 實(shí)驗(yàn)對(duì)比

        本文采用的數(shù)據(jù)包含兩部分,一部分是使用過(guò)信用產(chǎn)品的客戶信息及還款情況,另一部分是相關(guān)客戶在銀聯(lián)渠道的交易數(shù)據(jù)。本文只采集借款之前的交易數(shù)據(jù),借款之后的交易數(shù)據(jù)不參與建模。模型用于客戶申請(qǐng)貸款的資格核準(zhǔn)??蛻艚栀J的場(chǎng)景為互聯(lián)網(wǎng)消費(fèi)金融,用戶通過(guò)手機(jī)認(rèn)證,無(wú)抵押貸款,貸款數(shù)額在3 000~15 000之間。

        由于逾期的時(shí)間不同,所以“壞”可以是不同程度的,從拖延少于15天,15天到30天,一直到30天以上?!皦摹笨蛻魹橛馄诔^(guò)30天的客戶,“好”客戶為逾期小于3天的客戶。數(shù)據(jù)集中有2 643個(gè)壞客戶,34 028個(gè)好客戶,客戶使用信用產(chǎn)品的時(shí)間在3~8月份之間。

        本文依據(jù)時(shí)間將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,3~6月為訓(xùn)練集,訓(xùn)練集用于訓(xùn)練信用模型,7~8月份客戶測(cè)試集用于評(píng)估模型的效果。

        表1 訓(xùn)練集與測(cè)試集大小

        為評(píng)估特征計(jì)算方法有效性,采用IV值作為評(píng)價(jià)指標(biāo),對(duì)一些典型的特征做分析。為了比較提出的算法RCV-RF優(yōu)劣性,本文選擇對(duì)比的算法有RF,GBDT,Adaboost。采用ROC、AUC、K-S作為評(píng)價(jià)指標(biāo),對(duì)比算法結(jié)果。

        3.1 特征分析

        前文中提到,課題通過(guò)不同的方法,計(jì)算信用相關(guān)的特征變量,從而構(gòu)造用戶畫(huà)像。本節(jié)首先分析一些典型的用戶畫(huà)像特征。

        從表2可以看出,交易行為,消費(fèi)金額的特征對(duì)于逾期風(fēng)險(xiǎn)有著較強(qiáng)的相關(guān)性。往往消費(fèi)金額越大,在消費(fèi)金融信貸產(chǎn)品上逾期的風(fēng)險(xiǎn)就會(huì)越低。經(jīng)常出現(xiàn)刷卡余額不足的情況,說(shuō)明了客戶缺乏對(duì)資金管理的意識(shí),潛在地提升了逾期的風(fēng)險(xiǎn)。這些特征對(duì)于好壞客戶有著較為明顯的區(qū)分度,并且絕大部分特征對(duì)于壞客戶占比都呈現(xiàn)單調(diào)性。為本文后續(xù)建模提供了有力的支持。依據(jù)IV值和相關(guān)性等方法,特征選擇出115維特征。

        表2 部分特征的IV值

        3.2 實(shí)驗(yàn)結(jié)果對(duì)比

        本文選擇了GBDT、RF、Adaboost三種經(jīng)典的集成學(xué)習(xí)算法作為比較算法,所有算法均采用上文計(jì)算篩選所得特征集,使用3~6月份的數(shù)據(jù)做訓(xùn)練,7~8月份數(shù)據(jù)做測(cè)試,且使用相同的數(shù)據(jù)集訓(xùn)練與評(píng)估。如表3所示。

        表3 模型的KS值對(duì)比

        如圖1所示,是本文算法和常用集成學(xué)習(xí)算法的ROC對(duì)比圖。從圖中可以看出,本文所提算法RCV-RF的AUC值為0.70略高于RF,GBDT算法,Adaboost算法效果與其他三種算法效果差距明顯。通過(guò)KS值比較,RCV-RF算法亦優(yōu)于其他算法。

        圖1 模型效果ROC圖

        4 結(jié) 語(yǔ)

        本文基于銀行卡的交易數(shù)據(jù),針對(duì)互聯(lián)網(wǎng)消費(fèi)信貸場(chǎng)景進(jìn)行分析,提取有效的特征集,建立一個(gè)用于信用評(píng)估的模型,并通過(guò)與其他常用算法對(duì)比,驗(yàn)證本文所提算法的有效性。本文主要分為兩部分。首先,本文通過(guò)三種計(jì)算方式,提取在信用評(píng)估上具價(jià)值的特征變量,構(gòu)建了基于交易數(shù)據(jù)的用戶信用畫(huà)像,這些特征對(duì)于模型訓(xùn)練起到了關(guān)鍵的作用。其次,本文算法通過(guò)引入隨機(jī)代價(jià)敏感向量的方式,增強(qiáng)了成員分類器之間的差異性,并且通過(guò)評(píng)分融合函數(shù)使信用評(píng)分更為合理、有效。

        參 考 文 獻(xiàn)

        [1] 石勇,孟凡.信用評(píng)分基本理論及其應(yīng)用[J].大數(shù)據(jù),2017(1):19-26.

        [2] 陳云,石松,潘彥,等.基于SVM混合集成的信用風(fēng)險(xiǎn)評(píng)估模型[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(4):115-120.

        [3] 胡來(lái)豐.基于粗糙集BP神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[D].電子科技大學(xué),2015.

        [4] 葉菁菁,吳斌,董敏.P2P網(wǎng)貸個(gè)人信用評(píng)估國(guó)內(nèi)外研究綜述[J].商業(yè)時(shí)代,2015(31):109-111.

        [5] 李孟來(lái).我國(guó)個(gè)人信用評(píng)分模型的應(yīng)用探討[J].金融管理與研究:杭州金融研修學(xué)院學(xué)報(bào),2009(2):52-54.

        [6] 馬海英.基于神經(jīng)網(wǎng)絡(luò)及Logistic回歸的混合信用卡評(píng)分模型[J].華東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2008,23(2):49-52.

        [7] 沈翠華,鄧乃揚(yáng),肖瑞彥.基于支持向量機(jī)的個(gè)人信用評(píng)估[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(23):198-199.

        [8] 姜明輝,謝行恒,王樹(shù)林,等.個(gè)人信用評(píng)估的Logistic-RBF組合模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(7):1128-1130.

        [9] King G,Zeng L.Logistic Regression in Rare Events Data[J].Political Analysis,2001,9(2):137-163.

        [10] Shuang C,Wei X.Design and Selection of Construction,Parameters and Training Method of BP Network[J].Computer Engineering,2001,92:336-337.

        [11] Osuna E,Freund R,Girosi F.Training svm:An Application to Face Detection[C]//Proceedings of CVPR’97,June 17-19,1997.

        [12] Orgler Y E.A Credit Scoring Model for Commercial Loans[J].Journal of Money Credit & Banking,1970,2(4):435-445.

        [13] Huang C L,Chen M C,Wang C J.Credit Scoring with A Data mining Approach Based on Support Vector Machines[M].Pergamon Press,Inc.2007.

        [14] Chen C,Breiman L.Using Random Forest to Learn Imbalanced Data[J].2004.

        猜你喜歡
        個(gè)人信用分類器信用
        為食品安全加把“信用鎖”
        基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
        個(gè)人信用信息何以應(yīng)由憲法保護(hù)?——一個(gè)制度論證的進(jìn)路
        法大研究生(2020年2期)2020-01-19 01:43:22
        信用收縮是否結(jié)束
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        信用中國(guó)網(wǎng)
        信用消費(fèi)有多爽?
        嚴(yán)重交通違法行為將直接與個(gè)人信用掛鉤
        汽車與安全(2016年5期)2016-12-01 05:22:05
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        国产精品亚洲精品日韩动图| 国产suv精品一区二人妻| 免费人成毛片乱码| 东京热加勒比日韩精品| 亚洲av高清不卡免费在线| 亚洲av成人无遮挡网站在线观看| 波多野结衣中文字幕久久| 国产成人综合日韩精品无| 三级国产自拍在线观看| 国产综合色在线精品| 久久婷婷国产剧情内射白浆 | 日产精品一区二区三区免费| 久久精品女同亚洲女同| 亚洲精品成人片在线观看精品字幕 | 宅男久久精品国产亚洲av麻豆 | 亚洲精品国产第一区二区| 伊人久久精品久久亚洲一区| 国产精品九九热| 国产av精品一区二区三区视频| 日韩国产人妻一区二区三区| 野花社区www高清视频| 中国免费av网| 日韩精品一区二区三区乱码| 免费看黑人男阳茎进女阳道视频| 国产啪精品视频网给免丝袜| 亚洲一区二区三区美女av| 国产精品一区二区日本| 四川老熟女下面又黑又肥 | 精品乱码卡1卡2卡3免费开放 | 一区二区人妻乳中文字幕| 最新日本一道免费一区二区| 国产精品黄网站免费观看| 亚洲天堂免费成人av| 国产情侣一区二区三区| 最好看的最新高清中文视频| 永久免费毛片在线播放| 久久狼精品一区二区三区| 亚洲精品无码不卡在线播放he| 9久9久女女热精品视频免费观看| 日本免费大片一区二区三区 | 青青草精品在线视频观看|