亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的銀行信用評分

        2012-10-13 13:46:32石振華
        關(guān)鍵詞:決策樹增益數(shù)據(jù)挖掘

        石振華

        (貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)

        基于決策樹算法的銀行信用評分

        石振華

        (貴州大學(xué) 人民武裝學(xué)院,貴州 貴陽 550025)

        銀行卡在給銀行創(chuàng)造了高額利潤的同時,也帶來了很大的信用風(fēng)險(xiǎn).對于銀行來說,嚴(yán)格把控信用申請者,對其進(jìn)行有效的信用評分和預(yù)測十分關(guān)鍵.采用數(shù)據(jù)挖掘技術(shù)中的決策樹算法能有效屏蔽銀行信用評估中的主觀因素,通過海量數(shù)據(jù)預(yù)處理、決策樹生成等步驟,最后通過相關(guān)算法實(shí)現(xiàn)能客觀地形成預(yù)測值,從而準(zhǔn)確地進(jìn)行信用評分.

        信用評分;決策樹;算法

        1 引言

        在個人消費(fèi)信貸已經(jīng)成為人們慣常消費(fèi)方式的今天,信用卡業(yè)務(wù)越發(fā)體現(xiàn)了其高額利潤和巨大的市場空間,中國的各大商業(yè)銀行也都在加快速度增加在銀行卡業(yè)務(wù)上的投入.但是這樣廣泛的開發(fā)信用卡市場最大的問題就在于高利潤必然伴隨著高風(fēng)險(xiǎn),對信用卡的風(fēng)險(xiǎn)控制逐漸成為一個關(guān)注重點(diǎn).

        伴隨著計(jì)算機(jī)及網(wǎng)絡(luò)的迅速發(fā)展,信用評分廣泛應(yīng)用于銀行卡發(fā)放,但信用評分只能主觀地對信用卡申請者進(jìn)行評估,缺乏合理依據(jù).采用數(shù)據(jù)挖掘技術(shù)進(jìn)行信用評分能客觀地從海量數(shù)據(jù)中構(gòu)建出評分模型,評分結(jié)果更為準(zhǔn)確、有效,有助于信用卡的發(fā)放及管理.

        2 基于數(shù)據(jù)挖掘技術(shù)的信用評分

        使用數(shù)據(jù)挖掘方法中的決策樹算法[1]實(shí)現(xiàn)信用卡申請者的信用評分.下面就該算法的生成過程、構(gòu)造算法、以及具體實(shí)現(xiàn)算法進(jìn)行詳細(xì)介紹,重點(diǎn)敘述該算法運(yùn)用于信用評分的過程.

        2.1 客戶數(shù)據(jù)的預(yù)處理

        從銀行的客戶信息數(shù)據(jù)庫中提取相應(yīng)記錄.在客戶信息表中,有很多屬性雜亂無章或者特征不顯著,在數(shù)據(jù)預(yù)處理時要經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成及轉(zhuǎn)換、數(shù)據(jù)消減等步驟,將所有特征屬性進(jìn)行概化,為下一步生成合理、準(zhǔn)確的決策樹做準(zhǔn)備.

        2.1.1 數(shù)據(jù)清洗

        在客戶信息記錄中,有大量數(shù)據(jù)取值離散并且無共性特征,還有一些數(shù)據(jù)可以用另外一些屬性值來概括,那么就可以刪除掉這些無用數(shù)據(jù).得到屬性如下表1所示.

        表1 個人信用數(shù)據(jù)表

        在個人信用評估的輸入要素中,有“年齡”、“年收入”2個屬性的屬性值為連續(xù)型數(shù)據(jù).

        2.1.2 數(shù)據(jù)集成及轉(zhuǎn)換

        將屬性逐一進(jìn)行概化,例如:文化程度分為4類;職業(yè)類別按工作性質(zhì)來分,共分9類.另外,決策樹技術(shù)進(jìn)行信用評分主要是針對離散型數(shù)據(jù)進(jìn)行分析處理,所以需要將連續(xù)型數(shù)據(jù)離散化,故而進(jìn)行以下調(diào)整:將年收入分為7組離散型數(shù)據(jù);對年齡可分為五組連續(xù)性數(shù)據(jù).

        2.1.3 數(shù)據(jù)消減

        對大規(guī)模數(shù)據(jù)庫內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時間,這就常常使得這樣的分析變得不現(xiàn)實(shí)和不可行,尤其是需要交互式數(shù)據(jù)挖掘時.數(shù)據(jù)消減能從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并保持原有數(shù)據(jù)集的完整性.通過檢測和消除無關(guān)、弱相關(guān)或冗余的屬性達(dá)到消減的目的.

        2.1.4 客戶劃分

        擬選客戶管理特征作為建模的目標(biāo)變量.客戶的管理特征分為優(yōu)良客戶、一般客戶、限制客戶和淘汰客戶.本文的建模目標(biāo)只是劃分為三類:H1:好客戶;H2:一般客戶;H3:淘汰客戶.

        2.2 決策樹生成[2]

        在數(shù)據(jù)預(yù)處理后,進(jìn)行歸納決策樹.用信息增益率來選擇屬性,它克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足,在樹構(gòu)造過程中或者構(gòu)造完成之后,進(jìn)行剪枝,完成對連續(xù)屬性的離散化處理并對于不完整數(shù)據(jù)進(jìn)行處理,采用的知識表示形式為決策樹,并最終可以形成產(chǎn)生式規(guī)則.決策樹算法的主要處理過程如下:

        2.2.1 類別信息值

        設(shè) T 為數(shù)據(jù)集,類別集合為 Ci(i=1,2,……,m),Ti為類別集合Ci中的樣本數(shù),計(jì)算公式為:

        其中Pi是類別Ci的發(fā)生概率,可以用Ti/T來估計(jì).本例中,客戶分為“好客戶”、“一般客戶”和“淘汰客戶”3類:m=3.

        2.2.2 類別條件值

        設(shè)屬性T具有v個值(X1,X2……Xv),它將T分成v個子集(S1,S2……Sv),其中Tj包含T中這樣的一些樣本,它們在屬性X上具有值Xj(j=1,2,……v),以屬性 X為分類所需的期望值(條件值)是:

        2.2.3 信息增益和信息增益率

        屬性X的信息增益函數(shù)為:

        信息增益率可以彌補(bǔ)信息增益函數(shù)輸出分枝多,預(yù)測不準(zhǔn)確這個缺陷.信息增益率能夠去除多分枝屬性的影響.信息增益率在考慮每一次劃分所產(chǎn)生的子結(jié)點(diǎn)的個數(shù)的同時也限制了每個子結(jié)點(diǎn)的大小(包含的數(shù)據(jù)實(shí)例的個數(shù)),而不再考慮分類所蘊(yùn)涵的信息量,屬性X的信息增益率為:

        其中V為該節(jié)點(diǎn)的分枝數(shù),且為第1個分枝下的記錄個數(shù).

        2.2.4 決策樹規(guī)則

        根據(jù)以上決策樹算法,計(jì)算出每個屬性的信息增益I(C,V)以及信息增益率Gaingate(X),在決策樹生成規(guī)則時,應(yīng)該選取信息增益率為最大值的屬性,但信息增益的最小值不低于所有屬性平均值的屬性作為測試點(diǎn),以該屬性作為根結(jié)點(diǎn),根據(jù)屬性的分布逐一畫出分枝,據(jù)此劃分?jǐn)?shù)據(jù).樹葉是所有樣本都在同一個類的結(jié)點(diǎn),需進(jìn)行標(biāo)注,可用客戶類別進(jìn)行標(biāo)注.按照該原則逐步分析,當(dāng)分析到在主屬性上子集中的數(shù)據(jù)記錄取值完全相同,或者屬性已經(jīng)劃分完畢,則形成決策樹對應(yīng)規(guī)則.

        2.3 算法設(shè)計(jì)

        采用面向?qū)ο蟮姆椒ㄟM(jìn)行算法程序的設(shè)計(jì),決策樹部分代碼如下:

        從該評分模型的決策樹算法的剖析中,可以看出決策樹的第一個選擇屬性是年收入,說明年收入是第一個主要的影響因素,這與平常經(jīng)驗(yàn)統(tǒng)計(jì)判斷所得結(jié)果相吻合.而對于高收入群體主要取決于受教育的情況,受教育程度高則信用情況相對較好,根據(jù)大量數(shù)據(jù)得到準(zhǔn)確結(jié)論.

        3 結(jié)論

        數(shù)據(jù)挖掘技術(shù)正在被越來越多的銀行大力投入應(yīng)用,數(shù)據(jù)挖掘技術(shù)的正確使用能幫助銀行改善包括銀行卡業(yè)務(wù)在內(nèi)的各種類型的業(yè)務(wù),并且能增強(qiáng)銀行風(fēng)險(xiǎn)管理、增進(jìn)銀行與客戶的關(guān)系,提高競爭力.運(yùn)用建立的決策樹模型對銀行卡用戶進(jìn)行信用評分,分值高于或等于臨界分值(C1=76)的用戶將獲得通過,并給予較高的信用額度;信用分值低于臨界分值(C0=59)的用戶將被直接拒絕.而信用分值低于臨界分值(C1=76),但高于或等于臨界分值(C0=59)的用戶也將獲得通過,但只給予較低的信用額度,在今后的使用中銀行會根據(jù)實(shí)際用卡情況進(jìn)行實(shí)時的數(shù)據(jù)挖掘采取相關(guān)的營銷策略,這樣銀行可以實(shí)現(xiàn)“低風(fēng)險(xiǎn)、高回報(bào)”.最終最大限度的規(guī)避銀行卡發(fā)放的風(fēng)險(xiǎn),有效地為銀行卡業(yè)務(wù)保駕護(hù)航!

        〔1〕朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.

        〔2〕陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

        F830.589

        A

        1673-260X(2012)01-0075-02

        猜你喜歡
        決策樹增益數(shù)據(jù)挖掘
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于單片機(jī)的程控增益放大器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹的出租車乘客出行目的識別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        亚洲av无码片一区二区三区| 成人无码av一区二区| 中文字幕人乱码中文字幕| 亚洲日韩av一区二区三区中文| 精品水蜜桃久久久久久久| 激情久久av一区av二区av三区| 久久精品国产亚洲AV成人公司| 无码精品人妻一区二区三区人妻斩 | 免费视频成人片在线观看| 女人大荫蒂毛茸茸视频| 久青草国产在线观看| 亚洲欧美在线视频| 人妻少妇精品视中文字幕国语| 少妇人妻偷人中文字幕| 99久久国产精品免费热| 国产猛男猛女超爽免费视频| 亚洲国产成人精品无码区二本| 人人妻人人澡人人爽人人精品| 久精品国产欧美亚洲色aⅴ大片| 激,情四虎欧美视频图片| 国产精品午夜福利亚洲综合网 | 久久亚洲av成人无码国产最大| av综合网男人的天堂| 男女男在线精品网站免费观看 | 一本无码人妻在中文字幕| 国产内射视频在线播放| 日本国产一区在线观看| 色欲一区二区三区精品a片| av一区二区三区人妻少妇| 亚洲黄视频| 99久久免费精品色老| 亚洲熟妇av一区二区在线观看| www国产亚洲精品久久麻豆| 久久久久久国产精品免费免费男同| 伊伊人成亚洲综合人网7777| 成人免费无码a毛片| 亚洲一本二区偷拍精品| 四虎影在永久在线观看| 特级毛片爽www免费版| 国农村精品国产自线拍| 69av视频在线|