[摘要] 本文以對(duì)商業(yè)銀行信用卡歷史客戶數(shù)據(jù)為研究對(duì)象,介紹了數(shù)據(jù)挖掘方法中決策樹C4.5算法和關(guān)聯(lián)規(guī)則Apriori算法的應(yīng)用,并通過weka軟件進(jìn)行實(shí)證分析,從而為銀行信用卡客戶信用程度評(píng)定提供了決策支持。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 決策樹 關(guān)聯(lián)規(guī)則
隨著我國(guó)信用卡業(yè)務(wù)的不斷發(fā)展,銀行信用卡業(yè)務(wù)中存有的大量的客戶信息已經(jīng)構(gòu)成了一個(gè)信息數(shù)據(jù)庫,分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫殂y行決策提供真正有價(jià)值的信息。信用卡額度的大小依賴于客戶信用程度的高低,信用程度是依據(jù)申請(qǐng)人申請(qǐng)信用卡時(shí)所填寫的資料和提供的相關(guān)證明文件綜合評(píng)定核給的。銀行對(duì)申請(qǐng)人的信用程度進(jìn)行評(píng)定審核時(shí),會(huì)考慮年齡、職業(yè)、存款、資產(chǎn)和住房等各種因素,并對(duì)每一項(xiàng)都按照一定的標(biāo)準(zhǔn)予以考核,銀行在評(píng)估這些因素及相應(yīng)風(fēng)險(xiǎn)以后就可以決定申請(qǐng)人的信用卡額度大小。
一、分類和決策樹方法中的C4.5算法
1.基本概念
數(shù)據(jù)挖掘中分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型, 即所說的分類器(classifier)。該函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定類別中的某一個(gè),從而用于預(yù)測(cè)。
決策樹是利用一系列規(guī)則構(gòu)建一棵樹,它可高度自動(dòng)化地建立起易于為用戶所理解的模型,并且具有較好地處理缺省數(shù)據(jù)及帶有噪聲數(shù)據(jù)等能力。
不確定性的最佳評(píng)估方法是平均信息量,即信息熵(Entropy):
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文