■王興宇 四川大學(xué)
目前,我國的信用卡業(yè)務(wù)雖然還處于發(fā)展初期,但是隨著客戶貸款數(shù)量的迅速增長,為了防范潛在風(fēng)險(xiǎn),減少發(fā)卡機(jī)構(gòu)的損失。在對(duì)客戶發(fā)放信用卡之前,對(duì)其進(jìn)行信用評(píng)估已成為解決客戶信用風(fēng)險(xiǎn)的重要方法之一。決策樹是基于統(tǒng)計(jì)理論的非參數(shù)識(shí)別技術(shù),可以自動(dòng)進(jìn)行變量選擇,降低維數(shù),分類結(jié)果表達(dá)形式簡(jiǎn)單易懂,并可有效的用于對(duì)數(shù)據(jù)的處理,所以被廣泛應(yīng)用于數(shù)據(jù)挖掘的分類當(dāng)中。但對(duì)于現(xiàn)實(shí)的信用評(píng)估問題,由于客戶的信息量大、屬性多,單獨(dú)使用決策樹易造成運(yùn)算過程復(fù)雜。這就需要在建立決策樹之前刪除多余的屬性,然后再用決策樹進(jìn)行分類。本文利用澳大利亞銀行的數(shù)據(jù)研究信用評(píng)估問題,在建立決策樹之前,采用GMDH輸入輸出模型先挑選中對(duì)分類結(jié)果影響較重要的屬性,然后再利用決策樹進(jìn)行分類,以達(dá)到對(duì)決策樹優(yōu)化的效果。
數(shù)據(jù)分組處理算法(Group Method of Data Handling)是烏克蘭科學(xué)院A.G.Ivakhnenko在1967年首次提出的。GMDH作為一種自動(dòng)產(chǎn)生模型的算法,它使用的是演化(遺傳、變異和選擇)的原則,實(shí)現(xiàn)一個(gè)模型結(jié)構(gòu)綜合和模型確認(rèn)的自動(dòng)化過程,模型從數(shù)據(jù)中自動(dòng)產(chǎn)生,以最優(yōu)的傳遞函數(shù)網(wǎng)絡(luò)的形式,重復(fù)產(chǎn)生大量具有增長復(fù)雜度的競(jìng)爭(zhēng)模型。進(jìn)行相應(yīng)的模型確認(rèn)并留下最好的選擇,直到產(chǎn)生一個(gè)最優(yōu)復(fù)雜度模型。
GMDH方法有兩個(gè)基本思想:(1)以黑箱方法為主要方法分析輸入輸出關(guān)系;(2)用基本函數(shù)的網(wǎng)絡(luò)互聯(lián)來表達(dá)復(fù)雜函數(shù)。它從參考函數(shù)構(gòu)成的初始模型(函數(shù))集合出發(fā),按一定的法則產(chǎn)生新的中間候選模型(遺傳、變異),再經(jīng)過篩選(選擇),重復(fù)這樣一個(gè)遺傳、變異、選擇和進(jìn)化的過程,使中間候選模型的復(fù)雜度不斷增加,直至得到最優(yōu)復(fù)雜度模型。
決策樹是一種類似于流程圖的樹結(jié)構(gòu),起源于20世紀(jì)70年代后期和80年代初期,由J.Ross Quinlan提出了ID3算法,這種算法使用貪心方法,以自頂向下的遞歸的分治方式構(gòu)造,將數(shù)據(jù)從根節(jié)點(diǎn)向下逐步劃分,在內(nèi)部節(jié)點(diǎn)上進(jìn)行屬性的比較,訓(xùn)練集即被遞歸地劃分為子集,最后形成分類的規(guī)則。比較經(jīng)典的決策樹算法有基于信息熵的ID3算法及能處理連續(xù)屬性的C4.5算法。
ID3算法計(jì)算每個(gè)屬性的信息增益,并選取具有最高增益的屬性作為給定集合的測(cè)試屬性。對(duì)被選取的測(cè)試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并以該節(jié)點(diǎn)的屬性標(biāo)記,對(duì)該屬性的每個(gè)值創(chuàng)建一個(gè)分支并以此來劃分樣本。C4.5算法是對(duì)ID3算法的改進(jìn),ID3處理的是離散的屬性,而C4.5算法能處理連續(xù)的屬性,并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):(1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;(2)在樹構(gòu)造過程中進(jìn)行剪枝;(3)能夠完成對(duì)連續(xù)屬性的離散化處理;(4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
針對(duì)信用評(píng)估這一實(shí)際問題,本文將特征提取與決策樹結(jié)合起來構(gòu)建算法模型,以達(dá)到對(duì)決策樹的優(yōu)化。第一階段:先用GMDH特征提取方法對(duì)原有屬性進(jìn)行篩選,從中抽取對(duì)結(jié)果影響較大的屬性;第二階段:用提取出的屬性建立決策樹模型,具體操作步驟如下:
(2)用K-G多項(xiàng)式建立因變量(輸出)和自變量(輸入)之間的一般關(guān)系,例如對(duì)于三輸入單輸出系統(tǒng),可采取二次K-G多項(xiàng)式
(3)從具有外補(bǔ)充性質(zhì)的選擇準(zhǔn)則中選出一個(gè)(或若干個(gè))作為目標(biāo)函數(shù)(體系),或稱為外準(zhǔn)則(體系),產(chǎn)生第一層中間模型。同時(shí)在訓(xùn)練集A上估計(jì)參數(shù),對(duì)第一層中間模型進(jìn)行篩選。根據(jù)外準(zhǔn)則,在檢測(cè)集B上對(duì)第一層中間模型進(jìn)行篩選,選出的中間模型作為網(wǎng)絡(luò)第二層的輸入變量;
(4)形成最優(yōu)復(fù)雜度模型網(wǎng)絡(luò)結(jié)構(gòu)。重復(fù)步驟3,可依次產(chǎn)生第二、第三…層中間模型,最終形成可用于分析的顯式最優(yōu)復(fù)雜度模型。即得出與輸出變量最相關(guān)的幾個(gè)輸入變量,假設(shè)為xi,xj,…xn;
(5)計(jì)算xi,xj,…,xn的信息增益率,以信息增益率最大的屬性作為根節(jié)點(diǎn)的測(cè)試屬性,對(duì)屬性的值創(chuàng)建分支,據(jù)此劃分樣本;
(6)在各節(jié)點(diǎn)內(nèi)計(jì)算剩余屬性的信息增益率,選擇信息增益率最大的屬性作為此分支的下一個(gè)測(cè)試屬性,重復(fù)此步驟直到結(jié)點(diǎn)屬性各分支下的訓(xùn)練樣本屬于同一類或者所有屬性都已被用過為止生成決策樹。
為了驗(yàn)證本文所提方法的效果,本文采用了澳大利亞一家銀行的信貸數(shù)據(jù)作為初始建模樣本,共690條數(shù)據(jù)(已做預(yù)處理)。我們選取了14個(gè)類屬性,1個(gè)決策屬性,并對(duì)其做了相應(yīng)的調(diào)整,例如A4最初有三個(gè)標(biāo)簽屬性p、g、gg,這些標(biāo)簽被改為1、2、3。各類屬性的詳細(xì)信息如表1所示:
表1
用GMDH輸入輸出模型對(duì)原有屬性進(jìn)行提取之后還剩下屬性A5,A8,A9。在此基礎(chǔ)上運(yùn)用C4.5算法得到最優(yōu)樹如圖1所示:
同時(shí)本文也將使用特征提取前C4.5算法的精確度與使用特征提取后C4.5算法的精確度進(jìn)行了對(duì)比,如表2所示。
表2
在信用評(píng)估這一實(shí)際問題中,銀行誤貸款給信用不好的客戶給企業(yè)帶來的損失遠(yuǎn)遠(yuǎn)大于拒絕貸款給信用好的客戶所帶來的損失。因此我們可以從兩方面來評(píng)價(jià)算法的準(zhǔn)確度,一是總的錯(cuò)判率,二是把不好的客戶誤判為好客戶的錯(cuò)判率,從表2可以看出,在這兩方面,GMDH輸入輸出模型與決策樹相結(jié)合的算法比單獨(dú)使用決策樹算法的錯(cuò)判率都低,即前者具有更高的預(yù)測(cè)精確度。
本文采用的GMDH輸入輸出模型對(duì)客戶的屬性進(jìn)行了篩選,選出了對(duì)客戶分類結(jié)果影響較大的屬性,達(dá)到了對(duì)決策樹優(yōu)化的效果,有效的降低了算法的復(fù)雜度,簡(jiǎn)化了整個(gè)決策樹的構(gòu)造。
[1] Xu Peng,Lin Shen.Internet traffic classification using C4.5 decision tree.Journal of Software,2009,20(10):2692-2704.
[2]黃穎,周云軒,吳穩(wěn).基于決策樹模型的上海城市濕地遙感提取與分類[J].吉林大學(xué)學(xué)報(bào),2009,39(6):1156-1162.
[3]黃愛輝.決策樹C4.5算法的改進(jìn)及應(yīng)用[J].科學(xué)技術(shù)與工程,2009,9(1):34-36.
[4]崔健.商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)[D]天津:天津大學(xué)管理學(xué)院,2005.06.
[5]Pan-ning Tan.Michael Steinbach.Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出社.2006:181.