范彥勤 黃海午 楊智凱
(1 桂林航天工業(yè)學院 理學院,廣西 桂林 541004;2 桂林航天工業(yè)學院 科技處,廣西 桂林 541004)
隨著我國經(jīng)濟的快速發(fā)展,個人消費信貸業(yè)務急劇增長,個人信用評估顯得尤為重要。個人信用評估模型主要包括統(tǒng)計方法、專家系統(tǒng)、數(shù)學規(guī)劃、分類樹(CART)、K最鄰近算法(KNN)、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(ANN)、貝葉斯網(wǎng)絡(BN)及各類集成算法等。其中,貝葉斯網(wǎng)絡分類模型作為一種先驗知識與樣本信息相結(jié)合、依賴關系與概率表示相結(jié)合的分類方法,具有良好的分類精度,廣泛應用于各領域中。尤其是高效應用的樹增強貝葉斯分類器(TANC),放松了樸素貝葉斯分類器(NBC)中的條件獨立假設,具有較好的綜合性能。目前國內(nèi)外研究個人信用評估模型的重點,主要是通過對機器學習算法[1-4]的改進,實現(xiàn)模型的不斷優(yōu)化。 綜述各類評估模型,目前仍存在一些不足:如模型構(gòu)建前,數(shù)據(jù)的優(yōu)化和準備工作,特別是合理有效的特征選擇、不平衡數(shù)據(jù)處理等問題,會對后續(xù)模型構(gòu)建的穩(wěn)定性造成影響;同時模型的選擇不當,將直接影響分類結(jié)果。
針對以上問題的分析,本文基于特征工程,通過數(shù)據(jù)平衡、特征編碼和特征選擇,達到優(yōu)化數(shù)據(jù)集的目的,減少后續(xù)模型的輸入和數(shù)據(jù)的維數(shù);然后把特征選擇后的屬性特征應用到樹增強貝葉斯分類器(TANC)上,建立個人信用評估模型。并使用真實數(shù)據(jù)進行對比驗證,結(jié)果表明該模型在不同分區(qū)數(shù)據(jù)集上分類準確率高,模型性能良好,同時減少了模型的計算量,有效地縮短了評估所需的時間。
目前有效使用的個人信用評估數(shù)據(jù)集大多不平衡,常用的方法如下:從數(shù)據(jù)本身出發(fā),改變數(shù)據(jù)集分布,減少數(shù)據(jù)的不平衡性;改進算法,減少模型對多數(shù)類樣本的依賴,該方法對先驗知識的要求較高;SMOTE[5-6]數(shù)據(jù)合成法,即合成少數(shù)類過采樣技術(shù),通過對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工插值合成新樣本,實現(xiàn)跟大類樣本數(shù)據(jù)相當)添加到數(shù)據(jù)集中,構(gòu)成均衡數(shù)據(jù)集,其中本文處理方法基于此合成法。
常用的特征選擇方法分為以下三種[7-8],如圖1所示。
圖1 特征選擇方法分類
各方法均有優(yōu)劣性,其中Pearson相關系數(shù)可以有效避免評分等級膨脹(grade inflation)的問題,且簡單易操作。因此,本文在特征選擇方面,采用過濾法中的Pearson相關系數(shù)法。Pearson 相關系數(shù)法,主要用來反映變量間相似度的統(tǒng)計量。計算公式如式(1):
(1)
其中:r表示相關程度,取值為[-1,1]。通常,r小于0.4為弱相關,r大于0.6為強相關,大于0.8為極強相關。
貝葉斯分類器[9]應用廣泛,具有良好的分類性能和穩(wěn)健性,它的原理是將先驗概率與后驗概率相結(jié)合,利用已知的先驗信息和樣本數(shù)據(jù)集信息,獲得其后驗概率,并將具有最大后驗概率的類作為所屬的類。其中NB和TANC 分類器最具有代表性。貝葉斯定理可表示為:
P(C=cj|x1,x2,…,xn)
=aP(cj)·P(x1,x2,…,xn|cj)
(2)
其中:a是正則化因子;P(cj)是類cj的先驗概率;P(cj|x1,x2,…,xn)是類cj的后驗概率。
樹擴展樸素貝葉斯分類器(TANC)[10-11]是基于NB的改進,放寬了獨立性假設要求,允許屬性變量除類變量為父結(jié)點外,至多有1個其他的屬性作為其父結(jié)點,各屬性變量之間可形成一個樹形結(jié)構(gòu)。由于限制每個屬性結(jié)點最多有一個非類變量的父結(jié)點,因此可以進行有效的學習。TANC分類器的一個例子如圖2所示。
圖2 樹擴展樸素貝葉斯分類器
TANC模型構(gòu)造方法如下[11]:
a)計算各屬性變量間的條件互信息I(Xi;Xj|C),
(3)
b)構(gòu)造一個完全無向圖,它的頂點是屬性變量。標注Xi和Xj相連接邊的權(quán)重為I(Xi;Xj|C)且i≠j。
c)建立一個最大的權(quán)重跨度樹。
d)將選擇出的父節(jié)點指向子節(jié)點,把無向樹轉(zhuǎn)化為有向樹。
e)增加一個類變量節(jié)點及類變量節(jié)點與屬性節(jié)點之間的弧。
貝葉斯分類模型的復雜度一般為o(n2)或者o(n),其中n為屬性節(jié)點的個數(shù),因此通過特征選擇后的屬性節(jié)點將簡化建模的輸入,減少計算量,縮短評估時間。
本文數(shù)據(jù)采用UCI[12]上德國個人信用評估數(shù)據(jù)集。樣本總數(shù)為1000條,信用分類結(jié)果為好和壞兩種,其中 好壞客戶樣本占比為7∶3。包含其中20個為特征變量,1個類變量。20個特征變量中,數(shù)值型7個,字符型13個,表1給出了德國信用數(shù)據(jù)的屬性,表2給出德國信用數(shù)據(jù)的分布。
表1 德國信用數(shù)據(jù)的屬性
表2 德國信用數(shù)據(jù)的分布
由于本文采用數(shù)據(jù)中好壞客戶樣本比為7∶3,存在一定的不平衡性。本文對非數(shù)值型數(shù)據(jù)進行編碼,根據(jù)類別的數(shù)量分別用自然數(shù)0~N之間替代;采用Z-Score標準化數(shù)據(jù)集;采用SMOTE過采樣,對樣本數(shù)據(jù)平衡處理;最后利用Pearson 相關系數(shù)法進行特性選擇,作為TANC的輸入節(jié)點。
本文基于IBM SPSS modeler18.0軟件構(gòu)建三種模型如下:
模型一,不對數(shù)據(jù)進行平衡處理和特征選擇,直接構(gòu)建模型。
模型二,先對數(shù)據(jù)進行分區(qū)、平衡處理,再對數(shù)據(jù)進行特征選擇后構(gòu)建模型。
模型三,只對數(shù)據(jù)進行分區(qū)、平衡處理,未進行特征選擇,然后構(gòu)建模型。圖3給出評估流程圖,圖4給出不同特征工程下整體模型構(gòu)建過程。
圖3 評估流程圖
圖4 不同特征工程下的整體模型
3.4.1 模型評估指標
分類準確率作為評價模型優(yōu)劣的重要指標,但對于不平衡數(shù)據(jù)的個人信用評估研究,還需要引入混淆矩陣、ROC曲線及AUC值,共同作為模型評價指標。其中混淆矩陣規(guī)定如表3:
表3 混淆矩陣
3.4.2 仿真實驗結(jié)果
3.4.2.1 預測變量重要性及模型構(gòu)建圖
本文數(shù)據(jù)中的20個特征變量經(jīng)過篩選后,根據(jù)變量重要性,選取前13個特征變量作為后續(xù)建模的輸入,同時進行數(shù)據(jù)分區(qū),訓練集與測試集占比為7∶3,前者用于模型的訓練,后者用于對模型進行評價。其中圖5給出前10個重要性大于0.95的特征變量,通過特征變量重要性排序,有利于幫助決策者進行有效判斷。圖6給出基于特征選擇的TANC模型圖。
圖5 預測變量重要性排序
圖6 基于特征選擇的TANC模型
20個特征變量選擇出13個作為后續(xù)建模的輸入,節(jié)點輸入減少了35%,有效降低數(shù)據(jù)維數(shù),減少冗余,降低模型復雜度。
3.4.2.2 基于特征工程的TANC模型實驗結(jié)果及分析
ROC和AUC作為模型性能度量的重要評估方法,有著較為廣泛的應用。其中,ROC曲線[13-14]描述的是分類器性能隨著分類器閾值的變化而變化的過程。對于ROC曲線,如果橫軸是1-特異度,縱軸是靈敏度。那么該彎曲曲線與45度的直線形成一個曲線下面積,即為 AUC,AUC越大,說明判斷的效果越好。面積越接近于1,識別能力越強。一般合適的模型,AUC值不低于0.5。基于三種不同模型進行建模分析,給出三種模型分別在訓練集和測試集上的ROC曲線,具體曲線如下圖7、8、9所示:
圖7 模型1 ROC曲線
圖8 模型2 ROC曲線
圖9 模型3 ROC曲線
給出三種模型分別在訓練集和測試集上的分類正確率、錯誤率、AUC值,分類結(jié)果如表4所示:
表4 三種模型評估度量
模型1:直接構(gòu)建的TANC模型;模型2:基于特征工程的TANC模型;模型3:只對數(shù)據(jù)進行分區(qū)、平衡處理,未進行特征選擇,所構(gòu)建的TANC模型。
表4中的數(shù)值是驗證結(jié)果的平均值,給出了三種模型評估度量。分“訓練”“測試”兩個不同的數(shù)據(jù)集,分別給出了準確和錯誤率。由表4分類結(jié)果不難得出:基于特征工程的TANC模型(模型2),在“訓練”“測試”兩個數(shù)據(jù)集上的分類準確率最高,錯誤率最低。
由圖7、圖8、圖9,三種模型下ROC曲線及表4中三種模型對應的AUC值大小,可以得出,基于特征工程的TANC模型(模型2),在“訓練”“測試”兩個數(shù)據(jù)集上不僅分類效果均最好,且模型性能優(yōu)越。
3.4.2.3 基于特征工程的TANC模型與其他模型性能比較
為了進一步驗證基于特征工程的TANC模型的有效性和穩(wěn)健性,將此模型與常見的NBC、SVM、 KNN、 CART 、ANN模型的準確率進行實驗比較,結(jié)果如表5所示:
表5 基于特征工程的各信用評估模型的分類結(jié)果
表5(續(xù))
CART模型在訓練集中的準確率略高于TANC模型,但個人信用評估更為看重測試集中的分類準確率,綜合各類模型,可以得出基于特征工程和樹增強貝葉斯網(wǎng)絡的個人信用評估模型在信用評估中分類效果較好,模型可靠性較高,具有良好的推廣應用價值。
針對目前個人信用評估數(shù)據(jù),存在著不平衡性、屬性指標較多、模型分類準確度不高等問題,模型構(gòu)建前的數(shù)據(jù)集的選取、平衡、分區(qū)、特征選擇和優(yōu)化顯得較為關鍵。本文討論了一種基于特征工程和TANC模型的個人信用評估模型。基于SPSS Modeler 18.0軟件進行模型構(gòu)建,通過實驗驗證結(jié)果可得,該模型通過特征工程,優(yōu)化了數(shù)據(jù)集,減少了構(gòu)建模型的輸入,在兩個不同分區(qū)的數(shù)據(jù)集上均取得了較高的準確率,尤其是在測試集中準確率較高,且通過ROC曲線、AUC值,論證了模型的分類效果好,性能良好。同時將該模型與其他信用評估模型相比較,也取得了較優(yōu)的分類準確率,進一步證明該模型的穩(wěn)健性。還可以進一步探究將該模型應用到其他相關領域中。