亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征工程和樹增強貝葉斯網(wǎng)絡的個人信用評估研究*

2023-01-30 04:27:00范彥勤黃海午楊智凱

桂林航天工業(yè)學院學報 2022年4期

范彥勤黃海午楊智凱

(1 桂林航天工業(yè)學院理學院，廣西桂林 541004；2 桂林航天工業(yè)學院科技處，廣西桂林 541004)

隨著我國經(jīng)濟的快速發(fā)展，個人消費信貸業(yè)務急劇增長，個人信用評估顯得尤為重要。個人信用評估模型主要包括統(tǒng)計方法、專家系統(tǒng)、數(shù)學規(guī)劃、分類樹(CART)、K最鄰近算法(KNN)、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(ANN)、貝葉斯網(wǎng)絡(BN)及各類集成算法等。其中，貝葉斯網(wǎng)絡分類模型作為一種先驗知識與樣本信息相結(jié)合、依賴關系與概率表示相結(jié)合的分類方法，具有良好的分類精度，廣泛應用于各領域中。尤其是高效應用的樹增強貝葉斯分類器(TANC)，放松了樸素貝葉斯分類器(NBC)中的條件獨立假設，具有較好的綜合性能。目前國內(nèi)外研究個人信用評估模型的重點，主要是通過對機器學習算法[1-4]的改進，實現(xiàn)模型的不斷優(yōu)化。綜述各類評估模型，目前仍存在一些不足：如模型構(gòu)建前，數(shù)據(jù)的優(yōu)化和準備工作，特別是合理有效的特征選擇、不平衡數(shù)據(jù)處理等問題，會對后續(xù)模型構(gòu)建的穩(wěn)定性造成影響；同時模型的選擇不當，將直接影響分類結(jié)果。

針對以上問題的分析，本文基于特征工程，通過數(shù)據(jù)平衡、特征編碼和特征選擇，達到優(yōu)化數(shù)據(jù)集的目的，減少后續(xù)模型的輸入和數(shù)據(jù)的維數(shù)；然后把特征選擇后的屬性特征應用到樹增強貝葉斯分類器(TANC)上，建立個人信用評估模型。并使用真實數(shù)據(jù)進行對比驗證，結(jié)果表明該模型在不同分區(qū)數(shù)據(jù)集上分類準確率高，模型性能良好，同時減少了模型的計算量，有效地縮短了評估所需的時間。

1 特征工程

1.1 數(shù)據(jù)平衡

目前有效使用的個人信用評估數(shù)據(jù)集大多不平衡，常用的方法如下：從數(shù)據(jù)本身出發(fā)，改變數(shù)據(jù)集分布，減少數(shù)據(jù)的不平衡性；改進算法，減少模型對多數(shù)類樣本的依賴，該方法對先驗知識的要求較高；SMOTE[5-6]數(shù)據(jù)合成法，即合成少數(shù)類過采樣技術(shù)，通過對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工插值合成新樣本，實現(xiàn)跟大類樣本數(shù)據(jù)相當)添加到數(shù)據(jù)集中，構(gòu)成均衡數(shù)據(jù)集，其中本文處理方法基于此合成法。

1.2 特征選擇

常用的特征選擇方法分為以下三種[7-8]，如圖1所示。

圖1 特征選擇方法分類

各方法均有優(yōu)劣性，其中Pearson相關系數(shù)可以有效避免評分等級膨脹(grade inflation)的問題，且簡單易操作。因此，本文在特征選擇方面，采用過濾法中的Pearson相關系數(shù)法。Pearson 相關系數(shù)法，主要用來反映變量間相似度的統(tǒng)計量。計算公式如式(1)：

(1)

其中：r表示相關程度，取值為[-1,1]。通常，r小于0.4為弱相關，r大于0.6為強相關，大于0.8為極強相關。

2 樹增強樸素貝葉斯分類器(TANC)

貝葉斯分類器[9]應用廣泛，具有良好的分類性能和穩(wěn)健性，它的原理是將先驗概率與后驗概率相結(jié)合，利用已知的先驗信息和樣本數(shù)據(jù)集信息，獲得其后驗概率，并將具有最大后驗概率的類作為所屬的類。其中NB和TANC 分類器最具有代表性。貝葉斯定理可表示為：

P(C=cj|x1,x2,…,xn)

=aP(cj)·P(x1,x2,…,xn|cj)

(2)

其中：a是正則化因子；P(cj)是類cj的先驗概率；P(cj|x1,x2,…,xn)是類cj的后驗概率。

樹擴展樸素貝葉斯分類器(TANC)[10-11]是基于NB的改進，放寬了獨立性假設要求，允許屬性變量除類變量為父結(jié)點外,至多有1個其他的屬性作為其父結(jié)點，各屬性變量之間可形成一個樹形結(jié)構(gòu)。由于限制每個屬性結(jié)點最多有一個非類變量的父結(jié)點，因此可以進行有效的學習。TANC分類器的一個例子如圖2所示。

圖2 樹擴展樸素貝葉斯分類器

TANC模型構(gòu)造方法如下[11]：

a)計算各屬性變量間的條件互信息I(Xi;Xj|C)，

(3)

b)構(gòu)造一個完全無向圖，它的頂點是屬性變量。標注Xi和Xj相連接邊的權(quán)重為I(Xi;Xj|C)且i≠j。

c)建立一個最大的權(quán)重跨度樹。

d)將選擇出的父節(jié)點指向子節(jié)點，把無向樹轉(zhuǎn)化為有向樹。

e)增加一個類變量節(jié)點及類變量節(jié)點與屬性節(jié)點之間的弧。

貝葉斯分類模型的復雜度一般為o(n2)或者o(n)，其中n為屬性節(jié)點的個數(shù)，因此通過特征選擇后的屬性節(jié)點將簡化建模的輸入，減少計算量，縮短評估時間。

3 實驗結(jié)果及分析

3.1 樣本數(shù)據(jù)

本文數(shù)據(jù)采用UCI[12]上德國個人信用評估數(shù)據(jù)集。樣本總數(shù)為1000條，信用分類結(jié)果為好和壞兩種，其中好壞客戶樣本占比為7∶3。包含其中20個為特征變量，1個類變量。20個特征變量中，數(shù)值型7個，字符型13個，表1給出了德國信用數(shù)據(jù)的屬性，表2給出德國信用數(shù)據(jù)的分布。

表1 德國信用數(shù)據(jù)的屬性

表2 德國信用數(shù)據(jù)的分布

3.2 數(shù)據(jù)預處理

由于本文采用數(shù)據(jù)中好壞客戶樣本比為7∶3，存在一定的不平衡性。本文對非數(shù)值型數(shù)據(jù)進行編碼，根據(jù)類別的數(shù)量分別用自然數(shù)0～N之間替代；采用Z-Score標準化數(shù)據(jù)集；采用SMOTE過采樣，對樣本數(shù)據(jù)平衡處理；最后利用Pearson 相關系數(shù)法進行特性選擇，作為TANC的輸入節(jié)點。

3.3 模型構(gòu)建

本文基于IBM SPSS modeler18.0軟件構(gòu)建三種模型如下：

模型一，不對數(shù)據(jù)進行平衡處理和特征選擇，直接構(gòu)建模型。

模型二，先對數(shù)據(jù)進行分區(qū)、平衡處理，再對數(shù)據(jù)進行特征選擇后構(gòu)建模型。

模型三，只對數(shù)據(jù)進行分區(qū)、平衡處理，未進行特征選擇，然后構(gòu)建模型。圖3給出評估流程圖，圖4給出不同特征工程下整體模型構(gòu)建過程。

圖3 評估流程圖

圖4 不同特征工程下的整體模型

3.4 實驗結(jié)果及分析

3.4.1 模型評估指標

分類準確率作為評價模型優(yōu)劣的重要指標，但對于不平衡數(shù)據(jù)的個人信用評估研究，還需要引入混淆矩陣、ROC曲線及AUC值，共同作為模型評價指標。其中混淆矩陣規(guī)定如表3：

表3 混淆矩陣

3.4.2 仿真實驗結(jié)果

3.4.2.1 預測變量重要性及模型構(gòu)建圖

本文數(shù)據(jù)中的20個特征變量經(jīng)過篩選后，根據(jù)變量重要性，選取前13個特征變量作為后續(xù)建模的輸入，同時進行數(shù)據(jù)分區(qū)，訓練集與測試集占比為7∶3，前者用于模型的訓練，后者用于對模型進行評價。其中圖5給出前10個重要性大于0.95的特征變量，通過特征變量重要性排序，有利于幫助決策者進行有效判斷。圖6給出基于特征選擇的TANC模型圖。

圖5 預測變量重要性排序

圖6 基于特征選擇的TANC模型

20個特征變量選擇出13個作為后續(xù)建模的輸入，節(jié)點輸入減少了35%，有效降低數(shù)據(jù)維數(shù)，減少冗余，降低模型復雜度。

3.4.2.2 基于特征工程的TANC模型實驗結(jié)果及分析

ROC和AUC作為模型性能度量的重要評估方法，有著較為廣泛的應用。其中，ROC曲線[13-14]描述的是分類器性能隨著分類器閾值的變化而變化的過程。對于ROC曲線，如果橫軸是1-特異度，縱軸是靈敏度。那么該彎曲曲線與45度的直線形成一個曲線下面積，即為 AUC，AUC越大，說明判斷的效果越好。面積越接近于1，識別能力越強。一般合適的模型，AUC值不低于0.5。基于三種不同模型進行建模分析，給出三種模型分別在訓練集和測試集上的ROC曲線，具體曲線如下圖7、8、9所示：

圖7 模型1 ROC曲線

圖8 模型2 ROC曲線

圖9 模型3 ROC曲線

給出三種模型分別在訓練集和測試集上的分類正確率、錯誤率、AUC值，分類結(jié)果如表4所示：

表4 三種模型評估度量

模型1：直接構(gòu)建的TANC模型；模型2：基于特征工程的TANC模型；模型3：只對數(shù)據(jù)進行分區(qū)、平衡處理，未進行特征選擇，所構(gòu)建的TANC模型。

表4中的數(shù)值是驗證結(jié)果的平均值，給出了三種模型評估度量。分“訓練”“測試”兩個不同的數(shù)據(jù)集，分別給出了準確和錯誤率。由表4分類結(jié)果不難得出：基于特征工程的TANC模型(模型2)，在“訓練”“測試”兩個數(shù)據(jù)集上的分類準確率最高，錯誤率最低。

由圖7、圖8、圖9，三種模型下ROC曲線及表4中三種模型對應的AUC值大小，可以得出，基于特征工程的TANC模型(模型2)，在“訓練”“測試”兩個數(shù)據(jù)集上不僅分類效果均最好，且模型性能優(yōu)越。

3.4.2.3 基于特征工程的TANC模型與其他模型性能比較

為了進一步驗證基于特征工程的TANC模型的有效性和穩(wěn)健性，將此模型與常見的NBC、SVM、 KNN、 CART 、ANN模型的準確率進行實驗比較，結(jié)果如表5所示：

表5 基于特征工程的各信用評估模型的分類結(jié)果

表5(續(xù))

CART模型在訓練集中的準確率略高于TANC模型，但個人信用評估更為看重測試集中的分類準確率，綜合各類模型，可以得出基于特征工程和樹增強貝葉斯網(wǎng)絡的個人信用評估模型在信用評估中分類效果較好，模型可靠性較高，具有良好的推廣應用價值。

4 結(jié)束語

針對目前個人信用評估數(shù)據(jù)，存在著不平衡性、屬性指標較多、模型分類準確度不高等問題，模型構(gòu)建前的數(shù)據(jù)集的選取、平衡、分區(qū)、特征選擇和優(yōu)化顯得較為關鍵。本文討論了一種基于特征工程和TANC模型的個人信用評估模型。基于SPSS Modeler 18.0軟件進行模型構(gòu)建，通過實驗驗證結(jié)果可得，該模型通過特征工程，優(yōu)化了數(shù)據(jù)集，減少了構(gòu)建模型的輸入，在兩個不同分區(qū)的數(shù)據(jù)集上均取得了較高的準確率，尤其是在測試集中準確率較高，且通過ROC曲線、AUC值，論證了模型的分類效果好，性能良好。同時將該模型與其他信用評估模型相比較，也取得了較優(yōu)的分類準確率，進一步證明該模型的穩(wěn)健性。還可以進一步探究將該模型應用到其他相關領域中。