劉瀟雅,王應(yīng)明
(福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350108)
在無抵押純信用小額個人貸款越來越有熱度的當(dāng)今社會,銀行等金融行業(yè)越來越重視個人消費(fèi)型貸款業(yè)務(wù),信用評估也成為了大家關(guān)注的焦點(diǎn)和金融機(jī)構(gòu)評估信貸風(fēng)險、增加現(xiàn)金流量、降低違約率的主要方法[1].個人信用評估的原理是根據(jù)貸款申請人的收入,支出,工作性質(zhì)等基本信息和過去的表現(xiàn)等特征建立信用評估模型,并用該模型對具有相同特征的未來申請者的信用進(jìn)行預(yù)測[2],區(qū)分出來“好”的貸款和“壞”的貸款,從而協(xié)助銀行等金融機(jī)構(gòu)做出是否放貸的決策.因此,如何能夠在現(xiàn)有信用環(huán)境下選取科學(xué)、高效的信用評估方法,從而對貸款申請人做出有效的信用評估,顯得尤為重要[3].
傳統(tǒng)用于信用評估的主要是統(tǒng)計學(xué)方法比如logistic 回歸,判別分析等,這些方法雖簡單,但處理非線性問題時效果較差.隨著計算機(jī)的進(jìn)步,人工智能等方法已經(jīng)被用來進(jìn)行信用評估,比如神經(jīng)網(wǎng)絡(luò)(ANN)[4]、支持向量機(jī)(SVM)[5]、決策樹(DT)[6]等.人工智能的方法可以有效解決非線性問題,但存在一定缺陷.例如神經(jīng)網(wǎng)絡(luò)基于經(jīng)驗風(fēng)險最小化原則常常會出現(xiàn)“過擬合”現(xiàn)象,泛化能力比較差.此時基于結(jié)構(gòu)風(fēng)險最小化原則的支持向量機(jī)由于很強(qiáng)的泛化推廣能力,且在解決小樣本、非線性識別問題中表現(xiàn)出許多特有的優(yōu)勢,為信用評估提供了更佳的選擇[7].吳沖[8]等利用基于模糊積分的支持向量機(jī)集成方法對客戶信用進(jìn)行評估,結(jié)果表明支持向量機(jī)具有較高的預(yù)測準(zhǔn)確率.肖智[9]等利用支持向量機(jī)建立了大學(xué)生助學(xué)貸款個人信用評價分析模型,通過實證體現(xiàn)了支持向量機(jī)方法的優(yōu)越性.然而現(xiàn)有大多數(shù)支持向量機(jī)作為基分類器信用評估時,面向高維或者大規(guī)模樣本,存在不能主動進(jìn)行特征選擇和組合的問題,因此準(zhǔn)確率會受到無關(guān)維度的影響,甚至產(chǎn)生維度災(zāi)難.
為解決單一模型的缺陷,取長補(bǔ)短,模型的組合應(yīng)用已經(jīng)成為提高信用評估準(zhǔn)確率和穩(wěn)定性的一大趨勢.文獻(xiàn)[10]將主分量分析和神經(jīng)網(wǎng)絡(luò)(PCA—NN)模型組合進(jìn)行個人信用評估取得了更好的預(yù)測分類能力.文獻(xiàn)[11]綜合比較了多個組合模型在信用評估應(yīng)用中的效果,得出了組合模型比單一模型性能更好的結(jié)論.
綜上所述,考慮到?jīng)Q策樹算法本身以屬性的差異性為依據(jù)進(jìn)行分支和最優(yōu)樹的生成,為優(yōu)化支持向量機(jī)會受冗余屬性影響導(dǎo)致準(zhǔn)確率下降的缺陷,本文將基于信息熵增益率分類原理的C4.5 最優(yōu)決策樹和SVM 模型優(yōu)化整合,提出基于C4.5 算法優(yōu)化SVM 的個人信用評估模型.實驗部分,為檢測模型效果,在兩個公開數(shù)據(jù)集上比較了本文提出的模型與常見單一模型的性能,并用F-score和平均準(zhǔn)確率兩個指標(biāo)對模型效果進(jìn)行評估.實驗結(jié)果表明,基于C4.5 算法優(yōu)化SVM 的個人信用評估模型可以取得更好的性能,能夠成為一種有效的信用評估模型.
支持向量機(jī)(Support Vector Machine,SVM)是在Vapnik 等人所建立的統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory,STL)基礎(chǔ)上發(fā)展起來的一種新的學(xué)習(xí)算法,基于VC 維理論和結(jié)構(gòu)風(fēng)險最小化原理,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷[12].
設(shè)訓(xùn)練樣本集D為(xi,yi),能 使分類間隔(2/‖ω‖2)最大的超平面為最優(yōu)超平面.在分類中,支持向量機(jī)嘗試找到一個使得期望分類誤差最小化的分類器f(x),找這個分類器的過程等同為求解下例凸二次規(guī)劃化問題:
上述二次規(guī)劃可以用對偶理論求解,最終線性可分情況下的決策函數(shù)為:
對于線性不可分的問題,通過核函數(shù)將向量映射到一個更高的特征空間,在高維空間輸入的向量可以被超平面成功分開.通過核函數(shù)可以簡化內(nèi)積的運(yùn)算,常用核函數(shù)有高斯核函數(shù)、線性核函數(shù)和多項式核函數(shù),引入松弛變量 ξi和懲罰函數(shù)C,線性不可分情況下凸二次規(guī)劃問題變?yōu)?
根據(jù)對偶理論求解可得決策函數(shù)為:
本文采用高斯核函數(shù):
決策樹學(xué)習(xí)是應(yīng)用統(tǒng)計,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中一類重要的監(jiān)督學(xué)習(xí)算法[13,14].采用自頂向下的遞歸方式,從樹根節(jié)點(diǎn)開始在內(nèi)部進(jìn)行屬性的測試比較,根據(jù)屬性值確定分支,最后在決策樹的葉子節(jié)點(diǎn)得到分類的結(jié)論,整個過程在以新的節(jié)點(diǎn)為根的子樹上重復(fù),直到訓(xùn)練停止得到最優(yōu)決策樹.影響最大的決策樹算法是ID3 算法,它以信息增益來選擇屬性.為克服ID3 算法信息增益選擇屬性時偏向于選擇取值多的屬性和其只能處理離散型和完整性屬性等缺點(diǎn),1993年提出了C4.5 決策樹算法,以信息熵增益率方法測試屬性[15].
信息增益率計算公式為:
其中,D為數(shù)據(jù)集,A是數(shù)據(jù)集屬性,Gain(D,A)為屬性A 的信息增益,Split_info(D,A)為屬性A的分裂信息量.
信用評估領(lǐng)域中,銀行等金融機(jī)構(gòu)為了從眾多信用數(shù)據(jù)中歸納出信用“好”和信用“差”的顧客的一般規(guī)律從而降低誤判率,會收集和積累大量的數(shù)據(jù),但是對于數(shù)據(jù)集本身而言,并不是所有的樣本屬性均包含相同的對結(jié)果有影響的信息量.冗余屬性較多反而會出現(xiàn)“維數(shù)災(zāi)難”,增加了模型計算的復(fù)雜度降低模型效率.基于此,本文提出C4.5 決策樹利用自身屬性篩選方法優(yōu)化支持向量機(jī)無法主動降維缺陷的個人信用評估模型.
C4.5 算法優(yōu)化SVM 的個人信用評估模型包含了兩個子系統(tǒng):一個是基于C4.5 決策樹的屬性篩選和SVM 參數(shù)優(yōu)化系統(tǒng);一個是訓(xùn)練和測試SVM 分類器性能系統(tǒng).
本文采用高斯核函數(shù)作為SVM 的核函數(shù)解決線性不可分的問題.懲罰參數(shù)C的作用是為了權(quán)衡經(jīng)驗風(fēng)險和結(jié)構(gòu)風(fēng)險,C值越大,模型對離群點(diǎn)越重視,模型越復(fù)雜容易出現(xiàn)過擬合;C值越小,模型對離群點(diǎn)越不重視,容易出現(xiàn)欠擬合現(xiàn)象.而高斯核函數(shù)的參數(shù)γ的改變實際上是隱含的改變了樣本空間的復(fù)雜程度,若太大會將樣本類別分的太細(xì),太小會將樣本類別分的太粗.因此,參數(shù)C和核函數(shù)的參數(shù) γ是影響支持向量機(jī)分類器性能的至關(guān)重要的因素.C4.5 算法優(yōu)化SVM 的個人信用評估模型采用網(wǎng)格搜索與交叉驗證的方法挑選SVM 參數(shù),確保SVM 作為基分類器達(dá)到較佳狀態(tài).
C4.5 算法優(yōu)化SVM 的個人信用評估模型流程圖如圖1所示,具體步驟如下:步驟1:數(shù)據(jù)預(yù)處理.所有的連續(xù)變量都運(yùn)用公式歸一化處理.xij是第i個樣本的第j個屬性值,max(xj)和min(xj)是所有的樣本點(diǎn)之中屬性j 的最大值和最小值.
步驟2:確定初始訓(xùn)練集,測試集.
步驟3:C4.5 決策樹特征篩選.
(1)設(shè)置損失比例.實際中,將信用“好”的客戶誤判為信用“差”的客戶損失的可能僅僅是貸款利息,而將信用“差”的客戶誤判為信用“好”的客戶則可能遭受巨大的違約風(fēng)險,二者所造成的損失不對等,決策樹模型通過設(shè)置損失比例將可能導(dǎo)致的損失引入系統(tǒng)分析過程.
(2)設(shè)置Boosting迭代次數(shù).反復(fù)Boosting迭代,不斷增大誤判樣本被抽為訓(xùn)練集的可能性,提高模型精度.
(3)確定決策樹的修剪嚴(yán)重性.對比不同修剪度,確定決策樹最佳修剪程度.
(4)特征篩選.在最優(yōu)樹下計算特征貢獻(xiàn)率,篩選對分類結(jié)果有較大影響屬性.
步驟4:訓(xùn)練SVM 模型.
(1)根據(jù)步驟3 特征篩選的結(jié)果,組成新數(shù)據(jù)集.采用k折交叉驗證方法,將全部數(shù)據(jù)集分成k個不相交的子集,假設(shè)樣本數(shù)為m,則子集就有m/k個樣例,每次從分好的子集中里面,拿出一個作為測試集,其它k-1 個作為訓(xùn)練集.
(3)訓(xùn)練分類器.利用網(wǎng)格搜索法優(yōu)化SVM 參數(shù)C 和核函數(shù)參數(shù).
步驟5:評估C4.5 算法優(yōu)化SVM 的個人信用評估模型效果.選取評價指標(biāo),并取k次實驗結(jié)果的平均值.
選擇兩個指標(biāo)來評估模型的效果,分別是Fscore和平均準(zhǔn)確率accuracy,這兩個指標(biāo)可以綜合常用于信用評估的precision查準(zhǔn)率與recall召回率.根據(jù)混淆矩陣,指標(biāo)的計算方法如下:
本文選取UCI 機(jī)器學(xué)習(xí)庫中的兩組公開數(shù)據(jù)集驗證模型效果,分別是德國信貸數(shù)據(jù)集和澳大利亞信貸數(shù)據(jù)集.數(shù)據(jù)集的具體信息如表2所示,德國信貸數(shù)據(jù)屬性的詳細(xì)描述如表3所示,每個樣本包含20 個屬性,其中4 個被轉(zhuǎn)換為8 個虛擬的變量最終表現(xiàn)為24 維的數(shù)字變量和一個類別標(biāo)簽.澳大利亞信貸數(shù)據(jù)集共有 14 個屬性特征和一個類別標(biāo)簽.
圖1 C4.5 決策樹優(yōu)化SVM 模型
表1 混淆矩陣
表2 數(shù)據(jù)集信息
決策樹特征提取基于clementine12.0 平臺,采用保留法建立模型.在兩組數(shù)據(jù)集上以4:1 的比例設(shè)置訓(xùn)練集和測試集,按文獻(xiàn)[13]研究結(jié)論,將損失比例設(shè)為最佳2:1,Boosting 迭代次數(shù)設(shè)置為默認(rèn)值10,比對不同修剪程度對分類準(zhǔn)確率的影響如表4所示,可知當(dāng)修剪嚴(yán)重性為85 時,德國數(shù)據(jù)集測試集與訓(xùn)練集分類準(zhǔn)確率最高,當(dāng)修剪嚴(yán)重性為65 時,澳大利亞數(shù)據(jù)集測試集與訓(xùn)練集分類準(zhǔn)確率均最高.
表3 德國數(shù)據(jù)集描述
表4 不同修剪程度決策樹正確率
按損失比例2:1,Boosting 迭代次數(shù)10,修剪嚴(yán)重性85 設(shè)置生成依托德國信貸數(shù)據(jù)的最優(yōu)樹,特征相對重要性排序如圖2所示.根據(jù)貢獻(xiàn)度大小靠前的變量分別為:變量1(0.2634)、變量4(0.1478)、變量2(0.1352)、變量3(0.1226)、變量17(0.1122)、變量5(0.076)、變量10(0.0631)、變量21(0.0441)、變量13(0.02)、變量24(0.0094)、變量20(0.0054)、變量16(0.0008).按損失比例2:1,Boosting 迭代次數(shù)10,修剪嚴(yán)重性65 設(shè)置生成依托澳大利亞信貸數(shù)據(jù)的最優(yōu)樹,特征相對重要性排序如圖3所示.根據(jù)貢獻(xiàn)度大小靠前的屬性為:屬性8(0.7678)、屬性5(0.0542)屬性3(0.052)、屬性2(0.0332)、屬性9(0.0326)、屬性14(0.0091)、屬性13(0.0077)、屬性4(0.0043)、屬性1 2(0.0025).
圖2 德國信貸數(shù)據(jù)特征貢獻(xiàn)度
圖3 澳大利亞信貸數(shù)據(jù)特征貢獻(xiàn)度
經(jīng)篩選后,德國信貸數(shù)據(jù)從25 維降低到13 維,澳大利亞信貸數(shù)據(jù)從15 維降低到10 維.將降維后的數(shù)據(jù)作為S V M 的輸入訓(xùn)練分類器.實驗依托Matlab2016a 平臺,使用Libsvm 工具包,采用5 折交叉驗證減少隨機(jī)抽樣對SVM 分類結(jié)果的影響,通過網(wǎng)格搜索法與交叉驗證的方法,確定高斯徑向基核函數(shù)最優(yōu)參數(shù)γ和支持向量機(jī)懲罰函數(shù)C,兩個參數(shù)的網(wǎng)格搜索范圍都是[2-5,25],步長均為0.2.實驗比較了C4.5 優(yōu)化SVM 的模型(DT+SVM) 與C4.5 決策樹(DT),SVM 單獨(dú)模型(SVM) 以及BP 神經(jīng)網(wǎng)絡(luò)(BPNN)、logistic 回歸,模糊支持向量機(jī)(B-FSVM)這些常用于信用評估的模型分類性能.在兩組數(shù)據(jù)集上進(jìn)行實驗,測試集實驗結(jié)果如表5表6所示,表格中F表示Fscore指標(biāo)值,A代表平均準(zhǔn)確率.
表5 德國信貸數(shù)據(jù)實證結(jié)果
表5給出了各個常用于信用評估的模型在德國數(shù)據(jù)集上的實驗結(jié)果,從實驗結(jié)果可以看出:(1)在每次實驗中,不論是從F-score 還是平均準(zhǔn)確率來看,本文提出的模型的效果都是最優(yōu)的,證明了這種方法用于信用評估是有效的.(2)兩個不同的組合模型的效果普遍比單一模型的分類效果性能好.(3) 特征篩選后SVM 分類效果,比直接用于SVM 分類F-score 提高了19%,平均準(zhǔn)確率提高了4.9%,可以明顯得知利用C4.5 決策樹特征篩選可以彌補(bǔ)SVM 的不足.
表6給出了各個信用評估模型用于澳大利亞信貸數(shù)據(jù)集上的結(jié)果,可以得出如下結(jié)論:(1)基于C4.5 算法優(yōu)化SVM 的個人信用評估模型綜合效果最好.(2)組合模型的效果要優(yōu)于單一模型.(3)特征篩選前后,支持向量機(jī)模型的F-score 提升了19%,平均準(zhǔn)確率提升了5%,說明非重要屬性的減少不會降低模型效果,反而會提升.
表6 澳大利亞信貸數(shù)據(jù)實證結(jié)果
綜上所述,本文提出的基于C 4.5 算法優(yōu)化SVM 的個人信用評估模型可以取得更加優(yōu)異的性能,具有實用性;部分含有信息量多且對分類結(jié)果影響較大的屬性,可以代表全部的屬性變量來作為建模的數(shù)據(jù)集,并且這樣訓(xùn)練出來的模型效果優(yōu)于全部數(shù)據(jù)用于建模所取得的模型的效果,銀行或者金融機(jī)構(gòu)可以參考本文方法進(jìn)行信用評估.
在信貸消費(fèi)逐漸普及的高速信息化社會,個人信用評估的研究意義越來越重要,信用評估模型的好壞直接影響了信貸消費(fèi)的走向健康和銀行等金融機(jī)構(gòu)的壞賬率,分類器效能哪怕很小的1%的提升都會挽回金融機(jī)構(gòu)數(shù)以萬計的損失.考慮到支持向量機(jī)處理多數(shù)據(jù)性能下降的缺點(diǎn),本文提出基于C4.5 算法優(yōu)化支持向量機(jī)的個人信用評估方法.該方法將C4.5 決策樹和支持向量機(jī)這兩種高效的信息處理方法組合,優(yōu)勢互補(bǔ)用于個人信用評估領(lǐng)域.在UCI 兩組公開數(shù)據(jù)集上,用F-score與平均準(zhǔn)確率兩個指標(biāo)對模型測試.實驗可得,該組合模型可以取得很好的分類效果,有效且實用性較高,可以為科學(xué)決策提供支持.
未來進(jìn)一步研究的方向:(1)C4.5 算法由于使用了熵模型,里面有大量的復(fù)雜的對數(shù)運(yùn)算,會導(dǎo)致算法復(fù)雜度高,如何全方面考慮到信息增益又降低算法復(fù)雜度有待進(jìn)一步研究.(2)文中僅進(jìn)行SVM 二分類,多分類問題有待研究.(3)由于數(shù)據(jù)保密原因,本文僅在兩個公開數(shù)據(jù)集上進(jìn)行了測試,模型在其他的數(shù)據(jù)集上是否有效有待進(jìn)一步的驗證.