李運(yùn)蒙,石安安,桂繞根,涂英
?
貝葉斯融合方法集成的支持向量機(jī)預(yù)警國家助學(xué)貸款信用風(fēng)險的研究
李運(yùn)蒙1,石安安1,桂繞根1,涂英2
(1.五邑大學(xué) 經(jīng)濟(jì)管理學(xué)院,廣東 江門 529020;2.廣發(fā)銀行 江門分行,廣東 江門 529000)
用貝葉斯方法將隨機(jī)選用的多個不同類別的支持向量機(jī)集成為預(yù)警模型,通過銀行實際助學(xué)貸款數(shù)據(jù)對模型進(jìn)行測試和驗證,結(jié)果表明該集成模型有更高的分類準(zhǔn)確度,可以為銀行助學(xué)貸款違約行為的預(yù)判提供重要的參考依據(jù).
助學(xué)貸款;支持向量機(jī);集成學(xué)習(xí);風(fēng)險預(yù)警;貝葉斯融合方法
國家助學(xué)貸款政策于1999年開始實施,2004年前后,在迎來首批還款高峰的同時也出現(xiàn)了大面積的違約現(xiàn)象,導(dǎo)致銀行方面一度叫停了助學(xué)貸款[1-2]. 至此,助學(xué)貸款的高違約率問題成為了學(xué)者們關(guān)注和研究的焦點(diǎn). 一些學(xué)者通過構(gòu)建指標(biāo)體系和模型來評價貸款學(xué)生的個人信用,并用于銀行風(fēng)險估計和預(yù)警[3-5]. 目前,定量實證研究的范例相對較少,且一般用的是單一模型,由于預(yù)警模型的準(zhǔn)確率是銀行方面最關(guān)心的問題,因此探索出更加準(zhǔn)確的預(yù)警方法,嘗試多模型集成的預(yù)警效果十分必要.
國際上一般認(rèn)為,商業(yè)銀行貸款風(fēng)險預(yù)警可作為分類問題看待[6-7],即通過預(yù)警模型的測算和預(yù)估,將其分為正常貸款和違約貸款兩類,或設(shè)置不同警限,將其分為多類. 研究表明,多模型集成方法能進(jìn)一步提高分類精度[8-10]. 本文擬在充分研究國內(nèi)外相關(guān)成果的基礎(chǔ)上,根據(jù)前期構(gòu)建的助學(xué)貸款預(yù)警指標(biāo)體系[11-12],探討多分類器集成預(yù)警模型的構(gòu)建方法,并結(jié)合廣發(fā)銀行江門分行助學(xué)貸款實際數(shù)據(jù)進(jìn)行實證檢驗,爭取為銀行防范和治理助學(xué)貸款違約提供有效的預(yù)警方法.
1 基于支持向量機(jī)的集成模型的構(gòu)建
1.1 支持向量機(jī)分類模型
支持向量機(jī)(SVM)分類器的優(yōu)點(diǎn)是精度高、泛化能力強(qiáng),適合小樣本等. SVM通過建立一個超平面作為決策曲面,使得不同類別樣本之間的隔離邊緣最大化,以此達(dá)到劃分空間、實現(xiàn)分類的目的. 分類超平面的一般形式可寫成:
利用拉格朗日優(yōu)化方法把上述最優(yōu)分類面問題轉(zhuǎn)化為對偶問題,其存在唯一解,求解所得的最優(yōu)分類函數(shù)為:
對于非線性問題,可以采用滿足Mercer條件的內(nèi)積核函數(shù)代替原空間中的內(nèi)積,以避開非線性變換的具體形式,此時分類函數(shù)變?yōu)椋?/p>
使用該分類函數(shù)對銀行信用數(shù)據(jù)分類,可以判斷貸款方的信用狀況.
1.2 貝葉斯集成方法
多分類器組合是提高識別效果的有效途徑,目前已有較多的分類器融合方法,其中貝葉斯法能充分利用每個分類器的先驗知識對融合結(jié)果進(jìn)行計算,且以每種分類器在每個類別上的分類準(zhǔn)確率為融合依據(jù),其預(yù)測結(jié)果更加合理,因而備受關(guān)注. 設(shè)分類器所分類的樣本空間為,對的種類別(即,其中,稱為的一個類),根據(jù)訓(xùn)練樣本統(tǒng)計出的每個分類器的識別情況,建立混亂矩陣:
1.3 集成模型的實現(xiàn)
2)用測試樣本計算分類器的分類精度,并從大到小排序,精度低于標(biāo)準(zhǔn)的排除,本文精度標(biāo)準(zhǔn)為83%.
3)構(gòu)建優(yōu)選分類器集合,先將最高精度的分類器加入,后面的分類器與集合中每個分類器的差異計算結(jié)果達(dá)到一定程度才加入其中,初始差異取0.5.
兩兩分類器差異計算方法為:
新分類器與分類器集合的差異(總差異)算法為:
4)構(gòu)建集成模型,用測試樣本測試其精度,滿足要求則結(jié)束(分類準(zhǔn)確率大于90%),否則調(diào)整子支持向量分類器的個數(shù)和初始差異標(biāo)準(zhǔn),從1)開始執(zhí)行. 子支持向量分類器個數(shù)和初始差異標(biāo)準(zhǔn)調(diào)整方法分別為:和.
2 實證分析
2.1 預(yù)警指標(biāo)選擇
筆者在總結(jié)了國內(nèi)助學(xué)貸款預(yù)警研究成果的基礎(chǔ)上,與廣發(fā)銀行助學(xué)貸款工作人員多次討論、篩選,構(gòu)建如表1所示的助學(xué)貸款預(yù)警指標(biāo)體系.
表1 國家助學(xué)貸款信用風(fēng)險預(yù)警指標(biāo)及其賦值
為使得模型學(xué)習(xí)效果更好,在不影響判別效果的情況下,應(yīng)盡量縮小樣本空間. 可通過將連續(xù)指標(biāo)離散化(如對指標(biāo)的處理)或?qū)ζ渌笜?biāo)賦值的方法實現(xiàn),如表中的賦值方法,(1~5)-4表示綜合測評成績班排名前5名,取值為4.
2.2 實驗設(shè)計
1)數(shù)據(jù)收集和預(yù)處理
從銀行得到的助學(xué)貸款樣本有6 000多個,其中僅不足10%的為違約樣本,另外還有一些樣本因數(shù)據(jù)不全被剔除. 最終,從合格樣本中隨機(jī)抽取近3年的600個樣本,其中違約和守約各一半. 將指標(biāo)數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理,全部取值映射到[0,1]區(qū)間,輸出結(jié)果設(shè)為0或1(0為違約,1為守約). 樣本選取如表2所示.
表2 樣本選取方法及各個樣本集
2)Bagging方法、支持向量機(jī)分類器和集成算法運(yùn)用MATLAB7.6和LIBSVM3.12工具箱通過編程建立,參數(shù)隨機(jī)選取.
3)從建模的600個樣本中隨機(jī)抽取400樣本作為學(xué)習(xí)樣本,采用Bagging方法從中隨機(jī)抽取300個樣本,分別訓(xùn)練5個支持向量機(jī)分類器,形成;將剩余的200個樣本隨機(jī)分成兩組,即測試樣本和,其中用于檢驗單個支持向量機(jī)分類器的分類精度,計算混亂矩陣,通過式(7)、式(8)選擇差異大的分類器集合.
5)集成模型精度達(dá)到90%以上時算法結(jié)束,否則按前述方法調(diào)整,繼續(xù)運(yùn)算. 當(dāng)調(diào)整次數(shù)超過100次時算法結(jié)束,分析樣本問題或找其他原因.
2.3 分類結(jié)果
運(yùn)用前述算法,最終得到3個有較大差異的子支持向量機(jī)分類器,集成模型先有精度最高的分類器、再分別加入和后融合而成. 表2中,集成模型可以使分類準(zhǔn)確率達(dá)到92%,且集成模型第2類錯誤比第1類錯誤稍高. 預(yù)測準(zhǔn)確率結(jié)果如表3所示.
表3 單個模型和集成模型的預(yù)測準(zhǔn)確率
3 結(jié)論
本文前期調(diào)研中充分借鑒了學(xué)者們的研究成果,對類似指標(biāo)進(jìn)行了歸并和刪減,認(rèn)真聽取了銀行從業(yè)人員對違約現(xiàn)象的評述,形成了符合實際特點(diǎn)的預(yù)警指標(biāo)體系;研究采用搜索的方式尋找精度高、差異較大的分類器進(jìn)行集成,能夠?qū)崿F(xiàn)構(gòu)建子分類器的目的,解決了子分類器構(gòu)建的方法問題. 因此,集成模型比子分類器有更高的判別精度,且第一類錯誤率較低,符合模型的算法思想.
另外,就助學(xué)貸款預(yù)警問題研究過程中發(fā)現(xiàn)的問題,提出如下建議:
1)學(xué)校的信息記錄問題. 部分院系對學(xué)生的在校表現(xiàn)記錄保留時間較短,記錄不規(guī)范、不統(tǒng)一,建議進(jìn)一步完善學(xué)生信息管理系統(tǒng),并參照銀行意見進(jìn)行必要的調(diào)整.
2)銀行方面和高校學(xué)生管理部門應(yīng)聯(lián)合對違約率高的群體進(jìn)行誠信教育,提高其還貸意愿.
3)政府、高校和銀行方面應(yīng)繼續(xù)支持助學(xué)貸款問題的研究,使對國家、高校、銀行、貧困學(xué)生都有益的助學(xué)貸款政策長期健康發(fā)展下去.
[1] 胡鍵. 違約率高銀行叫停助學(xué)貸款[N]. 南方日報,2004-04-21.
[2] 鄭天虹. 粵助學(xué)貸款:違約率6年升高10多倍[N]. 新華每日電訊,2009-12-11.
[3] 肖智,王明愷,謝林林. 基于支持向量機(jī)的大學(xué)生助學(xué)貸款個人信用評價[J]. 清華大學(xué)學(xué)報:自然科學(xué)版,2006, 46(S1): 1120-1124.
[4] 康英,薛惠鋒,張哲. 基于GA-PHO遺傳規(guī)劃算法的國家助學(xué)貸款風(fēng)險預(yù)警模型研究[J]. 寧夏大學(xué)學(xué)報:人文社會科學(xué)版,2008, 30(5): 135-138.
[5] 李鵬雁,謝曉晨. 基于層次分析方法的助學(xué)貸款風(fēng)險評價[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,2009, 41(12): 301-304.
[6] ALTMAN E I,HALDEMAN R C,NARAYANAN P. Zeta analysis: a new model to identify bankruptcy risk of corporations [J]. Journal of Banking and Finance, 1997, 1(1): 29-54.
[7] DAN M C, MARK G R. A comparative analysis of current credit risk models [J]. Journal of banking and Finance, 2000, 24(1): 59-117.
[8]LAM L, SUEN C Y. Optimal combining of pattern classifiers [J]. Pattern Recognition Letters, 1995, 16: 945-954.
[9] 孫潔,李輝. 企業(yè)財務(wù)困境的多分類器混合組合預(yù)測[J]. 系統(tǒng)工程理論與實踐,2009, 29(2): 78-86.
[10] WINDEATT T. Diversity measures for multiple classifier system analysis and design [J]. Information Fusion, 2005, 6(1): 21-36.
[11] 李運(yùn)蒙,桂繞根,涂英. 國家助學(xué)貸款信用風(fēng)險預(yù)警指標(biāo)體系的構(gòu)建與應(yīng)用[J]. 內(nèi)蒙古大學(xué)學(xué)報:自然科學(xué)版,2012, 43(6): 651-657.
[12] 李運(yùn)蒙,桂繞根,石安安. 基于支持向量機(jī)的助學(xué)貸款信用風(fēng)險預(yù)警研究[J]. 五邑大學(xué)學(xué)報:自然科學(xué)版,2014, 28(1): 50-53.
[責(zé)任編輯:熊玉濤]
Early Warning of National Student Loans Credit Risk Based on Support Vector Machine Assembled by the Bayes Fusion Method
LIYun-meng1, SHIAn-an1, GUIRao-gen1, TUYing2
(1. School of Economics and Management, Wuyi University, Jiangmen 529020, China;2. Jiangmen Branch of Guangdong Development Bank, Jiangmen 529000, China)
Using the support vector machine (SVM) as the base classifier, an early warning model is established by assembling a number of different categories of support vector machines using the Bayes fusion method. Testing and verifying using the actual band loan data shows that the ensemble model has a higher accuracy in classification and can provide an important reference basis for banks to pre-judge students’ breach of loan contracts.
student loans; support vector machines; ensemble learning; risk early-warning; Bayes fusion method
1006-7302(2015)02-0044-05
F822.1;O211.61
A
2014-12-10
廣東省哲學(xué)社會科學(xué)規(guī)劃項目(GD11XGL20)
李運(yùn)蒙(1964—),男,山東鄆城人,副教授,碩士,研究方向為金融市場數(shù)據(jù)分析.