王 慶 姚 康
(蘇州企業(yè)征信服務(wù)有限公司,江蘇 蘇州 215003)
中小企業(yè)在我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展中發(fā)揮著日益重要的作用。截至2016年第三季度末,我國(guó)注冊(cè)的中小企業(yè)已達(dá)到2000多萬(wàn)戶,占全國(guó)企業(yè)總數(shù)的99%以上,工業(yè)產(chǎn)值占我國(guó)GDP的58.5%。然而,融資難一直是制約中小企業(yè)發(fā)展的瓶頸。中小企業(yè)融資難,從根本上來(lái)說(shuō)是由中小企業(yè)與金融機(jī)構(gòu)之間的信息不對(duì)稱引起的,如何合理有效地評(píng)估中小企業(yè)的信用風(fēng)險(xiǎn)狀況對(duì)于解決中小企業(yè)融資難問(wèn)題起著決定性的作用。
評(píng)估中小企業(yè)信用風(fēng)險(xiǎn)傳統(tǒng)上主要用專家法和評(píng)分法。專家評(píng)分法主觀性過(guò)強(qiáng),在評(píng)估過(guò)程中評(píng)估專家可能會(huì)因其自身的知識(shí)結(jié)構(gòu)偏差而導(dǎo)致選擇偏差;傳統(tǒng)的線性信用評(píng)分模型由于對(duì)于數(shù)據(jù)要求苛刻,而中小企業(yè)數(shù)據(jù)缺失,財(cái)務(wù)狀況不透明,故不具有廣泛的適用性;以Merton為基礎(chǔ)的KMV等模型需要建立在大量的有效市場(chǎng)信息之上,而中小企業(yè)上市時(shí)間過(guò)短,違約距離難以測(cè)算,中小企業(yè)關(guān)聯(lián)方過(guò)多的現(xiàn)象也使credit risk+表現(xiàn)不佳。而新興的機(jī)器學(xué)習(xí)類方法由于其對(duì)樣本數(shù)據(jù)的要求不高,自學(xué)習(xí)能力強(qiáng),能夠有效地適用于中小企業(yè)的信用評(píng)估。
近年來(lái)人工智能、機(jī)器學(xué)習(xí)算法發(fā)展和興起,相關(guān)數(shù)據(jù)分析算法也逐漸被應(yīng)用到信用風(fēng)險(xiǎn)評(píng)估當(dāng)中,主要包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(jī)(Support Vector Machine,SVM)及集成學(xué)習(xí)算法等。這些算法對(duì)較少的企業(yè)數(shù)據(jù)樣本具有良好的預(yù)測(cè)性能,并且比傳統(tǒng)統(tǒng)計(jì)方法更能區(qū)分企業(yè)信用狀況的好壞。此外,基于數(shù)據(jù)預(yù)處理的集成學(xué)習(xí)算法也已被越來(lái)越多的研究人員應(yīng)用到信用評(píng)估中,研究成果表明集成學(xué)習(xí)算法比單純的分類算法模型擁有更好的性能。
因此,本文采用基于隨機(jī)子空間的特征選擇算法和SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用隨機(jī)子空間對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后采用集成學(xué)習(xí)框架,提出了基于SVM模型的集成算法,該算法有效提升了信用評(píng)估分類的學(xué)習(xí)能力,在預(yù)測(cè)中小企業(yè)信用方面具有良好的性能。
集成學(xué)習(xí)問(wèn)題可描述如下:
假設(shè)從訓(xùn)練樣本集S構(gòu)造N個(gè)學(xué)習(xí)機(jī)器,記為:
∏={C1,C2,…,CN}
集成學(xué)習(xí)就是綜合來(lái)自集合∏的N個(gè)個(gè)體學(xué)習(xí)機(jī)器的預(yù)測(cè)得到最終決策結(jié)果。
按對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理得到個(gè)體學(xué)習(xí)器方式的不同,可將集成學(xué)習(xí)大致分為AdaBoost和Bagging兩類。AdaBoost用上一級(jí)個(gè)體學(xué)習(xí)設(shè)置樣本權(quán)值,為下一級(jí)個(gè)體學(xué)習(xí)器提供分類信息并指導(dǎo)下一級(jí)個(gè)體學(xué)習(xí)器的訓(xùn)練;Bagging獨(dú)立設(shè)計(jì)各個(gè)體學(xué)習(xí)機(jī)器,其主要思路是尋找一種合適的組合準(zhǔn)則來(lái)將各個(gè)體學(xué)習(xí)的輸出綜合起來(lái)并形成最終的結(jié)果。
在集成學(xué)習(xí)算法構(gòu)造過(guò)程的各個(gè)階段,可以通過(guò)加入不同的擾動(dòng)得到具有多樣性的個(gè)體學(xué)習(xí)機(jī)器??蓺w結(jié)為兩種方式:一是通過(guò)輸入擾動(dòng),另一種則是通過(guò)學(xué)習(xí)算法擾動(dòng)。對(duì)于前者,可使用不同的特征子集作為個(gè)體分類器的輸入,實(shí)現(xiàn)策略如特征選擇、隨機(jī)子空間法等。對(duì)于后者,集成不同的學(xué)習(xí)算法及相同算法的不同學(xué)習(xí)參數(shù)或初始化都有利于個(gè)體多樣性的產(chǎn)生。集成學(xué)習(xí)算法的主要步驟包括子空間的選擇(包括樣本子空間和特征子空間)、特征降維(子空間降維)、個(gè)體學(xué)習(xí)集成,具體步驟如下:
(1)從原始的特征空間中,通過(guò)子空間的選擇得到m個(gè)不同的子空間;(2)若得到的子空間的維數(shù)較大,則可通過(guò)特征降維策略生成m個(gè)維數(shù)更低的子空間,以此來(lái)節(jié)省存儲(chǔ)和時(shí)間開(kāi)銷;(3)通過(guò)選擇不同的機(jī)器學(xué)習(xí)算法,分別對(duì)m個(gè)子空間訓(xùn)練得到m個(gè)不同的個(gè)體學(xué)習(xí)機(jī)器;4)用這m個(gè)個(gè)體學(xué)習(xí)機(jī)器對(duì)測(cè)試樣本進(jìn)行分類,可得m個(gè)不同的分類結(jié)果,選擇某種集成方法(如簡(jiǎn)單投票法),將這m個(gè)結(jié)果進(jìn)行整合得到最后的分類結(jié)果。
隨機(jī)子空間方法(Random Subspace Method,RSM)是一種集成學(xué)習(xí)技術(shù),隨機(jī)子空間通過(guò)使用隨機(jī)的部分特征而不是所有的特征來(lái)訓(xùn)練每個(gè)分類器,以降低每個(gè)分類器之間的相關(guān)性。類似bagging集成學(xué)習(xí),bagging隨機(jī)使用部分訓(xùn)練數(shù)據(jù),而隨機(jī)子空間是隨機(jī)使用部分特征,算法如圖1所示。
圖1 隨機(jī)子空間算法
基于隨機(jī)子空間的集成學(xué)習(xí)方法,本文采取了融合特征選擇和集成算法的RSM-SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用RSM對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后采用集成學(xué)習(xí)框架,提出基于SVM 分類器的集成算法,算法如圖2所示。該算法有效提升了分類模型的學(xué)習(xí)能力,在預(yù)測(cè)中小企業(yè)信用狀況方面具有良好的性能。
圖2 基于隨機(jī)子空間的集成學(xué)習(xí)算法
數(shù)據(jù)來(lái)源于銀行貸款數(shù)據(jù),選取120家中小企業(yè)作為建模對(duì)象,其中60家出現(xiàn)違約,60家正常,這些企業(yè)規(guī)模相當(dāng),行業(yè)覆蓋面較全,具有一定的代表性。本文篩選整理出了包含120 個(gè)中小企業(yè)客戶的數(shù)據(jù),按照貸款風(fēng)險(xiǎn)分類標(biāo)準(zhǔn)進(jìn)行好客戶和壞客戶的劃分,將“關(guān)注”和“正?!眱深惪蛻糇鳛槲催`約樣本,標(biāo)注為“0”,將“次級(jí)”“可疑”和“損失”三類客戶作為違約樣本,標(biāo)注為“1”。
表1 中小企業(yè)信用評(píng)估指標(biāo)
指標(biāo)的合理選取對(duì)于模型的有效性有著重要的的影響,為了指標(biāo)的全面性及準(zhǔn)確性,根據(jù)樣本數(shù)據(jù)信息,分別從公司的盈利能力、資產(chǎn)管理能力、負(fù)債比率、償債能力及發(fā)展能力五個(gè)方面計(jì)算15個(gè)財(cái)務(wù)指標(biāo)作為預(yù)測(cè)系統(tǒng)的解釋變量。在構(gòu)建企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系的過(guò)程中,所選擇的評(píng)估指標(biāo)主要基于國(guó)際上通用的財(cái)務(wù)報(bào)表分析指標(biāo),而且充分借鑒參考了國(guó)內(nèi)外這一領(lǐng)域的前期研究成果。其具體指標(biāo)如表1所示。
在傳統(tǒng)的分類方法中,常用準(zhǔn)確度(Accuracy)作為評(píng)價(jià)指標(biāo)。然而,很多情況下,僅僅依靠準(zhǔn)確度不足以區(qū)分分類模型的優(yōu)劣。所以,為了讓所提出的模型的預(yù)測(cè)結(jié)論可靠,本文在模型準(zhǔn)確度的基礎(chǔ)上,新增兩類錯(cuò)誤率作為評(píng)估分類模型性能的指標(biāo)。假陽(yáng)性錯(cuò)誤,即第一類錯(cuò)誤( Type I errors) 和假陰性錯(cuò)誤, 即第二類錯(cuò)誤(Type II errors)。假陽(yáng)性錯(cuò)誤是指將好客戶誤分類為了壞客戶,而假陰性錯(cuò)誤是指將壞客戶錯(cuò)誤地分類為了好客戶。這兩類錯(cuò)誤率是基于混淆矩陣得來(lái)的,表2就是一個(gè)分類問(wèn)題的混淆矩陣。
表2 混淆矩陣
根據(jù)以上混淆矩陣,分別定義準(zhǔn)確度、第一類錯(cuò)誤和第二類錯(cuò)誤的概念:
為了同時(shí)驗(yàn)證本文提出的隨機(jī)子空間集成算法在信用評(píng)估上的性能和有效性,實(shí)驗(yàn)分別測(cè)試了邏輯回歸Logistic算法、決策樹DT算法、人工神經(jīng)網(wǎng)絡(luò)ANN算法、支持向量機(jī)SVM算法、隨機(jī)森林RS算法,以及在預(yù)測(cè)性能好的SVM算法上用集成學(xué)習(xí)的算法所得出的Accuracy。在實(shí)驗(yàn)中,我們采用十字交叉驗(yàn)證了(10-fold crossvalidation)的測(cè)試方法。這種方法的基本思想是把原始數(shù)據(jù)分成10份,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集。首先,用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,然后利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的模型,最后評(píng)價(jià)模型的分類性能。在使用十字交叉驗(yàn)證方法時(shí),會(huì)得到10次模型評(píng)價(jià)結(jié)果,將這10次結(jié)果的平均值作為模型最終的評(píng)價(jià)指標(biāo)。另外,試驗(yàn)中集成學(xué)習(xí)算法的迭代次數(shù)取值100。表3為以上實(shí)驗(yàn)算法的對(duì)比結(jié)果情況。
表3 模型比較結(jié)果 %
從上述實(shí)證結(jié)果分析,在現(xiàn)有的模型算法上,SVM能夠普遍獲得較好的預(yù)測(cè)性能。為了進(jìn)一步提高預(yù)測(cè)性能,在集成學(xué)習(xí)的基礎(chǔ)上創(chuàng)新地使用隨機(jī)子空間、AVM組合集成學(xué)習(xí)方法,使得預(yù)測(cè)準(zhǔn)確率達(dá)到82.71%。
從綜合實(shí)證結(jié)果中可以發(fā)現(xiàn),基于集成學(xué)習(xí)的SVM 模型能夠較理想地對(duì)中小企業(yè)客戶的違約與未違約情況進(jìn)行分類,結(jié)果穩(wěn)定。從RSM-SVM 模型的預(yù)測(cè)結(jié)果看,集成學(xué)習(xí)方法在從中小企業(yè)違約預(yù)測(cè)上確實(shí)具有一定優(yōu)勢(shì)。
從表3可以看出,使用SVM集成學(xué)習(xí)方法,比如bagging或者boosting算法,在Accuracy上比單純使用邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹、SVM等分類模型要低,這說(shuō)明單純的集成學(xué)習(xí)算法的預(yù)測(cè)精度和穩(wěn)定性都有很大的改善空間。在使用集成學(xué)習(xí)方法的前提下,加入隨機(jī)子空間算法使得模型的分類精度和穩(wěn)定性有了顯著的提升,也就是對(duì)數(shù)據(jù)集進(jìn)行特征選擇后,SVM集成算法預(yù)測(cè)的精度也有了極大的提升,同時(shí)也更加穩(wěn)定。這說(shuō)明數(shù)據(jù)集的質(zhì)量對(duì)分類模型的影響十分大,從某種程度上決定了分類模型的性能。而且,可以很容易地看出,RSM-SVM算法較前三種算法的性能更加優(yōu)越,這種模型的預(yù)測(cè)精度和穩(wěn)定性都表現(xiàn)得很出色。因此,基于數(shù)據(jù)處理的集成學(xué)習(xí)算法較單純的分類算法具有更好的性能。
本文提出了基于隨機(jī)子空間的集成學(xué)習(xí)算法,該算法首先利用隨機(jī)子空間方法對(duì)數(shù)據(jù)進(jìn)行特征選擇,選取最優(yōu)特征子集后采用SVM 分類算法進(jìn)行分類。在使用相同數(shù)據(jù)集的前提下,使用邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和基于隨機(jī)子空間的集成算法分別對(duì)中小企業(yè)進(jìn)行信用評(píng)估,實(shí)驗(yàn)結(jié)果證實(shí)基于隨機(jī)子空間的集成算法較其他算法的性能更優(yōu)越。
我們可以完善擴(kuò)展評(píng)估指標(biāo)體系,獲取中小企業(yè)水電煤、稅務(wù)繳納、進(jìn)出口、負(fù)面評(píng)價(jià)及企業(yè)主信息等研究建立更完備、預(yù)測(cè)性能更好的企業(yè)信用評(píng)估模型。