亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)子空間集成學(xué)習(xí)的中小企業(yè)信用評(píng)估方法研究

2018-06-11 05:47:40王慶姚康

上海管理科學(xué) 2018年3期

王　慶　姚　康

(蘇州企業(yè)征信服務(wù)有限公司，江蘇蘇州　215003)

0　引言

中小企業(yè)在我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展中發(fā)揮著日益重要的作用。截至2016年第三季度末，我國(guó)注冊(cè)的中小企業(yè)已達(dá)到2000多萬(wàn)戶，占全國(guó)企業(yè)總數(shù)的99%以上，工業(yè)產(chǎn)值占我國(guó)GDP的58.5%。然而，融資難一直是制約中小企業(yè)發(fā)展的瓶頸。中小企業(yè)融資難，從根本上來(lái)說(shuō)是由中小企業(yè)與金融機(jī)構(gòu)之間的信息不對(duì)稱引起的，如何合理有效地評(píng)估中小企業(yè)的信用風(fēng)險(xiǎn)狀況對(duì)于解決中小企業(yè)融資難問(wèn)題起著決定性的作用。

評(píng)估中小企業(yè)信用風(fēng)險(xiǎn)傳統(tǒng)上主要用專家法和評(píng)分法。專家評(píng)分法主觀性過(guò)強(qiáng)，在評(píng)估過(guò)程中評(píng)估專家可能會(huì)因其自身的知識(shí)結(jié)構(gòu)偏差而導(dǎo)致選擇偏差；傳統(tǒng)的線性信用評(píng)分模型由于對(duì)于數(shù)據(jù)要求苛刻，而中小企業(yè)數(shù)據(jù)缺失，財(cái)務(wù)狀況不透明，故不具有廣泛的適用性；以Merton為基礎(chǔ)的KMV等模型需要建立在大量的有效市場(chǎng)信息之上，而中小企業(yè)上市時(shí)間過(guò)短，違約距離難以測(cè)算，中小企業(yè)關(guān)聯(lián)方過(guò)多的現(xiàn)象也使credit risk+表現(xiàn)不佳。而新興的機(jī)器學(xué)習(xí)類方法由于其對(duì)樣本數(shù)據(jù)的要求不高，自學(xué)習(xí)能力強(qiáng)，能夠有效地適用于中小企業(yè)的信用評(píng)估。

近年來(lái)人工智能、機(jī)器學(xué)習(xí)算法發(fā)展和興起，相關(guān)數(shù)據(jù)分析算法也逐漸被應(yīng)用到信用風(fēng)險(xiǎn)評(píng)估當(dāng)中，主要包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)、支持向量機(jī)(Support Vector Machine，SVM)及集成學(xué)習(xí)算法等。這些算法對(duì)較少的企業(yè)數(shù)據(jù)樣本具有良好的預(yù)測(cè)性能，并且比傳統(tǒng)統(tǒng)計(jì)方法更能區(qū)分企業(yè)信用狀況的好壞。此外，基于數(shù)據(jù)預(yù)處理的集成學(xué)習(xí)算法也已被越來(lái)越多的研究人員應(yīng)用到信用評(píng)估中，研究成果表明集成學(xué)習(xí)算法比單純的分類算法模型擁有更好的性能。

因此，本文采用基于隨機(jī)子空間的特征選擇算法和SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用隨機(jī)子空間對(duì)數(shù)據(jù)集進(jìn)行特征選擇，然后采用集成學(xué)習(xí)框架，提出了基于SVM模型的集成算法，該算法有效提升了信用評(píng)估分類的學(xué)習(xí)能力，在預(yù)測(cè)中小企業(yè)信用方面具有良好的性能。

1　基于隨機(jī)子空間的集成學(xué)習(xí)方法

1.1　集成學(xué)習(xí)

集成學(xué)習(xí)問(wèn)題可描述如下：

假設(shè)從訓(xùn)練樣本集S構(gòu)造N個(gè)學(xué)習(xí)機(jī)器，記為：

∏={C1,C2,…,CN}

集成學(xué)習(xí)就是綜合來(lái)自集合∏的N個(gè)個(gè)體學(xué)習(xí)機(jī)器的預(yù)測(cè)得到最終決策結(jié)果。

按對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理得到個(gè)體學(xué)習(xí)器方式的不同，可將集成學(xué)習(xí)大致分為AdaBoost和Bagging兩類。AdaBoost用上一級(jí)個(gè)體學(xué)習(xí)設(shè)置樣本權(quán)值，為下一級(jí)個(gè)體學(xué)習(xí)器提供分類信息并指導(dǎo)下一級(jí)個(gè)體學(xué)習(xí)器的訓(xùn)練；Bagging獨(dú)立設(shè)計(jì)各個(gè)體學(xué)習(xí)機(jī)器，其主要思路是尋找一種合適的組合準(zhǔn)則來(lái)將各個(gè)體學(xué)習(xí)的輸出綜合起來(lái)并形成最終的結(jié)果。

在集成學(xué)習(xí)算法構(gòu)造過(guò)程的各個(gè)階段，可以通過(guò)加入不同的擾動(dòng)得到具有多樣性的個(gè)體學(xué)習(xí)機(jī)器?？蓺w結(jié)為兩種方式：一是通過(guò)輸入擾動(dòng)，另一種則是通過(guò)學(xué)習(xí)算法擾動(dòng)。對(duì)于前者，可使用不同的特征子集作為個(gè)體分類器的輸入，實(shí)現(xiàn)策略如特征選擇、隨機(jī)子空間法等。對(duì)于后者，集成不同的學(xué)習(xí)算法及相同算法的不同學(xué)習(xí)參數(shù)或初始化都有利于個(gè)體多樣性的產(chǎn)生。集成學(xué)習(xí)算法的主要步驟包括子空間的選擇(包括樣本子空間和特征子空間)、特征降維(子空間降維)、個(gè)體學(xué)習(xí)集成，具體步驟如下：

(1)從原始的特征空間中，通過(guò)子空間的選擇得到m個(gè)不同的子空間；(2)若得到的子空間的維數(shù)較大，則可通過(guò)特征降維策略生成m個(gè)維數(shù)更低的子空間，以此來(lái)節(jié)省存儲(chǔ)和時(shí)間開(kāi)銷；(3)通過(guò)選擇不同的機(jī)器學(xué)習(xí)算法，分別對(duì)m個(gè)子空間訓(xùn)練得到m個(gè)不同的個(gè)體學(xué)習(xí)機(jī)器；4)用這m個(gè)個(gè)體學(xué)習(xí)機(jī)器對(duì)測(cè)試樣本進(jìn)行分類，可得m個(gè)不同的分類結(jié)果，選擇某種集成方法(如簡(jiǎn)單投票法)，將這m個(gè)結(jié)果進(jìn)行整合得到最后的分類結(jié)果。

1.2　隨機(jī)子空間

隨機(jī)子空間方法(Random Subspace Method,RSM)是一種集成學(xué)習(xí)技術(shù)，隨機(jī)子空間通過(guò)使用隨機(jī)的部分特征而不是所有的特征來(lái)訓(xùn)練每個(gè)分類器，以降低每個(gè)分類器之間的相關(guān)性。類似bagging集成學(xué)習(xí)，bagging隨機(jī)使用部分訓(xùn)練數(shù)據(jù)，而隨機(jī)子空間是隨機(jī)使用部分特征，算法如圖1所示。

圖1　隨機(jī)子空間算法

1.3　基于隨機(jī)子空間的集成學(xué)習(xí)方法

基于隨機(jī)子空間的集成學(xué)習(xí)方法，本文采取了融合特征選擇和集成算法的RSM-SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用RSM對(duì)數(shù)據(jù)集進(jìn)行特征選擇，然后采用集成學(xué)習(xí)框架，提出基于SVM 分類器的集成算法，算法如圖2所示。該算法有效提升了分類模型的學(xué)習(xí)能力，在預(yù)測(cè)中小企業(yè)信用狀況方面具有良好的性能。

圖2　基于隨機(jī)子空間的集成學(xué)習(xí)算法

2　實(shí)證分析

2.1　數(shù)據(jù)樣本

數(shù)據(jù)來(lái)源于銀行貸款數(shù)據(jù)，選取120家中小企業(yè)作為建模對(duì)象，其中60家出現(xiàn)違約，60家正常，這些企業(yè)規(guī)模相當(dāng)，行業(yè)覆蓋面較全，具有一定的代表性。本文篩選整理出了包含120 個(gè)中小企業(yè)客戶的數(shù)據(jù)，按照貸款風(fēng)險(xiǎn)分類標(biāo)準(zhǔn)進(jìn)行好客戶和壞客戶的劃分,將“關(guān)注”和“正?！眱深惪蛻糇鳛槲催`約樣本,標(biāo)注為“0”，將“次級(jí)”“可疑”和“損失”三類客戶作為違約樣本,標(biāo)注為“1”。

表1　中小企業(yè)信用評(píng)估指標(biāo)

2.2　指標(biāo)體系的選取

指標(biāo)的合理選取對(duì)于模型的有效性有著重要的的影響，為了指標(biāo)的全面性及準(zhǔn)確性，根據(jù)樣本數(shù)據(jù)信息，分別從公司的盈利能力、資產(chǎn)管理能力、負(fù)債比率、償債能力及發(fā)展能力五個(gè)方面計(jì)算15個(gè)財(cái)務(wù)指標(biāo)作為預(yù)測(cè)系統(tǒng)的解釋變量。在構(gòu)建企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系的過(guò)程中，所選擇的評(píng)估指標(biāo)主要基于國(guó)際上通用的財(cái)務(wù)報(bào)表分析指標(biāo)，而且充分借鑒參考了國(guó)內(nèi)外這一領(lǐng)域的前期研究成果。其具體指標(biāo)如表1所示。

2.3　實(shí)驗(yàn)設(shè)計(jì)

在傳統(tǒng)的分類方法中，常用準(zhǔn)確度(Accuracy)作為評(píng)價(jià)指標(biāo)。然而，很多情況下，僅僅依靠準(zhǔn)確度不足以區(qū)分分類模型的優(yōu)劣。所以，為了讓所提出的模型的預(yù)測(cè)結(jié)論可靠，本文在模型準(zhǔn)確度的基礎(chǔ)上，新增兩類錯(cuò)誤率作為評(píng)估分類模型性能的指標(biāo)。假陽(yáng)性錯(cuò)誤,即第一類錯(cuò)誤( Type I errors) 和假陰性錯(cuò)誤, 即第二類錯(cuò)誤(Type II errors)。假陽(yáng)性錯(cuò)誤是指將好客戶誤分類為了壞客戶,而假陰性錯(cuò)誤是指將壞客戶錯(cuò)誤地分類為了好客戶。這兩類錯(cuò)誤率是基于混淆矩陣得來(lái)的，表2就是一個(gè)分類問(wèn)題的混淆矩陣。

表2　混淆矩陣

根據(jù)以上混淆矩陣，分別定義準(zhǔn)確度、第一類錯(cuò)誤和第二類錯(cuò)誤的概念：

為了同時(shí)驗(yàn)證本文提出的隨機(jī)子空間集成算法在信用評(píng)估上的性能和有效性，實(shí)驗(yàn)分別測(cè)試了邏輯回歸Logistic算法、決策樹DT算法、人工神經(jīng)網(wǎng)絡(luò)ANN算法、支持向量機(jī)SVM算法、隨機(jī)森林RS算法，以及在預(yù)測(cè)性能好的SVM算法上用集成學(xué)習(xí)的算法所得出的Accuracy。在實(shí)驗(yàn)中，我們采用十字交叉驗(yàn)證了(10-fold crossvalidation)的測(cè)試方法。這種方法的基本思想是把原始數(shù)據(jù)分成10份，輪流將其中9份作為訓(xùn)練集，1份作為測(cè)試集。首先，用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練，然后利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的模型，最后評(píng)價(jià)模型的分類性能。在使用十字交叉驗(yàn)證方法時(shí)，會(huì)得到10次模型評(píng)價(jià)結(jié)果，將這10次結(jié)果的平均值作為模型最終的評(píng)價(jià)指標(biāo)。另外，試驗(yàn)中集成學(xué)習(xí)算法的迭代次數(shù)取值100。表3為以上實(shí)驗(yàn)算法的對(duì)比結(jié)果情況。

表3　模型比較結(jié)果　%

從上述實(shí)證結(jié)果分析，在現(xiàn)有的模型算法上，SVM能夠普遍獲得較好的預(yù)測(cè)性能。為了進(jìn)一步提高預(yù)測(cè)性能，在集成學(xué)習(xí)的基礎(chǔ)上創(chuàng)新地使用隨機(jī)子空間、AVM組合集成學(xué)習(xí)方法，使得預(yù)測(cè)準(zhǔn)確率達(dá)到82.71%。

從綜合實(shí)證結(jié)果中可以發(fā)現(xiàn)，基于集成學(xué)習(xí)的SVM 模型能夠較理想地對(duì)中小企業(yè)客戶的違約與未違約情況進(jìn)行分類，結(jié)果穩(wěn)定。從RSM-SVM 模型的預(yù)測(cè)結(jié)果看，集成學(xué)習(xí)方法在從中小企業(yè)違約預(yù)測(cè)上確實(shí)具有一定優(yōu)勢(shì)。

從表3可以看出，使用SVM集成學(xué)習(xí)方法，比如bagging或者boosting算法，在Accuracy上比單純使用邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹、SVM等分類模型要低，這說(shuō)明單純的集成學(xué)習(xí)算法的預(yù)測(cè)精度和穩(wěn)定性都有很大的改善空間。在使用集成學(xué)習(xí)方法的前提下，加入隨機(jī)子空間算法使得模型的分類精度和穩(wěn)定性有了顯著的提升，也就是對(duì)數(shù)據(jù)集進(jìn)行特征選擇后，SVM集成算法預(yù)測(cè)的精度也有了極大的提升，同時(shí)也更加穩(wěn)定。這說(shuō)明數(shù)據(jù)集的質(zhì)量對(duì)分類模型的影響十分大，從某種程度上決定了分類模型的性能。而且，可以很容易地看出，RSM-SVM算法較前三種算法的性能更加優(yōu)越，這種模型的預(yù)測(cè)精度和穩(wěn)定性都表現(xiàn)得很出色。因此，基于數(shù)據(jù)處理的集成學(xué)習(xí)算法較單純的分類算法具有更好的性能。

3　結(jié)論

本文提出了基于隨機(jī)子空間的集成學(xué)習(xí)算法，該算法首先利用隨機(jī)子空間方法對(duì)數(shù)據(jù)進(jìn)行特征選擇，選取最優(yōu)特征子集后采用SVM 分類算法進(jìn)行分類。在使用相同數(shù)據(jù)集的前提下，使用邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和基于隨機(jī)子空間的集成算法分別對(duì)中小企業(yè)進(jìn)行信用評(píng)估，實(shí)驗(yàn)結(jié)果證實(shí)基于隨機(jī)子空間的集成算法較其他算法的性能更優(yōu)越。

我們可以完善擴(kuò)展評(píng)估指標(biāo)體系，獲取中小企業(yè)水電煤、稅務(wù)繳納、進(jìn)出口、負(fù)面評(píng)價(jià)及企業(yè)主信息等研究建立更完備、預(yù)測(cè)性能更好的企業(yè)信用評(píng)估模型。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)子空間集成學(xué)習(xí)的中小企業(yè)信用評(píng)估方法研究

0 引言

1 基于隨機(jī)子空間的集成學(xué)習(xí)方法

1.1 集成學(xué)習(xí)

1.2 隨機(jī)子空間

1.3 基于隨機(jī)子空間的集成學(xué)習(xí)方法

2 實(shí)證分析

2.1 數(shù)據(jù)樣本

2.2 指標(biāo)體系的選取

2.3 實(shí)驗(yàn)設(shè)計(jì)

3 結(jié)論