亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)子空間集成學(xué)習(xí)的中小企業(yè)信用評(píng)估方法研究

        2018-06-11 05:47:40
        上海管理科學(xué) 2018年3期
        關(guān)鍵詞:特征選擇個(gè)體分類

        王 慶 姚 康

        (蘇州企業(yè)征信服務(wù)有限公司,江蘇 蘇州 215003)

        0 引言

        中小企業(yè)在我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展中發(fā)揮著日益重要的作用。截至2016年第三季度末,我國(guó)注冊(cè)的中小企業(yè)已達(dá)到2000多萬(wàn)戶,占全國(guó)企業(yè)總數(shù)的99%以上,工業(yè)產(chǎn)值占我國(guó)GDP的58.5%。然而,融資難一直是制約中小企業(yè)發(fā)展的瓶頸。中小企業(yè)融資難,從根本上來(lái)說(shuō)是由中小企業(yè)與金融機(jī)構(gòu)之間的信息不對(duì)稱引起的,如何合理有效地評(píng)估中小企業(yè)的信用風(fēng)險(xiǎn)狀況對(duì)于解決中小企業(yè)融資難問(wèn)題起著決定性的作用。

        評(píng)估中小企業(yè)信用風(fēng)險(xiǎn)傳統(tǒng)上主要用專家法和評(píng)分法。專家評(píng)分法主觀性過(guò)強(qiáng),在評(píng)估過(guò)程中評(píng)估專家可能會(huì)因其自身的知識(shí)結(jié)構(gòu)偏差而導(dǎo)致選擇偏差;傳統(tǒng)的線性信用評(píng)分模型由于對(duì)于數(shù)據(jù)要求苛刻,而中小企業(yè)數(shù)據(jù)缺失,財(cái)務(wù)狀況不透明,故不具有廣泛的適用性;以Merton為基礎(chǔ)的KMV等模型需要建立在大量的有效市場(chǎng)信息之上,而中小企業(yè)上市時(shí)間過(guò)短,違約距離難以測(cè)算,中小企業(yè)關(guān)聯(lián)方過(guò)多的現(xiàn)象也使credit risk+表現(xiàn)不佳。而新興的機(jī)器學(xué)習(xí)類方法由于其對(duì)樣本數(shù)據(jù)的要求不高,自學(xué)習(xí)能力強(qiáng),能夠有效地適用于中小企業(yè)的信用評(píng)估。

        近年來(lái)人工智能、機(jī)器學(xué)習(xí)算法發(fā)展和興起,相關(guān)數(shù)據(jù)分析算法也逐漸被應(yīng)用到信用風(fēng)險(xiǎn)評(píng)估當(dāng)中,主要包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(jī)(Support Vector Machine,SVM)及集成學(xué)習(xí)算法等。這些算法對(duì)較少的企業(yè)數(shù)據(jù)樣本具有良好的預(yù)測(cè)性能,并且比傳統(tǒng)統(tǒng)計(jì)方法更能區(qū)分企業(yè)信用狀況的好壞。此外,基于數(shù)據(jù)預(yù)處理的集成學(xué)習(xí)算法也已被越來(lái)越多的研究人員應(yīng)用到信用評(píng)估中,研究成果表明集成學(xué)習(xí)算法比單純的分類算法模型擁有更好的性能。

        因此,本文采用基于隨機(jī)子空間的特征選擇算法和SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用隨機(jī)子空間對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后采用集成學(xué)習(xí)框架,提出了基于SVM模型的集成算法,該算法有效提升了信用評(píng)估分類的學(xué)習(xí)能力,在預(yù)測(cè)中小企業(yè)信用方面具有良好的性能。

        1 基于隨機(jī)子空間的集成學(xué)習(xí)方法

        1.1 集成學(xué)習(xí)

        集成學(xué)習(xí)問(wèn)題可描述如下:

        假設(shè)從訓(xùn)練樣本集S構(gòu)造N個(gè)學(xué)習(xí)機(jī)器,記為:

        ∏={C1,C2,…,CN}

        集成學(xué)習(xí)就是綜合來(lái)自集合∏的N個(gè)個(gè)體學(xué)習(xí)機(jī)器的預(yù)測(cè)得到最終決策結(jié)果。

        按對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行處理得到個(gè)體學(xué)習(xí)器方式的不同,可將集成學(xué)習(xí)大致分為AdaBoost和Bagging兩類。AdaBoost用上一級(jí)個(gè)體學(xué)習(xí)設(shè)置樣本權(quán)值,為下一級(jí)個(gè)體學(xué)習(xí)器提供分類信息并指導(dǎo)下一級(jí)個(gè)體學(xué)習(xí)器的訓(xùn)練;Bagging獨(dú)立設(shè)計(jì)各個(gè)體學(xué)習(xí)機(jī)器,其主要思路是尋找一種合適的組合準(zhǔn)則來(lái)將各個(gè)體學(xué)習(xí)的輸出綜合起來(lái)并形成最終的結(jié)果。

        在集成學(xué)習(xí)算法構(gòu)造過(guò)程的各個(gè)階段,可以通過(guò)加入不同的擾動(dòng)得到具有多樣性的個(gè)體學(xué)習(xí)機(jī)器??蓺w結(jié)為兩種方式:一是通過(guò)輸入擾動(dòng),另一種則是通過(guò)學(xué)習(xí)算法擾動(dòng)。對(duì)于前者,可使用不同的特征子集作為個(gè)體分類器的輸入,實(shí)現(xiàn)策略如特征選擇、隨機(jī)子空間法等。對(duì)于后者,集成不同的學(xué)習(xí)算法及相同算法的不同學(xué)習(xí)參數(shù)或初始化都有利于個(gè)體多樣性的產(chǎn)生。集成學(xué)習(xí)算法的主要步驟包括子空間的選擇(包括樣本子空間和特征子空間)、特征降維(子空間降維)、個(gè)體學(xué)習(xí)集成,具體步驟如下:

        (1)從原始的特征空間中,通過(guò)子空間的選擇得到m個(gè)不同的子空間;(2)若得到的子空間的維數(shù)較大,則可通過(guò)特征降維策略生成m個(gè)維數(shù)更低的子空間,以此來(lái)節(jié)省存儲(chǔ)和時(shí)間開(kāi)銷;(3)通過(guò)選擇不同的機(jī)器學(xué)習(xí)算法,分別對(duì)m個(gè)子空間訓(xùn)練得到m個(gè)不同的個(gè)體學(xué)習(xí)機(jī)器;4)用這m個(gè)個(gè)體學(xué)習(xí)機(jī)器對(duì)測(cè)試樣本進(jìn)行分類,可得m個(gè)不同的分類結(jié)果,選擇某種集成方法(如簡(jiǎn)單投票法),將這m個(gè)結(jié)果進(jìn)行整合得到最后的分類結(jié)果。

        1.2 隨機(jī)子空間

        隨機(jī)子空間方法(Random Subspace Method,RSM)是一種集成學(xué)習(xí)技術(shù),隨機(jī)子空間通過(guò)使用隨機(jī)的部分特征而不是所有的特征來(lái)訓(xùn)練每個(gè)分類器,以降低每個(gè)分類器之間的相關(guān)性。類似bagging集成學(xué)習(xí),bagging隨機(jī)使用部分訓(xùn)練數(shù)據(jù),而隨機(jī)子空間是隨機(jī)使用部分特征,算法如圖1所示。

        圖1 隨機(jī)子空間算法

        1.3 基于隨機(jī)子空間的集成學(xué)習(xí)方法

        基于隨機(jī)子空間的集成學(xué)習(xí)方法,本文采取了融合特征選擇和集成算法的RSM-SVM 集成學(xué)習(xí)算法來(lái)評(píng)估中小企業(yè)的信用。本算法首先利用RSM對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后采用集成學(xué)習(xí)框架,提出基于SVM 分類器的集成算法,算法如圖2所示。該算法有效提升了分類模型的學(xué)習(xí)能力,在預(yù)測(cè)中小企業(yè)信用狀況方面具有良好的性能。

        圖2 基于隨機(jī)子空間的集成學(xué)習(xí)算法

        2 實(shí)證分析

        2.1 數(shù)據(jù)樣本

        數(shù)據(jù)來(lái)源于銀行貸款數(shù)據(jù),選取120家中小企業(yè)作為建模對(duì)象,其中60家出現(xiàn)違約,60家正常,這些企業(yè)規(guī)模相當(dāng),行業(yè)覆蓋面較全,具有一定的代表性。本文篩選整理出了包含120 個(gè)中小企業(yè)客戶的數(shù)據(jù),按照貸款風(fēng)險(xiǎn)分類標(biāo)準(zhǔn)進(jìn)行好客戶和壞客戶的劃分,將“關(guān)注”和“正?!眱深惪蛻糇鳛槲催`約樣本,標(biāo)注為“0”,將“次級(jí)”“可疑”和“損失”三類客戶作為違約樣本,標(biāo)注為“1”。

        表1 中小企業(yè)信用評(píng)估指標(biāo)

        2.2 指標(biāo)體系的選取

        指標(biāo)的合理選取對(duì)于模型的有效性有著重要的的影響,為了指標(biāo)的全面性及準(zhǔn)確性,根據(jù)樣本數(shù)據(jù)信息,分別從公司的盈利能力、資產(chǎn)管理能力、負(fù)債比率、償債能力及發(fā)展能力五個(gè)方面計(jì)算15個(gè)財(cái)務(wù)指標(biāo)作為預(yù)測(cè)系統(tǒng)的解釋變量。在構(gòu)建企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系的過(guò)程中,所選擇的評(píng)估指標(biāo)主要基于國(guó)際上通用的財(cái)務(wù)報(bào)表分析指標(biāo),而且充分借鑒參考了國(guó)內(nèi)外這一領(lǐng)域的前期研究成果。其具體指標(biāo)如表1所示。

        2.3 實(shí)驗(yàn)設(shè)計(jì)

        在傳統(tǒng)的分類方法中,常用準(zhǔn)確度(Accuracy)作為評(píng)價(jià)指標(biāo)。然而,很多情況下,僅僅依靠準(zhǔn)確度不足以區(qū)分分類模型的優(yōu)劣。所以,為了讓所提出的模型的預(yù)測(cè)結(jié)論可靠,本文在模型準(zhǔn)確度的基礎(chǔ)上,新增兩類錯(cuò)誤率作為評(píng)估分類模型性能的指標(biāo)。假陽(yáng)性錯(cuò)誤,即第一類錯(cuò)誤( Type I errors) 和假陰性錯(cuò)誤, 即第二類錯(cuò)誤(Type II errors)。假陽(yáng)性錯(cuò)誤是指將好客戶誤分類為了壞客戶,而假陰性錯(cuò)誤是指將壞客戶錯(cuò)誤地分類為了好客戶。這兩類錯(cuò)誤率是基于混淆矩陣得來(lái)的,表2就是一個(gè)分類問(wèn)題的混淆矩陣。

        表2 混淆矩陣

        根據(jù)以上混淆矩陣,分別定義準(zhǔn)確度、第一類錯(cuò)誤和第二類錯(cuò)誤的概念:

        為了同時(shí)驗(yàn)證本文提出的隨機(jī)子空間集成算法在信用評(píng)估上的性能和有效性,實(shí)驗(yàn)分別測(cè)試了邏輯回歸Logistic算法、決策樹DT算法、人工神經(jīng)網(wǎng)絡(luò)ANN算法、支持向量機(jī)SVM算法、隨機(jī)森林RS算法,以及在預(yù)測(cè)性能好的SVM算法上用集成學(xué)習(xí)的算法所得出的Accuracy。在實(shí)驗(yàn)中,我們采用十字交叉驗(yàn)證了(10-fold crossvalidation)的測(cè)試方法。這種方法的基本思想是把原始數(shù)據(jù)分成10份,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集。首先,用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,然后利用測(cè)試集來(lái)測(cè)試訓(xùn)練得到的模型,最后評(píng)價(jià)模型的分類性能。在使用十字交叉驗(yàn)證方法時(shí),會(huì)得到10次模型評(píng)價(jià)結(jié)果,將這10次結(jié)果的平均值作為模型最終的評(píng)價(jià)指標(biāo)。另外,試驗(yàn)中集成學(xué)習(xí)算法的迭代次數(shù)取值100。表3為以上實(shí)驗(yàn)算法的對(duì)比結(jié)果情況。

        表3 模型比較結(jié)果 %

        從上述實(shí)證結(jié)果分析,在現(xiàn)有的模型算法上,SVM能夠普遍獲得較好的預(yù)測(cè)性能。為了進(jìn)一步提高預(yù)測(cè)性能,在集成學(xué)習(xí)的基礎(chǔ)上創(chuàng)新地使用隨機(jī)子空間、AVM組合集成學(xué)習(xí)方法,使得預(yù)測(cè)準(zhǔn)確率達(dá)到82.71%。

        從綜合實(shí)證結(jié)果中可以發(fā)現(xiàn),基于集成學(xué)習(xí)的SVM 模型能夠較理想地對(duì)中小企業(yè)客戶的違約與未違約情況進(jìn)行分類,結(jié)果穩(wěn)定。從RSM-SVM 模型的預(yù)測(cè)結(jié)果看,集成學(xué)習(xí)方法在從中小企業(yè)違約預(yù)測(cè)上確實(shí)具有一定優(yōu)勢(shì)。

        從表3可以看出,使用SVM集成學(xué)習(xí)方法,比如bagging或者boosting算法,在Accuracy上比單純使用邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹、SVM等分類模型要低,這說(shuō)明單純的集成學(xué)習(xí)算法的預(yù)測(cè)精度和穩(wěn)定性都有很大的改善空間。在使用集成學(xué)習(xí)方法的前提下,加入隨機(jī)子空間算法使得模型的分類精度和穩(wěn)定性有了顯著的提升,也就是對(duì)數(shù)據(jù)集進(jìn)行特征選擇后,SVM集成算法預(yù)測(cè)的精度也有了極大的提升,同時(shí)也更加穩(wěn)定。這說(shuō)明數(shù)據(jù)集的質(zhì)量對(duì)分類模型的影響十分大,從某種程度上決定了分類模型的性能。而且,可以很容易地看出,RSM-SVM算法較前三種算法的性能更加優(yōu)越,這種模型的預(yù)測(cè)精度和穩(wěn)定性都表現(xiàn)得很出色。因此,基于數(shù)據(jù)處理的集成學(xué)習(xí)算法較單純的分類算法具有更好的性能。

        3 結(jié)論

        本文提出了基于隨機(jī)子空間的集成學(xué)習(xí)算法,該算法首先利用隨機(jī)子空間方法對(duì)數(shù)據(jù)進(jìn)行特征選擇,選取最優(yōu)特征子集后采用SVM 分類算法進(jìn)行分類。在使用相同數(shù)據(jù)集的前提下,使用邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和基于隨機(jī)子空間的集成算法分別對(duì)中小企業(yè)進(jìn)行信用評(píng)估,實(shí)驗(yàn)結(jié)果證實(shí)基于隨機(jī)子空間的集成算法較其他算法的性能更優(yōu)越。

        我們可以完善擴(kuò)展評(píng)估指標(biāo)體系,獲取中小企業(yè)水電煤、稅務(wù)繳納、進(jìn)出口、負(fù)面評(píng)價(jià)及企業(yè)主信息等研究建立更完備、預(yù)測(cè)性能更好的企業(yè)信用評(píng)估模型。

        猜你喜歡
        特征選擇個(gè)體分類
        分類算一算
        關(guān)注個(gè)體防護(hù)裝備
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        個(gè)體反思機(jī)制的缺失與救贖
        How Cats See the World
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        国产超碰人人做人人爱ⅴa| 国产成人av三级在线观看韩国| 成人国产一区二区三区| 成人aaa片一区国产精品| 亚洲影院天堂中文av色| 精品国产迪丽热巴在线| 自拍偷区亚洲综合第一页| 亚洲av色香蕉一区二区三区| 日韩亚洲av无码一区二区三区| 色窝窝无码一区二区三区2022| 日本激情一区二区三区| 精品一区二区三区四区国产| 永久免费av无码入口国语片| 亚洲欧洲精品成人久久曰影片| 国产亚洲精品视频在线| 久久精品国产亚洲超碰av| 亚洲欧美激情在线一区| 成年奭片免费观看视频天天看| 精品一区2区3区4区| 日韩人妻少妇一区二区三区| 无码久久精品国产亚洲av影片| 国产欧美久久久精品影院| 国产精品亚洲一区二区三区在线| 99久久亚洲精品日本无码| 亚洲色偷偷色噜噜狠狠99| 黑丝美女被内射在线观看| 亚洲永久国产中文字幕| 欧美裸体xxxx极品少妇| 国内精品一区二区2021在线| 清纯唯美亚洲经典中文字幕| 国产精品区一区二区三在线播放| 精品国产v无码大片在线观看| 亚洲夫妻性生活视频网站| 国产日产在线视频一区| 男女裸交无遮挡啪啪激情试看| 亚洲a级片在线观看| 亚洲乱码av一区二区蜜桃av | 亚洲国产精品av麻豆一区| 少妇被爽到高潮喷水久久欧美精品| 久久99精品国产99久久| 成人综合亚洲国产成人|