亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合學(xué)習(xí)策略的企業(yè)信用評級研究

        2016-04-07 09:27:52夏婷婷
        卷宗 2016年2期
        關(guān)鍵詞:混合學(xué)習(xí)

        夏婷婷

        摘 要:由于在實際企業(yè)信用評級中,通常存在著大量的未標(biāo)記樣本,同時在少量的有標(biāo)記樣本中,企業(yè)信用評級的數(shù)據(jù)往往呈現(xiàn)非均衡分布的特點,因此本文將半監(jiān)督學(xué)習(xí)和非均衡數(shù)據(jù)分類方法結(jié)合起來,提出一種基于混合學(xué)習(xí)策略的企業(yè)信用評級方法,同時通過企業(yè)評級數(shù)據(jù)集對提出的方法進(jìn)行實驗驗證。

        關(guān)鍵詞:半監(jiān)督;非均衡數(shù)據(jù)分類;混合學(xué)習(xí);企業(yè)信用評級

        1 引言

        在現(xiàn)代經(jīng)濟(jì)生活中,信用作為市場經(jīng)濟(jì)的基礎(chǔ),對企業(yè)的生存和發(fā)展有著重要的影響。然而,企業(yè)信用缺失已成為制約我國經(jīng)濟(jì)可持續(xù)發(fā)展的突出問題之一,據(jù)相關(guān)資料統(tǒng)計,我國企業(yè)每年由信用缺失導(dǎo)致的經(jīng)濟(jì)損失高達(dá)6000億元[1]。因此如何建立一個適用的企業(yè)信用評級模型,強(qiáng)化企業(yè)信用風(fēng)險管理,已成為學(xué)術(shù)界和產(chǎn)業(yè)界迫切需要解決的問題。

        目前在企業(yè)的信用評級領(lǐng)域,常見的企業(yè)信用評級方法主要有基于統(tǒng)計分析的方法和基于機(jī)器學(xué)習(xí)的方法,其中根據(jù)建立判別函數(shù)形式和樣本的假定不同,基于統(tǒng)計分析的方法主要有一元判別模型、多元判別模型、Logistic回歸模型、Probit 模型等[2]。由于基于統(tǒng)計分析的方法對樣本數(shù)據(jù)都有嚴(yán)格的假設(shè)條件,如多元正態(tài)分布、等協(xié)方差等,在現(xiàn)實中這些假設(shè)一般都不成立,極大地限制了基于統(tǒng)計分析方法的應(yīng)用。因此,基于機(jī)器學(xué)習(xí)的方法越來越多地被應(yīng)用到企業(yè)信用評級中[3]?;跈C(jī)器學(xué)習(xí)的方法需要構(gòu)建一個具有良好性能的財務(wù)風(fēng)險預(yù)測模型,這就需要大量的有標(biāo)記樣本,然而在企業(yè)信用評級實際應(yīng)用中,通常存在著大量的未標(biāo)記樣本,有標(biāo)記樣本相對較少,與此同時,在少量的有標(biāo)記樣本中,企業(yè)信用評級的數(shù)據(jù)集往往呈現(xiàn)非均衡分布的特點,因此,本研究提出了基于混合學(xué)習(xí)策略的方法,用來解決企業(yè)信用評級中存在的問題。

        基于混合學(xué)習(xí)策略的方法是一種把半監(jiān)督學(xué)習(xí)和非均衡數(shù)據(jù)分類方法結(jié)合起來的學(xué)習(xí)方法,它利用少量的有標(biāo)記樣本和大量的未標(biāo)記樣本,將非均衡數(shù)據(jù)分類方法引入到半監(jiān)督學(xué)習(xí)方法中,從而形成一種混合學(xué)習(xí)策略的企業(yè)信用評級方法。通過本研究,豐富和完善了企業(yè)信用評級研究的理論研究體系,為及時準(zhǔn)確地預(yù)測企業(yè)的信用風(fēng)險提供了行之有效的方法,加強(qiáng)了企業(yè)的信用風(fēng)險管理,保護(hù)了企業(yè)利益相關(guān)者的利益,具有重要的意義。

        2 基于混合學(xué)習(xí)策略的企業(yè)信用評級方法

        2.1 自訓(xùn)練方法

        自訓(xùn)練算法是最早提出的半監(jiān)督學(xué)習(xí)方法,也是半監(jiān)督學(xué)習(xí)中較為常見的方法之一。它通過已有的少量有標(biāo)記樣本訓(xùn)練出分類器,然后利用該分類器預(yù)測大量未標(biāo)記樣本的類別,選出置信度較高的樣本加入到訓(xùn)練集中重新訓(xùn)練,重復(fù)執(zhí)行以上過程,直到滿足條件為止[4]。算法的流程如圖1所示。

        2.2 非均衡數(shù)據(jù)分類方法

        2.2.1基于取樣的非均衡數(shù)據(jù)分類方法

        基于取樣的方法主要是將原本非均衡的樣本類別變得均衡,從而提高分類器對少數(shù)類樣本的分類準(zhǔn)確率,常用的基于取樣的方法有欠取樣方法(Under Sampling)和過取樣方法(Over Sampling)[5]。欠取樣方法通過隨機(jī)去掉多數(shù)類樣本來降低數(shù)據(jù)集的非均衡程度,但這種方法會丟失多數(shù)類的一些重要信息;而過取樣方法與欠取樣方法相反,它通過隨機(jī)復(fù)制少數(shù)類樣本的方式來使數(shù)據(jù)集達(dá)到均衡,這種方法雖然保留了已有樣本的所有分類信息,但容易造成分類器的過度擬合。為了克服上述隨機(jī)欠取樣和過取樣方法存在的缺點,研究者提出了SMOTE取樣方法,它根據(jù)一定的規(guī)則,在一些相距較近的少數(shù)類樣本間加入“合成”樣本,隨機(jī)生成新的少數(shù)類樣本,并將這些新生成的少數(shù)類樣本加入到原來的數(shù)據(jù)集中,從而對少數(shù)類樣本進(jìn)行擴(kuò)充,產(chǎn)生新的訓(xùn)練數(shù)據(jù)集。通過SMOTE方法增加的少數(shù)類樣本并不存在原來的樣本中,因此SMOTE可以避免過取樣的缺陷。

        2.2.2基于集成學(xué)習(xí)的非均衡數(shù)據(jù)分類方法

        基于集成學(xué)習(xí)的方法通過訓(xùn)練多個分類器并將其結(jié)果按照一定的方式進(jìn)行有效的組合,以此來獲得比單個分類器更好的性能。當(dāng)前,構(gòu)建集成學(xué)習(xí)的方法主要有Bagging和Boosting方法[6]。Bagging方法首先對原始的訓(xùn)練樣本集進(jìn)行有放回隨機(jī)抽樣,得到若干個樣本數(shù)量與初始樣本數(shù)量相當(dāng)?shù)挠?xùn)練樣本子集,其次對每個樣本子集進(jìn)行訓(xùn)練,得到若干個基分類器,最后采用少數(shù)服從多數(shù)的投票方式將這若干個基分類器的結(jié)果進(jìn)行組合。Boosting 方法首先賦予原始訓(xùn)練樣本集中的每一個樣本相同的初始權(quán)重,由這個訓(xùn)練集訓(xùn)練第一個基分類器,計算分類錯誤率,提高那些被錯誤分類的訓(xùn)練樣本的權(quán)重,降低那些被正確分類的樣本權(quán)重,從而得到一個權(quán)重被調(diào)整后的訓(xùn)練樣本集,其次由這個權(quán)重被調(diào)整后的訓(xùn)練樣本集訓(xùn)練第二個基分類器,重復(fù)這一過程,直到生成若干個基分類器,最后采用加權(quán)合并的方式進(jìn)行多個分類器的集成。

        2.3 基于混合學(xué)習(xí)策略的方法

        由于常用的半監(jiān)督學(xué)習(xí)方法主要有自訓(xùn)練和協(xié)同訓(xùn)練方法,常用的非均衡數(shù)據(jù)分類方法主要有基于取樣的方法和基于集成學(xué)習(xí)的方法,故本文從以下兩個角度構(gòu)建了基于混合學(xué)習(xí)策略的企業(yè)信用評級方法,分別為:基于取樣和自訓(xùn)練的企業(yè)信用評級方法和基于集成學(xué)習(xí)和自訓(xùn)練的企業(yè)信用評級方法。

        基于取樣和自訓(xùn)練的企業(yè)信用評級方法,首先采用取樣方法對有標(biāo)記樣本進(jìn)行處理使得樣本類別分布均衡,其次訓(xùn)練類別均衡的有標(biāo)記樣本得到一個分類器,最后對未標(biāo)記樣本進(jìn)行訓(xùn)練來提高這個分類器的分類性能。算法流程如圖2所示。

        基于集成學(xué)習(xí)和自訓(xùn)練的企業(yè)信用評級方法,首先采用集成學(xué)習(xí)方法生成基礎(chǔ)分類器,其次利用基礎(chǔ)分類器對未標(biāo)記樣本進(jìn)行標(biāo)記,最后將置信度高的未標(biāo)記樣本添加到有標(biāo)記樣本中,重復(fù)這一過程來提高分類器的分類性能。算法流程如圖3所示:

        3 實驗設(shè)計

        為了驗證基于混合學(xué)習(xí)策略的方法在企業(yè)信用評級領(lǐng)域中的有效性,本文選取了中國工商銀行2006年至2007年間共239家企業(yè)進(jìn)行試驗,該數(shù)據(jù)集包含企業(yè)的財務(wù)數(shù)據(jù)及銀行評定的信用風(fēng)險狀況,包括148家無風(fēng)險企業(yè)和91家有風(fēng)險企業(yè)。本研究采用工商銀行征信部門專家提出的18個財務(wù)指標(biāo)作為企業(yè)信用評級指標(biāo),具體指標(biāo)見表1。

        實驗的評價指標(biāo)使用目前常用的評價指標(biāo):平均分類精度(Average Accuracy),指的是被分類器正確預(yù)測的樣本數(shù)據(jù)占全部樣本數(shù)據(jù)的百分比。當(dāng)實驗數(shù)據(jù)集類別分布均衡時,平均分類精度作為評價指標(biāo)能夠很好的評價分類器的性能,然而由于企業(yè)信用評級問題的數(shù)據(jù)分布是非均衡的,采用平均分類精度指標(biāo)已經(jīng)不能恰當(dāng)?shù)姆从撤诸惼鞯男阅?,因此本文還采用非均衡數(shù)據(jù)分類領(lǐng)域常用的AUC作為評價指標(biāo)。

        實驗選用了目前常用的機(jī)器學(xué)習(xí)分類器Decision Tree(DT)作為基礎(chǔ)分類器,半監(jiān)督方法選取Self-training方法,非均衡取樣方法選取Under Sampling、Over Sampling和SMOTE方法。對于自訓(xùn)練與非均衡數(shù)據(jù)分類方法相結(jié)合的方法,采用本文提出的Self-US、Self-OS、Self-SMOTE、Self-Bagging、Self-Boosting方法。本文使用5次10倍交叉驗證法來提高實驗結(jié)果的可信性,因此,最終的實驗結(jié)果取5次10倍交叉驗證的平均值。

        4 實驗結(jié)果與分析

        根據(jù)以上實驗設(shè)計,最終實驗結(jié)果如表2所示。

        從表2中我們可以看出,當(dāng)標(biāo)記比例為0.4時,Self-Boosting取得了最高的平均分類精度:87.37%,同時取得了最高的AUC:0.9285。當(dāng)標(biāo)記比例為0.8時,Self-Boosting取得了最高的平均分類精度和最高的AUC,分別為88.35%和0.9296。實驗結(jié)果表明,在平均分類精度指標(biāo)和AUC指標(biāo)上,本研究提出的基于混合學(xué)習(xí)策略的企業(yè)信用評級方法取得了很好的實驗結(jié)果,證明了本研究提出的基于混合學(xué)習(xí)的方法在企業(yè)信用評級中的有效性。

        為了分析不同的半監(jiān)督學(xué)習(xí)方法在企業(yè)信用評級中應(yīng)用的效果,我們通過公式(3.1)計算自訓(xùn)練方法相對于基礎(chǔ)分類器DT的AUC提高的百分比,得到圖4。

        從圖4中可以看出,在不同的標(biāo)記比例下,自訓(xùn)練方法在AUC上都有了顯著的提高,這表明與基礎(chǔ)分類器方法相比,本文提出的基于混合學(xué)習(xí)策略的企業(yè)信用評級方法,能夠充分解決了企業(yè)信用評級數(shù)據(jù)中存在的未標(biāo)記樣本學(xué)習(xí)和數(shù)據(jù)分布非均衡問題,因此取得了較好的實驗結(jié)果,驗證了本文方法的有效性。

        5 總結(jié)

        為了解決企業(yè)信用評級實際應(yīng)用中存在的未標(biāo)記樣本學(xué)習(xí)和數(shù)據(jù)分布非均衡問題,本文提出了基于混合學(xué)習(xí)策略的企業(yè)信用評級方法,并在企業(yè)信用評級數(shù)據(jù)集上進(jìn)行了實驗驗證,實驗結(jié)果表明,與單一學(xué)習(xí)方法相比,基于混合學(xué)習(xí)策略的企業(yè)信用評級方法能夠有效解決企業(yè)信用評級中存在的問題。然而本文主要關(guān)注企業(yè)信用評級領(lǐng)域,在未來的研究中,本文提出的方法也可以應(yīng)用于其它領(lǐng)域,對方法的可靠性進(jìn)行驗證。

        參考文獻(xiàn)

        [1] 何平, 金夢. 信用評級在中國債券市場的影響力[J]. 金融研究, 2010, (04): 15-28.

        [2] 姚瀟, 余樂安. 模糊近似支持向量機(jī)模型及其在信用風(fēng)險評估中的應(yīng)用[J]. 系統(tǒng)工程理論與實踐, 2012, (03): 549-554.

        [3] 蔣盛益, 汪珊, 蔡余沖. 基于機(jī)器學(xué)習(xí)的上市公司財務(wù)預(yù)警模型的構(gòu)建[J]. 統(tǒng)計與決策, 2010, (09): 166-167.

        [4] 丁濤. 半監(jiān)督自訓(xùn)練分類模型的研究與實現(xiàn)[D]. 大連理工大學(xué), 2009.

        [5] 高嘉偉, 梁吉業(yè). 非平衡數(shù)據(jù)集分類問題研究進(jìn)展[J]. 計算機(jī)科學(xué), 2008, (04): 10-13.

        [6] 韓敏, 朱新榮. 不平衡數(shù)據(jù)分類的混合算法[J]. 控制理論與應(yīng)用, 2011, (10): 1485-1489.

        猜你喜歡
        混合學(xué)習(xí)
        慕課混合教學(xué):理論、形態(tài)、目標(biāo)
        基于SPOC的混合學(xué)習(xí)模式在高職專業(yè)基礎(chǔ)課中的改革與實踐
        信息技術(shù)教育中混合學(xué)習(xí)模式的應(yīng)用
        高職計算機(jī)應(yīng)用基礎(chǔ)課程SPOC混合教學(xué)模式設(shè)計探討
        混合學(xué)習(xí)在高等教育:三類不同設(shè)計方法
        SPOC平臺下IPAD在初中生物混合學(xué)習(xí)中應(yīng)用初探
        考試周刊(2016年88期)2016-11-24 14:41:38
        基于Unipus的大學(xué)英語混合式教學(xué)模式探索
        基于混合式學(xué)習(xí)理念的大學(xué)生自主學(xué)習(xí)能力的培養(yǎng)研究
        價值工程(2016年29期)2016-11-14 02:05:45
        混合學(xué)習(xí)模式及其實施要點 
        基于MOOC的高職混合學(xué)習(xí)策略研究
        99精品热6080yy久久| 与漂亮的女邻居少妇好爽| 日韩人妻无码精品一专区二区三区| 精品国产麻豆免费人成网站| 国产精品igao视频网| 纯肉无遮挡H肉动漫在线观看国产 国产精品自产拍在线观看免费 | 亚洲av日韩av无码污污网站| 国产一起色一起爱| 午夜av内射一区二区三区红桃视| 精品国产av一区二区三区| 国产精品黑丝美女啪啪啪| 精品国产性色无码av网站| 国产zzjjzzjj视频全免费| 亚洲成a人网站在线看| 精品中文字幕久久久人妻 | 无码免费无线观看在线视| 亚洲日产一线二线三线精华液 | 97SE亚洲国产综合自在线不卡| 色婷婷久久99综合精品jk白丝| 国产精品一区二区偷拍| 国产69精品久久久久app下载| 亚洲国产精品成人无码区| 亚洲高清有码在线观看| 亚洲综合av一区在线| 少妇连续高潮爽到抽搐| av永久天堂一区二区三区| 日本午夜免费福利视频| 水蜜桃一二二视频在线观看免费 | 日韩中文字幕一区二区高清| 色妞一区二区三区免费视频| 白白发在线视频免费观看2| 精品久久香蕉国产线看观看亚洲| 亚洲男同志gay 片可播放| 久久精品国产亚洲av热九九热 | 在线观看视频国产一区二区三区 | 国产又色又爽的视频在线观看91| 免费久久99精品国产| 欧美乱妇高清无乱码在线观看| 亚洲aⅴ无码日韩av无码网站| 日本女优中文字幕四季视频网站| 少妇一区二区三区久久|