亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的債券違約預(yù)測

        2023-01-14 12:34:26尹濤YINTao李秋敏LIQiumin
        價值工程 2023年1期
        關(guān)鍵詞:特征模型企業(yè)

        尹濤YIN Tao;李秋敏LI Qiu-min

        (成都信息工程大學(xué),成都 610100)

        0 引言

        債券違約指發(fā)行債券的企業(yè)在約定期限內(nèi)不能向債券的持有者還本付息的情況。2014年第一起債券違約事件發(fā)生以來,我國債券違約事件日漸增多。2018年債券市場發(fā)生違約的債券有160只,涉及違約的企業(yè)有44家,違約金額更是高達(dá)1505.25億元。截止到2021年2月,發(fā)生違約的債券總數(shù)達(dá)737只,違約債券的發(fā)行總額高達(dá)6826.37億元。債券違約的直接后果就是投資人的利益將會受損。因此,在債券違約事件逐漸常態(tài)化的情況下,如何對發(fā)債企業(yè)的違約風(fēng)險進(jìn)行評估與預(yù)測,成為當(dāng)下面臨的重要問題。

        1 文獻(xiàn)回顧與梳理

        目前,國內(nèi)學(xué)者對債券違約的研究分為理論方面和模型方面。理論方面,李陽藍(lán)(2017)以東北特鋼為例,認(rèn)為影響債券違約的因素有以下幾個方面:融資渠道與短貸長投、償債能力以及營運(yùn)能力。劉軼軍(2018)從行業(yè)發(fā)展、公司經(jīng)營、財務(wù)等方面歸納影響債券違約的因素。苗霞(2018)從文獻(xiàn)的視角歸納影響債券違約的因素,分別是宏觀經(jīng)濟(jì)特征、行業(yè)特征、企業(yè)特征以及制度環(huán)境。

        模型方面,楊世偉和李錦成(2015)基于KMV、PMF以及probit模型研究了公司債、企業(yè)債、私募債的違約概率。姚紅宇與施展(2018)利用時間風(fēng)險模型來研究公司特征、地方環(huán)境指標(biāo)和財務(wù)指標(biāo)三個因素對債券違約的影響。程昊等(2020)分析了債券違約的內(nèi)外部因素,然后基于分析結(jié)果,使用Logistic模型建立了違約預(yù)測模型。

        隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,將機(jī)器學(xué)習(xí)算法應(yīng)用到債券違約預(yù)測方面也成為了許多學(xué)者研究的方向。胡蝶(2018)運(yùn)用債券違約歸因后的一系列特征,構(gòu)建了基于隨機(jī)森林算法的債券違約預(yù)測模型。周榮喜等(2019)通過隨機(jī)森林算法進(jìn)行特征選擇,然后運(yùn)用選擇的特征以及XGBoost算法構(gòu)建了債券違約預(yù)測模型。張辰雨等(2021)運(yùn)用財務(wù)指標(biāo)數(shù)據(jù),構(gòu)建了基于支持向量機(jī)的債券違約模型。Zhang and Chen(2021)基于SMOTE算法和XGBoost算法構(gòu)建了債券違約預(yù)測模型。

        通過梳理文獻(xiàn),發(fā)現(xiàn)財務(wù)特征是影響債券違約的一個重要特征,并且機(jī)器學(xué)習(xí)算法在債券違約方面也取得了一定的研究成果。因此,本文將基于以往研究,以AIWIN平臺的發(fā)債企業(yè)的財務(wù)數(shù)據(jù)為以及債券違約數(shù)據(jù)為研究對象,研究機(jī)器學(xué)習(xí)算法在債券違約預(yù)測方面的應(yīng)用。首先,基于財務(wù)數(shù)據(jù)和違約數(shù)據(jù)進(jìn)行標(biāo)簽構(gòu)造以及缺失值處理,然后使用方差選擇法和互信息法篩選出有效的特征,接著劃分訓(xùn)練集和測試集,并采用SMOTE算法和Tomek Links算法結(jié)合的方法對訓(xùn)練集進(jìn)行平衡處理,最后構(gòu)建基于隨機(jī)森林的債券違約預(yù)測模型,并將其與邏輯回歸、決策樹構(gòu)建的債券違約預(yù)測模型進(jìn)行性能上的對比。

        2 基本算法介紹

        2.1 隨機(jī)森林算法

        隨機(jī)森林算法屬于Bagging算法的擴(kuò)展之一,它是以決策樹模型為基學(xué)習(xí)器,通過構(gòu)建多棵決策樹的組合模型。為了構(gòu)建多樣化的決策樹,隨機(jī)森林算法在模型訓(xùn)練過程中,引入隨機(jī)屬性。隨機(jī)分為兩重隨機(jī):第一重隨機(jī)是數(shù)據(jù)采樣的隨機(jī),第二重隨機(jī)是特征的隨機(jī)抽取,即每棵決策樹隨機(jī)抽取部分特征來進(jìn)行訓(xùn)練。對于回歸問題采用平均法來決定最終結(jié)果,對于分類問題則采用投票法來決定最終結(jié)果。

        2.2 SMOTE算法

        SMOTE算法的基本思路是通過合成少數(shù)類的樣本,從而使兩類樣本在數(shù)量上達(dá)到平衡。算法的具體流程如下:

        ①以歐式距離為標(biāo)準(zhǔn),計算少數(shù)類中的每一個樣本x到所有的少數(shù)類樣本的距離,得到其k個近鄰樣本。

        ②對于每一個少數(shù)樣本x,從其k近鄰中選擇若干個樣本,假設(shè)近鄰為xm。

        ③對于每一個xm,與原樣本按照如下公式構(gòu)造新的樣本。

        式中,rand(0,1)表示?。?,1)之間的一個隨機(jī)數(shù)。合成樣本的示意圖如圖1所示。

        圖1 SMOTE算法的原理圖

        2.3 Tomek Links算法

        Tomek Links算法的基本思路如下:兩個樣本假設(shè)為x和y,分別來自不同的類別,如果不存在一個樣本z,使得樣本x和樣本z的歐氏距離或者樣本y和樣本z的歐氏距離小于樣本x和樣本y的歐氏距離,則兩個樣本x和y被稱為Tomek Links。如圖2所示。這種情況下,兩個樣本被認(rèn)為是噪聲數(shù)據(jù)或者在邊界附近。該算法通過剔除Tomek Links從而實現(xiàn)欠采樣的目的。

        圖2 Tomek Links

        3 模型構(gòu)建

        3.1 數(shù)據(jù)來源

        本文以AIWIN平臺的數(shù)據(jù)作為研究對象,選取了部分企業(yè)的2018-2019年的財務(wù)數(shù)據(jù)集以及2019-2020年的違約記錄數(shù)據(jù)集。財務(wù)數(shù)據(jù)集的指標(biāo)主要有企業(yè)id,企業(yè)發(fā)布財務(wù)報表的日期以及企業(yè)的財務(wù)指標(biāo),違約記錄數(shù)據(jù)集的指標(biāo)是企業(yè)id以及發(fā)生債券違約的日期。

        3.2 數(shù)據(jù)預(yù)處理

        通過觀察數(shù)據(jù)發(fā)現(xiàn)某些企業(yè)在一年里發(fā)生多次違約,這部分企業(yè)只保留一次違約記錄,然后將處理后的違約數(shù)據(jù)集的企業(yè)全部標(biāo)記為1,表示發(fā)生了債券違約行為。在企業(yè)違約前,財務(wù)信息往往會提前表現(xiàn)出一些狀況,因此將2018、2019年的財務(wù)指標(biāo)數(shù)據(jù)集分別和2019、2020年的違約記錄數(shù)據(jù)集作拼接處理,處理后未標(biāo)記的企業(yè)則標(biāo)記為0,表示沒有發(fā)生違約行為。

        將數(shù)據(jù)集進(jìn)行拼接處理后,發(fā)現(xiàn)大量特征存在缺失值,缺失率高達(dá)百分之二十多。常見的處理缺失值的方法有以下幾種:一是直接刪除含有缺失值的樣本,二是用均值、中值,或者其他最常用的數(shù)值來填補(bǔ)缺失值。由于缺失率過高,采用填補(bǔ)缺失值的方法會引入大量噪聲,因此本文直接刪除所有具有缺失值的行。

        經(jīng)過以上處理后,樣本的分布情況大致如下。其中發(fā)生違約的記錄大約有115條,沒有違約的記錄大概有13000條。很明顯這是一個極度不平衡的樣本,需要做平衡處理。

        3.3 特征選擇

        由于原始特征個數(shù)明顯較多,有162個,因此需要進(jìn)行特征選擇,目的是篩選出與債券違約狀況最相關(guān)的變量,便于后續(xù)的模型輸入。

        本文先使用方差選擇法來篩選方差比較小的特征,然后使用互信息法來選擇22個與債券違約狀況最相關(guān)的變量。

        方差選擇法是通過特征本身的方差來進(jìn)行特征篩選。比如,某個特征的方差很小,說明各個樣本再去該特征上的值幾乎沒有差異,可能大多數(shù)樣本的取值都一樣甚至完全相同,那么該特征對于樣本區(qū)分來說,幾乎沒有任何作用。

        互信息是用來度量兩個隨機(jī)變量共享的信息,即在隨機(jī)變量X已知的情況下,對于未知的隨機(jī)變量Y的不確定性減少的程度,不確定性是用熵來衡量的?;バ畔⒌墓饺缦拢?/p>

        在特征選擇中,互信息衡量了特征與標(biāo)簽之間相互依賴的程度,互信息值越大,依賴程度越高,特征與標(biāo)簽之間的相關(guān)性也就越強(qiáng)。篩選后的特征如表1所示。

        表1 變量名稱及描述

        3.4 劃分訓(xùn)練集和測試集

        由于原始數(shù)據(jù)只有一份,因此有必要將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。如果將數(shù)據(jù)全部用于訓(xùn)練模型,得到的模型將沒有任何實際意義。訓(xùn)練模型的最終目的是用于預(yù)測新的樣本,只有當(dāng)訓(xùn)練的模型在新樣本上也有極高的精確度,即預(yù)測效果很好時,訓(xùn)練的模型才能應(yīng)用于實際業(yè)務(wù)。本 文 采 用sklearn庫 中model_selection下 的train_test_split方法,將70%的樣本用于訓(xùn)練模型,30%的樣本用于測試模型的預(yù)測效果。

        3.5 樣本平衡處理

        不平衡的樣本會嚴(yán)重影響模型的精確度。比如說,在研究債券違約的問題時,假設(shè)不違約的企業(yè)數(shù)量與違約的企業(yè)數(shù)量比例達(dá)到了99:1,在這種情況下,即使把所有企業(yè)都當(dāng)成不違約的企業(yè),正確率也有99%,這樣就會使得模型評價變得毫無意義,無法達(dá)到建模目的——識別出違約的企業(yè)。

        因此,做樣本平衡是有必要的。樣本平衡處理的常用方法有過采樣和欠采樣。過采樣方法是通過增加少數(shù)類樣本,從而使兩類樣本在數(shù)量上達(dá)到平衡,但是簡單的復(fù)制少數(shù)類樣本,容易使模型過擬合,模型泛化能力減弱。欠采樣方法是通過減少多數(shù)類樣本,從而使兩類樣本在數(shù)量上達(dá)到平衡,但是下采樣方法會使大部分樣本流失,在此條件下建立的模型很容易欠擬合,同樣會使模型的泛化能力減弱。

        基于此,本文采用SMOTE算法結(jié)合Tomek Links算法的方法來對訓(xùn)練集進(jìn)行平衡處理。首先通過SMOTE算法合成新的少數(shù)類訓(xùn)練樣本,由于在合成新的少數(shù)類訓(xùn)練樣本時,容易出現(xiàn)少數(shù)類訓(xùn)練樣本“入侵”多數(shù)類訓(xùn)練樣本的情況,造成模型的過擬合,因此還要采用Tomek Links算法剔除噪聲數(shù)據(jù),解決少數(shù)類訓(xùn)練樣本“入侵”多數(shù)類訓(xùn)練樣本的問題。

        3.6 評價指標(biāo)

        評價指標(biāo)選取AUC、準(zhǔn)確率這兩個指標(biāo)。AUC的值等于ROC曲線下的面積,ROC曲線是以FPR為橫軸,TPR為縱軸的曲線。其中,F(xiàn)PR指假正例率,即真實樣本為負(fù)例,預(yù)測結(jié)果為正例的樣本所占的比例;TPR指真正例率,即真實樣本為正例,預(yù)測結(jié)果為正例的樣本所占的比例。準(zhǔn)確率表示當(dāng)樣本預(yù)測為正類時,真實結(jié)果為正類的樣本所占的比例。

        3.7 結(jié)果分析

        本文使用隨機(jī)森林算法預(yù)測違約狀態(tài),然后使用AUC和準(zhǔn)確率兩個值來評價其預(yù)測性能,并對比了邏輯回歸、決策樹算法在該數(shù)據(jù)集上的預(yù)測性能,結(jié)果如表2所示。從準(zhǔn)確率來看模型的預(yù)測效果,隨機(jī)森林的預(yù)測效果最好,準(zhǔn)確率為98.32%,決策樹的預(yù)測效果稍次,準(zhǔn)確率為96.95%,邏輯回歸的預(yù)測效果最差,準(zhǔn)確率僅有73.28%;從AUC來看模型的預(yù)測效果,隨機(jī)森林的預(yù)測效果最好,AUC為89.96%,邏輯回歸和決策樹的預(yù)測效果相差不大,AUC分別為71.72%和70.41%。綜合對比兩個指標(biāo),可以得出結(jié)論隨機(jī)森林的預(yù)測效果優(yōu)于邏輯回歸和決策樹的預(yù)測效果。

        表2 評價結(jié)果對比

        4 結(jié)論

        本文基于財務(wù)數(shù)據(jù)構(gòu)建了隨機(jī)森林分類模型,對發(fā)債企業(yè)是否會發(fā)生債券違約進(jìn)行了預(yù)測,并將其與邏輯回歸、決策樹構(gòu)建的模型做了一個預(yù)測性能上的對比??紤]到樣本極度不平衡以及初始特征比較多的情況,使用了方差選擇法與互信息法篩選出了與債券違約最相關(guān)的部分特征,并且通過SMOTE和Tomek Links結(jié)合的方法對樣本做了平衡處理。結(jié)果顯示,在模型評價方面,基于隨機(jī)森林構(gòu)建的模型相比于邏輯回歸、決策樹構(gòu)建的模型,AUC、準(zhǔn)確率這兩個指標(biāo)的值都更高,表明隨機(jī)森林算法在債券違約預(yù)測上的效果是比較良好的,對于債券違約預(yù)測的相關(guān)研究具有一定的參考價值。

        本文構(gòu)建的模型仍存在一些不足。正如前面文獻(xiàn)梳理中提到的,宏觀經(jīng)濟(jì)特征、行業(yè)特征、企業(yè)特征以及制度環(huán)境這幾類特征都能作為影響債券違約影響的因素,而本文僅僅依靠財務(wù)特征來構(gòu)建債券違約預(yù)測模型,存在一定的不足。如何將這幾類特征納入模型指標(biāo),可以成為未來研究的一個重點。

        猜你喜歡
        特征模型企業(yè)
        一半模型
        企業(yè)
        企業(yè)
        企業(yè)
        重要模型『一線三等角』
        敢為人先的企業(yè)——超惠投不動產(chǎn)
        云南畫報(2020年9期)2020-10-27 02:03:26
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        欧美 国产 日产 韩国 在线| 美女在线一区二区三区视频| 久久无码字幕中文久久无码 | 综合网在线视频| 国产精品女同一区二区久| 日本五十路人妻在线一区二区| 蜜桃日本免费看mv免费版| 国内精品久久久久久无码不卡| 免费a级毛片无码a∨免费| 日韩五码一区二区三区地址| 精品人妻av区乱码| 国产欧美日韩a片免费软件| 大胸美女吃奶爽死视频| 亚洲av午夜福利精品一区不卡| 夜夜躁狠狠躁日日躁视频 | 波多野结衣国产一区二区三区| 极品美女销魂一区二区三| 久久一区二区三区久久久| 国产网红主播无码精品| 国内久久婷婷激情五月天| 91青青草在线观看视频| 亚洲精品人成中文毛片| 草草浮力地址线路①屁屁影院| 久久精品无码专区东京热| 91热久久免费频精品99| 亚洲成a人v欧美综合天堂| 台湾佬综合网| 亚洲一区精品中文字幕 | 狂猛欧美激情性xxxx大豆行情| 日韩制服国产精品一区| 国产亚洲精品福利在线| 亚洲美女一区二区三区三州| 亚洲综合网站久久久| 无码国产精品一区二区免费16| 亚洲精品国产主播一区二区| 所有视频在线观看免费| 成片免费观看视频大全| 国产精品中文第一字幕| 国产日产韩国级片网站| 成人影院yy111111在线| 亚洲男人天堂2017|