鄭怡昕 王重仁
摘要:本文選取2014—2021年的信用債作為研究對(duì)象,以單一算法(邏輯回歸、高斯樸素貝葉斯、支持向量機(jī)和伯努利樸素貝葉斯)分別構(gòu)建Bagging和Stacking集成學(xué)習(xí)模型,并將其與單一算法以及傳統(tǒng)方法(KMV模型)進(jìn)行對(duì)比,探討如何提高信用債違約預(yù)測(cè)精度,證明Bagging集成算法的可靠性,還通過(guò)SHAP可解釋算法研究信用債違約中的重要指標(biāo)。實(shí)證結(jié)果顯示,四種單一機(jī)器學(xué)習(xí)模型在預(yù)測(cè)準(zhǔn)確率上優(yōu)于傳統(tǒng)KMV模型;進(jìn)一步對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行集成,發(fā)現(xiàn)同質(zhì)集成算法在提高預(yù)測(cè)性能方面不如異質(zhì)集成算法,且Bagging異質(zhì)集成算法的預(yù)測(cè)準(zhǔn)確率優(yōu)于Stacking異質(zhì)集成算法。將性能最好的Bagging異質(zhì)集成算法與SHAP可解釋算法結(jié)合,得到對(duì)識(shí)別信用債違約具有重要價(jià)值的9個(gè)指標(biāo),分別是違約前債項(xiàng)評(píng)級(jí)、違約前主體評(píng)級(jí)、交易所、凈資產(chǎn)收益率、債券類(lèi)型、企業(yè)性質(zhì)、財(cái)務(wù)費(fèi)用、總資產(chǎn)增長(zhǎng)率以及第一大股東持股比例,關(guān)鍵指標(biāo)的識(shí)別對(duì)信用債違約預(yù)測(cè)具有指導(dǎo)意義。
關(guān)鍵詞:信用債違約;風(fēng)險(xiǎn)預(yù)警;Bagging集成算法;Stacking集成算法;SHAP可解釋算法
中圖分類(lèi)號(hào): F832.5? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ?文章編號(hào):1007-0753(2023)10-0018-10
一、引言
信用債作為企業(yè)直接融資的重要工具,在保障實(shí)體經(jīng)濟(jì)健康發(fā)展,解決融資難、融資貴問(wèn)題上發(fā)揮著重要作用。隨著時(shí)間的推移,債券融資的發(fā)展空間逐漸擴(kuò)大。然而通過(guò)分析2015—2021年信用債違約情況可以發(fā)現(xiàn),隨著市場(chǎng)規(guī)模的擴(kuò)大,信用風(fēng)險(xiǎn)問(wèn)題日益凸顯。2015年受產(chǎn)能過(guò)剩的影響,上游周期行業(yè)的違約事件頻繁發(fā)生,使得違約主體數(shù)量大幅上升。2018年隨著去杠桿政策的出臺(tái),民營(yíng)企業(yè)違約現(xiàn)象頻發(fā),引發(fā)了第二波違約潮,2019年違約主體數(shù)量達(dá)到峰值。從違約金額來(lái)看,第二波違約潮在2018年后對(duì)市場(chǎng)的沖擊和影響遠(yuǎn)超過(guò)2015年開(kāi)始的第一波違約潮。隨著信用債市場(chǎng)的快速整頓,從2020年開(kāi)始,違約主體數(shù)量有所下降,2021年的首次違約主體數(shù)量為16家,較上年減少14家,2020—2021年間違約金額也開(kāi)始回落(杜漸和周冠男,2022)。
2021年的信用債市場(chǎng)處于經(jīng)歷“永煤事件”后的修復(fù)期,整體上信用債違約事件有所減少,但在違約主體的評(píng)級(jí)、性質(zhì)、行業(yè)和地區(qū)分布等方面也出現(xiàn)了一些新變化。首先,各行業(yè)中的違約主體呈現(xiàn)出不同的特點(diǎn)。例如,受到宏觀經(jīng)濟(jì)形勢(shì)影響較大的傳統(tǒng)制造業(yè)企業(yè),面臨著生產(chǎn)成本上升、市場(chǎng)競(jìng)爭(zhēng)加劇等壓力,違約風(fēng)險(xiǎn)相對(duì)較高。與此同時(shí),新興科技和綠色能源等領(lǐng)域的企業(yè)由于創(chuàng)新性強(qiáng)、市場(chǎng)需求大,違約風(fēng)險(xiǎn)相對(duì)較低。其次,地區(qū)間的經(jīng)濟(jì)發(fā)展不平衡也在一定程度上影響著信用債市場(chǎng)的穩(wěn)定性。發(fā)達(dá)地區(qū)的企業(yè)普遍具有較強(qiáng)的抗風(fēng)險(xiǎn)能力,而欠發(fā)達(dá)地區(qū)的企業(yè)則更容易受到地區(qū)性經(jīng)濟(jì)波動(dòng)的影響,違約風(fēng)險(xiǎn)較高。
此外,信用債市場(chǎng)的政策環(huán)境也發(fā)生了一些變化。監(jiān)管機(jī)構(gòu)加大了對(duì)信用風(fēng)險(xiǎn)的監(jiān)管力度,提高了信用債的發(fā)行門(mén)檻,加強(qiáng)了信息披露要求,這在一定程度上提高了市場(chǎng)的透明度,但也使得部分中小企業(yè)融資難度增加,這可能增加他們的違約風(fēng)險(xiǎn)。同時(shí),貨幣政策的變化也直接影響了市場(chǎng)流動(dòng)性,對(duì)信用債違約形成了一定的影響。綜上所述,了解當(dāng)前信用債市場(chǎng)的變化,對(duì)于預(yù)測(cè)潛在的違約風(fēng)險(xiǎn)、制定相應(yīng)的風(fēng)險(xiǎn)管理策略以及維護(hù)市場(chǎng)的穩(wěn)定性具有重要意義。
二、文獻(xiàn)綜述
隨著信用債規(guī)模逐步擴(kuò)大,信用債違約成為關(guān)注的焦點(diǎn),越來(lái)越多的學(xué)者從各種角度研究信用債違約。傳統(tǒng)KMV模型常用于信用債違約預(yù)測(cè)。潛力和馮雯靜(2020)基于2015—2019年的面板數(shù)據(jù),采用KMV模型預(yù)測(cè)了2020—2023年地方政府專(zhuān)項(xiàng)債券的預(yù)期違約概率。Ephraim等(2022)對(duì)KMV原始模型做了改進(jìn),使其不僅可以估計(jì)信用違約概率,還能估計(jì)以交易成本為代表的市場(chǎng)摩擦和基于模糊性建模的不確定性;他們選擇南部非洲銀行進(jìn)行驗(yàn)證,結(jié)果表明銀行的負(fù)債、股權(quán)或資本成本以及不確定性與其違約風(fēng)險(xiǎn)呈正相關(guān)關(guān)系。
在影響因素方面,國(guó)內(nèi)外學(xué)者從不同角度對(duì)債券違約特征進(jìn)行研究。Nguyen(2021)研究了1995—2012 年間國(guó)際貨幣基金組織 (IMF)的援助計(jì)劃對(duì) 20 個(gè)國(guó)家企業(yè)違約風(fēng)險(xiǎn)的影響,發(fā)現(xiàn)IMF的援助與企業(yè)違約風(fēng)險(xiǎn)異常增加有關(guān)。在針對(duì)我國(guó)情況的研究中,Xu等(2020)發(fā)現(xiàn)不同省份的信用債違約概率在地域分布上存在明顯差異。張春強(qiáng)等(2019)發(fā)現(xiàn)公司從業(yè)性質(zhì)與債券違約具有明顯的相關(guān)關(guān)系。還有研究表明財(cái)務(wù)指標(biāo)(潘澤清,2018)、企業(yè)杠桿率變化(孫立行等,2021)、 企業(yè)特征和發(fā)行結(jié)構(gòu)(王雪標(biāo)等,2018)、企業(yè)生命周期(高詠玲等,2017)和民企互保(鐘金龍等,2021)與信用債違約具有明顯相關(guān)性。
隨著機(jī)器學(xué)習(xí)在金融領(lǐng)域的廣泛應(yīng)用,一些學(xué)者已將組合預(yù)測(cè)與集成預(yù)測(cè)的方法相結(jié)合,構(gòu)建了以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的集成預(yù)測(cè)模型。Karol(2019)在預(yù)測(cè)波蘭的通貨膨脹數(shù)據(jù)時(shí),發(fā)現(xiàn)和單個(gè)模型相比,將Bagging算法與單個(gè)隱含層的前饋神經(jīng)網(wǎng)絡(luò)結(jié)合的模型展現(xiàn)出更好的預(yù)測(cè)性能。Abellán和Mantas(2014)以澳大利亞、德國(guó)和日本的信用數(shù)據(jù)為研究對(duì)象,證明Bagging 集成算法具有明顯優(yōu)勢(shì)。Yin(2020)在股票溢價(jià)預(yù)測(cè)方面采用了Bagging集成算法,并與LASSO方法進(jìn)行了比較,結(jié)果表明無(wú)論是經(jīng)濟(jì)繁榮時(shí)期還是經(jīng)濟(jì)衰退時(shí)期,Bagging算法均超過(guò)LASSO方法獲得了更為顯著的經(jīng)濟(jì)收益。王康等(2021)在預(yù)測(cè)電力系統(tǒng)短期負(fù)荷時(shí),運(yùn)用Bagging集成算法對(duì)原始模型進(jìn)行集成處理,提高了預(yù)測(cè)精確度。Jiang等(2020)從多模型集成的角度,通過(guò)Stacking集成算法提高預(yù)測(cè)性能。丁嵐和駱品亮(2017)采用Logistic回歸、決策樹(shù)和支持向量機(jī)作為基分類(lèi)器,并以支持向量機(jī)作為次級(jí)學(xué)習(xí)器構(gòu)建了一個(gè)Stacking集成框架,用于評(píng)估違約風(fēng)險(xiǎn);通過(guò)與單一學(xué)習(xí)器進(jìn)行比較, Stacking集成框架展現(xiàn)出了更好的預(yù)測(cè)性能。由此,本文做出如下創(chuàng)新:
一是在已有研究中,Bagging集成算法一般應(yīng)用于同質(zhì)模型的集成,而本文試將Bagging集成算法應(yīng)用于異質(zhì)模型的集成,同時(shí)通過(guò)與Stacking集成算法進(jìn)行比較,全面評(píng)估不同集成策略在信用債違約預(yù)測(cè)方面的預(yù)測(cè)效果。二是在相關(guān)文獻(xiàn)中,雖然集成算法被廣泛應(yīng)用于預(yù)測(cè)問(wèn)題,但很少深入分析模型預(yù)測(cè)的因果關(guān)系。本文針對(duì)這一問(wèn)題,引入SHAP可解釋算法(Lundberg和Lee, 2017)解釋模型預(yù)測(cè)背后的決策邏輯。與傳統(tǒng)的只關(guān)注預(yù)測(cè)結(jié)果不同,本文著重分析每個(gè)特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn),深入挖掘模型的因果關(guān)系,從而提高模型的可信度和實(shí)用性,也強(qiáng)調(diào)了對(duì)模型決策過(guò)程的解釋和理解的重要性。
三、研究設(shè)計(jì)
本文旨在構(gòu)建一種集成學(xué)習(xí)方法,通過(guò)集成多種算法實(shí)現(xiàn)對(duì)信用債違約概率的預(yù)測(cè)。在對(duì)上述多種研究成果進(jìn)行分析和總結(jié)的基礎(chǔ)上,選擇預(yù)測(cè)性能較佳的單一算法(支持向量機(jī)、邏輯回歸、高斯樸素貝葉斯和伯努利樸素貝葉斯),提出基于Bagging集成算法的框架來(lái)預(yù)測(cè)信用債違約情況,并將其與Stacking集成學(xué)習(xí)方法進(jìn)行比較,驗(yàn)證Bagging集成算法的預(yù)測(cè)性能;然后通過(guò)SHAP可解釋算法,深入分析模型的預(yù)測(cè)結(jié)果,并揭示指標(biāo)特征值對(duì)于結(jié)果的影響程度和方向。
(一)Bagging集成算法
Bagging集成算法能夠?qū)⒍鄠€(gè)預(yù)測(cè)模型相結(jié)合,每個(gè)模型都使用從原始訓(xùn)練集中采樣得到的子訓(xùn)練集來(lái)構(gòu)建(Breiman, 1996)。在進(jìn)行預(yù)測(cè)時(shí),通過(guò)對(duì)訓(xùn)練集進(jìn)行隨機(jī)化抽樣處理,減小了預(yù)測(cè)結(jié)果的方差,避免了過(guò)擬合問(wèn)題,使得預(yù)測(cè)結(jié)果更加穩(wěn)定(王康等,2021)。Bagging集成算法的步驟如下:
(1) 在原始數(shù)據(jù)集D中,利用有放回的隨機(jī)抽樣方式多次抽取m個(gè)樣本,形成n個(gè)數(shù)據(jù)集d1, d2, …, dn。假設(shè)每個(gè)樣本被選中的概率相等。
(2) 使用n個(gè)基模型對(duì)對(duì)應(yīng)的n個(gè)數(shù)據(jù)集d1, d2, …, dn進(jìn)行訓(xùn)練學(xué)習(xí),在理想情況下,最終得到n個(gè)不同的模型e1, e2, …, en。
(3) 將n個(gè)不同的模型e1, e2, …, en的預(yù)測(cè)結(jié)果取平均值作為最終的集成預(yù)測(cè)結(jié)果(譚文侃等,2022)。
(二)Stacking集成學(xué)習(xí)算法
Stacking集成學(xué)習(xí)算法將多個(gè)分類(lèi)或回歸模型進(jìn)行聚合,使模型的邊界更加穩(wěn)定,降低了過(guò)擬合的風(fēng)險(xiǎn)(Guo等,2020)。具體過(guò)程如下:假設(shè)有n個(gè)基礎(chǔ)學(xué)習(xí)器,訓(xùn)練集包含m個(gè)樣本,每個(gè)基礎(chǔ)學(xué)習(xí)器對(duì)每個(gè)樣本都進(jìn)行預(yù)測(cè),這些預(yù)測(cè)輸出組成一個(gè)元特征矩陣X:
其中,xij表示第i個(gè)樣本由第j個(gè)基礎(chǔ)學(xué)習(xí)器預(yù)測(cè)的輸出。元學(xué)習(xí)器使用元特征矩陣X作為輸入值,對(duì)應(yīng)的真實(shí)標(biāo)簽y 作為輸出值進(jìn)行訓(xùn)練,得到元模型。在測(cè)試時(shí),先使用基礎(chǔ)學(xué)習(xí)器進(jìn)行預(yù)測(cè),得到元特征矩陣,然后用元模型對(duì)元特征矩陣進(jìn)行預(yù)測(cè),得到最終的集成預(yù)測(cè)。
(三)SHAP可解釋算法
SHAP(Shapley Additive exPlanations)可解釋算法是一種用于解釋機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的方法。它基于博弈論中的SHAP值,為每個(gè)特征提供了一個(gè)重要性分?jǐn)?shù),以說(shuō)明其對(duì)于模型預(yù)測(cè)的貢獻(xiàn)。在現(xiàn)有的機(jī)器學(xué)習(xí)模型中,通常很難直接理解模型的預(yù)測(cè)結(jié)果,而SHAP可解釋算法有助于理解模型中每個(gè)特征對(duì)預(yù)測(cè)結(jié)果的影響程度,為模型的可解釋性提供了有力支持(Lundberg和Lee,2017)。
SHAP值在機(jī)器學(xué)習(xí)中的應(yīng)用基于以下公式進(jìn)行計(jì)算:
其中,SHAPi( f )是特征i在預(yù)測(cè)函數(shù)f中的SHAP值,n是輸入特征的數(shù)量,J是輸入特征的索引集,x∈X是輸入樣本。fx(S)表示將輸入S與i的組合送入模型中,并預(yù)測(cè)出輸出結(jié)果,即S對(duì)預(yù)測(cè)f的共同影響。而fx (S∪i)則表示在保持其他特征不變的情況下,將輸入i與S的組合送入模型中所預(yù)測(cè)的輸出結(jié)果,即S∪i對(duì)預(yù)測(cè)f的影響。|S|表示集合S的大小, S∈J \ i 表示從特征集中選擇一個(gè)不包含i的子集S。公式中的系數(shù)是SHAP值公式的系數(shù),用于計(jì)算每個(gè)特征的平均邊際貢獻(xiàn)(林娜等,2023)。
四、數(shù)據(jù)選擇與處理
(一) 數(shù)據(jù)說(shuō)明
本文數(shù)據(jù)來(lái)源于WIND數(shù)據(jù)庫(kù),選擇從2014年1月1日—2021年12月31日的違約信用債作為違約樣本,對(duì)于同一主體發(fā)行的不同信用債認(rèn)定為不同樣本,共計(jì)1 067只信用債。其中,60.12%的信用債主體評(píng)級(jí)在B級(jí)及以下,62.71%的信用債的債項(xiàng)評(píng)級(jí)在B級(jí)及以下。69.61%的違約信用債由民營(yíng)企業(yè)發(fā)行,44.75%的違約信用債在銀行間債券交易市場(chǎng)進(jìn)行交易,34.05%的違約信用債在上海交易所進(jìn)行交易,18.86%的違約信用債在深圳交易所進(jìn)行交易。違約信用債的種類(lèi)主要是私募債(255只)、一般公司債(249只)和一般中期票據(jù)(246只)。為了確保所選信用債在觀察周期(2014年1月1日—2021年12月31日)內(nèi)不會(huì)發(fā)生違約,本文在2021年12月31日之前到期的信用債中進(jìn)行選擇,并依據(jù)所屬行業(yè)和資產(chǎn)規(guī)模按照1∶2的配對(duì)比例為違約信用債選擇匹配樣本作為對(duì)照組。部分信用債主體信息不完整,需要從樣本中剔除,最終確定違約信用債769只,對(duì)照組987只信用債,用于本研究。
(二)風(fēng)險(xiǎn)預(yù)警指標(biāo)選擇及數(shù)據(jù)預(yù)處理
在構(gòu)建信用債違約風(fēng)險(xiǎn)預(yù)警指標(biāo)體系時(shí),本文選擇宏觀指標(biāo)、債項(xiàng)指標(biāo)和財(cái)務(wù)指標(biāo)作為主要考慮因素。宏觀指標(biāo)的選取和處理參考Cakmakli和Van dijk(2016)的研究;債項(xiàng)指標(biāo)和財(cái)務(wù)指標(biāo)除了考慮現(xiàn)金流質(zhì)量、短期償債能力、長(zhǎng)期償債能力、營(yíng)運(yùn)能力、盈利能力和發(fā)展分析6個(gè)方面外,還參考了蔣敏等(2021)的指標(biāo)體系,并將篩選出的所有變量根據(jù)指標(biāo)的屬性分為定量指標(biāo)和類(lèi)別指標(biāo)。對(duì)于類(lèi)別指標(biāo),按照標(biāo)簽編碼方案,將每個(gè)類(lèi)別映射到數(shù)值。為了消除不同單位和方差對(duì)結(jié)果的影響,依據(jù)公式(3)對(duì)數(shù)據(jù)進(jìn)行歸一化處理,并進(jìn)行上下1%的縮尾處理剔除異常值,通過(guò)顯著性、相關(guān)性和多重共線(xiàn)性檢驗(yàn),最終篩選出33個(gè)指標(biāo),其中定量指標(biāo)27個(gè)、定性指標(biāo)6個(gè)(見(jiàn)表1)。
式中xi表示各個(gè)樣本,xmax表示樣本最大值,xmin表示樣本最小值。
五、實(shí)驗(yàn)及結(jié)果分析
(一) 違約預(yù)測(cè)模型的構(gòu)建
本文選擇上述33個(gè)指標(biāo)建立新的信用債評(píng)級(jí)系統(tǒng),并以此為基礎(chǔ)構(gòu)建信用債違約預(yù)測(cè)模型;選擇支持向量機(jī)、邏輯回歸、高斯樸素貝葉斯和伯努利樸素貝葉斯作為基分類(lèi)器,采用Bagging集成算法和Stacking集成算法構(gòu)建集成模型。同時(shí),將這些集成算法與傳統(tǒng)KMV模型進(jìn)行對(duì)比,旨在確定最佳預(yù)測(cè)模型。
為了降低模型的過(guò)擬合程度,并且盡可能地從數(shù)據(jù)中獲取信息,同時(shí)讓模型的預(yù)測(cè)性能不會(huì)因?yàn)閿?shù)據(jù)集的劃分而過(guò)于敏感,本次實(shí)驗(yàn)將樣本進(jìn)行劃分,60%作為訓(xùn)練集,40%作為測(cè)試集,進(jìn)行十折交叉驗(yàn)證,重復(fù)三次,并將每次重復(fù)的結(jié)果求平均值以獲得最終結(jié)果。
在進(jìn)行違約預(yù)測(cè)時(shí),KMV模型和機(jī)器學(xué)習(xí)算法得到的預(yù)測(cè)結(jié)果存在差異。KMV模型預(yù)測(cè)的是違約概率,而機(jī)器學(xué)習(xí)算法常用于預(yù)測(cè)信用債的類(lèi)別(即是否會(huì)違約)。為了進(jìn)行統(tǒng)一的評(píng)估和比較,參考 Zhao和Chen(2022)的研究,通過(guò)大多數(shù)樣本的平均違約距離來(lái)判斷企業(yè)違約的標(biāo)準(zhǔn)。研究發(fā)現(xiàn)大多數(shù)企業(yè)的違約距離在-5—7之間,平均值為2,因此,若違約距離小于2,該企業(yè)發(fā)行的信用債將被判定為違約;若違約距離大于或等于2,該企業(yè)發(fā)行的信用債將被判定為非違約。
由于本文違約樣本和非違約樣本在數(shù)量上存在不平衡,模型的預(yù)測(cè)分類(lèi)評(píng)價(jià)指標(biāo)選擇準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1,這樣不會(huì)受到數(shù)據(jù)分布不均的影響,還能更有效地反映模型預(yù)測(cè)性能。其中準(zhǔn)確率(accuracy)是指分類(lèi)器正確預(yù)測(cè)的樣本數(shù)與總樣本數(shù)之比。精確率(precision)是指在分類(lèi)為正類(lèi)的樣本中,分類(lèi)器正確預(yù)測(cè)為正類(lèi)的樣本數(shù)與所有預(yù)測(cè)為正類(lèi)的樣本數(shù)之比。召回率(recall)是指,在所有真正為正類(lèi)的樣本中,分類(lèi)器正確預(yù)測(cè)為正類(lèi)的樣本數(shù)與所有真正為正類(lèi)的樣本數(shù)之比。F1值是精確率和召回率的調(diào)和平均數(shù),它綜合考慮了分類(lèi)器的精確率和召回率。各指標(biāo)表達(dá)式見(jiàn)公式(4)—(7)。
其中TP、FP、FN和TN來(lái)自分別以真實(shí)值(T)和預(yù)測(cè)值(F)的positive (P)和negative (N)組成的混淆矩陣 。
(二) 基于不同模型的測(cè)算結(jié)果分析
表2—表4展示了各個(gè)模型的預(yù)測(cè)性能比較結(jié)果,表2是單一模型和傳統(tǒng)KMV模型的預(yù)測(cè)性能比較,表3是分別以不同模型為基分類(lèi)器的同質(zhì)Bagging集成算法和異質(zhì)Bagging集成算法的預(yù)測(cè)性能比較,表4是分別以不同模型為基分類(lèi)器的同質(zhì)Stacking集成算法和異質(zhì)Stacking集成算法的預(yù)測(cè)性能比較。和其他算法相比,KMV模型在accuracy、precision、recall和F1上的綜合性能弱于其他算法(除了F1略高于高斯樸素貝葉斯),而集成算法相對(duì)于單一算法在預(yù)測(cè)性能上有一定程度的提高,并且異質(zhì)集成算法優(yōu)于同質(zhì)集成算法。這是因?yàn)榧伤惴梢詮浹a(bǔ)單一模型的缺點(diǎn),從而獲得更穩(wěn)定、更準(zhǔn)確的預(yù)測(cè)結(jié)果,并且異質(zhì)集成算法使用不同類(lèi)型或不同參數(shù)設(shè)置的基礎(chǔ)模型,更有可能產(chǎn)生不同的預(yù)測(cè)錯(cuò)誤。這種差異性有助于減少集成模型的偏差,提高整體性能。在異質(zhì)集成算法中,Bagging集成優(yōu)于Stacking集成,原因是在Bagging集成中,每個(gè)基分類(lèi)器都通過(guò)自主隨機(jī)采樣訓(xùn)練,加強(qiáng)了模型的泛化能力,并在它們之間引入了一些隨機(jī)性,減少了過(guò)擬合產(chǎn)生的可能,在處理一定的噪聲和不平衡的數(shù)據(jù)時(shí),可通過(guò)隨機(jī)抽樣和多模型平均減少噪聲的影響,并且在處理不平衡數(shù)據(jù)時(shí)能夠更好地平衡各類(lèi)別的預(yù)測(cè)結(jié)果。Stacking集成算法則需要對(duì)多個(gè)基分類(lèi)器的輸出進(jìn)行組合,很容易受到性能不好的模型影響,且數(shù)據(jù)的噪聲和不平衡性還會(huì)影響其模型組合和元分類(lèi)器的選擇;此外,額外引入的元分類(lèi)器可能會(huì)增加整體模型的復(fù)雜度,很可能導(dǎo)致出現(xiàn)過(guò)擬合問(wèn)題。
(三)信用債違約指標(biāo)重要性分析
和其他模型相比,Bagging異質(zhì)集成算法有著更優(yōu)的表現(xiàn),具備良好的預(yù)測(cè)能力。但其結(jié)構(gòu)過(guò)于復(fù)雜,在可解釋方面不如一些簡(jiǎn)單模型易于理解,所以引入SHAP可解釋算法建立輔助理解模型。
圖1 展示了SHAP特征值的變化如何影響信用債違約概率。采用不同顏色表示指標(biāo)特征在樣本點(diǎn)上的取值大小,紅色樣本點(diǎn)表示指標(biāo)在該樣本上取值較大,藍(lán)色樣本點(diǎn)表示指標(biāo)在該樣本上取值較小。每個(gè)指標(biāo)特征的圖形由集合中所有樣本點(diǎn)構(gòu)成。以 SHAP 值=0為分界線(xiàn),當(dāng)樣本點(diǎn)位于左側(cè)時(shí),該指標(biāo)特征對(duì)應(yīng)樣本的 SHAP 值為負(fù),表示指標(biāo)特征取該樣本點(diǎn)的值時(shí)對(duì)輸出違約概率有負(fù)向貢獻(xiàn),即降低違約概率;當(dāng)樣本點(diǎn)位于右側(cè)時(shí),指標(biāo)特征取對(duì)應(yīng)值時(shí)對(duì)輸出違約概率有正向貢獻(xiàn),即增加違約概率。因此,對(duì)輸出違約概率有正向貢獻(xiàn)的線(xiàn)性關(guān)聯(lián)指標(biāo),圖像應(yīng)呈現(xiàn)出左邊藍(lán)色、中間紫色和右邊紅色;而對(duì)輸出違約概率有負(fù)向貢獻(xiàn)的線(xiàn)性關(guān)聯(lián)指標(biāo),圖像應(yīng)呈現(xiàn)出左邊紅色、中間紫色和右邊藍(lán)色。結(jié)果表明,違約前債項(xiàng)評(píng)級(jí)、違約前主體評(píng)級(jí)、交易所、凈資產(chǎn)收益率、債券類(lèi)型、企業(yè)性質(zhì)、財(cái)務(wù)費(fèi)用、總資產(chǎn)增長(zhǎng)率以及第一大股東持股比例對(duì)信用債違約概率預(yù)測(cè)發(fā)揮著重要的作用(見(jiàn)圖1)。這些指標(biāo)的SHAP值散點(diǎn)圖見(jiàn)圖2—圖10,圖中部分類(lèi)別變量以數(shù)字代表,具體見(jiàn)表5。
結(jié)合表5和圖2—圖10可知,在銀行間交易和深圳交易所交易的信用債違約概率較大(見(jiàn)圖4);違約前主體評(píng)級(jí)和違約前債項(xiàng)評(píng)級(jí)都是評(píng)級(jí)越低,違約概率越大(見(jiàn)圖2和圖3);債券類(lèi)型中,一般中期票據(jù)、一般企業(yè)債、一般短期融資券和私募債的信用債違約概率較大(見(jiàn)圖6);企業(yè)類(lèi)型中,民營(yíng)企業(yè)、國(guó)有企業(yè)和中外合資企業(yè)的信用債有較大違約概率(見(jiàn)圖7)。
根據(jù)圖5可知,整體來(lái)看凈資產(chǎn)收益率和信用債違約概率呈負(fù)相關(guān)關(guān)系。這是因?yàn)閮糍Y產(chǎn)收益率為負(fù)不僅意味著企業(yè)由于運(yùn)營(yíng)不善,在經(jīng)營(yíng)過(guò)程中有高額費(fèi)用產(chǎn)生或者其他負(fù)面經(jīng)濟(jì)因素,面臨虧損,從而導(dǎo)致現(xiàn)金流緊張,難以滿(mǎn)足債務(wù)償還要求,增加違約風(fēng)險(xiǎn);還可能導(dǎo)致企業(yè)的信用評(píng)級(jí)下降,增加企業(yè)融資成本,進(jìn)一步惡化企業(yè)的財(cái)務(wù)狀況,限制其債務(wù)償還能力,從而導(dǎo)致違約風(fēng)險(xiǎn)上升。而凈資產(chǎn)收益率大于等于0則意味著企業(yè)在運(yùn)營(yíng)方面取得了盈利,這增強(qiáng)了企業(yè)的財(cái)務(wù)穩(wěn)定性,使其更有能力償還債務(wù),能更好地應(yīng)對(duì)經(jīng)濟(jì)波動(dòng),從而降低違約風(fēng)險(xiǎn),降低信用債違約概率。
根據(jù)圖8可知,隨著財(cái)務(wù)費(fèi)用的上升,信用債違約概率呈現(xiàn)先上升后緩慢下降的趨勢(shì)。這是因?yàn)槌跗诘呢?cái)務(wù)壓力可能使企業(yè)的現(xiàn)金流受到擠壓,難以按時(shí)支付債務(wù),導(dǎo)致違約概率急劇上升。在財(cái)務(wù)費(fèi)用增高后,企業(yè)可能會(huì)采取一些措施來(lái)應(yīng)對(duì)財(cái)務(wù)壓力,例如尋求新的融資、削減成本、提高盈利能力等,這些措施可能會(huì)在一段時(shí)間內(nèi)緩解財(cái)務(wù)壓力,降低信用債違約概率的增長(zhǎng)速度。隨著時(shí)間的推移,企業(yè)也會(huì)進(jìn)行財(cái)務(wù)調(diào)整和優(yōu)化來(lái)改善其財(cái)務(wù)狀況,包括重新規(guī)劃債務(wù)結(jié)構(gòu)、改善經(jīng)營(yíng)績(jī)效、降低財(cái)務(wù)風(fēng)險(xiǎn)等,這些措施能夠逐漸降低違約概率。
根據(jù)圖9可知,當(dāng)總資產(chǎn)增長(zhǎng)率小于0時(shí),信用債違約風(fēng)險(xiǎn)高企,而當(dāng)總資產(chǎn)增長(zhǎng)率大于0時(shí),信用債違約概率先增加后減少直到趨于平緩。這是因?yàn)樵诳傎Y產(chǎn)增長(zhǎng)率的不同階段,企業(yè)面臨的財(cái)務(wù)壓力、債務(wù)負(fù)擔(dān)和市場(chǎng)環(huán)境等因素交織影響著違約概率的變化。當(dāng)總資產(chǎn)增長(zhǎng)率大于0且數(shù)值較低時(shí),企業(yè)可能在相對(duì)穩(wěn)定的狀態(tài)下運(yùn)營(yíng),財(cái)務(wù)狀況較好,違約概率較低;然而,隨著企業(yè)總資產(chǎn)增長(zhǎng)率的提高,企業(yè)可能開(kāi)始擴(kuò)張、投資和拓展市場(chǎng),在這個(gè)階段,企業(yè)需要投入更多的資金來(lái)支持新項(xiàng)目,可能導(dǎo)致財(cái)務(wù)壓力增加,從而提高了違約概率;企業(yè)在高速增長(zhǎng)的過(guò)程中可能會(huì)不斷優(yōu)化其財(cái)務(wù)結(jié)構(gòu),改善債務(wù)管理、資金配置等,在長(zhǎng)期會(huì)降低債務(wù)風(fēng)險(xiǎn),提高企業(yè)的財(cái)務(wù)穩(wěn)定性,進(jìn)而將違約概率控制在一個(gè)較低的平穩(wěn)數(shù)值。
由圖10可知,第一大股東持股比例與信用債違約概率之間的關(guān)系呈現(xiàn)出復(fù)雜的動(dòng)態(tài),這可能是因?yàn)榈谝淮蠊蓶|持股比例處于不同區(qū)間時(shí),受到不同的影響機(jī)制的主導(dǎo),呈現(xiàn)出不同的變動(dòng)趨勢(shì)。整體來(lái)看,當(dāng)?shù)谝淮蠊蓶|持股比例較低時(shí),其對(duì)企業(yè)決策的影響可能有限,此時(shí),即使持股比例稍有增加,對(duì)企業(yè)運(yùn)營(yíng)和財(cái)務(wù)風(fēng)險(xiǎn)的影響可能也不太顯著,因此違約概率的增長(zhǎng)較為緩慢。隨著第一大股東持股比例的增加,他們獲得了更大的企業(yè)控制權(quán)和決策權(quán),在一定范圍內(nèi),這有助于提高企業(yè)運(yùn)營(yíng)效率,管理財(cái)務(wù)風(fēng)險(xiǎn),控制違約概率;但當(dāng)?shù)谝淮蠊蓶|持股比例超過(guò)某一閾值后,可能導(dǎo)致逆向效應(yīng),即過(guò)高的持股比例使第一大股東控制權(quán)過(guò)于集中,導(dǎo)致決策偏向性明顯,影響企業(yè)的正常經(jīng)營(yíng),這可能導(dǎo)致風(fēng)險(xiǎn)集中或不穩(wěn)定,使違約概率再次增加。當(dāng)?shù)谝淮蠊蓶|持股比例達(dá)到一定水平后,持續(xù)增加持股比例可能不再顯著改變企業(yè)的控制和決策權(quán),而更多地意味著企業(yè)經(jīng)營(yíng)和財(cái)務(wù)狀況的穩(wěn)定性,市場(chǎng)信心得以提升,從而減少了違約的風(fēng)險(xiǎn)。此外,企業(yè)的治理結(jié)構(gòu)、市場(chǎng)環(huán)境、經(jīng)營(yíng)戰(zhàn)略等因素都可能影響這種復(fù)雜的關(guān)系,使之呈現(xiàn)出一種多變、不穩(wěn)定的模式。
六、結(jié)論與不足
隨著近年來(lái)信用債市場(chǎng)的迅速發(fā)展,信用債違約風(fēng)險(xiǎn)逐漸引起關(guān)注。本文旨在尋找提高預(yù)測(cè)信用債違約水平的模型,并探討信用債違約的影響因素,以期為投資者提供更準(zhǔn)確的風(fēng)險(xiǎn)評(píng)估和決策參考。本文選擇2014—2021年全部的違約信用債作為違約組,并依據(jù)所屬行業(yè)和資產(chǎn)規(guī)模按照1∶2的配對(duì)比例為違約信用債選擇匹配樣本,最終得到信息完整的違約信用債769只,對(duì)照組非違約信用債987只。本文通過(guò)參考相關(guān)文獻(xiàn),確定了定量指標(biāo),并結(jié)合信用債市場(chǎng)變化選擇部分類(lèi)別指標(biāo)建立信用債違約預(yù)警指標(biāo)體系。在研究方法上,本文旨在探索基于不同基分類(lèi)器的集成算法在信用債違約預(yù)警上的應(yīng)用,并比較不同算法性能的優(yōu)越性;考慮到集成算法存在的黑箱問(wèn)題,最后選擇性能最佳的模型進(jìn)行特征重要性分析。與傳統(tǒng)模型相比較,機(jī)器學(xué)習(xí)算法表現(xiàn)出更好的預(yù)測(cè)性能。與同質(zhì)集成算法相比,異質(zhì)集成算法在提高預(yù)測(cè)精度方面相對(duì)較強(qiáng)。此外,針對(duì)異質(zhì)集成算法,Bagging集成算法的預(yù)測(cè)效果優(yōu)于Stacking集成算法??偠灾?,在提高預(yù)測(cè)準(zhǔn)確性方面,異質(zhì)集成算法具備較大潛力,并且Bagging集成算法在該領(lǐng)域的應(yīng)用效果更加顯著。
此外,基于SHAP的特征分析,本文得出了對(duì)建立預(yù)警指標(biāo)體系具有重要意義的指標(biāo)。研究結(jié)果顯示,違約前債項(xiàng)評(píng)級(jí)、違約前主體評(píng)級(jí)、交易所、凈資產(chǎn)收益率、債券類(lèi)型、企業(yè)性質(zhì)、財(cái)務(wù)費(fèi)用、總資產(chǎn)增長(zhǎng)率以及第一大股東持股比例在信用債違約預(yù)測(cè)中有很大影響,值得投資者和監(jiān)管部門(mén)關(guān)注。這些指標(biāo)大部分是類(lèi)別指標(biāo),因此在今后構(gòu)建信用債違約預(yù)警體系時(shí),可以考慮非量化指標(biāo)和量化指標(biāo)協(xié)同發(fā)揮作用,共同構(gòu)建信用債違約預(yù)警指標(biāo)體系,以全面衡量信用風(fēng)險(xiǎn)(雷欣南等,2022)。
本文的研究也存在一些局限性。例如數(shù)據(jù)集規(guī)模較小、缺乏橫向數(shù)據(jù),影響了結(jié)果的適用性與普遍性。此外,特征之間的交互關(guān)系也需要更精細(xì)的探究。在未來(lái)研究中可以增加數(shù)據(jù)集規(guī)模,加入更多的影響因素,同時(shí)使用更多的算法對(duì)模型進(jìn)行優(yōu)化,以提高模型預(yù)測(cè)精度并尋找最合適的模型,最終投入實(shí)踐,為信用債違約風(fēng)險(xiǎn)控制策略的制定提供科學(xué)可行的參考。
參考文獻(xiàn):
[1] 杜漸,周冠男. 2021年信用債市場(chǎng)違約年鑒(下)——案例篇[EB/OL].(2022-01-26)[2023-10-30]. https://cj.hczq.com/paidArticles/54915?t=1687338598270. 2022.01.26.
[2]潛力,馮雯靜.地方政府專(zhuān)項(xiàng)債券違約風(fēng)險(xiǎn) ——基于KMV模型的分析[J].統(tǒng)計(jì)與信息論壇,2020,35(07):35-44.
[3] EPHRAIM M, ERIYOTI C, FARAI K. Fuzzy structural risk of default for banks in Southern Africa [J]. Cogent Economics and Finance, 2022, 10(01): 2141884.
[4] NGUYEN T T. The effect of International Monetary Fund programs on corporate default risk[J]. International Journal of Finance & Economics,2021,28(01):1156-1174.
[5] XU Z H, FAN W, ZHU F. Research on regional debt risk in Hubei province based on modified KMV model [J]. IOP Conference Series: Materials Science and Engineering, 2020, 768(05): 052129.
[6]張春強(qiáng),鮑群,盛明泉.公司債券違約的信用風(fēng)險(xiǎn)傳染效應(yīng)研究——來(lái)自同行業(yè)公司發(fā)債定價(jià)的經(jīng)驗(yàn)證據(jù)[J].經(jīng)濟(jì)管理,2019,41(01):174-190.
[7]潘澤清.企業(yè)債務(wù)違約風(fēng)險(xiǎn)Logistic回歸預(yù)警模型[J].上海經(jīng)濟(jì)研究,2018,30(08):73-83.
[8]孫立行,吳雄劍,唐逸舟.貨幣政策、杠桿水平與債券違約[J].蘇州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2021,42(06):115-126.
[9]王雪標(biāo),王晰,孫曉林.我國(guó)中期票據(jù)發(fā)行信用利差的影響因素研究[J].山西財(cái)經(jīng)大學(xué)學(xué)報(bào),2018,40(09):18-32.
[10]高詠玲,杜晗,佟巖.生命周期視角下并購(gòu)類(lèi)型對(duì)上市公司信用風(fēng)險(xiǎn)的影響——基于KMV模型的實(shí)證研究[J].科學(xué)決策,2017(03):35-48.
[11]中泰證券課題組,鐘金龍,馮玉梅.公司信用債違約風(fēng)險(xiǎn)預(yù)警與防范研究[J].證券市場(chǎng)導(dǎo)報(bào),2021(02):2-10+18.
[12]KAROL G S. Bagged neural networks for forecasting Polish (low) inflation[J]. International Journal of Forecasting,2019,35(03):1042-1059.
[13] ABELL?N J,MANTAS C J. Improving experimental studies about ensembles of classifiers for bankruptcy prediction and credit scoring[J]. Expert Systems with Applications,2014,41(08):3825-3830.
[14] YIN A W. Equity premium prediction and optimal portfolio decision with Bagging[J]. The North American Journal of Economics and Finance,2020,54:101274.
[15]王康, 張智晟, 撖奧洋, 等.基于Bagging的雙向GRU集成神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測(cè)[J]. 電力系統(tǒng)及其自動(dòng)化學(xué)報(bào), 2021, 33(10): 24-30.
[16] JIANG M Q,LIU J P,ZHANG L,et al. An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms[J]. Physica A:Statistical Mechanics and Its Applications,2020,541:122272.
[17]丁嵐,駱品亮. 基于Stacking集成策略的P2P網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)警研究[J]. 投資研究,2017,36(04):41-54.
[18] LUNDBERG S M, LEE S-I.? A unified approach to interpreting model predictions [C].? Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 4768-4777.
[19] BREIMAN L. Bagging predictors[J]. Machine Learning,1996,24(02):123-140.
[20]譚文侃,胡南燕,葉義成,等.基于四大集成學(xué)習(xí)的巖爆烈度分級(jí)預(yù)測(cè)[J].巖石力學(xué)與工程學(xué)報(bào),2022,
41(S2):3250-3259.
[21]GUO X F,GAO Y,ZHENG D,et al. Study on short-term photovoltaic power prediction model based on the Stacking ensemble learning[J]. Energy Reports,2020,6:1424-1431.
[22]林娜,馮珊珊,王斌,等.基于XGBoost模型的高分辨率遙感滑坡快速提取與分析研究[J/OL].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版):1-12[2023-10-30].https://doi. org/10. 13203/j. whugis20220296.
[23] ?AKMAKL C,VAN DIJK D. Getting the most out of
macroeconomic information for predicting excess stock
returns[J]. International Journal of Forecasting,2016,
32(03):650-668.
[24] 蔣敏,周煒,史濟(jì)川,等.基于fsQCA的上市企業(yè)債券違約影響因素研究[J].管理學(xué)報(bào),2021,18(07):1076-1085.
[25] 朱武祥,廖靜秋,詹子良,等.回歸金融原理:企業(yè)財(cái)務(wù)危機(jī)預(yù)警研究述評(píng)與展望[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,63(09):1467-1482.
[26] ZHAO Y, CHEN Y.? Assessing and predicting green credit risk in the paper industry [J].? International Journal of Environmental Research and Public Health,2022,19(22):15373.
[27]雷欣南,林樂(lè)凡,肖斌卿,等.小微企業(yè)違約特征再探索:基于SHAP解釋方法的機(jī)器學(xué)習(xí)模型[J/OL].中國(guó)管理科學(xué):1-13[2023-10-30].https://doi.org/10.16381/j.cnki.issn1003-207x.2021.0027.
(責(zé)任編輯:唐詩(shī)柔)
Study on Credit Bond Default Prediction Model Based on Integrated Algorithms and Its Influencing Factors
ZHENG Yixin, WANG Chongren
( Shandong University of Finance and Economics )
Abstract: Taking credit bonds from 2014 to 2021 as the research object, this paper constructs Bagging and Stacking integrated learning models using single algorithms (logistic regression, Gaussian naive Bayes, support vector machine and Bernoulli naive Bayes) respectively, and compares them with the results of single algorithms and traditional methods (KMV model) to explore how to improve the accuracy of credit bond default prediction, prove the reliability of the Bagging integrated algorithm, and study the important indicators in credit bond default through the SHAP interpretable algorithm. The results show that: the 4 single machine learning models are superior to the traditional KMV model in prediction accuracy; further integration of machine learning models finds that homogeneous integrated algorithms are not as good as heterogeneous integrated algorithms in improving predictive performance, and the prediction accuracy of heterogeneous Bagging integrated algorithm is better than that of Stacking. Combining the best-performing heterogeneous Bagging integrated algorithm with the SHAP interpretable algorithm, 9 indicators that are valuable for identifying credit bond defaults are obtained, which are rating before default, issuer rating before default, exchange, return on net assets, bond type, enterprise nature, financial expenses, growth rate of total assets, and the proportion of the largest shareholder. Identifying key indicators is instructive for credit bond default prediction.
Keywords: Credit bond default; Risk warning; Bagging ensemble algorithm; Stacking ensemble algorithm; SHAP interpretable algorithm
收稿日期:2023-06-27
作者簡(jiǎn)介:鄭怡昕,碩士研究生,山東財(cái)經(jīng)大學(xué),研究方向?yàn)樾庞脗?、機(jī)器學(xué)習(xí)。
王重仁,博士,副教授,山東財(cái)經(jīng)大學(xué),研究方向?yàn)闄C(jī)器學(xué)習(xí)。
基金項(xiàng)目:山東省軟科學(xué)項(xiàng)目“山東省互聯(lián)網(wǎng)生態(tài)體系構(gòu)建與發(fā)展對(duì)策研究”(2021RKY02023)。