亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于管理層凈語調(diào)與SMOTE 的上市公司信用風險評估

2022-11-04 08:39:42王文勝沈超

中國管理信息化 2022年17期

王文勝，沈超

（杭州電子科技大學經(jīng)濟學院，杭州 310018）

0 引言

風險預警方式主要分為統(tǒng)計分析法和機器學習法，前者包括線性判別分析、概率模型等，后者包括支持向量機、隨機森林等。這些模型在國內(nèi)風險預警領域得到廣泛運用，但存在共同缺陷，即模型的特征變量均以定量財務指標為基礎，而忽視非財務指標的作用［1-3］。

風險預警領域往往存在數(shù)據(jù)嚴重不平衡，一般采用配對樣本，但配對樣本會忽略部分多數(shù)類樣本信息，此外預測結(jié)果本身是相對于配對樣本而言的，類似條件期望，缺乏普遍適應性。聶瑞華等利用SMOTE采樣結(jié)合貝葉斯網(wǎng)絡進行風險預警，證明SMOTE 抽樣能提升模型的預測效果［4］。

本文研究貢獻主要有兩方面：一是將管理層討論與分析反映的凈語調(diào)納入企業(yè)信用風險研究；二是以SMOTE 抽樣取代配對樣本，有效利用多數(shù)類樣本信息，提高模型預測效力。

1 實證研究設計

1.1 實證方法的選擇

1.1.1 Logistic 回歸

信用風險預警領域，Logistic 回歸模型較為常用，其對變量分布無具體要求，可解決非線性分類問題。其表達式如下：

其中P表示企業(yè)面臨信用風險的概率，S表示Logit 回歸值，α表示常數(shù)項，β表示參數(shù)估計系數(shù)，x表示影響信用風險發(fā)生的特征。P值越接近1，則表示企業(yè)面臨信用風險越大；反之，信用風險越小。本文設定違約概率閾值為P=0.5。

1.1.2 支持向量機

支持向量機SVM 適用于二分類問題，其原理是尋找出一個區(qū)分類別的超平面，求解的最優(yōu)化問題原問題表達如下：

對偶問題表示如下：

式中w表示法向量，決定超平面方向；b表示位移量，決定超平面與原點的距離；yi表示所屬類別，φ(x) 表示輸入空間到高維特征空間的非線性轉(zhuǎn)換。當特征空間為高維時，φ(xi)Tφ(xj)內(nèi)積計算較為復雜，需引入核技巧：

式中k(xi,xj)表示核函數(shù)，本文采用RBF 徑向基核函數(shù)。

1.1.3 隨機森林

隨機森林以決策樹為基分類器，通過bagging 集成算法，克服單一決策樹偶然性大、復雜和易陷入局部最優(yōu)等缺陷。通過bootstrap 重抽樣技術，構(gòu)建N棵決策樹構(gòu)成隨機森林，最終通過投票法，對各決策樹分類結(jié)果匯總歸票。決策樹由節(jié)點和有向邊構(gòu)成，遍歷所有節(jié)點，以基尼指數(shù)選擇最優(yōu)劃分屬性，劃分后對子集再進行劃分屬性的選擇，直至劃分前后集合純度不變或者命中相應停止條件?；嶂笖?shù)表示在樣本集合中一個隨機選中的樣本被分錯的概率，Gini 指數(shù)越小表示集合中被選中的樣本被分錯的概率越小，集合的純度越高，反之，集合越不純。樣本的基尼指數(shù)如下：

其中k表示樣本集合中類種類數(shù)，ck表示k類別個數(shù)，D表示樣本集合總數(shù)。

1.2 財務比率的選擇

本文從償債能力、成長能力、盈利能力、營運能力、資本結(jié)構(gòu)五個方面選取18 個財務指標，具體包括凈資產(chǎn)收益率、總資產(chǎn)報酬率、總資產(chǎn)凈利率、每股收益增長率、營業(yè)收入增長率、營業(yè)成本增長率、毛利增長率、凈資產(chǎn)增長率、資產(chǎn)負債率、權益系數(shù)、流動比率、速動比率、現(xiàn)金流量利息保障倍數(shù)、現(xiàn)金比率、存貨周轉(zhuǎn)率、應收賬款周轉(zhuǎn)率、應付賬款周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率。

1.3 管理層凈語調(diào)計算

針對金融大數(shù)據(jù)文本語調(diào)分析，采用詞袋模型法來度量管理層凈語調(diào)。管理層討論與分析（MD&A）分詞采用Python 結(jié)巴分詞模塊，正面詞匯、負面詞匯字典以Tim Loughran and Bill McDonald（2011）為基礎，再結(jié)合中文語境擴充、完善所得。文本分詞完成后，統(tǒng)計其正面詞匯詞頻（POS）和負面詞匯詞頻（NEG），利用簡單加權平均，計算管理層凈語調(diào)Tone。

1.4 SMOTE過采樣

針對信用風險領域的不平衡性，一般做法為配對樣本，然而配對樣本會丟失部分多數(shù)類樣本的信息，因此，本文探究多種不平衡度下SMOTE 樣本及配對樣本的表現(xiàn)。SMOTE 算法如下：

a.根據(jù)不平衡狀況確定需過采樣的少數(shù)類樣本數(shù)num。

b.針對每一個少數(shù)類樣本，利用歐式距離計算出其k 個近鄰點。

c.按式（9）合成新的少數(shù)類樣本。

2 樣本和數(shù)據(jù)

2.1 樣本

本文參照石曉軍［5］的做法，以ST 作為風險標志，利用上市公司t-2 年財務數(shù)據(jù)和MD&A 文本數(shù)據(jù)預測其是否會在t年出現(xiàn)信用風險。數(shù)據(jù)選擇方面，從CSMAR①CSMAR 網(wǎng)址：https://cn.gtadata.com/（原國泰安金融數(shù)據(jù)庫）中選取2016—2018年期間上市制造業(yè)企業(yè)ST 樣本95 條，相應的上市制造業(yè)企業(yè)非ST 樣本3 792 條。

2.2 數(shù)據(jù)描述

本文采用Wilcoxon-Mann-Whitney 檢驗ST 企業(yè)和非ST 企業(yè)之間差異顯著性。財務指標方面，除應收賬款周轉(zhuǎn)率以外，其余17 個財務比率均可顯著區(qū)分ST 企業(yè)和非ST 企業(yè)；凈語調(diào)方面，非ST 企業(yè)的凈語調(diào)均值為0.386，ST 企業(yè)凈語調(diào)均值0.257，檢驗Z 值為-9.064，非ST 企業(yè)凈語調(diào)顯著高于ST 的企業(yè)，表明企業(yè)年報傳遞的管理層凈語調(diào)與企業(yè)信用風險發(fā)生概率存在聯(lián)系。

3 實證結(jié)果分析

為明確管理層凈語調(diào)在上市企業(yè)風險預警方面的作用，采用邏輯斯蒂回歸、支持向量機、隨機森林建模，并根據(jù)AUC、準確率、查準率、召回率、Fscore 五個指標判斷。為防止多重共線性，將方差膨脹因子閾值設置為10，從原始變量中剔除總資產(chǎn)收益率、總資產(chǎn)凈利率、速動比率和現(xiàn)金比率。為對比各不平衡度下SMOTE 樣本和配對樣本的效果，按照1∶1、1∶2、1∶5、1∶10、1∶20的比例選取樣本，每組樣本中ST 企業(yè)數(shù)均為95。除配對樣本外，其余不平衡數(shù)據(jù)樣本均采用SMOTE 過采樣至1 ∶1。為簡化表示，將樣本表示為10 類，即Group 1～Group 10。Group 1、Group 6 分別表示未加語調(diào)和加入語調(diào)的配對樣本；Group 2～Group 5、Group 7～Group 10 分別表示未加凈語調(diào)和加入凈語調(diào)的不平衡度為2、5、10、20但已SMOTE 過采樣處理的樣本?；诮７€(wěn)定性，各不平衡度SMOTE 處理重復50 次，每組樣本進行建模時采用10 折交叉驗證法，超參數(shù)選取利用貝葉斯優(yōu)化［6］取代傳統(tǒng)網(wǎng)格搜索。

3.1 基于Logistic回歸的分析

通過Logistic 回歸構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先，Group 6～Group 10 的AUC、準確率均優(yōu)于Group 1～Group 5，組平均AUC從89.35%提升至91.03%，組平均準確率從82.13%提升至84.01%，說明管理層凈語調(diào)對模型效力有所提升。其次，Group 1～Group 5 的AUC、準確率、召回率、F-score 逐步提升。原因可能在于不平衡度越高，在ST 樣本數(shù)固定為95 條件下，納入的多數(shù)類樣本即非ST 樣本數(shù)更多，多數(shù)類樣本中包含了風險預警的部分信息，使得模型對于少數(shù)樣本的識別率提升。再次，Group 6～Group 10 的AUC 不斷提升，但準確率呈現(xiàn)先上升后下降情況，原因可能是高不平衡度下模型分類閾值需要重新調(diào)整，也有可能是在引入非財務指標凈語調(diào)之后，高不平衡度增加SMOTE 產(chǎn)生噪點的概率，從而影響模型準確率。最后，不論是否添加凈語調(diào)指標，隨著不平衡度升高，納入的多數(shù)類樣本增多，各項指標均有提升，但提升效果逐漸減弱。Group 1～Group 5 中，AUC 最高提升2.27%，最低提升0.28%；Group 6～Group 10 中AUC 最高提升2.49%，最低提升0.12%。

為進一步厘清凈語調(diào)對于上市企業(yè)風險預警的關系，本文將被ST 公司即風險公司記為1，非ST 公司記為0，構(gòu)建Logit 回歸模型：

其中STi,t為企業(yè)信用風險指標；自變量為凈語調(diào)Tonei,t；控制變量為入選的財務變量；本文采取上市公司樣本均為制造業(yè)，但年份不一致，為控制年份影響，添加年份虛擬變量Yeari,t。結(jié)果顯示，β參數(shù)估計值為-0.019，在1%顯著性水平下為負，表明凈語調(diào)數(shù)值越大，公司發(fā)生信用風險的概率就越?。环粗?，發(fā)生信用風險的概率越大。

3.2 基于支持向量機的分析

通過支持向量機構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先，Group 1、Group 6 均為配對樣本，Group 6 加入凈語調(diào)之后模型指標顯著差于Group 1；剔除Group 1、Group 6，未加語調(diào)組平均AUC 為92.27%，添加語調(diào)組平均AUC 為92.98%；未加語調(diào)組平均準確率為87.15%，添加語調(diào)組平均準確率為87.10%。添加凈語調(diào)指標對于模型效力的提升不明顯。其次，SMOTE 樣本組指標均優(yōu)于配對樣本組，同時Group 2～Group 5、Group 7～Group 10，隨著不平衡度升高，其AUC、準確率指標有所提升。原因可能是納入多數(shù)類樣本量增多，提升了模型的預測能力。值得注意的是，Group 7、Group 9 的準確率低于Group 2 和Group 4，原因可能是新納入的凈語調(diào)會使得SMOTE 產(chǎn)生噪點概率提高。最后，不論是否添加凈語調(diào)指標，隨著不平衡度升高，納入的多數(shù)類樣本增多，AUC 均有提升，但提升效果逐漸減弱。Group 1～Group 5 中，AUC 最高提升1.10%，最低提升0.45%；Group 6～Group 10 中AUC 最高提升3.58%，最低提升0.53%。

3.3 基于隨機森林的分析

通過隨機森林構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先，配對樣本中，Group 1的AUC 略高于Group 6，但其他四項指標均低于Group 6；Group 7～Group 10 的各項指標優(yōu)于Group 2～Group 5。未加語調(diào)組平均AUC 為94.15%，添加語調(diào)組平均AUC 為94.45%；未加語調(diào)組平均準確率為88.32%，添加語調(diào)組平均準確率為88.67%。表明凈語調(diào)對于模型的預測能力有所提升。其次，Group 1～Group 5、Group 6～Group 10 的AUC、準確率不斷提升，表明納入更多多數(shù)類樣本量可提升模型預測能力，且SMOTE 樣本效果普遍優(yōu)于配對樣本。最后，不論是否添加凈語調(diào)指標，隨著不平衡度升高，納入的多數(shù)類樣本增多，AUC 均有提升，但提升效果逐漸減弱。Group 1～Group 5 中，AUC 最高提升2.38%，最低提升0.13%；Group 6～Group 10 中AUC 最高提升2.88%，最低提升0.24%。

通過隨機森林得出特征重要性，為進一步風險預警的指標選擇提供參考。以Group 4、Group 9 為樣本所得重要性排序圖為例，前者未加凈語調(diào)，后者添加凈語調(diào)。兩者頭部特征高度相似，重疊特征為凈資產(chǎn)收益率、基本每股收益增長率、現(xiàn)金流量利息保障倍數(shù)、權益系數(shù)和總資產(chǎn)周轉(zhuǎn)率，并且Group 9 中顯示凈語調(diào)重要性高于總資產(chǎn)周轉(zhuǎn)率。

4 研究結(jié)論與啟示

管理層討論與分析（MD&A）是上市公司年報的重要內(nèi)容，其中包含一些定量財務數(shù)據(jù)無法反映的增量信息，通過對管理層討論與分析的文本挖掘，能更好的預測公司信用風險。首先，本文將公司年報管理層討論與分析的凈語調(diào)和財務比率相結(jié)合，采用邏輯斯蒂回歸、支持向量機和隨機森林構(gòu)建風險預警模型，并采用貝葉斯優(yōu)化超參數(shù)，對模型加入凈語調(diào)的預測能力進行實證檢驗。其次，針對信用風險樣本的不平衡情況，使用SMOTE 過采樣處理，對比配對樣本及不同平衡度SMOTE 抽樣的訓練效果，主要結(jié)論如下。

第一，添加MD&A 的凈語調(diào)后風險預警模型的預測能力有所提升，不論配對樣本還是SMOTE 樣本都成立，表明企業(yè)年報中MD&A 存在信用風險預警的增量信息，且Logit 回歸分析得出，凈語調(diào)越大，企業(yè)發(fā)生風險概率越低。

第二，考慮配對樣本挑選存在主觀性、會丟失部分的多數(shù)類信息等缺陷，采用SMOTE 方式處理不平衡數(shù)據(jù)。對比多種不平衡度下SMOTE 樣本訓練效果，發(fā)現(xiàn)SMOTE樣本訓練模型各項指標較配對樣本更優(yōu)，且不平衡度越高，SMOTE 樣本的指標效果更明顯，從側(cè)面反映納入的多數(shù)類樣本更多，模型風險預警能力越強。

第三，隨著不平衡度提高，SMOTE 過采樣樣本建模的指標一直是變好的，但提升幅度逐漸減弱甚至為負。原因可能是過高不平衡度下SMOTE 過采樣生成的新少數(shù)類樣本存在信息重疊或者引入噪點，對于模型的效力甚微或無提升效果；凈語調(diào)會提升高不平衡度下SMOTE 生成噪點的概率。綜合邏輯斯蒂回歸、支持向量機和隨機森林預測結(jié)果，認為在不平衡度為5～10 時，采用SMOTE 過采樣便可得到滿意的分類效果，不需納入全部多數(shù)類樣本。

在財務指標選取方面，不管是否引入凈語調(diào)，頭部特征存在高度重疊性，之后研究可以著重分析凈資產(chǎn)收益率、基本每股收益增長率、現(xiàn)金流量利息保障倍數(shù)、權益系數(shù)和總資產(chǎn)周轉(zhuǎn)率；其分別對應財務比率選擇五大指標，印證財務比率選擇的合理性。在模型選擇方面，隨機森林＞支持向量機＞邏輯斯蒂模型，原因可能在于支持向量機可通過核函數(shù)達到高維非線性可分，而隨機森林更是通過集成學習克服單一分類器的偶然性。