王文勝,沈超
(杭州電子科技大學經(jīng)濟學院,杭州 310018)
風險預警方式主要分為統(tǒng)計分析法和機器學習法,前者包括線性判別分析、概率模型等,后者包括支持向量機、隨機森林等。這些模型在國內(nèi)風險預警領域得到廣泛運用,但存在共同缺陷,即模型的特征變量均以定量財務指標為基礎,而忽視非財務指標的作用[1-3]。
風險預警領域往往存在數(shù)據(jù)嚴重不平衡,一般采用配對樣本,但配對樣本會忽略部分多數(shù)類樣本信息,此外預測結(jié)果本身是相對于配對樣本而言的,類似條件期望,缺乏普遍適應性。聶瑞華等利用SMOTE采樣結(jié)合貝葉斯網(wǎng)絡進行風險預警,證明SMOTE 抽樣能提升模型的預測效果[4]。
本文研究貢獻主要有兩方面:一是將管理層討論與分析反映的凈語調(diào)納入企業(yè)信用風險研究;二是以SMOTE 抽樣取代配對樣本,有效利用多數(shù)類樣本信息,提高模型預測效力。
1.1.1 Logistic 回歸
信用風險預警領域,Logistic 回歸模型較為常用,其對變量分布無具體要求,可解決非線性分類問題。其表達式如下:
其中P表示企業(yè)面臨信用風險的概率,S表示Logit 回歸值,α表示常數(shù)項,β表示參數(shù)估計系數(shù),x表示影響信用風險發(fā)生的特征。P值越接近1,則表示企業(yè)面臨信用風險越大;反之,信用風險越小。本文設定違約概率閾值為P=0.5。
1.1.2 支持向量機
支持向量機SVM 適用于二分類問題,其原理是尋找出一個區(qū)分類別的超平面,求解的最優(yōu)化問題原問題表達如下:
對偶問題表示如下:
式中w表示法向量,決定超平面方向;b表示位移量,決定超平面與原點的距離;yi表示所屬類別,φ(x) 表示輸入空間到高維特征空間的非線性轉(zhuǎn)換。當特征空間為高維時,φ(xi)Tφ(xj)內(nèi)積計算較為復雜,需引入核技巧:
式中k(xi,xj)表示核函數(shù),本文采用RBF 徑向基核函數(shù)。
1.1.3 隨機森林
隨機森林以決策樹為基分類器,通過bagging 集成算法,克服單一決策樹偶然性大、復雜和易陷入局部最優(yōu)等缺陷。通過bootstrap 重抽樣技術,構(gòu)建N棵決策樹構(gòu)成隨機森林,最終通過投票法,對各決策樹分類結(jié)果匯總歸票。決策樹由節(jié)點和有向邊構(gòu)成,遍歷所有節(jié)點,以基尼指數(shù)選擇最優(yōu)劃分屬性,劃分后對子集再進行劃分屬性的選擇,直至劃分前后集合純度不變或者命中相應停止條件?;嶂笖?shù)表示在樣本集合中一個隨機選中的樣本被分錯的概率,Gini 指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,集合的純度越高,反之,集合越不純。樣本的基尼指數(shù)如下:
其中k表示樣本集合中類種類數(shù),ck表示k類別個數(shù),D表示樣本集合總數(shù)。
本文從償債能力、成長能力、盈利能力、營運能力、資本結(jié)構(gòu)五個方面選取18 個財務指標,具體包括凈資產(chǎn)收益率、總資產(chǎn)報酬率、總資產(chǎn)凈利率、每股收益增長率、營業(yè)收入增長率、營業(yè)成本增長率、毛利增長率、凈資產(chǎn)增長率、資產(chǎn)負債率、權益系數(shù)、流動比率、速動比率、現(xiàn)金流量利息保障倍數(shù)、現(xiàn)金比率、存貨周轉(zhuǎn)率、應收賬款周轉(zhuǎn)率、應付賬款周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率。
針對金融大數(shù)據(jù)文本語調(diào)分析,采用詞袋模型法來度量管理層凈語調(diào)。管理層討論與分析(MD&A)分詞采用Python 結(jié)巴分詞模塊,正面詞匯、負面詞匯字典以Tim Loughran and Bill McDonald(2011)為基礎,再結(jié)合中文語境擴充、完善所得。文本分詞完成后,統(tǒng)計其正面詞匯詞頻(POS)和負面詞匯詞頻(NEG),利用簡單加權平均,計算管理層凈語調(diào)Tone。
針對信用風險領域的不平衡性,一般做法為配對樣本,然而配對樣本會丟失部分多數(shù)類樣本的信息,因此,本文探究多種不平衡度下SMOTE 樣本及配對樣本的表現(xiàn)。SMOTE 算法如下:
a.根據(jù)不平衡狀況確定需過采樣的少數(shù)類樣本數(shù)num。
b.針對每一個少數(shù)類樣本,利用歐式距離計算出其k 個近鄰點。
c.按式(9)合成新的少數(shù)類樣本。
本文參照石曉軍[5]的做法,以ST 作為風險標志,利用上市公司t-2 年財務數(shù)據(jù)和MD&A 文本數(shù)據(jù)預測其是否會在t年出現(xiàn)信用風險。數(shù)據(jù)選擇方面,從CSMAR①CSMAR 網(wǎng)址:https://cn.gtadata.com/(原國泰安金融數(shù)據(jù)庫)中選取2016—2018年期間上市制造業(yè)企業(yè)ST 樣本95 條,相應的上市制造業(yè)企業(yè)非ST 樣本3 792 條。
本文采用Wilcoxon-Mann-Whitney 檢驗ST 企業(yè)和非ST 企業(yè)之間差異顯著性。財務指標方面,除應收賬款周轉(zhuǎn)率以外,其余17 個財務比率均可顯著區(qū)分ST 企業(yè)和非ST 企業(yè);凈語調(diào)方面,非ST 企業(yè)的凈語調(diào)均值為0.386,ST 企業(yè)凈語調(diào)均值0.257,檢驗Z 值為-9.064,非ST 企業(yè)凈語調(diào)顯著高于ST 的企業(yè),表明企業(yè)年報傳遞的管理層凈語調(diào)與企業(yè)信用風險發(fā)生概率存在聯(lián)系。
為明確管理層凈語調(diào)在上市企業(yè)風險預警方面的作用,采用邏輯斯蒂回歸、支持向量機、隨機森林建模,并根據(jù)AUC、準確率、查準率、召回率、Fscore 五個指標判斷。為防止多重共線性,將方差膨脹因子閾值設置為10,從原始變量中剔除總資產(chǎn)收益率、總資產(chǎn)凈利率、速動比率和現(xiàn)金比率。為對比各不平衡度下SMOTE 樣本和配對樣本的效果,按照1∶1、1∶2、1∶5、1∶10、1∶20的比例選取樣本,每組樣本中ST 企業(yè)數(shù)均為95。除配對樣本外,其余不平衡數(shù)據(jù)樣本均采用SMOTE 過采樣至1 ∶1。為簡化表示,將樣本表示為10 類,即Group 1~Group 10。Group 1、Group 6 分別表示未加語調(diào)和加入語調(diào)的配對樣本;Group 2~Group 5、Group 7~Group 10 分別表示未加凈語調(diào)和加入凈語調(diào)的不平衡度為2、5、10、20但已SMOTE 過采樣處理的樣本?;诮7€(wěn)定性,各不平衡度SMOTE 處理重復50 次,每組樣本進行建模時采用10 折交叉驗證法,超參數(shù)選取利用貝葉斯優(yōu)化[6]取代傳統(tǒng)網(wǎng)格搜索。
通過Logistic 回歸構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先,Group 6~Group 10 的AUC、準確率均優(yōu)于Group 1~Group 5,組平均AUC從89.35%提升至91.03%,組平均準確率從82.13%提升至84.01%,說明管理層凈語調(diào)對模型效力有所提升。其次,Group 1~Group 5 的AUC、準確率、召回率、F-score 逐步提升。原因可能在于不平衡度越高,在ST 樣本數(shù)固定為95 條件下,納入的多數(shù)類樣本即非ST 樣本數(shù)更多,多數(shù)類樣本中包含了風險預警的部分信息,使得模型對于少數(shù)樣本的識別率提升。再次,Group 6~Group 10 的AUC 不斷提升,但準確率呈現(xiàn)先上升后下降情況,原因可能是高不平衡度下模型分類閾值需要重新調(diào)整,也有可能是在引入非財務指標凈語調(diào)之后,高不平衡度增加SMOTE 產(chǎn)生噪點的概率,從而影響模型準確率。最后,不論是否添加凈語調(diào)指標,隨著不平衡度升高,納入的多數(shù)類樣本增多,各項指標均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升2.27%,最低提升0.28%;Group 6~Group 10 中AUC 最高提升2.49%,最低提升0.12%。
為進一步厘清凈語調(diào)對于上市企業(yè)風險預警的關系,本文將被ST 公司即風險公司記為1,非ST 公司記為0,構(gòu)建Logit 回歸模型:
其中STi,t為企業(yè)信用風險指標;自變量為凈語調(diào)Tonei,t;控制變量為入選的財務變量;本文采取上市公司樣本均為制造業(yè),但年份不一致,為控制年份影響,添加年份虛擬變量Yeari,t。結(jié)果顯示,β參數(shù)估計值為-0.019,在1%顯著性水平下為負,表明凈語調(diào)數(shù)值越大,公司發(fā)生信用風險的概率就越?。环粗?,發(fā)生信用風險的概率越大。
通過支持向量機構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先,Group 1、Group 6 均為配對樣本,Group 6 加入凈語調(diào)之后模型指標顯著差于Group 1;剔除Group 1、Group 6,未加語調(diào)組平均AUC 為92.27%,添加語調(diào)組平均AUC 為92.98%;未加語調(diào)組平均準確率為87.15%,添加語調(diào)組平均準確率為87.10%。添加凈語調(diào)指標對于模型效力的提升不明顯。其次,SMOTE 樣本組指標均優(yōu)于配對樣本組,同時Group 2~Group 5、Group 7~Group 10,隨著不平衡度升高,其AUC、準確率指標有所提升。原因可能是納入多數(shù)類樣本量增多,提升了模型的預測能力。值得注意的是,Group 7、Group 9 的準確率低于Group 2 和Group 4,原因可能是新納入的凈語調(diào)會使得SMOTE 產(chǎn)生噪點概率提高。最后,不論是否添加凈語調(diào)指標,隨著不平衡度升高,納入的多數(shù)類樣本增多,AUC 均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升1.10%,最低提升0.45%;Group 6~Group 10 中AUC 最高提升3.58%,最低提升0.53%。
通過隨機森林構(gòu)建的上市企業(yè)風險預警模型預測結(jié)果及分析如下。首先,配對樣本中,Group 1的AUC 略高于Group 6,但其他四項指標均低于Group 6;Group 7~Group 10 的各項指標優(yōu)于Group 2~Group 5。未加語調(diào)組平均AUC 為94.15%,添加語調(diào)組平均AUC 為94.45%;未加語調(diào)組平均準確率為88.32%,添加語調(diào)組平均準確率為88.67%。表明凈語調(diào)對于模型的預測能力有所提升。其次,Group 1~Group 5、Group 6~Group 10 的AUC、準確率不斷提升,表明納入更多多數(shù)類樣本量可提升模型預測能力,且SMOTE 樣本效果普遍優(yōu)于配對樣本。最后,不論是否添加凈語調(diào)指標,隨著不平衡度升高,納入的多數(shù)類樣本增多,AUC 均有提升,但提升效果逐漸減弱。Group 1~Group 5 中,AUC 最高提升2.38%,最低提升0.13%;Group 6~Group 10 中AUC 最高提升2.88%,最低提升0.24%。
通過隨機森林得出特征重要性,為進一步風險預警的指標選擇提供參考。以Group 4、Group 9 為樣本所得重要性排序圖為例,前者未加凈語調(diào),后者添加凈語調(diào)。兩者頭部特征高度相似,重疊特征為凈資產(chǎn)收益率、基本每股收益增長率、現(xiàn)金流量利息保障倍數(shù)、權益系數(shù)和總資產(chǎn)周轉(zhuǎn)率,并且Group 9 中顯示凈語調(diào)重要性高于總資產(chǎn)周轉(zhuǎn)率。
管理層討論與分析(MD&A)是上市公司年報的重要內(nèi)容,其中包含一些定量財務數(shù)據(jù)無法反映的增量信息,通過對管理層討論與分析的文本挖掘,能更好的預測公司信用風險。首先,本文將公司年報管理層討論與分析的凈語調(diào)和財務比率相結(jié)合,采用邏輯斯蒂回歸、支持向量機和隨機森林構(gòu)建風險預警模型,并采用貝葉斯優(yōu)化超參數(shù),對模型加入凈語調(diào)的預測能力進行實證檢驗。其次,針對信用風險樣本的不平衡情況,使用SMOTE 過采樣處理,對比配對樣本及不同平衡度SMOTE 抽樣的訓練效果,主要結(jié)論如下。
第一,添加MD&A 的凈語調(diào)后風險預警模型的預測能力有所提升,不論配對樣本還是SMOTE 樣本都成立,表明企業(yè)年報中MD&A 存在信用風險預警的增量信息,且Logit 回歸分析得出,凈語調(diào)越大,企業(yè)發(fā)生風險概率越低。
第二,考慮配對樣本挑選存在主觀性、會丟失部分的多數(shù)類信息等缺陷,采用SMOTE 方式處理不平衡數(shù)據(jù)。對比多種不平衡度下SMOTE 樣本訓練效果,發(fā)現(xiàn)SMOTE樣本訓練模型各項指標較配對樣本更優(yōu),且不平衡度越高,SMOTE 樣本的指標效果更明顯,從側(cè)面反映納入的多數(shù)類樣本更多,模型風險預警能力越強。
第三,隨著不平衡度提高,SMOTE 過采樣樣本建模的指標一直是變好的,但提升幅度逐漸減弱甚至為負。原因可能是過高不平衡度下SMOTE 過采樣生成的新少數(shù)類樣本存在信息重疊或者引入噪點,對于模型的效力甚微或無提升效果;凈語調(diào)會提升高不平衡度下SMOTE 生成噪點的概率。綜合邏輯斯蒂回歸、支持向量機和隨機森林預測結(jié)果,認為在不平衡度為5~10 時,采用SMOTE 過采樣便可得到滿意的分類效果,不需納入全部多數(shù)類樣本。
在財務指標選取方面,不管是否引入凈語調(diào),頭部特征存在高度重疊性,之后研究可以著重分析凈資產(chǎn)收益率、基本每股收益增長率、現(xiàn)金流量利息保障倍數(shù)、權益系數(shù)和總資產(chǎn)周轉(zhuǎn)率;其分別對應財務比率選擇五大指標,印證財務比率選擇的合理性。在模型選擇方面,隨機森林>支持向量機>邏輯斯蒂模型,原因可能在于支持向量機可通過核函數(shù)達到高維非線性可分,而隨機森林更是通過集成學習克服單一分類器的偶然性。