張 露 ,劉家鵬 ,江敏祺
(1.中國計量大學(xué) 經(jīng)濟(jì)與管理學(xué)院,浙江 杭州 310018;2.上海財經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200000)
進(jìn)入大數(shù)據(jù)時代以來,對信息的敏感程度和預(yù)測能力變得尤為重要,而對企業(yè)而言,無論是在經(jīng)營活動還是投資活動中,財務(wù)危機(jī)預(yù)警一直是個問題和難題。機(jī)器學(xué)習(xí)的興起為大數(shù)據(jù)的處理和應(yīng)用提供了新的方式。
目前,許多學(xué)者將機(jī)器學(xué)習(xí)與金融危機(jī)預(yù)警相結(jié)合,取得了重大突破。OHLSON J A[1]建議將邏輯回歸應(yīng)用于分類的后概率,來估計公司的破產(chǎn)概率。Zou Hui 和HASTIE T[2]提出了彈性網(wǎng)絡(luò),克服了嶺回歸和Lasso的缺點[3]。決策樹學(xué)習(xí)是一種強(qiáng)大的分類器[4],在樹分類器的基礎(chǔ)上,有學(xué)者提出了隨機(jī)森林[5]和XGBoost[6],在計算機(jī)[7]、圖像分類[8]等領(lǐng)域被證明有效。
但在過去的研究中,大多采用人工設(shè)定樣本量,而忽視了實際上財務(wù)預(yù)警企業(yè)與正常企業(yè)的數(shù)量對比的懸殊[9]。數(shù)據(jù)不平衡的問題是財務(wù)預(yù)警研究領(lǐng)域的難題[10]。VEGANZONES D 和SEVERIN E[11]提出采樣技術(shù)可用于提高不平衡樣本預(yù)測的分類器性能,隨機(jī)上采樣技術(shù)[12]、隨機(jī)下采樣技術(shù)[13]和人工合成少數(shù)抽樣技術(shù)(SMOTE)[14]的應(yīng)用解決了集成復(fù)雜分類器在不平衡的財務(wù)預(yù)警研究數(shù)據(jù)中失效的問題。而集成學(xué)習(xí)機(jī)制可以通過集成不同的模型來整合多種算法的優(yōu)點[15],目前在個人信貸領(lǐng)域已經(jīng)有了一定的應(yīng)用[16]。
本文研究的目的包括三個部分:一是測試集成機(jī)器學(xué)習(xí)模型的預(yù)測性能,尋找最適合財務(wù)預(yù)警的分類器;二是將不平衡學(xué)習(xí)理念運用到中國上市公司的全樣本中,避免人工篩選樣本的巧合性,利用抽樣技術(shù)和袋裝(Bagging)方法提高企業(yè)在T-3 期間內(nèi)財務(wù)風(fēng)險的概率;三是保持財務(wù)預(yù)警企業(yè)預(yù)測準(zhǔn)確率的同時,提高健康企業(yè)分類的準(zhǔn)確性,為企業(yè)的日常經(jīng)營和投資者的投資決策提供一定的參考。
本文的研究模型設(shè)計過程如圖1 所示。
圖1 不平衡財務(wù)預(yù)警模型設(shè)計過程
首先,本文用裝袋法和采樣技術(shù)對不平衡數(shù)據(jù)進(jìn)行處理。隨機(jī)上采樣技術(shù)(RUT)通過隨機(jī)抽取重復(fù)的小樣本來平衡不平衡樣本;隨機(jī)下采樣技術(shù)(RDT)隨機(jī)篩選出大樣本,使其處于平衡狀態(tài);合成少數(shù)過采樣技術(shù)(SMOTE)通過KNN 生成新的小樣本來生成平衡數(shù)據(jù),分別得到3 個數(shù)據(jù)集。
其次,對于在上一步驟得到的數(shù)據(jù)集,分別采用模型池中的Logistic 回歸(LR)、彈性網(wǎng)(EN)、決策樹(DT)、隨機(jī)森林(RF)和XGBoost 5 種分類器進(jìn)行預(yù)測。前4 種財務(wù)方法在財務(wù)預(yù)警領(lǐng)域已經(jīng)有了較為成熟的應(yīng)用。XGBoost 于2016 年提出,是對GBDT的進(jìn)一步提升,其損失函數(shù)為:
其中,第一部分表示n 個樣本的損失函數(shù)值,在這里通過樣本預(yù)測值y^i和真實值yi的比較,來計算出對樣本i的模型損失值;第二部分是正則項,用來控制模型的復(fù)雜度,模型越復(fù)雜,則懲罰力度越大,從而提升模型的泛化能力,Ω(fk)代表第k 棵樹的復(fù)雜度。XGBoost 是一種改進(jìn)的GBDT算法,GBDT在優(yōu)化時只用到一階導(dǎo)數(shù),而XGBoost 則對損失函數(shù)進(jìn)行了二階泰勒展開,利用二階導(dǎo)加快了模型訓(xùn)練時的收斂速度,使得模型求解更加高效。XGBoost 算法中加入了正則項,可以有效減少過擬合,即:
其中,Τ 為葉節(jié)點的個數(shù)。第二部分為節(jié)點權(quán)重的L2 范式,葉子節(jié)點值wj用來評估第k 棵樹的復(fù)雜性程度。γ、λ 分別為對應(yīng)的懲罰參數(shù),越大的γ 和λ 對應(yīng)越簡單的模型。對式(1)泰勒展開,可得:
式(3)中涉及的參數(shù)有:
其中,hi和gi為第t 步的損失函數(shù),由于hi和gi可以并行計算,極大地提高了XGBoost的建模效率;I 代表了每個葉子節(jié)點上的訓(xùn)練集樣本。此外,XGBoost 算法還在目標(biāo)函數(shù)中加入了正則項,用以權(quán)衡目標(biāo)函數(shù)的下降和模型的復(fù)雜程度,一定程度上避免了過擬合。
最后,集成學(xué)習(xí)機(jī)制通過整合不同的學(xué)習(xí)模型,綜合多種算法的優(yōu)點。本文分別通過穩(wěn)健和謹(jǐn)慎的算法來整合單個分類器。穩(wěn)健集成算法是指只要其中一個模型預(yù)測到企業(yè)的財務(wù)風(fēng)險,集成模型就預(yù)測出企業(yè)存在財務(wù)風(fēng)險,并記為ME-R;謹(jǐn)慎集成算法是只有所有模型都預(yù)測到企業(yè)的財務(wù)風(fēng)險時,該集成模型才能預(yù)測到企業(yè)存在財務(wù)風(fēng)險兩個分類器同時預(yù)測企業(yè)將面臨風(fēng)險,記為ME-C。
本文選取的是上交所主板市場非金融行業(yè)A 股企業(yè)的財務(wù)指標(biāo)數(shù)據(jù),數(shù)據(jù)來自銳思金融數(shù)據(jù)庫。考慮到ST 或*ST的標(biāo)志是連續(xù)兩年或三年凈利潤為負(fù),因此選取了t-3 年的財務(wù)指標(biāo)數(shù)據(jù)來預(yù)測第t 年的結(jié)果。
本文從銳思金融數(shù)據(jù)庫的財務(wù)比率數(shù)據(jù)中選取了107 個原始變量,并參考了數(shù)據(jù)庫的分類方法,將107 個變量分成了9 組指標(biāo),分別是每股指標(biāo)、盈利能力、償債能力、成長能力、營運能力、現(xiàn)金流量、分紅能力、資本結(jié)構(gòu)和杜邦分析指標(biāo)。由于這些指標(biāo)未經(jīng)過初始分類,存在一定的相關(guān)性,為了防止信息冗余和過度擬合,本文采用相關(guān)系數(shù)矩陣計算,篩選掉相關(guān)系數(shù)大于0.5的指標(biāo),然后剩下的57 個變量指標(biāo)如圖2 所示,Xi代表財務(wù)預(yù)警指標(biāo)。
圖2 財務(wù)預(yù)警指標(biāo)構(gòu)建
本文設(shè)定的分類結(jié)果矩陣表示如表1 所示,TP 和TN 代表預(yù)測和真實值一致的情況,F(xiàn)P 和FN 代表預(yù)測值和真實值不一致的情況。本次研究中感興趣的是發(fā)生財務(wù)預(yù)警的企業(yè),因此將其設(shè)定為Positive的類別。
表1 分類矩陣
表1 中,TN 代表正確的分類為不感興趣的類別,TP代表正確的分類為感興趣的類別,F(xiàn)N 代表錯誤的分類為不感興趣的類別,F(xiàn)P 代表錯誤的分類為感興趣的類別。本文使用的3 個指標(biāo)公式如下所示:
其中,靈敏度(Sensitivity)是本文感興趣的類別正確分類的概率,即正確挑選出有財務(wù)風(fēng)險企業(yè)的概率;特異性(Specificity)度量了挑選出正常企業(yè)的概率;準(zhǔn)確度(Accuracy)則是所有企業(yè)被正確分類的概率。
此外,還將用AUC(Area Under Curve)值來度量模型的精確度以衡量模型的性能。AUC 值越大,代表該模型的性能越好。
首先使用Bagging的思想加強(qiáng)學(xué)習(xí)感興趣樣本的信息,然后在Bagging的基礎(chǔ)上,又分別嘗試使用了隨機(jī)過采樣、隨機(jī)欠采樣和SMOTE 采樣技術(shù)。對上述優(yōu)化是否能提升模型性能用AUC 值來表示,如表2 所示,即模型經(jīng)過優(yōu)化前后的AUC 值的對比。
表2 模型優(yōu)化前后的AUC 值
從表2 中可以看出,經(jīng)過采樣技術(shù)和Bagging 對機(jī)器學(xué)習(xí)模型的優(yōu)化,AUC 值得到了明顯的提高,分類器在優(yōu)化前的均衡樣本中的表現(xiàn)要明顯差于優(yōu)化后的不均衡樣本。數(shù)據(jù)的增加使得分類器能學(xué)習(xí)到更多的信息,對樣本進(jìn)行不平衡采樣的處理,使得模型不會忽略小樣本中的信息,甚至通過權(quán)重影響,更重視小樣本中的信息,從而減小巧合,發(fā)揮分類器預(yù)測的性能。
接下來分別對經(jīng)過不平衡采樣處理后的分類器進(jìn)行財務(wù)預(yù)警預(yù)測,結(jié)果如表3 所示。
基于誤判的代價,本文優(yōu)先考慮模型的靈敏度,即正確挑選出財務(wù)預(yù)警企業(yè)的概率。其中,在Bagging RDT的算法下,對財務(wù)預(yù)警的預(yù)測準(zhǔn)確率是最高的,且隨機(jī)森林和XGBoost的Sensitivity 值是相同的。對此,推測將這兩個分類器進(jìn)一步集成可能會提高整體樣本的準(zhǔn)確率。因此,本文嘗試用穩(wěn)健和謹(jǐn)慎的算法將隨機(jī)森林和XGBoost 相結(jié)合。
從表3 中的ME-R 和ME-C 可以看出,兩種集成算法都能保持金融危機(jī)企業(yè)選擇的準(zhǔn)確性,但謹(jǐn)慎的集成算法可以降低對健康企業(yè)的誤判率。在Bagging RDT 模型上,總精度提高了5%~9%。因此,推薦謹(jǐn)慎算法(ME-C)下的集成模型。
表3 優(yōu)化模型的分類預(yù)測概率
此外,通過隨機(jī)森林和XGBoost 對研究指標(biāo)進(jìn)行重要性分析,分別排名前5 個的變量如圖3 所示挑選出重要指標(biāo),為利益相關(guān)者提供一定的參考,如圖3 所示。
在圖3 中有一個變量發(fā)生重疊,因此,一共有9 個較為重要的變量,分別是每股收益、每股營業(yè)總收入、每股營業(yè)利潤、每股未分配利潤、每股留存收益、歸屬母公司的凈利潤增長率、每股現(xiàn)金及現(xiàn)金等價物余額、流動負(fù)債/負(fù)債合計、扣除非經(jīng)常性損益后的凈利潤。篩選出的衡量企業(yè)財務(wù)風(fēng)險的關(guān)鍵性指標(biāo),能為企業(yè)的投資決策和經(jīng)營管理提供一定的借鑒。
圖3 隨機(jī)森林的指標(biāo)重要性程度
本文將集成機(jī)器學(xué)習(xí)模型應(yīng)用到不均衡樣本的企業(yè)財務(wù)預(yù)警中,并通過一系列的優(yōu)化解決了樣本不均衡的問題,提高了預(yù)測的準(zhǔn)確性。
本文的實證研究使用了t-3 期的上交所主板市場非金融行業(yè)A 股企業(yè)的財務(wù)指標(biāo)數(shù)據(jù)來預(yù)測t 期的企業(yè)財務(wù)狀況,即預(yù)測該企業(yè)在t 期是否會被ST。本文證明了不同的采樣比例會影響預(yù)測的準(zhǔn)確率,隨著樣本規(guī)模的增大,在一定程度上會提高預(yù)測準(zhǔn)確率,但隨著正常上市企業(yè)樣本的擴(kuò)增,而存在財務(wù)風(fēng)險的企業(yè)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常上市企業(yè),使得分類器“偷懶”,盲目將企業(yè)預(yù)測為正常,出現(xiàn)了樣本的不均衡現(xiàn)象,使得模型失去挑選出財務(wù)危機(jī)企業(yè)的能力。但是由于人為設(shè)定樣本使得樣本量數(shù)量受限,使得機(jī)器學(xué)習(xí)的分類器無法完全發(fā)揮其優(yōu)勢,因此本文應(yīng)用了Bagging 思想和采樣技術(shù)——隨機(jī)過采樣、隨機(jī)欠采樣和SMOTE 采樣來優(yōu)化模型,從而提升預(yù)測的準(zhǔn)確性。
實證研究表明,采樣技術(shù)的使用提高了模型的性能,提升了正確挑選出財務(wù)預(yù)警企業(yè)的概率,這正是本文所感興趣的分類。其中,單獨的分類器中,表現(xiàn)最佳的是XGBoost 與隨機(jī)欠采樣的結(jié)合,它在提升了挑選出財務(wù)危機(jī)企業(yè)的概率的同時,對正常企業(yè)預(yù)測概率的兼顧性要優(yōu)于隨機(jī)森林。為了減少正常企業(yè)被誤判的概率,本文對隨機(jī)森林和XGBoost 進(jìn)行了簡單的集成,使得在t 期正確預(yù)測財務(wù)預(yù)警企業(yè)的概率維持在92.86%的同時,相比于基分類器,集成模型將正常企業(yè)的誤判率降低了約6%,整體預(yù)測準(zhǔn)確率提高了5.4%。
集成機(jī)器學(xué)習(xí)的應(yīng)用能幫助企業(yè)較好地完成前瞻性的財務(wù)預(yù)警,與傳統(tǒng)方法相比,會具有更好的普適性,能結(jié)合大數(shù)據(jù)時代的背景,提高預(yù)測的準(zhǔn)確率,對管理者有更低的財會專業(yè)性要求,有利于企業(yè)的多元化發(fā)展,為企業(yè)挑選投資對象以及日常的生產(chǎn)經(jīng)營活動提供了新的借鑒意義。