黃曉瑋
摘?要:有效的財(cái)務(wù)預(yù)警有助于利益相關(guān)者判斷上市公司的經(jīng)營(yíng)狀況并做出決策、規(guī)避風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)模型可以快速處理大量的數(shù)據(jù),挖掘出有價(jià)值的信息并得出結(jié)論,能夠高效地對(duì)上市公司的財(cái)務(wù)狀況做出判斷并預(yù)警。本文從常用的機(jī)器學(xué)習(xí)模型及其在財(cái)務(wù)預(yù)警中的應(yīng)用兩個(gè)方面進(jìn)行了歸納,最后指出了機(jī)器學(xué)習(xí)在財(cái)務(wù)預(yù)警方面未來(lái)可能的研究方向。
關(guān)鍵詞:機(jī)器學(xué)習(xí);文本分析;財(cái)務(wù)預(yù)警
中圖分類號(hào):F23?文獻(xiàn)標(biāo)識(shí)碼:A??doi:10.19311/j.cnki.16723198.2023.03.052
0?引言
證券市場(chǎng)中總存在一些上市公司由于公司經(jīng)營(yíng)不善、內(nèi)部管理不規(guī)范、外部環(huán)境改變等原因引發(fā)公司財(cái)務(wù)危機(jī)。由于財(cái)務(wù)信息存在滯后性,以及部分上市公司存在盈余管理、財(cái)務(wù)舞弊等情況,導(dǎo)致利益相關(guān)者做出錯(cuò)誤的判斷而利益受損。機(jī)器學(xué)習(xí)具有快速處理大量數(shù)據(jù)的優(yōu)點(diǎn),能高效挖掘出有價(jià)值的信息病得出結(jié)論,因此很多學(xué)者將機(jī)器學(xué)習(xí)應(yīng)用到財(cái)務(wù)預(yù)警當(dāng)中?;诖?,本文首先介紹了幾個(gè)在財(cái)務(wù)預(yù)警中常用的機(jī)器學(xué)習(xí)模型,包括邏輯回歸(Logistic?Regression,LR)、決策樹(shù)(Decision?Tree,DT)、樸素貝葉斯、支持向量機(jī)(Support?vector?Machine,SVM)、神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí),然后通過(guò)收集和整理相關(guān)文獻(xiàn)詳細(xì)介紹了機(jī)器學(xué)習(xí)在財(cái)務(wù)預(yù)警中的應(yīng)用,最后進(jìn)行了總結(jié)分析。
1?財(cái)務(wù)預(yù)警中常用的機(jī)器學(xué)習(xí)模型
1.1?邏輯回歸(LR)
LR主要用于解決分類問(wèn)題,無(wú)需事先對(duì)數(shù)據(jù)的分布進(jìn)行假設(shè),避免了假設(shè)分布不準(zhǔn)確的問(wèn)題。具體來(lái)說(shuō),先找一個(gè)合適的預(yù)測(cè)分類函數(shù)來(lái)預(yù)測(cè)輸入數(shù)據(jù)的分類結(jié)果。然后再構(gòu)建一個(gè)損失函數(shù)來(lái)預(yù)測(cè)輸出與實(shí)際類別的差,最后找到損失函數(shù)的最小值,即可找到最準(zhǔn)確的預(yù)測(cè)函數(shù)。預(yù)測(cè)函數(shù)的值表示概率值,一般以50%作為分類閾值來(lái)進(jìn)行分類。
1.2?決策樹(shù)(DT)
DT是一種基于特征對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu),其主要優(yōu)點(diǎn)是模型具有可讀性,分類速度快。DT由結(jié)點(diǎn)和有向邊組成,結(jié)點(diǎn)包括根結(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)。根結(jié)點(diǎn)為初始分類特征,內(nèi)部節(jié)點(diǎn)代表某個(gè)特征,葉結(jié)點(diǎn)代表某個(gè)類。DT從根結(jié)點(diǎn)開(kāi)始,有向到達(dá)內(nèi)部結(jié)點(diǎn)進(jìn)行特征判斷,并按照值選擇輸出分支,直到到達(dá)葉結(jié)點(diǎn)的類別,即決策結(jié)果。若DT存在過(guò)擬合問(wèn)題,則可通過(guò)剪枝,即從已生成的樹(shù)上剪掉一些結(jié)點(diǎn)來(lái)解決。
1.3?樸素貝葉斯
樸素貝葉斯是基于貝葉斯定理的一種常用分類方法,其實(shí)現(xiàn)簡(jiǎn)單,學(xué)習(xí)與預(yù)測(cè)的效率都很高。樸素貝葉斯假設(shè)特征條件是互相獨(dú)立的,其通過(guò)訓(xùn)練數(shù)據(jù)獲得類別Y的先驗(yàn)概率P(Y)、條件概率P(X|Y)后,再求得后驗(yàn)概率P(Y|X)的估計(jì),然后基于此模型對(duì)給定的輸入X利用貝葉斯定理求出各個(gè)后驗(yàn)概率,選擇后驗(yàn)概率最大的輸出類別y。
1.4?支持向量機(jī)(SVM)
SVM可用于解決二分類問(wèn)題。對(duì)于一個(gè)線性可分的數(shù)據(jù)集,可通過(guò)找到間隔最大的超平面作為決策面來(lái)為樣本分類。而對(duì)于非線性可分的數(shù)據(jù)集,可通過(guò)引入隱式的核函數(shù)將樣本映射到更高維度的空間中來(lái)找到間隔最大的超平面,以解決在原始特征空間里線性不可分的問(wèn)題,常用的核函數(shù)有線性核、多項(xiàng)式核、高斯核等。
1.5?神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是目前最流行的機(jī)器學(xué)習(xí)模型之一。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)中最基本的成分,它接收到來(lái)自n個(gè)其他神經(jīng)元傳遞過(guò)來(lái)的輸入信號(hào)并通過(guò)帶權(quán)重的連接傳遞到神經(jīng)元,神經(jīng)元接收到的總輸入值將與當(dāng)前神經(jīng)元的閾值進(jìn)行比較,然后通過(guò)激活函數(shù)來(lái)決定使神經(jīng)元“興奮”或“抑制”,以產(chǎn)生神經(jīng)元的輸出。神經(jīng)網(wǎng)絡(luò)就是把多個(gè)這樣的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來(lái)而成。神經(jīng)網(wǎng)絡(luò)有多種類型,包括感知機(jī)、BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。
1.6?集成學(xué)習(xí)
集成學(xué)習(xí)是使用一種或多種算法構(gòu)建并結(jié)合多個(gè)弱學(xué)習(xí)器以產(chǎn)生強(qiáng)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的一種方法,相比單一學(xué)習(xí)器有更強(qiáng)的泛化性能。集成學(xué)習(xí)中最常用的是裝袋法(Bagging)和提升法(Boosting)。
1.6.1?Bagging
Bagging通過(guò)自助采樣法獲得采樣集,也就是先從包含M個(gè)樣本的數(shù)據(jù)集中隨機(jī)取出一個(gè)樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,即同一個(gè)樣本可能在同一個(gè)采樣集中重復(fù)出現(xiàn),這樣隨機(jī)采樣m次后就可以得到含有m個(gè)樣本的采樣集,將上述操作重復(fù)T次后,即可得到T個(gè)含m個(gè)訓(xùn)練樣本的采樣集,然后基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。在對(duì)預(yù)測(cè)輸出進(jìn)行結(jié)合時(shí),通常對(duì)分類任務(wù)使用簡(jiǎn)單投票法,對(duì)回歸任務(wù)則通常使用簡(jiǎn)單平均法。隨機(jī)森林(randomforests,RF)是Bagging擴(kuò)展模型中的典型模型之一。
1.6.2?Boosting
Boosting的訓(xùn)練樣本均為同一組,它是通過(guò)改變訓(xùn)練樣本的權(quán)重來(lái)學(xué)習(xí)多個(gè)基學(xué)習(xí)器。先訓(xùn)練出一個(gè)初始的基訓(xùn)練器,根據(jù)該基訓(xùn)練器的結(jié)果,提高分類錯(cuò)誤的樣本權(quán)重,再按照新的權(quán)重訓(xùn)練下一個(gè)基學(xué)習(xí)器,直到達(dá)到預(yù)先指定的學(xué)習(xí)次數(shù),再將這些基學(xué)習(xí)器加權(quán)組合,以提高最終模型的準(zhǔn)確性。AdaBoost、全梯度下降樹(shù)(GBDT)、極端梯度提升(XGBoost)都是Boosting的常用算法。
2?基于財(cái)務(wù)數(shù)據(jù)的財(cái)務(wù)預(yù)警研究
2.1?單機(jī)器學(xué)習(xí)模型
朱發(fā)根,劉拓,傅毓維(2009)選取高新技術(shù)產(chǎn)業(yè)的上市公司為研究范圍,運(yùn)用SVM構(gòu)建財(cái)務(wù)預(yù)警模型。結(jié)果表明,該模型具有90%的預(yù)警精度,可以對(duì)企業(yè)兩年后的財(cái)務(wù)狀況作出較可靠的判斷。趙文平,王園園,張一楠等(2015)構(gòu)建了基于貝葉斯網(wǎng)絡(luò)的工業(yè)上市公司財(cái)務(wù)預(yù)警模型。發(fā)現(xiàn)該模型在公司被ST前三年的準(zhǔn)確率分別為91.05%、95.03%、97.35%,對(duì)工業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)的預(yù)測(cè)取得了較好的結(jié)果。王秋瑋,葉楓(2018)構(gòu)建了決策樹(shù)C5.0的財(cái)務(wù)預(yù)警模型,發(fā)現(xiàn)該模型可以較好地預(yù)測(cè)ST公司的財(cái)務(wù)困境程度。
有學(xué)者構(gòu)建了多個(gè)機(jī)器學(xué)習(xí)財(cái)務(wù)預(yù)警模型并進(jìn)行對(duì)比。唐鋒,孫凱(2008)采用主成分分析法(PCA)和BP人工神經(jīng)網(wǎng)絡(luò)構(gòu)建財(cái)務(wù)危機(jī)預(yù)警模型。結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)模型達(dá)到了建模樣本90.8%和檢驗(yàn)樣本90%的判正率,而采用PCA建立的模型分別是90%和81.7%,基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)警模型效果更好。蔣盛益,汪珊,蔡余沖(2010)建立了7個(gè)財(cái)務(wù)預(yù)警模型,包括貝葉斯網(wǎng)絡(luò)、決策樹(shù)、基于規(guī)則的分類(JRip)、最近鄰分類(1NN)、多層感知機(jī)、BP神經(jīng)網(wǎng)絡(luò)和LR。發(fā)現(xiàn)最近鄰分類、多層感知機(jī)、BP神經(jīng)網(wǎng)絡(luò)及邏輯回歸這四類方法的效果接近,且明顯好于貝葉斯網(wǎng)絡(luò)、DT、JRip。
2.2?多機(jī)器學(xué)習(xí)融合模型
多位學(xué)者將PCA應(yīng)用到各類機(jī)器學(xué)習(xí)模型中,發(fā)現(xiàn)可使模型效果得到提升。劉玉敏,申李瑩,任廣乾(2017)構(gòu)建了PCA-PSO-SVM模型來(lái)進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)。先通過(guò)PCA進(jìn)行數(shù)據(jù)降維處理,再將SVM的參數(shù)作為PSO的粒子,將分類準(zhǔn)確率作為PSO的目標(biāo)函數(shù)進(jìn)而得到優(yōu)化的SVM。發(fā)現(xiàn)PCA-PSO-SVM模型在較短的預(yù)警期間內(nèi),其準(zhǔn)確率好于單純的SVM模型。石先兵(2020)通過(guò)使用PCA分析原始數(shù)據(jù),然后將結(jié)果嵌入SVM中來(lái)構(gòu)建企業(yè)財(cái)務(wù)預(yù)警模型。結(jié)果顯示,PCA-SVM財(cái)務(wù)危機(jī)預(yù)警模型的準(zhǔn)確率總體高于80%以上,對(duì)制造業(yè)上市公司有較好的財(cái)務(wù)危機(jī)預(yù)警效果。
將單機(jī)器學(xué)習(xí)模型作為集成學(xué)習(xí)法中的弱學(xué)習(xí)器能夠提高模型的預(yù)警效果。陸正華,周航(2013)構(gòu)建了BP_Adaboost財(cái)務(wù)預(yù)警模型,發(fā)現(xiàn)用BP神經(jīng)網(wǎng)絡(luò)作為弱分類器的Adaboost算法構(gòu)建的財(cái)務(wù)預(yù)警模型誤差率更低。朱昶勝,田慧星,馮文芳(2021)構(gòu)建了Adaboost-DEGWO-SVM組合模型來(lái)預(yù)測(cè)上市公司財(cái)務(wù)困境。其將差分進(jìn)化(DE)應(yīng)用到灰狼算法(GWO)中來(lái)實(shí)現(xiàn)對(duì)SVM參數(shù)的尋優(yōu),最后通過(guò)Adaboost算法提高DEGWO-SVM的分類能力。結(jié)果表明,Adaboost-DEGWO-SVM組合預(yù)測(cè)模型的分類準(zhǔn)確率可達(dá)到91.3%。趙雪峰,吳偉偉,吳德林等(2022)構(gòu)建出以特征因果關(guān)系分析為基礎(chǔ)的CFW-Boost模型,其將CART決策樹(shù)作為弱分類器。并構(gòu)建了LR、Lasso-Logistic,SVM、PCA-SVM、RF、卷積神經(jīng)網(wǎng)絡(luò)(CNN)及長(zhǎng)短期記憶網(wǎng)絡(luò)與之進(jìn)行對(duì)比,發(fā)現(xiàn)CFW-Boost相比其他模型具有更高的準(zhǔn)確率和穩(wěn)定性。
張露,劉家鵬,田冬梅(2022)則融合了兩種集成學(xué)習(xí)方法,其將基于Up-Down集成采樣的Bagging-Vote模型與基于Tomek-Smote采樣的Stacking模型進(jìn)行融合,再加入股票交易數(shù)據(jù)來(lái)得到Stacking-Bagging-Vote(SBV)多源信息融合模型,發(fā)現(xiàn)該融合模型在預(yù)測(cè)性能上有了較大的提升。
3?涉及文本分析的財(cái)務(wù)預(yù)警研究
近年來(lái),在財(cái)務(wù)預(yù)警研究中使用機(jī)器學(xué)習(xí)分析文本信息的研究增多。阮素梅,杜旭東,李偉等(2022)構(gòu)建了9個(gè)常用的機(jī)器學(xué)習(xí)模型,包括LR、SVM、神經(jīng)網(wǎng)絡(luò)、DT、GBDT、XGBoost、AdaBoost、RF和Bagging,對(duì)使用單一財(cái)務(wù)數(shù)據(jù)的模型和增加了文本信息的模型進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)識(shí)別效果對(duì)比。發(fā)現(xiàn)在加入文本信息,可以顯著提升多數(shù)機(jī)器學(xué)習(xí)模型識(shí)別上市公司財(cái)務(wù)風(fēng)險(xiǎn)的性能。梁龍躍,劉波(2022)通過(guò)提取財(cái)務(wù)困境公司與正常上市公司年報(bào)中“經(jīng)營(yíng)情況討論與分析”和“審計(jì)報(bào)告”的文本特征,并與財(cái)務(wù)指標(biāo)數(shù)據(jù)結(jié)合,構(gòu)建了LR、XGBoost、人工神經(jīng)網(wǎng)絡(luò)(ANN)、CNN四種財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型。對(duì)文本特征的提取分別采用了BERT-AE、Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型進(jìn)行對(duì)比,結(jié)果顯示使用BERT-AE提取文本特征的XGBoost模型效果最好。
4?結(jié)論
機(jī)器學(xué)習(xí)是在財(cái)務(wù)預(yù)警中常用的方法,包括LR、DT、樸素貝葉斯、SVM、神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)等。其在財(cái)務(wù)預(yù)警的應(yīng)用中,從主要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行分析的單機(jī)器學(xué)習(xí)預(yù)警模型逐漸向多機(jī)器學(xué)習(xí)模型融合發(fā)展,并且對(duì)于特征提取、模型算法不斷的優(yōu)化使得模型的預(yù)警效果得到提高。近年來(lái),隨著機(jī)器學(xué)習(xí)的不斷深入發(fā)展,文本信息也成了財(cái)務(wù)預(yù)警模型的分析對(duì)象,并且進(jìn)一步的提高了模型的預(yù)警效果。未來(lái)可以對(duì)特征提取、算法優(yōu)化、文本信息分析這些方面進(jìn)行更深入研究,提高財(cái)務(wù)預(yù)警模型的現(xiàn)實(shí)指導(dǎo)意義。
參考文獻(xiàn)
[1]梁龍躍,劉波.基于文本挖掘的上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(4):255266.
[2]陳藝云.基于信息披露文本的上市公司財(cái)務(wù)困境預(yù)測(cè):以中文年報(bào)管理層討論與分析為樣本的研究[J].中國(guó)管理科學(xué),2019,27(7):?2334.
[3]趙雪峰,吳偉偉,吳德林,等.面向特征因果分析的CFW-Boost企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型[J].系統(tǒng)管理學(xué)報(bào),2022,31(2):?317328.
[4]朱昶勝,田慧星,馮文芳.基于Adaboost算法結(jié)合DEGWO-SVM的財(cái)務(wù)困境預(yù)測(cè)[J].蘭州理工大學(xué)學(xué)報(bào),2021,47(6):?100107.
[5]張露,劉家鵬,田冬梅.基于Stacking-Bagging-Vote多源信息融合模型的財(cái)務(wù)預(yù)警應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2022,42(1):?280286.
[6]陸正華,周航.基于BP_Adaboost算法的上市公司財(cái)務(wù)預(yù)警研究[J].財(cái)會(huì)通訊,2013,(23):117119.
[7]唐鋒,孫凱.基于BP人工神經(jīng)網(wǎng)絡(luò)的上市公司財(cái)務(wù)危機(jī)預(yù)警研究[J].現(xiàn)代經(jīng)濟(jì)(現(xiàn)代物業(yè)下半月刊),2008,(S1):161162.
[8]張秋水,羅林開(kāi),劉晉明.基于支持向量機(jī)的中國(guó)上市公司財(cái)務(wù)困境預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用,2006,(S1):105107.
[9]蔣盛益,汪珊,蔡余沖.基于機(jī)器學(xué)習(xí)的上市公司財(cái)務(wù)預(yù)警模型的構(gòu)建[J].統(tǒng)計(jì)與決策,2010,(9):166167.
[10]王秋瑋,葉楓.新常態(tài)下ST公司財(cái)務(wù)困境預(yù)警研究——基于C5.0算法的財(cái)報(bào)面板數(shù)據(jù)[J].財(cái)會(huì)通訊,2018,(23):107111,129.
[11]朱發(fā)根,劉拓,傅毓維.基于SVM的高新技術(shù)企業(yè)財(cái)務(wù)危機(jī)預(yù)警研究[J].科技進(jìn)步與對(duì)策,2009,26(11):7375.
[12]劉玉敏,申李瑩,任廣乾.基于PCAPSOSVM的上市公司財(cái)務(wù)危機(jī)預(yù)警[J].管理現(xiàn)代化,2017,37(3):1214.
[13]趙文平,王園園,張一楠,等.基于貝葉斯網(wǎng)絡(luò)的上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型[J].財(cái)會(huì)月刊,2015,(23):6669.
[14]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[15]趙衛(wèi)東.機(jī)器學(xué)習(xí)[M].北京:人民郵電出版社,2018.
[16]李航.機(jī)器學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2022.
[17]石先兵.基于PCASVM的企業(yè)財(cái)務(wù)危機(jī)預(yù)警模型構(gòu)建[J].財(cái)會(huì)通訊,2020,(10):131134.
[18]阮素梅,杜旭東,李偉,等.數(shù)據(jù)要素、中文信息與智能財(cái)務(wù)風(fēng)險(xiǎn)識(shí)別[J].經(jīng)濟(jì)問(wèn)題,2022,(1):107113.