張彩妮 任愛(ài)珍 林子達(dá)
【摘? 要】有效的財(cái)務(wù)預(yù)警模型既有助于上市公司開(kāi)展自我診斷和主動(dòng)管理風(fēng)險(xiǎn),也有助于投資者作出理性選擇和避免可能的損失。論文通過(guò)挖掘2019-2022年A股上市公司的年報(bào)信息,選取財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo)作為輸入特征,基于機(jī)器學(xué)習(xí)中的加權(quán)K近鄰算法、隨機(jī)森林算法和支持向量機(jī)算法構(gòu)建企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,并比較各模型的預(yù)測(cè)表現(xiàn)。分析結(jié)果表明,3種預(yù)警模型均有較好的表現(xiàn)并各有側(cè)重。加權(quán)K近鄰模型在測(cè)試集方面具有更高的準(zhǔn)確率;支持向量機(jī)模型在識(shí)別ST公司時(shí)命中率最高,能更準(zhǔn)確地識(shí)別上市公司面臨的財(cái)務(wù)風(fēng)險(xiǎn);隨機(jī)森林模型具有更穩(wěn)健的預(yù)測(cè)性能。研究結(jié)果可供企業(yè)日常經(jīng)營(yíng)和投資者決策參考,也可為監(jiān)管機(jī)構(gòu)健全風(fēng)險(xiǎn)監(jiān)測(cè)機(jī)制提供依據(jù)。
【關(guān)鍵詞】財(cái)務(wù)預(yù)警;上市公司;機(jī)器學(xué)習(xí)
【中圖分類(lèi)號(hào)】F275;TP181? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2023)08-0182-03
1 引言
目前,我國(guó)整體經(jīng)濟(jì)受到國(guó)際經(jīng)濟(jì)形勢(shì)影響,面臨下行壓力,眾多公司融資困難,陷入財(cái)務(wù)困境。在此背景下,構(gòu)建有效的財(cái)務(wù)危機(jī)預(yù)警模型以識(shí)別潛在財(cái)務(wù)風(fēng)險(xiǎn),對(duì)于企業(yè)自身規(guī)避風(fēng)險(xiǎn)、投資者制定投資計(jì)劃和經(jīng)濟(jì)社會(huì)健康發(fā)展具有重大意義。
當(dāng)前,學(xué)者基于機(jī)器學(xué)習(xí)中的各種分類(lèi)算法來(lái)構(gòu)建預(yù)警模型:陳志君[1]以我國(guó)通信行業(yè)上市公司為研究對(duì)象,通過(guò)篩選財(cái)務(wù)指標(biāo),采用邏輯回歸建立財(cái)務(wù)危機(jī)預(yù)警模型,該模型的正確率達(dá)到79%。李長(zhǎng)山[2]的研究表明,由邏輯回歸構(gòu)建的預(yù)警模型能夠有效識(shí)別我國(guó)制造業(yè)公司的財(cái)務(wù)風(fēng)險(xiǎn)。連曉麗[3]以A股上市的正常公司和ST公司為研究樣本,發(fā)現(xiàn)基于隨機(jī)森林的財(cái)務(wù)危機(jī)預(yù)警模型在不同的市場(chǎng)行情下均有較高的準(zhǔn)確率。孟杰[4]通過(guò)對(duì)比隨機(jī)森林與支持向量機(jī)、邏輯回歸、分類(lèi)決策樹(shù)和神經(jīng)網(wǎng)絡(luò)在我國(guó)上市公司財(cái)務(wù)失敗預(yù)警時(shí)的表現(xiàn),得出隨機(jī)森林模型預(yù)測(cè)精度更高、更穩(wěn)健的結(jié)論。游甜[5]選取財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo),對(duì)比分析優(yōu)化后的支持向量機(jī)、BP_Adaboost和kNN在企業(yè)財(cái)務(wù)危機(jī)預(yù)測(cè)時(shí)的表現(xiàn),發(fā)現(xiàn)支持向量機(jī)模型具有更高的判別正確率。周廷煒[6]利用優(yōu)劣解距離法和網(wǎng)格尋優(yōu)算法優(yōu)化支持向量機(jī)預(yù)測(cè)模型,提高了該模型識(shí)別上市公司退市風(fēng)險(xiǎn)的能力。薛慧[7]構(gòu)建了基于LightGBM的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,并與隨機(jī)森林等常用模型進(jìn)行對(duì)比分析,結(jié)果表明,參數(shù)優(yōu)化后的LightGBM模型對(duì)電力行業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的效果更好。
在現(xiàn)有的研究中,加權(quán)K近鄰法被應(yīng)用于機(jī)械故障診斷[8,9]、樓宇室內(nèi)定位[10,11]和圖像識(shí)別[12,13]等工業(yè)領(lǐng)域,取得了有效的成果。而目前加權(quán)K近鄰法并未涉及對(duì)企業(yè)財(cái)務(wù)危機(jī)進(jìn)行預(yù)警分析,因此,文章基于大數(shù)據(jù)分析方法,利用加權(quán)K近鄰算法來(lái)構(gòu)建上市公司財(cái)務(wù)預(yù)警模型,并與隨機(jī)森林和支持向量機(jī)進(jìn)行對(duì)比研究,分析不同模型的性能,幫助企業(yè)及時(shí)辨識(shí)財(cái)務(wù)風(fēng)險(xiǎn),實(shí)現(xiàn)企業(yè)健康發(fā)展的良性循環(huán)。
2 指標(biāo)選取與數(shù)據(jù)處理
有效的危機(jī)預(yù)測(cè)機(jī)制應(yīng)發(fā)揮早期預(yù)警作用,提前對(duì)危機(jī)事件發(fā)出警示。相較于公司破產(chǎn)和企業(yè)違約等事件,公司被列入風(fēng)險(xiǎn)警示板的時(shí)點(diǎn)往往更早,更適用于刻畫(huà)企業(yè)的財(cái)務(wù)危機(jī)。因此,文章以2022年為基期,對(duì)陷入財(cái)務(wù)困境的公司定義為基期被列入風(fēng)險(xiǎn)警示板的公司,利用2019-2021年的財(cái)務(wù)和非財(cái)務(wù)數(shù)據(jù)來(lái)預(yù)測(cè)基期公司是否陷入財(cái)務(wù)困境。在剔除披露信息不完全的公司后,文章獲取540個(gè)有效的危機(jī)樣本,并對(duì)個(gè)別缺失的數(shù)據(jù)利用平均值進(jìn)行補(bǔ)充。由于陷入財(cái)務(wù)困境的公司數(shù)量遠(yuǎn)遠(yuǎn)小于正常公司的數(shù)量,考慮到樣本的平衡性,文章隨機(jī)抽取了資產(chǎn)規(guī)模相似、數(shù)量相同的非ST公司與ST公司一一匹配。相關(guān)數(shù)據(jù)均來(lái)源于CSMAR數(shù)據(jù)庫(kù)。
根據(jù)國(guó)內(nèi)外已有的關(guān)于上市公司財(cái)務(wù)危機(jī)預(yù)警的相關(guān)研究成果,結(jié)合定性分析和定量分析,文章篩選出使用頻率較高且能夠較好地解釋企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)的指標(biāo),從企業(yè)的償債能力、盈利能力、營(yíng)運(yùn)能力、發(fā)展能力以及治理能力這5方面選取了19個(gè)財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo)作為模型的輸入變量。表1列示了財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo)的類(lèi)型和定義。文章采用Z-Score法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,經(jīng)過(guò)該種方法處理后的樣本數(shù)據(jù)的取值范圍為[0,1]。
3 模型設(shè)定
3.1 加權(quán)K近鄰
K近鄰是一種經(jīng)典的監(jiān)督學(xué)習(xí)算法。其基本思路為:在特征空間中,如果有K個(gè)樣本與待測(cè)類(lèi)別的樣本最相似(距離最近),且這K個(gè)樣本大多數(shù)屬于某一個(gè)類(lèi)別,那么待測(cè)樣本也屬于這個(gè)類(lèi)別。在K近鄰算法中,所選擇的鄰居都是已經(jīng)正確分類(lèi)的對(duì)象。該算法需確定的參數(shù)為K,即選擇多少個(gè)與待測(cè)樣本距離最近的樣本進(jìn)行預(yù)測(cè)。
采用K近鄰算法預(yù)測(cè)時(shí),默認(rèn)K個(gè)近鄰(K個(gè)觀測(cè))對(duì)待測(cè)樣本的影響力度是相同的。而事實(shí)上,距待測(cè)樣本近的觀測(cè)樣本對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)應(yīng)當(dāng)大于距離較遠(yuǎn)的觀測(cè)樣本。為解決這個(gè)問(wèn)題,Hechenbichler和Schliep[14]提出了加權(quán)K近鄰法,其核心思想為:將相似性定義為各觀測(cè)樣本與需要預(yù)測(cè)的新觀測(cè)樣本距離的某種非線性函數(shù),且距離越近,相似性越強(qiáng),權(quán)重越高,預(yù)測(cè)時(shí)的貢獻(xiàn)越大。
3.2 隨機(jī)森林
隨機(jī)森林算法依賴袋裝算法,即從原始數(shù)據(jù)集中進(jìn)行有放回抽樣來(lái)產(chǎn)生新樣本集。每個(gè)新產(chǎn)生的樣本集都可生長(zhǎng)出一棵決策樹(shù)。假設(shè)總共有M個(gè)輸入變量,每棵樹(shù)在生長(zhǎng)時(shí),會(huì)從全體輸入變量中隨機(jī)選取m個(gè)(m<M)輸入變量,根據(jù)不純度最小的準(zhǔn)則選取最優(yōu)變量進(jìn)行決策樹(shù)節(jié)點(diǎn)的分割,使每棵樹(shù)都充分生成。將所有決策樹(shù)匯總到一起形成隨機(jī)森林,隨機(jī)森林的預(yù)測(cè)分類(lèi)結(jié)果是由每棵樹(shù)的預(yù)測(cè)分類(lèi)結(jié)果進(jìn)行少數(shù)服從多數(shù)的投票確定。
3.3 支持向量機(jī)
支持向量機(jī)是以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的一種監(jiān)督學(xué)習(xí)方法。該方法在處理二分類(lèi)問(wèn)題時(shí),是通過(guò)在高維特征空間找到一個(gè)超平面來(lái)將兩類(lèi)樣本有效分開(kāi)。根據(jù)樣本是否線性可分,支持向量機(jī)的分類(lèi)問(wèn)題分為兩種情況:對(duì)于線性可分的樣本,可通過(guò)求解凸二次型規(guī)劃問(wèn)題來(lái)直接確定分類(lèi)超平面,進(jìn)而對(duì)不同類(lèi)別的樣本進(jìn)行分類(lèi);對(duì)于非線性可分的樣本,需要先將原低維空間中的樣本映射到高維空間中,這一映射過(guò)程可通過(guò)選取適當(dāng)?shù)暮撕瘮?shù)來(lái)實(shí)現(xiàn),然后在高維空間中尋找分類(lèi)超平面,實(shí)現(xiàn)對(duì)觀測(cè)樣本的分類(lèi)。
3.4 模型性能評(píng)估
為清晰有效地對(duì)比不同分類(lèi)模型的泛化能力,文章基于混淆矩陣,選用ROC曲線和AUC值來(lái)評(píng)估模型的整體分類(lèi)能力。ROC曲線是二維平面空間中的一條曲線,AUC則為曲線下方面積,是具體的數(shù)值。ROC曲線的橫軸為假正例率即FPR(“正例”指ST樣本),縱軸為真正例率即TPR,二者分別表示為:
式中,TP為分類(lèi)模型正確預(yù)測(cè)了ST樣本的個(gè)數(shù);FP為將非ST樣本預(yù)測(cè)為ST樣本的個(gè)數(shù);TN為正確預(yù)測(cè)了非ST樣本的個(gè)數(shù);FN為將ST樣本預(yù)測(cè)為非ST樣本的個(gè)數(shù)。在二分類(lèi)問(wèn)題中,ROC曲線越偏離45°對(duì)角線,即AUC值越接近1,表示模型的分類(lèi)性能越好。
此外,文章選用在分類(lèi)任務(wù)中常用的指標(biāo)來(lái)評(píng)估模型性能,這些評(píng)價(jià)指標(biāo)分別為準(zhǔn)確率、F1得分、召回率和精確度,其計(jì)算公式如下:
4 實(shí)證結(jié)果與分析
文章針對(duì)上市公司的財(cái)務(wù)預(yù)警問(wèn)題,從財(cái)務(wù)指標(biāo)和非財(cái)務(wù)指標(biāo)中充分挖掘相關(guān)特征,分別利用加權(quán)K近鄰算法、隨機(jī)森林算法和支持向量機(jī)算法來(lái)構(gòu)建預(yù)測(cè)模型,并利用R軟件進(jìn)行實(shí)證分析。文章共選取135家ST公司,將2019-2021年的810個(gè)觀測(cè)值作為模型的訓(xùn)練樣本,再將2022年的270個(gè)觀測(cè)值作為模型的測(cè)試集,用于驗(yàn)證不同模型的預(yù)測(cè)性能。
表2為加權(quán)K近鄰模型在測(cè)試集上的混淆矩陣。從表2可以看出,加權(quán)K近鄰模型識(shí)別測(cè)試集中樣本的整體正確率為87.04%,可分別將82.96%的ST公司和91.11%的非ST公司正確識(shí)別。因此,若提前3年對(duì)被預(yù)測(cè)為ST的企業(yè)預(yù)警,這些企業(yè)通過(guò)采取調(diào)整企業(yè)經(jīng)營(yíng)戰(zhàn)略、優(yōu)化企業(yè)債務(wù)結(jié)構(gòu)和規(guī)劃合理的現(xiàn)金流量等應(yīng)對(duì)措施,那么其中將有82.96%的企業(yè)可以避免被證監(jiān)會(huì)列入風(fēng)險(xiǎn)警示板。
表3和表4分別為隨機(jī)森林和支持向量機(jī)模型在測(cè)試集上的混淆矩陣。從表3可以看出,隨機(jī)森林預(yù)警模型在測(cè)試集上的正確率為86.67%,識(shí)別ST公司和非ST公司的命中率分別為87.41%和85.93%。支持向量機(jī)預(yù)警模型在測(cè)試集上的正確率可由表4得出,為86.30%。其識(shí)別ST公司的命中率為89.63%,識(shí)別非ST公司的命中率為82.96%。根據(jù)實(shí)驗(yàn)結(jié)果,若利用隨機(jī)森林和支持向量機(jī)預(yù)測(cè)模型提前3年對(duì)被預(yù)測(cè)為ST的企業(yè)預(yù)警,及時(shí)采取正確應(yīng)對(duì)措施的企業(yè)中將分別有87.41%和89.63%可避免被證監(jiān)會(huì)列入風(fēng)險(xiǎn)警示板。
圖1~圖3展示了加權(quán)K近鄰模型、隨機(jī)森林模型和支持向量機(jī)模型的ROC曲線,從圖中可以看到,3種模型的ROC曲線均較對(duì)角線有著明顯的偏離,說(shuō)明這3個(gè)模型均有較好的性能;隨機(jī)森林模型的ROC曲線較對(duì)角線的偏離程度最大,AUC值為0.942 2,這表明隨機(jī)森林模型具有更好的整體分類(lèi)效力,對(duì)ST公司和非ST公司的識(shí)別均較為準(zhǔn)確。
此外,表5列示了評(píng)估預(yù)測(cè)模型性能的各項(xiàng)指標(biāo)值。可以看到,3種模型均具有較高的準(zhǔn)確率,均在86%以上,其中加權(quán)K近鄰模型準(zhǔn)確率最高。不同模型的精確度和召回率有較大差異,支持向量機(jī)模型的召回率最高,為89.63%,而精確度最低,為84.03%,這說(shuō)明該模型更側(cè)重于將測(cè)試集中所有的ST公司識(shí)別出來(lái),甚至犧牲了一些對(duì)非ST公司判別的準(zhǔn)確率。加權(quán)K近鄰模型的召回率最低,為82.96%,但其精確度高達(dá)90.32%,這表明該模型注重在每次識(shí)別時(shí)能夠更準(zhǔn)確地識(shí)別ST公司,即在判定該公司是否會(huì)被ST處理時(shí)趨于保守。就F1得分和AUC值而言,隨機(jī)森林模型的表現(xiàn)更為出色,這說(shuō)明該模型兼顧了ST和非ST公司識(shí)別的準(zhǔn)確率。
5 結(jié)論
在復(fù)雜多變的宏觀經(jīng)濟(jì)背景下,企業(yè)不可避免地面臨著財(cái)務(wù)風(fēng)險(xiǎn)。財(cái)務(wù)預(yù)警模型通過(guò)對(duì)企業(yè)當(dāng)前和歷史的財(cái)務(wù)信息進(jìn)行挖掘分析,能夠有效預(yù)測(cè)企業(yè)未來(lái)經(jīng)營(yíng)狀況,是財(cái)務(wù)危機(jī)管理的事前預(yù)防手段,在理論研究和實(shí)際應(yīng)用中具有重要意義。文章選取2019-2022年我國(guó)A股上市公司的數(shù)據(jù)共計(jì)1 080個(gè)樣本作為實(shí)證研究對(duì)象,運(yùn)用加權(quán)K近鄰、隨機(jī)森林和支持向量機(jī)算法構(gòu)建了預(yù)測(cè)模型,選取資產(chǎn)負(fù)債率、投入資本回報(bào)率、總資產(chǎn)周轉(zhuǎn)率等財(cái)務(wù)指標(biāo)和管理層持股比例、股權(quán)集中度等非財(cái)務(wù)指標(biāo)作為模型輸入變量,對(duì)上市公司進(jìn)行財(cái)務(wù)預(yù)警研究。通過(guò)對(duì)實(shí)證結(jié)果的分析,發(fā)現(xiàn)3種模型均能有效地識(shí)別企業(yè)財(cái)務(wù)風(fēng)險(xiǎn),且各有所長(zhǎng)。
文章在3個(gè)方面仍待完善:首先,對(duì)于模型輸入變量的選取以前人的研究結(jié)果與經(jīng)驗(yàn)為基礎(chǔ),可能存在遺漏對(duì)企業(yè)財(cái)務(wù)危機(jī)有影響的變量的情況;其次,僅選擇加權(quán)K近鄰、隨機(jī)森林和支持向量機(jī)3種方法來(lái)構(gòu)建預(yù)警模型,在未來(lái)的研究中應(yīng)選擇更多、更前沿的算法來(lái)進(jìn)行對(duì)比分析;最后,文章的數(shù)據(jù)均源自現(xiàn)有的數(shù)據(jù)庫(kù),可能存在企業(yè)財(cái)務(wù)信息未充分披露、數(shù)據(jù)失真等情況。
【參考文獻(xiàn)】
【1】陳志君.我國(guó)通信行業(yè)上市公司財(cái)務(wù)危機(jī)預(yù)警研究[D].北京:北京郵電大學(xué),2012.
【2】李長(zhǎng)山.基于Logistic回歸法的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型構(gòu)建[J].統(tǒng)計(jì)與決策,2018,34(6):185-188.
【3】連曉麗.我國(guó)A股上市公司財(cái)務(wù)危機(jī)預(yù)警模型實(shí)證研究[D].廈門(mén):廈門(mén)大學(xué),2014.
【4】孟杰.隨機(jī)森林模型在財(cái)務(wù)失敗預(yù)警中的應(yīng)用[J].統(tǒng)計(jì)與決策,2014(4):179-181.
【5】游甜.支持向量機(jī)在上市公司財(cái)務(wù)危機(jī)中的應(yīng)用[D].廣州:暨南大學(xué),2016.
【6】周廷煒.基于SVM模型的上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究[D].上海:上海師范大學(xué),2018.
【7】薛慧.基于LightGBM模型的電力上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究[D].成都:西南財(cái)經(jīng)大學(xué),2021.
【8】劉君,游家訓(xùn),梁薇,等.基于加權(quán)K近鄰算法的變壓器故障診斷[J].電氣自動(dòng)化,2010,32(5):59-61+80.
【9】陳法法,湯寶平,蘇祖強(qiáng).基于等距映射與加權(quán)KNN的旋轉(zhuǎn)機(jī)械故障診斷[J].儀器儀表學(xué)報(bào),2013,34(1):215-220.
【10】牛建偉,劉洋,盧邦輝,等.一種基于Wi-Fi信號(hào)指紋的樓宇內(nèi)定位算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(3):568-577.
【11】王博遠(yuǎn),劉學(xué)林,蔚保國(guó),等.WiFi指紋定位中改進(jìn)的加權(quán)k近鄰算法[J].西安電子科技大學(xué)學(xué)報(bào),2019,46(5):41-47.
【12】王淑盛,徐正光,劉黃偉,等.改進(jìn)的K近鄰方法在巖性識(shí)別中的應(yīng)用[J].地球物理學(xué)進(jìn)展,2004(2):478-480.
【13】馮開(kāi)平,賴思淵.基于加權(quán)KNN與隨機(jī)森林的表情識(shí)別方法[J].軟件導(dǎo)刊,2018,17(11):30-33.
【14】Klaus Hechenbichler,K. Schliep.Weighted k-Nearest-Neighbor Techniques and Ordinal Classification[J].Discussion Paper Sfb,2004.