摘 要:大數(shù)據(jù)環(huán)境下,應(yīng)用機器學(xué)習(xí)數(shù)據(jù)挖掘分析技術(shù)對波蘭破產(chǎn)及未破產(chǎn)公司的財務(wù)數(shù)據(jù)進行建模訓(xùn)練和測試驗證,其中包括多層感知器中的SMOTE、SMOTE-Borderline1和BMS不平衡算法。橫向?qū)Ρ劝l(fā)現(xiàn)SMOTE、SMOTE-Borderline1、BMS算法有效提升了F1-Score,證明了多層感知器算法在公司破產(chǎn)評估領(lǐng)域內(nèi)處理非平衡類別數(shù)據(jù)手段的有效性??v向?qū)Ρ缺砻髟诓煌念A(yù)測時間跨度上,MLP模型和公司財務(wù)數(shù)據(jù)的分類器模型效果具有顯著差異。最后,使用卡方檢驗篩選出公司短期負債、資金結(jié)構(gòu)和經(jīng)營利潤等較為重要的財務(wù)指標。
關(guān)鍵詞: 機器學(xué)習(xí);多層感知器算法;破產(chǎn)評估模型;MLP模型
中圖分類號:F271;TP181" 文獻標識碼: A""" 文章編號:1003-7217(2025)02-0043-08
一、引 言
企業(yè)破產(chǎn)評估模型能夠幫助企業(yè)和金融機構(gòu)提前識別潛在的破產(chǎn)風(fēng)險,從而采取相應(yīng)的風(fēng)險管理措施,避免或減輕破產(chǎn)帶來的損失,這對于維護金融市場的穩(wěn)定和健康發(fā)展至關(guān)重要。2019年7月,國家發(fā)改委等部門印發(fā)了《加快完善市場主體退出制度改革方案》,旨在暢通市場主體退出渠道,降低市場主體退出成本,激發(fā)市場主體競爭活力,完善優(yōu)勝劣汰的市場機制,推動經(jīng)濟高質(zhì)量發(fā)展。2021年2月,國務(wù)院部署企業(yè)退出政策強調(diào)完善中小微企業(yè)簡易注銷制度,保障破產(chǎn)程序依法規(guī)范推進。2023年5月,世界銀行發(fā)布的Business Ready評價指標,添加了對“破產(chǎn)程序啟動前”程序的考察和設(shè)置,鼓勵企業(yè)如若出現(xiàn)財務(wù)困難應(yīng)該盡早尋求幫助以獲得生存機會。投融資活動開展的必要條件是資本對企業(yè)經(jīng)營狀況的良好評估,而公司經(jīng)營狀況則受到來自內(nèi)外部多種因素的影響,如政策、市場、企業(yè)戰(zhàn)略、高管因素等。為了加大布局、擴張企業(yè)規(guī)模,企業(yè)在資本市場進行的投融資活動也日益頻繁。在企業(yè)經(jīng)營過程中,任何一項不當?shù)牟僮鞫加锌赡芙o公司的財務(wù)狀況、股價、市值、品牌帶來危機,從而影響投資者的利益,嚴重的甚至可能導(dǎo)致公司面臨破產(chǎn)危機。
隨著機器學(xué)習(xí)和深度學(xué)習(xí)等研究的興起,決策樹、集成學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)和支持向量機等先進技術(shù)在破產(chǎn)預(yù)測領(lǐng)域得到了長足發(fā)展,近些年的實證研究也發(fā)現(xiàn)其在破產(chǎn)預(yù)測中可以得出更優(yōu)的預(yù)測結(jié)果。遺憾的是,在實際預(yù)測的樣本中都面臨著破產(chǎn)企業(yè)數(shù)量遠小于未破產(chǎn)企業(yè)數(shù)量的問題,從而導(dǎo)致機器學(xué)習(xí)的預(yù)測性能下降。樣本數(shù)據(jù)的不均衡會導(dǎo)致分類器在處理過程中無法捕捉到破產(chǎn)企業(yè)樣本的特征,從而產(chǎn)生預(yù)測誤差。后續(xù)的研究提出了如下解決思路:第一,將數(shù)據(jù)進行預(yù)處理,通過重復(fù)抽樣調(diào)整破產(chǎn)企業(yè)數(shù)量與未破產(chǎn)企業(yè)數(shù)量,使樣本達到平衡;第二,利用決策樹、神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)算法等對分類器進行增強。Shen等學(xué)者使用SMOTE抽樣,通過對比支持向量機、決策樹等多種集成分類器,發(fā)現(xiàn)隨機森林的分類效果較優(yōu)。此外,Galar等通過劃分四類集成學(xué)習(xí)算法并使用類不平衡問題的處理手段,證明了使用集成學(xué)習(xí)算法和聯(lián)合預(yù)處理技術(shù)可以得到較好的預(yù)測效果。目前已有學(xué)者將多層感知器算法用于信息安全、工業(yè)故障診斷等多個研究領(lǐng)域,而基于SMOTE、SMOTE-Borderline1、BMS不平衡算法的公司破產(chǎn)預(yù)測領(lǐng)域的研究還較少。
本文基于UCI大學(xué)Machine Learning Repository(機器學(xué)習(xí)數(shù)據(jù)集庫)數(shù)據(jù),使用無處理、SMOTE算法、SMOTE-Borderline1算法和基于過采樣與欠采樣的BMS算法,建立非平衡大數(shù)據(jù)的公司破產(chǎn)評估模型,以期為企業(yè)破產(chǎn)預(yù)測領(lǐng)域提供積極案例。
二、文獻回顧
隨著我國經(jīng)濟實力的快速增長、資本市場的深度發(fā)展及國家政策對創(chuàng)新創(chuàng)業(yè)的大力支持,我國各類型企業(yè)得到了快速發(fā)展。對于現(xiàn)代企業(yè)而言,風(fēng)險評估與管理是一項指導(dǎo)企業(yè)健康發(fā)展的必要措施。對于以銀行為代表的金融機構(gòu)和政府監(jiān)管部門而言,根據(jù)企業(yè)的財務(wù)狀況建立適當?shù)娘L(fēng)險預(yù)測模型和破產(chǎn)監(jiān)測模型,有利于客觀評估企業(yè)風(fēng)險、做出適當反應(yīng),規(guī)避可能損失。企業(yè)破產(chǎn)監(jiān)測模型的研究對于資本市場的健康發(fā)展具有十分重要的現(xiàn)實意義。由于各類公司經(jīng)營狀況迥異、經(jīng)營影響因素紛繁復(fù)雜、財務(wù)科目指標類目繁多,而過去的技術(shù)水平無法高效妥善處理大規(guī)模數(shù)據(jù)量,因此傳統(tǒng)的評估方法主要依賴專家經(jīng)驗、簡單的同行業(yè)對比等手段。在當今大數(shù)據(jù)時代背景下,數(shù)據(jù)量呈幾何倍數(shù)增長,企業(yè)的風(fēng)險評估標準變更頻繁,評估指標日益豐富,傳統(tǒng)方式的評估成本不斷提升,評估準確性受到了海量數(shù)據(jù)清洗和處理的限制。從數(shù)據(jù)庫到大數(shù)據(jù),數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、模式數(shù)據(jù)關(guān)系、處理對象與處理工具都發(fā)生了革命性變化,與此同時,數(shù)據(jù)量的增加并不意味著數(shù)據(jù)價值的等比增加[1]。為了從大數(shù)據(jù)中更加快速、高效獲得準確有用的信息,需要更先進的數(shù)據(jù)分析處理技術(shù)對海量數(shù)據(jù)進行深度挖掘和運用。機器學(xué)習(xí)領(lǐng)域理論的不斷發(fā)展、應(yīng)用場景的不斷豐富,提供了使用算法算力處理企業(yè)財務(wù)評估問題的方法,為公司進行風(fēng)險評估與管理提供了新的思路。
以往的研究發(fā)現(xiàn),對于公司財務(wù)風(fēng)險預(yù)警模型的研究主要包括評估指標的豐富和算法的優(yōu)化兩方面。國外研究較早采用統(tǒng)計方法對公司破產(chǎn)評估模型進行研究,西方學(xué)者提出的Z值企業(yè)財務(wù)狀況評估模型最早在西方國家得以應(yīng)用。20世紀80年代機器學(xué)習(xí)被初步應(yīng)用于風(fēng)險評估模型中,Ohlson利用邏輯斯蒂回歸對兩千余家破產(chǎn)和非破產(chǎn)公司進行了研究建模,篩選出公司資產(chǎn)額、資產(chǎn)負債比、盈利能力及融資能力四個重要特征指標[2],對業(yè)界實踐應(yīng)用、理論研究都有著重要影響。同時基于邏輯斯蒂模型的評價指標也在不斷豐富:Casey等將現(xiàn)金流量加入模型[3];Tirapat通過對1997年泰國經(jīng)濟危機中的破產(chǎn)公司進行研究,將宏觀經(jīng)濟因素引入企業(yè)評估的回歸模型中[4];Odom等引入人工神經(jīng)網(wǎng)絡(luò),以65家破產(chǎn)及等額的非破產(chǎn)企業(yè)為樣本進行了基于Z-score模型訓(xùn)練與預(yù)測[5]。Min等引入支持向量機模型,通過方法對比,證明了SVM核函數(shù)對非線性問題的處理優(yōu)勢使其在破產(chǎn)預(yù)警問題上具備有效性[6]。在證據(jù)理論中,基本概率分配(BPA)表示證據(jù)支持的程度?,F(xiàn)有的大多數(shù)研究都依靠主觀經(jīng)驗判斷來給出BPA的取值。Fang等學(xué)者使用粗糙集、似然函數(shù)和其他方法獲得BPA,但學(xué)術(shù)界尚未建立統(tǒng)一的BPA獲取方法[7]。Halteh 等基于101家伊斯蘭上市銀行組成的數(shù)據(jù)集,利用決策樹、隨機梯度增強和隨機森林(DS-RF)等方法,進行財務(wù)預(yù)警對比研究,以探尋最優(yōu)的解決算法[8]。Kim等提出使用AdaBoosted決策樹組合模型來探索影響財務(wù)困境的相關(guān)因素[9]。Zhu等結(jié)合人工智能算法,基于證據(jù)理論和隨機森林模型,構(gòu)建了包含盈利能力、資產(chǎn)質(zhì)量、債務(wù)風(fēng)險和經(jīng)營增長四個維度的隨機森林模型,結(jié)果發(fā)現(xiàn)DS-RF模型相比隨機森林算法和傳統(tǒng)模型具有更高的預(yù)警精度,有效提升了企業(yè)財務(wù)風(fēng)險預(yù)警的效率[10]。
國內(nèi)學(xué)者通過對企業(yè)頻繁出現(xiàn)業(yè)績爆雷現(xiàn)象進行思考,結(jié)合中國的獨特情境,逐漸將符合中國企業(yè)特征的因子引入財務(wù)風(fēng)險預(yù)警模型中。陳曉等根據(jù)中國上市及被退市的上市公司樣本,將負債/權(quán)益、應(yīng)收賬款周轉(zhuǎn)率、主營利潤/總資產(chǎn)及留存收益/總資產(chǎn)引入邏輯斯蒂回歸模型[11];陳燕等引入股權(quán)與董事會結(jié)構(gòu)特征,建模評估高管與治理情況對公司財務(wù)狀況的影響[12]。此外,評估模型的算法種類也得到了極大的豐富。在此基礎(chǔ)上,李賀等提出PCA-SVM預(yù)警模型[13]。楊淑娥等以財務(wù)數(shù)據(jù)組合的面板數(shù)據(jù)為樣本特征,基于BP網(wǎng)絡(luò)進行上市公司財務(wù)風(fēng)險研究,發(fā)現(xiàn)該模型對時間跨度較大的財務(wù)風(fēng)險預(yù)測情景具有有效性[14]。隨著深度學(xué)習(xí)領(lǐng)域的深入發(fā)展、神經(jīng)網(wǎng)絡(luò)的可塑性及自由度的豐富性,劉飛虎等提出基于主成分分析和RBF神經(jīng)網(wǎng)絡(luò)的公司財務(wù)預(yù)警模型[15]。肖毅等使用集成文本挖掘和深度學(xué)習(xí),基于TEI@I方法論的理論框架,使用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)構(gòu)建企業(yè)財務(wù)風(fēng)險預(yù)警模型,能促進政府和投資者及時掌握企業(yè)經(jīng)營動態(tài),并防范投資風(fēng)險[16]。王言等運用機器學(xué)習(xí)XGBoost算法構(gòu)建預(yù)警模型,選取和設(shè)計影響國有上市公司并購風(fēng)險指標評價體系,實證表明基于XGBoost算法的預(yù)測精確度為80%,具有更強的可靠性和適用性[17]。喬冰琴等采用人工神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)兩種方法對財務(wù)風(fēng)險預(yù)警模型進行預(yù)測,結(jié)果發(fā)現(xiàn)在常規(guī)模型中引入基于MDamp;A多文本特征可以提高模型的預(yù)測AUC值,加入融資約束、財務(wù)困境指數(shù)等指標,模型預(yù)測的AUC值提升更加顯著,并且卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測更精確,誤報率和漏報率更平衡[18]。江乾坤等構(gòu)建Stacking集成學(xué)習(xí)模型,基于中國互聯(lián)網(wǎng)上市公司56起海外并購事件進行大數(shù)據(jù)財務(wù)風(fēng)險預(yù)警因子挖掘,研究發(fā)現(xiàn)Stacking集成學(xué)習(xí)模型較機器學(xué)習(xí)模型的預(yù)警效果更好,運營能力等傳統(tǒng)非財務(wù)指標仍是互聯(lián)網(wǎng)企業(yè)海外并購財務(wù)風(fēng)險大數(shù)據(jù)預(yù)警的首選指標,但創(chuàng)新型非財務(wù)指標如股吧評論也具有重要預(yù)警價值[19]。
近年來各種經(jīng)濟數(shù)據(jù)的來源不斷拓展、產(chǎn)生速度不斷加快與數(shù)據(jù)規(guī)模不斷擴大,社會加速邁入大數(shù)據(jù)時代。有學(xué)者針對此提出了大數(shù)據(jù)的3V特點,即大數(shù)據(jù)具有規(guī)模性(volume)、多樣性(variety)、高速性(velocity)[20]。大數(shù)據(jù)的繁榮加速了數(shù)據(jù)處理分析技術(shù)的改革,包括云計算、大數(shù)據(jù)處理工具Hadoop及功能擴展軟件等,同時也催生或加深了如數(shù)據(jù)廣泛的異構(gòu)性、數(shù)據(jù)質(zhì)量的不確定性等問題[21],給傳統(tǒng)數(shù)據(jù)分析技術(shù)帶來了挑戰(zhàn)。而在大數(shù)據(jù)背景下的公司破產(chǎn)監(jiān)測的領(lǐng)域內(nèi),較早時期開展的研究大都停留在傳統(tǒng)經(jīng)濟模式,數(shù)據(jù)表現(xiàn)為體量少、獲取難度大、數(shù)據(jù)不可信等特點。在大數(shù)據(jù)時代,不僅數(shù)據(jù)體量巨大,模式多樣,而且證明數(shù)據(jù)真實度的技術(shù)方法也層出不窮,對公司破產(chǎn)進行評估的模式和方法亟須創(chuàng)新,使之與大數(shù)據(jù)的特征和處理方法匹配。
企業(yè)的財務(wù)風(fēng)險等級無法全面系統(tǒng)地描述,并且企業(yè)財務(wù)狀況惡化是一個動態(tài)過程,傳統(tǒng)的財務(wù)風(fēng)險預(yù)警模型無法捕捉到這一過程中風(fēng)險因素的動態(tài)變化。在新一代信息技術(shù)環(huán)境下,結(jié)合人工智能算法的企業(yè)財務(wù)風(fēng)險預(yù)警模型不斷創(chuàng)新,提高了財務(wù)風(fēng)險預(yù)警的準確性。企業(yè)財務(wù)風(fēng)險的動態(tài)演化主要體現(xiàn)在盈利能力、資產(chǎn)質(zhì)量、債務(wù)風(fēng)險和經(jīng)營增長四個維度的財務(wù)狀況動態(tài)變化,是反映企業(yè)財務(wù)風(fēng)險特征的關(guān)鍵證據(jù)。為了系統(tǒng)整合上述四個維度的財務(wù)數(shù)據(jù),全面刻畫金融風(fēng)險,亟須對企業(yè)財務(wù)風(fēng)險評估的理論和方法進行系統(tǒng)性改革。結(jié)合實踐可知,由于現(xiàn)實中破產(chǎn)公司(退市公司)的數(shù)量一般總是少于正常經(jīng)營公司的數(shù)量,因而該領(lǐng)域研究者一般會面臨正負樣本不平衡導(dǎo)致少類別欠學(xué)習(xí)的問題,從而影響模型分類處理數(shù)據(jù)的準確度和精確度。目前該類問題的解決主要從算法和數(shù)據(jù)兩個層面展開。算法層面包括對樣本平衡性不敏感模型的開發(fā)、代價敏感法等,而數(shù)據(jù)層面的解決方案,除了像Odom等直接選取等額的破產(chǎn)公司與非破產(chǎn)公司樣本外,主要是在進行訓(xùn)練前通過移除和添加新樣本的方式來平衡類別,具體分為欠采樣及過采樣兩種方式。理論研究從傳統(tǒng)的隨機欠采樣、隨機過采樣發(fā)展至Chawla等提出了過采樣SMOTE方法[22],通過計算對比在一定約束下人為隨機生成少數(shù)類樣本從而平衡類的分布,SMOTE法一經(jīng)提出便廣泛應(yīng)用于實踐。同時也有更多的研究人員基于SMOTE法合成樣本的質(zhì)量問題、模糊邊界問題、少數(shù)類分布問題等提出了改進方法。如Han等將分類邊界處的樣本作為跟樣本提出的Borderline-SMOTE法[23],Zhu等提出的基于多類不平衡的SMOM過采樣算法[24]。同時還有將SMOTE與欠采樣方式結(jié)合的新算法,如馮宏偉等整合SMOTE和欠采樣法OSED而產(chǎn)生的BMS[25],Song等提出的結(jié)合SMOTE和基于K-means欠采樣的BDSK[26]。此外還有Ramentol等提出的結(jié)合過濾技術(shù)的SMOTE-RSB算法[27],Barua等提出的結(jié)合聚類算法的MWMOTE[28]等等。
三、問題描述和研究思路
破產(chǎn)一般源于債務(wù)人失去經(jīng)營事業(yè)的財產(chǎn)承受能力,或者發(fā)生了無力進行債務(wù)清償?shù)呢攧?wù)危機。公司破產(chǎn)主要原因是財務(wù)危機,其他各種內(nèi)外部影響因素,包括政策、市場、企業(yè)戰(zhàn)略、高管變動等最終都會直接或間接在財務(wù)報表上有所體現(xiàn)。因此本文選擇將公司的財務(wù)狀況作為破產(chǎn)評估及監(jiān)測研究的重點。
同時,從樣本數(shù)據(jù)集信息表(表1)可以看出,用于破產(chǎn)監(jiān)測研究的樣本數(shù)據(jù)存在較為嚴重的正負樣本不平衡的情況——觀察期內(nèi)未破產(chǎn)的公司數(shù)目遠多于破產(chǎn)公司數(shù)目。在模型訓(xùn)練過程中如果不加以調(diào)整,會導(dǎo)致分類器的分類結(jié)果總是傾向于多數(shù)類以獲得高正確率,最終削弱模型分類能力。目前主流的處理不平衡大數(shù)據(jù)量的方法包括代價敏感法、欠采樣法、過采樣法等。欠采樣法的缺點是有可能導(dǎo)致信息丟失,而簡單重復(fù)多次抽取少數(shù)類樣本的傳統(tǒng)過采樣法則可能會造成模型的過擬合。SMOTE法通過在數(shù)據(jù)集中增加人工合成的少數(shù)類樣本在使得類目平衡的同時,提升了分類器的泛化性能,削弱了可能的過擬合情形。因此本文在模型訓(xùn)練過程中會使用SMOTE對訓(xùn)練集中少數(shù)類樣本進行處理以優(yōu)化模型的訓(xùn)練效果。但是由于SMOTE有時會存在合成樣本質(zhì)量問題、少數(shù)類分布問題等,故引入SMOTE-Borderline1和BMS法作為SMOTE過采樣法的補充,分別對訓(xùn)練集數(shù)據(jù)進行類目平衡處理,之后在測試集上檢測基于過采樣法訓(xùn)練的模型真實分類能力,以驗證SMOTE及其改進算法在企業(yè)破產(chǎn)評估模型上的有效性。
基于上述,本文的研究流程分為數(shù)據(jù)準備、模型訓(xùn)練、橫縱向?qū)Ρ?、特征研究與最終結(jié)論五步。首先對收集到的波蘭公司財務(wù)數(shù)據(jù)進行合規(guī)處理,接著基于MLP算法對預(yù)測時間跨度分別為1-5年的五組數(shù)據(jù)集進行了模型分類訓(xùn)練,然后在測試集上橫向?qū)Ρ攘藷o處理、SMOTE、SMOTE-Borderline1算法與BMS算法的效果,縱向?qū)Ρ攘瞬煌瑫r間跨度下分類器的預(yù)測表現(xiàn),并基于卡方檢驗對財務(wù)特征進行了重要程度排序,最后進行總結(jié)。
四、非平衡大數(shù)據(jù)的來源及處理
(一)樣本數(shù)據(jù)
本文的數(shù)據(jù)來源于UCI大學(xué)的Machine Learning Repository,其中包括許多波蘭公司(含破產(chǎn)和未破產(chǎn))的財務(wù)數(shù)據(jù)。這些數(shù)據(jù)收集于EMIS(Emerging Markets Information Service),其中破產(chǎn)公司的分析時間區(qū)間為2000—2012年,非破產(chǎn)公司的分析時間區(qū)間為2007—2013年。根據(jù)收集數(shù)據(jù)的時間點及預(yù)測時間點的跨度將數(shù)據(jù)集分成五類:觀察期第一年的財務(wù)數(shù)據(jù)及五年后該公司的經(jīng)營情況,第二年的財務(wù)數(shù)據(jù)及四年后該公司的經(jīng)營情況,第三年的財務(wù)數(shù)據(jù)及三年后該公司的經(jīng)營情況,第四年的財務(wù)數(shù)據(jù)及兩年后該公司的經(jīng)營情況,第五年的財務(wù)數(shù)據(jù)及一年后該公司的經(jīng)營情況。其中,公司的經(jīng)營情況即為研究的標簽類別:非破產(chǎn)為0,破產(chǎn)為1。
由于該原始數(shù)據(jù)集中存在部分特征及樣本缺失過多、數(shù)據(jù)值大小不符合財務(wù)指標的基本意義等情況,因而在原始數(shù)據(jù)集的基礎(chǔ)上根據(jù)數(shù)據(jù)缺失情況、數(shù)據(jù)展現(xiàn)的基本特征,對部分數(shù)據(jù)進行了一定刪減及模擬生成填充,以期符合財務(wù)規(guī)則及現(xiàn)實意義。經(jīng)過處理后的數(shù)據(jù)集信息見表1。
(二)數(shù)據(jù)特征
由于各行業(yè)、各規(guī)模公司的財務(wù)規(guī)模差別較大,因此采用財務(wù)比率代替一級財務(wù)指標。經(jīng)過篩選后,本數(shù)據(jù)集共有54維特征,詳見表2。
銷售額/固定資產(chǎn)" 注:(1) EBIT:息稅前利潤,為企業(yè)凈利潤、支付的利息費用、支付的所得稅費用之和;(2) EBITDA:息稅折舊及攤銷前利潤,為企業(yè)凈利潤、支付的利息費用、支付的所得稅、折舊及攤銷費之和。
五、建模實驗
(一)模型訓(xùn)練方法
采用的模型為非平衡數(shù)據(jù)處理和多層感知器MLP組成的分類器。其中,非平衡數(shù)據(jù)處理算法包括:SMOTE、SMOTE-Borderline1、BMS三種。將這三種算法分別與MLP組合形成分類器,并代入非破產(chǎn)公司、破產(chǎn)公司的財務(wù)數(shù)據(jù)。對分類器進行訓(xùn)練,利用訓(xùn)練完成之后的模型以及測試集中的公司財務(wù)數(shù)據(jù),對該公司未來X年的運營情況(是否破產(chǎn))進行預(yù)測。該模型可以實現(xiàn)的目標是:
(1)考察基于不同非平衡數(shù)據(jù)處理算法下的分類器效果,證明非平衡數(shù)據(jù)處理算法的有效性。
(2)考察不同時間跨度下(預(yù)測1、2、3、4、5年后公司經(jīng)營情況),分類器預(yù)測效果的差異。
在數(shù)據(jù)集上經(jīng)過SVM、Logistic、Gradient Boosting、Nave Bayes、MLP算法對比后,最終采用多層感知器MLP來進行破產(chǎn)監(jiān)測模型的訓(xùn)練預(yù)測。首先,分別對案例1、2、3、4、5組的數(shù)據(jù)進行Z-Score標準化處理,然后將數(shù)據(jù)集劃分為80%的訓(xùn)練集及20%的測試集。在每組的訓(xùn)練集上分別做SMOTE過采樣、SMOTE-Borderline1、BMS以及不做處理后,構(gòu)造MLP模型并進行訓(xùn)練,將訓(xùn)練好的分類器在測試集上進行驗證。模型的評價指標包括精確率、召回率、準確率、F1-score、AUC、交叉驗證等。
得到模型評估結(jié)果后,對模型表現(xiàn)分別進行橫向?qū)Ρ群涂v向?qū)Ρ?。橫向?qū)Ρ戎饕接憻o處理、SMOTE、 SMOTE-Borderline1和 BMS分別對分類器分類效果的影響;縱向?qū)Ρ戎饕A(yù)測時間點跨度對分類器效果的影響。
最后本文基于卡方檢驗篩選出分類重要度較高的財務(wù)指標,并從公司財務(wù)角度對其進行解釋。
(二)實驗結(jié)果與評估
實驗結(jié)果見表3。
1.橫向?qū)Ρ?/p>
從圖1、圖2、圖3中可以看出,在使用了非平衡數(shù)據(jù)處理算法后,除了案例 4中SMOTE-Boreline1和BMS有略微降低外,分類器預(yù)測表現(xiàn)的F1-score都有顯著的上升,證明SMOTE、SMOTE-Borderline1、BMS算法在處理非平衡數(shù)據(jù)問題上的有效性。同時,傳統(tǒng)的SMOTE與SMOTE-Borderline1算法對MLP分類器性能提升作用較為穩(wěn)定,而基于BMS算法的分類器表現(xiàn)有相對較大幅度的波動。鑒于BMS算法同時應(yīng)用了對少數(shù)類的過采樣與多數(shù)類的欠采樣,即對原始數(shù)據(jù)的處理幅度更大,有可能導(dǎo)致其訓(xùn)練出的模型在未經(jīng)改動的預(yù)測集上表現(xiàn)出較大差異。
2.縱向?qū)Ρ?/p>
由圖4、圖5可以看到隨著預(yù)測時間節(jié)點與觀察時間點跨度的縮小,MLP分類器預(yù)測表現(xiàn)的F1-score、AUC值基本呈上升趨勢,符合現(xiàn)實邏輯:公司的財務(wù)狀況對于越近判斷日期具有越強指導(dǎo)意義,而隨著時間跨度的增長,未來不確定性因素逐漸增加,公司在觀察節(jié)點的財務(wù)數(shù)據(jù)的重要程度逐漸下降,導(dǎo)致模型效率降低。
3.財務(wù)指標研究
對原始數(shù)據(jù)集做Min-Max標準化處理后,基于卡方檢驗篩選出在分類過程中起作用程度較高的財務(wù)指標,并得到這些指標隨預(yù)測時間跨度發(fā)生的變化,如表4所示。在破產(chǎn)分析模型中,重要的財務(wù)指標包括:資產(chǎn)負債率、短期負債/總資產(chǎn)、流動負債/售出產(chǎn)品成本、固定資產(chǎn)比率、所有者權(quán)益比率、(權(quán)益-股本)/總資產(chǎn)、營運資金/總資產(chǎn)、總資產(chǎn)利潤率、毛利潤(三年內(nèi))/總資產(chǎn)、息稅前利潤率、(毛利潤+利息)/總資產(chǎn)等。從統(tǒng)計分析角度,與公司運營狀態(tài)、破產(chǎn)概率相關(guān)度較高的財務(wù)指標為公司短期負債情況、資金結(jié)構(gòu)情況(負債、所有者權(quán)益占比)與經(jīng)營利潤情況。從企業(yè)財務(wù)角度進行解釋,公司破產(chǎn)主要是資不抵債所致,其中短期負債對公司債務(wù)償還的影響比重最大;公司的資金結(jié)構(gòu)決定了債務(wù)規(guī)模大小,利潤水平反映了公司的營收能力,二者均可以直接影響公司債務(wù)償付能力,從而對公司經(jīng)營狀態(tài)及破產(chǎn)概率產(chǎn)生較大影響。此外,資金結(jié)構(gòu)情況更適用于對公司中長期破產(chǎn)概率的預(yù)測,而短期負債情況、營運資金情況則在短期預(yù)測中價值更高,這也與財務(wù)邏輯相符。
六、研究結(jié)論
本文利用MLP法對公司破產(chǎn)評估模型進行了基于不平衡大數(shù)據(jù)量處理方法的橫向研究與基于預(yù)測時間跨度的縱向研究。結(jié)論包括以下三點:
(1)通過與無處理樣本對比,驗證了SMOTE算法、SMOTE-Borderline1算法、基于過采樣與欠采樣的BMS算法在平衡公司破產(chǎn)問題中類別數(shù)據(jù)差異上的有效性?;贐MS算法生成并訓(xùn)練的MLP分類器表現(xiàn)效果差異較大、穩(wěn)定性稍低;
(2)利用模型數(shù)據(jù)驗證了基于MLP算法和公司財務(wù)數(shù)據(jù)搭建的分類器模型在中短期時間跨度上的預(yù)測分類效果更好;
(3)通過卡方檢驗提取出公司短期負債情況、資金結(jié)構(gòu)情況與經(jīng)營利潤情況三項在公司破產(chǎn)監(jiān)測研究中最重要的數(shù)據(jù)特征,并指出其在預(yù)測時間變化時的重要程度變化趨勢。
本文的研究貢獻主要體現(xiàn)為:首先,綜合以往研究發(fā)現(xiàn)基于SMOTE的改進方法提出時間晚,尚未大量應(yīng)用于實踐中證實有效性。本研究建立非平衡大數(shù)據(jù)公司的破產(chǎn)評估模型,在實踐中證明基于SMOTE的改進方法的有效性,為未來學(xué)者在中國情境下運用基于SMOTE的改進方法建立模型提供了參考依據(jù)。其次,實驗采用各種算法組合的分類器較好地訓(xùn)練了測試集中的數(shù)據(jù),為未來研究提供了較好的破產(chǎn)評估模型的分類器組合形式。
不足之處在于在對原始數(shù)據(jù)集進行數(shù)據(jù)處理時,有可能會出現(xiàn)由于刪除、模擬生成及填補數(shù)據(jù)的方式存在不當之處(如空白數(shù)據(jù)超過閾值)而對模型表現(xiàn)及結(jié)論有所影響。此外,在未來的研究中,可以將經(jīng)營戰(zhàn)略、產(chǎn)業(yè)政策、輿論情緒、宏觀經(jīng)濟等指標量化加入模型中,增加模型因子全面性。
參考文獻:
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展, 2013,50(1):146-169.
[2] Ohlson J. Financial ratios and the probabilistic prediction of bankruptcy[J]. Journal of Accounting Research, 1980,18(1):109-131.
[3] Casey C, Bartczak N. Using operating cash flow data to predict financial distress: some extensions[J]. Journal of Accounting Research, 1985,23(1):384.
[4] Tirapat S, Nittayagasetwat A. An investigation of that listed firms’ financial distress using macro and micro variables[J]. Multinational Finance Journal, 1999,3(2):103-125.
[5] Odom" M,Sharda R. A neural network for bankruptcy prediction[C]. Neural Networks,1990 International Joint Conference on Neural Networks on IEEE, 1990,163-168.
[6] Min J H, Lee Y C. Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters[J]. Expert Systems with Applications, 2005,28(4):603-614.
[7] Fang L, Zhu W D, Chen Y W, et al. Evaluation, ranking and selection of Ramp;D projects by multiple experts: an evidential reasoning rule based approach[J]. Scientometrics, 2017,111 (3):1-19.
[8] Halteh K, Kumar K, Gepp A. Financial-distress prediction of Islamic banks using tree-based stochastic techniques[J]. Managerial Finance, Special Issue in the Role of Islamic Finance in Mainstream Finance, 2017,44 (6) :759-773.
[9] Kim S, Lee S M, Roig J M. Predicting hospitality financial distress with ensemble models: the case of US hotels, restaurants, and amusement and recreation[J]. Service Business, 2018,12 (3) :483-503.
[10]Zhu W, Zhang T, Wu Y, et al. Research on optimization of an enterprise financial risk early warning method based on the DS-RF model[J]. International Review of Financial Analysis, 2022,81:102140.
[11]陳曉,陳治鴻.中國上市公司的財務(wù)困境預(yù)測[J].中國會計與財務(wù)研究, 2000,2(3):55-92.
[12]陳燕, 廖冠民. 大股東行為、公司治理與財務(wù)危機[J]. 當代財經(jīng), 2006(5):111-115.
[13]李賀,馮天瑾,丁香乾,等. 企業(yè)財務(wù)預(yù)警PCA-SVM模型研究[J]. 計算機工程, 2006,32(9):233-235,238.
[14]楊淑娥, 黃禮. 基于BP神經(jīng)網(wǎng)絡(luò)的上市公司財務(wù)預(yù)警模型[J]. 系統(tǒng)工程理論與實踐, 2005, 25(1):12-18.
[15]劉飛虎, 羅曉光. 基于PCA-RBF神經(jīng)網(wǎng)絡(luò)的商業(yè)銀行財務(wù)風(fēng)險評價研究[J]. 投資研究, 2013(3):88-97.
[16]肖毅,熊凱倫,張希. 基于TEI@I方法論的企業(yè)財務(wù)風(fēng)險預(yù)警模型研究[J].管理評論, 2020,32(7):226-235.
[17]王言,周紹妮,石凱. 國有企業(yè)并購風(fēng)險預(yù)警及其影響因素研究——基于數(shù)據(jù)挖掘和XGBoost算法的分析[J].大連理工大學(xué)學(xué)報(社會科學(xué)版), 2021,42(3):46-57.
[18]喬冰琴,段全虎,趙丹. 基于MD&A多文本特征的財務(wù)風(fēng)險預(yù)警模型研究[J].會計之友, 2023(5): 16-23.
[19]江乾坤,王成哲. 互聯(lián)網(wǎng)企業(yè)海外并購財務(wù)風(fēng)險大數(shù)據(jù)預(yù)警研究[J].技術(shù)經(jīng)濟, 2023, 42(9): 147-160.
[20]Grobelnik M. Big-data computing: creating revolutionary breakthroughs in commerce, science, and society [R/OL]. 2012-10-02.http://videolectures.net/eswc2012_grobelnik_big_data/.
[21]Dedi’c N, Stanier C. Towards differentiating business intelligence, big data, data analytics and knowledge discovery [J]. In: Proc of Int Conf on Enterprise Resource Planning Systems,2016,285:114-122.
[22]Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002,16(1):321-357.
[23]Han H, Wang W, Mao B. Borderline SMOTE: a new over-sampling method in imbalanced data sets learning[C]. International Conference on Advances in Intelligent Computing. Berlin,2005,878-887.
[24]Zhu T, Lin Y, Liu Y. Synthetic minority oversampling technique for multiclass imbalance problems[J]. Pattern Recognition, 2017,72:327-340.
[25]馮宏偉, 姚博, 高原,等. 基于邊界混合采樣的非均衡數(shù)據(jù)處理算法[J]. 控制與決策, 2017,32(10):1831-1836.
[26]Song J, Huang X, Qin S, et al. A bi-directional sampling based on K-means method for imbalance text classification[C]. The 15th International Conference on Computer and Information Science (ICIS). IEEE, 2016.
[27]Ramentol E, Yailé C, Bello R, et al. SMOTE-RSB: a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using SMOTE and rough sets theory[J]. Knowledge and Information Systems, 2012,33(2):245-265.
[28]Barua S, Islam M M, Yao X, et al. MWMOTE: majority weighted minority oversampling technique for imbalanced data set learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,26(2):405-425.
(責(zé)任編輯:鄒彬)
Research on the Corporate Bankruptcy Evaluation"Model Based on Unbalanced Data
LI" Tianyu1, GAO Huangting2, ZHAI" Yaqi2
(1.Business School, Hubei University, Wuhan, Hubei 430062, China;
(2.Scool of Management, Wuhan University of Technology, Wuhan, Hubei 430070, China)
Abstract:Within the context of big data, this study employs machine learning and data mining techniques to model, train, and validate the financial data of bankrupt and non-bankrupt companies in Poland, including the application of" SMOTE, SMOTE-Borderline1, and BMS, which are algorithms designed to handle imbalanced data within the multi-layer perceptron framework. A horizontal comparison revealed that the SMOTE, SMOTE-Borderline1, and BMS algorithms effectively enhanced the F1-Score, thereby substantiating the efficacy of multilayer perceptron algorithms in addressing imbalanced categorical data within the domain of corporate bankruptcy assessment. A vertical comparison indicated significant differences in the performance of the MLP model and the classifier model based on corporate financial data across various predictive periods. Ultimately, chi-squared tests were utilized to identify key financial indicators, such as short-term liabilities, capital structure, and operating profits, as being of considerable importance.
Key words:machine learning; multi-layer perceptron algorithm; bankruptcy evaluation model; MLP model
基金項目:" 湖北省高等學(xué)校哲學(xué)社會科學(xué)研究重大項目(23ZD179)
作者簡介: 李田雨(1981—),女,湖北襄陽市人,博士,湖北大學(xué)商學(xué)院副教授,研究方向:經(jīng)濟與管理、大數(shù)據(jù)管理與應(yīng)用研究;通信作者:高煌婷(1992—),河南商丘人,武漢理工大學(xué)管理學(xué)院博士研究生,研究方向:企業(yè)社會責(zé)任和企業(yè)可持續(xù)發(fā)展。