亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking-Bagging-Vote多源信息融合模型的財務(wù)預(yù)警應(yīng)用

        2022-02-26 06:58:42劉家鵬田冬梅
        計算機應(yīng)用 2022年1期
        關(guān)鍵詞:財務(wù)融合模型

        張 露,劉家鵬,田冬梅

        (中國計量大學(xué)經(jīng)濟與管理學(xué)院,杭州 310018)

        0 引言

        市場競爭的日益激烈,資本市場的瞬息萬變,使得企業(yè)陷入財務(wù)困境的可能性也在提高。財務(wù)預(yù)警模型在一定程度上能夠使得企業(yè)及時規(guī)避、有效防范財務(wù)風(fēng)險,對投資對象和項目審慎決策,防止企業(yè)陷入財務(wù)困境。而基于大數(shù)據(jù)的海量性、多樣性、高速性和價值性[1],越來越多的學(xué)者嘗試將以機器學(xué)習(xí)為代表的大數(shù)據(jù)人工智能技術(shù)應(yīng)用到財務(wù)預(yù)警領(lǐng)域[2]。隨之出現(xiàn)的財務(wù)預(yù)警樣本的嚴(yán)重不平衡性[3],一定程度上限制了分類器的性能[4]。重采樣技術(shù)[5]被提出應(yīng)用到財務(wù)預(yù)警研究領(lǐng)域,并取得了一定的成果。但是經(jīng)典的不平衡采樣技術(shù)存在一定的缺陷,隨機上采樣[6]通過對小樣本的多次重復(fù)來達(dá)到平衡,容易造成過擬合;隨機下采樣[7]通過刪減大樣本從而達(dá)到樣本平衡,但是對數(shù)據(jù)信息利用不足,預(yù)測存在很高的隨機性;人工合成新樣本的重采樣技術(shù)(Synthetic Minority Over-sampling TEchnique,SMOTE)[8]通過合成新樣本,來使得樣本達(dá)到平衡,但是合成樣本容易造成與原樣本之間的邊界模糊問題。有學(xué)者嘗試將集成學(xué)習(xí)的思想應(yīng)用到重采樣技術(shù)中[9],證實可以有效提高算法性能。

        人工智能技術(shù)快速發(fā)展,性能優(yōu)越的分類器如彈性網(wǎng)(Elastic Net,EN)[10]、隨機森林(Random Forest,RF)[11]和極端梯度提升(eXtreme Gradient Boosting,XGBoost)[12]等在財務(wù)預(yù)警研究中有了一定的應(yīng)用。但基于單分類器的性能提升陷入了一定的瓶頸,因此有學(xué)者將目光投向集成分類器的研究中,目前比較成熟的集成技術(shù)[13]有裝袋法(Bagging)、提升法(Boosting)和堆疊法(Stacking)等[14]。集成技術(shù)對簡單分類器如決策樹等的性能有明顯的提升,隨機森林是基于決策樹的Bagging 集成[15],XGBoost 也是基于樹的Boosting 提升[16]。Stacking 集成方法被應(yīng)用在網(wǎng)頁檢測[17]、網(wǎng)貸違約檢測[18]等領(lǐng)域,可以有效融合不同種類的機器學(xué)習(xí)分類器,從而有效提升預(yù)測準(zhǔn)確率。

        本文的主要工作有:1)通過Up-Down 集成采樣技術(shù)解決隨機上采樣容易發(fā)生過擬合問題與隨機下采樣的信息利用不足的問題,找到了上下采樣之間的平衡點,提高信息利用率的同時防止發(fā)生過擬合問題,從而提高算法性能;2)通過Tomek link 對訓(xùn)練集數(shù)據(jù)進(jìn)行清洗,降低SMOTE 算法在人工合成數(shù)據(jù)時發(fā)生邊界劃分的不清晰,一定程度上提高了財務(wù)預(yù)警的預(yù)測準(zhǔn)確率。3)構(gòu)建SBV(Stacking-Bagging-Vote)多源信息融合模型,綜合多個集成技術(shù),相較于單獨集成方法,多層次多框架的SBV 模型,將數(shù)據(jù)層次與模型層次進(jìn)行交互式融合,進(jìn)一步較為全面地提高了財務(wù)預(yù)警的各項指標(biāo),為不同的利益相關(guān)者提供更為契合的財務(wù)預(yù)警模型。

        1 不平衡數(shù)據(jù)集成采樣算法

        1.1 Up-Down集成采樣算法

        上采樣是指二次采樣中,隨機重復(fù)抽取小樣本,使得樣本均衡的方法。比如訓(xùn)練集中,有80%的數(shù)據(jù)屬于類別I,20%的數(shù)據(jù)屬于類別Ⅱ,該訓(xùn)練集的數(shù)據(jù)存在不平衡現(xiàn)象,上采樣就是將類別Ⅱ數(shù)據(jù)重復(fù)采樣,從而使樣本比例均衡。下采樣與上采樣相反,是通過隨機篩除大樣本,使得大樣本的數(shù)量與小樣本相等。比如上述的訓(xùn)練集,就是將80%的類別I 的數(shù)量降為與20%的類別Ⅱ的數(shù)量相等,因此,訓(xùn)練集一共使用了40%的數(shù)據(jù)。

        由于小樣本的數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于大樣本的數(shù)據(jù),在本文的研究中,小樣本數(shù)據(jù)僅占全體樣本的2.86%,因此若單獨使用上采樣技術(shù),會使小樣本重復(fù)的次數(shù)過高,造成模型產(chǎn)生過擬合現(xiàn)象;而單獨使用下采樣技術(shù),大量的樣本信息將被拋棄而無法被模型所學(xué)習(xí),只能學(xué)習(xí)到不到6%的數(shù)據(jù)集,分類器的學(xué)習(xí)效果并不盡如人意。因此,在本文的研究中,嘗試將上采樣和下采樣算法進(jìn)行集成,具體的過程如圖1所示。

        圖1 Up-Down集成采樣算法的過程Fig.1 Process of Up-Down ensemble sampling algorithm

        在集成Up-Down 過程中,將訓(xùn)練集中的大樣本和小樣本進(jìn)行不同比例的集成,將使用的上采樣比例記為over ratio,代表少數(shù)類樣本進(jìn)行隨機上采樣后,占到的全體訓(xùn)練集樣本的比例。然后對訓(xùn)練集樣本數(shù)據(jù)用10 折的交叉驗證進(jìn)行訓(xùn)練。本文將over ratio 作為控制變量,以5%為間隔,基于數(shù)據(jù)有效性和過擬合的考慮,在初步的實驗中,將over ratio 的取值范圍控制在0%~50%,根據(jù)實驗表現(xiàn)逐步確定所有over ratio 的取值范圍,最終得到的訓(xùn)練集可以在一定程度上有效避免過擬合與欠擬合的發(fā)生。

        1.2 Tomek-Smote采樣算法

        SMOTE 算法屬于上采樣技術(shù),其基本思想是分析少數(shù)類樣本,并根據(jù)少數(shù)類樣本的數(shù)據(jù)特征,人工合成后向數(shù)據(jù)集添加新的樣本。樣本合成方式為對樣本X以歐氏距離為標(biāo)準(zhǔn),計算X到少數(shù)類的樣本集Smin中所有樣本的距離,并得到其k最近鄰。根據(jù)樣本的不平衡比例設(shè)置采樣比以確定采樣率n,對于每個少數(shù)樣本X,從其k個最近鄰隨機選擇幾個樣本,假設(shè)所選的最近鄰為Xn。對于每個隨機選擇的最近鄰Xn,根據(jù)式(1)構(gòu)造新樣本。

        Tomek links 的定義為:假設(shè)樣本點Xa和Xb屬于不同的類別,d(Xa,Xb)表示兩個樣本點之間的距離,如果不存在第三個樣本點Xc使得d(Xc,Xa)<d(Xa,Xb)或者d(Xc,Xb)<d(Xa,Xb)成立,稱(Xa,Xb)為一個Tomek link 對。從定義容易看出,如果兩個樣本點為Tomek link 對,則其中某個樣本為噪聲(偏離正常分布太多)或者兩個樣本都在兩類的邊界上,容易造成誤判。Tomek-Smote 算法的思想是用Tomek links 對訓(xùn)練集數(shù)據(jù)中的正常上市企業(yè)樣本進(jìn)行清洗,篩除位于邊界的樣本對,然后用SMOTE 算法產(chǎn)生基于訓(xùn)練集的人工合成新樣本,進(jìn)行模型構(gòu)建與運行。

        2 SBV多源信息融合模型

        2.1 Stacking框架

        Stacking 算法使用10× 10 折嵌套交叉驗證,對訓(xùn)練集樣本進(jìn)行訓(xùn)練,并將得到的值輸出到下一層,用初級分類器對回測結(jié)果進(jìn)行堆疊。由于Stacking 模型使用初級分類器的預(yù)測值作為第二層的輸入,因此初級分類器和次級分類器學(xué)習(xí)到的數(shù)據(jù)應(yīng)該有所不同,在不能動用測試集數(shù)據(jù)的情況下,本文使用交叉驗證解決了這一問題。

        使用了三個元分類器——彈性網(wǎng)、隨機森林和XGBoost,作為初級分類器,分別使用決策樹(Decision Tree,DT)、邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)作為次級分類器,構(gòu)建Stacking 融合模型,構(gòu)建流程如圖2 所示。

        圖2 Stacking融合框架工作流程Fig.2 Workflow of Stacking fusion framework

        將每家公司的經(jīng)營狀態(tài)設(shè)為Y,為0-1 屬性的類別變量,即正常上市和被特別處理。每家公司的財務(wù)特征指標(biāo)與市場特征指標(biāo)集設(shè)為X,包括營業(yè)狀況指標(biāo)、財務(wù)風(fēng)險指標(biāo)、資產(chǎn)配比、股票價差等。將實驗數(shù)據(jù)分為訓(xùn)練集和測試集,在實驗中,測試集數(shù)據(jù)不進(jìn)行處理變動。

        首先,將訓(xùn)練集樣本特征作為輸入變量,使用集成分類器隨機森林、彈性網(wǎng)和XGBoost,分別產(chǎn)生三個初級分類模型,得到三組的預(yù)測概率Pi(Y=0|X)和Pi(Y=1|X)。通過隨機搜索的方式得到三個初級分類器的最優(yōu)參數(shù),使用10×10 折嵌套交叉驗證,解決Stacking 策略中可能出現(xiàn)的交叉學(xué)習(xí)現(xiàn)象。

        然后用基礎(chǔ)分類器決策樹、Logistic 回歸和SVM 作為次級分類器,將初級分類器進(jìn)行依次堆疊,輸出三組預(yù)測概率,完成模型構(gòu)建。

        最后,用最終輸出的Stacking 策略模型,對測試集數(shù)據(jù)進(jìn)行預(yù)測,并對最終的預(yù)測結(jié)果進(jìn)行對比分析。

        2.2 Bagging-Vote算法

        裝袋(Bagging)是一種集成的元算法,通過對訓(xùn)練集數(shù)據(jù)自行復(fù)制,并獲得匯總的預(yù)測變量,從而生成基礎(chǔ)分類器的多個版本,提高了算法模型的穩(wěn)定性和準(zhǔn)確率,并減少了過擬合的問題。投票裝袋(Bagging-Vote,BV)是本文基于Bagging 基本理論,結(jié)合投票集成思想設(shè)計的算法。

        Bagging-Vote 算法的集成工作流程如圖3 所示。

        圖3 基于Bagging-Vote算法的集成工作流程Fig.3 Ensemble workflow based on Bagging-Vote algorithm

        BV 的步驟可以大致分為5 部分:

        步驟1 從訓(xùn)練集數(shù)據(jù)中創(chuàng)建驗證集樣本。

        步驟2 在每個訓(xùn)練集和驗證集樣本上訓(xùn)練模型。

        步驟3 根據(jù)各算法創(chuàng)建分類模型并保存結(jié)果。

        步驟4 將分類模型對測試數(shù)據(jù)進(jìn)行預(yù)測,并保存預(yù)測結(jié)果。

        步驟5 對訓(xùn)練集數(shù)據(jù)進(jìn)行統(tǒng)計分析對比,加入預(yù)測結(jié)果池,實現(xiàn)數(shù)據(jù)層面與模型層面的交互。

        步驟6 基于模型的性能,對預(yù)測概率進(jìn)行加權(quán)投票,輸出最終預(yù)測結(jié)果。

        用裝袋算法分別對多個元分類器進(jìn)行集成,對得到的分類模型進(jìn)行分別排列組合式投票集成,結(jié)合了多個分類器的最終分類結(jié)果。在此基礎(chǔ)上,將訓(xùn)練集的數(shù)據(jù)特征結(jié)果進(jìn)行統(tǒng)計對比分析,將統(tǒng)計結(jié)果作為預(yù)測值放入投票池中,實現(xiàn)了模型與數(shù)據(jù)層面的交互預(yù)測。最終將得到的模型組進(jìn)行對比分析,選擇預(yù)測準(zhǔn)確率與整體均衡性最高的模型。

        2.3 SBV多源信息融合優(yōu)化

        在Bagging-Vote 算法和Stacking 融合框架的基礎(chǔ)上,結(jié)合不平衡數(shù)據(jù)集成采樣算法,嘗試將Tomek-Smote-Stacking 框架與Up-Down-Bagging-Vote 集成算法相融合,并加入經(jīng)過卡爾曼濾波技術(shù)過濾后的收益率數(shù)據(jù),形成數(shù)據(jù)層面與模型層面的交互式優(yōu)化提升,構(gòu)建SBV 多源信息融合模型,其構(gòu)建流程如圖4 所示。

        圖4 SBV信息融合模型構(gòu)建流程Fig.4 Construction process of SBV information fusion model

        對于SBV 信息融合模型的構(gòu)建流程大致分為如下幾個步驟:

        步驟1 對訓(xùn)練集樣本進(jìn)行Tomek 清洗后用SMOTE 算法人工樣本合成新樣本得到STS,用不同框架下的Stacking 分類器進(jìn)行訓(xùn)練學(xué)習(xí),具體流程如圖2 所示。

        步驟2 對訓(xùn)練集樣本進(jìn)行Up-Down 集成抽樣,得到SUD,用單分類器模型彈性網(wǎng)、隨機森林和XGBoost 對處理過的SUD樣本集進(jìn)行訓(xùn)練學(xué)習(xí),得到若干個單分類器ENi、RFi和XGBi,具體流程如圖3 所示。

        步驟3 用在步驟1 和步驟2 得到的分類器對測試集樣本進(jìn)行預(yù)測,得到對樣本集的預(yù)測概率。

        步驟4 參考卡爾曼濾波方法在β 估計中的應(yīng)用[19],結(jié)合資本資產(chǎn)定價模型,過濾掉樣本集的收益率中大盤的影響,并進(jìn)行分析比較,形成數(shù)據(jù)層次與模型層次的交互式融合。

        步驟5 基于Stacking 融合框架、BV 集成算法與過濾后收益率的直接融合,得到若干個基于不同框架與不同層次的信息融合模型,并將最終的預(yù)測結(jié)果進(jìn)行對比分析,得到合適的模型。

        3 實驗與結(jié)果分析

        3.1 評價準(zhǔn)則

        本文的模型設(shè)計與結(jié)果驗證基于Rstudio 編程實現(xiàn),設(shè)定的分類結(jié)果矩陣如表1,其中TP(True Positive)和TN(True Negative)代表預(yù)測和真實值一致的情況,F(xiàn)P(False Positive)和FN(False Negative)代表預(yù)測值和真實值不一致的情況。

        表1 分類結(jié)果矩陣Tab.1 Matrix of classification results

        本文的正類樣本為財務(wù)預(yù)警企業(yè),負(fù)類樣本為正常上市企業(yè),使用的4 個指標(biāo)公式如下所示。

        召回率(Recall)表示正類樣本被正確分類的完整度,是指分類器對正例樣本分類“能力”的度量,即正確挑選出財務(wù)預(yù)警企業(yè)樣本的概率。

        精確率(Precision)表示正確挑選出正類樣本的概率,用來度量被預(yù)測為財務(wù)預(yù)警企業(yè)的樣本真實值為財務(wù)預(yù)警企業(yè)的概率。

        G-mean 綜合考慮了正類分類和負(fù)類分類的準(zhǔn)確率,表示正例分類準(zhǔn)確率和負(fù)例分類準(zhǔn)確率的均衡值。

        F1 值綜合了準(zhǔn)確率和召回率的結(jié)果,當(dāng)F1 值較高時說明算法分類結(jié)果比較理想。

        3.2 數(shù)據(jù)來源與指標(biāo)設(shè)計

        本文的數(shù)據(jù)來自國泰安數(shù)據(jù)庫,在A 股上市公司中,選取在2019 年由正常上市狀態(tài)轉(zhuǎn)為特殊處理的84 家企業(yè),記為財務(wù)危機樣本;將剩下的正常上市公司,篩除數(shù)據(jù)嚴(yán)重缺失的樣本后,得到2 854 家上市企業(yè),記為財務(wù)正常樣本。選取樣本公司2018 年第一季度到第三季度的財務(wù)指標(biāo)數(shù)據(jù)和股票市場數(shù)據(jù),進(jìn)行分析處理:其中,本文將股票市場的日度數(shù)據(jù)轉(zhuǎn)化為季度數(shù)據(jù),留下數(shù)據(jù)較為齊全且有一定代表性的財務(wù)指標(biāo),篩除數(shù)據(jù)缺失嚴(yán)重的企業(yè)。對剩下的缺失值用RF 算法補齊。將第一季度和第二季度的數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練模型;將第三季度的數(shù)據(jù)作為測試集,來對模型的預(yù)測結(jié)果進(jìn)行評估。本文對訓(xùn)練集數(shù)據(jù)使用不平衡數(shù)據(jù)的集成采樣算法使其平衡,但是測試集數(shù)據(jù)用于模型預(yù)測效果的驗證,故而不進(jìn)行任何處理。

        在財務(wù)預(yù)警模型的構(gòu)建中,將是否發(fā)生財務(wù)預(yù)警記為因變量Y,將財務(wù)指標(biāo)和市場指標(biāo)記為自變量Xi。

        將在2019 年由正常上市公司轉(zhuǎn)變?yōu)楸惶厥馓幚淼钠髽I(yè)記為發(fā)生財務(wù)預(yù)警的因變量Y=1,將在2019 年未存在特殊處理、退市或被證交所警告的正常上市企業(yè)記為因變量Y=0,剔除掉樣本嚴(yán)重缺失的企業(yè)后,得到樣本分布情況如表2 所示。ST 代表被特別處理,財務(wù)狀況異常;ST*代表存在退市風(fēng)險警示。表2 中,將在2019 年當(dāng)年發(fā)生財務(wù)狀況異常、存在退市風(fēng)險警示和發(fā)生退市的企業(yè)記為財務(wù)預(yù)警企業(yè)。如表2 所示,AB 代表企業(yè)在2019 年被證監(jiān)會特別處理,由正常上市狀態(tài)轉(zhuǎn)變?yōu)镾T 企業(yè);AD 代表在該企業(yè)在當(dāng)年由正常企業(yè)轉(zhuǎn)換為ST*企業(yè);AX 代表該企業(yè)由正常上市狀態(tài)轉(zhuǎn)為退市;AA 代表該企業(yè)為正常上市狀態(tài)。

        表2 樣本分布情況Tab.2 Distribution of samples

        本文的解釋變量在財務(wù)指標(biāo)的基礎(chǔ)上,加入股票市場指標(biāo),更契合財務(wù)預(yù)警成因,以提高財務(wù)預(yù)警預(yù)測的準(zhǔn)確性。核心解釋變量體系的構(gòu)建如圖5 所示,包括資本結(jié)構(gòu)指標(biāo)、營運能力指標(biāo)、盈利能力指標(biāo)和股票市場指標(biāo)。資本結(jié)構(gòu)指標(biāo)包括流動比率等的流動資產(chǎn)分布,資產(chǎn)與負(fù)債、權(quán)益分布,現(xiàn)金流的分布和應(yīng)收賬款與收入比的分布;營運能力指標(biāo)包括周轉(zhuǎn)率與存貨收入比等;盈利能力指標(biāo)包括利潤率、成本率與費用率等;股票市場指標(biāo)包括季度回報率、股票流動性指標(biāo)和大盤指標(biāo)離差等。

        圖5 解釋變量體系的構(gòu)建Fig.5 Construction of explanation variable system

        3.3 結(jié)果分析

        3.3.1 基于Stacking和BV模型的財務(wù)預(yù)警預(yù)測

        本節(jié)將Bagging-Vote 信息融合模型與多框架Stacking 融合模型分別應(yīng)用到財務(wù)預(yù)警領(lǐng)域,并依次通過集成Up-Down采樣技術(shù)、SMOTE 采樣技術(shù)與Tomek-Smote 采樣技術(shù)對數(shù)據(jù)樣本進(jìn)行處理,改變樣本的不平衡性,提高模型性能。實驗結(jié)果如表3 所示。

        如表3 所示,集成Up-Down 采樣技術(shù)下的BV-EN、BV-RF和BV-XGBoost 分別代表不同采樣比例與不同參數(shù)下的彈性網(wǎng)、隨機森林和XGBoost 分類器的BV 集成模型;BV-Models代表彈性網(wǎng)、隨機森林和XGBoost 分類器三類分類器同時進(jìn)行BV 集成得到的融合模型;Stacking-DT、Stacking-SVM 和Stacking-LR 分別表示以決策樹、支持向量機與邏輯回歸為次級分類器的Stacking 融合模型。

        表3 基于不同采樣算法的模型預(yù)測結(jié)果Tab.3 Model prediction results based on different sampling algorithms

        通過對比分析研究可以發(fā)現(xiàn):Bagging-Vote 算法與集成Up-Down 采樣技術(shù)的適配性更高。就召回率而言,最高的為Up-Down-Stack-SVM 模型,但此時的G-mean 值明顯偏低,可以最大限度上避免遺漏財務(wù)預(yù)警企業(yè);從總體樣本的預(yù)測準(zhǔn)確率來看,Up-Down-BV-Models 的綜合預(yù)測性能較為均衡,G-mean 值達(dá)到90.44%。

        通過對比分析可知,多層次的BV(Bagging-Vote)融合模型與不同框架下的Stacking 融合模型對分類器都有一定的提升,但是二者各有特點。BV 算法對多個分類器的集成的提升效果在對數(shù)據(jù)進(jìn)行集成Up-Down 采樣的環(huán)境下,有一定的提升,可以相對均衡地提高召回率與精確率,但是提升幅度有 限;Stacking 融合框 架則與SMOTE 和Tomek-Smote 采樣技術(shù)的適配性更高,在犧牲了模型精確率的基礎(chǔ)上,對召回率有明顯的提升。

        基于此,實驗進(jìn)一步考慮將Tomek-Smote-Stacking 框架融合到Up-Down-Bagging-Vote 集成算法中,得到SBV 融合模型。

        3.3.2 基于SBV多源信息融合模型的財務(wù)預(yù)警預(yù)測

        Bagging-Vote 算法的優(yōu)點在于對融合的分類器類型沒有嚴(yán)格的限制,因此實驗考慮進(jìn)行數(shù)據(jù)層次與模型層次的交互式融合,嘗試對模型性能進(jìn)行進(jìn)一步的提升。

        在數(shù)據(jù)層次,公司收益率受大盤短期波動因素的影響,較難很好地對經(jīng)營狀況形成真實的反映?;诖?,通過使用卡爾曼濾波技術(shù)對樣本公司的收益率數(shù)據(jù)進(jìn)行處理,過濾掉公司收益率中受大盤短期波動影響的部分。過濾后的收益率,對公司的真實經(jīng)營狀況具有一定的詮釋性,并加入模型池中,用Bagging 算法與分類模型和Stacking 框架進(jìn)行融合。卡爾曼濾波過濾后的收益率數(shù)據(jù)分布如圖6 所示。

        圖6 卡爾曼濾波過濾后的收益率分布Fig.6 Distribution of return rates after Kalman filtering

        如圖6 所示,財務(wù)預(yù)警企業(yè)的數(shù)量遠(yuǎn)少于正常上市企業(yè),就極值的分布而言,正常上市企業(yè)的收益率分布區(qū)間為[-0.389 0,0.456 2],存在財務(wù)風(fēng)險的企業(yè)的收益率分布區(qū)間為[-0.431 1,0.301 1]。根據(jù)收益率上下限和數(shù)據(jù)分布的數(shù)據(jù)結(jié)構(gòu),進(jìn)行數(shù)據(jù)層面和模型層面的融合分析。

        SBV 多源信息融合模型的構(gòu)建思路參考了BV 模型的排列組合與投票集成的方式,從而得到可以應(yīng)用在不同場景,適合不同對象的,以單框架融合(SBV-S)的、多框架融合(SBV-M)的與多框架多層次融合(SBV-MF)的總計420 個模型。

        單框架融合模型(SBV-S)是以Stacking 單框架融合BV集成的模型;多框架融合模型(SBV-M)是以多個Stacking 框架融合BV 集成的模型;多框架多層次融合模型(SBV-MF)是多個Stacking 框架結(jié)合BV 集成與數(shù)據(jù)層次的交互式融合得到的多層次多框架的融合模型。實驗以召回率(Recall)、精確率(Precision)和G-mean 值度量指標(biāo),對信息融合模型進(jìn)行排序,選取不同框架不同層次融合下的指標(biāo)排名前兩名,共計6 組模型進(jìn)行對比分析。

        如表4 所示,分別以召回率、精確率和G-mean 值作為模型預(yù)測結(jié)果排序的度量指標(biāo)。

        表4 基于不同排序指標(biāo)的預(yù)測結(jié)果Tab.4 Prediction results based on different ranking indexes

        召回率衡量了模型成功預(yù)測出財務(wù)困境企業(yè)的概率,最高達(dá)到97.62%,為多框架多層次的SBV 多源信息融合模型,此時的精確率有較大程度的下降,整體樣本的預(yù)測準(zhǔn)確率大約維持在89%。

        精確率衡量了模型預(yù)測出來的財務(wù)預(yù)警企業(yè)的精準(zhǔn)度,通過表4 可以發(fā)現(xiàn),在以精確率排序的預(yù)測結(jié)果中,SBV-S 的精確率最高,達(dá)到26.92%。將Tomek-Smote-Stacking-LR 融合模型(表3)與SBV-S 進(jìn)行對比,可以發(fā)現(xiàn):兩個模型在召回率相同的情況下,后者的精確率、F1 值和G-mean 都有一定的提升。

        G-mean 衡量了模型預(yù)測性能的綜合能力,均衡地衡量了財務(wù)預(yù)警企業(yè)和正常企業(yè)預(yù)測準(zhǔn)確率。從表4 整體來看,SBV-MF 的G-mean 值相對比較低。SBV-MF 通過加大財務(wù)預(yù)警企業(yè)預(yù)測錯誤的懲罰系數(shù),提高成功挑選出具有財務(wù)風(fēng)險企業(yè)的概率,在一定程度上犧牲了正常企業(yè)的預(yù)測準(zhǔn)確率。

        對表4 進(jìn)行對比分析可以發(fā)現(xiàn),SBV 模型兼具BV 集成和Stacking 模型的優(yōu)點,對于模型的性能在準(zhǔn)確率和精確率上都有較為全面的提升,并且根據(jù)模型的特性,可以為不同需求的利益相關(guān)者提供一定的參考。

        基于Stacking 多框架與多層次的BV 集成得到的模型(SBV-MF),能最大化地幫助投資者挑選出存在風(fēng)險的企業(yè),但與此同時,將財務(wù)正常的企業(yè)誤判為財務(wù)風(fēng)險企業(yè)的概率也較大。利益相關(guān)者可以通過投資需求選擇恰當(dāng)?shù)哪P?,對于風(fēng)險規(guī)避者,可以選擇SBV-MF,有效規(guī)避投資失敗的風(fēng)險;對于風(fēng)險中性者,可以選擇SBV-M,得到較為均衡的預(yù)測結(jié)果;對于追求高風(fēng)險者,可以選擇SBV-S,在一定程度上可以減少將正常企業(yè)誤判為財務(wù)風(fēng)險企業(yè)的成本。

        基于Stacking 單框架的BV 集成得到的模型(SBV-S),能得到較高的精確率和整體樣本的預(yù)測準(zhǔn)確率,能夠較為精確地挑選出財務(wù)預(yù)警企業(yè),從而降低對正常上市企業(yè)的誤判成本??傮w而言,SBV 信息融合模型顯著提升了財務(wù)預(yù)警的預(yù)測準(zhǔn)確率,相較于BV 集成模型和Stacking 融合框架又有了進(jìn)一步的提升,與單分類器相比,提升效果更為顯著,并且利益相關(guān)者可以通過實際需要挑選恰當(dāng)?shù)呢攧?wù)預(yù)警模型。

        4 結(jié)語

        在人工智能財務(wù)預(yù)警研究中,財務(wù)風(fēng)險的企業(yè)數(shù)量要遠(yuǎn)少于正常上市企業(yè),由此產(chǎn)生了嚴(yán)重的樣本不平衡問題。為了解決這一問題,重采樣技術(shù)被應(yīng)用到財務(wù)預(yù)警研究中,然而典型的重采樣技術(shù)存在一定的缺陷,比如隨機上采樣容易產(chǎn)生過擬合問題,隨機下采樣則丟失了大部分的信息,SMOTE 人工合成的新樣本容易產(chǎn)生樣本分類的邊界模糊問題等。此外,現(xiàn)有的研究大多使用基礎(chǔ)分類器對財務(wù)預(yù)警問題進(jìn)行研究,其分類器的提升始終有限。因此,通過對現(xiàn)有研究的梳理與對前沿技術(shù)的深入挖掘,將隨機上采樣與隨機下采樣進(jìn)行結(jié)合,得到集成Up-Down 采樣技術(shù);將Tomek link對應(yīng)用到SMOTE 采樣中,降低人工合成新樣本產(chǎn)生的邊界模糊,得到Tomek-Smote 采樣技術(shù)。集成不平衡采樣技術(shù)有效提升了分類器的性能,一定程度上降低了樣本不平衡對財務(wù)預(yù)警模型預(yù)測效果的影響。

        在指標(biāo)的選擇上,考慮到企業(yè)遭受財務(wù)危機同時受到內(nèi)因和外因的影響,因此在財務(wù)指標(biāo)數(shù)據(jù)的基礎(chǔ)上,加入了市場指標(biāo)數(shù)據(jù),將市場信息納入考慮,使得指標(biāo)體系的構(gòu)建與財務(wù)預(yù)警風(fēng)險的成因更加貼近。在進(jìn)行模型的BV 集成預(yù)測中,加入了使用卡爾曼濾波過濾之后的收益率,過濾了大盤影響之后的企業(yè)個體收益率更為真實,并實現(xiàn)數(shù)據(jù)層次與模型層次的交互,一定程度上提高了模型的預(yù)測準(zhǔn)確率。

        本文的研究還嘗試通過不同層次的Bagging-Vote 集成技術(shù)和不同框架的Stacking 模型來提高現(xiàn)有機器學(xué)習(xí)分類器的預(yù)測準(zhǔn)確率。隨機森林和XGBoost 作為當(dāng)前性能較強的分類器,對其本身進(jìn)行改進(jìn)得到的提升有限,因此,本文通過融合Bagging-Vote 和Stacking 框架構(gòu)建的SBV 多源信息融合模型,顯著提高了預(yù)測準(zhǔn)確率,并且可以根據(jù)利益相關(guān)者的實際需要選擇對應(yīng)的模型。對于市場監(jiān)管者而言,可以選擇精確率較高的模型,減少重點監(jiān)管企業(yè)的數(shù)量,實現(xiàn)高效、準(zhǔn)確的監(jiān)管范圍;對于投資者而言,可以選擇召回率值較高的模型,一定程度上規(guī)避投資失敗的風(fēng)險,并降低投資失敗的成本;對于上市公司自身而言,則可以利用多個模型對自己進(jìn)行預(yù)測判別,及時發(fā)現(xiàn)并防范風(fēng)險;對于債權(quán)人而言,可以通過財務(wù)預(yù)警模型判斷債務(wù)人的財務(wù)境況,降低資金無法回收的風(fēng)險。

        在未來的研究中,可以從以下方面進(jìn)行深入探討:1)對于數(shù)據(jù)的真實性問題,由于上市公司公開的財務(wù)數(shù)據(jù)可能經(jīng)過了一定的修飾與潤色,并不能真實地反映企業(yè)的經(jīng)營發(fā)展?fàn)顩r,在分類器的學(xué)習(xí)過程中,財務(wù)指標(biāo)數(shù)據(jù)的失真問題在一定程度上會影響分類器的判斷。在未來的研究中,將通過文本挖掘技術(shù)等方法,對財務(wù)數(shù)據(jù)的真實性進(jìn)行進(jìn)一步的審核與改進(jìn),使用更為真實的數(shù)據(jù),來構(gòu)建具有更廣泛、更貼合實際應(yīng)用的企業(yè)財務(wù)預(yù)警模型。2)在評估模型性能的指標(biāo)方面,本文使用了較為傳統(tǒng)的統(tǒng)計學(xué)指標(biāo)。然而,基于財務(wù)預(yù)警的特殊性,統(tǒng)計指標(biāo)并不能準(zhǔn)確地衡量模型的性能。因此結(jié)合具體的實際情景,未來的研究中將構(gòu)建更具有經(jīng)濟意義的指標(biāo),從契合財務(wù)預(yù)警研究的角度衡量模型的性能。

        猜你喜歡
        財務(wù)融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        黨建與財務(wù)工作深融合雙提升的思考
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        論事業(yè)單位財務(wù)內(nèi)部控制的實現(xiàn)
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        欲望不控制,財務(wù)不自由
        av免费不卡一区二区| 亚洲日韩一区二区一无码| 午夜国产精品久久久久| 亚洲男人的天堂色偷偷| 国产内射一级一片内射视频| 久久综合九色综合97欧美| 久久精品国产精品青草色艺 | 亚洲精品久久久久中文字幕一福利| 欧美做受视频播放| 91在线无码精品秘 入口九色十| 国产一区二区三区免费av| 日韩国产人妻一区二区三区| 中国丰满熟妇xxxx| 91精品91| 日本午夜理论一区二区在线观看| 日韩网红少妇无码视频香港| 国产精品va在线观看无码| 国产一区亚洲欧美成人| 日本一区二区三区清视频| 亚洲午夜成人精品无码色欲| 国产看黄网站又黄又爽又色| 东京热加勒比日韩精品| 天堂av网手机线上天堂| 久久久av波多野一区二区| 久久青青热| 国产精品三级国产精品高| 国产女人精品视频国产灰线| 人妻少妇av中文字幕乱码| 欧美日韩中文字幕日韩欧美| 亚州av高清不卡一区二区| 不卡一卡二卡三乱码免费网站| 亚洲AV无码一区二区三区日日强 | 疯狂做受xxxx国产| 五十路熟女一区二区三区| 一区二区高清视频在线观看| 国产亚洲精品97在线视频一| 日韩少妇内射免费播放| 国产目拍亚洲精品一区二区| 丝袜美腿精品福利在线视频| 亚洲一区二区三区四区五区六| 欧美高清国产在线播放|