亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的上市公司財務(wù)風(fēng)險預(yù)警研究

        2022-03-02 08:32:10梁龍躍
        計算機(jī)工程與應(yīng)用 2022年4期
        關(guān)鍵詞:財務(wù)指標(biāo)特征提取預(yù)警

        梁龍躍,劉 波

        1.貴州大學(xué) 經(jīng)濟(jì)學(xué)院,貴陽550000

        2.貴州大學(xué) 馬克思主義經(jīng)濟(jì)學(xué)發(fā)展與應(yīng)用研究中心,貴陽550000

        隨著經(jīng)濟(jì)全球化的發(fā)展,上市公司在實際運(yùn)營中的競爭日益激烈,企業(yè)為了開辟新的利潤空間,選擇了多元化的投資經(jīng)營方式,這在一定程度上促進(jìn)了企業(yè)的持續(xù)發(fā)展。但在此過程中,一些公司缺乏財務(wù)風(fēng)險的意識,使得發(fā)生財務(wù)危機(jī)的可能性增加。對于公司管理層來說,一旦公司發(fā)生財務(wù)危機(jī),就會面臨無法償還債務(wù)、使得公司陷入破產(chǎn)的風(fēng)險。對于投資者來說,公司發(fā)生財務(wù)危機(jī)會帶來巨大的投資風(fēng)險。因此,能夠正確預(yù)測公司是否發(fā)生財務(wù)危機(jī)對于公司管理層和投資者來說具有重要的意義。一方面,公司管理層可以借此改變經(jīng)營策略,防止公司陷入財務(wù)危機(jī)。另一方面,投資者可以了解企業(yè)的生存能力,及時規(guī)避投資風(fēng)險。此外,正確預(yù)測企業(yè)財務(wù)危機(jī),也有助于政府管理部門及時防范證券市場風(fēng)險。

        國內(nèi)外學(xué)者先后使用不同的財務(wù)指標(biāo),針對不同的行業(yè)建立了不同的財務(wù)風(fēng)險預(yù)警模型,但傳統(tǒng)的預(yù)警模型通?;谏鲜泄镜呢攧?wù)指標(biāo)數(shù)據(jù),而沒有考慮財務(wù)文本與財經(jīng)新聞等非結(jié)構(gòu)化的文本數(shù)據(jù),這些文本數(shù)據(jù)包含了大量的定性信息。Tennyson等[1]指出了財務(wù)文本信息對公司破產(chǎn)預(yù)測的重要作用,如上市公司年報中“經(jīng)營情況討論與分析”和“審計報告”章節(jié)的部分文本內(nèi)容確實可以為公司財務(wù)風(fēng)險預(yù)測提供增量信息[2-3]?!敖?jīng)營情況討論與分析”一節(jié)對公司過去一年的經(jīng)營情況做了一個總結(jié)性的陳述,同時對公司未來的發(fā)展做出了規(guī)劃,而“審計報告”內(nèi)容能夠為政府和投資者了解企業(yè)真實的財務(wù)狀況和經(jīng)營成果提供依據(jù),但是如何從中抽取有助于財務(wù)風(fēng)險預(yù)測的信息向來是一個富有挑戰(zhàn)性的難題。文本挖掘技術(shù)的發(fā)展,為分析文本信息提供了新的技術(shù)和方法??梢酝ㄟ^文本挖掘技術(shù)對文本數(shù)據(jù)中的定性信息進(jìn)行量化分析,并將其轉(zhuǎn)化為財務(wù)風(fēng)險預(yù)警模型可以識別的文本特征,用于財務(wù)風(fēng)險預(yù)測,提高模型的預(yù)測能力。

        基于此,本文提出一種基于BERT(bidirectional encoder representations from transformer)與自編碼器(autoencoder,AE)的文本特征提取融合模型,實現(xiàn)對上市公司年報中“經(jīng)營情況討論與分析”和“審計報告”章節(jié)文本特征的提取,并將此文本特征用于財務(wù)風(fēng)險的預(yù)測,擴(kuò)展了文本特征在財務(wù)風(fēng)險預(yù)測這一領(lǐng)域的研究。此外,本文研究結(jié)果表明,加入上市公司年報的文本特征后,財務(wù)風(fēng)險預(yù)警模型的預(yù)測精度得到顯著提升,表明BERT-AE融合模型能夠提取出對財務(wù)預(yù)警有用的文本特征,在今后的研究中,可將其應(yīng)用于其他領(lǐng)域的文本特征提取。

        1 文獻(xiàn)綜述

        1.1 基于財務(wù)指標(biāo)的研究

        上市公司財務(wù)風(fēng)險預(yù)測一直以來備受業(yè)界關(guān)注,大多數(shù)學(xué)者都是基于財務(wù)指標(biāo)數(shù)據(jù)對其進(jìn)行研究。Altman[4]運(yùn)用多元統(tǒng)計分析中的差異分析方法,選取5個財務(wù)指標(biāo)構(gòu)建Zeta 模型對財務(wù)風(fēng)險進(jìn)行預(yù)測。但建立Zeta 模型有一個假設(shè)前提,即樣本財務(wù)指標(biāo)數(shù)據(jù)要呈正態(tài)分布,這與現(xiàn)實不相符合。Ohlson[5]以6 項財務(wù)指標(biāo)為控制變量,建立了Logistic模型,其克服了Zeta模型的前提性缺陷并取得更好的預(yù)測效果,一度成為財務(wù)風(fēng)險預(yù)測的主流模型。

        隨著機(jī)器學(xué)習(xí)的發(fā)展與應(yīng)用,神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine,SVM)、決策樹等方法也被用來分析財務(wù)指標(biāo)對財務(wù)風(fēng)險預(yù)測的影響。較早的研究中,有學(xué)者使用不同的財務(wù)指標(biāo),以基于人工神經(jīng)網(wǎng)絡(luò)方法建立了財務(wù)風(fēng)險預(yù)警模型,提高了財務(wù)風(fēng)險預(yù)測的準(zhǔn)確性[6-7]。最近3 年的研究中,方匡南等[8]選取90 個財務(wù)指標(biāo)構(gòu)建SGL-SVM 組合財務(wù)預(yù)警模型,同傳統(tǒng)的Logistic模型相比較,該模型擁有更優(yōu)的預(yù)測性能。宋歌等[9]以2007—2016年A股上市公司財務(wù)數(shù)據(jù)為研究樣本,選取25個財務(wù)指標(biāo)并使用深度學(xué)習(xí)模型建立上市公司違約預(yù)警系統(tǒng),模型預(yù)測精度可以達(dá)到72%以上。Wang等[10]選取6 個財務(wù)指標(biāo),使用C50、CART 和隨機(jī)森林3 種決策樹模型建立財務(wù)危機(jī)預(yù)警系統(tǒng),發(fā)現(xiàn)3個模型中隨機(jī)森林模型擁有良好的分類和預(yù)測能力。以上學(xué)者通過構(gòu)建不同的財務(wù)預(yù)警模型對上市公司財務(wù)風(fēng)險進(jìn)行預(yù)測,使得財務(wù)風(fēng)險預(yù)測領(lǐng)域的研究不斷取得突破,但研究都是以公司披露的財務(wù)指標(biāo)數(shù)據(jù)為基礎(chǔ),忽略了公司披露的財務(wù)文本信息。

        1.2 文本信息在財務(wù)風(fēng)險預(yù)警中的應(yīng)用

        財務(wù)文本信息作為公司信息披露的一部分,是對公司當(dāng)前經(jīng)營狀況以及未來發(fā)展前景的詳細(xì)說明,可以為預(yù)測公司財務(wù)風(fēng)險提供增量信息[11]。通常使用文本挖掘技術(shù)對財務(wù)文本信息進(jìn)行分析[12],通過文本挖掘技術(shù)提取相應(yīng)的財務(wù)文本特征,用以預(yù)測公司未來財務(wù)狀況。現(xiàn)有研究主要從基于規(guī)則的統(tǒng)計方法和深度學(xué)習(xí)方法實現(xiàn)對財務(wù)文本特征的提取。

        從基于規(guī)則的統(tǒng)計方法來看,國內(nèi)外學(xué)者主要通過構(gòu)建詞典、提取特定短語、詞頻統(tǒng)計的方法對財務(wù)文本進(jìn)行處理。Hájek等[13]將公司年報中的文本與Hájek等[14]開發(fā)的金融字典進(jìn)行比較,根據(jù)語義情緒對單詞進(jìn)行分類,并計算出單詞類別的平均權(quán)重構(gòu)建文本情緒指標(biāo),用以進(jìn)行財務(wù)困境的預(yù)測。謝德仁等[15]參照Henry[16]、Loughran等[17]所使用的單詞列表,從所有詞語中手工選出正面和負(fù)面的情感詞語,構(gòu)建上市公司業(yè)績說明會管理層語調(diào),發(fā)現(xiàn)管理層語調(diào)能夠提供關(guān)于公司未來業(yè)績的增量信息。以上構(gòu)建文本指標(biāo)的方法均需要手工挑選情緒詞,難以適用于對大樣本的分析。陳藝云等[18]采用卡方檢驗的方法提取反映財務(wù)困境公司和正常公司的文本特征詞構(gòu)建違約傾向指標(biāo),并將此指標(biāo)加入財務(wù)變量中,提升財務(wù)預(yù)警模型預(yù)測精度。但使用卡方檢驗提取特征詞會產(chǎn)生低頻詞缺陷問題。

        隨著文本挖掘技術(shù)的不斷突破以及公司財務(wù)風(fēng)險預(yù)警研究領(lǐng)域的深入,有學(xué)者使用深度學(xué)習(xí)模型提取財務(wù)文本語義信息,并將其與財務(wù)指標(biāo)數(shù)據(jù)結(jié)合起來用于財務(wù)風(fēng)險預(yù)測,以提高模型預(yù)測精度。Matin 等[3]運(yùn)用CNN 和基于注意力機(jī)制的RNN(recurrent neural networks)模型提取審計報告與管理層聲明的文本特征,發(fā)現(xiàn)加入文本特征后的財務(wù)風(fēng)險預(yù)警模型取得更優(yōu)的效果。Matin等使用了CNN-RNN模型對文本特征進(jìn)行提取,但CNN-RNN 模型在特征提取時存在一些問題。RNN 從輸入文本的不同位置學(xué)到的同一特征無法共享,且其在進(jìn)行反向傳播時因為傳播路徑過長容易導(dǎo)致梯度消失或者梯度爆炸。CNN的單層卷積核無法捕獲長距離特征,且池化層無法捕獲單詞的位置信息。這些問題均會使得文本信息丟失。此外,Matin 等的研究沒有考慮提取的文本特征維度大小問題,若提取的文本特征維度較高,則不易區(qū)分文本特征間的信息,同時在進(jìn)行財務(wù)風(fēng)險預(yù)測時會出現(xiàn)模型擬合速度慢、容易過擬合等問題。針對這些問題,提出了一種BERT-AE融合文本特征提取模型。

        BERT模型[19]基于Transformer[20]結(jié)構(gòu)構(gòu)造了一個多層雙向的Encoder 網(wǎng)絡(luò),Encoder 層中的參數(shù)量相較于CNN 和RNN 模型較少,優(yōu)化了模型過擬合問題。多層雙向的Encoder網(wǎng)絡(luò)使得BERT模型擁有了獲取當(dāng)前詞上下文的信息、語義語法信息的能力,解決了CNN 和ANN只能捕獲單一近鄰文本語句關(guān)系的問題。自編碼器(AE)[21]是一種無監(jiān)督式學(xué)習(xí)模型,其泛化能力較強(qiáng),不僅可以解決存在線性關(guān)系的數(shù)據(jù)降維問題,也可以解決存在非線性關(guān)系的數(shù)據(jù)降維問題,它能充分利用高維特征信息的同時解決高維特征所引入的“維數(shù)災(zāi)難”問題[22]。BERT后接AE組成的BERT-AE融合模型不僅能提取出更為豐富的財務(wù)文本特征信息,還能在充分保留文本特征的同時將高維的文本特征降至低維,使得文本特征更容易區(qū)分,提高了模型的泛化能力。該模型提取的財務(wù)文本特征與Word2Vec-CNN-AE、Word2Vec-LSTM-AE 提取的財務(wù)文本特征相比較,結(jié)果表明,BERT-AE模型提取的財務(wù)文本特征使財務(wù)預(yù)警模型預(yù)測的AUC值的提升效果優(yōu)于對比模型。

        2 研究設(shè)計

        財務(wù)風(fēng)險預(yù)測能夠有效地降低風(fēng)險和損失,國內(nèi)外學(xué)者先后使用不同的財務(wù)指標(biāo)、不同的模型進(jìn)行預(yù)測,并通過對模型不斷優(yōu)化,獲得了更好的預(yù)測效果。但是,有關(guān)此問題的研究仍然需要進(jìn)一步的深入,例如獲取有效的財務(wù)文本特征用于財務(wù)風(fēng)險的預(yù)測。對此,本文使用文本挖掘技術(shù)提取財務(wù)文本特征,并將此特征用于財務(wù)風(fēng)險預(yù)測。研究設(shè)計包含四部分:(1)數(shù)據(jù)獲??;(2)文本特征提取;(3)財務(wù)預(yù)警模型構(gòu)建;(4)對比實驗。在數(shù)據(jù)獲取中,本文將收集財務(wù)指標(biāo)數(shù)據(jù)和文本數(shù)據(jù),并對財務(wù)指標(biāo)數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)處理。在文本特征提取中,構(gòu)建BERT-AE 融合模型提取財務(wù)文本特征作為財務(wù)指標(biāo)數(shù)據(jù)的補(bǔ)充。在財務(wù)預(yù)警模型的構(gòu)建中,以Logistic 回歸、XGBoost、ANN、CNN 模型為基礎(chǔ),在財務(wù)指標(biāo)中加入文本特征指標(biāo),比較加入文本特征前后模型的擬合效果。在對比實驗中,分別使用Word2Vec-CNN-AE和Word2Vec-LSTM-AE提取財務(wù)文本特征,然后將其加入財務(wù)指標(biāo)中,比較加入文本特征前后財務(wù)預(yù)警模型的擬合效果。

        2.1 數(shù)據(jù)獲取和預(yù)處理

        2.1.1 財務(wù)指標(biāo)數(shù)據(jù)獲取和預(yù)處理

        目前國內(nèi)對企業(yè)財務(wù)危機(jī)沒有客觀全面的判別標(biāo)準(zhǔn),本文參照國內(nèi)學(xué)者一般做法,將兩個會計年度財務(wù)狀況出現(xiàn)異常而被特別處理(ST)作為公司陷入財務(wù)困境的標(biāo)志。同時,為了處理數(shù)據(jù)不平衡對實證結(jié)果穩(wěn)健性的影響問題,以1∶2 的方式對ST 公司與非ST 公司進(jìn)行配對,并且進(jìn)行配對的每組3個公司都處于同一行業(yè)或相似行業(yè)。我國上市公司t年的年度報會在t+1 年公布,因此上市公司在t+1 年是否被特別處理與其在t年年報公布是同時發(fā)生的。此時,若使用公司被ST 前一年的數(shù)據(jù)來預(yù)測當(dāng)年該公司是否會發(fā)生財務(wù)危機(jī)會夸大模型的預(yù)測精度,因此將公司發(fā)生危機(jī)前兩年的數(shù)據(jù)作為預(yù)測模型的輸入數(shù)據(jù)。按上述原則,本文選取了2019—2020年新增的177家被ST公司和354家非ST公司作為研究對象,并收集其在2017—2018 年的財務(wù)指標(biāo)數(shù)據(jù)作為實證分析數(shù)據(jù),所有財務(wù)指標(biāo)數(shù)據(jù)均來自國泰安數(shù)據(jù)庫。

        在文獻(xiàn)[3,23-24]基礎(chǔ)上,本文構(gòu)建了5個一級財務(wù)指標(biāo),分別是償債能力指標(biāo)、盈利能力指標(biāo)、經(jīng)營能力指標(biāo)、發(fā)展能力指標(biāo)、現(xiàn)金流量指標(biāo)。在一級指標(biāo)之下提供了25個財務(wù)指標(biāo)。具體指標(biāo)見表1所示。

        表1 財務(wù)指標(biāo)表Table 1 Financial index

        由于各公司披露的財務(wù)指標(biāo)不一致,造成有些公司的財務(wù)指標(biāo)存在缺失值。對于部分缺失值,本文采取了均值插補(bǔ)法對缺失值做補(bǔ)值處理。針對財務(wù)指標(biāo)缺失比較嚴(yán)重的樣本,本文樣本缺失閾值為30%,當(dāng)一個樣本缺失值超過閾值時,就刪除這個樣本。統(tǒng)計結(jié)果表明樣本數(shù)據(jù)中沒有缺失值超過30%的樣本,故本文對所有含有缺失值的樣本做補(bǔ)值處理。

        2.1.2 財務(wù)文本數(shù)據(jù)的獲取

        本文從東方財富網(wǎng)上獲取2017年至2018年相對應(yīng)的531家上市公司年報,使用正則表達(dá)式提取出年報中“經(jīng)營情況討論與分析”與“審計報告”這兩章節(jié)的文本內(nèi)容進(jìn)行分析。提取出的財務(wù)文本數(shù)據(jù)為每家上市公司年報中“經(jīng)營情況討論與分析”和“審計報告”兩個章節(jié)中各一條文本信息。其中,提取了“經(jīng)營情況討論與分析”章節(jié)中“概述”一節(jié)的內(nèi)容,而“審計報告”的內(nèi)容則全部提取,共包含了531條“經(jīng)營情況討論與分析”的文本數(shù)據(jù)和531條“審計報告”的文本數(shù)據(jù)。

        2.2 文本特征提取

        2.2.1 文本特征提取模型的構(gòu)建

        (1)基于BERT-AE的文本特征提取模型

        基于BERT-AE 的文本特征提取模型如圖1 所示。首先通過BERT 模型提取出財務(wù)文本特征,再引入AE神經(jīng)網(wǎng)絡(luò)對此文本特征進(jìn)行降維。該模型在有效提取出財務(wù)文本特征的前提下,解決了文本特征維度較高問題。下面分別對文本特征提取模型中兩項關(guān)鍵技術(shù)(BERT和AE)進(jìn)行詳細(xì)的闡述。

        圖1 BERT-AE文本特征提取模型Fig.1 BERT-AE text feature extraction model

        (2)BERT模型

        BERT 模型采用了雙向Transformer 的Encoder 結(jié)構(gòu),并舍棄了Decoder 模塊,但模型結(jié)構(gòu)比Transformer更深,這樣便自動擁有了雙向編碼能力和強(qiáng)大的特征提取能力。其結(jié)構(gòu)如圖2所示。

        圖2 BERT模型結(jié)構(gòu)Fig.2 BERT model structure

        BERT一大優(yōu)點就是它是一個泛化能力較強(qiáng)的預(yù)訓(xùn)練模型。其訓(xùn)練主要由兩個階段構(gòu)成:第一階段為預(yù)訓(xùn)練階段,第二階段為Fine-tuning階段。預(yù)訓(xùn)練階段是在大型數(shù)據(jù)集上根據(jù)一些預(yù)訓(xùn)練任務(wù)訓(xùn)練得到。Fine-tuning階段是利用預(yù)訓(xùn)練好的語言模型,處理具體的下游文本任務(wù),包括命名實體識別、文本分類等。BERT的第一個預(yù)訓(xùn)練任務(wù)是Masked LM,其主要目的是讓模型更為全面地根據(jù)全文理解單詞的意思。BERT的第二個預(yù)訓(xùn)練任務(wù)是NSP(next sentence prediction),其主要目的是讓模型能夠更好地理解句子間的關(guān)系。本研究關(guān)注的是利用預(yù)訓(xùn)練階段的BERT 模型進(jìn)行中文文本特征提取任務(wù)。在Vaswani 等[20]的論文中,研究者訓(xùn)練了兩個BERT模型,分別是BERTbase與BERTlarget,二者的區(qū)別在于參數(shù)量的不同,BERT 發(fā)展至今已經(jīng)增加了多個模型,本文使用了其中的中文預(yù)訓(xùn)練模型,這也是唯一一個非英語的模型。

        (3)自編碼器

        自編碼器(AE)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3 所示,它由輸入層、隱藏層和輸出層組成,主要包括了編碼(Encoder)和解碼(Decoder)兩部分。自編碼器試圖學(xué)習(xí)隱藏層中輸入數(shù)據(jù)的某種表示形式以重構(gòu)輸出層中的輸入,因此它的輸出與輸入基本相同,是一種盡可能重現(xiàn)輸入信號的神經(jīng)網(wǎng)絡(luò)。此外,自編碼器不需要用于學(xué)習(xí)特征的標(biāo)簽,以無監(jiān)督的方式廣泛用于特征提取,并且自編碼器可以通過編碼操作將高維度的輸入數(shù)據(jù)映射到低維度的特征編碼,達(dá)到降低數(shù)據(jù)維度的目的。

        圖3 自編碼器結(jié)構(gòu)Fig.3 AutoEncoder structure

        如圖3 所示,從輸入層到隱藏層對應(yīng)著編碼功能,它將輸入x映射到潛在表示空間h,其形式為:

        其中,f是非線性激活函數(shù),通常是Relu,W和b分別為編碼器的權(quán)重和偏置。

        其中,g是解碼器的激活函數(shù),W′是權(quán)重矩陣,b′是偏置矢量。

        為了使解碼重構(gòu)后的與輸入x一致,相應(yīng)的損失函數(shù)為:

        2.2.2 BERT-AE模型提取文本特征

        本文財務(wù)文本特征提取步驟包括以下四部分,如圖4所示。

        圖4 BERT-AE文本特征提取流程Fig.4 BERT-AE text feature extraction process

        (1)刪除字母、數(shù)字、漢字以外的所有符號。

        (2)利用jieba庫對文本進(jìn)行分詞,然后使用詞頻-逆文檔頻度(term frequency-inverse document frequency,TF-IDF)算法提取反映公司經(jīng)營情況的關(guān)鍵詞。因為BERT 的最大輸入的編碼向量長度為512,分詞以后的詞語較多,所以提取關(guān)鍵詞的長度應(yīng)控制在512范圍內(nèi)。

        (3)使用中文預(yù)訓(xùn)練BERT模型將提取過后的所有文本信息進(jìn)行編碼,將得到的句子編碼和位置編碼一起作為特征輸入到BERT的雙向Transformer中,最終得到字向量序列S。將Si(Si是S中第i個向量輸出表示)作為全連接層的輸入,對文本信息進(jìn)行提取,最終得到一個多維文本特征。

        (4)為了解決上文提到的文本特征維度過高會引發(fā)的問題,本文使用自編碼器(AE)對文本特征進(jìn)行降維得到最終特征。

        關(guān)鍵詞提取就是從財務(wù)文本里面把跟這篇文本意義最相關(guān)的一些詞抽取出來,提取出這篇文本的關(guān)鍵詞,就可以大致了解文本要表達(dá)的意思。在步驟(2)中,本文使用基于統(tǒng)計的關(guān)鍵詞提取方法中最常用的詞頻-逆文檔頻率(TF-IDF)算法對關(guān)鍵詞進(jìn)行提取,TF-IDF算法可以評估某個詞語對于一個語料庫中的某一段文本的重要程度。其中,詞頻(TF)表示某個詞在給定文本中出現(xiàn)的頻率,其表達(dá)式為:

        其中,Mp,q為詞p在文檔q中出現(xiàn)的次數(shù),Mq為文檔q的總詞數(shù)。某個詞的TF值越大,說明這個詞在文檔中出現(xiàn)的次數(shù)越多。但并不是一個詞出現(xiàn)次數(shù)越多越重要,有一些詞在所有文本中出現(xiàn)的頻率很高,如停用詞,這類詞對某一文本的代表性很差,對于此,引入逆文檔頻率(IDF)對每個詞分配一個“重要性”權(quán)重,IDF 表達(dá)式為:

        其中,N為所有的文檔總數(shù)表示包含某個關(guān)鍵詞的文檔個數(shù)。

        將TF 和IDF 綜合考慮后,便可得到某一個詞在某個文檔中的表征性,TF-IDF定義如下:

        TF-IDF算法兼顧詞頻與新鮮度,過濾一些常見詞,保留能提供更多關(guān)于公司經(jīng)營情況的重要詞。本文參照Fan等[25]的做法,對提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計,以驗證提取出的關(guān)鍵詞能夠反映公司的經(jīng)營情況。圖5 中(a)和(b)分別為提取的被ST公司和正常經(jīng)營公司的詞云統(tǒng)計圖,每個詞語在圖中的字體大小與它在模型中出現(xiàn)的頻率成正比。表2為提取的被ST公司和正常經(jīng)營公司的出現(xiàn)頻率排名前10的關(guān)鍵詞。

        表2 出現(xiàn)頻率排名前10關(guān)鍵詞Table 2 Top 10 keywords in terms of occurrence frequency

        圖5 關(guān)鍵詞詞云Fig.5 Keyword WordCloud

        從圖5及表2可以看出,在被ST公司文本數(shù)據(jù)提取出的頻率排名前10 的關(guān)鍵詞中,出現(xiàn)了虧損、減少、下降等能反映公司出現(xiàn)問題的詞語,而正常經(jīng)營的公司則出現(xiàn)了實現(xiàn)、增長、提升等能反映公司狀況良好的關(guān)鍵詞,這些關(guān)鍵詞能在一定程度上反映公司的經(jīng)營情況。

        在步驟(3)、(4)中,文本特征維度的選取對實驗效果至關(guān)重要。首先,本文使用BERT提取不同維度的文本特征,再通過自編碼器將不同維度的特征進(jìn)行降維,同樣的,降維時也選取了幾個不同維度,兩個步驟設(shè)置的文本特征維度如下:D1∈{32,64,128,256},D2∈{1,3,5,7}。經(jīng)過多次實驗比較,最終將D1設(shè)置為64,D2設(shè)置為1。

        進(jìn)行上述4個步驟的操作后,便可將財務(wù)文本數(shù)據(jù)轉(zhuǎn)化為富含語義的財務(wù)文本特征。以第一條文本為例,第一條文本為一家被ST 公司的財務(wù)文本數(shù)據(jù),提取了“調(diào)整”“虧損”“利潤”“下降”等能夠反映公司經(jīng)營情況的關(guān)鍵詞后,經(jīng)過BERT-AE 模型便能提取出代表其語義的文本特征數(shù)據(jù)。提取出的文本特征數(shù)據(jù)結(jié)構(gòu)如圖6所示,提取的第一條財務(wù)文本特征數(shù)值為0.678 4。所有文本特征數(shù)據(jù)的取值在-1和1之間。

        圖6 文本特征數(shù)據(jù)結(jié)構(gòu)示例圖Fig.6 Example of text feature data structure

        2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

        將提取出的財務(wù)文本數(shù)據(jù)與財務(wù)指標(biāo)相結(jié)合后,為更好了解特征變量分布情況,對特征變量進(jìn)行描述性統(tǒng)計分析,如表3所示。

        表3 特征變量描述性統(tǒng)計分析Table 3 Descriptive statistical analysis of characteristic variables

        從表3 中可以看出,利息保障倍數(shù)、應(yīng)收賬款周轉(zhuǎn)率、存貨周轉(zhuǎn)率、股東權(quán)益周轉(zhuǎn)率、凈利潤增長率、凈利潤現(xiàn)金凈含量、現(xiàn)金適合比率、營業(yè)利潤現(xiàn)金凈含量等指標(biāo)數(shù)據(jù)差值較大,為了提高模型擬合速度和擬合精度需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。Z-score標(biāo)準(zhǔn)化可以將不同量級的數(shù)據(jù)統(tǒng)一化為同一個量級,使數(shù)據(jù)的均值為0,方差為1,保證了數(shù)據(jù)間的可比性,其計算公式如下。

        其中,z值代表原始數(shù)據(jù)與原始數(shù)據(jù)平均值之間的距離,x為某一具體原始數(shù)據(jù),μ為原始數(shù)據(jù)的均值,σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

        2.4 財務(wù)預(yù)警模型構(gòu)建

        本文首先基于財務(wù)數(shù)據(jù)指標(biāo)構(gòu)建了Logistic 回歸、XGBoost、人工神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)四個財務(wù)預(yù)警模型。然后分別將BERT-AE融合模型提取出的兩個文本段特征以及兩個文本段特征一起加入財務(wù)指標(biāo)中,作為財務(wù)風(fēng)險預(yù)測模型的輸入數(shù)據(jù)。下面分別對財務(wù)風(fēng)險預(yù)警模型進(jìn)行介紹。

        2.4.1 Logistic回歸模型

        Logistic 回歸以線性回歸作為理論支持,它可以將回歸的結(jié)果通過sigmoid 函數(shù)映射到0 和1 之間,因為Logistic回歸具有容易實現(xiàn)、訓(xùn)練高效的特點,被廣泛運(yùn)用于兩類分類任務(wù)中,其模型為:

        其中,pxi表示事件發(fā)生的概率,Xi表示解釋變量。

        2.4.2 XGBoost

        XGBoost是一種基于梯度提升樹的集成算法,它通過在數(shù)據(jù)上引入正則化損失函數(shù)構(gòu)建若干個弱評估器,并把這些準(zhǔn)確率較低的弱分類器整合為一個準(zhǔn)確率較高的強(qiáng)分類器,不僅降低了模型過擬合的風(fēng)險,還使得其分類表現(xiàn)比單個模型更好。由于XGBoost 使用了預(yù)排序、加權(quán)分位數(shù)、稀疏矩陣識別以及緩存識別等技術(shù),故其擁有可以并行運(yùn)算、算法的復(fù)雜度可控、泛化能力強(qiáng)的優(yōu)點,其目標(biāo)函數(shù)如下所示:

        其中,l代表損失函數(shù),yi表示第i個樣本xi的真實值,表示第i個樣本xi的預(yù)測值,fk表示第k棵樹的預(yù)測函數(shù)。

        2.4.3 ANN

        人工神經(jīng)網(wǎng)絡(luò)(ANN)是由大量神經(jīng)元組成的信息響應(yīng)網(wǎng)絡(luò)拓?fù)?,通常一個神經(jīng)網(wǎng)絡(luò)由一個輸入層、多個隱藏層和一個輸出層構(gòu)成,如圖7所示。

        圖7 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Artificial neural network structure

        Ji表示ANN神經(jīng)元的輸出,其計算過程可表示為:

        其中,wi表示第i個神經(jīng)元的權(quán)重,xi表示第i個神經(jīng)元的輸入。

        2.4.4 CNN

        卷積神經(jīng)網(wǎng)絡(luò)與一般神經(jīng)網(wǎng)絡(luò)不同之處在于其基本結(jié)構(gòu)由卷積層、池化層、全連接層堆疊而成,它的結(jié)構(gòu)如圖8所示。

        圖8 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Convolutional neural network structure

        卷積神經(jīng)網(wǎng)絡(luò)輸入層讀入規(guī)則化的圖像后,每一層的每個神經(jīng)元會抽取一些基本的視覺特征,并通過卷積操作獲得特征圖。卷積層后面連接池化層對卷積結(jié)果進(jìn)行降采樣操作,在減少數(shù)據(jù)量的同時保留有用的信息。卷積層和池化層通常會交替使用以便獲取更多有用的特征圖,然后將特征圖傳輸?shù)饺B接前饋網(wǎng)絡(luò)層,實現(xiàn)對提取特征的分類識別。

        2.5 對比實驗

        采用了Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征作為對比:

        (1)Word2Vec-CNN-AE文本特征提取模型:模型以Word2Vec 訓(xùn)練詞向量,把詞向量輸入到CNN 中,CNN通過卷積核提取每條數(shù)據(jù)中詞語的信息,然后通過池化層和全連接層對文本特征進(jìn)一步提取,最后通過AE 對文本特征進(jìn)行降維。

        (2)Word2Vec-LSTM-AE 文本特征提取模型:模型以Word2Vec 訓(xùn)練詞向量,然后以LSTM 模型對文本數(shù)據(jù)再次進(jìn)行特征提取,之后通過AE 對提取出來的文本特征進(jìn)行降維。

        將Word2Vec-CNN-AE 和Word2Vec-LSTM-AE 模型提取的財務(wù)文本特征分別與財務(wù)指標(biāo)結(jié)合,驗證提取出的文本特征對財務(wù)預(yù)警模型的預(yù)測精度的貢獻(xiàn)率,并與BERT-AE模型提取的文本特征對財務(wù)預(yù)警模型的預(yù)測精度的貢獻(xiàn)率做對比。

        2.6 模型超參數(shù)調(diào)節(jié)

        模型的超參數(shù)設(shè)置能夠影響其預(yù)測精度及泛化能力,應(yīng)根據(jù)不同模型的特點對其參數(shù)進(jìn)行調(diào)節(jié),找出最優(yōu)的參數(shù)組合,進(jìn)而得到最優(yōu)預(yù)測結(jié)果。

        對于Logistic 回歸模型,本文設(shè)置的參數(shù)為學(xué)習(xí)率和最大迭代次數(shù)。因為Logistic回歸利用最小二乘法求解,容易出現(xiàn)過擬合問題,所以本文引入了L1 與L2 正則化對最小二乘法進(jìn)行優(yōu)化,提高分類器的預(yù)測精度。對于XGBoost 模型,本文設(shè)置的超參數(shù)為弱學(xué)習(xí)器個數(shù)、正則化參數(shù)、學(xué)習(xí)率和樹的最大深度。對于ANN模型,本文設(shè)置的超參數(shù)為隱層節(jié)點數(shù)、優(yōu)化器、批大小和epoch。對于CNN模型,本文設(shè)置的超參數(shù)為隱層節(jié)點數(shù)、卷積核個數(shù)、優(yōu)化器、批大小和epoch。各模型備選參數(shù)如表4所示。

        表4 模型備選參數(shù)Table 4 Model candidate parameters

        對于Logistic 回歸與XGBoost,本文使用了網(wǎng)格調(diào)參法對加入文本特征前后模型的所有參數(shù)進(jìn)行了調(diào)節(jié),確定所有參數(shù)的最優(yōu)組合。對于ANN 與CNN,先保持其他參數(shù)不變,對其中一個參數(shù)運(yùn)用網(wǎng)格調(diào)參法進(jìn)行參數(shù)調(diào)節(jié),依次確定模型的最優(yōu)參數(shù)。

        2.7 模型評價指標(biāo)

        2.7.1 真正例率和假正例率

        本文采用AUC 指標(biāo)對模型進(jìn)行評價,并繪制出模型的ROC曲線。在介紹ROC與AUC之前,先介紹真正例率(TPR)和假正例率(FPR)的概念。

        在一個二分類問題中,可以根據(jù)真樣本數(shù)據(jù)真實所屬類別與模型結(jié)果組合分為真正例(TP)、假反例(FN)、假正例(FP)、真反例(TN)四種情況。令TP、FN、FP、TN分別表示其對應(yīng)的樣例數(shù),可得到如表5的混淆矩陣。

        表5 混淆矩陣Table 5 Confusion matrix

        有了混淆矩陣之后,可以定義真正例率(TPR)和假正例率(FPR)為:

        2.7.2 ROC曲線和AUC值

        ROC的全稱是Receiver Operating Characteristic曲線,其以FPR 為橫軸,TPR 為縱軸繪制而出。模型預(yù)測性能的好壞可以通過ROC 曲線表現(xiàn)出來,它越靠近左上角,表明模型的性能越好。如果有A模型和B模型,A模型的ROC 曲線能完全“包住”B 模型的ROC 曲線,則可斷言A 模型比B 模型擁有更好的泛化能力。但是兩個模型的ROC 往往是相交的,這時為了比較兩個模型的性能就需要用到AUC。AUC 的全稱是Area Under Curve,是ROC曲線和x軸(FPR軸)之間的面積。因為AUC 綜合考慮了分類器對正樣本和負(fù)樣本的分類能力,所以當(dāng)樣本數(shù)據(jù)不平衡時,分類器仍然能夠做出合理的評價。

        3 實證結(jié)果與分析

        本文將531個樣本按7∶3的比例劃分訓(xùn)練集和測試集,用訓(xùn)練集訓(xùn)練模型,最后在測試集上對模型進(jìn)行驗證評估。本文首先使用了上市公司的財務(wù)指標(biāo)數(shù)據(jù)作為模型輸入變量對財務(wù)風(fēng)險進(jìn)行預(yù)測,然后在財務(wù)指標(biāo)數(shù)據(jù)中加入BERT-AE 提取的財務(wù)文本特征,并將加入文本特征后的實驗數(shù)據(jù)分為三組,分別放入模型之中進(jìn)行財務(wù)風(fēng)險預(yù)測。第一組為加入“經(jīng)營情況討論與分析”文本特征的數(shù)據(jù)(F1),第二組為加入“審計報告”文本特征的數(shù)據(jù)(F2),第三組為加入兩個文本特征的數(shù)據(jù)(F1+F2),每組原始數(shù)據(jù)均為上述財務(wù)指標(biāo)數(shù)據(jù)。同樣的,對比實驗也將進(jìn)行上述的實驗流程。

        3.1 特征重要性分析

        為了分析文本特征對財務(wù)預(yù)警模型的預(yù)測精度是否會產(chǎn)生影響,本文以BERT-AE 提取的財務(wù)文本特征為例,使用XGBoost模型對加入文本特征前后的數(shù)據(jù)指標(biāo)進(jìn)行特征重要性分析,并作出XGBoost模型的特征重要度排序圖,如圖9 所示。其中,(I)為基于財務(wù)指標(biāo)數(shù)據(jù)的特征重要度排序圖,(II)為加入“經(jīng)營情況討論與分析”文本特征(F1)的特征重要度排序圖,(III)為加入“審計報告”文本特征(F2)的特征重要度排序圖,(IV)為加入兩個文本特征(F1+F2)的特征重要度排序圖。

        圖9 XGBoost模型的特征重要度排序Fig.9 Feature importance ranking of XGBoost model

        從(II)、(III)、(IV)中可以看出,在包含“F1”的26個特征變量中,“F1”對預(yù)測結(jié)果的重要性位列第14;在包含“F2”的26 個特征變量中,“F2”對預(yù)測結(jié)果的重要性排名第3;在包含“F1”和“F2”的27 個特征變量中,“F1”與“F2”對預(yù)測結(jié)果的重要性排名分別為第4 和第15。以上結(jié)果表明本文提取的文本特征能夠?qū)ω攧?wù)預(yù)警模型的預(yù)測精度產(chǎn)生影響。

        3.2 財務(wù)預(yù)警模型實驗結(jié)果分析

        為了進(jìn)一步分析文本特征對財務(wù)預(yù)警模型預(yù)測精度的影響,本文基于財務(wù)指標(biāo)數(shù)據(jù),將加入文本特征前后財務(wù)預(yù)警模型預(yù)測的AUC 值進(jìn)行比較。得到的3 個實驗具體的AUC值如表6所示,ROC曲線如圖10所示。

        圖10 加入財務(wù)文本特征前后財務(wù)預(yù)警模型的ROC曲線Fig.10 ROC curves of financial early warning model before and after adding financial text features

        表6 加入文本特征前后財務(wù)預(yù)警模型的AUC值Table 6 AUC value of financial early warning model before and after adding text features

        3.2.1 基于財務(wù)指標(biāo)數(shù)據(jù)預(yù)警模型結(jié)果與分析

        通過將只放入財務(wù)指標(biāo)數(shù)據(jù)的4 個預(yù)警模型在測試集上預(yù)測結(jié)果進(jìn)行對比發(fā)現(xiàn),Logistic 回歸模型得到的AUC 值最低,為0.829 4。在兩種深度學(xué)習(xí)模型中,ANN模型得到的AUC值優(yōu)于CNN模型,為0.851 1。而XGBoost模型表現(xiàn)優(yōu)于兩個深度學(xué)習(xí)模型和Logistic回歸模型,得到了最高的AUC值。

        在基于財務(wù)指標(biāo)的預(yù)警模型中可以發(fā)現(xiàn),相對于深度學(xué)習(xí)模型而言,傳統(tǒng)機(jī)器學(xué)習(xí)算法XGBoost模型預(yù)測效果更好,原因可能是在樣本較少的情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)算法預(yù)測性能更優(yōu)。在大量的標(biāo)注訓(xùn)練數(shù)據(jù)下,

        深度學(xué)習(xí)模型才能取到較好擬合效果,正如宋歌等[9]使用深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建預(yù)警模型時發(fā)現(xiàn),財務(wù)數(shù)據(jù)樣本越多,模型預(yù)測準(zhǔn)確率越高。

        3.2.2 基于財務(wù)數(shù)據(jù)與財務(wù)文本預(yù)警模型結(jié)果與分析

        由表6可以看出,BERT-AE模型提取的財務(wù)文本特征對4 個財務(wù)風(fēng)險預(yù)警模型預(yù)測精度的貢獻(xiàn)度大于Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征的貢獻(xiàn)度。在4個財務(wù)預(yù)警模型中加入BERTAE模型提取的財務(wù)文本特征后,預(yù)測的AUC值提升最高,且4個財務(wù)預(yù)警模型的AUC提升值均大于1個百分點,其中CNN 的AUC 值提升均達(dá)到最大,分別為3.64個百分點、3.35個百分點和3.93個百分點。在BERT-AE模型提取的財務(wù)文本特征后加入財務(wù)指標(biāo)的實驗中,XGBoost 模型仍得到最高的AUC 值,分別為0.895 0、0.893 6和0.896 1,由此可見,使用BERT-AE模型提取的財務(wù)文本特征作為輸入變量的XGBoost 模型具有更優(yōu)的預(yù)測性能。

        綜上所述,在三組對比實驗中,加入BERT-AE模型提取的財務(wù)文本特征后,預(yù)警模型的性能得到最好的增強(qiáng)。這表明使用BERT-AE融合模型能從公司年報中提取出有用的文本特征,將此特征用于公司財務(wù)風(fēng)險預(yù)測模型中能夠顯著提高模型的預(yù)測精度。

        3.3 加入文本特征后模型提升效果的橫向?qū)Ρ?/h3>

        在Matin等[3]的研究中,其使用CNN-RNN(用NN表示)構(gòu)建神經(jīng)網(wǎng)絡(luò)預(yù)測財務(wù)風(fēng)險,然后將提取出來的審計報告文本特征、管理層聲名文本特征以及兩種文本特征與財務(wù)指標(biāo)結(jié)合,分析文本特征是否會提升模型預(yù)測精度,最后結(jié)果如表7所示。表中,NN指無文本的神經(jīng)網(wǎng)絡(luò),NNaud指帶有審計報告文本特征的神經(jīng)網(wǎng)絡(luò),NNman指帶有管理層聲名文本特征的神經(jīng)網(wǎng)絡(luò),NNaud+man指帶有審計報告和管理層聲名文本特征的神經(jīng)網(wǎng)絡(luò)。

        表7 Matin等人財務(wù)預(yù)警模型實證結(jié)果Table 7 Empirical results of Matin et al’s financial early warning model

        從表7中可以看出,NNaud、NNman、NNaud+man的AUC值提高了1.9 個百分點、1.1 個百分點和1.8 個百分點。而本文的CNN 模型加入BERT-AE 提取的三種文本特征后AUC 值的提升分別為3.64 個百分點、3.35 個百分點和3.93個百分點,再次表明本文構(gòu)造的BERT-AE融合模型能更為有效地提取財務(wù)文本特征用于財務(wù)風(fēng)險預(yù)測。

        4 結(jié)論與啟示

        本文在已有研究的基礎(chǔ)上對文本信息的提取進(jìn)行了方法上的創(chuàng)新,使用BERT網(wǎng)絡(luò)提取上市公司年報中“經(jīng)營情況討論與分析”和“審計報告”的文本特征,并利用AE 網(wǎng)絡(luò)對提取出的文本特征進(jìn)行降維處理,最后將AE網(wǎng)絡(luò)輸出的結(jié)果加入財務(wù)數(shù)據(jù)之中對上市公司財務(wù)風(fēng)險進(jìn)行預(yù)測。研究結(jié)果顯示,相較于沒有引入文本特征的財務(wù)預(yù)警模型,帶有“經(jīng)營情況討論與分析”“審計報告”以及兩種文本特征模型的AUC 值均有不同程度的提升,其中帶有兩種文本特征的CNN模型將AUC值提高了3.93個百分點,且?guī)в小敖?jīng)營情況討論與分析”的模型比帶有“審計報告”的模型擁有更高的預(yù)測精度,說明“經(jīng)營情況討論與分析”比“審計報告”提供的信息更多。此外,通過對比實驗和與其他學(xué)者的研究相比較,本文使用BERT-AE模型提取的財務(wù)文本特征使得財務(wù)預(yù)警模型提升效果表現(xiàn)更優(yōu),表明本文構(gòu)造的BERTAE融合模型能更為有效地提取財務(wù)文本特征用于財務(wù)風(fēng)險預(yù)測。

        在今后的工作中,可以引入更多的文本變量,如公司年報中其他章節(jié)的內(nèi)容、公司研報、財經(jīng)新聞、投資者評論等,更好地分析不同文本內(nèi)容對上市公司財務(wù)風(fēng)險預(yù)測的影響,提升模型的預(yù)測精度。此外,本文的研究方法不僅能夠在上市公司財務(wù)風(fēng)險預(yù)測中得到更好的運(yùn)用,也可將其運(yùn)用于其他研究領(lǐng)域,如股價預(yù)測、信用反欺詐等之中。

        猜你喜歡
        財務(wù)指標(biāo)特征提取預(yù)警
        法國發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        我國金融機(jī)構(gòu)股價和主要財務(wù)指標(biāo)的相關(guān)性分析
        園林有害生物預(yù)警與可持續(xù)控制
        全國國有企業(yè)主要財務(wù)指標(biāo)
        Bagging RCSP腦電特征提取算法
        全國國有企業(yè)主要財務(wù)指標(biāo)
        機(jī)載預(yù)警雷達(dá)對IFF 的干擾分析
        榮豐控股財務(wù)指標(biāo)分析
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        日本国产一区二区在线| 国产麻无矿码直接观看| 久久精品无码一区二区三区蜜费| 亚洲一区二区观看网站| 日韩女同在线免费观看| 又粗又大又硬毛片免费看| 人妻无码中文字幕免费视频蜜桃| 爆乳无码AV国内| 国产精品日韩亚洲一区二区| 日本动漫瀑乳h动漫啪啪免费| 国产剧情麻豆女教师在线观看| 免费a级毛片无码| 久久久国产精品麻豆| 亚洲中文字幕有码av| 亚洲av乱码二区三区涩涩屋| 亚洲国产天堂久久综合| 国产精品亚洲一区二区无码国产| 少妇被日到高潮的视频| 所有视频在线观看免费| 一边吃奶一边摸做爽视频| a级福利毛片| 中文字幕人妻激情在线视频| 天天躁夜夜躁av天天爽| 装睡被陌生人摸出水好爽| 亚洲日日噜噜噜夜夜爽爽| 日韩精品视频免费在线观看网站| 中文字幕乱码熟妇五十中出| 在线播放人成午夜免费视频| 亚洲中文字幕不卡一区二区三区 | 国产一区二区三区免费精品视频| 久久亚洲av无码西西人体| 99成人精品| av成人资源在线观看| 久久久亚洲欧洲日产国码二区| 欧美性videos高清精品| 国产精品亚洲一区二区极品| 扒开美女内裤舔出白水| 国产三级精品三级在线观看| 日韩精品网| 国产3p一区二区三区精品| 67194熟妇人妻欧美日韩|