孫 灝 ,朱曉謙 ,李建平
(1.中國科學(xué)院 科技戰(zhàn)略咨詢研究院,北京 100190;2.中國科學(xué)院大學(xué) 公共政策與管理學(xué)院,北京 100049;3.中國科學(xué)院大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京 100190)
近年來,國內(nèi)外上市公司的財務(wù)困境事件頻發(fā),給市場投資者帶來巨大的損失,使得財務(wù)困境的準(zhǔn)確預(yù)測受到市場投資者、監(jiān)管機(jī)構(gòu)等的高度關(guān)注。Habib等[1]從4個方面總結(jié)了現(xiàn)有研究對財務(wù)困境的定義,分別為業(yè)務(wù)經(jīng)營失敗、無法償還到期債務(wù)、申請破產(chǎn)保護(hù)以及發(fā)生貸款違約。為了更有效地預(yù)測公司是否陷入財務(wù)困境,現(xiàn)有研究對各種類型的數(shù)據(jù)信息進(jìn)行分析,包括公司財務(wù)信息[2]、股票市場信息[3]以及公司披露的文本類信息[4]等。
早期的財務(wù)困境預(yù)測研究大多基于公司的財務(wù)和市場數(shù)據(jù)等定量信息。Altman[2]從公司的財務(wù)報表中提取了5個財務(wù)比率指標(biāo)建立了Z-score模型,證明了財務(wù)比率指標(biāo)能為財務(wù)困境預(yù)測提供有效信息。Shumway[3]基于股權(quán)價值波動率、股權(quán)超額收益率等市場信息構(gòu)建了風(fēng)險模型,發(fā)現(xiàn)市場信息夠提升財務(wù)困境的預(yù)測效果。這些定量信息在之后的財務(wù)困境預(yù)測研究中也得到普遍應(yīng)用[5-8]。然而,這些定量信息主要是對公司財務(wù)狀況的高度凝練和總結(jié),只能刻畫公司部分的經(jīng)營情況。
近年來,相關(guān)研究開始關(guān)注社交媒體及公司披露的文本信息在財務(wù)困境預(yù)測中的作用[9]。與定量信息直觀地反映公司的經(jīng)營和財務(wù)狀況相比,文本信息則是對公司的經(jīng)營情況進(jìn)一步具體的解釋與分析,能夠?qū)Χ啃畔⑻峁┯行У难a(bǔ)充。陳藝云等[10]采用百度新聞中公司的新聞報道文本進(jìn)行財務(wù)困境預(yù)測。Mayew 等[4]基于公司財務(wù)報告中的管理層討論與分析 (Management Discussion and Analysis,MD&A)構(gòu)建財務(wù)困境預(yù)測模型。呂喜梅等[11]分析了公司在出現(xiàn)重大事件時披露的臨時報告在財務(wù)困境預(yù)測中的作用。上述研究都發(fā)現(xiàn)各類文本類信息可以提升財務(wù)困境的預(yù)測效果。然而,媒體報道、MD&A 及臨時報告等文本信息主要是對公司當(dāng)前業(yè)務(wù)經(jīng)營信息、財務(wù)報告數(shù)據(jù)等的解釋和分析,對公司未來可能面臨情況的內(nèi)容較少[12]。
根據(jù)各國監(jiān)管機(jī)構(gòu)的要求,上市公司通常需要根據(jù)當(dāng)前的經(jīng)營情況預(yù)判未來潛在的重要風(fēng)險,并以文本的形式在財務(wù)報告中披露[13]。例如,美國上市公司被證券交易委員會(Securities and Exchange Commission,SEC)強(qiáng)制要求在年度財務(wù)報告中的Item 1A 章節(jié)增加Risk Factor部分,披露使公司面臨風(fēng)險的重要因素,以幫助投資者更清楚地了解公司的風(fēng)險情況[14]。相比于社交媒體及公司披露的MD&A 等文本內(nèi)容,財務(wù)報告中的文本風(fēng)險信息能夠更加直接和前瞻地刻畫公司未來的風(fēng)險[13]。此外,現(xiàn)有研究發(fā)現(xiàn),該部分內(nèi)容在整個財務(wù)報告中的篇幅占比越來越高[15],并能夠真實(shí)和有效地反映公司未來面臨的風(fēng)險情況[14]。然而,鮮有研究分析該信息在財務(wù)困境預(yù)測中的作用。
本文引入公司在年度財務(wù)報告中以文本形式披露的風(fēng)險信息進(jìn)行財務(wù)困境預(yù)測,并構(gòu)建了能夠刻畫所披露的風(fēng)險對公司產(chǎn)生影響的可能性的文本特征指標(biāo)——風(fēng)險可能性。該指標(biāo)通過公司披露風(fēng)險時語氣的強(qiáng)弱實(shí)現(xiàn)量化,并結(jié)合常用的文本特征指標(biāo)對文本風(fēng)險信息進(jìn)行特征提取,包括文本長度、情感、可讀性以及樣板性[16-18]。本文選取了5種主流的機(jī)器學(xué)習(xí)方法,對文本特征指標(biāo)的財務(wù)困境預(yù)測能力進(jìn)行評估,包括邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)、神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)、隨機(jī)森林(Random Forest,RF)及XGBoost模型。為了檢驗(yàn)本文提出的風(fēng)險可能性相比常用的文本特征指標(biāo),是否更適用于處理文本風(fēng)險信息,進(jìn)一步對比分析了各個文本特征指標(biāo)在財務(wù)困境預(yù)測中的重要程度。此外,對財務(wù)困境預(yù)測的時間窗口進(jìn)行變化,分析文本風(fēng)險信息的預(yù)測能力隨預(yù)測時長增加時的變動情況。
本文的創(chuàng)新和貢獻(xiàn)主要體現(xiàn)在兩個方面:①引入公司在年報中披露的文本風(fēng)險信息進(jìn)行財務(wù)困境預(yù)測,拓展了現(xiàn)有研究預(yù)測財務(wù)困境時所使用的數(shù)據(jù)類型。現(xiàn)有研究在財務(wù)困境預(yù)測中采用的文本數(shù)據(jù)類型主要包括MD&A[4]、企業(yè)臨時報告[11]和社交媒體[10]等,主要是對公司當(dāng)前財務(wù)信息、經(jīng)營情況等方面的解釋和分析[12]。相比之下,本文引入的公司在財務(wù)報告中披露的文本風(fēng)險信息能夠更加直接和前瞻地描述公司未來可能面臨的風(fēng)險[13]。②構(gòu)建了適用于文本風(fēng)險信息的特征指標(biāo)——風(fēng)險可能性,實(shí)現(xiàn)了對所披露風(fēng)險對公司產(chǎn)生影響的可能性的刻畫?,F(xiàn)有研究在分析金融文本數(shù)據(jù)的特征時,主要從情感、可讀性及樣板性等維度進(jìn)行考慮[16,19],然而,這些特征指標(biāo)不適用于從文本風(fēng)險信息中提取風(fēng)險對公司產(chǎn)生影響情況的特征信息。本文提出的風(fēng)險可能性指標(biāo),能夠定量地刻畫出公司受到所披露風(fēng)險影響的可能性大小,從而幫助預(yù)測公司是否陷入財務(wù)困境。
除結(jié)構(gòu)化的定量信息外,以非結(jié)構(gòu)化形式存在的文本類數(shù)據(jù)在各類數(shù)據(jù)中的比重不斷上升,并在財務(wù)困境預(yù)測領(lǐng)域得到廣泛應(yīng)用[4,9,11,17]。根據(jù)信息的來源,這些文本可以劃分為社交媒體信息和公司披露信息兩種類別[19]。
現(xiàn)有研究常見的社交媒體類文本數(shù)據(jù)主要包括新聞報道、微博、Twitter和股票論壇等,這類社交媒體信息具有發(fā)布時間間隔短的優(yōu)勢,可以幫助投資者及時地了解公司的動態(tài)信息[20-21]。陳藝云等[10]通過爬蟲技術(shù)從百度新聞中收集了公司的新聞報道文本內(nèi)容,分析發(fā)現(xiàn),公司的負(fù)面報道比例越高,出現(xiàn)財務(wù)困境的可能性就越大。Lu等[22]基于《華爾街日報》發(fā)布的新聞報道信息構(gòu)建了公司信用違約預(yù)測模型,結(jié)果表明,在定量指標(biāo)基礎(chǔ)上預(yù)測效果得到顯著提升。何賢杰等[20]基于中國上市公司在新浪微博上發(fā)布的信息,研究發(fā)現(xiàn),公司治理水平越高的公司更傾向于開設(shè)微博賬號,并發(fā)布公司的相關(guān)信息。Jung等[23]分析了公司在Twitter平臺發(fā)布的季度收益公告文本信息,發(fā)現(xiàn)經(jīng)營情況較差的公司會選擇性地在Twitter上發(fā)布更少的信息。Zhao等[24]分析市場投資者在股票論壇中發(fā)布的評論文本信息,發(fā)現(xiàn)投資者對公司的財務(wù)及經(jīng)營情況表現(xiàn)出更消極的態(tài)度時,公司出現(xiàn)財務(wù)困境的可能性越大。
公司披露的各類文本數(shù)據(jù)也受到了較為廣泛的關(guān)注,主要包括公司財務(wù)報告中的MD&A 部分、財務(wù)報告的附注部分以及公司發(fā)生重要事件時披露的臨時報告等。這類公司披露信息是以文本的形式對公司經(jīng)營情況的說明和分析,可以作為公司定量財務(wù)信息的有效補(bǔ)充,幫助投資者更為全面地了解公司的經(jīng)營情況[25]。Mayew 等[4]通過分析上市公司在年報中披露的MD&A 內(nèi)容,發(fā)現(xiàn)財務(wù)困境公司的管理者在披露時傾向于使用更多的負(fù)面情感詞匯。陳藝云[17]基于中國上市公司披露的MD&A文本,研究結(jié)果驗(yàn)證了MD&A 文本信息能有效幫助預(yù)測公司財務(wù)困境。Zhao等[24]基于財務(wù)報告附注、MD&A 等文本信息構(gòu)建財務(wù)困境預(yù)測模型,發(fā)現(xiàn)在財務(wù)指標(biāo)基礎(chǔ)上融合文本信息能夠顯著提升預(yù)測效果。Gandhi等[26]對銀行業(yè)公司在年度財務(wù)報告中披露的文本內(nèi)容進(jìn)行分析,發(fā)現(xiàn)負(fù)面情感詞匯的數(shù)量越多時,公司發(fā)生財務(wù)困境的可能性越大。呂喜梅等[11]通過采用公司披露的臨時報告文件信息,構(gòu)建了中國新三板企業(yè)財務(wù)困境預(yù)測模型,發(fā)現(xiàn)提取的公司權(quán)益變動、資金管理等主題信息能夠顯著提升預(yù)測效果。
除了上述公司披露的文本數(shù)據(jù)類型,各國的監(jiān)管機(jī)構(gòu)通常還要求公司在財務(wù)報告中披露可能對公司未來發(fā)展戰(zhàn)略和經(jīng)營目標(biāo)的實(shí)現(xiàn)產(chǎn)生不利影響的風(fēng)險因素。例如,美國證券交易委員會于2005年頒布的公司信息披露法規(guī)中,美國上市公司應(yīng)當(dāng)在其年度報告Form 10-K 文件中的Item 1A 章節(jié)新增Risk Factor部分,詳細(xì)、規(guī)范地披露公司未來可能面臨的重要風(fēng)險因素[27]。這類文本風(fēng)險信息是公司的管理層基于公司實(shí)際的經(jīng)營情況分析得出的風(fēng)險信息,相比于公司披露的其他類型文本信息,能夠更為直觀地反映公司所面臨的風(fēng)險情況[12,28]。此外,監(jiān)管機(jī)構(gòu)對公司披露的文本風(fēng)險信息內(nèi)容的真實(shí)性及有效性進(jìn)行了嚴(yán)格監(jiān)督,且已有研究發(fā)現(xiàn),文本風(fēng)險信息對公司未來所面臨的財務(wù)風(fēng)險、法律訴訟風(fēng)險等有一定的預(yù)見能力[14]。因此,文本風(fēng)險信息的優(yōu)勢在于直接和前瞻地反映了公司的潛在風(fēng)險,能夠作為公司定量信息的有益補(bǔ)充。然而,現(xiàn)有研究很少關(guān)注這類文本風(fēng)險信息在財務(wù)困境預(yù)測中的作用,故引入文本風(fēng)險信息構(gòu)建財務(wù)困境預(yù)測模型,分析其能否提升財務(wù)困境預(yù)測效果。
現(xiàn)有研究在分析金融文本的特征時大多從情感、可讀性及樣板性等維度進(jìn)行考慮,有關(guān)結(jié)論也驗(yàn)證了這些文本特征的確能夠從文本中挖掘得到有效信息[16,19]。姚加權(quán)等[29]針對中文金融文本分別構(gòu)建了適用于年度財務(wù)報告和社交媒體的情感詞典,并發(fā)現(xiàn)基于情感詞典得到的情感特征指標(biāo)能夠有效預(yù)測公司股票收益率、成交量及波動率等市場因素。Loughran等[30]同樣構(gòu)建了適用于英文金融文本的情感詞典,并發(fā)現(xiàn)該詞典相比于一般性的詞典能夠更好地刻畫金融文本中的情感特征。Li[31]對公司年度財務(wù)報告中披露的文本內(nèi)容進(jìn)行可讀性分析,發(fā)現(xiàn)盈余收入越差的公司的財務(wù)報告可讀性越差,這是因?yàn)楣緸榱私档凸善笔袌霾▌佣室饽:畔32]。樣板性也稱為文本相似性,在金融文本領(lǐng)域主要用于刻畫不同公司之間披露文本的相似程度,以及同一公司在不同時期披露文本的相似程度[19]。
不同于一般類型的金融文本,本文引入的文本風(fēng)險信息的主要內(nèi)容是公司未來可能面臨的潛在風(fēng)險。該風(fēng)險信息是各公司基于自身的經(jīng)營情況,對未來潛在的重要風(fēng)險的預(yù)判,因而不同公司之間所披露的風(fēng)險存在一定程度的差異[13],且不同的風(fēng)險對公司的經(jīng)營情況產(chǎn)生的影響也不同[14]。本文通過分析各個公司所披露的風(fēng)險信息對該公司產(chǎn)生的影響情況,從而幫助預(yù)測公司是否陷入財務(wù)困境。然而,現(xiàn)有研究常用的文本特征指標(biāo)難以刻畫出文本風(fēng)險信息對公司產(chǎn)生的影響情況,因此,本文提出新的文本特征指標(biāo),該指標(biāo)能夠定量地刻畫公司受到所披露風(fēng)險影響的可能性大小,從而用于財務(wù)困境預(yù)測。
綜上所述,現(xiàn)有研究對財務(wù)困境預(yù)測問題已經(jīng)進(jìn)行了較為豐富的研究,但是在采用的文本數(shù)據(jù)類型、文本特征的分析方法兩個方面還存在一定不足。首先,現(xiàn)有研究在財務(wù)困境預(yù)測中采用的文本信息主要包括MD&A[4]、企業(yè)臨時報告[11]和社交媒體[10]等類型,這些文本信息主要是對公司當(dāng)前財務(wù)信息、經(jīng)營情況等方面的解釋和分析,對公司未來經(jīng)營情況的前瞻性描述較少[12];其次,現(xiàn)有研究在分析金融文本數(shù)據(jù)特征時主要從情感[29]、可讀性[31]及樣板性[19]等維度進(jìn)行考慮,由于這些文本特征指標(biāo)主要用于分析常見的文本信息,不適用于特定類型的文本,故本文引入直接和前瞻地披露公司未來風(fēng)險情況的文本風(fēng)險信息,并針對該文本的特征提出了風(fēng)險可能性指標(biāo),用于刻畫公司受到所披露風(fēng)險影響的可能性大小。
本文基于上市公司年度財務(wù)報告中披露的文本風(fēng)險信息進(jìn)行財務(wù)困境預(yù)測。考慮到美國上市公司在年報中披露的風(fēng)險信息相比于其他國家更為詳細(xì)和規(guī)范[13],本文選擇美國上市公司披露的文本風(fēng)險信息進(jìn)行分析。美國證券交易委員會在2005年頒布的Regulation S-K 法規(guī)要求,上市公司應(yīng)當(dāng)在年度財務(wù)報告Form10-K中Item1A章節(jié)新增“Risk Factor”部分,詳細(xì)披露公司認(rèn)為對未來發(fā)展戰(zhàn)略和經(jīng)營目標(biāo)可能產(chǎn)生不利影響的風(fēng)險因素。在以HTML格式存儲的Form 10-K 報告中,各章節(jié)通過不同的HTML標(biāo)簽進(jìn)行標(biāo)記,因此,可以采用正則表達(dá)式匹配識別Item 1A 章節(jié),從而提取出“Risk Factor”這一章節(jié)的文本風(fēng)險信息。
公司通常以一個標(biāo)題加一段詳細(xì)解釋的方式來披露每一個風(fēng)險因素,標(biāo)題基本可以清晰地概括各個風(fēng)險因素,平均每份財務(wù)報告大約包含21 個標(biāo)題[33]。每個標(biāo)題通常討論一類風(fēng)險因素,Bao等[33]通過構(gòu)建無監(jiān)督的主題模型方法,從2006~2010年間所有美國上市公司披露的文本風(fēng)險信息中,識別出所有行業(yè)中公司面臨的25種風(fēng)險因素,包括“人力資源”“股價波動”“競爭”“信用風(fēng)險”和“國際風(fēng)險”等。表1為4個風(fēng)險標(biāo)題的示例,通過這些標(biāo)題分別總結(jié)出“產(chǎn)品服務(wù)”“稅收波動”“信息系統(tǒng)安全”及“法律監(jiān)管”4個風(fēng)險因素可能影響公司未來的經(jīng)營和收益。因此,美國上市公司在年度財務(wù)報告中披露的文本風(fēng)險信息能夠清晰地刻畫出公司經(jīng)營過程中面臨的風(fēng)險情況,可以作為財務(wù)困境預(yù)測的有效補(bǔ)充信息。
表1 美國上市公司年度財務(wù)報告Form 10-K 中披露的風(fēng)險信息示例
2.2.1風(fēng)險可能性指標(biāo) 相比于以往研究常用的金融類文本數(shù)據(jù),財務(wù)報告中的文本風(fēng)險信息披露的主要是公司未來可能面臨的風(fēng)險因素。通過對公司在年報中披露的大量文本風(fēng)險信息的分析發(fā)現(xiàn),公司在披露風(fēng)險信息時語氣的強(qiáng)弱存在差異,表現(xiàn)為使用情態(tài)動詞的不同。如表1所示,公司在披露“產(chǎn)品服務(wù)”風(fēng)險因素時使用的情態(tài)動詞為must,語氣較強(qiáng),表示該風(fēng)險對公司產(chǎn)生影響的可能性較高;在披露“稅收波動”“信息系統(tǒng)安全”及“法律監(jiān)管”3個風(fēng)險因素時,使用的情態(tài)動詞分別為could、may及could,語氣較弱,表示這3個風(fēng)險對公司產(chǎn)生影響的可能性較低。由上述分析可以看出,公司披露風(fēng)險信息時的語氣強(qiáng)弱能夠反映出該公司受到風(fēng)險影響的可能性的差異。因此,本文在利用文本風(fēng)險信息進(jìn)行財務(wù)困境預(yù)測時,從語氣強(qiáng)弱的角度分析公司披露的風(fēng)險對公司產(chǎn)生影響的可能性。然而,文本長度、情感分析、可讀性分析等常用的金融類文本特征分析方法,難以反映文本中的語氣強(qiáng)弱并刻畫出公司披露的風(fēng)險對公司的影響情況。
為了刻畫一個公司受到未來可能面臨的風(fēng)險影響的可能性大小,本文提出了風(fēng)險可能性指標(biāo),通過分析公司披露文本風(fēng)險信息時的語氣強(qiáng)弱實(shí)現(xiàn)量化。由于情態(tài)動詞的語氣強(qiáng)弱能夠反映表達(dá)者對其描述內(nèi)容的信息程度高低[30],故通過分析文本風(fēng)險信息中情態(tài)動詞的語氣強(qiáng)弱以構(gòu)建風(fēng)險可能性指標(biāo)。首先從公司披露的各個風(fēng)險因素的標(biāo)題及詳細(xì)解釋中識別出情態(tài)動詞,然后對情態(tài)動詞的強(qiáng)弱程度進(jìn)行區(qū)分以分析每個風(fēng)險因素的語氣強(qiáng)弱,最后對各個風(fēng)險因素的語氣強(qiáng)弱進(jìn)行綜合,從而得到能夠反映公司披露的文本風(fēng)險信息整體語氣強(qiáng)弱的“風(fēng)險可能性”指標(biāo)。與以往研究常用的金融文本分析方法相比,該指標(biāo)的優(yōu)勢在于可以更為直觀地刻畫出公司披露的風(fēng)險信息對公司產(chǎn)生影響的可能性。
假設(shè)一個公司在其年度財務(wù)報告Form 10-K的Risk Factor部分共披露了N個風(fēng)險因素,表示為(r1,r2,…,rN)。為了分析各個風(fēng)險因素中情態(tài)動詞的語氣強(qiáng)弱,引入Loughran等[30]研究得出的情態(tài)動詞語氣強(qiáng)弱詞典。如表2 所示,Loughran等[30]根據(jù)語氣強(qiáng)弱將情態(tài)動詞劃分為兩類,包括18個強(qiáng)語氣情態(tài)動詞及27個弱語氣情態(tài)動詞?;谠撛~典,從第i個風(fēng)險因素ri的標(biāo)題及詳細(xì)解釋中識別出現(xiàn)的所有情態(tài)動詞,并根據(jù)語氣強(qiáng)弱進(jìn)行劃分,從而得到強(qiáng)語氣及弱語氣情態(tài)動詞的數(shù)量,分別記為重復(fù)該步驟,可得N個風(fēng)險因素(r1,r2,…,rN)中強(qiáng)語氣及弱語氣情態(tài)動詞的數(shù)量,分別記為為了綜合評估N個風(fēng)險因素的語氣強(qiáng)弱的整體情況,進(jìn)一步分析了N個風(fēng)險因素中強(qiáng)語氣情態(tài)動詞在所有情態(tài)動詞中的數(shù)量比重的均值,從而得到N個風(fēng)險因素對公司產(chǎn)生影響的可能性的綜合情況,即風(fēng)險可能性指標(biāo),如下式所示:
表2 Loughran和McDonald的情態(tài)動詞語氣強(qiáng)弱詞典
該指標(biāo)的數(shù)值大小區(qū)間為[0,1],數(shù)值越大,表示公司披露的風(fēng)險對公司產(chǎn)生影響的可能性越大。綜上可知,本文提出的風(fēng)險可能性指標(biāo)能夠刻畫出財務(wù)報告中披露的文本風(fēng)險信息對公司產(chǎn)生影響的可能性的綜合情況,從而有利于公司的財務(wù)困境預(yù)測。
2.2.2常用文本特征指標(biāo) 在分析金融類的文本時,現(xiàn)有研究通常利用情感、可讀性、長度及樣板性等特征指標(biāo)從文本中提取有效信息[4,18,16],因此,除了采用本文構(gòu)建的風(fēng)險可能性指標(biāo),也利用這些文本特征指標(biāo)對公司在年度財務(wù)報告中披露的文本風(fēng)險信息進(jìn)行分析和效果對比。
文本長度指標(biāo)是現(xiàn)有研究中較為常用的刻畫文本特征的指標(biāo),主要通過文本中詞語的數(shù)量的Log值進(jìn)行刻畫[14],如下式所示:
文本情感指標(biāo)的常用刻畫方法為詞袋法[17],主要基于Loughran等[30]針對金融文本構(gòu)建的情感詞典。利用該詞典可以對文本中正面和負(fù)面情感詞語進(jìn)行識別并統(tǒng)計,分別得到正面及負(fù)面情感詞語的數(shù)量,從而構(gòu)建了情感指標(biāo),如下式所示:
文本的可讀性主要用于刻畫文本內(nèi)容被讀者理解的難易程度,通常采用霧指數(shù)實(shí)現(xiàn)量化[16]。霧指數(shù)表示讀者在第一遍閱讀一篇文章時,需要多少年的教育水平才能讀懂。例如一篇文章的霧指數(shù)為5,表示讀者在第一遍讀該文章時需要5年的教育才能讀懂。該指標(biāo)主要通過句子理解難度(句子中包含詞語數(shù)量越多則越難)和詞語難度(詞語音節(jié)越多則越難)兩個方面實(shí)現(xiàn)度量[32],如下式所示:
文本的樣板性刻畫了特定文本內(nèi)容和其他文本內(nèi)容之間的相似程度,可用于分析不同公司之間披露的文本內(nèi)容的相似程度[19]。Dyer等[18]將樣板性定義為公司披露的文本中存在樣板性的句子的詞語數(shù)量占全文詞語數(shù)量的比重,如下式所示。其中,句子存在樣板性通過該句子和同會計年度中其他公司(至少75%)披露的文本是否有相同的短語(詞語數(shù)量至少為4)刻畫,
基于文本風(fēng)險信息的特征指標(biāo),本文選用了5種主流的機(jī)器學(xué)習(xí)方法進(jìn)行財務(wù)困境預(yù)測,包括邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林以及XGBoost[4,9,26]。邏輯回歸在線性回歸的基礎(chǔ)上增加了Sigmoid函數(shù)進(jìn)行非線性映射,以處理分類問題,并通過L1正則化防止過擬合[11]。支持向量機(jī)通過在特征空間中尋找最優(yōu)超平面,以最大化數(shù)據(jù)樣本中支持向量與超平面之間的間隔距離,并利用非線性核函數(shù)處理數(shù)據(jù)的線性不可分問題[34]。標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)構(gòu)建以神經(jīng)元和激活函數(shù)為基礎(chǔ)的多層神經(jīng)網(wǎng)絡(luò),并通過后向傳播方法進(jìn)行參數(shù)優(yōu)化以訓(xùn)練模型[35]。隨機(jī)森林和XGBoost是基于多個決策樹方法的集成模型,并分別通過Bagging等[36]策略方法進(jìn)行集成學(xué)習(xí)。
本文選用了4個常用的評估指標(biāo)對模型的預(yù)測效果進(jìn)行度量[11,36-37],包括總準(zhǔn)確率、一型、二型準(zhǔn)確率和AUC(Area under the Receiver Operating Characteristic),分別表示模型將所有樣本、財務(wù)困境樣本和非財務(wù)困境樣本正確分類的百分比。具體定義如下所示:
式中:TP(True Positive)為財務(wù)困境樣本被正確預(yù)測為財務(wù)困境的數(shù)量;FN (False Negative)為財務(wù)困境樣本被錯誤預(yù)測為非財務(wù)困境的數(shù)量;TN(True Negative)為非財務(wù)困境樣本被正確預(yù)測為非財務(wù)困境的數(shù)量;FP(False Positive)為非財務(wù)困境公司被錯誤預(yù)測為財務(wù)困境的數(shù)量。AUC指標(biāo)刻畫了模型對財務(wù)困境樣本及非財務(wù)困境樣本的綜合預(yù)測能力,通過ROC(Receiver Operating Characteristic)曲線下面積計算得到,其取值范圍在0 和1 之間,AUC越接近1,模型的預(yù)測效果越好。
本節(jié)采用美國上市公司在年度財務(wù)報告中披露的文本風(fēng)險信息進(jìn)行實(shí)證研究,檢驗(yàn)在定量指標(biāo)基礎(chǔ)上融入文本風(fēng)險信息能否提升財務(wù)困境的預(yù)測效果,并分析了本研究提出的風(fēng)險可能性指標(biāo)相比于常用文本特征指標(biāo)的重要度。
實(shí)證研究基于美國上市公司在年度財務(wù)報告Form 10-K 中的“Risk Factor”部分披露的文本風(fēng)險信息數(shù)據(jù)。由于美國證券交易委員會從2005年開始要求美國上市公司在財務(wù)報告中披露 “Risk Factor”部分,美國的上市公司在2006的年度財務(wù)報告中開始披露文本風(fēng)險信息,故樣本數(shù)據(jù)的時間區(qū)間確定為2006~2020年。從美國證券交易委員會的EDGAR 數(shù)據(jù)庫中收集公司的Form-10K 報表,并對“Risk Factor”部分的文本風(fēng)險信息數(shù)據(jù)進(jìn)行提取和清洗,共得到8 071 家美國上市公司的81 167個年度文本風(fēng)險信息數(shù)據(jù)。
為了分析引入文本風(fēng)險信息后對公司財務(wù)困境預(yù)測的提升效果,綜合參考Altman[2]、陳藝云[17]及Mayew 等[4]研究中使用的定量指標(biāo),共選取了8個常用的財務(wù)和市場指標(biāo)作為比較基準(zhǔn),包括營運(yùn)資本/總資產(chǎn)、留存收益/總資產(chǎn)、息稅前利潤/總資產(chǎn)、權(quán)益市值/債務(wù)面值、銷售收入/總資產(chǎn)、波動率、超額收益率和相對規(guī)模。剔除存在缺失值的公司樣本,得到35 058個年度樣本。
參考以往研究定義財務(wù)困境的方式[26],根據(jù)公司的退市代碼,將證券交易所強(qiáng)制退市(退市代碼在300~599之間)的公司作為財務(wù)困境樣本[26],其他公司作為非財務(wù)困境樣本。最終得到648個財務(wù)困境公司樣本,34 410個非財務(wù)困境樣本。公司的退市代碼和定量指標(biāo)都來自沃頓商學(xué)院數(shù)據(jù)庫(Wharton Research Data Services,WRDS)。
基于2.2節(jié)中的方法度量公司財務(wù)報告中文本風(fēng)險信息的文本特征,包括本文提出的風(fēng)險可能性指標(biāo)以及常見的情感、可讀性、長度和樣板性指標(biāo)。表3所示為財務(wù)困境公司和非財務(wù)困境公司樣本的5 種文本特征指標(biāo)的均值、中位數(shù)和標(biāo)準(zhǔn)差。為了驗(yàn)證各文本特征指標(biāo)在兩類公司樣本之間是否存在顯著差異,采用獨(dú)立樣本T檢驗(yàn)分別對各文本特征指標(biāo)進(jìn)行顯著性檢驗(yàn),并根據(jù)檢驗(yàn)結(jié)果T值的正負(fù)號分析文本特征指標(biāo)和公司財務(wù)困境之間的關(guān)系。
表3 文本特征指標(biāo)的統(tǒng)計檢驗(yàn)結(jié)果
由表3可見,各文本特征指標(biāo)的T檢驗(yàn)結(jié)果都顯著,表明5個文本特征指標(biāo)在財務(wù)困境及非財務(wù)困境樣本之間的均值存在顯著差異。本文提出的風(fēng)險可能性指標(biāo)的T檢驗(yàn)結(jié)果顯著為正,表明公司披露的文本風(fēng)險信息的風(fēng)險可能性指標(biāo)越高,更可能發(fā)生財務(wù)困境。初步驗(yàn)證了公司在披露文本風(fēng)險信息時使用更高比重的強(qiáng)語氣情態(tài)動詞,即認(rèn)為風(fēng)險對公司產(chǎn)生影響的可能性更大時,出現(xiàn)財務(wù)困境可能性更大。
由常用的文本特征指標(biāo)可以發(fā)現(xiàn),長度和情感指標(biāo)的T檢驗(yàn)結(jié)果顯著為正,表明公司在披露的文本風(fēng)險信息中內(nèi)容越多或情感越積極時,發(fā)生財務(wù)困境的可能性越高;而可讀性及樣板性指標(biāo)的T檢驗(yàn)結(jié)果顯著為負(fù),表明公司披露的文本風(fēng)險信息更難以被讀者理解,或與其他公司披露的文本風(fēng)險信息的相似程度越低時,發(fā)生財務(wù)困境的可能性越高。與以往研究基于MD&A 文本驗(yàn)證的情感越消極的公司更可能出現(xiàn)財務(wù)困境的結(jié)果相比[4,17],本文發(fā)現(xiàn),情感越積極的公司反而更可能發(fā)生財務(wù)困境,分析造成此差異的主要原因是,文本風(fēng)險信息與MD&A 文本所披露的內(nèi)容在情感特征方面存在不同[27]。
為了驗(yàn)證本文引入文本風(fēng)險信息對公司財務(wù)困境預(yù)測的提升效果,將現(xiàn)有研究[2,4,17]中常用的定量指標(biāo)(包括財務(wù)指標(biāo)和市場指標(biāo),具體見3.1節(jié))作為財務(wù)困境預(yù)測效果的比較基準(zhǔn)。如2.3節(jié)所示,采用常見的邏輯回歸、支持向量機(jī)、標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和XGBoost[4,9]5種模型,進(jìn)行財務(wù)困境預(yù)測。
由于上市公司的年度財務(wù)報告通常在會計年度結(jié)束后的4個月內(nèi)編制完成,可能導(dǎo)致公司t年陷入財務(wù)困境時t-1年的財務(wù)報告還未公布,故參考陳藝云[17]的方法,基于公司t-2年的數(shù)據(jù)建立模型預(yù)測其是否在t年陷入財務(wù)困境。在模型構(gòu)建過程中,邏輯回歸的正則化參數(shù)為5,支持向量機(jī)的核函數(shù)為高斯核函數(shù)、正則化參數(shù)為5,標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)共4層、隱藏層維度為10,隨機(jī)森林及XGBoost中基決策樹數(shù)量為100。模型的訓(xùn)練采用現(xiàn)有研究中常用的訓(xùn)練集80%、測試集20%樣本數(shù)據(jù)劃分方式[9]得到28 046個訓(xùn)練樣本及7 012個測試樣本。考慮各模型需要調(diào)整超參數(shù)以最優(yōu)化模型性能,從訓(xùn)練集中劃分出20%的樣本作為驗(yàn)證集,并采用網(wǎng)格搜索方法對各模型的超參數(shù)進(jìn)行尋優(yōu)。由于財務(wù)困境預(yù)測問題中財務(wù)困境樣本的數(shù)量通常顯著少于非財務(wù)困境樣本,具有樣本不均衡的特點(diǎn),故采用代價敏感學(xué)習(xí)方法[38],對不同類別樣本的分類錯誤賦以不同的懲罰權(quán)重,提高模型對財務(wù)困境類樣本的重視程度,并通過網(wǎng)格搜索方法確定最優(yōu)的懲罰權(quán)重。采用5折交叉驗(yàn)證將各模型重復(fù)訓(xùn)練5次,在測試集上得到的準(zhǔn)確率的平均值作為最終的預(yù)測結(jié)果。
表4所示為基于定量指標(biāo)以及引入文本風(fēng)險信息特征指標(biāo)后的財務(wù)困境預(yù)測結(jié)果?;诔R姷亩恐笜?biāo)的財務(wù)困境預(yù)測結(jié)果中,XGBoost模型的AUC 值最高,為88.63%,對應(yīng)的總準(zhǔn)確率為81.49%,一型準(zhǔn)確率為81.46%,二型準(zhǔn)確率為81.50%。Mai等[9]基于美國上市公司定量指標(biāo)的AUC值為80.70%,呂喜梅等[11]基于中國上市公司定量指標(biāo)的AUC值為85.80%。對比發(fā)現(xiàn),本文基于定量指標(biāo)的AUC值較高,驗(yàn)證了定量指標(biāo)選取的合理性。
表4 引入文本指標(biāo)的財務(wù)困境預(yù)測結(jié)果對比 %
在定量指標(biāo)的基礎(chǔ)上引入文本風(fēng)險信息的5個文本特征指標(biāo),對公司財務(wù)困境的預(yù)測結(jié)果顯示,各模型的預(yù)測效果都得到明顯提升,仍然是XGBoost模型的AUC 值最高,達(dá)到91.84%,對應(yīng)的總準(zhǔn)確率為84.22%,一型準(zhǔn)確率為84.15%,二型準(zhǔn)確率為84.22%,在僅使用定量指標(biāo)的基礎(chǔ)上分別提升了3.21%、2.73%、2.69%和3.22%。由實(shí)證結(jié)果可見,公司在年度財務(wù)報告中披露的文本風(fēng)險信息可以作為常用的定量指標(biāo)的有效補(bǔ)充,采用風(fēng)險可能性、長度、情感、可讀性及樣板性文本特征指標(biāo)能夠從文本中提取有效信息,并提高定量指標(biāo)對財務(wù)困境的預(yù)測能力。
為了檢驗(yàn)相比于常用的文本特征指標(biāo),本文構(gòu)建的風(fēng)險可能性指標(biāo)是否更適用于分析文本風(fēng)險信息,本節(jié)對各個文本特征指標(biāo)在預(yù)測財務(wù)困境時的重要度進(jìn)行分析。在本文選用的5種機(jī)器學(xué)習(xí)模型中,隨機(jī)森林和XGBoost是基于決策樹的集成模型,不僅能夠預(yù)測公司是否陷入財務(wù)困境,而且能夠評估預(yù)測時各個特征指標(biāo)的重要性[39]?,F(xiàn)有研究通常通過基尼重要度指標(biāo)來度量此類集成模型中特征指標(biāo)的重要性[39]。具體而言,在集成模型中的決策樹構(gòu)建過程中,需要根據(jù)特征變量對目標(biāo)變量的區(qū)分能力強(qiáng)弱選擇強(qiáng)特征作為樹節(jié)點(diǎn),區(qū)分能力的強(qiáng)弱則通過加入特征變量前后基尼系數(shù)的變化程度來刻畫,即基尼重要指數(shù)。當(dāng)特征指標(biāo)的基尼重要指數(shù)越大,則表示該特征的重要度越大,在模型預(yù)測過程中所提供的信息量越多。因此,本文通過度量隨機(jī)森林和XGBoost模型中特征變量的基尼重要度,分析各類文本特征指標(biāo)在財務(wù)困境預(yù)測中的重要度。
圖1 所示為本文構(gòu)建的風(fēng)險可能性指標(biāo)以及4種金融文本中常用的情感、可讀性、樣板性、長度和樣板性指標(biāo)的基尼重要度大小及其排序結(jié)果。由圖1可見,無論在隨機(jī)森林還是XGBoost模型中,風(fēng)險可能性指標(biāo)的基尼重要度都顯著高于4種常用的文本特征指標(biāo)。該結(jié)果表明,對于公司在年度財務(wù)報告中披露的文本風(fēng)險信息,本文根據(jù)該文本特點(diǎn)構(gòu)建的風(fēng)險可能性指標(biāo)更適用于提取該文本中包含的重要信息。在實(shí)際中,利用公司披露的文本風(fēng)險信息評估財務(wù)困境時,應(yīng)當(dāng)充分關(guān)注公司在描述文本內(nèi)容時的語氣強(qiáng)弱。當(dāng)文本中情態(tài)動詞的語氣越強(qiáng),說明披露的風(fēng)險對公司產(chǎn)生影響的可能性越大,該公司陷入財務(wù)困境的概率越大。
圖1 文本特征指標(biāo)的基尼重要指數(shù)大小排序
對公司財務(wù)困境的預(yù)警越早,越有利于市場投資者及時避免財務(wù)困境造成的風(fēng)險損失。因此,本節(jié)通過分析隨著財務(wù)困境預(yù)測的時間窗口的提前,模型效果的變化情況,探究公司在年報中披露的文本風(fēng)險信息能否提供更早的財務(wù)困境預(yù)警信號。在3.2節(jié)使用公司t-2年的信息預(yù)測t年是否陷入財務(wù)困境的基礎(chǔ)上,分別使用公司t-3、t-4年的信息預(yù)測t年是否陷入財務(wù)困境。為了確保不同預(yù)測時長下結(jié)果的可對比性,各模型的構(gòu)建及訓(xùn)練過程與3.2節(jié)保持一致。
圖2所示為不同預(yù)測時長下,僅使用定量指標(biāo)及引入刻畫財務(wù)報告中文本風(fēng)險信息的文本特征指標(biāo)后,運(yùn)用各類模型進(jìn)行財務(wù)困境預(yù)測得到的AUC值。由圖2各子圖中實(shí)線(左邊坐標(biāo)軸)可見,隨著預(yù)測時長從提前2年增加至提前4年,無論是僅使用定量指標(biāo),還是引入文本特征指標(biāo)后,各類模型預(yù)測效果的AUC 值都有所降低。此結(jié)果與Mayew等[4]和Mai等[9]基于MD&A 文本進(jìn)行不同時長的財務(wù)困境預(yù)測的研究結(jié)論一致,在預(yù)測公司未來更遠(yuǎn)的財務(wù)困境時,僅使用定量指標(biāo)或引入文本信息后所能提供的有效信息量會減少。值得注意的是,在定量指標(biāo)基礎(chǔ)上引入文本特征指標(biāo)后,各類機(jī)器學(xué)習(xí)方法的預(yù)測效果AUC值的下降趨勢更為緩慢。
圖2 不同預(yù)測時長下各類模型的財務(wù)困境預(yù)測效果
進(jìn)一步分別計算在2年、3年及4年的預(yù)測時長下,引入文本特征指標(biāo)前后AUC 值的變化。由圖2各子圖中虛線(右邊坐標(biāo)軸)可見,在5類機(jī)器學(xué)習(xí)方法下,隨著預(yù)測時長的增加,從文本風(fēng)險信息中提取的文本特征對預(yù)測效果AUC 值的提升值變得更大。該結(jié)果表明,定量指標(biāo)的預(yù)測能力隨時間窗口的提前逐漸下降;與此相反,本文引入的公司在財務(wù)報告中披露的文本風(fēng)險信息的預(yù)測能力并沒有下降,反而隨著預(yù)測時間的提前能夠提供更多的信息。本文分析主要原因是,相比于刻畫公司當(dāng)前經(jīng)營情況的財務(wù)及市場定量指標(biāo),財務(wù)報告中的文本風(fēng)險信息更為前瞻地披露了公司未來可能面臨的風(fēng)險情況[27],從而能夠提供更早的預(yù)警信息。因此,運(yùn)用財務(wù)報告中披露的文本風(fēng)險信息來輔助財務(wù)困境預(yù)測是必要且有效的。
在3.2節(jié)中是采用訓(xùn)練集80%、測試集20%的方式隨機(jī)劃分的數(shù)據(jù)集,除此之外,按年份時間節(jié)點(diǎn)劃分?jǐn)?shù)據(jù)集也是一類常用的方式[17,28]。為了檢驗(yàn)3.2節(jié)的結(jié)論是否受到數(shù)據(jù)集劃分方式的影響,將2006~2015年、2016~2020年間的公司樣本分別作為訓(xùn)練集和測試集,重復(fù)3.2節(jié)中模型的訓(xùn)練及測試得到財務(wù)困境預(yù)測結(jié)果。由表5可見,在定量指標(biāo)的基礎(chǔ)上,引入公司在財務(wù)報告中披露的文本風(fēng)險信息后,各類模型的效果依然有顯著的提升,XGBoost模型的AUC 值最高,為88.87%,共提升了3.55%。此結(jié)果表明,在不同的數(shù)據(jù)集劃分方式下,在定量指標(biāo)基礎(chǔ)上融入文本風(fēng)險信息依然能夠顯著提升財務(wù)困境的預(yù)測效果,驗(yàn)證了3.2節(jié)結(jié)論的穩(wěn)健性。
表5 按時間劃分樣本數(shù)據(jù)集的結(jié)果 %
財務(wù)困境預(yù)測問題一般存在著顯著的樣本不均衡問題,由于財務(wù)困境樣本的數(shù)量通常顯著小于非財務(wù)困境樣本,模型會傾向于將未知公司樣本預(yù)測為非財務(wù)困境類,從而導(dǎo)致模型難以正確預(yù)測財務(wù)困境樣本。在3.2 節(jié)中,采用了代價敏感學(xué)習(xí)方法[38]增加了損失函數(shù)中財務(wù)困境類樣本的權(quán)重,以處理樣本不均衡問題。除此之外,在數(shù)據(jù)預(yù)處理階段,對訓(xùn)練樣本進(jìn)行重新采樣也是一類常見的樣本不均衡處理方法[40],如過采樣方法生成額外的少數(shù)類樣本,或下采樣方法去除部分多數(shù)類樣本,從而使訓(xùn)練樣本中的各類樣本達(dá)到均衡。為了檢驗(yàn)3.2節(jié)的結(jié)論是否會受到樣本不均衡處理方法的影響,分別引入常用的SMOTE(Synthetic Minority Oversampling Technique)過采樣方法及隨機(jī)下采樣方法[40],對原始樣本進(jìn)行處理,采樣結(jié)果如表6所示。
表6 不均衡財務(wù)困境樣本重新采樣后的樣本分布
基于兩類重新采樣后的樣本得出的財務(wù)困境預(yù)測結(jié)果如圖3 所示。與3.2 節(jié)中的結(jié)論一致,不論采用過采樣還是下采樣方法,在定量指標(biāo)的基礎(chǔ)上引入文本風(fēng)險信息后,各類模型的預(yù)測效果AUC值都有顯著提升,證明了研究結(jié)論的有效性和穩(wěn)健型。
圖3 基于過采樣和下采樣樣本不均衡處理方法的預(yù)測效果
本文引入公司在財務(wù)報告中以文本形式披露的風(fēng)險信息進(jìn)行財務(wù)困境預(yù)測,并構(gòu)建了能刻畫所披露風(fēng)險對公司產(chǎn)生影響的可能性大小的文本特征指標(biāo),與其他常用文本特征指標(biāo)作為機(jī)器學(xué)習(xí)方法的預(yù)測變量,以進(jìn)行財務(wù)困境的預(yù)測。基于2006~2020年美國35 706個上市公司年度樣本進(jìn)行實(shí)證研究,主要結(jié)論包括:
(1) 在常用的財務(wù)及市場各類定量指標(biāo)的基礎(chǔ)上,引入公司披露的文本風(fēng)險信息可以顯著提升財務(wù)困境預(yù)測的準(zhǔn)確率。
(2) 與情感、可讀性、樣板性等常見的文本特征指標(biāo)相比,本文構(gòu)建的風(fēng)險可能性指標(biāo)更適用于分析財務(wù)報告中的風(fēng)險信息,且該指標(biāo)越大,即公司受所披露風(fēng)險影響的可能性越大時,公司越有可能出現(xiàn)財務(wù)困境。
(3) 隨著財務(wù)困境預(yù)測時間窗口的提前,引入的文本風(fēng)險信息能夠更為顯著地提升預(yù)測效果,即文本風(fēng)險信息能夠?yàn)樨攧?wù)困境提供較早的預(yù)警信息。
研究結(jié)果可以為市場參與者、監(jiān)管機(jī)構(gòu)在分析公司的財務(wù)困境風(fēng)險時提供新的數(shù)據(jù)視角,除了分析公司的財務(wù)、市場等各類定量數(shù)據(jù),還應(yīng)當(dāng)重點(diǎn)關(guān)注公司在財務(wù)報告中以文本形式披露的信息。未來研究可以考慮來自監(jiān)管機(jī)構(gòu)的問詢函、公司披露的關(guān)聯(lián)交易公告等多種類型的文本信息,從更多的角度分析公司的經(jīng)營和財務(wù)狀況,以幫助預(yù)測公司是否會陷入財務(wù)困境。