呂 品,武秦娟,許 嘉
1.廣西大學(xué) 計算機(jī)與電子信息學(xué)院,南寧530004
2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室,南寧530004
3.廣西高校并行分布式計算技術(shù)重點實驗室,南寧530004
上市公司對外發(fā)布的信息是人們掌握公司最新動態(tài)的第一手資料,這些信息中不僅包含結(jié)構(gòu)化的數(shù)值信息,如歷史股票數(shù)據(jù)[1]、財務(wù)比率[2]等,還包含大量的文本信息。其中數(shù)值信息的獲取和處理成本較低,蘊含的信息能比較直接地反映公司的經(jīng)營現(xiàn)狀。文本信息所占篇幅較大,信息獲取和處理的成本都更高,但它蘊含更豐富的信息量,如公司發(fā)展的相關(guān)細(xì)節(jié),對投資者決策行為具有重大影響。越來越多的學(xué)者對上市公司文本信息披露進(jìn)行研究。
公告是上市公司文本信息披露的主要載體。企業(yè)對公司有關(guān)事項主動披露,能夠減輕公司管理層和信息需求者的信息不對稱問題。為了讓外界對公司有全面的了解,公司對外公布的公告一般包含多個方面的內(nèi)容,比如反映公司運營狀況的業(yè)績報告,重大事項、重大風(fēng)險公告,停牌復(fù)牌的交易提示公告等。投資者通過閱讀公司公告可以了解公司的運營狀況,做出合理的投資決策;監(jiān)督機(jī)構(gòu)通過審核上市公司的日常公告,保證公司信息披露的質(zhì)量,有效維護(hù)投資市場的健康發(fā)展;對于公司本身來說,分析一些與企業(yè)經(jīng)營發(fā)展相關(guān)的運營數(shù)據(jù),能夠?qū)ζ髽I(yè)未來的發(fā)展趨勢做出預(yù)測,有利于企業(yè)未來戰(zhàn)略定位。
正確使用這些文本信息披露,能夠為個人投資策略制定、監(jiān)管機(jī)構(gòu)日常審計和企業(yè)實踐提供價值。但是,隨著企業(yè)信息披露日益增多,僅依靠人工追蹤和理解大量的金融文本信息變得困難。例如,為了理解年報中傳達(dá)的信息,分析師有時需要閱讀長達(dá)上百頁的年報,才能從中找出一些反映公司價值的信息。這個過程不僅耗時,而且成本較高。并且,文本披露中即使含有一些有價值的信息,也可能被淹沒在大量的數(shù)據(jù)中,投資者很難將這些信息與相應(yīng)的市場反應(yīng)聯(lián)系起來并做出合理的決策,容易導(dǎo)致自身投資出現(xiàn)虧損的情況,難以發(fā)揮這些金融信息的價值。
文本挖掘技術(shù)的發(fā)展使得自動分析上市公司文本信息披露成為可能。但是傳統(tǒng)的文本挖掘技術(shù)存在著信息提取效率不高的問題,而且在涉及具體領(lǐng)域的知識發(fā)現(xiàn)任務(wù)時,要求研究者有著比較豐富的領(lǐng)域知識。隨著機(jī)器學(xué)習(xí)在文本分析、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用的不斷深入,將該技術(shù)用于公司文本信息披露的分析,給市場提供了一個新的解決思路,成為一種流行的研究方向。近十年來,金融市場上關(guān)于上市公司文本信息披露的研究成果越來越多,研究者通過收集公司披露的文本信息,結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行建模訓(xùn)練,給出預(yù)測結(jié)果或分析結(jié)果,這些分析方法極大提高了信息獲取效率。本文對這些研究成果進(jìn)行了梳理歸納,以幫助讀者了解現(xiàn)有的發(fā)展?fàn)顩r。根據(jù)具體的應(yīng)用場景和數(shù)據(jù)特點,研究者們使用了不同的機(jī)器學(xué)習(xí)方法,大多數(shù)文獻(xiàn)的研究過程可以歸納為以下3個步驟,具體如圖1所示。
圖1 金融文本處理的三個步驟Fig.1 Three steps in financial text processing
(1)數(shù)據(jù)收集及預(yù)處理:數(shù)據(jù)預(yù)處理工作的基礎(chǔ)是確定研究需要使用的數(shù)據(jù)集。數(shù)據(jù)集一般包含兩個部分,一部分是研究需要的文本數(shù)據(jù)集,另一部分是與該研究相關(guān)的外生反饋數(shù)據(jù)集。例如對于股票預(yù)測問題,外生反饋數(shù)據(jù)集一般是該文本消息集公布后相對應(yīng)的股價反應(yīng)數(shù)據(jù)集。在構(gòu)建有效的實驗數(shù)據(jù)集后,需要對原始的數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理一般包含數(shù)據(jù)清洗、分詞、去除停用詞等過程。
(2)特征工程:特征工程主要包括特征提取和特征選擇。特征提取能選擇出一些具有代表性的詞,充分反映文本的信息。特征選擇在特征提取的基礎(chǔ)上,選擇出一組最優(yōu)的特征子集。特征提取和選擇的本質(zhì)是降維,通過領(lǐng)域知識創(chuàng)建一組最能代表原始數(shù)據(jù)的特征。
(3)模型構(gòu)建:數(shù)據(jù)預(yù)處理、特征工程是將文本轉(zhuǎn)化成為機(jī)器能夠理解的數(shù)學(xué)符號,模型構(gòu)建的過程是選擇合適的機(jī)器學(xué)習(xí)算法對變量進(jìn)行處理。不同的機(jī)器學(xué)習(xí)算法具有不同的優(yōu)勢,需要選擇與數(shù)據(jù)特征相契合的算法。
上市公司發(fā)布的文本披露包含多種事件類型,不同事件類型往往蘊含不同的信息量,適用于不同的金融場景。本章對不同事件類型文本披露的研究現(xiàn)狀進(jìn)行歸納,一方面有助于對不同事件類型文本披露的價值內(nèi)涵進(jìn)行探究,另一方面可提高信息獲取的效率。按照文本分析過程中使用的數(shù)據(jù)源的不同可將現(xiàn)有研究分為兩類:一類工作對多種事件類型的文本披露進(jìn)行聯(lián)合分析;另一類工作只分析某一特定事件類型的文本披露。
一種事件類型文本所包含的信息往往不全面,為此研究者將多種類型的數(shù)據(jù)集聯(lián)合分析,以宏觀把握公司文本信息披露對金融市場的影響。臨時公告是企業(yè)對外發(fā)布的一種重要類型的公告,包含多種事件類型(如會議決議、資產(chǎn)重組、人事變動以及收購兼并等事件),在企業(yè)對外披露的信息中占有很大比重。對臨時公告的研究有助于理解公司臨時發(fā)生的事件對金融市場造成的長短期影響,幫助投資者制定合理的投資策略,具有十分重要的研究價值。
文獻(xiàn)[3-7]將臨時公告作為新聞?wù)Z料庫,捕捉一些企業(yè)臨時事件對股票市場造成的影響。Groth等人[8]從公司臨時公告中提取信息,開發(fā)了一個預(yù)測系統(tǒng),研究企業(yè)臨時信息披露是否會對市場流動性造成影響。為了研究企業(yè)對外公布的金融事件是否包含風(fēng)險信息,文獻(xiàn)[9]提出了一種基于文本挖掘的日內(nèi)風(fēng)險預(yù)測模型。在數(shù)據(jù)收集的過程中,為了避免一些低質(zhì)量的新聞對模型的訓(xùn)練結(jié)果造成干擾,研究者構(gòu)造了一個預(yù)判模型,根據(jù)公司文本披露之后的市場波動大小來確定該披露是否納入預(yù)測模型,實驗表明使用這種方法構(gòu)造的數(shù)據(jù)集可以用來預(yù)測日內(nèi)風(fēng)險波動。
綜上所述,對多種事件類型的公告進(jìn)行聯(lián)合分析,有利于系統(tǒng)地識別上市公司臨時文本信息披露與股市、金融市場流動性以及企業(yè)未來風(fēng)險之間的聯(lián)系。但是,聯(lián)合分析法存在一定的局限:一是不同事件類型公告的信息發(fā)布側(cè)重點不同,造成的市場影響也不同。聯(lián)合分析法只能定性評估多種事件類型的公告是否會對市場造成影響,而難以對這些影響結(jié)果進(jìn)行量化。二是聯(lián)合分析法涉及多種事件類型的公告,各個事件類型的公告內(nèi)容差別較大,信息質(zhì)量也不一致,增加了分析難度。
企業(yè)對外公開披露的這些信息中,并不是所有的事件類型都能夠引起明顯的市場波動,一些日常的董事會決議報告、工商變更登記等,對市場的影響很小,一般不會引起投資者的過分關(guān)注,因而對上市公司公告的研究也集中在一些特定的事件類型中。按照不同的維度對研究的文獻(xiàn)進(jìn)行分類,可以分為以下五類:第一類是財務(wù)文本信息披露,如收益公告、股利變動公告;第二類是定期文本披露,如年報、季報等;第三類是提示信息,如澄清公告、風(fēng)險提示信息等;第四類是重大事項公告,如董事會變動公告、收購兼并消息等;第五類是其他類型的公告,如補(bǔ)充更正公告等。下文按照這種分類方式進(jìn)行總結(jié)。
1.2.1 財務(wù)文本信息披露
財務(wù)披露是指公司披露的有關(guān)其財務(wù)狀況、經(jīng)營績效和發(fā)展前景的信息,一般包括數(shù)字指標(biāo)和文本描述。文本描述部分是對數(shù)字信息的細(xì)化和補(bǔ)充,可以幫助信息的需求者更加全面地了解企業(yè)信息。
收益公告是上市公司對其一段時間內(nèi)的盈利和收入情況進(jìn)行披露的文件。作為上市公司財務(wù)狀況披露的重要載體之一,收益公告的發(fā)布一般會對投資市場帶來信息沖擊,引起市場價格的波動。Truong等人[10]采用收益公告發(fā)布后隱含波動率的變化來研究期權(quán)市場對收益消息的反應(yīng),隱含波動率的變化可以很好地反映期權(quán)價值的總體變化。實驗結(jié)果表明,盈利公告對期權(quán)市場短期波動和長期波動都有重要影響,而且對短期波動的影響更為顯著。文獻(xiàn)[11]證明了債券價格對收益公告的反應(yīng)能夠被用于預(yù)測未來的股票市場收益,該研究結(jié)果加深了對股票市場和債券市場之間關(guān)系的理解。
收益公告中披露的公司業(yè)績狀況是投資者判斷公司內(nèi)在價值的重要參考信息。股利分配是上市公司針對其收益狀況對盈利進(jìn)行分配或者留存再投資的決策行為,是投資收益的重要組成部分。股利公告是董事會對股利的支付情況予以說明的文件,一直是學(xué)者研究的熱點。為了探究股利公告對金融市場的影響,Hu等人[12]分析了中國市場上股利公告對股票價格的影響,發(fā)現(xiàn)股利增加公告發(fā)布后,股票價格隨之上漲;但是在股利減少的公告日上,股利公告對股票價格的負(fù)面影響并不顯著。一些研究表明,股利公告的發(fā)布會對投資者的行為造成影響,如交易行為和賣空行為等[13-14]。這些研究成果對于理解金融市場提供了一定的幫助,但是,市場對同一類型公告在不同經(jīng)濟(jì)發(fā)展?fàn)顩r、市場背景下的反應(yīng)有待進(jìn)一步探究。經(jīng)濟(jì)的發(fā)展?fàn)顩r會影響股民的情緒,導(dǎo)致股票市場對同一公告的反應(yīng)存在差異。Khanal等人[15]研究了美國蕭條時期股價對股利公告的反應(yīng),發(fā)現(xiàn)這個時期股票市場的異常收益明顯小于經(jīng)濟(jì)平穩(wěn)時的異常收益。這可能是因為經(jīng)濟(jì)的持續(xù)衰退削減了投資者的信心,導(dǎo)致投資者積極性不高,從而對股票市場產(chǎn)生一定的影響。
財務(wù)重述公告是企業(yè)為了糾正之前發(fā)布的財務(wù)數(shù)據(jù)中的問題而發(fā)布的一類公告。財務(wù)重述公告一般會在資本市場中引起負(fù)面的反應(yīng),對公司發(fā)展造成一系列不利的后果。Albring等人[16]探究了財務(wù)重述公告對企業(yè)發(fā)展的影響。研究結(jié)果表明,在公司發(fā)布財務(wù)重述公告之后,公司的整體增長率會下降,此外不同情況下財務(wù)重述公告對公司影響不同:財務(wù)重述公告對那些發(fā)布了虛假信息報告的公司影響更大,而對一些糾正以前會計錯誤的公司影響相對較小。文獻(xiàn)[17]從財務(wù)重述的角度探究了中國市場上的公司財務(wù)報告質(zhì)量。研究結(jié)果表明中國資本市場在過去幾年確實存在著一些質(zhì)量不高的財務(wù)報告,但是伴隨著監(jiān)督機(jī)構(gòu)監(jiān)管力度的增強(qiáng),公司發(fā)布重述公告的頻率有所下降,企業(yè)披露信息質(zhì)量不高的問題得到改善。
1.2.2 定期文本信息披露
定期報告主要有年報、季報和中期報告等。在定期的文本披露中,年報是被最廣泛研究的數(shù)據(jù)形式。它是上市公司對上一年經(jīng)營活動和未來發(fā)展的客觀描述,是企業(yè)信息披露的核心內(nèi)容之一。年報的內(nèi)容一般比較固定,除了財務(wù)報告之外,還包括公司的基本情況簡介、股東及其變動情況等11個部分,其中,“管理層討論與分析”(簡稱“MD&A”)是年報中最重要的部分之一,不僅包含公司對財務(wù)報表的進(jìn)一步解釋和分析,而且包含管理層對未來發(fā)展經(jīng)營狀況的預(yù)測,一些公司發(fā)展過程中存在的風(fēng)險和不確定性因素也包含在內(nèi)[18]。MD&A作為反映公司績效和戰(zhàn)略風(fēng)險的重要部分,受到了越來越多的關(guān)注。研究發(fā)現(xiàn),使用美國上市公司年報(10-k)的MD&A部分,不僅能夠有效識別欺詐行為[19-22],還能預(yù)測破產(chǎn)事件[23]。
大多數(shù)使用年報進(jìn)行分析的文獻(xiàn)都傾向于對文本的語言特征和情感傾向進(jìn)行研究。語言的特征隱含管理層的真實心理,是傳遞公司發(fā)展的一種重要信號。一些學(xué)者發(fā)現(xiàn),年報敘述部分語氣的積極程度[24]、表達(dá)語調(diào)[25]、語氣特征[26]等與未來的市場反應(yīng)有關(guān),可以用于預(yù)測未來公司業(yè)績。陳藝云[27]發(fā)現(xiàn)中文年報MD&A部分的語調(diào)包含預(yù)測財務(wù)困境的增量信息,這些增量信息可以用于提高企業(yè)財務(wù)困境的預(yù)測準(zhǔn)確率。情感詞匯包含一些管理層的主觀判斷,也是一種重要的金融分析預(yù)測方法。通過情感分析可以得出其褒貶性傾向,發(fā)現(xiàn)管理人員的真實意圖,為企業(yè)管理提供決策信息[28]。Tsai等人[29]證明,使用情緒分析法能夠有效降低文本的維度,預(yù)測公司未來的風(fēng)險。有學(xué)者證明公司年報中提取的情緒特征,能夠用于公司股票市場的未來收益預(yù)測[30]。
以上文獻(xiàn)說明了年報中的情感傾向和語言特征在公司披露文本信息挖掘中的重要性。企業(yè)定期披露除了包含與公司發(fā)展有關(guān)的語言特征和情感傾向之外,其他特征因子也可用于文本分析。有學(xué)者發(fā)現(xiàn),從公司披露的年報或季報中提取一些風(fēng)險因子,能夠用于風(fēng)險預(yù)測[31],幫助利益相關(guān)者制定合理和及時的風(fēng)險管理策略[32]。此外,一些學(xué)者利用企業(yè)信息披露的時間這一特征進(jìn)行研究,分析了公司信息披露時間與企業(yè)舞弊行為的聯(lián)系。研究結(jié)果表明一些公司通過把握重大信息披露的時機(jī),利用投資者注意力的變化來隱藏壞消息。監(jiān)督機(jī)構(gòu)可以有效利用這一特征,檢查一些公司有無違規(guī)行為[33]。
上述研究表明,企業(yè)定期文本披露中含有大量有用的價值信息,通過對文本的語調(diào)、情感傾向、語言風(fēng)格、可讀性等特征進(jìn)行分析,能夠?qū)Χㄆ谖谋九缎畔⒌膬r值內(nèi)涵進(jìn)行深入探究。這些研究成果能夠為企業(yè)業(yè)績預(yù)測、價值識別、風(fēng)險預(yù)警等眾多場景提供預(yù)測價值。
1.2.3 提示信息
公司對外發(fā)布的提示信息如操作風(fēng)險提示、交易異動提示等信息對于投資者了解公司風(fēng)險、把握投資時機(jī)具有重要意義。此外一些其他類型的提示信息如停牌信息、澄清信息等在保障投資者利益、穩(wěn)定市場波動方面發(fā)揮著重要作用,因而一些學(xué)者探究了這些類型的公告信息對市場造成的影響。
企業(yè)發(fā)展中存在的一些不安全事件如業(yè)務(wù)中斷、系統(tǒng)故障等風(fēng)險可能對公司造成不利的影響,企業(yè)有必要及時將這些信息告知投資者。Barakat等人[34]的研究表明操作風(fēng)險的發(fā)生可能會增加企業(yè)與投資者之間的信息不對稱程度。此外該實驗結(jié)果表明,在操作風(fēng)險公告首次發(fā)布前后,投資者交易量大幅增加,市場流動性整體改善。該研究有助于理解企業(yè)發(fā)布操作風(fēng)險公告的事件后果。
一些停牌信息可能對市場造成影響。停牌是因為某些原因造成的公司股票價格連續(xù)上升或者下降,證券交易所暫時停止該公司的股票交易,避免股價異常波動對投資者利益造成損害。Jiang等人[35]收集了公司的停牌公告,建立基于該類型公告的預(yù)測模型,探究停牌公告是否會引起股票價格的波動。實驗數(shù)據(jù)表明,股票停牌期間的公告會造成異常的市場收益。陳舒寧等人[36]利用事件分析法對比了深圳交易所取消交易停牌制度前后中小板的股票異常數(shù)據(jù),結(jié)果顯示停牌公告在短期內(nèi)對中小板的市場波動具有穩(wěn)定作用,但長期的穩(wěn)定作用并不顯著。
市場上流傳的一些謠言或者猜測可能對公司形象不利,誤導(dǎo)消費者的行為,也可能對市場造成波動。為此,公司需要立即對這些事情進(jìn)行澄清,投資者收到這些澄清的消息之后會做出相應(yīng)的反應(yīng),從而引起股價的二次波動。文獻(xiàn)[37]探究了公司傳聞、澄清公告和賣空交易行為之間的聯(lián)系。研究結(jié)果表明賣空者能夠提前探知公司的傳聞信息,并且能夠?qū)Τ吻骞娴慕Y(jié)果進(jìn)行預(yù)先判斷做出合理的決策。文獻(xiàn)[38]探究了在不同背景下(熊市和牛市)投資者在澄清公告前后的反應(yīng)是否一致。通過建立謠言和澄清模型,作者發(fā)現(xiàn)熊市和牛市投資者對澄清公告的反應(yīng)是一致的,當(dāng)謠言出現(xiàn)時,投資者具有比較強(qiáng)烈的反應(yīng),而且好消息比壞消息反應(yīng)更強(qiáng)烈,此外投資者會傾向忽略澄清公告。
1.2.4 重大事項公告
上市公司會對近期內(nèi)公司發(fā)生的一些重大事項對外進(jìn)行披露,從而引起股價的變化。Negre等人[39]探究了法國公司宣布裁員公告之后投資者的反應(yīng)。研究結(jié)果表明,當(dāng)公司對外宣布裁員事件時,市場會做出負(fù)面的反應(yīng)。公司管理層變動消息一般也會引起投資者的關(guān)注。文獻(xiàn)[40]通過分析CEO繼任公告發(fā)布之后的推特情緒,預(yù)測公司股票收益。研究發(fā)現(xiàn),高水平的推特情緒特征往往與較低的未來超額回報相聯(lián)系,這一研究表明社交媒體上的信息可以幫助投資者和公司做出決策。
兼并收購、資產(chǎn)重組作為企業(yè)的一個重大事項,能夠?qū)镜氖兄诞a(chǎn)生影響。文獻(xiàn)[41]研究了上市公司兼并收購行為對公司市值管理的影響。研究結(jié)果表明,兼并收購行為的確能夠提升市值,但是如果企業(yè)在收購后沒有很好地整合雙方資源,兼并帶來的市值增長并不穩(wěn)定。文獻(xiàn)[42]探究了兼并收購和融資事件在公告發(fā)布前后是否會對股票市場造成影響,這些影響包括股票的交易量、收益率波動性和定價效率。研究發(fā)現(xiàn),公司兼并收購事件并未顯著改變股票的交易流動性。該研究結(jié)果將有助于監(jiān)管決策者、計劃重組活動的公司理解公司重組事件對市場造成的影響。文獻(xiàn)[43]以企業(yè)發(fā)布的重大資產(chǎn)重組公告為研究對象,探究該類型的公告對股票買賣的操作方向和累積超額收益的影響。實驗結(jié)果表明,公告發(fā)布后短期時間內(nèi)投資者會選擇賣出該類公告對應(yīng)的股票,且投資者的累積收益為負(fù)。文獻(xiàn)[44]以重大關(guān)聯(lián)銷售事項為研究對象,探究了該類型事件對中國A股市場的影響。研究表明市場對該類型的公告反應(yīng)不足,事件發(fā)生后一般只產(chǎn)生微弱的正向反應(yīng)。
1.2.5 其他類型公告
一些企業(yè)日常的一些補(bǔ)充說明、信息變更,對市場造成的影響不大,但也有少數(shù)學(xué)者對其進(jìn)行了研究。文獻(xiàn)[45]探究了控制權(quán)變更公告在首次披露日和正式披露日對市場的影響,檢驗首次公告效應(yīng)和正式實施公告效應(yīng)是否具有時差效應(yīng)。實驗結(jié)果表明控制權(quán)變更公告在首次公告日和正式公告日均對股價具有正向沖擊效應(yīng),但是公告披露后對累積收益的影響相反。Rosati等人[46]調(diào)查了受數(shù)據(jù)泄露影響的公司,發(fā)布社交媒體信息是否會對公司股價造成影響,以判斷企業(yè)采用這種對外解釋的方式是否加劇了數(shù)據(jù)泄露的成本。數(shù)據(jù)分析表明,通過社交媒體發(fā)布數(shù)據(jù)泄露的公告會對股價產(chǎn)生負(fù)面影響,導(dǎo)致在兩天的事件周期內(nèi)股價平均額外下跌1.2%。
通過對不同類型公告的研究現(xiàn)狀進(jìn)行歸納梳理,可以發(fā)現(xiàn)現(xiàn)有針對上市公司文本信息披露的研究主要集中在財務(wù)文本信息披露和公司定期文本信息披露兩類事件類型中。大多數(shù)投資者對與財務(wù)相關(guān)的信息表現(xiàn)出高度的敏感性,公司發(fā)布的收益變化、股利變動以及財務(wù)重述等信息都能引起投資者的廣泛關(guān)注,造成金融市場的波動。財務(wù)文本信息披露作為企業(yè)對外披露的一類重要文件,具有重要的研究價值。通過識別不同內(nèi)容的財務(wù)文本信息披露對市場造成的影響,有助于投資者從公告發(fā)布的反應(yīng)中尋找投資機(jī)會,構(gòu)建事件交易策略,提高投資收益。定期文本信息披露中包含公司對一段時間內(nèi)發(fā)展?fàn)顩r的總結(jié)信息和未來的前瞻性描述信息,這些信息對于投資者識別公司價值、判斷公司未來發(fā)展起著重要作用,對市場沖擊較大,獲得的關(guān)注也更多。
重點闡述了如何從公司文本信息披露中提取有價值信息,對公司文本信息披露中常用的機(jī)器學(xué)習(xí)算法以及這些算法的優(yōu)缺點進(jìn)行了總結(jié)。這些算法不僅包含傳統(tǒng)的回歸分析(regression analysis method)算法、樸素貝葉斯算法(Naive Bayesian Model,NBM),還有一些以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)為代表的深度學(xué)習(xí)算法。
在研究不同類型的公告對市場的影響時,事件分析法和回歸分析法是兩種常用的模型。事件分析法一般使用某類公告發(fā)布后特定時間窗口內(nèi)的超額收益、平均超額收益等衡量特定事件對公司的影響?;貧w分析法通過建立選定變量與超額收益之間的回歸方程,根據(jù)回歸系數(shù)的大小、顯著程度判斷公告信息對市場的影響。這兩種方法的分析過程雖然存在一定的差別,但是在分析的過程中都需要建立回歸方程進(jìn)行回歸分析。事件分析法一般用回歸模式計算事件發(fā)生后的累積影響?;静襟E如圖2所示,從中可以看出,建立回歸方程,檢驗信息披露前后的市場變化是事件分析的重要環(huán)節(jié)。因此,本文將事件分析法納入回歸分析的范疇。
圖2 事件分析法的一般過程Fig.2 General process of event analysis
Leitch等人[40]運用事件分析法探究了公司發(fā)布CEO繼任公告之后,Twitter上的股民情緒對股票回報率的影響。他們將社交情緒得分和其他變量作為自變量,建立回歸方程計算累積異常收益。文獻(xiàn)[25]用公司累積收益作為檢驗方法,探究公司年報敘述部分的基調(diào)(即管理層對公司對未來收益或者發(fā)展方向的正面或者負(fù)面的評價)對企業(yè)當(dāng)前業(yè)績和盈余持久性的影響。分析結(jié)果顯示,公司當(dāng)前的業(yè)績越好,公司年報的基調(diào)越積極,未來收益持久性就越差。事件分析法是一種有效的金融分析工具,分析過程中假定只有一個類型的事件對公司的收益造成影響。但是現(xiàn)實的情況一般比較復(fù)雜,某一次市場的波動可能與多個金融事件相關(guān)聯(lián),因此事件分析法存在一定的缺陷。
回歸分析可以判斷自變量和因變量之間的關(guān)系。在進(jìn)行回歸分析之前,首先要對變量進(jìn)行相關(guān)分析,皮爾遜相關(guān)系數(shù)、單變量分析法都是一種常用的分析方法[24]。分析的結(jié)果可以為兩個變量之間是否具有一定的關(guān)系提供初步的證據(jù),只有當(dāng)兩個變量之間存在明確的相關(guān)關(guān)系時,建立回歸方程才有意義。文獻(xiàn)[47]通過建立回歸方程,控制其他變量,觀察MD&A對公司財務(wù)績效的影響。實驗結(jié)果證明了公司MD&A信息披露與財務(wù)績效顯著正相關(guān),可以用作未來公司業(yè)績預(yù)測。文獻(xiàn)[48]的回歸分析結(jié)果表明,年報中的管理層超額樂觀語調(diào)指標(biāo)與企業(yè)財務(wù)危機(jī)負(fù)相關(guān)。
綜上所述,回歸分析可以精準(zhǔn)地評估各個因素之間的相關(guān)程度。但是,該方法只能對線性關(guān)系進(jìn)行擬合,不能擬合非線性關(guān)系?,F(xiàn)實狀況下很多變量之間的關(guān)系并不能簡單地使用線性關(guān)系來描述,尤其是在處理文本的非線性和高維特征時存在很大限制。
支持向量機(jī)(Support Vector Machine,SVM)算法以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),能夠解決非線性、高維度、樣本有限的問題,被認(rèn)為是一種優(yōu)秀的文本分類算法,具有良好的推廣性能。SVM可以被用在金融事件的與預(yù)測問題中,如欺詐行為檢測[35,49]、新聞發(fā)布之后產(chǎn)生的流動性沖擊影響預(yù)測等[8]。
一些學(xué)者將SVM作為預(yù)測模型,并用其他的分類器做對比,實驗結(jié)果證明SVM擁有最好的結(jié)果。其中,文獻(xiàn)[50]用支持向量機(jī)預(yù)測公告消息發(fā)布后所帶來的股價影響,并比較了人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)、樸素貝葉斯和SVM的預(yù)測性能,發(fā)現(xiàn)SVM的預(yù)測性能最佳。有學(xué)者使用了4個分類器預(yù)測公告發(fā)布之后的日內(nèi)市場波動[9]:K近鄰算法(K-Nearest Neighbor,KNN)、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)和SVM,實驗結(jié)果表明,SVM在解決風(fēng)險評估問題時效果最好。文獻(xiàn)[51]為了研究公司文本信息披露之后是否會產(chǎn)生顯著的股價波動,選擇SVM作為數(shù)據(jù)挖掘算法分類器,證明了SVM的分類結(jié)果優(yōu)于其他幾個分類算法。
綜上所述,SVM在高維、非線性問題的文本分類問題中具有很大的優(yōu)勢,在股價預(yù)測、日內(nèi)波動檢測、欺詐行為檢測等場景中都能取得較高的分類準(zhǔn)確率。此外,SVM具有較好的泛化性能,計算開銷也比較小。但是,SVM在文本分類問題中也存在一些限制,比如算法的精度在很大程度上依賴于核函數(shù)的選擇。另外,在樣本量較大的問題中SVM的訓(xùn)練時間過長。因此,在一些預(yù)測問題中,為了獲得更好的分類效果,需要結(jié)合其他算法對支持向量機(jī)的性能進(jìn)行改進(jìn)。文獻(xiàn)[52]提出了一個基于模糊超平面的雙核支持向量機(jī)算法用于股價分析,模糊集能夠處理金融新聞中引入的大量噪聲,使得股價的預(yù)測更加準(zhǔn)確。
樸素貝葉斯是被廣泛使用的分類器之一,其所需的參數(shù)較少,算法也比較簡單,能夠解決一些場景下的金融文本分類問題。Feng[53]使用了樸素貝葉斯算法對年報中MD&A部分的前瞻性敘述的信息內(nèi)容進(jìn)行分析。研究結(jié)果表明,前瞻性敘述披露的平均基調(diào)與未來收益正向關(guān)。文獻(xiàn)[54]使用了樸素貝葉斯主題建模算法量化了年報敘述性披露部分的主題內(nèi)容,實驗證明樸素貝葉斯算法能夠產(chǎn)生一組有意義的主題用來預(yù)測財務(wù)誤報事件。對于大規(guī)模的訓(xùn)練集,樸素貝葉斯一般能取得好于其他模型的分類效果[55]。有學(xué)者使用了14個分類器用于財務(wù)報表弊端的智能檢測[22],這些分類器包括:邏輯回歸(Logistic Regression,LR)模型、樸素貝葉斯分類器、支持向量機(jī)、決策樹(Decision Tree)、人工神經(jīng)網(wǎng)絡(luò)等,對比結(jié)果顯示,樸素貝葉斯在欺詐檢測問題上的準(zhǔn)確率最高,這一研究成果可以為一些開發(fā)智能欺詐檢測的研究者在選擇合適的機(jī)器學(xué)習(xí)算法時提供借鑒。樸素貝葉斯在訓(xùn)練的過程中對缺失數(shù)據(jù)并不敏感,所需估計的參數(shù)也比較少,但是該算法假定樣本屬性之間是不相關(guān)的,故樸素貝葉斯在樣本屬性相關(guān)性比較大的分類問題中效果并不好。
決策樹是一種常見的機(jī)器學(xué)習(xí)算法,能夠?qū)W習(xí)對帶有分類標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行正確分類。在遞歸的訓(xùn)練過程中,決策樹一般通過信息增益來選擇屬性。在財務(wù)預(yù)測任務(wù)中,Chan等人[56]從文本信息的淺文本模式中提取事件序列,并使用基于決策樹分類器的推理引擎預(yù)測金融事件發(fā)生的可能性。實驗結(jié)果表明,基于決策樹構(gòu)建的決策系統(tǒng)能夠揭示事件之間的隱藏規(guī)律,預(yù)測未來的股票價格變動趨勢。決策樹能直觀地顯示其決策過程,生成容易理解的分類規(guī)則。但是,在訓(xùn)練過程中對訓(xùn)練樣本的數(shù)據(jù)特征擬合過于精確,無法對新的樣本進(jìn)行合理分析,容易出現(xiàn)過擬合現(xiàn)象。此外,對于新加入的樣本,需要重新調(diào)整樹的結(jié)構(gòu)以訓(xùn)練新的規(guī)則。
深度學(xué)習(xí)具有很強(qiáng)的學(xué)習(xí)能力,“多隱層”網(wǎng)絡(luò)結(jié)構(gòu)使得它擅長捕捉高度非線性的關(guān)系。傳統(tǒng)的機(jī)器學(xué)習(xí)算法如決策樹、樸素貝葉斯等雖然適合龐大的數(shù)據(jù)集處理,但是在處理文本的非線性特征時仍然存在很多局限,比如決策樹算法受限于樹結(jié)構(gòu)的約束,很難學(xué)習(xí)到變量之間錯綜復(fù)雜的非線性關(guān)系。在一些金融預(yù)測問題中,深度學(xué)習(xí)模型確實能取得好于傳統(tǒng)機(jī)器學(xué)習(xí)模型的分類準(zhǔn)確率。有學(xué)者評估了不同預(yù)測算法對于建模性能的影響,使用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)、決策樹和邏輯回歸三種不同的建模算法預(yù)測股票收益,多次實驗結(jié)果證明了前饋神經(jīng)網(wǎng)絡(luò)算法的優(yōu)越性能[57]。Feuerriegel等人[58]采用遞歸自動編碼器(Recursive Autoencoders)從底層文本語料庫中學(xué)習(xí)合適的特征,預(yù)測公司文本信息披露后的股票價格走勢,實驗獲得了比隨機(jī)森林(Random Forest)算法高5.66%的精度。
將情感分析與深度學(xué)習(xí)模型相結(jié)合可以提高文本分類的準(zhǔn)確率。Lutz等人[59]采用長短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來學(xué)習(xí)基于句子級別的新聞極性(積極和消極)以預(yù)測股票市場的收益,實驗結(jié)果表明該方法優(yōu)于普通的基于詞語和文檔級別的分析方法。
在一些研究中,對神經(jīng)網(wǎng)絡(luò)的模型改進(jìn)有助于提高預(yù)測效率。文獻(xiàn)[60]使用RNN和CNN預(yù)測財務(wù)資料披露后的股票收益,采用遷移學(xué)習(xí)(Transfer Learning)調(diào)整模型的性能。分析結(jié)果顯示,當(dāng)進(jìn)一步使用遷移學(xué)習(xí)對模型進(jìn)行預(yù)訓(xùn)練時,分類準(zhǔn)確率得到進(jìn)一步增強(qiáng)。進(jìn)一步的研究發(fā)現(xiàn),使用深度學(xué)習(xí)的文本預(yù)測模型有時能取得比數(shù)值模型更好的預(yù)測效果。文獻(xiàn)[61]提出了一個由卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)組成的網(wǎng)絡(luò)結(jié)構(gòu),并加入注意力機(jī)制來突出對預(yù)測結(jié)果重要的單詞。將構(gòu)建的模型與基于數(shù)值據(jù)的預(yù)測模型進(jìn)行了對比,發(fā)現(xiàn)文本構(gòu)建模型的預(yù)測準(zhǔn)確率明顯好于數(shù)值對比模型。此外,一些實驗結(jié)果表明,當(dāng)文本數(shù)據(jù)和傳統(tǒng)的數(shù)值變量一起使用時,深度學(xué)習(xí)的預(yù)測精度可以進(jìn)一步提高。文獻(xiàn)[23]首先利用深度學(xué)習(xí)分別驗證了基于文本和數(shù)據(jù)的獨立預(yù)測能力,最后將兩者結(jié)合進(jìn)行分析預(yù)測,實驗表明混合數(shù)據(jù)源能取得比單一數(shù)據(jù)源(文本或者數(shù)值)更高的精度。
深度學(xué)習(xí)克服了傳統(tǒng)文本挖掘方法的局限,但是其模型的構(gòu)造是一項非常具有挑戰(zhàn)性的任務(wù),需要廣泛的參數(shù)調(diào)整才能取得比較好的效果。此外,深度學(xué)習(xí)模型的可解釋性較差,模型內(nèi)部結(jié)構(gòu)非常復(fù)雜,一般很難判斷訓(xùn)練出來模型是如何得到最終的預(yù)測結(jié)果的。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的基本思想是以試錯的方式不斷學(xué)習(xí),從環(huán)境的交互中不斷學(xué)習(xí)以達(dá)成回報最大化。這種方法試圖復(fù)制人類的學(xué)習(xí)方式,因此非常適合自然語言處理。有學(xué)者使用強(qiáng)化學(xué)習(xí)的技術(shù)來支持金融決策,并通過否定范圍檢測來改進(jìn)情感分析,克服基于規(guī)則的算法和基于概率生成模型在否定范圍檢測中的局限性,使分類精度達(dá)到70.17%[6]。文獻(xiàn)[62]使用強(qiáng)化學(xué)習(xí)的方法識別金融中的否定詞,以便正確衡量句子的極性,提高股票預(yù)測的準(zhǔn)確率。Ye等人[63]提出了一個強(qiáng)化學(xué)習(xí)的框架用于投資組合管理,該強(qiáng)化學(xué)習(xí)框架能夠?qū)?shù)值和上市公司文本數(shù)據(jù)整合起來,克服金融系統(tǒng)的不穩(wěn)定性,獲得累積收益的同時降低投資風(fēng)險。
強(qiáng)化學(xué)習(xí)在訓(xùn)練數(shù)據(jù)的過程中無需標(biāo)記,通過反復(fù)的實驗來學(xué)習(xí)合適的分類,在文本分析的過程中可以對任意長度的復(fù)雜句子進(jìn)行分析。目前強(qiáng)化學(xué)習(xí)在文本分析中的應(yīng)用還比較有限,伴隨著強(qiáng)化學(xué)習(xí)技術(shù)的不斷成熟和自然語言處理技術(shù)的不斷進(jìn)步,可以預(yù)見未來借助強(qiáng)化學(xué)習(xí)的力量,自然語言處理中的一些問題能夠得到有效的解決。
本節(jié)對上市公司文本披露的智能分析方法做了一個總結(jié)。文獻(xiàn)中使用的模型可以概括為兩類:分析模型和預(yù)測模型。分析模型可以評估變量之間的相關(guān)關(guān)系,回歸分析是一種常用的方法。預(yù)測模型包含:樸素貝葉斯算法、決策樹、支持向量機(jī)等機(jī)器學(xué)習(xí)模型。表1對文獻(xiàn)中使用的機(jī)器學(xué)習(xí)的優(yōu)缺點進(jìn)行了總結(jié)。從表1中可以看出,支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)是兩種常用的預(yù)測模型,在文本分類中取得較高的分類準(zhǔn)確率。支持向量機(jī)能捕獲數(shù)據(jù)的內(nèi)在特征,并嵌入了結(jié)構(gòu)風(fēng)險最小化原則使每個子集都能取得最小的經(jīng)驗風(fēng)險。神經(jīng)網(wǎng)絡(luò)適合高維非線性數(shù)據(jù)處理。但是,目前沒有一個模型能很好地應(yīng)用于所有金融事件的分析中,每一個算法都存在相應(yīng)的缺陷。比如,支持向量機(jī)是一種優(yōu)秀的文本分類算法,但在一些數(shù)據(jù)規(guī)模較大的問題中分類效果不如樸素貝葉斯。
表1 各機(jī)器學(xué)習(xí)模型在應(yīng)用中的優(yōu)缺點總結(jié)Table 1 Summary of advantages and disadvantages of each machine learning model in application
基于機(jī)器學(xué)習(xí)的文本分析技術(shù)充分發(fā)揮了公司文本信息披露的數(shù)據(jù)價值,目前該技術(shù)已經(jīng)在金融領(lǐng)域的眾多場景中得到了廣泛的應(yīng)用,如:股票市場分析預(yù)測、投資組合問題、決策支持、金融風(fēng)險管理、企業(yè)舞弊行為檢測和公司未來發(fā)展?fàn)顩r預(yù)測等,本章將對這些應(yīng)用場景進(jìn)行總結(jié)。
股票的走勢不僅反映著近期市場的變化,也與投資者的個人利益息息相關(guān),合理的股票預(yù)測有助于投資者做出正確的投資決策,降低投資風(fēng)險。股票預(yù)測問題按照研究對象的不同可以分為股票價格預(yù)測和股票指數(shù)預(yù)測。其中,股票價格預(yù)測是針對具體的上市公司進(jìn)行的,能夠反映企業(yè)資產(chǎn)的價值。股票指數(shù)是證券交易所編制的一種表明市場行情變動的指示數(shù)字,反映市場的整體變動趨勢。
3.1.1 股票價格分析預(yù)測
股票價格預(yù)測一直是金融領(lǐng)域的重要研究點,以往的研究大多數(shù)依賴于數(shù)字信息的分析,但是這種分析方法忽略了現(xiàn)實世界不斷發(fā)生的一些事件對股票造成的影響。近些年,大量可獲得的在線文本信息和計算機(jī)技術(shù)的發(fā)展促進(jìn)了文本分析預(yù)測股價的研究。有學(xué)者從大量的公司在線新聞中提取隱藏的主題和情感信息用于公司股價預(yù)測[52]。Hu等人[64]從人類的學(xué)習(xí)過程中受到啟發(fā),設(shè)計了一個基于混合注意力機(jī)制的金融新聞股價預(yù)測系統(tǒng)。實驗發(fā)現(xiàn)利用該系統(tǒng)交易能產(chǎn)生可觀的利潤。此外,一些學(xué)者致力于開發(fā)混合新聞和數(shù)值分析的預(yù)測系統(tǒng),以獲得更高的股價預(yù)測精度[57]。
一般情況下,要用公司發(fā)布的文本數(shù)據(jù)預(yù)測股價,不僅需要選定的文本信息,還需要能夠反映股價變化的數(shù)值信息,如開盤價和收盤價等。如果僅僅對未來的股價走向進(jìn)行預(yù)測,那么研究的問題一般是一個分類問題[8,50,58]。這種不精確的預(yù)測雖然可以作為投資者做出決策的依據(jù),但是大多數(shù)投資者還是希望能夠精準(zhǔn)地預(yù)測股價的漲跌程度,回歸分析法能夠?qū)善钡臐q跌程度進(jìn)行擬合[24,29,58]。
很多投資者依據(jù)公司文本信息披露做出買賣股票的決定。目前依靠公司文本信息披露建立股市預(yù)測模型是一項具有挑戰(zhàn)性的任務(wù)[65],這是因為使用一則公司文本信息披露對股市進(jìn)行預(yù)測往往不能得到準(zhǔn)確的結(jié)果,在實際中股市的走向常常受到多條新聞的綜合影響,這種新聞之間的相互作用增加了預(yù)測的難度。
3.1.2 股票指數(shù)預(yù)測
通常情況下,一個股票指數(shù)由多支股票組成。由此,股指預(yù)測能夠反映股票市場的總體價格趨勢和經(jīng)濟(jì)的運行狀況。Groth等人[9]使用公司披露的文本進(jìn)行長期的股票指數(shù)預(yù)測,發(fā)現(xiàn)利用公司披露的文本數(shù)據(jù)能夠預(yù)測股票指數(shù)的長期變化,這一研究成果彌補(bǔ)了金融市場上利用文本數(shù)據(jù)進(jìn)行長期股指預(yù)測的空白。
股市是一個不斷變化的動態(tài)系統(tǒng),為了獲得投資組合分配的最佳解決方案,交易者必須不斷分散和重新分配資金,以最大限度地增加利潤,同時最小化風(fēng)險。馬爾可夫決策過程(Markov Decision Process,MDP)可以對投資組合分配的決策過程建模,該過程將監(jiān)督學(xué)習(xí)方法所需的預(yù)測和決策兩個步驟結(jié)合成一個單一的綜合步驟,克服了傳統(tǒng)監(jiān)督學(xué)習(xí)方法的局限性。文獻(xiàn)[63]使用強(qiáng)化學(xué)習(xí)方法來訓(xùn)練一個智能交易系統(tǒng),并將市場情緒這一因素納入到定量模型中以提高收益率和降低風(fēng)險。與現(xiàn)有的投資組合模型相比,該方法能獲得更高的投資回報和更低的夏普比率(基金績效評價標(biāo)準(zhǔn)化指標(biāo))。為了探究年報的敘述性披露是否可以用來構(gòu)建投資組合策略,文獻(xiàn)[26]構(gòu)建了信息披露向量和投資組合規(guī)模回報之間的映射,實驗表明基于預(yù)測模型構(gòu)建的實施的交易策略可以得到年超額收益率為12.16%的回報。
決策支持是指計算機(jī)系統(tǒng)根據(jù)發(fā)現(xiàn)和總結(jié)到的知識輔助人類決策,最大程度地提高機(jī)構(gòu)運行效率和管理水平。決策支持一般針對具體的應(yīng)用場景,比如在股票預(yù)測中,研究者們使用各種先進(jìn)的文本挖掘方法,預(yù)測股票的走向、漲跌程度,據(jù)此做出買入、持有或者賣出的決策[58]。此外,決策支持需要根據(jù)某種設(shè)定的規(guī)則來確定應(yīng)該采取的操作,其可能根據(jù)某個具體的域值或者一個事先設(shè)定的權(quán)值來確定是否采取的相應(yīng)措施。Chiong等人[4]在新聞情緒和購買決策之間建立了一種關(guān)系,當(dāng)新聞情緒的指標(biāo)超過某個正負(fù)域值時,自動觸發(fā)買入和賣出的決定,這種在股市價格做出調(diào)整之前自動交易的方式能夠使投資者獲益。文獻(xiàn)[6]計算了金融新聞的情緒值,將這些新聞情緒值與相應(yīng)的股票市場回報率的相聯(lián)系,進(jìn)而做出合理的金融決策。
風(fēng)險是指未來的不確定性或者波動性,其可能對資金、財產(chǎn)或者公司信譽造成很大影響,甚至在嚴(yán)重之時,可能對整個金融系統(tǒng)的穩(wěn)健構(gòu)成影響,導(dǎo)致社會經(jīng)濟(jì)秩序的混亂。近些年人們逐漸認(rèn)識到金融風(fēng)險管理的重要性和迫切性。上市公司文本信息披露中包含了公司目前運營狀況的描述性信息和管理層對未來發(fā)展?fàn)顩r的分析,通過對這些信息的解讀,可以預(yù)測企業(yè)未來發(fā)展中的一些不確定因素和潛在的風(fēng)險,進(jìn)而采取有效的措施降低風(fēng)險。
企業(yè)披露的文本信息非常復(fù)雜,要建立這些信息披露和風(fēng)險預(yù)測之間的聯(lián)系,必須選擇一種合適的角度。有學(xué)者探究了公司的信息披露中的風(fēng)險關(guān)鍵字與企業(yè)發(fā)生風(fēng)險的概率之間的關(guān)系,研究發(fā)現(xiàn)伴隨著公司信息披露的風(fēng)險關(guān)鍵字?jǐn)?shù)增多,信用風(fēng)險也隨之增多[31]。文獻(xiàn)[28]通過文本挖掘公司披露中的情緒詞,預(yù)測金融風(fēng)險。這些研究從統(tǒng)計學(xué)和情緒分析的角度出發(fā),進(jìn)一步拓展了現(xiàn)有金融風(fēng)險管理的思路。
一些學(xué)者探究了利用企業(yè)文本信息披露預(yù)測公司未來發(fā)生金融風(fēng)險的可能性。Groth等人[9]建立了一個日內(nèi)風(fēng)險預(yù)測模型,采用一個二分類的機(jī)器學(xué)習(xí)模型來預(yù)測未來是否會發(fā)生風(fēng)險,當(dāng)風(fēng)險敞口大于某個閾值時被判斷為“陽性”,否則為“陰性”。有學(xué)者分析發(fā)現(xiàn),通過識別與公司風(fēng)險有關(guān)的披露,構(gòu)建一個有效的風(fēng)險預(yù)測數(shù)據(jù)集,能夠預(yù)測公司未來風(fēng)險[5]。文獻(xiàn)[66]以上市公司年報為研究對象,探究了管理層語調(diào)是否會提高公司信用風(fēng)險預(yù)警的效力。實驗證明了年報中的描述性文本能夠提供定量財務(wù)數(shù)據(jù)所不能反映的增量信息。因此為了更好地防范信用風(fēng)險,有必要在風(fēng)險評估模型中加入定性信息。
上市公司雖然有必要對公司的經(jīng)營狀況進(jìn)行披露,但是因為語言的多義性,管理者很可能掩蓋一些真實情況或者提供虛假信息,投資者因為不了解企業(yè)披露的信息的質(zhì)量而對其利益造成損害。然而,管理層精心設(shè)計的隱瞞和串通行為是有跡可循的,比如為了掩飾現(xiàn)有的公司經(jīng)營狀況,管理者可能會過分夸大正面消息,或者盡量隱藏負(fù)面信息。在一些上市公司披露中,管理層可能通過敘述過多的無關(guān)信息轉(zhuǎn)移讀者的注意力。
使用文本挖掘的技術(shù)可以對這類欺詐性的文本特征進(jìn)行總結(jié)。Humpherys等人[20]發(fā)現(xiàn)與非欺詐性的披露相比,欺詐性披露使用更多的詞匯、意象等以及更少的詞匯多樣性。此外,為了顯得內(nèi)容更加可信,欺詐性的文本通常寫得更多但是實際包含的內(nèi)容較少。有學(xué)者發(fā)現(xiàn)文本中的情緒詞匯是識別企業(yè)欺詐行為的有效工具[9],這啟發(fā)信息需求者可以通過探究文本信息的情感表達(dá)方式,分析公司披露內(nèi)容的真實性。
公司文本信息披露在企業(yè)舞弊行為檢測中發(fā)揮了重要作用。文獻(xiàn)[22]基于公司年報開發(fā)了智能財務(wù)報表欺詐檢測系統(tǒng),該系統(tǒng)能夠區(qū)分欺詐和非欺詐的行為。文獻(xiàn)[67]發(fā)現(xiàn)通過分析年報中的文本數(shù)據(jù),可以有效檢測欺詐行為,降低投資者的投資風(fēng)險。有學(xué)者使用公司披露的定性部分識別欺詐行為,并將披露信息的定量和定性部分結(jié)合進(jìn)行探究[17]。實驗結(jié)果顯示,利用年報的MD&A能夠區(qū)分75%的欺詐和非欺詐行為,當(dāng)定量信息和定性部分合并時,能獲得83.87%的準(zhǔn)確率。欺詐檢測要求系統(tǒng)能夠自動區(qū)分欺詐和非欺詐的行為,所以該問題一般轉(zhuǎn)化成為分類問題。好的檢測模型不僅可以有助于降低金融欺詐行為,而且可以降低信息處理的成本。
公司披露的文本信息可以用來預(yù)測未來具體的業(yè)績狀況,也可以預(yù)測某些金融事件的發(fā)生概率,如破產(chǎn)、陷入困境等。Hajek等人[68]認(rèn)為,僅利用數(shù)值信息預(yù)測未來公司業(yè)績是不全面的,他們用公司年報來預(yù)測未來的公司績效(增長、無變化、減少),實驗取得了比較高的預(yù)測精度。Kang等人[25]發(fā)現(xiàn)年報的基調(diào)和公司業(yè)績之間存在積極的正面關(guān)系,即公司的當(dāng)前績效越好,公司年報的基調(diào)就越積極。除了預(yù)測公司的業(yè)績狀況,也有學(xué)者用公司披露的文本信息預(yù)測未來公司是否會陷入困境或者破產(chǎn)。有學(xué)者挖掘年度報告文本片段,提取有用的信息預(yù)測公司財務(wù)困境[60]。Cecchini等人[19]研究了公司公開的年報信息與破產(chǎn)事件之間的關(guān)系,發(fā)現(xiàn)年報的MD&A中的信息內(nèi)容有助于預(yù)測金融事件,這一研究結(jié)果能夠幫助投資者們確定存在風(fēng)險的公司。
企業(yè)披露信息中包含大量非結(jié)構(gòu)化的文本信息,借助文本挖掘技術(shù),可以從這些信息中提取有價值的知識,幫助信息需求者理解企業(yè)行為、預(yù)測企業(yè)未來發(fā)展。本文討論了如何使用機(jī)器學(xué)習(xí)技術(shù)智能分析上市公司披露的文本信息,并對金融市場上近十年的研究成果進(jìn)行了總結(jié),從上市公司文本信息披露的研究狀況、分析模型的選擇和智能分析的應(yīng)用場景三個方面進(jìn)行歸納。
從歸納的結(jié)果可以發(fā)現(xiàn),在眾多類型的上市公司文本信息披露中,企業(yè)定期文本信息披露是學(xué)者們研究最廣泛的事件類型,通過構(gòu)建支持向量機(jī)、樸素貝葉斯、決策樹等多種類型的預(yù)測模型,企業(yè)定期文本披露尤其是年報可以用于股票預(yù)測、風(fēng)險管理、決策支持、舞弊行為分析等多個場景。一些其他類型的上市公司文本信息披露,如財務(wù)報告、重大事項報告、市場提示信息等公告因為信息含量不如年報豐富,一般被學(xué)者們用于研究某類事件對市場造成的沖擊,其采用的方法一般為事件分析法。目前學(xué)術(shù)界對公司披露文本信息的研究取得了一定的進(jìn)展,但還有很多難題等待突破,如:傳統(tǒng)的機(jī)器學(xué)習(xí)方法依賴于手工的特征選擇,自動化程度不高;在文本的預(yù)測準(zhǔn)確率方面,現(xiàn)有的模型大多接近猜測概率,具有很大的提升空間。一些學(xué)者提出了改進(jìn)現(xiàn)有文本分析的方法,如選擇合適的預(yù)測指標(biāo)、增量地添加其他信息源(如社交媒體投資者情緒、證券分析師預(yù)測報告)等,這些策略可以在一定程度上提高文本的準(zhǔn)確率,但是并沒有從本質(zhì)上改變模型提取信息效率不高的問題。針對這些問題,未來圍繞公司信息披露的研究可能從以下幾個方面展開:
(1)改進(jìn)現(xiàn)有模型結(jié)構(gòu),提升算法的性能。深度學(xué)習(xí)能夠克服傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)在處理非線性特征時的局限性,在文本分析領(lǐng)域已經(jīng)獲取了比較廣泛的應(yīng)用,未來仍然會被當(dāng)作研究熱點之一,也會作為模型的改進(jìn)重點之一。有學(xué)者提出將CNN和時序模型LSTM相結(jié)合的策略[69],CNN選擇合適的文本特征,而LSTM關(guān)注文本的時序特性,這種改進(jìn)方式有利于發(fā)揮兩個算法各自的優(yōu)勢。此外,一些學(xué)者將強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)結(jié)合起來,利用強(qiáng)化學(xué)習(xí)的決策能力和深度學(xué)習(xí)處理復(fù)雜非線性問題的能力自動感知市場的變化并及時自主調(diào)整,實現(xiàn)投資智能化[70]。深度學(xué)習(xí)技術(shù)作為一種有效的文本分析工具,其不斷提升的性能將會推動自然語言處理的進(jìn)步,在公司智能文本分析中發(fā)揮新的作用。
(2)探索新的模型在公司文本披露中的應(yīng)用。近些年不斷涌現(xiàn)的一些新的自然語言處理模型,與傳統(tǒng)模型相比具有更多的優(yōu)勢,借助這些模型的力量可以在公司文本分析中發(fā)揮新的作用。其中,注意力機(jī)制在自然語言處理的任務(wù)中廣泛使用,能夠自動篩選出一些高質(zhì)量的信息,忽略一些低質(zhì)量信息[71]。在一些基于機(jī)器學(xué)習(xí)的文本分析任務(wù)中引入注意力機(jī)制,能使得模型更加專注于選擇對文本分析任務(wù)起關(guān)鍵作用的詞,提高預(yù)測效果[72]。Transformer[73]和BERT[74]是基于注意力機(jī)制提出的兩種重要的自然語言處理模型。Transformer能夠克服傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失問題,具有強(qiáng)大的文本編碼能力,BERT使用了Transformer的編碼器部分,在使用過程中僅需要微調(diào)就能達(dá)到比較好的結(jié)果。目前這兩個模型被廣泛應(yīng)用于各種文本挖掘的場景中,未來可以通過進(jìn)一步地融合金融領(lǐng)域的一些知識和具體場景的特點,對模型進(jìn)行優(yōu)化改進(jìn),在公司披露的文本信息任務(wù)中取得比較好的表現(xiàn)。但是,Transformer和BERT訓(xùn)練的過程中含有較多參數(shù),不適合一些實時性需求比較高的場景。pQRNN是一款輕量級的自然語言處理工具,采用有監(jiān)督的數(shù)據(jù)集,僅需少量的參數(shù)就能達(dá)到與BERT類似的效果[75],未來可以將其應(yīng)用于一些計算能力低下且需要實時分析的金融場景中。
(3)從信息披露中提取出更多的文本特征,展現(xiàn)數(shù)據(jù)更多元的價值。上市披露的文本信息含量豐富,一些文本的特征如:信息披露的時間[76]、披露文本的長度[77]、文本的復(fù)雜性[78]和文本的可讀性[79]等,都是非常有用的信息,對于投資者獲取公司價值信息是非常重要的。現(xiàn)有研究大多從單一的維度來分析,無法完整體現(xiàn)出管理層的真實意圖,因而未來可以從多個維度對上市公司文本披露信息進(jìn)行分析或者探索更有價值的文本特征,獲得更深層次的信息,把握公司的決策行為和未來的發(fā)展趨勢。
(4)人工智能技術(shù)在為金融企業(yè)賦能的同時也產(chǎn)生了一系列復(fù)雜的倫理問題,目前從倫理學(xué)的角度對上市公司文本信息披露進(jìn)行研究的文獻(xiàn)相對較少,伴隨著機(jī)器學(xué)習(xí)技術(shù)在公司文本分析中應(yīng)用的不斷深入,各種倫理問題也逐漸顯現(xiàn),未來有關(guān)倫理問題的研究將會得到更多的重視。概括來說,從倫理學(xué)的角度對上市公司文本信息披露進(jìn)行的研究未來可能主要集中在三個方面:一是從不同角度分析上市公司文本信息披露質(zhì)量和企業(yè)倫理之間的沖突,揭示上市公司文本信息披露質(zhì)量和企業(yè)倫理沖突的成因,以期制定基于企業(yè)倫理觀念的上市公司文本信息披露的信息質(zhì)量控制策略[80]。二是分析智能分析技術(shù)的應(yīng)用帶來的責(zé)任倫理問題[81],比如在一些大型的交易決策系統(tǒng)中過分依賴人工智能分析技術(shù)導(dǎo)致企業(yè)決策失誤帶來難以挽回的損失,如何對責(zé)任的主體人進(jìn)行認(rèn)定,如何進(jìn)行責(zé)任分配是目前存在爭議的一個話題。三是分析智能分析技術(shù)的廣泛應(yīng)用帶來的社會問題。智能分析技術(shù)代替了很多傳統(tǒng)人力的工作,沖擊了金融勞動市場,造成了一些金融工作者的失業(yè)問題[82],如何解決這些傳統(tǒng)從業(yè)者的失業(yè)問題有待于進(jìn)一步研究。