摘 ?要:文本數(shù)據(jù)分析主要是將數(shù)據(jù)源中文本中隱含的有用信息進(jìn)行充分地挖掘和檢索,為金融分析研究提供了新的視角與更充分的數(shù)據(jù)信息。本文對(duì)文本數(shù)據(jù)信息的處理方法進(jìn)行總結(jié),對(duì)于金融研究中采用文本挖掘、大數(shù)據(jù)分析的文獻(xiàn)進(jìn)行梳理,并在此基礎(chǔ)上提出相關(guān)研究未來(lái)可能的發(fā)展趨勢(shì)和方向。
關(guān)鍵詞:文本挖掘;大數(shù)據(jù)分析;金融分析
一、引言
傳統(tǒng)的金融分析的信息主要來(lái)源于歷史股價(jià)、財(cái)務(wù)報(bào)表的等“硬信息”,而近年來(lái),得益于網(wǎng)絡(luò)技術(shù)的快速發(fā)展,更加科學(xué)精準(zhǔn)地量化非財(cái)務(wù)信息的“軟信息”成為可能。文本數(shù)據(jù)分析拓寬了金融研究的角度,現(xiàn)主要被運(yùn)用于衡量文本可讀性、情感語(yǔ)調(diào)、關(guān)注度、意見(jiàn)分歧等方面。而文本數(shù)據(jù)分析在金融分析中運(yùn)用的核心挑戰(zhàn)在于如何準(zhǔn)確有效地提取和量化文本信息,國(guó)外相關(guān)研究相對(duì)時(shí)間較長(zhǎng)、更為成熟,而國(guó)內(nèi)研究仍處于起步發(fā)展階段,本文對(duì)這些研究進(jìn)行梳理,并提出未來(lái)研究展望。
二、文本數(shù)據(jù)信息來(lái)源及量化方法
(1)金融文本信息的來(lái)源
文本數(shù)據(jù)來(lái)源依據(jù)主體主要分為四大類:公司信息披露、媒體相關(guān)報(bào)道、政府機(jī)構(gòu)信息披露和社交網(wǎng)絡(luò)的公眾輿論。而每個(gè)類別的形式也多種多樣,公司信息披露則包括上市公司的招股說(shuō)明書(shū)、季報(bào)、年報(bào)、分析師報(bào)告以及高管演講等;媒體主要是通過(guò)新聞報(bào)道;而個(gè)人投資者或消費(fèi)者主要是微博、Tiwtter、微信公眾號(hào)、論壇等;政府機(jī)構(gòu)主要?jiǎng)t是公開(kāi)信息和政策規(guī)定。這些數(shù)量龐大且更新時(shí)頻高的文本為金融分析研究提供了充分的數(shù)據(jù)。
(2)文本數(shù)據(jù)信息量化方法
文本信息的量化主要是利用計(jì)算機(jī)模擬人腦思維進(jìn)行數(shù)據(jù)分析和處理,即將文本作為原始數(shù)據(jù)輸入,經(jīng)過(guò)一定的轉(zhuǎn)化對(duì)文本數(shù)據(jù)降維得到數(shù)據(jù)矩陣,再采用統(tǒng)計(jì)計(jì)量模型進(jìn)行處理,輸出目標(biāo)信息序列的方法。
將原始數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)矩陣,主要運(yùn)用的方法有分詞、轉(zhuǎn)化為詞向量?jī)煞N方式。對(duì)于分詞法而言,英文由于單詞被空格隔開(kāi),采用單詞分詞;中文分詞則采用最大概率分詞和最大熵分詞,是基于詞典對(duì)漢字序列進(jìn)行切割和字符串匹配,依據(jù)句法語(yǔ)義分析分成詞組的方式。而詞向量法則是將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)字化矩陣,解決詞語(yǔ)構(gòu)成高位稀疏矩陣降維的問(wèn)題。主要有采用多種措施對(duì)數(shù)字化文本矩陣實(shí)現(xiàn)降維和詞嵌入技術(shù),而詞嵌入技術(shù)把一個(gè)維數(shù)所有詞的數(shù)量的高為空間“嵌入”到相對(duì)低維的連續(xù)向量空間的技術(shù)模型,主要有獨(dú)熱法和Word2Vec技術(shù)。
而數(shù)據(jù)矩陣的信息提取主要分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類方法進(jìn)行分析,無(wú)監(jiān)督方法主要有詞典法、主題分類模型法。有監(jiān)督學(xué)習(xí)方法中經(jīng)典的機(jī)器學(xué)習(xí)方法在金融研究中運(yùn)用主要是樸素貝葉斯和支持向量機(jī);新興的深度學(xué)習(xí)方法主要包括深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等,但是目前在金融領(lǐng)域使用深度神經(jīng)網(wǎng)絡(luò)提取文本信息的文獻(xiàn)較少。
三、文本數(shù)據(jù)分析在金融分析中運(yùn)用
文本數(shù)據(jù)分析在金融研究中的運(yùn)用主要從度量可讀性、關(guān)注度、情緒和意見(jiàn)分歧等指標(biāo)與市場(chǎng)現(xiàn)象的關(guān)系進(jìn)行展開(kāi)。
(1)可讀性指標(biāo)
可讀性是投資者進(jìn)行信息提取的前提,而有關(guān)文本可讀性的研究大多集中于財(cái)務(wù)會(huì)計(jì)方面,近年來(lái)也運(yùn)用于網(wǎng)絡(luò)借貸研究,研究發(fā)現(xiàn)文本可讀性可以顯著提高公司股價(jià)(Li,2008;Loughran and McDonald,2014),而可讀性更強(qiáng)的借款描述能向投資者傳遞積極信號(hào),提高借款的成功率(陳霄等,2018)。
(2)關(guān)注度指標(biāo)
關(guān)注是信息反應(yīng)的前提,信息需要被關(guān)注才能反應(yīng)到市場(chǎng)行為中,現(xiàn)有文獻(xiàn)對(duì)于關(guān)注度的量化主要集中于投資者關(guān)注度和媒體關(guān)注度。使用文本數(shù)據(jù)度量投資者關(guān)注度的方法主要有一使用網(wǎng)絡(luò)引擎統(tǒng)計(jì)對(duì)上市公司的搜索次數(shù),二網(wǎng)絡(luò)論壇上股民對(duì)于特定股票發(fā)帖數(shù)量。通過(guò)發(fā)帖數(shù)構(gòu)建投資者關(guān)注度,段江嬌等(2017)發(fā)現(xiàn)帖子數(shù)與當(dāng)日及未來(lái)的股票收益率顯著負(fù)相關(guān),但與當(dāng)日及未來(lái)的股票波動(dòng)率顯著相關(guān)。而媒體關(guān)注度主要采用新聞數(shù)量進(jìn)行構(gòu)建,研究發(fā)現(xiàn)媒體關(guān)注會(huì)導(dǎo)致更嚴(yán)重的投資者偏差(Hillert et al.,2014),但同時(shí)對(duì)管理層行為起監(jiān)督作用(周開(kāi)國(guó)等,2016),能提高分析師預(yù)測(cè)準(zhǔn)確性(譚松濤等,2015)。
(3)文本情緒
文本情感傾向的度量是文本數(shù)據(jù)分析在金融領(lǐng)域的一大運(yùn)用,文本情緒主要包括正面和負(fù)面,積極與消極等不同描述。而文本情緒的研究主體主要包括媒體語(yǔ)調(diào)、管理層語(yǔ)調(diào)、投資者情緒三個(gè)方面。
1.媒體情緒
媒體情緒度量主要是媒體報(bào)道內(nèi)容中的樂(lè)觀和悲觀情緒,國(guó)外Garcia(2013)發(fā)現(xiàn)新聞中無(wú)論正面還是負(fù)面語(yǔ)調(diào)均能預(yù)測(cè)收益率;而國(guó)內(nèi)研究中主要考察了媒體情緒與資產(chǎn)定價(jià)關(guān)系,發(fā)現(xiàn)文本情緒越極端,上市公司定價(jià)偏離程度越大(游家興等,2012),同時(shí)負(fù)面預(yù)期可以解釋IPO抑價(jià)率的變化,但是正面語(yǔ)氣卻不能(汪昌云等,2015)。
2.管理層語(yǔ)調(diào)
公司公開(kāi)信息披露等文本中管理層語(yǔ)調(diào)可以看做管理層的策略行為的一部分,其中積極和消極的語(yǔ)調(diào)能對(duì)投資者起到引導(dǎo)和暗示作用,影響投資者在市場(chǎng)中的投資決策行為。國(guó)外文獻(xiàn)Li(2010)發(fā)現(xiàn)管理層語(yǔ)調(diào)與公司未來(lái)盈利存在正相關(guān)關(guān)系。國(guó)內(nèi)文獻(xiàn)則從公司的業(yè)績(jī)、投資者交易行為等角度進(jìn)行研究,謝德仁和林樂(lè)(2015)發(fā)現(xiàn)業(yè)績(jī)說(shuō)明會(huì)管理層語(yǔ)調(diào)與未來(lái)公司的業(yè)績(jī)存在顯著正相關(guān)關(guān)系;曾慶生等(2018)發(fā)現(xiàn)積極的年報(bào)語(yǔ)調(diào)預(yù)示公司高管隨后的賣出股票規(guī)模大、凈買入股票規(guī)模小。
3.投資者情緒
通過(guò)對(duì)于網(wǎng)絡(luò)論壇上投資者的發(fā)帖內(nèi)容進(jìn)行分析從而構(gòu)建投資者情緒指數(shù),現(xiàn)有國(guó)內(nèi)外文獻(xiàn)發(fā)現(xiàn)投資者情緒與收益率等市場(chǎng)變量同期相關(guān)(Da et al.,2011;段江嬌等,2017),同時(shí)受到市場(chǎng)變量的影響,并且投資者情緒的預(yù)測(cè)能力有限(Gao et al.,2018)。
(4)投資者分歧
投資者分歧主要衡量投資者的異質(zhì)信念,通過(guò)投資者情緒指數(shù)的標(biāo)準(zhǔn)差構(gòu)建投資者分歧指數(shù)。研究發(fā)現(xiàn)分歧越高,市場(chǎng)交易量越高(Antweiler and Frank,2004),同時(shí)投資者分歧對(duì)價(jià)格也有影響,會(huì)導(dǎo)致資產(chǎn)價(jià)格被高估,錯(cuò)誤定價(jià)(Hillert et al.,2018)。
四、研究展望
總體來(lái)看,國(guó)內(nèi)外將文本信息作為非結(jié)構(gòu)性信息的量化補(bǔ)充,在市場(chǎng)現(xiàn)象解釋、預(yù)測(cè)等方面進(jìn)行探究。這些文獻(xiàn)在理論上擴(kuò)展和創(chuàng)新了金融學(xué)研究的視野,對(duì)于市場(chǎng)參與的各個(gè)主體具有一定實(shí)踐意義。但是文本數(shù)據(jù)分析對(duì)于算法的高要求,以及對(duì)文本數(shù)據(jù)背后金融現(xiàn)象的解釋,都需要研究人員具有豐富的計(jì)算機(jī)和金融知識(shí)。
而未來(lái)金融研究中文本大數(shù)據(jù)的運(yùn)用可能會(huì)在以下幾個(gè)方面進(jìn)一步完善發(fā)展。一是采用拓展更豐富的文本數(shù)據(jù)來(lái)源,如微博大V的觀點(diǎn)、政府報(bào)告、法院判決等;二是文本挖掘和數(shù)據(jù)分析會(huì)更加深入和完善,如加入中文的句法和語(yǔ)義考慮構(gòu)建更加精準(zhǔn)的量化指標(biāo)(如情感傾向)、特定領(lǐng)域文本分析的適應(yīng)改進(jìn),考慮文本時(shí)效性的影響等;三是現(xiàn)在研究主要集中于相關(guān)關(guān)系的研究,未來(lái)文本數(shù)據(jù)分析對(duì)金融研究中因果關(guān)系的研究也會(huì)逐漸發(fā)展。
參考文獻(xiàn)
[1]Jegadeesh N,Wu D.Word power: A new approach for content analysis ☆[J].Journal of Financial Economics,2013.110(3):712-729
[2]Loughran Tim,and Bill McDonald.Measuring Readability in Financial Disclosures[J].Journal of Finance,2014,69(4):1643–1671
[3]陳霄,葉德珠,鄧潔.借款描述的可讀性能夠提高網(wǎng)絡(luò)借款成功率嗎[J].中國(guó)工業(yè)經(jīng)濟(jì),2018
[4]段江嬌,劉紅忠,曾劍平.中國(guó)股票網(wǎng)絡(luò)論壇的信息含量分析[J].金融研究,2017(10):182-196
[5]汪昌云,武佳薇.媒體語(yǔ)氣、投資者情緒與IPO定價(jià)[J].金融研究,2015(9):174-189
作者簡(jiǎn)介:蘇蕓(1997—),女,漢族,四川成都市人,本科在讀,研究方向:投資學(xué)。