廣東外語(yǔ)外貿(mào)大學(xué) 劉昕玥
?
國(guó)外金融文本情感的分析研究述評(píng)與展望
廣東外語(yǔ)外貿(mào)大學(xué)劉昕玥
摘 要:國(guó)外金融文本情感分析歷經(jīng)數(shù)十年的發(fā)展,在金融文本情感分析的信息來(lái)源和模型建立等方面有了較多的學(xué)術(shù)積累,為行為金融學(xué)研究提供了有價(jià)值的研究思路和方法。但隨著全球經(jīng)濟(jì)的快速發(fā)展,相關(guān)研究也要適應(yīng)各種變化,本文在句法和語(yǔ)義的考慮等方面展開(kāi)了更為深入的研究。
關(guān)鍵詞:金融文本情感分析特征項(xiàng)機(jī)器學(xué)習(xí)
金融市場(chǎng)上傳統(tǒng)的信息來(lái)源主要有歷史股價(jià)、財(cái)務(wù)報(bào)表等。Web2.0時(shí)代的到來(lái)使網(wǎng)絡(luò)用戶同時(shí)充當(dāng)著信息的發(fā)布者。行為金融學(xué)認(rèn)為,金融市場(chǎng)參與者的心理狀態(tài)會(huì)影響其自身和其他參與者的行為。因而對(duì)每個(gè)參與者來(lái)說(shuō),各種用戶生成的內(nèi)容構(gòu)成了大數(shù)據(jù)時(shí)代的信息來(lái)源,這些海量信息需要通過(guò)情感分析技術(shù)進(jìn)行處理。該技術(shù)將信息進(jìn)行歸類,進(jìn)而用于研究市場(chǎng)或投資者的反映。
金融文本情感分析在國(guó)外研究時(shí)間較長(zhǎng),方法較為成熟,成果頗為豐富。本文對(duì)這些研究進(jìn)行梳理,并提出未來(lái)研究的展望。
金融文本依據(jù)其來(lái)源主要分為三大類:公司的公開(kāi)披露、媒體的相關(guān)報(bào)道和社交網(wǎng)絡(luò)的公眾輿論。
公開(kāi)披露文件的語(yǔ)言風(fēng)格蘊(yùn)含管理者對(duì)公司目前業(yè)績(jī)和未來(lái)發(fā)展的態(tài)度,因而成為財(cái)務(wù)報(bào)表的重要補(bǔ)充。Hagenau等(2013)從DGAP網(wǎng)站上選取了超過(guò)50個(gè)詞的公司披露,內(nèi)容包括財(cái)務(wù)報(bào)告、對(duì)外合作等。Loughran和McDonald(2013)、McKay Price等(2012)分別對(duì)美國(guó)S-1表、季度收益電話會(huì)議進(jìn)行情感分析。
媒體報(bào)道文章包括新聞報(bào)道和專業(yè)分析報(bào)告,可用于市場(chǎng)、行業(yè)或公司分析。Smales(2014)利用對(duì)道瓊斯有線新聞和華爾街日?qǐng)?bào)上新聞文章的情感分析,研究波動(dòng)性指數(shù)。Khadjeh等(2015)僅采用文章標(biāo)題作為待分析文本。Twedt和Rees(2012)對(duì)美國(guó)1404家公司的財(cái)務(wù)分析報(bào)告進(jìn)行文本情感分析。
Web2.0時(shí)代,社會(huì)化媒體成為人們的溝通平臺(tái)。它也為行為經(jīng)濟(jì)學(xué)者的研究提供了素材。Bollen等(2011)對(duì)推特進(jìn)行文本分析,得到公眾情感測(cè)度。Yu等(2013)分別針對(duì)谷歌博客以及推特文本信息進(jìn)行情感分析,并分析了媒體間的相互影響。
文本表示最常用的方法是空間向量模型(VSM),該模型的核心是特征項(xiàng)的選取、降維和表示。
從文本中抽取能夠代表其情感傾向的部分,即特征選取。最常用的是詞袋模型。依據(jù)詞性的提取包括名詞(Schumaker等,2012)、形容詞(Fortuny等,2014)和動(dòng)詞(Li和Huang等,2014)。還有在此基礎(chǔ)上形成的n-grams方法(Groth等,2014)。
特征項(xiàng)的降維用于保持算法的有效性。比較常用的方法有限定最低詞頻以及詞典或本體的運(yùn)用。由于前者理解的片面性,詞典的運(yùn)用較為普遍。一般的詞典有WordNet和GI等,金融領(lǐng)域的詞典包括L&M(2011)和Henry(2008)。
將特征項(xiàng)轉(zhuǎn)化為數(shù)值的過(guò)程稱為特征表示。最基本的方法是二進(jìn)制(Schumaker,2012)。普遍使用的方法有IG、CHI和TF-IDF。目前使用最廣泛的是TF-IDF(Hagenau等,2013),它考慮到了文本長(zhǎng)度對(duì)于詞頻的影響。
3.1機(jī)器學(xué)習(xí)算法
機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)如何模擬和實(shí)現(xiàn)人類的學(xué)習(xí)行為。它分為算法設(shè)計(jì)和分類效果評(píng)價(jià)兩個(gè)方面。
目前使用最多的算法——支持向量機(jī)(SVM)是典型的兩類分類器。Khadjeh等(2015)將其應(yīng)用于STLP預(yù)測(cè)模型中。在其基礎(chǔ)上擴(kuò)展出的支持向量回歸(SVR)模型還能夠給出具體輸出值。Li和Huang等(2014)分別以新聞情感和股價(jià)作為兩個(gè)子核,進(jìn)而構(gòu)成混合核函數(shù)加入SVR模型。其他一些常用的算法包括決策樹(shù)和樸素貝葉斯。Khadjeh等(2015)分別用支持向量機(jī)、K近鄰和樸素貝葉斯算法進(jìn)行相同實(shí)驗(yàn)并進(jìn)行了比較。
機(jī)器學(xué)習(xí)算法的評(píng)價(jià)機(jī)制,也就是度量模型好壞的標(biāo)準(zhǔn)。常用的標(biāo)準(zhǔn)包括F1和準(zhǔn)確率。Fortuny等(2014)還引入AUC值,其越大,表示分類器性能越好。
3.2回歸模型
3.2.1線性回歸
研究文本信息與金融指標(biāo)時(shí)間序列之間關(guān)系的最常用方法是線性回歸模型?;诓煌难芯磕康模唤忉屪兞康倪x取也不盡相同,包括股指變動(dòng)(Bollen等,2011),IPO首日收益率(L&M,2013)等。
Fama和French 于1993年提出了三因子模型(FF3)來(lái)解釋股票回報(bào)率,成為金融學(xué)資產(chǎn)定價(jià)的經(jīng)典模型。它認(rèn)為影響股票定價(jià)的三個(gè)因素分別為市場(chǎng)風(fēng)險(xiǎn)因子、公司規(guī)模因子和公司價(jià)值(賬面市值比)因子。Carhart(1995)在其基礎(chǔ)上加入動(dòng)量因素MOM,擴(kuò)展成四因素模型,成為Smales(2014)研究中的回歸模型。
3.2.2向量自回歸
VAR模型多用于變量間存在自相關(guān)或交叉相關(guān)的情形。其回歸方程為:
其中,Zt是所有內(nèi)生變量組成的行向量,包括(1)式中的金融指標(biāo)Y和情感維度S,X同樣為控制變量。Hautsch(2011)構(gòu)造6維VAR模型研究新聞情感與股市的關(guān)聯(lián)。
3.2.3邏輯回歸
Logistic或probit回歸要求被解釋變量是二值變量(取值為0或1),用最大似然函數(shù)來(lái)估計(jì),常用于檢驗(yàn)文本情感是否能夠預(yù)測(cè)或識(shí)別特定事件的發(fā)生?;貧w形式為:
Loughran和McDonald(2013)分別加入行業(yè)和年份虛擬變量進(jìn)行邏輯回歸,檢驗(yàn)S-1表不同維度的情感詞詞頻與IPO被撤回幾率的關(guān)系。Hautsch(2011)建立了probit模型對(duì)市場(chǎng)指標(biāo)是否為0進(jìn)行估計(jì)。
總體來(lái)看,國(guó)外現(xiàn)有文獻(xiàn)將文本信息作為量化信息的補(bǔ)充,在市場(chǎng)預(yù)測(cè)等方面進(jìn)行了探究。這些文獻(xiàn)在理論上拓寬了金融學(xué)的研究視野,對(duì)投資者和監(jiān)管機(jī)構(gòu)也有實(shí)踐意義。筆者認(rèn)為未來(lái)的相關(guān)領(lǐng)域研究,將會(huì)從以下幾方面進(jìn)一步加以完善。
第一,句法和語(yǔ)義的考慮?,F(xiàn)有文獻(xiàn)在進(jìn)行特征提取時(shí)過(guò)于注重詞語(yǔ)頻次,忽略了詞語(yǔ)間的關(guān)聯(lián)和句子結(jié)構(gòu)。未來(lái)的研究亟須融入句法分析,從而更準(zhǔn)確地把握文本情感。
第二,特定領(lǐng)域詞表或本體的構(gòu)建。目前,金融領(lǐng)域的兩個(gè)詞典L&M和Henry已經(jīng)得到廣泛應(yīng)用,并被證明比一般的心理學(xué)詞典分類效果好。因此,計(jì)算語(yǔ)言學(xué)需要進(jìn)一步探究如何構(gòu)建含有多維度情感度量的金融領(lǐng)域詞表。
第三,研究市場(chǎng)的不斷擴(kuò)展。目前,大部分研究集中于股市,相同的研究方法還可以擴(kuò)展到債券市場(chǎng)和貨幣市場(chǎng)。另外,除了發(fā)達(dá)國(guó)家之外,新興市場(chǎng)也很值得探究。
第四,與行為科學(xué)的結(jié)合。大部分研究表明金融市場(chǎng)是弱式有效的。然而,涉及行為經(jīng)濟(jì)的研究止步于基于社交網(wǎng)絡(luò)的文本情感對(duì)股市是有影響的,因此需要更深層次地研究探討兩者的關(guān)系。
參考文獻(xiàn)
[1] Arman Khadjeh Nassirtoussi,et al. Text minng for market prediction:A systematic review[J].Expert Systems with Applications,2014(41).
[2] Lee A. Smales.News sentiment and the investor fear gauge[J].Finance Research Letters,2014(11).
中圖分類號(hào):F830.91
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-0298(2016)05(a)-072-02
作者簡(jiǎn)介:劉昕玥(1992-),女,湖北襄陽(yáng)人,在讀研究生,主要從事行為金融方面的研究。