梁宇佳,宋東峰
(首都經(jīng)濟貿易大學,北京 100070)
股票市場是股票可以交易和流通的地方,它已經(jīng)存在了400 年,已經(jīng)成為大公司向投資者籌集資金的重要渠道。然而,股票價格的形成機制卻相當復雜。各種因素的綜合運用和個體因素的特殊行為,包括政治、經(jīng)濟、市場因素以及技術和投資者行為,都會導致股價變化。因此,股票價格是不斷變化的,這種變化為投機活動提供了生存空間,增加了股市的風險。這種風險不僅會給投資者帶來經(jīng)濟損失,還會給企業(yè)和國家的經(jīng)濟建設帶來一定的副作用。近年來,計算機硬件與先進機器學習理論的發(fā)展極為迅速,人工智能領域獲得了前所未有的關注度,隨著技術的逐步成熟,越來越多的研究借助于機器學習的幫助來解決愈發(fā)復雜的問題。得益于先進的數(shù)據(jù)處理能力,各類新舊機器學習算法在現(xiàn)代高性能計算機硬件的加持下,得到了越來越多的量化分析流派的青睞。從金融市場的預測到審批貸款、風險評估,這些機器學習算法促進了金融領域的發(fā)展。然而在這些涉及機器學習的方法中,很少結合情感分析方法來考慮。因此,本研究基于歷史股價數(shù)據(jù),結合投資者情感指數(shù),采用LSTM 機器學習的方法預測未來股價走勢,相較于傳統(tǒng)預測方法進一步提高了效果。
投資者情緒與股票市場的研究,目前主要關注于不同情緒度量方法是否能對金融市場的股票價格、收益等進行有效預測。
傳統(tǒng)的投資者情緒度量指標分為直接指標和間接指標[1]。不過由于傳統(tǒng)投資者情緒多以代理變量形式出現(xiàn),并不是投資者情緒的直接表達,傳統(tǒng)投資者情緒對市場的預測能力是有限的,傳統(tǒng)度量指標對投資者情緒的刻畫尚存在一定的不足。針對這一問題,一些學者嘗試從投資者的網(wǎng)絡行為中獲取更直接的情緒指標[2],并檢驗其在股票市場中的有效性,將基于文本挖掘的投資者情緒作為主要的研究對象。
目前,基于文本挖掘的投資者情緒的相關研究主要關注于網(wǎng)絡情緒來源、情感分類方法、情緒指標構造和股票實證檢驗等關鍵環(huán)節(jié)。在網(wǎng)絡情緒來源方面,多數(shù)研究數(shù)據(jù)來自財經(jīng)網(wǎng)站或社交媒體的股吧論壇板塊,包括新浪財經(jīng)、東方財富網(wǎng)、新浪微博、Twitter 等[3]。在情感分類方法方面,研究者主要采用機器學習方法和語義分析方法對股票評論的情感傾向進行分類。KEARNEY 等[4]指出兩種方法各有利弊,機器學習方法的一般分類準確率較高,但依賴于熟悉金融股票市場的人員進行手工分類,構造訓練集;語義分析方法(特別是基于詞典的方法),在經(jīng)濟金融分析中更加簡單易用,但普通詞典難以適用于金融語境,關鍵在于金融專用詞集的構建。
近年來,人們發(fā)現(xiàn)影響股票市場波動的因素眾多。GILBERT 等[5]從LiveJournal 中提取大眾焦慮指標,根據(jù)指標變化情況進行預測,發(fā)現(xiàn)大眾情緒在一定程度上對股票市場有一定波動影響;董理等[6]發(fā)現(xiàn)大眾評論信息對股票指數(shù)波動有一定影響;RAHMAN 等[7]使用3 種不同文本表示方法,抽取其中有價值的詞條,利用支持向量機(SVM)訓練器進行分析,發(fā)現(xiàn)將文字字段和股票價格一起訓練可以獲得較好表現(xiàn);NIKFARJAM 等[8]采用SVM 分類器對比新聞文本和股票價格兩種方法預測股票的準確性,最終發(fā)現(xiàn)將新聞文本與股票價格兩種方法相結合更能提高股票預測效果;宋敏晶[9]采用文本分類技術提取股票評論數(shù)據(jù)的情感值,驗證了股票評論與股票市場存在一定聯(lián)系。
本文針對股吧數(shù)據(jù)建立投資者情感指數(shù)并融合LSTM深度學習模型,基于股價歷史,結合技術分析指標,預測未來股價走勢。
本文需要構建投資者情感指數(shù),用于股價預測。在東方財富網(wǎng)站中存在“熱帖”板塊,即關注度較高,閱讀、回復均較多的帖子,因此本文選取這部分獲取數(shù)據(jù)。
雖然使用“熱帖”大大減少了無關信息的干擾,但為了研究結果的正確性,仍需進一步剔除無關信息。需要處理的噪聲主要包含以下方面:重復帖子、廣告帖、無關意義的水帖;媒體或投資者轉載的新聞、公告等。
通過爬蟲取得所需的帖子文本信息后,需要對帖子進行情緒賦值以便進行進一步分析。本研究使用的ROST EA 軟件包包含了基礎詞庫和金融領域專用詞庫,但是股吧帖子大多數(shù)集中于股票評論,而且網(wǎng)絡流行用語較多,還需要構建自定義的股吧專用詞庫來提升分詞的準確率,并且為之后的文本情緒賦值做準備。構建的詞匯庫既包含股票專用術語,也包括了網(wǎng)絡用語的習慣表達。ROST EA 情緒分析軟件相較而言操作簡便直觀,且詞庫較新,對于網(wǎng)絡用語的識別和賦值更有優(yōu)勢。ROST EA 的文本情緒賦值過程為將每一句文本信息視為一個樣本,分別計算每一句話的情感值。將所有句子的情感值之和作為整篇文本的情緒值。根據(jù)整篇文檔的情緒值與臨界值的關系,可將情感傾向分為積極、中性與消極。
先根據(jù)帖子的情感值,將其劃分為積極情感帖、中性情感帖、消極情感帖。情感值設定上下臨界值,小于下臨界值的為消極情感貼,在上下臨界值之間的為中性情感貼,大于上臨界值的為積極情感貼。使積極情感帖的情緒值為1,中性情感帖的情緒值為0,消極情感帖的情緒值為-1。計算出的情緒極性,可以從一定程度上反映當天股吧中的大部分用戶的看漲看跌傾向。
LSTM(Long short-Term Memory)全稱為長短時記憶神經(jīng)網(wǎng)絡,是一種時間循環(huán)神經(jīng)網(wǎng)絡,也即在循環(huán)神經(jīng)網(wǎng)絡的基礎上,在隱層的各神經(jīng)單元上加入記憶單元,使時間序列上的記憶信息可以控制,使其更適用于處理和預測時間序列問題。LSTM 神經(jīng)網(wǎng)絡通過控制門(輸入門it、遺忘門ft、輸出門ot)調節(jié)之前信息與當前信息的記憶和遺忘程度,將短期記憶與長期記憶結合起來,使循環(huán)神經(jīng)網(wǎng)絡具備了長期記憶能力,并且一定程度上解決了梯度消失的問題。因此,本文采用LSTM 方法進行特征提取和預測,其工作過程可以表述如下。
第一,LSTM 中的遺忘門對信息進行過濾,忘記無用信息。
第二,輸入門根據(jù)輸入信息和記憶信息進行狀態(tài)更新。
輸入信息:it=σ(Wixt+Viht-1+bi)。
第三,輸出門輸出當前信息。
以上公式中:σ為sigmoid 激活函數(shù);W和V為權重矩陣;b為偏置向量;xt為t時刻的輸入矢量;ht-1為t時刻前LSTM輸出的矢量,也即短記憶信息;ct為t時刻下的長時記憶信息。
在股票預測研究中融入情感分析影響因素以及股票歷史數(shù)據(jù),采用深度學習與機器學習相結合的方法,構建LSTM 特征提取訓練模型并進行股票預測,提高了股票預測準確率。通過實驗對比分析發(fā)現(xiàn),融入情感分析和歷史數(shù)據(jù)特征的股票預測模型能夠獲得更好的預測效果。下一步工作是繼續(xù)收集影響股票行情波動的新聞信息數(shù)據(jù),結合深度學習等方法進行特征提取并建立預測模型,進一步提升模型預測效果。