李 珊,丁 宇,陳妙苗,鄭 晨
(南京航空航天大學經(jīng)濟與管理學院,南京 211106)
投資者情緒是行為金融學研究的一個熱點.行為金融學理論認為證券的價格不只是由其內(nèi)在的價值所決定,投資者的投資情緒和行為也會對其產(chǎn)生很大的影響.針對投資者情緒的研究主要是分析其與市場收益的關系[1].Delong等最先研究投資者情緒與股票價格的關系,并構建了DSSW模型,指出投資者情緒是影響金融資產(chǎn)均衡價格的系統(tǒng)性風險[2].投資者情緒指數(shù)是量化分析投資者情緒的主要方法,傳統(tǒng)的投資者情緒指數(shù)主要可分為直接型情緒指數(shù)和間接型情緒指數(shù).直接型情緒指數(shù)是指通過問卷等調(diào)查方式獲得的投資者情緒,主要有友好指數(shù)、投資者智能指數(shù)以及央視看盤指數(shù)等;間接型情緒指數(shù)主要是以股票市場的交易信息作為情緒的代理變量,利用主成分分析等方法構建得到.對于直接投資者情緒指數(shù),Brown和Cliff利用投資者智能指數(shù)反映投資者情緒[3],王美今和孫建軍則用央視看盤指數(shù)度量投資者情緒[4].對于間接投資者情緒指數(shù),Baker和Wurgler對股票交易數(shù)據(jù)如封閉式基金折價、市場交易量、IPO數(shù)及首日收益率、股利收益和股票發(fā)行/證券發(fā)行比率,利用主成分分析法并采用第一主成分作為投資者情緒指數(shù)[5].基于Baker的研究,易志高和茅寧將股利收益和股票發(fā)行/證券發(fā)行比率替換為消費者信心指數(shù)和新增投資者開戶數(shù),采用主成分分析法提取前5個主成分構建了投資者情緒綜合指數(shù)[6].隨著互聯(lián)網(wǎng)技術的快速發(fā)展,海量的互聯(lián)網(wǎng)數(shù)據(jù)和日趨成熟的數(shù)據(jù)處理技術為研究投資者情緒提供了新的思路和方法.Antweiler利用貝葉斯和支持向量機的方法對雅虎金融板塊上近150萬條數(shù)據(jù)進行分析并構建投資者情緒指數(shù),研究發(fā)現(xiàn)股票收益率與當日論壇中的信息指標呈顯著的相關關系[7].Tetlock通過對媒體新聞內(nèi)容和股票收益率進行研究,發(fā)現(xiàn)悲觀的新聞報道會對股票收益率產(chǎn)生影響[8].孟雪井等利用文本挖掘技術建立了3種詞庫,并在綜合3種詞庫基礎上構建了投資者情緒指數(shù),證明了我國股票市場的投資者情緒與市場指數(shù)之間存在聯(lián)動機制[9].石善沖等基于微信文本構建了投資者情緒指數(shù),并與收盤價、成交量時間序列之間的關系進行研究,結果表明微信文本挖掘的投資者情緒對于預測股票市場表現(xiàn)有重要作用[10].目前用于構建投資者情緒指數(shù)的文本分析方法主要是機器學習法和情感詞典法[11-13].機器學習法主要利用傳統(tǒng)的機器學習算法包括決策樹、樸素貝葉斯和支持向量機等,需要選取或者建立文本特征,然后進行情感分類,此方法的關鍵在于選擇合理的特征.情感詞典法需要先建立相關領域文本的情感詞典,在此基礎上對各文本數(shù)據(jù)進行情感打分,最后根據(jù)得分進行情感分類.從目前的研究來看,上述兩種方法依舊存在著一些不足之處:機器學習算法的效果很大程度上取決于文本特征的選?。?4],而情感詞典法的詞語在不同語境中所表現(xiàn)出的不同情感傾向問題是該方法的主要缺陷[15].隨著對深度學習領域的不斷探索和研究,越來越多的學者開始利用深度學習算法來進行文本分析.國外學者最早將深度學習算法與自然語言處理結合起來并取得良好的效果[16-18].近年來,國內(nèi)的學者開始陸續(xù)將基于深度學習算法的文本分析方法應用于網(wǎng)絡文本研究中.梁軍等提出了一種基于深度學習的遞歸神經(jīng)網(wǎng)絡模型對微博文本進行情感分析,在不增加神經(jīng)網(wǎng)絡復雜度的前提下,提升了模型的準確性[19].李杰等采用卷積神經(jīng)網(wǎng)絡模型對電商評論進行短文本評論情感分類和特征詞聚類,結果表明模型的情感分類達到高準確率,并且能有效提取產(chǎn)品特征[20].基于深度學習的文本處理方法正不斷受到各領域?qū)W者的青睞,然而在對投資者情緒指數(shù)研究上,還沒有引起廣泛關注.
基于深度學習模型對互聯(lián)網(wǎng)金融論壇文本數(shù)據(jù)進行分析,進而展開對投資者情緒的研究,采用雙向長短期記憶網(wǎng)絡模型(Bi-directional Long Short-Term Memory,Bi-LSTM)對投資者的論壇發(fā)帖文本進行情感分類,并依此設計直接情緒指標,在此基礎上結合常用的間接情緒指標,利用主成分分析法構建新的綜合投資者情緒指數(shù).選取我國散戶投資者為研究對象,通過他們在“上證股吧”論壇發(fā)帖的情感傾向分析投資者的群體情緒,并研究其與股指的關系.具體工作為:獲取股吧論壇的發(fā)帖文本并處理、利用百度開源的Bi-LSTM模型對發(fā)帖文本進行情感分類、構建綜合投資者情緒指數(shù)(Comprehensive Investor Sentiment Index,CISI)、研究投資者情緒與上證股指的相互性關系.
長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)模型是在循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)模型的基礎上進行改進的一種特殊的循環(huán)神經(jīng)網(wǎng)絡模型,由Hochreiter等于1997年提出[21],LSTM模型解決了RNN模型在長序列任務中的梯度消失的問題.LSTM模型通過在RNN模型隱藏層單元中添加可控門對其進行優(yōu)化,通過遺忘門f、輸入門i和輸出門O對信息進行篩選,并通過更新“細胞狀態(tài)C”來保存重要信息,從而解決梯度消失問題,達到長期記憶的作用,LSTM記憶單元的結構如圖1.
LSTM模型的記憶單元首先通過遺忘門以一定的概率將上一單元的輸出ht-1進行丟棄.讀取當前輸入信息xt和上一單元的輸出ht-1,通過Sigmoid函數(shù)(圖1中由σ表示)輸出數(shù)值ft∈[0,10],該數(shù)值決定對上一單元信息的保留程度,數(shù)值越高表示保留信息越多(公式(1)).
輸入門用于確定需要存入細胞狀態(tài)中的信息.輸入門的操作包含兩個環(huán)節(jié):首先通過Sigmoid層決定更新哪些信息(公式(2)),利用tanh層生成一個備選細胞狀態(tài)~Ct(公式(3)),然后綜合上述信息更新細胞狀態(tài)Ct(公式(4)).
記憶單元的最后一個核心部分是輸出門.輸出內(nèi)容ht由上一單元的輸出ht-1、本單元的輸入xt以及更新的細胞狀態(tài)Ct共同決定,Ot表示t時刻輸出門的輸出值,具體計算分為兩步:
由于遺忘門、輸入門和輸出門的存在,記憶單元嚴格控制了信息的輸入和輸出,保證了信息的質(zhì)量,同時記憶單元中細胞狀態(tài)的更新機制使信息能夠得到長時間的保留,從而保證LSTM模型對長距離信息的敏感性.
由于LSTM模型具備長期記憶能力,因此對于處理文本序列數(shù)據(jù)任務有著很好的效果.但是在處理文本任務時,由于LSTM模型處理數(shù)據(jù)是單向的,只能獲取上文信息而無法獲取下文信息,為了避免這種問題,采用雙向長短期記憶網(wǎng)絡Bi-LSTM模型,模型結構如圖2.
Bi-LSTM模型主要有4層結構,分別是詞嵌入層、前向LSTM層、后向LSTM層以及全連接分類層.詞嵌入層將文本詞匯轉(zhuǎn)換成低維稠密實值詞向量;通過前向LSTM層從前往后獲取前文信息,通過后向LSTM層從后往前讀取下文信息,然后將兩個LSTM層的輸出拼接成一個長向量;最后用一個全連接層連接前層所有神經(jīng)元輸出,利用Softmax函數(shù)將輸出轉(zhuǎn)換成概率分布,對應概率最大的種類即為該文本的預測分類.
圖2 Bi-LSTM文本分類模型結構圖Fig.2 The structure of Bi-LSTM text classification model
本文設計一套新的指標體系,并基于CICSI指標構建法[6]構建新的綜合性投資者情緒指數(shù)(CISI),該指標體系包含投資者的直接情緒指標變量和間接情緒指標變量.由于數(shù)據(jù)的可獲取性,本研究選取的所有指標都是月度數(shù)據(jù).首先,根據(jù)股吧論壇中的發(fā)帖數(shù)據(jù)設計直接情緒指標:
正向文本情緒得分(POS_SCORE):根據(jù)Bi-LSTM模型對文本的情感分類結果,以月為單位統(tǒng)計該月正向帖子的發(fā)帖數(shù)量(n_pos),將其除以月發(fā)帖總量(n_total),從而剔除每月發(fā)帖總量不同所造成的影響,得到正向文本情緒得分(公式(7)).該指標反映了散戶投資者對于股市行情看漲的直接情緒.
負向文本情緒得分(NEG_SCORE):以月為單位統(tǒng)計該月負向帖子的發(fā)帖數(shù)量(n_neg),并將其除以該月發(fā)帖總量(n_total),同時為了體現(xiàn)其負向性,在前添加負號.該指標反映了投資者對于股市行情看跌的直接情緒.
關注度指標(FOCUS):已有研究表明,投資者的關注度與投資者的情緒有關,并且投資者關注具有對股票市場的解釋能力及很強的預測能力[22-23].將單個發(fā)帖的瀏覽量(n_read)和評論量(n_comment)之和定義為該帖的關注度值,將每月所有帖子的關注度值求和作為該月關注度指標(公式(9)).
同時選取常用的代理變量作為間接情緒指標,主要包含6個指標:
1)封閉式基金折價(DCEF):衡量基金價格對資產(chǎn)凈值的負向偏離程度,折價越低,表明投資者的期望越高.
2)換手率(TURN):衡量股票交易的活躍程度,換手率越高,表明投資者的投資熱情越高.
3)新增開戶數(shù)(NIA):直接反映了散戶投資者對投資市場的情緒,投資者情緒高漲時,會吸引新的投資者參與投資,因此該指標能很好反映整體的投資者情緒.
4)IPO數(shù)量(IPON)及首日收益率(IPOR):當股市行情較好時,投資者情緒高漲,這時IPO的數(shù)量將會增加;投資者情緒越高漲,對該股期望值越高,則其首日收益率越高.
5)消費者信心指數(shù)(CCI):衡量投資者對未來宏觀經(jīng)濟的看好程度,通常消費者信心指數(shù)越高,表明其對未來經(jīng)濟走勢越看好,因而會更有可能參與到股市的投資中.
6)消費者價格指數(shù)(CPI)以及宏觀經(jīng)濟景氣的一致性指數(shù)作為宏觀經(jīng)濟走勢的代理指標:數(shù)據(jù)由CSMAR數(shù)據(jù)庫獲取.這是考慮到由于宏觀經(jīng)濟的走勢會對投資者的情緒產(chǎn)生影響,因此在構建投資者情緒指標時需要剔除該影響.
基于上證大盤交易數(shù)據(jù)以及“上證指數(shù)”股吧評論文本數(shù)據(jù)設計一套新的情緒指標,并在此基礎上構建綜合投資者情緒指數(shù),指數(shù)的構建方法主要是主成分分析法.在進行主成分分析時,保留貢獻度最大的前5個主成分,同時保證所選取的主成分累計方差解釋率不低于75%,以保證主成分的解釋作用.
首先在原始的9個情緒指標基礎上進行提前期處理,構建指標的“提前”和“滯后”變量共18個.對所有變量進行標準化處理后進行主成分分析,對5個主成分進行加權平均構建初始投資者情緒指數(shù)(CISI0).分別對CISI0與18個變量進行相關性分析,選擇相關性較大的“提前”或者“滯后”變量作為各指標的最終代理變量.對上述得到的9個指標變量進行第二次主成分分析,并對主成分進行加權求和,得到含有宏觀因素的情緒指數(shù)(CISI1).為了剔除宏觀因素影響,以CISI1為因變量,以CPI和宏觀經(jīng)濟景氣一致性指數(shù)作為自變量建立線性回歸模型,取其殘差序列作為剔除了宏觀因素影響的CISI.
中國股民主要在證券論壇上進行信息交流,選取用戶最多且人氣最高的證券論壇“東方財富網(wǎng)”中的“上證指數(shù)吧”作為數(shù)據(jù)源,通過python爬蟲獲取2015年1月1日至2019年12月31日用戶所有的發(fā)帖樣本3 973 657條,每條樣本包括標題、內(nèi)容、作者、發(fā)帖時間、最后評論時間、閱讀量和評論量.通過對數(shù)據(jù)進行初步觀察,發(fā)現(xiàn)絕大多數(shù)帖子的標題和內(nèi)容存在相同或者高度重復的現(xiàn)象,因此只保留帖子的內(nèi)容部分來分析投資者情緒.進一步觀察發(fā)現(xiàn),該股吧帖子內(nèi)容主要分為3種:股吧官方發(fā)布的信息帖、投資分析師的分析帖以及散戶投資者的交流帖.他們的表現(xiàn)在字數(shù)上的區(qū)別在于前兩種帖子篇幅較長,通常在幾百字甚至更多,而散戶交流帖則偏短,一般為一到兩個句子,平均長度不超過50字.為了剔除非散戶帖子對研究結果的影響,將長度大于50字的帖子視作非散戶發(fā)帖并且刪除.最后將發(fā)帖時間和最后評論時間不在同一個月的樣本剔除,從而避免跨多天的帖子對研究結果的影響.經(jīng)過上述數(shù)據(jù)清洗,此次研究得到有效樣本3 199 291條.
利用百度開源的Bi-LSTM模型“senta_bilstm”對清洗后的發(fā)帖進行文本情感分析,“senta_bilstm”是基于海量數(shù)據(jù)訓練具有高準確度文本情感二分類模型.模型對文本進行分析后,將文本的情感傾向及其屬于正向情緒的概率輸出,模型分類結果如表1.由示例可以看出,文本的正向情感越強烈,該句屬于正向文本的概率就越高,同理,當文本所表達的負向情感越強烈時,該句的正向概率就越低,由此說明模型能夠很好地理解文本的情感強度.對于一些口語表達或者股市論壇獨有的表達如“跳水”“吃面條”“喝白開水”等,雖然沒有直接情感詞存在,模型也能準確識別出文本的情感傾向,彌補了通用型情感詞典在這方面的缺陷.
表1 文本情感分類結果示例Tab.1 Examples of text sentiment classification results
基于“上證指數(shù)”股吧發(fā)帖相關數(shù)據(jù)以及發(fā)帖文本的情感分類結果,以月為時間單位設計了反映投資者直接情緒的相關指標,同時從CSMAR數(shù)據(jù)庫中獲取反映間接情緒相關指標的月度數(shù)據(jù),各指標的樣本數(shù)量為60.對標準化處理后的所有指標的“提前”和“滯后”變量進行主成分分析并根據(jù)最大方差對主成分變量進行旋轉(zhuǎn),選擇前5個主成分(累計方差解釋率為77.98%)進行基于特征值的加權平均,得到初始投資者情緒指數(shù)(CISI0).計算CISI0與所有指標變量的相關性,如表2所示.
表2 CISI0與代理變量相關系數(shù)表Tab.2 Correlation coefficient table of CISI0 and proxy variables
根據(jù)表2相關性值的大小,選擇FOCUSt、POS_SCOREt-1、NEG_SCOREt-1、DECFt-1、TURNt、IPONt、IPORt、NIAt-1和CCIt作為構建CISI1的代理變量.CISI1的構建方法與CISI0一致,前5個主成分累計方差解釋率為89.603%,各代理變量的因子載荷及其與CISI1相關系數(shù)如表3所示.
表3 各代理變量因子負載及與CISI1相關系數(shù)表Tab.3 Factor load of each proxy variable and its correlation coefficient table with CISI1
因此,CISI1的計算公式如下:
為了剔除宏觀因素對投資者情緒指數(shù)的影響,以CISI1為因變量,宏觀經(jīng)濟景氣一致性指數(shù)和消費者價格指數(shù)作為自變量建立線性回歸模型,回歸結果見公式(11).式中CPI表示消費者價格指數(shù),CI表示一致性指數(shù),取其殘差序列ε作為最終的CISI.
為了驗證本文構建的投資者綜合情緒指數(shù)(CISI)能否反映上證股指(SI),從二者相關性的角度進行分析.本文收集了2015年1月至2019年12月上證股指的月度數(shù)據(jù),繪制出CISI與SI的走勢圖(圖3),同時計算二者的皮爾森相關系數(shù).
圖3 CISI與SI走勢圖Fig.3 Trend chart of CISI and SI
由圖3可以看出,投資者綜合情緒指數(shù)與上證股指的走勢基本一致,投資者情緒曲線對股指曲線具有良好的擬合效果,說明本文所構建的綜合投資者情緒指數(shù)能夠一定程度上反映出股指的變化趨勢.由二者的走勢曲線可以粗略地看出,投資者情緒與股指之間的變化趨勢在不同的時期存在一定的“提前”和“滯后”關系,在2015年期間,股指先于投資者情緒發(fā)生變化,隨后幾年二者的變化互有先后.同時,投資者情緒指數(shù)序列和股指序列之間的皮爾森相關系數(shù)為0.520 2,在1%的水平上顯著相關,說明投資者情緒與股指之間存在較強的正相關關系.
為了對投資者情緒與股指之間的關系進行進一步的分析,對二者進行格蘭杰因果檢驗并構建VAR模型進行方差分解.首先采用增廣的Dicky-Fuller檢驗法(ADF)進行單位根檢驗,驗證CISI和SI的平穩(wěn)性.由表4的檢驗結果可知,二者的ADF檢驗值分別在低于1%和5%的臨界值水平下拒絕“CISI有單位根”和“SI有單位根”的假設,即CISI序列在1%的顯著性水平下平穩(wěn),上證股指序列SI在5%的顯著性水平下平穩(wěn).
表4 平穩(wěn)性檢驗結果Tab.4 Stationary test results
由于時間序列變量CISI和SI均為平穩(wěn)序列,因此可以直接進行格蘭杰因果檢驗,從統(tǒng)計學的角度分析投資者情緒與股指之間的因果關系,表5列出檢驗結果.
表5 格蘭杰因果檢驗結果Tab.5 The results of Granger causality test
對于假設“CISI不是SI的格蘭杰原因”,在滯后1~3階時檢驗結果P值均小于0.05,因此均拒絕原假設,即CISI是SI的格蘭杰原因;對于假設“SI不是CISI的格蘭杰原因”,在滯后1~3階時,P值均遠小于0.01,因此在1%的顯著性水平下拒絕原假設,即SI是CISI的格蘭杰原因.由上述格蘭杰檢驗結果可知,投資者情緒指數(shù)和上證股指之間存在雙向的格蘭杰因果關系,即投資者的情緒會受到股市走勢的影響,同時又會反過來對股市產(chǎn)生影響.
進一步構建VAR(2)模型對CISI和SI進行分析,模型如下所示:
式中:k表示模型的最大滯后階數(shù),ε1t和ε2t為方程的隨機擾動項.本文根據(jù)SIC、SC以及HQ信息準則,確定模型的滯后階數(shù)為3.模型的單位根均小于1,因此該VAR模型是穩(wěn)定的.基于VAR模型對投資者情緒指數(shù)CISI以及上證股指SI進行方差分解,如表6所示.
表6 方差分解結果Tab.6 The results of Variance decomposition
由SI的方差分解結果可知,在股指和投資者情緒的雙重影響中,股指的變動主要由其自身解釋,并且自身的方差解釋率最終穩(wěn)定在85%左右.同時,投資者情緒對股指變化也有一定的解釋并且解釋率呈現(xiàn)上升趨勢,由初期的1.119%逐漸增加,最后穩(wěn)定在14%左右.由CISI的方差分解結果可知,投資者情緒不僅受到自身往期的影響,同時也會受到股指的影響,并且在這個影響的過程中,股指的方差解釋率由最初的0快速增長,在第5期時到達51%,隨后保持穩(wěn)定.由股指和投資者情緒的方差分解結果可得,二者對彼此會產(chǎn)生一個逐漸增強的長期影響作用,但是最終的影響強度是不同的.對于股指而言,投資者情緒對其有一定的解釋作用,但是解釋力度相對較小,表明投資者情緒只是股市行情眾多影響因素中的一部分,因而影響作用相對較低,同時也印證了股市走向的難以預測性.對于投資者情緒而言,股指對其有著很強的解釋作用,表明股市行情對投資者的情緒有著至關重要的影響,揭示了股市行情走高時,投資者投資情緒隨之高漲,而行情走低時,投資者情緒持續(xù)低迷的現(xiàn)象.
為了驗證本文所設計的CISI指數(shù)的優(yōu)越性,依照相同的流程和方法,選擇DCEF、TURN、IPON、IPOR、NIA以及CCI構建間接投資者情緒指數(shù)(SENT),并將其與CISI進行對比分析.以上證股指(SI)作為因變量,分別以CISI和SENT作為自變量建立線性回歸方程,如式(13)和(14),對比結果如表7.
表7 CISI指數(shù)與SENT指數(shù)對比結果Tab.7 Comparison results of CISI index and SENT index
由表7可知,在線性回歸方程中,SI的R2為0.271,高于SENT的R2(0.117),說明CISI對股指的解釋效果要優(yōu)于SENT的解釋效果.對于回歸的均方誤差MSE,CISI作為自變量時的MSE為0.742,小于SENT對應的MSE值(0.898),同時CISI與SI的相關系數(shù)(0.52)高于SENT的相關系數(shù)(0.342),說明CISI對股指的擬合效果更好.由此可見,添加了直接情緒因素的CISI指數(shù)比只包含間接型情緒的SENT指數(shù)取得了更好的股指擬合效果,因此CISI能更準確地反映出投資者情緒與股指之間的關系.由CISI的優(yōu)越性可知,在量化投資者情緒并構建情緒指數(shù)的時候,僅僅依據(jù)股票市場的交易數(shù)據(jù)來構建的投資者情緒指數(shù)是不夠的,還需要考慮到投資者的直接情緒因素.
通過設計一套新的指標體系,以此構建了綜合性的投資者情緒指數(shù),并根據(jù)2015年1月至2019年12月共60個月的樣本數(shù)據(jù),對投資者情緒與股指間的互動性關系進行實證分析.構建的指標體系包含了投資者的直接情緒指標和間接情緒指標.其中,直接情緒指標基于“Bi-LSTM”模型對股吧發(fā)帖進行文本情感分析得到,間接指標則是從CSMAR數(shù)據(jù)庫中獲取的股市交易數(shù)據(jù).主要研究結果如下:①投資者情緒與股指之間存在長期且正向的相互影響作用,并且這種影響作用呈現(xiàn)出逐漸增強的趨勢.②投資者情緒和股指對彼此的影響程度是不同的,其中投資者情緒對股指的影響強度較小,而股指對投資者情緒的影響強度則很大.③對于投資者情緒指數(shù),當其構建指標體系中包含投資者的直接情緒指標時,其對股指的擬合效果會比僅使用間接情緒指標所構建指數(shù)的效果更好.
目前,我國的投資市場仍處于發(fā)展階段,散戶投資者占有很高比例,投資者的情緒容易受到市場行情的影響.而投資者受影響后的情緒反過來又會對投資市場產(chǎn)生一定的影響,導致市場不規(guī)律波動.因此,對于每一個投資者而言,需要意識到自己的情緒在投資過程中受到的影響和作用,要加強專業(yè)知識的學習,減少情緒波動造成的損失.在投資者情緒的構建方法上,根據(jù)股吧論壇的發(fā)帖信息創(chuàng)新性地量化了投資者的直接情緒指標,并結合間接情緒指標構建了綜合性的投資者情緒指數(shù),期望該指數(shù)構建方法對后續(xù)的投資者情緒研究有所啟發(fā).