徐雨迪
(南京審計大學,江蘇 南京 211815)
波動率是衡量股市風險的重要指標,國內(nèi)外學者一直致力于研究如何刻畫及預測市場波動率。 有大量文獻基于股票市場的歷史數(shù)據(jù)或金融市場現(xiàn)有的指數(shù)來預測股市波動,雖然研究取得了一定的成果,但預測能力一直得不到很大的提升,而互聯(lián)網(wǎng)的出現(xiàn)和興起,為股市波動預測領域的研究提供了新的方向。 在網(wǎng)絡時代,社交媒體既是信息傳播的重要媒介,也是投資者的重要信息來源渠道。 越來越多的投資者在社交媒體平臺上發(fā)表自己對當前股市的看法、通過網(wǎng)絡搜索獲取信息等,產(chǎn)生了大量具有極大研究價值的網(wǎng)絡信息。 這些信息中往往包含投資者對股市的看法和未來投資計劃,由此通過這一類型的社交媒體信息來了解投資者的未來的投資行為,進而對股票波動進行預測是一條行之有效的路徑。 這一方面能夠引導投資者客觀認識自身存在的認知偏差,避免盲目跟風的同時,做好風險管理;另一方面,能夠為完善股票市場的運行機制、制定監(jiān)管政策提供思路。
過去市場波動率的研究大多基于GARCH 族和SV 族模型。 但GARCH 模型和SV 提供的是低頻波動率,這種估計往往不夠精確,會包含大量的噪聲。為了解決這種估計的偏差,Andersen 等首次在高頻數(shù)據(jù)的基礎上提出了已實現(xiàn)波動率,是對日高頻收益率的某種范式的直接加總。 在對已實現(xiàn)波動的研究中,波動率的預測占據(jù)著核心的位置。 Blair等、Koopman 等將已實現(xiàn)波動率引入 GARCH模型和SV 模型中發(fā)現(xiàn),新構建的模型能顯著提高對波動率的預測能力。 Corsi基于異質(zhì)市場假說,定義短、中、長期波動,構建異質(zhì)自回歸已實現(xiàn)波動率模型,實證結(jié)果表明HAR-RV 模型對未來波動的預測能力明顯優(yōu)于GARCH、SV 等波動率模型。 在HAR-RV 模型之后,許多學者在此基礎上提出了擴展模型。 如Andersen 等基于多種跳躍統(tǒng)計檢驗方法,建立了 HAR-RV-J 和 HAR-RV-CJ 模型,證實了分離已實現(xiàn)波動可以提高HAR-RV 模型的預測表現(xiàn)。 還有學者基于股票市場的歷史交易數(shù)據(jù)或金融市場現(xiàn)有的指數(shù),對HAR 模型進行改進。 如馬鋒等引入隔夜收益、劉曉倩等引入中國波指,有效提升了HAR 類模型的預測能力。
國內(nèi)外學者關于市場波動率模型的研究已十分豐富,但均是基于市場交易的歷史數(shù)據(jù)來研究和預測未來市場波動率。 隨著行為金融學的興起,定量化研究社交媒體信息,并進一步研究其對市場的影響成為新的研究熱點。 互聯(lián)網(wǎng)的普及,使得微博、Twitter、股吧等社交媒體成為用戶發(fā)表觀點和交流互動的主要平臺,這從根本上改變了股票市場的信息結(jié)構。 這些平臺上的網(wǎng)絡信息一般不會在股市交易數(shù)據(jù)中得到反映,卻蘊含著對股市運行有顯著解釋力的有效信息。 基于此,大量學者運用社交媒體信息構建在線情緒代理,從而對股票波動進行研究。
Da 等首次運用Google 股票代碼的搜索量,發(fā)現(xiàn)搜索量會對股價產(chǎn)生影響。 同樣,Dimpfl 等和Kim 等引入Google 搜索量,發(fā)現(xiàn)搜索量與波動率之間的走勢方向具有一定的一致性,搜索量對未來股市波動性有一定的預測能力。 歐陽資生等運用百度搜索量,揭示了搜索量與滬深兩股市波動性之間存在很強的相關性,歷史搜索量將有助于提升模型的波動率預測效果。 除了搜索引擎,還有投資者能夠自由發(fā)表觀點、交流互動的各種股票論壇,論壇上的帖子能夠非常直接地反映投資者的看法和情緒。 Li 等運用Twitter 上的帖子信息構建在線情緒,研究發(fā)現(xiàn)當日的在線情緒對三天后的股市具有更好的預測性能。 尹海員和吳興穎發(fā)現(xiàn)金融界論壇發(fā)帖信息中的投資者情緒能正向預測股票市場運行。 Audrino 等使用來自 Twitter 和Stock Twits 的文本信息構建在線情緒,發(fā)現(xiàn)情緒變量能夠顯著提高波動性預測準確度。 還有學者發(fā)現(xiàn)投資者主要借助新聞媒體來幫助他們處理信息并決定信息的重要程度。 Moussa 等采用Factiva 數(shù)據(jù)庫的新聞標題構建在線情緒,發(fā)現(xiàn)公司特有市場信息會對股票波動產(chǎn)生影響。 Atkins 等發(fā)現(xiàn),當使用財務新聞作為機器學習算法的輸入時,能提高波動性的預測。 王曉丹等發(fā)現(xiàn)從互聯(lián)網(wǎng)新聞媒體發(fā)布的信息中提取的關注和情感指標對我國市場運行有一定的影響。
綜上所述,目前國內(nèi)外學者的研究已經(jīng)證實由社交媒體信息構建的在線情緒代理包含股票市場運行的相關信息,但以往的研究基本上使用單一的數(shù)據(jù)源構建在線情緒代理,鮮有學者深入探討不同社交媒體源構建的在線情緒代理在對股票市場的影響上,以及對未來市場波動預測包含的信息上是否存在差異。 此外,股市周末休市期間,社交媒體仍然在產(chǎn)生新的信息,較少學者將周末在線情緒納入研究當中。 只有進一步解決上述問題,才能更好地進行股票波動預測的研究,這也會使得本研究更具實踐意義。 基于此,本文選取上海和深圳證券交易所的A 股作為研究對象,通過收集社交媒體的數(shù)據(jù)構建不同類別的在線情緒代理,然后構建控制周一效應的HAR_M 模型,并將在線情緒代理引入構建擴展HAR_M 模型,通過比較新舊模型預測精度的差異研究在線情緒代理對股票波動額外的預測能力。
本文從上海和深圳證券交易所A 股市場中隨機選取了300 只股票,以2011 年1 月1 日至 2019年12 月31 日所選股票5 分鐘高頻數(shù)據(jù)作為研究樣本。 選擇上述研究樣本基于以下考慮:①2011 年至2019 年跨越了較長樣本期,涵蓋了中國股票市場相對完整的牛熊市波動周期;②上交所和深交所A 股市場存在大量的散戶投資者,其行為更可能受到在線情緒的影響。 股票數(shù)據(jù)來源于Wind 數(shù)據(jù)庫,社交媒體數(shù)據(jù)來源于中國研究數(shù)據(jù)服務平臺(CNRDS),包括報刊財經(jīng)新聞相關數(shù)據(jù)、網(wǎng)絡新聞相關數(shù)據(jù)、上市公司股票代碼網(wǎng)絡搜索指數(shù)和股吧相關數(shù)據(jù)。 使用R 作為數(shù)據(jù)分析工具。
考慮到周末股市停盤而社交媒體仍然在產(chǎn)生新的信息,這些信息也是投資者做出決策的重要參考,從而會對未來股市波動產(chǎn)生影響,造成股市的周一效應,為此本文在處理數(shù)據(jù)時,將周末的社交媒體信息累加到周五的信息上,使得周末的在線信息能夠被充分利用。
1. 已實現(xiàn)波動率
根據(jù)Andersen 和Bollerslev 對已實現(xiàn)波動率的計算方法,將交易日t
分割為N
段,P
為交易日t
中第i
個股價,i
=1,…,N
。 令r
為交易日t
內(nèi)第i
時段的對數(shù)收益率,r
=100×(lnP
-lnP
)。 上交所和深交所上午的交易時間為 9∶30 ~11∶30,下午的交易時間為 13∶00~15∶00,在 5 分鐘的采樣頻率下,每個交易日共有48 個樣本點(不含開盤價),因此通過求解48 個5 分鐘收益的平方和來計算已實現(xiàn)波動率。 已實現(xiàn)波動率(RV)可以表示為:2. 在線情緒代理
(1)新聞。 新聞相關數(shù)據(jù)包括與股票相關的每日積極和消極的報刊財經(jīng)新聞數(shù)量,其中報刊財經(jīng)新聞來源于國內(nèi)400 多個主要金融媒體,基本上能覆蓋投資者瀏覽和關注的大部分新聞。 本文借鑒Lin 等的研究,根據(jù)新聞的情感分類,構建新聞情緒(NBI):
再根據(jù)每日與股票相關的新聞總數(shù)量構建新聞關注(NAT):
i
在t
時新聞總數(shù)量。(2)股吧。 股吧是投資者分享股市相關信息、發(fā)表觀點和看法并交換投資經(jīng)驗的互動平臺,其中的帖子反映了股市中大部分投資者的心理。 本文根據(jù)股吧帖子的情感分類,匯總每日每只股票的積極和消極股吧帖子數(shù),構建股吧情緒(PBI):
再根據(jù)每日的股吧帖子數(shù)量構建股吧關注:
i
在t
時帖子數(shù)。(3)搜索引擎。 本文選取上市公司股票代碼網(wǎng)絡搜索量構建投資者關注(SVI)。 為了避免出現(xiàn)異方差的問題,對其進行對數(shù)處理:
i
在t
時的股票代碼搜索量。3. 周一效應
由于周末的信息會對周一股市產(chǎn)生影響,為此本文構建周一虛擬變量Monday,用以控制股市波動中的周一效應,即交易日為周一取1,其他取值為0。收集相關變量數(shù)據(jù)后,本文對數(shù)據(jù)進行描述性統(tǒng)計分析,具體結(jié)果見表1。
從表1 可知,股吧情緒和新聞情緒的描述性統(tǒng)計類似,在樣本期內(nèi),均值約為0.2,內(nèi)部標準差都大于股票之間標準差。 對關注在線關注指數(shù)(股吧關注、新聞關注和投資者關注),均值差異較大。 這說明不同社交媒體的情緒類似,關注差異大。
表1 主要變量描述性統(tǒng)計
表2 為樣本中每只股票的相關變量之間的成對同期Pearson 相關性,可以看出各變量之間均存在一定的相關性。
表2 主要變量的相關系數(shù)
根據(jù)波動率所具有的長記憶性,本文使用異質(zhì)自回歸(HAR)模型作為預測模型。 基準HAR 模型由下式給出:
p
值均小于0.05,說明隨機效應模型的假設無法滿足,個體效應與回歸變量是相關的,所以采用固定效應模型比較合適。 因此,本文對模型(1)和(2)進行控制個體固定效應的面板數(shù)據(jù)回歸,回歸結(jié)果見表3。表3 基準模型回歸結(jié)果
續(xù)表
從表3 可以發(fā)現(xiàn):①Monday 變量的系數(shù)顯著為正,股市波動存在顯著的周一效應,這是由周末各種信息積累造成的;②綜合模型的擬合優(yōu)度R
可知,控制周一效應的HAR_M 模型的擬合能力要優(yōu)于HAR 模型。 綜上可知,控制周一效應的HAR_M 模型要優(yōu)于傳統(tǒng)的HAR 模型。考慮日和周平均的在線情緒對未來一日股市波動的影響,本文將在線情緒代理分別引入HAR_M_media 模型:
表4 樣本內(nèi)回歸結(jié)果
從表4 可以發(fā)現(xiàn),在線情緒代理均會對股票波動產(chǎn)生顯著影響,具體來看除了周平均新聞、股吧和投資者關注對股票波動的影響存在反轉(zhuǎn)效應外,在線情緒均對股市波動產(chǎn)生顯著的正向影響,這可能是由于過度關注引起的。 綜合模型的擬合優(yōu)度R
可知,在線情緒代理變量的引入均在不同程度上提高了模型預測的準確度,說明在線情緒的引入有助于改善對未來波動率的預測效果。上文驗證了在線情緒變量的引入有助于改善對未來波動的預測效果,本節(jié)進一步研究在線情緒代理對股票波動的樣本外預測能力及差異。 基于此,本文在HAR_M 模型的基礎上分別引入來自新聞、股吧和搜索引擎的在線情緒變量集,以研究不同類別在線情緒對股票波動的預測能力,具體的擴展HAR_M 模型如下。
為研究股吧在線情緒對股票波動的預測價值,在HAR_M 模型的基礎上引入日和周平均的股吧情緒和關注,構建HAR_M_Posts:
為研究新聞在線情緒對股票波動的預測價值,在HAR_M 模型的基礎上引入日和周平均的新聞情緒和新聞關注,構建HAR_M_Online:
為研究搜索引擎在線情緒對股票波動的預測價值,在HAR_M 模型的基礎上引入日和周平均的投資者關注,構建HAR_M_Searching:
對模型運用“滑動時間窗”的樣本外預測方法,具體如下。 以2011 年 1 月 1 日至 2012 年 12 月 31日為訓練窗口期,用訓練窗口期數(shù)據(jù)訓練的模型進行未來20 天的預測。 然后保持訓練窗口的長度不變,將訓練窗口向前移動20 天,再次進行未來20 天的預測。 通過在整個樣本期間重復滾動訓練窗口,并且進行未來20 天的預測,獲得了2013 年1 月1日至2019 年12 月31 日的滾動預測數(shù)據(jù)。 本文用均方百分比誤差(MSPE)和平均絕對百分比誤差(MAPE)作為判斷模型預測精度的標準,定義如下:
HAR_M 類模型的樣本外預測性能列在表5 中。上部面板列出的是2013 年至2019 年 MSPE 值,下部面板列出的是2013 年至2019 年MSAE 值。
從表5 可知:①與HAR_M 模型相比,HAR_M_Online 和 HAR_M_Posts 模型的 MSPE 和 MSAE 降低的年份較少,而HAR_M_Searching 幾乎所有年份的MSPE 和MSAE 都有降低。 這表明,在對股票波動的預測上,新聞和股吧在線情緒的額外預測能力微弱,搜索引擎的額外預測能力最強。 ②三種在線情緒同時引入時的HAR_M_Media 模型的預測性能最好,這表明三種在線情緒在對股票波動預測上有互補價值。
表5 HAR_M 類模型樣本外預測結(jié)果
本文借鑒Davydenko 等提出的平均相對平均絕對誤差(AvgRelMAE)和平均相對均方誤差(AvgRelMSE),以評估引入不同類型在線情緒代理的不同模型之間的相對波動性預測精度來進一步檢驗實證結(jié)果的穩(wěn)健性。 定義如下:
本文使用HAR_M 模型作為計算AvgRelMSE 和AvgRelMAE 的基線模型,若 AvgRelMSE 和 AvgRel-MAE 小于1,說明擴展模型提高了基線模型的預測性能。 HAR_M 類模型的滾動預測相對性能見表6。
表6 HAR_M 類模型相對預測性能
從表6 可以看出,擴展HAR_M 模型的AvgRelMSE和AvgRelMAE 均小于1,其中 HAR_M_Media 的值最小,其次是HAR_M_Searching,再是 HAR_M_Online 和HAR_M_Posts,可以得出與上文一致的結(jié)論。
本文選取上海和深圳證券交易所的A 股作為研究對象,通過收集三種社交媒體的數(shù)據(jù)(搜索引擎、股吧和新聞媒體)構建不同類別的在線情緒代理,以HAR_M 模型為基線模型,并將在線情緒代理引入基線模型構建擴展HAR_M 模型,通過比較HAR_M 類預測精度的差異研究在線情緒代理對股票波動額外的預測能力。 研究結(jié)果表明:①股市波動存在周一效應,周末信息會對周一股市波動產(chǎn)生顯著的正向沖擊,且控制周一效應的HAR_M 模型優(yōu)于傳統(tǒng)HAR 模型;②來源于新聞、股吧和搜索引擎的在線情緒代理均包含對股票波動的預測信息,其中來源于搜索引擎的變量包含的預測信息最多,其次是新聞,最后是股吧;③三種在線情緒在對股票波動的預測上有互補價值,三種在線情緒一起引入預測模型時,模型的預測性能最好。
本文的研究結(jié)果具有重要的實踐意義。 由于社交媒體信息包含對股市波動的額外預測能力,因此,政府部門一方面應該重視社交媒體對股市的影響,充分挖掘社交媒體信息隱含的金融價值,實時把握股市動態(tài),維持股票市場穩(wěn)定;另一方面要加強對相關媒體的監(jiān)管,防范不法公司或個人非法利用網(wǎng)絡媒體操縱股市,發(fā)揮政府“無形的手”的力量。 此外,當下經(jīng)濟形勢復雜多變,各種社交媒體信息充斥股票市場,難辨真?zhèn)?,投資者應保持理性,多方位、全面了解公司和各類市場信息,提升決策水平。