王 聰,高廣闊,王 亮
(上海理工大學 管理學院,上海 200093)
隨著信息技術(shù)水平不斷提高,人類社會迎來大數(shù)據(jù)時代。以大數(shù)據(jù)為“食”的量化研究如雨后春筍般爆發(fā),量化投資在金融領域也得到了廣泛關(guān)注?;贘ohn R.Nofsinger(2001)提出的“情感投資”的廣泛存在性,情感投資的定量研究也具有了為“投資者情感因素作用于產(chǎn)品定價”提供事實依據(jù)的重要作用。如果關(guān)于投資者情感的定量研究能夠準確反映金融資產(chǎn)價格,則Fama和French(2014)的五因子模型將很有可能納入“社會媒體因素”來重新定義股票價格的影響因素。
在理論研究方面,后續(xù)學者先后通過對Twitter為代表的社交媒體進行情感挖掘驗證了投資者情感的變化與各類金融產(chǎn)品的價格之間具有相關(guān)關(guān)系。Johan Bollen(2011)[6]利用雙維度情感對于道爾瓊斯工業(yè)指數(shù)漲跌情況進行了預測,其準確率達到87.6%。宋敏晶(2013)通過在線股評收集數(shù)據(jù)并進行分詞,研究了股評情感和股市表現(xiàn)之間的關(guān)系,發(fā)現(xiàn)股評情感均存在“周末效應”,即周末時投資者情緒整體向上。他還進一步建立主成分分析回歸模型預測個股漲跌情況,準確率達到87.45%。楊陽(2015)對和訊網(wǎng)和新網(wǎng)財經(jīng)中的上證180成分股進行數(shù)據(jù)挖掘來判斷市場情緒的向好向壞,結(jié)果顯示新聞數(shù)量與股票指數(shù)呈現(xiàn)顯著正相關(guān)關(guān)系;新聞報道與個股收益率的正向指數(shù)具有正相關(guān)性高。
從計算機、統(tǒng)計學、金融學的領域劃分角度來看,目前基于情感量化投資研究方法在這三個領域的對應分別是機器學習分類算法,統(tǒng)計學時間序列分析和金融學思考分析范式。在機器學習分類算法中,國內(nèi)外學者主要應用的算法有支持向量機、神經(jīng)網(wǎng)絡、最大熵等。雖然支持向量機在劃分較高緯度的數(shù)據(jù)中相對其他算法有著較為明顯的優(yōu)勢,但樸素貝葉斯算法實現(xiàn)簡單,且在分類垃圾郵件中已經(jīng)被證實高度有效;神經(jīng)網(wǎng)絡與最大熵算法實現(xiàn)則較為復雜,數(shù)據(jù)訓練要求較高。在時間序列分析中,VAR模型的脈沖響應函數(shù)是用于檢測二者因果關(guān)系最常用的工具,該工具要求數(shù)據(jù)平穩(wěn)。然而目前少有學者利用時間序列分析投資者情感和股票價格漲跌幅的關(guān)系。傳統(tǒng)的時間序列分析方法為多變量的靜態(tài)預測提供了嚴密的分析范式,但其分析多是建立在線性回歸的基礎之上,對于變量之間的非線性關(guān)系很難做出解釋。就金融學思考分析范式而言,國內(nèi)學者對個股板塊和行業(yè)板塊的劃分為后續(xù)研究起到了指導意見,但大多未能對具體的預測結(jié)果做出解釋。本文擬利用神經(jīng)網(wǎng)絡算法對VAR擬合后的曲線進行改進分析,挖掘變量間除線性關(guān)系之外的非線性關(guān)系。
需要注意的是,基于投資者情感挖掘的預測方式會因投資主體、市場結(jié)構(gòu)、甚至具體時間而異。考慮到投資者情感與投資標的價格變動之間的影響關(guān)系存在“相互性”和“滯后性”的特點,本文建立了綜合考慮這兩種特性的預測模型,并通過對預測結(jié)果的分析檢驗,提出了存在的問題和可能的解決方案。此外,盡管國內(nèi)專家對機構(gòu)投資者情緒會顯著影響股票指數(shù)的結(jié)論已達成共識,但缺乏對占大多數(shù)投資主體的廣大散戶投資者的情緒對股指變化影響程度的量化分析,且進行估價預測的可行性、準確性仍難以定論。本文將對個體投資情緒量化預測股票指數(shù)的有效性驗證,有利于加深對我國金融市場的了解,為政府制定相關(guān)政策法規(guī)提供理論依據(jù)。
情感挖掘的投資邏輯在于,認為股票價格變動的根本性原因是投資者根據(jù)自身情緒等因素做出買賣決策,因此推高或拉低了相應的交易價格。當市場整體受情緒影響較大時,利好利空消息會對股市造成巨大的影響;當市場整體受情緒影響較小時,利好利空消息對投資者的決策行為造成的影響較小,則對股市價格變動所造成的影響也相應變小。本文理論模型及研究方法具體包括以下方面。
采用數(shù)據(jù)挖掘的方式對主流財經(jīng)評論網(wǎng)站進行數(shù)據(jù)抓取后,綜合考慮星期效應,聯(lián)系投資者情緒與投資收益,采用廣泛應用于分類垃圾郵件的“樸素貝葉斯模型”[9]對投資者情感進行分類,該分類方式對于分類維度較少的分類操作具有顯著的效果。
對于任意股吧評論x而言,其類別y可分為正向和負向,正向(y=0)和負向(y=1)具有 m,n個特征屬性,在分類中使用的特征屬性即為從股票評論中提取的關(guān)鍵詞。
若每一組特征屬性x都有一個唯一的y與之對應,由此可以得到聯(lián)合概率分布P(X,Y)。
但是當x的特征詞達到上千(維度),其任何一個維度變化都有可能造成y的不同,此時維數(shù)增長問題是嚴重的。為了使P(X,Y)可以計算,樸素貝葉斯對變量之間關(guān)系做出了假設,即各個維度的特征在類確定的情況下都是獨立同分布的,在x給定的情況下為確定值,因此關(guān)于y取值{0,1}的劃分可以表示為:
在獲得了對于不同情感的股票評論的實時統(tǒng)計之后,利用皮爾遜相關(guān)系數(shù)篩選可能受投資者情緒影響的股票,以及其可能的滯后時間段,得到個股價格與投資者情緒相關(guān)聯(lián)的初步結(jié)論。之后,將經(jīng)過篩選的股票建立VAR時間序列模型,量化分析投資者情緒對與股票價格的統(tǒng)計學解釋力,一般VAR模型為:
其中,yt是m維內(nèi)生變量向量,xt是r維外生變量向量,A0,A1,…Ap,B1,…Bq是待估計參數(shù)矩陣,Ut是隨機誤差項。
值得注意的是VAR模型不僅考慮了投資者情緒(x)對于股票價格(y)的影響,還考慮了股票價格(y)對于投資者情緒(x)的影響。該模型的難點在于其滯后階數(shù)的選擇,主要涉及兩個步驟:①對通過檢驗的相關(guān)系數(shù)篩選,得到滯后期最大的評論序列和股票漲跌序列;②通過AIC準則對①中得到的序列進行最優(yōu)擬合選取。
神經(jīng)網(wǎng)絡算法是模仿人腦的工作機理,對函數(shù)本身的拓撲結(jié)構(gòu)進行建模,通過不斷的調(diào)整神經(jīng)元權(quán)重值來得到對非線性關(guān)系的最優(yōu)擬合。部分VAR模型的殘差顯示出模型中仍然存在未提取的關(guān)鍵信息。因此,需要利用神經(jīng)網(wǎng)絡模型對與投資者情緒與股票價格之間的非線性關(guān)系進行修正,主要涉及神經(jīng)網(wǎng)絡算法中的循環(huán)神經(jīng)網(wǎng)絡。
神經(jīng)網(wǎng)絡中具體設置幾個感知層以及每層設置幾個神經(jīng)元一直以來都是學術(shù)界討論的對象,Kurita[10]針對于只有一層感知層的神經(jīng)元個數(shù)提出了經(jīng)驗公式:
其中Nin指的是輸入神經(jīng)元數(shù)目,在模型中為1(投資者情感神經(jīng)元),得出隱藏(感知)層神經(jīng)元個數(shù)為3。在激活函數(shù)方面,利用Tahn函數(shù)作為隱藏層,y=x的線性函數(shù)作為輸出層的組合在文獻[11]中被證明擬合曲線均方誤差最小,所以也采用了相同的策略。其中網(wǎng)絡的輸入變量為VAR模型擬合后的漲跌幅預測值,輸出變量為神經(jīng)網(wǎng)絡改進后的漲跌幅預測值。
在股票實時評論方面,本文選取2017年3月至2017年5月的東方財經(jīng)股吧評論數(shù)據(jù),原因是該股吧的股票評論信息非?;钴S,在工作日時間,僅上證指數(shù)股吧一天的評論就可以達到4 000多條。在文本挖掘時,結(jié)合評論特點還進行了如下設計:
1.過濾股吧“灌水黨”與“廣告黨”
在股吧評論中,出現(xiàn)的某投資軟件推廣信息可能具有重復性,將最終獲取的評論數(shù)量造成偏差,因此在程序中設計了禁忌表來評論5分鐘內(nèi)評論/發(fā)帖次數(shù)大于5次的用戶。
2.評論關(guān)鍵詞字數(shù)調(diào)權(quán)后標記情感
由于評論者在股吧評論時長短不同,單純統(tǒng)計正向詞或負向詞的出現(xiàn)頻率會大大低估回復較短的股民情感,因此采用TF-IDF對于評論信息進行調(diào)權(quán)處理,在此基礎上再獲得評論的關(guān)鍵字。其中分子是該詞在文件中出現(xiàn)的次數(shù),分母是文件中所有出現(xiàn)次數(shù)之和(公式5)。
3.神經(jīng)網(wǎng)絡數(shù)據(jù)處理
由于神經(jīng)網(wǎng)絡算法涉及到梯度下降法優(yōu)化當前網(wǎng)絡權(quán)重,對數(shù)據(jù)進行預處理可以提高收斂速度,提高擬合精度,在擬合完畢后,再對數(shù)據(jù)進行還原來來得到最終的預測數(shù)據(jù)。
1.投資者評論時間序列分析
(1)星期差異的時間序列分析
股票的評論數(shù)量因個股所受關(guān)注程度不同而不同,為了探尋星期效應,選取上證指數(shù)股吧在2017年2月20日至3月22日的評論數(shù)據(jù)。通過箱線圖看出股市開市時股吧評論數(shù)量遠高于休市時,且每日評論數(shù)量偏差很大(圖1)。在獲取情感數(shù)據(jù)方面,每日數(shù)據(jù)容量有所不同。同時,通過對股票價格和正向情感占比的相關(guān)性分析,發(fā)現(xiàn)針對不同交易日期,投資者情感對股票價格的影響的顯著滯后期也會不同,因此在后續(xù)的實驗中,會根據(jù)具體日期來具體分析。
圖1 每日評論數(shù)量統(tǒng)計
(2)每日評論正向情感占比與大盤指數(shù)聯(lián)動分析
對正向情感所占比重與大盤漲跌幅進行標準化可以發(fā)現(xiàn):在以天為單位的區(qū)間內(nèi),兩者的漲跌幅同步關(guān)系并不是特別顯著(圖2),但這并不意味著兩者之間不存在相關(guān)關(guān)系,其可能原因在于:其一,每日漲跌幅反映的是收盤價格相對于開市價格的區(qū)間統(tǒng)計,而正向股票評論占比反映的是一天的情況,單純計算區(qū)間漲跌幅與全天占比忽略了區(qū)間內(nèi)部的相關(guān)關(guān)系;其二,股評與股票價格之間的相互關(guān)系可能存在一定的滯后效應,今日對市場的正向觀點也可能造成日后股票價格變動。
圖2 評論情感與漲跌幅聯(lián)動分析
在考慮以上兩個因素的情況下,以具體日期為例,對上述全天數(shù)據(jù)進行了向前與向后60分鐘的相關(guān)性分析,同時為了避免區(qū)間漲跌幅對個體信息的忽略,選用3分鐘均線來代替區(qū)間漲跌數(shù)據(jù)。同時對未通過顯著性檢驗的相關(guān)系數(shù)進行剔除,結(jié)果如圖3所示:當股票評論滯后區(qū)間為1~14(3分鐘~42分鐘)時,股票價格與正向評論占比有明顯的負向滯后相關(guān)性;當股票評論之后區(qū)間為-3~-13(-9分鐘至-39分鐘)時,股票價格與正向評論占比有明顯正相關(guān)關(guān)系。說明當股票價格上漲后,人們對于股票價格持續(xù)利好做出了情緒反應,針對該股票發(fā)表正向評論的比例顯著增加,但是由于上漲幅度的不同,正向評論增加的快慢不同;投資者對股票的看好,從一定程度上拉高了股票的長期上漲,但是由于看好力度不同,上漲的快慢也不同。同樣,對正向評論數(shù)量和成交量進行相關(guān)分析后也發(fā)現(xiàn)了類似的結(jié)論,即市場情緒對股票的看好會引起股票成交量的顯著增加。
2.預測分析
圖3 正向評論占比與三分鐘均線相關(guān)性分析
接下來利用Python工具[12]建立VAR模型,并進行3分鐘均線漲跌幅的初步預測。以2017年2月21日為例,通過調(diào)整滯后階數(shù)(滯后期為21分鐘),并運用AIC準則自動選取AIC最小的滯后階數(shù)對方程進行擬合(圖4)。左圖為對當日上證指數(shù)漲跌幅預測,初步觀察可知:利用投資者情感建立VAR模型對股票漲跌幅進行預測具有一定的可行性,但其預測結(jié)果仍有偏差。右圖則是對預測結(jié)果的殘差進行核密度估計,顯示該殘差近似服從正態(tài)分布,推測殘差中可能存在未能被VAR模型解釋的因素。鑒于此,需要使用神經(jīng)網(wǎng)絡算法對VAR預測進行改進。為了更直觀反映神經(jīng)網(wǎng)絡對于曲線擬合的改進作用,我們接下來對VAR模型預測的殘差和神經(jīng)網(wǎng)絡修正后得到的殘差進行了均方誤差、正態(tài)性檢驗和序列相關(guān)性檢驗的對比。
3.神經(jīng)網(wǎng)絡改進預測結(jié)果分析
圖4 VAR模型預測結(jié)果分析
(1)均方誤差改進
利用均方誤差改進的百分比來衡量VAR預測的改進效果,其計算公式為:
圖5 神經(jīng)網(wǎng)絡預測改進MSE分析
如圖5所示,盡管在17天內(nèi)神經(jīng)網(wǎng)絡算法均對模型擬合結(jié)果做出了改進,但在部分日期(2.21,2.24,3.1,3.13,3.16)神經(jīng)網(wǎng)絡卻得到了改進效果變差的結(jié)論。通過分析神經(jīng)網(wǎng)絡的擬合曲線后發(fā)現(xiàn),其主要原因是神經(jīng)網(wǎng)絡算法在初期對數(shù)據(jù)進行了歸一化處理,而在后期通過樣本方差與均值得到還原后的預測樣本難以反映數(shù)據(jù)的異方差性。
(2)正態(tài)性檢驗改進
對22天神經(jīng)網(wǎng)絡得到的預測殘差進行正態(tài)性檢驗,并且與之前VAR模型得到的檢驗進行對比(圖6),其中紅色為神經(jīng)網(wǎng)絡預測殘差正態(tài)檢驗所對應P值,藍色為VAR模型預測殘差正態(tài)檢驗所對應P值,可以看出神經(jīng)網(wǎng)絡的修正都做了增大的調(diào)節(jié),其中VAR模型殘差拒絕原假設的3天(2.21,2.22,3.1)也都通過了顯著性檢驗,可以判定殘差呈現(xiàn)正態(tài)分布,信息已基本提取完整。
(3)序列相關(guān)性改進
圖7顯示了神經(jīng)網(wǎng)絡預測前后的殘差序列相關(guān)檢驗結(jié)果,在VAR模型預測的2月21日,約有50%的滯后階數(shù)顯示出序列相關(guān)性,但是在神經(jīng)網(wǎng)絡改進之后殘差的序列相關(guān)性均得到了良好的消除。
圖6 殘差正態(tài)檢驗P值對比
圖7 殘差1~6階序列相關(guān)占比
本文首先通過數(shù)據(jù)挖掘的方式對東方財經(jīng)股吧2017年3月至2017年5月上證指數(shù)評論數(shù)據(jù)進行收集,使用樸素貝葉斯模型進行了情感分類,之后在進行驗證的基礎之上結(jié)合了傳統(tǒng)統(tǒng)計學方法與智能算法對個體投資者情感與上證指數(shù)價格變動之間的影響關(guān)系進行了嘗試性建模預測,該模型綜合考慮了投資者情感與上證指數(shù)價格變動關(guān)系的相互性與滯后性。基本結(jié)論如下:(1)投資者情緒與股價漲跌幅之間存在確實相關(guān)關(guān)系;(2)利用線性關(guān)系進行建模預測具有一定的局限性;(3)添加兩者的非線性關(guān)系建??梢詫︻A測結(jié)果進行良好的改進;(4)投資者情緒與股價漲跌幅之間的日區(qū)間聯(lián)動關(guān)系波動較大。另外,結(jié)合當下我國二級市場呈現(xiàn)股市資金連續(xù)外流、機構(gòu)投資者占比逐年上升的情況,我國二級市場正逐漸趨于“理性”;基于情感的量化投資策略在個人投資者資金集聚的某些股票中具有影響作用,但該影響作用正逐漸減弱。
本研究依然存在一定的局限性,投資者情感對于股票價格的波動呈現(xiàn)出“異方差”的特點,不同類型的投資者情感對于股票價格的變動影響不同?;诖?,可采用GARCH-M模型引入方差的時間序列因素變量從而達到對模型異方差的改良。此外,股吧評論活躍個體多為個體投資者,但近年來,機構(gòu)投資者在我國二級市場的投資占比日趨重要,而小的個人情感波動將不足以促使群體(機構(gòu))投資者作出決策,影響股價。數(shù)據(jù)挖掘可以從股吧的評論信息轉(zhuǎn)向上市公司的重大新聞,以分析機構(gòu)投資者的集體行為。通常比較大的新聞播報可以大范圍的影響投資者情緒,這時即便是機構(gòu)投資者的集體決策也會受到一致的影響。