許天陽
(上海交通大學 安泰經(jīng)濟與管理學院,上?!?00030)
本文基于互聯(lián)網(wǎng)大數(shù)據(jù)視角,利用爬蟲技術(shù)獲取新浪股吧中帖子信息及新浪財經(jīng)多空調(diào)查數(shù)據(jù),通過文本分析和機器學習的方法構(gòu)建投資者情緒指標,并以上證指數(shù)為例,研究投資者情緒與證券市場之間的相互影響及預測作用。
行為金融學自20世紀90年代興起迅速發(fā)展至今,已有很多學者嘗試用各種手段,從不同角度定義并衡量投資者情緒指標,并發(fā)現(xiàn)其會對證券市場價格及波動產(chǎn)生重要影響。
投資者情緒最先受到人們關(guān)注是Black(1986)在就任美國金融學會主席的演講中全面闡述了噪聲交易者的概念,他指出噪聲交易是金融市場存在的基礎,但同時也提到了噪聲交易者的問題[1]。De, Shleifer, Summers and Waldman(1990)首次提出DSSW噪聲交易者模型,將投資者情緒引入證券市場,指出如果投資者情緒相互影響,噪音交易者可以獲得正的預期收益,套利者將無法消除非理性行為導致的錯誤定價,投資者情緒因而會成為影響金融資產(chǎn)均衡價格的系統(tǒng)性風險[2]。Barberis(1998)基于心理學實驗,發(fā)現(xiàn)投資者傾向于過度重視公司近期財務數(shù)據(jù)的變化,而無法及時修正自己的預測模型,從而解釋了投資者為何會對信息反應不足或反應過度[3]。Brown and Cliff(2004)認為投資者情緒即投資者的投機傾向,或是對股票市場總體的樂觀、悲觀態(tài)度[4]。
對于投資者情緒的測度方法,目前學術(shù)界主要分為直接指標和間接指標。間接指標是指從金融市場中選擇能夠間接反映投資者情緒的變量。Neal(1998)采用封閉式基金折價率、零股買賣比率及共同基金贖回率三個指標作為投資者情緒的代理指標,發(fā)現(xiàn)其有助于預測股市的收益率,尤其是對于個人投資者持股比例較高的股票[5]。Kumar and Lee(2004)根據(jù)交易所提供的散戶交易記錄構(gòu)建情緒指標,發(fā)現(xiàn)低價股、小盤股及機構(gòu)投資者持股比例較低的股票往往有較高的超額收益率,且對投資者情緒變化較為敏感[6]。Baker and Stein(2004)利用換手率作為投資者情緒代理指標,指出投資者在樂觀時會提高股票交易的需求,使得換手率上升,而股價會在這個過程中被高估[7]。Baker and Wurgler(2006)在前人的基礎上,選取了股票換手率、封閉式基金折價率、IPO首日溢價率、IPO發(fā)行數(shù)量、股權(quán)融資比例及股利溢價等6個指標,運用主成分分析的方法構(gòu)建了一個綜合投資者情緒指標,并發(fā)現(xiàn)情緒值對于小盤股、高成長性、非營利性、不分紅及波動較高的股票影響更大[8]。國內(nèi)也有不少學者借鑒了BW方法,如易志高和茅寧(2009)添加了適合中國股市特色的指標,如新增投資者開戶數(shù)等,研究了投資者情緒與中國股票市場之間的關(guān)系[9]。
間接指標通常來源于金融市場信息,數(shù)據(jù)簡單易得,具有較強的客觀性,但其缺陷在于作為投資者情緒的代理指標,不可避免地會存在較大誤差和滯后性。直接指標則是通過調(diào)查問卷等形式獲得投資者對于股票市場的信息,或以政府機構(gòu)發(fā)布的投資者信心調(diào)查指數(shù)作為直接參考依據(jù)。Fisher and Statman(2000)根據(jù)投資者智慧將投資者情緒分為三類:個人投資者指數(shù)(AAII)、財經(jīng)新聞作者情緒指數(shù)、華爾街分析師情緒指數(shù),并發(fā)現(xiàn)前者與后兩者并不相關(guān),且三種指數(shù)都與股票未來走勢負向相關(guān)[10]。Lee(2002)采用IISI指數(shù)作為投資者情緒指標,通過與同期的NASDAQ、DJIA和S&P500指數(shù)進行實證分析,發(fā)現(xiàn)其與三種指數(shù)收益率都存在正向相關(guān)性,得出了投資者情緒對于大盤股和小盤股均具有影響的結(jié)論[11]。國內(nèi)也有類似指標,例如央視看盤指數(shù)、好淡指數(shù),以及統(tǒng)計局發(fā)布的中國消費者信心指數(shù)、企業(yè)景氣指數(shù)等。王美今、孫建軍(2004)以央視看盤指數(shù)作為投資者情緒指標來源,發(fā)現(xiàn)投資者情緒的變化會顯著影響滬深兩市收益,并反向修正滬深兩市收益波動,指出滬深兩市均未達到弱勢有效[12]。程坤、劉仁和(2005)將好淡指數(shù)作為投資者情緒指標,研究發(fā)現(xiàn)投資者中期情緒指標對股市收益率波動的影響要強于投資者短期情緒指標[13]。
隨著web2.0時代的到來,互聯(lián)網(wǎng)及社交媒體在人們生活中被廣泛應用,基于互聯(lián)網(wǎng)大數(shù)據(jù)的社會經(jīng)濟行為預測已經(jīng)逐漸成為各領(lǐng)域?qū)W者研究的熱點。
Wysocki(1999)通過搜集Yahoo! Finance股票論壇上的帖子信息,發(fā)現(xiàn)過去一段時間擁有高回報、高PE或財務表現(xiàn)良好的公司通常發(fā)帖數(shù)更多,并運用橫截面分析和時間序列分析的方法證明了在線股評數(shù)量可以預測次日股市的成交量和收益率[14]。Antweiler(2004)分析了Yahoo! Finance和Raging Bull論壇上的股評信息,并采用了樸素貝葉斯分類器將150萬條股評分為看多、看空、持平三類,研究發(fā)現(xiàn)在線股評信息能預測股市波動率,并對收益率產(chǎn)生統(tǒng)計學上的顯著影響,但影響不大[15]。Sehgal(2007) 在分析論壇數(shù)據(jù)時引入了發(fā)帖者可信度作為情緒值的權(quán)重,發(fā)現(xiàn)情緒指數(shù)與股票市場表現(xiàn)具有相關(guān)性。Bollen, Mao and Zeng(2011)最早通過Twitter信息研究互聯(lián)網(wǎng)公眾情感與股市表現(xiàn),他們利用OpinionFinder和GPOMS工具對有關(guān)道瓊斯指數(shù)的微博進行文本分析并提煉出不同維度的情感指標,結(jié)果發(fā)現(xiàn)平靜維度的情感在滯后三期后與道瓊斯工業(yè)指數(shù)顯著相關(guān)。
國內(nèi)學者基于互聯(lián)網(wǎng)信息與文本挖掘視角分析投資者情緒與股市關(guān)系的研究起步較晚。饒育蕾和王攀(2010)選取了246只首次公開發(fā)行的股票作為樣本,以百度指數(shù)作為媒體關(guān)注度的衡量指標,并指出媒體關(guān)注度通過影響投資者情緒,從而正向影響新股短期超額收益,但對長期收益會產(chǎn)生負面影響。俞慶進和張兵(2012)采用百度指數(shù)作為投資者關(guān)注的代理變量,考察創(chuàng)業(yè)板股票市場的波動,發(fā)現(xiàn)短期內(nèi)的投資者關(guān)注對創(chuàng)業(yè)板股票具有正向驅(qū)動作用,但這種作用很快會發(fā)生反轉(zhuǎn)。程琬蕓和林杰(2013)利用認證機構(gòu)用戶的新浪微博數(shù)據(jù),對社交媒體中投資者情緒對證券市場的動態(tài)影響進行了分析,發(fā)現(xiàn)兩者存在正相關(guān),但投資者情緒對于股市的預測效果僅短期內(nèi)顯著。孟雪井(2016)對知網(wǎng)CSSCI期刊與新浪微博信息進行了文本分析,采用時差相關(guān)系數(shù)法、隨機森林算法對搜索關(guān)鍵詞的百度指數(shù)進行篩選,最終利用因子分析法構(gòu)建了投資者情緒指數(shù)。
綜上,國內(nèi)外已有不少學者針對投資者情緒與股市之間的關(guān)系展開了相關(guān)研究,但主要都是從傳統(tǒng)金融指標出發(fā)來構(gòu)建投資者情緒。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,國外學者率先開始嘗試從Web2.0數(shù)據(jù)中挖掘有價值信息,但大多是基于英語文本信息及歐美發(fā)達證券市場進行實證分析。由于中文語言結(jié)構(gòu)與英語存在較大差異,且中國證券市場還處于發(fā)展階段,這方面研究相對還比較匱乏。目前,國內(nèi)學者在互聯(lián)網(wǎng)社交媒體及互聯(lián)網(wǎng)搜索角度來挖掘投資者情緒方面已經(jīng)做出了有益的嘗試,但是由于數(shù)據(jù)來源各不相同,情感分析方法相對較為粗糙,導致投資者情緒指標的構(gòu)建不夠準確,得出的結(jié)論也無法統(tǒng)一,說服力不強。
本文通過網(wǎng)絡爬蟲技術(shù)爬取新浪股吧及新浪財經(jīng)多空調(diào)查的數(shù)據(jù),嘗試利用機器學習的方法,提出較為科學嚴謹?shù)奈谋痉治黾扒楦蟹诸惙椒?,從而?gòu)建一個更為準確的互聯(lián)網(wǎng)投資者情緒指標,對中國證券市場和投資者情緒之間的關(guān)系做出進一步的驗證。
本文主要基于互聯(lián)網(wǎng)社交媒體中在線股評信息及網(wǎng)絡投票數(shù)據(jù)進行投資者情緒的挖掘和提煉。目前,我國各大門戶網(wǎng)站如新浪、搜狐的財經(jīng)板塊都開設了股票論壇,東方財富網(wǎng)、和訊網(wǎng)、雪球網(wǎng)等財經(jīng)類網(wǎng)站也都提供了股票論壇(股吧)供投資者交流討論?;谌站慰驮L問量、發(fā)帖量及數(shù)據(jù)時間跨度等綜合因素,本文最終選擇新浪財經(jīng)股吧作為網(wǎng)絡社交媒體數(shù)據(jù)來源并從中提取投資者情緒指標。
本文通過Python爬蟲程序,從新浪財經(jīng)的上證指數(shù)股吧抓取了2015年12月14日—2017年3月23日共465天的股市評論信息,除了帖子文本信息之外,還包括了點擊量、回復量、發(fā)帖人及發(fā)帖時間等信息,累計291 777條記錄。從抓取的數(shù)據(jù)來看,新浪上證指數(shù)股吧日均發(fā)帖量627條,交易日的日均發(fā)帖量更是超過800條,每天帖子的點擊量超過5萬次。由此可見,新浪股吧流量巨大,帖子信息能夠較為真實地反映網(wǎng)上投資者的情緒。
其次,自2008年起,新浪財經(jīng)還聯(lián)合《中國證券報》共同發(fā)布每日的股市多空調(diào)查。所有網(wǎng)民均可通過互聯(lián)網(wǎng)參與投票,投票內(nèi)容包括下一交易日大盤走勢判斷及倉位狀況調(diào)查等信息。該調(diào)查日均參與人數(shù)超過5 000人,具有一定代表性,能在一定程度上反映網(wǎng)上個人投資者對目前及未來大盤走勢的看法和情緒。本文同樣利用Python爬蟲程序,抓取了同一時間段內(nèi)的調(diào)查結(jié)果,由于數(shù)據(jù)量較大,所有股吧和多空調(diào)查數(shù)據(jù)均采用SQLite數(shù)據(jù)庫存儲以便后期處理。
另外,本文以上證指數(shù)作為我國證券市場的代表進行研究,數(shù)據(jù)包含同一時間跨度內(nèi)每日收盤價、成交量及漲跌幅,剔除節(jié)假日及雙休日后共311個交易日,證券市場數(shù)據(jù)均來源于Wind數(shù)據(jù)庫。
隨著人工智能技術(shù)的發(fā)展,自然語言處理(NLP)成為目前學術(shù)界研究的熱點,如何將非結(jié)構(gòu)化的文本信息轉(zhuǎn)變?yōu)橛嬎銠C能讀懂的結(jié)構(gòu)化信息,對于從股評信息中提取投資者情緒非常重要。
目前,文本情感分析主要有兩種方法,一是基于情感詞典的情感極性分類,即根據(jù)事先編纂好的情感極性詞典,通過匹配文本信息中有多少積極情緒詞和消極情緒詞,從而判斷文檔整體的情感傾向。這一方法操作簡單,受到許多學者的青睞,之前國內(nèi)相關(guān)的文獻大多采用此方法構(gòu)建情緒指標。但這一方法存在如下缺陷:1.我國文本分析起步較晚,尚沒有形成一個非常完善的情感辭典。目前較為流行的有知網(wǎng)整理發(fā)布的Hownet辭典及臺灣大學發(fā)布的NTUSD辭典,但是由于金融領(lǐng)域尤其是股票市場特有的專業(yè)術(shù)語眾多,普通的情緒辭典無法涵蓋這些術(shù)語。2.由于中文語法與英語存在較大差異,以及一些否定詞、反問句的運用,會使得整個句子情感傾向發(fā)生巨大變化?;谏鲜鲈?,單純使用情感辭典來判斷股評信息的情感傾向存在著較大誤差。
另一種情感分析方法是基于機器學習的算法,該方法目前已應用在電影書籍、商品信息、餐廳酒店的評論中,并取得了良好的分類效果。其中,分類表現(xiàn)較好的有SVM、Na?ve Bayesian、kNN等算法。實驗證明,機器學習算法得出的分類結(jié)果通常要優(yōu)于情感詞典方法。因此,本文在前人的研究基礎上,采取機器學習算法并選用SVM分類器,嘗試建立一個更準確的情感極性計算方法,從而為構(gòu)建情緒指數(shù)打下堅實的基礎。
在構(gòu)建情緒指數(shù)前,需要對每一條帖子進行情感傾向的分類,具體步驟與方法如下:
1.數(shù)據(jù)預處理:對爬取的29萬條股吧評論按日期分類匯總,考慮到每天股市的開盤時間為9:30—15:00,我們認為t-1日15:00到t日15:00之間發(fā)布的帖子信息反映了t日投資者的情緒。在剔除與股市信息無關(guān)的水貼如廣告、營銷信息后,最終剩下218 548條帖子記錄。
2.文本分詞:由于中文語句不像英語中每個詞之間有空格隔開,故需要對每條帖子進行中文分詞處理。本文通過Python中Jieba分詞第三方包,對清理后的帖子文本進行分詞。另外,由于中文句子中存在大量輔助語意表達的停用詞,如“的、是、了”等,它們對于情感分類算法沒有作用,故在特征選擇之前先刪去此類停用詞。本文采用哈工大自然語言處理實驗室提供的停用詞表,共1 208個常用停用詞。
3.人工標注訓練數(shù)據(jù)集:從近22萬條股評帖子中隨機選擇2 000條進行人工情感極性標注,作為訓練數(shù)據(jù)樣本。為避免個人主觀因素的影響,本研究邀請3名志愿者對文本的情感傾向進行標注,分為樂觀、悲觀兩類情緒,取3人的眾數(shù)作為分類結(jié)果。
4.特征表示:為了使計算機能夠識別文本,在進行文本分析之前必須將文本表示成計算機可以識別的形式。本文采用目前學術(shù)界最常用的向量空間模型(VSM),又稱詞袋模型(BOW),作為文本表示方法。經(jīng)過分詞之后,帖子中每一個出現(xiàn)的詞都成為向量空間中的一個維度,每個維度的權(quán)值采用tf-idf算法得出,該方法用來評估某個詞語對于一個文檔的重要程度:
其中,n為所有特征的個數(shù),nk為含有特征tk的文檔數(shù),tf為詞頻,idf為逆向文檔頻率,N為訓練數(shù)據(jù)中文檔總數(shù),freqitk為在文檔di中包含tk的個數(shù)。
5.特征選擇:經(jīng)統(tǒng)計,出現(xiàn)在帖子中的詞有近10萬個,如此龐大的維數(shù)必然會嚴重降低算法的分類效率。因此,在進行機器學習之前,先要提取出對情感分類有價值的特征,進行降維處理。本文首先剔除詞頻率低于3次及tf-idf值低于閾值的特征,刪去后VSM向量空間內(nèi)的維度下降了近60%。其次,本文采取效果較好的信息增益法(IG)進一步進行特征選擇,最終篩選出與投資者情緒表達最相關(guān)的2 500個詞,即2 500個維度。
6.運用機器學習算法訓練實驗數(shù)據(jù):本文采用 10 折交叉驗證方法,將實驗數(shù)據(jù)集分成10份,輪流將其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù),進行訓練測試。借助MATLAB中的LibSVM平臺,本文利用SVM分類算法,最終得到的分類結(jié)果如表1所示。可以看出,基于機器學習算法得到的分類準確率和召回率都達到了80%左右,高于一般的情感詞典方法。
表1 基于機器學習的文本情感分類評價結(jié)果
在上一節(jié)中已經(jīng)得到了每條帖子的情感傾向,用1代表樂觀情緒的帖子,-1代表悲觀情緒的帖子。在將股評信息按日期分類匯總之后,可以統(tǒng)計出每天表達樂觀、悲觀情緒的帖子數(shù)量,分別記作Npos和Nneg。
對于新浪財經(jīng)—《中國證券報》聯(lián)合發(fā)起的多空調(diào)查數(shù)據(jù),我們將第t期看漲指數(shù)Vote_BSIt定義為看漲人數(shù)比例/(看漲+看跌人數(shù)比例),在雙休日的處理上同新浪股吧的方法。
由此,我們得到了兩種基于互聯(lián)網(wǎng)信息挖掘的投資者情緒的時間序列,分別是互聯(lián)網(wǎng)社交媒體中反映的投資者情緒Guba_BSI和網(wǎng)絡投票所反映的投資者情緒Vote_BSI。另外,我們還從Wind數(shù)據(jù)庫導出了上證指數(shù)漲跌幅R_SH和成交量Vol_SH的時間序列數(shù)據(jù)。
互聯(lián)網(wǎng)上投資者在受到證券市場交易活動影響的同時,他們針對股市當前和未來走勢所發(fā)表的言論也會影響到網(wǎng)絡環(huán)境中其他參與者的投資決策行為。由于投資者瀏覽閱讀信息和進行投資決策行為的時間并不相同,所以股票走勢和互聯(lián)網(wǎng)上投資者所表現(xiàn)的情緒可能在當期和未來幾期都存在著相互影響。
因此,本文采用向量自回歸模型(VAR)來檢驗網(wǎng)絡社交媒體及網(wǎng)絡投票所反映的投資者情緒與證券市場漲跌幅、成交量之間的動態(tài)關(guān)系及時滯關(guān)系。VAR模型的原理是把系統(tǒng)中每一個內(nèi)生變量作為所有內(nèi)生變量滯后項的函數(shù)來構(gòu)造模型,從而將單變量自回歸模型推廣到由多元時間序列變量組成的向量自回歸模型。
表2 變量描述性統(tǒng)計
表2給出了所有變量的描述性統(tǒng)計信息。在2015年12月14日到2017年3月23日這個時間跨度內(nèi),我國證券市場經(jīng)歷了2015年年底的一波急速下跌,隨后在2016年3月逐漸企穩(wěn),到2017年3月間一直延續(xù)著震蕩反彈的格局。從兩種互聯(lián)網(wǎng)投資者的情緒指標來看,平均值均大于0.5,說明這一時間窗口內(nèi)投資者情緒總體較為樂觀,這與股市的走勢基本相符。
通過變量相關(guān)系數(shù)表(表3)可以發(fā)現(xiàn),新浪股吧中反映的投資者情緒與上證指數(shù)日收益率呈58.5%的正相關(guān)性;網(wǎng)絡投票中反映的看漲指數(shù)與上證指數(shù)日漲跌幅呈43.9%正相關(guān)性,相關(guān)性稍弱于股吧情緒指數(shù)。另外,互聯(lián)網(wǎng)投資者情緒與證券市場成交量之間同樣存在正相關(guān)關(guān)系,相關(guān)性分別為19.5%與17.4%,相關(guān)性不及上證指數(shù)收益率。
表3 變量相關(guān)系數(shù)表
VAR模型以及Granger因果檢驗都要求數(shù)據(jù)具有平穩(wěn)的時間序列,否則可能會出現(xiàn)偽回歸問題。因此,對投資者情緒指標及證券市場變量進行ADF平穩(wěn)性檢驗。通過表4發(fā)現(xiàn),各變量均在1%的顯著性水平上拒絕了存在一個單位根的原假設,說明所有時間序列都是平穩(wěn)的。
表4 平穩(wěn)性檢驗結(jié)果
表5 VAR模型最優(yōu)滯后階數(shù)選擇結(jié)果
*indicates lag order selected by the criterion
表5顯示,根據(jù)VAR模型滯后階數(shù)的確定準則,F(xiàn)PE、AIC、SC及HQ準則都指向了滯后一階,因此,認為該時間序列的最優(yōu)滯后階數(shù)為1階,后續(xù)分析均以VAR(1)模型進行討論。通過VAR模型的AR根檢驗可以發(fā)現(xiàn),所有單位根都落在單位圓內(nèi),說明VAR模型是穩(wěn)定的,可以對其進行一個標準差的脈沖響應函數(shù)分析。
本文利用Granger因果檢驗對互聯(lián)網(wǎng)投資者情緒與證券市場收益率及成交量之間的相互作用關(guān)系做進一步分析。如表6所示,在滯后一階的情況下可以發(fā)現(xiàn):1. Guba_BSI和Vote_BSI不是上證指數(shù)收益率的Granger原因均在1%的顯著性水平下被拒絕,而上證指數(shù)收益率不是兩種投資者情緒指標的Granger原因則均被接受;2. Guba_BSI在5%的顯著水平下是成交量的Granger原因,反之則不成立。同樣,對于Vote_BSI來說,在10%顯著水平下是成交量的Granger原因,反之則不成立。
由此可見,在中國證券市場上,互聯(lián)網(wǎng)投資者情緒對股票市場收益率和成交量具有顯著影響,正確把握投資者情緒對于預測股票市場走勢是有幫助的。
表6 Granger因果關(guān)系檢驗結(jié)果
Granger因果關(guān)系檢驗僅說明一個變量是否有助于解釋另一個變量,但不能判斷變量之間作用的方向及影響時間。而脈沖響應函數(shù)是通過在一個擾動項上施加一個單位殘差的沖擊,用以研究對系統(tǒng)內(nèi)生變量當前和未來值帶來的影響。因此,本文進一步通過脈沖響應函數(shù)考察互聯(lián)網(wǎng)投資者情緒與證券市場之間的關(guān)系。圖1中橫軸為脈沖響應的追蹤期數(shù),縱軸為對一個單位殘差的影響程度,實線表示脈沖響應函數(shù),虛線表示正負兩個標準差的置信區(qū)間。
圖1 脈沖響應函數(shù)結(jié)果
研究發(fā)現(xiàn),當受到股吧投資者情緒指數(shù)的一個正向沖擊,即股吧中投資者表達的言論較為積極時,證券市場收益率會在下一期迅速提升,但這一現(xiàn)象僅能持續(xù)一天,隨即便會回落,在第三第四期上下震蕩后逐漸趨于0。新浪財經(jīng)多空調(diào)查中的投資者看漲指數(shù)同樣具有類似效果,即前一天投資者對于下一交易日股票走勢較為樂觀時,收益率會在下一期產(chǎn)生明顯的正響應,隨即便迅速回落,作為對前一期的修正,并在第五期后趨于0。這說明互聯(lián)網(wǎng)投資者情緒對證券市場指數(shù)的收益具有短期正向影響,且主要集中在5個交易日內(nèi)。
其次,當受到新浪股吧和新浪財經(jīng)多空調(diào)查中投資者情緒一個正向沖擊時,成交量在當期無明顯響應,但在第二期開始產(chǎn)生正向響應,到第三期達到最大值后逐漸減弱,其成交量的響應時間通常超過10期,明顯長于對收益率的影響時間。
為了進一步分析互聯(lián)網(wǎng)投資者情緒是否會影響股市漲跌,本文利用學術(shù)界較主流的FF三因子模型并加以擴展來對中國股票市場進行檢驗。1993年,F(xiàn)ama和French通過研究美國股票市場中決定不同股票組合回報率差異的風險因素,發(fā)現(xiàn)上市公司的市值(ME)、賬面市值比(BE/ME)等因素可以解釋這一差異。
本文選取了上證50組合作為檢驗的投資組合。首先,采用傳統(tǒng)的FF三因子模型對50支股票組成的投資組合收益率進行擬合。此后,引入投資者情緒變量形成擴展的FF四因子模型,觀察網(wǎng)絡投資者情緒是否會對投資組合超額收益率產(chǎn)生影響。FF三因子數(shù)據(jù)來源于國泰安數(shù)據(jù)庫(CSMAR),投資者情緒數(shù)據(jù)采用本文計算所得的Guba_BSI數(shù)據(jù)。兩個模型的計量表達式分別如下:
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+εit
(1)
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+γi*Sentimentt+εit
(2)
研究發(fā)現(xiàn),傳統(tǒng)FF三因子模型的擬合效果AdjustedR2達到90%以上,可以較好地解釋投資組合的收益率,但對于部分股市上漲或下跌期內(nèi)的擬合仍存在不同幅度的偏差。而引入投資者情緒之后的擴展FF四因子模型相比而言擁有更強的解釋力(見表7),模型在1%的置信水平下通過F檢驗,AdjustedR2提高到了95.1%,情緒變量Sentiment在1%的置信水平下顯著且系數(shù)為正,進一步驗證了投資者情緒對于中國股市收益率存在正向影響。
表7 FF四因子模型回歸結(jié)果
本文基于新浪股吧的在線股評信息,以及新浪財經(jīng)每日多空調(diào)查數(shù)據(jù),運用文本分析、機器學習等技術(shù)構(gòu)建了一個較為嚴謹?shù)幕ヂ?lián)網(wǎng)投資者情緒指標體系,并通過VAR模型、Granger因果檢驗及FF四因子模型等方法,研究了互聯(lián)網(wǎng)社交媒體及網(wǎng)絡投票中投資者情緒與上證指數(shù)日漲跌幅及成交量之間的動態(tài)關(guān)系,得出以下結(jié)論:
1.用機器學習分類方法得出的文本情感分類準確性要優(yōu)于之前國內(nèi)學者普遍采用的基于情感詞典的分類方法。
2.互聯(lián)網(wǎng)社交媒體中的投資者情緒是證券市場收益率Granger原因,即當新浪股吧中發(fā)表的帖子情緒較為樂觀(悲觀)時,上證指數(shù)下一期的收益率會上漲(下跌),但隨后又快速回落。新浪財經(jīng)多空調(diào)查中的看漲指數(shù)具有類似的效果,可見投資者情緒的預測效果僅在短期內(nèi)有效。這與國內(nèi)外一些學者得出的結(jié)論是一致的,也驗證了我國股市存在“羊群效應”,說明個人投資者容易受到社交媒體輿論和其他投資者情緒的影響,而盲目追漲殺跌。雖然在短期內(nèi)投資者情緒對股市有一定的預測作用,但證券市場走勢很快便會反轉(zhuǎn)回落。
3.互聯(lián)網(wǎng)投資者情緒是證券市場成交量的Granger原因,且市場成交量受投資者情緒影響的時間超過10天,長于對收益率的影響。即當投資者情緒高漲(低落)時,股票市場后續(xù)的交易活動也會隨之活躍(低迷),這與實際情況也是相符的。
4.網(wǎng)絡投資者情緒的FF四因子模型對中國股票市場收益率的解釋效果要優(yōu)于傳統(tǒng)的FF三因子模型,進一步說明了我國股市仍未達到弱勢有效,網(wǎng)絡輿論對股市漲跌的預測仍具有一定的指引作用。
隨著中國證券市場制度的日益完善,以及我國投資者與網(wǎng)民素質(zhì)的不斷提高,未來互聯(lián)網(wǎng)社交媒體與在線股評有望包含更多對股市有價值的信息,而文本分析和情感傾向分類技術(shù)的發(fā)展對于更準確地提取網(wǎng)絡投資者情緒也起到了重要作用。本文的實證結(jié)論對投資者情緒與股市之間的相互影響提供了重要參考。但由于時間精力因素的局限,本文只爬取了新浪股吧作為互聯(lián)網(wǎng)社交媒體的代表,后續(xù)研究可以加入其他權(quán)威財經(jīng)網(wǎng)站如雪球網(wǎng)股民評論信息,另外在時間跨度上若能包含牛市、熊市和震蕩市的數(shù)據(jù),將進一步驗證和完善本文的結(jié)論。