蘭州交通大學(xué)數(shù)理學(xué)院 龍江
股市不僅是衡量經(jīng)濟(jì)運(yùn)行的指標(biāo),還可以為未來(lái)經(jīng)濟(jì)判斷提供重要參考。長(zhǎng)期以來(lái),股市一直受到“政策市場(chǎng)”“信息市場(chǎng)”和過(guò)度投機(jī)等問(wèn)題的困擾,股市上充斥著各種各樣的新聞和評(píng)論。隨著“發(fā)布、傳播、影響”的過(guò)程,這些新聞和評(píng)論也影響著投資者在股市中的情緒,股民的情緒決定著交易行為,從而使股市中的新聞和評(píng)論迅速反映在股價(jià)上。散戶(hù)在股吧等載體的幫助下,釋放自己的建議和情緒,這些建議和觀點(diǎn)在網(wǎng)絡(luò)上迅速傳播和交融,最終影響人們的實(shí)際決策。許多學(xué)者提出了構(gòu)建投資者情緒指數(shù)等指標(biāo)分析股票波動(dòng)的方法,從而將投資者情緒與股票變化聯(lián)系起來(lái)[1~3]。在現(xiàn)有的市場(chǎng)情緒研究中,有的學(xué)者通過(guò)選擇合適的情緒指標(biāo)來(lái)反映市場(chǎng)情緒[4,5],還有一些學(xué)者利用文本數(shù)據(jù)中的隱含信息來(lái)構(gòu)建情緒指標(biāo)[6~8]。魯曉鵬等[9,10]學(xué)者認(rèn)為新聞文本數(shù)據(jù)中包含利空或利好的情感傾向,可以從中構(gòu)建情緒指標(biāo)。在研究投資者情緒對(duì)股票走勢(shì)的影響時(shí),郭曉菲等[11]通過(guò)構(gòu)建情緒指數(shù)將股民的情緒量化,從而對(duì)兩者的關(guān)系進(jìn)行實(shí)證分析。
(1)利用 Python軟件對(duì)上證指數(shù)股吧一段時(shí)間內(nèi)的評(píng)論文本數(shù)據(jù)進(jìn)行爬取,并進(jìn)行清洗及分詞處理。
(2)對(duì)抓取的評(píng)論進(jìn)行情感傾向分析。利用情感詞典提供的情感詞匯對(duì)評(píng)論里所有的詞匯賦予情感權(quán)重,計(jì)算出每條評(píng)論最終的情感得分,再匯總每日所有評(píng)論情感值的均值作為反映投資者情緒的指標(biāo)。
(3)情緒指數(shù)與上證指數(shù)價(jià)格波動(dòng)的關(guān)聯(lián)分析。對(duì)計(jì)算得到情緒指數(shù)與上證指數(shù)相關(guān)指標(biāo)進(jìn)行相關(guān)性分析,并通過(guò)格蘭杰檢驗(yàn)判斷情緒得分是否對(duì)上證指數(shù)走勢(shì)產(chǎn)生影響。
本文利用Python軟件中的Selenuim包和Lxml包對(duì)東方財(cái)富網(wǎng)上證指數(shù)吧版塊的評(píng)論信息進(jìn)行爬取。獲取到2020年 5月21日到2021年5月18日的評(píng)論文本數(shù)據(jù),篩選出 10萬(wàn)多條評(píng)論信息作為市場(chǎng)情緒的文本來(lái)源,并使用網(wǎng)易財(cái)經(jīng)網(wǎng)選取對(duì)應(yīng)時(shí)間的上證指數(shù)相關(guān)指標(biāo)作為研究對(duì)象。
爬取的股吧帖子里大多數(shù)評(píng)論是股民對(duì)股市行情的看法,但也存在一些無(wú)用帖,比如廣告帖等,這些帖子的內(nèi)容會(huì)對(duì)后續(xù)計(jì)算情感指數(shù)產(chǎn)生一定影響,需要去除這部分?jǐn)?shù)據(jù)。文本去噪主要去掉以下幾類(lèi)信息:(1)評(píng)論為空的帖子。(2)評(píng)論中只有數(shù)字、字母或者表情包的帖子。(3)重復(fù)的評(píng)論帖子。(4)與股票完全無(wú)關(guān)的評(píng)論帖子。
本文采用jieba分詞庫(kù)對(duì)清洗后的評(píng)論文本進(jìn)行分詞處理,由于詞典的覆蓋面有限,故通過(guò)詞典與人工結(jié)合的雙重分詞方法,然后對(duì)分詞后的評(píng)論進(jìn)行詞頻分析,截取詞頻排名前50的詞語(yǔ),通過(guò)調(diào)用Python語(yǔ)言中的WordCloud進(jìn)行詞云圖展示,如圖1所示。
圖1 詞云圖
在評(píng)論文本中有許多對(duì)情感分析毫無(wú)意義的詞,如“的”“你”“謝謝”“是”“老師”“狐貍”“說(shuō)”“今天”等都沒(méi)有明確意義和明顯情感傾向的詞被稱(chēng)為停用詞。由于評(píng)論中包含大量停用詞,為了提高效率和分析效果,需要將這類(lèi)詞過(guò)濾。
停用詞刪除之后,本文使用BosonNLP情感詞典,將其與分詞后的文本進(jìn)行匹配,從而對(duì)評(píng)論文本進(jìn)行打分。投資者的情緒傾向是通過(guò)評(píng)論情感得分來(lái)判斷的,情感得分的范圍是0~1,得分越接近1,評(píng)論情感越積極,分?jǐn)?shù)越接近0,評(píng)論就越負(fù)面。
將上證指數(shù)股吧的評(píng)論以日期劃分,基于情感詞典對(duì)每日市場(chǎng)情緒指數(shù)進(jìn)行計(jì)算,計(jì)算公式如下:
其中,sentimenti表示每條評(píng)論的情感得分,情緒指數(shù)emotionsT計(jì)算公式表示在第T日所有評(píng)論的情感得分均值,情緒指數(shù)的范圍也在0~1。如果情緒指數(shù)趨近于0,表示市場(chǎng)反應(yīng)越低迷,若情緒指數(shù)趨近于1,則市場(chǎng)反應(yīng)越積極,情緒指數(shù)趨于0.5,則市場(chǎng)情緒越平穩(wěn)。每日情緒指數(shù)emotionsT反映了當(dāng)天市場(chǎng)的情感強(qiáng)度。
本文采用情感詞典的情緒指數(shù)構(gòu)建方法,計(jì)算了2020年5月21日—2021年5月18日上證指數(shù)的日情緒指數(shù),并繪制了日情緒指數(shù)與上證指數(shù)開(kāi)盤(pán)價(jià)的時(shí)間序列,如圖2所示。
圖2 情緒指數(shù)與上證開(kāi)盤(pán)價(jià)格趨勢(shì)圖
由圖2可以發(fā)現(xiàn),情緒指數(shù)的波動(dòng)在一定程度上反映了上證指數(shù)開(kāi)盤(pán)價(jià)格的波動(dòng)趨勢(shì)。為了檢驗(yàn)情緒指數(shù)對(duì)上證指數(shù)價(jià)格波動(dòng)的影響,對(duì)日情緒指數(shù)和上證指數(shù)開(kāi)盤(pán)價(jià)進(jìn)行格蘭杰因果關(guān)系檢驗(yàn)。原始假設(shè)H0表明,情緒指數(shù)的變化不是上證指數(shù)開(kāi)盤(pán)價(jià)變化的格蘭杰原因。F統(tǒng)計(jì)值和P值用來(lái)驗(yàn)證是否拒絕原假設(shè)H0,置信水平分別為1%、5%、10%,檢驗(yàn)結(jié)果如表1所示。
表1 Granger因果檢驗(yàn)
由表1可以看出:當(dāng)滯后階數(shù)為1、2、3時(shí),在5%的置信水平上檢驗(yàn)結(jié)果都拒絕原假設(shè)HO,說(shuō)明情緒指數(shù)是上證指數(shù)開(kāi)盤(pán)價(jià)格變化的格蘭杰原因,情緒指數(shù)的波動(dòng)先于上證指數(shù)的價(jià)格波動(dòng)。當(dāng)滯后階數(shù)為4、5時(shí),在5%的置信水平上不能拒絕原假設(shè)H0。研究表明,情緒指數(shù)在短期內(nèi)對(duì)上證指數(shù)的開(kāi)盤(pán)價(jià)格有一定的影響,但從長(zhǎng)期來(lái)看,情緒指數(shù)的變化并不影響上證指數(shù)的波動(dòng)。接著計(jì)算情緒指數(shù)與上證指數(shù)開(kāi)盤(pán)價(jià)的相關(guān)系數(shù),結(jié)果如表2所示。
表2 相關(guān)系數(shù)
由表2可以看出:上證指數(shù)開(kāi)盤(pán)價(jià)格和每日情緒指數(shù)的相關(guān)系數(shù)隨著時(shí)間滯后的增加而減少,表明情緒指數(shù)對(duì)上證指數(shù)價(jià)格波動(dòng)影響具有一定的時(shí)效性,當(dāng)日股民情緒變化,對(duì)次日大盤(pán)影響最大,隨著時(shí)間的推移,情緒指數(shù)對(duì)后續(xù)市場(chǎng)的影響逐漸減小。
本文選取上證指數(shù)2020年5月21日—2021年5月18日的交易數(shù)據(jù),結(jié)合對(duì)應(yīng)時(shí)間里東方財(cái)富在線(xiàn)股吧中的股民點(diǎn)評(píng)文本數(shù)據(jù),構(gòu)建了情緒指數(shù)。對(duì)市場(chǎng)情緒變化與上證指數(shù)開(kāi)盤(pán)價(jià)波動(dòng)進(jìn)行了相關(guān)分析和格蘭杰因果關(guān)系分析。研究結(jié)果表明:短期內(nèi),投資者情緒是上證指數(shù)價(jià)格波動(dòng)的影響因素。在未來(lái)工作中,我們會(huì)嘗試探索新的情感詞典構(gòu)建方法以提高評(píng)論的情感識(shí)別精度,同時(shí)股吧里的評(píng)論者不能代表市場(chǎng)上的所有投資者,只是部分影響因素,后續(xù)會(huì)針對(duì)這些問(wèn)題進(jìn)一步優(yōu)化。