奉 靜
(蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院, 蘭州 730000)
隨著中國(guó)國(guó)民經(jīng)濟(jì)的發(fā)展和金融市場(chǎng)體系的不斷完善,越來越多人選擇將余錢進(jìn)行金融投資而非簡(jiǎn)單的儲(chǔ)蓄。作為金融市場(chǎng)的重要投資工具——股票也逐漸走進(jìn)人們的視線中。相較于國(guó)外成熟的股票投資市場(chǎng),中國(guó)股市中包含大量個(gè)人投資者,股票走勢(shì)受個(gè)人投資者行為的影響較大[1]。因此,如何利用已有信息對(duì)相關(guān)股市運(yùn)行趨勢(shì)進(jìn)行把握并進(jìn)行相應(yīng)的交易操作是投資決策者能否從中獲利的關(guān)鍵因素。隨著互聯(lián)網(wǎng)的發(fā)展投資者獲取股票信息的來源也更加豐富。投資者信息來源主要有公司財(cái)務(wù)報(bào)表、新聞媒體報(bào)道、投資者評(píng)論三個(gè)方面。
大量事實(shí)表明,投資者情緒會(huì)對(duì)股票市場(chǎng)產(chǎn)生一定影響。例如,2018年受金融“去杠桿”政策對(duì)流動(dòng)性沖擊以及中美貿(mào)易關(guān)系緊張的影響,投資者對(duì)市場(chǎng)信心偏低,A股市場(chǎng)估值全面下跌。2020年受到新冠肺炎疫情影響,全球股市集體大跌,全球經(jīng)濟(jì)增長(zhǎng)率創(chuàng)第二次世界大戰(zhàn)以來最低值,金融恐慌迅速蔓延。但由于中國(guó)及時(shí)高效地應(yīng)對(duì)疫情,A股市場(chǎng)自我調(diào)節(jié)功能有效發(fā)揮,投資者數(shù)量不斷增加,首次突破1.6億,隨即成為投資者的避風(fēng)港[2]。由于中國(guó)股票市場(chǎng)中散戶數(shù)量較多且存在“追漲殺跌”的特性,因此極具主觀色彩與時(shí)效性的投資者評(píng)論在投資者進(jìn)行交易操作時(shí)受到高度關(guān)注。
現(xiàn)有研究主要聚焦于投資者情緒與滬深主板市場(chǎng)的關(guān)系,對(duì)創(chuàng)業(yè)板市場(chǎng)的研究較少。創(chuàng)業(yè)板又稱二板市場(chǎng),是對(duì)主板市場(chǎng)的重要補(bǔ)充,在中國(guó)資本市場(chǎng)中占有極其重要的位置。它的設(shè)立在推動(dòng)經(jīng)濟(jì)發(fā)展、完善中國(guó)資本市場(chǎng)層次與結(jié)構(gòu)、帶動(dòng)民間投資、促進(jìn)產(chǎn)業(yè)升級(jí)、為成長(zhǎng)型創(chuàng)業(yè)企業(yè)提供資本市場(chǎng)服務(wù)等方面具有重要意義。同時(shí)創(chuàng)業(yè)板“高風(fēng)險(xiǎn)、高回報(bào)”的投資風(fēng)格吸引了更多的個(gè)人和私人投資者。因此,研究投資者情緒對(duì)創(chuàng)業(yè)板市場(chǎng)的影響,有助于創(chuàng)業(yè)板股票市場(chǎng)投資者制定更加理性的投資策略,警示上市公司完善自身信息披露制度,完善市場(chǎng)監(jiān)督部門對(duì)創(chuàng)業(yè)板市場(chǎng)的交易機(jī)制,對(duì)推動(dòng)市場(chǎng)穩(wěn)定健康發(fā)展、豐富中國(guó)資本主義市場(chǎng)結(jié)構(gòu)具有重要作用。
通信技術(shù)的飛速發(fā)展,帶來了文本信息的海量增長(zhǎng),使互聯(lián)網(wǎng)隨之成為一個(gè)數(shù)據(jù)量龐大的語料庫?;ヂ?lián)網(wǎng)已經(jīng)成為輿論發(fā)布、傳播、接受的重要渠道。而這些輿論也在一定程度上影響著投資者的行為與市場(chǎng)的發(fā)展。目前,國(guó)內(nèi)外已經(jīng)有很多學(xué)者進(jìn)行了網(wǎng)絡(luò)輿情對(duì)金融市場(chǎng)影響的相關(guān)研究。本文主要從文本情感分析方法和投資者情緒的計(jì)量方法兩方面進(jìn)行闡述。
目前,在金融領(lǐng)域的文本情感分析方法,根據(jù)其使用的方法不同,可以分為三大類。第一類是采用情感詞典的文本情感分析方法,根據(jù)不同情感詞典所提供的情感詞的情感極性,來統(tǒng)計(jì)待分析文本中包含的正向情感詞和負(fù)向情感詞的數(shù)目,通過兩者的差值來判斷文本的情感極性?,F(xiàn)有的使用頻率較高的中文詞典包括中國(guó)知網(wǎng)詞庫(HowNet)、大連理工大學(xué)情感詞匯本體庫、臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典(NTSUSD)、清華大學(xué)開放中文詞庫(THUOCL)等,這些詞典的構(gòu)成大多基于文獻(xiàn)、新聞報(bào)道、輸入法詞庫等方面,其構(gòu)成來源導(dǎo)致了這些詞庫對(duì)“較日?;?、口語化”的文本分類效果很好,但對(duì)于某些專業(yè)性較強(qiáng)的領(lǐng)域文本分類效果較差。很多學(xué)者根據(jù)所分析的文本所在領(lǐng)域?qū)υ~典進(jìn)行擴(kuò)充。例如,韋婷婷等[3]利用HowNet提供的情感詞集加入句法規(guī)則對(duì)電商評(píng)論文本真實(shí)數(shù)據(jù)計(jì)算不同評(píng)價(jià)維度的觀點(diǎn)綜合得分以分析其情感;王曉丹等[4]在NTUSD的基礎(chǔ)上加入股票市場(chǎng)特殊詞匯對(duì)得到的新聞樣本進(jìn)行情感標(biāo)注,構(gòu)建情感指標(biāo)、輿情指數(shù)對(duì)上證指數(shù)進(jìn)行分析。以上兩篇文章均以一個(gè)詞典為基礎(chǔ),而王娜等[5]將HowNet與NTSUSD兩個(gè)詞典相結(jié)合,構(gòu)建出初始情感詞典語料詞庫并以此對(duì)金融市場(chǎng)進(jìn)行分析,使得預(yù)測(cè)準(zhǔn)確率大幅提升。吳杰勝和陸奎[6]整合多部情感詞典并添加文本句間和句型等語義信息,以提升微博情感分析的效率和準(zhǔn)確性。盡管有很多學(xué)者不斷地對(duì)詞典法進(jìn)行改進(jìn),使詞典法的應(yīng)用范圍更廣、實(shí)驗(yàn)結(jié)果更準(zhǔn)確,但截至目前無論該方法如何完善,仍無法突破情感詞典的限制,只能編纂詞典或者在原有詞典基礎(chǔ)上進(jìn)行完善;同時(shí),詞典法的情感分析關(guān)鍵在于所用詞典的內(nèi)容而不能聯(lián)系上下文對(duì)文本語義進(jìn)行分析,使得詞典法在進(jìn)行文本情感分析方面存在一定缺陷。而情感分析的第二類是傳統(tǒng)機(jī)器學(xué)習(xí)法,在使用時(shí)可以避免詞典法所遇到的一些問題,進(jìn)而對(duì)情感分析法進(jìn)行完善。傳統(tǒng)的機(jī)器學(xué)習(xí)法包含有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)三類。其中有監(jiān)督學(xué)習(xí)應(yīng)用最為廣泛,該方法先對(duì)文本進(jìn)行人工標(biāo)記,再通過相應(yīng)的機(jī)器學(xué)習(xí)方法利用給定帶有情感極性的樣本集進(jìn)行學(xué)習(xí),以對(duì)未分類的文本劃分類別。常用的有監(jiān)督機(jī)器學(xué)習(xí)分類算法有樸素貝葉斯[7]、支持向量機(jī)[8]、最大熵模型[9]等。傳統(tǒng)機(jī)器學(xué)習(xí)方法的運(yùn)用在一定程度上突破了情感詞典對(duì)領(lǐng)域的限制,使情感分析實(shí)現(xiàn)跨領(lǐng)域,但傳統(tǒng)機(jī)器學(xué)習(xí)方法在情感特征提取方面的優(yōu)勢(shì)又在一定程度上反映了其在進(jìn)行情感分析時(shí)存在忽略上下文語義的問題。
Hinton和Salakhutdinov[10]正式提出深度學(xué)習(xí)的概念,深度學(xué)習(xí)首先在計(jì)算機(jī)圖像等方面取得進(jìn)展,從21世紀(jì)初深度學(xué)習(xí)開始應(yīng)用于自然語言處理領(lǐng)域。深度學(xué)習(xí)在自然語言處理領(lǐng)域的不斷發(fā)展與完善使之成為情感分析的第三類。隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的持續(xù)應(yīng)用,其情感分析技術(shù)不斷更新。隨著數(shù)據(jù)規(guī)模的增大,深度學(xué)習(xí)技術(shù)相較于其他情感分析方法的優(yōu)勢(shì)不斷凸顯,但與優(yōu)勢(shì)如影而隨的是如何妥善處理大規(guī)模的數(shù)據(jù),尤其在情感分析領(lǐng)域,如何解決大量的文本數(shù)據(jù)帶來的維度問題是深度學(xué)習(xí)首先應(yīng)考慮的問題。Bengio等[11]提出利用神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)單詞的分布式表示來解決維度問題;詞袋模型、word2vec工具的應(yīng)用將上下文語義更好地結(jié)合使情感分析得到進(jìn)一步發(fā)展。提及深度學(xué)習(xí)不可避免的是其各種具備良好性能的神經(jīng)網(wǎng)絡(luò),其中較為著名的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[12]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[13],以及在RNN基礎(chǔ)上提出的長(zhǎng)短期記憶(long short-term memory,LSTM)[14],這些神經(jīng)網(wǎng)絡(luò)的引入使深度學(xué)習(xí)在自然語言處理領(lǐng)域的分析更加深入;2018年谷歌人工智能研究院提出的基于變壓器的雙向編碼器表示(bidirectional encoder representation form transformers,BERT)預(yù)訓(xùn)練模型,具有強(qiáng)大的語言表征和特征提取能力,成為自然語言處理發(fā)展史上的里程碑式的模型[15]。各類情感分析方法仍在不斷地完善,不同的組合方式、不同的優(yōu)化算法都會(huì)促使情感分析方法進(jìn)一步發(fā)展。
對(duì)于投資者情緒的計(jì)量方法,國(guó)內(nèi)外學(xué)者尚未達(dá)成一致觀點(diǎn)。通過梳理國(guó)內(nèi)外有關(guān)投資者情緒的相關(guān)文獻(xiàn),可將投資者情緒的計(jì)量方法大致分為三類:第一類為直接計(jì)量法,利用市場(chǎng)調(diào)查得到的直接調(diào)查指標(biāo)來替代投資者情緒;第二類為間接計(jì)量法,采用市場(chǎng)中經(jīng)濟(jì)變量作為投資者情緒的代理變量進(jìn)行間接度量;第三類在大數(shù)據(jù)與互聯(lián)網(wǎng)背景下,基于互聯(lián)網(wǎng)搜索引擎和文本信息挖掘方法對(duì)社交媒體中的文本信息進(jìn)行提取,并構(gòu)造出適宜的投資者情緒指數(shù),以此來衡量投資者情緒[16]。
投資者情緒的直接計(jì)量方法是用通過市場(chǎng)調(diào)查得到的直接調(diào)查指標(biāo)來替代投資者情緒,該指數(shù)表達(dá)了投資者對(duì)市場(chǎng)未來發(fā)展的預(yù)期和認(rèn)識(shí)。常見的投資者情緒指數(shù),一般包括投資者智能指數(shù) (investors intelligence)、美國(guó)個(gè)體投資者協(xié)會(huì)指數(shù)(American Association of Individual Investors)、央視看盤指數(shù)、好淡指數(shù)等。投資者情緒的間接計(jì)量方法是利用市場(chǎng)中經(jīng)濟(jì)變量作為投資者情緒的代理變量??捎糜趯?duì)投資者情緒進(jìn)行度量的間接指標(biāo)有很多,目前使用較多的有封閉式基金折價(jià)、交易量、共同基金凈贖回、IPO發(fā)行量及首日收益、波動(dòng)率指數(shù)(volatility index,VIX)等指標(biāo)。在以單一經(jīng)濟(jì)變量度量投資者情緒[17]的基礎(chǔ)上,學(xué)者們逐漸嘗試將經(jīng)濟(jì)變量進(jìn)行整合,建立投資者情緒的綜合指標(biāo)。Wurgler和Baker[18]運(yùn)用主成分分析法對(duì)封閉式基金折價(jià)率、首次公開發(fā)行股票(initial public offerings,IPO)發(fā)行數(shù)量、股票市場(chǎng)換手率、分紅溢價(jià)、IPO首日平均收益率以及股票占融資份額6項(xiàng)指標(biāo)進(jìn)行整合分析,得到投資者情緒指標(biāo)。盧米雪[19]、苗怡霖[20]利用主成分分析法基于新增開戶數(shù)、成交量、流通市值等指標(biāo)構(gòu)建綜合投資者情緒指數(shù),并將構(gòu)建得到的投資者情緒指數(shù)引入金融市場(chǎng)進(jìn)行分析。
隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交媒體成為輿論發(fā)布、傳播、接受的重要平臺(tái),從社交媒體上獲取數(shù)據(jù)以此來構(gòu)建市場(chǎng)投資者情緒的方法已被大量學(xué)者采用。Afkhami等[21]通過谷歌趨勢(shì)關(guān)鍵詞構(gòu)建投資者情緒指數(shù),發(fā)現(xiàn)了該指數(shù)與能源價(jià)格波動(dòng)性的關(guān)系。Ranco等[22]從推特上獲取信息構(gòu)建投資者情緒,分析了所構(gòu)建的指數(shù)與股票回報(bào)率之間的關(guān)系。崔炎炎和劉立新[23]、王曉丹等[4]分別從微博博文和百度搜索指數(shù)來衡量投資者情緒,發(fā)現(xiàn)投資者情緒從不同方面對(duì)股票市場(chǎng)產(chǎn)生影響。除了谷歌、推特、微博、百度,東方財(cái)富股吧[24]也被用于挖掘投資者情緒。目前的研究不再局限于判斷投資者情緒能否對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè),如何從海量的數(shù)據(jù)中提取出有價(jià)值的信息并將其運(yùn)用到投資者指數(shù)的構(gòu)建中成為研究的重點(diǎn)。
目前基于投資者情緒對(duì)股票市場(chǎng)的研究存在兩點(diǎn)不足:首先,現(xiàn)有研究主要聚焦于滬深兩個(gè)主板市場(chǎng),對(duì)創(chuàng)業(yè)板市場(chǎng)的研究較少;其次,國(guó)內(nèi)尚未有通用型詞典以對(duì)文本信息進(jìn)行分類,HowNet、NTSUSD等中文詞典在金融研究的適用性還存在疑問。
綜上所述,研究以創(chuàng)業(yè)板為立足點(diǎn),以創(chuàng)業(yè)板股票市場(chǎng)交易的量化指標(biāo)數(shù)據(jù)和創(chuàng)業(yè)板股票的投資者評(píng)論為研究對(duì)象,利用詞典法對(duì)股評(píng)進(jìn)行情感分類,根據(jù)分類結(jié)果構(gòu)建投資者情緒指數(shù),探究投資者情緒對(duì)創(chuàng)業(yè)板股票收益率的預(yù)測(cè)作用。為提升預(yù)測(cè)的準(zhǔn)確率,本文提出使用粒子群優(yōu)化的支持向量回歸模型,并與其他預(yù)測(cè)模型進(jìn)行對(duì)比分析。在進(jìn)行情感分析時(shí)選用姚加權(quán)等[25]構(gòu)造的應(yīng)用于股票論壇的非正式用語情緒詞典,該詞典解決了現(xiàn)有詞典在金融鄰域適用性不強(qiáng)的問題。
本文采用PSO-SVM模型并結(jié)合情感分析方法對(duì)股票收益率進(jìn)行預(yù)測(cè),有助于推動(dòng)將機(jī)器學(xué)習(xí)和情感分析運(yùn)用到金融領(lǐng)域的研究進(jìn)展,為后續(xù)情感分析和金融預(yù)測(cè)研究做好鋪墊。從目前研究較少的創(chuàng)業(yè)板股票進(jìn)行分析,豐富了該領(lǐng)域的研究文獻(xiàn);其次,在進(jìn)行情感分析時(shí)采用了目前適用性較高的金融領(lǐng)域非正式詞典對(duì)文本進(jìn)行分析;最后將優(yōu)化算法引入機(jī)器學(xué)習(xí)模型中,提升了預(yù)測(cè)的準(zhǔn)確率。
本文以Gabriel等[26]構(gòu)造的歸一化差異情緒指數(shù)為基礎(chǔ)構(gòu)建投資者情緒指數(shù)。與此不同的是,對(duì)歸一化差異情緒指數(shù)進(jìn)行對(duì)數(shù)化處理。具體的計(jì)算公式為
(1)
式中:∑pos為第t日包含的股評(píng)中情感類別為積極的總情感得分總數(shù);∑neg為第t日包含的股評(píng)中情感類別為消極的總情感得分總數(shù);1和-1分別為每條股評(píng)的積極、消極情感得分。
1.2.1 多元線性回歸模型
采用多元線性回歸(multivariable linear regression,MR)模型對(duì)股票對(duì)數(shù)收益率進(jìn)行預(yù)測(cè)。多元回歸模型是一種在金融領(lǐng)域應(yīng)用廣泛的方法。盡管對(duì)非線性關(guān)系的解釋能力有限,但該模型易于解釋,不需要調(diào)優(yōu)超參數(shù)。在引入情感指標(biāo)時(shí)估計(jì)方程如下:
RETi,t+k=βio+βi1RETi,t+βi2SIi,t+εit+k
(2)
式中:RETi,t+k為第t+k天、第i只股票的對(duì)數(shù)收益率;SIi,t為第t天、第i只股票的情感指標(biāo);βi0、βi1、βi2分別為線性回歸模型的系數(shù);εit+k為擾動(dòng)項(xiàng);k=1,2,3。
除了傳統(tǒng)方法,還使用機(jī)器學(xué)習(xí)方法和加入優(yōu)化算法的機(jī)器學(xué)習(xí)方法來分析收益率預(yù)測(cè)。
1.2.2 隨機(jī)森林模型
Leo Breiman和Adele Cutler發(fā)展推導(dǎo)出隨機(jī)森林算法(random forests,RF)[27]。隨機(jī)森林是機(jī)器學(xué)習(xí)中最常用也是最強(qiáng)大的監(jiān)督學(xué)習(xí)算法之一,包含很多決策樹,將多棵決策樹進(jìn)行集成。它既可以解決分類和回歸問題,也適用于降維問題,同時(shí)解決了決策樹泛化能力弱的缺點(diǎn),具有更好的分類和預(yù)測(cè)性能。
隨機(jī)森林回歸是隨機(jī)森林的一個(gè)重要分支,基于集成學(xué)習(xí)(ensemble learning),通過構(gòu)建多個(gè)決策樹并將它們的預(yù)測(cè)結(jié)果進(jìn)行集成來進(jìn)行回歸任務(wù)。隨機(jī)森林的名稱中包含兩個(gè)關(guān)鍵詞,一個(gè)是“隨機(jī)”,一個(gè)是“森林”。“隨機(jī)”是指樣本選擇具有隨機(jī)性,隨機(jī)選擇特征,即每一棵決策樹利用自主抽樣法(bootstrap)從訓(xùn)練樣本集中隨機(jī)選取固定數(shù)量的樣本集與特征集?!吧帧笔侵改P椭邪芏嗫脹Q策樹。為了降低模型過擬合的風(fēng)險(xiǎn),隨機(jī)森林中決策樹互不關(guān)聯(lián),獨(dú)立地隨機(jī)選擇子樣本并進(jìn)行訓(xùn)練,通過并行的方式獲得預(yù)測(cè)結(jié)果。將多個(gè)決策樹的預(yù)測(cè)結(jié)果進(jìn)行平均或加權(quán)平均,從而得到整個(gè)森林最終的回歸結(jié)果。
1.2.3 支持向量回歸模型
為了更好地預(yù)測(cè)創(chuàng)業(yè)板股票的收益率,首先選擇支持向量回歸(support vector regression,SVR)模型作為預(yù)測(cè)模型。
支持向量機(jī)是由Cortes和Vapnik等[28]于1995年提出的,之后隨著統(tǒng)計(jì)理論的發(fā)展,支持向量回歸也逐漸受到各領(lǐng)域研究者的關(guān)注,在很短的時(shí)間就得到廣泛的應(yīng)用。
理論上,SVR模型是一種基于支持向量機(jī)的回歸方法,作為其分支而被提出。與傳統(tǒng)的回歸方法不同,SVR采用非線性方式建模,且其計(jì)算復(fù)雜度不依賴于輸入空間的維度,運(yùn)用非線性映射將原始數(shù)據(jù)映射到高維數(shù)據(jù)特征空間中,使得在高維數(shù)據(jù)特征空間中自變量與因變量有較好的線性回歸特征,在高維數(shù)據(jù)特征空間中進(jìn)行擬合后再返回原始空間,其目標(biāo)為在高維特征空間中找到一個(gè)最好地?cái)M合數(shù)據(jù)的超平面。SVR以訓(xùn)練集為對(duì)象,通過分析值型輸出變量與輸入變量數(shù)之間的數(shù)量關(guān)系,最小化預(yù)測(cè)結(jié)果與實(shí)際數(shù)值的偏差,找到最大的邊界回歸平面以實(shí)現(xiàn)對(duì)新觀測(cè)輸出變量值的穩(wěn)健預(yù)測(cè)??紤]最小化損失并引入松弛變量后支持向量回歸的目標(biāo)函數(shù)與約束條件如下:
(3)
(4)
式中:ω為超平面的系數(shù)變量;b為超平面的常數(shù)項(xiàng);N為N個(gè)約束條件;Xi為樣本觀測(cè)點(diǎn);yi為樣本觀測(cè)點(diǎn)對(duì)應(yīng)的輸出變量;ε為一個(gè)較小的可調(diào)參數(shù);ξ*為回歸超平面上方樣本觀測(cè)點(diǎn)的松弛變量;ξ為下方樣本觀測(cè)點(diǎn)的松弛變量;C為懲罰系數(shù)。
SVR基本思想在于通過尋找最佳擬合線來進(jìn)行模型擬合,其目標(biāo)函數(shù)在擴(kuò)大超平面,使盡可能多的點(diǎn)落入超平面的同時(shí)考慮了擴(kuò)大超平面帶來的預(yù)測(cè)誤差變化;約束條件則是對(duì)訓(xùn)練殘差上限進(jìn)行限定。擴(kuò)大回歸的超平面與減小預(yù)測(cè)誤差無法同時(shí)實(shí)現(xiàn),因此支持向量回歸希望找到兩者之和最小下的回歸超平面。此外,支持向量回歸具有出色的泛化能力、很高的預(yù)測(cè)精度。
支持向量機(jī)的懲罰系數(shù)C和核函數(shù)系數(shù)g對(duì)其回歸性能影響很大,這些參數(shù)通常需要通過人工進(jìn)行設(shè)定,然而,很難人為預(yù)先確定合適的參數(shù)值。因此,利用粒子群優(yōu)化算法[29](particle swarm optimization,PSO)對(duì)支持向量回歸的參數(shù),以達(dá)到較高回歸準(zhǔn)確率的目的。
數(shù)據(jù)集包括兩個(gè)部分:來自創(chuàng)業(yè)板寧德時(shí)代的股票交易數(shù)據(jù)以及對(duì)應(yīng)的股評(píng)文本數(shù)據(jù),數(shù)據(jù)區(qū)間為2021年4月20日至2023年4月20日,共487個(gè)交易日數(shù)據(jù)。按照8:2的比例將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集兩個(gè)部分。文本數(shù)據(jù)以相同的方式劃分。數(shù)據(jù)集的具體統(tǒng)計(jì)信息如表1所示。
表1 寧德時(shí)代股票數(shù)據(jù)集的統(tǒng)計(jì)信息
根據(jù)需要獲取股票交易的數(shù)據(jù)和相關(guān)的股評(píng)文本數(shù)據(jù)。因此,數(shù)據(jù)預(yù)處理包括對(duì)股票交易數(shù)據(jù)的預(yù)處理和對(duì)文本數(shù)據(jù)的預(yù)處理兩方面。
2.2.1 股票交易數(shù)據(jù)的預(yù)處理
在對(duì)股票交易數(shù)據(jù)進(jìn)行處理時(shí),首先考慮對(duì)創(chuàng)業(yè)板股票的選取,根據(jù)肖勇[30]的分析結(jié)果得到流通市值小的股票更易受到噪聲交易者交易行為的沖擊。因此,為了降低噪聲交易者帶來的影響,將創(chuàng)業(yè)板中所有股票的流通市值按從大到小進(jìn)行排序,選取其中流通市值較大的股票,再剔除數(shù)據(jù)缺失相對(duì)嚴(yán)重的股票,將滿足條件的股票作為樣本股進(jìn)行研究。選擇的創(chuàng)業(yè)板股票的具體信息如表2所示。
表2 創(chuàng)業(yè)板股票
針對(duì)創(chuàng)業(yè)板市場(chǎng),從創(chuàng)業(yè)板所有股票中選取四只樣本股來進(jìn)行分析。其中基本技術(shù)分析數(shù)據(jù)使用的是四只樣本股的每日收盤價(jià),數(shù)據(jù)來源于Wind數(shù)據(jù)庫。對(duì)收集到的收盤價(jià)進(jìn)行對(duì)數(shù)化處理,得到收益率數(shù)據(jù),具體公式如下:
(5)
式中:xt為第t日的股票收盤價(jià);xt-1為第t-1日的股票收盤價(jià);RETt為經(jīng)過對(duì)數(shù)化處理后第t日的股票收益率。
2.2.2 文本數(shù)據(jù)的預(yù)處理
采用的文本數(shù)據(jù)為創(chuàng)業(yè)板中流通市值最大的股票——寧德時(shí)代的股評(píng),利用Python從東方財(cái)富股吧中爬取該股票2021年4月20日至2023年4月20日,共225 986條評(píng)論數(shù)據(jù)。為了對(duì)文本進(jìn)行情感分類和建立相應(yīng)的情緒指數(shù),采用情感詞典的方法。
第一步,爬取文本:使用Python爬取東方財(cái)富股吧創(chuàng)業(yè)板中寧德時(shí)代每條股評(píng)的評(píng)論內(nèi)容、閱讀量和發(fā)帖時(shí)間等信息。
第二步,清洗數(shù)據(jù):刪除重復(fù)值和無效符號(hào),最終得到202 333條有效文本數(shù)據(jù)。將所得文本數(shù)據(jù)進(jìn)行分詞、去停用詞處理,并根據(jù)創(chuàng)業(yè)板股票市場(chǎng)交易時(shí)間,對(duì)文本數(shù)據(jù)進(jìn)行匹配。具體而言,從上一交易日結(jié)束起,直至當(dāng)前交易日結(jié)束為止,其間所有的股評(píng)均被劃分為當(dāng)前交易日的股評(píng),與當(dāng)前交易日的股票表現(xiàn)進(jìn)行對(duì)應(yīng)。
第三步,補(bǔ)充詞典:以姚加權(quán)等[19]所構(gòu)造的應(yīng)用于股票論壇的非正式用語情緒詞典為基礎(chǔ),在一定程度上對(duì)詞典進(jìn)行補(bǔ)充。將第二步的分詞后得到的結(jié)果進(jìn)行詞頻統(tǒng)計(jì),按詞頻統(tǒng)計(jì)的結(jié)果按從大到小進(jìn)行排序。根據(jù)詞頻高的分詞結(jié)果在股票市場(chǎng)的含義劃分為積極、中立或者消極類別,再分別加入詞典中,補(bǔ)充原有詞典。
第四步,文本分類:根據(jù)第三步得到的詞典對(duì)每條股評(píng)中不同類型情感詞匯出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),以頻次反映該條股評(píng)的情感差異,分為積極、中立、消極三類,分別用1、0、-1表示。
為了有效地評(píng)估預(yù)測(cè)模型的性能,選取均方根誤差(root mean square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)作為預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。均方根誤差反映的是模型預(yù)測(cè)值與樣本真實(shí)值之間的偏差;平均絕對(duì)誤差用于評(píng)估模型預(yù)測(cè)與樣本真實(shí)值之間距離,其計(jì)算公式是求預(yù)測(cè)值與真實(shí)值之差的絕對(duì)值的平均值。
(6)
(7)
實(shí)驗(yàn)有以下兩大目的:一是評(píng)估引入來自股評(píng)的投資者情緒能否導(dǎo)致預(yù)測(cè)模型準(zhǔn)確性的顯著提高;二是提出的PSO-SVR能否提升預(yù)測(cè)模型的準(zhǔn)確性。因此,首先在僅引入股票交易數(shù)據(jù)的情況下分別使用MR、RF、SVR及PSO-SVR模型對(duì)寧德時(shí)代進(jìn)行預(yù)測(cè)分析;最后將構(gòu)造的情緒指標(biāo)與股票交易數(shù)據(jù)均作為影響變量引入上述四種模型進(jìn)行分析。表3顯示了投資者情緒變量存在與否對(duì)模型結(jié)果的影響。
由表3可知,投資者情緒的引入提升了模型整體預(yù)測(cè)效果。具體分析,提出的四種預(yù)測(cè)模型中RMSE值和MAE值最小的均為PSO-SVR模型,其值分別為0.019 3、0.014 9。這一結(jié)果表明本文所提出的優(yōu)化模型與三種基礎(chǔ)模型相比,其預(yù)測(cè)效果更好;同時(shí),隨著情緒指標(biāo)的引入,各模型評(píng)價(jià)指標(biāo)的值均有所下降,反映構(gòu)建的情緒指標(biāo)在一定程度上提高了模型預(yù)測(cè)的準(zhǔn)確性。
表3 寧德時(shí)代收益率預(yù)測(cè)結(jié)果
為了更清楚地反映引入情感指標(biāo)以及使用PSO-SVR預(yù)測(cè)模型帶來的優(yōu)越性,引入改進(jìn)率指標(biāo)(improvement rate,IR)。通過計(jì)算IR來量化情感指標(biāo)以及PSO-SVR模型的額外解釋力。具體來說,IR定義為
(8)
(9)
式中:RMSEA為使用A方法進(jìn)行預(yù)測(cè)的均方根誤差;RMSEB為使用B方法進(jìn)行預(yù)測(cè)的均方根誤差;IRRMSE為方法B相對(duì)于方法A的均方根誤差帶來的變化。當(dāng)IRRMSE值為負(fù)時(shí),表明用方法B的預(yù)測(cè)效果優(yōu)于方法A的預(yù)測(cè)效果;當(dāng)IRRMSE值為正時(shí)對(duì)應(yīng)相反的情況。
表4給出了引入情緒指標(biāo)所帶來的IR值的變化,以體現(xiàn)情緒指標(biāo)的引入對(duì)預(yù)測(cè)的影響。同時(shí),分別以MR、RF、SVR模型為基礎(chǔ),探究PSO-SVR相對(duì)于基礎(chǔ)模型所導(dǎo)致的IR值的變化,具體情況如表5所示。
通過進(jìn)一步的分析,可以清晰地看到,情感指數(shù)的引入提升了股票收益率的整體預(yù)測(cè)性能。綜合表4和表5的數(shù)據(jù)可得,引入情感指數(shù)后各模型的預(yù)測(cè)效果均得到不同程度提升,其中變化幅度最大的是RF模型,其RMSE和MAE值分別降低了6.10%、9.12%。同時(shí),通過四種模型的對(duì)比分析可以發(fā)現(xiàn),情感指數(shù)的引入使RMSE和MAE值基本都呈現(xiàn)下降趨勢(shì)。再一次證明了引入情感指數(shù)可以在一定程度上提升模型的預(yù)測(cè)性能。
表4 寧德時(shí)代情緒指標(biāo)導(dǎo)致的IR值變化
表5 寧德時(shí)代PSO-SVR相對(duì)于基礎(chǔ)模型導(dǎo)致的IR值變化
探究PSO-SVR模型相對(duì)于基礎(chǔ)模型所導(dǎo)致的IR值的變化。如表5所示,不引入情感指標(biāo)時(shí),將PSO-SVR模型分別與MR、RF以及SVR模型進(jìn)行比較分析,發(fā)現(xiàn)PSO-SVR模型與MR模型的IR值的變化最大。而模型間IR值隨著比較的順序逐漸降低,表明在未引入情感指標(biāo)時(shí),PSO-SVR相較于其他三種模型,其預(yù)測(cè)性能更好。另一方面,將引入情感指標(biāo)的PSO-SVR-sent模型分別與MR-sent、RF-sent及SVR-sent模型進(jìn)行比較分析,可以看到,RMSE和MAE值降低最多的同樣是PSO-SVR-sent與MR-sent進(jìn)行比較的情況。同時(shí)模型間改進(jìn)率指標(biāo)(IR)隨著比較的順序逐漸降低,表明在引入情感指標(biāo)時(shí),PSO-SVR-sent相較于其他三種模型,其預(yù)測(cè)性能更好。結(jié)合以上兩種情況可知,在影響變量一致的情況下,PSO-SVR模型預(yù)測(cè)效果明顯優(yōu)于基礎(chǔ)模型。模型間預(yù)測(cè)準(zhǔn)確率差異最大的是PSO-SVR模型與MR模型,無論影響變量中是否存在情感指數(shù),PSO-SVR模型的預(yù)測(cè)準(zhǔn)確率相比于MR模型均提升了30%以上。
綜合以上分析可以得到,引入情感指標(biāo)能在一定程度上提升模型預(yù)測(cè)的準(zhǔn)確率,表明投資者情緒在對(duì)股票收益率進(jìn)行預(yù)測(cè)時(shí)起到了積極的作用。另外,提出的粒子群算法優(yōu)化支持向量回歸與本文提出的基礎(chǔ)模型相比其預(yù)測(cè)性能更佳。
為進(jìn)一步確保研究結(jié)果的穩(wěn)健性,選取創(chuàng)業(yè)板市場(chǎng)的三只股票(東方財(cái)富、陽光電源及愛爾眼科)進(jìn)行穩(wěn)健性分析。各股票的文本數(shù)據(jù)與股票交易數(shù)據(jù)時(shí)間范圍與前文保持一致并對(duì)其進(jìn)行同樣的處理。各股票文本數(shù)據(jù)信息如表6所示。
表6 各股票文本數(shù)據(jù)信息
抓取三只股票在“東方財(cái)富股吧”的股評(píng),構(gòu)建與上文相同的情感指數(shù),并使用與上文相同的預(yù)測(cè)模型進(jìn)行分析,表7給出了對(duì)應(yīng)的收益率預(yù)測(cè)結(jié)果。表8和表9分別展示了引入情緒指標(biāo)所帶來的IR變化,以體現(xiàn)情緒指標(biāo)的引入對(duì)預(yù)測(cè)的影響,探究PSO-SVR模型相對(duì)于基礎(chǔ)模型所導(dǎo)致的IR變化,具體情況如表8所示。
由表7可知,股票收益率預(yù)測(cè)RMSE值最小的都是PSO-SVR_sent模型;而“東方財(cái)富”的預(yù)測(cè)模型中RMSE值最小的是MR-sent模型即加入情感指標(biāo)的多元回歸預(yù)測(cè)模型,其值為0.030 8;同樣,在“陽光電源”和“愛爾眼科”的所有預(yù)測(cè)模型中預(yù)測(cè)效果最好的均為PSO-SVR-sent模型,其RMSE值分別為0.028 2和0.017 9。經(jīng)過以上分析可以發(fā)現(xiàn)除了“東方財(cái)富”,其余股票的RMSE值最小的都是PSO-SVR-sent模型,這一結(jié)果在一定程度上反映了所提出的模型預(yù)測(cè)效果更好,進(jìn)一步確保了實(shí)證結(jié)果的穩(wěn)健性。在分析“東方財(cái)富”的預(yù)測(cè)模型中效果最好的是MR-sent模型而非PSO-SVR-sent模型時(shí),考慮可能存在的原因是,所選取的文本數(shù)據(jù)均來自“東方財(cái)富股吧”,而該股吧中包含各種股票,因此“東方財(cái)富”的股評(píng)可能摻雜了其他股民對(duì)股吧整體的評(píng)價(jià),從而導(dǎo)致“東方財(cái)富”股評(píng)的噪聲過多,使預(yù)測(cè)結(jié)果產(chǎn)生偏差。
表7 收益率預(yù)測(cè)結(jié)果
通過表8與表9是否引入情感指標(biāo)和模型之間的比較導(dǎo)致的RMSE和MAE值變化可以得出與上文一致的分析結(jié)果。情感指標(biāo)的引入在一定程度上能提升模型預(yù)測(cè)的準(zhǔn)確率,而提出的PSO-SVR模型與基礎(chǔ)模型相比預(yù)測(cè)性能更好。進(jìn)一步驗(yàn)證了所構(gòu)建的預(yù)測(cè)模型,以及從“東方財(cái)富股吧”中提取投資者情緒的穩(wěn)健性。
表8 情緒指標(biāo)導(dǎo)致的IR值變化
表9 PSO-SVR相對(duì)于基礎(chǔ)模型導(dǎo)致的IR值變化
從東方財(cái)富股吧中提取了表達(dá)投資者情緒的股評(píng)文本信息,利用詞典法將清洗后文本數(shù)據(jù)進(jìn)行分類以構(gòu)造恰當(dāng)?shù)那楦兄笜?biāo),結(jié)合所選的樣本股的交易數(shù)據(jù),探討了投資者情緒對(duì)股票收益率帶來的影響,并構(gòu)建了股票收益率的預(yù)測(cè)模型。得出以下主要結(jié)論:①投資者情緒對(duì)樣本股的收益率的預(yù)測(cè)具有重要作用;②與多元回歸模型、隨機(jī)森林模型和支持向量回歸模型相比,構(gòu)造的粒子群算法優(yōu)化支持向量回歸模型在預(yù)測(cè)效果和模型穩(wěn)健性上來看均為最佳模型。
綜合以上分析,該研究對(duì)創(chuàng)業(yè)板股票市場(chǎng)投資者制定適宜的投資策略有一定的意義。投資者情緒的引入在一定程度上提升了創(chuàng)業(yè)板樣本股收益率的預(yù)測(cè)性能,投資者可以利用股評(píng)信息預(yù)測(cè)創(chuàng)業(yè)板股票收益率的變化,從而制定相應(yīng)的投資策略。最后,通過擴(kuò)充現(xiàn)有詞典來進(jìn)行情感分類,該法尚不完善,效果也有待提高。此外本文只考慮了來自東方財(cái)富股吧的投資者情緒,盡管這個(gè)社交媒體平臺(tái)在投資者中非常受歡迎,但其他來源的投資者情緒的文本信息也可能與創(chuàng)業(yè)板股票相關(guān)。未來的研究可以考慮使用深度學(xué)習(xí)提取文本特征,同時(shí)增加文本信息的來源,以提升投資者情緒在預(yù)測(cè)中的作用。