亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

市場(chǎng)情緒對(duì)股票走勢(shì)的影響分析及預(yù)測(cè)

2021-04-23 01:46:34詹冰清屈波怡

科技和產(chǎn)業(yè) 2021年4期

詹冰清，屈波怡

(上海理工大學(xué) 管理學(xué)院，上海 200093)

在互聯(lián)網(wǎng)飛速發(fā)展的今天，大數(shù)據(jù)成為人們分析和關(guān)注的重點(diǎn)。股票市場(chǎng)作為金融市場(chǎng)一個(gè)重要的分支，它的波動(dòng)會(huì)對(duì)金融市場(chǎng)及人們的日常生活產(chǎn)生巨大的影響。自1990年在上海成立了新中國(guó)第一家證券交易所，中國(guó)股市發(fā)展30年，由較為混亂的波動(dòng)轉(zhuǎn)變?yōu)檩^為規(guī)律性的波動(dòng)。股份制有限公司通過上市發(fā)行股票等有價(jià)證券進(jìn)行資金的融通，而投資者也依據(jù)股票進(jìn)行投資。影響股票波動(dòng)的因素很多，如金融政策的變動(dòng)、公司自身的經(jīng)營(yíng)狀況和投資者自身的行為等。各種股票信息網(wǎng)站也隨之增加，新浪、騰訊等網(wǎng)站更是為股票單立了一個(gè)版塊，為投資者提供股票的相關(guān)信息，幫助投資者進(jìn)行決策。不少學(xué)者更是對(duì)股票變動(dòng)的影響因素進(jìn)行了研究，提出了投資者情緒指數(shù)等指標(biāo)來對(duì)股票的波動(dòng)進(jìn)行分析，將投資者的情緒與股票的變動(dòng)聯(lián)系起來。

現(xiàn)有的針對(duì)市場(chǎng)情緒的研究中，部分學(xué)者通過選取合適的情緒指標(biāo)來反映市場(chǎng)情緒，也有學(xué)者利用大數(shù)據(jù)時(shí)代文本數(shù)據(jù)中的隱含信息構(gòu)建情緒指標(biāo)。饒?zhí)m蘭和凃裕榮[1]、王舒曼[2]都是利用現(xiàn)有的變量，如好淡指數(shù)、市盈率、抄手率、新增開戶數(shù)等顯性或隱性的指標(biāo)來量化市場(chǎng)情緒；而王婧[3]則認(rèn)為文本數(shù)據(jù)中包含大量的投資者情緒，可以從中構(gòu)建出情緒指標(biāo)。

在研究投資者情緒對(duì)股票走勢(shì)的影響時(shí)，參考了相關(guān)文獻(xiàn)中將情緒量化的思想，但并未采用這些文獻(xiàn)中對(duì)情緒指數(shù)的構(gòu)建方法。中外學(xué)者為了探討投資者情緒與股票走勢(shì)的關(guān)系，通過構(gòu)建顯性、隱性和好淡指數(shù)等情緒指數(shù)將投資者的情緒量化，從而對(duì)二者的關(guān)系進(jìn)行實(shí)證分析。本文基于新浪、騰訊等網(wǎng)站對(duì)股票評(píng)價(jià)的文本數(shù)據(jù)，利用文本挖掘技術(shù)將文本轉(zhuǎn)化為情緒詞匯，并利用情緒得分量化情緒從而進(jìn)入模型，將股票市場(chǎng)的走勢(shì)與投資者的情緒聯(lián)系起來，分析市場(chǎng)情緒對(duì)上證綜指指數(shù)的影響[4]，這也符合現(xiàn)今對(duì)金融數(shù)據(jù)分析的要求。

本文主要研究投資者情緒與股票走勢(shì)的相關(guān)關(guān)系。通過爬取相關(guān)網(wǎng)站文本數(shù)據(jù)建立投資者情緒指標(biāo)，并選取大盤指數(shù)中的上證綜指指數(shù)作為研究對(duì)象。通過構(gòu)建VAR、BP神經(jīng)網(wǎng)絡(luò)模型來對(duì)該變量的關(guān)系進(jìn)行探究，從而找出他們之間的因果關(guān)系，并進(jìn)行預(yù)測(cè)來比較兩個(gè)模型的優(yōu)劣。建模過程分為以下3個(gè)步驟：

1)利用R軟件對(duì)股票與文本數(shù)據(jù)進(jìn)行爬取。利用RCurl、XML等包對(duì)新浪股票版塊的文本進(jìn)行抓取，并利用源代碼的路徑對(duì)抓取的文本進(jìn)行規(guī)整化處理。

2)利用文本挖掘進(jìn)行情感分析。利用詞典提供的情感詞匯對(duì)所有的詞匯賦予情感權(quán)重，計(jì)算每個(gè)文本最終的情感得分，作為反映市場(chǎng)情緒的指標(biāo)。

3)進(jìn)行市場(chǎng)情緒與股票走勢(shì)的關(guān)聯(lián)分析。利用計(jì)算得到情緒得分進(jìn)行與股票相關(guān)指標(biāo)進(jìn)行分析，將情緒得分作為一個(gè)影響變量加入反映股票走勢(shì)的模型中。通過格蘭杰檢驗(yàn)可判斷情緒得分是否對(duì)股票走勢(shì)產(chǎn)生影響，并利用VAR模型與BP神經(jīng)網(wǎng)絡(luò)對(duì)上證綜合指數(shù)進(jìn)行分析和預(yù)測(cè)[5]。

1 數(shù)據(jù)描述及指標(biāo)建立

1.1 數(shù)據(jù)來源

主要通過對(duì)新浪股票股市觀點(diǎn)、博客看市、大盤評(píng)述和主力動(dòng)向等版塊進(jìn)行文本挖掘，從而獲得投資者情緒的文本來源，并選擇上證綜指指數(shù)收益率作為研究對(duì)象。選取2016年12月至2017年6月180個(gè)日數(shù)據(jù)進(jìn)行分析。

1.1.1 數(shù)據(jù)內(nèi)容

選取新浪網(wǎng)股票界面的股市觀點(diǎn)、大盤評(píng)述、主力動(dòng)向、基金博客等板塊，爬取2017年1月3日到6月16日的文本數(shù)據(jù)，從中篩選出4 176條信息。

1.1.2 爬取的總體框架

利用R軟件中的RCurl包和XML包對(duì)網(wǎng)站的信息進(jìn)行爬取[6]。由于RCurl包只能對(duì)url進(jìn)行定向爬取，即只能爬取當(dāng)前網(wǎng)頁的信息，因此先對(duì)要爬取的模塊的主頁面中抓取出所需板塊的子鏈接，然后利用循環(huán)語句對(duì)主頁面中各版塊的子鏈接導(dǎo)向的文本進(jìn)行爬取。

1.1.3 爬取的基礎(chǔ)步驟

1)利用RCurl包中的getURL()函數(shù)獲取網(wǎng)站的源代碼，并根據(jù)url的編碼，設(shè)置參數(shù).encoding。為了防止網(wǎng)站以為是惡意侵入的，偽裝了報(bào)頭即定義參數(shù)header。

2)利用XML包中的htmlParse()函數(shù)對(duì)獲取的源代碼進(jìn)行解析。需要注意的一點(diǎn)是，XML包對(duì)中文的支持不太理想，并且由于encoding的原因，會(huì)出現(xiàn)中文亂碼的情況。因此在這兩步中間加入一個(gè)iconv()函數(shù)，對(duì)網(wǎng)站進(jìn)行轉(zhuǎn)碼。將網(wǎng)站都轉(zhuǎn)為utf-8的編碼。

3)通過觀察網(wǎng)站源代碼中節(jié)點(diǎn)，可以利用XML包中的getNodeSet()函數(shù)里面的path參數(shù)，設(shè)置路徑，然后獲取所設(shè)路徑的源代碼。之后利用xmlValue或者 xmlGetAttr函數(shù)等，xmlValue是返回所設(shè)節(jié)點(diǎn)的值，xmlGetAttr是返回所設(shè)節(jié)點(diǎn)的屬性，這樣就可以得到想要的信息。

1.2 軟件說明

在對(duì)數(shù)據(jù)處理、分析和建模的過程中，統(tǒng)一使用R軟件對(duì)其進(jìn)行分析。R軟件是一個(gè)開源免費(fèi)的軟件，可以支持進(jìn)行大部分的分析與操作。利用R語言中的多種包對(duì)數(shù)據(jù)進(jìn)行爬取、分詞、去除停用詞、構(gòu)建模型等操作。R軟件包使用說明見表1。

表1 R軟件包使用說明

2 文本挖掘與情緒分析

2.1 總體框架

在獲得大盤評(píng)述、股市觀點(diǎn)、主力動(dòng)向、博客看市等板塊的文本數(shù)據(jù)后，利用構(gòu)建情緒詞典的方式來對(duì)文本中隱藏的情緒進(jìn)行挖掘。選取哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息中心研發(fā)的情緒詞典，其中包含正面、反面及中性詞匯。通過對(duì)爬取的文本進(jìn)行分詞、去除停用詞、計(jì)算情緒得分等操作，將市場(chǎng)情緒量化，從而有利于分析市場(chǎng)情緒與股價(jià)走勢(shì)的關(guān)系。在處理文本的過程中，下載Rwordseg包和rJava包，利用其中的SegmentCN()等函數(shù)對(duì)文本進(jìn)行分詞。利用循環(huán)語句對(duì)文本情緒進(jìn)行打分，規(guī)定正面詞匯的情感得分為+1，負(fù)面詞匯的情感得分為-1，中性詞匯的情感得分為0，利用每篇文本中正面與負(fù)面詞匯的評(píng)分和作為該篇文檔的情緒傾向和得分值[7]。

2.2 情感分析的具體步驟

2.2.1 數(shù)據(jù)的清洗

由于在爬取數(shù)據(jù)時(shí)，是根據(jù)源代碼節(jié)點(diǎn)的規(guī)律來獲取想要的信息，因此其中可能夾雜類似于“新浪財(cái)經(jīng)App：直播上線博主一對(duì)一指導(dǎo)”等無意義文字，且英文單引號(hào)、波浪號(hào)等標(biāo)點(diǎn)在R讀取時(shí)會(huì)產(chǎn)生警告信息，從而造成文件讀取不完全和亂碼。因此在分詞之前先對(duì)文檔中這樣的數(shù)據(jù)進(jìn)行清洗。利用gsub()函數(shù)以及正則表達(dá)式，將不滿足要求的文字及英文字符全部剔除。

2.2.2 對(duì)文本進(jìn)行分詞

由于爬下的文本是完整的文檔，為了利用詞典進(jìn)行情感分析，采用segmentCN()函數(shù)對(duì)文本進(jìn)行分詞處理。在分詞之前需要裝載自定義詞庫(kù)，本文裝載的詞庫(kù)為搜狗輸入法下的“財(cái)經(jīng)金融詞匯大全【官方推薦】”詞庫(kù)以及“股票基金詞庫(kù)大全”?？墒?，由于詞典并不十分齊全，導(dǎo)致分詞的效果并不是很理想，分出來的詞仍然有所欠缺,部分結(jié)果如表2所示。

表2 初步分詞

顯然，R把“恒”“大”“安”“邦”等能表述一定特定含義的詞拆分開了，因此需要人工觀察那些不能分開的詞，運(yùn)用insertWords()函數(shù)，添加不能將其分開的新詞。并且R還將“特”“朗”“普”之類的人名拆開了，針對(duì)這一問題設(shè)置isNameRecognition=TRUE，使segmentCN()函數(shù)可以辨別人名。接著再重新對(duì)文本進(jìn)行分詞，結(jié)果如表3所示。

表3 部分分詞結(jié)果

可以直觀地感受到，通過人為添加詞匯可以提高詞典對(duì)文本的分詞效果。通過人工與詞典結(jié)合的雙重分詞，最終能夠得到的分詞結(jié)果較為合理，至此，分詞工作完成。

2.2.3 刪除停用詞

通過對(duì)在文本中出現(xiàn)次數(shù)前100名的高頻詞做可視化云圖，發(fā)現(xiàn)出現(xiàn)次數(shù)最多的是“的”“是”“在”“了”“股”“市場(chǎng)”等對(duì)情感分析毫無意義和價(jià)值可言的詞，這些沒有明確的意義，也無明顯的情感傾向的詞也被稱為停用詞。由于文章中包含大量的停用詞，為了進(jìn)一步減輕工作量也為了保證后續(xù)建模的分析效果，通過下載停用詞典，并根據(jù)文本特點(diǎn)人工增加一定無意義的停用詞，豐富停用詞典，利用管道函數(shù)將停用詞刪除。刪除前后文本可視化云圖如圖1所示。

圖1 刪除停用詞前后可視化云圖

由圖1(b)可以看出，刪除停用詞后的文本出現(xiàn)頻率高的為“板塊”“增”“跌”“高”“漲”“減”等可以具體體現(xiàn)市場(chǎng)情緒的詞，這說明去除停用詞是很有必要的，同時(shí)也說明了停用詞去的效果還不錯(cuò)。

2.2.4 計(jì)算情感得分

將文本停用詞進(jìn)行刪除之后，下一步的工作是對(duì)每篇文章計(jì)算情感得分，判斷它的情感傾向。采用哈工大的情感詞典，且將人工判斷詞典不能識(shí)別的重要詞加入詞典。之后根據(jù)此情感詞典對(duì)處理后的詞賦予情感權(quán)重，再計(jì)算每篇文章的情感得分，導(dǎo)入正面和負(fù)面的情感詞典，將其與分詞后的文本進(jìn)行匹配，從而對(duì)文本進(jìn)行打分。通過判斷評(píng)分的正負(fù)判斷情感傾向。若得分為正，則認(rèn)為該文檔具有正面的情感傾向；若得分為負(fù)，則認(rèn)為該文檔具有負(fù)面的情感傾向。

對(duì)文本分詞后的列表按照每一篇文章分詞后的詞的個(gè)數(shù)加上標(biāo)簽，然后將文本和詞典進(jìn)行匹配，最后利用aggregate()函數(shù)，根據(jù)標(biāo)簽將情感得分進(jìn)行匯總。得分結(jié)果如圖2所示。

圖2 情緒得分

由圖2可知，積極情緒的比例大于消極情緒的比例，這說明近半年股票市場(chǎng)的情緒還是以積極為主的，并將市場(chǎng)情緒量化成情緒得分。

3 VAR模型的建立

3.1 分析總體框架

在對(duì)投資者情緒及股票收益關(guān)系進(jìn)行分析時(shí)，利用已經(jīng)爬取的4 000多條數(shù)據(jù)進(jìn)行分析。由于上證綜指指數(shù)是大盤指數(shù)的重要組成成分之一，因此選取的研究對(duì)象為計(jì)算出的情緒得分及上證綜指的收益率。為了對(duì)二者關(guān)系進(jìn)行研究，采用了VAR模型及其相關(guān)檢驗(yàn)來進(jìn)行分析[8]。

1)對(duì)投資者情緒與股票收益變動(dòng)的因果關(guān)系進(jìn)行檢驗(yàn)。由于兩個(gè)變量都為時(shí)間序列數(shù)據(jù)，VAR模型成立的前提條件為序列平穩(wěn)，因此對(duì)該變量進(jìn)行ADF單位根平穩(wěn)性檢驗(yàn)。當(dāng)兩個(gè)變量序列都平穩(wěn)時(shí)，對(duì)其構(gòu)建VAR模型(向量自回歸模型)，并在模型顯著的基礎(chǔ)上進(jìn)行格蘭杰因果檢驗(yàn)。從而得到投資者情緒與上證指數(shù)的關(guān)系，判斷出二者的因果關(guān)系。

2)探究模型對(duì)股票走勢(shì)的預(yù)測(cè)效果。依據(jù)已知的數(shù)據(jù)分別構(gòu)建VAR和BP神經(jīng)網(wǎng)絡(luò)模型，并利用構(gòu)建出的投資者情緒與股票走勢(shì)關(guān)系模型對(duì)股票的變動(dòng)進(jìn)行預(yù)測(cè)，探究模型的預(yù)測(cè)效果。當(dāng)模型預(yù)測(cè)效果不好時(shí)，選擇更優(yōu)的模型對(duì)股票走勢(shì)進(jìn)行預(yù)測(cè)。

如圖3所示，上證綜合指數(shù)收盤價(jià)的波動(dòng)劇烈，初步看收盤價(jià)序列不平穩(wěn)，但仍應(yīng)當(dāng)進(jìn)行單位根檢驗(yàn)判斷序列的平穩(wěn)性。

圖3 上證指數(shù)收盤價(jià)波動(dòng)圖

3.2 對(duì)二者因果關(guān)系進(jìn)行檢驗(yàn)

由于VAR模型的前提是數(shù)據(jù)變量平穩(wěn)，因此先對(duì)投資者情緒得分(E)和上證綜指指數(shù)(S)進(jìn)行單位根檢驗(yàn)。由于fUnitRoots包無法安裝，所以利用R中的“urca”包對(duì)變量進(jìn)行單位根檢驗(yàn)。對(duì)上證綜指指數(shù)差分定義為DS，對(duì)情緒得分差分定義為DE對(duì)差分后的變量進(jìn)行檢驗(yàn)，結(jié)果如表4所示。

表4 ADF檢驗(yàn)

在保證單位根平穩(wěn)的情況下，構(gòu)建VAR模型，以DS為因變量，DE為自變量來構(gòu)建。依據(jù)VAR模型滯后表判斷階數(shù)，如表5所示。

表5 VAR模型滯后階數(shù)判斷

由表5可以發(fā)現(xiàn)，當(dāng)階數(shù)為2時(shí)AIC取值較小，此時(shí)其他準(zhǔn)則取值也較小，因此選擇滯后期為2的VAR模型，如表6所示。

表6 VAR模型結(jié)果

所以，上證綜指收益率的變動(dòng)(DS)可以用其自身的滯后期及情緒得分的滯后期解釋?？梢园l(fā)現(xiàn)上證指數(shù)收益率的變動(dòng)受過去滯后一期的情緒得分影響最大。隨著時(shí)間的推移，情緒對(duì)股票走勢(shì)的滯后效果逐漸減弱。

由于VAR模型顯著，因此對(duì)其進(jìn)行格蘭杰因果檢驗(yàn)。格蘭杰因果檢驗(yàn)的實(shí)質(zhì)如下。

用公式表示為

(1)

(2)

當(dāng)原假設(shè)和備擇假設(shè)為情況1時(shí)，格蘭杰因果檢驗(yàn)的公式如式(1)所示；反之，如式(2)所示。格蘭杰檢驗(yàn)結(jié)果如表7所示。

表7 格蘭杰檢驗(yàn)結(jié)果

由圖可以判斷出市場(chǎng)情緒和股票收益率互為格蘭杰原因。此外對(duì)殘差進(jìn)行檢驗(yàn)，發(fā)現(xiàn)殘差此時(shí)協(xié)整，F(xiàn)值達(dá)到206.6，P值遠(yuǎn)遠(yuǎn)小于0.05.因此，可以認(rèn)為投資者情緒得分是上證綜指變動(dòng)的格蘭杰原因。

4 模型的選擇及預(yù)測(cè)

4.1 VAR模型預(yù)測(cè)

在構(gòu)建出VAR模型后，利用該模型對(duì)上證綜指的收盤價(jià)進(jìn)行預(yù)測(cè)。通過對(duì)預(yù)測(cè)結(jié)果的分析，能發(fā)現(xiàn)VAR模型的預(yù)測(cè)誤差較大，不能很好地對(duì)上證綜指收盤價(jià)進(jìn)行預(yù)測(cè)，如表8所示。

表8 預(yù)測(cè)4天收益率結(jié)果

由表8所示，在置信度為95%的水平下4天收益率的預(yù)測(cè)值相差不大，收益率的置信區(qū)間較大，導(dǎo)致精度不夠，因此認(rèn)為 VAR模型對(duì)收益率的預(yù)測(cè)不夠精確，具有較大的誤差。為了對(duì)股票的走勢(shì)進(jìn)行較為準(zhǔn)確預(yù)測(cè)，通過參考文獻(xiàn)對(duì)眾多預(yù)測(cè)模型的比較找出較為準(zhǔn)確的預(yù)測(cè)模型——BP神經(jīng)網(wǎng)絡(luò)模型。

4.2 BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)

4.2.1 BP神經(jīng)網(wǎng)絡(luò)原理[9]

BP 神經(jīng)網(wǎng)絡(luò)屬于多層感知器(multilayer perceptrons，MLP)的一種，用于解決預(yù)測(cè)中的線性不可分問題。神經(jīng)網(wǎng)絡(luò)是一種類似于黑匣子的模型，除了輸入層和輸出層外，還包括若干隱含層。也就是說，一個(gè)神經(jīng)網(wǎng)絡(luò)模型有三層及三層以上的神經(jīng)元。其中，全連接層BP神經(jīng)網(wǎng)絡(luò)相鄰的上下層之間的神經(jīng)元實(shí)現(xiàn)全連接，但是同一層神經(jīng)元之間并無任何聯(lián)系。其中，輸入層與隱含層神經(jīng)元之間依據(jù)網(wǎng)絡(luò)的權(quán)值來進(jìn)行聯(lián)系，即兩個(gè)神經(jīng)元之間的連接強(qiáng)度[10]。輸入層將數(shù)據(jù)中包含的信息傳入隱藏層中，隱含層則將前一層所有神經(jīng)元傳來的信息進(jìn)行整合繼續(xù)向下傳遞，直到傳遞到輸出層。

4.2.2 模型建立

4.2.2.1 網(wǎng)絡(luò)層數(shù)的確定

盡管增加網(wǎng)絡(luò)層數(shù)可以起到降低誤差的效果，但同時(shí)也使神經(jīng)網(wǎng)絡(luò)復(fù)雜化，從而增加了網(wǎng)絡(luò)權(quán)值的訓(xùn)練時(shí)間。而誤差精度的提高其實(shí)也可以通過增加隱藏層中的神經(jīng)元數(shù)目來獲得，并且其訓(xùn)練效果比增加網(wǎng)絡(luò)層數(shù)更佳。同時(shí)，由Kosmogorov 定理可知，在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)合理以及神經(jīng)節(jié)點(diǎn)權(quán)值取值恰當(dāng)?shù)臈l件下，三層神經(jīng)網(wǎng)絡(luò)可以逼近任何連續(xù)函數(shù)。因此，基于上述分析，將隱藏層的個(gè)數(shù)設(shè)為1，也就是構(gòu)建三層神經(jīng)網(wǎng)絡(luò)。

4.2.2.2 輸入層神經(jīng)節(jié)點(diǎn)的設(shè)計(jì)

本文是基于市場(chǎng)情緒指數(shù)和上證指數(shù)往期數(shù)據(jù)對(duì)上證綜合指數(shù)進(jìn)行預(yù)測(cè)?？紤]到中國(guó)股票市場(chǎng)的實(shí)際情況，一周的交易天數(shù)為5天，上證綜指的滯后期選擇四期較為合適。因此，將輸入層神經(jīng)節(jié)點(diǎn)數(shù)目設(shè)置為6。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表9所示。

表9 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

模型1：yt=NN(yt-1，yt-2，yt-3，yt-4)

(3)

(4)

式中：yt為t時(shí)期上證指數(shù)的收盤價(jià)；xt為t時(shí)期市場(chǎng)情緒指數(shù)；yt-i為從t時(shí)期起滯后i期的收盤價(jià)，i=1,2,3,4,即t-i時(shí)期的收盤價(jià)；xt-i為從t時(shí)期起滯后i期的市場(chǎng)緒指數(shù)，i=1，2，即t-i時(shí)期的情緒指數(shù)。

4.2.3 模型擬合

4.2.3.1 只基于上證指數(shù)的BP神經(jīng)網(wǎng)絡(luò)模型

運(yùn)用R軟件對(duì)2017年1月3日到2017年6月11日的104個(gè)數(shù)據(jù)進(jìn)行處理，作為馴良樣本，再用接下來的4個(gè)數(shù)據(jù)作為模型的預(yù)測(cè)集，用前4期的數(shù)據(jù)對(duì)下一期做預(yù)測(cè)，本文主要對(duì)收盤價(jià)進(jìn)行了預(yù)測(cè)，圖4為實(shí)際數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)之間的擬合，其中紅色表示實(shí)際的收盤價(jià)，藍(lán)色表示預(yù)測(cè)的收盤價(jià)。模型的擬合優(yōu)度為96.62%，擬合結(jié)果較為理想，同時(shí)，均方誤差為166.662 2，可見整體的偏差也不是很大，說明了神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的有效性。同時(shí)，可以看出整個(gè)2017年上半年中，上證指數(shù)呈先緩慢上升再下降的趨勢(shì)。

圖4 沒加入情感得分的模型擬合

4.2.3.2 加入情感得分的BP神經(jīng)網(wǎng)絡(luò)模型

基于前文的分析研究，考慮將情感得分加入模型，作為一個(gè)新的輸入變量，依舊基于收盤價(jià)進(jìn)行預(yù)測(cè)，將最后得出的結(jié)果先與實(shí)際值做對(duì)比，看模型是否可行，再與未加入情感得分的BP神將網(wǎng)絡(luò)模型做對(duì)比，看情感得分是否在能夠提高預(yù)測(cè)的精度。模型擬合的結(jié)果如圖5所示。MSE值約為80，模型擬合良好。

基于本文所建立的BP神經(jīng)網(wǎng)絡(luò)模型，對(duì)接下來的4期數(shù)據(jù)做預(yù)測(cè)，并與實(shí)際結(jié)果進(jìn)行對(duì)比，預(yù)測(cè)結(jié)果如表10所示。

圖5 加入情感得分后的模型擬合

表10 BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)效果

表10說明BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)效果極佳。

由于時(shí)間有限，獲得情感得分?jǐn)?shù)據(jù)較少，只有6個(gè)月的時(shí)間，導(dǎo)致BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集數(shù)據(jù)較少，神經(jīng)網(wǎng)絡(luò)的結(jié)果還不是很理想。所以，針對(duì)這些問題提出了進(jìn)一步優(yōu)化，主要有以下 3點(diǎn)：

1)需要增大樣本量，獲得更長(zhǎng)時(shí)間且精度更高的情感得分?jǐn)?shù)據(jù)，只對(duì)新浪財(cái)經(jīng)上的股評(píng)進(jìn)行了爬取，在接下來的工作中，可以根據(jù)相關(guān)指標(biāo)選取更多的股票評(píng)論網(wǎng)站，綜合多方面的意見爬取數(shù)據(jù)，同時(shí)，在分詞時(shí)，可以結(jié)合句法及樸素貝葉斯對(duì)文本數(shù)據(jù)進(jìn)行分詞以及計(jì)算情感得分的數(shù)據(jù)清洗工作，從數(shù)據(jù)來源上進(jìn)行改進(jìn)，

2)本文在構(gòu)建BP神經(jīng)網(wǎng)絡(luò)時(shí)選取的是上證綜合指數(shù)得到收盤價(jià)，收盤價(jià)只是股票價(jià)格變動(dòng)的一個(gè)側(cè)面，可以考慮將上證綜合指數(shù)的成交量、交易金額、市盈率等加入模型中，從多方面來探究股評(píng)的情感趨勢(shì)對(duì)大盤變動(dòng)的影響。

3)本文在構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型的過程中，采取的算法比較簡(jiǎn)單，同時(shí)神經(jīng)網(wǎng)絡(luò)模型本身也有限制，可以考慮在今后的工作中采取更為有效的算法來提高預(yù)測(cè)的精度，并將BP神經(jīng)網(wǎng)絡(luò)和其他算法如支持向量機(jī)等結(jié)合起來構(gòu)建預(yù)測(cè)精度更高的模型。

5 結(jié)論

利用多種分析與處理方法，構(gòu)建了VAR和BP神經(jīng)網(wǎng)絡(luò)模型，通過這兩個(gè)模型來探究市場(chǎng)投資者情緒與上證綜指指數(shù)的關(guān)系，并比較了兩種模型的預(yù)測(cè)效果。在對(duì)模型的比較中，發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)方面具有其他模型無法比擬的優(yōu)勢(shì)，不用建立復(fù)雜的數(shù)學(xué)模型，具有很強(qiáng)的自適應(yīng)、自學(xué)習(xí)能力，所以BP神經(jīng)網(wǎng)絡(luò)模型在股票預(yù)測(cè)方面更為準(zhǔn)確合理。