張程 周恬恬
摘 ?要: 股市走勢(shì)預(yù)測(cè)是金融學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多學(xué)科交叉研究的熱點(diǎn)學(xué)術(shù)問(wèn)題。股市走勢(shì)并不完全由自身內(nèi)在規(guī)律決定,也會(huì)受到投資者的關(guān)注度的影響。本文研究了投資者關(guān)注與上海證券綜合指數(shù)之間的波動(dòng)效應(yīng),提出了一種基于百度指數(shù)并結(jié)合隨機(jī)森林模型的上證指數(shù)走勢(shì)預(yù)測(cè)方法?;谝延械某跏妓阉麝P(guān)鍵詞詞庫(kù)在百度指數(shù)網(wǎng)站獲取相應(yīng)的關(guān)鍵詞的百度指數(shù),通過(guò)時(shí)差相關(guān)分析法篩選出具有預(yù)測(cè)意義的關(guān)鍵詞,將篩選后的關(guān)鍵詞的百度指數(shù)數(shù)據(jù)和上證指數(shù)的相關(guān)屬性數(shù)據(jù)作為預(yù)測(cè)模型的輸入數(shù)據(jù),通過(guò)隨機(jī)森林建立預(yù)測(cè)模型并實(shí)現(xiàn)對(duì)上證指數(shù)的預(yù)測(cè)。對(duì)比實(shí)驗(yàn)證明引入百度指數(shù)后的預(yù)測(cè)模型比傳統(tǒng)的預(yù)測(cè)模型具有更高的準(zhǔn)確率。
關(guān)鍵詞: 上證指數(shù)預(yù)測(cè);百度指數(shù);隨機(jī)森林;時(shí)差相關(guān)分析法
中圖分類號(hào): TP391 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.012
本文著錄格式:張程,周恬恬. 基于百度指數(shù)和隨機(jī)森林的上證綜指預(yù)測(cè)[J]. 軟件,2020,41(06):5662
【Abstract】: Stock market trend forecast is a hot academic issue that has attracted many researchers and participants in multiple disciplines such as economics, statistics, and machine learning. Stock market trend is not entirely determined by its own internal laws, and it will also be affected by the investors' attention. This paper studies the ripple effect between investors' attention and the Shanghai Composite Index, and proposes a Shanghai Composite Index forecast method based on the Baidu Index and random forest. Firstly, obtain the corresponding Baidu index of the existing initial search keyword thesaurus based on the Baidu Index website, and then screen the keyword with predictive significance by the method of time difference correlation analysis. Finally, use the keywords Baidu index and the relevant attribute data of the Shanghai Composite Index as input of forecast model that based on random forest to realize Shanghai Composite Index forecasting. The experiment results show that the proposed forecasting method has higher accuracy than the traditional method.
【Key words】: Shanghai composite index forecast; Baidu index; Random forest; Time difference correlation analysis
0 ?引言
時(shí)間序列預(yù)測(cè)、灰色模型和機(jī)器學(xué)習(xí)是常用的股市預(yù)測(cè)方法。時(shí)間序列預(yù)測(cè)是通過(guò)分析股票價(jià)格的過(guò)去收益來(lái)預(yù)測(cè)未來(lái)股價(jià)(Michel Ballings 2015)[1]。傳統(tǒng)的灰色模型數(shù)學(xué)雖然容易理解且計(jì)算簡(jiǎn)單。但是,其原始模型的線性特性導(dǎo)致無(wú)法預(yù)測(cè)本質(zhì)為非線性的急劇變化的數(shù)據(jù)(Chun-I Chen a2010)[2]。Bruno Miranda Henrique使用了支持向量機(jī)(Bruno Miranda Henrique 2018)[3],Yi Zuo使用貝葉斯網(wǎng)絡(luò)(Zuo Y 2012)[4],Leonel A.Laboissiere基于人工神經(jīng)網(wǎng)絡(luò)進(jìn)行最高和最低股價(jià)預(yù)測(cè)研究(Laboissiere L A 2015)[5]。Hsu M W證實(shí)了最好的機(jī)器學(xué)習(xí)方法比最好的計(jì)量經(jīng)濟(jì)學(xué)方法產(chǎn)生更準(zhǔn)確的預(yù)測(cè)(Hsu M W 2016)[6]。
事實(shí)上,這些預(yù)測(cè)方法可能使用著相似的技術(shù)指標(biāo),隨著時(shí)間的變化,這些技術(shù)指標(biāo)的收益率將會(huì)有較為明顯的下降。此外,行為金融理論表明,股價(jià)不僅受歷史數(shù)據(jù)的影響,同時(shí)受投資者情緒的影響。在股票價(jià)格預(yù)測(cè)中,研究者開始考慮投資者情緒(Barberis等人,1998)[7]。如何獲取投資者的情緒呢?隨著越來(lái)越多的股票市場(chǎng)的投資者通過(guò)搜索引擎獲取股市相關(guān)的信息。搜索引擎記錄的用戶行為成為研究者研究投資者情緒的重要數(shù)據(jù)來(lái)源。2006年,Google公開發(fā)布了任意搜索關(guān)鍵詞的查詢數(shù)據(jù),引起了學(xué)術(shù)界和企業(yè)界的關(guān)注。Google數(shù)據(jù)尤其適用于2008-2009年“全球衰退”之后的預(yù)測(cè)者,這次“全球衰退”帶來(lái)了宏觀經(jīng)濟(jì)動(dòng)蕩,(巨大的)不確定性。紐帶和獨(dú)特的沖擊使得傳統(tǒng)的歷史數(shù)據(jù)通常以滯后的方式發(fā)布,以反映經(jīng)濟(jì)中正在進(jìn)行的結(jié)構(gòu)性變化(Bangwayo-Skeete P F,2015)[8]。Google的搜索數(shù)據(jù)能夠領(lǐng)先反映這種結(jié)構(gòu)性變化,因此在流行病學(xué)(Ginsberg J,2009)[9]、失業(yè)(Askitas N,2009)[10]和私人消費(fèi)(Vosen S,2011)[11]以及汽車購(gòu)買(Yan Carrière㏒wallow,2013)[12]等方面的預(yù)測(cè)研究中都顯得尤為重要。Bijl L等人也開始調(diào)查谷歌搜索量數(shù)據(jù)和股票收益預(yù)測(cè)的關(guān)系(Bijl L,2016)[13]。
百度指數(shù)與谷歌趨勢(shì)相類似,是以百度網(wǎng)頁(yè)搜索和百度新聞搜索為基礎(chǔ)的免費(fèi)海量數(shù)據(jù)分析服務(wù), 用以反映關(guān)鍵詞在過(guò)去一段時(shí)間里的“用戶關(guān)注度”和“媒體關(guān)注度”。通過(guò)百度指數(shù)可以發(fā)現(xiàn)、共享和挖掘互聯(lián)網(wǎng)上最有價(jià)值的信息和資訊,直接、客觀地反映社會(huì)熱點(diǎn)、網(wǎng)民的興趣和需求。百度于2006年正式推出百度指數(shù)的數(shù)據(jù)分析功能模塊?;诎俣戎笖?shù)的股票搜索數(shù)據(jù)蘊(yùn)含了我國(guó)股民的興趣與關(guān)注,對(duì)推斷我國(guó)投資者情緒具有良好的信息參考價(jià)值。孟雪井等發(fā)現(xiàn)我國(guó)股票市場(chǎng)的投資者情緒與市場(chǎng)指數(shù)之間存在聯(lián)動(dòng)機(jī)制(孟雪井,2016)[14]??娊苁褂冒俣戎笖?shù)對(duì) A 股 148 家公司進(jìn)行分析,王京晶使用百度指數(shù)對(duì)深圳個(gè)股進(jìn)行回歸分析,他們都證實(shí)了投資者關(guān)注度與股票市場(chǎng)存在相關(guān)性(繆杰(2014)[15],王京晶(2012)[16])。
總體來(lái)看,當(dāng)前以百度指數(shù)為衡量指標(biāo)的文獻(xiàn),主要集中在投資者關(guān)注與股票市場(chǎng)流動(dòng)性、波動(dòng)性、收益率、市場(chǎng)表現(xiàn)及個(gè)股與市場(chǎng)整體之間的關(guān)系上。然而,百度指數(shù)對(duì)于股票指數(shù)影響的國(guó)內(nèi)外文獻(xiàn)都非常少,而百度指數(shù)與股票指數(shù)之間的研究具有不可替代性。本文以百度指數(shù)作為投資者關(guān)注的衡量指標(biāo),結(jié)合隨機(jī)森林模型,以上海證券綜合指數(shù)預(yù)測(cè)為背景,研究了投資者關(guān)注與上海證券綜合指數(shù)之間的波動(dòng)效應(yīng)。實(shí)驗(yàn)數(shù)據(jù)表明,本方法在上證指數(shù)T+1日預(yù)測(cè)上具有較好的效果。
1 ?論文數(shù)據(jù)概述
1.1 ?上海證券綜合指數(shù)
上海證券綜合指數(shù)簡(jiǎn)稱“上證指數(shù)”或“上證綜指”,其樣本股是在上海證券交易所全部上市股票,包括A股和B股,綜合反映了上海證券交易所上市股票價(jià)格的變動(dòng)情況,自1991年7月15日起正式發(fā)布。上證指數(shù)系列均以“點(diǎn)”為單位。本研究選取的上證指數(shù)的相關(guān)屬性為最高點(diǎn),最低點(diǎn),開盤,收盤,漲跌額,漲跌幅,成交量,成交額數(shù)據(jù),屬性說(shuō)明如表1所示(孫文存,2012)[17]。
1.2 ?百度指數(shù)描述
百度指數(shù)基于百度海量數(shù)據(jù),一方面進(jìn)行關(guān)鍵詞搜索熱度分析,另一方面深度挖掘輿情信息、市場(chǎng)需求、用戶特征等多方面的數(shù)據(jù)特征。百度指數(shù)每天更新,并且提供自2006年6月至今任意時(shí)間段的PC端和移動(dòng)端搜索指數(shù),2011年1月至今的移動(dòng)端無(wú)線搜索指數(shù)。百度指數(shù)反映網(wǎng)民的主動(dòng)搜索需求,所有影響網(wǎng)民搜索行為的活動(dòng)都可能影響百度指數(shù)。搜索指數(shù)是以網(wǎng)民在百度的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計(jì)對(duì)象,科學(xué)分析并計(jì)算出各個(gè)關(guān)鍵詞在百度網(wǎng)頁(yè)搜索中搜索頻次的加權(quán)和。
2 ?基于隨機(jī)森林的股指預(yù)測(cè)方法
2.1 ?預(yù)測(cè)流程
本論文的研究流程如圖1所示:首先是數(shù)據(jù)獲取部分,主要獲取兩個(gè)部分的數(shù)據(jù):股票指數(shù)每日的屬性數(shù)據(jù)、搜索關(guān)鍵字對(duì)應(yīng)的百度指數(shù)每日數(shù)據(jù)。
然后進(jìn)行數(shù)據(jù)處理和特征約簡(jiǎn)。數(shù)據(jù)處理的工作主要是為了使上證指數(shù)的數(shù)據(jù)和關(guān)鍵詞的百度指數(shù)數(shù)據(jù)對(duì)應(yīng)。搜索關(guān)鍵詞的百度指數(shù)數(shù)據(jù)每天產(chǎn)生,而上證指數(shù)在周末和節(jié)假日期間會(huì)出現(xiàn)休市,即沒有對(duì)應(yīng)的股市相關(guān)的數(shù)據(jù),因此需要經(jīng)過(guò)數(shù)據(jù)處理對(duì)齊兩類數(shù)據(jù)。此外,不同關(guān)鍵詞和上證指數(shù)走勢(shì)的相關(guān)性不同,且關(guān)鍵詞跟上證指數(shù)走勢(shì)呈現(xiàn)出領(lǐng)先、同步及滯后三種關(guān)系,只有與上證指數(shù)走勢(shì)具有強(qiáng)相關(guān)性的領(lǐng)先關(guān)鍵詞對(duì)預(yù)測(cè)有意義。所以,本文使用時(shí)差相關(guān)分析法從初始關(guān)鍵詞庫(kù)中選取對(duì)預(yù)測(cè)有意義的關(guān)鍵詞,不僅能提高預(yù)測(cè)精度,還能實(shí)現(xiàn)對(duì)特征向量的精簡(jiǎn)和定義。
最后是進(jìn)行模型訓(xùn)練和模型評(píng)估。使用篩選后的關(guān)鍵詞的百度指數(shù)數(shù)據(jù),和結(jié)合對(duì)應(yīng)的上證指數(shù)相關(guān)屬性數(shù)據(jù),建立加權(quán)樹并通過(guò)隨機(jī)森林模型進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)了基于隨機(jī)森林的上證指數(shù)預(yù)測(cè)。
2.2 ?數(shù)據(jù)特征提取
2.2.1 ?搜索關(guān)鍵詞
本文在構(gòu)建搜索關(guān)鍵詞時(shí)選取了孟雪井等人[14]在《基于文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究》研究中整理出的與上證指數(shù)相關(guān)的關(guān)鍵詞詞庫(kù),選取其中的55個(gè)關(guān)鍵詞,構(gòu)成初始關(guān)鍵詞庫(kù),如表2所示。
2.2.2 ?搜索關(guān)鍵詞的百度指數(shù)
打開百度指數(shù)(http://index.baidu.com/)的網(wǎng)頁(yè),在趨勢(shì)研究搜索欄中輸入待查詢的關(guān)鍵詞,輸入后點(diǎn)擊查詢,能夠得到該關(guān)鍵詞的百度指數(shù)信息,該信息即關(guān)鍵詞當(dāng)日在百度瀏覽器上被搜索的次數(shù)。本文針對(duì)表2中提及的55個(gè)初始關(guān)鍵詞,提取了其從2015年1月5日到到2018年7月26日期間每個(gè)關(guān)鍵詞每天對(duì)應(yīng)的百度指數(shù)數(shù)據(jù)。表3是部分搜索關(guān)鍵字在2017.1.9(周一)-2017.1.15(周日)一周內(nèi)的百度指數(shù)數(shù)據(jù)示例。
由表3可知,“今日大盤”這個(gè)關(guān)鍵詞在周一的搜索量為1413次,其他四個(gè)工作日分別為1342次,1310次,1478次,1423次。在周六周日只有314次和253次。
2.2.3 ?搜索關(guān)鍵詞篩選
使用時(shí)差相關(guān)分析法計(jì)算得到搜索關(guān)鍵詞的百度指數(shù)和大盤指數(shù)的之間的時(shí)滯階數(shù),同時(shí)找出對(duì)股市走勢(shì)預(yù)測(cè)有意義的有強(qiáng)相關(guān)性的搜索關(guān)鍵詞。根據(jù)不同關(guān)鍵詞的不同時(shí)差關(guān)系,可以將關(guān)鍵詞分為三類:先行關(guān)鍵詞,即趨勢(shì)領(lǐng)先于上證指數(shù)走勢(shì)的關(guān)鍵詞;一致關(guān)鍵詞,即趨勢(shì)與上證指數(shù)基本保持一致的關(guān)鍵詞;滯后關(guān)鍵詞,即滯后于上證指數(shù)趨勢(shì)的關(guān)鍵詞。通過(guò)選取其中的先行關(guān)鍵詞,可以降低在預(yù)測(cè)算法中的參數(shù)量,提高預(yù)測(cè)效率和準(zhǔn)確性。
搜索關(guān)鍵詞篩選算法如下:
Step1:確定基準(zhǔn)指標(biāo)序列。通常選取能夠綜合反映出當(dāng)前的經(jīng)濟(jì)活動(dòng)的時(shí)間序列指標(biāo)作為基準(zhǔn)指標(biāo),本實(shí)驗(yàn)中選取上證指數(shù)的收盤數(shù)據(jù)作為基準(zhǔn)指標(biāo)序列。
Step2:根據(jù)時(shí)差相關(guān)分析法的計(jì)算公式計(jì)算被選擇的分析指標(biāo)序列和基準(zhǔn)指標(biāo)序列的時(shí)差相關(guān)系數(shù)和時(shí)滯性階數(shù)。本實(shí)驗(yàn)中分析指標(biāo)序列是初始關(guān)鍵詞詞庫(kù)中55個(gè)關(guān)鍵詞的百度指數(shù)數(shù)據(jù)。
Step3:根據(jù)時(shí)差相關(guān)分析法的計(jì)算結(jié)果,篩選出時(shí)滯性階數(shù)小于0,相關(guān)系數(shù)大于0.5的關(guān)鍵詞,即為與上證指數(shù)走勢(shì)具有強(qiáng)相關(guān)性的領(lǐng)先關(guān)鍵詞。
時(shí)差相關(guān)系數(shù)的計(jì)算公式如下:
式中,時(shí)間序列x關(guān)鍵字的百度指數(shù)數(shù)據(jù)序列,時(shí)間序列y為上證指數(shù)的收盤數(shù)據(jù),r 為時(shí)差相關(guān)系數(shù),l 為時(shí)滯性階數(shù),取值在[-L,+L]區(qū)間上,l 取負(fù)數(shù)時(shí)表示超前,取正數(shù)時(shí)表示滯后。L 是最大延遲數(shù)。L的取值可以根據(jù)實(shí)驗(yàn)設(shè)定,計(jì)算出不同時(shí)滯性階數(shù)下對(duì)應(yīng)的時(shí)差相關(guān)系數(shù)值,選取時(shí)差相關(guān)系數(shù)最大時(shí)的時(shí)滯性階數(shù)作為最終結(jié)果。
以關(guān)鍵詞“主力”為例計(jì)算時(shí)滯性階數(shù)和相關(guān)系數(shù),基準(zhǔn)指標(biāo)為上證指數(shù)數(shù)據(jù),分析指標(biāo)為“主力”對(duì)應(yīng)的百度指數(shù)數(shù)據(jù),最大延遲數(shù)L設(shè)定為2,計(jì)算結(jié)果如下。
在時(shí)滯性階數(shù)為–1時(shí),相關(guān)系數(shù)的值最大,所以關(guān)鍵詞的“主力”時(shí)滯性階數(shù)為–1,即領(lǐng)先一天。
同樣對(duì)初始關(guān)鍵詞詞庫(kù)的關(guān)鍵詞計(jì)算時(shí)滯性階數(shù)和最大相關(guān)系數(shù)如表5所示。
其中,時(shí)滯性階數(shù)為負(fù)數(shù)的代表該關(guān)鍵詞為領(lǐng)先關(guān)鍵詞,選出時(shí)滯性階數(shù)為負(fù)數(shù)且相關(guān)系數(shù)大于0.5的關(guān)鍵詞,即領(lǐng)先且具有強(qiáng)相關(guān)性的關(guān)鍵詞作為最終使用的關(guān)鍵詞如表6所示。
2.3 ?隨機(jī)森林模型
隨機(jī)森林(RF)是一種組合分類器,它利用 bootstrap 重抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè) bootstrap 樣本進(jìn)行決策樹建模,然后將這些決策樹組合在一起,通過(guò)組合方法得出最終預(yù)測(cè)的結(jié)果(曹正鳳,2014)[18]。隨機(jī)森林的數(shù)學(xué)定義如下:
設(shè)一系列決策樹 ?…… 構(gòu)成的隨機(jī)森林,X 為樣本的特征屬性, H(x)表示組合分類模型,I為指示函數(shù)。隨機(jī)森林結(jié)果如下:
回歸預(yù)測(cè)的組合方法是以所有決策樹的結(jié)果的加和平均值為最終結(jié)果作為輸出的。
本算法使用隨機(jī)森林模型進(jìn)行回歸預(yù)測(cè),預(yù)測(cè)大盤指數(shù)次日收盤價(jià)。其具體構(gòu)建流程如下:
Step1: 選取訓(xùn)練集。把原始樣本集分為原始訓(xùn)練集(M個(gè)樣本)和原始測(cè)試集,通過(guò)Bootstrap 方法有放回的隨機(jī)抽取 N個(gè)自助樣本集(即N個(gè)決策樹),每個(gè)樣本集的樣本數(shù)量與原始訓(xùn)練集的樣本數(shù)量相等都為M。
Step2: 生成決策樹。N個(gè)決策樹使用自己的M個(gè)樣本進(jìn)行獨(dú)立訓(xùn)練,每顆決策樹隨機(jī)選擇K(K<=總特征數(shù))個(gè)特征進(jìn)行分裂,訓(xùn)練完成后的N個(gè)決策樹組合成為隨機(jī)森林。在分類預(yù)測(cè)時(shí),每顆訓(xùn)練完成的決策樹收到輸入測(cè)試數(shù)據(jù)獨(dú)立完成漲跌預(yù)測(cè)。在回歸預(yù)測(cè)時(shí),每顆訓(xùn)練完成的決策樹收到輸入測(cè)試數(shù)據(jù)獨(dú)立完成次日收盤價(jià)價(jià)格預(yù)測(cè)。
Step3: 決策樹結(jié)果組合決策。對(duì)所有決策樹結(jié)果求平均值為最終輸出結(jié)果。
3 ?實(shí)驗(yàn)
3.1 ?實(shí)驗(yàn)環(huán)境及數(shù)據(jù)描述
本文實(shí)驗(yàn)輸入數(shù)據(jù)包括從2015年1月5日到2018年7月26日的股指數(shù)據(jù)(屬性分類見表1)和篩選后的13個(gè)搜索關(guān)鍵詞(見表6)的2015年1月5日到2018年7月26日的百度指數(shù)數(shù)據(jù)。除去股市休市時(shí)缺失的數(shù)據(jù),本文樣本數(shù)據(jù)集共870條,選取其中從2015年1月5號(hào)到2018年5月2號(hào)的共810條數(shù)據(jù)作為原始訓(xùn)練集,剩余從2018年5月3號(hào)到2018年7月26號(hào)共60條數(shù)據(jù)作為測(cè)試集。
另外,使用無(wú)搜索關(guān)鍵詞的百度指數(shù)的輸入數(shù)據(jù)作為對(duì)比實(shí)驗(yàn),即對(duì)比實(shí)驗(yàn)為僅含有從2015年1月5日到到2018年7月26日的股指數(shù)據(jù)(屬性分類見表1)作為隨機(jī)森林模型的輸入。實(shí)驗(yàn)結(jié)果對(duì)比分析見下圖2和圖3。
設(shè)置bootstrap=true,代表Bootstrap采樣過(guò)程是有放回的進(jìn)行的,max_features=0.5,決策樹分裂時(shí)選取int(總特征值*0.5)=int(21*0.5)=10,n_estimators=400,即隨機(jī)森林中的決策樹個(gè)數(shù)為400。
3.2 ?評(píng)價(jià)指標(biāo)
均方根誤差(Root Mean Squared Error,RMSE),均方根誤差能夠準(zhǔn)確的反映出預(yù)測(cè)值和實(shí)際狀況之間的差距,是對(duì)平均的預(yù)測(cè)誤差值做開方處理的結(jié)果,在實(shí)際分析過(guò)程中常常使用 RMSE 來(lái)對(duì)模型的預(yù)測(cè)誤差進(jìn)行分析,計(jì)算公式如下(其中,n為預(yù)測(cè)次數(shù), 為預(yù)測(cè)值, 為真實(shí)值):
平均絕對(duì)百分誤差(Mean Absolute Percentage, MAPE),主要反映預(yù)測(cè)值和真實(shí)值的偏差,計(jì)算公式如下:
MAPE的值越小,說(shuō)明預(yù)測(cè)模型擁有更好的精度。
決定系數(shù) ,也稱為擬合優(yōu)度,即回歸擬合的曲線的擬合優(yōu)度,表征回歸方程在多大程度上解釋了因變量的變化。該值的變化區(qū)間在[0,1]上,該值越大模型越好。
解釋方差回歸得分(explained_variance_score),解釋回歸模型的方差得分,其值取值范圍是[0,1],越接近于1說(shuō)明自變量越能解釋因變量的方差變化,值越大則說(shuō)明效果越好。
3.3 ?實(shí)驗(yàn)結(jié)果分析
各項(xiàng)指標(biāo)結(jié)果如下表7。
本次實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)的預(yù)測(cè)結(jié)果與實(shí)際值的對(duì)比散點(diǎn)圖分別對(duì)應(yīng)如下圖2和圖3。
橫坐標(biāo)是從1到60的自然數(shù),代表從2018年5月3號(hào)到2018年7月27號(hào)的日期,縱坐標(biāo)表示大盤指數(shù)收盤值,藍(lán)色的散點(diǎn)為模型預(yù)測(cè)結(jié)果,黃色的散點(diǎn)為實(shí)際值。圖2為包含搜索指數(shù)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果,圖3為不包含百度指數(shù)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果。由圖可知,在加入百度指數(shù)后預(yù)測(cè)值走勢(shì)與真實(shí)值的走勢(shì)更為接近,比如在橫坐標(biāo)為50的數(shù)據(jù)附近,真實(shí)值是一直呈下跌趨勢(shì),加入百度指數(shù)后的預(yù)測(cè)值呈相同趨勢(shì),但是沒有百度指數(shù)的預(yù)測(cè)值走勢(shì)不穩(wěn)定。從RMSE和MAPE指標(biāo)來(lái)看,加入百度指數(shù)的實(shí)驗(yàn)結(jié)果都比不加百度指數(shù)的實(shí)驗(yàn)結(jié)果低,也就是具有更高的準(zhǔn)確率??偟膩?lái)說(shuō),實(shí)際的上證指數(shù)的收盤值在某些時(shí)候有較大波動(dòng),這些波動(dòng)會(huì)影響RMSE和MAPE指標(biāo),但是從實(shí)驗(yàn)的數(shù)據(jù)集來(lái)看上證指數(shù)的漲跌幅,有98%的數(shù)據(jù)的漲跌幅在5%以內(nèi),也就是基本波動(dòng)不會(huì)超過(guò)5%,本實(shí)驗(yàn)使用百度指數(shù)的數(shù)據(jù)來(lái)預(yù)測(cè)的收盤值和真實(shí)值的誤差百分比都在5%以內(nèi),表明預(yù)測(cè)值具有一定可靠性和準(zhǔn)確性。
4 ?結(jié)語(yǔ)
搜索指數(shù)能夠反映投資者的關(guān)注度,同時(shí)行為金融理論表明股票市場(chǎng)會(huì)受到投資者的情緒的影響,因而本文提出了一種基于搜索指數(shù)和隨機(jī)森林的股市走勢(shì)預(yù)測(cè)模型,以上證指數(shù)為股市背景,從預(yù)測(cè)上證指數(shù)的收盤值和漲跌情況兩個(gè)方面來(lái)驗(yàn)證模型的準(zhǔn)確率,結(jié)果都表明加入百度指數(shù)后的預(yù)測(cè)方法比直接使用股市歷史數(shù)據(jù)的效果更優(yōu)。證明了考慮投資者的情緒對(duì)研究股市走勢(shì)具有重要意義,搜索指數(shù)是衡量投資者情緒的一個(gè)有效指標(biāo)。然而,本文也存在一定不足之處,衡量投資者情緒的指標(biāo)不僅是搜索指數(shù),還包括與股市相關(guān)的論壇、貼吧、微博評(píng)論等信息。本文僅對(duì)搜索指數(shù)進(jìn)行了相關(guān)驗(yàn)證,為進(jìn)一步提高模型準(zhǔn)確率還可以考慮在預(yù)測(cè)模型中加入更多有用的情緒指標(biāo)。另外,隨著隨機(jī)森林研究的進(jìn)一步發(fā)展,越來(lái)越多的基于隨機(jī)森林的回歸預(yù)測(cè)和分類預(yù)測(cè)的改進(jìn)算法被提出,如何結(jié)合改進(jìn)的隨機(jī)森林算法來(lái)提高預(yù)測(cè)模型準(zhǔn)確率也是值得思考的問(wèn)題。
參考文獻(xiàn)
[12] Michel Ballings, Dirk Van den Poel, Nathalie Hespeels, Ruben Gryp. Evaluating multiple classifiers for stock price direction prediction[J]. Expert Systems with Applications, 2015, 42(20): 7046-7056.
[13] Chen C I, Hsin P H, Wu C S. Forecasting Taiwans major stock indices by the Nash nonlinear grey Bernoulli model[J]. Expert Systems with Applications, 2010, 37(12): 7557-7562.
[14] Henrique, Bruno Miranda, Sobreiro, Vinicius Amorim, Kimura, Herbert. Stock Price Prediction Using Support Vector Regression on Daily and Up to the Minute Prices[J]. ?The Journal of Finance and Data Science,2018,4(3): 183-201.
[15] Zuo Y, Kita E. Stock price forecast using Bayesian network[J]. Expert Systems with Applications, 2012, 39(8): 6729-6737.
[16] Laboissiere L A, Fernandes R A S, Lage G G. Maximum and minimum stock price forecasting of Brazilian power distribution companies based on artificial neural networks[J]. Applied Soft Computing, 2015, 35: 66-74.
[17] Hsu M W, Lessmann S, Sung M C, et al. Bridging the Divide in Financial Market Forecasting: Machine Learners vs. Financial Economists[J]. Expert Systems with Applications, 2016, 61: 215-234.
[18] Barberis, Nicholas, Shleifer, Andrei, Vishny, Robert. A model of investor sentiment[J]. Journal of Financial Economics, 1998, 49(3): 307-343.
[19] Bangwayo-Skeete P F, Skeete R W. Can Google data improve the forecasting performance of tourist arrivals? Mixed-data sampling approach[J]. Tourism Management, 2015, 46: 454-464.
[20] Ginsberg J. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-4.
[21] Askitas N, Zimmermann K F. Google Econometrics and Unemployment Forecasting[J]. Economics Quarterly, 2009, 55(2): 107-120.
[22] Vosen S, Schmidt T. Forecasting private consumption: survey-based indicators vs. Google trends[J]. Journal of Forecasting, 2011, 30(6): 565-578.
[23] Carriere-Swallow Y, ?Labbe F. Nowcasting with Google Trends in an Emerging Market[J]. Journal of Forecasting, 2013, 32(4): 289-298.
[24] Bijl L, Kringhaug G, Molnár, Peter, et al. Google searches and stock returns[J]. International Review of Financial Analysis, 2016, 45: 150-156.
[25] 孟雪井, 孟祥蘭, 胡楊洋. 基于文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究[J]. 宏觀經(jīng)濟(jì)研究, 2016, 206(01): 146-155.
[26] 繆杰. 基于百度指數(shù)的投資者關(guān)注度對(duì)于股票市場(chǎng)表現(xiàn)的影響[D]. 廈門大學(xué), 2014.
[27] 王京晶. 關(guān)注度對(duì)股票收益率的影響—中國(guó)證券市場(chǎng)的實(shí)證研究[D]. 上海交通大學(xué), 2012.
[28] 孫文存. 基于搜索關(guān)鍵詞關(guān)注度的中國(guó)股票市場(chǎng)波動(dòng)研究[D]. 2012.
[29] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. 北京: 首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院博士論文, 2014.