■ 蔣雨芯 魏先華
中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院 北京 100190
自股票市場成立以來,股價的價格和趨勢變化始終是學(xué)者和投資者關(guān)注的重點。股價的預(yù)測方法也在不斷的發(fā)展和豐富,主要包括基本面分析、技術(shù)分析和量化模型分析等方法?;久娣治龇ㄊ峭ㄟ^分析影響證券的多種因素,側(cè)重于分析股票的長期投資價值。隨著信息技術(shù)的不斷成熟,更多的研究專注于使用更多非結(jié)構(gòu)化的數(shù)據(jù)用于股價的預(yù)測中,其中包括Tetlock[1]等研究的市場新聞的影響、Wang[2]總結(jié)的投資者情緒對股價的影響、Jiang[3]提出的天氣因素等。通過加入這些非傳統(tǒng)的數(shù)據(jù),能夠更充分地挖掘多源數(shù)據(jù)所蘊藏的信息,從而更好地進行股價預(yù)測。技術(shù)分析法是通過分析股價波動的形態(tài)和統(tǒng)計數(shù)據(jù)如技術(shù)指標等的變化來預(yù)測股價走勢,形成的技術(shù)分析理論包括道氏理論、K線理論和趨勢理論等,主要側(cè)重于分析股票價格的波動規(guī)律。量化模型分析則是通過建立不同的數(shù)學(xué)模型,早期的研究通常建立在簡單的線形模型上,包括簡單自回歸、滑動平均等模型。但是由于股票市場中金融數(shù)據(jù)包含眾多噪音和不確定性,線性模型難以捕捉股市中復(fù)雜的非線性特征。隨著計算機技術(shù)的發(fā)展,非線性模型開始逐漸應(yīng)用到股價預(yù)測中,包括支持向量機、人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等。早在20世紀80年代White[4]就使用人工神經(jīng)網(wǎng)絡(luò)預(yù)測股價。Huang[5]等通過建立支持向量機模型并優(yōu)化參數(shù)從而對股票漲跌趨勢進行預(yù)測。Yu 等[6]提出將BP 神經(jīng)網(wǎng)絡(luò)應(yīng)用于股票市場的預(yù)測。任君等[7]使用LSTM 與SVM 結(jié)合的方法,預(yù)測滬深300 指數(shù)并構(gòu)建投資策略。Hoseinzade[8]通過將股票的時序、技術(shù)指標數(shù)據(jù)整理為二維矩陣數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測了標普500 的價格趨勢。相較于傳統(tǒng)的線性回歸,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的模型結(jié)構(gòu)更加復(fù)雜,更加適用于解決大量數(shù)據(jù)中的非線性問題。
市場上常見的交易軟件能夠?qū)⒐善钡慕灰讛?shù)據(jù)以及技術(shù)指標進行可視化地展示,投資者可以通過圖片對股價走勢進行分析,但投資者對股票的主觀經(jīng)驗判斷可能受到心理因素等的影響。過去的預(yù)測研究大多是將股價數(shù)據(jù)特征采用時間序列的形式作為模型的輸入,很少有學(xué)者直接采用金融圖像進行分析處理。同時在研究中存在無法準確地刻畫市場總體情緒對股價的影響,以及使用單一的數(shù)據(jù)來源和形式導(dǎo)致預(yù)測效果不佳等問題,所以對于如何整合多源異構(gòu)數(shù)據(jù)對股價進行預(yù)測仍需進一步深入的研究。本研究以滬深300指數(shù)作為研究對象,通過建立圖像化融合多源異構(gòu)數(shù)據(jù)的模型,將新聞情緒、投資者情緒、技術(shù)指標等數(shù)據(jù)共同編碼形成圖片,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)對股指進行不同周期的走勢預(yù)測。在所參與的基金項目:基于大數(shù)據(jù)融合的新一代商務(wù)智能系統(tǒng)構(gòu)建研究中,作為其中智能投顧系統(tǒng)股價預(yù)測模塊的研究成果,為股指趨勢預(yù)測和研判提供了新的思路,從而能夠更好地為投資決策進行服務(wù)。
1.1.1 財經(jīng)新聞情緒指數(shù)
研究表明新聞情緒是影響市場價格走勢的重要因素之一,其原因是新聞是普通投資者獲取資訊最直接、有效的方式,投資者會根據(jù)新聞傳遞出的情緒作出投資決策,從而影響市場的總體走勢[9]。所以本研究通過優(yōu)礦平臺獲取多家主流財經(jīng)媒體的每日市場新聞的匯總報道,能夠充分反應(yīng)新聞媒體對市場整體的報道和情感走勢。通過收集其中2013/1/1 至2020/12/31 期間每日的股票市場相關(guān)新聞,包括新聞ID、標題、摘要和時間等,最終整理得到共計620萬條新聞數(shù)據(jù)。通過對交易日期的映射和匹配后,利用篩選高頻詞補充Bian 等[10]構(gòu)建的CFSD 新聞情感詞典的方式,對新聞的摘要進行情感打分。通過計算每條新聞的情緒得分,匯總構(gòu)建每日市場總體新聞情緒指數(shù),作為當日媒體新聞反映的市場總體的情感,其中posN表示新聞情緒為積極的新聞數(shù)量,negN表示新聞情緒為消極的新聞數(shù)量。其計算公式為:
1.1.2 市場其他情緒代理指標
由于市場整體的情緒不僅受到新聞媒體情緒的影響,還與投資者行為與市場交易數(shù)據(jù)等密切相關(guān)。所以在財經(jīng)新聞情緒基礎(chǔ)上,本研究參考Baker 和Wurglar[11]構(gòu)建的BW 指標以及黃德龍等[12]其他學(xué)者構(gòu)建復(fù)合情緒指標所使用的市場代理指標。根據(jù)數(shù)據(jù)的可得性和與指數(shù)收益率的相關(guān)性,本研究最終選取了HS300 指數(shù)的市場交易數(shù)據(jù):交易量(Amount, Amt)、換手率(Turnover,TO),通過wind獲取HS300個股異質(zhì)投資者的交易數(shù)據(jù),按照交易資金量的大小劃分為機構(gòu)投資者和散戶投資者,匯總計算出機構(gòu)凈流入(Institution,Ins)及散戶投資者凈流入(Individual,Ind),分別代表機構(gòu)投資者情緒和個人投資者情緒,以及反應(yīng)市場每日漲跌情況的騰落指數(shù)(ADL)。最終的選取指標和數(shù)據(jù)來源如表1所示。
表1 市場情緒代理指標和數(shù)據(jù)來源
1.1.3 市場綜合情緒圖像
本研究構(gòu)建的綜合市場情緒指標是在新聞情緒指標的基礎(chǔ)上,融入包括異質(zhì)投資者資金走向,市場熱度等其他市場情緒代理指標,共計6 個指標。在綜合指標的構(gòu)建中,本研究參照董孝伍[13]所使用的方法,對選取指標在t 時刻和t-1 時刻的數(shù)據(jù)進行主成分分析,得到包含12個情緒指標的綜合指標,記為MS12。再通過MS12與12 個單獨的情緒指標相關(guān)系數(shù)的大小來確定各指標的領(lǐng)先與滯后的情況。根據(jù)上述方法的處理,最終選取了6 個指標在t 時刻的當期值并通過主成分特征值加權(quán)平均計算出MS6市場綜合情緒指標,其表達式為:
MS6=0.286*Ins+0.272*ADL+0.259*News-0.273*Ind-0.55*Amt-0.063*TO
Baker 和Wurglar[11]認為,當投資者情緒可以反映市場波動特征時,則認為該情緒指標是真實有效的。所以本研究分別對財經(jīng)新聞情緒指數(shù)和融合多類數(shù)據(jù)構(gòu)建的綜合情緒指標與滬深300 收益率的相關(guān)性進行了分析。
圖3 RSI指標圖像
表2 表明本研究構(gòu)建的綜合市場情緒指數(shù)MS6 與滬深300指數(shù)對數(shù)收益率相關(guān)性相較于單獨的財經(jīng)新聞情緒的相關(guān)性更高,可以較好的反應(yīng)市場情緒變化,能夠作為整體市場情緒的代理變量。本研究采取將市場情緒指標用白色折線的形式進行呈現(xiàn),通過折線的高低曲折變化來反映市場綜合情緒的熱度,如圖1所示。
表2 指數(shù)收益率和情緒指標的相關(guān)性
圖1 市場綜合情緒指標圖像
股票技術(shù)指標是通過特定的算法對證券原始的交易數(shù)據(jù)計算得來的時間序列,可以用來推測股票價格的變動趨勢。本研究按照wind 的指標分類選取常見的3類技術(shù)指標作為主要的研究內(nèi)容,分別是趨向指標中的MACD 指標以及反向趨勢指標中的RSI 指標以及壓力支撐指標BOLL 布林帶指標。MACD 指標,又稱異同移動平均線,是一種判斷金融資產(chǎn)買賣時點以及價格漲跌趨勢的技術(shù)指標。其原理是運用短期指數(shù)移動平均線和長期指數(shù)移動平均線交叉和背離的信息進行平滑運算。RSI指標,又稱相對強弱指標,是一種研究金融資產(chǎn)價格波動幅度的技術(shù)指標。其原理是計算一段時間內(nèi)的漲跌幅的比值,從而反映多空雙方的強弱程度。BOLL 布林帶指標,是通過計算金融資產(chǎn)價格的標準差和置信區(qū)間,得到股票價格的上下波動范圍和未來漲跌趨勢。通常資產(chǎn)價格應(yīng)該保持在上下軌道之間運行,一旦突破其波動范圍的上下限,則代表資產(chǎn)價格處于較極端的情形,容易出現(xiàn)反轉(zhuǎn)的趨勢,可以作為判斷未來漲跌的依據(jù)。
技術(shù)分析理論在圖像方面的應(yīng)用非常豐富,是良好的卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),所以本研究將技術(shù)指標繪制成黑底白線折線圖形作為模型的輸入,形成的不同技術(shù)指標圖像如圖2至圖4所示:
圖2 MACD指標圖像
圖4 布林帶指標圖像
對于傳統(tǒng)的指數(shù)交易數(shù)據(jù),本研究參考Jiang[14]的文章將股價數(shù)據(jù)表示為OHLC 類型的圖片。對比市場常見的股價K 線圖和蠟燭圖,股價的OHLC 圖片能夠通過更少的圖像像素表示更多的股價數(shù)據(jù)信息,不僅包含股價的4 個價格數(shù)據(jù),同時線段的垂直長度也能夠反映每日的價格波動,并且通過同一種顏色即可以表示股價的漲跌信息。圖片數(shù)據(jù)采用黑底白色線條組成,這樣的圖片編碼方式可以將圖片的數(shù)據(jù)直接轉(zhuǎn)化為二維像素矩陣,而不用保留三維的RGB 顏色信息,能夠在保留完整數(shù)據(jù)信息的同時減輕圖片數(shù)據(jù)的存儲需求,可以作為良好的CNN 輸入數(shù)據(jù)源。最終形成的數(shù)據(jù)圖像如圖5所示。
圖5 股價OHLC圖像
為了更好地對比圖像輸入形式對模型預(yù)測的影響,本研究采取將3類圖片共同作為輸入以及融合形成單張圖片為輸入的兩種形式。其中單張融合圖片需要涵蓋市場情緒指數(shù)、股價數(shù)據(jù)和技術(shù)指標數(shù)據(jù)。本研究采取將市場情緒指標用白色折線的形式置于圖片下方,技術(shù)指標則按照常見方式覆蓋于股價數(shù)據(jù)之上進行顯示,最終進行對比訓(xùn)練的融合數(shù)據(jù)圖片數(shù)據(jù)如圖6所示。
圖6 融合3類數(shù)據(jù)的整合圖像(以MACD指標為例)
股價預(yù)測模型需要選取影響股價漲跌的多項因素,從不同的角度整合豐富的信息來描述股票的變化,并對此建立合適的預(yù)測模型。本研究期望利用卷積神經(jīng)網(wǎng)絡(luò)在圖像識別和預(yù)測中的優(yōu)勢,將金融數(shù)據(jù)處理成圖片數(shù)據(jù),并與傳統(tǒng)的數(shù)據(jù)形式預(yù)測進行比較,從而探究本研究融合數(shù)據(jù)的方法的有效性和結(jié)構(gòu)的穩(wěn)健性。通過采集財經(jīng)新聞、市場情緒代理指標、股價數(shù)據(jù)和K 線技術(shù)指標等數(shù)據(jù)生成相應(yīng)的圖像,并采取構(gòu)建融合圖像的形式作為卷積神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)集對比,具體采用的融合方法如圖7所示。
圖7 多源數(shù)據(jù)圖像融合方法
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋人工神經(jīng)網(wǎng)絡(luò),能夠從大規(guī)模的數(shù)據(jù)中不斷提取和學(xué)習(xí)從局部到整體的特征,并將結(jié)果向同類別數(shù)據(jù)泛化。在金融領(lǐng)域,股價圖像的可視化在一定程度上有助于檢測統(tǒng)計數(shù)據(jù)中存在的特征和模式。利用卷積神經(jīng)網(wǎng)絡(luò)自動訓(xùn)練和優(yōu)化模型,不需要提前制定技術(shù)指標和圖片特征,即可搜索最能預(yù)測未來回報的圖像模式,所以股價圖像數(shù)據(jù)可以作為卷積神經(jīng)網(wǎng)絡(luò)良好的數(shù)據(jù)輸入進行研究。常見的卷積神經(jīng)網(wǎng)絡(luò)樣本輸入通常為具有RGB 這3 個通道的圖像數(shù)據(jù),本研究構(gòu)建的每1類圖像數(shù)據(jù)集都為單通道的圖片。通過將多類圖片共同作為模型的輸入,分別采取3 張圖片同時輸入以及單張融合圖片作為輸入的形式進行模型的訓(xùn)練和預(yù)測。在多張圖片同時作為輸入時,通過將3 張圖片進行縱向拼合,形成3 通道的圖片數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練的過程中會自動更新不同通道的訓(xùn)練參數(shù),從而實現(xiàn)在賦予不同類別圖片不同的權(quán)重的同時也能夠?qū)W習(xí)不同類圖片中的特征。在單張融合圖片作為輸入時,則直接讓模型學(xué)習(xí)融合圖片的特征作為對比。本研究在考慮樣本尺寸大小和數(shù)量的限制時,主要參考LeNet-5[15]網(wǎng)絡(luò)結(jié)構(gòu)進行相應(yīng)的設(shè)計和修改,最終構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)由兩個卷積層,兩個池化層以及3個全連接層構(gòu)成,并命名為CNN_Stock。同時在模型中增加了Dropout 層和Batchnorm 層在一定程度上防止數(shù)據(jù)過擬合。以此構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖8所示。
圖8 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
實驗流程圖具體描述如圖9所示。
圖9 實驗流程圖
首先利用python繪制3類不同的數(shù)據(jù)圖像以及融合圖像作為模型的輸入。其次通過對模型的訓(xùn)練進行股指趨勢的預(yù)測,使用評價指標對預(yù)測結(jié)果進行分析。最后選取不同預(yù)測模型進行對比,包括線形預(yù)測模型邏輯回歸、時序預(yù)測模型LSTM 和經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)AlexNet 模型,對輸入數(shù)據(jù)的形式和融合方法的有效性進行檢驗。
本研究使用的數(shù)據(jù)集時間區(qū)間為2013/1/1 至2020/12/30。圖片種類分為兩大類,分別是由市場情緒指數(shù)、技術(shù)指標和股價數(shù)據(jù)3 類數(shù)據(jù)指標單獨繪制的3 層圖片數(shù)據(jù)以及由3類圖片數(shù)據(jù)融合形成的單層圖片數(shù)據(jù)。本研究采用留出法的方式對總數(shù)據(jù)集按照9:1 的方式劃分樣本內(nèi)外數(shù)據(jù)集。其中2013/1/1 至2020/3/31 的數(shù)據(jù)集作為訓(xùn)練集對模型進行訓(xùn)練,2020/4/1 至2020/12/31 作為樣本外測試集對模型進行評估。為了減弱隨機劃分的影響,對訓(xùn)練集重復(fù)劃分訓(xùn)練集和驗證集,并對得到的多次結(jié)果取平均作為最后的結(jié)果。圖片周期長度選取分為5 天、20 天、60 天(分別代表周、月和季度)的數(shù)據(jù)來進行預(yù)測未來的漲跌。圖片擁有3類不同時間長度的標簽,分別為1 天、5 天和20 天后的漲跌情況。以5 天為例,若該圖片未來5 天后的價格上漲,即Closet+5>Closet時,label 標記為1,反之標記為0。通過對圖片和3 類數(shù)據(jù)標簽分別進行模型訓(xùn)練和評估,進而比較不同數(shù)據(jù)集使用模型預(yù)測的準確率。
模型的評價指標通過召回率(Recall),特異性(Specify),準確度(Accuracy),馬修斯相關(guān)系數(shù)(MCC)指標來進行評價。在預(yù)測分類問題中,通常將樣本真實類別為正,最后預(yù)測結(jié)果也為正的記為TP(True positive);樣本真實類別為負,最后預(yù)測結(jié)果為正的記為FP(False positive);樣本真實類別為正,最后預(yù)測結(jié)果為負的記為FN(False negative);樣本真是類別為負,最后預(yù)測結(jié)果也為負的記為(True negative)。四個評價指標的定義和公式如下:
Recall:召回率,表示在原始正樣本中最后被正確預(yù)測為正的概率。
Specify:特異性,表示在原始樣本中的負樣本中被正確預(yù)測為負的概率。
圖10 情緒指數(shù)、技術(shù)指標和股價數(shù)據(jù)3類數(shù)據(jù)融合形成的5、20和60天預(yù)測圖像
圖11 情緒指數(shù)、技術(shù)指標和股價數(shù)據(jù)3類數(shù)據(jù)分開表示的預(yù)測圖像(以20天為例)
Accuracy:準確度,表示預(yù)測正確的樣本數(shù)除以總樣本數(shù)。
MCC:馬修斯相關(guān)系數(shù),描述實際分類與預(yù)測分類之間的相關(guān)系數(shù)。
根據(jù)構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型對不同技術(shù)指標形成的3 類圖片及3 類圖片的融合圖像分別進行識別和預(yù)測,下表展示了該模型在預(yù)測未來1、5、20天漲跌情況的預(yù)測能力,模型評價結(jié)果如下表所示。
本研究構(gòu)建的模型對于股指預(yù)測趨勢具有一定的預(yù)測能力,同時模型預(yù)測效果會受到圖像長度、未來預(yù)測天數(shù)、多源數(shù)據(jù)的加入以及不同技術(shù)指標選取的影響。對于不同技術(shù)指標加入的預(yù)測效果,選取其中表現(xiàn)最好的MACD指標實驗結(jié)果為例進行展示。
單層僅含股價數(shù)據(jù)的預(yù)測準確率最低,如表1所示,其中使用60 天圖像數(shù)據(jù)預(yù)測未來5 天的漲跌相對表現(xiàn)最好為53.1%。從表3 和表4 可以看出加入技術(shù)指標圖像或者情緒指標圖像后均能夠有效提升大部分模型預(yù)測準確率。同時對于融合3 類數(shù)據(jù)的3 層圖片預(yù)測模型優(yōu)于融合3 類數(shù)據(jù)的單層圖片數(shù)據(jù)模型,其中效果最佳的如表6所示,為使用MACD指標的的60天圖像數(shù)據(jù)對于未來5 天后漲跌的預(yù)測結(jié)果,樣本外準確度能夠達到65.2%,相較于單一數(shù)據(jù)源預(yù)測能夠提升12.1%。不同技術(shù)指標的加入對模型預(yù)測效果的提升略有差異,但大部分測試數(shù)據(jù)集都能夠在單一股價數(shù)據(jù)預(yù)測模型的準確性上得到提升,其中MACD指標相較于其他兩類指標表現(xiàn)更好,所以本研究主要對MACD指標的實驗結(jié)果為例進行分析。同時模型對于未來不同時間窗口的預(yù)測存在一定差異。對大部分預(yù)測數(shù)據(jù)集,模型對于股指未來1天或者20天的預(yù)測能力不及未來5天趨勢預(yù)測的準確性,其原因是因為股價未來1 天或者20 天的變化波動性相較于5 天可能更大,對于股指數(shù)據(jù)的預(yù)測仍需要盡可能的從多維度進行描述和分析。
表3 單層OHLC股價數(shù)據(jù)預(yù)測效果
表4 技術(shù)指標+股價數(shù)據(jù)雙層數(shù)據(jù)預(yù)測效果(以MACD指標為例)
表5 情緒指標+股價數(shù)據(jù)雙層數(shù)據(jù)預(yù)測效果
表6 情緒指標+技術(shù)指標+股價數(shù)據(jù)三層圖片數(shù)據(jù)預(yù)測效果(以MACD指標為例)
表7 融合情緒指標+技術(shù)指標+股價數(shù)據(jù)單層圖片數(shù)據(jù)預(yù)測效果(以MACD指標為例)
為了驗證本研究構(gòu)建的預(yù)測模型的有效性,選擇了上文表現(xiàn)較好的采取MACD指標、市場情緒指數(shù)以及股價數(shù)據(jù)形成的3 層圖片模型CNN_Stock 進行未來5 天股指漲跌預(yù)測,并選擇邏輯回歸模型、參考楊青[16]等人構(gòu)建的LSTM 神經(jīng)網(wǎng)絡(luò)以及AlexNet 神經(jīng)網(wǎng)絡(luò)作為對比。其中邏輯回歸屬于廣義線形模型,作為進行對比的傳統(tǒng)預(yù)測模型。LSTM 為使用時間序列作為輸入的神經(jīng)網(wǎng)絡(luò)模型,適用于處理和預(yù)測時間序列,作為不同數(shù)據(jù)輸入形式的模型進行預(yù)測對比。AlexNet 模型為圖片分類領(lǐng)域表現(xiàn)成熟的卷積神經(jīng)網(wǎng)絡(luò)模型,由于本研究數(shù)據(jù)量相較于原始數(shù)據(jù)集較小,將AlexNet 原模型進行了卷積核數(shù)目減半的處理,作為不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進行對比。對比實驗結(jié)果如表9所示:
表9 股指預(yù)測模型對比實驗結(jié)果
實驗結(jié)果表明,不同圖像長度的數(shù)據(jù)集對于預(yù)測準確率有一定影響,4 類模型使用60 天的圖像數(shù)據(jù)集相較于5 天和20 天的數(shù)據(jù)集表現(xiàn)效果更優(yōu),這表明在融入更多豐富的數(shù)據(jù)信息后能夠提升模型的預(yù)測效果。在不同模型間的對比中,預(yù)測效果最好的模型為本研究構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型,通過60 天的圖像預(yù)測未來5 天的股指趨勢準確率能夠達到65.2%,其次為模型結(jié)構(gòu)更為復(fù)雜的AlexNet 模型,預(yù)測效果最佳可達55.6%,LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果最佳為53.1%,邏輯回歸模型作為預(yù)測效果最差僅為47.5%。
其原因是邏輯回歸作為線形模型無法較好地擬合股價的趨勢特征。LSTM 網(wǎng)絡(luò)模型學(xué)習(xí)到的特征則是盡量將上一段時間的收盤價作為當前的預(yù)測輸出,傾向于保留之前股價的趨勢,股價預(yù)測存在滯后性。AlexNet模型結(jié)構(gòu)更為復(fù)雜,訓(xùn)練過程中參數(shù)多、計算量大,容易出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致在樣本外預(yù)測效果相對較差,無法準確識別股價圖像數(shù)據(jù)集的特征。這也表明神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要針對特定的數(shù)據(jù)格式和數(shù)量進行設(shè)計和訓(xùn)練才能達到較好的結(jié)果。
在數(shù)據(jù)輸入形式的比較上,基于圖像數(shù)據(jù)的兩種卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測準確率均優(yōu)于使用時間序列作為輸入的LSTM 和邏輯回歸模型。圖像數(shù)據(jù)的優(yōu)勢在于圖片在生成時就實現(xiàn)了數(shù)據(jù)的隱式縮放,能夠?qū)⒐蓛r數(shù)據(jù)處理為同一維度,不需要提前對數(shù)據(jù)進行特征縮放和歸一化。這表明本研究構(gòu)建的圖像化融合數(shù)據(jù)方法和預(yù)測模型在股指的趨勢預(yù)測中具有一定優(yōu)勢。
3.6.1 交易策略構(gòu)建
為更好的驗證本研究構(gòu)建模型的有效性,建立合理的量化交易策略可以對模型效果進行檢驗,選擇上文表現(xiàn)最優(yōu)的60 天圖像預(yù)測未來5 天股指漲跌的模型來進行量化擇時交易策略的信號預(yù)測。構(gòu)建的交易策略如下:若預(yù)測未來5日股指會上漲,則交易信號設(shè)置為1。具體操作為:當前無持倉時則在下一天買入,有持倉時繼續(xù)持有,第5 天賣出;若預(yù)測未來5日股指會下跌,則交易信號設(shè)置為0。具體操作為:當前有持倉時則第2天賣出,當前無持倉時保持空倉狀態(tài)。第6 天讀取新的交易信號?;鶞什呗允找孢x取滬深300指數(shù)的收益來進行對比。
3.6.2 策略回測結(jié)果
本研究選取HS300 指數(shù)作為模擬的交易標的,根據(jù)本研究所制定的CNN 交易策略進行交易?;販y使用的數(shù)據(jù)集區(qū)間為2020/4/1 到2020/12/31,同時由于本研究使用的數(shù)據(jù)為60天的圖片數(shù)據(jù),所以最終策略的回測周期為2020/7/1 到2020/12/31?;販y結(jié)果如圖12 所示,風(fēng)險評價指標結(jié)果如表10所示:
圖12 CNN策略交易回測結(jié)果
表10 CNN策略與基準策略的評價指標結(jié)果
根據(jù)回測結(jié)果可以觀察到,在回測期間本研究構(gòu)建的CNN 策略能夠取得34.2%的超額收益,夏普比率可達2.4,同時相較于基準買入并持有策略能夠降低波動率和最大回撤。表明了通過本研究構(gòu)建的CNN 策略能夠通過圖片預(yù)測未來指數(shù)漲跌的趨勢所產(chǎn)生的交易信號產(chǎn)生盈利,在投資決策中可以為投資者提供建議。
本研究針對股價預(yù)測中存在的數(shù)據(jù)來源不足、數(shù)據(jù)形式單一以及預(yù)測精度不高等問題,以滬深300 指數(shù)為研究對象,并以圖像化的方式融合市場綜合情緒、技術(shù)指標和股價數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,創(chuàng)新股價預(yù)測的輸入形式。最終融合3 類數(shù)據(jù)的3 層圖片預(yù)測模型使用60 天的數(shù)據(jù)對于未來5 天漲跌趨勢預(yù)測準確度最高,相較于其他預(yù)測模型的精度有顯著提升。通過對實驗結(jié)果和交易回測的分析,可得出以下結(jié)論:
(1)使用傳統(tǒng)的單一股價交易數(shù)據(jù)對于股價預(yù)測準確率效果有限。通過加入本研究構(gòu)建的情緒指數(shù)或技術(shù)指標增加數(shù)據(jù)來源和多樣性,能夠在大部分數(shù)據(jù)集中有效提升預(yù)測準確率。
(2)本研究提出的基于圖片數(shù)據(jù)的融合模型和預(yù)測方法,相較時序數(shù)據(jù)作為輸入的兩類對比模型預(yù)測效果更佳。圖像數(shù)據(jù)相較于傳統(tǒng)時序數(shù)據(jù),能夠直觀地展示數(shù)據(jù)間的非線形變化,在圖像生成時即可實現(xiàn)對數(shù)據(jù)的歸一化。
(3)通過本研究構(gòu)建的預(yù)測模型建立的投資策略,能夠在交易回測中取得超額收益,驗證了該模型和方法的有效性,可在一定程度上輔助投資者進行決策。
通過該模型和方法得到了一些研究結(jié)論,但仍存在一些不足需要解決:第一,本研究在多源數(shù)據(jù)的選擇上僅限于新聞數(shù)據(jù)、市場交易數(shù)據(jù)和技術(shù)指標等,影響股價變化的還有其他眾多變量,在未來的研究中可以考慮引入更豐富的數(shù)據(jù)源。第二,基于圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)模型在股價預(yù)測中存在其優(yōu)勢,但對于模型結(jié)構(gòu)和相應(yīng)的參數(shù)還可以進一步設(shè)計和優(yōu)化,更好地提升預(yù)測精度。第三,本研究構(gòu)建的股指預(yù)測策略可為投資者提供參考,但在實際交易過程中存在交易的限制,仍需考量多方面影響因素才能更好地綜合決策。