經(jīng)濟(jì)行為呈現(xiàn)出高度的復(fù)雜性和不確定性[1]。以證券交易為例,海量的多種策略類型的投資交易者相互博弈,并受到全球經(jīng)濟(jì)活動(dòng)的影響,使得證券數(shù)據(jù)異常龐大而且充滿了復(fù)雜的隨機(jī)性。對證券數(shù)據(jù)的研究,提取其特征和規(guī)律可應(yīng)用于金融理論分析或交易指導(dǎo),例如產(chǎn)生交易信號(hào)、投資策略等。因而長期以來,對證券數(shù)據(jù)的有效分析一直以來都是熱點(diǎn)研究領(lǐng)域。
在證券數(shù)據(jù)研究的早期,研究者主要靠著數(shù)學(xué)工具以及市場的經(jīng)驗(yàn)和一些經(jīng)濟(jì)學(xué)知識(shí)來判斷證券的漲跌,或預(yù)測證券的價(jià)格。其后,隨著社會(huì)科學(xué)不斷的發(fā)展,研究者提出量化計(jì)算證券數(shù)據(jù)的更多規(guī)律特征,從而發(fā)展成為量化投資技術(shù)[2-4]。總體而言,因證券交易數(shù)據(jù)作為一種時(shí)間序列總體上體現(xiàn)出高度的復(fù)雜性和不確定性,研究者們嘗試?yán)酶鞣N方法、工具尋找出證券數(shù)據(jù)的規(guī)律,然而目前卻仍然沒有完善、成熟的理論或者算法來解釋證券數(shù)據(jù)中的規(guī)律和包含的信息。
機(jī)器學(xué)習(xí)技術(shù)具有類似人的思維能力,亦被稱之為人工智能,其中深度學(xué)習(xí)技術(shù)[5]是機(jī)器學(xué)習(xí)領(lǐng)域的核心學(xué)習(xí)技術(shù),推動(dòng)著人工智能時(shí)代往前邁出一大步。利用機(jī)器學(xué)習(xí)相關(guān)算法對證券數(shù)據(jù)進(jìn)行研究是一大熱點(diǎn)與新穎的研究方向。
本文采用深度學(xué)習(xí)算法來研究證券歷史數(shù)據(jù),通過學(xué)習(xí)趨勢交易者對證券數(shù)據(jù)的思維方式,從中獲取證券數(shù)據(jù)的特征信息并挖掘證券交易中隱藏的規(guī)律。由于證券數(shù)據(jù)的趨勢特征具有周期性和穩(wěn)定性,深度學(xué)習(xí)如果能提取出證券數(shù)據(jù)中的特征趨勢,這樣就可以分析證券市場的運(yùn)動(dòng)方向,給投資者提供可靠的指導(dǎo)信息。
在機(jī)器學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)有著非常強(qiáng)大的功能,能夠提取局部數(shù)據(jù)的特征、局部數(shù)據(jù)與局部數(shù)據(jù)之間的聯(lián)系。本文選擇神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)作來提取證券數(shù)據(jù)的趨勢特征。
證券歷史數(shù)據(jù)來自于國內(nèi)A股市場,考慮到次新股的歷史交易周期偏短,因此剔除了上市時(shí)間不足1年的次新股,得到近2200只證券的歷史交易數(shù)據(jù)作為訓(xùn)練樣本和回測數(shù)據(jù),典型的證券數(shù)據(jù)以及趨勢指標(biāo)(MACD、均線等)計(jì)算結(jié)果見表1。
表1 證券歷史數(shù)據(jù)與趨勢指標(biāo)
表1中的數(shù)據(jù)作為輸入數(shù)據(jù),其中的行數(shù)據(jù)代表不同時(shí)間周期的歷史交易數(shù)據(jù)或技術(shù)指標(biāo)值,數(shù)據(jù)的交易周期包括天、周、月、分鐘等。此外,深度學(xué)習(xí)模型還需要輸入期望數(shù)據(jù),即標(biāo)簽數(shù)據(jù)。本文采用漲/跌這兩種趨勢分類,由此得到對輸入數(shù)據(jù)趨勢(trend)的期望輸出標(biāo)簽數(shù)據(jù)。
本文模型訓(xùn)練數(shù)據(jù)為日線和周線數(shù)據(jù)。在深度學(xué)習(xí)模型的訓(xùn)練過程中,數(shù)據(jù)的處理流程如圖1所示。先將數(shù)據(jù)分為m組的二維數(shù)據(jù),二維數(shù)據(jù)的大小為(dateLen,input_dim)。dateLen表示每組二維數(shù)據(jù)包含日線數(shù)據(jù)的天數(shù),input_dim表示輸入特征向量個(gè)數(shù)。接下來分割數(shù)據(jù),任意從表中截取 行 列( 即卷積核的大小,遠(yuǎn)小于所有交易個(gè)數(shù),小于輸入特征向量)的數(shù)據(jù),將一組二維數(shù)據(jù)又分為n個(gè)局部數(shù)據(jù)。每個(gè)截取的小塊數(shù)據(jù)的特征、各個(gè)截取的小塊數(shù)據(jù)之間的聯(lián)系就是隱藏在證券數(shù)據(jù)中的特征。利用深度學(xué)習(xí)模型將這些特征利用卷積核提取出來并記錄在每一步的輸出數(shù)據(jù)中。
圖1 深度學(xué)習(xí)模型的數(shù)據(jù)預(yù)處理過程
將上述輸入數(shù)據(jù)集作為本文的訓(xùn)練樣本數(shù)據(jù)集,訓(xùn)練樣本數(shù)據(jù)集在訓(xùn)練過程中按照時(shí)間先后順序會(huì)被分為訓(xùn)練集與驗(yàn)證集,訓(xùn)練集占80%,驗(yàn)證集占20%。訓(xùn)練過程中將每一組數(shù)據(jù)通過已經(jīng)構(gòu)建好的模型進(jìn)行訓(xùn)練,每一組訓(xùn)練完成后都會(huì)保存當(dāng)前組訓(xùn)練完的權(quán)重值以及每組訓(xùn)練的結(jié)果。當(dāng)下一組的數(shù)據(jù)訓(xùn)練時(shí),會(huì)加載上一組訓(xùn)練完成的權(quán)重值,接續(xù)上輪的訓(xùn)練后權(quán)重值繼續(xù)加以訓(xùn)練,直到所有的數(shù)據(jù)通過模型的訓(xùn)練過程。圖2是訓(xùn)練函數(shù)誤差的收斂情況,表明隨著訓(xùn)練輪數(shù)的增加,訓(xùn)練集的準(zhǔn)確率也是逐步提高到趨于穩(wěn)定,最終訓(xùn)練集的準(zhǔn)確率達(dá)到了72%;驗(yàn)證集的準(zhǔn)確率基本也是先增加再趨于穩(wěn)定狀態(tài),最終準(zhǔn)確率達(dá)到了68%,且其相對于訓(xùn)練集,更早進(jìn)入了穩(wěn)定狀態(tài),對證券數(shù)據(jù)的趨勢特征分析效果優(yōu)良。
圖2 漲/跌趨勢分類的訓(xùn)練誤差收斂情況
本文研究了利用卷積神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)技術(shù),構(gòu)造一種證券數(shù)據(jù)趨勢分析模型來提取證券歷史數(shù)據(jù)特征信息。首先研究了對證券歷史數(shù)據(jù)的預(yù)處理和樣本標(biāo)簽化處理,然后采用分塊的循環(huán)訓(xùn)練模式。仿真結(jié)果表明,本模型對證券數(shù)據(jù)的漲/跌特征提取的效果良好,主要趨勢特征趨勢分類的準(zhǔn)確率達(dá)到68%,穩(wěn)定性高、可泛化性好,具備一定的參考價(jià)值和應(yīng)用價(jià)值。