王倫
摘 要:多因子模型一直是量化投資領(lǐng)域的重要方法,而如何選擇有效因子并確定因子權(quán)重從而構(gòu)建有效的投資組合是研究者重點(diǎn)討論的議題。以每只股票收益率作為分類(lèi)標(biāo)準(zhǔn),引入深度森林算法篩選股票,利用滬深300成分股進(jìn)行選股回測(cè),選取預(yù)測(cè)收益率大于0的概率排名靠前的30只股票進(jìn)行實(shí)證分析。研究結(jié)果表明,深度森林算法比隨機(jī)森林算法具有更高的超額收益,且具有更低的回撤率,該模型對(duì)量化投資策略的設(shè)計(jì)具有重要的實(shí)際意義。
關(guān)鍵詞:深度森林;量化選股;多因子分析
中圖分類(lèi)號(hào):F830.91? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2019)27-0078-02
預(yù)測(cè)股票市場(chǎng)價(jià)格走勢(shì)是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),因?yàn)樗婕暗皆S多不確定性和影響某一天市場(chǎng)價(jià)值的許多變量,如經(jīng)濟(jì)條件、投資者對(duì)某一特定公司的看法、政治事件等。這就使得股票市場(chǎng)易受快速變化的影響,造成股票價(jià)格的隨機(jī)波動(dòng)。股票市場(chǎng)序列通常是動(dòng)態(tài)的、非參數(shù)的、混沌的、有噪聲的,因此,股票市場(chǎng)價(jià)格的波動(dòng)被認(rèn)為是一個(gè)隨機(jī)過(guò)程,具有較大的波動(dòng)性短時(shí)間窗口的發(fā)音。然而,一些股票往往傾向于發(fā)展線性趨勢(shì)超過(guò)長(zhǎng)期的時(shí)間窗口。由于股票行為的混沌性和高度波動(dòng)性,投資股票市場(chǎng)伴隨著高風(fēng)險(xiǎn)。為了把風(fēng)險(xiǎn)降到最低先進(jìn)的知識(shí)未來(lái)的股價(jià)走勢(shì)是必要的。交易員更有可能購(gòu)買(mǎi)其股票未來(lái)的價(jià)值預(yù)計(jì)會(huì)增加。另一方面,交易員可能會(huì)克制自己購(gòu)買(mǎi)價(jià)值預(yù)計(jì)在未來(lái)會(huì)下跌的股票。所以,需要準(zhǔn)確預(yù)測(cè)股票市場(chǎng)價(jià)格的趨勢(shì),以使資本收益最大化,損失最小化。
在預(yù)測(cè)股票價(jià)格行為的主要方法中,以下是特別的值得注意的:技術(shù)分析、時(shí)間序列預(yù)測(cè)、機(jī)器學(xué)習(xí)及數(shù)據(jù)產(chǎn)業(yè)(Hellstrom and Holmstromm,1998)和股票波動(dòng)建模及預(yù)測(cè)使用微分方程(Saha,Routh和Goswami,2014)。本文主要研究的是第三種方法,是由于與股票市場(chǎng)預(yù)測(cè)問(wèn)題相關(guān)的數(shù)據(jù)集太大而無(wú)法得到使用非數(shù)據(jù)挖掘方法處理。
一、深度森林gcForest
深度森林由南京大學(xué)周志華教授和馮霽博士2017年發(fā)表的論文中提出的,這是一種可以與深度神經(jīng)網(wǎng)絡(luò)相媲美的基于樹(shù)的模型。
本文提出了一種新的模型gcForest(多粒度級(jí)聯(lián)森林),它是一種基于樹(shù)的集成方法,將樹(shù)集成到樹(shù)中,并將樹(shù)集成到樹(shù)中,以達(dá)到表征學(xué)習(xí)的效果。通過(guò)對(duì)高維輸入數(shù)據(jù)進(jìn)行多粒度掃描,可以增強(qiáng)其表征學(xué)習(xí)能力。序列中的層數(shù)也可以自適應(yīng)地確定,這樣模型復(fù)雜性就不需要是自定義超參數(shù),而是根據(jù)數(shù)據(jù)情況自動(dòng)設(shè)置的參數(shù)。值得注意的是,gcForest的超參數(shù)比DNN少。更好的部分是gcForest對(duì)參數(shù)具有很好魯棒性,即使使用默認(rèn)參數(shù)也是如此。換句話來(lái)說(shuō),gcForest相對(duì)于DNN,不僅超參數(shù)更少,而且對(duì)超參數(shù)的依賴性也更低。因?yàn)檫@樣,gcForest的訓(xùn)練更為便捷,理論分析也更為清晰,這并不是說(shuō)樹(shù)比神經(jīng)網(wǎng)絡(luò)更好去解釋?zhuān)蛦渭儚某瑓?shù)來(lái)說(shuō),更少超參數(shù)意味著更少的主觀設(shè)定。
二、實(shí)證分析
在因子選擇方面,為了比較不同因子選擇方法的效果,本次研究盡可能多的篩選出有效因子。綜合分析了多家券商的研究報(bào)告和各類(lèi)學(xué)術(shù)論文,運(yùn)用通聯(lián)數(shù)據(jù)量化數(shù)據(jù)平臺(tái),從估值因素、規(guī)模因素、交易量因素、動(dòng)量因素、趨勢(shì)因素等方面篩選出了34個(gè)常用的有效因素。
本次實(shí)驗(yàn)數(shù)據(jù)為2010年1月1日至2018年12月31日滬深300指數(shù)各成分股選取最后一個(gè)交易日的所有交易的股票要素價(jià)值和收益率。將收益率大于0的標(biāo)記為1,其他則標(biāo)記為0,用于模型分類(lèi)的目標(biāo)值。用2010年1月1日至2017年3月31日的數(shù)據(jù)作為訓(xùn)練集來(lái)訓(xùn)練模型,回測(cè)用2017年4月1日到2018年12月31日的數(shù)據(jù),所有因子數(shù)據(jù)都通過(guò)中性化、去極值、標(biāo)準(zhǔn)化處理,并去掉了含有缺失值的股票。
三、結(jié)語(yǔ)
利用上述34個(gè)因子值,根據(jù)主成分分析結(jié)果,選取前20個(gè)主成分作為分類(lèi)的解釋變量,構(gòu)建多因子模型。將股票收益率作為模型分析的解釋變量。首先采用隨機(jī)森林算法進(jìn)行實(shí)驗(yàn),并利用優(yōu)礦平臺(tái)進(jìn)行研究。
從表1的回測(cè)檢驗(yàn)結(jié)果可以看出,隨機(jī)森林多因子策略的年化收益率為26.5%,滬深300指數(shù)的市場(chǎng)收益率為15%,超額收益為11.8%,阿爾法超額收益說(shuō)明了多因子模型的有效性。最大回撤率為8.9%,說(shuō)明模型具有相當(dāng)?shù)姆€(wěn)定性。
從表2可以看出,深度森林多因子策略年化收益達(dá)到32.9%,并且獲得了18.2%的阿爾法超額收益,故而深度森林在多因子選股策略是明顯要優(yōu)于隨機(jī)森林的,且最大回撤只有7.9%,相比隨機(jī)森林,該模型具有更高的穩(wěn)定性。
參考文獻(xiàn):
[1]? L.Breiman.Random forests.Machine Learning,2001,(1):5-32.
[2]? Zhou Zhihua,Ji Feng.Deep Forest:Towards an Alternative to Deep onference on Artificial Intelligence,2017:3553-3559.