李夢窈,劉佳敏, 徐佳妮,林雅娜 ,邵 波
(浙江外國語學(xué)院,浙江 杭州 310023)
近年來,在多因子模型研究流程中融入人工智能模型,是對多因子選股模型的改進(jìn)方向之一。此方向是通過數(shù)據(jù)驅(qū)動的各類機器學(xué)習(xí)模型替代線性模型進(jìn)行因子擬合。相比線性模型,機器學(xué)習(xí)具有更大的模型容量,可利用大量數(shù)據(jù)和高維因子,處理非線性關(guān)系,并進(jìn)行非線性關(guān)系擬合。
XGBoost算法即以分類的方式組合回歸樹(CART樹),是一種基于梯度提升決策樹的改進(jìn)算法。它在原有目標(biāo)函數(shù)基礎(chǔ)上又增加正則化項,通過對模型復(fù)雜度的懲罰來減弱模型過擬合問題,其最小化目標(biāo)函數(shù)公式如下:
進(jìn)行數(shù)據(jù)處理后得到最終公式:
本文分別從估值、財務(wù)質(zhì)量、杠桿、市值、成長、動量、動量反轉(zhuǎn)、換手率、波動率、技術(shù)等十類因子池進(jìn)行篩選后,最終選取49個因子作為候選因子。在構(gòu)建模型之前首先是數(shù)據(jù)預(yù)處理過程,具體包括缺失值、去極值、中性化和標(biāo)準(zhǔn)化處理。
優(yōu)化模型參數(shù)可以提高模型的泛化能力,綜合實驗結(jié)果,選取n_estimators=500,max_depth=6,sbsample=0.9作為模型訓(xùn)練參數(shù)標(biāo)準(zhǔn)。
為了解測試集特征相關(guān)度,在每個截面上將高斯核SVM模型對應(yīng)的下期漲跌的預(yù)測值與因子池中各個因子值進(jìn)行計算,得出相關(guān)系數(shù),查看各個因子暴露值與收益率預(yù)測值之間的相關(guān)性,如下圖所示,收益率預(yù)測值與換手率、技術(shù)等交易類因子關(guān)聯(lián)性較強,與基本面類型因子關(guān)聯(lián)性較弱。
在模型中構(gòu)造提升決策樹時,重要性得分一般決定了特征值的大小,決策樹中一個重要的特征意味著它被引用的次數(shù)越多。本文對數(shù)據(jù)的每個特征進(jìn)行集中計算和排序,同樣發(fā)現(xiàn)換手率、動量、技術(shù)等交易類因子重要性較強,基本面類型因子重要性較弱。
令分類數(shù)量num_class=4、8、12、16,每組為一類打標(biāo)簽,標(biāo)簽為0的收益最高,標(biāo)簽為n-1的收益最低?;販y日期為2020年1月1日—2020年8月1日,使用截面期訓(xùn)練好的前6個月的模型,并設(shè)置輪動訓(xùn)練模型為對照組。每次等權(quán)持有中證800成份股中分類期望倒序排列前20的個股。
表1 不同分類數(shù)量在單一模型和輪動訓(xùn)練模型下的回測概況
如表1所示,整體來看,12分類模型效果普遍優(yōu)于4、8、16分類模型效果。輪動效應(yīng)帶來的績效并不顯著,可見多分類數(shù)量遞增對模型預(yù)測效果有一定幫助,但過度分類對模型的預(yù)測準(zhǔn)確度會大打折扣。
使用12分類模型,設(shè)定可行股票池為中證800、中證500、滬深300、中小板指、創(chuàng)業(yè)板綜。如下圖1,XGBoost的12分類模型在中證800、中證500中均獲得了高于基準(zhǔn)收益的超額收益,在中證800預(yù)選股池表現(xiàn)最好。
圖1 不同股池下12分類模型的累計收益對比
表2 不同股池在12分類模型下的回測概況
由于預(yù)測收益率截面和換倉周期對策略收益的影響是相輔相成的,因此我們將預(yù)測收益率截面和換倉周期均作為自變量。結(jié)果如下圖2:
圖2 3、5日收益率作為標(biāo)簽下的策略收益概況和最大回撤
整體來看,隨著換倉周期的遞增,預(yù)測收益率截面為3日的策略收益率顯著提升。另外,隨著換倉周期的增長,模型的最大回撤值大致呈下降趨勢。
結(jié)合歷史經(jīng)驗,數(shù)據(jù)量越大對模型的準(zhǔn)確度提升也越顯著??紤]計算資源的限制,因此最終選擇2020年1月1日前24個月的數(shù)據(jù)量訓(xùn)練得出最終模型。從2020年1月1日至2020年8月1日的策略績效來看,XGBoost模型的12分類法構(gòu)建的選股策略,有利于獲取超額收益,察覺市場變動風(fēng)險。回測結(jié)果顯示,策略收益53.52%。最大回撤9.6%,風(fēng)險控制良好。Sharpe為4.62,風(fēng)險收益高。Bata值0.54,波動小于大盤,穩(wěn)定性優(yōu)異。Alpha值0.97,具有一定的投資價值。
圖3 回測日期:2020-01-01至2020-08-01|資金:10000000|頻率:分鐘
Brinson歸因分析如上,本策略超額收益為66.47%,主要源自三個部分:第一,主動配置收益19.83%,代表超配資產(chǎn)類別(或板塊)的超額收益較高,倉位管理能力較良好;第二,標(biāo)的選擇收益20.57%,表明策略在個股標(biāo)的選擇上配置良好且較為準(zhǔn)確;第三,互動效應(yīng)收益26.07%,表明超額收益中同時受到主動配置與標(biāo)的選擇影響的部分較大。
從結(jié)果導(dǎo)向而言,該策略較基準(zhǔn)配置而言,高配現(xiàn)金、信息技術(shù)行業(yè),獲得正的主動收益;低配金融、日常消費、可選消費、工業(yè)等行業(yè),獲得負(fù)的主動收益。
從風(fēng)險分析來看,投資風(fēng)格方面,相較于基準(zhǔn)指數(shù)中證800而言,該策略高配貝塔、殘差波動率和流動性,低配盈利能力、賬面市值比。從結(jié)果導(dǎo)向而言,該策略高配的風(fēng)格因子表現(xiàn)優(yōu)異,獲得正的主動收益。
本文運用XGBoost算法并進(jìn)行多分類模型訓(xùn)練,在今年以來取得了優(yōu)異成績。回測結(jié)果顯示,策略收益53.52%,風(fēng)險控制良好,論證了模型運用的合理性。同時在回測和模擬操作中可見模型具有一定的預(yù)測準(zhǔn)確性,因此基于XGBoost 多分類的選股模型能夠帶來穩(wěn)定的收益,為機器學(xué)習(xí)人工智能選股模型的研究創(chuàng)造更多的可能性。