王天業(yè) 萬(wàn)宇杰 段思睿 張 偉 羅希意
(1.西南證券股份有限公司,重慶 400025;2.重慶郵電大學(xué),重慶 400065)
2023年7月,國(guó)務(wù)院常務(wù)會(huì)議提出,“要活躍資本市場(chǎng),提振投資者信心”?;鹱鳛橘Y本市場(chǎng)的重要組成部分,對(duì)于推動(dòng)中國(guó)金融高質(zhì)量發(fā)展中起著至關(guān)重要的作用。近年來(lái),基金產(chǎn)品數(shù)量激增,繁多的產(chǎn)品數(shù)量,相對(duì)滯后的披露信息為投資者選基帶來(lái)了困難,選基研究重要性凸顯。
早期的選基研究圍繞基金業(yè)績(jī)與持倉(cāng)數(shù)據(jù)。Grinblatt等(1994)發(fā)現(xiàn),基于動(dòng)量策略投資的基金表現(xiàn)較為優(yōu)異[1];Zheng(1999)發(fā)現(xiàn),規(guī)模增長(zhǎng)較快的基金業(yè)績(jī)表現(xiàn)顯著占優(yōu)[2];Kacperczyk等(2007)研究表明,實(shí)際益與持倉(cāng)模擬收益差異較大的基金未來(lái)表現(xiàn)較好[3]。近年來(lái),利用機(jī)器學(xué)習(xí)進(jìn)行選基研究成為新興研究熱點(diǎn)。DeMiguel等(2021)發(fā)現(xiàn),多種機(jī)器學(xué)習(xí)模型均可有效挖掘基金基本特征中蘊(yùn)含的有效信息[4]。陳曉非(2022)根據(jù)基金歷史凈值,使用多種深度學(xué)習(xí)模型實(shí)現(xiàn)了基金收益的有效預(yù)測(cè)[5]。李仁宇等(2023)基于已有選基因子,比較多因子模型與LightGBM模型的選基性能,結(jié)果證明LightGBM模型顯著占優(yōu)[6]。
我國(guó)公募基金定期報(bào)告披露頻率較低,披露信息滯后,鮮有利用基金定期報(bào)告披露信息的選基研究。本文將從我國(guó)公募基金定期報(bào)告披露的信息入手,分別通過(guò)線性模型與機(jī)器學(xué)習(xí)模型挖掘有效信息,探索利用基金基本特征能否有效選基,以此為基礎(chǔ),探討機(jī)器學(xué)習(xí)模型相較于多因子模型在特征篩選與組合優(yōu)化維度上是否更具優(yōu)勢(shì)。
綜合考慮樣本容量和實(shí)際交易需求,本文基金研究樣本選用2009—2023年中國(guó)公募偏股基金,剔除了股票投資資產(chǎn)凈值比不足50%的基金以及規(guī)模不足2億元的基金。
本文采用的中國(guó)公募基金特征數(shù)據(jù)中,除Fama French五因子數(shù)據(jù)來(lái)自國(guó)泰安(CSMAR)數(shù)據(jù)庫(kù),其他基金特征數(shù)據(jù)均來(lái)自恒生聚源數(shù)據(jù)庫(kù)。
1.2.1 線性回歸
傳統(tǒng)的線性回歸模型以最小化殘差平方和為目標(biāo)函數(shù),用來(lái)捕捉一個(gè)或多個(gè)自變量同因變量的線性相關(guān)關(guān)系,即
其中,Y為因變量,X為自變量,β為回歸系數(shù),ε為回歸殘差。給定一組自變量取值Xi,相對(duì)應(yīng)的因變量真實(shí)取值為Yi,線性回歸模型預(yù)測(cè)值為,對(duì)應(yīng)殘差平方和(SSE)為
其中,n為樣本數(shù)量,通過(guò)最小二乘法,最小化殘差平方和求解模型最優(yōu)回歸參數(shù),該模型稱(chēng)為普通最小二乘回歸(OLS),其廣泛應(yīng)用于因子選基領(lǐng)域。
本文將OLS模型作為基準(zhǔn)模型,探討機(jī)器學(xué)習(xí)算法相較于線性回歸模型在特征篩選與組合優(yōu)化維度是否更具優(yōu)勢(shì)。
1.2.2 決策樹(shù)與隨機(jī)森林
根據(jù)決策樹(shù)預(yù)測(cè)輸出結(jié)果的不同,決策樹(shù)可以分為分類(lèi)樹(shù)和回歸樹(shù)兩類(lèi)。決策樹(shù)模型的核心邏輯是根據(jù)度量標(biāo)準(zhǔn)為依據(jù),從樹(shù)根開(kāi)始,選擇最優(yōu)特征逐級(jí)分裂,遞推生成一棵完整的決策樹(shù)。目前,業(yè)界大多會(huì)使用信息增益、信息增益比、基尼系數(shù)作為分裂標(biāo)準(zhǔn)?;嵯禂?shù)對(duì)應(yīng)的算法為回歸分類(lèi)樹(shù)(CART),既可以解決分類(lèi)問(wèn)題,又可以解決回歸問(wèn)題,因此本文將使用CART回歸樹(shù)預(yù)測(cè)基金收益。
本文將通過(guò)隨機(jī)森林(Random Forest)集成算法來(lái)規(guī)避樹(shù)模型的欠擬合或過(guò)擬合問(wèn)題。隨機(jī)森林通過(guò)重置抽樣的方式隨機(jī)采樣,隨機(jī)構(gòu)造多個(gè)樣本,在每個(gè)樣本上生成決策樹(shù),集成隨機(jī)森林中每棵決策樹(shù)的預(yù)測(cè)結(jié)果形成最終預(yù)測(cè)結(jié)論。
由于隨機(jī)采樣的過(guò)程保證了隨機(jī)性,隨機(jī)森林中既有預(yù)測(cè)能力極強(qiáng)的強(qiáng)樹(shù)(過(guò)擬合),也有預(yù)測(cè)能力較弱的弱樹(shù)(欠擬合),當(dāng)隨機(jī)森林中的樹(shù)足夠多時(shí),過(guò)擬合與欠擬合的預(yù)測(cè)結(jié)果相互抵消,從而保證了最終預(yù)測(cè)結(jié)果的穩(wěn)定。
為了降低樹(shù)模型之間的相關(guān)性,提高模型的預(yù)測(cè)性能,需要提高隨機(jī)樣本的隨機(jī)性。因此,在進(jìn)行重置抽樣時(shí),既要在樣本上隨機(jī)(行采樣),即從含有個(gè)原始樣本的樣本集中以重置(放回)抽樣的方式自助采樣出一個(gè)新的含有個(gè)樣本的樣本集;也要在特征上隨機(jī)(列采樣),即在全部的個(gè)特征中,每次自助采樣僅隨機(jī)選擇其中的個(gè)特征。
1.3.1 信息系數(shù)分析
信息系數(shù)(Information Coefficient,IC),是指當(dāng)期因子值同下一期標(biāo)的資產(chǎn)實(shí)際收益之間的秩相關(guān)系數(shù),越大,模型對(duì)基金下期收益率的預(yù)測(cè)作用也就越強(qiáng)。
秩相關(guān)系數(shù),又稱(chēng)斯皮爾曼相關(guān)系數(shù)(Spearman's rank correlation coefficient),指代排序變量之間的皮爾遜相關(guān)系數(shù)。由于在實(shí)際基金投資的過(guò)程中,基金收益表現(xiàn)得相對(duì)優(yōu)劣更具參考意義,因此選用秩相關(guān)系數(shù)衡量線性因子有效性。
1.3.2 置換檢驗(yàn)
線性模型可以通過(guò)信息系數(shù)分析判斷特征的重要性,而非線性模型判斷特征的重要性相對(duì)困難。隨機(jī)森林雖然是非線性模型,但隨機(jī)森林可以通過(guò)置換檢驗(yàn)判斷特征對(duì)預(yù)測(cè)的重要性。
置換檢驗(yàn)的核心思想是:如果特征j是重要特征,那么將特征j替換為白噪聲后,模型的預(yù)測(cè)誤差會(huì)上升,模型的性能會(huì)下降。對(duì)樣本數(shù)量為n的數(shù)據(jù)集通過(guò)重置抽樣進(jìn)行自助采樣,如果采樣集的樣本數(shù)量也為n,那么沒(méi)有被選到的樣本約占(1-1/n)n,當(dāng)n很大時(shí),其極限約為0.368,每次通過(guò)重置抽樣自助取樣時(shí),約有2/3的數(shù)據(jù)入選訓(xùn)練集,仍有1/3的包外數(shù)據(jù)(OOB),既然可以通過(guò)OOB數(shù)據(jù)計(jì)算包外預(yù)測(cè)誤差來(lái)判斷模型的泛用性,那么也可以通過(guò)計(jì)算數(shù)據(jù)置換前后隨機(jī)樹(shù)的預(yù)測(cè)誤差來(lái)評(píng)估特征重要性。假設(shè)隨機(jī)森林中共有棵隨機(jī)樹(shù),特征j重要性的計(jì)算公式為
其中,εt代表隨機(jī)樹(shù)t的預(yù)測(cè)誤差,代表包外數(shù)據(jù),OOB代表置換為白噪聲的包外數(shù)據(jù)。如果將特征j替換為白噪聲后,模型的預(yù)測(cè)誤差大幅增加,說(shuō)明特征j對(duì)模型的預(yù)測(cè)結(jié)果非常關(guān)鍵,那么特征j就是一個(gè)重要特征。
本文采用了決策樹(shù)模型與隨機(jī)森林集成模型,通過(guò)基金特征預(yù)測(cè)基金收益,實(shí)現(xiàn)基金優(yōu)選。綜合考慮樣本容量及數(shù)據(jù)更新頻率,采用月頻預(yù)測(cè)。每期采用t-1期的K個(gè)基金特征作為模型輸入特征,t期基金實(shí)際收益作為模型標(biāo)簽。完成模型訓(xùn)練后使用t期基金特征預(yù)測(cè)基金t+1期基金收益。
模型在整個(gè)數(shù)據(jù)集上采取滑動(dòng)窗口進(jìn)行訓(xùn)練和預(yù)測(cè)?;瑒?dòng)窗口大小為N,一共包含組月頻基金特征及基金月度歷史收益,使用N組月頻數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型訓(xùn)練完畢后,使用當(dāng)期基金特征預(yù)測(cè)基金未來(lái)一期月度收益,從而構(gòu)建基金投資組合。當(dāng)前窗口模型訓(xùn)練和收益預(yù)測(cè)完成后,窗口向后滑動(dòng)1個(gè)數(shù)據(jù)點(diǎn)作為新的訓(xùn)練集。特別說(shuō)明,從第2個(gè)滑動(dòng)窗口開(kāi)始,當(dāng)前窗口訓(xùn)練數(shù)據(jù)與前一窗口訓(xùn)練數(shù)據(jù)存在部分交集。
舉例說(shuō)明,當(dāng)滑動(dòng)窗口N=12時(shí),假設(shè)當(dāng)前時(shí)點(diǎn)為2022年1月,訓(xùn)練集特征由2021年1月—2021年12月基金特征構(gòu)成,訓(xùn)練集標(biāo)簽由2021年2月—2022年1月基金月度收益率構(gòu)成。模型訓(xùn)練完成后,通過(guò)2022年1月基金特征數(shù)據(jù)預(yù)測(cè)2022年2月基金月度收益,進(jìn)而根據(jù)基金收益預(yù)測(cè)結(jié)果構(gòu)建2022年2月基金月度投資組合。
本文所采用的基金特征及基金收益數(shù)據(jù)均已日頻計(jì)算,部分基金特征底層數(shù)據(jù)季度或半年度更新,則根據(jù)對(duì)應(yīng)定期報(bào)告披露日期向后填充為日頻數(shù)據(jù)。本文參考相關(guān)文獻(xiàn),構(gòu)建了多個(gè)基金特征,基金特征詳細(xì)說(shuō)明如表1所示。
表1 基金特征說(shuō)明
通過(guò)置換檢驗(yàn),本文逐期計(jì)算了所選基金特征對(duì)預(yù)測(cè)基金收益的重要性,將重要性統(tǒng)一規(guī)模后求解平均值作為整個(gè)樣本期的特征重要性;同時(shí),計(jì)算了樣本期內(nèi)基金特征與基金未來(lái)一期收益的信息系數(shù)的平均值的絕對(duì)值作為可比對(duì)象(見(jiàn)表2)。
表2 特征重要性分析結(jié)果
信息系數(shù)分析結(jié)果表明,在線性模型中,除基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA同基金未來(lái)一期收益的線性相關(guān)性相對(duì)顯著,可以發(fā)揮一定的預(yù)測(cè)作用,其他基金特征同基金未來(lái)一期收益幾乎沒(méi)有線性相關(guān)性,因此在線性模型中難以對(duì)基金未來(lái)收益進(jìn)行有效預(yù)測(cè)。
置換檢驗(yàn)的結(jié)果表明,從整個(gè)樣本期來(lái)看,在分類(lèi)回歸樹(shù)與隨機(jī)森林模型中,15個(gè)基金特征都會(huì)對(duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生顯著影響,這意味著這15個(gè)特征均都與基金未來(lái)收益息息相關(guān)。采用分類(lèi)決策樹(shù)與隨機(jī)森林模型預(yù)測(cè)基金的未來(lái)收益將能夠充分利用這15個(gè)基金特征中所蘊(yùn)含的信息。
同信息系數(shù)分析結(jié)果相似之處在于,基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA對(duì)整個(gè)模型的預(yù)測(cè)結(jié)果影響較大。不同之處在于,除這兩個(gè)基金特征外,F(xiàn)ama French 5因子模型可決系數(shù)RSquare、市場(chǎng)因子收益率的t統(tǒng)計(jì)量MKT_T、價(jià)值因子收益率的t統(tǒng)計(jì)量HML_T、盈利因子收益率的t統(tǒng)計(jì)量RMW_T、投資因子收益率的t統(tǒng)計(jì)量CMA_T等特征在分類(lèi)回歸樹(shù)與隨機(jī)森林模型中的重要性相對(duì)較高。
相較于傳統(tǒng)的因子挖掘方法只能捕捉變量間的線性相關(guān)關(guān)系,分類(lèi)回歸樹(shù)及隨機(jī)森林可以捕捉到變量間的線性及非線性關(guān)系,在因子挖掘上具備顯著優(yōu)勢(shì)。
為考察所選基金特征及決策樹(shù)模型(Decision Tree)與隨機(jī)森林(Random Forest)模型在中國(guó)公募基金市場(chǎng)的選基能力,本文采用2009年1月至2023年7月中國(guó)公募基金相關(guān)數(shù)據(jù)對(duì)模型進(jìn)行回溯測(cè)試。根據(jù)模型預(yù)測(cè)基金收益來(lái)構(gòu)建基金投資組合,通過(guò)分組檢驗(yàn)與多空檢驗(yàn)考察模型性能。本文同樣測(cè)試了傳統(tǒng)線性模型(OLS)的選基性能作為模型比較基準(zhǔn)。機(jī)器學(xué)習(xí)模型與傳統(tǒng)線性模型均采用月頻滾動(dòng)預(yù)測(cè),滾動(dòng)窗口N設(shè)定為24個(gè)月。機(jī)器學(xué)習(xí)模型與OLS模型的回測(cè)結(jié)果如表3所示。
表3 基金投資組合收益表現(xiàn)
從整體上看,通過(guò)決策樹(shù)和隨機(jī)森林模型預(yù)測(cè)基金收益構(gòu)建的多頭及多空投資組合均可獲得正向的超額收益。不僅如此,從分組檢驗(yàn)組合單調(diào)性、組合年化收益率、組合收益波動(dòng)比來(lái)看,相較于傳統(tǒng)線性模型(OLS),決策樹(shù)及隨機(jī)森林模型組合優(yōu)化維度更具優(yōu)勢(shì)。
根據(jù)模型回測(cè)結(jié)果,機(jī)器學(xué)習(xí)模型預(yù)測(cè)收益信息系數(shù)IC為0.07,高于傳統(tǒng)線性模型預(yù)測(cè)收益信息系數(shù)。機(jī)器學(xué)習(xí)模型多頭組合年化收益率達(dá)到17.12%,多空組合年化收益率達(dá)到8.77%,傳統(tǒng)線性模型年化收益率則為14.56%,多空組合年化收益率只有6.22%,說(shuō)明機(jī)器學(xué)習(xí)模型構(gòu)建的多頭及多空組合顯著占優(yōu)。相較于傳統(tǒng)線性模型分組檢驗(yàn)的結(jié)果,機(jī)器學(xué)習(xí)模型分組單調(diào)性更強(qiáng)。綜合以上結(jié)果,可以得出結(jié)論,相較于傳統(tǒng)線性模型,機(jī)器學(xué)習(xí)模型組合構(gòu)建能力顯著占優(yōu)。
本文采用了基金定期報(bào)告與基金凈值數(shù)據(jù),構(gòu)建了15個(gè)基金特征,并分別構(gòu)建了決策樹(shù)及隨機(jī)森林模型與傳統(tǒng)線性模型,通過(guò)基金特征預(yù)測(cè)基金未來(lái)收益。
本文一方面通過(guò)置換檢驗(yàn)與信息系數(shù)分析,證明了相較于傳統(tǒng)線性模型僅能捕捉基金特征與未來(lái)收益的線性相關(guān)性,決策樹(shù)及隨機(jī)森林模型可以有效挖掘基金特征與未來(lái)收益之間的線性及非線性相關(guān)性,在因子挖掘?qū)用婢邆滹@著優(yōu)勢(shì)。另一方面,通過(guò)分組檢驗(yàn)與信息系數(shù)分析,本文對(duì)比了決策樹(shù)及隨機(jī)森林模型與傳統(tǒng)線性模型的信息集成能力。實(shí)證檢驗(yàn)結(jié)果表明,相較于傳統(tǒng)線性模型,決策樹(shù)及隨機(jī)森林模型在組合優(yōu)化維度更具優(yōu)勢(shì)。
綜上所述,在我國(guó)公募基金市場(chǎng),盡管公募基金定期報(bào)告披露頻率相對(duì)較低,但是通過(guò)決策樹(shù)及隨機(jī)森林模型能夠充分挖掘基金定期報(bào)告中蘊(yùn)含的非線性定價(jià)信息。相較于傳統(tǒng)線性模型,決策樹(shù)及隨機(jī)森林模型信息集成能力強(qiáng),具備更高的預(yù)測(cè)精度,更有利于組合構(gòu)建。