亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的基金收益預(yù)測與投資組合研究

2023-11-15 07:04:10王天業(yè)萬宇杰段思睿羅希意

中阿科技論壇(中英文) 2023年11期

王天業(yè) 萬宇杰段思睿張偉羅希意

（1.西南證券股份有限公司,重慶 400025；2.重慶郵電大學(xué),重慶 400065）

2023年7月，國務(wù)院常務(wù)會議提出，“要活躍資本市場，提振投資者信心”。基金作為資本市場的重要組成部分，對于推動(dòng)中國金融高質(zhì)量發(fā)展中起著至關(guān)重要的作用。近年來，基金產(chǎn)品數(shù)量激增，繁多的產(chǎn)品數(shù)量，相對滯后的披露信息為投資者選基帶來了困難，選基研究重要性凸顯。

早期的選基研究圍繞基金業(yè)績與持倉數(shù)據(jù)。Grinblatt等（1994）發(fā)現(xiàn)，基于動(dòng)量策略投資的基金表現(xiàn)較為優(yōu)異[1]；Zheng（1999）發(fā)現(xiàn)，規(guī)模增長較快的基金業(yè)績表現(xiàn)顯著占優(yōu)[2]；Kacperczyk等（2007）研究表明，實(shí)際益與持倉模擬收益差異較大的基金未來表現(xiàn)較好[3]。近年來，利用機(jī)器學(xué)習(xí)進(jìn)行選基研究成為新興研究熱點(diǎn)。DeMiguel等（2021）發(fā)現(xiàn)，多種機(jī)器學(xué)習(xí)模型均可有效挖掘基金基本特征中蘊(yùn)含的有效信息[4]。陳曉非（2022）根據(jù)基金歷史凈值，使用多種深度學(xué)習(xí)模型實(shí)現(xiàn)了基金收益的有效預(yù)測[5]。李仁宇等（2023）基于已有選基因子，比較多因子模型與LightGBM模型的選基性能，結(jié)果證明LightGBM模型顯著占優(yōu)[6]。

我國公募基金定期報(bào)告披露頻率較低，披露信息滯后，鮮有利用基金定期報(bào)告披露信息的選基研究。本文將從我國公募基金定期報(bào)告披露的信息入手，分別通過線性模型與機(jī)器學(xué)習(xí)模型挖掘有效信息，探索利用基金基本特征能否有效選基，以此為基礎(chǔ)，探討機(jī)器學(xué)習(xí)模型相較于多因子模型在特征篩選與組合優(yōu)化維度上是否更具優(yōu)勢。

1 實(shí)驗(yàn)設(shè)計(jì)

1.1 樣本數(shù)據(jù)

綜合考慮樣本容量和實(shí)際交易需求，本文基金研究樣本選用2009—2023年中國公募偏股基金，剔除了股票投資資產(chǎn)凈值比不足50%的基金以及規(guī)模不足2億元的基金。

本文采用的中國公募基金特征數(shù)據(jù)中，除Fama French五因子數(shù)據(jù)來自國泰安（CSMAR）數(shù)據(jù)庫，其他基金特征數(shù)據(jù)均來自恒生聚源數(shù)據(jù)庫。

1.2 模型說明

1.2.1 線性回歸

傳統(tǒng)的線性回歸模型以最小化殘差平方和為目標(biāo)函數(shù)，用來捕捉一個(gè)或多個(gè)自變量同因變量的線性相關(guān)關(guān)系，即

其中，Y為因變量，X為自變量，β為回歸系數(shù)，ε為回歸殘差。給定一組自變量取值Xi，相對應(yīng)的因變量真實(shí)取值為Yi，線性回歸模型預(yù)測值為，對應(yīng)殘差平方和（SSE）為

其中，n為樣本數(shù)量，通過最小二乘法，最小化殘差平方和求解模型最優(yōu)回歸參數(shù)，該模型稱為普通最小二乘回歸（OLS），其廣泛應(yīng)用于因子選基領(lǐng)域。

本文將OLS模型作為基準(zhǔn)模型，探討機(jī)器學(xué)習(xí)算法相較于線性回歸模型在特征篩選與組合優(yōu)化維度是否更具優(yōu)勢。

1.2.2 決策樹與隨機(jī)森林

根據(jù)決策樹預(yù)測輸出結(jié)果的不同，決策樹可以分為分類樹和回歸樹兩類。決策樹模型的核心邏輯是根據(jù)度量標(biāo)準(zhǔn)為依據(jù)，從樹根開始，選擇最優(yōu)特征逐級分裂，遞推生成一棵完整的決策樹。目前，業(yè)界大多會使用信息增益、信息增益比、基尼系數(shù)作為分裂標(biāo)準(zhǔn)。基尼系數(shù)對應(yīng)的算法為回歸分類樹（CART），既可以解決分類問題，又可以解決回歸問題，因此本文將使用CART回歸樹預(yù)測基金收益。

本文將通過隨機(jī)森林（Random Forest）集成算法來規(guī)避樹模型的欠擬合或過擬合問題。隨機(jī)森林通過重置抽樣的方式隨機(jī)采樣，隨機(jī)構(gòu)造多個(gè)樣本，在每個(gè)樣本上生成決策樹，集成隨機(jī)森林中每棵決策樹的預(yù)測結(jié)果形成最終預(yù)測結(jié)論。

由于隨機(jī)采樣的過程保證了隨機(jī)性，隨機(jī)森林中既有預(yù)測能力極強(qiáng)的強(qiáng)樹（過擬合），也有預(yù)測能力較弱的弱樹（欠擬合），當(dāng)隨機(jī)森林中的樹足夠多時(shí)，過擬合與欠擬合的預(yù)測結(jié)果相互抵消，從而保證了最終預(yù)測結(jié)果的穩(wěn)定。

為了降低樹模型之間的相關(guān)性，提高模型的預(yù)測性能，需要提高隨機(jī)樣本的隨機(jī)性。因此，在進(jìn)行重置抽樣時(shí)，既要在樣本上隨機(jī)（行采樣），即從含有個(gè)原始樣本的樣本集中以重置（放回）抽樣的方式自助采樣出一個(gè)新的含有個(gè)樣本的樣本集；也要在特征上隨機(jī)（列采樣），即在全部的個(gè)特征中，每次自助采樣僅隨機(jī)選擇其中的個(gè)特征。

1.3 因子有效性檢驗(yàn)

1.3.1 信息系數(shù)分析

信息系數(shù)（Information Coefficient，IC），是指當(dāng)期因子值同下一期標(biāo)的資產(chǎn)實(shí)際收益之間的秩相關(guān)系數(shù)，越大，模型對基金下期收益率的預(yù)測作用也就越強(qiáng)。

秩相關(guān)系數(shù)，又稱斯皮爾曼相關(guān)系數(shù)（Spearman's rank correlation coefficient），指代排序變量之間的皮爾遜相關(guān)系數(shù)。由于在實(shí)際基金投資的過程中，基金收益表現(xiàn)得相對優(yōu)劣更具參考意義，因此選用秩相關(guān)系數(shù)衡量線性因子有效性。

1.3.2 置換檢驗(yàn)

線性模型可以通過信息系數(shù)分析判斷特征的重要性，而非線性模型判斷特征的重要性相對困難。隨機(jī)森林雖然是非線性模型，但隨機(jī)森林可以通過置換檢驗(yàn)判斷特征對預(yù)測的重要性。

置換檢驗(yàn)的核心思想是：如果特征j是重要特征，那么將特征j替換為白噪聲后，模型的預(yù)測誤差會上升，模型的性能會下降。對樣本數(shù)量為n的數(shù)據(jù)集通過重置抽樣進(jìn)行自助采樣，如果采樣集的樣本數(shù)量也為n，那么沒有被選到的樣本約占(1-1/n)n，當(dāng)n很大時(shí)，其極限約為0.368，每次通過重置抽樣自助取樣時(shí)，約有2/3的數(shù)據(jù)入選訓(xùn)練集，仍有1/3的包外數(shù)據(jù)（OOB），既然可以通過OOB數(shù)據(jù)計(jì)算包外預(yù)測誤差來判斷模型的泛用性，那么也可以通過計(jì)算數(shù)據(jù)置換前后隨機(jī)樹的預(yù)測誤差來評估特征重要性。假設(shè)隨機(jī)森林中共有棵隨機(jī)樹，特征j重要性的計(jì)算公式為

其中，εt代表隨機(jī)樹t的預(yù)測誤差，代表包外數(shù)據(jù)，OOB代表置換為白噪聲的包外數(shù)據(jù)。如果將特征j替換為白噪聲后，模型的預(yù)測誤差大幅增加，說明特征j對模型的預(yù)測結(jié)果非常關(guān)鍵，那么特征j就是一個(gè)重要特征。

1.4 模型設(shè)計(jì)

本文采用了決策樹模型與隨機(jī)森林集成模型，通過基金特征預(yù)測基金收益，實(shí)現(xiàn)基金優(yōu)選。綜合考慮樣本容量及數(shù)據(jù)更新頻率，采用月頻預(yù)測。每期采用t-1期的K個(gè)基金特征作為模型輸入特征，t期基金實(shí)際收益作為模型標(biāo)簽。完成模型訓(xùn)練后使用t期基金特征預(yù)測基金t+1期基金收益。

模型在整個(gè)數(shù)據(jù)集上采取滑動(dòng)窗口進(jìn)行訓(xùn)練和預(yù)測?；瑒?dòng)窗口大小為N，一共包含組月頻基金特征及基金月度歷史收益，使用N組月頻數(shù)據(jù)進(jìn)行模型訓(xùn)練，模型訓(xùn)練完畢后，使用當(dāng)期基金特征預(yù)測基金未來一期月度收益，從而構(gòu)建基金投資組合。當(dāng)前窗口模型訓(xùn)練和收益預(yù)測完成后，窗口向后滑動(dòng)1個(gè)數(shù)據(jù)點(diǎn)作為新的訓(xùn)練集。特別說明，從第2個(gè)滑動(dòng)窗口開始，當(dāng)前窗口訓(xùn)練數(shù)據(jù)與前一窗口訓(xùn)練數(shù)據(jù)存在部分交集。

舉例說明，當(dāng)滑動(dòng)窗口N=12時(shí)，假設(shè)當(dāng)前時(shí)點(diǎn)為2022年1月，訓(xùn)練集特征由2021年1月—2021年12月基金特征構(gòu)成，訓(xùn)練集標(biāo)簽由2021年2月—2022年1月基金月度收益率構(gòu)成。模型訓(xùn)練完成后，通過2022年1月基金特征數(shù)據(jù)預(yù)測2022年2月基金月度收益，進(jìn)而根據(jù)基金收益預(yù)測結(jié)果構(gòu)建2022年2月基金月度投資組合。

1.5 特征及標(biāo)簽說明

本文所采用的基金特征及基金收益數(shù)據(jù)均已日頻計(jì)算，部分基金特征底層數(shù)據(jù)季度或半年度更新，則根據(jù)對應(yīng)定期報(bào)告披露日期向后填充為日頻數(shù)據(jù)。本文參考相關(guān)文獻(xiàn)，構(gòu)建了多個(gè)基金特征，基金特征詳細(xì)說明如表1所示。

表1 基金特征說明

2 實(shí)證檢驗(yàn)

2.1 特征重要性分析

通過置換檢驗(yàn)，本文逐期計(jì)算了所選基金特征對預(yù)測基金收益的重要性，將重要性統(tǒng)一規(guī)模后求解平均值作為整個(gè)樣本期的特征重要性；同時(shí)，計(jì)算了樣本期內(nèi)基金特征與基金未來一期收益的信息系數(shù)的平均值的絕對值作為可比對象（見表2）。

表2 特征重要性分析結(jié)果

信息系數(shù)分析結(jié)果表明，在線性模型中，除基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA同基金未來一期收益的線性相關(guān)性相對顯著，可以發(fā)揮一定的預(yù)測作用，其他基金特征同基金未來一期收益幾乎沒有線性相關(guān)性，因此在線性模型中難以對基金未來收益進(jìn)行有效預(yù)測。

置換檢驗(yàn)的結(jié)果表明，從整個(gè)樣本期來看，在分類回歸樹與隨機(jī)森林模型中，15個(gè)基金特征都會對模型的預(yù)測結(jié)果產(chǎn)生顯著影響，這意味著這15個(gè)特征均都與基金未來收益息息相關(guān)。采用分類決策樹與隨機(jī)森林模型預(yù)測基金的未來收益將能夠充分利用這15個(gè)基金特征中所蘊(yùn)含的信息。

同信息系數(shù)分析結(jié)果相似之處在于，基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA對整個(gè)模型的預(yù)測結(jié)果影響較大。不同之處在于，除這兩個(gè)基金特征外，F(xiàn)ama French 5因子模型可決系數(shù)RSquare、市場因子收益率的t統(tǒng)計(jì)量MKT_T、價(jià)值因子收益率的t統(tǒng)計(jì)量HML_T、盈利因子收益率的t統(tǒng)計(jì)量RMW_T、投資因子收益率的t統(tǒng)計(jì)量CMA_T等特征在分類回歸樹與隨機(jī)森林模型中的重要性相對較高。

相較于傳統(tǒng)的因子挖掘方法只能捕捉變量間的線性相關(guān)關(guān)系，分類回歸樹及隨機(jī)森林可以捕捉到變量間的線性及非線性關(guān)系，在因子挖掘上具備顯著優(yōu)勢。

2.2 策略收益分析

為考察所選基金特征及決策樹模型（Decision Tree）與隨機(jī)森林（Random Forest）模型在中國公募基金市場的選基能力，本文采用2009年1月至2023年7月中國公募基金相關(guān)數(shù)據(jù)對模型進(jìn)行回溯測試。根據(jù)模型預(yù)測基金收益來構(gòu)建基金投資組合，通過分組檢驗(yàn)與多空檢驗(yàn)考察模型性能。本文同樣測試了傳統(tǒng)線性模型（OLS）的選基性能作為模型比較基準(zhǔn)。機(jī)器學(xué)習(xí)模型與傳統(tǒng)線性模型均采用月頻滾動(dòng)預(yù)測，滾動(dòng)窗口N設(shè)定為24個(gè)月。機(jī)器學(xué)習(xí)模型與OLS模型的回測結(jié)果如表3所示。

表3 基金投資組合收益表現(xiàn)

從整體上看，通過決策樹和隨機(jī)森林模型預(yù)測基金收益構(gòu)建的多頭及多空投資組合均可獲得正向的超額收益。不僅如此，從分組檢驗(yàn)組合單調(diào)性、組合年化收益率、組合收益波動(dòng)比來看，相較于傳統(tǒng)線性模型（OLS），決策樹及隨機(jī)森林模型組合優(yōu)化維度更具優(yōu)勢。

根據(jù)模型回測結(jié)果，機(jī)器學(xué)習(xí)模型預(yù)測收益信息系數(shù)IC為0.07，高于傳統(tǒng)線性模型預(yù)測收益信息系數(shù)。機(jī)器學(xué)習(xí)模型多頭組合年化收益率達(dá)到17.12%，多空組合年化收益率達(dá)到8.77%，傳統(tǒng)線性模型年化收益率則為14.56%，多空組合年化收益率只有6.22%，說明機(jī)器學(xué)習(xí)模型構(gòu)建的多頭及多空組合顯著占優(yōu)。相較于傳統(tǒng)線性模型分組檢驗(yàn)的結(jié)果，機(jī)器學(xué)習(xí)模型分組單調(diào)性更強(qiáng)。綜合以上結(jié)果，可以得出結(jié)論，相較于傳統(tǒng)線性模型，機(jī)器學(xué)習(xí)模型組合構(gòu)建能力顯著占優(yōu)。

3 結(jié)論與啟示

本文采用了基金定期報(bào)告與基金凈值數(shù)據(jù)，構(gòu)建了15個(gè)基金特征，并分別構(gòu)建了決策樹及隨機(jī)森林模型與傳統(tǒng)線性模型，通過基金特征預(yù)測基金未來收益。

本文一方面通過置換檢驗(yàn)與信息系數(shù)分析，證明了相較于傳統(tǒng)線性模型僅能捕捉基金特征與未來收益的線性相關(guān)性，決策樹及隨機(jī)森林模型可以有效挖掘基金特征與未來收益之間的線性及非線性相關(guān)性，在因子挖掘?qū)用婢邆滹@著優(yōu)勢。另一方面，通過分組檢驗(yàn)與信息系數(shù)分析，本文對比了決策樹及隨機(jī)森林模型與傳統(tǒng)線性模型的信息集成能力。實(shí)證檢驗(yàn)結(jié)果表明，相較于傳統(tǒng)線性模型，決策樹及隨機(jī)森林模型在組合優(yōu)化維度更具優(yōu)勢。

綜上所述，在我國公募基金市場，盡管公募基金定期報(bào)告披露頻率相對較低，但是通過決策樹及隨機(jī)森林模型能夠充分挖掘基金定期報(bào)告中蘊(yùn)含的非線性定價(jià)信息。相較于傳統(tǒng)線性模型，決策樹及隨機(jī)森林模型信息集成能力強(qiáng)，具備更高的預(yù)測精度，更有利于組合構(gòu)建。