亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的基金收益預(yù)測(cè)與投資組合研究

        2023-11-15 07:04:10王天業(yè)萬(wàn)宇杰段思睿羅希意
        中阿科技論壇(中英文) 2023年11期
        關(guān)鍵詞:決策樹(shù)線性收益

        王天業(yè) 萬(wàn)宇杰 段思睿 張 偉 羅希意

        (1.西南證券股份有限公司,重慶 400025;2.重慶郵電大學(xué),重慶 400065)

        2023年7月,國(guó)務(wù)院常務(wù)會(huì)議提出,“要活躍資本市場(chǎng),提振投資者信心”?;鹱鳛橘Y本市場(chǎng)的重要組成部分,對(duì)于推動(dòng)中國(guó)金融高質(zhì)量發(fā)展中起著至關(guān)重要的作用。近年來(lái),基金產(chǎn)品數(shù)量激增,繁多的產(chǎn)品數(shù)量,相對(duì)滯后的披露信息為投資者選基帶來(lái)了困難,選基研究重要性凸顯。

        早期的選基研究圍繞基金業(yè)績(jī)與持倉(cāng)數(shù)據(jù)。Grinblatt等(1994)發(fā)現(xiàn),基于動(dòng)量策略投資的基金表現(xiàn)較為優(yōu)異[1];Zheng(1999)發(fā)現(xiàn),規(guī)模增長(zhǎng)較快的基金業(yè)績(jī)表現(xiàn)顯著占優(yōu)[2];Kacperczyk等(2007)研究表明,實(shí)際益與持倉(cāng)模擬收益差異較大的基金未來(lái)表現(xiàn)較好[3]。近年來(lái),利用機(jī)器學(xué)習(xí)進(jìn)行選基研究成為新興研究熱點(diǎn)。DeMiguel等(2021)發(fā)現(xiàn),多種機(jī)器學(xué)習(xí)模型均可有效挖掘基金基本特征中蘊(yùn)含的有效信息[4]。陳曉非(2022)根據(jù)基金歷史凈值,使用多種深度學(xué)習(xí)模型實(shí)現(xiàn)了基金收益的有效預(yù)測(cè)[5]。李仁宇等(2023)基于已有選基因子,比較多因子模型與LightGBM模型的選基性能,結(jié)果證明LightGBM模型顯著占優(yōu)[6]。

        我國(guó)公募基金定期報(bào)告披露頻率較低,披露信息滯后,鮮有利用基金定期報(bào)告披露信息的選基研究。本文將從我國(guó)公募基金定期報(bào)告披露的信息入手,分別通過(guò)線性模型與機(jī)器學(xué)習(xí)模型挖掘有效信息,探索利用基金基本特征能否有效選基,以此為基礎(chǔ),探討機(jī)器學(xué)習(xí)模型相較于多因子模型在特征篩選與組合優(yōu)化維度上是否更具優(yōu)勢(shì)。

        1 實(shí)驗(yàn)設(shè)計(jì)

        1.1 樣本數(shù)據(jù)

        綜合考慮樣本容量和實(shí)際交易需求,本文基金研究樣本選用2009—2023年中國(guó)公募偏股基金,剔除了股票投資資產(chǎn)凈值比不足50%的基金以及規(guī)模不足2億元的基金。

        本文采用的中國(guó)公募基金特征數(shù)據(jù)中,除Fama French五因子數(shù)據(jù)來(lái)自國(guó)泰安(CSMAR)數(shù)據(jù)庫(kù),其他基金特征數(shù)據(jù)均來(lái)自恒生聚源數(shù)據(jù)庫(kù)。

        1.2 模型說(shuō)明

        1.2.1 線性回歸

        傳統(tǒng)的線性回歸模型以最小化殘差平方和為目標(biāo)函數(shù),用來(lái)捕捉一個(gè)或多個(gè)自變量同因變量的線性相關(guān)關(guān)系,即

        其中,Y為因變量,X為自變量,β為回歸系數(shù),ε為回歸殘差。給定一組自變量取值Xi,相對(duì)應(yīng)的因變量真實(shí)取值為Yi,線性回歸模型預(yù)測(cè)值為,對(duì)應(yīng)殘差平方和(SSE)為

        其中,n為樣本數(shù)量,通過(guò)最小二乘法,最小化殘差平方和求解模型最優(yōu)回歸參數(shù),該模型稱(chēng)為普通最小二乘回歸(OLS),其廣泛應(yīng)用于因子選基領(lǐng)域。

        本文將OLS模型作為基準(zhǔn)模型,探討機(jī)器學(xué)習(xí)算法相較于線性回歸模型在特征篩選與組合優(yōu)化維度是否更具優(yōu)勢(shì)。

        1.2.2 決策樹(shù)與隨機(jī)森林

        根據(jù)決策樹(shù)預(yù)測(cè)輸出結(jié)果的不同,決策樹(shù)可以分為分類(lèi)樹(shù)和回歸樹(shù)兩類(lèi)。決策樹(shù)模型的核心邏輯是根據(jù)度量標(biāo)準(zhǔn)為依據(jù),從樹(shù)根開(kāi)始,選擇最優(yōu)特征逐級(jí)分裂,遞推生成一棵完整的決策樹(shù)。目前,業(yè)界大多會(huì)使用信息增益、信息增益比、基尼系數(shù)作為分裂標(biāo)準(zhǔn)?;嵯禂?shù)對(duì)應(yīng)的算法為回歸分類(lèi)樹(shù)(CART),既可以解決分類(lèi)問(wèn)題,又可以解決回歸問(wèn)題,因此本文將使用CART回歸樹(shù)預(yù)測(cè)基金收益。

        本文將通過(guò)隨機(jī)森林(Random Forest)集成算法來(lái)規(guī)避樹(shù)模型的欠擬合或過(guò)擬合問(wèn)題。隨機(jī)森林通過(guò)重置抽樣的方式隨機(jī)采樣,隨機(jī)構(gòu)造多個(gè)樣本,在每個(gè)樣本上生成決策樹(shù),集成隨機(jī)森林中每棵決策樹(shù)的預(yù)測(cè)結(jié)果形成最終預(yù)測(cè)結(jié)論。

        由于隨機(jī)采樣的過(guò)程保證了隨機(jī)性,隨機(jī)森林中既有預(yù)測(cè)能力極強(qiáng)的強(qiáng)樹(shù)(過(guò)擬合),也有預(yù)測(cè)能力較弱的弱樹(shù)(欠擬合),當(dāng)隨機(jī)森林中的樹(shù)足夠多時(shí),過(guò)擬合與欠擬合的預(yù)測(cè)結(jié)果相互抵消,從而保證了最終預(yù)測(cè)結(jié)果的穩(wěn)定。

        為了降低樹(shù)模型之間的相關(guān)性,提高模型的預(yù)測(cè)性能,需要提高隨機(jī)樣本的隨機(jī)性。因此,在進(jìn)行重置抽樣時(shí),既要在樣本上隨機(jī)(行采樣),即從含有個(gè)原始樣本的樣本集中以重置(放回)抽樣的方式自助采樣出一個(gè)新的含有個(gè)樣本的樣本集;也要在特征上隨機(jī)(列采樣),即在全部的個(gè)特征中,每次自助采樣僅隨機(jī)選擇其中的個(gè)特征。

        1.3 因子有效性檢驗(yàn)

        1.3.1 信息系數(shù)分析

        信息系數(shù)(Information Coefficient,IC),是指當(dāng)期因子值同下一期標(biāo)的資產(chǎn)實(shí)際收益之間的秩相關(guān)系數(shù),越大,模型對(duì)基金下期收益率的預(yù)測(cè)作用也就越強(qiáng)。

        秩相關(guān)系數(shù),又稱(chēng)斯皮爾曼相關(guān)系數(shù)(Spearman's rank correlation coefficient),指代排序變量之間的皮爾遜相關(guān)系數(shù)。由于在實(shí)際基金投資的過(guò)程中,基金收益表現(xiàn)得相對(duì)優(yōu)劣更具參考意義,因此選用秩相關(guān)系數(shù)衡量線性因子有效性。

        1.3.2 置換檢驗(yàn)

        線性模型可以通過(guò)信息系數(shù)分析判斷特征的重要性,而非線性模型判斷特征的重要性相對(duì)困難。隨機(jī)森林雖然是非線性模型,但隨機(jī)森林可以通過(guò)置換檢驗(yàn)判斷特征對(duì)預(yù)測(cè)的重要性。

        置換檢驗(yàn)的核心思想是:如果特征j是重要特征,那么將特征j替換為白噪聲后,模型的預(yù)測(cè)誤差會(huì)上升,模型的性能會(huì)下降。對(duì)樣本數(shù)量為n的數(shù)據(jù)集通過(guò)重置抽樣進(jìn)行自助采樣,如果采樣集的樣本數(shù)量也為n,那么沒(méi)有被選到的樣本約占(1-1/n)n,當(dāng)n很大時(shí),其極限約為0.368,每次通過(guò)重置抽樣自助取樣時(shí),約有2/3的數(shù)據(jù)入選訓(xùn)練集,仍有1/3的包外數(shù)據(jù)(OOB),既然可以通過(guò)OOB數(shù)據(jù)計(jì)算包外預(yù)測(cè)誤差來(lái)判斷模型的泛用性,那么也可以通過(guò)計(jì)算數(shù)據(jù)置換前后隨機(jī)樹(shù)的預(yù)測(cè)誤差來(lái)評(píng)估特征重要性。假設(shè)隨機(jī)森林中共有棵隨機(jī)樹(shù),特征j重要性的計(jì)算公式為

        其中,εt代表隨機(jī)樹(shù)t的預(yù)測(cè)誤差,代表包外數(shù)據(jù),OOB代表置換為白噪聲的包外數(shù)據(jù)。如果將特征j替換為白噪聲后,模型的預(yù)測(cè)誤差大幅增加,說(shuō)明特征j對(duì)模型的預(yù)測(cè)結(jié)果非常關(guān)鍵,那么特征j就是一個(gè)重要特征。

        1.4 模型設(shè)計(jì)

        本文采用了決策樹(shù)模型與隨機(jī)森林集成模型,通過(guò)基金特征預(yù)測(cè)基金收益,實(shí)現(xiàn)基金優(yōu)選。綜合考慮樣本容量及數(shù)據(jù)更新頻率,采用月頻預(yù)測(cè)。每期采用t-1期的K個(gè)基金特征作為模型輸入特征,t期基金實(shí)際收益作為模型標(biāo)簽。完成模型訓(xùn)練后使用t期基金特征預(yù)測(cè)基金t+1期基金收益。

        模型在整個(gè)數(shù)據(jù)集上采取滑動(dòng)窗口進(jìn)行訓(xùn)練和預(yù)測(cè)?;瑒?dòng)窗口大小為N,一共包含組月頻基金特征及基金月度歷史收益,使用N組月頻數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型訓(xùn)練完畢后,使用當(dāng)期基金特征預(yù)測(cè)基金未來(lái)一期月度收益,從而構(gòu)建基金投資組合。當(dāng)前窗口模型訓(xùn)練和收益預(yù)測(cè)完成后,窗口向后滑動(dòng)1個(gè)數(shù)據(jù)點(diǎn)作為新的訓(xùn)練集。特別說(shuō)明,從第2個(gè)滑動(dòng)窗口開(kāi)始,當(dāng)前窗口訓(xùn)練數(shù)據(jù)與前一窗口訓(xùn)練數(shù)據(jù)存在部分交集。

        舉例說(shuō)明,當(dāng)滑動(dòng)窗口N=12時(shí),假設(shè)當(dāng)前時(shí)點(diǎn)為2022年1月,訓(xùn)練集特征由2021年1月—2021年12月基金特征構(gòu)成,訓(xùn)練集標(biāo)簽由2021年2月—2022年1月基金月度收益率構(gòu)成。模型訓(xùn)練完成后,通過(guò)2022年1月基金特征數(shù)據(jù)預(yù)測(cè)2022年2月基金月度收益,進(jìn)而根據(jù)基金收益預(yù)測(cè)結(jié)果構(gòu)建2022年2月基金月度投資組合。

        1.5 特征及標(biāo)簽說(shuō)明

        本文所采用的基金特征及基金收益數(shù)據(jù)均已日頻計(jì)算,部分基金特征底層數(shù)據(jù)季度或半年度更新,則根據(jù)對(duì)應(yīng)定期報(bào)告披露日期向后填充為日頻數(shù)據(jù)。本文參考相關(guān)文獻(xiàn),構(gòu)建了多個(gè)基金特征,基金特征詳細(xì)說(shuō)明如表1所示。

        表1 基金特征說(shuō)明

        2 實(shí)證檢驗(yàn)

        2.1 特征重要性分析

        通過(guò)置換檢驗(yàn),本文逐期計(jì)算了所選基金特征對(duì)預(yù)測(cè)基金收益的重要性,將重要性統(tǒng)一規(guī)模后求解平均值作為整個(gè)樣本期的特征重要性;同時(shí),計(jì)算了樣本期內(nèi)基金特征與基金未來(lái)一期收益的信息系數(shù)的平均值的絕對(duì)值作為可比對(duì)象(見(jiàn)表2)。

        表2 特征重要性分析結(jié)果

        信息系數(shù)分析結(jié)果表明,在線性模型中,除基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA同基金未來(lái)一期收益的線性相關(guān)性相對(duì)顯著,可以發(fā)揮一定的預(yù)測(cè)作用,其他基金特征同基金未來(lái)一期收益幾乎沒(méi)有線性相關(guān)性,因此在線性模型中難以對(duì)基金未來(lái)收益進(jìn)行有效預(yù)測(cè)。

        置換檢驗(yàn)的結(jié)果表明,從整個(gè)樣本期來(lái)看,在分類(lèi)回歸樹(shù)與隨機(jī)森林模型中,15個(gè)基金特征都會(huì)對(duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生顯著影響,這意味著這15個(gè)特征均都與基金未來(lái)收益息息相關(guān)。采用分類(lèi)決策樹(shù)與隨機(jī)森林模型預(yù)測(cè)基金的未來(lái)收益將能夠充分利用這15個(gè)基金特征中所蘊(yùn)含的信息。

        同信息系數(shù)分析結(jié)果相似之處在于,基金超額收益的t統(tǒng)計(jì)量Alpha_T與基金期末凈資產(chǎn)TNA對(duì)整個(gè)模型的預(yù)測(cè)結(jié)果影響較大。不同之處在于,除這兩個(gè)基金特征外,F(xiàn)ama French 5因子模型可決系數(shù)RSquare、市場(chǎng)因子收益率的t統(tǒng)計(jì)量MKT_T、價(jià)值因子收益率的t統(tǒng)計(jì)量HML_T、盈利因子收益率的t統(tǒng)計(jì)量RMW_T、投資因子收益率的t統(tǒng)計(jì)量CMA_T等特征在分類(lèi)回歸樹(shù)與隨機(jī)森林模型中的重要性相對(duì)較高。

        相較于傳統(tǒng)的因子挖掘方法只能捕捉變量間的線性相關(guān)關(guān)系,分類(lèi)回歸樹(shù)及隨機(jī)森林可以捕捉到變量間的線性及非線性關(guān)系,在因子挖掘上具備顯著優(yōu)勢(shì)。

        2.2 策略收益分析

        為考察所選基金特征及決策樹(shù)模型(Decision Tree)與隨機(jī)森林(Random Forest)模型在中國(guó)公募基金市場(chǎng)的選基能力,本文采用2009年1月至2023年7月中國(guó)公募基金相關(guān)數(shù)據(jù)對(duì)模型進(jìn)行回溯測(cè)試。根據(jù)模型預(yù)測(cè)基金收益來(lái)構(gòu)建基金投資組合,通過(guò)分組檢驗(yàn)與多空檢驗(yàn)考察模型性能。本文同樣測(cè)試了傳統(tǒng)線性模型(OLS)的選基性能作為模型比較基準(zhǔn)。機(jī)器學(xué)習(xí)模型與傳統(tǒng)線性模型均采用月頻滾動(dòng)預(yù)測(cè),滾動(dòng)窗口N設(shè)定為24個(gè)月。機(jī)器學(xué)習(xí)模型與OLS模型的回測(cè)結(jié)果如表3所示。

        表3 基金投資組合收益表現(xiàn)

        從整體上看,通過(guò)決策樹(shù)和隨機(jī)森林模型預(yù)測(cè)基金收益構(gòu)建的多頭及多空投資組合均可獲得正向的超額收益。不僅如此,從分組檢驗(yàn)組合單調(diào)性、組合年化收益率、組合收益波動(dòng)比來(lái)看,相較于傳統(tǒng)線性模型(OLS),決策樹(shù)及隨機(jī)森林模型組合優(yōu)化維度更具優(yōu)勢(shì)。

        根據(jù)模型回測(cè)結(jié)果,機(jī)器學(xué)習(xí)模型預(yù)測(cè)收益信息系數(shù)IC為0.07,高于傳統(tǒng)線性模型預(yù)測(cè)收益信息系數(shù)。機(jī)器學(xué)習(xí)模型多頭組合年化收益率達(dá)到17.12%,多空組合年化收益率達(dá)到8.77%,傳統(tǒng)線性模型年化收益率則為14.56%,多空組合年化收益率只有6.22%,說(shuō)明機(jī)器學(xué)習(xí)模型構(gòu)建的多頭及多空組合顯著占優(yōu)。相較于傳統(tǒng)線性模型分組檢驗(yàn)的結(jié)果,機(jī)器學(xué)習(xí)模型分組單調(diào)性更強(qiáng)。綜合以上結(jié)果,可以得出結(jié)論,相較于傳統(tǒng)線性模型,機(jī)器學(xué)習(xí)模型組合構(gòu)建能力顯著占優(yōu)。

        3 結(jié)論與啟示

        本文采用了基金定期報(bào)告與基金凈值數(shù)據(jù),構(gòu)建了15個(gè)基金特征,并分別構(gòu)建了決策樹(shù)及隨機(jī)森林模型與傳統(tǒng)線性模型,通過(guò)基金特征預(yù)測(cè)基金未來(lái)收益。

        本文一方面通過(guò)置換檢驗(yàn)與信息系數(shù)分析,證明了相較于傳統(tǒng)線性模型僅能捕捉基金特征與未來(lái)收益的線性相關(guān)性,決策樹(shù)及隨機(jī)森林模型可以有效挖掘基金特征與未來(lái)收益之間的線性及非線性相關(guān)性,在因子挖掘?qū)用婢邆滹@著優(yōu)勢(shì)。另一方面,通過(guò)分組檢驗(yàn)與信息系數(shù)分析,本文對(duì)比了決策樹(shù)及隨機(jī)森林模型與傳統(tǒng)線性模型的信息集成能力。實(shí)證檢驗(yàn)結(jié)果表明,相較于傳統(tǒng)線性模型,決策樹(shù)及隨機(jī)森林模型在組合優(yōu)化維度更具優(yōu)勢(shì)。

        綜上所述,在我國(guó)公募基金市場(chǎng),盡管公募基金定期報(bào)告披露頻率相對(duì)較低,但是通過(guò)決策樹(shù)及隨機(jī)森林模型能夠充分挖掘基金定期報(bào)告中蘊(yùn)含的非線性定價(jià)信息。相較于傳統(tǒng)線性模型,決策樹(shù)及隨機(jī)森林模型信息集成能力強(qiáng),具備更高的預(yù)測(cè)精度,更有利于組合構(gòu)建。

        猜你喜歡
        決策樹(shù)線性收益
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        線性回歸方程的求解與應(yīng)用
        螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        二階線性微分方程的解法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        2015年理財(cái)“6宗最”誰(shuí)能給你穩(wěn)穩(wěn)的收益
        金色年華(2016年1期)2016-02-28 01:38:19
        東芝驚爆會(huì)計(jì)丑聞 憑空捏造1518億日元收益
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        一区二区三区在线免费av| www国产精品内射熟女| 中文文精品字幕一区二区| 精品一区二区三区人妻久久| 91久久精品美女高潮喷白浆| 亚洲精品国产成人片| 免费xxx在线观看| 91精品国产91热久久p| 少妇精品偷拍高潮少妇在线观看 | 色偷偷av亚洲男人的天堂| 亚洲欧美日韩国产综合专区| 国产丝袜美腿一区二区三区| 无码国产精品一区二区av| 无码国产一区二区三区四区| 九九在线精品视频xxx| 国产女人精品一区二区三区 | 久久国产精品不只是精品 | 亚洲AV无码成人精品区H| 国产三级精品av在线| 狠狠精品久久久无码中文字幕| 日韩精品无码区免费专区| 激情亚洲综合熟女婷婷| 成人大片免费观看视频| 久久www免费人成—看片| 国产免费一级在线观看| 日韩男女av中文字幕| 97久久婷婷五月综合色d啪蜜芽| 欧美人与动人物姣配xxxx| 啊v在线视频| 一区二区三区日韩精品视频| 久久99精品久久久久久9蜜桃| 国产亚洲欧美在线观看的| 91青青草视频在线播放| 欧洲美熟女乱又伦av影片| 亚洲中文字幕无码mv| 亚洲一区二区三区免费av在线 | 两个黑人大战嫩白金发美女| 日本女优中文字幕在线观看| 日韩精品熟妇一区二区三区| 97久久精品午夜一区二区| av草草久久久久久久久久久 |