方 毅 陳煜之 衛(wèi) 劍,3
1(吉林大學(xué)商學(xué)與管理學(xué)院,長(zhǎng)春 130000) 2(吉林大學(xué)數(shù)量經(jīng)濟(jì)研究中心,長(zhǎng)春 130000)3(貴州財(cái)經(jīng)大學(xué),貴陽(yáng) 550000)
人工智能是21世紀(jì)以來各國(guó)重要的發(fā)展戰(zhàn)略,同時(shí),人工智能成為國(guó)際競(jìng)爭(zhēng)的新焦點(diǎn),世界各個(gè)發(fā)達(dá)國(guó)家都把發(fā)展人工智能作為提升國(guó)家競(jìng)爭(zhēng)力、維護(hù)國(guó)家安全的重大戰(zhàn)略。在此背景下,我國(guó)加緊出臺(tái)規(guī)劃和政策,圍繞核心技術(shù)、頂尖人才、標(biāo)準(zhǔn)規(guī)范等強(qiáng)化部署,力圖在新一輪國(guó)際科技競(jìng)爭(zhēng)中掌握主導(dǎo)權(quán)。由于人工智能運(yùn)用的廣泛性,它能與各個(gè)學(xué)科緊密地交叉結(jié)合,如互聯(lián)網(wǎng)、大數(shù)據(jù)、傳感網(wǎng)、腦科學(xué)、金融和圖像處理等。許多學(xué)者也在各個(gè)學(xué)科的研究中加入了機(jī)器學(xué)習(xí)、人工智能,這些深度學(xué)習(xí)算法也逐步推動(dòng)著這些學(xué)科發(fā)展。
在經(jīng)濟(jì)金融領(lǐng)域,股票市場(chǎng)是企業(yè)連接生產(chǎn)和投入的關(guān)鍵連接點(diǎn),同時(shí)股市還是一國(guó)經(jīng)濟(jì)的晴雨表,它能反映一國(guó)的經(jīng)濟(jì)情況,因此它的波動(dòng)受到社會(huì)的廣泛關(guān)注。股票價(jià)格不僅受到國(guó)家宏觀部門所關(guān)心,它也受投資人所關(guān)注。早期,一些投資人透過股價(jià)的規(guī)律和數(shù)學(xué)模型的結(jié)合在股票市場(chǎng)中獲得了超額收益,這便是早期的人工智能與金融相結(jié)合的實(shí)戰(zhàn)產(chǎn)物,如美國(guó)文藝復(fù)興科技公司的大獎(jiǎng)?wù)禄?。隨著計(jì)算機(jī)科學(xué)和人工智能算法的不斷迭代,美國(guó)的華爾街量化投資基金如雨后春筍般崛起,如橋水、AQR等。大數(shù)據(jù)、人工智能和計(jì)算機(jī)科學(xué)的發(fā)展使這些基金能挖掘更多的套利機(jī)會(huì)。
在學(xué)術(shù)界,學(xué)者們很早就致力于通過傳統(tǒng)的計(jì)量模型來對(duì)股票價(jià)格、趨勢(shì)和收益率進(jìn)行預(yù)測(cè)并進(jìn)行交易。一些計(jì)量經(jīng)濟(jì)學(xué)家認(rèn)為通過歷史的信息可以高概率地判斷股價(jià)未來的走勢(shì),他們認(rèn)為歷史會(huì)重演。一些研究技術(shù)交易的人員發(fā)現(xiàn),股票的溢價(jià)回報(bào)與其過去的回報(bào)密切相關(guān),在不同的時(shí)間段內(nèi),股票的超額收益與其滯后收益是負(fù)相關(guān)的[1-6]。
誠(chéng)然,不僅僅是價(jià)格的歷史信息,股票的價(jià)格還受市場(chǎng)各種力量所驅(qū)使,這些影響股票價(jià)格的因素就是定價(jià)因子。隨著計(jì)算機(jī)科技的快速發(fā)展及機(jī)器學(xué)習(xí)算法的開發(fā),深度神經(jīng)網(wǎng)絡(luò)被廣泛運(yùn)用于金融領(lǐng)域,特別是在量化投資中,這主要表現(xiàn)為影響股價(jià)的特征因子不斷地被挖掘使得股票價(jià)格預(yù)測(cè)更加精準(zhǔn)[7-11]。
機(jī)器學(xué)習(xí)以其非線性的數(shù)據(jù)擬合優(yōu)勢(shì),在模型的預(yù)測(cè)精準(zhǔn)度中比傳統(tǒng)的線性模型預(yù)測(cè)誤差更低[12],因此,機(jī)器學(xué)習(xí)能更好地捕捉各個(gè)特征對(duì)金融收益率預(yù)測(cè)的影響。中國(guó)作為世界第二大經(jīng)濟(jì)體,其股市預(yù)測(cè)問題也被全球?qū)W者所關(guān)注。中國(guó)市場(chǎng)以個(gè)人投資者為主①,這些交易者的交易行為對(duì)中國(guó)股市波動(dòng)影響巨大。而不同于機(jī)構(gòu)投資者,個(gè)人投資者的交易邏輯是以技術(shù)指標(biāo)和動(dòng)量等因素驅(qū)使為主。鑒于個(gè)人交易者是一股不可忽視的力量,本文更多的關(guān)注個(gè)人交易者的交易策略對(duì)市場(chǎng)價(jià)格帶來的影響。以往的研究多從反應(yīng)不足、過度反應(yīng)、博彩偏好、羊群效應(yīng)等角度研究個(gè)人投資者情緒和心理對(duì)股票價(jià)格的影響[13,14],這些交易心理會(huì)造成市場(chǎng)出現(xiàn)較強(qiáng)的動(dòng)量、反轉(zhuǎn)、博彩和趨勢(shì)跟隨等投機(jī)現(xiàn)象?;谇叭搜芯?,本文主要運(yùn)用人工智能方法,結(jié)合中國(guó)市場(chǎng)的特點(diǎn)深入剖析影響中國(guó)市場(chǎng)的股票收益率預(yù)測(cè)因素。
近年來,許多學(xué)者通過機(jī)器學(xué)習(xí)模型結(jié)合股票市場(chǎng)特征、公司特征、交易特征等對(duì)股票收益率進(jìn)行預(yù)測(cè),大量的實(shí)證也表明機(jī)器學(xué)習(xí)在股票收益率預(yù)測(cè)中起到顯著的作用。如Phua等 (2003)[18]進(jìn)行了一項(xiàng)研究,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,以高于60%的預(yù)測(cè)精度預(yù)測(cè)了五大股指的走勢(shì)。Zhang等 (2020)[19]提出了兩階段機(jī)器學(xué)習(xí)的方法SVRENANFIS預(yù)測(cè)股票價(jià)格,將深圳交易所的4只股票預(yù)測(cè)比較后,發(fā)現(xiàn)他們提出的兩階段機(jī)器學(xué)習(xí)的方法比單一的ENANFIS預(yù)測(cè)精度要有所提高。Tsai和 Wang (2009)[20]試圖通過使用由決策樹和人工神經(jīng)網(wǎng)絡(luò)組成的集成學(xué)習(xí)來預(yù)測(cè)股票價(jià)格,他們提出的DT+ANN模型在臺(tái)灣市場(chǎng)預(yù)測(cè)的F-score的表現(xiàn)為77%,比單算法的F-score分?jǐn)?shù)表現(xiàn)高出 11%。 Huang 等 (2008)[21]將 Wrapper與SVM、KNN、BP神經(jīng)網(wǎng)絡(luò)、決策樹、Logistic回歸等模型應(yīng)用到韓國(guó)和臺(tái)灣股市預(yù)測(cè)并進(jìn)行了比較,雖然他們發(fā)現(xiàn)Wrapper方法在這兩個(gè)市場(chǎng)中是最好的,但其他算法在預(yù)測(cè)中也發(fā)揮了重要作用,平均準(zhǔn)確率為67.83%。
除了神經(jīng)網(wǎng)絡(luò)模型外,二分類的機(jī)器學(xué)習(xí)模型在金融市場(chǎng)中的預(yù)測(cè)能力也被大量學(xué)者證明,這些分類模型在對(duì)股價(jià)未來的上漲和下跌中的預(yù)測(cè)效果同樣出色。與其他模型類似,這些模型也參考了股票的歷史信息,以及上市公司的基本面情況,通過影響股價(jià)的變量和收益率進(jìn)行模型的訓(xùn)練并預(yù)測(cè)股票未來的上漲和下跌,發(fā)現(xiàn)二分類模型對(duì)股價(jià)未來漲跌預(yù)測(cè)能力較強(qiáng)。如Oztekin等(2016)[22]證明支持向量機(jī)(SVM)即使在樣本外性能上也具有顯著的預(yù)測(cè)能力,通過SVM模型、MLP-based神經(jīng)網(wǎng)絡(luò)模型和自適應(yīng)神經(jīng)模糊推理系統(tǒng)(簡(jiǎn)稱ANFIS)這3個(gè)模型預(yù)測(cè)能力的比較,發(fā)現(xiàn)三者平均準(zhǔn)確率分別為0.72、0.6和0.52,其中SVM表現(xiàn)最好。Kim (2003)[23]用韓國(guó)股票市場(chǎng)的每日時(shí)間序列訓(xùn)練SVM模型,該模型的命中率約為 56%。 Huang等 (2005)[24]嘗試使用支持向量機(jī)(SVM)來預(yù)測(cè)日本日經(jīng)225指數(shù)的周走勢(shì)。結(jié)果表明支持向量機(jī)和支持向量機(jī)的組合模型能分別達(dá)到73%和75%的命中率。
機(jī)器學(xué)習(xí)除了被用在股票的預(yù)測(cè)中,近年來也被運(yùn)用到投資組合策略的研究中,如Leippold等 (2021)[25]利用各種機(jī)器學(xué)習(xí)算法建立和分析了一套綜合的收益預(yù)測(cè)因子,從而為中國(guó)股票市場(chǎng)資產(chǎn)定價(jià)經(jīng)驗(yàn)的文獻(xiàn)增添了新的內(nèi)容。他們發(fā)現(xiàn)散戶投資者的主導(dǎo)地位對(duì)短期可預(yù)測(cè)性有積極影響,尤其是對(duì)小型股票。
這些研究表明,機(jī)器學(xué)習(xí)對(duì)股票收益率時(shí)間序列的預(yù)測(cè)有顯著的效果。不同于前人以預(yù)測(cè)精度為主的研究,本文對(duì)中國(guó)股票市場(chǎng)所有的股票進(jìn)行了預(yù)測(cè),并形成有效的投資組合以探索機(jī)器學(xué)習(xí)算法在中國(guó)股票市場(chǎng)投資組合的有效性,同時(shí),本文還重點(diǎn)挖掘噪聲交易是否對(duì)中國(guó)市場(chǎng)的股價(jià)影響較大。
本文基于前人的研究結(jié)合市面上較為廣泛的使用方法,引入了8個(gè)機(jī)器學(xué)習(xí)模型,這些模型包括了正則化線性模型、樹分類模型和深度學(xué)習(xí)模型,分別是:貝葉斯回歸(Bayesian Regression)、嶺回歸(Ridge Regression)、隨機(jī)梯度下降回歸(SGD)、 決策樹(Decision Tree)、梯度提升回歸(GBR)、支持向量機(jī)(SVR)、隨機(jī)森林(Random Forests)、 多層感知器(MLP)。
決策樹模型通常用來解決復(fù)雜的決策問題,對(duì)于數(shù)據(jù)維度較高,無法用普通的邏輯回歸模型分類尤為有效。決策樹模型通過其復(fù)雜的樹分類節(jié)點(diǎn),對(duì)各個(gè)父節(jié)點(diǎn)到子節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行有效的特征分類從而達(dá)到最優(yōu)的決策結(jié)果。決策樹根據(jù)其屬性劃分的不同和內(nèi)部節(jié)點(diǎn)的劃分不同可分為CLS、ID3、C4.5和CART等算法。
Breiman (2001)[26]提出了隨機(jī)森林算法(Random Forests),采用Bootstrap方法反復(fù)采樣。從原始訓(xùn)練樣本集N中隨機(jī)選取N個(gè)樣本,反復(fù)重新定位生成一個(gè)新的訓(xùn)練樣本集,然后根據(jù)自助樣本集生成N棵分類樹,形成一個(gè)隨機(jī)森林。新數(shù)據(jù)的分類結(jié)果由分類樹中的投票數(shù)決定。本質(zhì)上是一種決策樹算法的改進(jìn),它結(jié)合了多棵決策樹。單個(gè)樹的分類能力可能較小,但隨機(jī)生成大量決策樹后,測(cè)試樣本可以通過每棵樹的分類結(jié)果統(tǒng)計(jì)選擇最可能的分類。
支持向量回歸(SVR)是預(yù)測(cè)金融時(shí)間序列的一種有效方法,因?yàn)樗褂昧擞山?jīng)驗(yàn)誤差組成的風(fēng)險(xiǎn)函數(shù)和由結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理推導(dǎo)出的正則化項(xiàng)。它對(duì)于高維數(shù)據(jù)具有一定的優(yōu)勢(shì)。(1)即使數(shù)據(jù)是巨大的、高維的,它仍然有效;(2)決策函數(shù)中使用的訓(xùn)練樣本具有一定的記憶效應(yīng);(3)它有許多用于不同目的的內(nèi)核。然而,在某些情況下,網(wǎng)絡(luò)也有一些缺點(diǎn)。如不同的核和參數(shù)可能導(dǎo)致過擬合。當(dāng)數(shù)據(jù)集較大時(shí),會(huì)增加耗時(shí)。
貝葉斯線性回歸由 Lindley和 Smith(1972)[27]提出,它的參數(shù)被視為隨機(jī)變量,通過模型參數(shù)(權(quán)重系數(shù))的先驗(yàn)計(jì)算后驗(yàn)。貝葉斯線性回歸可以用數(shù)值方法求解,在一定條件下,可以得到其解析形式或相關(guān)統(tǒng)計(jì)量的后驗(yàn)。
嶺回歸通過對(duì)系數(shù)大小施加懲罰來解決普通最小二乘的一些問題。但由于懲罰項(xiàng)的增加,也使回歸系數(shù)β的估計(jì)不再是無偏的。嶺回歸是一種解決病態(tài)矩陣問題的回歸方法,其代價(jià)是放棄無偏性,降低精度。
多層感知器(Multi-layer Perception, MLP)從初始的隨機(jī)權(quán)值開始,通過反復(fù)更新權(quán)值來最小化損失函數(shù)。在計(jì)算損失之后,向后傳遞將其從輸出層傳播到前面的層,為每個(gè)權(quán)值的參數(shù)提供一個(gè)更新值,以減少損失。通過選擇不同的迭代步長(zhǎng)和學(xué)習(xí)率,不斷迭代和學(xué)習(xí),當(dāng)下降步數(shù)達(dá)到預(yù)設(shè)的最大迭代次數(shù)時(shí),算法停止,或者當(dāng)損失函數(shù)的改善低于一個(gè)設(shè)定的數(shù)值時(shí),迭代停止。
梯度提升回歸(GBR)實(shí)際是一種集成的算法,它的本質(zhì)是集合一堆表現(xiàn)較差的模型,通過集合的方法把各自的模型最優(yōu)性能發(fā)揮出來。它集合梯度提升和自抽樣的方式對(duì)原始數(shù)據(jù)進(jìn)行回歸,通過自抽樣的方式能獲取樣本內(nèi)不同抽樣樣本的回歸參數(shù),綜合比較得到最優(yōu)的參數(shù)估計(jì)。
隨機(jī)梯度下降(SGD)是一種簡(jiǎn)單但非常有效的方法,用以擬合線性分類器和回歸器下的凸損失函數(shù),如 (線性)支持向量機(jī)和Logistic回歸。當(dāng)樣本數(shù)量(和特征數(shù)量)非常大時(shí),它的優(yōu)勢(shì)就特別突出,它不像別的算法采用逐步下降的方式尋求最小損失函數(shù),而是采用梯度下降的方法,由于梯度下降跨度較大,它有可能會(huì)錯(cuò)失局部最優(yōu)或者全局最優(yōu)解,但大大減少了模型的訓(xùn)練時(shí)間。
本文的樣本涵蓋了上交所和深交所的全部A股,樣本數(shù)據(jù)范圍為2000年1月至2020年6月(數(shù)據(jù)來自WIND數(shù)據(jù))。為了計(jì)算移動(dòng)平均線指標(biāo),本文設(shè)定24個(gè)月為最長(zhǎng)滯后期。因此,本文的實(shí)際開始日期是2002年。2002年中國(guó)的上市公司總數(shù)約為1280家,除去新上市的公司還能保證每個(gè)投資組合至少有100只股票,滿足了投資組合多樣化的要求??紤]到A股市場(chǎng)的漲跌停限制,本文在構(gòu)建投資組合前排除任何上市時(shí)間不足6個(gè)月的公司,以避免新上市公司股價(jià)出現(xiàn)異常波動(dòng)。此外,考慮到A股市場(chǎng)可能因并購(gòu)重組而停牌,本文也排除了1年內(nèi)交易天數(shù)少于120天或1個(gè)月交易天數(shù)少于15天的公司。這些并購(gòu)重組對(duì)股票的瞬時(shí)價(jià)格影響很大,不能真實(shí)反映股票的內(nèi)在價(jià)值,所以剔除了這些股票。
根據(jù)中國(guó)股市的特點(diǎn)與前人研究,本文重點(diǎn)研究動(dòng)量、反轉(zhuǎn)、情緒和趨勢(shì)跟隨等噪聲交易指標(biāo),透過對(duì)這些指標(biāo)的研究去探索非理性交易者所關(guān)注的交易行為是否對(duì)中國(guó)股市有較深的影響,同時(shí),本文根據(jù)過往的研究,總結(jié)大部分國(guó)內(nèi)外現(xiàn)有的文獻(xiàn),選取了對(duì)價(jià)格預(yù)測(cè)有所影響的指標(biāo),并將這些指標(biāo)運(yùn)用到各個(gè)機(jī)器學(xué)習(xí)的模型中,旨在探索這些交易指標(biāo)對(duì)股票風(fēng)險(xiǎn)溢價(jià)預(yù)測(cè)的重要程度。這些指標(biāo)分別是:流通市值、盈利市值比、現(xiàn)金流市值比、賬面市值比、異質(zhì)性波動(dòng)率、20/240日平均換手率、ROE、當(dāng)日收盤價(jià)/1個(gè)月收盤價(jià)、 20 天累計(jì)收益率、 3/9/12/18/24 移動(dòng)平均線、3/6/12累計(jì)收益率、1個(gè)月內(nèi)最大收益率、20天平均換手率/240天平均換手率。
預(yù)測(cè)精度的衡量方法有很多,其中大部分都是相似的,檢驗(yàn)的主要目的是檢驗(yàn)預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差異,本文采用MSE、R2、MAE、Thile U和RMSE這5個(gè)方法對(duì)各個(gè)模型預(yù)測(cè)精度進(jìn)行對(duì)比:
在方程(1)~(5)中,是預(yù)測(cè)數(shù)據(jù),yt是真實(shí)的數(shù)據(jù),n代表預(yù)測(cè)時(shí)期數(shù)。RMSE的顯著特點(diǎn)是對(duì)誤差項(xiàng)進(jìn)行了標(biāo)準(zhǔn)化,便于不同尺度變量之間的比較。MSE則是直接反應(yīng)預(yù)測(cè)值與真實(shí)值之間的差距。式 (1)~(4)作為真實(shí)值與估計(jì)值之間的偏差度量,預(yù)測(cè)誤差值越小越好。而R2主要衡量預(yù)測(cè)值占真實(shí)值的比率,它的值越大則模型表現(xiàn)越好。
從各個(gè)指標(biāo)的描述性統(tǒng)計(jì)來看,在每個(gè)形成期中,按照上述篩選條件剔除樣本,最后共計(jì)樣本349748個(gè)。其中,Rt是所有股票的月度收益,它的均值為0.012,最大值和最小值分別為-0.78和22.053,由于本文包含了小盤股、ST股,這些股票的投機(jī)性強(qiáng),加上并購(gòu)、重組等利好消息會(huì)造成這些股票收益較高,而對(duì)于一些即將退市股票,可能存在著擠兌效應(yīng)使得個(gè)別股票的月均收益較低,因此股票收益的范圍較寬。與Liu等(2019)[13]的研究一致,文中選用流通市值作為規(guī)模因子,其對(duì)數(shù)取值范圍為8.328~19.122,均值為12.993。由于篇幅所限,不在此呈現(xiàn)。
在檢驗(yàn)各個(gè)模型對(duì)收益率的預(yù)測(cè)中,本文進(jìn)行了Horse Racing的模型比較方式,采用RMSE、Thile U、MSE、MAE和R2來分別檢驗(yàn)各個(gè)模型樣本外的預(yù)測(cè)精度。與大部分研究不同,本文注重模型的現(xiàn)實(shí)預(yù)測(cè),而非僅為了建模預(yù)測(cè)數(shù)據(jù),因此,在模型的解釋變量和被解釋變量中,滯后了1期解釋變量。具體地,將T期的各個(gè)股票收益率作為被解釋變量,將上述所選取的第T-1期的指標(biāo)作為解釋變量,將解釋變量作標(biāo)準(zhǔn)化處理后與被解釋變量進(jìn)行模型訓(xùn)練,并估計(jì)模型的超參數(shù)。最后,將T的變量輸入模型預(yù)測(cè)T+1期的收益率,這樣做的目的是為了保持與現(xiàn)實(shí)投資的一致性。本文將采取滾動(dòng)1期的預(yù)測(cè)方式,預(yù)測(cè)每一期的收益率,最后通過上述幾個(gè)預(yù)測(cè)誤差測(cè)量方式來衡量這些模型的優(yōu)劣。結(jié)果如表1所示。
表1 各模型的預(yù)測(cè)誤差
表1展示了各個(gè)模型的預(yù)測(cè)能力,從表中的8個(gè)模型的預(yù)測(cè)誤差可以看出,MLP表現(xiàn)最佳,其RMSE、Thile U、MSE、MAE最低,分別是0.711、0.571、0.682、0.394,而其R2最高,達(dá)0.684。而表現(xiàn)最差的是Decision Tree,其RMSE、MSE和MAE最高,分別為1.003、1.366和0.532,而其R2最低,為-0.607。其他模型中,傳統(tǒng)的機(jī)器學(xué)習(xí)模型表現(xiàn)較好,其中RF、Tree和SVM的RMSE、Thile U、MSE、MAE、R2的平均值為0.815、0.584、0.927、0.440和-0.088。而線性模型GBR、Bayesian、Ridge和SGD回歸的RMSE、Thile U、MSE、MAE、R2的平均值為0.728、0.585、0.714、0.407和0.157。從預(yù)測(cè)誤差的綜合表現(xiàn)能力來看,線性模型比機(jī)器學(xué)習(xí)表現(xiàn)更優(yōu),但略差于深度學(xué)習(xí)模型。從預(yù)測(cè)結(jié)果來看,機(jī)器學(xué)習(xí)的橫截面預(yù)測(cè)對(duì)股票未來收益有一定的預(yù)測(cè)作用,深度學(xué)習(xí)的預(yù)測(cè)能力更優(yōu)。
由于影響股價(jià)收益率的因素很多,本文根據(jù)前人研究,選取了20個(gè)指標(biāo)對(duì)股價(jià)未來收益率進(jìn)行預(yù)測(cè),通過滾動(dòng)訓(xùn)練模型245次后將每次變量指標(biāo)的重要性記錄,最后取平均值作為每個(gè)指標(biāo)的單個(gè)重要度量受篇幅所限,不在此處展示。
從結(jié)果來看,MA3和MA12對(duì)線性模型的貢獻(xiàn)度較高,其中,它對(duì)Bayesian和Ridge模型的平均貢獻(xiàn)度分別為2.132、1.255和1.366、0.371,這說明這個(gè)指標(biāo)在預(yù)測(cè)中的作用較大。此外EP和MOM12對(duì)線性模型訓(xùn)練的貢獻(xiàn)度也較高。相反的,Reversal的反向影響程度較高,它在Bayesian和Ridge模型的平均貢獻(xiàn)度為-2.19和-1.659。從上述的結(jié)果反映來看,價(jià)值面指標(biāo)、動(dòng)量以及趨勢(shì)指標(biāo)對(duì)股票收益率的預(yù)測(cè)起著較大的作用,這些指標(biāo)比較符合中國(guó)市場(chǎng)散戶的交易邏輯,因此,這些指標(biāo)對(duì)股價(jià)未來的走勢(shì)影響較大。
4.4.1 多空投資組合
上述結(jié)果可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)模型對(duì)中國(guó)市場(chǎng)的股票收益率有一定的預(yù)測(cè)能力。為了進(jìn)一步探究機(jī)器學(xué)習(xí)預(yù)測(cè)的量化投資能力,本文分別將預(yù)測(cè)的收益率進(jìn)行分組投資。具體而言,本文將8個(gè)模型的預(yù)測(cè)收益率和這些預(yù)測(cè)收益率的平均值(Avg.Predict)按照從小到大排序并平均分成10等分P1,P2,…,P10,最后求出賣出最低1等分、買入最高1等分以及構(gòu)建零成本的多空組合策略平均收益。同時(shí),為了獲取經(jīng)風(fēng)險(xiǎn)因子調(diào)整后的超額收益,本文引入了Fama-French的五因子模型(FF5)和L-S-Y的四因子模型(CH4)對(duì)組合收益進(jìn)行回歸,結(jié)果如下:
由于篇幅所限,結(jié)果不予展示,從模型的表現(xiàn)來看,Bayesian和Ridge的表現(xiàn)最好,其買入10等分的組合收益率分別為1.875(2.883)和1.837(2.830)。同樣,經(jīng)過FF5和CH4調(diào)整后的收益也是最高,Bayesian為 0.771(3.350)和 1.135(4.554), Ridge為 0.771(3.525)和 1.098(4.528)。SGD模型表現(xiàn)最劣,其組合平均收益率僅有1.432。從多空投資策略的組合收益來看,Bayesian和Ridge表現(xiàn)效果依舊最佳,其多空組合的平均收益為0.842和0.789。經(jīng)過FF5和CH4調(diào)整后的收益也達(dá)到0.859、0.890和0.858、0.774。為了研究機(jī)器學(xué)習(xí)策略的整體表現(xiàn),本文還加入了AVG.Predict,這個(gè)指標(biāo)是將所有模型的預(yù)測(cè)收益率平均后再進(jìn)行投資組合策略構(gòu)建。從AVG.Predict的結(jié)果來看,它的表現(xiàn)能力處于平均水平,純多頭組合僅有1.541的平均收益率,而多空組合的平均收益率也僅有0.430。
從預(yù)測(cè)結(jié)果分組來看,正則化的線性模型對(duì)預(yù)測(cè)分組效果最好,其收益率最高,傳統(tǒng)的機(jī)器學(xué)習(xí),如Decision Tree、Random Forests和SVM的效果均不如線性模型,做多10等分投資組合的平均收益為1.514,而線性模型的平均收益為1.667。同樣,構(gòu)建多空組合的投資平均收益,機(jī)器學(xué)習(xí)也僅為0.379,而線性模型為0.682。為了直觀地了解各個(gè)模型的表現(xiàn)情況,本文繪制了買入10等分的組合累計(jì)收益圖,如圖1所示。
圖1 做多10等分投資組合的累計(jì)收益
從各個(gè)模型的累計(jì)收益圖來看,Bayesian、Ridge和MPL表現(xiàn)最佳,其買入10等分的近20年累計(jì)收益達(dá)400%左右,其余模型表現(xiàn)次之,累計(jì)收益均在350%左右。這些模型的預(yù)測(cè)組合收益與滬深300走勢(shì)相似,如2002~2005年,市場(chǎng)有一段緩慢的調(diào)整周期,模型的收益率也緩慢向下,同樣,2008年金融危機(jī)和2016年的股市回調(diào)也與市場(chǎng)走勢(shì)一致。但策略組合獲取比上證指數(shù)更高的超額收益,這說明機(jī)器學(xué)習(xí)預(yù)測(cè)在中國(guó)市場(chǎng)有顯著的效果。為了研究機(jī)器學(xué)習(xí)預(yù)測(cè)組合多空策略能否抵御市場(chǎng)頻繁波動(dòng)所帶來的風(fēng)險(xiǎn),本文構(gòu)建多空交易策略并求取其累計(jì)收益,其累計(jì)收益圖如圖2所示。
圖2 多空投資組合的累計(jì)收益
從多空組合的累計(jì)收益圖來看,Bayesian、Ridge和MPL依舊表現(xiàn)最佳,雖然其多空組合的累計(jì)收益不如純多頭的累計(jì)收益高,但其風(fēng)險(xiǎn)相對(duì)的也有所降低。如從圖中可以看出各個(gè)模型純多頭組合收益在2002~2005年之間的回撤將近80%,而多空組合的回撤在0~20%的區(qū)間。同樣,在2008~2009年區(qū)間,純多頭組合回撤超過100%,而多空組合的回撤均在0~50%之間。因此,多空頭組合收益能有效地降低風(fēng)險(xiǎn),但其收益也隨之下降。
表2 多頭組合以及多空組合的策略表現(xiàn)
從表中可以看出,只做多(Long)的機(jī)器學(xué)習(xí)策略要略優(yōu)于多空組合(Long-Short)的策略,由于純多頭策略收益率較高,盡管其風(fēng)險(xiǎn)較大(標(biāo)準(zhǔn)差較大),也能取得比多空組合高的Sharpe、Calmar、Omega和Sortino比率。從做多組合表現(xiàn)來看,Bayesian模型依舊表現(xiàn)最優(yōu),其Sharpe、Calmar、Omega和Sortino比率分別為1.909、0.280、1.021和1.200,年化收益也高達(dá)18.5%,但其風(fēng)險(xiǎn)也是最高的,標(biāo)準(zhǔn)差高達(dá)9.7%。Ridge和MLP模型表現(xiàn)次之,這兩個(gè)模型的預(yù)測(cè)收益組合的Sharpe Ratio也高達(dá)1.8以上。從多空組合策略來看,由于該策略存在對(duì)沖機(jī)制,它將預(yù)測(cè)收益較差的股票組合進(jìn)行賣出,這能大大降低這些股票所帶來的下行風(fēng)險(xiǎn)。因此,在對(duì)沖掉風(fēng)險(xiǎn)后,多空組合的收益率的風(fēng)險(xiǎn)較低,其標(biāo)準(zhǔn)差為純多頭組合的一半。同樣,從結(jié)果來看,Baysian和Ridge回歸的表現(xiàn)依舊最佳。這說明這兩個(gè)模型對(duì)股票收益率的預(yù)測(cè)能力較強(qiáng),無論是預(yù)測(cè)強(qiáng)勢(shì)的股票,還是弱勢(shì)的股票,其預(yù)測(cè)收益組合成的股票組合都能取得較高的收益率。從其他比率來看,也是Baysian、Ridge和MLP這3個(gè)模型表現(xiàn)較優(yōu),這也印證了這幾個(gè)模型組合策略在取得較高收益率的同時(shí),風(fēng)險(xiǎn)也相對(duì)較低。
4.4.2 穩(wěn)健性:剔除小市值股票的組合收益
Liu等 (2019)[13]研究發(fā)現(xiàn), 中國(guó)市場(chǎng)的小市值股票具有 “殼效應(yīng)”,即這部分股票的股價(jià)可以通過兼并重組、市值管理等手段進(jìn)行操控,因此,這部分的股票很難被基本面因素所捕獲。他們將這部分股票剔除。作為穩(wěn)健性檢驗(yàn),本文根據(jù)他們的做法剔除了底部30%市值的股票,重復(fù)上述方法來驗(yàn)證機(jī)器學(xué)習(xí)模型的穩(wěn)健性。這種做法主要有3個(gè)原因: (1)在中國(guó)股市中,小型股以其高波動(dòng)性而聞名,這使得模型預(yù)測(cè)難度提高;(2)底部30%的股票存在 “殼效應(yīng)”問題,更多的是暗箱操作,它們很難用市場(chǎng)指標(biāo)進(jìn)行模型擬合;(3)一般來說,大型股票的流動(dòng)性水平較高,價(jià)格波動(dòng)性較低,因此,這些股票受中國(guó)10%日限價(jià)的影響較小。綜上,本文去掉了底部30%的股票,并求取多頭和多空組合的各項(xiàng)比率。
從結(jié)果來看,基于前70%的大型股票的機(jī)器學(xué)習(xí)投資組合的表現(xiàn)在其結(jié)果上與全樣本相似。然而,由于剔除了波動(dòng)較大的小型股票,所有模型的投資組合都獲得了較低的平均月收益、夏普比率、標(biāo)準(zhǔn)差和年化收益。但是,機(jī)器學(xué)習(xí)算法的預(yù)測(cè)組合收益比滬深300的收益更高。其中,深度網(wǎng)絡(luò)組合收益表現(xiàn)最好,其次是正則線性模型和樹模型。這些模型的做多收益和多空組合的收益最高,因此,穩(wěn)健性檢驗(yàn)結(jié)果也證實(shí)了機(jī)器學(xué)習(xí)方法在中國(guó)股市具有出色的預(yù)測(cè)能力。
本文引入經(jīng)典的機(jī)器學(xué)習(xí)模型探索中國(guó)股票市場(chǎng)中價(jià)值、動(dòng)量、反轉(zhuǎn)和趨勢(shì)跟隨等因素與股票未來收益率的關(guān)系。研究結(jié)果發(fā)現(xiàn):(1)股票歷史信息對(duì)其未來的收益率有一定的預(yù)測(cè)能力;(2)本文發(fā)現(xiàn)動(dòng)量、反轉(zhuǎn)和趨勢(shì)跟隨等因素對(duì)股票未來收益率影響較大,而這些指標(biāo)往往是散戶交易者的 “羊群效應(yīng)”、反應(yīng)不足和反應(yīng)過度所造成的,這說明了中國(guó)市場(chǎng)的散戶投資者對(duì)市場(chǎng)的影響較大;(3)通過對(duì)比全樣本數(shù)據(jù)和剔除底部30%的樣本數(shù)據(jù)的投資組合后發(fā)現(xiàn),小市值的股票更具有預(yù)測(cè)性,加入了小市值股票的全樣本收益要比剔除這些樣本的預(yù)測(cè)收益要高。雖然2019年底之后受到新冠肺炎疫情的影響,但研究結(jié)果依舊穩(wěn)健,所構(gòu)建的機(jī)器學(xué)習(xí)量化策略在2020年取得較高正收益,這說明了所選因子的有效性。
(1)對(duì)于政策制定者和監(jiān)管者來說,要充分認(rèn)識(shí)到股票確實(shí)存在非理性因素,進(jìn)而針對(duì)不同情況采取合適的措施防止這些非理性因素累積而形成的市場(chǎng)泡沫,如逐步放開賣空限制來增加投資者的對(duì)沖能力,增加投資者投資教育水平。
(2)完善中國(guó)投資者的教育制度,強(qiáng)化投資者的價(jià)值投資觀念對(duì)中國(guó)股票市場(chǎng)的穩(wěn)定發(fā)展起重要作用。散戶投資者以短期動(dòng)量、趨勢(shì)和反轉(zhuǎn)投機(jī)為主,頻繁地交易使得市場(chǎng)流動(dòng)性風(fēng)險(xiǎn)加劇,造成市場(chǎng)的劇烈波動(dòng)。若投資者能以價(jià)值投資為導(dǎo)向,減少股票還手,能降低市場(chǎng)波動(dòng)。
(3)對(duì)于散戶交易者而言,小盤股投機(jī)性更強(qiáng),收益更高,但風(fēng)險(xiǎn)更大。應(yīng)逐步完善退市制度,使得小市值公司和個(gè)人投資者利益均能得到保護(hù)。完善的退市制度能促進(jìn)中小市值公司逐步、有序地放開融券質(zhì)押業(yè)務(wù),能刺激市場(chǎng)的良性競(jìng)爭(zhēng),促進(jìn)中小上市公司的發(fā)展,以及穩(wěn)定金融市場(chǎng)。
注釋:
①據(jù)Wind數(shù)據(jù)庫(kù)顯示,截至2020年10月,中國(guó)散戶交易者的交易量約占整個(gè)市場(chǎng)的80%。同時(shí),根據(jù)2019《上海證券交易所統(tǒng)計(jì)年鑒》,在中國(guó)市場(chǎng)約有2.14億的投資者,個(gè)人投資者約為2.13億,而機(jī)構(gòu)投資者僅為0.7億,個(gè)人投資者占整個(gè)市場(chǎng)的比例高達(dá)99.8%。
工業(yè)技術(shù)經(jīng)濟(jì)2022年8期