丁琦
摘要:本文利用中國A股市場中所有股票近年來的相關(guān)財務數(shù)據(jù)與行情數(shù)據(jù),對500多個股票因子進行了顯著性分析與主成分分析,構(gòu)建了兩個新的選股主因子:技術(shù)因子與價值因子,并以此為基礎建立了多因子量化選股策略。最后利用近五年數(shù)據(jù)對該策略進行了回測與實證分析,結(jié)果表明該策略在不同市場行情下都能夠在低風險的同時穩(wěn)定地獲取超過基準收益率的高額回報。
關(guān)鍵詞:量化投資 股票 主成分分析 多因子模型
一、引言
Famma與French(1993)[1]基于市值、賬面市值比和市盈率建立了著名的三因子模型,奠定了多因子選股模型的理論基礎。目前,人們已經(jīng)提出了上千種能夠反應股票各種信息的因子,因而如何從中選取符合市場行情的有效因子成為了當下熱點研究問題之一。而主成分分析方法[2] [3][4]可以很好地解決這一問題,其不僅可以提煉出對股票收益率有顯著影響的因子,并且可以解決各因子數(shù)據(jù)間的相關(guān)性問題。
二、數(shù)據(jù)預處理
本文以中國A股市場中的全部3000余只股票和點寬網(wǎng)因子庫中的所有500多個因子作為研究對象,數(shù)據(jù)來源于點寬網(wǎng)的商用數(shù)據(jù)庫,研究的樣本區(qū)間為2016年1月1日至2018年9月30日。所使用的數(shù)據(jù)分析軟件和編程軟件為SPSS、AutoTrader與MATLAB。
首先根據(jù)準則對數(shù)據(jù)進行去極值處理,然后采用零均值化,將數(shù)據(jù)按照一定比例縮放到0與1之間,并滿足均值為0、標準差為1,最終得到標準化的數(shù)據(jù)。記為因子庫中的全部因子,為A股市場中的全部股票,其中N、M分別表示因子的總個數(shù)和股票的總只數(shù)。用序列表示股票對應于因子的日頻數(shù)據(jù),其中為樣本區(qū)間內(nèi)總交易天數(shù)。
由于某些因子值需要根據(jù)各公司月度財報數(shù)據(jù)進行更新,因而本文的模型均采用按月?lián)Q倉的交易策略,這就需要將前文的日頻數(shù)據(jù)序列轉(zhuǎn)化為月度數(shù)據(jù)序列。設整個樣本區(qū)間共包含了T個月,用序列表示股票Si對應于因子Xj的月度數(shù)據(jù),其中取為中第t個月的最后一個交易日所對應的數(shù)值。
三、IC顯著性分析
IC(信息系數(shù))是由因子在某只股票上的因子暴露與對應股票下一期收益序列間的相關(guān)系數(shù)來確定的,即因子Xj關(guān)于股票Si的IC值為
其中為因子月度數(shù)據(jù)序列的前T-1個分量,而為股票Si的每期收益率序列,其中每期的收益率為
可見IC值的絕對值越大股票收益率就越高,故使用IC值的絕對值去判斷因子與股票收益之間的關(guān)系。由此定義每個因子針對全市場所有股票的 IC 顯著性為
顯著性越大表明該因子與股票價格之間的相關(guān)性就越高,則其對股價的預測能力就越強。通過計算因子庫中500多個因子的IC顯著性,本文篩選出最優(yōu)的20個候選因子(見表1)。
對于IC顯著性大的因子還需要進一步考察其選股能力的實際表現(xiàn),即觀察因子值高的股票是否能夠保持盈利。為此本文建立了單因子選股模型(詳見模型1),并利用樣本區(qū)間的真實市場數(shù)據(jù),對表2中的因子逐一進行回測分析。
模型1 單因子選股模型
1.手續(xù)費為雙邊3‰,每月月初調(diào)倉。
2.在每月最后一個交易日計算股票的因子得分。
3.分值最大的前3%的股票作為備選股票池。
4.在下月首個交易日,以當天的收盤價將持倉股票更換為備選股票池中股票。
5.對歷史收益率進行回測并計算夏普比率。
其中第2步的因子得分是通過對原始數(shù)據(jù)進行預處理之后得到的一個數(shù)值(詳見算法1)。
算法1 計算單只股票的因子得分
1.提取之前30個交易日的原始因子數(shù)據(jù)。
2.按照第一節(jié)的方法進行去極值與標準化處理。
3.以最后一個交易日對應的數(shù)值作為因子得分。
由于夏普比率能夠同時反映出投資的收益與風險,故本文以此作為度量選股能力的指標,并據(jù)此選取夏普比率最高的前6個因子作為最終的有效因子,分別記為Y1,…,Y6(見表2)。
四、主成分分析及多因子選股模型
為防止不同因子之間存在內(nèi)在關(guān)聯(lián)而導致信息重疊,本文利用樣本區(qū)間內(nèi)的月度數(shù)據(jù)對上述有效因子進行主成分分析。
其次,利用SPSS對于矩陣A進行主成分分析,得到了表3所示的主成分方差貢獻累積和特征值。
由于前兩個成分的累積方差貢獻率達到了87.291%,已經(jīng)能夠涵蓋的絕大部分的信息量,因而選擇F1,F(xiàn)2作為主成分,其關(guān)于Y1,...,Y6的組成系數(shù)分別為:
如果兩個主成分對因子的影響程度相似,則這兩個主成分是很難區(qū)分的,為此需要進行適當?shù)淖鴺诵D(zhuǎn),將其換成新的主成分。記,觀察發(fā)現(xiàn)V的前三行和后三行分別對應平面上兩類不同的點。因而構(gòu)造二階正交旋轉(zhuǎn)矩陣S,對V進行旋轉(zhuǎn)變換得到,其中為W的列向量,且滿足分別只在前三行和后三行的位置上取值最顯著,容易解得:
通過中各分量取值的權(quán)重可以看出,與三個價值類因子NegMktValue、MktValue、LFL密切相關(guān),其所包含的信息主要為公司的基本面信息,因此稱為價值因子。而與三個技術(shù)指標類因子LINEARREG_INTERCEPT、HT_TRENDLINE、KAMA密切相關(guān),其所包含的信息主要為股票行情K線的基本數(shù)據(jù),因此稱為技術(shù)因子。
將價值因子與技術(shù)因子的值進行等權(quán)重相加,作為衡量股票優(yōu)劣性的指標,由此建立如下多因子量化選股模型(詳見模型2)。
模型2 多因子量化選股模型
1.手續(xù)費為雙邊3‰,每月月初調(diào)倉。
2.在每月最后一個交易日,根據(jù)算法1計算股票關(guān)于有效因子的因子得分。
3.計算出合成因子的值,并以作為該股票的綜合得分。
4.取分值最大的3%的股票作為備選股票池。
5.在下個月的首個交易日,以當天的收盤價將持倉股票更換為備選股票池中股票(根據(jù)不同股票價格等權(quán)重配置資金)。
6.對歷史收益率進行回測,計算其年化收益率、夏普比率與最大回撤等相關(guān)指標。
五、實證分析
從整體上來觀察上證50指數(shù)自2014年5月至今的走勢(見圖1),可以清晰地看出大盤經(jīng)歷了從大漲到大跌、最后進入一個緩慢盤整的過程。
因而可以將整個時間段分為3個不同走勢的部分,即“牛市”“熊市”“震蕩市”,其具體時間分段如下:
a)牛市:14年5月1日至15年5月31日。
b)熊市:15年6月1日至16年4月30日。
c)震蕩市:16年5月1日至19年6月30日。
將模型2分別在這三個時間段上進行回測,結(jié)果如下表所示。
由表4可知,該模型在不同行情下的年化收益率都顯著優(yōu)于同期滬深300指數(shù)的收益率。在牛市行情當中,該模型取得了較高的夏普比率和較低的最大回撤率,表明該模型不僅能夠獲取非常穩(wěn)定的高額收益,而且具有非常低的投資風險。在熊市和震蕩市期間,該模型受行情影響較大,從而導致了收益率與夏普比率的下降以及最大回撤率的上升,但相對于滬深300指數(shù)而言,仍然具有明顯的投資優(yōu)勢。
總之,模型2能夠很好地適應各種市場行情,不僅獲得了超過市場平均水準的收益,而且也完全體現(xiàn)出了低風險性。進而也說明了本文所構(gòu)造的價值因子與技術(shù)因子,在各種行情下都能夠較為準確地反應出股票的優(yōu)劣性。
參考文獻:
[1]E Fama,K French. Common Risk Factors in the Returns on Stocks and Bonds[J].Journal of Financial Economics,1993,33(3):3-56.
[2]朱晨曦.我國A股市場多因子量化選股模型實證分析[D].北京:首都經(jīng)濟貿(mào)易大學,2017.
[3]王春麗.劉光.王齊.多因子量化選股模型與擇時策略[J].東北財經(jīng)大學學報,2018,(5):81-87.
[4]于卓熙.秦璐.趙志文.溫馨.基于主成分分析與廣義回歸神經(jīng)網(wǎng)絡的股票價格預測[J].統(tǒng)計與決策,2018,510(18):168-171.
基金項目:北京師范大學珠海校區(qū)教師科研能力促進計劃項目。
作者單位:北京師范大學珠海校區(qū)應用數(shù)學學院