周雋 何鵬飛
摘要:選取滬深300成分股作為樣本股,截取2015-2018年財務數據和行情數據,基于價值因子、盈利能力因子、運營能力因子、成長能力因子、償債能力因子及品質因子六個維度選取的候選因子,利用模糊C-均值聚類(FCM)算法對有效因子進行最終篩選,構建多因子模型。本模型在對滬深300成分股測試中取收益前100股作為一覽組股票形成投資組合,其測試結果大部分年份遠超基準收益,其他指標相對穩(wěn)健,為量化投資研究提供了新的思路。
關鍵詞:模糊C-均值聚類 基本面因子 組合收益 超基準收益
一、引言
20世紀50年代開始,量化投資掀起了西方傳統(tǒng)投資哲學的投資革命,量化投資是一種可以對沖市場風險,用較低的風險獲得高收益的投資模式。在2008年的金融危機中,量化投資所獲得的收益遠超過其他投資策略的收益。通過歷史的股票市場數據,建立一定的策略模型,一尋求最優(yōu)的收益,這是量化投資策略的基本原則。我國2015年之后開啟了大牛市行情,量化投資產品收益率喜人,量化基金進入快速發(fā)展階段,以量化的方法進行從基本面到技術參數的全面分析,能夠高效率地完成對投資選股數據信息處理與價值挖掘。
當前,量化投資的研究深受投資機構的青睞,各種量化選股策略都在我國的A股市場得到了很好的驗證,尤其多因子模型的發(fā)展在量化投資方面的研究已經深入人心,多個類型的多因子模型在我國A股市場取得了很好的收益。學者范振龍[1]通過A股市場股票月收益率研究時利用Fama-Macbeth回歸模型發(fā)現我國股市眾多指數的差異特征。王艷萍[2]利用多因子選股模型構造了靜態(tài)MV投融資模型,在邊界條件不允許賣空限制下的最優(yōu)解析解,一定程度上對投資權重選擇了一定思考與操作建議。丁鵬[3]在《量化投資--策略與技術》一書中首次并高屋建瓴地對量化投資進行了系統(tǒng)化研究,為當前學者在量化投資方面提供了豐富的參考價值。書中多因子選股模型將一攬子影響因子進行初步有效因子篩選,到隨后的剔冗處理及選股投資組合給出了一個行之有效的范式。此外,還有學者對多因子模型與其他模型相結合的量化模型。孫守坤[4]利用多因子模型結合輪動策略模型在滬深300股指期貨方面獲得了相對穩(wěn)定的收益率。王赟[5]利用灰色關聯分析與多因子模型相結合,其模型的實盤模擬投資效果具有一定的穩(wěn)定性。
二、量化模型基本過程
(一)數據準備與預處理
本文所選用數據來自優(yōu)礦平臺,利用2014-2018年滬深300成分股作為樣本股進行因子的初步篩選。這一時期的數據圖形來看包括了上漲、下跌以及震蕩趨勢的完整形態(tài)過程。
(二)候選因子的選取
為了確定初步候選因子,本文從價值因子、盈利能力因子、運營能力因子、成長能力因子、償債能力因子及品質因子六個維度共19個因子作為候選因子。其中價值因子體現票的內在價值,能夠形成股價高低狀態(tài)的初步判定,給投資者布局被人低估的價值股票提供
參考,以期獲得價格上升時的收益。成長因子測度公司的成長性,成長性的高低公司未來的發(fā)展前景,具有較高前景期待值的公司往往會在未來形成一段時間內的股價上漲,吸引投資者的目光。品質因子反映一段時間內公司的管理與應用狀況,通常直接表現為股東權益周轉率及流通市值等。運營能力因子表現的是企業(yè)運營資產的效率與效益,通常投資者關心的是全部資產、流動資產營及流動資產三方面的營運能力。償債能力因子償債能力是用來衡量上市公司對負債能及時、足額償還的保證程度,較大程度上決定了投資者在投股擇時方面的基本選擇。具體候選因子入表1所示。(數據來源:優(yōu)礦平臺)
(三)有效因子的選取
有效因子的選取是模型因子的初步篩選過程,也是對候選因子有效性的檢驗過程。具體操作是針對每一個因子,選擇2014-2018年滬深300成分股在該因子排名靠前的100只,對這100只股票數據對應的年化收益率、阿爾法系數、貝塔系數、夏普比率、收益波動率、信息比率、最大回撤及年化換手率進行數據結果分析。基本數據結果如下表2。
從年化收益率來看,市現率的組合收益為0.2%,故初步剔除該因子。同理,從阿爾法系數的大小來看,若阿爾法值為負數,則表示基金沒有達到貝塔值所預期的回報,因此可以剔除市現率、銷售凈利率、固定資產周轉率、固定資產比率、營業(yè)收入增長率這幾個因子。再者,通過觀察收益波動率,可以剔除凈資產收益率因子;通過信息比率及最大回撤可以剔除總資產增長率這個因子;對于品質因子中的流通市值數據導出缺失。剩下的因子為有效因子,包括市盈率、市凈率、對數市值、對數流通市值、市銷率、總資產收益率、流動資產周轉率、股東權益比率、基本每股收益、股東權益周轉率一共10個因子。
(四)基于FCM算法的最終因子
1973年,Bezdek提出FCM算法,該算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一簇的對象之間相似度最大,而不同簇之間的相似度最小。FCM把n個向量xi(i=1,2,…,n)分為c個模糊組,并求每組的聚類中心,使得非相似性指標的價值函數達到最小。本文將11個有效因子利用FCM算法聚成3類,過程是將每個因子歸類為隸屬度最大的某類,由于時間是2014-2018年期間的滬深300樣本數據,由于時間跨度較長,可考慮使用季度數據,得到20個數據組數據,即形成20個隸屬度矩陣,對其進行算數平均后得到整體隸屬度矩陣。
得到的隸屬矩陣作為判別與參考依據,綜合進行有效分類。算術平均得到的綜合隸屬矩陣如表3所示。
根據上述隸屬度矩陣中各個隸屬度大小可以較好地進行分類,市盈率屬于第1類,市凈率及對數流通市值屬于第2類,對數市值、市銷率、總資產收益率、流動資產周轉率、股東權益比率、基本每股收益及股東權益周轉率屬于第3類。
對于每一類因子,通過比較因子的市場盈利情況(年化收益率%)的大小進行冗余因子的剔除。參考表2的數據,第1類中僅市盈率一個因子,故無需剔除;第2類中市凈率對應的收益為29.1%,對數流通市值對應的為30.1%,故保留對數流通市值這一因子;同樣的辦法,第3類保留的因子是對數市值這一因子。因此,相似度較低的3個最終因子分別為:市盈率、對數市值、對數流通市值。
(五)構建投資組合與選股
針對FCM算法篩選的三個因子進行單個測試,測試結果如下圖1-3所示:
從上述LFLO、PE、LCAP單因子的測試結果圖可以看出,這三個因子的年化收益率都比基準收益率高,并且超額收益率較平穩(wěn)。
三、結果分析與評價
優(yōu)礦平臺提供2014年—2018年股票市場的數據,選取滬深300成分股作為樣本股,以每個交易日進行單位時間回測,通過計算每個因子的權重構建投資組合,對股票池的股票進行排序,去滬深300前100支股票作為目標持倉,最后,回測的結果如下表4所示:
從上表也可以看出,4年時間里股票市場經歷了熊市、盤整、牛市。最終累計超額收益達到0.71,夏普比率高達6.61。在2014年我們策略的年化收益雖然比基準收益低,但是我們的最大回撤只有9.50%。從2015年開始年化收益率都超過基準年化收益率,平均超額收益達到17.4%。明顯可以看出2017一年的年化收益率為70.50%,遠遠超過年化收益率,而且超額收益率達到46.60%,回撤率僅有8.50%,這也說明我們的策略在股票市場行情好的時候,風險較低,策略較穩(wěn)定,盈利性較強,具體收益情況如圖4所示。
四、結論與建議
多因子選股模型是量化投資選股模型中基本面分析最常見、應用最廣泛的模型之一。從文章的回測結果來看,模型的收益率達到37.2%,比基準年化收益率高出百分之二十多,尤其是在2015年左右收益率高達80%,說明該模型的收益率還是可觀的。阿爾法為23.9%,所以該策略的實際回報率遠遠超過預期回報。而且貝塔值小于1,所以投資風險較小。因此,該模型能夠在較長周期的時間內獲得較高的收益,得到較高的超額收益率。但作為投資者仍需對預測方法進行合理選擇,有效配合使用。
參考文獻:
[1]范龍振,余世典.中國股票市場的三因子模型[J].系統(tǒng)工程學報,2002,17(6):537-546.
[2]王艷萍,陳志平,陳玉娜.多因子投資組合選擇模型研究[J].工程數學學報,2012,29(6):807-814.
[3]丁鵬.量化投資——策略與技術[M].北京:電子工業(yè)出版社,2012.
[4]孫守坤.基于滬深300的量化選股模型實證分析[D].上海:復旦大學,2013.
[5]王赟.基于灰色關聯分析的多因子選股模型研究[D].北京:北京交通大學,2017.
[6]Schumaker,R.P.,Chen,H.A Quantitative Stock Prediction System Based on Financial News[J].Information Processing & Management,2009,45(5):571-583.
[7]Quah,T.S.DJIA Stock Selection Assisted by Neural Network[J].Expert Systems with Applications,2008,35(12):50-58.
[8]Partha,S.,Mohanram,P.S.Separating Winners From Losers Among Low Book-to-Market Stocks Using Financial Statement Analysis[J].Review of Accounting Studies,2005,10(23):133-170.
基金項目:廣東白云學院2016年校級科研項目(BYKY201613)。
(作者單位:廣東白云學院)