孟潔瑩
摘 要:本文基于分行業(yè)的橫截面財(cái)務(wù)數(shù)據(jù)分析影響市盈率的主要因素,提出了PCA-LASSO模型及其精簡模型方法,并對市盈率進(jìn)行樣本外預(yù)測,同時(shí)與傳統(tǒng)的線性回歸模型及LASSO回歸模型的結(jié)果進(jìn)行了比較。研究表明,在行業(yè)市盈率的樣本外預(yù)測方面,所提出的PCA-LASSO模型及其精簡模型方法明顯優(yōu)于已有的兩種研究方法。所提模型方法融合了主成分回歸和LASSO回歸的優(yōu)點(diǎn),既完全消除了多重共線性又實(shí)現(xiàn)了對重要變量的選擇,同時(shí)具有更高的預(yù)測精度,所提方法具有普遍適用性。
關(guān)鍵詞:PCA-LASSO模型;市盈率;影響因素;樣本外預(yù)測
中圖分類號(hào):F832 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2021)05(a)--03
市盈率(P/E ratio)又稱為本益比,指每股市價(jià)除以每股盈利(EPS),是判斷股票價(jià)值、評估股價(jià)水平是否合理的最簡單直觀、最常用的指標(biāo)之一。Graham 和 Dodder的經(jīng)典著作《Security Analysis》[1]在其1934年的第一版中已經(jīng)清晰地給出了市盈率的概念。Whitbeck和Kisor(1963)[2]從股票定價(jià)模型出發(fā),認(rèn)為市盈率與股利支付率成反比,與盈利增長率、風(fēng)險(xiǎn)成正比,與傳統(tǒng)股價(jià)定價(jià)模型得出的結(jié)論一致。Basu(1977)[3]通過實(shí)證研究驗(yàn)證了市盈率是影響股票收益的重要指標(biāo)之一。
國內(nèi)的學(xué)者對市盈率的影響因素作了大量的研究。王振鵬(2016)[4]基于上證50樣本股2008到2013年的數(shù)據(jù),利用線性回歸模型研究了上市公司市盈率和七個(gè)指標(biāo)因素之間的關(guān)系。李楊和曾憲斌(2014)[5]分別考慮了LASSO,Adaptive LASSO,Bridge和SCAD四種懲罰函數(shù)模型并進(jìn)行比較,在面板數(shù)據(jù)框架下應(yīng)用懲罰似然方法對機(jī)械設(shè)計(jì)儀表板塊的上市公司市盈率的影響因素進(jìn)行了選擇。
綜合國內(nèi)外學(xué)者的研究,本文的研究不僅關(guān)注影響市盈率的重要因素,更注重對市盈率樣本外預(yù)測精度的提升。在研究方法上,本文將提出全新的PCA-LASSO的模型方法,它是一種融合了主成分回歸和LASSO壓縮的方法,從而實(shí)現(xiàn)了估計(jì)過程中對多重共線性問題的完全解決及對顯著影響因素的快速選擇。在此基礎(chǔ)上,我們還進(jìn)一步提出了PCA-LASSO的精簡模型方法,一方面優(yōu)化了模型的預(yù)測精度,另一方面更加明確了影響市盈率的重要因素。
1 模型方法
1.1 PCA-LASSO模型
記k個(gè)解釋變量的觀測數(shù)據(jù)矩陣為[Xn×k],因變量的觀測向量為[Yn×1]。 PCA-LASSO模型方法可以分兩步實(shí)現(xiàn):第一步,對解釋變量進(jìn)行主成分分析,得主成分矩陣及因子載荷矩陣:
其中,[PCn×k]為主成分矩陣,包含k個(gè)主成分列向量,[Ak×k]為因子載荷矩陣。這k個(gè)主成分之間是正交的,不再具有相關(guān)性,但還需要通過進(jìn)一步回歸分析來確定這些主成分對因變量影響的重要程度。第二步,利用因變量Y對第一步中得到的k個(gè)主成分進(jìn)行LASSO回歸,并基于交互驗(yàn)證CV(cross-validation)的方法確定最優(yōu)壓縮程度,從而選擇對因變量有重要影響的主成分,得到如下基于LASSO的主成分回歸模型:
其中,β^k×1pcaLAS中的部分回歸系數(shù)被壓縮為零,從而實(shí)現(xiàn)對重要主成分的自動(dòng)選擇。
在上述PCA-LASSO回歸模型的估計(jì)過程中,完全消除了多重共線性對回歸結(jié)果的影響,而且可以準(zhǔn)確度量每一個(gè)解釋變量對因變量的影響。由式(1)和(2)可得:
1.2 PCA-LASSO的精簡模型
注意到,上述最終的PCA-LASSO模型式(3)中回歸系數(shù)向量中一般不會(huì)再有回歸系數(shù)完全等于零,即所有的解釋變量都參與了對因變量的解釋和預(yù)測。當(dāng)模型中解釋變量數(shù)目較多而樣本量較小時(shí),一個(gè)一般的常識(shí)是解釋變量過多反而會(huì)降低模型的預(yù)測精度。因此,我們可以在PCA-LASSO模型的基礎(chǔ)上尋找一個(gè)最優(yōu)的精簡模型,具體做法如下:
(1)把所有的解釋變量按照其在φ^k×1中對應(yīng)的回歸系數(shù)絕對值的大小順序,由大到小排列。
(2)利用因變量Y和最重要的一個(gè)解釋變量及其在φ^k×1中對應(yīng)的回歸系數(shù),構(gòu)建第一個(gè)回歸方程,在訓(xùn)練數(shù)據(jù)及內(nèi),利用CV的方法計(jì)算預(yù)測誤差RMSE。
(3)在模型中依次引入一個(gè)較重要的變量及其回歸系數(shù),將一共得到k個(gè)回歸方程,對每一個(gè)方程在訓(xùn)練數(shù)據(jù)集內(nèi)利用CV方法計(jì)算其RMSE。
(4)在k個(gè)回歸方程中,選擇RMSE最小的模型,作為PCA-LASSO的精簡模型。
2 變量選取及數(shù)據(jù)來源
綜合相關(guān)金融理論和研究文獻(xiàn),我們對可能影響市盈率的指標(biāo)進(jìn)行了初步選擇,對數(shù)據(jù)做了預(yù)處理,為模型分析做準(zhǔn)備。
2.1 變量選取
本文選取的指標(biāo)影響因素分為以下6個(gè)方面,即6個(gè)一級指標(biāo),二級指標(biāo)共計(jì)40個(gè)。具體指標(biāo)如表1所示。
2.2 樣本選擇和數(shù)據(jù)來源
本文根據(jù)證監(jiān)會(huì)行業(yè)分類標(biāo)準(zhǔn),選擇了制造業(yè)的電子類,以107家上市公司為研究對象,并分別選取了2020年第二個(gè)季度的數(shù)據(jù)用于模型估計(jì),2020年第三個(gè)季度的數(shù)據(jù)用于樣本外預(yù)測和模型評價(jià)。在市盈率數(shù)據(jù)的選擇上,本文選用的是中證發(fā)布的靜態(tài)市盈率,計(jì)算公式為股價(jià)除以去年每股收益。市盈率數(shù)據(jù)選用季度財(cái)務(wù)報(bào)告發(fā)布月份的最后一天數(shù)據(jù)(數(shù)據(jù)來源于同花順金融數(shù)據(jù)終端iFinD)。
3 實(shí)證分析
3.1 樣本內(nèi)模型參數(shù)估計(jì)
(1)基于PCA-LASSO模型的樣本內(nèi)模型估計(jì):利用模型思路,先進(jìn)行主成分分析,得到40個(gè)主成分向量及因子載荷矩陣,再利用LASSO回歸選擇對因變量有重要影響的主成分。后基于該最優(yōu)主成分回歸的結(jié)果,得到市盈率PE與各主成分的回歸結(jié)果,即β^k×1pcaLAS的數(shù)值。在β^k×1pcaLAS中,很多回歸系數(shù)被壓縮為零,從而完成了對影響市盈率的主成分的選擇,具體結(jié)果如表2所示。
由表2可知,有22個(gè)對PE有重要影響的主成分被保留下來,其他主成分系數(shù)都被壓為0?;谝蜃虞d荷矩陣及最優(yōu)LASSO回歸系數(shù),可得式(3)中的系數(shù)向量φ^k×1,它直接度量了40個(gè)指標(biāo)對Y的影響。根據(jù)回歸系數(shù)絕對值大小對這40個(gè)系數(shù)進(jìn)行排序,依據(jù)排序結(jié)果可知,電子類市盈率的影響較大的前十個(gè)財(cái)務(wù)指標(biāo)依次是X103,X303,X305,X102,PB,X301,X306,X302,X104,X201。
依據(jù)回歸系數(shù),可以寫出市盈率PE與相應(yīng)的40個(gè)指標(biāo)的回歸方程:
(2)PCA-LASSO精簡模型的估計(jì)結(jié)果:基于上一節(jié)中對PCA-LASSO精簡模型的構(gòu)建思路,利用訓(xùn)練數(shù)據(jù)集,計(jì)算每一個(gè)測試模型的MSE,經(jīng)計(jì)算,當(dāng)模型中包含前16個(gè)指標(biāo)時(shí),MSE達(dá)到最小,從而得到如下模型:
PE=-1.03X103-0.79X303+0.66X305+0.45X102+0.31PB-0.211X301-0.211X106+0.18X302+0.17X104+0.16X201+0.14X204+0.13X105-0.12X312-0.12X307+0.11X404+0.11X502 (M4)
該P(yáng)CA-LASSO精簡模型給出了最終影響市盈率的16個(gè)指標(biāo),以及它們對市盈率影響的方向和程度。
3.2 樣本外模型預(yù)測與評價(jià)
預(yù)測的準(zhǔn)確與否是評價(jià)模型好壞的一個(gè)標(biāo)準(zhǔn)。因此,本部分分別將多元回歸模型、LASSO模型、PCA-LASSO模型及其精簡模型應(yīng)用于樣本外的測試數(shù)據(jù)集,根據(jù)預(yù)測的結(jié)果和實(shí)際的結(jié)果進(jìn)行比較,以評價(jià)模型的有效性。本部分采用均方根誤差(RMSE)來衡量預(yù)測模型的精度。
利用基于訓(xùn)練數(shù)據(jù)得到的四個(gè)回歸方程(M1)-(M4)分別對測試數(shù)據(jù)集進(jìn)行預(yù)測,預(yù)測的均方根誤差分別記為RMSE1到RMSE4,具體結(jié)果如表3所示。
由表3可知,PCA-LASSO模型的預(yù)測效果明顯優(yōu)于LASSO模型及一般的線性回歸模型;利用精簡模型不但可以完成對影響PE的重要指標(biāo)的選擇,還可以取得略優(yōu)于PCA-LASSO模型的預(yù)測效果。
4 結(jié)語
本文提出了PCA-LASSO模型及其精簡模型的方法,基于分行業(yè)的橫截面數(shù)據(jù)來研究市盈率的影響因素以及對市盈率進(jìn)行預(yù)測。并對2020年電子類107家上市公司的市盈率基于橫截面指標(biāo)數(shù)據(jù)進(jìn)行了樣本內(nèi)估計(jì)和樣本外預(yù)測,得到了影響電子類上市公司市盈率的重要因素,對于投資決策具有較好的參考和借鑒意義。
參考文獻(xiàn)
Graham B, Dodd D L. Security Analysis (1th ed.) [M]. Mcgraw-Hill Companies Inc,1934.
Whitbeck V S, Kisor M. A New Tool in Investment Decision-Making[J]. Financial Analysts Journal,1963,19(03):55-62.
Basu S. Investment Performance of Common Stocks in Relation to Their Price-Earnings Ratios: A Test of the Efficient Market Hypothesis[J]. Journal of Finance, 1977, 32(03):663-682.
王振鵬.中國上市公司市盈率的影響因素研究——基于2008—2013年上證50指樣本股數(shù)據(jù)[J].金融經(jīng)濟(jì)月刊,2016(01):54-58.
李揚(yáng),曾憲斌.面板數(shù)據(jù)模型的懲罰似然變量選擇方法研究[J].統(tǒng)計(jì)研究,2014,31(03):83-89.