李豫 方子強
摘要:本文主要針對300多個反映上市公司是否高送轉(zhuǎn)的因子于3000多個上市公司的日數(shù)據(jù)與年數(shù)據(jù)的研究,利用機器學習的思想對因子進行篩選和對上市公司未來高送轉(zhuǎn)的預(yù)測。首先,對年數(shù)據(jù)和日數(shù)據(jù)進行數(shù)據(jù)預(yù)處理后,利用向后逐步回歸模型對大量因子進行篩選,其次利用因子分析法對逐步回歸篩選出5個公共因子,這篩選出的5個公共因子可以很好的解釋上市公司是否高送轉(zhuǎn)的情況,在某種程度可以解釋為5個公共因子所相關(guān)的因子即為上市公司實施高送轉(zhuǎn)方案影響較大的因子。最后建立多元邏輯回歸模型,對公共因子做進一步解釋和對上市公司第8年實施高送轉(zhuǎn)進行預(yù)測。通過機器學習的算法結(jié)合經(jīng)濟學知識和實際生活,最終得到了很好量化上市公司實施高送轉(zhuǎn)方案影響較大的因子。并結(jié)合問題一選取的因子建立了邏輯回歸模型預(yù)測上市公司第八年實施高送轉(zhuǎn)的情況。通過建立訓(xùn)練集和測試集的方法對模型進行訓(xùn)練的方法,最終可以將模型的預(yù)測成功率穩(wěn)定在80%。從經(jīng)濟學和實際生活進行考慮,該模型可以很好的預(yù)測出上市公司未來高送轉(zhuǎn)的情況,具有很大的現(xiàn)實意義。
關(guān)鍵詞:機器學習;向后逐步回歸;因子分析法
1 引言
高送轉(zhuǎn)是指送紅股或者轉(zhuǎn)增股票的比例很大,是上市公司分紅的一種方式。上市上市公司在施行高送轉(zhuǎn)方案后會做除權(quán)處理,投資者可以通過填權(quán)行情從股票增值中獲利,如果我們可以通過股票研究影響高送轉(zhuǎn)的因子從而精確的預(yù)測出下一年會施行高送轉(zhuǎn)方案的公司并提前買入的話,這將對投資的收益和安全性具有很大的現(xiàn)實意義。而影響高送的因子主要分成兩類:一類是基本因子,另一類是成長因子。我們需要對基本因子和成長因子和其他一些因子進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
2 模型的建立
首先考量了年數(shù)據(jù)有大約24000行數(shù)據(jù),360個因子,其中很多因子和行數(shù)據(jù)由于不同的原因出現(xiàn)了大量缺失值和稀疏矩陣。我們對于不同情況的空缺值進行考量,將通過以下的方案進行數(shù)據(jù)清洗??杖敝荡笥?0%的數(shù)據(jù)列,由于缺失值過多,若使用其他數(shù)值替代會很不合理,所以對于空缺值大于30%的列直接刪除,不予考慮。對于空缺值小于30%的數(shù)列,由于缺失的數(shù)據(jù)不算太多,如果直接刪除又會損失掉可利用的信息,所以我們不妨對于這一部分的數(shù)據(jù)列用均值進行替代。除了每股送轉(zhuǎn)的缺失值用0替代。因為每股送轉(zhuǎn)的值缺失,即表示為該公司沒有進行送轉(zhuǎn),那么每股送轉(zhuǎn)就為0。在有些上市年限未能達到7年,就導(dǎo)致了一些行數(shù)據(jù)缺失。那么不妨就上市年限少于7年的公司進行刪除,篩選出了7年內(nèi)每年都公布了高轉(zhuǎn)送預(yù)案的公司進行著重分析會對股票高送轉(zhuǎn)影響因子這樣復(fù)雜的問題簡化了。
3 模型的求解
對于日數(shù)據(jù),數(shù)據(jù)清理部分與年數(shù)據(jù)相同。最終刪除了49個因子。保留了11個因子,對于這11個因子通過查閱相關(guān)文獻,和分析其經(jīng)濟學意義,最終保留了平均股價和成交量這兩個最能夠反映企業(yè)高送轉(zhuǎn)的因子。我們對每年每天每個公司的平均股價和成交量求平均值。將最后預(yù)處理后的數(shù)據(jù)加入到年數(shù)據(jù)中當成新的兩個因子,在后面的步驟一起進行分析。這樣我們就綜合了年數(shù)據(jù)與日數(shù)據(jù)對上市公司是否實施高送轉(zhuǎn)的因子進行分析了。
對因子的系數(shù)進行可視化,可以觀察到,上市公司是否進行高送轉(zhuǎn)的主要影響因子,最大的是股價因子。而成長因子、利潤因子、方案因子只會在股價因子水平一定的條件下部分影響股票的高送轉(zhuǎn)。也就是說主要影響股票高送轉(zhuǎn)的還是股價、總股本、每股收益等于股價相關(guān)的因子。而上市年限、每股未分配利潤,每股資本公積、是否存在定增方案等因子有一定的相關(guān)性。
4 總結(jié)
綜合了機器學習的向后逐步回歸、因子分析法、多元邏輯回歸等模型方法對上市公司實施高送轉(zhuǎn)方案的影響因子做了相應(yīng)研究,得出來了影響高送轉(zhuǎn)較大的因子,并對上市公司第八年實施高送轉(zhuǎn)方案進行預(yù)測。首先對數(shù)據(jù)清洗和預(yù)處理篩選出了225個因子和16240個研究數(shù)據(jù)。接著對剩下的225個因子作向后逐步回歸。選出了29個線性相關(guān)的因子,然后由于29個因子之間也具有很強的相關(guān)性,所以還可以利用因子分析法進行降維,最后降維保留了5個公共因子。這5個公共因子分別為成長因子、利潤因子、股價因子、方案因子、其他因子。那么我們則可以認為這5個公共因子是對上市公司實施高送轉(zhuǎn)方案影響較大的因子。而這五個公共因子又表示了不同因子,即這些不同因子就是企業(yè)實施高送方案影響較大的因子。最后通過分析得出股價、總股本、上市年限、每股未分配利潤、每股公積金、企業(yè)負債等因子會影響上市公司實施高送轉(zhuǎn)方案。通過對5個公共因子進行二分類邏輯回歸,可以通過這個多元邏輯回歸模型對上市公司第8年上市公司實施高送轉(zhuǎn)的情況進行預(yù)測并且可以通過該模型得到的5個公共因子有更加深入的分析。最后的結(jié)論是:在得出的5個公共因子進行二元回歸分析,可以得出在五個公共因子里面股價因子(股價、每股收益等)會對上市公司實施高送轉(zhuǎn)有最大的影響,對于資產(chǎn)因子、利潤因子、方案因子有一定的影響。在優(yōu)化后的二分類邏輯回歸用于預(yù)測上市公司高送轉(zhuǎn)的情況,有80%預(yù)測成功率。認為可以在一定情況下可以相信該模型。這會對投資的安全性和收益性有很大的意義。
參考文獻
[1]喻永生.股票價格預(yù)測中機器學習的應(yīng)用[J].科技經(jīng)濟導(dǎo)刊,2018(12):188.
[2]唐思佳,熊昕,謝滿,丁力,張上.基于機器學習的優(yōu)化股票多因子模型[J].信息與電腦(理論版),2019(23):30-32.
[3]周志華.機器學習[M].北京:清華大學出版社,2016.
[4]王偉.基于深度學習的股票數(shù)據(jù)分析技術(shù)的研究與應(yīng)用[D].北京:北京郵電大學,2019.
[5]王悅.上市公司高送轉(zhuǎn)的影響因素分析[J].中外企業(yè)家,2019(29):15.