謝忠群
(貴州財經(jīng)大學(xué),貴陽 550002)
近年來,我國證券市場的高速發(fā)展催生了一批題材股。在這些題材中間,高送轉(zhuǎn)這一題材無疑是中小投資者強烈追捧的對象。實施高送轉(zhuǎn)后股價將做除權(quán)處理,投資者可以通過填權(quán)行情從二級市場的股票增值中獲利,而等除權(quán)后再買入可能面臨很大的回撤風(fēng)險。如果我們能準(zhǔn)確預(yù)測下一年可能實施高送轉(zhuǎn)的上市公司并提前買入,這對我們投資的安全性具有很大的現(xiàn)實意義。經(jīng)過研究,影響上市公司實施高送轉(zhuǎn)的因子主要有兩類:一是基本因子,包括股價、總股本、上市年限等;二是成長因子,包括每股未分配利潤、每股資本公積、每股現(xiàn)金流、每股收益等。除此之外,還有其他因子等待挖掘。
本文利用相關(guān)數(shù)據(jù),篩選出對上市公司實施高送轉(zhuǎn)方案有較大影響的因子,建立模型預(yù)測哪些上市公司可能會實施高送轉(zhuǎn),并對提供的數(shù)據(jù)用所建立的模型來預(yù)測第8 年上市公司實施高送轉(zhuǎn)的情況。
本文研究數(shù)據(jù)為3466 家上市公司7 年的各種高送轉(zhuǎn)相關(guān)因素,包含了年數(shù)據(jù)、日數(shù)據(jù)、基礎(chǔ)數(shù)據(jù),原始數(shù)據(jù)共24262 個樣本。在實際建模前對數(shù)據(jù)作預(yù)處理,刪除或補全缺失值、統(tǒng)一量綱,將數(shù)據(jù)規(guī)范化。
從數(shù)據(jù)挖掘角度在所有特征中挑選出了前8 個影響較大的因子,分別為歸屬于母公司凈利潤同比增長(%)(A)、每股收益(期末攤薄,元/股)(B)、基本每股收益(C)、每股凈資產(chǎn)(元/股)(D)、稀釋每股收益同比增長(%)(E)、基本每股收益同比增長(%)(F)、上市年限(G)、總資產(chǎn)凈利率(%)(H)。將這8 個影響因子繪制特征重要性排名,從高到低為:B、A、D、C、H、E、F、G,且每個特征的重要性較為均衡。
圖1 因子重要性排名
通過數(shù)據(jù)處理,特征選擇以及提取影響因子,我們得到了高質(zhì)量的訓(xùn)練和測試數(shù)據(jù)集,現(xiàn)在要通過運用得到的數(shù)據(jù)和xgboost 算法正式進(jìn)入“高送轉(zhuǎn)”預(yù)測模型的構(gòu)建工作中。
本文將挑選出的這8 個因子放入xgboost 模型中,從AUC結(jié)果來看,通過數(shù)據(jù)挖掘出的因子計算出的AUC 值高達(dá)0.96,說明利用數(shù)據(jù)挖掘挑選出的因子配合xgboost 模型的分類效果較好。
xgboost 算法由GBDT 算法演變而來,在GBDT 的基礎(chǔ)上通過改變目標(biāo)函數(shù)來避免GBDT 存在的問題,例如:當(dāng)數(shù)據(jù)量很大時,減少計算時間等。
圖2 ROC 曲線
在測試結(jié)果展示的部分,我們使用混淆矩陣來展示模型的分類效果?;煜仃囈卜Q作誤差矩陣,是表示精度評價的一種形式。對于二分類下的混淆矩陣,標(biāo)簽有兩種,分別為0 和1,橫坐標(biāo)代表通過模型分類出來的測試集的結(jié)果,縱坐標(biāo)表示數(shù)據(jù)集中給定的數(shù)據(jù)集的結(jié)果。對角線上的數(shù)據(jù)代表被正確分類的數(shù)據(jù)的個數(shù),另外的數(shù)代表被錯誤分類的數(shù)據(jù)的個數(shù)。通過這些數(shù)據(jù),計算出模型的精確率(precision)、召回率(recall)、準(zhǔn)確率(accuracy)、f1-score,f1-score 值是將精確率和召回率的值合并,計算其調(diào)和均值,計算公式為:
其中,TP 為被分類模型正確預(yù)測的正樣本數(shù),TN 為被分類模型正確預(yù)測的負(fù)樣本數(shù),F(xiàn)P 為被分類模型錯誤預(yù)測為正類的負(fù)樣本數(shù),F(xiàn)N 為被分類模型錯誤預(yù)測為負(fù)類的正樣本數(shù),分別對應(yīng)于混淆矩陣的(0,0)(1,1)(0,1)(1,0)位置。
圖3 預(yù)測值與真實值的混淆矩陣
根據(jù)混淆矩陣計算出各個值:負(fù)類0 的精確率(precision)為0.96、召回率(recall)為0.96、f1-score 的值為0.96;正類1 的精確率(precision)為0.80、召回率(recall)為0.81、f1-score 的值為0.80;模型準(zhǔn)確率(accuracy)為0.93,統(tǒng)計如下表1。
表1 分類準(zhǔn)確率