亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預(yù)測

        2021-10-09 15:47:44謝忠群
        中國管理信息化 2021年19期
        關(guān)鍵詞:數(shù)據(jù)挖掘分類模型

        謝忠群

        (貴州財經(jīng)大學(xué),貴陽 550002)

        1 研究背景

        近年來,我國證券市場的高速發(fā)展催生了一批題材股。在這些題材中間,高送轉(zhuǎn)這一題材無疑是中小投資者強烈追捧的對象。實施高送轉(zhuǎn)后股價將做除權(quán)處理,投資者可以通過填權(quán)行情從二級市場的股票增值中獲利,而等除權(quán)后再買入可能面臨很大的回撤風(fēng)險。如果我們能準(zhǔn)確預(yù)測下一年可能實施高送轉(zhuǎn)的上市公司并提前買入,這對我們投資的安全性具有很大的現(xiàn)實意義。經(jīng)過研究,影響上市公司實施高送轉(zhuǎn)的因子主要有兩類:一是基本因子,包括股價、總股本、上市年限等;二是成長因子,包括每股未分配利潤、每股資本公積、每股現(xiàn)金流、每股收益等。除此之外,還有其他因子等待挖掘。

        本文利用相關(guān)數(shù)據(jù),篩選出對上市公司實施高送轉(zhuǎn)方案有較大影響的因子,建立模型預(yù)測哪些上市公司可能會實施高送轉(zhuǎn),并對提供的數(shù)據(jù)用所建立的模型來預(yù)測第8 年上市公司實施高送轉(zhuǎn)的情況。

        2 因子選取

        本文研究數(shù)據(jù)為3466 家上市公司7 年的各種高送轉(zhuǎn)相關(guān)因素,包含了年數(shù)據(jù)、日數(shù)據(jù)、基礎(chǔ)數(shù)據(jù),原始數(shù)據(jù)共24262 個樣本。在實際建模前對數(shù)據(jù)作預(yù)處理,刪除或補全缺失值、統(tǒng)一量綱,將數(shù)據(jù)規(guī)范化。

        從數(shù)據(jù)挖掘角度在所有特征中挑選出了前8 個影響較大的因子,分別為歸屬于母公司凈利潤同比增長(%)(A)、每股收益(期末攤薄,元/股)(B)、基本每股收益(C)、每股凈資產(chǎn)(元/股)(D)、稀釋每股收益同比增長(%)(E)、基本每股收益同比增長(%)(F)、上市年限(G)、總資產(chǎn)凈利率(%)(H)。將這8 個影響因子繪制特征重要性排名,從高到低為:B、A、D、C、H、E、F、G,且每個特征的重要性較為均衡。

        圖1 因子重要性排名

        3 模型訓(xùn)練

        通過數(shù)據(jù)處理,特征選擇以及提取影響因子,我們得到了高質(zhì)量的訓(xùn)練和測試數(shù)據(jù)集,現(xiàn)在要通過運用得到的數(shù)據(jù)和xgboost 算法正式進(jìn)入“高送轉(zhuǎn)”預(yù)測模型的構(gòu)建工作中。

        本文將挑選出的這8 個因子放入xgboost 模型中,從AUC結(jié)果來看,通過數(shù)據(jù)挖掘出的因子計算出的AUC 值高達(dá)0.96,說明利用數(shù)據(jù)挖掘挑選出的因子配合xgboost 模型的分類效果較好。

        4 模型預(yù)測

        xgboost 算法由GBDT 算法演變而來,在GBDT 的基礎(chǔ)上通過改變目標(biāo)函數(shù)來避免GBDT 存在的問題,例如:當(dāng)數(shù)據(jù)量很大時,減少計算時間等。

        圖2 ROC 曲線

        在測試結(jié)果展示的部分,我們使用混淆矩陣來展示模型的分類效果?;煜仃囈卜Q作誤差矩陣,是表示精度評價的一種形式。對于二分類下的混淆矩陣,標(biāo)簽有兩種,分別為0 和1,橫坐標(biāo)代表通過模型分類出來的測試集的結(jié)果,縱坐標(biāo)表示數(shù)據(jù)集中給定的數(shù)據(jù)集的結(jié)果。對角線上的數(shù)據(jù)代表被正確分類的數(shù)據(jù)的個數(shù),另外的數(shù)代表被錯誤分類的數(shù)據(jù)的個數(shù)。通過這些數(shù)據(jù),計算出模型的精確率(precision)、召回率(recall)、準(zhǔn)確率(accuracy)、f1-score,f1-score 值是將精確率和召回率的值合并,計算其調(diào)和均值,計算公式為:

        其中,TP 為被分類模型正確預(yù)測的正樣本數(shù),TN 為被分類模型正確預(yù)測的負(fù)樣本數(shù),F(xiàn)P 為被分類模型錯誤預(yù)測為正類的負(fù)樣本數(shù),F(xiàn)N 為被分類模型錯誤預(yù)測為負(fù)類的正樣本數(shù),分別對應(yīng)于混淆矩陣的(0,0)(1,1)(0,1)(1,0)位置。

        圖3 預(yù)測值與真實值的混淆矩陣

        根據(jù)混淆矩陣計算出各個值:負(fù)類0 的精確率(precision)為0.96、召回率(recall)為0.96、f1-score 的值為0.96;正類1 的精確率(precision)為0.80、召回率(recall)為0.81、f1-score 的值為0.80;模型準(zhǔn)確率(accuracy)為0.93,統(tǒng)計如下表1。

        表1 分類準(zhǔn)確率

        猜你喜歡
        數(shù)據(jù)挖掘分類模型
        一半模型
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        3D打印中的模型分割與打包
        污污内射在线观看一区二区少妇| 我想看久久久一级黄片| av在线播放免费网站| 日日躁夜夜躁狠狠躁| 韩国精品一区二区三区无码视频| 国产一区二区三区精品久久呦| 国产午夜精品综合久久久| 国产内射爽爽大片| 99久久国产综合精品五月天| 国产成人拍精品免费视频| 一区二区中文字幕蜜桃| 人妻少妇精品中文字幕专区| 男女啪啪无遮挡免费网站| 国产精品一区二区资源| 日本av一区二区三区四区| 男女18禁啪啪无遮挡激烈网站| 亚洲精品字幕在线观看| 亚洲国产高清美女在线观看| 美女视频黄a视频全免费网站色| 亚州性无码不卡免费视频| 性一交一乱一伦| 亚洲国产视频精品一区二区| 天堂蜜桃视频在线观看| 少妇性饥渴无码a区免费| 伊人色网站| 白白色青青草视频免费观看| 亚洲中国精品精华液| 亚洲国产精品久久亚洲精品 | 国产裸体AV久无码无遮挡| 日本在线一区二区三区视频观看| 少妇高潮流白浆在线观看| 国产成人AV无码精品无毒| 天堂精品人妻一卡二卡| 无码h黄肉3d动漫在线观看| 久久久久久久女国产乱让韩| 亚洲AV无码日韩一区二区乱| 国产一区二区精品亚洲| 人人澡人人澡人人看添av| 亚洲AV秘 无码一区二区三| 日韩精品免费在线视频一区| 国产香蕉国产精品偷在线|