亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于組合模型的上市公司高送轉(zhuǎn)預(yù)測

2020-06-03 02:46:20

數(shù)學(xué)理論與應(yīng)用 2020年3期

(貴州大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院，貴州省博弈決策與控制系統(tǒng)重點(diǎn)實(shí)驗室，貴陽，550025)

1 引言

高送轉(zhuǎn)股票是指上市公司高比例送紅股或者高比例轉(zhuǎn)贈股票的簡稱，一般市場送轉(zhuǎn)比例超過0.5(包括0.5)被認(rèn)為是高送轉(zhuǎn).高送轉(zhuǎn)本質(zhì)上是股東權(quán)益的內(nèi)部結(jié)構(gòu)調(diào)整，無論是送紅股還是轉(zhuǎn)增股票都是將資金轉(zhuǎn)化成股票的形式發(fā)放給投資者，對公司的盈利能力沒有任何實(shí)質(zhì)性影響，所以也并不會改變公司總市值.一些研究表明，高送轉(zhuǎn)預(yù)案公告前后均存在顯著的超額收益率[1-5].所以對投資者而言，如果能提前預(yù)知上市公司是否高送轉(zhuǎn)，不僅能享受除權(quán)前的超額收益，還能從除權(quán)后的填權(quán)行情中獲利.因此能準(zhǔn)確預(yù)測可能實(shí)施高送轉(zhuǎn)的公司對投資者來說有著重大意義.

對于高送轉(zhuǎn)預(yù)測問題，許多學(xué)者已有了相應(yīng)的研究.熊義明等(2012)[6]將不同送轉(zhuǎn)理論納入logistic回歸模型.送轉(zhuǎn)理論中包含的變量有股價、股本、每股積累、每股收益、凈利潤增速、市值賬面比、是否次新股、上年是否高送轉(zhuǎn)和低價股9個變量.基于中國市場2006-2010年數(shù)據(jù)進(jìn)行樣本外預(yù)測，其主要方法是以第t年之前的數(shù)據(jù)為基礎(chǔ)估計獲得系數(shù)，然后結(jié)合第t年的自變量數(shù)據(jù)，計算第t年高送轉(zhuǎn)的概率，并與實(shí)際情況對比，最終得到各年份的預(yù)測準(zhǔn)確率在50%-90%之間.王鵬等(2016)[7]基于logistic回歸模型分析影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素，研究表明：影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素主要是股價與公司總市值.潘明娟等(2016)[8]以2015-2016年上市公司為研究樣本，通過運(yùn)用多項logistic模型實(shí)現(xiàn)分檔預(yù)測以及線性回歸來構(gòu)建相關(guān)因子之間的關(guān)系，以此制定具體投資策略獲得盡可能大的超額收益率.石好等(2016)[9-10]采用logistic回歸與主成分分析相結(jié)合的方法，構(gòu)建了年報高送轉(zhuǎn)股票的預(yù)測模型，直接選取每股凈資產(chǎn)、每股資本公積金、每股未分配利潤、每股現(xiàn)金凈流量、上市時間、股價和股本7個解釋變量代入此預(yù)測模型，實(shí)證結(jié)果顯示：預(yù)測準(zhǔn)確度最高可達(dá)80.91%.王凱等(2016)[11]利用上市公司三季度財報數(shù)據(jù)，采用3種集成學(xué)習(xí)算法構(gòu)建預(yù)測模型，結(jié)果顯示，由K-近鄰算法、決策樹以及加懲罰項的logistic回歸算法組成的“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)最優(yōu).胡宸(2019)[12]運(yùn)用邏輯回歸和支持向量機(jī)的集成學(xué)習(xí)預(yù)測上市公司下一年是否高送轉(zhuǎn)以及對投資策略設(shè)計做了一些深入的探討.

上述文獻(xiàn)中大多數(shù)學(xué)者采用logistic回歸模型，后來有些學(xué)者利用組合模型的方法對高送轉(zhuǎn)進(jìn)行預(yù)測，但是其組合模型是求取各模型算法類別概率的均值，未考慮到各模型的預(yù)測正確率的高低.本文數(shù)據(jù)來源于點(diǎn)寬網(wǎng)絡(luò)科技有限公司提供的3465家上市公司7年的年數(shù)據(jù)交易信息.本文在模型的構(gòu)建中，考慮到各模型的預(yù)測正確率的高低，將各單一模型進(jìn)行線性組合，利用拉格朗日函數(shù)求得組合模型中各單一模型的權(quán)重，最后基于此組合模型進(jìn)行預(yù)測，提高了預(yù)測準(zhǔn)確率.本文的結(jié)構(gòu)安排如下：在第2節(jié)中，介紹建模的相關(guān)理論以及組合預(yù)測模型的方法.在第3節(jié)中，構(gòu)建模型并進(jìn)行實(shí)證分析.第4節(jié)是結(jié)論，對全文進(jìn)行總結(jié).

2 相關(guān)理論及組合預(yù)測模型

2.1 隨機(jī)森林

隨機(jī)森林(Random Forest，RF)算法是Breiman在2001年提出的一種集成算法，它利用bootstrap自助抽樣方法，采用決策樹和bagging的結(jié)合模式，在以多棵決策樹并行的基礎(chǔ)上結(jié)合成為一個強(qiáng)學(xué)習(xí)器.該算法在對有眾多特征變量的數(shù)據(jù)處理時可以用來篩選出重要變量，進(jìn)而再進(jìn)行后面的一系列建模分析.在本文數(shù)據(jù)集中，正類數(shù)據(jù)約占15%，負(fù)類數(shù)據(jù)約占85%，對于不平衡的數(shù)據(jù)集來說，隨機(jī)森林算法可以平衡誤差.

2.2 Lasso回歸

Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法，它通過構(gòu)造一個懲罰函數(shù)，將變量的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?，進(jìn)而達(dá)到變量選擇的目的.

2.3 Logistic回歸

邏輯(Logistic)回歸模型是一種廣義線性模型，適用于處理結(jié)果變量為二值型變量或分類變量的回歸問題，即結(jié)果變量Y可以取0或1(其中Y=1表示事件發(fā)生，Y=0表示事件不發(fā)生)，其條件概率分布如下：

其中g(shù)(x)=β0+β1x1+β2x2+…+βpxp.

2.4 決策樹

決策樹算法是一種逼近離散函數(shù)值的方法.它是一種典型的分類方法，本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程.決策樹構(gòu)造可以分兩步進(jìn)行：(1)決策樹的生成：由訓(xùn)練樣本集生成決策樹的過程；(2)決策樹的剪枝：決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗、預(yù)測和修正的過程，主要是用測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則，將那些影響預(yù)測準(zhǔn)確性的分枝剪除.

2.5 組合預(yù)測模型

將多種模型進(jìn)行組合可以充分發(fā)揮各模型的優(yōu)勢，預(yù)測出的結(jié)果也更加可靠.假設(shè)有M個子模型，則其線性組合的數(shù)學(xué)表達(dá)式如下：

為了提高組合模型預(yù)測準(zhǔn)確率，引入各分類模型的分類準(zhǔn)確率作為權(quán)重系數(shù)的懲罰項.在本文中，M=2，構(gòu)造的損失函數(shù)[16]如下：

(1)

其中，fi,gi分別為logistic回歸模型和決策樹模型的預(yù)測類別概率，λ為拉格朗日乘數(shù)，αm為第m個模型對應(yīng)的權(quán)重，wm為各模型分類準(zhǔn)確率(m=1,2).

由于函數(shù)L(α1,α2)為二次凸函數(shù)，故有唯一的極值點(diǎn)，即最優(yōu)權(quán)重，它可利用Python軟件求得.

3 實(shí)證分析

3.1 數(shù)據(jù)預(yù)處理

本文中的年數(shù)據(jù)共計24262個.數(shù)據(jù)涉及的范圍廣、量大，且有部分?jǐn)?shù)據(jù)缺失.若某只股票或某變量缺失信息太多，則將其舍去，如果缺失值較少，就采用向前填充的方法將缺失值填充為前一個值.由于不同量綱的數(shù)據(jù)之間的差別可能會很大，所以將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.

3.2 數(shù)據(jù)特征提取

3.2.1 基于隨機(jī)森林算法的特征提取

通過預(yù)處理階段對缺失值的處理后，年數(shù)據(jù)中有未分配利潤、凈債務(wù)、留存收益、資本公積、每股收益、每股現(xiàn)金流量凈額等228個指標(biāo)變量，其中有許多冗余變量，且數(shù)據(jù)量龐大、結(jié)構(gòu)復(fù)雜.隨機(jī)森林算法剛好適用于這種類型的數(shù)據(jù).故采用該算法對年數(shù)據(jù)中228個指標(biāo)進(jìn)行分析處理，得到每年的各個變量重要性得分，再篩選出得分較高的變量作為影響股票高送轉(zhuǎn)的重要因子.

圖1與圖2是從第3年到第6年數(shù)據(jù)的228個指標(biāo)中選取的最重要的前30個指標(biāo).Mean Decrease Gimi通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點(diǎn)上觀測值的異質(zhì)性的影響，據(jù)此比較變量的重要性.該值越大表示該變量的重要性越大.從圖1中可以看出，第3年和第4年數(shù)據(jù)的變量重要性中上市年限的值最大，從圖2中看出，第5年和第6年數(shù)據(jù)的變量重要性中基本每股收益的值最大，說明上市年限與基本每股收益這兩個因子對上市公司是否實(shí)行高送轉(zhuǎn)具有重要影響.在這4年數(shù)據(jù)的指標(biāo)中80%的指標(biāo)是重復(fù)的，所以選取這4年的重要變量，最后選出了上市年限、基本每股收益、有形凈資產(chǎn)、營運(yùn)資本、留存收益等43個變量(因子).

圖1 第3-4年變量重要性

圖2 第5-6年變量重要性

3.2.2 基于Lasso方法的特征提取

運(yùn)用Lasso方法對基于隨機(jī)森林算法選取的43個變量提煉出更加重要的變量放入模型.表1為第3年到第6年數(shù)據(jù)中系數(shù)不為0的變量.

表1 第3-6年系數(shù)不為0的變量

綜合第3年到第6年數(shù)據(jù)中的重要變量，我們得到11個重要因子：每股收益(期末攤薄)、基本每股收益、每股凈資產(chǎn)、每股資本公積、每股公積金、每股未分配利潤、每股留存收益、總資產(chǎn)凈利率、總資產(chǎn)報酬率、上市年限、每股送轉(zhuǎn).

3.3 模型預(yù)測與評價

本文構(gòu)建的高送轉(zhuǎn)預(yù)測模型是基于兩個單一模型的組合預(yù)測模型.根據(jù)數(shù)據(jù)中的信息，高送轉(zhuǎn)預(yù)案公告日一般都在一年中的3月份或4月份，因此可根據(jù)上一年的數(shù)據(jù)預(yù)測下一年是否高送轉(zhuǎn).據(jù)此，我們確定解釋變量是在3.2中選取的第t-1年的11個重要因子，被解釋變量為第t年的是否高送轉(zhuǎn).數(shù)據(jù)集分為訓(xùn)練集和測試集，訓(xùn)練集為第t-1年的數(shù)據(jù)，測試集為第t年的數(shù)據(jù).第一種模型是基于logistic回歸建立的預(yù)測模型，第二種模型是基于決策樹的二分類預(yù)測模型，然后將這兩種模型依據(jù)權(quán)重進(jìn)行線性組合，組合權(quán)重由拉格朗日函數(shù)求解.

對式(1)中的損失函數(shù)關(guān)于各變量求偏導(dǎo)并令它們等于零，得：

(2)

利用Python對式(2)進(jìn)行求解得到各年份每個模型的權(quán)重，進(jìn)而得到如下的各年份的組合模型：

第5年的組合模型：

0.488×fi+0.512×gi,

第6年的組合模型：

0.764×fi+0.236×gi,

第7年的組合模型：

0.555×fi+0.445×gi.

Logistic回歸模型、決策樹模型和組合模型的預(yù)測準(zhǔn)確率，結(jié)果如表2和圖3所示.

表2 各模型預(yù)測準(zhǔn)確率

圖3 各模型預(yù)測準(zhǔn)確率

從表2中可以看出，在第6年的預(yù)測準(zhǔn)確率中，logistic回歸模型的預(yù)測準(zhǔn)確率為76.59%，決策樹模型的預(yù)測準(zhǔn)確率為73.795%，組合模型的預(yù)測準(zhǔn)確率為77.9798%，可見決策樹模型的預(yù)測準(zhǔn)確率最差，組合模型的預(yù)測準(zhǔn)確率比決策樹模型的預(yù)測準(zhǔn)確率提高了4.19%，比logistic回歸的預(yù)測準(zhǔn)確率提高了1.39%.同理，在第5年的預(yù)測準(zhǔn)確率中組合模型提高了1.01%(相比較于各單一模型中的最優(yōu)模型，下同)，在第7年的預(yù)測準(zhǔn)確率中組合模型提高了0.6%.由圖3可以看出，組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高，可見組合模型可以表現(xiàn)出更加優(yōu)越的效果.

4 結(jié)論

本文基于組合模型對高送轉(zhuǎn)公司進(jìn)行預(yù)測.為了提高預(yù)測準(zhǔn)確率，首先根據(jù)數(shù)據(jù)不平衡的特點(diǎn)，利用隨機(jī)森林算法從228個指標(biāo)變量中選取出43個因子，之后為防止解釋變量間相關(guān)系數(shù)過大而造成過擬合的情況，又利用Lasso方法在選出的43個因子中選出11個重要因子放入模型.從實(shí)證分析結(jié)果可以看出，基于損失函數(shù)確定權(quán)重的組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高，相比單一模型中的預(yù)測，組合模型的預(yù)測準(zhǔn)確率最高提高了1.39%，說明該組合模型是有效的.

證券市場中的股票實(shí)施高送轉(zhuǎn)時在預(yù)案公告日公布之前的一段時間股價會持續(xù)抬升，帶來顯著的正的超額收益，因此是中小投資者強(qiáng)烈追捧的對象，所以對上市公司是否實(shí)施高送轉(zhuǎn)的預(yù)測是一個比較熱門并且很有意義的問題.本文的組合模型是logistic回歸模型與決策樹模型的線性組合，其權(quán)重是由拉格朗日函數(shù)確定的，考慮到了各算法的好壞，所以組合模型的預(yù)測效果要比各單一模型的預(yù)測效果要好.因此，采用組合模型預(yù)測可以為中小投資者提供可靠的具有理論支撐的決策依據(jù).