(貴州大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,貴州省博弈決策與控制系統(tǒng)重點(diǎn)實(shí)驗室,貴陽,550025)
高送轉(zhuǎn)股票是指上市公司高比例送紅股或者高比例轉(zhuǎn)贈股票的簡稱,一般市場送轉(zhuǎn)比例超過0.5(包括0.5)被認(rèn)為是高送轉(zhuǎn).高送轉(zhuǎn)本質(zhì)上是股東權(quán)益的內(nèi)部結(jié)構(gòu)調(diào)整,無論是送紅股還是轉(zhuǎn)增股票都是將資金轉(zhuǎn)化成股票的形式發(fā)放給投資者,對公司的盈利能力沒有任何實(shí)質(zhì)性影響,所以也并不會改變公司總市值.一些研究表明,高送轉(zhuǎn)預(yù)案公告前后均存在顯著的超額收益率[1-5].所以對投資者而言,如果能提前預(yù)知上市公司是否高送轉(zhuǎn),不僅能享受除權(quán)前的超額收益,還能從除權(quán)后的填權(quán)行情中獲利.因此能準(zhǔn)確預(yù)測可能實(shí)施高送轉(zhuǎn)的公司對投資者來說有著重大意義.
對于高送轉(zhuǎn)預(yù)測問題,許多學(xué)者已有了相應(yīng)的研究.熊義明等(2012)[6]將不同送轉(zhuǎn)理論納入logistic回歸模型.送轉(zhuǎn)理論中包含的變量有股價、股本、每股積累、每股收益、凈利潤增速、市值賬面比、是否次新股、上年是否高送轉(zhuǎn)和低價股9個變量.基于中國市場2006-2010年數(shù)據(jù)進(jìn)行樣本外預(yù)測,其主要方法是以第t年之前的數(shù)據(jù)為基礎(chǔ)估計獲得系數(shù),然后結(jié)合第t年的自變量數(shù)據(jù),計算第t年高送轉(zhuǎn)的概率,并與實(shí)際情況對比,最終得到各年份的預(yù)測準(zhǔn)確率在50%-90%之間.王鵬等(2016)[7]基于logistic回歸模型分析影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素,研究表明:影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素主要是股價與公司總市值.潘明娟等(2016)[8]以2015-2016年上市公司為研究樣本,通過運(yùn)用多項logistic模型實(shí)現(xiàn)分檔預(yù)測以及線性回歸來構(gòu)建相關(guān)因子之間的關(guān)系,以此制定具體投資策略獲得盡可能大的超額收益率.石好等(2016)[9-10]采用logistic回歸與主成分分析相結(jié)合的方法,構(gòu)建了年報高送轉(zhuǎn)股票的預(yù)測模型,直接選取每股凈資產(chǎn)、每股資本公積金、每股未分配利潤、每股現(xiàn)金凈流量、上市時間、股價和股本7個解釋變量代入此預(yù)測模型,實(shí)證結(jié)果顯示:預(yù)測準(zhǔn)確度最高可達(dá)80.91%.王凱等(2016)[11]利用上市公司三季度財報數(shù)據(jù),采用3種集成學(xué)習(xí)算法構(gòu)建預(yù)測模型,結(jié)果顯示,由K-近鄰算法、決策樹以及加懲罰項的logistic回歸算法組成的“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)最優(yōu).胡宸(2019)[12]運(yùn)用邏輯回歸和支持向量機(jī)的集成學(xué)習(xí)預(yù)測上市公司下一年是否高送轉(zhuǎn)以及對投資策略設(shè)計做了一些深入的探討.
上述文獻(xiàn)中大多數(shù)學(xué)者采用logistic回歸模型,后來有些學(xué)者利用組合模型的方法對高送轉(zhuǎn)進(jìn)行預(yù)測,但是其組合模型是求取各模型算法類別概率的均值,未考慮到各模型的預(yù)測正確率的高低.本文數(shù)據(jù)來源于點(diǎn)寬網(wǎng)絡(luò)科技有限公司提供的3465家上市公司7年的年數(shù)據(jù)交易信息.本文在模型的構(gòu)建中,考慮到各模型的預(yù)測正確率的高低,將各單一模型進(jìn)行線性組合,利用拉格朗日函數(shù)求得組合模型中各單一模型的權(quán)重,最后基于此組合模型進(jìn)行預(yù)測,提高了預(yù)測準(zhǔn)確率.本文的結(jié)構(gòu)安排如下:在第2節(jié)中,介紹建模的相關(guān)理論以及組合預(yù)測模型的方法.在第3節(jié)中,構(gòu)建模型并進(jìn)行實(shí)證分析.第4節(jié)是結(jié)論,對全文進(jìn)行總結(jié).
隨機(jī)森林(Random Forest,RF)算法是Breiman在2001年提出的一種集成算法,它利用bootstrap自助抽樣方法,采用決策樹和bagging的結(jié)合模式,在以多棵決策樹并行的基礎(chǔ)上結(jié)合成為一個強(qiáng)學(xué)習(xí)器.該算法在對有眾多特征變量的數(shù)據(jù)處理時可以用來篩選出重要變量,進(jìn)而再進(jìn)行后面的一系列建模分析.在本文數(shù)據(jù)集中,正類數(shù)據(jù)約占15%,負(fù)類數(shù)據(jù)約占85%,對于不平衡的數(shù)據(jù)集來說,隨機(jī)森林算法可以平衡誤差.
Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法,它通過構(gòu)造一個懲罰函數(shù),將變量的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到變量選擇的目的.
邏輯(Logistic)回歸模型是一種廣義線性模型,適用于處理結(jié)果變量為二值型變量或分類變量的回歸問題,即結(jié)果變量Y可以取0或1(其中Y=1表示事件發(fā)生,Y=0表示事件不發(fā)生),其條件概率分布如下:
其中g(shù)(x)=β0+β1x1+β2x2+…+βpxp.
決策樹算法是一種逼近離散函數(shù)值的方法.它是一種典型的分類方法,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程.決策樹構(gòu)造可以分兩步進(jìn)行:(1)決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程;(2)決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗、預(yù)測和修正的過程,主要是用測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)測準(zhǔn)確性的分枝剪除.
將多種模型進(jìn)行組合可以充分發(fā)揮各模型的優(yōu)勢,預(yù)測出的結(jié)果也更加可靠.假設(shè)有M個子模型,則其線性組合的數(shù)學(xué)表達(dá)式如下:
為了提高組合模型預(yù)測準(zhǔn)確率,引入各分類模型的分類準(zhǔn)確率作為權(quán)重系數(shù)的懲罰項.在本文中,M=2,構(gòu)造的損失函數(shù)[16]如下:
(1)
其中,fi,gi分別為logistic回歸模型和決策樹模型的預(yù)測類別概率,λ為拉格朗日乘數(shù),αm為第m個模型對應(yīng)的權(quán)重,wm為各模型分類準(zhǔn)確率(m=1,2).
由于函數(shù)L(α1,α2)為二次凸函數(shù),故有唯一的極值點(diǎn),即最優(yōu)權(quán)重,它可利用Python軟件求得.
本文中的年數(shù)據(jù)共計24262個.數(shù)據(jù)涉及的范圍廣、量大,且有部分?jǐn)?shù)據(jù)缺失.若某只股票或某變量缺失信息太多,則將其舍去,如果缺失值較少,就采用向前填充的方法將缺失值填充為前一個值.由于不同量綱的數(shù)據(jù)之間的差別可能會很大,所以將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
3.2.1 基于隨機(jī)森林算法的特征提取
通過預(yù)處理階段對缺失值的處理后,年數(shù)據(jù)中有未分配利潤、凈債務(wù)、留存收益、資本公積、每股收益、每股現(xiàn)金流量凈額等228個指標(biāo)變量,其中有許多冗余變量,且數(shù)據(jù)量龐大、結(jié)構(gòu)復(fù)雜.隨機(jī)森林算法剛好適用于這種類型的數(shù)據(jù).故采用該算法對年數(shù)據(jù)中228個指標(biāo)進(jìn)行分析處理,得到每年的各個變量重要性得分,再篩選出得分較高的變量作為影響股票高送轉(zhuǎn)的重要因子.
圖1與圖2是從第3年到第6年數(shù)據(jù)的228個指標(biāo)中選取的最重要的前30個指標(biāo).Mean Decrease Gimi通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點(diǎn)上觀測值的異質(zhì)性的影響,據(jù)此比較變量的重要性.該值越大表示該變量的重要性越大.從圖1中可以看出,第3年和第4年數(shù)據(jù)的變量重要性中上市年限的值最大,從圖2中看出,第5年和第6年數(shù)據(jù)的變量重要性中基本每股收益的值最大,說明上市年限與基本每股收益這兩個因子對上市公司是否實(shí)行高送轉(zhuǎn)具有重要影響.在這4年數(shù)據(jù)的指標(biāo)中80%的指標(biāo)是重復(fù)的,所以選取這4年的重要變量,最后選出了上市年限、基本每股收益、有形凈資產(chǎn)、營運(yùn)資本、留存收益等43個變量(因子).
圖1 第3-4年變量重要性
圖2 第5-6年變量重要性
3.2.2 基于Lasso方法的特征提取
運(yùn)用Lasso方法對基于隨機(jī)森林算法選取的43個變量提煉出更加重要的變量放入模型.表1為第3年到第6年數(shù)據(jù)中系數(shù)不為0的變量.
表1 第3-6年系數(shù)不為0的變量
綜合第3年到第6年數(shù)據(jù)中的重要變量,我們得到11個重要因子:每股收益(期末攤薄)、基本每股收益、每股凈資產(chǎn)、每股資本公積、每股公積金、每股未分配利潤、每股留存收益、總資產(chǎn)凈利率、總資產(chǎn)報酬率、上市年限、每股送轉(zhuǎn).
本文構(gòu)建的高送轉(zhuǎn)預(yù)測模型是基于兩個單一模型的組合預(yù)測模型.根據(jù)數(shù)據(jù)中的信息,高送轉(zhuǎn)預(yù)案公告日一般都在一年中的3月份或4月份,因此可根據(jù)上一年的數(shù)據(jù)預(yù)測下一年是否高送轉(zhuǎn).據(jù)此,我們確定解釋變量是在3.2中選取的第t-1年的11個重要因子,被解釋變量為第t年的是否高送轉(zhuǎn).數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集為第t-1年的數(shù)據(jù),測試集為第t年的數(shù)據(jù).第一種模型是基于logistic回歸建立的預(yù)測模型,第二種模型是基于決策樹的二分類預(yù)測模型,然后將這兩種模型依據(jù)權(quán)重進(jìn)行線性組合,組合權(quán)重由拉格朗日函數(shù)求解.
對式(1)中的損失函數(shù)關(guān)于各變量求偏導(dǎo)并令它們等于零,得:
(2)
利用Python對式(2)進(jìn)行求解得到各年份每個模型的權(quán)重,進(jìn)而得到如下的各年份的組合模型:
第5年的組合模型:
0.488×fi+0.512×gi,
第6年的組合模型:
0.764×fi+0.236×gi,
第7年的組合模型:
0.555×fi+0.445×gi.
Logistic回歸模型、決策樹模型和組合模型的預(yù)測準(zhǔn)確率,結(jié)果如表2和圖3所示.
表2 各模型預(yù)測準(zhǔn)確率
圖3 各模型預(yù)測準(zhǔn)確率
從表2中可以看出,在第6年的預(yù)測準(zhǔn)確率中,logistic回歸模型的預(yù)測準(zhǔn)確率為76.59%,決策樹模型的預(yù)測準(zhǔn)確率為73.795%,組合模型的預(yù)測準(zhǔn)確率為77.9798%,可見決策樹模型的預(yù)測準(zhǔn)確率最差,組合模型的預(yù)測準(zhǔn)確率比決策樹模型的預(yù)測準(zhǔn)確率提高了4.19%,比logistic回歸的預(yù)測準(zhǔn)確率提高了1.39%.同理,在第5年的預(yù)測準(zhǔn)確率中組合模型提高了1.01%(相比較于各單一模型中的最優(yōu)模型,下同),在第7年的預(yù)測準(zhǔn)確率中組合模型提高了0.6%.由圖3可以看出,組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高,可見組合模型可以表現(xiàn)出更加優(yōu)越的效果.
本文基于組合模型對高送轉(zhuǎn)公司進(jìn)行預(yù)測.為了提高預(yù)測準(zhǔn)確率,首先根據(jù)數(shù)據(jù)不平衡的特點(diǎn),利用隨機(jī)森林算法從228個指標(biāo)變量中選取出43個因子,之后為防止解釋變量間相關(guān)系數(shù)過大而造成過擬合的情況,又利用Lasso方法在選出的43個因子中選出11個重要因子放入模型.從實(shí)證分析結(jié)果可以看出,基于損失函數(shù)確定權(quán)重的組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高,相比單一模型中的預(yù)測,組合模型的預(yù)測準(zhǔn)確率最高提高了1.39%,說明該組合模型是有效的.
證券市場中的股票實(shí)施高送轉(zhuǎn)時在預(yù)案公告日公布之前的一段時間股價會持續(xù)抬升,帶來顯著的正的超額收益,因此是中小投資者強(qiáng)烈追捧的對象,所以對上市公司是否實(shí)施高送轉(zhuǎn)的預(yù)測是一個比較熱門并且很有意義的問題.本文的組合模型是logistic回歸模型與決策樹模型的線性組合,其權(quán)重是由拉格朗日函數(shù)確定的,考慮到了各算法的好壞,所以組合模型的預(yù)測效果要比各單一模型的預(yù)測效果要好.因此,采用組合模型預(yù)測可以為中小投資者提供可靠的具有理論支撐的決策依據(jù).