亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合模型的上市公司高送轉(zhuǎn)預(yù)測

        2020-06-03 02:46:20
        關(guān)鍵詞:決策樹準(zhǔn)確率變量

        (貴州大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,貴州省博弈決策與控制系統(tǒng)重點(diǎn)實(shí)驗室,貴陽,550025)

        1 引言

        高送轉(zhuǎn)股票是指上市公司高比例送紅股或者高比例轉(zhuǎn)贈股票的簡稱,一般市場送轉(zhuǎn)比例超過0.5(包括0.5)被認(rèn)為是高送轉(zhuǎn).高送轉(zhuǎn)本質(zhì)上是股東權(quán)益的內(nèi)部結(jié)構(gòu)調(diào)整,無論是送紅股還是轉(zhuǎn)增股票都是將資金轉(zhuǎn)化成股票的形式發(fā)放給投資者,對公司的盈利能力沒有任何實(shí)質(zhì)性影響,所以也并不會改變公司總市值.一些研究表明,高送轉(zhuǎn)預(yù)案公告前后均存在顯著的超額收益率[1-5].所以對投資者而言,如果能提前預(yù)知上市公司是否高送轉(zhuǎn),不僅能享受除權(quán)前的超額收益,還能從除權(quán)后的填權(quán)行情中獲利.因此能準(zhǔn)確預(yù)測可能實(shí)施高送轉(zhuǎn)的公司對投資者來說有著重大意義.

        對于高送轉(zhuǎn)預(yù)測問題,許多學(xué)者已有了相應(yīng)的研究.熊義明等(2012)[6]將不同送轉(zhuǎn)理論納入logistic回歸模型.送轉(zhuǎn)理論中包含的變量有股價、股本、每股積累、每股收益、凈利潤增速、市值賬面比、是否次新股、上年是否高送轉(zhuǎn)和低價股9個變量.基于中國市場2006-2010年數(shù)據(jù)進(jìn)行樣本外預(yù)測,其主要方法是以第t年之前的數(shù)據(jù)為基礎(chǔ)估計獲得系數(shù),然后結(jié)合第t年的自變量數(shù)據(jù),計算第t年高送轉(zhuǎn)的概率,并與實(shí)際情況對比,最終得到各年份的預(yù)測準(zhǔn)確率在50%-90%之間.王鵬等(2016)[7]基于logistic回歸模型分析影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素,研究表明:影響創(chuàng)業(yè)板上市公司進(jìn)行高送轉(zhuǎn)的因素主要是股價與公司總市值.潘明娟等(2016)[8]以2015-2016年上市公司為研究樣本,通過運(yùn)用多項logistic模型實(shí)現(xiàn)分檔預(yù)測以及線性回歸來構(gòu)建相關(guān)因子之間的關(guān)系,以此制定具體投資策略獲得盡可能大的超額收益率.石好等(2016)[9-10]采用logistic回歸與主成分分析相結(jié)合的方法,構(gòu)建了年報高送轉(zhuǎn)股票的預(yù)測模型,直接選取每股凈資產(chǎn)、每股資本公積金、每股未分配利潤、每股現(xiàn)金凈流量、上市時間、股價和股本7個解釋變量代入此預(yù)測模型,實(shí)證結(jié)果顯示:預(yù)測準(zhǔn)確度最高可達(dá)80.91%.王凱等(2016)[11]利用上市公司三季度財報數(shù)據(jù),采用3種集成學(xué)習(xí)算法構(gòu)建預(yù)測模型,結(jié)果顯示,由K-近鄰算法、決策樹以及加懲罰項的logistic回歸算法組成的“組合”模型預(yù)測得到的高送轉(zhuǎn)股票組合表現(xiàn)最優(yōu).胡宸(2019)[12]運(yùn)用邏輯回歸和支持向量機(jī)的集成學(xué)習(xí)預(yù)測上市公司下一年是否高送轉(zhuǎn)以及對投資策略設(shè)計做了一些深入的探討.

        上述文獻(xiàn)中大多數(shù)學(xué)者采用logistic回歸模型,后來有些學(xué)者利用組合模型的方法對高送轉(zhuǎn)進(jìn)行預(yù)測,但是其組合模型是求取各模型算法類別概率的均值,未考慮到各模型的預(yù)測正確率的高低.本文數(shù)據(jù)來源于點(diǎn)寬網(wǎng)絡(luò)科技有限公司提供的3465家上市公司7年的年數(shù)據(jù)交易信息.本文在模型的構(gòu)建中,考慮到各模型的預(yù)測正確率的高低,將各單一模型進(jìn)行線性組合,利用拉格朗日函數(shù)求得組合模型中各單一模型的權(quán)重,最后基于此組合模型進(jìn)行預(yù)測,提高了預(yù)測準(zhǔn)確率.本文的結(jié)構(gòu)安排如下:在第2節(jié)中,介紹建模的相關(guān)理論以及組合預(yù)測模型的方法.在第3節(jié)中,構(gòu)建模型并進(jìn)行實(shí)證分析.第4節(jié)是結(jié)論,對全文進(jìn)行總結(jié).

        2 相關(guān)理論及組合預(yù)測模型

        2.1 隨機(jī)森林

        隨機(jī)森林(Random Forest,RF)算法是Breiman在2001年提出的一種集成算法,它利用bootstrap自助抽樣方法,采用決策樹和bagging的結(jié)合模式,在以多棵決策樹并行的基礎(chǔ)上結(jié)合成為一個強(qiáng)學(xué)習(xí)器.該算法在對有眾多特征變量的數(shù)據(jù)處理時可以用來篩選出重要變量,進(jìn)而再進(jìn)行后面的一系列建模分析.在本文數(shù)據(jù)集中,正類數(shù)據(jù)約占15%,負(fù)類數(shù)據(jù)約占85%,對于不平衡的數(shù)據(jù)集來說,隨機(jī)森林算法可以平衡誤差.

        2.2 Lasso回歸

        Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法,它通過構(gòu)造一個懲罰函數(shù),將變量的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?,進(jìn)而達(dá)到變量選擇的目的.

        2.3 Logistic回歸

        邏輯(Logistic)回歸模型是一種廣義線性模型,適用于處理結(jié)果變量為二值型變量或分類變量的回歸問題,即結(jié)果變量Y可以取0或1(其中Y=1表示事件發(fā)生,Y=0表示事件不發(fā)生),其條件概率分布如下:

        其中g(shù)(x)=β0+β1x1+β2x2+…+βpxp.

        2.4 決策樹

        決策樹算法是一種逼近離散函數(shù)值的方法.它是一種典型的分類方法,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程.決策樹構(gòu)造可以分兩步進(jìn)行:(1)決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程;(2)決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗、預(yù)測和修正的過程,主要是用測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)測準(zhǔn)確性的分枝剪除.

        2.5 組合預(yù)測模型

        將多種模型進(jìn)行組合可以充分發(fā)揮各模型的優(yōu)勢,預(yù)測出的結(jié)果也更加可靠.假設(shè)有M個子模型,則其線性組合的數(shù)學(xué)表達(dá)式如下:

        為了提高組合模型預(yù)測準(zhǔn)確率,引入各分類模型的分類準(zhǔn)確率作為權(quán)重系數(shù)的懲罰項.在本文中,M=2,構(gòu)造的損失函數(shù)[16]如下:

        (1)

        其中,fi,gi分別為logistic回歸模型和決策樹模型的預(yù)測類別概率,λ為拉格朗日乘數(shù),αm為第m個模型對應(yīng)的權(quán)重,wm為各模型分類準(zhǔn)確率(m=1,2).

        由于函數(shù)L(α1,α2)為二次凸函數(shù),故有唯一的極值點(diǎn),即最優(yōu)權(quán)重,它可利用Python軟件求得.

        3 實(shí)證分析

        3.1 數(shù)據(jù)預(yù)處理

        本文中的年數(shù)據(jù)共計24262個.數(shù)據(jù)涉及的范圍廣、量大,且有部分?jǐn)?shù)據(jù)缺失.若某只股票或某變量缺失信息太多,則將其舍去,如果缺失值較少,就采用向前填充的方法將缺失值填充為前一個值.由于不同量綱的數(shù)據(jù)之間的差別可能會很大,所以將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.

        3.2 數(shù)據(jù)特征提取

        3.2.1 基于隨機(jī)森林算法的特征提取

        通過預(yù)處理階段對缺失值的處理后,年數(shù)據(jù)中有未分配利潤、凈債務(wù)、留存收益、資本公積、每股收益、每股現(xiàn)金流量凈額等228個指標(biāo)變量,其中有許多冗余變量,且數(shù)據(jù)量龐大、結(jié)構(gòu)復(fù)雜.隨機(jī)森林算法剛好適用于這種類型的數(shù)據(jù).故采用該算法對年數(shù)據(jù)中228個指標(biāo)進(jìn)行分析處理,得到每年的各個變量重要性得分,再篩選出得分較高的變量作為影響股票高送轉(zhuǎn)的重要因子.

        圖1與圖2是從第3年到第6年數(shù)據(jù)的228個指標(biāo)中選取的最重要的前30個指標(biāo).Mean Decrease Gimi通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點(diǎn)上觀測值的異質(zhì)性的影響,據(jù)此比較變量的重要性.該值越大表示該變量的重要性越大.從圖1中可以看出,第3年和第4年數(shù)據(jù)的變量重要性中上市年限的值最大,從圖2中看出,第5年和第6年數(shù)據(jù)的變量重要性中基本每股收益的值最大,說明上市年限與基本每股收益這兩個因子對上市公司是否實(shí)行高送轉(zhuǎn)具有重要影響.在這4年數(shù)據(jù)的指標(biāo)中80%的指標(biāo)是重復(fù)的,所以選取這4年的重要變量,最后選出了上市年限、基本每股收益、有形凈資產(chǎn)、營運(yùn)資本、留存收益等43個變量(因子).

        圖1 第3-4年變量重要性

        圖2 第5-6年變量重要性

        3.2.2 基于Lasso方法的特征提取

        運(yùn)用Lasso方法對基于隨機(jī)森林算法選取的43個變量提煉出更加重要的變量放入模型.表1為第3年到第6年數(shù)據(jù)中系數(shù)不為0的變量.

        表1 第3-6年系數(shù)不為0的變量

        綜合第3年到第6年數(shù)據(jù)中的重要變量,我們得到11個重要因子:每股收益(期末攤薄)、基本每股收益、每股凈資產(chǎn)、每股資本公積、每股公積金、每股未分配利潤、每股留存收益、總資產(chǎn)凈利率、總資產(chǎn)報酬率、上市年限、每股送轉(zhuǎn).

        3.3 模型預(yù)測與評價

        本文構(gòu)建的高送轉(zhuǎn)預(yù)測模型是基于兩個單一模型的組合預(yù)測模型.根據(jù)數(shù)據(jù)中的信息,高送轉(zhuǎn)預(yù)案公告日一般都在一年中的3月份或4月份,因此可根據(jù)上一年的數(shù)據(jù)預(yù)測下一年是否高送轉(zhuǎn).據(jù)此,我們確定解釋變量是在3.2中選取的第t-1年的11個重要因子,被解釋變量為第t年的是否高送轉(zhuǎn).數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集為第t-1年的數(shù)據(jù),測試集為第t年的數(shù)據(jù).第一種模型是基于logistic回歸建立的預(yù)測模型,第二種模型是基于決策樹的二分類預(yù)測模型,然后將這兩種模型依據(jù)權(quán)重進(jìn)行線性組合,組合權(quán)重由拉格朗日函數(shù)求解.

        對式(1)中的損失函數(shù)關(guān)于各變量求偏導(dǎo)并令它們等于零,得:

        (2)

        利用Python對式(2)進(jìn)行求解得到各年份每個模型的權(quán)重,進(jìn)而得到如下的各年份的組合模型:

        第5年的組合模型:

        0.488×fi+0.512×gi,

        第6年的組合模型:

        0.764×fi+0.236×gi,

        第7年的組合模型:

        0.555×fi+0.445×gi.

        Logistic回歸模型、決策樹模型和組合模型的預(yù)測準(zhǔn)確率,結(jié)果如表2和圖3所示.

        表2 各模型預(yù)測準(zhǔn)確率

        圖3 各模型預(yù)測準(zhǔn)確率

        從表2中可以看出,在第6年的預(yù)測準(zhǔn)確率中,logistic回歸模型的預(yù)測準(zhǔn)確率為76.59%,決策樹模型的預(yù)測準(zhǔn)確率為73.795%,組合模型的預(yù)測準(zhǔn)確率為77.9798%,可見決策樹模型的預(yù)測準(zhǔn)確率最差,組合模型的預(yù)測準(zhǔn)確率比決策樹模型的預(yù)測準(zhǔn)確率提高了4.19%,比logistic回歸的預(yù)測準(zhǔn)確率提高了1.39%.同理,在第5年的預(yù)測準(zhǔn)確率中組合模型提高了1.01%(相比較于各單一模型中的最優(yōu)模型,下同),在第7年的預(yù)測準(zhǔn)確率中組合模型提高了0.6%.由圖3可以看出,組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高,可見組合模型可以表現(xiàn)出更加優(yōu)越的效果.

        4 結(jié)論

        本文基于組合模型對高送轉(zhuǎn)公司進(jìn)行預(yù)測.為了提高預(yù)測準(zhǔn)確率,首先根據(jù)數(shù)據(jù)不平衡的特點(diǎn),利用隨機(jī)森林算法從228個指標(biāo)變量中選取出43個因子,之后為防止解釋變量間相關(guān)系數(shù)過大而造成過擬合的情況,又利用Lasso方法在選出的43個因子中選出11個重要因子放入模型.從實(shí)證分析結(jié)果可以看出,基于損失函數(shù)確定權(quán)重的組合模型的預(yù)測準(zhǔn)確率比各單一模型的預(yù)測準(zhǔn)確率都要高,相比單一模型中的預(yù)測,組合模型的預(yù)測準(zhǔn)確率最高提高了1.39%,說明該組合模型是有效的.

        證券市場中的股票實(shí)施高送轉(zhuǎn)時在預(yù)案公告日公布之前的一段時間股價會持續(xù)抬升,帶來顯著的正的超額收益,因此是中小投資者強(qiáng)烈追捧的對象,所以對上市公司是否實(shí)施高送轉(zhuǎn)的預(yù)測是一個比較熱門并且很有意義的問題.本文的組合模型是logistic回歸模型與決策樹模型的線性組合,其權(quán)重是由拉格朗日函數(shù)確定的,考慮到了各算法的好壞,所以組合模型的預(yù)測效果要比各單一模型的預(yù)測效果要好.因此,采用組合模型預(yù)測可以為中小投資者提供可靠的具有理論支撐的決策依據(jù).

        猜你喜歡
        決策樹準(zhǔn)確率變量
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        抓住不變量解題
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        也談分離變量
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        基于決策樹的出租車乘客出行目的識別
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        精品无码国产自产野外拍在线| 日本不卡一区二区三区在线视频| 亚洲一区二区三区小说| 国产精品9999久久久久| 国产精品一区二区韩国AV| 久久精品国产亚洲av成人无人区| 91伦理片视频国产精品久久久| 亚洲精品乱码久久久久久金桔影视| 精品十八禁免费观看| 一本色道久久88综合亚洲精品 | 人妻少妇中文字幕在线| 欧美人和黑人牲交网站上线| 伊人久久大香线蕉在观看| 中国av一区二区三区四区| 欧美激情乱人伦| 久久精品人人做人人爽| 狠狠亚洲婷婷综合色香五月| 免费看片的网站国产亚洲| 粗大的内捧猛烈进出少妇| 97人妻熟女成人免费视频| 国产精品国产三级国产an| 亚洲一区二区日韩精品在线| 天天综合网在线观看视频| 在线不卡av天堂| 中文字幕久久国产精品| 综合亚洲伊人午夜网| 扒开双腿疯狂进出爽爽爽视频| 亚洲Av无码专区尤物| 亚洲视频一区二区免费看| 无码人妻丰满熟妇啪啪网站| h国产视频| 熟妇人妻丰满少妇一区| 国产精品蝌蚪九色av综合网| 久久久噜噜噜www成人网| 久久久国产精品ⅤA麻豆百度| 久久精品国产亚洲av一般男女| 精品久久久久香蕉网| 国产精品入口牛牛影视| 亚洲一区二区三区av天堂| 国产免码va在线观看免费| 免费大片黄在线观看|