瞿尚薇 王斌會(huì)
摘 要 運(yùn)用遺傳算法粗糙集邏輯回歸方法(GARSLR)探討我國(guó)A股上市公司財(cái)務(wù)與股票收益的關(guān)系.運(yùn)用GARS方法獲得財(cái)務(wù)指標(biāo)最優(yōu)約簡(jiǎn);運(yùn)用LR模型探求兩者關(guān)系.最終,經(jīng)GARS約簡(jiǎn),60個(gè)財(cái)務(wù)指標(biāo)中有17個(gè)對(duì)股票投資有重要影響;通過(guò)LR模型,4個(gè)指標(biāo)具有顯著效應(yīng);其中,負(fù)債與權(quán)益市價(jià)比為5.82%負(fù)效應(yīng),其余為正效應(yīng).對(duì)2015年股票相對(duì)波動(dòng)進(jìn)行預(yù)測(cè)得到70%的準(zhǔn)確率,驗(yàn)證了GARSLR模型對(duì)中長(zhǎng)期投資的有效性.
關(guān)鍵詞 遺傳算法-粗糙集;邏輯回歸;股票收益;公司財(cái)務(wù)
中圖分類(lèi)號(hào) F224 文獻(xiàn)標(biāo)識(shí)碼 A
1 引 言
股票市場(chǎng)對(duì)一個(gè)國(guó)家和地區(qū)的經(jīng)濟(jì)發(fā)展動(dòng)向有前導(dǎo)作用.股票收益受到宏觀經(jīng)濟(jì)現(xiàn)狀、政策、公司財(cái)務(wù)、投資者情緒等因素影響.研究股票收益問(wèn)題一直是學(xué)術(shù)界的研究熱點(diǎn).目前,學(xué)術(shù)界對(duì)股價(jià)與上市公司財(cái)務(wù)之間關(guān)系的探討主要從兩方面入手.一是通過(guò)建立計(jì)量模型來(lái)探求股票與其影響因素的關(guān)系,進(jìn)而對(duì)股價(jià)進(jìn)行分析與預(yù)測(cè)[1,2].然而計(jì)量模型對(duì)數(shù)據(jù)平穩(wěn)性、正態(tài)性等有嚴(yán)格限定,直接利用很難達(dá)到預(yù)期結(jié)果.股票市場(chǎng)數(shù)據(jù)體量巨大、類(lèi)型繁多,故很多學(xué)者轉(zhuǎn)而選用數(shù)據(jù)挖掘方法來(lái)探究其關(guān)系.如有不少學(xué)者就運(yùn)用遺傳算法[3]、BP神經(jīng)網(wǎng)絡(luò)[4]等得到了較為理想的結(jié)果.
粗糙集(Rough Sets)理論[5,6]由波蘭數(shù)學(xué)家Pawlak Z于1982年所提出.這是一種用于處理含糊和不確定信息的新型數(shù)學(xué)工具,具有優(yōu)越的知識(shí)簡(jiǎn)化能力.粗糙集理論利用現(xiàn)有知識(shí)庫(kù)對(duì)不精確的知識(shí)進(jìn)行近似描述[7].RS方法不需預(yù)先假定概率分布,也不需像模糊集理論一樣假設(shè)模糊隸屬函數(shù)的結(jié)構(gòu),而是僅僅利用數(shù)據(jù)本身提供的信息.目前對(duì)粗糙集的研究主要集中于其數(shù)學(xué)性質(zhì),理論的擴(kuò)展以及與其他智能方法的融合與有效算法等[8].杜婷(2012)將粗糙集運(yùn)用到了個(gè)人信用評(píng)估模型之中,并取得了良好的約簡(jiǎn)結(jié)果[9].王剛、楊善林將粗糙集與支持向量機(jī)相結(jié)合,以分析網(wǎng)絡(luò)商品評(píng)論中的情感進(jìn)行分析,實(shí)證表明,RSSVM方法可以提高網(wǎng)絡(luò)用戶(hù)情感分析的準(zhǔn)確程度[10].邏輯回歸方法由vethulst首次提出.1980年,Ohlson率先將邏輯回歸模型用于財(cái)務(wù)危機(jī)預(yù)警,分析樣本公司在破產(chǎn)概率區(qū)間上的分布以及兩類(lèi)錯(cuò)誤和分割點(diǎn)之間的關(guān)系,并得到高預(yù)測(cè)準(zhǔn)確率[11].劉遵雄、黃志強(qiáng)等(2012)在邏輯回歸的基礎(chǔ)上進(jìn)行完善,提出了基于平滑小編絕對(duì)偏離(SCAD)懲罰邏輯回歸模型,運(yùn)用到財(cái)務(wù)預(yù)警,實(shí)驗(yàn)結(jié)果表明SCAD懲罰邏輯回歸模型的分類(lèi)效果更好[12].因此Logistic回歸法在經(jīng)濟(jì)領(lǐng)域的研究受到了極大關(guān)注.
基于此,本文提出了遺傳算法-粗糙集-邏輯回歸(GARSLR)數(shù)據(jù)挖掘技術(shù),用于探究股票投資與上市公司財(cái)務(wù)指標(biāo)體系的內(nèi)在聯(lián)系.運(yùn)用GARS模型得到最優(yōu)財(cái)務(wù)約簡(jiǎn)指標(biāo).并在此之上利用逐步回歸法與Logistic回歸模型以探究公司財(cái)務(wù)與股票收益的確切關(guān)系.最終得到上市公司財(cái)務(wù)指標(biāo)不同大類(lèi)之間與個(gè)股投資概率之間的正負(fù)效應(yīng)關(guān)系及其影響大小.
經(jīng) 濟(jì) 數(shù) 學(xué)第 33卷第1期瞿尚薇等:基于GARSLR算法的公司財(cái)務(wù)與個(gè)股投資探究
2 GARSLR模型構(gòu)建
2.1 GARS約簡(jiǎn)模型
粗糙集理論的屬性約簡(jiǎn)算法可分為是盲目刪除屬性約簡(jiǎn)算法與啟發(fā)式算法.遺傳算法作為啟發(fā)式算法中的一種,具有全局優(yōu)化和隱含并行的特點(diǎn),在解決復(fù)雜問(wèn)題中具有明顯優(yōu)勢(shì).遺傳算法在屬性約簡(jiǎn)問(wèn)題中需要具體考慮的因素如下:
3 GARSLR模型實(shí)證
3.1 數(shù)據(jù)選取與處理
以我國(guó)上海交所與深交所上市的A股上市公司為依據(jù),選取2014年下半年內(nèi)數(shù)據(jù)完整、具有不同行業(yè)分類(lèi)的非ST、非*ST的上市公司作為樣本.提取公司財(cái)務(wù)季度指標(biāo)60個(gè),個(gè)股開(kāi)盤(pán)價(jià)、收盤(pán)價(jià),上證綜合開(kāi)盤(pán)指數(shù)、收盤(pán)指數(shù)等指標(biāo),最終得到樣本913個(gè).其中財(cái)務(wù)指標(biāo)體系的分布見(jiàn)表1.
不同指標(biāo)之間量綱不同,同一指標(biāo)不同個(gè)體之間的差別各異,直接利用原始數(shù)據(jù)進(jìn)行分析,不僅會(huì)增大模型的復(fù)雜度,還會(huì)造成結(jié)果的不理想.故運(yùn)用K-均值聚類(lèi)對(duì)各項(xiàng)指標(biāo)進(jìn)行逐一聚類(lèi),并最終將公司就不同指標(biāo)分別分為3類(lèi).
由于公司財(cái)務(wù)報(bào)表的公布具有時(shí)滯性,股票數(shù)據(jù)選取也將延后一個(gè)季度.同時(shí),考慮到投資者投資其他領(lǐng)域而非股票所造成的機(jī)會(huì)成本,本文用上證綜指收益率作為基準(zhǔn)收益率:當(dāng)大盤(pán)指數(shù)上升時(shí),若個(gè)股上升幅度更大,則認(rèn)為該個(gè)股為強(qiáng)勢(shì)股,值得投資;反之,投資該個(gè)股并非明智之舉.同理,當(dāng)大盤(pán)指數(shù)下降時(shí),若個(gè)股下降幅度更小,則該個(gè)股是抗壓股;反之.基于此將股票分為2類(lèi).“好”為具有投資價(jià)值的強(qiáng)勢(shì)股或者抗壓股;“差”為不值得投資的股票.
3.2 GARS屬性約簡(jiǎn)
在對(duì)離散化數(shù)據(jù)進(jìn)行GARS屬性約簡(jiǎn)之前,需要設(shè)定遺傳算法的參數(shù).具體見(jiàn)表2.
約簡(jiǎn)后,影響股價(jià)相對(duì)收益率的財(cái)務(wù)指標(biāo)從60個(gè)變量縮減為17個(gè).約簡(jiǎn)集合相對(duì)決策屬性的依賴(lài)度都達(dá)到了100%,這表明該約簡(jiǎn)結(jié)果對(duì)決策屬性的解釋度100%.約簡(jiǎn)后的指標(biāo)分布見(jiàn)表3.
可知,發(fā)展能力指標(biāo)數(shù)目最多,共6個(gè)指標(biāo);其次是償債能力.考慮到時(shí)滯性,該17個(gè)約簡(jiǎn)指標(biāo)應(yīng)是股票價(jià)格波動(dòng)的領(lǐng)先指標(biāo),對(duì)下期的股價(jià)相對(duì)波動(dòng)有著顯著的影響.投資者在決策時(shí)應(yīng)重點(diǎn)關(guān)注.
3.3 Logistic回歸與逐步回歸
通過(guò)GARS約簡(jiǎn)后,財(cái)務(wù)指標(biāo)得到了極大的簡(jiǎn)化,但是GARS屬性約簡(jiǎn)只能保證上市公司財(cái)務(wù)指標(biāo)屬性集對(duì)個(gè)股相對(duì)波動(dòng)率的相對(duì)重要性,而沒(méi)有給出兩者之間更為確切的關(guān)系.因而引入LR模型對(duì)約簡(jiǎn)的財(cái)務(wù)指標(biāo)與股票波動(dòng)的相互關(guān)系做更為細(xì)致準(zhǔn)確的刻畫(huà).同時(shí),對(duì)財(cái)務(wù)指標(biāo)體系而言,計(jì)算過(guò)程中所運(yùn)用的基礎(chǔ)數(shù)據(jù)有交叉,故指標(biāo)之間存在很強(qiáng)的相關(guān)性.這一缺陷會(huì)導(dǎo)致財(cái)務(wù)指標(biāo)之間存在比較嚴(yán)重的共線性,如果直接使用LR模型將極大減弱模型的擬合效果.因此,在LR模型中使用逐步回歸法進(jìn)行變量篩選,消除變量之間的共線性,從而精簡(jiǎn)模型.endprint
通過(guò)計(jì)算17個(gè)約簡(jiǎn)指標(biāo)的VIF值可知,固定資產(chǎn)增長(zhǎng)率、銷(xiāo)售費(fèi)用本增長(zhǎng)率的VIF都超過(guò)5,說(shuō)明變量之間存在共線性.利用逐步回歸法得到的LR模型中變量的VIF值見(jiàn)表4.可以發(fā)現(xiàn),此時(shí)各變量之間已不存在共線性問(wèn)題.
為驗(yàn)證模型有效性,以2014年第4季度財(cái)務(wù)指標(biāo)為自變量,2015年第1季度股票投資比為應(yīng)變量進(jìn)行模型預(yù)測(cè)檢驗(yàn),得到900個(gè)樣本的預(yù)測(cè)準(zhǔn)確度為70%.這表明大約有630個(gè)上市公司的個(gè)股波動(dòng)可以通過(guò)上一期的GARSLR模型得到準(zhǔn)確預(yù)測(cè).這對(duì)價(jià)值型的中長(zhǎng)期投資者具有一定的參考意義.
4 結(jié) 論
本文提出了遺傳算法-粗糙集-邏輯回歸方法(GARSLR)探究股價(jià)相對(duì)收益率與財(cái)務(wù)指標(biāo)的關(guān)系.利用K-均值聚類(lèi)進(jìn)行離散化處理,既解決了數(shù)據(jù)量綱不一致的問(wèn)題,又使同一類(lèi)別相似個(gè)體之間的差異被忽略,而不同類(lèi)別之間的差異被放大.通過(guò)選用GARS方法以約簡(jiǎn)眾多的財(cái)務(wù)指標(biāo).最終得到由17個(gè)指標(biāo)所組成的約簡(jiǎn)體系,且RS約簡(jiǎn)的相對(duì)依賴(lài)度為100%.基于約簡(jiǎn)指標(biāo)數(shù)據(jù),利用逐步回歸法對(duì)LR模型進(jìn)行變量篩選,解決共線性問(wèn)題.最終得到上市公司財(cái)務(wù)指標(biāo)不同大類(lèi)之間與個(gè)股投資概率比之間的正負(fù)效應(yīng)關(guān)系及其影響大小,并得到70%的預(yù)測(cè)準(zhǔn)確度,驗(yàn)證了GARSLR模型對(duì)中長(zhǎng)期投資所具有的優(yōu)勢(shì).
參考文獻(xiàn)
[1] 陳玉山,席斌.獨(dú)立成分分析方法在股票分析中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007, 28(6): 1473-1476.
[2] 吳榮盛.全流通條件下的股票價(jià)格與財(cái)務(wù)信息的相關(guān)性研究-來(lái)自我國(guó)滬深300指數(shù)的實(shí)證研究[D].成都:西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)學(xué)院,2014.
[3] 胡冰,潘福錚,胡清鋒.遺傳算法在股票短期投資決策中的運(yùn)用[J].系統(tǒng)工程與實(shí)踐,2003, 23(2): 7-13.
[4] 王莎. BP神經(jīng)網(wǎng)絡(luò)在股票預(yù)測(cè)中的應(yīng)用研究[D].長(zhǎng)沙:中南大學(xué)商學(xué)院,2008.
[5] Z PAWLAK. A Rough Set Perspective [J]. International Journal of Computational Intelligence, 1995, 11(2): 227-232.
[6] Z PAWLAK, Busse GRZYMALA,J SLOWINSKI, et al. [J]. Communications of the ACM, 1995, 38(11):89-90.
[7] 董威.粗糙集理論及其數(shù)據(jù)挖掘應(yīng)用[M].沈陽(yáng):東北大學(xué)出版社, 2009.
[8] 王國(guó)胤. Rough集理論在不完備信息系統(tǒng)下的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展, 2002, 39(10): 1238-1243.
[9] 杜婷. 基于粗糙集支持向量機(jī)的個(gè)人信用評(píng)估模型[J]. 統(tǒng)計(jì)與決策,2012,1(13):94-96.
[10]王剛,楊善林.基于RS-SVM的網(wǎng)絡(luò)商品評(píng)論情感分析研究[J].計(jì)算機(jī)科學(xué),2013,40(11):274-277.
[11]J OHLSON. Financial ratios and probabilistic prediction of bankruptcy[J]. Journal of Accounting Research, 1980,18(1):109-131.
[12]劉遵雄,黃志強(qiáng),孫清,張恒.SCAD懲罰邏輯回歸的財(cái)務(wù)預(yù)警模型[J].統(tǒng)計(jì)與信息論壇,2012,27(12):21-26.endprint