蔡麗
【摘要】本文利用數(shù)據(jù)挖掘中的分類(lèi)方法,選取了部分上市公司的財(cái)務(wù)比率數(shù)據(jù),用R軟件進(jìn)行分析,為投資者提供決策依據(jù).
【關(guān)鍵詞】 數(shù)據(jù)挖掘;財(cái)務(wù)指標(biāo);分類(lèi)方法
【基金項(xiàng)目】北京市教委科研計(jì)劃項(xiàng)目(KM201410011006)
一、引 言
數(shù)據(jù)挖掘是從大量不完全、有噪聲、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識(shí)的過(guò)程.目前已經(jīng)用于客戶關(guān)系管理、銀行風(fēng)險(xiǎn)項(xiàng)目評(píng)估和金融市場(chǎng)等多個(gè)領(lǐng)域,用于財(cái)務(wù)指標(biāo)分析的還不多見(jiàn).本文旨在通過(guò)數(shù)據(jù)挖掘方法分析上市公司的財(cái)務(wù)指標(biāo)數(shù)據(jù),建立模型,輔助投資者深入認(rèn)識(shí)公司的財(cái)務(wù)狀況,為多數(shù)股民,特別是散戶進(jìn)行相關(guān)問(wèn)題的正確決策提供數(shù)據(jù)支持.
二、分類(lèi)算法
分類(lèi)在數(shù)據(jù)挖掘中是一類(lèi)很重要的方法,在商業(yè)上的應(yīng)用最多.其目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)模型,能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定的某一個(gè)類(lèi)別.本論文主要側(cè)重?cái)?shù)據(jù)挖掘中分類(lèi)算法在股票財(cái)務(wù)指標(biāo)方面的應(yīng)用.其中用到?jīng)Q策樹(shù)、隨機(jī)森林、支持向量機(jī)(SVM)三種算法.
三、分類(lèi)模型的建立
1.數(shù)據(jù)理解
本文的數(shù)據(jù)來(lái)源于銳思金融數(shù)據(jù)庫(kù),所選的數(shù)據(jù)為2012年10月8日前上市的公司信息.屬性包括:每股指標(biāo)中的每股收益和每股凈資產(chǎn),盈利能力中的銷(xiāo)售凈利率,成長(zhǎng)能力指標(biāo)中的凈資產(chǎn)收益率、凈資產(chǎn)增長(zhǎng)率和凈利潤(rùn)增長(zhǎng)率等12個(gè)屬性,包括了公司不同能力方面的財(cái)務(wù)比率數(shù)據(jù).因變量是根據(jù)2012年10月8日和2013年10月8日的收盤(pán)價(jià)與這兩天大盤(pán)的收盤(pán)價(jià)變化率相比,若比大盤(pán)的收盤(pán)價(jià)的變化率高,則標(biāo)記為“好”,反之標(biāo)記為“差”.
2.數(shù)據(jù)處理
(1)決策樹(shù)
本文建立決策樹(shù)[3]的過(guò)程中,用到的是rpart.Control函數(shù),其中,最小樣本量minsplit為20,進(jìn)行交叉驗(yàn)證剪枝的交叉折數(shù)xval為10,最大樹(shù)深度maxdepth為5,最小代價(jià)復(fù)雜度剪枝中的復(fù)雜度參數(shù)CP值為0.01.
劃分特征空間時(shí),用到的是gini指標(biāo),它用來(lái)度量數(shù)據(jù)劃分或者數(shù)據(jù)集的不純度,數(shù)據(jù)集D的gini指標(biāo)公式為:Gini(D).其中,pi是D中樣本屬于Ci類(lèi)的概率,并用Cj,D[]D
估計(jì).
同時(shí)構(gòu)建決策樹(shù)過(guò)程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.
根據(jù)最后形成的決策樹(shù)得到分類(lèi)規(guī)則,比如:NAPS≥4.9,NOCF≥2.3e+9則預(yù)測(cè)為bad.
(2)隨機(jī)森林
本文中,隨機(jī)森林共建立了500棵決策樹(shù),每個(gè)節(jié)點(diǎn)的候選輸入變量個(gè)數(shù)為3.基于袋外觀測(cè)的預(yù)測(cè)誤判率為42.76%.由袋外觀測(cè)的混淆矩陣來(lái)看,單個(gè)模型對(duì)兩個(gè)類(lèi)別的預(yù)測(cè)精度均不理想.隨機(jī)森林對(duì)所有觀測(cè)進(jìn)行預(yù)測(cè),預(yù)測(cè)誤差為0.
在評(píng)價(jià)各輸入變量的重要性時(shí),要用到importance函數(shù),其中MeanDecreas
e Accuracy表示預(yù)測(cè)精度的平均減少量,MeanDecreaseGini表示給出節(jié)點(diǎn)異質(zhì)性指標(biāo)的平均減少量.為了更全面直觀地評(píng)價(jià)各輸入變量的重要性,用varImpPlot函數(shù)進(jìn)行作圖,見(jiàn)圖1:
輸入變量重要性測(cè)度散點(diǎn)圖圖1 輸入變量重要性測(cè)度散點(diǎn)圖
從對(duì)輸出變量預(yù)測(cè)精度的影響看,每股凈資產(chǎn)、銷(xiāo)售凈利率、流動(dòng)比率、經(jīng)營(yíng)現(xiàn)金凈流量比較重要.從對(duì)輸出變量異質(zhì)性下降程度的影響看,同樣是這幾個(gè)變量較為重要,即每股凈資產(chǎn)、銷(xiāo)售凈利率、流動(dòng)比率、經(jīng)營(yíng)現(xiàn)金凈流量不同的上市公司,對(duì)是否優(yōu)于大盤(pán)有較大的影響.
(3)SVM
在對(duì)數(shù)據(jù)處理的過(guò)程中,文中利用網(wǎng)格搜索法10折交叉驗(yàn)證尋找較優(yōu)參數(shù),確定cost和gamma值,構(gòu)建SVM模型.
根據(jù)最后SVM對(duì)測(cè)試集的預(yù)測(cè)結(jié)果,可以得到ROC曲線,見(jiàn)圖2:
在圖2中,橫坐標(biāo)代表錯(cuò)誤的正例率(FPR),縱坐標(biāo)代表正確的正例率(TPR).希望TPR盡量的大,F(xiàn)PR盡量的小即圖中的曲線越靠左上方說(shuō)明預(yù)測(cè)得越好.而從圖中的曲線來(lái)看,預(yù)測(cè)效果還有較大的差距.
四、分析與總結(jié)
經(jīng)過(guò)比較,隨機(jī)森林給出了最高的預(yù)測(cè)率60%,決策樹(shù)其次,支持向量機(jī)排在最后.見(jiàn)表1:
分析 表1可以看出: 從三種方法對(duì)測(cè)試集的分類(lèi)正確率來(lái)看,隨機(jī)森林最高,但它們?cè)谔幚砥渌袠I(yè)數(shù)據(jù)時(shí),精確度達(dá)到90%以上[6-8],可見(jiàn),數(shù)據(jù)本身對(duì)模型的結(jié)果還是有很大的影響.因此,股市想要通過(guò)分析財(cái)務(wù)比率來(lái)達(dá)到很好的預(yù)測(cè)效果還是很困難的,雖然與所構(gòu)建的模型有關(guān),但最大的原因還在于股市本身的波動(dòng)性[9].
【參考文獻(xiàn)】
[1]趙選民,薛建樓.利用數(shù)據(jù)挖掘技術(shù)分析上市公司財(cái)務(wù)狀況[J].中國(guó)管理信息化.2009,12(3):30-32.
[2]李航.統(tǒng)計(jì)學(xué)方法[M].北京:清華大學(xué)出版社,2012.
[3]John Durkin,蔡競(jìng)峰,蔡自興.決策樹(shù)技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,12(1):15-18.
[4]馬景義,吳喜之,謝邦昌.擬自適應(yīng)分類(lèi)隨機(jī)森林算法[J].數(shù)理統(tǒng)計(jì)與管理,2010,29(5):806-811.
[5]薛薇.基于R的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].中國(guó)人民大學(xué)出版社,2014.
[6]馬瑾,孫穎,劉尚輝.決策樹(shù)模型在住院2型糖尿病患者死因預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30 (3): 422-423.
[7]袁敏,胡秀珍.隨機(jī)森林方法預(yù)測(cè)膠原蛋白類(lèi)型[J].生物物理學(xué)報(bào),2009,25 (5): 349-354.
[8]張華,曾杰.基于支持向量機(jī)的風(fēng)速預(yù)測(cè)模型研究[J].太陽(yáng)能學(xué)報(bào),2010,31 (7): 928-931.
[9]張彥來(lái).數(shù)據(jù)挖掘在股票投資中的應(yīng)用[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2010.
數(shù)學(xué)學(xué)習(xí)與研究2015年7期