亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘在股票財(cái)務(wù)指標(biāo)中的應(yīng)用

        2015-05-30 18:48:08蔡麗
        關(guān)鍵詞:數(shù)據(jù)挖掘

        蔡麗

        【摘要】本文利用數(shù)據(jù)挖掘中的分類(lèi)方法,選取了部分上市公司的財(cái)務(wù)比率數(shù)據(jù),用R軟件進(jìn)行分析,為投資者提供決策依據(jù).

        【關(guān)鍵詞】 數(shù)據(jù)挖掘;財(cái)務(wù)指標(biāo);分類(lèi)方法

        【基金項(xiàng)目】北京市教委科研計(jì)劃項(xiàng)目(KM201410011006)

        一、引 言

        數(shù)據(jù)挖掘是從大量不完全、有噪聲、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識(shí)的過(guò)程.目前已經(jīng)用于客戶關(guān)系管理、銀行風(fēng)險(xiǎn)項(xiàng)目評(píng)估和金融市場(chǎng)等多個(gè)領(lǐng)域,用于財(cái)務(wù)指標(biāo)分析的還不多見(jiàn).本文旨在通過(guò)數(shù)據(jù)挖掘方法分析上市公司的財(cái)務(wù)指標(biāo)數(shù)據(jù),建立模型,輔助投資者深入認(rèn)識(shí)公司的財(cái)務(wù)狀況,為多數(shù)股民,特別是散戶進(jìn)行相關(guān)問(wèn)題的正確決策提供數(shù)據(jù)支持.

        二、分類(lèi)算法

        分類(lèi)在數(shù)據(jù)挖掘中是一類(lèi)很重要的方法,在商業(yè)上的應(yīng)用最多.其目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)或分類(lèi)模型,能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定的某一個(gè)類(lèi)別.本論文主要側(cè)重?cái)?shù)據(jù)挖掘中分類(lèi)算法在股票財(cái)務(wù)指標(biāo)方面的應(yīng)用.其中用到?jīng)Q策樹(shù)、隨機(jī)森林、支持向量機(jī)(SVM)三種算法.

        三、分類(lèi)模型的建立

        1.數(shù)據(jù)理解

        本文的數(shù)據(jù)來(lái)源于銳思金融數(shù)據(jù)庫(kù),所選的數(shù)據(jù)為2012年10月8日前上市的公司信息.屬性包括:每股指標(biāo)中的每股收益和每股凈資產(chǎn),盈利能力中的銷(xiāo)售凈利率,成長(zhǎng)能力指標(biāo)中的凈資產(chǎn)收益率、凈資產(chǎn)增長(zhǎng)率和凈利潤(rùn)增長(zhǎng)率等12個(gè)屬性,包括了公司不同能力方面的財(cái)務(wù)比率數(shù)據(jù).因變量是根據(jù)2012年10月8日和2013年10月8日的收盤(pán)價(jià)與這兩天大盤(pán)的收盤(pán)價(jià)變化率相比,若比大盤(pán)的收盤(pán)價(jià)的變化率高,則標(biāo)記為“好”,反之標(biāo)記為“差”.

        2.數(shù)據(jù)處理

        (1)決策樹(shù)

        本文建立決策樹(shù)[3]的過(guò)程中,用到的是rpart.Control函數(shù),其中,最小樣本量minsplit為20,進(jìn)行交叉驗(yàn)證剪枝的交叉折數(shù)xval為10,最大樹(shù)深度maxdepth為5,最小代價(jià)復(fù)雜度剪枝中的復(fù)雜度參數(shù)CP值為0.01.

        劃分特征空間時(shí),用到的是gini指標(biāo),它用來(lái)度量數(shù)據(jù)劃分或者數(shù)據(jù)集的不純度,數(shù)據(jù)集D的gini指標(biāo)公式為:Gini(D).其中,pi是D中樣本屬于Ci類(lèi)的概率,并用Cj,D[]D

        估計(jì).

        同時(shí)構(gòu)建決策樹(shù)過(guò)程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.

        根據(jù)最后形成的決策樹(shù)得到分類(lèi)規(guī)則,比如:NAPS≥4.9,NOCF≥2.3e+9則預(yù)測(cè)為bad.

        (2)隨機(jī)森林

        本文中,隨機(jī)森林共建立了500棵決策樹(shù),每個(gè)節(jié)點(diǎn)的候選輸入變量個(gè)數(shù)為3.基于袋外觀測(cè)的預(yù)測(cè)誤判率為42.76%.由袋外觀測(cè)的混淆矩陣來(lái)看,單個(gè)模型對(duì)兩個(gè)類(lèi)別的預(yù)測(cè)精度均不理想.隨機(jī)森林對(duì)所有觀測(cè)進(jìn)行預(yù)測(cè),預(yù)測(cè)誤差為0.

        在評(píng)價(jià)各輸入變量的重要性時(shí),要用到importance函數(shù),其中MeanDecreas

        e Accuracy表示預(yù)測(cè)精度的平均減少量,MeanDecreaseGini表示給出節(jié)點(diǎn)異質(zhì)性指標(biāo)的平均減少量.為了更全面直觀地評(píng)價(jià)各輸入變量的重要性,用varImpPlot函數(shù)進(jìn)行作圖,見(jiàn)圖1:

        輸入變量重要性測(cè)度散點(diǎn)圖圖1 輸入變量重要性測(cè)度散點(diǎn)圖

        從對(duì)輸出變量預(yù)測(cè)精度的影響看,每股凈資產(chǎn)、銷(xiāo)售凈利率、流動(dòng)比率、經(jīng)營(yíng)現(xiàn)金凈流量比較重要.從對(duì)輸出變量異質(zhì)性下降程度的影響看,同樣是這幾個(gè)變量較為重要,即每股凈資產(chǎn)、銷(xiāo)售凈利率、流動(dòng)比率、經(jīng)營(yíng)現(xiàn)金凈流量不同的上市公司,對(duì)是否優(yōu)于大盤(pán)有較大的影響.

        (3)SVM

        在對(duì)數(shù)據(jù)處理的過(guò)程中,文中利用網(wǎng)格搜索法10折交叉驗(yàn)證尋找較優(yōu)參數(shù),確定cost和gamma值,構(gòu)建SVM模型.

        根據(jù)最后SVM對(duì)測(cè)試集的預(yù)測(cè)結(jié)果,可以得到ROC曲線,見(jiàn)圖2:

        在圖2中,橫坐標(biāo)代表錯(cuò)誤的正例率(FPR),縱坐標(biāo)代表正確的正例率(TPR).希望TPR盡量的大,F(xiàn)PR盡量的小即圖中的曲線越靠左上方說(shuō)明預(yù)測(cè)得越好.而從圖中的曲線來(lái)看,預(yù)測(cè)效果還有較大的差距.

        四、分析與總結(jié)

        經(jīng)過(guò)比較,隨機(jī)森林給出了最高的預(yù)測(cè)率60%,決策樹(shù)其次,支持向量機(jī)排在最后.見(jiàn)表1:

        分析 表1可以看出: 從三種方法對(duì)測(cè)試集的分類(lèi)正確率來(lái)看,隨機(jī)森林最高,但它們?cè)谔幚砥渌袠I(yè)數(shù)據(jù)時(shí),精確度達(dá)到90%以上[6-8],可見(jiàn),數(shù)據(jù)本身對(duì)模型的結(jié)果還是有很大的影響.因此,股市想要通過(guò)分析財(cái)務(wù)比率來(lái)達(dá)到很好的預(yù)測(cè)效果還是很困難的,雖然與所構(gòu)建的模型有關(guān),但最大的原因還在于股市本身的波動(dòng)性[9].

        【參考文獻(xiàn)】

        [1]趙選民,薛建樓.利用數(shù)據(jù)挖掘技術(shù)分析上市公司財(cái)務(wù)狀況[J].中國(guó)管理信息化.2009,12(3):30-32.

        [2]李航.統(tǒng)計(jì)學(xué)方法[M].北京:清華大學(xué)出版社,2012.

        [3]John Durkin,蔡競(jìng)峰,蔡自興.決策樹(shù)技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,12(1):15-18.

        [4]馬景義,吳喜之,謝邦昌.擬自適應(yīng)分類(lèi)隨機(jī)森林算法[J].數(shù)理統(tǒng)計(jì)與管理,2010,29(5):806-811.

        [5]薛薇.基于R的統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].中國(guó)人民大學(xué)出版社,2014.

        [6]馬瑾,孫穎,劉尚輝.決策樹(shù)模型在住院2型糖尿病患者死因預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30 (3): 422-423.

        [7]袁敏,胡秀珍.隨機(jī)森林方法預(yù)測(cè)膠原蛋白類(lèi)型[J].生物物理學(xué)報(bào),2009,25 (5): 349-354.

        [8]張華,曾杰.基于支持向量機(jī)的風(fēng)速預(yù)測(cè)模型研究[J].太陽(yáng)能學(xué)報(bào),2010,31 (7): 928-931.

        [9]張彥來(lái).數(shù)據(jù)挖掘在股票投資中的應(yīng)用[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2010.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        久久精品国产91久久性色tv | 精品国产a毛片久久久av| 91精品国产乱码久久中文| 亚洲va欧美va日韩va成人网 | 精品少妇人妻av一区二区| 久久精品无码一区二区乱片子| 精品国产乱码一区二区三区在线 | 国产影片免费一级内射| 蜜桃视频免费进入观看| 看av免费毛片手机播放| 免费的一级毛片| 日韩av最新在线地址| 国产精品女主播福利在线| 99精品国产一区二区三区a片 | 蜜桃网站入口可看18禁| 精品精品国产高清a毛片| 99精品国产综合久久久久五月天| 亚洲一区二区综合色精品| 亚洲一区二区av偷偷| 爆操丝袜美女在线观看| 久久久久久国产精品免费免费男同| 免费现黄频在线观看国产| 日本丰满少妇高潮呻吟| 国产的自拍av免费的在线观看 | 中国精品18videosex性中国| 一道久在线无码加勒比| 国产精品国产三级国产an| 国产精品白浆一区二区免费看| 久久精品国产99国产精品亚洲| 国产午夜无码片在线观看影院| 又爽又黄禁片视频1000免费| 日本一区二区三区在线| 亚洲国产成人久久精品一区| 精品人妻无码视频中文字幕一区二区三区 | 国产精品亚洲αv天堂无码| 午夜精品久久久| 一本色道久久综合亚州精品| 免费毛儿一区二区十八岁| 五十路熟妇高熟无码视频| 中文无码制服丝袜人妻AV| 亚洲精品av一区二区|