亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        使用隨機(jī)森林算法實(shí)現(xiàn)優(yōu)質(zhì)股票的選擇

        2014-06-05 14:34:53曹正鳳謝邦昌
        關(guān)鍵詞:分類價(jià)值模型

        曹正鳳,紀(jì) 宏.,謝邦昌

        (1.首都經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100070;2.臺(tái)灣輔仁大學(xué) 統(tǒng)計(jì)資訊學(xué)系,臺(tái)灣 新北 24205)

        使用隨機(jī)森林算法實(shí)現(xiàn)優(yōu)質(zhì)股票的選擇

        曹正鳳1,紀(jì) 宏1.,謝邦昌2

        (1.首都經(jīng)濟(jì)貿(mào)易大學(xué) 統(tǒng)計(jì)學(xué)院,北京 100070;2.臺(tái)灣輔仁大學(xué) 統(tǒng)計(jì)資訊學(xué)系,臺(tái)灣 新北 24205)

        文章通過比較分析價(jià)值策略和成長(zhǎng)策略,提出了以價(jià)值成長(zhǎng)投資策略(GARP)理念為基礎(chǔ)的選股模型指標(biāo)體系,選用了2012年1月至2013年2月間360多支股票的4406個(gè)樣本數(shù)據(jù),通過等頻算法對(duì)數(shù)據(jù)進(jìn)行離散化預(yù)處理后,使用隨機(jī)森林算法實(shí)現(xiàn)了較高正確率的股票分類,投資者可以據(jù)此判斷是否繼續(xù)持有股票。通過分析優(yōu)選后的股票在行業(yè)平均收益、最值方面的實(shí)際表現(xiàn),驗(yàn)證了該量化選股模型性能優(yōu)異。

        隨機(jī)森林;股票選擇;股票投資;價(jià)值成長(zhǎng)投資策略

        一、問題的提出

        選擇優(yōu)質(zhì)股票是股票投資中的關(guān)鍵環(huán)節(jié),是進(jìn)行投資組合的重要前提。所謂優(yōu)質(zhì)股票是指那些成長(zhǎng)性優(yōu)異、投資回報(bào)豐厚以及抗風(fēng)險(xiǎn)能力良好的股票,這些股票的價(jià)格在市場(chǎng)中表現(xiàn)為:在熊市中,其下跌幅度低于行業(yè)平均水平;在牛市時(shí),其上漲超過行業(yè)平均水平。所有的投資者和機(jī)構(gòu)都希望投資于優(yōu)質(zhì)股票。然而,由于股票價(jià)格受多種因素的影響,表現(xiàn)出“沒有規(guī)律”的隨機(jī)游動(dòng)特性,選擇優(yōu)質(zhì)股票成為可望而不可及的事情。

        從技術(shù)上看,股票的選取可以歸結(jié)影響股票價(jià)格的多因素分析問題,其中每一個(gè)因素可以看作一個(gè)維度的指標(biāo),這樣股票的價(jià)格就由多個(gè)維度的指標(biāo)體系決定,從眾多的股票中選取優(yōu)質(zhì)的股票,就歸結(jié)為大量信息的統(tǒng)計(jì)分析,其本質(zhì)是一個(gè)多維空間的分類問題。

        該分類問題涉及兩個(gè)方面,一是影響股票價(jià)格的維度選擇,即指標(biāo)體系的構(gòu)建;另一個(gè)是分類算法的選擇,即選擇模型分類算法的確定。本文擬以價(jià)值成長(zhǎng)投資策略(GARP)為基礎(chǔ),提出一種新型的綜合性的選股模型指標(biāo)體系,使用隨機(jī)森林算法,構(gòu)建量化選股模型,解決股票投資中選擇優(yōu)質(zhì)股票的實(shí)際問題。

        二、選股模型指標(biāo)體系的構(gòu)建

        確定選股模型的指標(biāo)體系,首先需要解決股票投資領(lǐng)域一個(gè)爭(zhēng)論不止的問題——使用什么樣的投資策略,因?yàn)橥顿Y策略使用決定了指標(biāo)體系構(gòu)建。

        (一)兩種相互對(duì)立的投資策略

        1.傳統(tǒng)的價(jià)值型投資策略。該策略倡導(dǎo)一種理性的投資思路和選股標(biāo)準(zhǔn)——價(jià)值投資,其思想是通過對(duì)股票基本面的分析,尋找具有更好價(jià)值因子且交易價(jià)格低于內(nèi)在價(jià)值的公司,以期獲得超過市場(chǎng)平均收益額。價(jià)值因子包括市盈率、市凈率和市銷率。該投資策略的代表理論有Graham的價(jià)值投資理論和Williams的投資價(jià)值理論。

        2.積極的成長(zhǎng)型投資策略。該策略傾向投資于銷售收入與盈余率等成長(zhǎng)因子高于市場(chǎng)平均水平、處于快速發(fā)展階段的上市公司股票,通過其高速成長(zhǎng)帶來(lái)未來(lái)股價(jià)上漲而從中獲利。成長(zhǎng)因子指凈利潤(rùn)增長(zhǎng)率、ROE增長(zhǎng)率和ROA增長(zhǎng)率等。其代表理論有艾爾文·費(fèi)雪(Irying Fisher)的資本價(jià)值理論。

        (二)價(jià)值成長(zhǎng)投資策略(GARP)[1-2]

        就在人們?yōu)檫x擇價(jià)值型還是成長(zhǎng)型投資策略爭(zhēng)論不休時(shí),“股神”沃倫·巴菲特將格雷厄姆和費(fèi)雪的價(jià)值投資理論徹底融合。該策略是上述兩個(gè)理論的綜合,其思想是挑選出從一定程度上價(jià)值被低估,同時(shí)又具有比較好的持續(xù)增長(zhǎng)能力的潛力股。其特點(diǎn)是能夠充分利用兩者的優(yōu)勢(shì),彌補(bǔ)單一價(jià)值投資和成長(zhǎng)投資的不足。在股票市場(chǎng)發(fā)生價(jià)值與成長(zhǎng)的風(fēng)格輪動(dòng)時(shí),GARP策略可以兼顧到兩個(gè)方面,所以預(yù)期可以獲得比較穩(wěn)定的收益。

        (三)以價(jià)值成長(zhǎng)投資策略為指導(dǎo)的選股模型指標(biāo)體系的構(gòu)建

        1.影響因子構(gòu)建

        本模型影響因子的構(gòu)建,主要參照國(guó)信證券工程師焦健等人提出的六因子量化選股模型,同時(shí)根據(jù)價(jià)值成長(zhǎng)投資策略的思想,適當(dāng)加入其他因子進(jìn)行組合,使指標(biāo)體系中同時(shí)包含價(jià)值因子和成長(zhǎng)因子。

        國(guó)信證券工程師焦健等人提出的六因子量化選股模型,由市凈率、市盈率、ROA、前一月股票收益率、EPS一致預(yù)期變化率和EPS一致預(yù)期六個(gè)指標(biāo)構(gòu)建。前兩個(gè)指標(biāo)都是價(jià)值因子,是衡量市場(chǎng)及股票是否合理的常用指標(biāo),在本模型中給予保留。后四個(gè)指標(biāo)體現(xiàn)了成長(zhǎng)因子的概念,由于前一月股票收益率穩(wěn)定性較差,予以剔除,保留ROA、EPS一致預(yù)期變化率和EPS一致預(yù)期三個(gè)指標(biāo)。

        這樣模型共有五個(gè)指標(biāo),在一般的選股模型中都有這五個(gè)指標(biāo),或者是其線性組合。當(dāng)然為了使模型的穩(wěn)定性更好,加上以下四個(gè)指標(biāo):

        一是凈資產(chǎn)收益率(ROE),又稱股東權(quán)益報(bào)酬率,是報(bào)告期凈利潤(rùn)與報(bào)告期末凈資產(chǎn)的比值。它是判斷上市公司盈利能力的一項(xiàng)重要指標(biāo),一直受到證券市場(chǎng)參與各方的極大關(guān)注。如果公司凈資產(chǎn)收益率呈上升趨勢(shì),那么肯定是企業(yè)的盈利模式發(fā)生變化,主要有以下幾大因素:產(chǎn)品毛利上升,產(chǎn)品結(jié)構(gòu)向高毛利發(fā)展,資產(chǎn)周轉(zhuǎn)率上升,財(cái)務(wù)杠桿加大,而這些因素都是不能持久了,所以說(shuō)凈資產(chǎn)收益率是一個(gè)可持續(xù)高速成長(zhǎng)企業(yè)很好的指標(biāo),這正是巴式風(fēng)格最理想的投資指標(biāo)。

        二是存貨周轉(zhuǎn)率,它是衡量和評(píng)價(jià)企業(yè)購(gòu)入存貨、投入生產(chǎn)、銷售收回等各環(huán)節(jié)管理狀況的綜合性指標(biāo)。它是銷貨成本被平均存貨所除而得到的比率,或叫存貨的周轉(zhuǎn)次數(shù),用時(shí)間表示的存貨周轉(zhuǎn)率就是存貨周轉(zhuǎn)天數(shù)。存貨周轉(zhuǎn)率反映了企業(yè)銷售效率和存貨使用效率。在正常情況下,如果企業(yè)經(jīng)營(yíng)順利,存貨周轉(zhuǎn)率越高,說(shuō)明企業(yè)存貨周轉(zhuǎn)得越快,企業(yè)的銷售能力越強(qiáng),營(yíng)運(yùn)資金占用在存貨上的金額也會(huì)越少,這也是挑選成長(zhǎng)型股票必須具備的一個(gè)指標(biāo)。

        三是資產(chǎn)負(fù)債率,它是企業(yè)負(fù)債總額占企業(yè)資產(chǎn)總額的百分比。這個(gè)指標(biāo)反映了在企業(yè)的全部資產(chǎn)中由債權(quán)人提供的資產(chǎn)所占比重的大小,反映了債權(quán)人向企業(yè)提供信貸資金的風(fēng)險(xiǎn)程度。由于此指標(biāo)是企業(yè)償債能力的體現(xiàn),在不同的經(jīng)濟(jì)形勢(shì)下,此比率需進(jìn)行相應(yīng)的調(diào)整,是企業(yè)經(jīng)營(yíng)策略的一種反映,體現(xiàn)企業(yè)管理層的財(cái)務(wù)管理能力,是企業(yè)價(jià)值因子的一個(gè)重要指標(biāo)。

        四是流通市值,它是公司的股票在證券市場(chǎng)里的交易價(jià)格乘以總股本的結(jié)果,反映了市場(chǎng)在某個(gè)時(shí)期對(duì)公司的看法,是公司價(jià)值的一種市場(chǎng)體現(xiàn)。一般來(lái)說(shuō)流通市值是圍繞公司價(jià)值上下波動(dòng)的。當(dāng)然這種波動(dòng)是隨機(jī)的,不對(duì)稱的,往往受到群眾的心理的影響,容易出現(xiàn)極端化的傾向。流通市場(chǎng)指標(biāo)是價(jià)值投資的核心,如果市場(chǎng)過低低估股票市值,則該股票就是值得投資的股票。

        根據(jù)以上分析,本文構(gòu)建的模型指標(biāo)體系如下:

        表1 模型的指標(biāo)體系

        以上九個(gè)指標(biāo)既反映了企業(yè)的營(yíng)運(yùn)能力、盈利能力、成長(zhǎng)能力和市場(chǎng)預(yù)期,又反映了成長(zhǎng)因子和價(jià)值因子的內(nèi)容,使模型充分體現(xiàn)了價(jià)值成長(zhǎng)投資策略(GARP)。

        2.響應(yīng)因子構(gòu)建

        根據(jù)價(jià)值成長(zhǎng)投資策略的長(zhǎng)期性特點(diǎn),兼顧模型穩(wěn)定性,將響應(yīng)因子構(gòu)建為股票前12個(gè)月的月平均漲跌幅均值的函數(shù)。其計(jì)算步驟分為三步:

        首先,計(jì)算每只股票前12個(gè)月的月平均漲跌幅,使用幾何平均法構(gòu)建,公式如下:

        其中,Ri為該股票前第i-1個(gè)月的月漲跌幅

        其次,將該行業(yè)全體股票的加權(quán)平均,計(jì)算行業(yè)前12個(gè)月的月平均漲跌幅,公式如下:

        最后,將每只股票的,與全體樣本平均值的比較,構(gòu)建響應(yīng)因子,公式如下:

        其中,為第j支股票的前12個(gè)月的平均月漲跌幅;為該行業(yè)的前12個(gè)月的月平均漲跌幅。

        三、選股模型分類算法的選擇

        (一)已有文獻(xiàn)選擇的分類算法綜述

        選股問題,其本質(zhì)是分類問題,因此人們?cè)谶x擇數(shù)量化工具進(jìn)行股票選擇時(shí),紛紛選擇數(shù)據(jù)挖掘工具中的分類算法進(jìn)行股票選擇。

        1.決策樹算法。在埃里奇、凱特、奇克(Eric H&Keith L&Chee K,2000)[3]的論文中,提出了EPSPrice、Price-MOM等指標(biāo)構(gòu)建了決策樹模型,對(duì)美國(guó)科技股1993~1999年的數(shù)據(jù)進(jìn)行分析,得出比較好的收益。使用他們提出的決策樹方法并參考其指標(biāo),對(duì)中國(guó)國(guó)內(nèi)科技股板塊從2012~2013年的數(shù)據(jù)進(jìn)行檢驗(yàn),結(jié)果表明模型在效果并不顯著,原因是模型中這些指標(biāo)主要為美國(guó)投資經(jīng)理的經(jīng)驗(yàn)選擇,在中國(guó)市場(chǎng)上應(yīng)用還需要一個(gè)本土化過程。

        國(guó)信證券工程師焦健等(2010)[3]提在對(duì)埃里奇、凱特、奇克(Eric H&Keith L&Chee K,2000)等人提出了EPS-Price、Price-MOM等六項(xiàng)指標(biāo)進(jìn)行定義調(diào)整,提出了基于市銷率、市現(xiàn)率,ROA變化率等適合中國(guó)股票市場(chǎng)的六項(xiàng)指標(biāo),并在此指標(biāo)的基礎(chǔ)上,使用CART決策樹算法,對(duì)科技板塊152只股票數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,通過五分法轉(zhuǎn)換和剪枝操作,得出模型預(yù)測(cè)效果顯著,多頭明顯跑贏行業(yè)平均利潤(rùn)率。由于決策樹算法在處理噪音數(shù)據(jù)效果較差,且容易過擬合等特點(diǎn),使得模型的應(yīng)用行業(yè)有一定的局限性,只能用于小盤股。

        趙永進(jìn)等(2005)[4]從股票分析的基本面和技術(shù)面著手,把判定樹分類ID3算法應(yīng)用到股票財(cái)務(wù)數(shù)據(jù)的分析上,選取有代表性的財(cái)務(wù)指標(biāo),并對(duì)樣本數(shù)據(jù)進(jìn)行測(cè)試,開創(chuàng)數(shù)據(jù)挖掘分類算法在量化選股模型在中國(guó)股票市場(chǎng)的先河,投資者利用測(cè)試結(jié)果可以對(duì)上市公司的經(jīng)營(yíng)情況和獲利能力進(jìn)行分析。但該文章僅僅是提供了一種分析手段,投資者不能通過模型得到諸如可否繼續(xù)持有股票等指導(dǎo)性意見,沒有達(dá)到量化選股的最終要求。

        2.神經(jīng)網(wǎng)絡(luò)。張建軍等(2010)[5]采用科威特第納爾指數(shù),通過建立一個(gè)三層(輸入層、隱含層和輸出層)結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò),對(duì)股市整體走勢(shì)進(jìn)行預(yù)測(cè),成功地利用數(shù)據(jù)挖掘中神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)中國(guó)股票行情波動(dòng)趨勢(shì)進(jìn)行研究,預(yù)測(cè)未來(lái)股市的行情走勢(shì)及其波動(dòng)情況,但其模型對(duì)個(gè)股的走勢(shì)預(yù)測(cè)效果欠佳。

        3.支持向量機(jī)。李云飛(2008)[6]在其論文中,提出基于支持向量機(jī)的股票選擇模型,模型采用最小二乘法,核函數(shù)選用徑向基核函數(shù)。在模型訓(xùn)練完成后,使用交叉驗(yàn)證的實(shí)證方法,實(shí)證結(jié)果支持了支持向量機(jī)模型的分類精度和泛化能力均優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的理論推斷,但由于支持向量機(jī)算法在多分類選擇時(shí),性能顯著低于隨機(jī)森林算法[7],因此模型還具有提升的空間。

        (二)隨機(jī)森林算法介紹

        隨機(jī)森林(RF)[7-9]是一種組合分類器,能用于股票的分類篩選,其本質(zhì)是一個(gè)樹型分類器{h(x,βk),k=1,2,…}的集合。其中基分類器h(x,βk)是用CART算法構(gòu)建的沒有剪枝的分類決策樹;x是輸入向量;βk是獨(dú)立同分布的隨機(jī)向量,決定了單棵樹(基分類器)的生長(zhǎng)過程;輸出結(jié)果采用簡(jiǎn)單多數(shù)投票法確定?;驹砣缦拢?/p>

        1.訓(xùn)練集的隨機(jī)選取。算法采用bootstrap抽樣技術(shù)從原始訓(xùn)練集中抽取N個(gè)訓(xùn)練子集,每個(gè)訓(xùn)練子集的大小約為原始訓(xùn)練集的三分之二,每次抽樣均為隨機(jī)且放回抽樣。

        2.森林的隨機(jī)構(gòu)建。算法為每一個(gè)訓(xùn)練子集分別建立一棵決策樹,生成N棵決策樹從而形成“森林”,每棵決策子樹任其生長(zhǎng),不需要剪枝處理。在每棵子樹的生長(zhǎng)過程中,并不是將全部M個(gè)屬性參與節(jié)點(diǎn)分裂,而是隨機(jī)抽取指定F(F≤M)個(gè)屬性,以這F個(gè)屬性上最好的分裂方式對(duì)節(jié)點(diǎn)進(jìn)行分裂,從而達(dá)到節(jié)點(diǎn)分裂的隨機(jī)性。

        3.節(jié)點(diǎn)分裂。節(jié)點(diǎn)分裂是算法的核心步驟,每棵樹的分支的生成,都是按照節(jié)點(diǎn)不純度(Gini系數(shù))最小的原則(或其他評(píng)價(jià)原則)從M個(gè)屬性中選出一個(gè)屬性進(jìn)行分支的生長(zhǎng)。

        Gini系數(shù)指標(biāo)的計(jì)算過程如下:

        ①計(jì)算樣要的Gini系數(shù)

        其中,Pi代表類別Cj在樣本集S中出現(xiàn)的概率。

        ②計(jì)算每個(gè)劃分的Gini系數(shù)

        如果S被分隔成兩個(gè)子集S1與S2,則此次劃分的Gini系數(shù)為

        其中,|S|是樣本集S的樣本個(gè)數(shù),|S1|、|S2|分別為兩個(gè)子集S1與S2中樣本個(gè)數(shù)。

        在節(jié)點(diǎn)分裂時(shí),將每個(gè)屬性的所有劃分按照他們Gini系數(shù)來(lái)進(jìn)行排序,節(jié)點(diǎn)分裂時(shí),選擇Gini系數(shù)最小的屬性作為分裂屬性,并按照其劃分實(shí)現(xiàn)數(shù)據(jù)的分類。

        4.取多數(shù)投票得出分類結(jié)果。算法最終的輸出結(jié)果采取大多數(shù)投票法實(shí)現(xiàn)。根據(jù)隨機(jī)構(gòu)建的N棵決策子樹將對(duì)某測(cè)試樣本進(jìn)行分類,將每棵子樹的結(jié)果匯總,所得票數(shù)最多的分類結(jié)果,將作為算法最終的輸出結(jié)果。

        (三)使用隨機(jī)森林算法的優(yōu)勢(shì)

        從上述算法介紹可以看出,隨機(jī)森林算法因其訓(xùn)練集隨機(jī)和屬性隨機(jī)兩個(gè)隨機(jī)性特點(diǎn),使得算法具有很好的容錯(cuò)性和魯棒性,這和當(dāng)前股票市場(chǎng)異常情況和干擾項(xiàng)比較多的情況相適應(yīng);和支持向量機(jī)相比,在進(jìn)行多分類選擇時(shí),隨機(jī)森林算法性能顯著占優(yōu)[7];另外,隨機(jī)森林算法具有很高的預(yù)測(cè)準(zhǔn)確率,且不容易出現(xiàn)過擬合[5]?;诖巳c(diǎn),本文選擇隨機(jī)森林算法作為選股模型的量化工具,相信該算法應(yīng)用到股票投資時(shí)會(huì)有不錯(cuò)的表現(xiàn)。將隨機(jī)森林算法應(yīng)用到此領(lǐng)域在國(guó)內(nèi)文獻(xiàn)中見之甚少,也屬于該領(lǐng)域的創(chuàng)新。

        四、實(shí)證分析

        (一)樣本的選擇

        樣本選取區(qū)間為2012年1月至2013年2月,財(cái)務(wù)和股票數(shù)據(jù)來(lái)自Wind資訊,EPS數(shù)據(jù)來(lái)自朝陽(yáng)永續(xù)信息技術(shù)有限公司,樣本個(gè)數(shù)共計(jì)4406個(gè),月度樣本選取時(shí),剔除了ST股和數(shù)據(jù)缺失的股票,每期股票樣本范圍在363支股票左右,因每個(gè)月的股票數(shù)據(jù)缺失情況不一,因此每個(gè)月的樣本數(shù)據(jù)會(huì)稍有不同。

        在363支股票中,有202支股票屬于計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè),另161支股票屬于批發(fā)和零售業(yè),該行業(yè)分類為2012年證監(jiān)會(huì)新制定的行業(yè)分類。從實(shí)時(shí)性和可比性來(lái)說(shuō),選擇2012年為起點(diǎn)較宜,且行業(yè)分類也更為合適。

        選擇這363支股票進(jìn)行分析,是基于以下三點(diǎn)考慮:

        1.進(jìn)行選股時(shí),所選股票均為同一行業(yè),這樣可以剔除行業(yè)差異,在指標(biāo)選擇時(shí),可以不考慮行業(yè)因素;

        2.通過兩個(gè)行業(yè)的對(duì)比,有利于分析算法的普適性值;

        3.所選行業(yè)的股票均超過100支,股票數(shù)量較大,有利于統(tǒng)計(jì)觀察。其他制造業(yè)分類中,股票數(shù)量較少,不利于統(tǒng)計(jì)觀察。

        (二)指標(biāo)數(shù)據(jù)的財(cái)報(bào)匹配

        模型中有些指標(biāo)的數(shù)據(jù)來(lái)源于上市公司的財(cái)務(wù)報(bào)告,上市公司財(cái)報(bào)公布時(shí)間如下表:

        表2 上市公司財(cái)報(bào)公布時(shí)間

        在進(jìn)行指標(biāo)計(jì)算時(shí),月度樣本數(shù)據(jù)應(yīng)用的財(cái)報(bào)數(shù)據(jù)如下表:

        (三)數(shù)據(jù)預(yù)處理

        在上述的9個(gè)變量中,僅流通市值(MV)不是比值,因此對(duì)其進(jìn)行標(biāo)準(zhǔn)化,公式為:

        其中,MVi第i支股票的流通市值為樣本股票流通市值的均值,δmv為樣本股票流通市值的標(biāo)準(zhǔn)差。

        由于9個(gè)變量的均為連續(xù)性變量,但隨機(jī)森林算法處理變量時(shí),需要對(duì)變量進(jìn)行級(jí)別的劃分,即連續(xù)變量離散化,因此需要對(duì)9個(gè)變量進(jìn)行離散化處理。離散化處理方法有等寬算法、等頻算法、聚類等方法。本文使用等頻算法進(jìn)行離散化處理,等頻算法是將連續(xù)性變量的值域化分為K個(gè)小分區(qū),K是指定的區(qū)間數(shù)目,每個(gè)變量的值用對(duì)應(yīng)分區(qū)編號(hào)替代。算法的最終目標(biāo)是使位于每個(gè)區(qū)間上的樣本數(shù)目相等,即頻數(shù)相等。

        分析時(shí)發(fā)現(xiàn),隨著K值的變化,隨機(jī)森林算法的泛化誤差和準(zhǔn)確度均發(fā)生變化,且隨著K值的增大,算法性能有提升的趨勢(shì),但到一定程度后,便會(huì)下降。采用逐個(gè)K值測(cè)試、重復(fù)200多次隨機(jī)實(shí)驗(yàn)的辦法,根據(jù)數(shù)據(jù)結(jié)果發(fā)現(xiàn)K值為23時(shí),算法性能最佳。因此本模型選擇K值為23,對(duì)9個(gè)變量的值進(jìn)行離散化處理。

        (四)當(dāng)月實(shí)際表現(xiàn)分析

        在使用K值為23的數(shù)據(jù)離散化處理后,分行業(yè)對(duì)算法進(jìn)行訓(xùn)練和預(yù)測(cè)。

        1.模型在兩個(gè)行業(yè)中分類正確率分析

        分別使用計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)的股票2012年1月至2013年1月2335個(gè)訓(xùn)練樣本,和批發(fā)和零售業(yè)的股票,2012年1月至2013年1月的訓(xùn)練樣本1708個(gè),對(duì)隨機(jī)森林進(jìn)行訓(xùn)練,使用訓(xùn)練得到的隨機(jī)森林分別對(duì)兩個(gè)行業(yè)2013年2月股票進(jìn)行分類,分類準(zhǔn)確率如下表所示:

        表4 2013年2月兩行業(yè)分類正確率對(duì)比表

        從上表可以看出,模型在兩個(gè)行業(yè)中分類正確率均在75%以上,說(shuō)明模型具有一定的普適性,當(dāng)然對(duì)于行業(yè)中股票個(gè)數(shù)較少的股票,模型的正確率需要進(jìn)一步的研究。從兩個(gè)行業(yè)來(lái)看,分類正確率有一些差異,相差2.43個(gè)百分點(diǎn),這個(gè)差異筆者認(rèn)為和樣本本身相關(guān),具體原因需要進(jìn)一步探討。

        2.模型分類股票在當(dāng)月的實(shí)際表現(xiàn)分析。

        以計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)為例,2013年2月份樣本股票漲跌幅如下表所示:

        表5 2013年2月模型分類股票實(shí)際漲跌情況表

        由上表可知,2013年2月計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)行業(yè)當(dāng)月平均漲跌幅為-0.3924%,整個(gè)行業(yè)下跌,分類為優(yōu)質(zhì)的148支股票中,當(dāng)月平均漲跌幅為0.1590%,跑贏行業(yè)平均水平0.6%,且最大值也在該類股票中,最小值不在該類股票中,說(shuō)明該選股模型在中國(guó)股票市場(chǎng)上有較好的表現(xiàn)。

        五、結(jié)語(yǔ)

        選擇合適的數(shù)據(jù)挖掘算法進(jìn)行分類選股,是量化投資的一個(gè)重要內(nèi)容,使用隨機(jī)森林算法進(jìn)行股票選擇是股票投資領(lǐng)域的有益探索。通過本文的研究,使隨機(jī)森林算法得到更好的推廣,使機(jī)構(gòu)和投資人獲得了一個(gè)較好的投資分析工具。當(dāng)然本文在選股時(shí),局限于某個(gè)行業(yè),這主要是考慮到行業(yè)因素是股票選擇時(shí)另一個(gè)很重要的前提條件,模型中加入行業(yè)因素和對(duì)小行業(yè)股票的分類選擇是后續(xù)研究的重要內(nèi)容。

        [1]陳光興,張一明.淺談價(jià)值成長(zhǎng)投資策略在中國(guó)股市的適用性[J].經(jīng)營(yíng)管理者,2010,(24):8-8.

        [2]嚴(yán)高劍,胡浩,馬堅(jiān),等.GARP投資策略——成長(zhǎng)與價(jià)值并重[R].中信證券研究所,2008.

        [3]焦健,趙學(xué)昂,葛新元.CART決策樹的行業(yè)選股方法[R].深圳:國(guó)信證券經(jīng)濟(jì)研究所,2010.

        [4]趙永進(jìn).基于數(shù)據(jù)挖掘的股票分析與預(yù)測(cè)研究[D].河南:鄭州大學(xué),2005.

        [5]張建軍.基于數(shù)據(jù)挖掘的股票數(shù)據(jù)分析[D].山東:中國(guó)石油大學(xué)(華東),2010.

        [6]李云飛.基于人工智能方法的股票價(jià)值投資研究[D].黑龍江:哈爾濱工業(yè)大學(xué),2008.

        [7]黃衍,查偉雄.隨機(jī)森林與支持向量機(jī)分類性能比較[J].北京:軟件,2012,33(6):107-110.

        [8]方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,3(26):32-38.

        [9]Breiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.

        Realization of High Quality Stock Options by the Random Forest Algorithm

        CAO Zheng-feng1,JIHong1,XIE Bang-chang2
        (1.School of Statistics,Capital University of Economics and Business,Beijing 100070,China;2.Taiwan Furen University Consulting Department,New Taipei City 24205,Taiwan)

        By comparing the analytical value strategies and growth strategies,the paper proposed the indicator system of the stock selectionmodel based on the Growth ata Reasonable Price(GARP)and selected four thousand four hundred and six samples’data ofmore than 360 stocks from January 2012 to February 2013.After the discretized preconditioning for the data through the algorithm of equivalent frequency,the paper achieved a higher accuracy of stock classification by the random forest algorithm.Investors can judge whether to continue to hold the stock.The paper validated the performance of the stock selection model by analyzing the actual performance values in the average income,the minimum and maximum values in the industry.

        random forest;stock options;equity investments;value growth investment strategy

        F224.9

        A

        1008-2700(2014)02-0021-07

        (責(zé)任編輯:高立紅)

        2013-12-12

        國(guó)家自然科學(xué)基金面上項(xiàng)目《基于預(yù)測(cè)建模的宏觀經(jīng)濟(jì)時(shí)間序列結(jié)構(gòu)變化研究》(項(xiàng)目編號(hào)71071022)

        曹正鳳(1979- ),男,首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院實(shí)驗(yàn)師,博士研究生,研究方向?yàn)榻y(tǒng)計(jì)理論研究;紀(jì)宏(1954- ),男,首都經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院教授,博士生導(dǎo)師,研究方向?yàn)榻y(tǒng)計(jì)學(xué)基礎(chǔ)理論、宏觀經(jīng)濟(jì)系統(tǒng)分析;謝邦昌(1962- ),男,臺(tái)灣輔仁大學(xué)商學(xué)研究所,臺(tái)灣輔仁大學(xué)教授,博士生導(dǎo)師,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)系Data Mining中心客座教授,上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)系客座教授,商學(xué)研究所所長(zhǎng)。

        猜你喜歡
        分類價(jià)值模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一粒米的價(jià)值
        “給”的價(jià)值
        3D打印中的模型分割與打包
        日韩人妻精品视频一区二区三区| 手机看片福利盒子久久青| 丰满人妻无套中出中文字幕| 日韩AV不卡一区二区三区无码 | 国产一区二区黄色的网站| 久久久噜噜噜噜久久熟女m| 国产亚洲精品久久午夜玫瑰园 | 一本一道久久综合久久| 亚洲精品无码久久久| 在线天堂中文字幕| 女同性恋亚洲一区二区| 国产一区二区长腿丝袜高跟鞋| 亚洲av综合永久无码精品天堂| 国产精品多人P群无码| 亚洲国产综合性感三级自拍| 亚洲高清在线免费视频| 桃花影院理论片在线| 国产精品第1页在线观看| 99精品又硬又爽又粗少妇毛片| 亚洲夫妻性生活免费视频| 黄色a级国产免费大片| 成人片在线看无码不卡| 亚洲av综合日韩精品久久| 超碰97人人射妻| 久久国产36精品色熟妇| 一区二区三区中文字幕有码 | 伊人久久综合狼伊人久久| 久久久久99精品成人片欧美| 亚洲精品无播放器在线播放| 亚洲色www无码| 国产av熟女一区二区三区密桃| 丁香美女社区| 国产区福利| 亚洲一区二区三区ay| 精品无码人妻夜人多侵犯18| 亚洲国产综合精品 在线 一区| 亚洲欧美日本人成在线观看| 久久亚洲精品国产av| 48沈阳熟女高潮嗷嗷叫| 福利视频一二区| 男女上床免费视频网站|