王智
(重慶市第八中學(xué)校,重慶,401120)
機(jī)器學(xué)習(xí)中最關(guān)鍵的概念是學(xué)習(xí),而機(jī)器的學(xué)習(xí)過程就是從無到有,自我不斷修復(fù)更正的一個(gè)過程。該領(lǐng)域具有良好的市場(chǎng)應(yīng)用前景。機(jī)器學(xué)習(xí)能夠擁有今天的地位,也不是一帆風(fēng)順的,同樣是經(jīng)過漫長(zhǎng)的摸索。從20世紀(jì)50年代到20世紀(jì)70年代初,人類對(duì)于人工智能的研究才剛剛起步,處于一個(gè)探索的階段。20世紀(jì)70年代中期,人類對(duì)人工智能的研究到達(dá)了一個(gè)迅猛發(fā)展的時(shí)期,大量?jī)?yōu)秀的專家涌現(xiàn),為人工智能注入了大量的知識(shí)和蓬勃的生機(jī),例如E.A.Feigenbaum 作為“知識(shí)工程”之父在 1994 年獲得了圖靈獎(jiǎng)。20世紀(jì)六七十年代,多種關(guān)于人工智能的學(xué)習(xí)技術(shù)出現(xiàn)并得到了進(jìn)步,隨后大量關(guān)于機(jī)器學(xué)習(xí)的周刊創(chuàng)辦,使20世紀(jì)80年代的機(jī)器學(xué)習(xí)快速成長(zhǎng),其盛況不亞于先秦時(shí)期的百家爭(zhēng)鳴。如今機(jī)器學(xué)習(xí)已經(jīng)與多門學(xué)科領(lǐng)域相互交叉,在多家高校也開設(shè)了這個(gè)學(xué)科。它綜合應(yīng)用數(shù)學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)等。機(jī)器學(xué)習(xí)的應(yīng)用寬度在不斷擴(kuò)張,更能與其他領(lǐng)域結(jié)合,如本文所探討的優(yōu)質(zhì)股的選擇;甚至一部分應(yīng)用成果已經(jīng)轉(zhuǎn)化為商品。與其相關(guān)的競(jìng)賽活動(dòng)也空前活躍。
股票投資已有相當(dāng)長(zhǎng)的時(shí)間。如何炒股,選擇優(yōu)質(zhì)股也成為了國(guó)內(nèi)股民心中疑惑。但在國(guó)外這個(gè)問題已經(jīng)被新的方案:量化投資所解決。在國(guó)外量化投資已經(jīng)有將近40年的發(fā)展歷程,但在國(guó)內(nèi)仍能算新鮮事物。相比于靠個(gè)人的經(jīng)驗(yàn)和背景知識(shí)的投資,量化投資已經(jīng)在國(guó)外取得了優(yōu)異的成績(jī)。在1971年時(shí),美國(guó)巴克萊投資管理公司發(fā)行世界上第一只指數(shù)基金,標(biāo)志量化投資的建立。如今,量化投資已經(jīng)成為美國(guó)投資方式的根本之一。近年來,國(guó)內(nèi)股市極不穩(wěn)定,既有時(shí)勢(shì)造英雄,同時(shí)不乏存在失敗的典型案例??鋸埗砸粚⒐Τ扇f骨枯。為了使股民得到長(zhǎng)期穩(wěn)定的投資,通過參考國(guó)外量化投資的經(jīng)驗(yàn),結(jié)合機(jī)器學(xué)習(xí)的量化投資手段,從而達(dá)到獲取穩(wěn)定收益目的的新型交易方式無疑是國(guó)內(nèi)人民的首選[1]量化投資也必然成為國(guó)內(nèi)投資的新趨勢(shì)并與世界接軌。
量化投資和傳統(tǒng)的定性投資在理論基礎(chǔ)上并沒有不同,都是建立在能夠掌控市場(chǎng),產(chǎn)生超出已經(jīng)付出的額外收益的特異組合。但量化投資與傳統(tǒng)投資理念進(jìn)行對(duì)比,不同的是,傳統(tǒng)投資依靠人的主觀進(jìn)行選股;而量化投資卻是人的投資的理念和經(jīng)驗(yàn)通過算法建立數(shù)學(xué)模型,并利用計(jì)算機(jī)的強(qiáng)大運(yùn)算能力來處理龐大的數(shù)據(jù),只有通過大量運(yùn)算后,確認(rèn)數(shù)據(jù)是否符合模型,才會(huì)進(jìn)一步投入交易中。同時(shí)伴隨機(jī)器學(xué)習(xí)在各領(lǐng)域大顯身手,量化投資這種新型投資方式必然能夠走進(jìn)歷史的大舞臺(tái)并且大放光彩。
人工智能的關(guān)鍵內(nèi)容是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的經(jīng)典定義“計(jì)算機(jī)利用經(jīng)驗(yàn)改善系統(tǒng)自身性能行為”。[2]簡(jiǎn)而言之,機(jī)器模擬人的行為,對(duì)已有的經(jīng)驗(yàn)進(jìn)行自動(dòng)改進(jìn)。
伴隨人工處理成本高、人工處理困難這兩大難題,而機(jī)器學(xué)習(xí)具備降低企業(yè)成本,提高投入產(chǎn)出比等優(yōu)點(diǎn),人類對(duì)機(jī)器學(xué)習(xí)的依賴也日益增長(zhǎng)。
機(jī)器學(xué)習(xí)的主要內(nèi)容是模擬從而實(shí)現(xiàn)自我學(xué)習(xí)。機(jī)器學(xué)習(xí)由分為兩大步驟:一是不斷探索人類的學(xué)習(xí)方式;而另一種是研究如何有效從海量數(shù)據(jù)中挖掘有效信息。學(xué)習(xí)形式又可以分成四類:有監(jiān)督學(xué)習(xí)(通過歷史輸入和歷史數(shù)據(jù)之間形成對(duì)應(yīng)關(guān)系,生成映射函數(shù))、半監(jiān)督學(xué)習(xí)(直接對(duì)輸入數(shù)據(jù)集進(jìn)行建模,對(duì)應(yīng)的輸出數(shù)據(jù))、無監(jiān)督學(xué)習(xí)(綜合利用少量標(biāo)注樣本和大量未標(biāo)注樣本進(jìn)行訓(xùn)練)、增強(qiáng)學(xué)習(xí)(學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射)。而我們所探討的隨機(jī)森林算法屬于有監(jiān)督學(xué)習(xí)一類。機(jī)器學(xué)習(xí)能力的增強(qiáng)也便是通過某一程序解決問題的能力增強(qiáng)。
接下來我們將著重討論隨機(jī)森林怎樣對(duì)選擇優(yōu)質(zhì)股起到關(guān)鍵作用。
隨機(jī)森林算法本就是一片茂盛的森林,發(fā)揮巨大作用,但倘若真正想要了解它,那便不得不從它身體中的一棵樹,也就是決策樹開始。
決策樹是一種樹形的分類結(jié)構(gòu),它的優(yōu)點(diǎn)是分類效果明顯,速度快,可讀性強(qiáng)。
假設(shè)我們采用決策樹來選取優(yōu)質(zhì)股票,該邏輯便可以用圖1來解釋。
圖1
首先我們對(duì)100支備選股票進(jìn)行選擇,根據(jù)因子,放棄不滿足條件的40支股票,篩選出滿足條件的60支股票。然后繼續(xù)對(duì)這60支股票采用其他因子繼續(xù)進(jìn)行判斷。重復(fù)采取這樣的操作,直到滿足所有條件即最后10支股票就是我們想要的股票組合。
ID3算法
Gini系數(shù)
Gini系數(shù)指標(biāo)的計(jì)算過程如下:
計(jì)算要的Gini系數(shù)
其中,i代表類別iP在樣本集S中出現(xiàn)的概率。
計(jì)算每個(gè)劃分的Gini系數(shù)
如果S被分隔成兩個(gè)子集S1與S2則此次劃分的Gini系數(shù)為
在節(jié)點(diǎn)分裂時(shí),將每個(gè)屬性的所有劃分按照他們Gini系數(shù)來進(jìn)行排序,節(jié)點(diǎn)分裂時(shí),選擇Gini系數(shù)最小的屬性作為分裂屬性,并按照其劃分實(shí)現(xiàn)數(shù)據(jù)的分類。
通過兩種方法均可計(jì)算出優(yōu)質(zhì)股。不過通過實(shí)驗(yàn),Gini系數(shù)更佳。
(1)因?yàn)闆Q策樹的構(gòu)建是一個(gè)遞歸的過程,所以需要確定停止條件,否則過程將不會(huì)結(jié)束。每個(gè)子節(jié)點(diǎn)只有一種類型的記錄時(shí)停止是一種最直觀的方式,但是這樣往往會(huì)使得樹的節(jié)點(diǎn)過多,導(dǎo)致過擬合問題。
(2)決策樹因?yàn)楸幌拗圃诠?jié)點(diǎn)上,所以只能檢驗(yàn)單個(gè)屬性。(3)無法刪除帶噪聲的不相關(guān)屬性。
即使把決策樹看成是一個(gè)專家,但它也有出錯(cuò)的時(shí)候。常言道:三個(gè)臭皮匠頂個(gè)諸葛亮;諸葛亮縱然神機(jī)妙算,也有七星續(xù)命失敗之傳說。決策樹也不例外,也有失誤之時(shí),隨機(jī)森林即是構(gòu)建多個(gè)臭皮匠從而達(dá)到超越?jīng)Q策樹這個(gè)單人大師的算法。
構(gòu)建隨機(jī)森林的關(guān)鍵是對(duì)特征值與數(shù)據(jù)的隨機(jī)處理,使得生成的每個(gè)決策樹都是隨機(jī)的,不相同的,而到在最后采用“以少服多”表決的時(shí)候,可信度更高。
隨機(jī)森林中的特征值就是股票中的因子,我們一開始選取大量的因子,然后隨機(jī)抽取部分因子用來建樹。對(duì)建好的樹,在用數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,該數(shù)據(jù)也是從全部數(shù)據(jù)中隨機(jī)抽取的部分?jǐn)?shù)據(jù)。這樣生成的決策樹之間的相容性就很低,可以避免由于相同錯(cuò)誤帶來的錯(cuò)誤判斷,進(jìn)而提高判斷結(jié)果的可靠性。最后我們?cè)趯?duì)所有決策樹的結(jié)果進(jìn)行統(tǒng)計(jì)的時(shí)候,采用簡(jiǎn)單的“多數(shù)優(yōu)先”原則,來作為我們判斷的整個(gè)結(jié)果。
① 準(zhǔn)確率與決策樹相比增強(qiáng)。
② 其強(qiáng)壯性更強(qiáng)。
③ 隨機(jī)森林的出現(xiàn),使過擬合問題得以解決。
④ 速度更快效率更高。
也因此可以將隨機(jī)森林運(yùn)用在量化選股上。
選股即為了解資金動(dòng)向,增強(qiáng)自身的判斷能力,從而對(duì)流動(dòng)趨勢(shì)有更深入的見解;其次是對(duì)自己選擇的股票進(jìn)行評(píng)級(jí),來判斷自己選擇股票優(yōu)劣的過程。恰當(dāng)投資選股指標(biāo)體系無疑就是量化選股,通過對(duì)數(shù)量化分析工具的使用來達(dá)到選取優(yōu)質(zhì)股的目的,其最重要的部分就是對(duì)數(shù)據(jù)的深入探討。
通俗而言,量化選股是量化投資的一個(gè)分支,使選取股票組合數(shù)量化。傳統(tǒng)的選股基于兩個(gè)方面:基本面分析和技術(shù)面分析,有字面上的意思即可得知基本面分析側(cè)重于股票的內(nèi)在投資價(jià)值、各種因素于價(jià)格之間的內(nèi)在聯(lián)系和邏輯;技術(shù)面則是從股票變動(dòng)的歷史中探尋股票波動(dòng)的規(guī)律。簡(jiǎn)單而言,基本面從本質(zhì)探究股票、技術(shù)面從現(xiàn)有的規(guī)律預(yù)判未來的走向。量化選股并不與之矛盾,相反,它建立在其之上,并通過計(jì)算機(jī)的計(jì)算,采用一些數(shù)學(xué)模型來實(shí)現(xiàn)該種投資理念。
在本文中因子即為影響選股的成分或因素。
因子凈利潤(rùn)增長(zhǎng)率市值凈資產(chǎn)收益率市場(chǎng)率凈利潤(rùn)率流通市值工值市凈率公司工作環(huán)境
構(gòu)建因子如下,規(guī)模:市值、流通市值。盈利能力:凈資產(chǎn)收益率、總資產(chǎn)凈利率、凈利潤(rùn)率。償債能力:流動(dòng)比率、速動(dòng)比率、資產(chǎn)負(fù)債率。股東獲利能力:市盈率、市凈率、每股凈收益、上市以來分紅率。成長(zhǎng)能力:營(yíng)業(yè)收入增長(zhǎng)率、凈利潤(rùn)增長(zhǎng)率、資產(chǎn)增長(zhǎng)率、固定資產(chǎn)擴(kuò)張?jiān)鲩L(zhǎng)率、wind一致預(yù)期凈利潤(rùn)同比。營(yíng)運(yùn)能力:存貨周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率。以及其他因子,不過在挑選因子的過程中應(yīng)該采納更多因子,使其在挑選股票時(shí)更全面,同時(shí)也應(yīng)該注意滿足不過擬合[4]這個(gè)原則。
同時(shí)我認(rèn)為在選取因子時(shí),可以嘗試考慮公司的環(huán)境這個(gè)因子,良好的公司環(huán)境營(yíng)造出良好的工作氛圍,也會(huì)吸引一批優(yōu)秀人才來自工作,公司的潛力自然也非同一般。
① 隨機(jī)森林是一個(gè)組合分類器,能用于股票的篩選。
② 訓(xùn)練集的隨機(jī)挑選:算法從所選擇的因子中隨機(jī)抽取子集,每次抽樣均為隨機(jī)。
③ 隨機(jī)森林的構(gòu)建:每一個(gè)子集生成一顆是決策樹,并在其中挑選部分決策樹進(jìn)行分裂,從而達(dá)到隨機(jī)性的目的。
④ 節(jié)點(diǎn)分裂:每棵樹的分支的生成都是按照節(jié)點(diǎn)Gini系數(shù)最小原則選擇分支進(jìn)行生長(zhǎng)。
⑤ 最終選多處得票得出結(jié)論
當(dāng)下的時(shí)代背景也因?yàn)樗娘w速發(fā)展,那個(gè)曾經(jīng)一度追求精確高效率的金融界也悄然發(fā)生變化,主觀證券投資這個(gè)行業(yè)也在被量化投資所取代。通過本文對(duì)機(jī)器學(xué)習(xí)乃至隨機(jī)森林算法的簡(jiǎn)要介紹以及探討它在量化選股中起到的作用無疑使更過人了解它并運(yùn)用它去創(chuàng)造財(cái)富,同時(shí)領(lǐng)略新時(shí)代科技的魅力。量化選股也同樣是一個(gè)需要不斷充實(shí)的研究領(lǐng)域,本文的內(nèi)容同樣有待進(jìn)一步地深入與探究。機(jī)器學(xué)習(xí)這個(gè)曾經(jīng)幻想中的事物,已經(jīng)在迅猛發(fā)展并結(jié)合其他領(lǐng)域煥發(fā)出蓬勃的生命力。
因?yàn)樽髡邔W(xué)術(shù)水平的低下,許多東西人只是猜測(cè),并沒有進(jìn)行相關(guān)試驗(yàn)來證明,希望將來可以根據(jù)市場(chǎng)的真實(shí)情況來進(jìn)行試驗(yàn)和深度的探索。
* [1]馮少榮,決策樹算法的研究與改進(jìn)[J],廈門大學(xué)學(xué)報(bào),2007(04): 496—500.
* [2] Tom Mitchell,卡內(nèi)基梅隆大學(xué)教授,“Machine Learni ng”,1997
* [3] 張潤(rùn),王永濱,機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J],中國(guó)傳媒大學(xué)學(xué)報(bào),2016
* [4] 張建軍,基于數(shù)據(jù)挖掘的股票數(shù)據(jù)分析[D],山東中國(guó)石油大學(xué)(華東),2010
* [5]孫嬌,多音字量化投資策略及實(shí)證檢驗(yàn)[D],南京大學(xué),2016
* [6]陳健,宋文達(dá),量化投資的特點(diǎn)、策略和發(fā)展研究[J],時(shí)代金融,2016(29)
* [7] 胡謙,基于機(jī)器學(xué)習(xí)的量化選股研究[D],山東大學(xué),2016
* [8]方匡南,吳見彬,朱建平,謝邦昌,隨機(jī)森林方法研究綜述[J],統(tǒng)計(jì)與信息論壇,2011(3)