亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的金融交易系統(tǒng)

2018-02-24 13:55:24傅聰郝泳濤

電腦知識(shí)與技術(shù) 2018年34期

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)交易系統(tǒng)時(shí)間序列

傅聰郝泳濤

摘要：強(qiáng)化學(xué)習(xí)（Reinforcement Learning）是解決序列化決策問(wèn)題的途徑之一，其在圍棋、電子游戲、物理控制等確定環(huán)境下解決問(wèn)題的能力已經(jīng)得到證明。該文將強(qiáng)化學(xué)習(xí)應(yīng)用到自動(dòng)交易系統(tǒng)（Automated Trading System）的設(shè)計(jì)中，通過(guò)實(shí)驗(yàn)討論了強(qiáng)化學(xué)習(xí)方法在混沌、動(dòng)態(tài)環(huán)境下的表現(xiàn)，為自動(dòng)交易系統(tǒng)的設(shè)計(jì)提出新的可能。不同于傳統(tǒng)自動(dòng)交易系統(tǒng)分別設(shè)計(jì)預(yù)測(cè)算法與策略算法的做法，基于強(qiáng)化學(xué)習(xí)的算法將兩者合二為一，簡(jiǎn)化了設(shè)計(jì)步驟。該文第1章簡(jiǎn)述了強(qiáng)化學(xué)習(xí)發(fā)展現(xiàn)狀;第2章闡述了金融交易問(wèn)題的建模方法;第3章中通過(guò)實(shí)驗(yàn)，討論了策略梯度算法與特征編碼方式（RNN、CNN）在處理金融時(shí)序數(shù)據(jù)時(shí)的優(yōu)劣。實(shí)驗(yàn)表明，使用RNN編碼特征的方法有比較好的短期效果。最后，第4章總結(jié)了使用強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)交易系統(tǒng)的優(yōu)勢(shì)與劣勢(shì)。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí); 交易系統(tǒng); 時(shí)間序列; 梯度下降

中圖分類(lèi)號(hào)：TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ? ? 文章編號(hào)：1009-3044（2018）34-0172-04

1 引言

1.1 強(qiáng)化學(xué)習(xí)

隨著AlphaGo[1]的成功，強(qiáng)化學(xué)習(xí)受到的關(guān)注日益增加，并被視為強(qiáng)人工智能的實(shí)現(xiàn)途徑之一。作為機(jī)器學(xué)習(xí)的分支領(lǐng)域，強(qiáng)化學(xué)習(xí)基于Markov理論[2]，其思想是模擬智能體在與環(huán)境交互中學(xué)習(xí)的過(guò)程，非常適合處理序列化決策問(wèn)題。

近年來(lái)，隨著深度學(xué)習(xí)理論與硬件處理能力的發(fā)展，不少傳統(tǒng)強(qiáng)化學(xué)習(xí)模型與深度學(xué)習(xí)理論相結(jié)合，使其能夠處理的問(wèn)題規(guī)模大大增加。例如經(jīng)典的Q-Learning，在與神經(jīng)網(wǎng)絡(luò)結(jié)合之后，Deep Q Network算法（DQN）[3]在相當(dāng)一部分Atari游戲中的表現(xiàn)超過(guò)了人類(lèi)玩家。文獻(xiàn)[4]證明了訓(xùn)練過(guò)程中最大化收益的過(guò)程就是沿著“策略梯度”優(yōu)化參數(shù)的過(guò)程，基于這個(gè)理論的策略梯度算法在許多方面得到了成功應(yīng)用。此外，與對(duì)抗網(wǎng)絡(luò)（GAN）非常相似的演員-評(píng)論家（Actor-Critic）模型也是研究熱點(diǎn)之一，該強(qiáng)化學(xué)習(xí)模型在學(xué)習(xí)過(guò)程中同時(shí)訓(xùn)練Actor與Critic兩個(gè)網(wǎng)絡(luò)，由Actor網(wǎng)絡(luò)提出執(zhí)行的動(dòng)作，由Critic網(wǎng)絡(luò)評(píng)估動(dòng)作可能獲得的收益，以此在交互過(guò)程中尋求最大收益。但是，由于AC模型的參數(shù)量的大，訓(xùn)練收斂速度不能得到保證，因此不少研究以加快AC模型的收斂速度為目標(biāo)，例如文獻(xiàn)[4]，提出了目標(biāo)網(wǎng)絡(luò)技術(shù)，提高訓(xùn)練穩(wěn)定性與收斂速度。

除了基礎(chǔ)理論與訓(xùn)練技巧，不少研究著重于使用強(qiáng)化學(xué)習(xí)解決實(shí)際問(wèn)題。文獻(xiàn)[5]使用AC模型，設(shè)計(jì)了水下機(jī)器人的自治控制算法;文獻(xiàn)[6]研究了DQN在連續(xù)控制問(wèn)題上的應(yīng)用，為機(jī)器人連續(xù)控制問(wèn)題提出了新的研究方向。強(qiáng)化學(xué)習(xí)在金融問(wèn)題的應(yīng)用也有一定的研究[7]闡述了強(qiáng)化學(xué)習(xí)主要算法應(yīng)用到交易問(wèn)題時(shí)需要做出的調(diào)整。文獻(xiàn)[8]以DQN為基礎(chǔ)，構(gòu)造了Buy/Sell，Signal/Order 4個(gè)agent，設(shè)計(jì)交易系統(tǒng)，其在1999.1-2000.12的約30000個(gè)價(jià)格數(shù)據(jù)上訓(xùn)練，在2001.1-2005.12時(shí)間段內(nèi)獲得了最大約1138%的增長(zhǎng)。

1.2 自動(dòng)交易系統(tǒng)

交易過(guò)程可以看作一個(gè)序列化決策問(wèn)題。在研究中，諸如股價(jià)、交易量等金融數(shù)據(jù)往往被研究者建模為時(shí)間序列，進(jìn)而以統(tǒng)計(jì)分析、博弈論等方法為基礎(chǔ)，分別設(shè)計(jì)自動(dòng)交易系統(tǒng)的各個(gè)模塊。交易系統(tǒng)的設(shè)計(jì)過(guò)程與各個(gè)模塊如圖1所示。據(jù)文獻(xiàn)[9]所述，預(yù)測(cè)與決策是交易系統(tǒng)的兩大主要組成部分，現(xiàn)有的研究大都只著眼于預(yù)測(cè)或者策略部分，少有將預(yù)測(cè)與交易策略結(jié)合在一起的研究。

本文將強(qiáng)化學(xué)習(xí)理論應(yīng)用到交易系統(tǒng)的設(shè)計(jì)中，基于策略梯度算法設(shè)計(jì)了自動(dòng)交易系統(tǒng)，并通過(guò)實(shí)驗(yàn)展示了交易系統(tǒng)的效果，同時(shí)比較了不同特征編碼方式對(duì)于交易系統(tǒng)的影響，為交易系統(tǒng)的設(shè)計(jì)與研究提出新的可能。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)主要使用上證指數(shù)000300自2017.01.01-2017.12.31分鐘級(jí)別收盤(pán)價(jià)，共58560個(gè)數(shù)據(jù)點(diǎn)作為實(shí)驗(yàn)數(shù)據(jù)（圖3），挑選了前15000個(gè)數(shù)據(jù)點(diǎn)作為訓(xùn)練數(shù)據(jù)接下來(lái)的5000個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試數(shù)據(jù)（圖4）。

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示，layer1、2、3為3個(gè)全連接層，節(jié)點(diǎn)個(gè)數(shù)為128，64，32，數(shù)據(jù)經(jīng)過(guò)正則化，選區(qū)當(dāng)前時(shí)刻前45分鐘，以及前3小時(shí)、5小時(shí)、1天、3天、10天的共50個(gè)數(shù)據(jù)點(diǎn)做為特征。不同于其他問(wèn)題，交易環(huán)境是動(dòng)態(tài)、不固定的，比起通常的網(wǎng)絡(luò)訓(xùn)練，由于金融環(huán)境的動(dòng)態(tài)性，訓(xùn)練過(guò)程極易發(fā)生過(guò)擬合現(xiàn)象。如圖6所示，在訓(xùn)練數(shù)據(jù)上，經(jīng)過(guò)2k次迭代后獲得了800%的收益，而在測(cè)試數(shù)據(jù)上的平均收益僅為0.43%并且出現(xiàn)了相當(dāng)多的虧損情況。因此，在每個(gè)全連接層后加入了dropout，經(jīng)過(guò)10k次迭代后，訓(xùn)練數(shù)據(jù)平均收益為1136.19%，測(cè)試數(shù)據(jù)平均收益為85.87%。

此外，訓(xùn)練中一個(gè)交易過(guò)程為15000個(gè)數(shù)據(jù)點(diǎn)，上述測(cè)試只用了5000個(gè)數(shù)據(jù)點(diǎn)。圖7反映了交易時(shí)長(zhǎng)與收益的關(guān)系?？梢钥闯?，當(dāng)不使用特殊編碼方式時(shí)，收益隨交易時(shí)長(zhǎng)波動(dòng)較大，同時(shí)由于交易環(huán)境的不穩(wěn)定性，隨著時(shí)間偏差越大，收益越來(lái)越少。當(dāng)使用CNN編碼特征后，隨著交易時(shí)長(zhǎng)的增加，收益略微增加。并且由于其平滑了特征，波動(dòng)較小。RNN編碼特征的效果最好，雖然波動(dòng)較大，但是其注重特征的近期變化，始終著眼于特征近期的變化，環(huán)境的不穩(wěn)定性對(duì)于其影響較小，因此收益隨時(shí)間的累計(jì)效應(yīng)明顯。

4 結(jié)論與展望

本文基于強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了自動(dòng)交易系統(tǒng)，相比傳統(tǒng)的交易系統(tǒng)設(shè)計(jì)，使用強(qiáng)化學(xué)習(xí)理論的優(yōu)勢(shì)在于簡(jiǎn)化了設(shè)計(jì)，免去了耦合預(yù)測(cè)、博弈算法的煩瑣過(guò)程。此外，傳統(tǒng)預(yù)測(cè)方法在預(yù)測(cè)價(jià)格時(shí)往往需要實(shí)時(shí)計(jì)算偏、正相關(guān)因數(shù)等統(tǒng)計(jì)學(xué)特征，以確定算法的參數(shù)（例如ARMA、GARCH等算法），計(jì)算量大，耗時(shí)嚴(yán)重。而前沿強(qiáng)化學(xué)習(xí)理論與深度學(xué)習(xí)結(jié)合緊密，使得使用RNN、CNN等各類(lèi)特征編碼器動(dòng)態(tài)編碼特征非常方便，減輕了人工設(shè)計(jì)特征的負(fù)擔(dān)。

基于強(qiáng)化學(xué)習(xí)理論的交易系統(tǒng)也有不足，其缺陷主要分為以下兩類(lèi)：

一是由于強(qiáng)化學(xué)習(xí)還處在發(fā)展期，理論有待完善，能解決的問(wèn)題也有限。比如當(dāng)前后動(dòng)作有邏輯依賴時(shí)難以定義狀態(tài)-價(jià)值函數(shù)，比如在交易問(wèn)題中，買(mǎi)入達(dá)到資金上限后，在賣(mài)出前不能買(mǎi)入;同理持有量為0時(shí)，不能做出賣(mài)出操作。本文同大部分研究者一樣，將看漲、看平、看衰作為動(dòng)作空間的定義，以此計(jì)算值函數(shù)與收益函數(shù)。有不少文獻(xiàn)針對(duì)該問(wèn)題進(jìn)行研究，例如文獻(xiàn)[11]，將三個(gè)動(dòng)作作為特征，分別訓(xùn)練另外兩個(gè)買(mǎi)入、賣(mài)出模型，使模型更加符合實(shí)際。

另一個(gè)難點(diǎn)在于金融環(huán)境的復(fù)雜與動(dòng)態(tài)。不同時(shí)期的金融環(huán)境往往大不相同，沒(méi)有一個(gè)模型能普世地在所有時(shí)期都能盈利。因此，如何將風(fēng)險(xiǎn)控制機(jī)制加入模型中也是研究的方向之一。

參考文獻(xiàn)：

[1] Silver D， Huang A， Maddison C J， et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature， 2016， 529（7587）：484-489.

[2] Bradtke S J， Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press， 1994：393-400.

[3] Mnih V， Kavukcuoglu K， Silver D， et al. Human-level control through deep reinforcement learning.[J]. Nature， 2015， 518（7540）：529.

[4] Silver D， Lever G， Heess N， et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org， 2014：387-395.

[5] Cui R， Yang C， Li Y， et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems， 2017， 47（6）：1019-1029.

[6] Zhao D， Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems， 2015， 26（2）：346-356.

[7] Eilers D， Dunis C L， Mettenheim H J V， et al. Intelligent trading of seasonal effects： A decision support algorithm based on reinforcement learning[J]. Decision Support Systems， 2014， 64（3）：100-108.

[8] Lee J W， Park J， Jangmin O， et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems， Man， and Cybernetics - Part A： Systems and Humans， 2007， 37（6）：864-877.

[9] Cavalcante R C， Brasileiro R C， Souza V L F， et al. Computational Intelligence and Financial Markets： A Survey and Future Directions[J]. Expert Systems with Applications， 2016， 55（C）：194-211.

[10] Du X， Zhai J， Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions， 2016， 1： 1.

[11] Lee J W， Park J， Jangmin O， et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems， Man， and Cybernetics-Part A： Systems and Humans， 2007， 37（6）： 864-877.

【通聯(lián)編輯：唐一東】