傅聰 郝泳濤
摘要:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是解決序列化決策問(wèn)題的途徑之一,其在圍棋、電子游戲、物理控制等確定環(huán)境下解決問(wèn)題的能力已經(jīng)得到證明。該文將強(qiáng)化學(xué)習(xí)應(yīng)用到自動(dòng)交易系統(tǒng)(Automated Trading System)的設(shè)計(jì)中,通過(guò)實(shí)驗(yàn)討論了強(qiáng)化學(xué)習(xí)方法在混沌、動(dòng)態(tài)環(huán)境下的表現(xiàn),為自動(dòng)交易系統(tǒng)的設(shè)計(jì)提出新的可能。不同于傳統(tǒng)自動(dòng)交易系統(tǒng)分別設(shè)計(jì)預(yù)測(cè)算法與策略算法的做法,基于強(qiáng)化學(xué)習(xí)的算法將兩者合二為一,簡(jiǎn)化了設(shè)計(jì)步驟。該文第1章簡(jiǎn)述了強(qiáng)化學(xué)習(xí)發(fā)展現(xiàn)狀;第2章闡述了金融交易問(wèn)題的建模方法;第3章中通過(guò)實(shí)驗(yàn),討論了策略梯度算法與特征編碼方式(RNN、CNN)在處理金融時(shí)序數(shù)據(jù)時(shí)的優(yōu)劣。實(shí)驗(yàn)表明,使用RNN編碼特征的方法有比較好的短期效果。最后,第4章總結(jié)了使用強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)交易系統(tǒng)的優(yōu)勢(shì)與劣勢(shì)。
關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 交易系統(tǒng); 時(shí)間序列; 梯度下降
中圖分類(lèi)號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)34-0172-04
1 引言
1.1 強(qiáng)化學(xué)習(xí)
隨著AlphaGo[1]的成功,強(qiáng)化學(xué)習(xí)受到的關(guān)注日益增加,并被視為強(qiáng)人工智能的實(shí)現(xiàn)途徑之一。作為機(jī)器學(xué)習(xí)的分支領(lǐng)域,強(qiáng)化學(xué)習(xí)基于Markov理論[2],其思想是模擬智能體在與環(huán)境交互中學(xué)習(xí)的過(guò)程,非常適合處理序列化決策問(wèn)題。
近年來(lái),隨著深度學(xué)習(xí)理論與硬件處理能力的發(fā)展,不少傳統(tǒng)強(qiáng)化學(xué)習(xí)模型與深度學(xué)習(xí)理論相結(jié)合,使其能夠處理的問(wèn)題規(guī)模大大增加。例如經(jīng)典的Q-Learning,在與神經(jīng)網(wǎng)絡(luò)結(jié)合之后,Deep Q Network算法(DQN)[3]在相當(dāng)一部分Atari游戲中的表現(xiàn)超過(guò)了人類(lèi)玩家。文獻(xiàn)[4]證明了訓(xùn)練過(guò)程中最大化收益的過(guò)程就是沿著“策略梯度”優(yōu)化參數(shù)的過(guò)程,基于這個(gè)理論的策略梯度算法在許多方面得到了成功應(yīng)用。此外,與對(duì)抗網(wǎng)絡(luò)(GAN)非常相似的演員-評(píng)論家(Actor-Critic)模型也是研究熱點(diǎn)之一,該強(qiáng)化學(xué)習(xí)模型在學(xué)習(xí)過(guò)程中同時(shí)訓(xùn)練Actor與Critic兩個(gè)網(wǎng)絡(luò),由Actor網(wǎng)絡(luò)提出執(zhí)行的動(dòng)作,由Critic網(wǎng)絡(luò)評(píng)估動(dòng)作可能獲得的收益,以此在交互過(guò)程中尋求最大收益。但是,由于AC模型的參數(shù)量的大,訓(xùn)練收斂速度不能得到保證,因此不少研究以加快AC模型的收斂速度為目標(biāo),例如文獻(xiàn)[4],提出了目標(biāo)網(wǎng)絡(luò)技術(shù),提高訓(xùn)練穩(wěn)定性與收斂速度。
除了基礎(chǔ)理論與訓(xùn)練技巧,不少研究著重于使用強(qiáng)化學(xué)習(xí)解決實(shí)際問(wèn)題。文獻(xiàn)[5]使用AC模型,設(shè)計(jì)了水下機(jī)器人的自治控制算法;文獻(xiàn)[6]研究了DQN在連續(xù)控制問(wèn)題上的應(yīng)用,為機(jī)器人連續(xù)控制問(wèn)題提出了新的研究方向。強(qiáng)化學(xué)習(xí)在金融問(wèn)題的應(yīng)用也有一定的研究[7]闡述了強(qiáng)化學(xué)習(xí)主要算法應(yīng)用到交易問(wèn)題時(shí)需要做出的調(diào)整。文獻(xiàn)[8]以DQN為基礎(chǔ),構(gòu)造了Buy/Sell,Signal/Order 4個(gè)agent,設(shè)計(jì)交易系統(tǒng),其在1999.1-2000.12的約30000個(gè)價(jià)格數(shù)據(jù)上訓(xùn)練,在2001.1-2005.12時(shí)間段內(nèi)獲得了最大約1138%的增長(zhǎng)。
1.2 自動(dòng)交易系統(tǒng)
交易過(guò)程可以看作一個(gè)序列化決策問(wèn)題。在研究中,諸如股價(jià)、交易量等金融數(shù)據(jù)往往被研究者建模為時(shí)間序列,進(jìn)而以統(tǒng)計(jì)分析、博弈論等方法為基礎(chǔ),分別設(shè)計(jì)自動(dòng)交易系統(tǒng)的各個(gè)模塊。交易系統(tǒng)的設(shè)計(jì)過(guò)程與各個(gè)模塊如圖1所示。據(jù)文獻(xiàn)[9]所述,預(yù)測(cè)與決策是交易系統(tǒng)的兩大主要組成部分,現(xiàn)有的研究大都只著眼于預(yù)測(cè)或者策略部分,少有將預(yù)測(cè)與交易策略結(jié)合在一起的研究。
本文將強(qiáng)化學(xué)習(xí)理論應(yīng)用到交易系統(tǒng)的設(shè)計(jì)中,基于策略梯度算法設(shè)計(jì)了自動(dòng)交易系統(tǒng),并通過(guò)實(shí)驗(yàn)展示了交易系統(tǒng)的效果,同時(shí)比較了不同特征編碼方式對(duì)于交易系統(tǒng)的影響,為交易系統(tǒng)的設(shè)計(jì)與研究提出新的可能。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)主要使用上證指數(shù)000300自2017.01.01-2017.12.31分鐘級(jí)別收盤(pán)價(jià),共58560個(gè)數(shù)據(jù)點(diǎn)作為實(shí)驗(yàn)數(shù)據(jù)(圖3),挑選了前15000個(gè)數(shù)據(jù)點(diǎn)作為訓(xùn)練數(shù)據(jù)接下來(lái)的5000個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試數(shù)據(jù)(圖4)。
3.2 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,layer1、2、3為3個(gè)全連接層,節(jié)點(diǎn)個(gè)數(shù)為128,64,32,數(shù)據(jù)經(jīng)過(guò)正則化,選區(qū)當(dāng)前時(shí)刻前45分鐘,以及前3小時(shí)、5小時(shí)、1天、3天、10天的共50個(gè)數(shù)據(jù)點(diǎn)做為特征。不同于其他問(wèn)題,交易環(huán)境是動(dòng)態(tài)、不固定的,比起通常的網(wǎng)絡(luò)訓(xùn)練,由于金融環(huán)境的動(dòng)態(tài)性,訓(xùn)練過(guò)程極易發(fā)生過(guò)擬合現(xiàn)象。如圖6所示,在訓(xùn)練數(shù)據(jù)上,經(jīng)過(guò)2k次迭代后獲得了800%的收益,而在測(cè)試數(shù)據(jù)上的平均收益僅為0.43%并且出現(xiàn)了相當(dāng)多的虧損情況。因此,在每個(gè)全連接層后加入了dropout,經(jīng)過(guò)10k次迭代后,訓(xùn)練數(shù)據(jù)平均收益為1136.19%,測(cè)試數(shù)據(jù)平均收益為85.87%。
此外,訓(xùn)練中一個(gè)交易過(guò)程為15000個(gè)數(shù)據(jù)點(diǎn),上述測(cè)試只用了5000個(gè)數(shù)據(jù)點(diǎn)。圖7反映了交易時(shí)長(zhǎng)與收益的關(guān)系??梢钥闯?,當(dāng)不使用特殊編碼方式時(shí),收益隨交易時(shí)長(zhǎng)波動(dòng)較大,同時(shí)由于交易環(huán)境的不穩(wěn)定性,隨著時(shí)間偏差越大,收益越來(lái)越少。當(dāng)使用CNN編碼特征后,隨著交易時(shí)長(zhǎng)的增加,收益略微增加。并且由于其平滑了特征,波動(dòng)較小。RNN編碼特征的效果最好,雖然波動(dòng)較大,但是其注重特征的近期變化,始終著眼于特征近期的變化,環(huán)境的不穩(wěn)定性對(duì)于其影響較小,因此收益隨時(shí)間的累計(jì)效應(yīng)明顯。
4 結(jié)論與展望
本文基于強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了自動(dòng)交易系統(tǒng),相比傳統(tǒng)的交易系統(tǒng)設(shè)計(jì),使用強(qiáng)化學(xué)習(xí)理論的優(yōu)勢(shì)在于簡(jiǎn)化了設(shè)計(jì),免去了耦合預(yù)測(cè)、博弈算法的煩瑣過(guò)程。此外,傳統(tǒng)預(yù)測(cè)方法在預(yù)測(cè)價(jià)格時(shí)往往需要實(shí)時(shí)計(jì)算偏、正相關(guān)因數(shù)等統(tǒng)計(jì)學(xué)特征,以確定算法的參數(shù)(例如ARMA、GARCH等算法),計(jì)算量大,耗時(shí)嚴(yán)重。而前沿強(qiáng)化學(xué)習(xí)理論與深度學(xué)習(xí)結(jié)合緊密,使得使用RNN、CNN等各類(lèi)特征編碼器動(dòng)態(tài)編碼特征非常方便,減輕了人工設(shè)計(jì)特征的負(fù)擔(dān)。
基于強(qiáng)化學(xué)習(xí)理論的交易系統(tǒng)也有不足,其缺陷主要分為以下兩類(lèi):
一是由于強(qiáng)化學(xué)習(xí)還處在發(fā)展期,理論有待完善,能解決的問(wèn)題也有限。比如當(dāng)前后動(dòng)作有邏輯依賴時(shí)難以定義狀態(tài)-價(jià)值函數(shù),比如在交易問(wèn)題中,買(mǎi)入達(dá)到資金上限后,在賣(mài)出前不能買(mǎi)入;同理持有量為0時(shí),不能做出賣(mài)出操作。本文同大部分研究者一樣,將看漲、看平、看衰作為動(dòng)作空間的定義,以此計(jì)算值函數(shù)與收益函數(shù)。有不少文獻(xiàn)針對(duì)該問(wèn)題進(jìn)行研究,例如文獻(xiàn)[11],將三個(gè)動(dòng)作作為特征,分別訓(xùn)練另外兩個(gè)買(mǎi)入、賣(mài)出模型,使模型更加符合實(shí)際。
另一個(gè)難點(diǎn)在于金融環(huán)境的復(fù)雜與動(dòng)態(tài)。不同時(shí)期的金融環(huán)境往往大不相同,沒(méi)有一個(gè)模型能普世地在所有時(shí)期都能盈利。因此,如何將風(fēng)險(xiǎn)控制機(jī)制加入模型中也是研究的方向之一。
參考文獻(xiàn):
[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.
[2] Bradtke S J, Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press, 1994:393-400.
[3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 2015, 518(7540):529.
[4] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.
[5] Cui R, Yang C, Li Y, et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(6):1019-1029.
[6] Zhao D, Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(2):346-356.
[7] Eilers D, Dunis C L, Mettenheim H J V, et al. Intelligent trading of seasonal effects: A decision support algorithm based on reinforcement learning[J]. Decision Support Systems, 2014, 64(3):100-108.
[8] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2007, 37(6):864-877.
[9] Cavalcante R C, Brasileiro R C, Souza V L F, et al. Computational Intelligence and Financial Markets: A Survey and Future Directions[J]. Expert Systems with Applications, 2016, 55(C):194-211.
[10] Du X, Zhai J, Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions, 2016, 1: 1.
[11] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 864-877.
【通聯(lián)編輯:唐一東】