亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的金融交易系統(tǒng)

        2018-02-24 13:55:24傅聰郝泳濤
        電腦知識(shí)與技術(shù) 2018年34期
        關(guān)鍵詞:強(qiáng)化學(xué)習(xí)交易系統(tǒng)時(shí)間序列

        傅聰 郝泳濤

        摘要:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是解決序列化決策問(wèn)題的途徑之一,其在圍棋、電子游戲、物理控制等確定環(huán)境下解決問(wèn)題的能力已經(jīng)得到證明。該文將強(qiáng)化學(xué)習(xí)應(yīng)用到自動(dòng)交易系統(tǒng)(Automated Trading System)的設(shè)計(jì)中,通過(guò)實(shí)驗(yàn)討論了強(qiáng)化學(xué)習(xí)方法在混沌、動(dòng)態(tài)環(huán)境下的表現(xiàn),為自動(dòng)交易系統(tǒng)的設(shè)計(jì)提出新的可能。不同于傳統(tǒng)自動(dòng)交易系統(tǒng)分別設(shè)計(jì)預(yù)測(cè)算法與策略算法的做法,基于強(qiáng)化學(xué)習(xí)的算法將兩者合二為一,簡(jiǎn)化了設(shè)計(jì)步驟。該文第1章簡(jiǎn)述了強(qiáng)化學(xué)習(xí)發(fā)展現(xiàn)狀;第2章闡述了金融交易問(wèn)題的建模方法;第3章中通過(guò)實(shí)驗(yàn),討論了策略梯度算法與特征編碼方式(RNN、CNN)在處理金融時(shí)序數(shù)據(jù)時(shí)的優(yōu)劣。實(shí)驗(yàn)表明,使用RNN編碼特征的方法有比較好的短期效果。最后,第4章總結(jié)了使用強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)交易系統(tǒng)的優(yōu)勢(shì)與劣勢(shì)。

        關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 交易系統(tǒng); 時(shí)間序列; 梯度下降

        中圖分類(lèi)號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)34-0172-04

        1 引言

        1.1 強(qiáng)化學(xué)習(xí)

        隨著AlphaGo[1]的成功,強(qiáng)化學(xué)習(xí)受到的關(guān)注日益增加,并被視為強(qiáng)人工智能的實(shí)現(xiàn)途徑之一。作為機(jī)器學(xué)習(xí)的分支領(lǐng)域,強(qiáng)化學(xué)習(xí)基于Markov理論[2],其思想是模擬智能體在與環(huán)境交互中學(xué)習(xí)的過(guò)程,非常適合處理序列化決策問(wèn)題。

        近年來(lái),隨著深度學(xué)習(xí)理論與硬件處理能力的發(fā)展,不少傳統(tǒng)強(qiáng)化學(xué)習(xí)模型與深度學(xué)習(xí)理論相結(jié)合,使其能夠處理的問(wèn)題規(guī)模大大增加。例如經(jīng)典的Q-Learning,在與神經(jīng)網(wǎng)絡(luò)結(jié)合之后,Deep Q Network算法(DQN)[3]在相當(dāng)一部分Atari游戲中的表現(xiàn)超過(guò)了人類(lèi)玩家。文獻(xiàn)[4]證明了訓(xùn)練過(guò)程中最大化收益的過(guò)程就是沿著“策略梯度”優(yōu)化參數(shù)的過(guò)程,基于這個(gè)理論的策略梯度算法在許多方面得到了成功應(yīng)用。此外,與對(duì)抗網(wǎng)絡(luò)(GAN)非常相似的演員-評(píng)論家(Actor-Critic)模型也是研究熱點(diǎn)之一,該強(qiáng)化學(xué)習(xí)模型在學(xué)習(xí)過(guò)程中同時(shí)訓(xùn)練Actor與Critic兩個(gè)網(wǎng)絡(luò),由Actor網(wǎng)絡(luò)提出執(zhí)行的動(dòng)作,由Critic網(wǎng)絡(luò)評(píng)估動(dòng)作可能獲得的收益,以此在交互過(guò)程中尋求最大收益。但是,由于AC模型的參數(shù)量的大,訓(xùn)練收斂速度不能得到保證,因此不少研究以加快AC模型的收斂速度為目標(biāo),例如文獻(xiàn)[4],提出了目標(biāo)網(wǎng)絡(luò)技術(shù),提高訓(xùn)練穩(wěn)定性與收斂速度。

        除了基礎(chǔ)理論與訓(xùn)練技巧,不少研究著重于使用強(qiáng)化學(xué)習(xí)解決實(shí)際問(wèn)題。文獻(xiàn)[5]使用AC模型,設(shè)計(jì)了水下機(jī)器人的自治控制算法;文獻(xiàn)[6]研究了DQN在連續(xù)控制問(wèn)題上的應(yīng)用,為機(jī)器人連續(xù)控制問(wèn)題提出了新的研究方向。強(qiáng)化學(xué)習(xí)在金融問(wèn)題的應(yīng)用也有一定的研究[7]闡述了強(qiáng)化學(xué)習(xí)主要算法應(yīng)用到交易問(wèn)題時(shí)需要做出的調(diào)整。文獻(xiàn)[8]以DQN為基礎(chǔ),構(gòu)造了Buy/Sell,Signal/Order 4個(gè)agent,設(shè)計(jì)交易系統(tǒng),其在1999.1-2000.12的約30000個(gè)價(jià)格數(shù)據(jù)上訓(xùn)練,在2001.1-2005.12時(shí)間段內(nèi)獲得了最大約1138%的增長(zhǎng)。

        1.2 自動(dòng)交易系統(tǒng)

        交易過(guò)程可以看作一個(gè)序列化決策問(wèn)題。在研究中,諸如股價(jià)、交易量等金融數(shù)據(jù)往往被研究者建模為時(shí)間序列,進(jìn)而以統(tǒng)計(jì)分析、博弈論等方法為基礎(chǔ),分別設(shè)計(jì)自動(dòng)交易系統(tǒng)的各個(gè)模塊。交易系統(tǒng)的設(shè)計(jì)過(guò)程與各個(gè)模塊如圖1所示。據(jù)文獻(xiàn)[9]所述,預(yù)測(cè)與決策是交易系統(tǒng)的兩大主要組成部分,現(xiàn)有的研究大都只著眼于預(yù)測(cè)或者策略部分,少有將預(yù)測(cè)與交易策略結(jié)合在一起的研究。

        本文將強(qiáng)化學(xué)習(xí)理論應(yīng)用到交易系統(tǒng)的設(shè)計(jì)中,基于策略梯度算法設(shè)計(jì)了自動(dòng)交易系統(tǒng),并通過(guò)實(shí)驗(yàn)展示了交易系統(tǒng)的效果,同時(shí)比較了不同特征編碼方式對(duì)于交易系統(tǒng)的影響,為交易系統(tǒng)的設(shè)計(jì)與研究提出新的可能。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)主要使用上證指數(shù)000300自2017.01.01-2017.12.31分鐘級(jí)別收盤(pán)價(jià),共58560個(gè)數(shù)據(jù)點(diǎn)作為實(shí)驗(yàn)數(shù)據(jù)(圖3),挑選了前15000個(gè)數(shù)據(jù)點(diǎn)作為訓(xùn)練數(shù)據(jù)接下來(lái)的5000個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試數(shù)據(jù)(圖4)。

        3.2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,layer1、2、3為3個(gè)全連接層,節(jié)點(diǎn)個(gè)數(shù)為128,64,32,數(shù)據(jù)經(jīng)過(guò)正則化,選區(qū)當(dāng)前時(shí)刻前45分鐘,以及前3小時(shí)、5小時(shí)、1天、3天、10天的共50個(gè)數(shù)據(jù)點(diǎn)做為特征。不同于其他問(wèn)題,交易環(huán)境是動(dòng)態(tài)、不固定的,比起通常的網(wǎng)絡(luò)訓(xùn)練,由于金融環(huán)境的動(dòng)態(tài)性,訓(xùn)練過(guò)程極易發(fā)生過(guò)擬合現(xiàn)象。如圖6所示,在訓(xùn)練數(shù)據(jù)上,經(jīng)過(guò)2k次迭代后獲得了800%的收益,而在測(cè)試數(shù)據(jù)上的平均收益僅為0.43%并且出現(xiàn)了相當(dāng)多的虧損情況。因此,在每個(gè)全連接層后加入了dropout,經(jīng)過(guò)10k次迭代后,訓(xùn)練數(shù)據(jù)平均收益為1136.19%,測(cè)試數(shù)據(jù)平均收益為85.87%。

        此外,訓(xùn)練中一個(gè)交易過(guò)程為15000個(gè)數(shù)據(jù)點(diǎn),上述測(cè)試只用了5000個(gè)數(shù)據(jù)點(diǎn)。圖7反映了交易時(shí)長(zhǎng)與收益的關(guān)系??梢钥闯?,當(dāng)不使用特殊編碼方式時(shí),收益隨交易時(shí)長(zhǎng)波動(dòng)較大,同時(shí)由于交易環(huán)境的不穩(wěn)定性,隨著時(shí)間偏差越大,收益越來(lái)越少。當(dāng)使用CNN編碼特征后,隨著交易時(shí)長(zhǎng)的增加,收益略微增加。并且由于其平滑了特征,波動(dòng)較小。RNN編碼特征的效果最好,雖然波動(dòng)較大,但是其注重特征的近期變化,始終著眼于特征近期的變化,環(huán)境的不穩(wěn)定性對(duì)于其影響較小,因此收益隨時(shí)間的累計(jì)效應(yīng)明顯。

        4 結(jié)論與展望

        本文基于強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了自動(dòng)交易系統(tǒng),相比傳統(tǒng)的交易系統(tǒng)設(shè)計(jì),使用強(qiáng)化學(xué)習(xí)理論的優(yōu)勢(shì)在于簡(jiǎn)化了設(shè)計(jì),免去了耦合預(yù)測(cè)、博弈算法的煩瑣過(guò)程。此外,傳統(tǒng)預(yù)測(cè)方法在預(yù)測(cè)價(jià)格時(shí)往往需要實(shí)時(shí)計(jì)算偏、正相關(guān)因數(shù)等統(tǒng)計(jì)學(xué)特征,以確定算法的參數(shù)(例如ARMA、GARCH等算法),計(jì)算量大,耗時(shí)嚴(yán)重。而前沿強(qiáng)化學(xué)習(xí)理論與深度學(xué)習(xí)結(jié)合緊密,使得使用RNN、CNN等各類(lèi)特征編碼器動(dòng)態(tài)編碼特征非常方便,減輕了人工設(shè)計(jì)特征的負(fù)擔(dān)。

        基于強(qiáng)化學(xué)習(xí)理論的交易系統(tǒng)也有不足,其缺陷主要分為以下兩類(lèi):

        一是由于強(qiáng)化學(xué)習(xí)還處在發(fā)展期,理論有待完善,能解決的問(wèn)題也有限。比如當(dāng)前后動(dòng)作有邏輯依賴時(shí)難以定義狀態(tài)-價(jià)值函數(shù),比如在交易問(wèn)題中,買(mǎi)入達(dá)到資金上限后,在賣(mài)出前不能買(mǎi)入;同理持有量為0時(shí),不能做出賣(mài)出操作。本文同大部分研究者一樣,將看漲、看平、看衰作為動(dòng)作空間的定義,以此計(jì)算值函數(shù)與收益函數(shù)。有不少文獻(xiàn)針對(duì)該問(wèn)題進(jìn)行研究,例如文獻(xiàn)[11],將三個(gè)動(dòng)作作為特征,分別訓(xùn)練另外兩個(gè)買(mǎi)入、賣(mài)出模型,使模型更加符合實(shí)際。

        另一個(gè)難點(diǎn)在于金融環(huán)境的復(fù)雜與動(dòng)態(tài)。不同時(shí)期的金融環(huán)境往往大不相同,沒(méi)有一個(gè)模型能普世地在所有時(shí)期都能盈利。因此,如何將風(fēng)險(xiǎn)控制機(jī)制加入模型中也是研究的方向之一。

        參考文獻(xiàn):

        [1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.

        [2] Bradtke S J, Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press, 1994:393-400.

        [3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 2015, 518(7540):529.

        [4] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.

        [5] Cui R, Yang C, Li Y, et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(6):1019-1029.

        [6] Zhao D, Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(2):346-356.

        [7] Eilers D, Dunis C L, Mettenheim H J V, et al. Intelligent trading of seasonal effects: A decision support algorithm based on reinforcement learning[J]. Decision Support Systems, 2014, 64(3):100-108.

        [8] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2007, 37(6):864-877.

        [9] Cavalcante R C, Brasileiro R C, Souza V L F, et al. Computational Intelligence and Financial Markets: A Survey and Future Directions[J]. Expert Systems with Applications, 2016, 55(C):194-211.

        [10] Du X, Zhai J, Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions, 2016, 1: 1.

        [11] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 864-877.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        強(qiáng)化學(xué)習(xí)交易系統(tǒng)時(shí)間序列
        山東首套ETC匝道準(zhǔn)自由流預(yù)交易系統(tǒng)正式運(yùn)行
        ETC拓展應(yīng)用場(chǎng)景下的多源異構(gòu)交易系統(tǒng)
        下一代高性能交易所數(shù)據(jù)儲(chǔ)存和備份的探討
        基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
        論“以讀促寫(xiě)”在初中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用
        智能交通車(chē)流自動(dòng)導(dǎo)引系統(tǒng)
        分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
        基于時(shí)間序列的我國(guó)人均GDP分析與預(yù)測(cè)
        商(2016年32期)2016-11-24 16:20:57
        基于線性散列索引的時(shí)間序列查詢方法研究
        軟件工程(2016年8期)2016-10-25 15:43:57
        基于組合模型的能源需求預(yù)測(cè)
        一本色道久久综合亚洲精品不| 女人扒开下面无遮挡| 少妇高潮惨叫久久久久久| 久久精品国产www456c0m | 免费的日本一区二区三区视频| 一边做一边喷17p亚洲乱妇50p| 亚洲av无码不卡| 男女好痛好深好爽视频一区| 91福利国产在线观看网站| 国产女主播强伦视频网站| 亚洲一区二区三区av色婷婷 | 国产主播一区二区三区在线观看 | 久久这里都是精品99| 开心五月婷婷激情综合网| 国产玉足榨精视频在线观看| 久久精品国产亚洲av网在 | 国产一级淫片免费播放电影| 亚洲中文字幕国产综合| 亚洲中文有码一区二区| 久久久熟女一区二区三区| 国产精品黑丝美女啪啪啪| 男人的天堂中文字幕熟女人妻| 国产办公室沙发系列高清| 国产人妻精品一区二区三区不卡 | 亚洲天堂av三区四区不卡| 又紧又大又爽精品一区二区| 国产精品99久久久久久猫咪 | 免费国产黄线在线播放| 亚洲欧美成人久久综合中文网| 美女偷拍一区二区三区| 美女被黑人巨大入侵的的视频| 插鸡网站在线播放免费观看| 婷婷色香五月综合激激情| 真实国产老熟女粗口对白| 国产精品欧美韩国日本久久| 亚洲一区二区三区99区| 日韩精品视频免费在线观看网站| а天堂中文地址在线| 疯狂的欧美乱大交| 日韩精品无码一区二区三区免费| 中文字幕乱码av在线|