亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的股市操盤手模型研究

        2020-11-10 07:10:36韓道岐張鈞垚周玉航
        計算機工程與應用 2020年21期
        關鍵詞:收益率狀態(tài)動作

        韓道岐,張鈞垚,周玉航,劉 青

        中國人民大學 信息學院,北京 100872

        1 引言

        深度學習技術已廣泛應用于各領域,實現(xiàn)了類似人腦的分類、推理、預測功能。深度強化學習模型進一步解決了過程決策問題,在生物仿真、機器翻譯、工業(yè)制造、自動駕駛控制、優(yōu)化和調度、視頻游戲和圍棋等領域取得了顯著成果[1],對股票交易領域也將起重要作用。在金融市場中,已有股票預測和操作策略方面的研究[2-4],在估值、風險評估方面文獻不多,與經(jīng)典量化投資理論相結合的強化學習模型并可實戰(zhàn)的成果更少。

        在金融市場量化操作時,研究人員是針對產品價值、眾多指標和周邊環(huán)境影響因素進行綜合評估,形成當前的操作策略。但是往往受限于以下三個方面:

        (1)產品信息量不足,不能準確估值。

        (2)片面地依據(jù)一個指標,效果很差。

        (3)依據(jù)已總結的指標和固定操作策略不能動態(tài)適應環(huán)境變化,抗風險能力弱,策略易失效。

        采用基于深度強化學習技術的機器人自動進行股票交易操作,也必然面臨以上問題,因此擴展DQN算法[5-6],實現(xiàn)智能股票操盤手模型ISTG(Intelligent Stock Trader and Gym),它能更高頻和準確地發(fā)現(xiàn)投資機會;可端到端學習和優(yōu)化操作策略,自動適應環(huán)境變化。模型在完成高收益、低風險關鍵目標的同時,還能輔助判斷市場形勢、投資決策、預測股市未來發(fā)展狀況。

        2 相關工作

        人工智能發(fā)展經(jīng)過了幾次重大突破[7],形成了較完備的理論體系,并在2006 年進入深度學習階段[8],學術界把大規(guī)模訓練數(shù)據(jù)和大規(guī)??傻木W(wǎng)絡結構作為人工智能的發(fā)展方向。LeCun等[9]提出了類似與人類觀察世界結構方式的自學習,是未來研究重點。強化學習可無監(jiān)督的觀察環(huán)境,主動探索和試錯,能自我總結出優(yōu)秀經(jīng)驗。目前深度學習和強化學習相結合的主動學習系統(tǒng)雖然處于初級階段,但在學習各種視頻游戲方面已經(jīng)取得出色的成果。

        2016 年 3 月 9 日,AlphaGo 戰(zhàn)勝李世石[10],之后深度強化學習DRL(Deep Reinforcement Learning)[11-12]技術發(fā)展迅速。DRL實現(xiàn)了類生物智能體,不受體力和情緒限制,能通過網(wǎng)絡獲得幾乎無限的存儲和計算能力,并結合了深度學習的高維數(shù)據(jù)感知能力、數(shù)據(jù)統(tǒng)計分析的預測能力、強化學習的搜索最優(yōu)操作策略能力,使得智能體[13]能快速成為某個領域的強手。在DRL基礎上,樹搜索、層次化、多任務遷移學習、多agent合作和競爭學習[14]等方法均有很好的應用前景。周文吉等[15]提出端到端的、自動總結抽象的分層強化學習,能夠適應復雜環(huán)境。李晨溪等[16]提出應用知識圖譜和自然語言處理、遷移學習、模仿學習等方法,利用知識更好地指導深度強化學習。

        金融市場由于大量復雜因素的相互影響,其數(shù)據(jù)具有不確定性和時序特征,數(shù)據(jù)分析是復雜的非線性和非穩(wěn)態(tài)問題,傳統(tǒng)的統(tǒng)計學模型和海量數(shù)據(jù)挖掘模型在金融預測和序列決策中效果欠佳。量化投資[17]強調建立嚴謹?shù)姆治瞿P?、高效捕獲機會并自動執(zhí)行,如果自動決策不能針對當前實際情況自適應調整,則風險巨大,因此研究適合的智能決策模型有著迫切的需求。

        DeepMind[5]的DQN(深度Q網(wǎng)絡)首次將CNN深度學習模型和Q-learning 相結合,解決了傳統(tǒng)Q-learning難以處理高維數(shù)據(jù)的問題。Double DQN[18]提出使用兩個Q網(wǎng)絡,一個負責選擇動作,另一個負責計算,定期更新計算網(wǎng)絡,克服了Q-learning 過優(yōu)化現(xiàn)象。針對隨機抽取經(jīng)驗導致忽略了經(jīng)驗之間的不同重要程度這個缺陷,文獻[19]采取按優(yōu)先級抽取經(jīng)驗池中過往經(jīng)驗樣本。Dueling DQN[20]提出了一種新的網(wǎng)絡架構,在評估Q(S,A)的時候,同時評估了動作無關的狀態(tài)的價值函數(shù)V(S)和在狀態(tài)下各個動作的相對價值函數(shù)A(S,A)的值,Dueling DQN是一個端到端的訓練網(wǎng)絡。多步合并收益[21-22]可更快地將新觀察到的獎勵傳播到之前觀察到的狀態(tài),減少了學習樣本。價值分布網(wǎng)絡[23]學習獲得的隨機回報的多個分類分布而非狀態(tài)值函數(shù),損失函數(shù)變成兩個概率分布的距離,在有相同均值情況下,可以選擇方差(風險)最小的動作。噪聲網(wǎng)絡[24]在參數(shù)上增加噪聲和學習噪聲參數(shù),并可取消隨機探索,能控制不同場景下的探索隨機性。彩虹網(wǎng)絡[25]實現(xiàn)上述機制的同時有更快的訓練速度和更高的得分。針對需要連續(xù)動作的場景,策略梯度類算法(Policy Gradient)[26]可以直接學習動作,解決無法直接學習值函數(shù)的問題。A3C(Asynchronous Advantage Actor Critic)[22]和 OpenAI 的同步式變體A2C是actor-critic方法上的最優(yōu)實現(xiàn),actorcritic 方法將策略梯度方法與價值函數(shù)結合,拆分兩個網(wǎng)絡學習兩個不同的函數(shù):策略和價值。策略函數(shù)基于采取該動作的當前估計優(yōu)勢來調整動作概率,而價值函數(shù)則基于經(jīng)歷和后續(xù)策略收集到的獎勵來更新該優(yōu)勢。分層式強化學習(HRL)則嘗試使用更高層面的抽象策略,形成組合邏輯,Nachum等[27]設計了通過上級控制器自動學習和提出目標來監(jiān)控下級控制器,可用更少樣本和更快速度的交互,學習模擬機器人的復雜行為??偟膩砜矗疃葟娀瘜W習發(fā)展歷程如圖1所示。

        圖1 深度強化學習發(fā)展歷程

        深度強化學習目前已應用于金融配對交易、高頻交易和投資組合等領域。Moody等[28]提出的遞歸強化學習(Recurrent Reinforcement Learning,RRL)和Q-learning組合的學習算法,訓練交易系統(tǒng),通過返回的差分夏普比率做風險調整,實驗結果顯示RRL 系統(tǒng)明顯優(yōu)于監(jiān)督學習系統(tǒng),同時發(fā)現(xiàn)了Q-learning可能遭受維數(shù)災難,該研究的訓練數(shù)據(jù)使用單一指數(shù)產品、較長周期和月線行情,適用面較窄。Deng等[29]構建了DRL模型,在參數(shù)初始化、特征學習、去噪等過程采用機器學習技術,以提高隨機序列的預測準確率,對股票和商品期貨市場進行交易決策和驗證。該研究的期貨類產品數(shù)量單一,針對期貨類高頻交易使用分鐘周期,依據(jù)收盤價單一指標,不適合其他周期類型。齊岳等[4]首次把深度確定性策略梯度方法DDPG應用到投資組合管理,動態(tài)調整投資組合中資產的權重到最優(yōu)。投資組合是隨機選取的16只股票,輸入的收盤價數(shù)據(jù)信息量少,沒有提出合理選擇投資組合的方法,缺乏較大規(guī)模的組合對照實驗。胡文偉等[30]將強化學習算法和協(xié)整配對交易策略相結合,解決投資組合的選擇問題,使用索提諾比率作為回報指標,實現(xiàn)了模型參數(shù)的自適應動態(tài)調整,收益率和索提諾比率大幅提高,最大回撤明顯下降,交易次數(shù)明顯減少。但債券品種較少,數(shù)據(jù)集規(guī)模小,狀態(tài)指標較少。

        針對當前研究普遍存在的股票交易品種少、輸入狀態(tài)少、測試周期短等問題,本文基于深度強化學習的最新成果,與傳統(tǒng)量化理論結合,提取更豐富的股票交易特征,采用更全面的市場數(shù)據(jù)、更準確評估模型性能的指標,端到端訓練模型,以適應不同類型金融產品的投資操作并獲得更大收益。

        已有文獻在訓練CNN 和LSTM 模型時,把數(shù)據(jù)加工成圖片模式輸入,本質上增加了無關的背景噪聲,有效信息稀疏,導致只能提取特定的圖片形狀特征。本文直接使用數(shù)據(jù)和指標構建多日滑動窗口,可更靈活地添加特征和擴展歷史天數(shù),噪聲少、收斂快。針對股票行情,取消DDQN模型訓練時的價值網(wǎng)絡預測輸出各個動作回報、目標網(wǎng)絡預測輸出最大Q值,而直接使用模型的收盤價準確計算回報,加快模型訓練速度。

        3 ISTG模型

        3.1 目標

        ISTG 智能操盤手模型主要目標是在某個市場中,根據(jù)歷史(多日)行情,進行當日的買賣操作,找到最優(yōu)的行動策略,使指定周期范圍的最終收益最大化。

        為增強操盤手對市場的把握能力,理論上應利用市場所有股票的全部歷史數(shù)據(jù)。

        本文基于經(jīng)典的DQN方法,利用CNN網(wǎng)絡學習和輸出動作價值,Q-learning方法與環(huán)境不斷交互,獲得有回報標簽的訓練數(shù)據(jù),建立存儲上百萬幀的記憶隊列,隨機采樣小批量數(shù)據(jù)進行模型訓練。ISTG的總體架構如圖2所示。

        圖2 ISTG的總體架構

        3.2 設計

        強化學習的理論基礎是馬爾科夫決策過程MDP。MDP 的模型為一個五元組 <S,P,A,R,γ> ,其中包括:有限狀態(tài)集S,狀態(tài)轉移概率P,有限行動集A,回報函數(shù)R,計算未來回報折現(xiàn)后的折扣因子γ。強化學習的目標是找到最優(yōu)策略π使得累積回報的期望最大。積累回報Gt定義為:

        本文定義股市操作的優(yōu)化目標為最大化一個周期的總收益TR,控制單個動作的幅度風險SR,控制操作次數(shù)風險TO。從量化投資分析角度,可對應到年化收益率、最大回撤率和夏普比率三個量化指標,評估一個階段的操作效果??芍苯永眯星閿?shù)據(jù),計算指標折算后的回報值。

        策略π是給定狀態(tài)s的情況下行動a的分布:

        一個策略π定義了智能體的行為,因此:

        操盤手的操作策略有:控制單次買賣數(shù)量、控制風險倉位、控制漲跌成交的幅度、控制止損止盈,可以根據(jù)經(jīng)驗設置智能代理的這些控制參數(shù)。智能代理應能夠全面分析和選擇優(yōu)質股票,在合適時機買入賣出,使投資組合獲得最大上漲可能的同時,盡可能減少操作次數(shù)。

        MDP 過程可以采用Bellman 方程(Bellman Expectation Equation)計算策略π獲得的兩個價值函數(shù),狀態(tài)值函數(shù)vπ和狀態(tài)動作值函數(shù)qπ:

        兩個價值目標的最優(yōu)函數(shù)為:

        通過找最大化q?(s,a)對應的行動,并迭代,可以找到最優(yōu)策略,得到可存儲值函數(shù)、迭代的Bellman最優(yōu)方程(Bellman Optimality Equation):

        Bellman 最優(yōu)方程實現(xiàn)了迭代的分解,價值函數(shù)v存儲和再利用。按照動態(tài)規(guī)劃原理,如果已知子問題的最優(yōu)解v?(s′),那么對于后繼狀態(tài)是s′的狀態(tài)s,均可找到最優(yōu)解:

        本文設計了圖3 所示系統(tǒng)工作流程實現(xiàn)上述求最優(yōu)解原理。在圖3中的原始數(shù)據(jù)整理模塊,預先收集加工相關數(shù)據(jù),形成以下輸入信息:智能代理狀態(tài)、環(huán)境狀態(tài)、序列狀態(tài),形成多日的時間窗口矩陣。通過DQN網(wǎng)絡模型,迭代計算策略的最優(yōu)解。由于股市具有不同周期特點,數(shù)據(jù)加工模塊可針對各種典型周期數(shù)據(jù),加工后進行學習和分析結果。AGENT模塊每天優(yōu)選回報最優(yōu)的產品,按大概率獲利策略操作,形成實際的最優(yōu)投資組合。

        圖3 系統(tǒng)工作流程

        具體迭代過程為:已知下一步的信息v?(s′),遞推當前的信息v?(s),從后往前計算,形成最優(yōu)動作,構成整個策略。如果采用貪心算法,每次策略π都選到該狀態(tài)下qπ(s,a)值最大時所對應的行動a,當Q值不能再改進時,模型收斂:

        此時滿足bellman最優(yōu)方程:

        對于所有的s∈S,都滿足vπ(s)=v?(s),此時π為模型學會的最優(yōu)策略。設計了一個復盤環(huán)境SGYM,即ISTG 中的Stock GYM 模塊。它回放過程,形成充足的狀態(tài)s,準確計算狀態(tài)s的回報,訓練智能代理搜索和存儲策略π。智能代理不斷主動行動和存儲經(jīng)驗,學習一個行動生成模型,不斷減少當前策略和最優(yōu)策略的回報差距,最終每次都能選擇類似狀態(tài)下的一個最優(yōu)行動A,其回報qπ(s,a)最大(公式(15))。

        SGYM 的回報設計,體現(xiàn)總收益TR目標的最大化,單步收益SR目標的時機、價格幅度、買賣數(shù)量三者最優(yōu)化,操作次數(shù)TO目標的上漲概率、交易成本、波動風險三者最優(yōu)化,針對不能成交操作、反向的錯誤判斷成交增加額外懲罰。實現(xiàn)多目標最優(yōu)方程如下:

        目前在AGENT模塊中的狀態(tài)加工和量化策略控制基于規(guī)則實現(xiàn),這一方面能直接利用現(xiàn)有的優(yōu)秀量化控制策略,減少失誤,另一方面便于發(fā)現(xiàn)優(yōu)秀策略的操作特征,總結經(jīng)驗。其中經(jīng)驗參數(shù)優(yōu)化問題,后續(xù)可通過強化學習解決。

        3.3 實現(xiàn)

        為了建立SGYM,本文把股票信息分為四個部分:智能代理發(fā)出操作前的狀態(tài)、對應股票的行情狀態(tài)、指標狀態(tài)、宏觀經(jīng)濟狀態(tài),共37個特征,如表1~4所示。

        表2 股票行情狀態(tài)的特征描述

        表3 行情分析指標狀態(tài)的特征描述

        表4 宏觀經(jīng)濟指標狀態(tài)的特征描述

        AGENT 針對一個股票執(zhí)行買賣操作后,SGYM 根據(jù)操作計算返回表1 中6 個狀態(tài)字段,直接使用第二天的行情、行情的分析指標、宏觀經(jīng)濟的分析指標,返回表2~4的相關特征。

        在加工好上述數(shù)據(jù)后,SGYM可指定一個目錄下的股票數(shù)據(jù),創(chuàng)建環(huán)境對象。每個回合初始化時,使用隨機策略選擇一個股票,初始化AGENT 該股票賬戶的總價值和指定比率的股票,返回初始狀態(tài)。有0至20共21個行動標簽,分別為賣出10手到買入10手。AGENT發(fā)出行動,SGYM 執(zhí)行一步操作,調整智能代理狀態(tài)和輸出下一日狀態(tài),計算回報值?;貓罂梢允窍乱蝗盏目們r值的增減,或是收益率增減,或是本次操作股票成交后的價值增減。針對成交情況,扣減千分之一手續(xù)費,針對不能成交情況做千分之三的懲罰,針對反向操作(買入第二天下跌,賣出第二天上漲)追加百分之一的懲罰。AGENT 使用百萬幀空間存儲<s,a,r,s′>的每次經(jīng)驗數(shù)據(jù),異步隨機采樣訓練模型,打破樣本相似性,減少模型不穩(wěn)定對行動預測的影響。ISTG的經(jīng)驗回放策略采用了一些優(yōu)化技巧:開始時隨機執(zhí)行空操作(NO_OP),等待狀態(tài)窗口中有效歷史數(shù)據(jù)的積累;間隔5 步行動、累積較充分經(jīng)驗后,訓練模型一次;存儲到5 萬個隨機策略后,再開始訓練;超過10%損失掉命重新開始回合,這樣經(jīng)驗池可保存更多的優(yōu)秀策略。這種離策略模型可以發(fā)現(xiàn)利用優(yōu)先級高的經(jīng)驗、發(fā)現(xiàn)利用高分的回合、注入人類加工的優(yōu)秀策略,總結經(jīng)驗、加快智能代理的學習。

        DQN模型的網(wǎng)絡結構如圖4所示,由3個卷積層和2個全連接層構成,網(wǎng)絡參數(shù)與經(jīng)典的DQN一致。使用連續(xù)滑動4 日的窗口作為輸入的4 個通道,每個窗口幀為20 天的37 個特征組成的矩陣。輸出為21 個動作的Q值。本文建立了模型保存和恢復機制,可以階段性保存成果,重入后使用新的匹配參數(shù)繼續(xù)訓練網(wǎng)絡。

        DQN 模型的關鍵是針對Q值函數(shù)學習,最終能夠收斂、準確預測各種狀態(tài)下每個動作的Q值。根據(jù)Bellman期望方程可計算Q值:

        圖4 網(wǎng)絡結構

        其中,r為回報,Q*為下一步的最大Q值,γ為折現(xiàn)因子,γ設為0時,模型只關心當前收益,γ設為1時,模型均衡考慮當前收益和下一步的最大Q值,初始值設為0.95。模型預測能力越強,γ越應趨向1。AGENT決策行動時,使用模型預測各步的Q值,每次都按最大Q值的動作行動。AGENT 離策略訓練模型,隨機提取經(jīng)驗池中小批量數(shù)據(jù),根據(jù)經(jīng)驗記憶中的狀態(tài)預測各動作Q值,根據(jù)下一個狀態(tài),預測獲得下一步最大Q值并折扣累加到當前動作的Q值上,即r+γmaxQ(s′,a′)作為期望的Q值。根據(jù)方程(17)使用 (r+γmaxQ(s′,a′)-Q(s,a))2作為損失,梯度下降訓練模型,預測結果更接近綜合了下一個狀態(tài)情況的Q值。

        探索和開發(fā)過程是強化學習不斷試錯,獲得環(huán)境回報標簽和利用經(jīng)驗數(shù)據(jù)學習的交替過程。模型初期預測Q值不準確,與隨機動作效果類似,隨著各種狀態(tài)的學習,Q值越來越準確后,預測結果變平穩(wěn),從而會減少探索到新的有效策略的能力。DQN采用了e貪心選擇,有e概率選擇隨機動作,否則按預測的最大Q值選擇動作,初始e為1,最終穩(wěn)定到0.1,差值0.9 按照百萬幀平均到每個幀上,隨著訓練過程線性衰減e。記錄初始的5萬個隨機動作過程時,無需訓練。

        算法1智能代理探索和開發(fā)過程

        輸入:環(huán)境env,代理agent

        輸出:模型結果model,訓練過程的reward、maxq、return rate

        1.for 在指定回合內

        2.環(huán)境env.reset獲得當前股票和初始狀態(tài)state

        3.組織初始窗口,state重復20次形成20*37矩陣states

        4.while當前股票周期未完成

        5.代理ε貪心選擇動作agent.ac(tstates)

        6.環(huán)境執(zhí)行動作env.step(action)

        7.states窗口滑入一天數(shù)據(jù)作為下一天狀態(tài)

        8.代理記憶經(jīng)驗數(shù)據(jù) <s,a,r,s′>

        9.價值損失超過10%結束當前回合

        10.agent 記憶內存超過 5 萬幀并每隔 5 幀,replay 訓練模型一次

        11.end

        12.end

        由于股票具有可復盤歷史數(shù)據(jù)和直接計算第二天收益的特點,原DDQN方法訓練模型時需要使用目標網(wǎng)絡T預測最大Q值的處理,ISTG 模型改成直接使用SGYM 計算出準確的動作回報和動作的最大Q值,使得每步都可以獲得確定性的動作值,加快模型的收斂速度。

        4 實驗和性能

        4.1 環(huán)境

        實驗的硬件環(huán)境為Intel i7-6700HQ 4C/8T,主頻2.6 GHz(MAX 3.5),16 GB內存,顯卡NVIDIA GeForce GTX 960M,2 GB GPU內存。軟件環(huán)境為Windows 10操作系統(tǒng),Python 3.6開發(fā)平臺,keras和tensorflow深度學習框架。

        4.2 數(shù)據(jù)準備

        收集的數(shù)據(jù)有中國2007 年至2018 年的1 479 只股票的行情數(shù)據(jù),上證綜指和宏觀經(jīng)濟數(shù)據(jù)。經(jīng)過加工后,形成了37個特征。

        數(shù)據(jù)預處理模塊對缺失字段,進行填充零值處理。針對宏觀經(jīng)濟數(shù)據(jù)按日重新采樣插入每日記錄,貨幣供應量增長率M1和M2后取值、插值到下一個月末,其他諸如利率和匯率前取值、插值到下一個變更點。由于相關字段數(shù)據(jù)范圍穩(wěn)定,本文統(tǒng)一歸一化到0~1 之間,對日期和股票代碼字段進行0~n個類標簽的整數(shù)編碼。最終按時間拆分數(shù)據(jù)成2007—2014 年的訓練數(shù)據(jù)集TN1,2015—2017年測試數(shù)據(jù)集TS1,還提取了2015年大幅波動趨勢RG2015和2018年總體下降趨勢RB2018的兩個典型數(shù)據(jù)集,用于對比不同周期情況下的模型效果。

        4.3 實驗結果

        為了評估本文提出的智能股票交易手的性能,設計了四種實驗方案:買入持有策略ev_hold,使用每日資產收益回報和目標網(wǎng)絡計算Q值ev_tq,初始時股票占一半的ev_tqh,使用 SGYM行情數(shù)據(jù)計算Q值ev_mq。

        第1 種ev_hold 方案,所有股票初始化同樣的資金后,每次1手買入直到使用完資金。各數(shù)據(jù)集復盤后平均收益率如表5所示。

        表5 ev_hold方案數(shù)據(jù)集的復盤結果

        第2 種是ev_tq 方案,所有股票初始化同樣的充足資金。訓練階段分別運行1 000、2 000、5 000、10 000 個回合,使用TN1 數(shù)據(jù)集進行四次訓練,獲得四個不同能力的模型和訓練過程數(shù)據(jù)??伸`活根據(jù)上次訓練情況,動態(tài)調整超參數(shù),裝載上次訓練的結果模型后進入下一次訓練。多輪訓練的資產收益率、平均最大Q值、回報的學習情況趨勢如圖5所示。經(jīng)過一千多回合后,平均最大Q值開始穩(wěn)定下降,趨向17 000??梢钥闯鲈黾踊睾蠑?shù),回報值逐步穩(wěn)定,5 000 回合后資產收益率變平穩(wěn),學習階段收益率可達最大5 000%,最小值-24%,均值22%。

        在TS1 測試集上,ev_tq 方案使用訓練獲得的四個DQN,分別測試1 479只股票的分布情況見圖6,可以看出2 000回合后模型收益率差異不大。

        圖5 ev_tq訓練的資產收益率、平均最大Q 值、回報趨勢

        圖6 ev_tq測試的各股票資產收益率、平均最大Q 值、回報情況

        ev_tq 方案測試的關鍵評估指標情況見表6,對比ev_hold方案,其收益率和夏普比率的均值高。

        表6 ev_tq和ev_hold方案測試集上關鍵指標對比%

        分析ev_tq 方案最終的資產總收益率情況,發(fā)現(xiàn)測試集TS1 中的股票,如亨通光電、貝瑞基因、分眾傳媒、水井坊、南京新百等,收益可達4~5倍,比買入持有的收益更高。控制最大回撤在20%~30%區(qū)間時,恒瑞醫(yī)藥、五糧液、貴州茅臺、南極電商等保存了2~3 倍的高收益率,同時回撤風險也較小。

        實驗驗證了ISTG 在資產收益率和夏普比率方面結果較好。為進一步對比時序上的總體操作效果,本文分析了ev_hold 和ev_tq 方案在測試集上的總收益率變化過程。通過計算1 479個股票的每日資產均值和標準差,顯示總收益率在3 年中的變化趨勢,如圖7 所示,可以看出ev_tq在各時間段都超過ev_hold,兩個方案均在2015 年5 月達到最大收益水平。而陰影表示的標準差,隨時間推移逐步擴大,顯示了模型的穩(wěn)定性在逐步下降。

        圖7 資本總收益率對照

        由于ev_tq 方案的全部初始化持有資金處理,導致模型學習的動作偏向買入,圖7 顯示資金用完后,方案效果與買入持有的完全一樣。本文設計了第3種ev_tqh方案,嘗試初始化一半股票,初始時買入和賣出動作都可以獲利。同樣進行四輪訓練后,發(fā)現(xiàn)模型能夠學會減少頻繁操作,買賣操作也更均衡。在訓練集上的收益率達到最大7 000%,遠超全部初始化成資金的效果。在測試集上進行驗證,ev_tqh 與買入持有ev_hold 的對照效果如圖8所示。

        圖8 初始化一半股票情況下資本總收益率對照

        再對比分析兩種不同初始化效果的圖8 和圖7,在2016年至2018年之間,ev_tqh方案的資產收益很穩(wěn)定,陰影表示的標準差區(qū)間更小、也更穩(wěn)定。最終的總體平均收益率為24.43%,超過全部初始化成資金的13.73%。

        在觀察到ev_tq 模型的loss 值較大后,實驗第4 種ev_mq 方案,采用單個動作操作計算回報,實現(xiàn)SGYM直接計算Q值、取消目標網(wǎng)絡的策略,使用logcosh做損失函數(shù),減少異常樣本的影響。

        4.4 性能分析

        最終針對四種實驗測試方案:ev_hold、ev_tq、ev_tqh和ev_mq,統(tǒng)計分析總收益率趨勢capital rate、最大回撤率withdraw rate 指標,結果如圖9 所示??偸找媛省⒆畲蠡爻仿蕛蓚€指標都是ev_tqh效果最好,而ev_mq的效果不佳,還需要研究更好的回報計算方法。

        圖9 四種方案總收益率和回撤率對照

        為對比模型的泛化能力,使用2015 牛市和2018 熊市進行實驗收益情況對比。發(fā)現(xiàn)ev_tq 的2015 年平均收益率49.60%遠高于買入持有ev_hold的15.42%,2018年的平均收益率-30.27%,低于ev_hold的-18.07%。分析原因為:訓練數(shù)據(jù)集TN1 為中國經(jīng)濟快速增長的周期,模型習得策略更適合諸如數(shù)據(jù)集RG2015 的趨勢增長年份,而且數(shù)據(jù)集RB2018 離訓練數(shù)據(jù)集TN1 較遠,模型表現(xiàn)更不穩(wěn)定,影響測試效果。

        4.5 問題分析

        本文在實驗過程中發(fā)現(xiàn)了三個問題:

        (1)使用累計收益作為回報而不是當前操作股票的回報,會使模型缺乏短期操作策略。

        (2)DQN模型輸出較多不能成交操作,比如不能發(fā)現(xiàn)資金不足和股票不足的狀態(tài)。操作也比較頻繁。

        (3)ev_tq 方案的 loss 值遠超過模型的輸出Q值,波動大,狀態(tài)的影響遠超過單個動作的回報。而ev_mq方案只有單個動作回報,又缺失了狀態(tài)價值影響。

        針對上述問題,后續(xù)可進一步優(yōu)化模型。隨機初始化資金和股票占比,可進一步提高操作靈活性。要提高模型的泛化能力,可在隨機初始化狀態(tài)、更長周期數(shù)據(jù)、更多不同周期特征數(shù)據(jù)集的加工等方面開展研究。

        5 結束語

        本文提出的智能股票操盤手ISTG 模型采用DQN深度強化學習技術,選擇中國股市的12 年有效行情數(shù)據(jù),8年數(shù)據(jù)進行訓練學習,3年數(shù)據(jù)測試模型的整體操作策略效果,1年典型周期數(shù)據(jù)進行對比。該模型可觀察到股票市場大量產品的價格變化,隨機操作,發(fā)現(xiàn)規(guī)律,形成操作策略,較好地適應這個市場環(huán)境。

        ISTG 模型學習-10 至10 手的較大范圍操作動作,考慮了不能成交操作和交易手續(xù)費的懲罰,使用CNN深度網(wǎng)絡學習20 天37 個特征的滑動窗口數(shù)據(jù),輸出最大Q值動作,比繪制圖片方式做輸入數(shù)據(jù)的效率更高。

        針對股市操作有延遲獎賞和部分狀態(tài)可觀測問題,利用智能代理本身的收益增長情況累計回報,學習較長期的有效策略。在三年較長測試數(shù)據(jù)集上收益率實現(xiàn)了超越買入持有模型。

        后續(xù)研究將逐步增加深度強化學習的最新技術,不斷增強模型學習策略能力。尋找高層抽象邏輯記憶和控制住智能代理的方法。

        猜你喜歡
        收益率狀態(tài)動作
        1年期國債收益率跌至1%
        銀行家(2025年1期)2025-02-08 00:00:00
        狀態(tài)聯(lián)想
        動作描寫要具體
        生命的另一種狀態(tài)
        畫動作
        動作描寫不可少
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        非同一般的吃飯動作
        中日韩欧美成人免费播放| 亚洲国产精品无码专区在线观看| 粗大猛烈进出高潮视频| 国产人成精品综合欧美成人| 好看午夜一鲁一鲁一鲁| 无码少妇一区二区三区芒果| 波多野结衣aⅴ在线| 亚洲AV无码国产永久播放蜜芽| 玩弄放荡人妻一区二区三区| 少妇人妻精品一区二区三区视| 国产av在线观看久久| 亚洲爆乳精品无码一区二区| 日韩高清无码中文字幕综合一二三区| 东京道一本热码加勒比小泽| 国产三a级三级日产三级野外| 丁字裤少妇露黑毛| 午夜高清福利| 黄色大片一区二区中文字幕| sm免费人成虐漫画网站| 国产午夜精品av一区二区麻豆| 无码午夜人妻一区二区三区不卡视频| 国产精品久久无码免费看| 91精品国产九色综合久久香蕉| 99久热在线精品视频观看| 国产乱沈阳女人高潮乱叫老| 国产喷白浆精品一区二区| 国产免费二区三区视频| 极品少妇一区二区三区四区| 国产精品亚洲专区无码web| 92自拍视频爽啪在线观看| 大陆国产乱人伦| 国产成人无码精品午夜福利a| 蜜芽尤物原创AV在线播放| 日本一区二区国产精品| 日本怡春院一区二区三区| 无码av在线a∨天堂毛片| 天堂女人av一区二区| 亚洲最新国产av网站| 日本爽快片18禁免费看| 一本一本久久a久久精品综合| 久久久亚洲av午夜精品|