亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的股市操盤手模型研究

        2020-11-10 07:10:36韓道岐張鈞垚周玉航
        計算機(jī)工程與應(yīng)用 2020年21期
        關(guān)鍵詞:收益率狀態(tài)動作

        韓道岐,張鈞垚,周玉航,劉 青

        中國人民大學(xué) 信息學(xué)院,北京 100872

        1 引言

        深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于各領(lǐng)域,實現(xiàn)了類似人腦的分類、推理、預(yù)測功能。深度強(qiáng)化學(xué)習(xí)模型進(jìn)一步解決了過程決策問題,在生物仿真、機(jī)器翻譯、工業(yè)制造、自動駕駛控制、優(yōu)化和調(diào)度、視頻游戲和圍棋等領(lǐng)域取得了顯著成果[1],對股票交易領(lǐng)域也將起重要作用。在金融市場中,已有股票預(yù)測和操作策略方面的研究[2-4],在估值、風(fēng)險評估方面文獻(xiàn)不多,與經(jīng)典量化投資理論相結(jié)合的強(qiáng)化學(xué)習(xí)模型并可實戰(zhàn)的成果更少。

        在金融市場量化操作時,研究人員是針對產(chǎn)品價值、眾多指標(biāo)和周邊環(huán)境影響因素進(jìn)行綜合評估,形成當(dāng)前的操作策略。但是往往受限于以下三個方面:

        (1)產(chǎn)品信息量不足,不能準(zhǔn)確估值。

        (2)片面地依據(jù)一個指標(biāo),效果很差。

        (3)依據(jù)已總結(jié)的指標(biāo)和固定操作策略不能動態(tài)適應(yīng)環(huán)境變化,抗風(fēng)險能力弱,策略易失效。

        采用基于深度強(qiáng)化學(xué)習(xí)技術(shù)的機(jī)器人自動進(jìn)行股票交易操作,也必然面臨以上問題,因此擴(kuò)展DQN算法[5-6],實現(xiàn)智能股票操盤手模型ISTG(Intelligent Stock Trader and Gym),它能更高頻和準(zhǔn)確地發(fā)現(xiàn)投資機(jī)會;可端到端學(xué)習(xí)和優(yōu)化操作策略,自動適應(yīng)環(huán)境變化。模型在完成高收益、低風(fēng)險關(guān)鍵目標(biāo)的同時,還能輔助判斷市場形勢、投資決策、預(yù)測股市未來發(fā)展?fàn)顩r。

        2 相關(guān)工作

        人工智能發(fā)展經(jīng)過了幾次重大突破[7],形成了較完備的理論體系,并在2006 年進(jìn)入深度學(xué)習(xí)階段[8],學(xué)術(shù)界把大規(guī)模訓(xùn)練數(shù)據(jù)和大規(guī)??傻木W(wǎng)絡(luò)結(jié)構(gòu)作為人工智能的發(fā)展方向。LeCun等[9]提出了類似與人類觀察世界結(jié)構(gòu)方式的自學(xué)習(xí),是未來研究重點。強(qiáng)化學(xué)習(xí)可無監(jiān)督的觀察環(huán)境,主動探索和試錯,能自我總結(jié)出優(yōu)秀經(jīng)驗。目前深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的主動學(xué)習(xí)系統(tǒng)雖然處于初級階段,但在學(xué)習(xí)各種視頻游戲方面已經(jīng)取得出色的成果。

        2016 年 3 月 9 日,AlphaGo 戰(zhàn)勝李世石[10],之后深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement Learning)[11-12]技術(shù)發(fā)展迅速。DRL實現(xiàn)了類生物智能體,不受體力和情緒限制,能通過網(wǎng)絡(luò)獲得幾乎無限的存儲和計算能力,并結(jié)合了深度學(xué)習(xí)的高維數(shù)據(jù)感知能力、數(shù)據(jù)統(tǒng)計分析的預(yù)測能力、強(qiáng)化學(xué)習(xí)的搜索最優(yōu)操作策略能力,使得智能體[13]能快速成為某個領(lǐng)域的強(qiáng)手。在DRL基礎(chǔ)上,樹搜索、層次化、多任務(wù)遷移學(xué)習(xí)、多agent合作和競爭學(xué)習(xí)[14]等方法均有很好的應(yīng)用前景。周文吉等[15]提出端到端的、自動總結(jié)抽象的分層強(qiáng)化學(xué)習(xí),能夠適應(yīng)復(fù)雜環(huán)境。李晨溪等[16]提出應(yīng)用知識圖譜和自然語言處理、遷移學(xué)習(xí)、模仿學(xué)習(xí)等方法,利用知識更好地指導(dǎo)深度強(qiáng)化學(xué)習(xí)。

        金融市場由于大量復(fù)雜因素的相互影響,其數(shù)據(jù)具有不確定性和時序特征,數(shù)據(jù)分析是復(fù)雜的非線性和非穩(wěn)態(tài)問題,傳統(tǒng)的統(tǒng)計學(xué)模型和海量數(shù)據(jù)挖掘模型在金融預(yù)測和序列決策中效果欠佳。量化投資[17]強(qiáng)調(diào)建立嚴(yán)謹(jǐn)?shù)姆治瞿P汀⒏咝Р东@機(jī)會并自動執(zhí)行,如果自動決策不能針對當(dāng)前實際情況自適應(yīng)調(diào)整,則風(fēng)險巨大,因此研究適合的智能決策模型有著迫切的需求。

        DeepMind[5]的DQN(深度Q網(wǎng)絡(luò))首次將CNN深度學(xué)習(xí)模型和Q-learning 相結(jié)合,解決了傳統(tǒng)Q-learning難以處理高維數(shù)據(jù)的問題。Double DQN[18]提出使用兩個Q網(wǎng)絡(luò),一個負(fù)責(zé)選擇動作,另一個負(fù)責(zé)計算,定期更新計算網(wǎng)絡(luò),克服了Q-learning 過優(yōu)化現(xiàn)象。針對隨機(jī)抽取經(jīng)驗導(dǎo)致忽略了經(jīng)驗之間的不同重要程度這個缺陷,文獻(xiàn)[19]采取按優(yōu)先級抽取經(jīng)驗池中過往經(jīng)驗樣本。Dueling DQN[20]提出了一種新的網(wǎng)絡(luò)架構(gòu),在評估Q(S,A)的時候,同時評估了動作無關(guān)的狀態(tài)的價值函數(shù)V(S)和在狀態(tài)下各個動作的相對價值函數(shù)A(S,A)的值,Dueling DQN是一個端到端的訓(xùn)練網(wǎng)絡(luò)。多步合并收益[21-22]可更快地將新觀察到的獎勵傳播到之前觀察到的狀態(tài),減少了學(xué)習(xí)樣本。價值分布網(wǎng)絡(luò)[23]學(xué)習(xí)獲得的隨機(jī)回報的多個分類分布而非狀態(tài)值函數(shù),損失函數(shù)變成兩個概率分布的距離,在有相同均值情況下,可以選擇方差(風(fēng)險)最小的動作。噪聲網(wǎng)絡(luò)[24]在參數(shù)上增加噪聲和學(xué)習(xí)噪聲參數(shù),并可取消隨機(jī)探索,能控制不同場景下的探索隨機(jī)性。彩虹網(wǎng)絡(luò)[25]實現(xiàn)上述機(jī)制的同時有更快的訓(xùn)練速度和更高的得分。針對需要連續(xù)動作的場景,策略梯度類算法(Policy Gradient)[26]可以直接學(xué)習(xí)動作,解決無法直接學(xué)習(xí)值函數(shù)的問題。A3C(Asynchronous Advantage Actor Critic)[22]和 OpenAI 的同步式變體A2C是actor-critic方法上的最優(yōu)實現(xiàn),actorcritic 方法將策略梯度方法與價值函數(shù)結(jié)合,拆分兩個網(wǎng)絡(luò)學(xué)習(xí)兩個不同的函數(shù):策略和價值。策略函數(shù)基于采取該動作的當(dāng)前估計優(yōu)勢來調(diào)整動作概率,而價值函數(shù)則基于經(jīng)歷和后續(xù)策略收集到的獎勵來更新該優(yōu)勢。分層式強(qiáng)化學(xué)習(xí)(HRL)則嘗試使用更高層面的抽象策略,形成組合邏輯,Nachum等[27]設(shè)計了通過上級控制器自動學(xué)習(xí)和提出目標(biāo)來監(jiān)控下級控制器,可用更少樣本和更快速度的交互,學(xué)習(xí)模擬機(jī)器人的復(fù)雜行為??偟膩砜?,深度強(qiáng)化學(xué)習(xí)發(fā)展歷程如圖1所示。

        圖1 深度強(qiáng)化學(xué)習(xí)發(fā)展歷程

        深度強(qiáng)化學(xué)習(xí)目前已應(yīng)用于金融配對交易、高頻交易和投資組合等領(lǐng)域。Moody等[28]提出的遞歸強(qiáng)化學(xué)習(xí)(Recurrent Reinforcement Learning,RRL)和Q-learning組合的學(xué)習(xí)算法,訓(xùn)練交易系統(tǒng),通過返回的差分夏普比率做風(fēng)險調(diào)整,實驗結(jié)果顯示RRL 系統(tǒng)明顯優(yōu)于監(jiān)督學(xué)習(xí)系統(tǒng),同時發(fā)現(xiàn)了Q-learning可能遭受維數(shù)災(zāi)難,該研究的訓(xùn)練數(shù)據(jù)使用單一指數(shù)產(chǎn)品、較長周期和月線行情,適用面較窄。Deng等[29]構(gòu)建了DRL模型,在參數(shù)初始化、特征學(xué)習(xí)、去噪等過程采用機(jī)器學(xué)習(xí)技術(shù),以提高隨機(jī)序列的預(yù)測準(zhǔn)確率,對股票和商品期貨市場進(jìn)行交易決策和驗證。該研究的期貨類產(chǎn)品數(shù)量單一,針對期貨類高頻交易使用分鐘周期,依據(jù)收盤價單一指標(biāo),不適合其他周期類型。齊岳等[4]首次把深度確定性策略梯度方法DDPG應(yīng)用到投資組合管理,動態(tài)調(diào)整投資組合中資產(chǎn)的權(quán)重到最優(yōu)。投資組合是隨機(jī)選取的16只股票,輸入的收盤價數(shù)據(jù)信息量少,沒有提出合理選擇投資組合的方法,缺乏較大規(guī)模的組合對照實驗。胡文偉等[30]將強(qiáng)化學(xué)習(xí)算法和協(xié)整配對交易策略相結(jié)合,解決投資組合的選擇問題,使用索提諾比率作為回報指標(biāo),實現(xiàn)了模型參數(shù)的自適應(yīng)動態(tài)調(diào)整,收益率和索提諾比率大幅提高,最大回撤明顯下降,交易次數(shù)明顯減少。但債券品種較少,數(shù)據(jù)集規(guī)模小,狀態(tài)指標(biāo)較少。

        針對當(dāng)前研究普遍存在的股票交易品種少、輸入狀態(tài)少、測試周期短等問題,本文基于深度強(qiáng)化學(xué)習(xí)的最新成果,與傳統(tǒng)量化理論結(jié)合,提取更豐富的股票交易特征,采用更全面的市場數(shù)據(jù)、更準(zhǔn)確評估模型性能的指標(biāo),端到端訓(xùn)練模型,以適應(yīng)不同類型金融產(chǎn)品的投資操作并獲得更大收益。

        已有文獻(xiàn)在訓(xùn)練CNN 和LSTM 模型時,把數(shù)據(jù)加工成圖片模式輸入,本質(zhì)上增加了無關(guān)的背景噪聲,有效信息稀疏,導(dǎo)致只能提取特定的圖片形狀特征。本文直接使用數(shù)據(jù)和指標(biāo)構(gòu)建多日滑動窗口,可更靈活地添加特征和擴(kuò)展歷史天數(shù),噪聲少、收斂快。針對股票行情,取消DDQN模型訓(xùn)練時的價值網(wǎng)絡(luò)預(yù)測輸出各個動作回報、目標(biāo)網(wǎng)絡(luò)預(yù)測輸出最大Q值,而直接使用模型的收盤價準(zhǔn)確計算回報,加快模型訓(xùn)練速度。

        3 ISTG模型

        3.1 目標(biāo)

        ISTG 智能操盤手模型主要目標(biāo)是在某個市場中,根據(jù)歷史(多日)行情,進(jìn)行當(dāng)日的買賣操作,找到最優(yōu)的行動策略,使指定周期范圍的最終收益最大化。

        為增強(qiáng)操盤手對市場的把握能力,理論上應(yīng)利用市場所有股票的全部歷史數(shù)據(jù)。

        本文基于經(jīng)典的DQN方法,利用CNN網(wǎng)絡(luò)學(xué)習(xí)和輸出動作價值,Q-learning方法與環(huán)境不斷交互,獲得有回報標(biāo)簽的訓(xùn)練數(shù)據(jù),建立存儲上百萬幀的記憶隊列,隨機(jī)采樣小批量數(shù)據(jù)進(jìn)行模型訓(xùn)練。ISTG的總體架構(gòu)如圖2所示。

        圖2 ISTG的總體架構(gòu)

        3.2 設(shè)計

        強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)是馬爾科夫決策過程MDP。MDP 的模型為一個五元組 <S,P,A,R,γ> ,其中包括:有限狀態(tài)集S,狀態(tài)轉(zhuǎn)移概率P,有限行動集A,回報函數(shù)R,計算未來回報折現(xiàn)后的折扣因子γ。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π使得累積回報的期望最大。積累回報Gt定義為:

        本文定義股市操作的優(yōu)化目標(biāo)為最大化一個周期的總收益TR,控制單個動作的幅度風(fēng)險SR,控制操作次數(shù)風(fēng)險TO。從量化投資分析角度,可對應(yīng)到年化收益率、最大回撤率和夏普比率三個量化指標(biāo),評估一個階段的操作效果。可直接利用行情數(shù)據(jù),計算指標(biāo)折算后的回報值。

        策略π是給定狀態(tài)s的情況下行動a的分布:

        一個策略π定義了智能體的行為,因此:

        操盤手的操作策略有:控制單次買賣數(shù)量、控制風(fēng)險倉位、控制漲跌成交的幅度、控制止損止盈,可以根據(jù)經(jīng)驗設(shè)置智能代理的這些控制參數(shù)。智能代理應(yīng)能夠全面分析和選擇優(yōu)質(zhì)股票,在合適時機(jī)買入賣出,使投資組合獲得最大上漲可能的同時,盡可能減少操作次數(shù)。

        MDP 過程可以采用Bellman 方程(Bellman Expectation Equation)計算策略π獲得的兩個價值函數(shù),狀態(tài)值函數(shù)vπ和狀態(tài)動作值函數(shù)qπ:

        兩個價值目標(biāo)的最優(yōu)函數(shù)為:

        通過找最大化q?(s,a)對應(yīng)的行動,并迭代,可以找到最優(yōu)策略,得到可存儲值函數(shù)、迭代的Bellman最優(yōu)方程(Bellman Optimality Equation):

        Bellman 最優(yōu)方程實現(xiàn)了迭代的分解,價值函數(shù)v存儲和再利用。按照動態(tài)規(guī)劃原理,如果已知子問題的最優(yōu)解v?(s′),那么對于后繼狀態(tài)是s′的狀態(tài)s,均可找到最優(yōu)解:

        本文設(shè)計了圖3 所示系統(tǒng)工作流程實現(xiàn)上述求最優(yōu)解原理。在圖3中的原始數(shù)據(jù)整理模塊,預(yù)先收集加工相關(guān)數(shù)據(jù),形成以下輸入信息:智能代理狀態(tài)、環(huán)境狀態(tài)、序列狀態(tài),形成多日的時間窗口矩陣。通過DQN網(wǎng)絡(luò)模型,迭代計算策略的最優(yōu)解。由于股市具有不同周期特點,數(shù)據(jù)加工模塊可針對各種典型周期數(shù)據(jù),加工后進(jìn)行學(xué)習(xí)和分析結(jié)果。AGENT模塊每天優(yōu)選回報最優(yōu)的產(chǎn)品,按大概率獲利策略操作,形成實際的最優(yōu)投資組合。

        圖3 系統(tǒng)工作流程

        具體迭代過程為:已知下一步的信息v?(s′),遞推當(dāng)前的信息v?(s),從后往前計算,形成最優(yōu)動作,構(gòu)成整個策略。如果采用貪心算法,每次策略π都選到該狀態(tài)下qπ(s,a)值最大時所對應(yīng)的行動a,當(dāng)Q值不能再改進(jìn)時,模型收斂:

        此時滿足bellman最優(yōu)方程:

        對于所有的s∈S,都滿足vπ(s)=v?(s),此時π為模型學(xué)會的最優(yōu)策略。設(shè)計了一個復(fù)盤環(huán)境SGYM,即ISTG 中的Stock GYM 模塊。它回放過程,形成充足的狀態(tài)s,準(zhǔn)確計算狀態(tài)s的回報,訓(xùn)練智能代理搜索和存儲策略π。智能代理不斷主動行動和存儲經(jīng)驗,學(xué)習(xí)一個行動生成模型,不斷減少當(dāng)前策略和最優(yōu)策略的回報差距,最終每次都能選擇類似狀態(tài)下的一個最優(yōu)行動A,其回報qπ(s,a)最大(公式(15))。

        SGYM 的回報設(shè)計,體現(xiàn)總收益TR目標(biāo)的最大化,單步收益SR目標(biāo)的時機(jī)、價格幅度、買賣數(shù)量三者最優(yōu)化,操作次數(shù)TO目標(biāo)的上漲概率、交易成本、波動風(fēng)險三者最優(yōu)化,針對不能成交操作、反向的錯誤判斷成交增加額外懲罰。實現(xiàn)多目標(biāo)最優(yōu)方程如下:

        目前在AGENT模塊中的狀態(tài)加工和量化策略控制基于規(guī)則實現(xiàn),這一方面能直接利用現(xiàn)有的優(yōu)秀量化控制策略,減少失誤,另一方面便于發(fā)現(xiàn)優(yōu)秀策略的操作特征,總結(jié)經(jīng)驗。其中經(jīng)驗參數(shù)優(yōu)化問題,后續(xù)可通過強(qiáng)化學(xué)習(xí)解決。

        3.3 實現(xiàn)

        為了建立SGYM,本文把股票信息分為四個部分:智能代理發(fā)出操作前的狀態(tài)、對應(yīng)股票的行情狀態(tài)、指標(biāo)狀態(tài)、宏觀經(jīng)濟(jì)狀態(tài),共37個特征,如表1~4所示。

        表2 股票行情狀態(tài)的特征描述

        表3 行情分析指標(biāo)狀態(tài)的特征描述

        表4 宏觀經(jīng)濟(jì)指標(biāo)狀態(tài)的特征描述

        AGENT 針對一個股票執(zhí)行買賣操作后,SGYM 根據(jù)操作計算返回表1 中6 個狀態(tài)字段,直接使用第二天的行情、行情的分析指標(biāo)、宏觀經(jīng)濟(jì)的分析指標(biāo),返回表2~4的相關(guān)特征。

        在加工好上述數(shù)據(jù)后,SGYM可指定一個目錄下的股票數(shù)據(jù),創(chuàng)建環(huán)境對象。每個回合初始化時,使用隨機(jī)策略選擇一個股票,初始化AGENT 該股票賬戶的總價值和指定比率的股票,返回初始狀態(tài)。有0至20共21個行動標(biāo)簽,分別為賣出10手到買入10手。AGENT發(fā)出行動,SGYM 執(zhí)行一步操作,調(diào)整智能代理狀態(tài)和輸出下一日狀態(tài),計算回報值。回報可以是下一日的總價值的增減,或是收益率增減,或是本次操作股票成交后的價值增減。針對成交情況,扣減千分之一手續(xù)費,針對不能成交情況做千分之三的懲罰,針對反向操作(買入第二天下跌,賣出第二天上漲)追加百分之一的懲罰。AGENT 使用百萬幀空間存儲<s,a,r,s′>的每次經(jīng)驗數(shù)據(jù),異步隨機(jī)采樣訓(xùn)練模型,打破樣本相似性,減少模型不穩(wěn)定對行動預(yù)測的影響。ISTG的經(jīng)驗回放策略采用了一些優(yōu)化技巧:開始時隨機(jī)執(zhí)行空操作(NO_OP),等待狀態(tài)窗口中有效歷史數(shù)據(jù)的積累;間隔5 步行動、累積較充分經(jīng)驗后,訓(xùn)練模型一次;存儲到5 萬個隨機(jī)策略后,再開始訓(xùn)練;超過10%損失掉命重新開始回合,這樣經(jīng)驗池可保存更多的優(yōu)秀策略。這種離策略模型可以發(fā)現(xiàn)利用優(yōu)先級高的經(jīng)驗、發(fā)現(xiàn)利用高分的回合、注入人類加工的優(yōu)秀策略,總結(jié)經(jīng)驗、加快智能代理的學(xué)習(xí)。

        DQN模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,由3個卷積層和2個全連接層構(gòu)成,網(wǎng)絡(luò)參數(shù)與經(jīng)典的DQN一致。使用連續(xù)滑動4 日的窗口作為輸入的4 個通道,每個窗口幀為20 天的37 個特征組成的矩陣。輸出為21 個動作的Q值。本文建立了模型保存和恢復(fù)機(jī)制,可以階段性保存成果,重入后使用新的匹配參數(shù)繼續(xù)訓(xùn)練網(wǎng)絡(luò)。

        DQN 模型的關(guān)鍵是針對Q值函數(shù)學(xué)習(xí),最終能夠收斂、準(zhǔn)確預(yù)測各種狀態(tài)下每個動作的Q值。根據(jù)Bellman期望方程可計算Q值:

        圖4 網(wǎng)絡(luò)結(jié)構(gòu)

        其中,r為回報,Q*為下一步的最大Q值,γ為折現(xiàn)因子,γ設(shè)為0時,模型只關(guān)心當(dāng)前收益,γ設(shè)為1時,模型均衡考慮當(dāng)前收益和下一步的最大Q值,初始值設(shè)為0.95。模型預(yù)測能力越強(qiáng),γ越應(yīng)趨向1。AGENT決策行動時,使用模型預(yù)測各步的Q值,每次都按最大Q值的動作行動。AGENT 離策略訓(xùn)練模型,隨機(jī)提取經(jīng)驗池中小批量數(shù)據(jù),根據(jù)經(jīng)驗記憶中的狀態(tài)預(yù)測各動作Q值,根據(jù)下一個狀態(tài),預(yù)測獲得下一步最大Q值并折扣累加到當(dāng)前動作的Q值上,即r+γmaxQ(s′,a′)作為期望的Q值。根據(jù)方程(17)使用 (r+γmaxQ(s′,a′)-Q(s,a))2作為損失,梯度下降訓(xùn)練模型,預(yù)測結(jié)果更接近綜合了下一個狀態(tài)情況的Q值。

        探索和開發(fā)過程是強(qiáng)化學(xué)習(xí)不斷試錯,獲得環(huán)境回報標(biāo)簽和利用經(jīng)驗數(shù)據(jù)學(xué)習(xí)的交替過程。模型初期預(yù)測Q值不準(zhǔn)確,與隨機(jī)動作效果類似,隨著各種狀態(tài)的學(xué)習(xí),Q值越來越準(zhǔn)確后,預(yù)測結(jié)果變平穩(wěn),從而會減少探索到新的有效策略的能力。DQN采用了e貪心選擇,有e概率選擇隨機(jī)動作,否則按預(yù)測的最大Q值選擇動作,初始e為1,最終穩(wěn)定到0.1,差值0.9 按照百萬幀平均到每個幀上,隨著訓(xùn)練過程線性衰減e。記錄初始的5萬個隨機(jī)動作過程時,無需訓(xùn)練。

        算法1智能代理探索和開發(fā)過程

        輸入:環(huán)境env,代理agent

        輸出:模型結(jié)果model,訓(xùn)練過程的reward、maxq、return rate

        1.for 在指定回合內(nèi)

        2.環(huán)境env.reset獲得當(dāng)前股票和初始狀態(tài)state

        3.組織初始窗口,state重復(fù)20次形成20*37矩陣states

        4.while當(dāng)前股票周期未完成

        5.代理ε貪心選擇動作agent.ac(tstates)

        6.環(huán)境執(zhí)行動作env.step(action)

        7.states窗口滑入一天數(shù)據(jù)作為下一天狀態(tài)

        8.代理記憶經(jīng)驗數(shù)據(jù) <s,a,r,s′>

        9.價值損失超過10%結(jié)束當(dāng)前回合

        10.agent 記憶內(nèi)存超過 5 萬幀并每隔 5 幀,replay 訓(xùn)練模型一次

        11.end

        12.end

        由于股票具有可復(fù)盤歷史數(shù)據(jù)和直接計算第二天收益的特點,原DDQN方法訓(xùn)練模型時需要使用目標(biāo)網(wǎng)絡(luò)T預(yù)測最大Q值的處理,ISTG 模型改成直接使用SGYM 計算出準(zhǔn)確的動作回報和動作的最大Q值,使得每步都可以獲得確定性的動作值,加快模型的收斂速度。

        4 實驗和性能

        4.1 環(huán)境

        實驗的硬件環(huán)境為Intel i7-6700HQ 4C/8T,主頻2.6 GHz(MAX 3.5),16 GB內(nèi)存,顯卡NVIDIA GeForce GTX 960M,2 GB GPU內(nèi)存。軟件環(huán)境為Windows 10操作系統(tǒng),Python 3.6開發(fā)平臺,keras和tensorflow深度學(xué)習(xí)框架。

        4.2 數(shù)據(jù)準(zhǔn)備

        收集的數(shù)據(jù)有中國2007 年至2018 年的1 479 只股票的行情數(shù)據(jù),上證綜指和宏觀經(jīng)濟(jì)數(shù)據(jù)。經(jīng)過加工后,形成了37個特征。

        數(shù)據(jù)預(yù)處理模塊對缺失字段,進(jìn)行填充零值處理。針對宏觀經(jīng)濟(jì)數(shù)據(jù)按日重新采樣插入每日記錄,貨幣供應(yīng)量增長率M1和M2后取值、插值到下一個月末,其他諸如利率和匯率前取值、插值到下一個變更點。由于相關(guān)字段數(shù)據(jù)范圍穩(wěn)定,本文統(tǒng)一歸一化到0~1 之間,對日期和股票代碼字段進(jìn)行0~n個類標(biāo)簽的整數(shù)編碼。最終按時間拆分?jǐn)?shù)據(jù)成2007—2014 年的訓(xùn)練數(shù)據(jù)集TN1,2015—2017年測試數(shù)據(jù)集TS1,還提取了2015年大幅波動趨勢RG2015和2018年總體下降趨勢RB2018的兩個典型數(shù)據(jù)集,用于對比不同周期情況下的模型效果。

        4.3 實驗結(jié)果

        為了評估本文提出的智能股票交易手的性能,設(shè)計了四種實驗方案:買入持有策略ev_hold,使用每日資產(chǎn)收益回報和目標(biāo)網(wǎng)絡(luò)計算Q值ev_tq,初始時股票占一半的ev_tqh,使用 SGYM行情數(shù)據(jù)計算Q值ev_mq。

        第1 種ev_hold 方案,所有股票初始化同樣的資金后,每次1手買入直到使用完資金。各數(shù)據(jù)集復(fù)盤后平均收益率如表5所示。

        表5 ev_hold方案數(shù)據(jù)集的復(fù)盤結(jié)果

        第2 種是ev_tq 方案,所有股票初始化同樣的充足資金。訓(xùn)練階段分別運行1 000、2 000、5 000、10 000 個回合,使用TN1 數(shù)據(jù)集進(jìn)行四次訓(xùn)練,獲得四個不同能力的模型和訓(xùn)練過程數(shù)據(jù)。可靈活根據(jù)上次訓(xùn)練情況,動態(tài)調(diào)整超參數(shù),裝載上次訓(xùn)練的結(jié)果模型后進(jìn)入下一次訓(xùn)練。多輪訓(xùn)練的資產(chǎn)收益率、平均最大Q值、回報的學(xué)習(xí)情況趨勢如圖5所示。經(jīng)過一千多回合后,平均最大Q值開始穩(wěn)定下降,趨向17 000??梢钥闯鲈黾踊睾蠑?shù),回報值逐步穩(wěn)定,5 000 回合后資產(chǎn)收益率變平穩(wěn),學(xué)習(xí)階段收益率可達(dá)最大5 000%,最小值-24%,均值22%。

        在TS1 測試集上,ev_tq 方案使用訓(xùn)練獲得的四個DQN,分別測試1 479只股票的分布情況見圖6,可以看出2 000回合后模型收益率差異不大。

        圖5 ev_tq訓(xùn)練的資產(chǎn)收益率、平均最大Q 值、回報趨勢

        圖6 ev_tq測試的各股票資產(chǎn)收益率、平均最大Q 值、回報情況

        ev_tq 方案測試的關(guān)鍵評估指標(biāo)情況見表6,對比ev_hold方案,其收益率和夏普比率的均值高。

        表6 ev_tq和ev_hold方案測試集上關(guān)鍵指標(biāo)對比%

        分析ev_tq 方案最終的資產(chǎn)總收益率情況,發(fā)現(xiàn)測試集TS1 中的股票,如亨通光電、貝瑞基因、分眾傳媒、水井坊、南京新百等,收益可達(dá)4~5倍,比買入持有的收益更高??刂谱畲蠡爻吩?0%~30%區(qū)間時,恒瑞醫(yī)藥、五糧液、貴州茅臺、南極電商等保存了2~3 倍的高收益率,同時回撤風(fēng)險也較小。

        實驗驗證了ISTG 在資產(chǎn)收益率和夏普比率方面結(jié)果較好。為進(jìn)一步對比時序上的總體操作效果,本文分析了ev_hold 和ev_tq 方案在測試集上的總收益率變化過程。通過計算1 479個股票的每日資產(chǎn)均值和標(biāo)準(zhǔn)差,顯示總收益率在3 年中的變化趨勢,如圖7 所示,可以看出ev_tq在各時間段都超過ev_hold,兩個方案均在2015 年5 月達(dá)到最大收益水平。而陰影表示的標(biāo)準(zhǔn)差,隨時間推移逐步擴(kuò)大,顯示了模型的穩(wěn)定性在逐步下降。

        圖7 資本總收益率對照

        由于ev_tq 方案的全部初始化持有資金處理,導(dǎo)致模型學(xué)習(xí)的動作偏向買入,圖7 顯示資金用完后,方案效果與買入持有的完全一樣。本文設(shè)計了第3種ev_tqh方案,嘗試初始化一半股票,初始時買入和賣出動作都可以獲利。同樣進(jìn)行四輪訓(xùn)練后,發(fā)現(xiàn)模型能夠?qū)W會減少頻繁操作,買賣操作也更均衡。在訓(xùn)練集上的收益率達(dá)到最大7 000%,遠(yuǎn)超全部初始化成資金的效果。在測試集上進(jìn)行驗證,ev_tqh 與買入持有ev_hold 的對照效果如圖8所示。

        圖8 初始化一半股票情況下資本總收益率對照

        再對比分析兩種不同初始化效果的圖8 和圖7,在2016年至2018年之間,ev_tqh方案的資產(chǎn)收益很穩(wěn)定,陰影表示的標(biāo)準(zhǔn)差區(qū)間更小、也更穩(wěn)定。最終的總體平均收益率為24.43%,超過全部初始化成資金的13.73%。

        在觀察到ev_tq 模型的loss 值較大后,實驗第4 種ev_mq 方案,采用單個動作操作計算回報,實現(xiàn)SGYM直接計算Q值、取消目標(biāo)網(wǎng)絡(luò)的策略,使用logcosh做損失函數(shù),減少異常樣本的影響。

        4.4 性能分析

        最終針對四種實驗測試方案:ev_hold、ev_tq、ev_tqh和ev_mq,統(tǒng)計分析總收益率趨勢capital rate、最大回撤率withdraw rate 指標(biāo),結(jié)果如圖9 所示。總收益率、最大回撤率兩個指標(biāo)都是ev_tqh效果最好,而ev_mq的效果不佳,還需要研究更好的回報計算方法。

        圖9 四種方案總收益率和回撤率對照

        為對比模型的泛化能力,使用2015 牛市和2018 熊市進(jìn)行實驗收益情況對比。發(fā)現(xiàn)ev_tq 的2015 年平均收益率49.60%遠(yuǎn)高于買入持有ev_hold的15.42%,2018年的平均收益率-30.27%,低于ev_hold的-18.07%。分析原因為:訓(xùn)練數(shù)據(jù)集TN1 為中國經(jīng)濟(jì)快速增長的周期,模型習(xí)得策略更適合諸如數(shù)據(jù)集RG2015 的趨勢增長年份,而且數(shù)據(jù)集RB2018 離訓(xùn)練數(shù)據(jù)集TN1 較遠(yuǎn),模型表現(xiàn)更不穩(wěn)定,影響測試效果。

        4.5 問題分析

        本文在實驗過程中發(fā)現(xiàn)了三個問題:

        (1)使用累計收益作為回報而不是當(dāng)前操作股票的回報,會使模型缺乏短期操作策略。

        (2)DQN模型輸出較多不能成交操作,比如不能發(fā)現(xiàn)資金不足和股票不足的狀態(tài)。操作也比較頻繁。

        (3)ev_tq 方案的 loss 值遠(yuǎn)超過模型的輸出Q值,波動大,狀態(tài)的影響遠(yuǎn)超過單個動作的回報。而ev_mq方案只有單個動作回報,又缺失了狀態(tài)價值影響。

        針對上述問題,后續(xù)可進(jìn)一步優(yōu)化模型。隨機(jī)初始化資金和股票占比,可進(jìn)一步提高操作靈活性。要提高模型的泛化能力,可在隨機(jī)初始化狀態(tài)、更長周期數(shù)據(jù)、更多不同周期特征數(shù)據(jù)集的加工等方面開展研究。

        5 結(jié)束語

        本文提出的智能股票操盤手ISTG 模型采用DQN深度強(qiáng)化學(xué)習(xí)技術(shù),選擇中國股市的12 年有效行情數(shù)據(jù),8年數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),3年數(shù)據(jù)測試模型的整體操作策略效果,1年典型周期數(shù)據(jù)進(jìn)行對比。該模型可觀察到股票市場大量產(chǎn)品的價格變化,隨機(jī)操作,發(fā)現(xiàn)規(guī)律,形成操作策略,較好地適應(yīng)這個市場環(huán)境。

        ISTG 模型學(xué)習(xí)-10 至10 手的較大范圍操作動作,考慮了不能成交操作和交易手續(xù)費的懲罰,使用CNN深度網(wǎng)絡(luò)學(xué)習(xí)20 天37 個特征的滑動窗口數(shù)據(jù),輸出最大Q值動作,比繪制圖片方式做輸入數(shù)據(jù)的效率更高。

        針對股市操作有延遲獎賞和部分狀態(tài)可觀測問題,利用智能代理本身的收益增長情況累計回報,學(xué)習(xí)較長期的有效策略。在三年較長測試數(shù)據(jù)集上收益率實現(xiàn)了超越買入持有模型。

        后續(xù)研究將逐步增加深度強(qiáng)化學(xué)習(xí)的最新技術(shù),不斷增強(qiáng)模型學(xué)習(xí)策略能力。尋找高層抽象邏輯記憶和控制住智能代理的方法。

        猜你喜歡
        收益率狀態(tài)動作
        1年期國債收益率跌至1%
        銀行家(2025年1期)2025-02-08 00:00:00
        狀態(tài)聯(lián)想
        動作描寫要具體
        生命的另一種狀態(tài)
        畫動作
        動作描寫不可少
        熱圖
        家庭百事通(2016年3期)2016-03-14 08:07:17
        堅持是成功前的狀態(tài)
        山東青年(2016年3期)2016-02-28 14:25:52
        非同一般的吃飯動作
        久久综合久中文字幕青草| 精品性高朝久久久久久久| 亚洲电影中文字幕| 亚洲熟女一区二区三区不卡| 日韩三级一区二区三区| 亚洲看片lutube在线观看| 国产啪精品视频网站丝袜| 韩国免费一级a一片在线| 国产精品网站91九色| 欧美私人情侣网站| 亚洲综合中文字幕乱码在线| 亚洲中文字幕第二十三页| 国产一区二区三区久久悠悠色av| 少妇aaa级久久久无码精品片| 亚洲大尺度在线观看| 日韩色久悠悠婷婷综合| 激情综合五月婷婷久久| 亚洲国产日韩欧美一区二区三区| 亚洲电影一区二区三区| 日本办公室三级在线看| 人妻熟妇乱又伦精品hd| 国产欧美日韩一区二区三区在线 | 国产一区二区精品在线观看 | 18禁超污无遮挡无码免费游戏 | 果冻国产一区二区三区| 偷拍视频网址一区二区| 国语对白嫖老妇胖老太| 精品 无码 国产观看| 国产精品成年人毛片毛片| 国产亚洲精品第一综合另类| 亚洲爆乳少妇无码激情| 胳膊肘上有白色的小疙瘩| 精品女同一区二区三区免费战| 4hu四虎永久在线观看| 国产美女一级做a爱视频| 自拍偷区亚洲综合激情| 中文字幕乱码高清完整版| 国模精品无码一区二区二区| 少妇勾引视频网站在线观看| 亚洲2022国产成人精品无码区| 免费观看又色又爽又黄的韩国|