亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的投資組合管理研究

        2021-03-07 12:54:00王康白迪
        現(xiàn)代計算機 2021年1期
        關鍵詞:深度動作策略

        王康,白迪

        (四川大學計算機學院,成都610065)

        0 引言

        美國經(jīng)濟學家馬科維茨(Markowitz)1952年首次提出投資組合理論,并進行了系統(tǒng)、深入和卓有成效的研究。投資組合管理是不斷將資金重新分配到許多不同的金融資產(chǎn)中的決策過程,旨在抑制風險的同時最大化收益[1]。在發(fā)達的證券市場中,馬科維茨投資組合理論早已在實踐中被證明是行之有效的,并且被廣泛應用于組合選擇和資產(chǎn)配置。但是,我國的證券理論界對于該理論是否適合于我國股票市場一直存有較大爭議。

        如何使投資組合在一定的風險范圍內獲得最大的收益,是一個非常值得關注的問題。同時,由于影響證券活動的復雜因素很多,如收益的風險和不確定性,因此很難建立合適的投資組合管理模型。深度強化學習最近因其在電子游戲[2]和棋盤游戲[3]方面的卓越成就而備受關注。但是這些是離散動作的強化學習問題,不能直接應用于連續(xù)動作的投資組合管理問題。雖然投資組合管理的動作可以離散化,但是離散化被認為是一個主要缺點,因為離散動作并不能使得強化學習代理進行充分探索,從而增加了風險。例如,一種極端的離散動作可以定義為將所有資本投資到一種資產(chǎn)中,而沒有將風險分散到其他資產(chǎn)上。所以為了盡可能地分散風險,強化學習算法的動作必須是連續(xù)的。我們利用了深度強化學習的策略梯度算法(PG)[4]和最近提出的一種雙延遲深度確定性策略梯度算法(TD3)[5]來實現(xiàn)連續(xù)動作的投資組合管理,TD3算法的性能在Silver提出的深度確定性策略梯度算法(DDPG)[6]上有進一步提升。

        本文將PG和TD3算法應用于投資組合管理中,并通過與UCRP、Follow the Winner、Follow the Loser和Buy and Hold等策略進行對比實驗。實驗選擇中國市場龍頭股票中成交量較大的5支股票和國債作為資產(chǎn)包,結果表示TD3和PG算法在測試集上年利率分別為84.71%和55.06%,明顯高于其他對照組。

        1 相關工作

        強化學習是一種通過與環(huán)境交互學習,不斷進行反復試驗逐步優(yōu)化,并利用馬爾可夫決策過程來解決問題的方法,在與環(huán)境的交互過程中通過學習策略以達到回報最大化。傳統(tǒng)強化學習用迭代貝爾曼方程求解值函數(shù)的方法,在狀態(tài)空間過大時計算代價太大,通常使用線性函數(shù)逼近器來近似表示值函數(shù)。深度強化學習是用深度神經(jīng)網(wǎng)絡作為非線性函數(shù)逼近器去近似表示值函數(shù)或策略,從而將深度學習的感知能力和強化學習的決策能力相結合的方法[7]。

        基于深度強化學習在游戲領域的巨大成功,它也受到金融界的廣泛關注。在傳統(tǒng)的投資組合管理中,投資者需要關注許多金融投資的領域知識,給大多數(shù)投資者帶來了挑戰(zhàn)。而利用深度強化學習,投資者可以除了基本交易規(guī)則外不需要關注過多的領域知識。首先是Pendharkar P C等人使用傳統(tǒng)的強化學習方法構建了一個包含兩個資產(chǎn)的個人退休投資組合管理,他們使用了離散狀態(tài)和離散動作的SARSA(λ)和Q(λ),以及離散狀態(tài)和連續(xù)動作的在線梯度下降TD(λ)算法,結果表明連續(xù)動作的強化學習代理在投資組合分配方面始終表現(xiàn)最佳[8]。后來,越來越多人將強化學習應用在投資組合管理上,包括,Zhengyao Jiang等人提出了一種無模型的強化學習框架,然后在加密貨幣市場上進行投資組合管理,實驗結果表明該框架在50天內能夠實現(xiàn)至少4倍的回報[9];Lili Tang等人提出了一種在不確定環(huán)境下基于模型的actor-critic算法,該算法可以得到穩(wěn)定的投資,收益可以穩(wěn)定增長[10];Lin Li等人使用遞歸強化學習進行直接投資組合選擇,該方法能夠勝過某些最新的投資組合選擇方法[11];Yuh-Jong Hu等人使用了GRU網(wǎng)絡和風險調整后的報酬函數(shù),再利用強化學習解決投資組合的策略優(yōu)化問題[12]。

        然而上述這些研究多數(shù)都是使用的國外的數(shù)據(jù),對中國股市的研究較少。針對國內股市,涂申昊等人針對投資組合理論中的不足,提出了一系列的模型來改進優(yōu)化傳統(tǒng)的均值方差模型,并引入了深度強化學習模型進行市場擇時研究[13];齊岳等人采用深度強化學習中的DDPG算法,通過限制單只股票的投資權重對中國股市進行投資組合,投資組合價值顯著高于平均投資策略[14];Zhipeng Liang等人實現(xiàn)了三種最先進的連續(xù)強化學習算法,結果表明,PG比DDPG和PPO效果更好,盡管后面兩者都比PG更先進,并對比了美國股市和中國股市,但在中國股市上強化學習代理看起來似乎沒有學習[15]。DDPG效果不如PG的原因可能是DDPG的不穩(wěn)定性和難收斂性,所以本文決定將更先進的TD3算法應用于投資組合管理問題中來,并在中國股市進行了深入研究。

        2 問題描述

        投資組合管理的任務是在承擔一定風險的條件下,使投資回報率實現(xiàn)最大化,投資經(jīng)理需要通審時度勢來改變各資產(chǎn)類別的權重。例如,若一個投資經(jīng)理判斷在下一時刻某一資產(chǎn)的總體狀況相比其他資產(chǎn)而言對投資者更有利的話,則需要將投資組合的權重向該資產(chǎn)轉移,這里的投資經(jīng)理在本文是我們的深度強化學習代理。我們使用股票作為風險資產(chǎn),使用國債作為無風險資產(chǎn)構成投資組合的資產(chǎn)包。

        2.1 MDP定義

        股票交易數(shù)據(jù)是一種常見的金融時間序列,金融時間序列指以時間(分鐘或天)為索引的金融數(shù)據(jù)。本文以天為交易周期,并對股票時間序列進行如下表示:

        其中,X表示交易周期為天的股票時間序列,xt表示第t個交易日的特征向量。當以股票原始交易數(shù)據(jù)作為特征向量時:

        強化學習中通常將馬爾可夫決策過程(MDP)定義為一個四元組(S,A,R,P),其中:

        (1)S為所有環(huán)境狀態(tài)的集合,在投資組合管理問題中,環(huán)境包括市場上所有可用的資產(chǎn)和所有市場參與者對它們的期望。強化學習代理不可能獲得如復雜的環(huán)境狀態(tài)的全部信息,Charles等人指出這些所有的信息都可以反映在資產(chǎn)的價格上[16],另外根據(jù)Zhipeng Liang等人在特征組合方面所做的工作[15],在本文中我們對每一個資產(chǎn)使用作為輸入的特征向量。為了簡化問題,我們使用在交易日t往前看一個窗口w的方式來表示環(huán)境狀態(tài)st?S,然后數(shù)據(jù)預處理的方式是在訓練集、驗證集、測試集中的每一個窗口內除以收盤價在該集合中的最大值,即:

        (2)A為強化學習代理可執(zhí)行動作的集合,本文所使用的資產(chǎn)包一共有6個資產(chǎn),所以在交易日t的動作為at?A,即投資組合權重,可以表示如下,

        其中,wt,0為國債的持有比例,wt,1到wt,m為每支股票的持有比例,在本文中m=5。

        (3)R為獎賞函數(shù),是強化學習代理執(zhí)行一個回合之后所獲得的累積回報,rt是在狀態(tài)st執(zhí)行動作后獲得的立即回報。在單資產(chǎn)問題中,rt有簡單收益率和對數(shù)收益率兩種,在不考慮交易成本時分別表示為:

        簡單回報率是計算立即回報的一種更為簡單的方法,但它不是一種對稱方法,所以這里我們選擇對數(shù)收益率。

        設投資組合價格波動向量為yt:

        則立即回報rt為:

        累計回報R為:

        設初始投資組合價值為p0,則在第t天結束時的投資組合價值pt為:

        (4)P為狀態(tài)轉移概率,其中p(st+1|st,at)定義為在狀態(tài)st下采取動作at轉移到狀態(tài)st+1的概率。我們假設MDP滿足p(st+1|st,at,…,s1,a1)=p(st+1|st,at)。由于市場環(huán)境復雜,我們無法知道從一個狀態(tài)轉移到另一個狀態(tài)的概率,但是無模型的強化學習方法利用采樣的方法克服了這一缺點。

        2.2 交易成本

        在真實的股票交易過程中,買和賣都不是免費的,交易費用由印花稅、過戶費、券商傭金這三部分組成。

        由于股票價格變動,投資組合權重會發(fā)轉移,假設在第t天開始時權重向量為at-1,在一天結束的時候會轉變?yōu)閍't:

        其中,⊙表示逐元素相乘。在第t天快結束時,投資經(jīng)理通過買賣會使a't變?yōu)閍t,在這個交易期間產(chǎn)生交易成本,如圖1所示。

        圖1 投資組合權重轉移

        圖1 中第t天開始時的投資組合價值為pt-1,經(jīng)過價格波動yt-1在結束時變?yōu)閜't,然后經(jīng)過買入和賣出之后在第t+1天開始時變?yōu)閜t。為了簡便起見,設本問題中的交易成本為到pt縮水的比例μt∈[0,1],所以:

        Moody等人指出[17],當買入的手續(xù)費等于賣出的手續(xù)費,且均為c時,可以估計交易成本為:

        根據(jù)(9)式可知,引入交易成本之后的立即回報rt為:

        所以引入交易成本之后在第t天結束時的投資組合價值為

        2.3 投資組合策略

        (1)平均投資策略(Uniform Constant Re-balanced Portfolios),投資組合權重在所有資產(chǎn)中平均分配,在整個交易期間不做任何更改,同時不會產(chǎn)生任何交易成本。

        (2)跟隨贏家(Follow the Winner),投資組合權重從表現(xiàn)不佳的資產(chǎn)轉移到表現(xiàn)出色的資產(chǎn)上。

        (3)跟隨輸家(Follow the Loser),它認為表現(xiàn)不佳的資產(chǎn)在隨后會恢復,所以投資組合權重從表現(xiàn)出色的資產(chǎn)轉移到表現(xiàn)不佳的資產(chǎn)上。

        (4)買入并持有策略(Buy and Hold),表現(xiàn)為在開始時以全部資金買入某一資產(chǎn),并持有不動,在結束時賣出,期間不產(chǎn)生任何交易成本。

        2.4 缺失值處理

        股票市場會在周末、節(jié)假日或臨時進行休市,另外由于突發(fā)事件某些股票也會出現(xiàn)停盤現(xiàn)象,所以有必要對取得的股票交易數(shù)據(jù)進行缺失值處理。一種簡單有效的處理方法就是和股票指數(shù)進行對齊,缺失數(shù)據(jù)時開盤價、收盤價、最高價、最低價都等于上一交易日的收盤價,成交量為0,表示今日未開盤。

        2.5 市場假設

        (1)假設1:每支股票股數(shù)可以按投資組合權重的比例來分配資金進行購買,不一定為整數(shù)。

        (2)假設2:投資組合權重改變時能夠以每支股票的收盤價作為成交價格。

        (3)假設3:強化學習代理投入的資金微不足道,為市場沒有任何影響。

        3 深度強化學習

        3.1 PG算法

        PG算法是一種直接使用逼近器來近似表示和優(yōu)化策略,最終得到最優(yōu)策略π的方法。

        假設強化學習代理一個回合的狀態(tài)、動作、回報軌跡為τ:

        則可知π在參數(shù)為θ情況時τ發(fā)生的概率為:

        因為:

        所以:

        具體細節(jié)如算法1所示:

        算法1:Policy-Gradient

        1:Randomly initialize policy parameterπ(a|s,θ)

        2:For each episode:

        3:Generate an trajectoryτ:{s0,a0,r0,…,sT,aT,rT},followingπ(?|?,θ)

        3.2 TD3算法

        TD3算法是由DDPG算法改進而來的,主要是為了解決Q值高估的問題,這個問題是由函數(shù)近似誤差所導致的[18]。

        為了更好說明TD3算法,這里我們先對DDPG算法進行簡單介紹。DDPG是根據(jù)DQN[19]的思路對確定性策略梯度(DPG)[20]進行改進,并基于AC框架提出的一種解決連續(xù)動作空間的RL算法。它一共有四個網(wǎng)絡:online actor、online critic、target actor、target critic。其中actor用于估計策略,critic用于估計Q值,使用target網(wǎng)絡是為了讓學習過程變得易于收斂。

        更新online critic時是最小化下面的損失函數(shù):

        其中,N是批量訓練的大小,Qθ為online critic網(wǎng)絡,yt為:

        其中πφ'為target actor網(wǎng)絡,Qθ'為target critic網(wǎng)絡。

        更新online actor時是利用策略梯度的方法:

        其中πφ為online actor網(wǎng)絡。

        最后使用軟更新的方式更新兩個target網(wǎng)絡:

        其中τ是更新率。

        TD3相對于DDPG有三個大的改進,用于增加算法的穩(wěn)定性和性能。第一個是利用Double Q-learning的思想,使用兩個獨立的critic網(wǎng)絡去防止過高估計,但這兩個critic網(wǎng)絡的估計值總會有高有低,仍然會存在高估的可能,所以經(jīng)過修剪后的Double Q-learning的目標更新為取兩者中的最小值,此時算法有一對on?linecritics(Qθ1,Qθ2)和一個online actorπφ:

        TD3使用的第三個技巧是目標策略的平滑正則化。確定策略梯度算法中一個擔憂的問題是:Q值出現(xiàn)過擬合現(xiàn)象。于是模仿SARSA引入正則化策略用于平滑目標策略,實際是在target actor網(wǎng)絡中添加一個小方差的隨機噪聲,這里的噪聲可以看作是一種正則化方式:

        其中?是經(jīng)過裁剪之后高斯噪聲,σ為方差,c為裁剪幅度。

        具體細節(jié)如算法2所示:

        算法2:TD3

        1:Initialize critic networksQθ1,Qθ2,and actor net?workπφ

        2:Initialize target networks

        3:Initialize replay buffer B

        4:for t=1 to T do

        5:Select action with exploration noise+?t,,?t~N(0,σ)and observe rewardrtand next statest+1

        6:Store transition tuple(st,at,rt,st+1)inB

        4 實驗

        4.1 數(shù)據(jù)集

        我們利用中國股市不同行業(yè)的龍頭企業(yè)股票來進行試驗,并與hs300指數(shù)進行對齊,并盡可能選取較長的數(shù)據(jù)供強化學習代理進行學習,所以數(shù)據(jù)集的選取是從2005年4月8日到2019年12月6日。首先去掉歷史數(shù)據(jù)不夠長的龍頭股票,然后根據(jù)2018年12月6日至2019年12月6日最近一年內的成交量總和選取靠前的5支股票,選取出的股票代碼如表1所示。成交量越大說明該股票的市場流動性越好,正好滿足假設3。數(shù)據(jù)集共3568個交易日,將其按8:1:1進行劃分,選取2005年4月8日至2017年1月16日作為訓練集,選取2017年1月17日至2018年6月28日作為驗證集,選取2018年6月29日至2019年12月6日作為測試集。

        表1 股票代碼

        4.2 實驗結果

        (1)學習率

        學習率在神經(jīng)網(wǎng)絡的訓練過程中起著至關重要的作用。學習率過大時,在訓練初期會加速訓練過程,使得模型更加接近局部或者全局最優(yōu)解,但是在訓練后期可能會有較大波動,出現(xiàn)模型損失函數(shù)圍繞最優(yōu)解徘徊而難以達到最優(yōu)解的情況;學習率過小時,會導致神經(jīng)網(wǎng)絡的訓練非常緩慢,以至于模型在短時間內難以達到最優(yōu)解。

        為了確保我們的神經(jīng)網(wǎng)絡以最優(yōu)的方式進行訓練,在實驗過程中我們嘗試了不同的學習率,學習率設置如表2所示。

        表2 不同算法學習率對比

        PG和TD3算法在100回合的Loss變化情況如圖2至圖5所示。結果顯示,學習率對兩種算法都會產(chǎn)生顯著的影響,較大的學習率會導致它們難以找到最優(yōu)解,其中TD3算法更加敏感,學習率選擇不當可能會導致巨大的波動。

        圖2 PG算法中策略網(wǎng)絡的損失

        圖3 TD3算法中Actor網(wǎng)絡的損失

        圖4 TD3算法中Critic1網(wǎng)絡的損失

        圖5 TD3算法中Critic2網(wǎng)絡的損失

        (2)評價指標

        投資組合策略的性能可以用多種評價指標來度量,最直觀的便是用投資組合價值的年收益率(Annual Percentage Rate)來衡量:

        APR的主要缺點是它沒有考慮風險因素,夏普比率(Sharp Ratio)[21]是引入經(jīng)過風險調節(jié)后的收益評價指標:其中,rf是無風險利率,這里用國債利率代替。

        然而風險衡量的目的是避免巨大的下行風險,因此,懲罰過高的正回報而忽略過高的下行風險的業(yè)績指標是有缺陷的,索提諾比率(Sortino Ratio)[22]提供了一種更好的風險衡量方法:

        另外一種為了突出下行偏差的衡量方法是最大回撤(Maximum Drawdown)[23],它是投資組合價值從峰頂?shù)降凸鹊膿p失的最大值:

        各種策略的性能對比如表3所示,其中PG和TD3與基線的APR對比如圖6、7所示。從表3中可以看出,本文采用的深度強化學習方法所獲得的APR遠高于其他基線方法,其中TD3算法獲得84.71%的年利率和PG算法獲得的55.06%年利率顯著高于基線方法;在其他三個評價指標上,除了MDD以外,深度強化學習的方法也都優(yōu)于其他方法,且在所有的評價指標上TD3也都優(yōu)于PG方法。

        表3 不同策略的性能對比

        圖7 TD3算法與基線策略的APR對比

        (3)投資組合權重

        投資組合管理的目的是分散風險、提高收益,一個好的策略的投資比例應該分散在每一個資產(chǎn)上,而不是將全部的資金都投入某一個資產(chǎn)上。PG和TD3算法在測試集的投資組合權重曲線如圖8、9所示,可以看出我們的算法仍不是特別理想,投資組合權重集中在3個資產(chǎn)上,雖分散了風險,但未完全分散。

        圖8 PG算法投資組合權重

        圖9 TD3算法投資組合權重

        5 結語

        本文采用了深度強化學習的方法來解決投資組合管理問題,深度強化學習近年來在游戲領域取得的巨大成功也使得深度強化學習蓬勃發(fā)展,出現(xiàn)了越來越多的更加有效的新方法。本文在前人基礎上,選擇了PG和TD3算法對投資組合管理問題進行研究,并取得了顯著的成效。

        這篇文章通過引入交易成本和對超參數(shù)進行調整,雖然取得了不錯的效果,但是也存在許多不足有待改進。

        第一,從TD3不同學習率的訓練過程可以看出,高級的深度強化學習算法的訓練過程不是特別穩(wěn)定,原因與它本身采用target網(wǎng)絡的輸出作為訓練的標簽有關,同時也與金融市場復雜的環(huán)境有關;

        第二,本文采用了前饋神經(jīng)網(wǎng)絡,后面我們將嘗試更加復雜的網(wǎng)絡結構,諸如LSTM、CNN等;

        第三,本文中只利用了簡單的對數(shù)收益率作為回報,在深度強化學習中,一個好的獎勵函數(shù)對策略的學習有很大影響,在未來我們會考慮在獎勵函數(shù)中加入風險因素。

        另外在本文的實驗過程中,我們發(fā)現(xiàn)數(shù)據(jù)的預處理方式對策略的影響特別大,我們嘗試過在窗口內分別除以各個特征第一個值、最后一個值、最大值等方式來進行歸一化,但這幾種歸一化方式都使得我們的投資組合權重容易收斂到買入并持有策略收益率最大的那支股票。本文所使用的在訓練集、驗證集、測試集分別除以該集合上的最大收盤價的方式來壓縮數(shù)據(jù)有較好的效果,我們猜測可能是前面幾種歸一化方式改變了原來數(shù)據(jù)分布,降低了差異,而這些差異可以很好表示金融時間序列的市場波動,不應該被忽略。

        猜你喜歡
        深度動作策略
        深度理解一元一次方程
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        深度觀察
        深度觀察
        深度觀察
        動作描寫要具體
        高中數(shù)學復習的具體策略
        畫動作
        動作描寫不可少
        欧美极品少妇无套实战| 国产一品二品三区在线观看| 国产精品国产高清国产专区| 亚洲欧美日韩国产精品一区二区| 亚洲一区中文字幕在线电影网 | 日韩高清av一区二区| 国产女主播一区二区久久| 日韩精品久久无码中文字幕| 人禽无码视频在线观看| 国产毛片A啊久久久久| 蜜桃精品视频一二三区| 国产精品毛片无遮挡| 亚洲一区二区观看播放| 国产亚洲美女精品久久久2020| 国产精品亚洲综合久久| 在教室伦流澡到高潮hgl动漫| 亚洲人成人77777网站| 久久精品无码一区二区三区不卡| 国产一区二区中文字幕在线观看| 亚洲av无码乱码国产精品久久| 宝贝把腿张开我要添你下边动态图| а的天堂网最新版在线| 日韩中文字幕不卡在线| 热久久美女精品天天吊色| 免费的毛片视频| 冲田杏梨av天堂一区二区三区| 日本精品视频免费观看| 国产av无码专区亚洲av极速版| 国产精品青草久久久久婷婷| 久久精品伊人久久精品| 一本大道熟女人妻中文字幕在线 | 日韩一区二区不卡av| 亚洲av资源网站手机在线| 最近中文字幕国语免费| 国产精品女同一区二区| 中文字幕精品人妻av在线| 国产精品久久久三级18| 内谢少妇xxxxx8老少交 | 国产精品对白交换视频| 日本中文字幕av网址| 亚洲男人天堂一区二区|