亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習的金融交易系統(tǒng)研究與發(fā)展?

        2019-04-18 05:07:30梁天新楊小平韓鎮(zhèn)遠
        軟件學報 2019年3期
        關鍵詞:金融交易公式交易

        梁天新,楊小平,王 良,韓鎮(zhèn)遠

        (中國人民大學 信息學院,北京 100872)

        自從Fama提出有效性市場假說(efficient markets hypothesis,簡稱EMH)[1,2]以來,EMH就被奉為經典金融理論,并走過了接近50年的歷程.到20世紀80年代,許多研究者發(fā)現(xiàn)并記錄了幾個與有效市場假說相互背離的金融現(xiàn)象,由此形成了關注人類交易心理和行為的行為金融學.在經過長期的檢驗之后,研究者又發(fā)現(xiàn)市場也不像行為金融學解釋得那樣持續(xù)無效,相反,很多金融現(xiàn)象在相關論文公開后出現(xiàn)了減少或消失的跡象.這兩大學派的爭論促進了金融學的發(fā)展,也說明金融市場的復雜性可以包容不同學派的存在.金融學家Andrew Lo結合進化論和有限理性的概念提出了適應性市場假說(adaptive markets hypothesis,簡稱 AMH)[3,4],主要觀點包含:(1) 市場中的個體基于自身利益做出決策;(2) 市場中的個體會犯錯;(3) 市場個體會學習和適應;(4) 競爭導致個體適應和更新;(5) 自然選擇塑造市場生態(tài),進化決定市場動態(tài).

        根據Lo的理論,金融市場可以被看成一個進化的環(huán)境[4].在這個環(huán)境中,包含著不同的參與者,如對沖基金、做市商、退休基金和零售投資商等.這些參與者的理性表現(xiàn)并不是即時的,他們對金融產品價格的影響作用也不全是直接發(fā)生的,這就促進了金融市場上積極的流動性,流動性則意味著存在套利的機會,這些機會隨時會被參與者吃掉,同時,新的機會又會再次出現(xiàn).這種在進化壓力下的流動性同時改變著交易環(huán)境和商業(yè)環(huán)境.這就意味著,一個有效的金融交易系統(tǒng)要能夠隨時根據交易市場的變化進行自我調整,在感知市場變化的同時,采取相應的行動,如做多(long)、做空(short)、空倉(觀望).市場會在行動的基礎上給予一定的反饋,如收益、虧損.金融交易系統(tǒng)(financial trading system,簡稱FTS)的有效與否不在于執(zhí)行單次交易的回報,而在于一段時間內交易的總回報,比如年化回報、季度回報等,總回報往往具有延遲性.基于以上原因,Lo[3]提出了如下理論:第一,回報和收益之間關系不太可能一直穩(wěn)定;第二,相對于經典的 EMH,AMH認為套利機會一直存在;第三,投資策略在特定環(huán)境表現(xiàn)良好,而在其他環(huán)境表現(xiàn)較差,既有繁榮也有衰敗.針對以上問題,強化學習可以提供很好的解決方案.強化學習技術的基本原理是[5]:如果智能體(agent)的某個動作導致環(huán)境正向獎勵,則智能體隨后產生這個動作的趨勢便會加強;反之,智能體產生這個動作的趨勢就會減弱.強化學習的目標是學習一個行為策略,使智能體選擇的動作能夠獲得環(huán)境最大的獎賞.在一個標準的強化學習框架結構中,它主要有 4個要素,即策略(policy)、獎懲反饋(reward)、值函數(value function)和環(huán)境模型(model of environment).在這4個要素中,首先要解決的就是實時環(huán)境的數學模型.強化學習可以有效提升金融交易模型的適應性:首先,強化學習擅長解決具有延遲回報的非線性問題;其次,強化學習可以定義靈活的目標函數,在訓練中促進模型向最優(yōu)的目標函數逼近,實踐中可以將平衡回報和收益的技術指標作為目標函數;最后,隨著 EMH有效性的提高,固定參數的交易模型難以保證統(tǒng)計套利獲得最大利潤,而強化學習具有傳統(tǒng)探索和利用(exploration and exploitation)機制[6],即通過探索嘗試新的參數,利用已有的信息獲得最佳回報.

        本文綜述了強化學習交易系統(tǒng)的各類算法、交易策略、系統(tǒng)構成等方面.第1節(jié)介紹強化學習在金融交易中應用的關鍵技術.第2節(jié)介紹自適應交易系統(tǒng)的應用與發(fā)展.第3節(jié)主要介紹策略輪動模型.第4節(jié)重點講解基于值函數的強化學習交易系統(tǒng)和多智能體的發(fā)展.第 5節(jié)著重闡述基于策略梯度的交易系統(tǒng).第 6節(jié)重點介紹深強化學習的應用歷史和現(xiàn)狀,隨后分析了強化學習金融交易系統(tǒng)的研究趨勢和應用前景.最后做出總結.

        1 金融交易領域的強化學習

        1.1 RRL在金融交易系統(tǒng)中的應用

        Moody等人將循環(huán)強化學習算法模型(recurrent reinforcement learning,簡稱 RRL)應用在單一股票和資產投資組合等領域[7],測試了日內外匯市場(USD/GBP)、標準普爾500(S&P 500 Index)、美國短期國債等金融資產.以收益率為輸入,微分夏普比率(Sharp ratio)為目標函數,在交易成本為5‰的情況下進行實驗.RRL策略獲得的回報超過Q學習(Q-learning)策略和買入持有策略,并在交易次數上明顯小于Q學習策略[7].

        1999年,Moody和 Wu詳盡地解釋了 RRL的理論依據和組織構成,此外,還比較了信息比率(information ratio)與斯特林比率(Sterling ratio)作為目標函數時的收益情況.在標準普爾500指數和部分美股測試中,采用斯特林比率作為目標函數的強化學習模型收益最高[8].2001年,Moody等人[9]在RRL的基礎上加入空倉觀望動作Ft∈{-1,0,1},Ft=0表示某段時間內暫停交易,降低風險;此外,還使用下降偏差比率(downside deviation ratio)代替夏普比率作為目標函數,測試市場下行時模型的收益狀況.這是將RRL首次應用在英鎊兌美元的外匯高頻交易中.RRL與Q學習的比較結果看,RRL在多方面優(yōu)于Q學習策略,也證明了RRL更適合用在高頻交易中.

        2003年,Gold[10]提出在RRL模型中用多層神經網絡替代單層神經網絡.Gold在25個不同的高頻外匯交易市場上進行了測試,測試結果表明:單層RRL和多層RRL都能夠實現(xiàn)盈利,且多層RRL表現(xiàn)差于單層.無獨有偶,2011年,Gorse也做過類似的實驗,嘗試使用多層神經網絡代替單層網絡.實驗結果表明,多層RRL的性能相比單層沒有明顯提升[11].從文獻[10,11]的實驗中可以看出:當時這些學者采用的僅僅是多層的神經網絡,并沒有采用Hinton等人提出的深度神經網絡(DNN)[12],缺少預訓練、正則化、Dropout等深度學習的訓練方法,因此,Gorse的實驗出現(xiàn)過擬合現(xiàn)象不足為奇.

        Gold[10]的實驗結果表明了RRL適用于高頻金融交易,如外匯交易、指數交易等.同時,有少數文獻提到低頻交易中的 RRL應用,例如Moody[8]和 Gorse[11]等人一直致力于在股票指數的日均時間序列上測試收益效果.本文需要強調:真正的股票交易市場中,有些股票無法像股票指數一樣做多或做空.股票指數與個股不同,指數可能存在價格自相關性,受市場基本面影響更多.2013年,Zhang等人發(fā)現(xiàn),RRL在個股日收益率的數據上收益并不理想[13].他們引入了遺傳算法(genetic algorithm,簡稱GA)來改進RRL模型在單只股票上的表現(xiàn),通過在模型中加入股票的傳統(tǒng)指標,提高了RRL在個股低頻交易上的效果,這種方法稱為RRL-GA.Zhang等人引入8類股票指標,如陽性波動指數(IPVI)、陰性波動指數(INVI)、相對強弱指數(IRSI)、條件波動率(CVOL)等,將其加入到RRL的輸入序列中.在訓練中,利用GA找尋8類指標的布爾數字組合,實現(xiàn)收益的最大化.實驗證明:引入某些指標后,RRL-GA的收益高于RRL.2016年,Zhang等人不滿足于此成果,精選了10類單只股票的上述指標作為輸入部分加入到 RRL-GA之中,為了減少 RRL輸入端的噪聲,最終僅加入了可能會提高表現(xiàn)的指標.最后,在 180支美國股票數據的實驗中,Zhang證實了RRL-GA比RRL有更高的收益[14].因此可以得出這樣的結論:RRL模型在交易單只股票時,交易系統(tǒng)的設計者需要參考來自基本面的分析數據和各類量化交易指標.這樣做的好處是利用傳統(tǒng)交易手法上積累的經驗,規(guī)避風險,提升利潤.

        在交易領域中,最終利潤或者基于風險的收益,代表交易模型的回報.通過專家標簽和分析一定長度金融時間序列做出交易決策,這種監(jiān)督方式交易系統(tǒng)存在以下弊端:首先,金融交易獲得的回報不是即時的,而是交易終止時的總回報,這導致每一步決策的回報不明確,這正是強化學習中的臨時信用分配和結構信用難題,即“系統(tǒng)獲得的獎賞如何分配到每個操作上[5]”;其次,標簽數據是基于已知的金融時間序列,忽略了不斷變化的市場風格對輸入變量有效性的影響,導致交易系統(tǒng)不能及時調整策略;最后,隨著交易價格的變化,交易成本也在不斷變化,無法實時調整交易成本的模型,即便是預測準確,依然會由于交易成本失控導致交易虧損.實踐證明,監(jiān)督學習方式在金融自動交易系統(tǒng)中應用效果并不理想.

        相比監(jiān)督式的交易系統(tǒng),Moody等人提出的RRL算法是一種在線模式,可以找到隨機動態(tài)規(guī)劃問題的近似解[7].RRL不需要標記信息,通過行動得到的環(huán)境反饋來調整內部參數,增加未來回報的期望值.基于 RRL建立的交易系統(tǒng)通過循環(huán)算法解決優(yōu)化時間信用分配問題和結構信用分配問題[5],RRL獲得的交易利潤是路徑依賴決策的結果,既包含基于時間的反向傳播算法(back propagation through time,簡稱BPTT),也包含在線自適應算法(adaptive algorithm).RRL既可以應用在單一金融資產交易領域,也可以應用到投資組合管理領域.它在金融領域的應用如圖1所示.

        1.2 RRL模型

        Moody等人[7]提出的RRL模型把金融時間序列作為輸入,以最大化微分夏普比率為目標函數,設計兩類金融領域常見的操作:做空、做多.RRL將動作定義為Ft∈{-1,1},代表著在t時刻的操作(空/多),RRL單層神經網絡的預測模型如公式(1)所示:

        向量和變量v是神經網絡權重和閾值;rt代表收益率,有如下兩種表示方法:

        研究中常采用對數收益率,對數收益率比價格差值更容易體現(xiàn)價格的變動,也更容易計算夏普比率、最大回撤率(max drawdown)等風險度量指標.當價格變化幅度小時,公式(2)和公式(3)中的rt近似相等,但使用對數處理數據更平滑,克服數據本身的異方差,具有對稱性.選用tanh作為激活函數也正好符合Ft的值選擇范圍. RRL的基本結構如圖2所示.

        Fig.2 RRL model圖2 RRL模型

        RRL算法以最大化利潤為目標,但通常不使用最高累計利潤作為模型表現(xiàn)衡量指標,最高累計利潤pT見公式(4):

        其中,μ代表交易額度;δ代表交易成本在每次交易中的比率,包含稅率和券商收取費用;Rt代表單筆交易利潤.最大化的累計收益pT并不適合作為目標函數,因為pT不能體現(xiàn)交易中存在的回撤.在實際金融交易市場中,投資者的本金數額有限,當回撤非常大時,交易的頭寸會被損失所吞沒,無法繼續(xù)投資.而夏普比率作為衡量風險和收益的指標更能表現(xiàn)投資是否穩(wěn)健,較高的夏普比率代表著較高的收益和較低的風險.夏普比率S見公式(6):

        S作為目標函數時,模型的時間復雜度為O(T2).為降低時間復雜度,通常用微分夏普比率(differential Sharpe ratio)替代它.微分夏普比可以看成是一個滑動平均式夏普比率,其推導見公式(7)~公式(10).

        At和Bt是代表收益率Rt的一階矩和二階矩,△At和△Bt代表參數的增量.微分夏普比率將移動平均值擴展到自適應參數η的一階展開,并使用η的一階導數作為衡量夏普比率的瞬時性能指標.微分夏普比率見公式(10).

        RRL是一種在策略(on policy)學習方式,微分夏普比率有利于在訓練的過程中直接優(yōu)化RRL參數,加速訓練的收斂過程,為強化學習提供了一個便捷的評估方法.

        2003年,Gold[10]提出了使用多層神經網絡替代公式(1)介紹的單層神經網絡,即增加一個隱含層,如公式(11)和公式(12):

        1.3 RRL優(yōu)化方式

        RRL的目標是通過梯度上升的方式在一個循環(huán)神經網絡中優(yōu)化權重wt,見公式(13).

        wt代表t時刻循環(huán)網絡中的權重,Ut代表交易體系的某種指標或目標函數,ρ代表學習率.由公式(1)可知:RRL是一個路徑依賴算法,權重更新需要依靠目標時間的梯度傳導.循環(huán)模型權重更新的梯度值依賴于前段時間整個序列的總導數,這類似于BPTT決策序列中的時間依賴性通過參數梯度的遞歸更新方程來解釋.△w在時刻t的值見公式(14).

        不同于監(jiān)督學習在獲得最終值時才回傳誤差和梯度,RRL模型在前向傳播時就不斷調整參數,使得目標函數值最大化.如果更新參數僅考慮最近的操作所產生的回報,則公式(14)可簡化為公式(15):

        RRL以最大化微分夏普比率為目標函數時,公式(15)中的參數意義如下:通過公式(4)和公式(5)可知交易動作和回報關系,回報函數對交易動作的導數表示為公式(16)和公式(17):

        由公式(18)可知,RRL的權重wt可以通過梯度求導的方式進行更新.

        RRL是強化學習在交易領域的基礎算法,它的價格自適應性和目標函數多樣性得到研究者的青睞,許多FTS都以RRL為核心來搭建,下面的章節(jié)中有詳細的論述.

        2 基于RRL自適應交易系統(tǒng)

        2.1 金融交易自適應問題

        高收益的金融量化模型系統(tǒng)必須具有良好的自適應性,這樣才能應對市場頻繁的變化.自適應動態(tài)規(guī)劃(adaptive dynamic programing,簡稱 ADP)由 Werbos于 20世紀70年代提出[15],在Bertsekas[16],Lewis[17],Liu[18],Zhang[19]等學者的努力下日臻成熟.ADP是一種針對連續(xù)狀態(tài)空間的最優(yōu)控制方法.

        基于金融資產時間序列交易是一個復雜問題,它的狀態(tài)空間和動作空間往往是連續(xù)的,規(guī)模較大.由于維度爆炸的緣故,不能采用傳統(tǒng)的查表法來得到性能函數,需要使用函數逼近器,例如線性函數逼近器和神經網絡逼近器等來逼近性能函數.

        市場有效性和行為金融學在市場中交替發(fā)揮作用,這對交易系統(tǒng)有如下影響:第一,當市場有效性逐漸提高,某些策略的獲利機會逐漸消失,傳統(tǒng)的靜態(tài)常數難以保證獲利最大,需要對交易參數進行優(yōu)化,而且還要動態(tài)、自適應地調整優(yōu)化值;第二,常規(guī)交易模型的參數往往采用靜態(tài)常數,由于金融資產時間序列有明顯的異方差性,限制了模型使用.對于傳統(tǒng)模型的缺陷,一些參數調整方案已經取得了一定效果,但是始終受到新的條件約束.

        2.2 RRL自適應交易系統(tǒng)

        2003年,Atiya等人提出了基于Q學習的自適應模擬退火算法,該算法在測試表現(xiàn)中強于傳統(tǒng)的Q學習算法,證明了良好的自適應性是交易算法的必備特性[20].2006年,Jangmin等人提出了基于RRL的自適應投資組合策略,它能夠有效利用來自特定股票和基金的時間序列信息進行訓練,并在投資組合中合理配置高風險資產和無風險資產的份額.Jangmin將這種資產配置策略應用于韓國股市,它的表現(xiàn)比一些經典的資產配置策略更好[21].

        基于RRL的、完善的交易系統(tǒng)出現(xiàn)在2006年,Dempster等人創(chuàng)建了三層結構的自動金融交易系統(tǒng),其模型如圖3所示.

        Fig.3 Automated trading system architecture圖3 自動交易系統(tǒng)架構

        結構的3個層分別是RRL機器學習層(layer 1)、風險管理層(layer 2)和動態(tài)優(yōu)化層(layer 3)[22].風險管理層的作用是在最終決定交易之前使機器學習層的輸出決策受到一定的風險限制,z代表終止交易的被激活值,Risk Aversion代表控制風險的系統(tǒng)外參數.動態(tài)優(yōu)化層的作用是通過模型的自適應性為模型尋找最佳參數,其中,x是止損度,y是交易閾值.RRL機器學習層的參數δ代表交易成本,η代表自適應參數,ρ代表學習率.在兩年期歐元兌美元分鐘級數據測試中,該系統(tǒng)利潤明顯高于單獨的RRL模型.同時,Dempster等人還引入14個常用技術指標作為系統(tǒng)的一部分輸入.然而除了少數指標外,大部分技術指標并沒有明顯增加交易利潤.

        2007年,Bertoluzzo等人在Moody的三動作模型Ft∈{-1,0,1}的基礎上[9],加入風險管理策略來對RRL模型進行止損[23].在金融交易中,交易員通過觀察不同資產的回報分布不對稱性來判斷投資的下行風險,其中一個重要的指標是加權對稱性(weighted-symmetric).該模型以加權對稱指數(weighted direction symmetry index)作為目標函數,而不是微分夏普比率.這樣做的目的在于:當市場出現(xiàn)下行風險時,可以更好地控制決策.該系統(tǒng)在 9個世界主要股市指數上測試的結果令人鼓舞,至少有8個指數有盈利表現(xiàn).

        2011年,Gorse等人提出一種控制交易成本的自適應金融交易系統(tǒng)[11],該系統(tǒng)將公式(1)中的固定閾值vj替換為如公式(19)中的帶有權重的可變閾值wM+2:

        從公式(1)和 Moody[8]中可知:閾值與交易成本息息相關,可以通過不斷調整閾值應對交易成本的變化.但是,這并不意味著交易成本上升就可以通過提升閾值來應對.若閾值設置不合理,同樣會造成交易損失.Gorse設置這種自適應方式來代替手動調整閾值,在訓練中實現(xiàn)閾值的自動調整,以達到收益最大.該模型也嘗試使用多層神經網絡代替單層網絡,然而實驗中發(fā)現(xiàn),多層的RRL并未提升模型性能.同樣是在2011年,Tan等人提出一種非套利型的高頻交易系統(tǒng)[24],在RRL中加入自適應網絡模糊推理構成一種混合模型(adaptive network fuzzy inference system,簡稱ANFIS).ANFIS的優(yōu)勢在于可以通過模糊推理的方式進行模式轉換,使RRL系統(tǒng)適應不同的股票市場周期.例如,股票上行趨勢會持續(xù)幾天或幾周,股市的大波動率后往往有大波動伴隨,小波動率后往往有小波動伴隨,這種周期規(guī)律已被市場經驗所驗證,敏銳地適應這樣的周期會產生可觀的利潤.ANFIS根據這種趨勢規(guī)律實現(xiàn)了股市拐點的預測.使用5只美國股票的13年時間序列數據測試ANFIS,均取得了穩(wěn)定的利潤.Almahdi等人在2017提出了自適應能力的RRL交易系統(tǒng)[25],他們研究發(fā)現(xiàn):在資產投資組合交易中,使用動態(tài)止損(stop loss)策略同時配合不同的目標函數(objective function)使用,得到的收益遠高于單一目標函數的策略.例如:使用斯特林比率作為目標函數的 RRL模型可以抵消市場長期下行風險,而市場平穩(wěn)上行時,使用夏普比率的模型收益更高.卡瑪比率(Calmar ratio)對損失的大小很敏感,當交易成本逐漸上升,并且期望最大回撤(expected maximum drawdown,簡稱EMDD)很大時,使用卡瑪比率的投資組合收益始終優(yōu)于基于夏普比率和斯特林比率.交易系統(tǒng)整體流程如圖4所示.

        Fig.4 RRL based trading decision system圖4 基于RRL交易決策系統(tǒng)

        Almahdi等人使用上述3種不同的目標函數開發(fā)出新型RRL自適應交易系統(tǒng).文獻[25]從雅虎財經收集金融資產數據,選擇5個常見的ETF的投資組合進行實驗.此系統(tǒng)中,交易者先選擇一個最有利的目標函數, RRL系統(tǒng)將使用雅虎財經歷史數據來學習和訓練參數;然后,允許用戶選擇兩種資產組合方式:加權投資組合(EW-portfolio)和RRL投資組合(EW-portfolio).RRL系統(tǒng)將輸出對每個資產的多/空決策(long/short decision)以及投資組合方式.系統(tǒng)還會詢問投資者是否愿意使用動態(tài)止損退出策略,這將停止交易并重新訓練系統(tǒng).如果不想止損,那么輸出將被存儲(trading records)以供系統(tǒng)繼續(xù)從給定的產出中學習.假定系統(tǒng)訓練時的預定交易成本為每股0.1%,在訓練階段沒有止損.在真實的交易系統(tǒng)中,投資者可以根據自己的交易成本估算他們過去的交易記錄.由于交易成本在不同時期會發(fā)生變化,系統(tǒng)會提醒投資者改變目標函數重新訓練參數,以適應這些變化.當交易成本超過每股 0.15%時,系統(tǒng)會建議用戶設定卡瑪比率作為目標函數,這將有助于系統(tǒng)承受交易成本上升的影響.此外,如果投資者擔心出現(xiàn)大幅回撤,那么改用卡瑪比率訓練系統(tǒng)以應對預期最大回撤將是非常明智的.

        綜上,通過研究我們發(fā)現(xiàn),成功的自適應交易系統(tǒng)有如下3個特征.

        (1) 正確選擇用于交易的自適應算法和模型目標函數;

        (2) 使用明確的規(guī)則定義進場和出場時機;

        (3) 良好的風險控制方法,根據市場情況及時轉換交易策略.

        3 具有策略輪動的RRL金融交易系統(tǒng)

        通過第 2節(jié)可得知交易策略轉換關系到系統(tǒng)能否成功.根據適應性市場假說理論,單一策略不可能長期有效,總會有一段時間策略A效果特別好,而過一段時間策略B效果更好.交易系統(tǒng)不僅要在適當的時候持有合適的股票、基金、債券,還要重倉合適的策略模型.業(yè)界將一段金融資產時間序列的不同時期定義為不同的狀態(tài),擇優(yōu)選擇策略,這就是策略輪動,本文稱為體制轉換模型.

        最簡單的情況下,金融資產時間序列狀態(tài)的轉換可以用一階馬爾可夫鏈描述,稱為馬爾可夫體制轉換模型,體制轉換模型屬于變參數模型.Hamilton將體制轉換模型與自回歸模型(GRACH)相互結合,用 GARCH模型計算動態(tài)價差標準差[26].GARCH模型的參數變化是一個離散狀態(tài)馬爾可夫過程,可以描述變量的趨勢轉變.Hamilton,Susmel[27]和Gray[28]將體制轉換模型與ARCH模型結合,描述了波動率在不同大小的波動狀態(tài)之間的轉換.體制轉換模型不是一個獨立的模型,需要結合其他模型一起來判定趨勢.

        RRL交易系統(tǒng)不能完全應對金融交易市場的復雜情況,Gold的實驗已經證明:在金融數據包含噪音的環(huán)境下,多層神經網絡非常容易出現(xiàn)過擬合現(xiàn)象,神經網絡的黑盒式方法也難以總結關系之間的聯(lián)系[10].因此,Maringer等人提出的體制轉換模型(regime-switching recurrent reinforcement learning,簡稱RS-RRL)更適合于模擬非線性的變化情況[29].該模型讓RRL模型在不同的波動率下選擇不同的權重,以應對市場風格連續(xù)發(fā)生變化的情況.2010年,Maringer和Ramtohul首次提出閾值自回歸模型(threshold RRL,簡稱TRRL)[30],此模型設置一個轉換閾值控制兩個模式的轉換,如圖5所示.

        圖5中,變量描述如公式(20)~公式(22)所示:

        其中,yt,1和yt,2代表兩個不同的RRL網絡,qt代表指示變量,c代表閾值,Gt代表權重.TRRL可以被看成兩個RRL網絡,每個網絡對應一種交易風格,系統(tǒng)總的輸出Ft是單個網絡yt,1和yt,2的加權和,權重受到qt的直接作用.

        在金融市場中,波動率是描述金融市場風格的重要標志之一.初始階段,yt,1和yt,2有同樣的權重;訓練期間,該模型進行選擇性的學習,每個網絡有一組獨特的權重,閾值是一組門控制器,在不同的時間序列階段步驟選擇不同的網絡.實際上,指示變量qt的作用是讓模型能夠在高波動率和低波動率之間轉換,適應不同的市場風格,公式(20)~公式(22)共同組成 TRRL.在使用 4只歐洲股票的測試上,TRRL均有超出 RRL的表現(xiàn)[30].2012年,Maringer等人對TRRL模型進行改進,新模型稱為平滑轉換自回歸模型(STRRL)[29].TRRL模型的閾值是二元數,只能在[0,1]間進行轉換而不能平滑過渡,STRRL的模型設計中則包含平滑過渡的方式,見公式(23).

        STRRL的網絡結構如圖6所示.TRRL的每個網絡學習一個獨特的映射對應一個特定的區(qū)域,在指標變量qt轉換的過程中,TRRL作為一個開關在每個時間步選擇合適的網絡.STRRL則允許兩個模型有一定量的重疊,重疊的程度由γ來規(guī)定.STRRL的Gt可以取[0,1]之間的任何值,參數γ決定了轉換的平滑性.當γ趨近于無窮大時,STRRL趨近于RRL.從圖6中可以看出,STRRL相比TRRL在體制轉換上有更好的平滑性,更容易及時應對金融市場風格變化.

        Fig.5 TRRL model圖5 TRRL模型

        Fig.6 STRRL model圖6 STRRL模型

        為了驗證 STRRL的有效性,文獻[29]在人工生成數據和 12只美股數據上進行了測試,結果顯示,在人工生成數據上,微分夏普比率沒有太大的區(qū)別;但是在12只美股的測試上,STRRL比TRRL和RRL獲得更高的微分夏普比率.可見STRRL能夠適應真正包含趨勢信息的金融資產時間序列,而不是人工生成的隨機序列.

        Maringer等人[31]探討過指示變量qt對于市場風格變化的映射關系應該由哪些參數確定,不僅GARTH模型生成的波動率可以體現(xiàn)市場風格的變化,成交量(trading volume)、日內信息到達率(daily rate of information arrival)都可以作為qt的衡量指標.當市場條件發(fā)生劇烈變化時,單獨的衡量指標不足以描述市場變化,多指標更有把握.交易量與價格變化絕對值之間存在正相關性,交易減少通常伴隨著價格下跌,交易量增大通常意味著價格上漲.例如,新的股票公告或者新聞稿也會直接導致價格的波動.因此,日內信息到達率通常也影響著市場風格的變化.通過在15只美股數據上的測試,基于成交量和波動率的RS-RRL模型比基礎的RS- RRL模型有更好的表現(xiàn),這足以證明引入更多的指標信號會對交易有積極的作用.

        本文將Maringer的模型稱為RS-RRL1.0.在此系統(tǒng)中,無論是TRRL還是STRRL,如果沒有人工干預Gt中的參數,系統(tǒng)無法實現(xiàn)自動模式轉換,舊的轉換模型未必適用于當前的金融交易環(huán)境.基于可能性推理的轉換函數在交易方面會弱化RRL的自適應性.以上的缺點讓Maringer和Zhang在2014年提出RS- RRL2.0,用以提高RS-RRL交易系統(tǒng)的表現(xiàn)[32].新模型用一個sigmoid函數的求和公式代替權重Gt、指示變量qt、閾值c,見公式(24):

        Fig.7 RS-RRL2.0 model圖7 RS-RRL2.0模型

        4 值函數與Q學習的金融交易系統(tǒng)

        馬爾可夫決策過程(Markov decision process,簡稱MDP)是強化學習建模的經典算法,其主要思想是在MDP上進行動態(tài)規(guī)劃,尋找最大化累計回報.假設一個策略能夠在一個狀態(tài)上就預測到未來的累計回報,那么意味著存在動態(tài)規(guī)劃的最優(yōu)解,這種求解方法被稱為值函數(value function)方法.

        最近20年,基于值函數方法,如時間差分學習(TD-learning)和Q學習,一直是該領域的主要研究課題[33,34].Q學習是最早最重要的在線強化學習算法,由 Watkins在其博士論文中提出[35].該算法的主要思想為:將在線觀測到的數據帶入到更新公式中對Q函數進行迭代學習,得到精確解.

        Q學習是一種離策略(off policy)的學習算法,使用合理的策略來產生動作,根據該動作與環(huán)境交互所得到的下一個狀態(tài)以及獎賞來學習得到另一個最優(yōu)的Q函數.Q學習只能在有一定限制條件并且理論上能夠收斂的情況下才能得到最優(yōu)控制策略[36-38].當Q學習中離散狀態(tài)很多時,行動選擇過多會陷入貝爾曼維度詛咒[5].并且用Q學習做函數逼近時,某些情況下馬爾可夫決策過程不收斂.在Q學習算法下,微小的噪音往往也會導致無法選擇最優(yōu)策略[39-41].

        理論上,值函數有值函數(25)和狀態(tài)-動作對值函數(26)兩種:

        其中,π(x,a)是在狀態(tài)x下采取行動a的概率;pxy(a)是在動作a下從狀態(tài)x到狀態(tài)y的轉移概率;D(x,y,a)是即時回報,在金融交易里面可以是最大的微分夏普比率、最大利潤或其他指標;γ是折扣率,取值范圍是[0,1],越遠的動作回報率越低.

        公式(25)和公式(26)都是通過獲得最優(yōu)值函數來獲得最大化累計回報.如果當前的策略在值函數下獲得值超過之前的其他策略,則稱為最優(yōu)策略.通過對公式(25)的迭代,可以實現(xiàn)值函數的最終收斂.公式(25)滿足貝爾曼方程(Bellman equation),通過迭代優(yōu)化得到公式(27):

        這也意味著公式(26)和公式(27)兩個函數存在以下關系:

        相應的最佳動作就可以表示為公式(29):

        Q學習依據上面的公式不斷迭代,尋找更高的回報,近似函數的更新規(guī)則可以通過梯度的方差進行迭代,最優(yōu)動作決定最大回報,最優(yōu)動作的選擇策略由完全貪心策略(ε-greedy)決定,ε-greedy會在一定的概率限制下進行探索,而不是完全使用貪心算法.2001年,Moody等人將Q學習算法應用在資產組合配置和金融交易中[9],他們定義了3個動作Ft∈{-1,0,1},分別在人工生成數據、外匯交易數據和S&P500指數上測試,結果顯示,RRL勝過Q學習算法.可見,當時在交易中RRL自適應方式優(yōu)于Q學習.但Q學習更好的靈活性和擴展性,在之后的研究中逐漸顯現(xiàn)出來.

        相比于RRL的簡單動作Ft∈{-1,0,1},Q學習的動作a定義方法非常多.2003年,Lee等人提出了基于Q學習的多智能體自動交易系統(tǒng)[42],它考慮交易過程中交易限價單的情況,對不同的價格狀態(tài)做出判斷并執(zhí)行相關動作.該系統(tǒng)首先通過買信號智能體(buy signal agent)判斷是否有必要買入,待確定后,再喚醒買單智能體(buy order agent)下單.買單智能體根據交易數據的漲跌判斷是否到達拋售點,比如漲30%、跌20%.在達到或接近拋售點時,喚醒賣入信號智能體(sell signal agent).每個智能體都有自己確定的動作和回報設定,如:買方智能體只有不買和買入兩個動作,而回報需要賣出后才能得到,賣方訂單完成后,有對買的回報,不買回報始終是0.而賣出信號智能體在完成交易并扣除交易成本后才能得到回報.文獻[42]在韓國綜合股票指數(KOSPI200)上測試時,得到了遠超過買入持有策略的回報.2007年,Lee等人再次完善多智能體Q學習自動交易系統(tǒng),命名為 MQTrader[43].它定義多個Q學習智能體,有效地克服了之前在復雜環(huán)境中股票交易存在的問題.

        基于值函數的強化學習經典理論是通過策略π求得最大回報V*(S),其回報公式為

        金融投資領域中某些人是風險厭惡型投資者,比如母基金(fund of funds,簡稱FOF)或者養(yǎng)老保險基金等.相比于高利潤,這些投資者在保證基本利潤的同時更關心風險系數的大小.2006年,Jian Li等人提出通過調整回報的方式規(guī)避Q學習中存在的交易風險問題[44].Li將交易回報同GARCH模型得到的風險標準差合并,從而得到回報調整強化學習模型(reward adjustment reinforcement learning,簡稱RARL),回報值改為公式(31):

        rt代表模型定義的基本回報值,α代表厭惡風險的情緒值,σ(·)代表方差公式,gt代表從 GARCH模型獲得的風險值.經過公式(31)的變化,RARL的回報從公式(30)升級為公式(32):

        在香港股票數據的測試上,此方法泛化性能明顯優(yōu)于傳統(tǒng)的Q學習金融模型.2012年,Bertoluzzo在文獻[23]工作的基礎上繼續(xù)完善FTS系統(tǒng),使用值函數的方式構建FTS替換之前的RRL模型.Bertoluzzo又測試了基于時序差分模型(temporal difference,簡稱TD)和核函數的強化學習模型(kernel-based reinforcement learning,簡稱KbRL)作為FTS系統(tǒng)的主模型,動作設置為a∈{-1,0,1},采用經典夏普比率而非微分夏普比率作為目標函數[45,46].文獻[46]提出構建FTS系統(tǒng)時不采用動態(tài)規(guī)劃或蒙特卡洛方式,原因如下.

        · 首先,動態(tài)規(guī)劃需要一個模型來計算一個狀態(tài)到另外一個狀態(tài)的實際轉移概率,在金融交易中,這樣的

        模型通常是未知的;

        · 其次,為了改進策略需要等到全部交易結束之后才能進行估算,而FTS交易是無限次數的.

        Q學習的方式比較符合FTS,Q學習源于無模型強化學習的TD學習,Q學習不需要等到交易結束就可以讓模型在近似狀態(tài)下收斂.

        鑒于Q學習的關鍵問題是定義環(huán)境、狀態(tài)、動作、回報這四者之間的關系,Bertoluzzo等人在2014年又對FTS系統(tǒng)做了進一步完善,重新定義了金融市場狀態(tài)變量[47],如公式(33):

        最后 5個交易日結束時的對數收益率eτ=ln(pτ/pτ-1)為系統(tǒng)狀態(tài)變量,τ代表間隔時間,pτ代表價格;同時引入多種目標函數,如夏普比率、凈值對數回報、凈值對數收益之和比率等,經過在意大利股票指數數據上的測試,結果總體令人滿意.

        在Q學習的交易算法中,不僅是狀態(tài)St的定義具有靈活性,交易動作a也可以做必要的擴展.在交易中如果持有金融資產,那么每一個時間步驟中無論價格是上漲還是下跌,都需要設置相應的動作(買入或賣出).Du等人設置了4種組合操作來應對這種情況[48],如公式(34)所示:

        Du詳細對比了 RRL和Q學習的交易方式后指出:應用于包含大量噪音數據集合時,在正確的目標函數下,RRL在穩(wěn)定性和計算收斂性上優(yōu)于Q學習,但是Q學習的操作選擇更加靈活多樣.

        綜上所述,在價格自適應上,RRL一定程度優(yōu)于Q學習.但是Q學習的動作設置上可以多種多樣,不僅應用于買賣,還可以用來觸發(fā)各類交易信號.同時,Q學習還可以將很多金融資產的各種狀態(tài)定義到Q學習的狀態(tài)St中,這比 RRL有更大的優(yōu)勢.此外,Q學習還可以定義多智能體的應用方式,在買入、賣出等交易環(huán)節(jié)處應用,比傳統(tǒng)的Q學習有更高的靈活性.在FTS應用中,常有多種策略同時使用,比如配對交易、股票中性等,這些策略往往同時操作多種金融資產,單純的買入和賣出不能滿足系統(tǒng)的操作需求,因此,基于Q學習的多種算法值得深入研究.

        5 基于策略梯度的金融交易系統(tǒng)

        理論上,值函數方法在離散狀態(tài)空間中可以收斂到最優(yōu)策略,但收斂速度可能極慢.值函數的一個微小變動都可能導致動作選擇的錯誤,這種變化會影響算法的收斂性.同時,值函數的方法有兩個局限性[41].

        (1) 值函數算法最終得到的是一個確定性策略,而最優(yōu)策略有可能是隨機的;

        (2) 值函數存在策略退化問題,即使值函數估計得很準確,通過值函數獲得的策略仍然不是最優(yōu)策略.

        為解決尋找最優(yōu)策略問題,Sutton等人提出了策略梯度算法(policy gradient)[41],該類算法不會出現(xiàn)策略退化現(xiàn)象[49,50].策略梯度是一種直接逼近的優(yōu)化策略,直接在策略空間進行求解得到策略.

        基于值函數的方法,通過迭代計算每一輪(state-action-reward)的交互,選擇回報最大的動作a,這是一種間接做法.直接的做法是通過神經網絡直接求得下一次的狀態(tài)或動作.2014年,Eilers等人提出用策略梯度將交易決策與回報緊密聯(lián)系起來[49],描述見公式(35):

        St代表交易前狀態(tài),St+1代表交易后狀態(tài),a代表交易動作,σ代表狀態(tài)轉換函數.Eilers等人使用三層神經網絡的RRL作為σ函數,獎勵直接從函數r中獲得.rt代表回報值,用正負表示積極或消極,最終依據策略梯度的方式收斂.Eilers分析并介紹了不同月份以及不同季度對股票期權市場的影響和交易風格的變化,使用人工神經網絡結合 RRL的方式,借助 RRL的自適應性,讓交易系統(tǒng)在不同的月份之間自動轉換交易風格.實驗顯示,Eilers等人的交易系統(tǒng)沒有將目光局限在獲得最大收益或高夏普比率值,而是最大限度地提高每次交易的即時回報,將最好的交易動作分配給最合適的情況.

        基于策略梯度的方法在求解上相比值函數更加方便,但也更容易陷入到局部最優(yōu)解.因為策略梯度過分關注獲得最大期望回報,而不是最優(yōu)解.Actor-Critic在這兩種方法中找到了平衡[50].行動網絡(actor)的目的是通過一個函數——輸入狀態(tài)St,輸出動作a,在這個過程中盡量獲得最高的回報,使用策略梯度來更新參數.為了訓練Actor,創(chuàng)建一個值函數評價網絡(critic)評估 Actor的表現(xiàn).用值函數替代采樣的回報(reward),提高樣本利用率,降低策略梯度求解時的梯度(估計)方差.這個兩個網絡通常使用人工神經網絡來近似模擬.Actor-Critic的示意如圖8所示.

        Fig.8 Actor-Critic schematic diagram圖8 Actor-Critic原理圖

        2007年,Haili等人提出了基于Actor-Critic算法的結合強化學習和監(jiān)督學習共同預測金融數據短期走勢的模型[51],分別是Actor結合監(jiān)督學習模型(actor-supervised llearning)和動作-評價模型(actor-critic).前者結合了兩種模型的優(yōu)點,監(jiān)督學習具有快速收斂的優(yōu)點,洞察短時間的市場慣性并給出最佳預測插值;Actor使用的是基于RRL的模型,縮小搜索空間.這表明在沒有正確標記訓練樣本時,可以利用RRL的自適應性,通過強化學習對監(jiān)督學習的缺陷進行微調.此外,RRL縮小了搜索領域,也避免過早收斂陷入局部最優(yōu)解.后者模型則通過兩個MLP網絡擬合各自的函數,實現(xiàn)預測:首先,實驗將數據定義為一些離散狀態(tài)St,然后將狀態(tài)St和Actor網絡的輸出Ft作為Critic網絡的輸入,將下一個時刻的價格狀態(tài)St+1定義為輸出,訓練Critic網絡.得到訓練的Critic可以更好地評價Actor,實現(xiàn)Actor-Critic模型的共同訓練.這里,Actor與Critic在參數更新上是異步的.實驗中, Hailin使用時間跨度達20年的數據,分別將兩個模型用在3種股票價格預測上,如S&P 500指數、納斯達克綜合指數、IBM股票.結果顯示:S&P 500指數預測效果良好,納斯達克綜合指數和IBM也在盈利的范圍內.在其他個股的金融時間序列預測中,單獨的Actor-Critic模型通常表現(xiàn)更好.

        2010年,Stelios等人也使用Actor-Critic構建了FTS系統(tǒng)[52],并提出一個自適應模糊強化學習模型.該模型能夠準確迅速地識別市場方向.模糊推理最初應用在控制領域,它提供了一種用不精確數據來表示不確定的方法.這意味著它可以成為不確定條件下智能體選擇決策的極好工具.模糊推理直接將數字術語翻譯成為語言術語,通過 IF-THEN表示模糊推理規(guī)則指定語句將模糊輸入與模糊輸出相互關聯(lián),例如:出現(xiàn)條件“西紅柿非常紅”,立即可得出結論“西紅柿非常熟”.模糊推理將有效的經驗法則與非結構化知識結合起來,這種方法同上文中的RS-RRL模型非常類似,可以通過經驗把握金融市場風格的變化.

        金融時序價格一般都具有兩個屬性:預期收益(expected return)和條件波動(conditional volatility).Stelios利用這兩點定義了8個不同的狀態(tài)空間.通過模糊推理系統(tǒng)提供的輸出作為Actor的輸入,利用波動性的指標實現(xiàn)強化學習的可預測性,最后使用選定的參數為Critic構建基于交易的決策.在納斯達克綜合指數、英國富時100指數、Nikkei亞洲300可投資指數等指數的實驗中,Stelios提出的FTS系統(tǒng)收益高于循環(huán)神經網絡、馬爾可夫模型和買入持有策略.

        綜上所述,在狀態(tài)和交易動作選擇上,Actor-Critic算法遠多于Q學習算法和RRL算法.RRL算法在自適應性有上一定的優(yōu)勢,易于根據當前金融信息自動轉換交易風格.Actor-Critic算法和Q學習則可以通過引入系統(tǒng)外變量,如模糊推理和市場風格變換信號實現(xiàn)自適應性.此外,當深度學習模型替代 Actor-Critic中的策略函數后,該算法在圍棋等領域取得了突破.未來,融合深度學習的 Actor-Critic模型也必將在FTS上得到推廣和應用,在下文中將介紹深度學習對強化學習的促進作用.

        Actor-Critic模型多智能體算法近年發(fā)展迅速,Lee等人提出過Q學習多個智能體算法,它主要用多個智能體執(zhí)行不同環(huán)節(jié)的任務.這類算法存在兩個問題.

        (1) 這種方法無法解決強化學習運算效率低的難題,無法利用多核CPU和分布式計算;

        (2) 無法解決金融數據序列時間上強相關的問題.

        神經網絡訓練不穩(wěn)定的最主要原因是數據存在著較強的時間相關性,且不滿足獨立同分布的條件.DQN[53,54]和 DDPG[55]方法都利用經驗回放的技巧打破數據之間的相關性,然而,在經驗回放之外的一種方法是異步方法.

        A3C[56]便是主流的異步方法,全稱為異步優(yōu)勢動作評價算法(asynchronous advantage actor-critic),源于Actor-Critic算法,訓練時利用多個線程而非單線程.每個線程相當于一個智能體在隨機探索,多個智能體共同探索,并行計算策略梯度,維持一個總的更新量.相比于經驗回放,這種方式同樣能讓數據實現(xiàn)獨立同分布,并且可以利用CPU多核實現(xiàn)分布計算,提升訓練的速度.因此,基于A3C異步策略算法構建的FTS將具有廣闊的應用前景.

        6 基于深強化學習的交易系統(tǒng)

        2006年,Hinton等人在Science期刊上提出了基于深度信任網(deep belief network,簡稱DBN)的非監(jiān)督訓練算法,實現(xiàn)了深度學習(deep learning,簡稱DL)的重大突破[12].目前,已經在圖像分析[57,58]、語音識別[59,60]、自然語言處理[61,62]、視頻分類[63]等領域取得了令人矚目的成就.DL的基本思想是:通過多層網絡結構和非線性變化組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數據的分布式特征表示[64].因此,DL方法側重于對事物的深層特征提取,而強化學習側重于提出解決問題的策略.隨著社會的飛速發(fā)展,在復雜問題中,利用DL自動學習大規(guī)模輸入數據的抽象特征,并以此表征進行自我訓練的RL,已成為解決問題的策略.Deep Mind團隊創(chuàng)新性地將具有感知能力的DL和具有決策能力的RL相結合,形成了深度強化學習(deep reinforcement learning,簡稱DRL).

        由第1.1節(jié)可知,早在2003年,Gold等人就嘗試使用多層神經網絡替代經典RRL中的單層神經網絡,但是多層網絡容易發(fā)生過擬合現(xiàn)象,效果提升有限[10].在后來的FTS系統(tǒng)構建中,學者們也嘗試使用多層神經網絡替代單層神經網絡.Bertoluzzo等人提出的用多層感知機替代單層神經網絡的FTS,但是并未證明多層神經網絡優(yōu)于單層神經網絡[23].此后,學者們并沒有放棄將深度神經網絡應用在RRL之中.

        上述問題的難點在于,金融交易中始終存在兩個問題.

        (1) 財務數據包含大量的噪音,這種不確定性導致時間序列高度不穩(wěn)定.因此,能否從數據中直接獲得特征一直是研究的目標;

        (2) 動態(tài)交易的執(zhí)行問題.強化學習是通過連續(xù)性操作獲得回報,即使有一套穩(wěn)定的策略,也會因為頻繁交易帶來巨大的交易成本,這反而對實際利潤沒有貢獻.

        基于以上原因,需要把當前的市場條件同先前的交易動作相結合,用前一個時刻的多空操作和持倉數量來決定當前的操作.雖然RRL也具備這樣的能力,但要想在更長的時間段中運行,交易模型需要具有一定的記憶能力.與此同時,在模型融入記憶力的設置中不能增加額外的復雜性,避免忘記過去的訓練成果.2017年,Deng等人提出了一種結合模糊學習(fuzzy learning)、DNN、RRL的FTS系統(tǒng),稱為FRDNN[65.與文獻[24,51]類似,文獻[65]首先使用模糊學習減少數據的不確定性;其次,使用DNN對數據進行降噪和特征提取,通過范數正則化、數據增強、Dropout、自編碼器預訓練及 CNN權值共享等方式解決多層神經網絡過擬合問題,將處理過的數據交給RRL;最后,進行交易行為選擇.從前面的文獻中可以了解到:RRL強于自適應性,弱于特征提取.因此,通過加入模糊學習和深度神經網絡可以整體提升原始模型的能力,公式(1)變化為如下公式(38)和公式(39):

        u(·)代表模糊學習函數解決金融數據的不確定性問題,gd(·)代表DNN用來解決特征提取不充分和缺少記憶能力的問題,通過DNN將u(rj)映射為更深層次的向量,結構如圖9所示.

        Fig.9 FRDNN framework圖9 FRDNN結構

        在圖9中,Fuzz Repre代表模糊學習模塊;而Deep Trans則代表使DNN的特征提取模塊;W代表代表wM+1Ft-1;UT同于公式(4)的pT,代表時間T內的累計期望,即最大收益.Deng分別在滬深300的期貨交易數據和白銀、白糖的商品期貨分鐘級別的高頻數據上進行測試.實驗結果表明,FRDNN的收益極高,RRL模型在某些交易上虧損非常嚴重.FRDNN還與預測型DNN做了對比實驗,分別使用CNN,RNN,LSTM在無交易成本時,DNN模型的收益同F(xiàn)RDNN不相上下,一旦交易成本上升,DNN模型的盈利能力迅速下降.可見:不能只注重模型預測能力,忽略交易成本,頻繁交易的獲利會被巨大的交易成本所吞沒.這也進一步證明了 FRDNN模型的合理性.同時,Deng的實驗中還對比了最高累計總利潤和最高夏普比率分別作為目標函數時的收益情況.顯而易見,最高夏普比率的模型收益明顯要高,特別是在市場進入下行軌道時.

        同樣在 2017年,Lu等人發(fā)現(xiàn),在文獻[65]中使用 DNN作為特征提取時常出現(xiàn)梯度消散問題,因此采用LSTM替換上述DNN[66],并加入了Dropout技術來調試LSTM避免過擬合.Lu在美元兌英鎊的外匯交易數據上測試:首先,作者觀察到公式(1)中的閾值v對交易頻率和策略的影響,當v逐漸增大時,交易頻率下降;之后,使用LSTM進行特征提取,并加入市場下行信號;最后,嘗試使用下降偏差比率代替夏普比率作為損失函數.這些操作的結果都證明:在市場下行時,通過精確的做空,依然可以取得較高的交易利潤.

        文獻[65,66]中可以看到:深度強化學習的算法應用在特征提取上,可以依靠確定性策略直接從采樣特征中找尋下一次操作[67].無模型的策略搜索可以分為隨機策略搜索方法和確定性策略搜索方法.2014年以前,學者們都在發(fā)展隨機策略搜索方法,直到2014年,Silver提出了確定性策略理論[67].確定性策略意味著在應用策略函數πθ時,在狀態(tài)st下,下一步的動作a是確定的,即a=πθ(st).隨機策略中,即使在相同的狀態(tài),每次采用的動作也很可能不一樣.當然,當采用高斯策略的時候,相同的策略在同一個狀態(tài)處,采樣動作差別不大.確定性策略不需要像隨機策略一樣在空間進行大量采樣.通常來說,確定性策略方法的效率比隨機策略方法高 10倍,這也是確定性策略方法最主要的優(yōu)點.

        2017年,Jiang等人將深度學和確定性策略應用在加密貨幣的投資組合中,通過將資金不斷分配到不同的加密貨幣,獲得更大累計收益[68].該系統(tǒng)包括獨立評估集合(ensemble of identical independent evaluators,簡稱EIIE)、投資組合內存(portfolio-vector memory,簡稱PVM)、在線隨機批量學習(online stochastic batch learning,簡稱OSBL)和針對即時獎勵的獎勵函數.

        Jiang等人重新設計了Actor-Critic方法的狀態(tài)、回報和動作,Actor使用確定性策略梯度實現(xiàn),Actor的交易動作定義為下一個時間段t下各類資產分配的權重數值,用矢量wt={x1,…,xi}表示,xi的和為1,見公式(40).

        狀態(tài)st則由當前時刻的價格張量Xt(由最高價、最低價、收盤價組成)和前一時刻的資產分配權重wt-1組成,見公式(41).

        回報則用收益率的對數回報率表示.Jiang采用深度神經網絡作為確定性策略梯度函數πθ,并測試了 CNN,RNN,LSTM這3個模型.例如,用 CNN模型對輸入特征(Xt,wt-1)進行采樣,直接用softmax層的輸出作為權重分配值wt-1,而在通常的分類任務中,常取softmax的最大值作為分類答案.同時,在訓練過程中,依靠投資組合內存(portfolio-vector memory,簡稱PVM)和小批量訓練這兩種機制進行訓練.PVM與強化學習的DQN經驗回放機制非常相似:首先,通過引入外部存儲機制,存儲數據不斷加入到訓練數據中,使得訓練數據盡量滿足均衡分布,避免過擬合;然后,用小批量數據訓練,每個批次內的數據必須是完整時間序列.對神經網絡訓練而言,即使它們具有顯著重疊的間隔,不同時期的數據依然被認為是獨特而有效的.這個系統(tǒng)依托在線隨機批量學習方式,可以直接應用到在線上項目.在模型對比中,CNN,RNN和LSTM占據了前三名,在比特幣的虛擬交易中,即便在傭金率高達0.25%的情況下,該系統(tǒng)仍然能夠在50天內使收益增長為原來的4倍.

        綜上所述,深度強化學習在金融交易系統(tǒng)中的應用已經越來越多.隨著深度強化學習在2014年后的強勢興起,帶動了新一輪研究熱潮.從模型結構上看,深度學習與強化學習的結合方式多種多樣,在不同的應用領域各有優(yōu)勢:在單資產投資中,借助深度學習提取特征的RRL學習方法有效性依然很高,依托不同的目標函數應對不同的市場風格變化;而在資產組合交易中,基于策略搜索的深度強化學習方法顯得更加靈活,狀態(tài)和動作設計也不受模型局限.

        7 結 論

        本文綜述了強化學習在金融交易領域的應用進展情況,包括RRL、Q學習、Actor-Critic、A3C算法和結合深度神經網絡的各類強化學習算法;以及依托強化學習構建的各類金融交易系統(tǒng),在股票、指數、期貨、投資組合、虛擬貨幣等交易領域的應用,基于強化學習的各類金融交易系統(tǒng)在風險控制、交易進出場時機、資金管理等方面都取得了突破.

        基于強化學習將促進自動交易系統(tǒng)的進一步發(fā)展,可預見的趨勢至少有兩個方面.

        (1) 經典的RRL模型將繼續(xù)發(fā)展,但是RRL基于循環(huán)的自適應框架將會得到保留.在目標函數的選擇上將變得更加靈活多樣,在金融資產序列的特征提取上將更多地采用深度學習模型;

        (2) 隨著 A3C算法的進一步發(fā)展,產業(yè)界與學術界將目光投向多智能體并行處理的方式,A3C是在策略(on policy)算法,效果、時間和資源消耗上都優(yōu)于DQN和DDPG,它的應用有望部分解決強化學習策略受到的限制.

        本文認為,上述研究中仍然存在著亟待解決的問題.

        (1) 金融市場具有不穩(wěn)定性,趨勢實時變化.從歷史的訓練數據中學到的知識可能不會在后續(xù)測試數據中有良好的效果,這對強化學習模型的適應性提出了更高的要求,不同市場條件下如何選擇合適的強化學習模型和深度學習模型仍然是一個懸而未決的問題;

        (2) 構建基于強化學習的交易軟件或系統(tǒng).通常,一種算法不能解決全部問題,針對不同的市場情況,需要設置不同的配置模塊.風險層、策略輪動層、自適應層等層次結構的設計至今沒有統(tǒng)一解決方案,業(yè)界仍然在探索中;

        (3) 大部分強化學習模型系統(tǒng)都是專攻某一類金融交易,單純地做多、做空或空倉觀望等,投資組合方式也僅是對各類金融資產的權重進行重新分配.但是,如股票中性、期貨中性等策略需要對多種資產同時進行復雜的多空對沖操作時,仍缺少充分的研究;

        (4) 強化學習領域最近提出了確定性策略和蒙特卡羅樹搜索結合的算法,并應用于圍棋領域[69],獲得了突破.如何將蒙特卡羅樹搜索策略應用在交易系統(tǒng)中,值得深入研究.

        最后還要強調,深入研究強化學習理論、完善金融交易系統(tǒng)的組成結構、在提高交易的利潤的同時降低交易風險,這是基于強化學習的金融交易系統(tǒng)研究的核心問題.

        猜你喜歡
        金融交易公式交易
        組合數與組合數公式
        排列數與排列數公式
        等差數列前2n-1及2n項和公式與應用
        例說:二倍角公式的巧用
        金融產品交易中冷靜期制度研究
        交易流轉應有新規(guī)
        上海國資(2015年8期)2015-12-23 01:47:28
        大宗交易
        《吃飯的交易》
        高風險金融交易法律規(guī)制的法理學分析
        衍生金融場內交易與場外交易的區(qū)別
        内射无码专区久久亚洲| 成人自拍一二在线观看| 国产av天堂亚洲国产av天堂| 日韩高清在线观看永久| 亚洲欧美一区二区三区国产精| 精品人妻久久av中文字幕| 中文乱码字字幕在线国语| 国产精品 人妻互换| 日韩在线看片| 国内精品嫩模av私拍在线观看 | 91久久偷偷做嫩模影院| 欧美日韩国产精品自在自线| 99久久精品免费看国产情侣 | 国产精品亚洲在钱视频| 亚洲成av人片在线观看| 亚洲精品久久久久久久久av无码| 久久成人永久免费播放| 国产自拍成人在线免费视频| 国产精品久久久久一区二区三区| 久久人人爽人人爽人人片亞洲| 精品国免费一区二区三区| 男女做那个视频网站国产| 成年女人黄小视频| 亚洲丁香婷婷综合久久小说| 日韩av中文字幕一卡二卡| 色婷婷av一区二区三区久久| 9lporm自拍视频区| 亚洲高清中文字幕精品不卡| 不卡视频在线观看网站| 7m精品福利视频导航| 精品四虎免费观看国产高清| 日本高清一区二区三区在线 | 无码国产伦一区二区三区视频| 亚洲AV无码资源在线观看| 神马不卡影院在线播放| 亚洲av无码乱码在线观看富二代| 99亚洲精品久久久99| av毛片一区二区少妇颜射| 色佬精品免费在线视频| 男男车车的车车网站w98免费 | 国产精品美女自在线观看|