胡文偉,胡建強(qiáng),李 湛,周劍峰
1 上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620 2 復(fù)旦大學(xué) 管理學(xué)院,上海 200433 3 上海社會(huì)科學(xué)院 應(yīng)用經(jīng)濟(jì)研究所,上海 200020 4 國(guó)泰君安證券公司 固定收益部,上海 200120
管理科學(xué)
基于強(qiáng)化學(xué)習(xí)算法的自適應(yīng)配對(duì)交易模型
胡文偉1,胡建強(qiáng)2,李 湛3,周劍峰4
1 上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620 2 復(fù)旦大學(xué) 管理學(xué)院,上海 200433 3 上海社會(huì)科學(xué)院 應(yīng)用經(jīng)濟(jì)研究所,上海 200020 4 國(guó)泰君安證券公司 固定收益部,上海 200120
配對(duì)交易是統(tǒng)計(jì)套利中最主要的交易策略,但隨著市場(chǎng)有效性的逐漸提高,該策略的獲利機(jī)會(huì)正變得越來(lái)越有限,傳統(tǒng)的固定參數(shù)交易模型已難以保證配對(duì)交易一直獲得最大利潤(rùn),交易模型的參數(shù)不僅需要優(yōu)化,而且還需要?jiǎng)討B(tài)地、自動(dòng)地調(diào)整優(yōu)化值,因此有必要研究開(kāi)發(fā)具有人工智能屬性的參數(shù)動(dòng)態(tài)優(yōu)化交易模型,這對(duì)于提升交易模型的盈利能力和執(zhí)行效率具有重要意義。
自適應(yīng)配對(duì)交易模型是對(duì)傳統(tǒng)的協(xié)整配對(duì)交易策略進(jìn)行改進(jìn),推出一種基于強(qiáng)化學(xué)習(xí)模式的新型統(tǒng)計(jì)套利交易模型;將Sarsa強(qiáng)化學(xué)習(xí)算法和ε-greedy策略與新模型相結(jié)合,把模型參數(shù)的確定方法由傳統(tǒng)的主觀經(jīng)驗(yàn)法和固定參數(shù)法改進(jìn)為自適應(yīng)模式的動(dòng)態(tài)參數(shù)優(yōu)化法;編制的計(jì)算機(jī)程序仿真實(shí)現(xiàn)了基于新模型的套利交易全過(guò)程,涵蓋模型參數(shù)的動(dòng)態(tài)優(yōu)化、套利交易的模擬操作以及交易績(jī)效的測(cè)量評(píng)估;以中國(guó)債市交易量最大的5種債券為樣本,構(gòu)建4組配對(duì)組合,采用Johansen協(xié)整檢驗(yàn)法、T檢驗(yàn)和Robust穩(wěn)健性檢驗(yàn)等方法對(duì)交易模型和測(cè)試結(jié)果進(jìn)行實(shí)證分析。
研究結(jié)果表明,新模型的運(yùn)行效果全面優(yōu)于傳統(tǒng)模型。新模型顯著提升了交易系統(tǒng)的獲利能力,收益率和索提諾比率大幅提高;同時(shí)降低了投資風(fēng)險(xiǎn),最大回撤出現(xiàn)明顯下降;還提高了套利交易的執(zhí)行效率,交易次數(shù)明顯減少,套利成本下降;具有持續(xù)學(xué)習(xí)的能力,能促進(jìn)累計(jì)收益率不斷上升并最后收斂于最大值。研究結(jié)果還表明,協(xié)整配對(duì)交易在中國(guó)債券市場(chǎng)同樣具有有效性,能夠獲得顯著正收益。
將強(qiáng)化學(xué)習(xí)思想與協(xié)整配對(duì)交易策略相結(jié)合,設(shè)計(jì)開(kāi)發(fā)出一種新型配對(duì)交易模型,實(shí)現(xiàn)了模型參數(shù)的自適應(yīng)動(dòng)態(tài)調(diào)整。這種改進(jìn)型交易模型有助于應(yīng)對(duì)傳統(tǒng)配對(duì)交易策略獲利能力的下降,進(jìn)一步提高配對(duì)交易策略的效率和績(jī)效。在中國(guó)融資融券和股指期貨等做空機(jī)制開(kāi)閘的市場(chǎng)環(huán)境下,新模型可為投資者提供一種有效的套利手段和風(fēng)控工具。
協(xié)整配對(duì)交易;Sarsa強(qiáng)化學(xué)習(xí)算法;自適應(yīng);動(dòng)態(tài)參數(shù);優(yōu)化;仿真;統(tǒng)計(jì)套利
配對(duì)交易是量化投資和統(tǒng)計(jì)套利中最主要的交易策略,目前量化投資已成為成熟市場(chǎng)最主流的投資方式之一,更被視作資本市場(chǎng)成熟與否的一個(gè)重要標(biāo)志。在中國(guó),隨著做空機(jī)制逐漸放松,尤其是融資融券和股指期貨的推出,以協(xié)整配對(duì)交易為代表的主流量化交易方式也開(kāi)始出現(xiàn)興起之勢(shì)。
大量實(shí)證研究證實(shí)了協(xié)整配對(duì)交易策略的有效性,不論是海外還是中國(guó)市場(chǎng),在資產(chǎn)配對(duì)組合選擇得當(dāng)?shù)那疤嵯?,協(xié)整配對(duì)交易策略可成功抓住統(tǒng)計(jì)套利機(jī)會(huì)并獲取收益。而且,由于套利收益本質(zhì)上來(lái)源于市場(chǎng)的非有效性,因此配對(duì)交易在欠成熟市場(chǎng)有著更廣闊的前景。
然而,隨著配對(duì)交易從神秘走向普及以及市場(chǎng)非有效性的逐漸改善,該策略的獲利機(jī)會(huì)正變得越來(lái)越有限。在現(xiàn)有的交易模型中,評(píng)估時(shí)間窗口、交易時(shí)間窗口、開(kāi)倉(cāng)閾值、平倉(cāng)閾值等主要參數(shù)往往采用經(jīng)驗(yàn)值或固定常數(shù)。已有研究表明,傳統(tǒng)的主觀經(jīng)驗(yàn)法和固定參數(shù)法雖然方法簡(jiǎn)單,但卻具有局限性,不能保證配對(duì)交易一直獲得最大利潤(rùn)。另外,傳統(tǒng)策略的使用前提(如殘差的方差不變性等理想條件)實(shí)際上往往難以滿足,金融資產(chǎn)價(jià)格的時(shí)間序列通常存在明顯的異方差性,這意味著協(xié)整配對(duì)交易的最優(yōu)交易區(qū)間和最優(yōu)止損區(qū)間等參數(shù)設(shè)置不能固定不變,否則,區(qū)間過(guò)窄會(huì)導(dǎo)致交易頻率過(guò)高并增加交易成本,區(qū)間過(guò)寬則會(huì)造成反應(yīng)遲鈍而錯(cuò)失獲利或止損時(shí)機(jī)。
這些現(xiàn)狀導(dǎo)致準(zhǔn)確選擇交易模型參數(shù)被推到越來(lái)越重要的位置。已有研究認(rèn)為,交易模型的參數(shù)不僅需要優(yōu)化,而且更需要?jiǎng)討B(tài)地調(diào)整優(yōu)化值。為此有學(xué)者引入GARCH模型,計(jì)算動(dòng)態(tài)的價(jià)差標(biāo)準(zhǔn)差,以此作為交易信號(hào);有學(xué)者提出基于O-U過(guò)程的套利策略;還有學(xué)者提出對(duì)經(jīng)驗(yàn)性的選擇參數(shù)進(jìn)行遍歷性研究,循環(huán)查找最優(yōu)閾值。這些改進(jìn)方案都在各自特定的數(shù)據(jù)樣本上取得了一定成效,但同時(shí)也受到新的適用條件的很大約束,要么需要符合GARCH模型或O-U過(guò)程,要么需要預(yù)設(shè)經(jīng)驗(yàn)性參數(shù)等專家系統(tǒng),而且不能應(yīng)對(duì)環(huán)境發(fā)生的超預(yù)計(jì)變化。
基于上述分析,本研究認(rèn)為有必要開(kāi)發(fā)無(wú)需知識(shí)背景、無(wú)需預(yù)定義的自適應(yīng)模式的參數(shù)動(dòng)態(tài)優(yōu)化策略。本研究把在人工智能領(lǐng)域得到成功應(yīng)用的強(qiáng)化學(xué)習(xí)思想引入配對(duì)交易策略,幫助交易模型的參數(shù)實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)優(yōu)化。這種改進(jìn)型配對(duì)交易系統(tǒng)不必受制于預(yù)設(shè)模型的約束,不必依賴專家系統(tǒng)的存在和限制,不必?fù)?dān)憂環(huán)境發(fā)生超預(yù)計(jì)變化,它在分析和處理的過(guò)程中能夠根據(jù)環(huán)境變化實(shí)時(shí)地、高效地、自動(dòng)地、智能地、自適應(yīng)地進(jìn)行參數(shù)優(yōu)化,從而使交易模型的參數(shù)始終保持優(yōu)化狀態(tài)。
這種改進(jìn)型交易模型有助于提升協(xié)整配對(duì)交易的盈利能力和執(zhí)行效率,在中國(guó)融資融券和股指期貨等政策開(kāi)啟的環(huán)境下,為投資者提供一種新型、有效的低風(fēng)險(xiǎn)投資策略模型。
1.1協(xié)整配對(duì)交易
配對(duì)交易是統(tǒng)計(jì)套利和量化投資中最重要、最主流的投資策略[1],這種新穎的交易策略最早出現(xiàn)于20世紀(jì)80年代的美國(guó),一經(jīng)推出便獲得空前成功。GATEV et al.[2]、GRANGER[3]、JOHANSEN[4]最早提出配對(duì)交易的思想和基本原理之后,眾多學(xué)者對(duì)協(xié)整配對(duì)交易展開(kāi)了多角度和多市場(chǎng)的研究,主要圍繞協(xié)整配對(duì)交易的兩個(gè)核心問(wèn)題展開(kāi),一是配對(duì)組合選擇,二是交易模型設(shè)計(jì)。這兩個(gè)環(huán)節(jié)緊密相關(guān),但在研究進(jìn)程上,前者起步早且研究相對(duì)充分,后者起步晚并有難題待解。
第1個(gè)環(huán)節(jié)主要涉及配對(duì)組合選擇、協(xié)整關(guān)系檢驗(yàn)和配對(duì)交易有效性論證,目前已經(jīng)取得大量成果。VIDYAMURTHY[5]和HUCK[6-7]為配對(duì)組合的選擇和檢驗(yàn)提供了理論和方法,其他眾多學(xué)者的上百篇文獻(xiàn)實(shí)證檢測(cè)了配對(duì)交易策略在全球各大宗商品市場(chǎng)、股市個(gè)股和股指期貨市場(chǎng)的有效性,大量研究結(jié)果表明配對(duì)交易策略在全球大部分市場(chǎng)皆有效。但是,隨著套利交易普及化和市場(chǎng)有效性逐步提高,統(tǒng)計(jì)套利的獲利機(jī)會(huì)變得越來(lái)越有限。BOTOS et al.[8]研究配對(duì)交易策略在東西歐市場(chǎng)的回報(bào)情況,結(jié)果表明,1993年至2013年西歐和東歐市場(chǎng)的配對(duì)交易回報(bào)率分別為16.98%和20.74%,投資組合的Sharpe比率分別僅為0.57(西歐)和0.92(東歐),與之前10年的1.89(西歐)和1.39(東歐)相比明顯下降。在中國(guó),由于受到賣空機(jī)制的制約,此方面的實(shí)踐和研究滯后于海外成熟市場(chǎng)數(shù)十年,但目前已在迎頭趕上,尤其在配對(duì)組合選擇和配對(duì)交易有效性兩個(gè)方面。相關(guān)研究已經(jīng)很多,在最新的研究中,胡倫超等[9]、趙勝民等[10]和高輝等[11]分別以內(nèi)地主要指數(shù)成份股、融資融券標(biāo)的股、股指期貨交易數(shù)據(jù)等為對(duì)象,實(shí)證分析交易的有效性;LIU et al.[12]還研究了中國(guó)雙重上市股票的套利機(jī)會(huì)。眾多研究結(jié)果皆表明,配對(duì)交易策略同樣適用于中國(guó)市場(chǎng),而且配對(duì)交易在中國(guó)更多地表現(xiàn)為一種短期策略。
配對(duì)交易第2個(gè)環(huán)節(jié)主要涉及交易模型設(shè)計(jì)和最優(yōu)參數(shù)確定。這部分研究起步較晚,但空間極大,而且隨著套利獲利機(jī)會(huì)趨弱,亟須進(jìn)一步的深入研究。該環(huán)節(jié)的重點(diǎn)是確定模型參數(shù),包括開(kāi)倉(cāng)時(shí)間、平倉(cāng)時(shí)間、持倉(cāng)時(shí)間、交易期限、投資倉(cāng)位等閾值。在早期時(shí),確定參數(shù)大多采用主觀經(jīng)驗(yàn)法。之后學(xué)者們開(kāi)始推出各種技術(shù)手段對(duì)參數(shù)進(jìn)行優(yōu)選,其中,進(jìn)場(chǎng)和離場(chǎng)規(guī)則的最優(yōu)參數(shù)求解吸引了最多研究者。KUO et al.[13]研究了采用背離策略的配對(duì)交易的最優(yōu)平倉(cāng)點(diǎn),并用數(shù)值分析案例對(duì)其結(jié)論給出例證。所謂背離策略是指在配對(duì)股票價(jià)格走勢(shì)出現(xiàn)背離時(shí)開(kāi)倉(cāng),當(dāng)價(jià)差觸及目標(biāo)線或止損線時(shí)進(jìn)行平倉(cāng),該策略的隱含假設(shè)是配對(duì)股票的價(jià)差服從均值回歸過(guò)程。SONG et al.[14]用HJB方程來(lái)刻畫(huà)價(jià)值函數(shù),其研究結(jié)果表明,最優(yōu)平倉(cāng)問(wèn)題可以通過(guò)一系列quasi-algebraic方程得以解決,給出了數(shù)值分析案例;LARSSON et al.[15]研究?jī)r(jià)差服從Levy過(guò)程的含跳躍模型的平倉(cāng)優(yōu)化問(wèn)題,求證了可優(yōu)化性的必要條件,采用有限元方法對(duì)誤差給出精確估計(jì)模型,并對(duì)最優(yōu)解的存在性和唯一性給出例證。另有學(xué)者對(duì)交易模型參數(shù)進(jìn)行綜合研究。NGO et al.[16]把交易規(guī)則簡(jiǎn)化為3種組合結(jié)構(gòu)之間的最優(yōu)切換問(wèn)題,即A和B皆空倉(cāng)、A長(zhǎng)倉(cāng)B短倉(cāng)、A短倉(cāng)B長(zhǎng)倉(cāng),證明最優(yōu)切換點(diǎn)的存在,并用數(shù)值仿真方法給出例證;ZENG et al.[17]綜合研究統(tǒng)計(jì)套利中的資產(chǎn)組合選擇、參數(shù)邊界尋優(yōu)和最優(yōu)交易策略設(shè)計(jì)等一系列問(wèn)題。截至目前,配對(duì)交易領(lǐng)域的大部分研究都是基于投資組合理論和統(tǒng)計(jì)分析方法,但也有少數(shù)學(xué)者開(kāi)始將隨機(jī)控制[18]、遺傳算法[19]、神經(jīng)網(wǎng)絡(luò)[20]、粒子群算法[21]、人工蜂群算法[22]等其他領(lǐng)域的研究方法運(yùn)用進(jìn)來(lái)。此外,學(xué)者們也針對(duì)中國(guó)市場(chǎng)進(jìn)行類似研究。歐陽(yáng)紅兵等[23]針對(duì)中國(guó)A+H股的價(jià)格數(shù)據(jù)進(jìn)行實(shí)證分析,采用數(shù)值算法研究交易持續(xù)期、交易間隔期和交易次數(shù)等最優(yōu)閾值;唐國(guó)強(qiáng)等[24]針對(duì)中國(guó)白糖期貨合約數(shù)據(jù),利用切比雪夫不等式和夏普比率在回歸殘差的基礎(chǔ)上構(gòu)建套利閾值統(tǒng)計(jì)量,在利潤(rùn)最大化的前提下求得最優(yōu)閾值;麥永冠等[25]構(gòu)建折回首日WM-FFBD策略,結(jié)合GGR和Herlemont策略,運(yùn)用3種檢驗(yàn)方法,研究在滬深港證券市場(chǎng)交易中建倉(cāng)策略對(duì)配對(duì)交易年收益率的影響。
隨著參數(shù)尋優(yōu)研究的深入,學(xué)者們開(kāi)始注意到不合適的模型參數(shù)對(duì)配對(duì)交易收益率的不利影響以及固定參數(shù)和靜態(tài)模型的局限性。DO et al.[26]在重新檢驗(yàn)最早的GGR模型[2]的收益能力時(shí)發(fā)現(xiàn),配對(duì)交易的收益率呈下降趨勢(shì),背后原因并非交易者增多導(dǎo)致的交易機(jī)會(huì)減少,而是GGR模型設(shè)定的交易期太短,導(dǎo)致很多配對(duì)因交易期結(jié)束而被強(qiáng)行平倉(cāng);HUCK[6]用S&P100成分股進(jìn)行配對(duì)交易,測(cè)試了不同的形成期長(zhǎng)度和開(kāi)倉(cāng)閾值,也發(fā)現(xiàn)配對(duì)交易的收益率受形成期長(zhǎng)度的影響;邵超等[27]對(duì)A股歷史數(shù)據(jù)進(jìn)行實(shí)證檢驗(yàn)后也發(fā)現(xiàn),配對(duì)交易的收益率與形成期和交易期的長(zhǎng)度有關(guān)。這些研究結(jié)果皆說(shuō)明,交易期和形成期等期限的長(zhǎng)短對(duì)交易收益率有顯著的影響,而固定不變的預(yù)定期限無(wú)法因應(yīng)市場(chǎng)情況的變化作出調(diào)整,因而注定難以獲取最大收益。一些學(xué)者的研究為這種變化找到了理論依據(jù),ALEXAKIS[28]在研究了若干股指的長(zhǎng)期協(xié)整關(guān)系后發(fā)現(xiàn),這種長(zhǎng)期關(guān)系會(huì)受到市場(chǎng)表現(xiàn)的影響,當(dāng)市場(chǎng)趨勢(shì)顯著改變時(shí),投資者應(yīng)該重新構(gòu)建套利組合;張河生等[29]從異方差的角度進(jìn)行分析,對(duì)股指期貨進(jìn)行模擬配對(duì)交易測(cè)試,結(jié)果表明經(jīng)驗(yàn)型模型參數(shù)不能保證交易一直獲得最大利潤(rùn),必須考慮異方差的存在,固定的模型參數(shù)會(huì)喪失很多交易機(jī)會(huì),甚至導(dǎo)致巨大的虧損,應(yīng)該通過(guò)不斷調(diào)試來(lái)選擇參數(shù)最優(yōu)值。
針對(duì)傳統(tǒng)模型存在的缺陷,學(xué)者們提出一些改進(jìn)策略和模型。一種思路是考慮異方差和ARCH效應(yīng),建立基于GARCH模型的協(xié)整套利策略,代表性研究包括李世偉[30]、彭舒怡[31]和何樹(shù)紅等[32],這些學(xué)者的實(shí)證檢驗(yàn)皆證實(shí)其改進(jìn)型模型比傳統(tǒng)策略獲得了更好的套利效果。另外一種思路是嘗試將固定參數(shù)改為動(dòng)態(tài)參數(shù),劉陽(yáng)等[33]將神經(jīng)網(wǎng)絡(luò)與動(dòng)態(tài)GARCH模型相結(jié)合,通過(guò)挖掘價(jià)格偏差中的非線性特征,使動(dòng)態(tài)GARCH模型能夠更及時(shí)地發(fā)現(xiàn)波動(dòng)性的變動(dòng),從而降低傳統(tǒng)靜態(tài)模型的預(yù)測(cè)偏差;邢恩泉等[34]對(duì)協(xié)整配對(duì)交易策略進(jìn)行改進(jìn),利用計(jì)算機(jī)快速循環(huán)運(yùn)算的特點(diǎn),對(duì)經(jīng)驗(yàn)性選擇參數(shù)進(jìn)行遍歷性研究,循環(huán)查找最優(yōu)配對(duì)組合和建倉(cāng)閾值,從而具有根據(jù)數(shù)據(jù)變化自我動(dòng)態(tài)修正的功能。
上述改進(jìn)方案都在各自的特定數(shù)據(jù)樣本上取得一定成效,但是這些方案轉(zhuǎn)而又受到新的使用條件約束,要么需要符合GARCH模型或O-U過(guò)程等,要么需要預(yù)設(shè)經(jīng)驗(yàn)性參數(shù)等專家系統(tǒng),而且不能應(yīng)對(duì)環(huán)境發(fā)生超預(yù)計(jì)變化,因而這些方案仍然具有一定的局限性。因此,有必要開(kāi)發(fā)一種無(wú)需知識(shí)背景、無(wú)需預(yù)定義并且能夠跟隨環(huán)境變化做出自適應(yīng)調(diào)整的動(dòng)態(tài)優(yōu)化策略,這應(yīng)該是進(jìn)一步提高配對(duì)交易效率和績(jī)效的重要突破口。
1.2強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是機(jī)器學(xué)習(xí)的一種主要模式,強(qiáng)化學(xué)習(xí)的相關(guān)算法在沒(méi)有知識(shí)背景和預(yù)定義的情況下通過(guò)數(shù)值化處理能夠表現(xiàn)出強(qiáng)大的學(xué)習(xí)能力,能夠在與環(huán)境的交互中學(xué)習(xí)行為策略。強(qiáng)化學(xué)習(xí)模式在人工智能和計(jì)算機(jī)控制領(lǐng)域已經(jīng)得到較多的實(shí)際應(yīng)用并取得佳績(jī)。Google的Deep Mind公司一直是這方面的領(lǐng)先者,SILVER et al.[35]關(guān)于強(qiáng)化學(xué)習(xí)算法結(jié)合人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于游戲開(kāi)發(fā)以及進(jìn)行人機(jī)圍棋挑戰(zhàn)的研究,其研究成果AlphaGO機(jī)器人挑戰(zhàn)前圍棋世界冠軍,并獲得舉世矚目的勝利。
強(qiáng)化學(xué)習(xí)模式在金融領(lǐng)域也得到一些應(yīng)用。SU-TTON et al.[36]認(rèn)為,在金融相關(guān)問(wèn)題的求解上,不確定性和動(dòng)態(tài)性是必要的組成部分,因此強(qiáng)化學(xué)習(xí)算法很適合這類問(wèn)題的求解。目前強(qiáng)化學(xué)習(xí)模式在金融領(lǐng)域主要運(yùn)用于證券交易尤其高頻交易和投資組合管理。LEE et al.[37]提出一個(gè)基于強(qiáng)化學(xué)習(xí)算法的股票交易框架,利用多智能體的Q-learning算法,通過(guò)定義必要的角色,做出投資決策并進(jìn)行股票仿真交易,他對(duì)韓國(guó)股市的測(cè)試表明該方法比其他類似方法具有更好的性能。TAN et al.[38]使用自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)的人工智能模型,基于強(qiáng)化學(xué)習(xí)算法,提出一個(gè)非套利型的高頻交易系統(tǒng)。不過(guò),強(qiáng)化學(xué)習(xí)模式雖然已開(kāi)始在金融領(lǐng)域有所應(yīng)用,但相對(duì)于其他領(lǐng)域,在金融領(lǐng)域的應(yīng)用還只是處于起步階段,在配對(duì)交易和統(tǒng)計(jì)套利上的具體應(yīng)用和技術(shù)開(kāi)發(fā)更是處于空白。
在眾多強(qiáng)化學(xué)習(xí)算法中,Q-learning學(xué)習(xí)和Sarsa學(xué)習(xí)是兩個(gè)重要的算法,前者是一種離策略,后者是一種在策略,后者的效果通常好于前者,不過(guò)標(biāo)準(zhǔn)Sarsa算法對(duì)狀態(tài)空間有要求,必須是離散的且空間數(shù)較小。在中國(guó),Sarsa算法已開(kāi)始應(yīng)用在不少新興產(chǎn)業(yè),應(yīng)用最多的是機(jī)器人控制[39],其次是交通信號(hào)控制[40]、網(wǎng)絡(luò)建模[41]和組織運(yùn)作過(guò)程控制[42]等。但是,在金融領(lǐng)域的應(yīng)用尚有待開(kāi)發(fā)。
2.1強(qiáng)化學(xué)習(xí)的基本原理
強(qiáng)化學(xué)習(xí)又稱增強(qiáng)學(xué)習(xí)、加強(qiáng)學(xué)習(xí)、再勵(lì)學(xué)習(xí)或激勵(lì)學(xué)習(xí),與監(jiān)督學(xué)習(xí)、統(tǒng)計(jì)模式識(shí)別和人工神經(jīng)網(wǎng)絡(luò)等構(gòu)成機(jī)器學(xué)習(xí)的主要模式,是人工智能領(lǐng)域的關(guān)鍵技術(shù)。但有別于傳統(tǒng)的機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí)的一大優(yōu)點(diǎn)是無(wú)需預(yù)設(shè)專家系統(tǒng),無(wú)需預(yù)知被控對(duì)象和環(huán)境的模型,具有鮮明的自適應(yīng)能力,具有實(shí)時(shí)學(xué)習(xí)和終身學(xué)習(xí)的能力。
強(qiáng)化學(xué)習(xí)的目標(biāo)是在與環(huán)境的試探性交互中學(xué)習(xí)行為策略,以求獲取最大長(zhǎng)期獎(jiǎng)賞。對(duì)強(qiáng)化學(xué)習(xí)過(guò)程的描述見(jiàn)圖1,強(qiáng)化學(xué)習(xí)系統(tǒng)涉及兩個(gè)主體,即作為行動(dòng)者的智能體和智能體所處的環(huán)境,環(huán)境擁有各種可能的復(fù)雜狀態(tài),所有狀態(tài)構(gòu)成狀態(tài)集S。在t時(shí)刻,當(dāng)智能體面對(duì)環(huán)境狀態(tài)st(st∈S)及前一時(shí)刻(t-1)環(huán)境狀態(tài)改變的瞬時(shí)獎(jiǎng)賞值rt時(shí),可在其行為集A中選取一個(gè)合適的行為或稱動(dòng)作at(at∈A)來(lái)執(zhí)行,于是環(huán)境狀態(tài)轉(zhuǎn)移到st+1,同時(shí)智能體立即得到來(lái)自環(huán)境狀態(tài)改變的瞬時(shí)獎(jiǎng)賞值rt+1,根據(jù)此獎(jiǎng)勵(lì),智能體更新其在st狀態(tài)和at動(dòng)作上獲得的經(jīng)驗(yàn),然后決策下一時(shí)刻(t+1)的at+1動(dòng)作。依此循環(huán)往復(fù),智能體通過(guò)與環(huán)境不斷地交互作用,不斷嘗試并調(diào)整自身行為,不斷學(xué)習(xí)如何把狀態(tài)映射到動(dòng)作以獲得最大長(zhǎng)期獎(jiǎng)賞。
圖1 強(qiáng)化學(xué)習(xí)過(guò)程Figure 1 Process of Reinforcement Learning
在上述過(guò)程中,強(qiáng)化學(xué)習(xí)系統(tǒng)還需具備其他幾個(gè)核心要素,即策略函數(shù)、狀態(tài)轉(zhuǎn)移概率函數(shù)、獎(jiǎng)賞函數(shù)和值函數(shù)。
(1)策略函數(shù)即決策函數(shù)D:S→A,用以確定所有狀態(tài)下智能體需要進(jìn)行的動(dòng)作。Dt(s,a)為在t時(shí)刻、s狀態(tài)下選擇a動(dòng)作的概率,或者說(shuō)把s狀態(tài)映射至a動(dòng)作的概率,此種映射即為策略。
(4)值函數(shù)有兩種形式,即狀態(tài)值函數(shù)VD(s)和狀態(tài)行為值函數(shù)QD(s,a)。狀態(tài)值函數(shù)用來(lái)估計(jì)s狀態(tài)對(duì)于智能體來(lái)說(shuō)究竟好到什么程度,其衡量指標(biāo)采用未來(lái)總的期望獎(jiǎng)賞。由于未來(lái)獎(jiǎng)賞還有賴于未來(lái)的動(dòng)作,因此該函數(shù)還與具體的策略D有關(guān)。VD(s)為從s狀態(tài)開(kāi)始一直采用D策略得到的期望獎(jiǎng)賞,即
(1)
其中,ED為一直采用D策略所對(duì)應(yīng)的期望值;γ為未來(lái)獎(jiǎng)賞值折現(xiàn)至現(xiàn)時(shí)的折扣率,γ∈[0,1];rt+k+1為從(t+k)時(shí)刻至(t+k+1)時(shí)刻的瞬時(shí)獎(jiǎng)賞值,k=0,1,2,…,∞。
QD(s,a)為狀態(tài)行為值函數(shù),也稱狀態(tài)-動(dòng)作對(duì)值函數(shù),其函數(shù)值稱為Q值,表示在s狀態(tài)下實(shí)施a動(dòng)作并且以后一直采用D策略時(shí)的期望獎(jiǎng)賞,即
(2)
上述兩種值函數(shù)是估計(jì)未來(lái)全部獎(jiǎng)賞值折現(xiàn)后的總值,皆是對(duì)長(zhǎng)期效果的全局性評(píng)價(jià),兩者都可用作目標(biāo)函數(shù)。強(qiáng)化學(xué)習(xí)系統(tǒng)的任務(wù)就是求得最優(yōu)策略D*,使值函數(shù)達(dá)到最大,即
D*=argDmaxVD(s),s?S
(3)
2.2Q-learning算法和Sarsa算法
強(qiáng)化學(xué)習(xí)的主流算法目前包括動(dòng)態(tài)規(guī)劃算法、蒙特卡洛算法和瞬時(shí)差分算法,瞬時(shí)差分算法因收斂效果好而被廣泛采用。比較流行的瞬時(shí)差分算法包括Q-learning算法和Sarsa算法,兩者均以狀態(tài)行為值函數(shù)Q(s,a)為目標(biāo)函數(shù),是對(duì)馬爾科夫決策過(guò)程框架下的強(qiáng)化學(xué)習(xí)問(wèn)題的求解。Q-learning算法的狀態(tài)行為值更新過(guò)程為
Qt+k+1(st,at)=Qt+k(st,at)+ΔQt+k
(4)
其中,Qt+k(st,at)為(t+k)時(shí)刻的Q值,其起始值Qt(st,at)為隨機(jī)值,也可設(shè)置為0;α為學(xué)習(xí)率,α∈[0,1],在學(xué)習(xí)過(guò)程中從1到0不斷衰減。在一定條件下,Q-learning采用貪心法即可保證收斂。
Sarsa算法是一種基于策略的算法,可視作改進(jìn)的Q-learning算法,其迭代公式為
Qt+k+1(st,at)=Qt+k(st,at)+ΔQt+k
ΔQt+k=α[rt+γQt+k(st+1,at+1)-Qt+k(st,at)]
(5)
可以明顯看出,Q-learning算法是采用最大值進(jìn)行迭代,是一種離策略,與模型無(wú)關(guān)。而Sarsa算法則是采用實(shí)際Q值進(jìn)行迭代,是一種在策略,它與模型有關(guān)。雖然在策略一般好于離策略,但是標(biāo)準(zhǔn)Sarsa算法對(duì)狀態(tài)空間有一定要求,空間必須是離散的,而且空間數(shù)較小。
從迭代公式還可看出,α越大則當(dāng)前學(xué)習(xí)對(duì)Q值的影響越大。學(xué)習(xí)過(guò)程剛開(kāi)始時(shí),智能體沒(méi)有任何經(jīng)驗(yàn),α接近于1,用實(shí)際累積回報(bào)作為Q的估計(jì)值;隨著時(shí)間推移,智能體不斷學(xué)習(xí),知識(shí)的積累越來(lái)越多,對(duì)狀態(tài)的評(píng)估越來(lái)越重要,α就應(yīng)該下降;最后,α趨近于0,智能體只是通過(guò)對(duì)狀態(tài)的評(píng)估來(lái)選擇最好的行動(dòng)。
2.3協(xié)整配對(duì)交易基本原理
配對(duì)交易是統(tǒng)計(jì)套利和量化投資中最重要、最主流的交易策略,在各種投資組合策略中,配對(duì)交易具有自融資和市場(chǎng)中性的特點(diǎn),其收益與大市的相關(guān)度很低,牛熊市和橫盤市皆可獲利。目前主流的配對(duì)交易策略包括協(xié)整配對(duì)交易法(簡(jiǎn)稱協(xié)整套利法或協(xié)整法)、隨機(jī)價(jià)差法和最小距離法,建立在協(xié)整理論基礎(chǔ)上的協(xié)整法應(yīng)用最為廣泛。協(xié)整理論為一些原本不能使用經(jīng)典回歸分析法的非平穩(wěn)序列開(kāi)辟了一種建模途徑,有些非平穩(wěn)序列經(jīng)過(guò)線性組合后卻可能成為平穩(wěn)序列,此類構(gòu)造出來(lái)的平穩(wěn)的“協(xié)整組合”或稱協(xié)整方程可以用來(lái)解釋變量之間長(zhǎng)期穩(wěn)定的均衡關(guān)系,而且資產(chǎn)組合短期的暫時(shí)偏離可被視為統(tǒng)計(jì)套利的機(jī)會(huì)。
協(xié)整法的核心是,認(rèn)為協(xié)整組合的資產(chǎn)價(jià)格具有均值回復(fù)性,即價(jià)差圍繞均值水平上下波動(dòng),并會(huì)以很高概率向均值回歸。當(dāng)組合資產(chǎn)的價(jià)差偏離歷史均值時(shí),預(yù)期這種背離在未來(lái)會(huì)得到糾正,因而認(rèn)為出現(xiàn)了套利機(jī)會(huì),從而做空價(jià)格較高資產(chǎn)并買入價(jià)格較低資產(chǎn),等價(jià)差回歸長(zhǎng)期均衡水平時(shí)再反向平倉(cāng)操作,由此賺取價(jià)差收斂帶來(lái)的收益。
由此可見(jiàn),協(xié)整配對(duì)交易主要涉及兩大工作,一是選擇配對(duì)資產(chǎn),二是設(shè)計(jì)交易模型。首先,從市場(chǎng)上找出相關(guān)性較高的資產(chǎn)進(jìn)行配對(duì),并檢驗(yàn)其間是否存在協(xié)整關(guān)系,常用方法有兩種,即Engle-Granger兩步協(xié)整檢驗(yàn)法和Johansen協(xié)整檢驗(yàn)法。兩種方法都是首先將兩個(gè)時(shí)間序列做回歸,然后針對(duì)殘差項(xiàng)做平穩(wěn)性檢驗(yàn),若是平穩(wěn)的,就認(rèn)為存在協(xié)整關(guān)系。兩種方法的主要差別在于,前者采用一元線性回歸方程,后者采用多元方程技術(shù),因此Johansen檢驗(yàn)法在假設(shè)和應(yīng)用上的限制較少。
協(xié)整配對(duì)交易的第2個(gè)重要環(huán)節(jié)是設(shè)計(jì)交易模型,其核心工作是設(shè)計(jì)和確定模型參數(shù)。最重要的參數(shù)有4個(gè),即評(píng)估時(shí)間窗口、交易時(shí)間窗口、開(kāi)倉(cāng)閾值和平倉(cāng)閾值。評(píng)估時(shí)間窗口主要用于協(xié)整測(cè)試,以評(píng)估協(xié)整參數(shù)和系數(shù),重新評(píng)估價(jià)差方程;交易時(shí)間窗口是止損觸發(fā)器,如果時(shí)間序列超過(guò)了交易時(shí)間窗口仍然沒(méi)有收斂到均值,那么就會(huì)進(jìn)行強(qiáng)行止損;開(kāi)倉(cāng)閾值是開(kāi)倉(cāng)指示器,當(dāng)配對(duì)資產(chǎn)的價(jià)差超越開(kāi)倉(cāng)閾值時(shí),將產(chǎn)生交易信號(hào)和開(kāi)倉(cāng)動(dòng)作;平倉(cāng)閾值是另一個(gè)止損觸發(fā)器,平倉(cāng)閾值寬于開(kāi)倉(cāng)閾值,當(dāng)配對(duì)資產(chǎn)的價(jià)差不斷遠(yuǎn)離長(zhǎng)期的價(jià)格中樞,并超越平倉(cāng)閾值時(shí),就將強(qiáng)行平倉(cāng)止損,這是配對(duì)交易最重要的風(fēng)控措施。4個(gè)參數(shù)的優(yōu)化原則是投資組合的綜合績(jī)效最大化,目前常用的績(jī)效評(píng)定指標(biāo)包括夏普指標(biāo)、特雷諾指標(biāo)、詹森指標(biāo)、特雷諾-布萊克估價(jià)比率和索提諾比率等。
3.1基于強(qiáng)化學(xué)習(xí)模式的協(xié)整配對(duì)交易模型
如前所述,在傳統(tǒng)的協(xié)整配對(duì)交易模型中,模型參數(shù)往往采用靜態(tài)常數(shù),但由于金融資產(chǎn)價(jià)格的時(shí)間序列存在明顯的異方差性,因此該方法具有相當(dāng)大的局限性。針對(duì)此傳統(tǒng)模型的缺陷,一些參數(shù)調(diào)整型改進(jìn)方案已取得一定成效,但是又受到新的使用條件的約束,而且不能應(yīng)對(duì)環(huán)境發(fā)生的超預(yù)計(jì)變化,因此仍然具有不可忽視的局限性。為此,本研究將強(qiáng)化學(xué)習(xí)的思想和算法引入交易模型設(shè)計(jì),不僅幫助模型實(shí)現(xiàn)參數(shù)調(diào)整,而且助其實(shí)現(xiàn)自適應(yīng)模式的動(dòng)態(tài)優(yōu)化。
基于強(qiáng)化學(xué)習(xí)模式的改進(jìn)型配對(duì)交易系統(tǒng)見(jiàn)圖2,在該系統(tǒng)中交易決策系統(tǒng)承擔(dān)交易指令的決策和執(zhí)行,是整個(gè)配對(duì)交易系統(tǒng)的核心,對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)系統(tǒng)中的智能體;證券市場(chǎng)和證券價(jià)格是配對(duì)交易系統(tǒng)中的環(huán)境及環(huán)境狀態(tài);投資績(jī)效評(píng)估指標(biāo)被用作獎(jiǎng)賞值;評(píng)估時(shí)間窗口、交易時(shí)間窗口、開(kāi)倉(cāng)閾值、平倉(cāng)閾值4個(gè)參數(shù)構(gòu)成智能體的行為,并以實(shí)時(shí)動(dòng)態(tài)調(diào)整的方式進(jìn)行工作。
圖2 基于強(qiáng)化學(xué)習(xí)模式的配對(duì)交易決策過(guò)程Figure 2 Workflow of RL Pairs Trading System
整個(gè)系統(tǒng)的工作流程從預(yù)設(shè)4個(gè)參數(shù)初始值開(kāi)始,智能體密切監(jiān)控環(huán)境狀態(tài),當(dāng)配對(duì)資產(chǎn)的價(jià)差偏離長(zhǎng)期價(jià)差中樞并觸及開(kāi)倉(cāng)閾值時(shí),智能體將指示對(duì)配對(duì)資產(chǎn)組合進(jìn)行相應(yīng)的開(kāi)倉(cāng)操作;在持倉(cāng)建立后,智能體繼續(xù)不斷地監(jiān)控和評(píng)估環(huán)境狀態(tài),并實(shí)時(shí)動(dòng)態(tài)地調(diào)整參數(shù)值;一旦配對(duì)資產(chǎn)的價(jià)差縮小并回到價(jià)差中樞以下,或者價(jià)差繼續(xù)擴(kuò)大并觸及平倉(cāng)閾值,二者中發(fā)生任意一個(gè)便會(huì)觸發(fā)平倉(cāng)止損操作,同時(shí)輸出獎(jiǎng)賞值作為獎(jiǎng)勵(lì);然后,當(dāng)前的信息和值函數(shù)被更新,算法重新進(jìn)行迭代,智能體繼續(xù)密切關(guān)注環(huán)境狀態(tài),等待下一次投資組合建倉(cāng);如此循環(huán)往復(fù),直至投資期終結(jié)。在整個(gè)決策運(yùn)行過(guò)程中,智能體不斷地根據(jù)每次投資組合的開(kāi)倉(cāng)和平倉(cāng)獲得的經(jīng)驗(yàn)以及環(huán)境狀態(tài)的變化動(dòng)態(tài)調(diào)整最優(yōu)參數(shù)。
(6)
其中,ri為第i期的收益率,N為總期數(shù)。(6)式表明,當(dāng)交易策略定為最大化收益且同時(shí)防范回撤風(fēng)險(xiǎn)時(shí),索提諾比率是一個(gè)很好的交易策略性能評(píng)定指標(biāo)。
在目前使用最廣的兩個(gè)強(qiáng)化學(xué)習(xí)算法(即Q-learning算法和Sarsa算法)中,Q-learning是一種與模型無(wú)關(guān)的離策略算法,Sarsa算法則與模型有關(guān),是一種在策略。雖然Sarsa算法對(duì)狀態(tài)空間在數(shù)量和離散性上有一定的要求,但配對(duì)交易涉及的狀態(tài)空間能夠比較容易地符合這些要求??紤]到在策略的效果一般好于離策略,而且本研究主要是驗(yàn)證模型的有效性,因此采用Sarsa算法進(jìn)行研究。
在配對(duì)交易模型涉及的4個(gè)參數(shù)中,開(kāi)倉(cāng)閾值和平倉(cāng)閾值屬于連續(xù)型參數(shù),本研究通過(guò)均分處理為其做離散化,每0.1個(gè)單位抽取一個(gè)數(shù)值,這樣處理后,所有參數(shù)皆為離散型,所有參數(shù)的每一種排列組合被視為一個(gè)動(dòng)作。Sarsa算法的迭代公式為
Qk(st,at)=Qk-1(st,at)+α[rt+γQk-1(st+1,at+1)-
Qk-1(st,at)]
(7)
此外,為了避免陷入局部最優(yōu),本研究采用ε-greedy探索策略,在選取動(dòng)作時(shí)引入一定程度的隨機(jī)變化來(lái)解決開(kāi)發(fā)與利用之間的平衡問(wèn)題,即以概率1-ε(ε∈[0,1])利用已有策略,以概率ε搜索新的策略。在學(xué)習(xí)初期,ε可選較大值,隨著時(shí)間推移,智能體的學(xué)習(xí)在加深,經(jīng)驗(yàn)在豐富,隨機(jī)性便可逐漸降低,ε逐漸減小。
在本研究編制的算法中,首先對(duì)動(dòng)作進(jìn)行初始化,為評(píng)估時(shí)間窗口、交易時(shí)間窗口、開(kāi)倉(cāng)閾值和平倉(cāng)閾值4個(gè)參數(shù)設(shè)定初始值;然后,選擇足夠數(shù)量的迭代來(lái)訓(xùn)練智能體;最后,依據(jù)ε-greedy策略優(yōu)化上述4個(gè)參數(shù)的具體值來(lái)作為智能體的動(dòng)作。根據(jù)前面提出的方法,索提諾比率作為計(jì)算獎(jiǎng)勵(lì)的指標(biāo),其返回值(即獎(jiǎng)賞值)在學(xué)習(xí)過(guò)程中通過(guò)環(huán)境不斷反饋給智能體,最后,索提諾比率在完成所有任務(wù)后還要作為最終數(shù)據(jù)輸出。交易模型所對(duì)應(yīng)的計(jì)算機(jī)流程圖見(jiàn)圖3。
3.2仿真測(cè)試的數(shù)據(jù)和樣本
為了更好地結(jié)合中國(guó)市場(chǎng)的實(shí)際情況,本研究以產(chǎn)品品種多、流動(dòng)性好、可借券賣空的中國(guó)債券市場(chǎng)為研究對(duì)象。在具體品種上,本研究選擇交易量最大的3年期國(guó)債、5年期國(guó)債、7年期國(guó)債、3年期金融債和3年期AAA信用債,按照期限相同或發(fā)行主體相同的原則,將上述債券組成3年期國(guó)債-5年期國(guó)債、5年期國(guó)債-7年期國(guó)債、3年期國(guó)債-3年期金融債、3年期國(guó)債-3年期AAA信用債4組配對(duì)組合。
由于債券的日收盤價(jià)存在局部不連續(xù)現(xiàn)象,因而本研究選擇中債收益率估值曲線作為具體研究數(shù)據(jù),該數(shù)據(jù)源的截面數(shù)據(jù)不僅連續(xù),而且與真實(shí)成交價(jià)最為貼近。本研究以每日估值收益率作為離散時(shí)間序列進(jìn)行實(shí)驗(yàn)測(cè)試,原始數(shù)據(jù)來(lái)自于WIND數(shù)據(jù)庫(kù),選取2004年至2016年全部數(shù)據(jù),數(shù)據(jù)的統(tǒng)計(jì)信息見(jiàn)表1。鑒于債券在某些特定日期會(huì)出現(xiàn)單日大幅跳躍但次日復(fù)原的特殊情況,該現(xiàn)象雖然對(duì)交易模型影響巨大,但在實(shí)際操作中可以人為地主動(dòng)預(yù)判并加以控制,因此對(duì)實(shí)盤交易的影響并不大,因而本研究將這類數(shù)據(jù)作為異常點(diǎn)進(jìn)行過(guò)濾處理。
3.3協(xié)整關(guān)系檢驗(yàn)
從直觀看,以3年期國(guó)債-5年期國(guó)債這組配對(duì)組合為例,兩個(gè)債券的收益率隨時(shí)間推移向同一方向移動(dòng),見(jiàn)圖4(a)。圖4(b)為其收益率差值圖,更直觀地反映出兩者之間的協(xié)整關(guān)系,價(jià)差圍繞均衡位置上下波動(dòng)。其他3組配對(duì)組合也存在類似現(xiàn)象。
本研究采用Johansen協(xié)整檢驗(yàn)法進(jìn)行協(xié)整檢驗(yàn)。以3年期國(guó)債-5年期國(guó)債配對(duì)組合為例,檢驗(yàn)結(jié)果顯示,似然比檢驗(yàn)值為31.90,0.10、0.05、0.01水平的臨界值分別為17.85、19.96、24.60。31.90均大于這些臨界值,表示在90%、95%、99%置信水平上拒絕了不存在協(xié)整關(guān)系的假設(shè),即3年期國(guó)債與5年期國(guó)債的價(jià)格之間存在協(xié)整關(guān)系。其他3組配對(duì)組合也都得到類似的檢驗(yàn)結(jié)果,在90%置信水平上全都存在顯著的協(xié)整關(guān)系。
表1 樣本數(shù)據(jù)的統(tǒng)計(jì)信息Table 1 Statistics of the Sample
注:3年期AAA信用債上市較晚,因而數(shù)據(jù)相對(duì)較少。
圖3 基于強(qiáng)化學(xué)習(xí)模式的配對(duì)交易模型計(jì)算機(jī)流程圖Figure 3 Computer Flow Chart of the RL Pairs Trading Model
3.4仿真配對(duì)交易結(jié)果和分析
在強(qiáng)化學(xué)習(xí)算法的操作中,需要提供訓(xùn)練集用于配對(duì)交易模型的學(xué)習(xí),為此本研究選擇樣本中的75%數(shù)據(jù)作為樣本訓(xùn)練集,其他數(shù)據(jù)作為測(cè)試集,見(jiàn)表2。整個(gè)訓(xùn)練過(guò)程迭代1 000次,在訓(xùn)練階段α=1,ε=1。 4個(gè)參數(shù)的集合(即動(dòng)作)通過(guò)ε-greedy策略進(jìn)行選擇,同時(shí)依據(jù)狀態(tài)更新對(duì)應(yīng)的值函數(shù)。在之后的測(cè)試階段,智能體選擇最優(yōu)參數(shù)進(jìn)行仿真交易。
以3年期國(guó)債-5年期國(guó)債這組配對(duì)組合為例,分別采用傳統(tǒng)的靜態(tài)參數(shù)協(xié)整配對(duì)交易模型(cointegration pairs model,CPM)和本研究提出的強(qiáng)化學(xué)習(xí)型動(dòng)態(tài)參數(shù)協(xié)整配對(duì)交易模型(reinforcement learning model,RLM)進(jìn)行仿真交易,測(cè)試在訓(xùn)練集和測(cè)試集中的效果。對(duì)于訓(xùn)練集,本研究通過(guò)傳統(tǒng)的梯度尋優(yōu)方法,為其選取表現(xiàn)最好的一組數(shù)值作為最優(yōu)參數(shù);對(duì)于測(cè)試集,本研究只是設(shè)定4個(gè)參數(shù)的選取范圍和精度,由系統(tǒng)依據(jù)當(dāng)前狀態(tài)以及本研究設(shè)計(jì)的模型自動(dòng)地、動(dòng)態(tài)地選擇出最優(yōu)參數(shù)。
為了全面展示和比較兩種交易模型的運(yùn)行效果,本研究分別給出兩種交易法在訓(xùn)練集和測(cè)試集的交易信號(hào)圖和收益表現(xiàn)圖。圖5(a)和圖5(b)給出傳統(tǒng)配對(duì)交易法在訓(xùn)練集中的效果,圖6(a)和圖6(b)給出強(qiáng)化學(xué)習(xí)型配對(duì)交易法在訓(xùn)練集中的表現(xiàn),圖7(a)和圖7(b)、圖8(a)和圖8(b)分別為兩種方法在測(cè)試集中的表現(xiàn)。在交易信號(hào)圖中,藍(lán)色為開(kāi)倉(cāng)信號(hào)線,紅色為平倉(cāng)信號(hào)線,紫色為止損線,紅色區(qū)塊(上半部陰影區(qū))表示持有組合多頭,綠色區(qū)塊(下半部陰影區(qū))表示空頭。在收益表現(xiàn)圖中,可以看到累計(jì)收益率、日均收益率和最大回撤的動(dòng)態(tài)情況。
(a)收益率 (b)收益率差值
圖4 3年期國(guó)債和5年期國(guó)債的收益率Figure 4 Historical Yields of 3Y Treasury and 5Y Treasury
注:*為在0.10水平上顯著。
表3的上半部分第2列~第5列數(shù)據(jù)匯總了CPM和RLM在訓(xùn)練集和測(cè)試集中各項(xiàng)性能表現(xiàn)。在訓(xùn)練集上,RLM在收益和風(fēng)險(xiǎn)上的表現(xiàn)已經(jīng)全面超越CPM。在測(cè)試集上,RLM的性能提高程度則更大,年化復(fù)合收益率從1.80%大幅提高至4.30%,索提諾比率也從0.04大幅提升至0.09;與此同時(shí),承受的市場(chǎng)風(fēng)險(xiǎn)和操作風(fēng)險(xiǎn)不僅沒(méi)有同步上升,反而明顯下降,反映市場(chǎng)風(fēng)險(xiǎn)的最大回撤從6.50%降至5.70%,影響操作風(fēng)險(xiǎn)的交易次數(shù)從45次降至37次。
由于強(qiáng)化學(xué)習(xí)算法具有學(xué)習(xí)功能,因此在訓(xùn)練過(guò)程中,隨著迭代次數(shù)的增多,會(huì)不斷獲得經(jīng)驗(yàn),最終可使累計(jì)收益率收斂于最大值。本研究的測(cè)試中,經(jīng)過(guò)8 000次迭代后,系統(tǒng)的累計(jì)收益率達(dá)到最大值,見(jiàn)圖9。
3.5穩(wěn)健性檢驗(yàn)
把新模型推廣運(yùn)用到本研究的全部4個(gè)配對(duì)組合,比較CPM與RLM兩種方法的實(shí)施效果,仿真結(jié)果見(jiàn)表3。由表3可知,在測(cè)試集上,RLM的收益率比CPM算法大幅提高76%~383%;索提諾比率提高50%~125%;最大回撤也獲得不同程度的下降,降幅最高達(dá)到62%。顯然,RLM改進(jìn)模型的運(yùn)行效果全面地、顯著地優(yōu)于傳統(tǒng)CPM模型。
為了對(duì)測(cè)試結(jié)果進(jìn)行更嚴(yán)格的檢驗(yàn)和分析,本研究進(jìn)一步對(duì)兩種方法在測(cè)試集上的收益率差異性進(jìn)行顯著性檢驗(yàn)。各做15組測(cè)試,然后采用t檢驗(yàn)對(duì)收益率均值之差進(jìn)行假設(shè)檢驗(yàn),CPM和RLM的收益率及其差異的顯著性檢驗(yàn)結(jié)果見(jiàn)表4。檢驗(yàn)結(jié)果表明,在95%甚至99%的置信水平上,基于強(qiáng)化學(xué)習(xí)算法的配對(duì)交易模型在收益率上顯著優(yōu)于傳統(tǒng)的協(xié)整配對(duì)交易模型。
4.1研究結(jié)果
本研究設(shè)計(jì)一種基于強(qiáng)化學(xué)習(xí)模式的配對(duì)交易模型,主要模型參數(shù)能夠自動(dòng)地進(jìn)行動(dòng)態(tài)優(yōu)化,同時(shí)為該新模型設(shè)計(jì)并構(gòu)建一個(gè)計(jì)算機(jī)交易系統(tǒng),并進(jìn)行仿真交易。仿真交易的測(cè)試結(jié)果表明,新模型的運(yùn)行效果全面超越傳統(tǒng)模型。新模型能夠顯著提升交易系統(tǒng)的獲利能力,收益率和索提諾比率獲得大幅提高;還能降低投資風(fēng)險(xiǎn),最大回撤出現(xiàn)明顯下降;提高了套利交易的執(zhí)行效率,交易次數(shù)明顯減少,套利成本得以下降;具有持續(xù)學(xué)習(xí)的能力,能促進(jìn)累計(jì)收益率不斷上升并最后收斂于最大值。測(cè)試結(jié)果還表明,協(xié)整配對(duì)交易在中國(guó)債券市場(chǎng)同樣具有有效性,能夠獲得顯著正收益。
(a)交易信號(hào)圖 (b)收益表現(xiàn)圖
圖5CPM在3年期國(guó)債-5年期國(guó)債配對(duì)組合上的仿真交易(訓(xùn)練集)
Figure5CPMSimulatedTradingon3YTreasury-5YTreasuryPair(inSample)
(a)交易信號(hào)圖 (b)收益表現(xiàn)圖
圖6RLM在3年期國(guó)債-5年期國(guó)債配對(duì)組合上的仿真交易(訓(xùn)練集)
Figure6RLMSimulatedTradingon3YTreasury-5YTreasuryPair(inSample)
(a)交易信號(hào)圖 (b)收益表現(xiàn)圖
圖7CPM在3年期國(guó)債-5年期國(guó)債配對(duì)組合上的仿真交易(測(cè)試集)
Figure7CPMSimulatedTradingon3YTreasury-5YTreasuryPair(outSample)
4.2技術(shù)貢獻(xiàn)和應(yīng)用價(jià)值
①本研究設(shè)計(jì)的新模型具有較大的應(yīng)用價(jià)值,新模型為證券自動(dòng)交易領(lǐng)域增添了一個(gè)新的交易策略和模型,有助于應(yīng)對(duì)傳統(tǒng)配對(duì)交易模型獲利能力的下降,提升配對(duì)交易日漸式微的獲利機(jī)會(huì)。②對(duì)傳統(tǒng)交易模型進(jìn)行了一次較大程度的改進(jìn),將強(qiáng)化學(xué)習(xí)思想與配對(duì)交易策略相結(jié)合,設(shè)計(jì)開(kāi)發(fā)出一種新型配對(duì)交易模型,實(shí)現(xiàn)了模型參數(shù)的自適應(yīng)動(dòng)態(tài)調(diào)整。③隨著中國(guó)融資融券和股指期貨等做空機(jī)制和相關(guān)產(chǎn)品的不斷開(kāi)閘,新模型可為投資者提供一種新興有效的套利手段和風(fēng)控工具。④選擇中國(guó)債券市場(chǎng)中交易量最大的5種債券為研究對(duì)象,填補(bǔ)了配對(duì)交易研究在國(guó)內(nèi)債券市場(chǎng)上的空白。
(a)交易信號(hào)圖 (b)收益表現(xiàn)圖
圖8 RLM在3年期國(guó)債-5年期國(guó)債配對(duì)組合上的仿真交易(測(cè)試集)Figure 8 RLM Simulated Trading on 3Y Treasury-5Y Treasury Pair(out Sample)
表4 CPM和RLM收益率差異的顯著性檢驗(yàn)Table 4 Significance Tests for the Performance Difference Between CPM and RLM
注:**為在0.050水平上顯著,***為在0.010水平上顯著。
圖9 RLM在3年期國(guó)債-5年期國(guó)債配對(duì)組合測(cè)試集上的學(xué)習(xí)過(guò)程Figure 9 Learning Process of RLM on 3Y Treasury-5Y Treasury in Sample Data
4.3局限和展望
①受到樣本條件的限制,雖然選擇中國(guó)市場(chǎng)上交易量最大的5種債券作為研究對(duì)象,但研究數(shù)據(jù)未能覆蓋更多債券品種,尤其是低級(jí)債,這將令本研究結(jié)論具有一定的局限性,未來(lái)研究可以進(jìn)一步對(duì)更多債券進(jìn)行全面檢驗(yàn);②本研究采用一種指標(biāo)作為投資組合績(jī)效的評(píng)定標(biāo)準(zhǔn),未來(lái)研究可以嘗試多種指標(biāo),以進(jìn)一步明確研究結(jié)論的適用范圍;③本研究對(duì)交易模型初始參數(shù)采取的是主觀設(shè)定,雖然自適應(yīng)模型的最大特點(diǎn)就是自動(dòng)優(yōu)化參數(shù),但若未來(lái)研究能對(duì)初始參數(shù)進(jìn)行高效初選,將有助于提高模型的收斂速度。
[1]吳曉求.證券投資學(xué).北京:中國(guó)人民大學(xué)出版社,2014:445-492.
WU Xiaoqiu.Securitiesinvestment.Beijing:China Renmin University Press,2014:445-492.(in Chinese)
[2]GATEV E,GOETZMANN W N,ROUWENHORST K G.Pairs trading:performance of a relative-value arbitrage rule.TheReviewofFinancialStudies,2006,19(3):797-820.
[3]GRANGER C W J.Some properties of time series data and their use in econometric model specification.JournalofEconometrics,1981,16(1):121-130.
[4]JOHANSEN S. Statistical analysis of cointegration vectors.JournalofEconomicDynamicsandControl,1988,12(2/3):231-254.
[5]VIDYAMURTHY G.Pairstrading:quantitativemethodsandanalysis.Hoboken,NJ:Wiley,2004:73-136.
[6]HUCK N.Pairs selection and outranking:an application to the S&P 100 index.EuropeanJournalofOperationalResearch,2009,196(2):819-825.
[7]HUCK N.Pairs trading and outranking:the multi-step-ahead forecasting case.EuropeanJournalofOperationalResearch,2010,207(3):1702-1716.
[8]BOTOS B,NAGY L,ORMOS M.Pairs trading arbitrage strategy in the old and new EU member states∥Proceedingsofthe14thInternationalConferenceonFinanceandBanking.Ostrava,2013:21-31.
[9]胡倫超,余樂(lè)安,湯鈴.融資融券背景下證券配對(duì)交易策略研究——基于協(xié)整和距離的兩階段方法.中國(guó)管理科學(xué),2016,24(4):1-9.
HU Lunchao,YU Lean,TANG Ling.Pairs trading strategy research considering short selling and margin trading:a two-stage approach based on cointegration and distance methods.ChineseJournalofManagementScience,2016,24(4):1-9.(in Chinese)
[10] 趙勝民,閆紅蕾.A股市場(chǎng)統(tǒng)計(jì)套利風(fēng)險(xiǎn)實(shí)證分析.管理科學(xué),2015,28(5):93-105.
ZHAO Shengmin,YAN Honglei.Empirical study on the risk of statistical srbitrage in A-share market.JournalofManagementScience,2015,28(5):93-105.(in Chinese)
[11] 高輝,趙進(jìn)文.滬深300股指套期保值及投資組合實(shí)證研究.管理科學(xué),2007,20(2):80-90.
GAO Hui,ZHAO Jinwen.Empirical research for hedge ratio and shares portfolio of Shanghai-Shenzhen 300 Shares Index Futures.JournalofManagementScience,2007,20(2):80-90.(in Chinese)
[12] LIU L,BOGOMOLOV T.The law of one price and arbitrage on China′s dual-listings.TheInternationalJournalofBankingandFinance,2012,9(2):58-76.
[13] KUO K,LUU P,NGUYEN D,et al.Pairs trading:an optimal selling rule.MathematicalControlandRelatedFields,2015,5(3):489-499.
[14] SONG Q,ZHANG Q.An optimal pairs-trading rule.Automatica,2013,49(10):3007-3014.
[15] LARSSON S,LINDBERG C,WARFHEIMER M.Optimal closing of a pair trade with a model containing jumps.ApplicationsofMathematics,2013,58(3):249-268.
[16] NGO M M,PHAM H.Optimal switching for the pairs trading rule:a viscosity solutions approach.JournalofMathematicalAnalysisandApplications,2016,441(1):403-425.
[17] ZENG Z,LEE C G.Pairs trading:optimal thresholds and profitability.QuantitativeFinance,2014,14(11):1881-1893.
[18] CHARALAMBOUS K,SOPHOCLEOUS C,O′HARA J G,et al.A deductive approach to the solution of the problem of optimal pairs trading from the viewpoint of stochastic control with time-dependent parameters.MathematicalMethodsintheAppliedSciences,2015,38(17):4448-4460.
[19] 陳艷,王宣承.基于變量選擇和遺傳網(wǎng)絡(luò)規(guī)劃的期貨高頻交易策略研究.中國(guó)管理科學(xué),2015,23(10):47-56.
CHEN Yan,WANG Xuancheng.A study on high-frequency futures trading strategy based on variable selection and genetic network programming.ChineseJournalofManagementScience,2015,23(10):47-56.(in Chinese)
[20] 李棟,張文宇.基于FAM-ELM股票價(jià)格預(yù)測(cè)研究.計(jì)算機(jī)仿真,2014,31(8):209-212,316.
LI Dong,ZHANG Wenyu.Stock price prediction based on FAM and ELM.ComputerSimulation,2014,31(8):209-212,316.(in Chinese)
[21] 李鋒剛,駱林,陳亞波,等.求解均值-CVaR投資組合模型的改進(jìn)粒子群算法.計(jì)算機(jī)工程與科學(xué),2016,38(9):1870-1877.
LI Fenggang,LUO Lin,CHEN Yabo,et al.An improved particle swarm optimization algorithm for portfolio based on mean-CVaR model.ComputerEngineering&Science,2016,38(9):1870-1877.(in Chinese)
[22] 劉永波.投資組合優(yōu)化的可行性規(guī)則人工蜂群算法.智能系統(tǒng)學(xué)報(bào),2014,9(4):491-498.
LIU Yongbo.An artificial bee colony algorithm with the feasibility rule for portfolio investment optimizations.CAAITransactionsonIntelligentSystems,2014,9(4):491-498.(in Chinese)
[23] 歐陽(yáng)紅兵,李進(jìn).基于協(xié)整技術(shù)配對(duì)交易策略的最優(yōu)閾值研究.投資研究,2015,34(11):79-90.
OUYANG Hongbing,LI Jin.The optimal threshold of pairs trading strategy based on co-integration analysis.ReviewofInvestmentStudies,2015,34(11):79-90.(in Chinese)
[24] 唐國(guó)強(qiáng),高偉,覃良文,等.基于切比雪夫不等式的白糖高頻數(shù)據(jù)統(tǒng)計(jì)套利.統(tǒng)計(jì)與決策,2016,445(1):87-90.
TANG Guoqiang,GAO Wei,TAN Liangwen,et al.The statistical arbitrage strategy of high frequency sugar data based on Chebyshev inequality.Statistics&Decision,2016,445(1):87-90.(in Chinese)
[25] 麥永冠,王蘇生.WM-FTBD配對(duì)交易建倉(cāng)改進(jìn)策略及滬深港實(shí)證檢驗(yàn).管理評(píng)論,2014,26(1):30-40.
MAI Yongguan,WANG Susheng.WM-FTBD improved pairs trading open strategy and the empirical tests in Shanghai,Shenzhen and Hong Kong stock markets.ManagementReview,2014,26(1):30-40.(in Chinese)
[26] DO B,FAFF R.Does simple pairs trading still work?.FinancialAnalystsJournal,2010,66(4):83-95.
[27] 邵超,范宏.時(shí)間參數(shù)的設(shè)定對(duì)配對(duì)交易收益率的影響.經(jīng)濟(jì)管理學(xué)刊,2013,2(5):183-188.
SHAO Chao,FAN Hong.The influence between the time parameters and the return of pairs trading.EconomicManagementJournal,2013,2(5):183-188.(in Chinese)
[28] ALEXAKIS C.Long-run relations among equity indices under different market conditions:implications on the implementation of statistical arbitrage strategies.JournalofInternationalFinancialMarkets,InstitutionsandMoney,2010,20(4):389-403.
[29] 張河生,聞岳春.基于參數(shù)調(diào)整的協(xié)整配對(duì)交易策略:理論模型及應(yīng)用.西部金融,2013,455(1):11-16.
ZHANG Hesheng,WEN Yuechun.The co-integration pairing trading strategy based on the parameter adjustment:the theory model and application.WestChinaFinance,2013,455(1):11-16.(in Chinese)
[30] 李世偉.基于協(xié)整理論的滬深300股指期貨跨期套利研究.中國(guó)計(jì)量大學(xué)學(xué)報(bào),2011,22(2):198-202.
LI Shiwei.Research on the calendar spread arbitrage of CSI 300 stock index futures based on Co integration theory.JournalofChinaUniversityofMetrology,2011,22(2):198-202.(in Chinese)
[31] 彭舒怡.基于GARCH模型銀行股配對(duì)交易研究.知識(shí)經(jīng)濟(jì),2013(5下):61-63.
PENG Shuyi.Research of bank stocks pairs trading based on GARCH model.KnowledgeEconomy,2013(5-3):61-63.(in Chinese)
[32] 何樹(shù)紅,張?jiān)虑?張文.基于GARCH模型的股指期貨協(xié)整跨期套利實(shí)證研究.數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013,43(20):274-279.
HE Shuhong,ZHANG Yueqiu,ZHANG Wen.Empirical study on calendar spread arbitrage of CSI 300 stock index futures based on cointegration theory and GARCH model.MathematicsinPracticeandTheory,2013,43(20):274-279.(in Chinese)
[33] 劉陽(yáng),李艷麗, 陸貴斌.基于信息更新NN-GARCH模型的統(tǒng)計(jì)套利研究.統(tǒng)計(jì)與決策,2016,445(2):169-171.
LIU Yang,LI Yanli,LU Guibin.Research of statistical arbitrage strategy based on NN-GARCH model.Statistics&Decision,2016,445(2):169-171.(in Chinese)
[34] 邢恩泉,尹濤.協(xié)整模型的配對(duì)交易策略優(yōu)化.經(jīng)濟(jì)數(shù)學(xué),2015,32(1):65-69.
XING Enquan,YIN Tao.The improvements in pairs trading strategy of the cointegration model:ergodic research on the basis of computer technology.JournalofQuantitativeEconomics,2015,32(1):65-69.(in Chinese)
[35] SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search.Nature,2016,529(7587):484-489.
[36] SUTTON R S,BARTO A G.Reinforcementlearning:anintroduction.Cambridge,MA:MIT Press,1998:42-56.
[37] LEE J W,PARK J,JANGMIN O,et al.A multi-agent approach toQ-learning for daily stock trading.IEEETransactionsonSystems,Man,andCybernetics,PartA:SystemsandHumans,2007,37(6):864-877.
[38] TAN Z,QUEK C,CHENG P Y K.Stock trading with cycles:a financial application of ANFIS and reinforcement learning.ExpertSystemswithApplications,2011,38(5):4741-4755.
[39] 李靜靜.基于模糊K均值聚類和Sarsa(λ)算法的自適應(yīng)爬壁機(jī)器人路徑規(guī)劃.計(jì)算機(jī)測(cè)量與控制,2014,22(9):2879-2881,2885.
LI Jingjing.Adaptive path planning of wall-climbing robot based on MIP and improved fuzzyK-means algorithm and Sarsa(λ).ComputerMeasurement&Control,2014,22(9):2879-2881,2885.(in Chinese)
[40] 戈軍,周蓮英.基于SARSA(λ)的實(shí)時(shí)交通信號(hào)控制模型.計(jì)算機(jī)工程與應(yīng)用,2015,51(24):244-248.
GE Jun,ZHOU Lianying.Real-time traffic signal control model based on SARSA(λ).ComputerEngineeringandApplications,2015,51(24):244-248.(in Chinese)
[41] 劉小峰,陳國(guó)華,李真.零售網(wǎng)絡(luò)的結(jié)構(gòu)建模與演化分析.管理科學(xué),2009,22(4):23-30.
LIU Xiaofeng,CHEN Guohua,LI Zhen.The structure of the retail networks:simulation modeling and evolution analysis.JournalofManagementScience,2009,22(4):23-30.(in Chinese)
[42] 石春生,梁洪松.組織運(yùn)作過(guò)程中的自適應(yīng)機(jī)理.管理科學(xué),2004,17(1):12-16.
SHI Chunsheng,LIANG Hongsong.Self-adaptation mechanism in the organizational process.JournalofManagementScience,2004,17(1):12-16.(in Chinese)
FundedProject:Supported by the National Natural Science Foundation of China(71571048)
Biography:HU Wenwei, doctor in management, is an associate professor in the School of Management at Shanghai University of Engineering Science. Her research interests include financial engineering and securities investment. Her representative paper titled “Pricing value difference between barrier and vanilla options with binomial pricing method” was published in theJournalofShanghaiJiaotongUniversity(Issue 5, 2012). E-mail:huwenwei@sues.edu.cn
HU Jianqiang, doctor in management, is a professor in the School of Management at Fudan University. His research interest includes financial mathematics. His representative paper titled “Efficient simulation resource sharing and allocation for selecting the best” was published in theIEEETransactionsonAutomaticControl(Issue 4, 2013). E-mail:jqhu@fudan.edu.cn
LI Zhan, doctor in management, is a professor in the Institute of Applied Economics at Shanghai Academy of Social Sciences. His research interest includes investment management. His representative paper titled “A comparative research of average risk of portfolio on different strategies and risk diversification” was published in theJournalofShanghaiJiaotongUniversity(Issue 12, 2011). E-mail:zli@sjtu.edu.cn
ZHOU Jianfeng, is an investment manager in the Fixed-income Division at Guotai Junan Securities Group. His research interest includes quantitative investment. E-mail:zhoujianfen012977@gtjas.com
□
Self-adaptivePairsTradingModelBasedonReinforcementLearningAlgorithm
HU Wenwei1,HU Jianqiang2,LI Zhan3,ZHOU Jianfeng4
1 School of Management, Shanghai University of Engineering Science, Shanghai 201620, China2 School of Management, Fudan University, Shanghai 200433, China3 Institute of Applied Economics, Shanghai Academy of Social Sciences, Shanghai 200020, China4 Fixed-income Division, Guotai Junan Securities Group, Shanghai 200120, China
Pairs trading is one of the major statistical arbitrage trading strategies. However, its profit opportunity has become scarcer due to the improvement of the market efficiency. The traditional fixed parameter trading models are no longer sufficient for eternal profit maximization. The parameters of the trading models need not only to be optimized but also to be done so dynamically in an automatic manner. Therefore, it is necessary to develop a trading model of which parameters are dynamically optimized with artificial intelligence, as it may be of significance in improving the profitability and efficiency of trading models.
A new type of statistical arbitrage trading model is proposed based on the reinforcement learning mode, improving the traditional cointegration trading strategy; Applying the Sarsa algorithm andε-greedy strategy to the new model, the key parameters in the new trading model can self-adapt to reach the optimal values, instead of judging from professional experience or insisting on determined parameters just like the traditional strategy; A computer simulation is designed to run through the complete process of the new trading model including model parameters self-adapting adjustment, securities transaction, and trading performance evaluation. The trading simulation and empirical tests such as Johansen cointegration test, t-test, and Robustness test are conducted on four bond pairs that are composed of the top five bonds with the largest trading volumes in the mainland markets.
The results show that the new model outperforms the traditional one in all aspects. It significantly enhances the profitability of the trading system while reducing the drawdown risks; It improves the efficiency of arbitrage trading as it reduces the number of transactions and thus transaction costs; It possesses ability to learn continuously so that it increases the accumulated return step by step and eventually converges to the highest level. The results also reveal that the cointegration trading strategy is efficient in the Chinese bond markets.
The new model unprecedentedly adapts reinforcement learning to pairs trading, realizing the self-adapted adjustment of the model parameters. The improved model is helpful to halt the decrease in the profitability of the traditional pairs trading strategy. It may provide a new powerful arbitrage tool for investors in the Chinese markets, who now may have already adopted the short sale tools like stock index futures and margin trading.
cointegration pairs trading;Sarsa reinforcement learning algorithm;self-adaption;dynamic parameters;optimization;simulation;statistical arbitrage
Date:August 10th, 2016AcceptedDateJanuary 25th, 2017
F830.9
A
10.3969/j.issn.1672-0334.2017.02.012
1672-0334(2017)02-0148-13
2016-08-10修返日期2017-01-25
國(guó)家自然科學(xué)基金(71571048)
胡文偉,管理學(xué)博士,上海工程技術(shù)大學(xué)管理學(xué)院副教授,研究方向?yàn)榻鹑诠こ毯妥C券投資等,代表性學(xué)術(shù)成果為“基于二叉樹(shù)方法的障礙期權(quán)與標(biāo)準(zhǔn)期權(quán)價(jià)差分析模型”,發(fā)表在2012年第5期《上海交通大學(xué)學(xué)報(bào)》,E-mail:huwenwei@sues.edu.cn
胡建強(qiáng),管理學(xué)博士,復(fù)旦大學(xué)管理學(xué)院教授,研究方向?yàn)榻鹑跀?shù)學(xué)等,代表性學(xué)術(shù)成果為“Efficient simulation resource sharing and allocation for selecting the best”,發(fā)表在2013年第4期《IEEE Transactions on Automatic Control》,E-mail:jqhu@fudan.edu.cn
李湛,管理學(xué)博士,上海社會(huì)科學(xué)院應(yīng)用經(jīng)濟(jì)研究所教授,研究方向?yàn)橥顿Y管理等,代表性學(xué)術(shù)成果為“不同策略條件下的投資組合平均風(fēng)險(xiǎn)比較與分散”,發(fā)表在2011年第12期《上海交通大學(xué)學(xué)報(bào)》,E-mail:zli@sass.org.cn
周劍峰,國(guó)泰君安證券公司固定收益部經(jīng)理,研究方向?yàn)榱炕顿Y等,E-mail:zhoujianfen012977@gtjas.com