黃圳峰
(北方工業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院(北京市石景山區(qū)),北京 100043)
配對交易策略誕生于20世紀(jì)80年代,其主要思想是利用證券資產(chǎn)價(jià)差的均值回復(fù)性進(jìn)行統(tǒng)計(jì)套利。該策略背后的邏輯較為簡單:尋找兩只長期趨勢相近的證券資產(chǎn),當(dāng)資產(chǎn)走勢出現(xiàn)偏離時(shí)進(jìn)行做多和做空操作,一段時(shí)間后當(dāng)走勢回歸預(yù)設(shè)值時(shí)再進(jìn)行平倉。大量的實(shí)證研究已經(jīng)證明其在世界各國金融市場的有效性,作為一類市場中性策略,配對交易策略受到投資者和金融機(jī)構(gòu)的一致認(rèn)可。
然而,隨著時(shí)間的推移,配對交易策略的套利空間逐漸縮小,收益率出現(xiàn)明顯的下降,該策略在交易過程中很難取得理想的效果。這一方面是由于量化交易的廣泛普及使得金融市場的有效性得到了提高,另一方面主要原因在于策略本身的評估時(shí)間窗口、交易時(shí)間窗口、開倉閾值、平倉閾值等主要參數(shù)常常采用經(jīng)驗(yàn)值或固定常數(shù),這使其在面對低信噪比、高動(dòng)態(tài)特性的金融市場時(shí)交易行為僵化,因而很難長時(shí)間保持穩(wěn)定的正向收益。
事實(shí)上,金融資產(chǎn)價(jià)格作為時(shí)間序列數(shù)據(jù)存在明顯的異方差性,這意味著配對交易策略的交易邏輯需要隨著市場條件的變化進(jìn)行動(dòng)態(tài)調(diào)整,從而不斷修正自己的交易行為。對此,很多學(xué)者提出了各種各樣的改進(jìn)方案,包括引入GARCH模型、O-U過程、最優(yōu)閾值等。雖然這些方案在參數(shù)優(yōu)化上有一定的效果,但同時(shí)也引入了新的假設(shè)和經(jīng)驗(yàn)參數(shù),并不能很好地適應(yīng)變化莫測的金融市場環(huán)境。
強(qiáng)化學(xué)習(xí)是近年來人工智能領(lǐng)域最受關(guān)注的熱點(diǎn)之一,其中,Google旗下的DeepMind團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)算法應(yīng)用于游戲中,分別在視頻游戲、機(jī)器博弈等領(lǐng)域取得了豐碩的成果。2016年、2017年其研制的圍棋博弈智能體AlphaGo屢次擊敗人類頂尖棋手,震撼了社會(huì)各界。在這之后,許多學(xué)者將強(qiáng)化學(xué)習(xí)算法引入各類領(lǐng)域當(dāng)中,所構(gòu)造的智能體展現(xiàn)出了極強(qiáng)的學(xué)習(xí)能力和適應(yīng)能力。因此,本文將強(qiáng)化學(xué)習(xí)算法與配對交易策略相結(jié)合,以美國股市中的公共事業(yè)股作為研究對象,開發(fā)一種更加智能的配對交易策略。這種新型交易策略不僅可以擺脫經(jīng)驗(yàn)性參數(shù)的約束,同時(shí)也能更及時(shí)地捕捉潛在的交易時(shí)機(jī)并進(jìn)行自動(dòng)化交易,從而提升配對交易策略的套利空間以及市場適應(yīng)能力。
唐國強(qiáng)(2016)[1]利用切比雪夫不等式和夏普比率在回歸殘差的基礎(chǔ)上構(gòu)建套利閥值統(tǒng)計(jì)量,在利潤最大化的前提下求得最優(yōu)閥值,并利用最優(yōu)閥值對樣本外數(shù)據(jù)進(jìn)行套利分析。麥永冠(2014)[2]認(rèn)為,有效的建倉策略可以提高配對交易的年收益率;價(jià)差動(dòng)量效應(yīng)和均值回復(fù)效應(yīng)有助于解釋價(jià)差變化和收益率差異;配對交易在成熟有效市場不一定適合,但在發(fā)展中國家有著廣闊的前景。
隨著研究的深入,一些學(xué)者開始注意到靜態(tài)參數(shù)和模型的局限性。Do(2010)[3]在研究中發(fā)現(xiàn),GGR模型設(shè)定的交易期限過短,導(dǎo)致很多配對交易被強(qiáng)行平倉。Huck(2009)[4]用S&P100成分股進(jìn)行配對交易,測試了不同的形成期長度和開倉閾值,發(fā)現(xiàn)其與策略收益存在顯著相關(guān)性。Alexakis(2010)[5]認(rèn)為長期的協(xié)整關(guān)系會(huì)受到市場條件的影響,因此當(dāng)市場環(huán)境發(fā)生變化時(shí),套利組合應(yīng)隨之調(diào)整。
對此,有學(xué)者提出了相應(yīng)的改進(jìn)方法。包括何樹紅(2013)[6]建立了基于GARCH模型的協(xié)整套利策略,實(shí)證結(jié)果表明改進(jìn)后的配對策略可以取得更好的收益。另有學(xué)者將固定參數(shù)改為了動(dòng)態(tài) 參 數(shù),劉 陽(2016)[7]等 將 神 經(jīng) 網(wǎng) 絡(luò) 與 動(dòng) 態(tài)GARCH模型相結(jié)合,通過挖掘價(jià)格偏差中的非線性特征,使得動(dòng)態(tài)GARCH模型能即時(shí)發(fā)現(xiàn)波動(dòng)性變動(dòng),從而降低靜態(tài)模型的預(yù)測偏差。
為使配對交易策略具備更強(qiáng)的市場適應(yīng)性,有學(xué)者將強(qiáng)化學(xué)習(xí)算法與配對交易相結(jié)合,并成功提高了配對交易策略的盈利能力,降低了交易風(fēng)險(xiǎn)。Fallahpour(2016)[8]等人首次將強(qiáng)化學(xué)習(xí)與協(xié)整配對交易策略相結(jié)合,將估計(jì)窗口、交易窗口、交易閾值與止損閾值進(jìn)行離散化處理,以索提諾比率為獎(jiǎng)勵(lì)函數(shù),利用強(qiáng)化學(xué)習(xí)中的策略梯度法調(diào)整參數(shù),使其能適應(yīng)市場環(huán)境的變化。胡文 偉(2017)[9]等 進(jìn) 行 了 類 似 的 研 究。Kim(2019)[10]基于DQN算法訓(xùn)練智能體,并以最大平均收益為目標(biāo)進(jìn)行優(yōu)化,使得訓(xùn)練后的智能體可以自動(dòng)選擇最優(yōu)的交易窗口,調(diào)整止損邊界。在Kim的基礎(chǔ)上,Brim(2020)[11]將DQN的改進(jìn)型算法Double Deep Q-Network應(yīng)用于配對交易模型構(gòu)建中,實(shí)證表明改進(jìn)的交易模型可以有效地學(xué)習(xí)和改進(jìn)決策。在訓(xùn)練過程中他們還引入負(fù)獎(jiǎng)勵(lì)乘數(shù),用來調(diào)整系統(tǒng)的靈活性,使得交易策略面臨的市場風(fēng)險(xiǎn)更低。
交易對選擇的第一步是確定備選資產(chǎn)池A,這一步的目的是為后續(xù)挑選合適的配對資產(chǎn)做準(zhǔn)備,主要的分析框架包括:同行業(yè)配對、基本面配對、上下游產(chǎn)業(yè)鏈配對、同一公司不同交易所標(biāo)的資產(chǎn)的配對等。參考畢秀春(2020)[12]、傅毅(2017)[13]、黃曉薇(2015)[14]等人的研究,本文選用同行業(yè)配對的方法。相較于其他方法,同行業(yè)配對具有操作簡便、可靠性高、普適性強(qiáng)的特點(diǎn)。
Clegg和Krauss(2018)[15]將部分協(xié)整理論應(yīng)用于配對交易后發(fā)現(xiàn),協(xié)整法相對與其他方法具有更高的平均利潤率、更多的交易次數(shù)、更短的持倉時(shí)間、更大的均值回歸標(biāo)準(zhǔn)差和更高的夏普比率等優(yōu)點(diǎn),因而本文在根據(jù)行業(yè)確定了備選資產(chǎn)池A之后,首先對所有資產(chǎn)進(jìn)行相關(guān)性分析,篩選出相關(guān)性最高的m對資產(chǎn)作為預(yù)選標(biāo)的資產(chǎn)對A_pre。這之后通過EG兩步法檢驗(yàn)A_pre的協(xié)整性。最后將通過協(xié)整檢驗(yàn)的資產(chǎn)對作為配對交易的研究對象。
在對胡文偉(2017)[9]、Brim(2020)[11]、Kim(2019)[10]等人的策略設(shè)計(jì)思路進(jìn)行整理并改進(jìn)之后,本文的配對交易策略設(shè)計(jì)如下:
設(shè)定初始資金port_init_cash為100000美元,假設(shè)有A、B兩個(gè)配對資產(chǎn),無手續(xù)費(fèi)、印花稅,每日進(jìn)行交易,交易單位為100股,首先輸入200天的數(shù)據(jù)進(jìn)行模型的初始化,使用的交易策略為策略,之后每天進(jìn)行一次訓(xùn)練。在執(zhí)行動(dòng)作之前,預(yù)設(shè)參數(shù)op_A為開倉-平倉信號(hào),當(dāng)op_A>=0時(shí),分別代表賬戶內(nèi)持有A的長頭寸或者未持有A的頭寸,當(dāng)op_A<0時(shí),代表持有A的短頭寸,資產(chǎn)A的往期持倉量和往期價(jià)格a_volume i,a_price i,資產(chǎn)B的往期持倉量和往期價(jià)格b_volume i,b_price i,B的當(dāng)期價(jià)格為b_price t,當(dāng)期賬戶的總價(jià)值為port_value,上一期賬戶總價(jià)值為port_value_old,具體交易流程如下:
(1)執(zhí)行買入操作且o p_A>=0(開倉),即買入100股A,成本定義為long_cost,賣出100股B,成本為s hort_cost,上一期現(xiàn)金流為port_init_cash,當(dāng)前現(xiàn)金流為port_cash。則現(xiàn)金流變化為:
賬戶價(jià)值port_value為:
(2)買入操作且op_A<0(平倉),即買入100股A,收益定義為short_ret urn,賣出100股B,收益為l on g_retur n。
則現(xiàn)金流變化為:
賬戶價(jià)值port_value為:
賣出操作同理不再贅述。
本文設(shè)置3種交易策略作為基準(zhǔn)與本文的改進(jìn)型配對交易策略進(jìn)行比較:
(1)指數(shù)化策略(SPY).將所有資金在期初購買S&P500指數(shù)基金并持倉到期末,每日對持倉的總價(jià)值進(jìn)行計(jì)算。
(2)隨機(jī)交易策略(Random).采用與本文相同的配對交易環(huán)境,隨機(jī)執(zhí)行買入、賣出、持有三個(gè)動(dòng)作,每日對持倉的總價(jià)值進(jìn)行計(jì)算。
(3)傳統(tǒng)配對交易模型(GGR)。參考Gatev,Goetzmann和Rouwenhorst(2006)[16]研究中所采用的配對交易策略。
上文已介紹了強(qiáng)化學(xué)習(xí)中包含的基本元素,下面介紹基于配對交易環(huán)境下的強(qiáng)化學(xué)習(xí)過程中幾個(gè)重要元素的實(shí)際意義:
(1)狀態(tài)S t。配對交易策略的收益情況與短期市場行情變化和行業(yè)趨勢相關(guān),本文將一些相匹配的市場趨勢指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、價(jià)格統(tǒng)計(jì)量作為狀態(tài)的特征。
1)交易資產(chǎn)收盤價(jià)的價(jià)差:配對交易的核心特征,用以描述兩個(gè)資產(chǎn)的偏離程度。
2)股票價(jià)格的變異系數(shù):利用一段時(shí)間內(nèi)價(jià)格的標(biāo)準(zhǔn)差除以價(jià)格的平均值可以得到變異系數(shù),通過變異系數(shù)可以衡量單一股票價(jià)格的離散程度。
3)S&P500指數(shù):衡量市場趨勢和宏觀經(jīng)濟(jì)狀況。
4)VIX指數(shù):衡量當(dāng)前市場波動(dòng)率。
5)美聯(lián)儲(chǔ)的聯(lián)邦基金利率:指美國同業(yè)拆借市場的利率,其變動(dòng)能夠敏感地反映銀行之間資金的余缺,進(jìn)而影響消費(fèi)、投資和國民經(jīng)濟(jì)。
6)交易賬戶的總價(jià)值:包括現(xiàn)金資產(chǎn)和證券資產(chǎn)兩部分。
(2)動(dòng)作a t。在金融市場上,一般的交易行為包括買入、賣出、持有、止損,因此本文將動(dòng)作集設(shè)置為{buy,sell,hold,s top},假設(shè)有A、B兩項(xiàng)資產(chǎn),bu y代表買入100股A,賣出100股B;s el l代表賣出100股A,買入100股B;hold代表持有操作,s top代表將交易對全部平倉。
(3)策略函數(shù)π(s)。使用ε-gr eedy算法,假設(shè)貪婪系數(shù)為0.9,則選取使得動(dòng)作值函數(shù)最大的動(dòng)作的概率為0.9,隨機(jī)采取動(dòng)作的概率為0.1。
(4)動(dòng)作值函數(shù)q(s,a)。采用函數(shù)逼近的方法計(jì)算動(dòng)作值函數(shù)。當(dāng)逼近值函數(shù)的結(jié)構(gòu)確定之后(線性逼近時(shí)選定了基函數(shù)、非線性逼近時(shí)選定了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)),可以將值函數(shù)的逼近等價(jià)于參數(shù)的逼近,值函數(shù)的更新等價(jià)于參數(shù)的更新。
(5)獎(jiǎng)勵(lì)函數(shù)R t。當(dāng)天賬戶總價(jià)值為por_value,前一天的賬戶總價(jià)值為por_value_old,則R t=por_val ue-por_value_old。
(6)神經(jīng)網(wǎng)絡(luò)的構(gòu)造。Zhang(2003)[17]、Ba?hadir(2008)[18]等發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在股票預(yù)測等問題上的表現(xiàn)強(qiáng)于很多傳統(tǒng)方法,本文此處簡化處理,選擇使用多層感知機(jī)[19]對特征進(jìn)行擬合,將特征作為輸入,因而輸入層的節(jié)點(diǎn)數(shù)為7;隱藏層為兩層,節(jié)點(diǎn)數(shù)設(shè)置為16,輸出層節(jié)點(diǎn)數(shù)為4,激活函數(shù)選擇ReLU函數(shù),優(yōu)化器選擇梯度下降優(yōu)化器。
從雅虎金融上下載了2010年1月4日至2016年11月30日相關(guān)25支股票的日度數(shù)據(jù),內(nèi)容包括開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、調(diào)整后的收盤價(jià)、交易量等信息,將數(shù)據(jù)格式轉(zhuǎn)化為DataFrame格式方便后續(xù)處理,缺失數(shù)據(jù)以None進(jìn)行填充后剔除。之后將數(shù)據(jù)劃分為訓(xùn)練集和測試集兩個(gè)部分,訓(xùn)練集時(shí)間為2010年1月4日至2015年12月31日,測試集時(shí)間為2016年1月1日至2016年11月30日。
3.2.1 相關(guān)性分析
首先針對這25支股票自2010年1月4日至2016年11月30日的收盤價(jià)數(shù)據(jù)進(jìn)行相關(guān)性分析,計(jì)算每兩支股票的皮爾遜相關(guān)系數(shù),之后設(shè)置篩選條件為相關(guān)性大于0.95的交易對為備選的交易樣本,便得到了7個(gè)預(yù)選交易對,如表1所示。
表1 備選交易對
3.2.2 協(xié)整檢驗(yàn)
采用EG兩步法對備選交易對進(jìn)行協(xié)整檢驗(yàn),驗(yàn)證備選交易對中每支股票是否是一階單整的,此處利用ADF檢驗(yàn)統(tǒng)計(jì)量分別檢驗(yàn)在1%、5%、10%的臨界值下的顯著性水平。從表2中可以看到,訓(xùn)練集ADF檢驗(yàn)1%、5%、10%的臨界值分別為-3.435、-2.863、-2.568。測試集ADF檢驗(yàn)1%、5%、10%的臨界值分別為-3.459、 -2.867、-2.574,當(dāng)差分階數(shù)為0時(shí)均不能拒絕原假設(shè),序列不平穩(wěn)。一階差分后數(shù)據(jù)ADF檢驗(yàn)結(jié)果顯示p值均小于0.01,有高于99%的把握拒絕原假設(shè),此時(shí)序列平穩(wěn),因而所有價(jià)格序列都是一階單整的。
表2 收盤價(jià)一階單整檢驗(yàn)結(jié)果
再利用ADF檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)OLS回歸后的殘差是否平穩(wěn),有三組交易對xel-cms、pnw-dte、pnw-scg回歸后的殘差通過協(xié)整檢驗(yàn),具有長期相近的趨勢,本文選擇協(xié)整系數(shù)較高的pnw-scg交易對作為最終的交易樣本。
表3和表4匯總了本文七種策略的各項(xiàng)性能表現(xiàn),其中Random為隨機(jī)動(dòng)作模型,SPY為指數(shù)化策略、GGR為Gatev,Goetzmann和Rouwenhorst提出的傳統(tǒng)的配對交易策略。
表4 pnw-scg回測結(jié)果對比(測試集)
首先將經(jīng)典配對交易策略和基于DQN系列算法的配對交易策略進(jìn)行比較。在表3中可以看到,在訓(xùn)練集上,DQN系列策略在累計(jì)收益率和年化收益率方面較GGR策略有了較大的提高,例如基于Double-DQN的配對交易策略累計(jì)收益率和年化收益率分別達(dá)到了79.77%和19.28%,而在測試集上基于Dueling-DQN累計(jì)收益率和年化收益率最高為18.33%和28.96%。麥永冠(2014)[2]同樣通過改進(jìn)建倉策略的方式提高來配對交易的收益率,但其并未使用強(qiáng)化學(xué)習(xí)的改進(jìn)思路,在各市場上的平均年收益率為1%~2%。
表3 pnw-scg回測結(jié)果對比(訓(xùn)練集)
在最大回撤方面,基于DQN系列算法的策略普遍低于Random策略和SPY策略,這與胡文偉(2017)[9]Kim(2019)[10]Brim(2020)[11]的研究結(jié)果一致。而從累計(jì)凈值可以看到,由于GGR策略交易次數(shù)和交易量較低,使其回撤也相對較小,因而不具備可比性。
在年夏普比率方面,基于DQN算法的配對交易策略在訓(xùn)練集上達(dá)到了1.85,基于PRDQN算法的配對交易策略在測試集上達(dá)到了1.67,而GGR策略僅為-0.81和-0.04。從整體上看,基于DQN系列算法的配對交易策略的夏普比率也普遍達(dá)到了0.9以上,綜合水平高于三類基準(zhǔn)策略。
在DQN系列算法內(nèi)的比較研究中,可以看到Double DQN、Prioritized Experience Replay(DQN)算法的配對交易模型的成功降低了經(jīng)典DQN算法容易出現(xiàn)的過擬合問題[20][21]。在圖1(a)中,隨著迭代次數(shù)的增加,DQN算法的Q值在不斷上升(紅線),而Double DQN算法中的Q值上升更為緩慢,且總體數(shù)值大于0,因此相較于DQN算法,Double DQN、Prioritized Experience Replay(DQN)算法改進(jìn)后的配對交易模型泛化能力較強(qiáng)。
圖1 訓(xùn)練過程對比
基于Dueling DQN算法的配對交易策略在訓(xùn)練過程中有著明顯的速度優(yōu)勢,將狀態(tài)值和動(dòng)作優(yōu)勢值區(qū)分開,使得網(wǎng)絡(luò)架構(gòu)和強(qiáng)化學(xué)習(xí)算法可以進(jìn)行更好的結(jié)合[22]。從圖1(b)可以看到,在4000步左右Dueling DQN算法已經(jīng)學(xué)習(xí)到了配對交易的規(guī)律開始產(chǎn)生正向收益,而DQN算法則在8000步之后才開始收斂。圖1(c)表明Dueling DQN算法的訓(xùn)練損失相較于DQN在多步迭代后降到了很低的水平,因而可以認(rèn)為在配對交易策略的訓(xùn)練過程中,Dueling DQN算法的收斂性更好,訓(xùn)練速度更快。
本文將強(qiáng)化學(xué)習(xí)和配對交易相結(jié)合,設(shè)計(jì)構(gòu)造了一類可適應(yīng)市場條件變化并實(shí)現(xiàn)自動(dòng)開倉、平倉、持有、止損的智能配對交易策略。模擬交易的結(jié)果表明,傳統(tǒng)的交易模型在當(dāng)前市場條件下確實(shí)很難取得比較豐厚的收益,而基于強(qiáng)化學(xué)習(xí)的配對交易模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了一定的配對交易規(guī)則,相較于胡文偉(2017)[9]、麥永冠(2014)[2]使用Q-learning、Sarsa或計(jì)量經(jīng)濟(jì)學(xué)方法改進(jìn)配對交易,本文使用DQN系列算法可以有效提高收益率并降低回撤率,并參考Kim(2019)[10]的研究為配對交易模型添加了止損機(jī)制,使其更好的平衡了收益與風(fēng)險(xiǎn),而同時(shí)也獲得了更高的夏普比率。此外,不同于Brim(2020)[11]、胡文偉(2017)[9]等人的研究中只使用單一的強(qiáng)化學(xué)習(xí)算法改進(jìn)配對交易策略,本文對多種DQN算法進(jìn)行了比較研究。結(jié)果發(fā)現(xiàn),基于Double DQN、Prioritized Experience Replay(DQN)算法的配對交易模型泛化能力更強(qiáng),而基于Duel?ing DQN算法的配對交易模型收斂性更好,訓(xùn)練速 度 更 快。這 符 合Schaul(2015)[21]、Wang(2016)[22]等對于傳統(tǒng)DQN算法的改進(jìn)目標(biāo)。
本文的局限在于:①?zèng)]有進(jìn)一步考慮交易費(fèi)用、滑點(diǎn)等因素。②神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)相對簡單,導(dǎo)致模型無法擬合更復(fù)雜的函數(shù),策略收益率、夏普比率等指標(biāo)還有進(jìn)一步提高的空間。③研究對象局限在股票市場,未將研究范圍擴(kuò)展至期貨、數(shù)字貨幣等市場。
在解決上述問題的同時(shí),未來的研究也將引入更復(fù)雜的強(qiáng)化學(xué)習(xí)算法,如DDPG、PPO等深度強(qiáng)化學(xué)習(xí)算法,同時(shí)將更多的交易策略納入研究范圍,拓展強(qiáng)化學(xué)習(xí)在金融市場交易問題中的應(yīng)用范圍。