周仁才
(東方證券股份有限公司,上海 200010)
以期權(quán)為代表的衍生品是整個(gè)資本市場的重要組成部分,期權(quán)交易具有價(jià)格發(fā)現(xiàn)、提升市場效率、完善風(fēng)險(xiǎn)對沖機(jī)制等多重功能,期權(quán)業(yè)務(wù)的核心在于定價(jià)。BS模型[1]奠定了金融市場期權(quán)價(jià)格的基石,然而,其依賴的假設(shè)條件與市場不完全吻合。因此,一些改進(jìn)的定價(jià)模型被開發(fā)出來,這些模型可分為參數(shù)和非參數(shù)兩種類型。在參數(shù)模型方面,主要是針對股票價(jià)格擴(kuò)散過程進(jìn)行改進(jìn),從而實(shí)現(xiàn)期權(quán)價(jià)格的優(yōu)化。例如:假定波動(dòng)率是股票價(jià)格的確定性函數(shù)[2],突破了BS模型中波動(dòng)率為常數(shù)的限制;在幾何布朗運(yùn)動(dòng)基礎(chǔ)上增加跳躍成分[3],以求更好地刻畫價(jià)格突變;假設(shè)波動(dòng)率也滿足一個(gè)隨機(jī)擴(kuò)散過程,構(gòu)建隨機(jī)波動(dòng)率模型[4-5];將跳躍擴(kuò)散過程擴(kuò)展為更一般性的Levy過程,研究期權(quán)定價(jià)等[6]。
隨著科學(xué)技術(shù)的進(jìn)步,大數(shù)據(jù)、人工智能等金融科技手段對金融市場產(chǎn)生了深刻影響,非參數(shù)的機(jī)器學(xué)習(xí)算法近年來開始應(yīng)用于資產(chǎn)定價(jià)領(lǐng)域。Kelly 等[7]利用降維算法考察因子定價(jià)模型。Freyberger等[8]利用機(jī)器學(xué)習(xí)模擬隨機(jī)折現(xiàn)因子等。相對于在市場均衡狀況下,實(shí)現(xiàn)風(fēng)險(xiǎn)中性定價(jià)機(jī)制的經(jīng)典金融分析方法,機(jī)器學(xué)習(xí)方法以市場數(shù)據(jù)為基礎(chǔ),從數(shù)據(jù)中提取特征,通過訓(xùn)練模型實(shí)現(xiàn)所謂的監(jiān)督或者半監(jiān)督學(xué)習(xí)。在衍生品定價(jià)方面的研究有:Hutchinson等[9]最先將徑向基網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于期權(quán)定價(jià),得到了與傳統(tǒng)參數(shù)模型一致的精確度;Qi等[10]利用人工神經(jīng)網(wǎng)絡(luò)對S&P500指數(shù)期權(quán)進(jìn)行定價(jià)研究,其效果好于BS模型;Gencay等[11]采用貝葉斯正則化、提前結(jié)束和集成學(xué)習(xí)技術(shù),利用神經(jīng)網(wǎng)絡(luò)對衍生品定價(jià)和風(fēng)險(xiǎn)對沖進(jìn)行分析;Park等[12]分析了參數(shù)模型和非參數(shù)模型在韓國期權(quán)市場的表現(xiàn),認(rèn)為非參數(shù)模型的表現(xiàn)更好。
參數(shù)模型通?;跓o套利定價(jià)原理,理論基礎(chǔ)完備,結(jié)果比較穩(wěn)定,樣本外預(yù)測能力有保證。同時(shí),參數(shù)模型普遍結(jié)構(gòu)相對簡單,擬合所需的數(shù)據(jù)量較小,計(jì)算資源消耗較少。但是金融市場是一個(gè)復(fù)雜系統(tǒng),受市場交易因素、宏觀經(jīng)濟(jì)因素、投資者情緒、政治因素等多類因素的綜合影響。因此,簡約化的參數(shù)模型可能忽略了影響市場價(jià)格的風(fēng)險(xiǎn)因子,從而影響模型定價(jià)能力。Bates[13]發(fā)現(xiàn),隨機(jī)波動(dòng)率受多個(gè)風(fēng)險(xiǎn)因素的影響。Bollerslev等[14]認(rèn)為單一擴(kuò)散過程過于簡單,不能解釋高頻收益率序列的復(fù)雜特征。周仁才[15]將波動(dòng)率進(jìn)行分解,發(fā)現(xiàn)多風(fēng)險(xiǎn)因子作用下期權(quán)定價(jià)模型具有更好的定價(jià)效率。雖然多風(fēng)險(xiǎn)因子模型具有一定優(yōu)勢,但如何確定風(fēng)險(xiǎn)因子的類別及數(shù)目,并對它們進(jìn)行差異化建模,這在全局均衡及無套利框架下很難實(shí)現(xiàn)。另一方面,神經(jīng)網(wǎng)絡(luò)、決策樹等機(jī)器學(xué)習(xí)模型,直接從數(shù)據(jù)中進(jìn)行學(xué)習(xí),通過模型層次與結(jié)點(diǎn)之間交互作用可以方便地提取影響價(jià)格的特征因子。但機(jī)器學(xué)習(xí)模型訓(xùn)練需要的數(shù)據(jù)量大,計(jì)算資源消耗多,容易受到樣本數(shù)據(jù)分布的影響,且容易發(fā)生過擬合現(xiàn)象。
為了充分利用這兩類模型的優(yōu)點(diǎn),一些學(xué)者采用混合模型進(jìn)行研究。Lajbcygier等[16]利用神經(jīng)網(wǎng)絡(luò)對期權(quán)市場價(jià)格與BS模型價(jià)格之間的誤差進(jìn)行建模,以提高預(yù)測精度。Huang等[17]利用無跡卡爾曼濾波和支持向量機(jī)進(jìn)行了類似研究。Liang等[18]利用神經(jīng)網(wǎng)絡(luò)和支持向量回歸(SVR)模型降低二叉樹、有限差分和蒙特卡羅模擬等傳統(tǒng)期權(quán)定價(jià)方法的定價(jià)誤差。張麗娟等[19]結(jié)合BP 神經(jīng)網(wǎng)絡(luò)和Heston模型對香港恒生指數(shù)期權(quán)和上證50ETF期權(quán)進(jìn)行研究。張鴻彥等[20]利用小波網(wǎng)絡(luò)和遺傳算法研究了香港恒生指數(shù)期權(quán)定價(jià)?;旌夏P驮跇?gòu)造過程中,通常針對市場價(jià)格與參數(shù)模型之間的誤差進(jìn)行再次學(xué)習(xí),在預(yù)測過程中容易導(dǎo)致誤差累積,容易存在樣本內(nèi)擬合效果好但預(yù)測能力不足的問題。同時(shí),在模型訓(xùn)練過程中,兩類模型之間缺乏聯(lián)系,沒有充分利用它們各自的優(yōu)勢。因此,有必要針對參數(shù)模型和非參數(shù)模型之間的組合機(jī)制,提供相應(yīng)的理論基礎(chǔ),防止構(gòu)造時(shí)的隨意性。
本文利用貝葉斯學(xué)習(xí)機(jī)制,構(gòu)建基于參數(shù)模型和非參數(shù)機(jī)器學(xué)習(xí)模型的融合模型。融合模型不是參數(shù)模型和非參數(shù)模型的靜態(tài)堆疊,而是利用參數(shù)模型作為先驗(yàn)基準(zhǔn),然后再通過機(jī)器學(xué)習(xí)進(jìn)行優(yōu)化訓(xùn)練,從而為混合模型構(gòu)造提供一種新方法。同時(shí),融合模型利用參數(shù)模型和非參數(shù)模型之間的相互作用,在學(xué)習(xí)過程中完成分布的動(dòng)態(tài)調(diào)整,從而實(shí)現(xiàn)更好的定價(jià)能力。
設(shè)有n個(gè)樣本組成的訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)},xi為自變量,yi為對應(yīng)的觀察值。f(x)為訓(xùn)練函數(shù),由模型結(jié)構(gòu)及相應(yīng)的模型參數(shù)w決定,w=(w1,w2,…,wN),N為非參數(shù)模型中參數(shù)的個(gè)數(shù)。對于神經(jīng)網(wǎng)絡(luò),模型參數(shù)即權(quán)重和偏置。
在引入?yún)?shù)模型的基礎(chǔ)上,訓(xùn)練過程分為以下3個(gè)階段:
第1階段。首先,利用參數(shù)模型對訓(xùn)練數(shù)據(jù)進(jìn)行擬合,得到相應(yīng)的參數(shù)模型的解;然后,利用解得的參數(shù)模型求得各個(gè)訓(xùn)練數(shù)據(jù)的參數(shù)模型值,組成新的樣本集;再利用非參數(shù)模型進(jìn)行訓(xùn)練得到模型參數(shù)wB。
第2階段。在第1階段基礎(chǔ)上,利用訓(xùn)練集D中的樣本數(shù)據(jù)對非參數(shù)模型進(jìn)行優(yōu)化。令樣本xi對應(yīng)的模型誤差為。于是,
為了建立與參數(shù)模型之間的聯(lián)系,并利用第1階段的估計(jì)結(jié)果,假定最終模型參數(shù)wi的先驗(yàn)分布滿足:令
根據(jù)貝葉斯法則,參數(shù)w的后驗(yàn)概率為
式中,P(D|w,β,wB)是似然函數(shù)。通過式(1)不難發(fā)現(xiàn),該似然函數(shù)取最大值時(shí),訓(xùn)練集誤差平方和將取最小值,這就是訓(xùn)練過程中普遍采用的均方誤差(MSE)指標(biāo)。P(w|α,wB)為先驗(yàn)概率,P(D|α,β,wB)是歸一化因子,取值與模型參數(shù)w無關(guān)。因此,
系數(shù)α反映模型參數(shù)相對于先驗(yàn)分布的變動(dòng)情況,α越大,表示對于先驗(yàn)估計(jì)越有信心。系數(shù)β體現(xiàn)模型計(jì)算結(jié)果與樣本真實(shí)值的差異,β越大,表明模型計(jì)算結(jié)果越接近于真實(shí)值。α和β的相對大小,將對模型的泛化能力產(chǎn)生直接影響,當(dāng)α較小、β較大時(shí),模型訓(xùn)練時(shí)將更加注重減少訓(xùn)練集中的樣本誤差,這會(huì)導(dǎo)致模型權(quán)重變動(dòng)大,容易造成過擬合;當(dāng)α較大、β較小時(shí),模型訓(xùn)練時(shí)將更加注重權(quán)重的平滑性,對訓(xùn)練集樣本誤差容忍度高,這種模型可能出現(xiàn)擬合不足。因此,如何確定α和β的大小,對于模型效果十分重要。當(dāng)數(shù)據(jù)集較大時(shí),可以通過在驗(yàn)證集上針對不用的取值進(jìn)行優(yōu)選。金融市場的時(shí)變性,限制了單次訓(xùn)練數(shù)據(jù)集的范圍。因此,借鑒文獻(xiàn)[21],利用貝葉斯機(jī)制內(nèi)生獲取α和β的值。根據(jù)貝葉斯法則,在模型先驗(yàn)權(quán)重wB已知的情況下,α、β的后驗(yàn)概率可以表示為
式中:P(D|α,β,wB)是似然函數(shù),即式(3)中的歸一化因子;P(α,β|wB)為α和β的先驗(yàn)分布,假設(shè)其服從均勻分布。因此,求后驗(yàn)概率P(α,β|D,wB)的極大值等價(jià)于求似然函數(shù)P(D|α,β,wB)的極大值。令
設(shè)F(w)的極值點(diǎn)為w*,可以將該函數(shù)在極值點(diǎn)利用二次函數(shù)近似。根據(jù)Taylor公式,將F(w)在w*處展開得:
式中,H*為F(w)的Hessian矩陣H在w*處的取值,
結(jié)合聯(lián)合正態(tài)分布函數(shù)的標(biāo)準(zhǔn)形式:
表示所有N個(gè)模型參數(shù)中有效參數(shù)的數(shù)量,γ可以通過每次訓(xùn)練迭代計(jì)算的α計(jì)算出來。
類似的方法,可以計(jì)算出:
在貝葉斯學(xué)習(xí)過程中,文獻(xiàn)[22]中建議Hessian矩陣H的計(jì)算采用Gauss-Newton近似算法,即H≈2βJTJ+2αI。其中,J為訓(xùn)練集誤差的Jacobin矩陣,
第3階段,利用第2階段得到的模型權(quán)重w,更新第1階段模型參數(shù)wB的分布。參考貝葉斯正則化算法,設(shè)第1 階段模型參數(shù)wB的先驗(yàn)分布為:,根據(jù)貝葉斯法則可得
式中,δ使用與α相同的算法。整個(gè)算法的計(jì)算流程為:
(1)首先根據(jù)訓(xùn)練集數(shù)據(jù)D利用參數(shù)模型完成擬合,然后根據(jù)得到的參數(shù)模型重新生成訓(xùn)練集D′。
(2)通過隨機(jī)數(shù)初始化非參數(shù)模型參數(shù)w,同時(shí)初始化參數(shù)α=0,β=1,于是γ=N。
(3)利用非參數(shù)模型對新數(shù)據(jù)集D′完成一步訓(xùn)練,得到模型參數(shù)wB,實(shí)現(xiàn)對于參數(shù)模型的模擬。
(4)在數(shù)據(jù)集D上計(jì)算ED和EW,及相應(yīng)的目標(biāo)函數(shù)F(w)=βED +αEW。
(5)針對目標(biāo)函數(shù)F(w)在數(shù)據(jù)集D上完成一步訓(xùn)練,得到相應(yīng)的訓(xùn)練集誤差向量ei=yi -f(xi),i=1,2,…,n,并計(jì)算出此時(shí)的ED和EW。
(6)利用得到的誤差向量,求得Jacobin 矩陣J,然后求得Hessian矩陣H,從而計(jì)算出有效參數(shù)數(shù)量為:γ=N-2α·tr(H-1)。
(7)根據(jù)式(9)、(10)計(jì)算出新的正則化參數(shù)α和β,利用得到的模型參數(shù)w根據(jù)式(12)更新wB的分布,在此基礎(chǔ)上重新訓(xùn)練wB。
(8)循環(huán)(3)~(7)直到結(jié)果收斂。
鑒于BS模型[1]在金融領(lǐng)域的重要意義,本文選擇該模型作為參數(shù)模型之一。在隨機(jī)波動(dòng)率模型中,最著名的是Heston模型[5],因?yàn)樵撃P蛯τ跉W式期權(quán)具有封閉解,同時(shí)成功地捕捉了波動(dòng)率聚集及杠桿效應(yīng),所以本文也將其作為參數(shù)模型。
針對BS、Heston等參數(shù)模型的擬合,通常采用隱含參數(shù)估計(jì)法,即利用期權(quán)市場價(jià)格數(shù)據(jù)反推出模型參數(shù),得到的結(jié)果直接是風(fēng)險(xiǎn)中性概率測度下的參數(shù),而不需要估計(jì)風(fēng)險(xiǎn)的市場價(jià)格。在隱含參數(shù)估計(jì)過程中需要解決模型價(jià)格和市場價(jià)格的誤差最小化問題,即
式中:Ω為待估計(jì)的參數(shù)向量,對于BS模型,Ω=σ,對于Heston模 型,Ω=(κ,θ,σ,ρ,υ);分別為執(zhí)行價(jià)格為Ki、到期日為Ti的期權(quán)的模型價(jià)格和市場價(jià)格。
在機(jī)器學(xué)習(xí)算法中,神經(jīng)網(wǎng)絡(luò)得到了最深入的應(yīng)用,其具有所謂的通用近似能力,可以精確地?cái)M合復(fù)雜的連續(xù)函數(shù)[23],同時(shí),對于網(wǎng)絡(luò)結(jié)構(gòu)沒有特別限制,靈活度較高,故本文將其作為非參數(shù)模型進(jìn)行研究。構(gòu)造神經(jīng)網(wǎng)絡(luò)需要確定網(wǎng)絡(luò)層次、各層之間神經(jīng)元的個(gè)數(shù)及連接方式,目前還沒有確定性理論作為指導(dǎo),往往需要結(jié)合實(shí)際數(shù)據(jù)和經(jīng)驗(yàn)進(jìn)行選擇。對于輸入數(shù)據(jù)特征維度少、數(shù)據(jù)集較小的情況,簡單的網(wǎng)絡(luò)結(jié)構(gòu)往往能得到更好的結(jié)果,這不僅有利于提高計(jì)算效率,而且降低了過擬合的風(fēng)險(xiǎn)??紤]到期權(quán)價(jià)格函數(shù)輸入變量僅包含股票價(jià)格St、期權(quán)執(zhí)行價(jià)格K、期權(quán)到期時(shí)間τ及無風(fēng)險(xiǎn)利率r4個(gè)維度,輸出變量為一維期權(quán)價(jià)格,所以網(wǎng)絡(luò)結(jié)構(gòu)不宜太復(fù)雜。經(jīng)過嘗試不同的網(wǎng)絡(luò)結(jié)構(gòu),本文最終選擇包含8 個(gè)神經(jīng)元的單隱含層網(wǎng)絡(luò)進(jìn)行分析,整體網(wǎng)絡(luò)結(jié)構(gòu)為4-8-1。即便是如此相對簡單的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)數(shù)量也達(dá)到了49個(gè),遠(yuǎn)多于參數(shù)模型。
訓(xùn)練神經(jīng)網(wǎng)絡(luò),首先要確定損失函數(shù)??紤]到期權(quán)定價(jià)最終將得到價(jià)格序列,采用均方誤差指標(biāo)及在此基礎(chǔ)上的變換形式作為損失函數(shù)??紤]到期權(quán)數(shù)據(jù)樣本有限,訓(xùn)練時(shí)需要快速收斂,本文采用LM 算法[24]實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的優(yōu)化。作為二階優(yōu)化算法,LM 算法通過選擇步長,構(gòu)建信賴域搜索,使其兼顧了牛頓法的快速局部收斂性,又具有良好的整體收斂性。
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的靈活性導(dǎo)致了復(fù)雜性的增加及可解釋性的降低,不同模型在不同指標(biāo)上往往呈現(xiàn)不一致的表現(xiàn)。為了全面地對模型進(jìn)行評價(jià),采用R2、均方誤差(MSE)、標(biāo)準(zhǔn)均方根誤差(NRMSE)和平均絕對誤差(MAE)等多個(gè)指標(biāo)進(jìn)行評價(jià)。
為了檢驗(yàn)融合模型的效果,考慮到計(jì)算資源因素,本文選擇2018-07~2018-12 上證50ETF 認(rèn)購期權(quán)日收盤數(shù)據(jù)進(jìn)行實(shí)證分析,剔除合約到期日價(jià)格存在異常的數(shù)據(jù)后,共計(jì)7 520 個(gè)樣本。上證50ETF期權(quán)從2015年2月9日正式推出,到2018年下半年已經(jīng)平穩(wěn)運(yùn)行3年多時(shí)間,價(jià)格具備相對的有效性。從Wind資訊中獲取樣本期內(nèi)各合約的到期日、執(zhí)行價(jià)格、合約收盤價(jià)以及標(biāo)的50ETF 收盤價(jià)等信息,采用3 月期上海銀行間拆借利率(SHIBOR)作為無風(fēng)險(xiǎn)利率。
首先,需要確定訓(xùn)練集時(shí)間區(qū)間長度及預(yù)測步長。Bakshi等[25]認(rèn)為,由于市場環(huán)境的變化,擬合時(shí)間區(qū)間及預(yù)測步長不宜過長,對于參數(shù)模型,日級別的擬合和預(yù)測能夠得到比較好的效果??紤]到數(shù)據(jù)集大小及預(yù)測精度之間的平衡,本文考察了訓(xùn)練集數(shù)據(jù)區(qū)間長度為30日和60日兩種情況,每日平均認(rèn)購期權(quán)合約數(shù)大致為60個(gè),從而每次擬合數(shù)據(jù)量分別達(dá)到2 000和4 000左右。訓(xùn)練過程采用滑動(dòng)窗口方法,即取前30日或60日的數(shù)據(jù),對模型進(jìn)行訓(xùn)練,然后用訓(xùn)練得到的模型,根據(jù)預(yù)測步長對相應(yīng)日期權(quán)價(jià)格進(jìn)行預(yù)測;取2~31日或61日的數(shù)據(jù)作為訓(xùn)練樣本對模型進(jìn)行重新訓(xùn)練,利用訓(xùn)練得到的模型根據(jù)預(yù)測步長對相應(yīng)日期權(quán)價(jià)格進(jìn)行預(yù)測;然后,繼續(xù)取下一段訓(xùn)練數(shù)據(jù)重復(fù)該操作;最后,對比預(yù)測序列與實(shí)際市場收盤價(jià)格序列,綜合得到整體評價(jià)指標(biāo)。
為了進(jìn)行對照分析,本文研究了BS模型(BS)、Heston模型(HS)、神經(jīng)網(wǎng)絡(luò)模型(NN)、采用LM算法的神經(jīng)網(wǎng)絡(luò)模型(LM)、采用貝葉斯正則化的神經(jīng)網(wǎng)絡(luò)模型(BR)、擬合BS模型的神經(jīng)網(wǎng)絡(luò)模型(BSY)、擬合Heston模型的神經(jīng)網(wǎng)絡(luò)模型(HSY)、以BS 模型為基礎(chǔ)構(gòu)造的融合模型(BS_BR)和以Heston模型為基礎(chǔ)構(gòu)造的融合模型(HS_BR)的相關(guān)情況。其中:LM 和BR 在NN 基礎(chǔ)上,進(jìn)行了二階優(yōu)化和正則化處理;BSY 和HSY 的訓(xùn)練數(shù)據(jù)及BS_BR 和HS_BR 的部分訓(xùn)練數(shù)據(jù)來自參數(shù)模型的輸出結(jié)果,而不是市場實(shí)際交易數(shù)據(jù)。為了分析這種調(diào)整對于訓(xùn)練過程的影響,首先考察各模型樣本內(nèi)擬合狀況。為了規(guī)避網(wǎng)絡(luò)初始化過程中隨機(jī)權(quán)重對結(jié)果產(chǎn)生影響,初始化時(shí)對不同模型賦予相同的初始化參數(shù)。
表1為訓(xùn)練過程中樣本內(nèi)平均擬合指標(biāo)。由表1可見,當(dāng)訓(xùn)練區(qū)間長度為30時(shí),由于具備刻畫時(shí)變波動(dòng)率的能力,參數(shù)模型Heston比BS模型具有更強(qiáng)的擬合能力,各指標(biāo)表現(xiàn)均有所提升。非參數(shù)模型中,NN 采用一階優(yōu)化,受樣本數(shù)據(jù)量及特征影響,收斂效果一般,R2、MSE、NRMSE和MAE分別為0.969 774、0.000 371、0.174 803 和0.014 55。采用LM 算法后,擬合能力得到了明顯改進(jìn),對應(yīng)指標(biāo)分別提升至0.998 821、1.48×10-5、0.033 49和0.002 811。采用BR 算法后,目標(biāo)函數(shù)同時(shí)兼顧訓(xùn)練誤差和網(wǎng)絡(luò)權(quán)重的大小,相對于LM 模型,指標(biāo)受到一定影響,但幅度較小。BSY 和HSY 分別利用貝葉斯正則化神經(jīng)網(wǎng)絡(luò)模擬BS和Heston模型,對照BS 及Heston 指標(biāo)可以發(fā)現(xiàn),擬合模型BSY 和HSY 達(dá)到了相似的精度?;贐S的融合模型BS_BR 中,R2、MSE、NRMSE和MAE分別為0.998 82、1.48×10-5、0.033 167和0.002 775,相對于BS和BR 模型而言表現(xiàn)更好?;贖eston模型的融合模型HS_BR 中,R2、MSE、NRMSE 和MAE分別為0.998 853、1.44×10-5、0.032 874和0.002 744,相對于HS和BR 模型而言進(jìn)一步提高了擬合能力。同時(shí),HS_BR 模型較好地保留了Heston模型的優(yōu)勢,指標(biāo)相對于BS_BR 模型更優(yōu)。當(dāng)訓(xùn)練區(qū)間長度為60 時(shí),各模型樣本內(nèi)的表現(xiàn)類似。由此可見,融合模型并沒有因?yàn)閷?shù)模型的擬合而影響整體擬合能力;相反,在擬合能力方面,相對于基礎(chǔ)的參數(shù)模型和非參數(shù)模型,融合模型具備更好的表現(xiàn)。
為了考察訓(xùn)練過程中模型的收斂效果及參數(shù)變動(dòng)情況,針對樣本期內(nèi)第1個(gè)30日數(shù)據(jù)的擬合進(jìn)行展示。圖1所示為前20輪訓(xùn)練過程中,各模型損失函數(shù)的變動(dòng)情況。由圖1可以發(fā)現(xiàn),相對于NN 模型而言,其他模型由于采用二階優(yōu)化算法,損失函數(shù)下降更為顯著,而融合模型BS_BR 和HS_BR 基于在參數(shù)模型基礎(chǔ)上的進(jìn)一步優(yōu)化,實(shí)現(xiàn)了最好的收斂效果。
表2列舉了采用二階優(yōu)化算法的模型在100輪訓(xùn)練過程中,模型參數(shù)極差和方差的平均值。由此可見,LM 模型由于沒有對參數(shù)進(jìn)行正則化處理,極差和方差指標(biāo)較大,融合模型BS_BR 和HS_BR 利用貝葉斯學(xué)習(xí)機(jī)制,有效避免了訓(xùn)練過程中模型參數(shù)的過度波動(dòng)。
表2 模型參數(shù)變動(dòng)情況
為了評估模型的預(yù)測能力,分別考察了各模型在預(yù)測步長為1和2時(shí)的預(yù)測結(jié)果。相關(guān)情況如表3所示。根據(jù)表3,首先考察訓(xùn)練區(qū)間長度為30的情況。在參數(shù)模型中,當(dāng)預(yù)測步長為1 時(shí),Heston模型比BS模型表現(xiàn)出更強(qiáng)的樣本外預(yù)測能力。在非參數(shù)模型中,NN 的表現(xiàn)最不理想,R2、MSE、NRMSE 和 MAE指標(biāo)分別為0.957 757、0.000 445、0.206 887和0.015 974。LM 模型的對應(yīng)指標(biāo)提升至0.989 66、9.27×10-5、0.070 324和0.006 001。采用BR 算法后,對應(yīng)指標(biāo)達(dá)到0.993 102、7.46×10-5、0.068 543和0.006 149,反映出貝葉斯正則化對于模型泛化能力的提升。BSY 和HSY 在樣本外的表現(xiàn)與相應(yīng)的BS 和Heston模型相當(dāng)。融合模型BS_BR,相對于模型BS和BR 而言,預(yù)測能力得到進(jìn)一步提高,R2提高至0.994 138,MSE、NRMSE和MAE降幅非常明顯,分別降低至6.56×10-5、0.063 276和0.005 57。HS_BR 模型的情況類似,相對于HS和BR 模型,相應(yīng)指標(biāo)分別提升至0.994 116、6.13×10-5、0.062 485和0.005 457。兩個(gè)融合模型之間,除R2指標(biāo)外,其余指標(biāo)HS_BR 相對于BS_BR 均有所改進(jìn)。隨著預(yù)測步長增加為2,各模型的預(yù)測指標(biāo)均有所降低。BS_BR 模型的R2、MSE、NRMSE 和MAE指標(biāo)分別為0.988 138、0.000 125、0.087 088和0.007 665,僅略遜于BR 模型的指標(biāo),高于其他對應(yīng)模型。HS_BR 的表現(xiàn)依然最好,指標(biāo)分別達(dá)到0.989 441、0.000 11、0.083 402和0.007 37。當(dāng)訓(xùn)練區(qū)間長度為60 時(shí),得到的情況類似。步長為1時(shí),融合模型都取得了最好的效果;步長為2 時(shí),HS_BR 依然最優(yōu),BS_BR 也僅略遜于BR。
表3 樣本外預(yù)測結(jié)果
綜合表1、3不難看出,融合模型在樣本內(nèi)擬合能力及樣本外預(yù)測能力方面均有更好的表現(xiàn)。可見,融合模型泛化能力的提升并不是在訓(xùn)練過程中通過正則項(xiàng)“懲罰”目標(biāo)函數(shù)取得的,而是模型本身優(yōu)化的結(jié)果。
為了更直觀地呈現(xiàn)各模型預(yù)測效果的差異,表4 列出了相關(guān)模型對之間預(yù)測指標(biāo)R2、MSE、NRMSE和MAE的比值。其中,行標(biāo)“30,1”對應(yīng)訓(xùn)練區(qū)間長度為30、預(yù)測步長為1的結(jié)果,以此類推;行標(biāo)“平均”表示不同訓(xùn)練區(qū)間長度及預(yù)測步長的平均結(jié)果。
根據(jù)表4,由各預(yù)測指標(biāo)比值可見,無論訓(xùn)練區(qū)間長度是30還是60,當(dāng)預(yù)測步長為1時(shí),融合模型BS_BR 和HS_BR 均優(yōu)于其他模型;當(dāng)預(yù)測步長為2時(shí),除了BS_BR 相對于BR 模型之外,其他模型對之間BS_BR 和HS_BR 均占優(yōu)。由指標(biāo)比值的平均結(jié)果可以發(fā)現(xiàn),所有參數(shù)和非參數(shù)模型相對于融合模型的R2指標(biāo)比值的平均值都小于1,MSE、NRMSE及MAE 等指標(biāo)比值的平均值均大于1。綜合看來,融合模型相對參數(shù)和非參數(shù)模型具備更好的預(yù)測能力。比較兩個(gè)融合模型之間的預(yù)測指標(biāo)可以發(fā)現(xiàn),除了在訓(xùn)練區(qū)間長度為60、預(yù)測步長為1時(shí)之外,HS_BR 相對BS_BR 在其他情況下都占優(yōu)。由4個(gè)指標(biāo)比值的平均來看,HS_BR 模型也相對更優(yōu)。這說明,在預(yù)測方面,HS_BR 模型也較好地保留了Heston模型的優(yōu)勢。
表4 模型對預(yù)測指標(biāo)比值
為了進(jìn)一步分析模型表現(xiàn),采用DM 檢驗(yàn)法[26]及WS符號秩檢驗(yàn)[27],對于各模型預(yù)測結(jié)果進(jìn)行配對比較。檢驗(yàn)結(jié)果如表5所示。
由表5 可以發(fā)現(xiàn),不論是從DM 統(tǒng)計(jì)量還是WS統(tǒng)計(jì)量上看,融合模型相對于原來的參數(shù)及非參數(shù)模型而言,預(yù)測結(jié)果差異在統(tǒng)計(jì)上普遍存在顯著性。當(dāng)訓(xùn)練區(qū)間長度為30時(shí),由DM 指標(biāo)可見,在BS_BR 模型方面,除預(yù)測步長為1時(shí)BS_BR 和BR 模型之間在5%水平下顯著外,其余模型對均在1%水平下顯著;在HS_BR 模型方面,除預(yù)測步長為2時(shí)HS_BR 和BR 模型之間不顯著外,其余均在1%水平下顯著。由WS 指標(biāo)可見,除步長為1 時(shí)HS_BR 和NN 之間在5%水平下顯著外,其余均在1%水平下顯著。當(dāng)訓(xùn)練區(qū)間長度為60時(shí),情況類似??傮w而言,不顯著的情況主要出現(xiàn)在融合模型相對于BR 和LM 模型之間,這與它們具有相似的模型結(jié)構(gòu)和優(yōu)化機(jī)制有關(guān)。但在這類情況下的所有32種配對檢驗(yàn)結(jié)果中,僅有5種不顯著,同時(shí),在這5種不顯著的情況中,均未出現(xiàn)兩個(gè)指標(biāo)同時(shí)不顯著的情形。因此,融合模型相對于BR 和LM 模型預(yù)測結(jié)果的整體差異仍然具備較強(qiáng)的顯著性。兩個(gè)融合模型BS_BR 和HS_BR 之間,當(dāng)訓(xùn)練區(qū)間長度為30、預(yù)測步長為1時(shí)的DM 指標(biāo)及步長為2時(shí)的WS指標(biāo)不顯著,其余均在1%水平下顯著。上述分析也反映出融合模型并不是參數(shù)模型和非參數(shù)機(jī)器學(xué)習(xí)模型的簡單疊加,整體上呈現(xiàn)出不同的變化特征。
表5 模型對預(yù)測結(jié)果顯著性檢驗(yàn)
本文設(shè)計(jì)了融合參數(shù)模型和非參數(shù)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練的算法,其貢獻(xiàn)主要包括:
(1)在貝葉斯架構(gòu)下對異類模型之間的融合進(jìn)行研究,為融合模型的構(gòu)造建立理論支撐,提供了一種構(gòu)造混合模型的新方法。
(2)利用非參數(shù)模型模擬參數(shù)模型,作為先驗(yàn)基準(zhǔn),然后再通過機(jī)器學(xué)習(xí)進(jìn)行優(yōu)化訓(xùn)練。該方法在訓(xùn)練過程中有助于避免參數(shù)過度波動(dòng),提升模型泛化能力,為目前機(jī)器學(xué)習(xí)算法提供了新思路。
(3)參數(shù)模型來源于均衡條件下的理論推導(dǎo),結(jié)果比較穩(wěn)定,而非參數(shù)模型利用市場數(shù)據(jù)通過訓(xùn)練獲得,善于捕捉市場特征因子,文中構(gòu)建的融合模型,不是模型之間的靜態(tài)堆疊,而是利用參數(shù)模型和非參數(shù)模型之間的相互作用,發(fā)揮各自優(yōu)勢。
(4)在實(shí)證研究中,比較了不同模型樣本內(nèi)擬合能力及樣本外預(yù)測能力,并對不同模型對之間預(yù)測差異的顯著性進(jìn)行分析。綜合發(fā)現(xiàn),融合模型相對于參數(shù)和非參數(shù)模型具備更好的預(yù)測能力,并且這種泛化能力的提升并不以“懲罰”目標(biāo)函數(shù)為代價(jià)。
(5)分析了不同融合模型之間的表現(xiàn),發(fā)現(xiàn)融合模型能夠有效保留基礎(chǔ)模型的優(yōu)點(diǎn),HS_BR 模型整體表現(xiàn)優(yōu)于BS_BR 模型,但這種差異由于非參數(shù)模型的優(yōu)化而減少。
需要指出的是,融合算法也可以方便地應(yīng)用于徑向基網(wǎng)絡(luò)、支持向量機(jī)等其他機(jī)器學(xué)習(xí)算法中,實(shí)現(xiàn)參數(shù)模型的模擬和優(yōu)化,后續(xù)還可以進(jìn)一步研究融合模型在期權(quán)對沖和風(fēng)險(xiǎn)管理方面的應(yīng)用。