亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法的金融期權(quán)波動率預(yù)測*

        2018-10-18 01:21:02
        學(xué)海 2018年5期
        關(guān)鍵詞:樣本數(shù)期權(quán)波動

        內(nèi)容提要 期權(quán)波動率預(yù)測是期權(quán)風(fēng)險預(yù)警管理的關(guān)鍵問題,傳統(tǒng)方法采取GARCH等時間序列模型。與傳統(tǒng)方法不同,本文創(chuàng)建了基于機(jī)器學(xué)習(xí)算法的“SKRG遞進(jìn)集成”新預(yù)警體系,體系以中國波指為對象,采取48個相關(guān)指標(biāo)作為對中國波指預(yù)測的特征(Feature),依次引入SVM機(jī)器學(xué)習(xí)、KNN樣本不平衡機(jī)器學(xué)習(xí)、RF劃分、GBDT優(yōu)化完成機(jī)器學(xué)習(xí)建模過程,逐步提高預(yù)測精準(zhǔn)率。測試樣本顯示,基于機(jī)器學(xué)習(xí)的預(yù)測效果好于傳統(tǒng)的GARCH模型。本文的理論價值在于豐富了期權(quán)隨機(jī)波動率預(yù)測領(lǐng)域的相關(guān)文獻(xiàn),應(yīng)用價值在于為波動率的預(yù)測進(jìn)而期權(quán)風(fēng)險預(yù)警提供了新的方法。

        引 言

        金融工程中,期權(quán)是重要的衍生品工具。作為機(jī)構(gòu)交易者,在設(shè)計(jì)交易期權(quán)的策略中,突出的交易策略是賣出類。但單向賣出期權(quán)與單項(xiàng)買入期權(quán)一樣,存在巨大的交易風(fēng)險。為獲取穩(wěn)健的賣出類期權(quán)策略收益,需要動態(tài)對沖。

        如何考慮對沖的動態(tài)連續(xù)性和前瞻性,成為風(fēng)險管理的焦點(diǎn)。市場波動率是決定期權(quán)價格的重要變量,然而事實(shí)和研究表明,期權(quán)波動率并不是一成不變的,而是具有隨機(jī)性。波動率的不可預(yù)測性意味著難以找到合適的波動率對期權(quán)予以定價。因而要把握期權(quán)價格的變化趨勢以及對沖的動態(tài)性和前瞻性,對波動率的預(yù)測就成為十分重要的工作。比如,在賣出期權(quán)的策略中風(fēng)險的很大一部分來自隱含波動率的大幅度上漲,因此如果我們能夠提前預(yù)測出隱含波動率的上漲,便可以通過對沖倉位的調(diào)整來削減或是規(guī)避掉波動率上漲帶來的風(fēng)險。

        波動率預(yù)測急需使用新的方法體系模型。近年來,隨著大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)技術(shù)的日趨成熟,可以利用新技術(shù)實(shí)現(xiàn)波動率的預(yù)測。大數(shù)據(jù)是新技術(shù)處理模式中,具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)T+0交易的期權(quán)在年度、月度、周度、日度、秒度的不同層次、不同深度數(shù)據(jù),可以滿足數(shù)據(jù)“大”的標(biāo)準(zhǔn)。而“人工智能”從1956年Dartmouth學(xué)會上提出至今已經(jīng)滿了一個60年,其研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué),具體研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等,其中的核心是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)設(shè)計(jì)和分析這些讓計(jì)算機(jī)可以自動“學(xué)習(xí)”的算法,正是期權(quán)策略中,對波動率預(yù)測可以使用的新方法。

        因此,利用交易數(shù)據(jù)和算法人工智能,將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于期權(quán)金融市場,提高期權(quán)風(fēng)險管理水平和投資決策效率,是本文嘗試的一個方向。本文主要目的是探索機(jī)器學(xué)習(xí)在期權(quán)波動預(yù)測中的應(yīng)用,主要創(chuàng)新是提出波動率預(yù)測“SKRG遞進(jìn)集成”法,較高質(zhì)量預(yù)測了隱含波動率,該機(jī)器學(xué)習(xí)有利于提高波動率預(yù)測的精度。具體而言,SKRG遞進(jìn)集成法,是基于中國波指預(yù)測的特征(Feature),分別運(yùn)用隨機(jī)森林、GBM及K臨近等算法,搭建了層層遞進(jìn)的48個指標(biāo),并在邏輯上做集成處理,得到最優(yōu)化成果。

        文獻(xiàn)綜述

        對收益波動率的建模和預(yù)測是金融市場研究的一個重要議題。主流的方法是通過歷史數(shù)據(jù)即時間序列模型。

        Engle等較早提出ARCH類模型,之后學(xué)者提出GARCH等一系列修正模型。黃海南等(2007)運(yùn)用GARCH模型對上證指數(shù)收益率進(jìn)行估計(jì)及樣本外預(yù)測,然后以已實(shí)現(xiàn)波動率作為波動率預(yù)測的評價標(biāo)準(zhǔn),通過M-Z回歸和損失函數(shù)來評價GARCH類模型的波動率預(yù)測表現(xiàn)。結(jié)果表明,無論是樣本內(nèi)還是樣本外,GARCH類模型都能夠較好地預(yù)測上證指數(shù)的收益波動率。其中,偏斜t-分布假設(shè)下的GJR(1,1)模型的預(yù)測能力最強(qiáng)。趙華等(2011)分別基于誤差項(xiàng)服從正態(tài)分布、t分布、廣義誤差分布的GARCH族模型和MRS-GARCH模型對中國股市波動的結(jié)構(gòu)變化特征進(jìn)行實(shí)證研究。結(jié)果表明,中國股市存在顯著的高、低波動狀態(tài),MRS-GARCH模型預(yù)測效果總體上優(yōu)于GARCH族模型。李漢東等(2003)討論了在金融時間序列中廣泛應(yīng)用的兩類波動性模型,即自回歸條件異方差(ARCH)模型和隨機(jī)波動(SV)模型的關(guān)系問題,認(rèn)為一個離散的EGARCH(1,1)模型在弱GARCH過程的條件下與一個離散的SV模型是一一對應(yīng)的。在此基礎(chǔ)上進(jìn)一步討論了EGARCH(1,1)模型和SV模型的單位根問題,結(jié)果表明:兩類模型的單位根存在對應(yīng)的關(guān)系,即二者的持續(xù)性能夠通過隨機(jī)微分方程的形式來傳遞。但GARCH模型的缺點(diǎn)在于,無法考慮期權(quán)波動率二階的復(fù)雜性和非線性特征。

        部分學(xué)者利用貝葉斯原理對隨機(jī)波動率模型進(jìn)行研究。Jacquieret al.(2002)利用股票的收益率和換手率的日數(shù)據(jù)和周數(shù)據(jù),通過抽樣實(shí)驗(yàn)來比較貝葉斯估計(jì)法、矩量法和擬極大似然法。實(shí)驗(yàn)結(jié)果表明:在參數(shù)估計(jì),貝葉斯估計(jì)法要優(yōu)于另外兩種方法。蔣祥林等(2005)基于貝葉斯原理對隨機(jī)波動性模型進(jìn)行研究,并將隨機(jī)波動率模型應(yīng)用于股市風(fēng)險價值的估計(jì)與預(yù)測。針對中國股市數(shù)據(jù)進(jìn)行的實(shí)證結(jié)果表明:與GARCH模型相比,隨機(jī)波動率模型能更好地描述股票市場回報(bào)的異方差和波動率的序列相關(guān)性,基于隨機(jī)波動率的VaR較GARCH模型的VaR具有更高的精度。類似地,羅嘉雯等(2017)通過構(gòu)建包含時變系數(shù)和動態(tài)方差的貝葉斯HAR潛在因子模型,對我國金融期貨的高頻已實(shí)現(xiàn)波動率進(jìn)行預(yù)測。結(jié)果表明,時變貝葉斯?jié)撛谝蜃幽P驮谒袇⑴c比較的預(yù)測模型當(dāng)中具有最優(yōu)的短期、中期和長期預(yù)測效果。同時,在股指期貨和國債期貨的預(yù)測模型中加入投機(jī)活動變量可以獲得更好的預(yù)測效果。但貝葉斯估計(jì)法難以處理期權(quán)的不同執(zhí)行價、不同到期日、不同執(zhí)行權(quán)的歐式或美式等多維度特征,常常依賴于單因素的分布條件。

        陳蓉等(2010)利用香港恒生指數(shù)期權(quán)的數(shù)據(jù),對隱含波動率曲面動態(tài)過程進(jìn)行建模和估計(jì),建立了一個五因子隨機(jī)隱含波動率模型。在模型的估計(jì)方法上,首次引入了基于小樣本面板數(shù)據(jù)的擴(kuò)展的卡爾曼濾波法。結(jié)果顯示,在香港市場上,擴(kuò)展的卡爾曼濾波法比傳統(tǒng)的兩步法可以得到更好的估計(jì)結(jié)果,五因子隨機(jī)隱含波動率模型能很好地刻畫恒指期權(quán)隱含波動率曲面的變動規(guī)律,效果明顯優(yōu)于靜態(tài)隱含波動率模型。但中國市場的期權(quán)交易尚不充分活躍的情形下,部分非主力合約的波動率曲面的建立容易失真。

        除了傳統(tǒng)的波動率預(yù)測模型之外,部分學(xué)者不斷提出新的預(yù)測模型。魏宇等(2015)在已有的多分形波動率(multifractal volatility)測度方法的基礎(chǔ)上提出新的波動率測度方法及模型?;谏献C綜指的5 min高頻數(shù)據(jù),發(fā)現(xiàn)不論是短記憶模型還是長記憶模型,多分形波動率模型的預(yù)測精度明顯優(yōu)于GARCH族模型,且長記憶模型的預(yù)測能力要好于短記憶模型。鄭振龍等(2017)根據(jù)新的隱含波動率半?yún)?shù)模型,利用MATLAB編程,選擇香港小型恒生指數(shù)期權(quán)2013年1月到2015年3月的日交易數(shù)據(jù),分別實(shí)現(xiàn)了滾動加權(quán)平均法與BP神經(jīng)網(wǎng)絡(luò)法對參數(shù)的周期性時間序列進(jìn)行外推預(yù)測,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)法明顯優(yōu)于滾動加權(quán)平均法。這些嘗試是機(jī)器學(xué)習(xí)在期權(quán)波動率預(yù)測的嘗試,盡管主要局限于上證股票指數(shù)或香港期權(quán)市場。

        近年來機(jī)器學(xué)習(xí)在金融市場預(yù)測中得到越來越多的應(yīng)用。Rose(2013)將機(jī)器學(xué)習(xí)用于流行病學(xué)研究,結(jié)果發(fā)現(xiàn)超級學(xué)習(xí)者在預(yù)測死亡率方面比單一算法具有優(yōu)勢。李光明(2013)基于粗糙集的神經(jīng)網(wǎng)絡(luò)模型,針對國有企業(yè)目前的經(jīng)營績效進(jìn)行分類,實(shí)驗(yàn)結(jié)果顯示約簡后的國有資產(chǎn)指標(biāo)集可以很好地反映國有企業(yè)的財(cái)務(wù)風(fēng)險情況。彭巖等(2017)討論了基于案例的推理(CBR,Case based Reasoning)、支持向量機(jī)(SVM,SupportVectot Machine)以及人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)等機(jī)器學(xué)習(xí)方法在風(fēng)險預(yù)測中的作用。曹正鳳(2014)通過比較分析價值策略和成長策略,提出以價值成長投資策略(GARP)理念為基礎(chǔ)的選股模型指標(biāo)體系,通過樣本數(shù)據(jù)發(fā)現(xiàn),使用隨機(jī)森林算法可以更好地完成股票分類,實(shí)現(xiàn)更好收益。辛治運(yùn)和顧明(2008)基于最小二乘支持向量機(jī)的對復(fù)雜金融時間序列進(jìn)行預(yù)測,吳微等(2001)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測股票市場漲跌,張煒等(2015)基于自適應(yīng)遺傳算法對股票未來走勢進(jìn)行預(yù)測,蘇治等(2013)通過核主成分遺傳算法對SVR選股模型進(jìn)行改進(jìn),王夢雪(2016)利用拍拍貸平臺的借貸數(shù)據(jù),通過各種機(jī)器學(xué)習(xí)的算法選擇風(fēng)控模型的因子,并對約定的違約進(jìn)行預(yù)測,得到比較滿意的結(jié)果。整體上看,這些研究標(biāo)的物多為股票或借貸,在國內(nèi)的金融期權(quán)上尚屬于空白。

        通過上述文獻(xiàn)可以看出,盡管機(jī)器學(xué)習(xí)正越來越多地用于金融預(yù)測與風(fēng)險管理,但用于期權(quán)風(fēng)險預(yù)警、預(yù)測波動率的文獻(xiàn)還較少。同時,如何在期權(quán)隱含波動率預(yù)測上建立一個機(jī)器學(xué)習(xí)應(yīng)用模型,這一空白需要填補(bǔ)。因此,本文運(yùn)用機(jī)器算法機(jī)制,綜合隨機(jī)森林、GBM及K臨近等算法,提出“SKRG遞進(jìn)集成”法模型,用于期權(quán)風(fēng)險預(yù)警,并通過實(shí)盤數(shù)據(jù)進(jìn)行了有效檢驗(yàn)。

        基于機(jī)器學(xué)習(xí)算法的期權(quán)波動率預(yù)測

        (一)機(jī)器學(xué)習(xí)在期權(quán)波動率預(yù)測上的評價標(biāo)準(zhǔn)

        能否高質(zhì)量地評價機(jī)器學(xué)習(xí)方法對波動的預(yù)測,需要建立科學(xué)的評價指標(biāo)。根據(jù)機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用情況,機(jī)器學(xué)習(xí)一般分為三類:監(jiān)督學(xué)習(xí)(Supervised Learning,SL),非監(jiān)督學(xué)習(xí)(Unsupervised learning,UL),和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。本文應(yīng)用監(jiān)督學(xué)習(xí)可判別預(yù)測的效果。監(jiān)督學(xué)習(xí)是在給定訓(xùn)練樣本,該樣本既有數(shù)據(jù),又有數(shù)據(jù)對應(yīng)結(jié)果,利用該樣本進(jìn)行訓(xùn)練得到模型,然后利用該模型,將所有的輸入映射為相應(yīng)的輸出,之后對輸出進(jìn)行簡單的判斷,從而達(dá)到分類或回歸的過程。因而監(jiān)督學(xué)習(xí)是原始數(shù)據(jù)中既有特征值,也有標(biāo)簽值的機(jī)器學(xué)習(xí)。

        因此,本文機(jī)器學(xué)習(xí)的主要評價指標(biāo)包括四個方面,如下圖1所示:(1)準(zhǔn)確率(Accuracy),指對于給定的測試數(shù)據(jù)集,分類器正確分類的樣本數(shù)和總樣本數(shù)之比;(2)精確率(Precision),每次預(yù)測成功的概率;(3)召回率(Recall),反映的是能夠識別風(fēng)險的概率;(4)F1-Score,指精確率和召回率的調(diào)和均值。

        圖1 期權(quán)波動率預(yù)測的機(jī)器學(xué)習(xí)評價指標(biāo)

        由圖1可知,本文在機(jī)器學(xué)習(xí)模型效果上,注重四個指標(biāo),分別是預(yù)測的準(zhǔn)確率、精確率、召回率和二者的調(diào)和均值。通過四方面的對比,尋找較優(yōu)的預(yù)測模型。

        (二)期權(quán)波動率預(yù)測特征(Feature)與標(biāo)簽(Label)選擇

        在賣出類期權(quán)類策略中,期權(quán)的價值表示為:

        由于Vega為負(fù),如果隱含波動率大幅上漲,勢必帶來較大的投資損失。因此,我們把波動率變化幅度予以分類,根據(jù)Scott Mixon(2007)的分類法,本文把波動幅度在2%以內(nèi)定義為安全類,把超過2%定義為風(fēng)險類。

        對于隱含波動率的標(biāo)的選擇,本文選擇中國波指,000188.SH,其特點(diǎn)是構(gòu)造較公允、波動價格的跟蹤誤差較小、能夠較好反映期權(quán)的隱含波動狀況,反映市場情緒。

        對于訓(xùn)練和測試的時間段的選擇中,依據(jù)交易量較大的2015年2月9日至2017年10月18日,共655個交易日。

        在隱含波動率的因子選擇,由于隱含波動率的上漲下跌與標(biāo)的資產(chǎn)實(shí)際的波動狀況以及市場的情緒有關(guān),考慮到數(shù)據(jù)的可得性,本文選取實(shí)際波動狀況、歷史波動率、與波動狀況相關(guān)的技術(shù)指標(biāo)、波動率預(yù)測以及期權(quán)市場數(shù)據(jù)五大類數(shù)據(jù),共48個相關(guān)指標(biāo)作為隱含波動率的影響因素。這些因子基本覆蓋了期權(quán)理論因素點(diǎn)或各大歷史文獻(xiàn)研究的主要指標(biāo),具體如下表1所示。

        表1 期權(quán)隱含波動率的影響因子選擇

        由表1可知,期權(quán)隱含波動率的影響因子中,包括實(shí)際波動狀況,其可以細(xì)分為漲跌幅、成交量、振幅等指標(biāo),也包括歷史波動率指標(biāo),不同日期的收盤價波動率或Parkinson指標(biāo),以及各類call與put的比值等。

        (三)期權(quán)波動率機(jī)器學(xué)習(xí)算法模型構(gòu)建

        基于前述算法,本文開始通過數(shù)據(jù)對模型進(jìn)行訓(xùn)練,優(yōu)化模型參數(shù)。在訓(xùn)練的過程中,依據(jù)較高的“精準(zhǔn)率”,提升“召回率”逐步優(yōu)化模型。機(jī)器學(xué)習(xí)的算法中,考慮到因子數(shù)據(jù)量大、維度較高,選擇先用降維映射的算法,因此首先選擇SVM算法。同時,SVM可以克服因變量數(shù)據(jù)較小的不足。

        1.SVM算法降維分類

        SVM即支持向量機(jī),這是一種監(jiān)督學(xué)習(xí)方法,主要用于分析數(shù)據(jù)、識別模式,對數(shù)據(jù)的分類分析和回歸分析①。由于支持向量機(jī)可以將分類問題轉(zhuǎn)化為一個不等式約束下的二次規(guī)劃問題,并用核函數(shù)代替向高維空間的非線性映射,因而較好地解決了高維數(shù)問題,成為現(xiàn)階段統(tǒng)計(jì)理論發(fā)展最快的研究方向之一。鑒于我們的數(shù)據(jù)樣本數(shù)量只有655份,屬于小樣本數(shù)據(jù)集,而SVM在小樣本數(shù)據(jù)上有較為優(yōu)秀的表現(xiàn),因此先使用支持向量機(jī)對風(fēng)險預(yù)警問題進(jìn)行處理。

        由于我們的數(shù)據(jù)維度較高,因此需要用RBF核函數(shù)將樣本映射到高維空間,在參數(shù)的訓(xùn)練過程中我們主要訓(xùn)練兩個參數(shù),一個是gamma,是RBF函數(shù)自帶的一個參數(shù)。gamma越大,支持向量越少,gamma值越小,支持向量越多。我們調(diào)整gamma的值在0.01至1.5的范圍內(nèi),其精確率、召回率以及F1值有如下變化(圖2)。

        圖2 gamma值變動時指標(biāo)曲線圖

        我們可以看到在gamma在0.8左右有著較好的性能,且魯棒性較好。另一個是懲罰系數(shù)C,即對誤差的寬容度。C越高,說明越不能容忍出現(xiàn)誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。我們調(diào)整懲罰系數(shù)C的值在1至5的范圍內(nèi),其精確率、召回率以及F1值變化如圖3。

        圖3 懲罰系數(shù)C變動時指標(biāo)曲線圖

        當(dāng)懲罰系數(shù)C小于1.5時預(yù)測的精準(zhǔn)度是很低的,在1.5到2之間有一個較高值,之后逐漸衰減,綜合考慮我們選擇C的值為1.8。通過調(diào)參后,支持向量機(jī)在測試集上的表現(xiàn)如下(圖4)。

        圖4 SVM在測試集上的表現(xiàn)結(jié)果

        由圖4可見,SVM具有較好效果,精準(zhǔn)率可以達(dá)到0.8,召回率也在0.8左右。但在實(shí)際交易中,考慮到我們更關(guān)心波動率較大的突變,而不是每次均等變化,前文中的“風(fēng)險類”樣本,是我們更關(guān)注的對象。因此我們用KNN進(jìn)行優(yōu)化。

        2.KNN優(yōu)化樣本的不平衡

        由于我們的數(shù)據(jù)存在樣本不平衡的現(xiàn)象,“風(fēng)險類”的樣本明顯少于“安全類”。為有效解決樣本不平衡的問題,我們將訓(xùn)練KNN模型來對問題進(jìn)行處理。經(jīng)過數(shù)據(jù)處理后我們開始對模型進(jìn)行參數(shù)調(diào)節(jié),由于KNN算法是一種被動的算法,沒有一個訓(xùn)練的過程,因此我們在訓(xùn)練集內(nèi)部做十折交叉驗(yàn)證來選取一個合適的k值以及加權(quán)方式。其精準(zhǔn)率的展示如下圖5、圖6。

        圖5 等權(quán)重時下精準(zhǔn)率與k值的關(guān)系圖

        圖5表示當(dāng)取各個數(shù)據(jù)點(diǎn)權(quán)重相等時,k的不同取值對精準(zhǔn)率的影響,圖6表示當(dāng)給各個數(shù)據(jù)點(diǎn)按距離分之加權(quán)時,k的不同取值對精準(zhǔn)率的影響。通過兩幅圖的對比我們可以發(fā)現(xiàn),對各個數(shù)據(jù)點(diǎn)賦予相等權(quán)重的效果明顯要更好一些。同時發(fā)現(xiàn)當(dāng)k值在20到30之間有著較好的效果。通過調(diào)參后,KNN算法在測試集上的表現(xiàn)如下(圖7)。通過圖7可以看出,KNN算法在精準(zhǔn)率上的表現(xiàn)和隨機(jī)森林相同,但是在召回率上要更好一些。

        圖6 加權(quán)后精準(zhǔn)率與k值的關(guān)系圖

        圖7 KNN在測試集上的表現(xiàn)結(jié)果

        由圖7可以看出,KNN算法在精準(zhǔn)率上的表現(xiàn)和SVM相近,但在召回率上更好一些。

        3.在SVM和KNN上用RF優(yōu)化特征值權(quán)重

        無論是支持向量機(jī)還是KNN算法都是同時對多組數(shù)據(jù)進(jìn)行分析處理,雖然我們提前會對特征做一些篩選工作,排除一些相關(guān)性較差的特征,但在留下的特征當(dāng)中仍是賦予了相同的權(quán)重,而實(shí)際上每個特征對隱含波動率的影響不會是完全相同的。而樹模型是每次只對單個特征進(jìn)行處理,每次都會選擇信息增益最大的特征作為判斷模塊建立子結(jié)點(diǎn),當(dāng)節(jié)點(diǎn)內(nèi)的樣本全部歸為一類或是到達(dá)我們規(guī)定的深度便會停止繼續(xù)劃分,這樣可以使得我們根據(jù)特征的重要程度依次對特征進(jìn)行處理?;谶@個特點(diǎn)我們進(jìn)一步使用隨機(jī)森林對問題進(jìn)行處理。

        最大特征數(shù)(Max_Features)是指隨機(jī)森林允許單個決策樹使用特征的最大數(shù)量。增加最大特征數(shù)一般能提高模型的性能,因?yàn)樵诿總€節(jié)點(diǎn)上,我們有更多的選擇可以考慮。然而這未必完全是對的,因?yàn)樗档土藛蝹€樹的多樣性,而這正是隨機(jī)森林獨(dú)特的優(yōu)點(diǎn)。但是可以肯定的是,通過增加最大特征數(shù)會降低算法的速度。因此需要適當(dāng)?shù)钠胶夂瓦x擇最佳最大特征數(shù)。為此我們調(diào)節(jié)最大特征數(shù)的取值0到40,其精確率、召回率以及F1值有如下變化(圖8、圖9)。

        圖8 最大特征數(shù)與評價指標(biāo)關(guān)系圖

        圖9 最小葉子樣本數(shù)與評價指標(biāo)關(guān)系圖

        從圖8可以看到,在最大特征數(shù)非常小的時候,模型基本沒有什么預(yù)測能力,三個值都非常的低,最大特征數(shù)取3到10的區(qū)間范圍時,精確率較高,召回率及F1值較低且有逐漸上升的趨勢,當(dāng)最大特征數(shù)大于10之后,精確率有稍微下降的趨勢,且召回率和F1值逐漸趨于穩(wěn)定。綜合考慮,我們?nèi)∽畲筇卣鲾?shù)的值為10。

        最小葉子樣本數(shù)(min_sample_leaf)控制著樹枝在分叉時的最小樣本數(shù),當(dāng)前節(jié)點(diǎn)樣本數(shù)小于這個值的時候,當(dāng)前節(jié)點(diǎn)停止構(gòu)建,作為決策樹的葉子節(jié)點(diǎn)。這個值決定著決策樹的深度,一般而言取值越小性能會越好,但如果葉子太小會使模型更容易捕捉訓(xùn)練數(shù)據(jù)中的噪聲,使得決策樹較為容易過擬合。我們調(diào)節(jié)最大特征數(shù)的取值0到40,其精確率,召回率以及F1值變化如圖9。

        我們看到當(dāng)取值越小時,召回率越高,取值越大,召回率越低,主要原因是我們的數(shù)據(jù)有一定的偏態(tài),歸為“安全類”的數(shù)據(jù)大約占到了77%,樹模型的深度越低,越容易被歸為“安全類”,當(dāng)取值為10到15時,精準(zhǔn)率有一個較高的取值。綜合考慮,我們?nèi)∽钚∪~子樣本數(shù)的值為11。通過參數(shù)調(diào)節(jié)后隨機(jī)森林模型的性能如下(見圖10):

        圖10 隨機(jī)森林在測試集上的表現(xiàn)結(jié)果

        4.考慮樣本不平衡和權(quán)重差以后的GBDT梯度提升

        在測試上述集中共有41個風(fēng)險類,隨機(jī)森林模型可以識別出其中的15%,其預(yù)測的精準(zhǔn)率達(dá)到75%。但是召回率要略低于KNN算法。在隨機(jī)森林中使用的是Bagging的方法,每輪抽取的訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,各個預(yù)測函數(shù)沒有權(quán)重。相比于bagging,在集成樹模型中還有一種boosting方法,在開始時會給每個樣本相等的權(quán)重,然后用該算法對訓(xùn)練集訓(xùn)練n輪,每輪訓(xùn)練后,會對訓(xùn)練錯的樣本加大權(quán)重,也就是讓學(xué)習(xí)算法在后續(xù)的學(xué)習(xí)中集中對比較難的訓(xùn)練例進(jìn)行學(xué)習(xí),從而得到一個預(yù)測函數(shù)序列,其中預(yù)測函數(shù)也有一定的權(quán)重,預(yù)測效果好的預(yù)測函數(shù)權(quán)重較大,反之較小。Bagging采用均勻取樣,而boosting根據(jù)錯誤率來取樣,因此boosting的分類精度要優(yōu)于bagging,梯度提升決策樹是一種使用boosting的方法,在這一部分我們將使用梯度決策樹算法來對問題進(jìn)行處理。

        與隨機(jī)森林類似,梯度提升決策樹也是以決策樹作為基礎(chǔ)分類器的一種集成模型,因此它也存在決策樹中的一些參數(shù),例如最小葉子樣本數(shù)、最大深度等,但它同時也包含了調(diào)節(jié)模型中boosting操作的參數(shù)以及調(diào)節(jié)模型總體各項(xiàng)運(yùn)作的參數(shù)。下面通過實(shí)證分析考察子樣本數(shù)、學(xué)習(xí)率、最大特征數(shù)以及最小葉子樣本數(shù)對模型性能的影響,并確定最佳模型參數(shù)。

        實(shí)際中,子樣本數(shù)是指每棵決策樹中所包含的全體樣本的數(shù)量,一般這個值選取的越大,會使得單棵樹中獲取的信息量也越大,性能也越高,但同時也會造成樹與樹之間差異性的減小,容易造成過擬合。圖11反映了當(dāng)子樣本數(shù)變化時各指標(biāo)的狀況,從圖中我們可以看到當(dāng)子樣本數(shù)取30%到50%時,精準(zhǔn)率與召回率都有著較好的表現(xiàn)。

        設(shè)定了初始的權(quán)重值之后,每一次樹分類都會更新這個值,而learning rate控制著每次更新的幅度。一般來說這個值不應(yīng)該設(shè)得比較大,因?yàn)檩^小的learning rate使得模型對不同的樹更加穩(wěn)健,能更好地綜合它們的結(jié)果。當(dāng)然我們也需要考慮到運(yùn)算效率,學(xué)習(xí)率設(shè)置得越小,運(yùn)算量越大,在可接受的運(yùn)算量范圍內(nèi),我們可以盡量地設(shè)置較小的學(xué)習(xí)率。圖12反映了學(xué)習(xí)率變化時各指標(biāo)的狀況,從圖中我們可以看到較小的學(xué)習(xí)率確實(shí)有助于提高精準(zhǔn)率。

        圖11 子樣本數(shù)與評價指標(biāo)關(guān)系圖

        圖12 學(xué)習(xí)率與評價指標(biāo)關(guān)系圖

        與隨機(jī)森林模型相同,我們同樣對最小葉子樣本數(shù)以及最大特征數(shù)進(jìn)行參數(shù)調(diào)整,各指標(biāo)表現(xiàn)如圖13、圖14。圖13表現(xiàn)的是不同最小葉子節(jié)點(diǎn)對指標(biāo)的影響,可以看到在取值為20左右的時候,精準(zhǔn)率有著將近80%的優(yōu)異表現(xiàn),同時召回率也不是特別的低,圖14展現(xiàn)的是不同的最大特征值對指標(biāo)的影響,可以看到在取值為10到20之間時,精準(zhǔn)率有著較為優(yōu)異的表現(xiàn)。

        圖13 最大特征數(shù)與評價指標(biāo)關(guān)系圖

        圖14 最小葉子樣本數(shù)與評價指標(biāo)關(guān)系圖

        通過參數(shù)調(diào)節(jié)后梯度提升決策樹模型的性能如下:

        圖15 GBDT在測試集上的表現(xiàn)結(jié)果

        在測試集中共有41個風(fēng)險類,梯度提升決策樹模型可以識別出其中的22%,其預(yù)測的精準(zhǔn)率達(dá)到90%,整體表現(xiàn)繼續(xù)得到優(yōu)化和提升。

        5.整體算法遞進(jìn)集成

        上述SVM、KNN、RF、GBDT在期權(quán)波動率上的四步預(yù)測,我們簡稱為SKRG算法縱向集成。從逐步算法結(jié)果來看,集成效果較好。除了這種縱向?qū)訉舆f進(jìn)式算法調(diào)倉,我們嘗試把四個預(yù)測模型的預(yù)測結(jié)果取“或”,也就是說只要有一個模型發(fā)出預(yù)警信號時,我們即認(rèn)為第二天隱波會上漲2%,在測試集上的橫向集成表現(xiàn)如下(圖16)。

        圖16 四個模型集成后在測試集上的表現(xiàn)結(jié)果

        整體來看,相比于單個模型的表現(xiàn),橫向集成后提高了召回率,我們可以預(yù)測出將近三分之一的風(fēng)險,不過同樣也把預(yù)測的準(zhǔn)確度降到了80%。跟單個模型比起來只是會好于隨機(jī)森林,跟其他三個模型相比效果都要差一些。單從預(yù)測效果上來說,隨機(jī)森林方法表現(xiàn)最差,由于其把集成模型的精準(zhǔn)率拉低,我們排除掉它,只利用其他三個模型在測試集上進(jìn)行預(yù)測,表現(xiàn)如下:

        圖17 SVM、KNN與GBDT三個模型集成后在測試集上的表現(xiàn)結(jié)果

        可以看到,在召回率沒有下降的情況下,精準(zhǔn)率得到了提升,說明隨機(jī)森林可以預(yù)測出來的風(fēng)險都被其他三個模型覆蓋掉,因此我們在集合模型中只選擇支持向量機(jī)、KNN和梯度提升決策樹三個模型作為基礎(chǔ)模型。同樣我們把集成模型來預(yù)測樣本外的數(shù)據(jù),我們?nèi)?017年10月19日至2018年2月6日的數(shù)據(jù)進(jìn)行預(yù)測,其表現(xiàn)如下(圖18):

        圖18 SVM、KNN與GBDT三個模型集成后在樣本外數(shù)據(jù)集上的表現(xiàn)結(jié)果

        我們可以看到在這段時間里,模型的精準(zhǔn)率達(dá)到了100%,也就是說在這段時間里每當(dāng)模型發(fā)出風(fēng)險預(yù)警時,都沒有發(fā)生誤報(bào)的狀況,相比而言召回率為18%,也就是說在發(fā)生風(fēng)險的33天里,我們總共預(yù)測出了6次。相比于在測試集中的表現(xiàn),在樣本外有著更高的精準(zhǔn)率以及較低的召回率。

        SKRG遞進(jìn)集成算法與傳統(tǒng)預(yù)測方法的比較

        總體而言,期權(quán)波動率預(yù)測的機(jī)器學(xué)習(xí)算法中,由于期權(quán)波動率的因子數(shù)據(jù)量較大,維度較高,選擇先用降維映射的SVM算法,但SVM不會考慮“風(fēng)險”樣本的特殊性,因此增加KNN的優(yōu)化。又由于SVM和KNN都隱含樣本權(quán)重相等,需要調(diào)整考慮特征值情況,因此引入RF,并精細(xì)化地提升梯度引入GBDT和縱向、橫向集成,這一過程我們稱為SKRG遞進(jìn)集成期權(quán)隱波機(jī)器學(xué)習(xí)算法。

        在波動率預(yù)測的問題上,較為流行的方法是利用GARCH模型來進(jìn)行預(yù)測,GARCH模型是由Bollerslev在1986年提出的,他在原自回歸條件異方差模型進(jìn)行改進(jìn),提化了該模型,該模型在一定程度上解決了待估參數(shù)不斷增加從而増大求解難度,以及導(dǎo)致解釋變量容易引發(fā)多重共線性問題。運(yùn)用GARCH(1,1)來對隱含波動率進(jìn)行預(yù)測,在2015年2月9日至2017年10月18日的655個交易日里,其表現(xiàn)如下:

        圖19 GARCH模型在樣本集與數(shù)據(jù)集上的表現(xiàn)結(jié)果

        從圖19可以看到其精準(zhǔn)率只有22%,召回率只有8%,都遠(yuǎn)遠(yuǎn)低于我們利用機(jī)器學(xué)習(xí)的預(yù)測能力。原因在于:GARCH模型僅僅利用到了過去n個交易日的收益率、方差以及長期均方差這幾項(xiàng)歷史數(shù)據(jù),而隱含波動率作為衡量期權(quán)價格的指標(biāo),反映了投資者對市場情緒的預(yù)期,絕不僅僅是這兩三個因子可以刻畫出來的。機(jī)器學(xué)習(xí)模型可以同時處理幾十個維度的數(shù)據(jù),更為全面的多角度的對隱波的漲跌去進(jìn)行思考判斷,同時利用了多個模型的差異性,相當(dāng)于讓多個專家來共同進(jìn)行抉擇判斷,相對而言會有更強(qiáng)的預(yù)測能力。

        結(jié) 論

        基于期權(quán)波動率傳統(tǒng)預(yù)測方法的不足,我們將機(jī)器學(xué)習(xí)算法引入到預(yù)測模型中。考慮期權(quán)隱波預(yù)測的高維度數(shù)據(jù)難度與特征值情況,依次引入過SVM機(jī)器學(xué)習(xí)、KNN樣本不平衡機(jī)器學(xué)習(xí)、RF劃分、GBDT優(yōu)化、算法遞進(jìn)集成完成機(jī)器學(xué)習(xí)建模過程。結(jié)果顯示,SKRG的預(yù)測效果好于傳統(tǒng)的GARCH模型。SKRG豐富了期權(quán)隨機(jī)波動率預(yù)測領(lǐng)域的相關(guān)文獻(xiàn),為期權(quán)風(fēng)險預(yù)警提供了新的方法。

        ①原始的支持向量機(jī)算法由Vladimir Vapnik發(fā)明,而當(dāng)前的標(biāo)準(zhǔn)化由Corinna Cortes和Vladimir Vapnik提出。

        猜你喜歡
        樣本數(shù)期權(quán)波動
        勘 誤 聲 明
        因時制宜發(fā)展外匯期權(quán)
        中國外匯(2019年15期)2019-10-14 01:00:44
        羊肉價回穩(wěn) 后期不會大幅波動
        人民幣外匯期權(quán)擇善而從
        中國外匯(2019年23期)2019-05-25 07:06:32
        微風(fēng)里優(yōu)美地波動
        中國化肥信息(2019年3期)2019-04-25 01:56:16
        干濕法SO2排放波動對比及分析
        初探原油二元期權(quán)
        能源(2016年2期)2016-12-01 05:10:43
        三時間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
        田間鑒定雜交棉品種純度的適宜時期和樣本數(shù)
        九九99久久精品国产| 日本韩国三级在线观看| 亚洲三级视频一区二区三区| 天天躁夜夜躁狠狠躁2021| 好大好硬好爽免费视频| 欧美丝袜激情办公室在线观看| 日本高清视频一区二区| 久久天天躁夜夜躁狠狠| 黄色视频在线免费观看| 久久久久久久综合日本| 久久影院最新国产精品| 国色天香中文字幕在线视频| 孩交精品xxxx视频视频| 亚洲国产成人精品激情资源9| 国产一区二区三区白浆肉丝| 男人添女人囗交做爰视频| 亚洲精品无播放器在线播放| 日韩在线精品在线观看| 开心五月激情五月天天五月五月天| 日韩内射美女片在线观看网站| 精品日韩欧美一区二区在线播放| 亚洲最大无码AV网站观看| 日本高清不卡二区三区| 四虎国产成人永久精品免费| 最近中文字幕完整版| 最新永久免费AV网站| 国产三级精品三级男人的天堂| 久久精品国产久精国产果冻传媒| 国产成人综合久久精品推| 色中文字幕视频在线观看| 亚洲麻豆视频免费观看| 国产精品ⅴ无码大片在线看| 麻豆国产乱人伦精品一区二区| 人妻有码中文字幕在线| 欧美大屁股xxxx高潮喷水| 天堂sv在线最新版在线| av熟女一区二区久久| av影片在线免费观看| 天天鲁一鲁摸一摸爽一爽| 精品无吗国产一区二区三区av | 亚洲第一女人天堂av|