亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的NSGA-III-XGBoost算法在股票預(yù)測中的應(yīng)用

        2023-09-25 09:03:02泳,李環(huán)
        關(guān)鍵詞:特征選擇準(zhǔn)確度種群

        何 泳,李 環(huán)

        東莞理工學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東東莞523000

        股票預(yù)測是計(jì)算機(jī)科學(xué)與金融交叉的經(jīng)典問題。新聞、政策、市場情緒等許多不確定因素都可能導(dǎo)致股票價(jià)格在短期內(nèi)發(fā)生劇烈變化。股票的時(shí)間價(jià)格序列往往被認(rèn)為是動(dòng)態(tài)非參數(shù)的、混亂的、嘈雜的非線性序列[1],因此,準(zhǔn)確的預(yù)測股票市場價(jià)格的趨勢,以最大化資本收益和最小化損失,給金融研究人員和投資者帶來挑戰(zhàn)。

        傳統(tǒng)的股票預(yù)測的方法可以分為三類:基本面分析、技術(shù)分析、傳統(tǒng)統(tǒng)計(jì)分析,其中基本面分析和技術(shù)分析是對個(gè)股最常用兩種的方法,用于分析和預(yù)測股票市場行為[2]。傳統(tǒng)統(tǒng)計(jì)分析方法預(yù)測時(shí)涉及統(tǒng)計(jì)方法,例如自回歸移動(dòng)平均(ARMA)和指數(shù)平滑(ES)等[3],將股票價(jià)格的變動(dòng)視為時(shí)間序列的函數(shù),并作為回歸問題解決。然而由于股票價(jià)格變動(dòng)的存在眾多內(nèi)部和外部因素且難以量化,處理海量復(fù)雜股票數(shù)據(jù)所需的工作量巨大,因此傳統(tǒng)的非人工智能方法在股價(jià)趨勢預(yù)測中往往不盡如人意[4]。近年來人工智能技術(shù)的不斷發(fā)展和股票數(shù)據(jù)易獲得的特點(diǎn),越來越多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的模型用于預(yù)測股票[1]。由于機(jī)器學(xué)習(xí)模型具有更強(qiáng)大的大數(shù)據(jù)處理能力和學(xué)習(xí)能力,能夠處理輸入特征和預(yù)測目標(biāo)之間的非線性關(guān)系,因此其預(yù)測能力通常比傳統(tǒng)的基本面分析的方式的更強(qiáng)[5]。通過準(zhǔn)確的股票價(jià)格方向變動(dòng)預(yù)測,投資者可以把握買賣時(shí)機(jī),從而戰(zhàn)勝市場并獲取利潤[6]。

        目前的研究中,基本的股票數(shù)據(jù)處理流程為:數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、優(yōu)化、預(yù)測和評估。然而,大部分的工作都集中在預(yù)測算法而忽視了特征工程。即使深度學(xué)習(xí)可以做到全自動(dòng)的特征工程,也需要在輸入模型之前進(jìn)行數(shù)據(jù)預(yù)處理,好的特征工程可以使預(yù)測模型達(dá)到更好性能的同時(shí)減少運(yùn)行資源[7]。因此,本文首先在特征工程方面進(jìn)行數(shù)據(jù)降噪和生成技術(shù)指標(biāo),而后使用結(jié)合了多目標(biāo)優(yōu)化(NSGA-III)算法和機(jī)器學(xué)習(xí)算法(XGBoost)的股票預(yù)測模型進(jìn)行特征選擇并對股票的變動(dòng)方向進(jìn)行預(yù)測。

        本文股票預(yù)測模型的優(yōu)點(diǎn)如下:(1)高效。本文提出的算法與深度學(xué)習(xí)中長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short term memory neural network,LSTM)神經(jīng)網(wǎng)絡(luò)相比,在相同的優(yōu)化次數(shù)下,準(zhǔn)確度比后者高的同時(shí),所需運(yùn)行時(shí)間不到后者的1%。(2)可解釋性。深度學(xué)習(xí)模型普遍存在“黑盒”問題[8],無法對特征的重要性進(jìn)行評估,而本文提出算法可以得出重要性最高的特征,以供后續(xù)研究。(3)高準(zhǔn)確度和穩(wěn)定性,本文算法與其他基準(zhǔn)研究相比,體現(xiàn)了其預(yù)測能力和應(yīng)對不同市場數(shù)據(jù)的預(yù)測穩(wěn)定性。

        1 相關(guān)工作

        近幾年,深度學(xué)習(xí)在圖像識別、語音識別和自然語言處理等領(lǐng)域非常熱門,其中也包括時(shí)間序列分析。在時(shí)間序列分析中,LSTM由于其特殊的門結(jié)構(gòu),可以記憶過去一段長度的輸入并解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中的梯度消失問題,成為研究的熱門。其中文獻(xiàn)[9]使用遺傳算法將均方根誤差(RMSE)作為適應(yīng)度函數(shù),優(yōu)化了神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[10]采用數(shù)據(jù)增強(qiáng)的方式,并用一個(gè)預(yù)測LSTM 和一個(gè)防止過擬合LSTM 來提高預(yù)測性能。文獻(xiàn)[11]提出一個(gè)復(fù)合模型,LSTM結(jié)合了經(jīng)驗(yàn)小波分解和異常值魯棒極端學(xué)習(xí)機(jī)。除了深度學(xué)習(xí)多種機(jī)器學(xué)習(xí)模型也用來開發(fā)股票預(yù)測系統(tǒng)。例如文獻(xiàn)[12]使用基于樹的集成學(xué)習(xí)方式,文獻(xiàn)[6]使用遺傳算法優(yōu)化的XGBoost,文獻(xiàn)[13]采用非線性高斯核函數(shù)的權(quán)重支持向量機(jī)(support vector machine,SVM)進(jìn)行特征工程,并用權(quán)重K鄰近算法預(yù)測價(jià)格。

        特征工程是AI 技術(shù)的重要組成,許多研究在這一部分改進(jìn)來提高模型的預(yù)測性能。文獻(xiàn)[14]、文獻(xiàn)[9]和文獻(xiàn)[12]在原始的歷史數(shù)據(jù)上生成技術(shù)指標(biāo)來預(yù)測價(jià)格。而文獻(xiàn)[12]在拓展特征后,采用特征提取的方式獲得新的指標(biāo)。然而,過多的特征輸入不一定能提高模型的性能,反而可能導(dǎo)致“維度詛咒”的問題,造成不必要的計(jì)算消耗和模型預(yù)測能力的下降[15]。

        基于以上研究的啟發(fā),本文提出的算法在拓展特征后,采用特征選擇的方式,去除不相關(guān)的和冗余的特征,減少不必要計(jì)算開銷的同時(shí)提高模型的預(yù)測性能。進(jìn)化算法通過啟發(fā)式搜索策略獲得最佳特征子集,因?yàn)槠涓咝У娜炙阉鞣绞奖粡V泛應(yīng)用于特征選擇問題。目前大多數(shù)研究采用單目標(biāo)的方式優(yōu)化分類精度或分類誤差來解決特征選擇的問題,而該問題可以作為最大化預(yù)測性能和最小化特征數(shù)量的多目標(biāo)問題。在實(shí)際應(yīng)用中,如果能選擇較小的解集并保持較高的預(yù)測性能,那么就能減少計(jì)算量的同時(shí)提高預(yù)測性能。因此,本文的預(yù)測系統(tǒng)可以看成多目標(biāo)特征選擇問題,用多目標(biāo)算法解決。

        2 方法與模型

        為了解決高維數(shù)據(jù)的處理問題,本文通過特征選擇方式移除與目標(biāo)相關(guān)性低的特征和冗余的特征,從而提高計(jì)算效率和模型性能。本文提出INSGA-III-XGBoost算法使用多目標(biāo)算法進(jìn)行同步特征選擇和參數(shù)優(yōu)化,選擇的特征子集和參數(shù)輸入XGBoost 模型進(jìn)行訓(xùn)練預(yù)測。在本文的研究中將選擇的特征數(shù)和分類的準(zhǔn)確度作為兩個(gè)目標(biāo)。其中,選擇特征數(shù)量,即解大小的目標(biāo)函數(shù)表示為:

        分類準(zhǔn)確度的計(jì)算公式為:

        式中,Z為解碼方案,D為維度(特征的個(gè)數(shù)),每個(gè)維度的可能值為0 和1,式(2)中,NCar為正確預(yù)測的樣本數(shù),NAll是所有樣本的數(shù)量。

        如圖1 所示,本文采用多染色體混合編碼的方式,第一條染色體編碼了所有特征,染色體的長度等于數(shù)據(jù)的特征數(shù)量,其中0代表未選擇該特征,1代表選擇該特征將被保留。第二條染色體編碼了XGBoost 的關(guān)鍵參數(shù)。圖3 中的E為XGBoost 樹的數(shù)量,F(xiàn)為XGBoost最大特征數(shù),L為XGBoost學(xué)習(xí)率。

        圖1 個(gè)體表示Fig.1 Presentation of individual

        卡方檢驗(yàn)方法(Chi2)可以對特征進(jìn)行相關(guān)性分析,因此在NSGA-III 算法的初始化階段,可以用Chi2 先評估特征,在所有的特征變量里提取出與目標(biāo)更相關(guān)的特征,并減少相關(guān)度低的冗余特征,用于初始化種群以提高性能。公式如下:

        其中,實(shí)際值指變量x的實(shí)際頻數(shù),理論值指假設(shè)變量x與目標(biāo)變量y之間獨(dú)立時(shí),x的理論頻數(shù)。先通過Chi2 評估特征,獲得每個(gè)特征變量對目標(biāo)變量的卡方值,然后根據(jù)大小排序,選擇排名靠前的特征,即是與目標(biāo)變量y更相關(guān)的特征[16]。通常在Chi2 算法初始化過程中,需要保留大部分的評分較高的特征和不相關(guān)的特征的小部分以保持初始化的多樣性(考慮特征之間的相互作用)。因此,通過實(shí)驗(yàn)對比,本文選擇80%最有用的特征。而如何從選擇的特征中得到最合適的特征組合,并且確定合適的特征數(shù)量又是需要考慮的問題。在本文中,采用混合初始化[17]的方法解決該問題:首先基于卡方值排序,從初始特征中選擇得分最高的80%的特征保存在WR中,對于所有個(gè)體中的80%的個(gè)體,若個(gè)體選擇的特征在WR且初始矩陣XG中選擇了該特征(對應(yīng)的值為1),則保留該特征。對于所有個(gè)體中的20%的個(gè)體,若個(gè)體選擇的特征不在WR且初始矩陣XG選擇了該特征,則保留該特征。

        算法1 混合初始化

        種群大小ps,特征數(shù)D,初始矩陣XG,前80%特征矩陣WR,記錄矩陣PF

        XGBoost 創(chuàng)建后每個(gè)屬性的重要性得分可以直接獲得,該得分衡量特征在提升樹構(gòu)建時(shí)的重要程度。在單個(gè)決策樹,每棵樹根據(jù)特征對性能度量改進(jìn)的量計(jì)算屬性重要性。在提升樹中,單個(gè)特征對性能改進(jìn)的程度越大,權(quán)值越大,并將被更多提升樹所選擇,重要性越高。最后根據(jù)屬性在所有提升樹中的重要性加權(quán)求和并平均,得到最終的重要性評分。由于其與Chi2 的評估方法不同,因此會得到不同的評估結(jié)果?;贑hi2和XGBoost的集成學(xué)習(xí)種群初始化過程如下:第一部分種群使用Chi2 評估特征的卡方值,根據(jù)其大小將特征從大到小排列,然后由算法1得到初始種群a,再將種群a作為XGBoost的輸入,使用TPE(tree-structured parzen estimator)算法[18]優(yōu)化50 次參數(shù),得到原種群和準(zhǔn)確度合并的新種群A。第二部分種群根據(jù)XGBoost 評估特征的重要性得分,根據(jù)重要性得分將特征從大到小排列,再由算法1 得到初始種群b,再將種群b作為XGBoost的輸入,并使用TPE算法優(yōu)化50次參數(shù),得到原種群和準(zhǔn)確度合并的新種群B。最后將新種群A和B合并,根據(jù)準(zhǔn)確度排序,選擇前50%的個(gè)體作為最終的初始化種群P。

        NSGA-III在本文中用于解決多目標(biāo)特征選擇問題。NSGA-III[19]源自NSGA-II[20],其框架類似于NSGA-II,但對選擇運(yùn)算符進(jìn)行了重大更改。在NSGA-III 算法中,有一個(gè)廣泛分布在整個(gè)歸一化超平面上的一組參考點(diǎn),保持種群的多樣性。因此該算法很可能找到一個(gè)對應(yīng)于這些參考點(diǎn)接近帕累托最優(yōu)解的支配解集。而本文提出的INSGA-III-XGBoost算法通過收集并更新每代中達(dá)到的最高準(zhǔn)確度的解集信息,搜索近似最優(yōu)或最優(yōu)解。圖2展示了上述INSGA-III-XGBoost的過程。NSGA-III算法中某一代種群中所有個(gè)體將XGBoost 訓(xùn)練評估的適應(yīng)度,經(jīng)過選擇、交叉、變異并不斷迭代,找到最優(yōu)解。XGBoost全稱極端梯度提升樹,它是在數(shù)據(jù)科學(xué)競賽中占據(jù)主導(dǎo)地位的非深度學(xué)習(xí)算法,由陳天奇博士[21]設(shè)計(jì)開發(fā),XGBoost 的優(yōu)勢在于其在所有場景中的可擴(kuò)展性和極高的準(zhǔn)確性。XGBoost 的可擴(kuò)展性是由于算法采用加權(quán)分位數(shù)草圖程序來處理具有并行和分布式計(jì)算的近似樹學(xué)習(xí)中的實(shí)例權(quán)重。通過將可擴(kuò)展性程序與梯度提升算法相結(jié)合,XGBoost可以通過利用每一個(gè)可用的硬件資源來最大化預(yù)測性能和處理速度。模型設(shè)計(jì)只關(guān)注性能和效率,能夠并行地將多個(gè)弱分類器(決策樹)通過結(jié)果加權(quán)的方式合成強(qiáng)分類器(提升樹),是工程領(lǐng)域最好用的算法之一。

        圖2 INSGA-III-XGBoost算法Fig.2 INSGA-III-XGBoost algorithm

        然而即使XGBoost在機(jī)器學(xué)習(xí)算法中取得了成功和實(shí)際普及,但很少有研究將XGBoost方法用于股市預(yù)測[22]。

        3 實(shí)驗(yàn)結(jié)果與討論

        本文所有的實(shí)驗(yàn)均在如下配置的計(jì)算機(jī)中運(yùn)行。硬件信息:英特爾i5-9500(3.00 GHz)處理器、8 GB RAM;軟件信息:Python 3.8.5、Visual Studio Code 1.67.1、Jupyter notebook 6.4.6。因?yàn)槭袌鰻顟B(tài)可能潛在地影響股票預(yù)測的效果,因此從不同發(fā)展程度的市場選擇指數(shù)有助于解釋算法的魯棒性。本文選擇的3 只市場指數(shù),道瓊斯指數(shù)代表最發(fā)達(dá)市場指數(shù),恒生指數(shù)代表比較發(fā)達(dá)市場的指數(shù),滬深300 代表發(fā)展中市場的指數(shù),所有數(shù)據(jù)均通過英為財(cái)情網(wǎng)(https://cn.investing.com/)下載。數(shù)據(jù)樣本的時(shí)間段為2008年7月1日至2016年9月30日。

        3.1 數(shù)據(jù)降噪

        小波變化具有處理不平穩(wěn)的金融時(shí)間序列的能力,因此本文中使用了小波變化進(jìn)行數(shù)據(jù)降噪。小波變換的關(guān)鍵特性是與傅里葉變換相比,它可以同時(shí)分析金融時(shí)間序列的頻率分量。因此它可以有效地處理高度不規(guī)則的金融時(shí)間序列[23]。本文使用三層sys8 小波將指數(shù)價(jià)格序列分解為時(shí)域和頻域。

        3.2 生成技術(shù)指標(biāo)

        本文將建立兩個(gè)指標(biāo)集。一個(gè)是在前人的研究中常用的指標(biāo),一個(gè)是本文生成的指標(biāo),兩個(gè)指標(biāo)集進(jìn)行對比。表1展示了前人研究中常用技術(shù)指標(biāo)。

        表1 技術(shù)指標(biāo)集Table 1 Technical indicator set

        表2 分類指標(biāo)對比Table 2 Comparison of classification metrics

        原始的歷史數(shù)據(jù)只包括開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)和成交量。本文通過生成技術(shù)指標(biāo)的方式,將初始的5 維數(shù)據(jù)拓展為81 維數(shù)據(jù)。所有的技術(shù)指標(biāo)均通過TA-Lib庫生成,可以分為六組,分別是重疊指標(biāo)、動(dòng)量指標(biāo)、成交量指標(biāo)、波動(dòng)率指標(biāo)、價(jià)格轉(zhuǎn)換指標(biāo)和循環(huán)指標(biāo)。

        3.3 數(shù)據(jù)清洗和歸一化

        將1 950個(gè)交易日的數(shù)據(jù)集劃分,其中訓(xùn)練集85%、測試集15%。訓(xùn)練集分為前82%訓(xùn)練模型,后18%用來驗(yàn)證模型。公式(4)將數(shù)據(jù)集映射到[0,1]之間進(jìn)行歸一化。

        3.4 性能衡量指標(biāo)

        實(shí)驗(yàn)采用下列的常用分類指標(biāo)衡量算法性能。

        其中,TP為真正率,TN為真負(fù)率,F(xiàn)P為假正率,F(xiàn)N為假負(fù)率。

        3.5 單目標(biāo)、多目標(biāo)、改進(jìn)多目標(biāo)對比

        3.5.1 分類指標(biāo)

        分別采用基于單目標(biāo)的方法GA 和基于多目標(biāo)的方法NSGA-III,以及基于改進(jìn)后的多目標(biāo)的方法INSGAIII結(jié)合XGBoost對三個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),比較不同特征選擇算法的性能。采用的參數(shù)設(shè)置如下:進(jìn)化代數(shù)200代,種群大小20,個(gè)體染色體數(shù)2,交叉率1,變異率0.05。實(shí)驗(yàn)數(shù)據(jù)如表3所示。表中可以看出在三個(gè)數(shù)據(jù)集中,INSGA-III-XGBoost算法在準(zhǔn)確度、F1-score、AUC上均取到兩個(gè)最佳,兩個(gè)多目標(biāo)算法選擇的特征數(shù)均比單目標(biāo)算法選擇的特征較少。實(shí)驗(yàn)結(jié)果表明,從分類指標(biāo)評價(jià)的角度上看,單純把單目標(biāo)特征選擇問題轉(zhuǎn)換為多目標(biāo)特征選擇問題效果不一定會更好,而本文改進(jìn)INSGAIII算法則提升了多目標(biāo)算法的效果,總體表現(xiàn)優(yōu)于未改進(jìn)的多目標(biāo)算法和單目標(biāo)算法。不同算法在進(jìn)化過程中的準(zhǔn)確度變化如圖3所示。

        表3 運(yùn)行時(shí)間對比Table 3 Comparison of processing time 單位:s

        圖3 進(jìn)化過程準(zhǔn)確度變化Fig.3 Change of accuracy in process of evolution

        3.5.2 運(yùn)行時(shí)間對比

        表3展示了三種算法的運(yùn)行時(shí)間對比。表中可以看出,本文提出的INSGA-III-XGBoost算法所需的運(yùn)行時(shí)間最少,相比NSGA-III-XGBoost 算法平均運(yùn)行時(shí)間縮短了39.4%,而相比于采用單目標(biāo)優(yōu)化的GA-XGBoost算法,平均時(shí)間縮短了83.28%。INSGA-III-XGBoost算法的運(yùn)行時(shí)間方差最小,體現(xiàn)了INSGA-III-XGBoost算法在運(yùn)行時(shí)間方面的穩(wěn)定性。其運(yùn)行時(shí)間較小的原因是,算法在選擇了較少特征的同時(shí)選擇了合適的提升樹結(jié)構(gòu)并動(dòng)態(tài)調(diào)整了學(xué)習(xí)率,避免了大量不必要的計(jì)算開銷,從而提高了運(yùn)行效率。

        3.5.3 綜合比較

        運(yùn)行時(shí)間、選擇的特征數(shù)、準(zhǔn)確度是三個(gè)最重要的指標(biāo)。表4 展示了三個(gè)數(shù)據(jù)集的不同評價(jià)指標(biāo)的平均值。算法運(yùn)行時(shí)間平均為4.38 min,選擇特征數(shù)平均為20,平均準(zhǔn)確度為88.74%。表中可以看出,本文提出的INSGA-III-XGBoost 算法綜合運(yùn)行時(shí)間最短,選擇的特征數(shù)最少,且準(zhǔn)確度最高,即性能表現(xiàn)最好。

        表4 平均指標(biāo)綜合比較Table 4 Comprehensive comparison of average metrics

        3.6 不同特征子集對比

        以恒生數(shù)據(jù)集為例,對四種不同的特征數(shù)據(jù)集進(jìn)行對比,四種數(shù)據(jù)集分別輸入XGBoost 訓(xùn)練預(yù)測,結(jié)果如表5 所示。其中,歷史特征數(shù)據(jù)集,僅包含原始的五個(gè)特征。其他特征數(shù)據(jù)集包含前人研究中常用的18個(gè)特征。所有特征數(shù)據(jù)集是本實(shí)驗(yàn)拓展特征階段得到的81個(gè)特征,最優(yōu)子集數(shù)據(jù)集為本文提出算法INSGA-IIIXGBoost選擇出的最佳特征子集,相比于所有特征數(shù)據(jù)集,減少了70個(gè)特征。

        表5 恒生數(shù)據(jù)集的特征子集對比Table 5 Comparison of feature subset in HangSeng dataset

        INSGA-III-XGBoost 算法從80 個(gè)特征數(shù)據(jù)集中選擇11個(gè)最佳特征子集,對這11個(gè)特征進(jìn)行分析,這是神經(jīng)網(wǎng)絡(luò)的“黑盒”模型不具備的優(yōu)勢。圖4 展示了該最佳特征子集中的特征,按照重要性得分降序。BOLLM即布林線的中線是所有特征中重要性得分最高的,這說明其對預(yù)測股票的走勢作用最大。

        圖4 最佳子集特征重要性得分Fig.4 Importance score of features of optimal subset

        3.7 與基準(zhǔn)模型對比

        本文算法與經(jīng)典的機(jī)器學(xué)習(xí)模型和不同層數(shù)的深度學(xué)習(xí)模型LSTM,和雙向LSTM(bidirectional long short term memory,BiLSTM)比較。以恒生數(shù)據(jù)集為例,表6看出本文的算法具有最高的準(zhǔn)確度、F1-score 和AUC。三種不同層數(shù)的LSTM迭代100次的實(shí)驗(yàn)結(jié)果如圖5所示,LSTM 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確度提高得很快,但是驗(yàn)證準(zhǔn)確度先增后減,造成了過擬合的問題。

        表6 基礎(chǔ)模型對比Table 6 Compare with base model

        圖5 不同層數(shù)LSTM迭代過程準(zhǔn)確度變化Fig.5 Change of accuracy in iterative process of LSTM with different layers

        深度學(xué)習(xí)因?yàn)槠鋸?qiáng)大的預(yù)測能力而應(yīng)用于時(shí)間序列預(yù)測,但是模型的能力在很大程度上依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)的調(diào)整。本文實(shí)驗(yàn)使用TPE 算法迭代優(yōu)化LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)200次。表7展示了INSGA-IIIXGBoost 算法和TPE-LSTM 算法的運(yùn)行時(shí)間和準(zhǔn)確度。表中可以看出,兩者的準(zhǔn)確度相差較小,但是本文提出的算法的運(yùn)行時(shí)間僅為TPE-LSTM的0.99%。

        表7 TPE-LSTM對比Table 7 Compare with TPE-LSTM

        3.8 與基準(zhǔn)研究對比

        表8為本文與近幾年來的基準(zhǔn)研究對比,對比結(jié)果驗(yàn)證了本文提出模型的優(yōu)越性。三大市場平均準(zhǔn)確度比其他基準(zhǔn)研究的準(zhǔn)確度更高,從而驗(yàn)證了本文提出模型適應(yīng)不同市場數(shù)據(jù)的能力。

        表8 與基準(zhǔn)研究對比Table 8 Compare with benchmark studies

        3.9 其他多目標(biāo)算法對比

        將本文的提出的INSGA-III算法與其他多目標(biāo)優(yōu)化算法分別結(jié)合XGBoost比較性能,表9展示了恒生數(shù)據(jù)集實(shí)驗(yàn)結(jié)果。INSGA-III-XGBoost 算法的準(zhǔn)確度最高,達(dá)到90.48%。圖6為各多目標(biāo)算法得到的帕累托前沿,縱軸為分類誤差,即1-準(zhǔn)確度。相比于其他多目標(biāo)算法,INSGA-III優(yōu)化效果最好,具有較小的解決方案大小和較低的分類錯(cuò)誤率。

        表9 多目標(biāo)算法結(jié)合XGBoost對比Table 9 Compare with multi-objective algorithm combined with XGBoost

        圖6 多目標(biāo)算法帕累托前沿Fig.6 Pareto front of multi-objective algorithm

        4 結(jié)論

        本文提出的INSGA-III-XGBoost 算法通過將兩種過濾式特征選擇集成的方法初始化種群,并將股票預(yù)測問題作為多目標(biāo)問題,以最大化準(zhǔn)確度和最小化解的解決方案大小作為優(yōu)化方向,采用多染色體混合編碼的方式同步優(yōu)化了特征選擇和XGBoost參數(shù),對比其他基準(zhǔn)研究具有最快的處理速度,解方案最小,預(yù)測準(zhǔn)確度最高。在特征工程方面首先生成81 個(gè)特征,將原始?xì)v史數(shù)據(jù)5 個(gè)特征的預(yù)測準(zhǔn)確度從77.62%提升到81.43%,而特征選擇再選擇其中11個(gè)特征作為最優(yōu)子集預(yù)測準(zhǔn)確度提升到90.48%,克服了“維度詛咒”的問題。在所有基礎(chǔ)的機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型中本算法的預(yù)測性能最好。對比原始多目標(biāo)算法和單目標(biāo)算法運(yùn)行時(shí)間分別縮短了39.4%和83.28%,運(yùn)行效率高,適合短期交易系統(tǒng)的預(yù)測需求。對比默認(rèn)參數(shù)的深度學(xué)習(xí)算法,預(yù)測性能平均高3%,而對比經(jīng)過200代參數(shù)優(yōu)化的TPE-LSTM雖然準(zhǔn)確度只高1%,但是運(yùn)行時(shí)間僅為它的0.99%,并且本文模型具有可解釋性,實(shí)驗(yàn)結(jié)果給出了預(yù)測恒生指數(shù)走向的前11個(gè)關(guān)鍵特征及其重要性得分。

        猜你喜歡
        特征選擇準(zhǔn)確度種群
        邢氏水蕨成功繁衍并建立種群 等
        山西省發(fā)現(xiàn)刺五加種群分布
        幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
        建筑科技(2018年6期)2018-08-30 03:40:54
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        動(dòng)態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        高爐重量布料準(zhǔn)確度的提高
        天津冶金(2014年4期)2014-02-28 16:52:58
        基于二元搭配詞的微博情感特征選擇
        對電子天平的誤差及保證其稱量準(zhǔn)確度的探討
        国产精品高清视亚洲一区二区| h在线国产| 人片在线观看无码| 久久人妻少妇嫩草av蜜桃| 女人张开腿让男人桶爽| 亚洲国产长腿丝袜av天堂| 四虎成人精品国产一区a| 日本一区二三区在线中文| 欧美群妇大交群| 亚洲日本在线电影| 国内自拍偷拍亚洲天堂| 人妻有码中文字幕在线| 无码日韩精品一区二区免费暖暖 | 国产精品va在线观看无码| 国产女奸网站在线观看| 色偷偷亚洲精品一区二区| 亚洲午夜av久久久精品影院色戒| 亚洲精华国产精华液的福利 | 一区二区三区岛国av毛片| 大香蕉av一区二区三区| 国偷自产一区二区免费视频| 亚洲黄色一级毛片| 99精品又硬又爽又粗少妇毛片 | 激情内射亚洲一区二区| 三区中文字幕在线观看| 国产午夜精品一区二区三区| 乱伦一区二| 视频一区中文字幕日韩| 国产精品国产三级国产av剧情| 亚洲综合精品成人| 2021最新久久久视精品爱| 在线观看国产白浆一区三区| 日韩丰满少妇无码内射| 亚洲AV无码一区二区三区天堂网| 国产一区二区三区av观看| 摸丰满大乳奶水www免费| 久久精品成人欧美大片| 国产人成在线成免费视频| 国产最新女主播福利在线观看| 亚洲色www成人永久网址| 久久99精品久久久久九色|