亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應(yīng)鯨魚(yú)優(yōu)化算法結(jié)合Elman神經(jīng)網(wǎng)絡(luò)的股市收盤(pán)價(jià)預(yù)測(cè)算法

        2020-06-07 07:07:18朱昶勝康亮河馮文芳
        計(jì)算機(jī)應(yīng)用 2020年5期
        關(guān)鍵詞:模型

        朱昶勝,康亮河*,馮文芳

        (1.蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院,蘭州730050; 2.蘭州理工大學(xué)經(jīng)濟(jì)管理學(xué)院,蘭州730050)

        (?通信作者電子郵箱kanglianghe@126.com)

        0 引言

        隨著信息技術(shù)與網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各行各業(yè)的數(shù)據(jù)呈爆炸式增長(zhǎng),例如各種數(shù)值數(shù)據(jù)、文本、音頻、圖像等,如何對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘是目前的一個(gè)技術(shù)熱點(diǎn)也是難點(diǎn)[1]。作為近年來(lái)新興的研究領(lǐng)域,通過(guò)挖掘網(wǎng)絡(luò)輿情進(jìn)行股市預(yù)測(cè)是一個(gè)有價(jià)值的研究領(lǐng)域[2]。由于股票市場(chǎng)的不確定性和不可預(yù)見(jiàn)性,股票市場(chǎng)收盤(pán)價(jià)的預(yù)測(cè)是股票交易市場(chǎng)中最重要、最具挑戰(zhàn)性的問(wèn)題之一。金融領(lǐng)域的許多分析和假設(shè)表明,股票收盤(pán)價(jià)是可預(yù)測(cè)的[3]。在傳統(tǒng)股票市場(chǎng)中,預(yù)測(cè)股票的收盤(pán)價(jià)使用大量反映經(jīng)濟(jì)運(yùn)行的結(jié)構(gòu)數(shù)據(jù),如開(kāi)盤(pán)價(jià)、成交量、價(jià)格指數(shù)等。隨著大數(shù)據(jù)帶來(lái)的數(shù)據(jù)量和數(shù)據(jù)類(lèi)型的增加,傳統(tǒng)的簡(jiǎn)單靜態(tài)股市數(shù)據(jù)已經(jīng)逐漸不能滿足分析和預(yù)測(cè)的需要[4]。因此,如何挖掘股市網(wǎng)絡(luò)輿情,并利用機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)算法準(zhǔn)確有效地預(yù)測(cè)股票收盤(pán)價(jià),對(duì)投資者具有重要意義。

        在過(guò)去的幾十年里,許多模型和技術(shù)被用來(lái)預(yù)測(cè)股市的收盤(pán)價(jià)。Renault[5]研究了投資者情緒與股票收益之間的關(guān)系,他通過(guò)情感詞典計(jì)算投資者情緒值,并預(yù)測(cè)標(biāo)準(zhǔn)普而500指數(shù)的回報(bào)率,實(shí)驗(yàn)證明在線投資者情緒是驅(qū)動(dòng)股指收益的一個(gè)重要因素;Bollen等[6]通過(guò)文本挖掘技術(shù)從大量的微博評(píng)論中挖掘公眾的情緒狀態(tài)值,實(shí)驗(yàn)證明公眾的情緒值可以從大規(guī)模的微博信息中提取并量化,其量化值可以用來(lái)預(yù)測(cè)股指的價(jià)格;Kao等[7]采用小波變換選擇屬性,并利用多元自適應(yīng)回歸-支持向量回歸(Multivariate Adaptive Regression Splines-Support Vactor Regerssion,MARS-SVR)模型對(duì)兩個(gè)新興股市和兩個(gè)成熟股市的股價(jià)進(jìn)行預(yù)測(cè),實(shí)驗(yàn)發(fā)現(xiàn)該組合模型比SVR、logistic回歸及隨機(jī)森林具有更高的預(yù)測(cè)精度;李振平等[8]在2016年提出了一種基于灰色關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)和馬爾可夫模型的股票價(jià)格預(yù)測(cè)模型,通過(guò)灰色關(guān)聯(lián)分析遴選技術(shù)指標(biāo),利用誤差反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)對(duì)價(jià)格進(jìn)行粗預(yù)測(cè),最后利用馬爾可夫鏈模型對(duì)收盤(pán)價(jià)作精預(yù)測(cè),實(shí)驗(yàn)表明該模型不僅有效提高了預(yù)測(cè)精度還降低了計(jì)算復(fù)雜度;Yu等[9]運(yùn)用文本分析技術(shù)計(jì)算萬(wàn)科A股(SZ00002)的股市評(píng)論的情感值,并利用BPNN模型預(yù)測(cè)了股票收盤(pán)價(jià)。劉健等[10]將粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法、非線性獨(dú)立成分分析算法(Nonlinear Independent Component Correlation Algorithm,NLICA)及BPNN三種算法結(jié)合,建立上證綜指預(yù)測(cè)模型,實(shí)驗(yàn)證明,此組合模型比傳統(tǒng)方法的適應(yīng)性及智能性更強(qiáng),且預(yù)測(cè)精度更高;Hu等[11]提出采用改進(jìn)的正余弦算法(Improved Sine Cosine Algorithm,ISCA)優(yōu)化BPNN的權(quán)值及閾值,并分別預(yù)測(cè)標(biāo)準(zhǔn)普爾500指數(shù)及道瓊斯工業(yè)平均指數(shù)的開(kāi)盤(pán)股價(jià)走勢(shì),實(shí)驗(yàn)表明ISCA-BPNN模型在預(yù)測(cè)開(kāi)盤(pán)價(jià)方面優(yōu)于BPNN、PSO-BPNN及WOA-BPNN;Bozorgi等[12]為了解決鯨魚(yú)優(yōu)化算法(Whale Optimization Algorithm,WOA)由于過(guò)早收斂而陷入局部最優(yōu)的問(wèn)題,采用差分進(jìn)化(Differential Evolution,DE)算法來(lái)改進(jìn)WOA,并采用25個(gè)基準(zhǔn)函數(shù)進(jìn)行測(cè)試,實(shí)驗(yàn)發(fā)現(xiàn)改進(jìn)WOA在最終解的質(zhì)量和收斂速度方面均優(yōu)于其他算法;Xu等[13]利用經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)算法及集合經(jīng)驗(yàn)?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)算法分解了歐美及中國(guó)股市數(shù)據(jù),發(fā)現(xiàn)將分解后的固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF)作為模型屬性集來(lái)預(yù)測(cè)股市數(shù)據(jù),具有較好的預(yù)測(cè)性能。

        目前,大部分股市收盤(pán)價(jià)的預(yù)測(cè)是基于結(jié)構(gòu)化數(shù)據(jù),如歷史收盤(pán)價(jià)數(shù)據(jù),忽略了股市網(wǎng)絡(luò)評(píng)論對(duì)投資者及股市收盤(pán)價(jià)的影響。在屬性構(gòu)建方面,大多研究采用EMD來(lái)分解收盤(pán)價(jià)序列而不是分解屬性序列,忽略了EMD算法本身存在的模態(tài)混疊的問(wèn)題,同時(shí)在計(jì)算最終預(yù)測(cè)值時(shí),由于累加多個(gè)不同頻率的IMF的預(yù)測(cè)值而造成的誤差累積的問(wèn)題。另外在預(yù)測(cè)模型的構(gòu)建中,基本選擇BPNN或者SVR模型作為基模型,結(jié)合PSO、灰狼優(yōu)化(Grey Wolf Optimizer,GWO)等優(yōu)化算法作為預(yù)測(cè)模型,而忽略了BPNN及SVR本身存在的易陷入局部最優(yōu)及預(yù)測(cè)精度低等問(wèn)題。針對(duì)以上問(wèn)題,本文在現(xiàn)有的研究基礎(chǔ)上,利用文本挖掘技術(shù)采集并量化上海證券交易所股票價(jià)格綜合指數(shù)(Shanghai Stock Exchange,SSE)180股指的評(píng)論信息,通過(guò)Boruta算法對(duì)屬性集進(jìn)行初步篩選,并利用基于自適應(yīng)噪聲的完全集合經(jīng)驗(yàn)?zāi)B(tài)分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)算法分解并重構(gòu)入模屬性,最后本文提出了改進(jìn)鯨魚(yú)優(yōu)化算法(Improved Whale Optimization Algorithm,IWOA)結(jié)合Elman模型作為預(yù)測(cè)模型,通過(guò)引入自適應(yīng)權(quán)重有效解決了WOA易陷入局部最優(yōu)的問(wèn)題,同時(shí)利用IWOA優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的初始權(quán)值及閾值,不僅結(jié)合了Elman神經(jīng)網(wǎng)絡(luò)無(wú)線逼近的優(yōu)點(diǎn),同時(shí)解決了其學(xué)習(xí)速度慢及預(yù)測(cè)精度低的問(wèn)題,為基于股市網(wǎng)絡(luò)輿情的收盤(pán)價(jià)預(yù)測(cè)提供了一種新的思路及方法。

        1 文本挖掘

        本文以SSE180股指為研究樣本,樣本期間為2016年1月4日至2016年12月31日。所采用的數(shù)據(jù)分為兩部分:第一部分是通過(guò)Python網(wǎng)絡(luò)爬蟲(chóng)程序抓取的東方財(cái)富網(wǎng)的發(fā)帖信息;第二部分是從國(guó)泰安CSMAR數(shù)據(jù)庫(kù)下載的180股指收盤(pán)價(jià)數(shù)據(jù)。

        1.1 數(shù)據(jù)采集

        本文通過(guò)Python Spyder網(wǎng)絡(luò)爬蟲(chóng)[14]程序獲取發(fā)帖標(biāo)題、閱讀數(shù)量、評(píng)論數(shù)、作者、發(fā)表日期等股票文本信息,并以.CSV格式存儲(chǔ)在本地磁盤(pán)。

        1.2 中文分詞

        由于Jieba分詞具有分詞速度快、準(zhǔn)確率高的優(yōu)點(diǎn)[15],所以本文采用Python中的Jieba分詞。其基本思想是:基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)詞圖的高效掃描,根據(jù)生成句子中所有漢字可能成詞的所有情況構(gòu)成有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG),并采用動(dòng)態(tài)規(guī)劃算法查找最大概率路徑,最后找出基于詞頻的最大切分組合。

        1.3 去停用詞

        文本分析過(guò)程中,去停用詞是一個(gè)非常重要的環(huán)節(jié),刪除頻率高且無(wú)意義的詞,而停用詞表的選擇是關(guān)鍵,本文結(jié)合了目前主流的多個(gè)停用詞表去重后綜合[16],形成了新的停用詞表,主要包括哈爾濱工業(yè)大學(xué)停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)、百度停用詞表等。

        1.4 計(jì)算詞語(yǔ)權(quán)重

        詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)[17]算法用于評(píng)估一個(gè)詞對(duì)一個(gè)文件集或語(yǔ)料庫(kù)的重要程度。TF是詞在文檔d中出現(xiàn)的頻率,IDF是詞在文檔集中普遍性的度量。

        1)TF計(jì)算公式:

        tf(w,d)=count(w,d)/size(d) (1)

        其中:count(w,d)是詞w在文檔d中出現(xiàn)的次數(shù),size(d)是文檔d中總詞數(shù)。

        2)IDF計(jì)算公式:

        idf=log(n/docs(w,d)) (2)其中:docs(w,d)是詞w出現(xiàn)的文件數(shù),n是文檔總數(shù)。

        3)TF-IDF計(jì)算公式:

        其中q是關(guān)鍵詞w[1]w[2]…w[k]組成的查詢串。

        1.5 文本表示

        向量空間模型(Vector Space Model,VSM)[18]是一種常用的 文 本 表 示 方 式 ,給 定 一 個(gè) 文 本D(T1,W1;T2,W2;…;Tn,Wn),其中Ti(i=1,2,…,n)是互不相同的詞條,Wi(i=1,2,…,n)是詞條對(duì)應(yīng)的數(shù)值。本文將交易日的文本表示為多維向量,每一個(gè)維度為一個(gè)特征詞,維度值為該值在文本中的TF-IDF值,如表1所示。

        表1 文本表示Tab.1 Text representation

        2 算法分析

        2.1 CEEMDAN算法

        CEEMDAN算法是由EEMD算法發(fā)展而來(lái),EEMD算法是在EMD中多次添加白噪聲信號(hào),將分解得到的IMF分量求平均值作為最終的實(shí)際分量,不僅改善了EMD算法存在的模態(tài)混疊現(xiàn)象,同時(shí)有效避免了EEMD算法添加噪聲后由于不能被完全消除而引起的重構(gòu)誤差[19]。本文利用CEEMDAN算法實(shí)現(xiàn)了屬性的分解及重構(gòu),其處理流程如圖1所示。

        圖1 CEEMDAN算法流程Fig.1 Flowchart of CEEMDANalgorithm

        第一步 本文通過(guò)文本挖掘及量化共得到109個(gè)屬性值,通過(guò)皮爾森(Person)相關(guān)系數(shù)去除了23個(gè)共線屬性,初步得到一個(gè)86維的屬性集;

        第二步 利用Boruta算法選擇了20個(gè)重要屬性,根據(jù)各屬性對(duì)收盤(pán)價(jià)貢獻(xiàn)率的大小,選擇貢獻(xiàn)率較高的8個(gè)屬性作為入模屬性集;

        第三步 利用CEEMDAN算法分解各屬性序列,每個(gè)屬性序列被分解為反映其不同頻率的7個(gè)IMF分量和1個(gè)R余項(xiàng);

        第四步 合并各屬性相同頻率的IMF分量值,作為最終入模的屬性值,如合并8個(gè)屬性的高頻IMF1分量,得到反映收盤(pán)價(jià)序列的高頻TIMF1分量,最后將余項(xiàng)R合并,形成總余項(xiàng)TR,最后將集合[TIMF1,TIMF2…,TIMF7,TR]作為最終建模屬性集。

        2.2 WOA

        WOA是模擬座頭鯨社會(huì)行為的一種啟發(fā)式算法。鯨魚(yú)被認(rèn)為是世界上最大的哺乳動(dòng)物,曾在鯨魚(yú)大腦的某些區(qū)域發(fā)現(xiàn)紡錘形細(xì)胞,這不僅可以區(qū)分鯨魚(yú)和其他生物,而且也可以使它們像人類(lèi)一樣不斷學(xué)習(xí)、思考、判斷和交流,大多數(shù)座頭鯨喜歡捕食磷蝦和靠近水面的小型魚(yú)群[20]。根據(jù)研究發(fā)現(xiàn),座頭鯨采取一種特殊的捕獵策略,即泡泡網(wǎng)捕食法,其虎頭鯨的捕食過(guò)程如圖2所示。在第一個(gè)階段,座頭鯨潛入大約12 m的深水中,在獵物周?chē)纬陕菪隣畹臍馀荩跉馀菥W(wǎng)捕食法中被稱(chēng)為“向上螺旋”法。在后一階段中,座頭鯨快速游向水面捕獲食物,這種行為被稱(chēng)為“雙環(huán)”,包括三個(gè)不同的階段:珊瑚環(huán)、長(zhǎng)尾環(huán)和捕獲環(huán)。WOA使用一組隨機(jī)候選解,通過(guò)包圍獵物、螺旋更新位置和搜索獵物更新每個(gè)步驟中候選解,直至最優(yōu)解。

        圖2 座頭鯨的捕食過(guò)程Fig.2 Huntingprocess of humpback whales

        1)包圍獵物。

        假設(shè)鯨魚(yú)的位置是W(i i=1,2,…,m),m是搜索空間中鯨魚(yú)的數(shù)量,最佳位置是最佳解決方案或接近最佳位置[21]的最優(yōu)方案。在定義了最佳搜索代理之后,其他搜索代理將嘗試向最佳位置更新,如式(4)所示:

        其中:t是當(dāng)前迭代次數(shù),A和C是隨機(jī)系數(shù),X*(t)表示獵物的位置,X(t)表示當(dāng)前鯨魚(yú)的位置,a在迭代過(guò)程中從2線性遞減到0,r是[0,1]中的隨機(jī)數(shù)。

        2)螺旋更新位置。

        WOA在開(kāi)發(fā)階段采用螺旋更新位置法,如圖3所示。假設(shè)鯨魚(yú)的位置是X(t),獵物的位置是X*(t)。通過(guò)創(chuàng)建一個(gè)螺旋方程來(lái)模擬座頭鯨的螺旋運(yùn)動(dòng),螺旋方程如式(5)所示:

        式(5)中:D表示獵物跟鯨魚(yú)之間的位置,X*(t)表示目前位置的最佳位置,X(t)是當(dāng)前位置,b是一個(gè)定義螺旋形狀的常數(shù),l是區(qū)間[-1,1]中的一個(gè)隨機(jī)數(shù)。

        鯨魚(yú)以螺旋形游向獵物的同時(shí)還要收縮包圍圈,假設(shè)有Pi的概率選擇收縮包圍機(jī)制和1-Pi的概率選擇螺旋模型來(lái)更新鯨魚(yú)的位置,其數(shù)學(xué)模型如下:

        式(6)中Pi表示選擇收縮包圍圈的概率。

        圖3 螺旋更新位置法Fig.3 Spiral position updatingmethod

        3)搜索獵物。

        座頭鯨在探索過(guò)程中隨機(jī)尋找獵物,并根據(jù)隨機(jī)選擇的搜索代理而不是最佳搜索代理更新位置。如果|A|>1,根據(jù)式(7)更新位置;如果|A|< 1,根據(jù)式(5)更新位置。

        其中Xrand(t)表示鯨魚(yú)的隨機(jī)位置。

        2.3 改進(jìn)WOA

        WOA是一種結(jié)構(gòu)簡(jiǎn)單、調(diào)節(jié)參數(shù)少且全局尋優(yōu)能力強(qiáng)的群體智能優(yōu)化算法,但因其隨機(jī)選擇初始位置以及采用恒定的權(quán)重,導(dǎo)致其收斂速度慢且易陷入局部最優(yōu)。研究發(fā)現(xiàn),權(quán)重是WOA中的一個(gè)非常重要參數(shù),采用恒定權(quán)重會(huì)降低WOA的效率,若權(quán)重較大,則不利于局部開(kāi)采;若權(quán)重較小,則不利于全局優(yōu)化。在此基礎(chǔ)上,本文提出了一種自適應(yīng)權(quán)重,以保證算法在迭代過(guò)程中有合適的非線性權(quán)重[22],權(quán)重w隨著迭代次數(shù)的增加而遞減,使得迭代前期利于全局搜索,迭代后期利于局部尋優(yōu)。由于引入的w下降的幅度很大,更加有利于算法進(jìn)行局部尋優(yōu),提高收斂精度和加快收斂速度,其自適應(yīng)權(quán)重定義如式(8)所示:

        其中:wmin是最小權(quán)重,wmax是最大權(quán)重,r是[0,1]中的隨機(jī)數(shù),t是當(dāng)前迭代次數(shù),Maxiter是最大迭代次數(shù),位置更新公式如下所示:

        包圍獵物:

        螺旋更新:

        2.4 IWOA-Elman模型

        Elman神經(jīng)網(wǎng)絡(luò)是一種局部反饋遞歸神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層、承接層和輸出層,由于其良好的動(dòng)態(tài)記憶和時(shí)變能力,自1990年Elman首次提出以來(lái),Elman神經(jīng)網(wǎng)絡(luò)在時(shí)間序列預(yù)測(cè)中得到了廣泛的應(yīng)用,但由于隨機(jī)選擇初始值和閾值,且采用梯度下降法尋優(yōu),其網(wǎng)絡(luò)學(xué)習(xí)速度較慢且預(yù)測(cè)的精度比較低。本文利用IWOA優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的初始權(quán)值及閾值,提高了Elman神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度,其中圖4是IWOA-Elman模型的具體流程。

        第一步 初始化Elman網(wǎng)絡(luò)所需參數(shù),并新建Elman網(wǎng)絡(luò),net=newelm(minmax(input),[11,1],{'tansig','purelin'},'traingdx'),其中input是訓(xùn)練集數(shù)據(jù),tansig是隱藏層的激活函數(shù),purelin是輸出層激活函數(shù),traingdx是梯度下降函數(shù);

        第二步 初始化IWOA各參數(shù),包括鯨魚(yú)的數(shù)量m、最大迭代次數(shù)Maxiter,參數(shù)的上界ub及下界lb;

        第三步 IWOA通過(guò)包圍獵物、螺旋更新位置及搜索獵物不斷迭代優(yōu)化網(wǎng)絡(luò),直到迭代結(jié)束形成最優(yōu)個(gè)體,其中最優(yōu)個(gè)體包括權(quán)值w1、w2及w3,閾值b1和b2;

        第四步 Elman神經(jīng)網(wǎng)絡(luò)解析最優(yōu)個(gè)體,利用解析后的權(quán)值及閾值訓(xùn)練Elman神經(jīng)網(wǎng)絡(luò)并預(yù)測(cè)股市收盤(pán)價(jià)。

        圖4 IWOA-Elman算法流程Fig.4 Flowchart of IWOA-Elman algorithm

        3 實(shí)驗(yàn)結(jié)果及其討論

        3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

        本文選擇均方根誤差(Root Mean Square Error,RMSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)及平均絕對(duì)百分比誤 差(Mean Absolute Percentage Error,MAPE)作 為 評(píng) 價(jià)指標(biāo)[23]:

        其中:yi表示某一時(shí)刻股票收盤(pán)價(jià)的實(shí)際值,y?i表示某一時(shí)刻收盤(pán)價(jià)的預(yù)測(cè)值,N表示預(yù)測(cè)時(shí)刻的數(shù)量或度量。

        3.2 參數(shù)設(shè)計(jì)

        在Elman算法中,隱藏層的激活函數(shù)為tansig(x)=2/(1+exp(-2x))-1,輸出層的激活函數(shù)為purelin(x)=x,隱藏層的個(gè)數(shù)利用經(jīng)驗(yàn)公式m=n+l+?計(jì)算,其中n為輸入層個(gè)數(shù),l為輸出層個(gè)數(shù),?為1~10的常數(shù),經(jīng)測(cè)試,當(dāng)m=11時(shí)預(yù)測(cè)誤差最小。最大訓(xùn)練次數(shù)為100,誤差目標(biāo)為0.0001,學(xué)習(xí)率為0.1。

        在IWOA中,鯨魚(yú)數(shù)量m=30,最大迭代次數(shù)Maxiter=30,在自適應(yīng)權(quán)重中,wmin=0.1,wmax=0.55。

        3.3 實(shí)驗(yàn)結(jié)果及討論

        1)重要屬性及數(shù)據(jù)特征。

        以2016年1月4日至12月9日共229組數(shù)據(jù)作為訓(xùn)練集,2016年12月12日至12月30日共15組數(shù)據(jù)集為測(cè)試集。利用Boruta算法共篩選出20個(gè)重要屬性,選取前8個(gè)作為建模屬性指標(biāo)。表2是8個(gè)屬性的數(shù)據(jù)特征,包括極大值(max)、極小值(min)、均值(mean)、下四分位數(shù)(25%)、上四分位數(shù)(75%)和四分位范圍。

        2)屬性分解。

        圖5中,(a)是CEEMDAN算法對(duì)屬性“退市”中分解得到的各IMF分量和余數(shù)R;(b)將8個(gè)屬性全部分解后,合并其相應(yīng)的IMF分量跟余項(xiàng)R,得到的總TIMF分量和總余項(xiàng)TR。

        表2 屬性集的數(shù)據(jù)特征Tab.2 Data characteristicsof attributes set

        在CEEMDAN算法中,加入500組標(biāo)準(zhǔn)差ε0=0.2的白噪聲來(lái)分解屬性序列。圖5(a)是對(duì)Boruta算法初步選擇出的屬性集中屬性“退市”采用CEEMDAN算法進(jìn)行分解,得到7個(gè)IMF分量和1個(gè)R余數(shù),IMF分量由高頻到低頻排列,分別代表原始屬性序列的噪聲信號(hào)、趨勢(shì)信號(hào)及低頻信號(hào),其中,橫坐標(biāo)代表243個(gè)交易日,縱坐標(biāo)代表頻率的大小。圖5(b)是將Boruta算法選擇出的8個(gè)屬性全部利用CEEMDAN算法分解,將分解后各屬性值中相近的IMF值合并所形成新的IMF分量及R余項(xiàng),即將各屬性中低頻IMF合并形成新的低頻TIMF分量,高頻IMF分量合并形成新的高頻TIMF分量,余項(xiàng)R合并形成新的R余項(xiàng),最后將合并后的分量作為新屬性,并將屬性集[TIMF1,TIMF2,…,TIMF7,TR]作為建模屬性集。

        3)權(quán)重對(duì)WOA的影響。

        在圖6中,圖6(a)是分別采用恒定權(quán)重和自適應(yīng)權(quán)重時(shí),WOA-Elman模型的預(yù)測(cè)誤差MAPE的對(duì)比。圖6(b)是在IWOA中,當(dāng)wmin=0.1,wmax∈ [0.2,0.9]時(shí),隨機(jī)三次實(shí)驗(yàn)的預(yù)測(cè)誤差MAPE的對(duì)比分析。在圖6(a)中,若WOA采用恒定權(quán)重,MAPE的波動(dòng)比較大,且其值比采用自適應(yīng)權(quán)重時(shí)要大,可見(jiàn)權(quán)重對(duì)WOA的影響比較大。圖7(b)中,當(dāng)wmin=0.1,wmax∈ [0.2,0.9]時(shí),在實(shí)驗(yàn)一中,隨著wmax的增加,IWOA的預(yù)測(cè)誤差MAPE出現(xiàn)了波動(dòng),但當(dāng)wmax=0.6時(shí),預(yù)測(cè)誤差MAPE趨向于最小值,實(shí)驗(yàn)二與實(shí)驗(yàn)三有相同的規(guī)律,可見(jiàn)MAPE雖有波動(dòng),但當(dāng)wmin=0.1,wmax=0.6時(shí),MAPE具有最小值。的適應(yīng)度值是150.6,而IWOA在迭代7次時(shí)開(kāi)始收斂,且適應(yīng)度值為141.82,相比WOA,IWOA具有較快的收斂速度,且收斂精度明顯高于WOA。由此可知,采用自適應(yīng)權(quán)值來(lái)優(yōu)化WOA,有效解決了WOA收斂速度慢且收斂精度低的問(wèn)題。

        圖5 CEEMDAN算法的屬性分解及重組過(guò)程Fig.5 Attributedecomposition and reorganization process of CEEMDANalgorithm

        圖6 權(quán)重對(duì)WOA和IWOA的影響Fig.6 Influenceof weight on WOA and IWOA

        圖7 WOA-Elman和IWOA-Elman模型的適應(yīng)度分析Fig.7 Fitness analysis of WOA-Elman and IWOA-Elman models

        4)適應(yīng)度分析。

        圖7是WOA-Elman模型與IWOA-Elman模型的適應(yīng)度值,通過(guò)分析發(fā)現(xiàn),WOA在迭代到24次時(shí)開(kāi)始收斂,其收斂時(shí)

        5)IWOA-Elman預(yù)測(cè)結(jié)果。

        圖8是Elman神經(jīng)網(wǎng)絡(luò)及其優(yōu)化算法的預(yù)測(cè)結(jié)果對(duì)比,Acutal表示實(shí)際收盤(pán)價(jià)。經(jīng)分析發(fā)現(xiàn),IWOA-Elman模型的預(yù)測(cè)值與真實(shí)值的誤差最小,也最接近實(shí)際收盤(pán)價(jià)Acutal,WOA-Elman和IWOA-Elman的預(yù)測(cè)結(jié)果明顯優(yōu)于Elman模型,且IWOA-Elman模型的預(yù)測(cè)效果明顯比WOA-Elman模型更接近實(shí)際收盤(pán)價(jià)。

        圖8 Elman及組合模型預(yù)測(cè)結(jié)果Fig.8 Prediction result of Elman and combined models

        3.4 對(duì)比討論

        1)預(yù)測(cè)結(jié)果對(duì)比。

        采用多種算法來(lái)對(duì)比分析基于CEEMDAN算法的IWOAElman模型的性能,針對(duì)預(yù)測(cè)模型,采用SVR、BPNN來(lái)對(duì)比分析Elman模型,并采用遺傳算法(GA)來(lái)對(duì)比分析優(yōu)化算法IWOA,同時(shí)采用EMD算法及未采用任何數(shù)據(jù)分解算法的原始數(shù)據(jù)來(lái)對(duì)比分析CEEMDAN算法,其中表3是基于CEEMDAN算法的各模型的預(yù)測(cè)結(jié)果,表4是基于EMD算法的各模型的預(yù)測(cè)結(jié)果,表5是基于原始數(shù)據(jù)的各模型的預(yù)測(cè)結(jié)果。

        分析表3,在預(yù)測(cè)的15個(gè)工作日的收盤(pán)價(jià)中,IWOAElman模型有9個(gè)預(yù)測(cè)值最接近于真實(shí)值(Acutal),主要集中在12月14日至12月27日,WOA-Elman模型有3個(gè),GAElman有3個(gè),BPNN有1個(gè),從對(duì)比實(shí)驗(yàn)可以看出,組合模型的預(yù)測(cè)結(jié)果明顯優(yōu)于BPNN、SVR及Elman模型,分析表4與表5,發(fā)現(xiàn)相同的規(guī)律,所以本文提出的基于CEEMDAN算法的IWOA-Elman模型在基于股市網(wǎng)絡(luò)輿情的股市收盤(pán)價(jià)預(yù)測(cè)中是十分有效的。

        表3 CEEMDAN數(shù)據(jù)集上各模型預(yù)測(cè)結(jié)果Tab.3 Prediction resultsof different modelson CEEMDANdataset

        表4 EMD數(shù)據(jù)集上各模型預(yù)測(cè)結(jié)果Tab.4 Prediction results of different models on EMDdataset

        2)預(yù)測(cè)效果對(duì)比。

        為了進(jìn)一步評(píng)估IWOA-Elman模型的性能,使用圖10來(lái)比較不同預(yù)測(cè)模型和基于不同數(shù)據(jù)集的預(yù)測(cè)效果。

        在圖10中,(a)是Elman與BPNN和SVR模型的比較,其SVR的預(yù)測(cè)結(jié)果具有較大的波動(dòng),說(shuō)明算法的穩(wěn)定性差;BPNN的預(yù)測(cè)值均大于實(shí)際值,但與真實(shí)值的波動(dòng)趨勢(shì)較接近;Elman和BPNN的預(yù)測(cè)結(jié)果的優(yōu)劣不顯著。(b)是優(yōu)化算法GA、WOA和IWOA的比較,其GA-Elman模型的預(yù)測(cè)值均大于真實(shí)值A(chǔ)cutal,且相比WOA-Elman與IWOA-Elman模型,與真實(shí)值之間的誤差較大;IWOA-Elman的預(yù)測(cè)效果明顯優(yōu)于WOA-Elman模型。(c)是基于不同數(shù)據(jù)集的WOA-Elman模型的預(yù)測(cè)結(jié)果對(duì)比,其數(shù)據(jù)集包括由CEEMDAN算法、EMD算法分解及合并后得到的數(shù)據(jù)集,以及原始收盤(pán)價(jià)Original數(shù)據(jù)集??梢园l(fā)現(xiàn)基于Original數(shù)據(jù)集WOA-Elman模型的預(yù)測(cè)結(jié)果波動(dòng)性很大,基于CEEMDAN數(shù)據(jù)集的預(yù)測(cè)值明顯優(yōu)于EMD數(shù)據(jù)集。(d)是基于三個(gè)數(shù)據(jù)集的IWOA-Elman模型的比較,經(jīng)分析發(fā)現(xiàn)圖(d)與(c)有相同的規(guī)律。結(jié)果表明,基于CEEMDAN算法的IWOA-Elman模型具有較高的預(yù)測(cè)精度和較好的預(yù)測(cè)效果。

        3)預(yù)測(cè)誤差表。

        表6是各預(yù)測(cè)模型誤差的評(píng)估,誤差指標(biāo)主要包括RMSE、MAE和MAPE。

        圖10 不同預(yù)測(cè)模型和基于不同數(shù)據(jù)集的預(yù)測(cè)效果對(duì)比Fig.10 Prediction performancecomparison of different prediction modelsbased on different datasets

        表5 原始數(shù)據(jù)集上各模型預(yù)測(cè)結(jié)果Tab.5 Prediction resultsof different modelson original dataset

        表6 各模型預(yù)測(cè)誤差表Tab.6 Prediction errors of different models

        從表6可以看出,基于CEEMDAN數(shù)據(jù)集的IWOA-Elman模型,其RMSE、MAE和MAPE分別為145.6567、113.055 3及1.445 31,與其他預(yù)測(cè)模型相比,具有最小的預(yù)測(cè)誤差。與單個(gè)預(yù)測(cè)模型SVR、BPNN和Elman相比,基于CEEMDAN數(shù)據(jù)集的IWOA-Elman模型,其MAPE分別降低了2.277 6%、1.6691%和1.8711%。與優(yōu)化算法GA、WOA相比,本文提出的IWOA-Elman模型的MAE分別降低了77.119 2和39.833 5。同時(shí),基于數(shù)據(jù)集CEEMDAN的各模型的預(yù)測(cè)結(jié)果明顯優(yōu)于基于EMD數(shù)據(jù)集及Original數(shù)據(jù)集,與EMD數(shù)據(jù)集和Original數(shù)據(jù)集相比,基于CEEMDAN數(shù)據(jù)集的IWOA-Elman的RMSE分別降低了3.945 6和129.115。通過(guò)以上分析,基于CEEMDAN的IWOA-Elman模型在股票網(wǎng)絡(luò)輿情預(yù)測(cè)中是非常有效的。

        4 結(jié)語(yǔ)

        本文以非結(jié)構(gòu)化股市網(wǎng)絡(luò)輿情為研究對(duì)象,通過(guò)文本挖掘技術(shù)對(duì)其進(jìn)行量化,并通過(guò)Boruta算法選擇了8個(gè)重要屬性。利用CEEMDAN算法對(duì)原始屬性進(jìn)行分解并重構(gòu)各IMF分量,采用重構(gòu)后從低頻到高頻共7個(gè)IMF分量作為各預(yù)測(cè)模型的入模屬性。通過(guò)自適應(yīng)權(quán)重對(duì)WOA的恒定權(quán)重進(jìn)行了改進(jìn),從而大大提高了WOA的收斂速度及預(yù)測(cè)精度,并利用改進(jìn)后的WOA優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的初始權(quán)重和閾值,最后采用優(yōu)化算法IWOA-Elman預(yù)測(cè)2016年12月12日至12月30日共15個(gè)工作日的收盤(pán)價(jià),并通過(guò)多個(gè)預(yù)測(cè)模型及數(shù)據(jù)集進(jìn)行對(duì)比分析,主要包括BPNN、SVR及GA預(yù)測(cè)模型,EMD數(shù)據(jù)集和Original數(shù)據(jù)集。實(shí)驗(yàn)表明,本文提出的基于CEEMDAN算法的IWOA-Elman預(yù)測(cè)模型具有較高的預(yù)測(cè)精度,證明了該模型的可靠性和有效性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        免费观看性欧美大片无片| 国产内射视频免费观看| 国产黄色看三级三级三级| 久久国产精品免费专区| 大陆老熟女自拍自偷露脸| 欧美激情综合色综合啪啪五月 | 男女打扑克视频在线看| 风韵丰满熟妇啪啪区99杏| 77777_亚洲午夜久久多人| a级毛片无码久久精品免费| 日本巨大的奶头在线观看| 伊人久久一区二区三区无码 | 亚洲国产精品综合久久网络| 亚洲精品成人无码中文毛片| 久久99精品国产99久久6男男| 国产亚洲精品成人无码精品网站| 久久精品国产亚洲av成人擦边 | 五月天激情小说| 不卡无毒免费毛片视频观看| av天堂一区二区三区精品| 日韩精品中文字幕一区二区| 中文字幕av中文字无码亚| 18禁黄久久久aaa片| 亚洲中文字幕第一页在线| 欧美日韩综合在线视频免费看 | 午夜黄色一区二区不卡| 亚洲天堂亚洲天堂亚洲色图| 天天躁日日躁aaaaxxxx| 国产成年无码v片在线| 日韩爱爱网站| 无码国产一区二区色欲| 91精品国产高清久久福利| 香蕉视频在线观看亚洲| 97人人超碰国产精品最新| 精品推荐国产精品店| 91狼友在线观看免费完整版| 亚洲国产精品嫩草影院久久av| 女同精品一区二区久久| 无码aⅴ免费中文字幕久久| 精品国产精品久久一区免费式| 日韩精品一区二区三区四区|