亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種多模型集成的網(wǎng)絡(luò)論壇流量預(yù)測(cè)模型

        2020-12-16 02:41:10廖含月曾劍平吳承榮
        計(jì)算機(jī)工程 2020年12期
        關(guān)鍵詞:個(gè)子預(yù)測(cè)值區(qū)間

        廖含月,曾劍平,吳承榮

        (1.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433; 2.教育部網(wǎng)絡(luò)信息安全審計(jì)與監(jiān)控工程研究中心,上海 200433)

        0 概述

        時(shí)間序列預(yù)測(cè)一直是國(guó)內(nèi)外學(xué)者廣泛關(guān)注的熱點(diǎn)問(wèn)題。精確的論壇發(fā)帖量預(yù)測(cè)是論壇流量生成的重要參考,可以為網(wǎng)絡(luò)流量規(guī)劃、態(tài)勢(shì)感知、輿情管理以及論壇用戶行為模式分析等提供便利。針對(duì)時(shí)間序列預(yù)測(cè),研究人員提出了較多的單模型,它們主要分為線性預(yù)測(cè)模型和非線性預(yù)測(cè)模型。線性預(yù)測(cè)模型中應(yīng)用最廣泛的是差分自回歸移動(dòng)平均(ARIMA)模型,其在處理線性時(shí)間序列時(shí)具有優(yōu)勢(shì),但是不能預(yù)測(cè)非線性關(guān)系。非線性預(yù)測(cè)模型主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和梯度提升樹等,這些模型具有較高的特征學(xué)習(xí)能力和非線性逼近能力,在各種時(shí)間序列預(yù)測(cè)任務(wù)中取得了較好的效果,但是它們?nèi)菀紫萑刖植孔钚≈挡a(chǎn)生過(guò)擬合現(xiàn)象。

        目前,對(duì)于網(wǎng)絡(luò)論壇、微博和貼吧等社交媒體的流量預(yù)測(cè),多數(shù)研究人員使用長(zhǎng)短期記憶網(wǎng)絡(luò)[1-2]、卷積神經(jīng)網(wǎng)絡(luò)[3]和徑向基神經(jīng)網(wǎng)絡(luò)[4]等非線性預(yù)測(cè)模型,非線性預(yù)測(cè)模型的關(guān)鍵部分在于特征工程[5]。除歷史時(shí)間序列數(shù)據(jù)之外,在對(duì)微博發(fā)帖模式的預(yù)測(cè)中,學(xué)者們主要使用用戶資料特征、微博類型以及語(yǔ)義特征。在對(duì)微博刪除量的預(yù)測(cè)上,文獻(xiàn)[6]使用用戶關(guān)注數(shù)、內(nèi)容長(zhǎng)度等特征。對(duì)于股吧論壇發(fā)帖量的預(yù)測(cè),基于用戶信息的特征與論壇發(fā)帖量的相關(guān)性不高,而股吧子論壇對(duì)應(yīng)的股票價(jià)格漲幅、論壇關(guān)注數(shù)和新聞提及度等為可用的重要特征。特征工程通常需要預(yù)測(cè)者豐富的相關(guān)知識(shí)以及與時(shí)間序列相關(guān)的大量信息,而可選擇的特征數(shù)據(jù)規(guī)模大、維度復(fù)雜并且提取難度高。例如,股票的新聞提及度特征通常很難提取,復(fù)雜程度很高。除此之外,在實(shí)際應(yīng)用中,能得到的關(guān)于時(shí)間序列的信息往往很少,可選擇的特征通常只有歷史時(shí)間序列。

        集成模型綜合不同模型的優(yōu)點(diǎn),具有較高的預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性。目前,模型集成方式主要分為3種。第1種是對(duì)時(shí)間序列的不同部分分別建模預(yù)測(cè)后將每部分的預(yù)測(cè)結(jié)果進(jìn)行集成[7-9],文獻(xiàn)[10]使用離散小波變換得到時(shí)間序列的線性和非線性結(jié)構(gòu),使用差分自回歸移動(dòng)平均模型和神經(jīng)網(wǎng)絡(luò)分別對(duì)兩部分實(shí)現(xiàn)建模預(yù)測(cè)并將結(jié)果進(jìn)行組合。第2種是利用子模型優(yōu)化最終模型參數(shù)[11-12],文獻(xiàn)[11]利用模擬退火回溯搜索算法優(yōu)化反向傳播神經(jīng)網(wǎng)絡(luò)參數(shù)以獲得更優(yōu)的預(yù)測(cè)結(jié)果。第3種是利用多種子模型對(duì)整條時(shí)間序列進(jìn)行預(yù)測(cè),最后集成各子模型的預(yù)測(cè)結(jié)果。目前,對(duì)于多模型預(yù)測(cè)結(jié)果的集成主要有算術(shù)平均法、加權(quán)平均法以及基于模型的集成法[13-14]3種方式?;谒阈g(shù)平均的集成方法往往受子模型預(yù)測(cè)結(jié)果中極端值的影響而產(chǎn)生誤差,利用基于測(cè)試集RMSE的加權(quán)平均法[15-16]對(duì)子模型進(jìn)行集成需要利用時(shí)間序列的真實(shí)值,而利用訓(xùn)練集RMSE的加權(quán)平均法[17-19]容易產(chǎn)生過(guò)擬合問(wèn)題從而導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)較大的偏差,同時(shí)訓(xùn)練過(guò)程中對(duì)極端值的擬合偏差將對(duì)模型最終權(quán)重造成影響。

        在僅利用歷史時(shí)間序列作為特征的情況下,本文提出一種基于多模型集成的論壇流量預(yù)測(cè)模型。為解決上述模型集成方式中存在的問(wèn)題,本文集成模型參照加權(quán)投票法的思想,在每一個(gè)時(shí)間尺度下,依據(jù)各模型預(yù)測(cè)值所在區(qū)間的密度大小賦予各模型不同的權(quán)重,然后通過(guò)加權(quán)平均得到最終的預(yù)測(cè)結(jié)果,從而避免過(guò)擬合問(wèn)題并降低極端值對(duì)預(yù)測(cè)結(jié)果的影響。

        1 子模型的選擇

        本文選用ARIMA、LSTM、Prophet以及梯度提升決策樹(GBDT)4個(gè)子模型,這4個(gè)模型都是當(dāng)前比較流行、基于不同方法的時(shí)間序列預(yù)測(cè)模型,且在數(shù)學(xué)原理、長(zhǎng)短期精度以及對(duì)時(shí)間序列信息的提取和適用方面各不相同。

        ARIMA模型是以統(tǒng)計(jì)學(xué)和數(shù)學(xué)隨機(jī)過(guò)程理論為基礎(chǔ)的時(shí)間序列分析方法,其優(yōu)點(diǎn)是模型簡(jiǎn)單、時(shí)間復(fù)雜度低、短期預(yù)測(cè)精度高。但是,ARIMA模型的建模過(guò)程需要將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,該過(guò)程會(huì)損失一部分非線性信息,因此,其難以很好地處理非線性數(shù)據(jù)的擬合問(wèn)題,且長(zhǎng)期預(yù)測(cè)精度較低。

        Prophet[20]是以時(shí)間序列分解和曲線擬合思想為基礎(chǔ)而建立的模型,其時(shí)間復(fù)雜度較低、建模簡(jiǎn)單。與ARIMA模型相比,Prophet的優(yōu)點(diǎn)是對(duì)節(jié)假日和突發(fā)事件造成的數(shù)據(jù)波動(dòng)具有很好的擬合效果,并能在一定程度上擬合非線性數(shù)據(jù),適用于長(zhǎng)期且周期明顯的時(shí)間序列預(yù)測(cè)。但是,Prophet在趨勢(shì)、周期不明顯的時(shí)間序列預(yù)測(cè)中效果不佳。

        線性模型難以捕獲時(shí)間序列中的非線性數(shù)據(jù),機(jī)器學(xué)習(xí)方法在訓(xùn)練過(guò)程中能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)隱含關(guān)系,對(duì)非線性數(shù)據(jù)有強(qiáng)大的學(xué)習(xí)能力。因此,在ARIMA和Prophet模型的基礎(chǔ)上,本文選用機(jī)器學(xué)習(xí)模型LSTM和GBDT。

        LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò),具有定向循環(huán)的特點(diǎn),可以很好地分析時(shí)間序列前后之間相互關(guān)聯(lián)的預(yù)測(cè)問(wèn)題。LSTM的優(yōu)點(diǎn)是可以較好地?cái)M合時(shí)間序列中的非線性數(shù)據(jù),且模型能存儲(chǔ)時(shí)間序列中長(zhǎng)時(shí)間信息,可以提取到時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要信息。因此,LSTM對(duì)時(shí)間序列的趨勢(shì)預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)精度較高。但是,LSTM模型較為復(fù)雜,時(shí)間和計(jì)算復(fù)雜度高,訓(xùn)練一個(gè)簡(jiǎn)單的LSTM模型也需要耗費(fèi)較長(zhǎng)的時(shí)間。此外,LSTM容易陷入局部最小點(diǎn),還存在泛化性能不高的問(wèn)題。

        GBDT是基于集成學(xué)習(xí)而建立的時(shí)間序列預(yù)測(cè)模型,其本質(zhì)是一種迭代的決策樹算法,每次迭代建立的模型都在之前模型損失函數(shù)的梯度下降方向。GBDT同樣可以較好地?cái)M合線性和非線性數(shù)據(jù),對(duì)時(shí)間序列的長(zhǎng)期和短期預(yù)測(cè)精度都較高。與LSTM模型相比,GBDT模型的時(shí)間和計(jì)算復(fù)雜度更低,泛化程度更高。

        2 集成模型

        集成是建立一系列模型,通過(guò)策略性地將其組合在一起以獲得準(zhǔn)確性更高、穩(wěn)定性更佳、泛化效果更好的模型。在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí),通常沒(méi)有一個(gè)可以適用于所有時(shí)間序列的模型,每個(gè)模型都有其適用的范圍和優(yōu)缺點(diǎn)。為了達(dá)到較好的預(yù)測(cè)效果,研究人員通常要嘗試多個(gè)模型和多種參數(shù)。集成可以通過(guò)組合單模型來(lái)降低選擇錯(cuò)誤模型的風(fēng)險(xiǎn),同時(shí)較大限度地利用各子模型預(yù)測(cè)結(jié)果的信息,從而解決單模型由于隨機(jī)因素影響導(dǎo)致的預(yù)測(cè)值誤差大的問(wèn)題,最終提高預(yù)測(cè)性能。

        要獲得性能較好的集成模型,各子模型應(yīng)該具有一定的準(zhǔn)確性,同時(shí)子模型之間需要存在差異,否則集成模型的效果不會(huì)優(yōu)于子模型。本文選取ARIMA、LSTM、GBDT以及Prophet 4個(gè)子模型,4個(gè)模型的基本原理以及運(yùn)用的算法各不相同,在長(zhǎng)短期精度、適用范圍方面各有所長(zhǎng)。

        加權(quán)投票法是一種集成學(xué)習(xí)的方法,投票結(jié)果往往可以使子模型之間的預(yù)測(cè)結(jié)果互補(bǔ),以此降低單個(gè)子模型的預(yù)測(cè)誤差。本文算法采用加權(quán)投票法的思想,通過(guò)多數(shù)投票和加權(quán)平均對(duì)各子模型產(chǎn)生的預(yù)測(cè)結(jié)果進(jìn)行集成。在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí),無(wú)法從預(yù)測(cè)結(jié)果中判斷各子模型的預(yù)測(cè)性能。為了比較子模型的預(yù)測(cè)效果,本文借鑒“投票”的思想,讓多個(gè)子模型進(jìn)行“投票”?;凇巴镀薄钡乃枷?可以認(rèn)為多數(shù)子模型的預(yù)測(cè)值所在區(qū)間是與真實(shí)值更加接近的區(qū)間,該區(qū)間稱為密集區(qū)間。

        當(dāng)每個(gè)子模型都具有一定的準(zhǔn)確性時(shí),假設(shè)子模型i的錯(cuò)誤率為εi,在t時(shí)刻時(shí)間序列真實(shí)值為ft,設(shè)子模型i的預(yù)測(cè)值為Si(t),則子模型i的預(yù)測(cè)值接近真實(shí)值的概率為:

        P(Si(t)=(ft±δ))=1-εi

        (1)

        其中,δ是一個(gè)可允許的誤差范圍。為了便于說(shuō)明,本文假設(shè)共有a個(gè)子模型,每個(gè)子模型的錯(cuò)誤率均為ε且錯(cuò)誤率相互獨(dú)立,則各子模型在(ft±δ)內(nèi)形成密集區(qū)間的概率PD為:

        (2)

        (3)

        綜上,當(dāng)選取適當(dāng)?shù)臋?quán)重時(shí),賦予預(yù)測(cè)值位于密集區(qū)間的子模型一個(gè)高的權(quán)重可以提高預(yù)測(cè)精度。

        本文選用4個(gè)子模型,可能會(huì)產(chǎn)生投票數(shù)相同的情況。因此,添加算術(shù)平均模型作為第5個(gè)子模型,即在使用4個(gè)子模型對(duì)時(shí)間序列分別預(yù)測(cè)后,對(duì)4個(gè)子模型的預(yù)測(cè)結(jié)果進(jìn)行算術(shù)平均,得到算術(shù)平均模型,將其作為第5個(gè)子模型,從而避免投票數(shù)相同的情況發(fā)生。

        在時(shí)間尺度單位下,各子模型進(jìn)行“投票”,選出密集區(qū)間,然后賦予預(yù)測(cè)值位于密集區(qū)間的子模型更大的權(quán)重,賦予預(yù)測(cè)值不在該區(qū)間的子模型較小的權(quán)重,從而降低子模型預(yù)測(cè)結(jié)果中的極端值對(duì)集成結(jié)果的影響,最終預(yù)測(cè)結(jié)果即為各子模型預(yù)測(cè)結(jié)果與子模型在該時(shí)間的權(quán)重的乘積之和。集成模型流程如圖1所示。

        圖1 集成模型流程

        各子模型的權(quán)重與子模型預(yù)測(cè)結(jié)果是否位于密集區(qū)間有關(guān),即密集區(qū)間的范圍將對(duì)最終預(yù)測(cè)結(jié)果產(chǎn)生影響。本文設(shè)定一個(gè)參數(shù)k來(lái)控制區(qū)間的范圍。在某一時(shí)刻,當(dāng)子模型A與子模型B之間預(yù)測(cè)值距離小于預(yù)設(shè)的k值時(shí),認(rèn)為模型A與模型B的預(yù)測(cè)值位于同一區(qū)間。將各子模型預(yù)測(cè)值進(jìn)行排序,然后遍歷每個(gè)預(yù)測(cè)值并依據(jù)k值劃分區(qū)間。多數(shù)子模型預(yù)測(cè)值所在的區(qū)間為密集區(qū)間,對(duì)這些子模型賦予較大的權(quán)重,對(duì)預(yù)測(cè)值不在密集區(qū)間的子模型賦予較小的權(quán)重。最后,通過(guò)加權(quán)平均的方法得到最終預(yù)測(cè)值。

        圖2所示為5個(gè)子模型對(duì)2018年8月17日股吧論壇發(fā)帖量的預(yù)測(cè)值。從圖2可以看出,當(dāng)k值取28時(shí),LSTM、Prophet以及GBDT 3個(gè)子模型的預(yù)測(cè)值位于同一區(qū)間且該區(qū)間為密度最大的區(qū)間,表明當(dāng)日真實(shí)值最有可能位于此區(qū)間。因此,賦予這個(gè)區(qū)間的3個(gè)子模型預(yù)測(cè)值較大的權(quán)重,并對(duì)預(yù)測(cè)值不在該區(qū)間的ARIMA模型和算術(shù)平均模型賦予較小的權(quán)重,從而降低此時(shí)間尺度單位下ARIMA模型和算術(shù)平均模型預(yù)測(cè)值過(guò)小對(duì)最終結(jié)果產(chǎn)生的影響,提高預(yù)測(cè)精度。

        圖2 子模型預(yù)測(cè)值對(duì)比

        綜上,本文集成模型算法描述如下:

        輸入時(shí)間序列X=[X1,X2,…,Xn],其中,n為訓(xùn)練集大小。

        輸出集成多個(gè)子模型預(yù)測(cè)結(jié)果的最終預(yù)測(cè)值Y=[Y1,Y2,…,Ym],其中,m為預(yù)測(cè)的時(shí)間長(zhǎng)度。

        步驟1分別利用ARIMA、LSTM、Prophet、GBDT 4個(gè)模型對(duì)原始時(shí)間序列進(jìn)行建模,將訓(xùn)練集數(shù)據(jù)X=[X1,X2,…,Xn]輸入模型并訓(xùn)練模型。

        步驟2分別對(duì)4個(gè)子模型進(jìn)行預(yù)測(cè)。由于4個(gè)子模型均為目前流行的時(shí)間序列預(yù)測(cè)模型,本文不對(duì)子模型的具體算法進(jìn)行詳細(xì)闡述,下面主要介紹子模型的具體預(yù)測(cè)方式。

        1)使用ARIMA模型進(jìn)行單步預(yù)測(cè),然后將模型單步預(yù)測(cè)生成的結(jié)果作為輸入進(jìn)行滾動(dòng)預(yù)測(cè)。ARIMA模型在t時(shí)刻的輸入為時(shí)間序列X和t時(shí)刻之前模型生成的所有預(yù)測(cè)結(jié)果,輸出為S0(t)。數(shù)學(xué)表達(dá)式如下:

        (4)

        2)使用LSTM模型進(jìn)行輸入步長(zhǎng)為timestep的單步預(yù)測(cè),再將模型單步預(yù)測(cè)生成的結(jié)果作為輸入進(jìn)行滾動(dòng)預(yù)測(cè)。則在t時(shí)刻LSTM模型的輸入為部分時(shí)間序列Xn-timestep+(t-1),Xn-timestep+(t-1)+1,…,Xn和t時(shí)刻之前模型生成的所有預(yù)測(cè)結(jié)果,輸入步長(zhǎng)為timestep,輸出為S1(t)。數(shù)學(xué)表達(dá)式如下:

        (5)

        3)使用Prophet模型進(jìn)行預(yù)測(cè)。Prophet模型基于曲線擬合的思想,使用整條時(shí)間序列X作為輸入訓(xùn)練模型后直接輸出t時(shí)刻的預(yù)測(cè)結(jié)果S2(t)。數(shù)學(xué)表達(dá)式如下:

        S2(t)=Prophet(X1,X2,…,Xn)

        (6)

        4)與LSTM的預(yù)測(cè)方法類似,使用GBDT模型進(jìn)行輸入步長(zhǎng)為timestep的單步滾動(dòng)預(yù)測(cè)。其在t時(shí)刻的預(yù)測(cè)方法和輸入與LSTM模型相同,輸出為S3(t)。數(shù)學(xué)表達(dá)式如下:

        (7)

        綜上,可以得到預(yù)測(cè)值集合Si,i=0,1,2,3,其中,i為子模型編號(hào)。

        步驟3對(duì)4個(gè)子模型的預(yù)測(cè)值Si,i=0,1,2,3進(jìn)行算術(shù)平均,得到第5個(gè)子模型,即算術(shù)平均模型S4:

        (8)

        在t時(shí)刻,對(duì)于5個(gè)子模型的預(yù)測(cè)結(jié)果進(jìn)行排序的時(shí)間復(fù)雜度為O(alba),a為子模型個(gè)數(shù);對(duì)排序后的值進(jìn)行遍歷并劃分區(qū)間的時(shí)間復(fù)雜度為O(a)。則在t時(shí)刻,集成算法的時(shí)間復(fù)雜度為O(alba)。

        (9)

        步驟6利用加權(quán)平均的方法得到最終的t時(shí)刻集成模型預(yù)測(cè)值Yt為:

        (10)

        其中,Si(t)表示子模型i在t時(shí)刻的預(yù)測(cè)值。

        對(duì)于一段時(shí)間長(zhǎng)度,集成算法的時(shí)間復(fù)雜度為O(malba)。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)數(shù)據(jù)集包含股吧論壇所有子論壇從2017年7月1日—2018年9月30日的每日發(fā)帖量數(shù)據(jù),共457條。將2017年7月1日—2017年8月15日的發(fā)帖量作為測(cè)試集,依據(jù)不同的算法建立子模型以預(yù)測(cè)2017年8月16日—2018年9月28日的發(fā)帖量,并與實(shí)際情況相比較。股吧論壇發(fā)帖量的時(shí)間序列如圖3所示,可以看出,股吧論壇發(fā)帖量的時(shí)間序列具有周和年2種周期性。

        圖3 股吧論壇發(fā)帖量的時(shí)間序列

        在數(shù)據(jù)集預(yù)處理時(shí)對(duì)數(shù)據(jù)集中的缺失項(xiàng)進(jìn)行中位數(shù)插值。此外,2018年9月27日與9月28日兩天受國(guó)慶節(jié)放假影響,數(shù)據(jù)量偏高,因此,在分析結(jié)果時(shí)刪除這2條異常數(shù)據(jù)。

        模型的預(yù)測(cè)性能評(píng)價(jià)指標(biāo)使用均方根誤差RMSE和相對(duì)誤差δ。RMSE和δ的計(jì)算公式分別如式(11)、式(12)所示:

        (11)

        (12)

        其中,ft為時(shí)間序列真實(shí)值,yt為預(yù)測(cè)值。

        3.1 股吧論壇發(fā)帖量預(yù)測(cè)

        分別利用ARIMA、LSTM、Prophet和GBDT 4個(gè)模型對(duì)原始時(shí)間序列進(jìn)行預(yù)測(cè)。4個(gè)子模型的預(yù)測(cè)結(jié)果與原始時(shí)間序列的對(duì)比如圖4所示,其中,TimeSeries表示原始時(shí)間序列。

        圖4 4個(gè)子模型的預(yù)測(cè)結(jié)果

        從圖4可以看出,4個(gè)子模型均具有一定的準(zhǔn)確性,LSTM、Prophet以及GBDT 3個(gè)模型在預(yù)測(cè)效果上差別較小。使用算術(shù)平均法、基于RMSE的加權(quán)平均法和本文集成算法分別對(duì)4個(gè)子模型進(jìn)行集成。集成模型使用網(wǎng)格搜索得到最優(yōu)參數(shù),各子模型和不同集成模型的結(jié)果對(duì)比如表1所示。

        表1 子模型及集成模型的實(shí)驗(yàn)結(jié)果1Table 1 Experimental results 1 of submodels and integrated models

        從表1可以看出,所有集成模型均獲得了比子模型更好的預(yù)測(cè)結(jié)果。對(duì)比不同的集成模型可以看出,本文集成模型得到的RMSE和相對(duì)誤差值比其他2種集成模型更小。對(duì)于基于RMSE的加權(quán)平均模型而言,使用測(cè)試集的RMSE需要利用時(shí)間序列的真實(shí)值,利用訓(xùn)練集的RMSE容易產(chǎn)生過(guò)擬合問(wèn)題從而導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)較大偏差。在各模型預(yù)測(cè)結(jié)果的RMSE值相差不大時(shí),使用基于RMSE的加權(quán)平均法的效果甚至低于簡(jiǎn)單的算術(shù)平均法。而本文模型參考加權(quán)投票法的思想,認(rèn)為多數(shù)模型預(yù)測(cè)值所在的區(qū)間應(yīng)當(dāng)更接近真實(shí)值。從實(shí)驗(yàn)結(jié)果可以看出,在選擇合適的區(qū)間大小和權(quán)重比例時(shí),本文模型能獲得比其他2種集成模型更優(yōu)的預(yù)測(cè)效果。

        3.2 不同模式的時(shí)間序列集成效果

        為了驗(yàn)證本文集成模型的泛化性,將各種對(duì)比模型應(yīng)用于國(guó)際航班乘客數(shù)時(shí)間序列,該序列與股吧論壇發(fā)帖量模式不同,結(jié)果如表2所示。

        表2 子模型及集成模型的實(shí)驗(yàn)結(jié)果2Table 2 Experimental results 2 of submodels and integrated models

        與股吧論壇發(fā)帖量數(shù)據(jù)集結(jié)果類似,本文集成模型對(duì)國(guó)際航班乘客數(shù)數(shù)據(jù)集進(jìn)行建模后,預(yù)測(cè)結(jié)果的RMSE和相對(duì)誤差值低于算術(shù)平均模型和基于RMSE的加權(quán)平均模型,這表明本文集成模型對(duì)于不同的時(shí)間序列具有一定泛化性。

        3.3 不同k值和權(quán)重比例對(duì)集成結(jié)果的影響

        k值的選取以及不同密度區(qū)間的權(quán)重比例是影響本文集成模型預(yù)測(cè)結(jié)果的重要因素。本次實(shí)驗(yàn)使用網(wǎng)格搜索來(lái)確定最佳的k值和權(quán)重比例。

        為了驗(yàn)證不同k值和權(quán)重比例對(duì)時(shí)間序列的影響,選用不同的權(quán)重比例,k取[0,100]內(nèi)的所有整數(shù),對(duì)股吧論壇發(fā)帖量數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并將預(yù)測(cè)結(jié)果的RMSE與算術(shù)平均模型得到的RMSE進(jìn)行對(duì)比,結(jié)果如圖5所示。從圖5可以看出,在模型k值固定的情況下,不同權(quán)重比例之間的RMSE值波動(dòng)幅度較小;而當(dāng)模型的權(quán)重比例固定時(shí),不同k值之間的RMSE值波動(dòng)幅度較大。因此,k值對(duì)實(shí)驗(yàn)結(jié)果的影響大于權(quán)重比例。在實(shí)驗(yàn)過(guò)程中選擇合適的權(quán)重比例,可以在一定程度上減小子模型預(yù)測(cè)中極端值對(duì)最終預(yù)測(cè)結(jié)果的影響,而k值將影響集成模型對(duì)預(yù)測(cè)結(jié)果的優(yōu)化效果。從實(shí)驗(yàn)結(jié)果可以看出,選擇k=28、w=0.9時(shí)可以獲得最佳預(yù)測(cè)結(jié)果。

        圖5 不同k值和權(quán)重比例時(shí)的集成模型預(yù)測(cè)結(jié)果

        在預(yù)測(cè)結(jié)果最佳的情形下,統(tǒng)計(jì)各子模型未來(lái)42天的預(yù)測(cè)值分別被賦予大權(quán)重和小權(quán)重的天數(shù),結(jié)果如圖6所示。

        圖6 各模型被賦予大、小權(quán)重的天數(shù)統(tǒng)計(jì)

        4個(gè)子模型被賦予大、小權(quán)重的天數(shù)比例能從一定程度上說(shuō)明4個(gè)子模型的準(zhǔn)確率大小。從圖6可以看出,算術(shù)平均模型、LSTM模型、Prophet模型和GBDT模型的預(yù)測(cè)值被賦予大權(quán)重的天數(shù)大致相同,表明LSTM、Prophet以及GBDT這3個(gè)子模型的準(zhǔn)確率相近,而ARIMA模型的預(yù)測(cè)值被賦予大權(quán)重的天數(shù)較低,表明其準(zhǔn)確率略低于其他3個(gè)子模型。該實(shí)驗(yàn)結(jié)果與4個(gè)子模型RMSE值的差距吻合,表明本文模型傾向于賦予RMSE值更高的子模型一個(gè)大權(quán)重,以此提高模型的預(yù)測(cè)精度。針對(duì)ARIMA模型準(zhǔn)確率較低的問(wèn)題,今后將對(duì)子模型的個(gè)數(shù)和類型選擇進(jìn)行探究,以獲得精度更高的集成模型。

        LSTM模型由于對(duì)極端值預(yù)測(cè)結(jié)果偏差較大導(dǎo)致其RMSE值略高于Prophet和GBDT模型,但是在實(shí)驗(yàn)過(guò)程中,LSTM模型被賦予大權(quán)重的天數(shù)多于其他子模型,表明LSTM模型對(duì)于非極端值的預(yù)測(cè)較為準(zhǔn)確。與基于RMSE值的加權(quán)平均模型相比,使用本文算法對(duì)4個(gè)子模型進(jìn)行集成,可以在一定程度上避免單模型在極端值上的預(yù)測(cè)偏差對(duì)模型最終權(quán)重造成的影響。

        4 結(jié)束語(yǔ)

        本文建立一種基于多模型集成的網(wǎng)絡(luò)論壇流量預(yù)測(cè)模型。通過(guò)ARIMA、LSTM、Prophet和GBDT 4個(gè)模型分別對(duì)時(shí)間序列進(jìn)行預(yù)測(cè),在時(shí)間尺度單位下參照加權(quán)投票法的思想,使各子模型投票選出密集區(qū)間,依據(jù)各模型預(yù)測(cè)值所在區(qū)間的密度大小賦予各模型不同的權(quán)重,然后進(jìn)行加權(quán)平均得到最終的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,與算術(shù)平均模型、基于RMSE的加權(quán)平均模型相比,該模型預(yù)測(cè)結(jié)果的RMSE值與相對(duì)誤差值更小,且對(duì)于不同模式的時(shí)間序列具有一定的泛化性。

        本文集成模型的最終預(yù)測(cè)結(jié)果依據(jù)各子模型的投票而產(chǎn)生,無(wú)需預(yù)測(cè)該時(shí)間段的真實(shí)數(shù)據(jù)且避免了模型在訓(xùn)練集上過(guò)擬合而導(dǎo)致的實(shí)驗(yàn)結(jié)果偏差問(wèn)題。同時(shí),本文模型通過(guò)合理的權(quán)重分配降低了預(yù)測(cè)過(guò)程中極端值對(duì)預(yù)測(cè)結(jié)果的影響。各子模型的投票區(qū)間k值以及權(quán)重分配w值的選取非常重要,下一步將對(duì)k值和w值的取值范圍和選取規(guī)則進(jìn)行深入研究。此外,在已有研究的基礎(chǔ)上適當(dāng)增加和調(diào)整子模型,分析子模型的類型和個(gè)數(shù)對(duì)預(yù)測(cè)結(jié)果精度的影響也是今后的研究方向。

        猜你喜歡
        個(gè)子預(yù)測(cè)值區(qū)間
        長(zhǎng)個(gè)子
        IMF上調(diào)今年全球經(jīng)濟(jì)增長(zhǎng)預(yù)期
        企業(yè)界(2024年8期)2024-07-05 10:59:04
        解兩類含參數(shù)的復(fù)合不等式有解與恒成立問(wèn)題
        你學(xué)會(huì)“區(qū)間測(cè)速”了嗎
        加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測(cè)值
        ±800kV直流輸電工程合成電場(chǎng)夏季實(shí)測(cè)值與預(yù)測(cè)值比對(duì)分析
        法電再次修訂2020年核發(fā)電量預(yù)測(cè)值
        難怪個(gè)子長(zhǎng)不高
        個(gè)子不是一樣高
        啟蒙(3-7歲)(2017年9期)2017-09-20 11:15:02
        區(qū)間對(duì)象族的可鎮(zhèn)定性分析
        成年人一区二区三区在线观看视频| 最新亚洲人AV日韩一区二区| 香蕉亚洲欧洲在线一区| 我的美艳丝袜美腿情缘| 人妻体内射精一区二区三区| 亚洲欧美成人一区二区在线电影| 国产美熟女乱又伦av果冻传媒| 国产蜜臀精品一区二区三区| 少妇被黑人嗷嗷大叫视频| 国产成人a在线观看视频免费 | 2021精品综合久久久久| 国产在视频线精品视频www666| 国产精品亚洲av网站| 美女脱了内裤洗澡视频| 亚洲视频在线观看| 国产精品一区二区久久| 久久久诱惑一区二区三区| 国产成人精品日本亚洲i8| 国产在线精品一区二区中文| 久久精品国产夜色| 91蜜桃国产成人精品区在线| 亚洲中文字幕剧情类别| 亚洲国产精品ⅴa在线观看| 日韩欧美第一页| 国产av熟女一区二区三区蜜臀 | 香港三日本三级少妇三级视频| 秋霞午夜无码鲁丝片午夜精品| 在线观看视频日本一区二区三区| 一区二区三区四区在线观看日本| 国产福利精品一区二区| 国产一级片毛片| 日本顶级片一区二区三区| av天堂午夜精品一区| 久久久久亚洲精品天堂| 国产日产亚洲系列av| 久草视频在线手机免费看| 国产操逼视频| 98国产精品永久在线观看| 久久久大少妇免费高潮特黄| 国产一级内射视频在线观看| 久久久久久好爽爽久久|