單曙兵 張紹華
(1.中匯信息技術(shù)(上海)有限公司 上海市 201203 2.上海計(jì)算機(jī)軟件技術(shù)開(kāi)發(fā)中心 上海市 201112)
在人工智能領(lǐng)域已經(jīng)存在多種預(yù)測(cè)模型來(lái)解決不同的預(yù)測(cè)問(wèn)題[1]。如傳統(tǒng)的回歸模型主要解決線性預(yù)測(cè)問(wèn)題;而針對(duì)時(shí)間序列歷史數(shù)據(jù),可以采用自回歸模型AR、移動(dòng)平均模型MA 以及其他各種組合和變形的時(shí)間序列模型;神經(jīng)網(wǎng)絡(luò)模型和深度學(xué)習(xí)模型用于解決非線性預(yù)測(cè)問(wèn)題等等。但單一的預(yù)測(cè)模型難以解決不同場(chǎng)景下復(fù)雜的預(yù)測(cè)問(wèn)題,因而已經(jīng)有諸多學(xué)者將兩種或多種預(yù)測(cè)模型構(gòu)成混合模型來(lái)取得更好的預(yù)測(cè)效果[2-4]。
張永峰等人將一維卷積神經(jīng)網(wǎng)絡(luò)模型與雙向長(zhǎng)短期記憶模型進(jìn)行混合用于預(yù)測(cè)機(jī)器設(shè)備的剩余壽命,該模型不但可以有效地抽取時(shí)間序列上的特征,還可以產(chǎn)生更多的訓(xùn)練樣本,從而提升預(yù)測(cè)精度[5]。王英偉等提出一種將ARIMA 和LSTM 混合的時(shí)間序列模型,實(shí)驗(yàn)結(jié)果表明該混合模型優(yōu)于單一模型的預(yù)測(cè)[6]。郭海燕等提出了一種基于模擬退火算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,從而實(shí)現(xiàn)較好的負(fù)荷預(yù)測(cè)[7]。溫海茹等提出將深度卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)混合的預(yù)測(cè)模型,該方法在C-MAPSS 數(shù)據(jù)集上進(jìn)行了驗(yàn)證,其結(jié)果優(yōu)于單一的CNN 和LSTM 模型[8]。袁全等提出一種基于時(shí)間序列與天牛須搜索算法改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的組合預(yù)測(cè)模型,仿真結(jié)果表明提出的混合預(yù)測(cè)模型好于單一模型[9]。黃偉建等提出將STAQI 模型和門(mén)循環(huán)單元模型進(jìn)行混合,該模型用于預(yù)測(cè)空氣質(zhì)量其結(jié)果在均方根誤差方面優(yōu)于傳統(tǒng)的深度學(xué)習(xí)模型[10]。上述模型都是通過(guò)一定的方法提升預(yù)測(cè)的精度,而如果在不同的預(yù)測(cè)階段將預(yù)測(cè)精度最好的兩個(gè)或多個(gè)模型進(jìn)行混合,使其各自發(fā)揮解決不同預(yù)測(cè)問(wèn)題的優(yōu)勢(shì),實(shí)現(xiàn)更為精準(zhǔn)的預(yù)測(cè)。因此本文提出一種由互信息和信息熵共同決定權(quán)重的加權(quán)混合預(yù)測(cè)模型。
本文所做的貢獻(xiàn)如下:
(1)提出一種全新的由互信息和信息熵共同決定權(quán)重的加權(quán)混合預(yù)測(cè)模型,并命名為MPR;
(2)研究并討論了如何選擇待混合的模型,比較了經(jīng)典的權(quán)重的確定方法優(yōu)劣;
(3)通過(guò)真實(shí)的數(shù)據(jù),并引入9 個(gè)基準(zhǔn)模型從預(yù)測(cè)精度和方差比較了混合模型的優(yōu)勢(shì)。
在本節(jié)中,我們將提出一個(gè)全新的混合模型MPR,它可以混合兩種預(yù)測(cè)模型。公式(1)是MPR 模型的數(shù)學(xué)表達(dá)式,V 是預(yù)測(cè)值,w 是權(quán)重,A、B 表示預(yù)測(cè)模型。
在信息論中,熵可以量化信息源的信息不確定性[11]。在公式(1)中,模型A 和模型B 是信息源,而A 和B 作為信息源給出的信息實(shí)際上是預(yù)測(cè)準(zhǔn)確度(例如1%,2%,...100%)?;陟氐亩x,在我們的研究中,信息源的準(zhǔn)確性越高,熵越小。但是,熵是對(duì)稱的,也就是說(shuō),信息源的準(zhǔn)確性差也導(dǎo)致熵的值小。為了解決這個(gè)問(wèn)題,本文使用加權(quán)熵來(lái)降低精確度較低信息源的影響。并且,在本文的混合模型MPR 中涉及兩個(gè)信息源,所以它們平均相互信息是相同的。因此,如果一個(gè)模型的平均相互信息與信息源的加權(quán)熵之比更大,則相應(yīng)的信息源具有更準(zhǔn)確的信息。在這個(gè)情況下,該信息源即預(yù)測(cè)模型在混合模型中的相關(guān)權(quán)重應(yīng)該更大,也就是說(shuō)混合模型整合了每個(gè)預(yù)測(cè)模型中更為準(zhǔn)確和穩(wěn)定的預(yù)測(cè)部分。
基于以上討論,權(quán)重確定如下:我們首先使用訓(xùn)練數(shù)據(jù)集完成A 和B 模型的訓(xùn)練,然后將訓(xùn)練后的A 和B 模型分別使用驗(yàn)證數(shù)據(jù)集進(jìn)行預(yù)測(cè)。這兩個(gè)模型獲得的結(jié)果的準(zhǔn)確性是根據(jù)公式(2)計(jì)算的。在公式(2)中,aij是使用第j 個(gè)模型(即第j 個(gè)信息源)預(yù)測(cè)第i 個(gè)驗(yàn)證數(shù)據(jù)的準(zhǔn)確性。Ri代表第i 個(gè)驗(yàn)證數(shù)據(jù)的實(shí)際值。Fij表示第j 個(gè)模型對(duì)第i 個(gè)驗(yàn)證數(shù)據(jù)預(yù)測(cè)值。
對(duì)于m 項(xiàng)驗(yàn)證數(shù)據(jù),第j 個(gè)模型將產(chǎn)生m 個(gè)相應(yīng)的精度值。如果使用列向量ATj=(a1j,a2j,...amj)T 表示第j 個(gè)模型的精度,則所有模型的精度值都可以用矩陣Amn 表示,如公式(3)所示。
表1:常見(jiàn)的9 個(gè)預(yù)測(cè)模型
圖1:MPR 與9 個(gè)基準(zhǔn)模型的預(yù)測(cè)結(jié)果對(duì)比
圖2:MPR 模型與SGD 權(quán)重確定法預(yù)測(cè)結(jié)果對(duì)比
在矩陣Amn中計(jì)算每個(gè)精度值的出現(xiàn)次數(shù)(注意:精度值是實(shí)數(shù),因此在計(jì)算精度值的出現(xiàn)次數(shù)時(shí),我們僅考慮其整數(shù)部分(例如87%而不是87.15%)并得到等式(4)所示的Rmn,其中,rij代表第j 列中aij(其整數(shù)部分)的出現(xiàn)次數(shù)。
矩陣Rmn 中的每個(gè)元素將被代入到方程式(5),以分別獲得A 模型和B 模型的加權(quán)信息熵。如上所述,加權(quán)熵為了使精度更高的信息源在混合模型中更加重要。我們可以計(jì)算方程(5)的加權(quán)熵。在式(5)中,Ej 是第j 個(gè)模型的加權(quán)信息熵(即,第j 個(gè)信息源).wij'與pijlogpij對(duì)應(yīng),Nj 表示在矩陣Amn的第j 列中aij大于準(zhǔn)確率X%的數(shù)量,其中X 依據(jù)實(shí)際需要取適當(dāng)值。pij的第j 列中是rij的出現(xiàn)的概率,其中M 表示第j 列上rij的總和。
其中,
表3:MPR 與9 個(gè)基準(zhǔn)模型的預(yù)測(cè)結(jié)果方差對(duì)比
表4:MPR 模型與SGD 權(quán)重確定法預(yù)測(cè)結(jié)果的差對(duì)比
表2:9 個(gè)基準(zhǔn)模型的預(yù)測(cè)結(jié)果
計(jì)算用于確定混合模型中權(quán)重的平均互信息的過(guò)程如下:如果ak=al,則定義階躍函數(shù)UN(ak, al)=1,否則,UN(ak, al)=0,其中ak和al(k=l)是矩陣Amn 中的兩行。定義ci = 1 + ∑mj,j≠iUN(ak, al)(1 ≤i ≤m),可以得到向量CmT=(c1,c2,....cm)T。應(yīng)用公式(6)獲得兩個(gè)信息源的平均互信息,其中J 和J’分別代表兩個(gè)信息源。
其中,
根據(jù)前文的討論,MPR 模型中每個(gè)組成模型(即信息源)的權(quán)重是平均互信息與其熵的比值。第j 個(gè)信息源的權(quán)重將由等式(7)計(jì)算。在等式(7)中,I 是平均互信息,而Ej 表示第j 個(gè)源的加權(quán)熵,Z 是用于歸一化所有基本算法的權(quán)重以確保所有權(quán)重之和為1 的參數(shù)。
為了評(píng)估預(yù)測(cè)結(jié)果的質(zhì)量,本文利用等式(8)所示的MAPE(平均絕對(duì)百分比誤差)[12],其中At 為實(shí)際值,F(xiàn)t為預(yù)測(cè)值。
在計(jì)算實(shí)驗(yàn)中,我們采用9 種常用的預(yù)測(cè)模型(如表1 所示)作為基準(zhǔn)。這些模型的某些應(yīng)用可以在[13-14]中找到。它們代表7種不同類(lèi)型的模型,包括廣義線性回歸,支持向量機(jī),最近鄰居,高斯過(guò)程,決策樹(shù),集成方法,神經(jīng)網(wǎng)絡(luò),時(shí)間序列模型和長(zhǎng)期短期記憶。
使用提出的MPR 模型和表1 的9 個(gè)模型預(yù)測(cè)平臺(tái)訪問(wèn)流量,現(xiàn)已有1年的平臺(tái)流量數(shù)據(jù),并得知因素退出率、點(diǎn)擊密度、平均會(huì)話時(shí)間影響平臺(tái)的訪問(wèn)流量,并將上述數(shù)據(jù)劃分為60%訓(xùn)練集,20%的驗(yàn)證集,20%的測(cè)試集進(jìn)行實(shí)驗(yàn)。依據(jù)經(jīng)驗(yàn),公式(5)中的X 取70%,實(shí)驗(yàn)結(jié)果如表2 所示。從表2 中可以看出,LSTM模型和NNR 模型的預(yù)測(cè)精度位于前兩位,選取這兩種模型,并使用公式1 到公式7 計(jì)算提出的MPR 模型的預(yù)測(cè)結(jié)果,并與表2 中模型結(jié)果進(jìn)行了對(duì)比,如圖1 所示。從圖1 中可以看出,提出的MPR 模型的預(yù)測(cè)的MAPE 值最小,其預(yù)測(cè)精度明顯好于任何單一的基準(zhǔn)模型。
此外,使用方差來(lái)評(píng)估所有模型的預(yù)測(cè)結(jié)果。表3 顯示了MPR 與9 個(gè)基準(zhǔn)的預(yù)測(cè)結(jié)果的方差。MPR 在方差方面表現(xiàn)最佳,這表明MPR 能夠產(chǎn)生合理的結(jié)果。因而我們提出的MPR 混合預(yù)測(cè)模型整合了其組成部分的預(yù)測(cè)優(yōu)勢(shì),不僅對(duì)精度有所提升,其穩(wěn)定性也有較大提升。
在本文第2 節(jié)中MPR 模型混合了LSTM 和NNR,取得了良好的預(yù)測(cè)效果。但在進(jìn)行模型混合時(shí)需要遵循兩個(gè)原則,一是模型的多樣性,二是預(yù)測(cè)表現(xiàn)。
4.1.1 多樣性
多樣性意味著混合的模型是不同的。因此,從統(tǒng)計(jì)學(xué)角度考察LSTM 和NNR 是否為不同的模型。為此,本文進(jìn)行統(tǒng)計(jì)檢驗(yàn)。由于通過(guò)算法獲得的預(yù)測(cè)結(jié)果的分布是未知的,因此應(yīng)使用非參數(shù)檢驗(yàn)。類(lèi)似于Ablanedo-Rosas[15]的研究,我們使用Wilcoxon ranksum檢驗(yàn)(秩和檢驗(yàn))確定兩個(gè)選擇的樣本是否具有相同的分布。在此,給出零假設(shè):LSTM 和NNR 所獲得的預(yù)測(cè)結(jié)果總體相同。使用開(kāi)源scipy 軟件用于通過(guò)調(diào)用stats.ranksums 進(jìn)行測(cè)試,該測(cè)試的p 值為2.801e-106(<0.01)。因此,拒絕零假設(shè),并確認(rèn)LSTM 和NNR不是相似的模型。
4.1.2 預(yù)測(cè)性能
LSTM 和NNR 是實(shí)驗(yàn)中表現(xiàn)最優(yōu)的兩個(gè)模型,LSTM 是9 個(gè)基準(zhǔn)模型中預(yù)測(cè)精度最高的,NNR 是9 個(gè)基準(zhǔn)模型中方差最小的。而混合模型需要整合最佳性能模型。混合模型MPR 與9 個(gè)基準(zhǔn)模型相比確實(shí)表現(xiàn)出最好的表現(xiàn)即精度最高并且方差最小。
某些優(yōu)化算法,例如SGD(隨機(jī)梯度下降等)通常用于確定模型的權(quán)重。但是,這種方法不但是黑盒,而且很容易陷入局部最優(yōu)[16]。如果很難獲得最佳權(quán)重,這會(huì)導(dǎo)致混合預(yù)測(cè)精度的折衷。本節(jié)使用SGD 算法確定方程(7)中的權(quán)重,并采用兩個(gè)損失函數(shù)包括MSLE 和MSE(均方誤差)分別實(shí)驗(yàn)。圖2 中,SGD_mse 表示將具有MSE 損失函數(shù)的SGD 應(yīng)用于確定權(quán)重的混合模型。SGD_msle 表示使用具有MSLE 損失函數(shù)的SGD 確定權(quán)重的混合模型。如表4 所示,平均方差也是最低的。
本文提出了一個(gè)全新的混合預(yù)測(cè)模型。在預(yù)測(cè)中需要解決不同需求和場(chǎng)景問(wèn)題,因此,單個(gè)模型無(wú)法提供令人滿意的預(yù)測(cè)結(jié)果。為了解決該問(wèn)題,本文采用了基于互信息和信息熵的比值確定權(quán)重的混合模型,這不僅避免了混合模型中權(quán)重出現(xiàn)局部最優(yōu)的問(wèn)題,還具有更好的可解釋性并使得精度更高、穩(wěn)定性更好的模型更加重要。
此外,實(shí)驗(yàn)證明MPR 模型可以提供具有更好的準(zhǔn)確性和方差的預(yù)測(cè)結(jié)果。在未來(lái)的研究中,計(jì)劃收集更多的數(shù)據(jù)集評(píng)估所提出模型的長(zhǎng)期預(yù)測(cè)能力,以幫助進(jìn)一步改善預(yù)測(cè)準(zhǔn)確性。