劉晴晴
(安徽大學(xué),安徽 合肥230601)
組合預(yù)測是各單項預(yù)測方法的加權(quán)平均,通過提取各種單項方法賦予的有用信息來提高整體預(yù)測精度[1]。近年來,組合預(yù)測模型的獨特優(yōu)勢獲得了眾多國內(nèi)外學(xué)者的青睞,是未來組合預(yù)測發(fā)展的方向,已廣泛應(yīng)用于經(jīng)濟(jì)、交通、環(huán)境等各個領(lǐng)域[2-5]。目前組合預(yù)測的發(fā)展大多基于定權(quán)系數(shù)來構(gòu)建模型,這樣就忽略了各單項預(yù)測方法預(yù)測數(shù)據(jù)之間的相互關(guān)系。為了進(jìn)一步提高預(yù)測的性能和適應(yīng)性,有必要探索變權(quán)重的組合預(yù)測模型。本文將K 近鄰算法運(yùn)用于變權(quán)組合預(yù)測模型預(yù)測時點權(quán)系數(shù)的計算上。以傳統(tǒng)的變權(quán)組合預(yù)測權(quán)系數(shù)的計算方法為基礎(chǔ),利用K 近鄰算法來篩選與預(yù)測時點最相關(guān)的已發(fā)生時點來計算預(yù)測時點的權(quán)重,而不是將已發(fā)生時點進(jìn)行簡單平均,這樣確定的預(yù)測時點的權(quán)重就會避免更多不相關(guān)信息。
簡單平均法確定的預(yù)測權(quán)重是對過去連續(xù)時間點的最優(yōu)權(quán)重進(jìn)行平均,很明顯這樣確定的預(yù)測時點的權(quán)重會涵蓋多個不相關(guān)時點的信息。
K 近鄰算法是基于某種距離度量找出某樣本與其最近的K個樣本的一類算法[6],本文引入此方法來篩選與預(yù)測時點最相關(guān)的時點以解決傳統(tǒng)簡單平均法在計算預(yù)測時點權(quán)重時的信息冗余問題。
本文將選擇武漢市2018 年8 月20 日至2019 年8 月20 日的PM2.5 濃度數(shù)據(jù)進(jìn)行實驗,使用的單項預(yù)測方法包括自回歸滑動平均(ARIMA)模型、支持向量回歸(SVR)模型、人工神經(jīng)網(wǎng)絡(luò)(ANN)模型和長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)模型。為了降低計算的復(fù)雜度并保證維度相同,本文對每個時間節(jié)點取相同個數(shù)的近鄰。通過實驗對比,發(fā)現(xiàn)本文PM2.5 濃度預(yù)測中設(shè)定k 為6時取得了最好的實驗效果。為了驗證基于K 近鄰的變權(quán)組合預(yù)測模型效果,本文將定權(quán)組合預(yù)測模型與簡單平均法的變權(quán)組合預(yù)測模型也納入實驗對比中。圖1 顯示了30%測試集范圍內(nèi)PM2.5 濃度的預(yù)測值與觀測值的擬合序列對比。
圖1 三種組合預(yù)測模型的擬合序列圖
圖1 中,模型1 為基于簡單平均法的變權(quán)組合預(yù)測,模型2為本文基于K 近鄰法的變權(quán)組合預(yù)測,模型3 為定權(quán)組合預(yù)測。圖1 表明,三種組合預(yù)測的結(jié)果與PM2.5 濃度的真實時間序列趨勢大體上是一致的,但是兩種變權(quán)組合預(yù)測更能有效地模擬PM2.5 濃度的時間序列變化特征,尤其是本文提出的基于K 近鄰的變權(quán)組合預(yù)測模型對一些明顯高于或低于鄰近值的特殊點,也能實現(xiàn)很好的預(yù)測。
本文采用誤差平方和(SSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)四個預(yù)測誤差指標(biāo)對模型進(jìn)行評估。表1 列出了三種不同組合預(yù)測模型的預(yù)測精度。
表1 三種不同組合預(yù)測模型的預(yù)測精度
以上結(jié)果顯示SSE、RMSE、MAE 和MAPE 四種預(yù)測誤差在模型2 中都是最小的,很明顯可以看出兩種變權(quán)組合預(yù)測模型的精度要高于定權(quán)組合預(yù)測模型的精度,變權(quán)組合預(yù)測模型2的效果又比變權(quán)組合預(yù)測模型1 的效果好。
為了更好的展示預(yù)測值與觀測值的效果,分別繪制模型1(變權(quán))、模型2(變權(quán))以及模型3(定權(quán))之間的擬合效果如圖2所示。
與圖1 的結(jié)果一致,三種組合預(yù)測模型都能有效地模擬觀測值的時間序列特征,但是與觀測值之間的解釋方差分別為94.7%、95.2%和96.7%,因此擬合效果由低到高為模型3(定權(quán))、模型1(變權(quán))和模型2(變權(quán)),說明本文提出的基于K 近鄰的變權(quán)組合預(yù)測模型對PM2.5 濃度時間序列特征具有更好地捕捉性能。
本文從變權(quán)組合預(yù)測模型的預(yù)測時點權(quán)重的計算方法作為出發(fā)點,為改進(jìn)傳統(tǒng)的簡單平均法,提出了基于K 近鄰算法的變權(quán)組合預(yù)測模型,實驗結(jié)果表明本文基于K 近鄰的變權(quán)組合預(yù)測模型的預(yù)測效果有著明顯優(yōu)勢。無論是在擬合效果還是誤差評估中都表現(xiàn)出了優(yōu)于其他對比模型的預(yù)測性能和穩(wěn)定性。
圖2 三種不同組合預(yù)測模型的擬合效果