李婷婷
摘要:空氣質(zhì)量發(fā)展趨勢的預測對于空氣污染問題的防治具有非常重要的意義。因此,本文提出了基于經(jīng)驗模態(tài)分解(EMD)的空氣質(zhì)量指數(shù)(AQI)的一種組合預測方法。我們首先運用經(jīng)驗模態(tài)分解(EMD)的方法對非平穩(wěn)、非線性且呈劇烈波動的時間序列即AQI原始數(shù)據(jù)進行多尺度分解。其次,我們分別使用4種常用的單項預測方法:灰色預測(GM)、ARIMA、BP神經(jīng)網(wǎng)絡和支持向量回歸(SVR),分別對于分解后的本征模態(tài)函數(shù)(IMF)序列和趨勢序列進行預測,得到單項預測結(jié)果。為了提高預測的精度,我們選用平均相對誤差(MRE)較小的前三種單項預測方法,并對它們的預測結(jié)果進行組合預測。最后,運用熵權(quán)法分別計算出IMF序列和趨勢序列的組合預測值,并將所有預測值求和得到AQI的最終預測結(jié)果。為了評價模型的預測效果,我們選用四種常用誤差評價指標,對各個模型的預測結(jié)果進行評價比較,而仿真實驗的結(jié)果表明了本文提出的基于經(jīng)驗模態(tài)分解的空氣質(zhì)量指數(shù)組合預測方法具有較高的預測精度和良好的適用性。
Abstract: The prediction of air quality development trend is very important for the prevention and control of air pollution problems. Therefore, this paper proposes an air quality index (AQI) combination forecasting method based on empirical mode decomposition (EMD). First, the empirical modal decomposition method (EMD) is used to perform multi-scale decomposition of non-stationary, nonlinear and violently fluctuating time series AQI raw data. Secondly, four different single prediction methods, gray prediction (GM), ARIMA, BP neural network and support vector regression (SVR), are used to predict the decomposed intrinsic mode function (IMF) sequence and trend sequence respectively, and obtain the single prediction methods forecast results. Then, in order to improve the prediction accuracy, we use the first three single prediction methods with small mean relative error (MRE) for combined prediction. Finally, the combined prediction values of the IMF sequence and the trend sequence are calculated by the entropy weight method, and all the predicted values are summed to obtain the final prediction result of the AQI. At the same time, in order to evaluate the prediction effect of the model, four error evaluation indicators are used to evaluate the prediction results of each model. The simulation results show that the proposed method based on empirical mode decomposition has high prediction accuracy and good applicability.
關鍵詞:空氣質(zhì)量指數(shù);EMD分解;灰色預測;ARIMA;BP神經(jīng)網(wǎng)絡;SVR;組合預測
Key words: air quality index;EMD decomposition;grey prediction;ARIMA;BP neural network;SVR;combined prediction
中圖分類號:O212? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)16-0134-05
0? 引言
隨著我國工業(yè)化和城市化進程的加快,空氣污染逐漸成為環(huán)境科學中的重要問題,而能源需求和消耗量持續(xù)增加,同時也造成日趨嚴重的空氣污染問題,更加嚴重影響了人們的日常生活和健康[1]。有研究表明在被污染的空氣中存在著許多對人體健康有不利影響的空氣污染物,如PM2.5、一氧化碳(CO)、SO2、NO2、SPM、臭氧(O3)等。高濃度的這些污染物會威脅生命,導致呼吸困難、頭痛和頭暈。它們甚至可能導致心臟病發(fā)作[2]。因此,如何提高空氣質(zhì)量指數(shù)的預測精度,正是目前研究的熱點和難點。
原始空氣質(zhì)量預測方法可以概括為三類:一類是傳統(tǒng)的統(tǒng)計模型如:多元線性回歸(MLR)[3]、自回歸綜合移動平均(ARIMA)模型[4]、主成分回歸(PCR)技術[5]等。傳統(tǒng)的統(tǒng)計模型在線性假設條件下具有較好的預測效果,但是面對空氣質(zhì)量指數(shù)的數(shù)據(jù)是混沌的、無序的且非平穩(wěn)的,因此傳統(tǒng)的預測模型顯然不適用于這類數(shù)據(jù)的預測。一類是人工智能技術如:BP神經(jīng)網(wǎng)絡[6]、支持向量回歸(SVR)[7]等,這類方法因其具有非線性而被廣泛應用于空氣質(zhì)量的預測,并且取得較好的預測效果,但是神經(jīng)網(wǎng)絡等容易陷入局部最優(yōu),一般需要較大的樣本,存在過擬合問題等,還有很大部分要改進的地方[8]。還有一類是混合預測模型,也就是將人工神經(jīng)網(wǎng)絡與傳統(tǒng)的統(tǒng)計模型相結(jié)合,以此提高預測精度。如王建州[9]等人曾提出了基于改進最小二乘支持向量機和云模型的空氣質(zhì)量預警系統(tǒng)的研究與應用,實驗結(jié)果表明,空氣質(zhì)量預警系統(tǒng)不僅性能顯著,而且適用廣泛。Voukantsis[10]等人將神經(jīng)網(wǎng)絡與主成分分析法相結(jié)合對空氣質(zhì)量進行預測,將線性與非線性相結(jié)合提高了預測的有效性。
已有的研究表明,如果先將時間序列進行多尺度分解,使其呈現(xiàn)出具有某種規(guī)律性的波動序列。然后選擇再進一步恰當?shù)哪P头謩e對分解后的序列進行預測,會有效提高模型的預測效果。常用的分解方法包括:小波分析(WT)[11]、經(jīng)驗模態(tài)分解(EMD)[12]、奇異普分析(SSA)[13]和變分模態(tài)分解(VMD)[14]。其中EMD分解不需要預設分解尺度,自適應性更強且擬合精度更高,能夠完整地分解非平穩(wěn)時間序列信號,是相較于其他三種方法而言較簡便易實現(xiàn)[15]。王建州[16]等人在2016年提出了一種預測主要污染物的混合模型ICEEMD-WOA-SVM。該方法結(jié)果在中國太原、哈爾濱和重慶得到了很好的驗證,說明經(jīng)過EMD分解后的組合預測能夠提高預測準確性。不過,由于EMD分解后得到的各個本征模態(tài)函數(shù)(IMF)序列,往往具有不同的尺度波動特征,使用同一種方法對不同序列進行預測會造成較差的適應度[17]。因此,目前關于多尺度分解的組合預測方法仍然具有兩個問題:一是已有研究對EMD分解之后的結(jié)果直接運用特點的模型進行預測,并沒有考慮依據(jù)數(shù)據(jù)自身特征以及波動規(guī)律性選擇適合的預測方法進行單項預測。二是大量的研究表明,相對于單項預測方法而言,組合預測能顯著提高預測精度,因此如果對EMD分解之后的各層序列,采用組合預測模型可進一步提高準確性并能有效降低風險。
針對上述問題,本文提出了基于經(jīng)驗模態(tài)分解的AQI組合預測方法,該方法能將EMD分解和組合預測的優(yōu)勢結(jié)合,提高AQI的預測精度。首先,對空氣質(zhì)量指數(shù)時間序列用EMD方法進行多尺度分解。其次,考慮到EMD分解后的分量具有各自的數(shù)據(jù)特征不適用相同的單項預測方法,因此對分解后得到的IMF序列和趨勢序列,分別利用ARIMA、灰色預測、BP神經(jīng)網(wǎng)絡和SVR四種方法進行預測,并得到相應的單項預測值。然后,對每一個IMF序列和殘差序列,我們都分別計算其四種單項預測結(jié)果的平均相對誤差(MRE),接著選用MRE值較小的前三種預測方法,進一步用熵權(quán)法實現(xiàn)組合預測。最后,各分量的組合預測結(jié)果加總在一起,得到AQI的最終預測值。同時,通過仿真實驗來檢驗組合預測模型的適用性與準確性,本文的研究可為時間序列的預測提供新思路。
1? 空氣質(zhì)量指數(shù)多尺度分解組合預測模型
1.1 EMD分解
EMD分解的方法首先由Huang[18]等在1998年提出,它主要原理是通過對信號的篩選,得到不同頻率的本征模函數(shù)和一個趨勢項。其中IMF必須滿足兩個條件:一是過零點的數(shù)量與極值點的數(shù)量之差絕對值不大于1,二是數(shù)據(jù)序列中任何一點對應的局部極小值和局部極大值的包絡線均值為零,且在時間軸上的局部對稱。具體分解步驟如下:
1.2 單項預測模型
對EMD分解結(jié)果得到的多個IMF序列ci(t)以及一個趨勢序列rn(t),采用灰色預測、ARIMA、BP神經(jīng)網(wǎng)絡、和SVR四種方法分別進行預測,得到不同預測方法下的每一層序列的4種預測結(jié)果fij(t)和frj(t),其中i=1,2,…,n,j=1,…,4。i表示分解n層,j表示共4種預測方法。
1.2.1 灰色預測
1.2.2 ARIMA
1.2.3 BP神經(jīng)網(wǎng)絡
1.2.4 SVR
1.2.5 熵權(quán)法
熵反應了信息的不確定性程度,是信息論中一個概念。因此,當信息的不確定程度越高,熵也越大,表示提供的信息的有效性越小,自然其權(quán)重也就越小;反之,信息的不確定性程度越低時,熵也會越小,提供的有效信息量更多,其權(quán)重也越大。因此熵權(quán)法常用于客觀賦權(quán),并且能得到可信度較高的權(quán)重值。如果采用p種預測模型,q種誤差指標,那么p種模型的q種預測誤差指標構(gòu)成的評價指標矩陣為:
1.3 預測方法選取
1.4 預測結(jié)果集成
熵權(quán)法主要依據(jù)觀測樣本本身反映的信息的多少來決定各個指標的權(quán)重大小,可以很好的克服多個指標評價中權(quán)重的主觀性[18]。因此,本文采用熵權(quán)法確定IMF序列ci(t)和趨勢序列rn(t)的單項預測方法的權(quán)重,可以分別得出IMFci(t)和趨勢序列rn(t)的組合預測值i(t)和n(t)殘差,接著加總各預測結(jié)果,得到最終預測值。
1.5 預測結(jié)果評價
為了更好的比較本文提出模型的預測效果,分別采用4種常用的誤差指標:誤差平方和(SSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和相均方根誤差(RMSE)來評價預測模型的預測精度。誤差指標的計算公式如下:
2? 仿真實驗
2.1 數(shù)據(jù)的來源與處理
本文以北京市2014年1月1日至2018年12月31日的AQI公開數(shù)據(jù)作為原始數(shù)據(jù)。首先,為了消除數(shù)據(jù)之間的過大差異,減小數(shù)據(jù)之間的波動幅度,以一周的AQI數(shù)據(jù)的平均值作為本文的研究對象進行預測即y(t)。同時為了便于比較,我們分別利用未分解的灰色預測、ARIMA、BP神經(jīng)網(wǎng)絡和SVR四種單項預測方法進行分析,來評價本模型的可行性。
2.2 原始數(shù)據(jù)EMD分解
對非平穩(wěn)、非線性且呈劇烈波動的260個北京市AQI周數(shù)據(jù)進行EMD分解,使得數(shù)據(jù)的波動具有規(guī)律性便于進行單項預測,得到的5個IMF和1個殘差序列結(jié)果如圖3所示。
2.3 多尺度組合預測
分解后的時間序列規(guī)律性較好,有助于提高模型的預測效果。對于IMF序列和趨勢序列,分別采用GM、ARIMA、BP神經(jīng)網(wǎng)絡、和SVR進行單項預測。并對每一個IMF序列ci(t)和趨勢序列rn(t),分別計算平均相對誤差(MRE),以選取MRE較小的前三種單項預測方法進行集成。其結(jié)果如表1所示。
2.4 預測效果評價
為證明本文構(gòu)建的基于EMD分解的空氣質(zhì)量指數(shù)組合預測模型的有效性,將該方法與GM、ARIMA、BP神經(jīng)網(wǎng)絡和SVR四種單項預測模型的預測結(jié)果進行比較分析,并且對未分解序列的四種單項預測方法進行組合預測,以證明EMD分解后的組合預測效果大大提高。分別使用SSE、MAE、MAPE和RMSE,四種誤差評價指標,來度量六種預測方法的預測精度。各模型的比較結(jié)果如表2所示。
根據(jù)表2,可得出三個重要的結(jié)論,首先,通過將組合預測模型與GM、ARIMA、BP神經(jīng)網(wǎng)絡和SVR的對比,組合預測模型的SSE、RMSE、MAE和MAPE這四個誤差評價指標值明顯小于其他四種單項預測模型,說明對于AQI數(shù)據(jù)來說,組合預測結(jié)果往往優(yōu)于單項預測結(jié)果。其次,將本文提出的EMD-組合預測方法與未分解的組合預測方法進行對比分析,本模型的SSE、RMSE、MAE和MAPE均小于未分解的組合預測模型,這表明將非線性非平穩(wěn)的AQI數(shù)據(jù)進行EMD多尺度分解能避免冗余信息的影響,更好的反映數(shù)據(jù)本身的信息,有益于提高預測效果。最后,對于EMD分解后的不同頻率的數(shù)據(jù)采用組合預測方法,能有效減弱外界隨機因素的干擾信息,不但提高了預測效果,這也是有別于已有研究的不足將組合預測方法應用于EMD多尺度分解后不同頻率數(shù)據(jù)的首次應用。綜上所述,本文提出的基于EMD分解的組合預測模型具有較高的擬合效果和廣泛適用性,為今后AQI預測提供了新的思路。
3? 結(jié)論與展望
如今,空氣質(zhì)量已成為社會公眾普遍關注的社會問題,如何能夠準確有效地提高空氣質(zhì)量指數(shù)預測精度也成為目前的研究熱點。因此,本文充分利用了EMD多尺度分解的特點,對非平穩(wěn)非線性且呈劇烈波動的AQI數(shù)據(jù)提出了基于EMD分解的空氣質(zhì)量指數(shù)組合預測模型。首先,本文利用EMD多尺度分解方法的優(yōu)勢對AQI時間序列進行多尺度分解,得到了多個不同頻率的波動序列和一個趨勢序列。其次,將分解后的多個IMF序列和趨勢序列分別用四種不同的單項預測方法GM、ARIMA、BP神經(jīng)網(wǎng)絡和SVR進行預測,分別得到每一個IMF序列和趨勢序列的四種單項預測結(jié)果。為了提高模型預測效果和簡化預測復雜性,我們用MRE對每層IMF和趨勢序列的四個單項預測結(jié)果進行篩選,選擇MRE較小的三種單項預測方法進行集成。然后,用熵權(quán)法對每層IMF和趨勢序列的三種單項預測結(jié)果進行賦權(quán),得到每層IMF和趨勢序列的組合預測值,最后,將組合預測結(jié)果加總,就得到AQI數(shù)據(jù)的最終預測值。最后,為了比較本模型的高效性,我們用了五種方法進行對比分析,實驗結(jié)果表明數(shù)據(jù)進行EMD多尺度分解的組合預測結(jié)果明顯優(yōu)于單項預測方法,為AQI數(shù)據(jù)的預測提供了新的預測方法。
參考文獻:
[1]齊甜方,蔣洪迅,石曉文.面向多源數(shù)據(jù)沈陽市PM2.5濃度預測研究及實證分析[J].系統(tǒng)工程,2018,36(05):108-119.
[2]Kumar A, Goyal P. Forecasting of daily air quality index in Delhi[J]. Science of the Total Environment, 2011, 409(24):5517-5523.
[3]Vlachogianni A, Kassomenos P, Karppinen A. Evaluation of a multiple regression model for the forecasting of the concentrations of NOx and PM10 in Athens and Helsinki[J]. Science of the Total Environment, 2011, 409(8):1559-1571.
[4]Jian L, Zhao Y, Zhu Y P. An application of ARIMA model to predict submicron particle concentrations from meteorological factors at a busy roadside in Hangzhou, China[J]. Science of the Total Environment, 2012, 426(1):336-345.
[5]Slini T, Karatzas K, Moussiopoulos N. Statistical analysis of environmental data as the basis of forecasting: an air quality application[J]. Science of the Total Environment, 2002, 288(3):227-237.
[6]李翔.基于GAB和模糊BP神經(jīng)網(wǎng)絡的空氣質(zhì)量預測[J]. 華中科技大學學報,2013,41(z1):63-65.
[7]尹琪,胡紅萍,白艷萍.基于GA-SVM的太原市空氣質(zhì)量指數(shù)預測[J].數(shù)學的實踐與認識,2017,47(12):113-120.
[8]Kumar A , Goyal P . Forecasting of air quality in Delhi using principal component regression technique[J]. Atmospheric Pollution Research, 2011, 2(4):436-444.
[9]Yun zhenXu, PeiDu, JianzhouWang. Research and application of an air quality early warning system based on a modified least squares support vector machine and a cloud model[J]. Environmental Pollution, 2017, 223: 435-448.
[10]Voukantsis D, Karatzas K, Kukkonen J. Intercomparison of air quality data using principal component analysis, and forecasting of PM10 and PM2.5 concentrations using artificial neural networks, in Thessaloniki and Helsinki[J]. Science of the Total Environment, 2011, 409(7):1266-1276.
[11]劉金培,林盛,郭濤.一種非線性時間序列預測模 型及對原油價格的預測[J].管理科學,2011,24(6):104-112.
[12]張晨,楊仙子.基于多頻組合模型的中國區(qū)域碳市場價格預測[J].系統(tǒng)工程理論與實踐,2016,36(12):3017-3025.
[13]Ma X, Jin Y, Dong Q. A generalized dynamic fuzzy neural network based on singular spectrum analysis optimized by brain storm optimization for short-term wind speed forecasting[M]. Elsevier Science Publishers B. V. 2017.
[14]Dragomiretskiy K, Zosso D. Variational Mode Decomposition[J]. IEEE Transactions on Signal Processing, 2014, 62(3):531-544.
[15]王書平,朱艷云.基于多尺度分析的小麥價格預測研究[J].中國管理科學,2016,24(5):85-91.
[16]Xu Y, Yang W, Wang J. Air quality early-warning system for cities in China[J]. Atmospheric Environment, 2016, 148:239-257.
[17]劉金培,郭藝,陳華友,任賀松,陶志富.基于非結(jié)構(gòu)數(shù)據(jù)流行學習的碳價格多尺度組合預測[J].控制與決策,2019,34(02):279-286.
[18]Huang N E, Shen Z, Long S R. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings A, 1998, 454(1971):903-995.
[19]馬雪瑩,蔡如華,寧巧嬌,等.基于輔助粒子濾波與灰色預測的時間序列NAR模型狀態(tài)估計[J].統(tǒng)計與決策,2019,4:25-29.
[20]曹學晨,張順堂.基于ARIMA模型和BP人工神經(jīng)網(wǎng)絡的產(chǎn)品質(zhì)量預測[J].價值工程,2018,37(35):198-201.
[21]李越洋.基于熵權(quán)-TOPSIS的PPP項目融資風險評價[J]. 價值工程,2019,5:69-72.