劉輝*,龍治豪,段鑄,施惠鵬
Institute of Artificial Intelligence & Robotics (IAIR), Key Laboratory of Traffic Safety on Track of Ministry of Education, School of Traffic and Transportation Engineering, Central South University, Changsha 410075, China
隨著發(fā)展中國家和地區(qū)的工業(yè)發(fā)展,空氣污染問題廣受關注。近年來,中國大部分地區(qū)出現(xiàn)霧霾天氣,空氣質量治理已成為國家戰(zhàn)略問題??諝鈩恿W直徑不超過2.5 μm的顆粒物(PM2.5)含有大量有毒有害物質[1],是最常見的空氣污染物[2]。研究表明,PM2.5污染對呼吸系統(tǒng)和心血管系統(tǒng)有直接影響,與肺癌發(fā)病率和死亡率密切相關[3]。PM2.5對天氣氣候亦有不良影響。例如,PM2.5可能導致異常降雨和加劇溫室效應[4-7]。PM2.5濃度預測是緩解PM2.5負面影響的有效方法[8],對智慧城市大數據的發(fā)展也具有重要意義[9]。
PM2.5濃度預測方法可分為4類:物理模型、統(tǒng)計模型、人工智能模型和混合模型。
物理模型側重于描述氣象和化學因素潛在的復雜排放、傳輸和轉化過程[10]。該方法可以輸出準確的預測結果,但是需要大量空氣污染物排放信息[11],且計算成本高[12]。統(tǒng)計模型克服了物理方法的缺點,僅需要簡單樣本,計算速度快[13]。然而,統(tǒng)計模型僅基于有限樣本,沒有充分考慮各種影響因素之間的內在關系。單一的人工智能模型能夠描述非線性系統(tǒng)的規(guī)律,在處理大數據方面有很大優(yōu)勢[14]。其缺點在于神經網絡的訓練過程具有一定的波動性,難以輸出最優(yōu)結果[15]。
考慮到上述方法的局限性,混合模型在空氣污染預測中得到了廣泛的應用?;旌夏P屯ǔ0?個部分:數據預處理、特征選擇和預測器。數據預處理可以理清原始數據中復雜的數據關系,提高數據平穩(wěn)性。特征選擇可以改善輸入數據結構,降低維數過高導致的模型訓練困難?;旌夏P涂梢跃C合各種算法的優(yōu)點,達到更好的模型性能[16-20]。表1列出了PM2.5濃度預測的前沿研究[16-28]。
表1中列出的PM2.5濃度預測模型很少使用特征選擇。如果輸入包含PM2.5、PM10、SO2、O3等多個特征,會導致模型訓練困難、訓練時間增加。復雜的輸入數據也會影響模型的魯棒性[29],降低模型的精度[30]。目前常用的特征選擇算法包括主成分分析(PCA)、相空間重構(PSR)和梯度增強回歸樹(GBRT)。然而,由于這些方法是基于線性系統(tǒng)假設,因此不適用于空氣污染物濃度序列?;谀:碚摰拇植诩瘜傩约s簡(RSAR)算法具有非線性強、停止準則明確、無需參數等優(yōu)點[31]。RSAR可以通過不同屬性之間的依賴關系獲得重要屬性集,是熱門的特征選擇研究方向[32]。聚類算法通常用于數據挖掘和分析[33]。目前存在多種聚類方法,諸如k均值聚類(KC)[34]、可能性c-均值(PCM)[35]、曲線聚類[36]等。與其他算法相比,KC算法具有原理簡單、計算速度快、聚類效果好等優(yōu)點,是目前應用最廣泛的聚類算法。將RSAR算法與KC算法相結合,可以利用RSAR為KC算法提供合理的聚類對象,是有價值的研究方向。
表1中的分解算法主要為小波方法,可以將原始數據分解成更平穩(wěn)的子層。與經驗模態(tài)分解(EMD)、集成經驗模態(tài)分解(EEMD)和復數經驗模態(tài)分解(CEMD)相比,經驗小波分解(EWT)算法可以自適應地劃分傅里葉譜,選擇合適的小波濾波器組[37]。除此之外,可以使用聚類方法進行分解。聚類算法可以根據空氣污染工況劃分原始數據集,減小樣本多樣性對模型的影響。然而,尚未有研究將基于時序分解的聚類算法用于PM2.5濃度預測。
表1中的預測器多為物理方法、機器學習和人工神經網絡(ANN)。雖然哥白尼大氣監(jiān)測服務(CAMS)、化學天氣研究和預報模式(WRFChem)與嵌套空氣質量預測模式系統(tǒng)(NAQPMS)具有準確的預測結果,但是這些方法需要大量前期工作與物理化學知識。支持向量機(SVM)、支持向量回歸(SVR)和最小二乘支持向量回歸(LS-SVR)對參數的選擇要求很高,不能處理大數據。傳統(tǒng)的神經網絡,如反向傳播神經網絡(BPNN)和進化神經網絡(ENN)需要大量的訓練,容易過擬合。相比之下,回聲狀態(tài)網絡(ESN)具有由重復連接的單元組成的獨特的儲存器結構,訓練簡單有效,適用于PM2.5濃度數據等非線性系統(tǒng)[38]。
綜上所述,基于分解的聚類算法、非線性模糊理論算法和ESN算法在PM2.5濃度預測中的研究較少。本研究旨在將這些算法應用于PM2.5濃度預測。本文所提出的混合PM2.5預測模型結合了多特征聚類分解(MCD)、ESN和粒子群優(yōu)化(PSO)3種方法。在MCD中,首先,采用RSAR算法選擇重要的空氣污染物變量,利用KC算法對原始PM2.5濃度數據進行聚類,利用EWT算法將聚類結果分解成多個子層。然后,為每個聚類組中的每個分解子層建立一個ESN預測器,利用PSO對ESN模型的初始參數進行優(yōu)化,完成多步預測計算。最后,綜合各子層預測結果,形成最終預測值。實驗結果表明該混合模型能夠準確預測PM2.5每小時平均濃度。所提出模型的詳細信息見本文第2節(jié)。
表1 近4年PM2.5濃度預測的主要研究
MCD-ESN-PSO混合模型的構建步驟如下。
A部分:MCD
這部分包括RSAR、KC和EWT算法。使用RSAR算法過濾原始空氣質量數據,用KC算法對過濾后的屬性數據進行聚類,然后利用EWT算法將每個簇的聚類數據分解成多個子層,最后為每個簇中的每個子層建立一個ESN預測器。在該方法中,RSAR算法和KC算法共同實現(xiàn)特征聚類,EWT分解算法將原始時間序列分解成更平穩(wěn)的子層。RSAR、KC和EWT算法的詳細信息分別在第2.2~2.4節(jié)中介紹。
B部分:ESN
ESN對分解后的PM2.5濃度數據進行預測。ESN由輸入層、儲備池和輸出層組成。ESN的主要思想是使用儲備池模擬一個復雜的動態(tài)空間,該空間可以隨著輸入的變化而改變。根據參考文獻[38],ESN的更新方程和輸出狀態(tài)方程可以用公式(1)和(2)表示:
式中,x是從儲備池到輸出層的輸入數據;y是輸出;t是時間;u是從輸出層到儲備層的輸出數據;f是ESN函數;Win表示x(t- 1)到x(t)之間的連接權值;u(t + 1)是輸出數據;Wback表示輸入層到儲備池之間的連接權值;Wout表示y(t - 1)到x(t)之間的連接權值。
C部分:PSO
與傳統(tǒng)的ESN模型不同,本研究將ESN模型與粒子群算法相結合。在ESN-PSO算法中,通過PSO算法優(yōu)化ESN模型參數,如輸入比例、頻譜半徑、內部單元數和連通性。
最后,將各子層的預測結果相加,得到最終的預測結果。
RSAR算法可用于剔除冗余信息,同時保持信息質量[31]。在信息系統(tǒng)中,一組對象由一組屬性描述[31]。一個知識信息系統(tǒng)的定義如下:
式中,U是對象的有限非空集合;V是非空值的集合;A是屬性的有限非空集合;h是將U中對象映射到V中數值的信息函數。
在本文中,A = {PM10, CO, SO2, NO2, O3, PM2.5}是所有屬性的集合,V是其數值。f是用于獲得γ的依賴函數,γ是集合的依賴關系。
定義一個條件屬性集C?A和一個屬性集P?C?A,約簡應保持排序質量(γ)不變。一個信息表可能有多個約簡。所有約簡的交集稱為決策表的“核心”(core),可表示為core (P),這是信息系統(tǒng)最重要的屬性集。
KC是一種簡單的迭代聚類算法,使用距離作為相似性指標[34]。它的最終目的是在一組給定的數據集中找到k個簇。KC算法的過程如下:
(1)選擇數據空間中的k個對象作為初始聚類中心。
(2)根據樣本中的數據對象與聚類中心之間的歐幾里得距離,將樣本中的數據對象按照最近的中心進行聚類。
式中,xi是第j個簇中的第i個樣本;xj是第j個簇的中心;D表示數據對象的屬性數量。
(3)更新聚類中心,即以每個簇中所有對象的均值為聚類中心,計算目標函數的值。
(4)判斷聚類中心值與目標函數值是否相等。如果它們相等,則輸出結果,否則,返回步驟(2)。
本文采用EWT算法進行數據預處理。EWT由Gilles[37]提出,是一種自適應構造小波的新型信號處理技術。EWT基于小波變換的理論框架,克服了經驗模態(tài)分解理論的不足和信號混疊的問題。EWT能夠自適應地劃分傅里葉譜,并選擇合適的小波濾波器組。經驗尺度函數和經驗小波可用公式(5)和(6)表示。
式中,n是分割區(qū)間;ω是頻率;β是區(qū)間[0,1]中滿足K階導數的任何函數;τ是頻率系數;β(x) = x4(35-84x+70x2-20x3);
PSO算法由位置z、速度v和自適應函數組成。算法中的每個粒子代表解空間中的一個候選解。根據優(yōu)化目標設置適應度函數。在計算過程中,每個粒子結合自身和相鄰粒子的運動經驗更新位置。計算公式[27]如下所示:
式中,m表示迭代次數;vi(m)表示第i個粒子的當前速度;c1和c2表示常數;r1和r2表示0和1之間的隨機數;p表示粒子的權重;pibest表示從開始到當前迭代次數的個體最優(yōu)值;gibest表示從開始到當前迭代次數的組最優(yōu)值。
我國PM2.5污染物分布范圍廣泛,主要集中在華北和華中地區(qū)[39,40]。為保證實驗數據的多樣性,應選取PM2.5重污染和PM2.5弱污染等不同場景的數據。在本文中,選擇屬于華北平原地區(qū)的北京、珠江三角洲地區(qū)的廣州、華中地區(qū)的長沙和長江三角洲地區(qū)的蘇州作為典型城市。選取的樣本具有空間代表性,包含不同地理和氣候環(huán)境下的PM2.5濃度數據,可以很好地驗證模型有效性。
空氣質量監(jiān)測站記錄了6種空氣污染物(PM2.5、PM10、NO2、SO2、O3和CO)的平均濃度。圖1展示了選定的數據集及相關介紹。
實驗數據來自北京、廣州、長沙和蘇州4個城市。Shi等[41]的研究表明地面空間監(jiān)測的空間有效范圍通常為0.5~16 km2,常用值約為3 km2。單個監(jiān)測站的數據不能代表整個城市的空氣質量。為了使樣本更具代表性,本文中的數據為每個城市所有空氣質量監(jiān)測站的平均值。這些數據集被命名為D1(北京)、D2(廣州)、D3(長沙)和D4(蘇州)。將樣本數據的長度設置為一年,以覆蓋完整的四季。所有實驗數據包括2016年1月1日至2016年12月31日采集的PM2.5、PM10、NO2、SO2、O3和CO的每小時平均濃度。所有數據均來自中國國家環(huán)境監(jiān)測中心網站(http://www.cnemc.cn/)。
在數據劃分之前,進行缺失值過濾和離群值檢查。數據集D1中有220條數據缺失。數據集D2缺少158條數據,數據集D3缺少158條數據,數據集D4缺少157條數據。由于缺失樣本數低于總樣本集的2.5%,因此直接剔除缺失樣本。從圖1中可以看出,離群值大多集中在2016年1~3月和10~12月。為了保證模型的訓練效果,將離群值視為正常并保留。
剔除缺失樣本后,D1有8540個樣本,D2有8602個樣本,D3有8602個樣本,D4有8603個樣本。使用數據集的第4001~4600個PM2.5濃度樣本訓練A組中的模型(沒有RSAR-KC的模型,包括ESN、LSTM、ESN-PSO和EWT-ESN-PSO模型)。第4601~5000個樣本為測試集,為保證預測效果,遺忘第4601~4900個樣本。B組模型(含RSAR-KC的模型,包括RSAR-KC-ESN、MCDLSTM-PSO和RSAR-KC-EWT-ESN-PSO模型)采用RSAR-KC對每個站點的所有實驗數據進行預處理。為了保證誤差評估的有效性,每個簇被用來訓練一個ESN模型,然后對第4901~5000個樣本的預測結果進行重構。
為了研究抽樣過程對模型精度的影響,采用D1中的第3001~4000個(S1)樣本和第6001~7000個(S2)樣本進行對比實驗。圖2顯示了數據集S1和S2的分布。
為了進一步驗證模型的有效性,實驗中使用了D4(包含8603個樣本)作為附加數據集。數據集D4從春季、夏季、秋季和冬季選擇月度數據進行測試。這些數據被命名為T1(第1000~1999個樣本)、T2(第3100~4099個樣本)、T3(第5000~5999個樣本)和T4(第6000~6999個樣本)。它們如圖3所示。表2顯示了PM2.5濃度數據的相關統(tǒng)計描述。
圖1. 空氣質量監(jiān)測站位置。(a)北京。北京是中國的首都,位于華北平原的北端;屬典型的暖溫帶半濕潤大陸性季風氣候,夏季炎熱多雨,冬季寒冷干燥,春季和秋季很短;年平均氣溫為10~12 ℃,年平均降雨量在600 mm以上。(b)長沙。長沙是長江中游的重要城市;屬亞熱帶季風氣候,氣候溫和、降水充沛、炎熱多雨;年平均氣溫為17.2 ℃,年平均降雨量為1361.6 mm。(c)廣州。廣州位于中國東南部的珠江三角洲北緣,珠江穿城而過;屬熱帶季風氣候,氣溫高、降雨量大、風速低。(d)蘇州。蘇州位于江蘇省東南部和長江三角洲中部;屬亞熱帶季風型海洋性氣候,四季分明,全年雨量充沛。Group A:不含RSAR-KC的模型,包括ESN、LSTM、ESN-PSO和EWT-ESN-PSO模型。
圖2. 數據集S1和S2的PM2.5濃度序列。
圖3. 數據集T1~T4的PM2.5濃度序列。
表2 PM2.5濃度數據的統(tǒng)計描述
3.3.1. RSAR結果
利用RSAR和KC對原始數據進行預處理。按照國際PM2.5分類系統(tǒng)建立各數據集的屬性決策表,對PM2.5濃度數據進行分類離散化。類似地,對其他5種空氣污染物的濃度進行離散化。表3為屬性約簡表。通過計算其他5種大氣污染物濃度和PM2.5污染物濃度的正域值,可以確定PM10、NO2、CO、O3和SO2的顯著程度分別為0.0825、0.0948、0.0531、0.2189和0.1843。SO2和O3具有重要意義,被判定為已建立的信息決策系統(tǒng)的核心屬性。
如果約簡屬性和決策屬性之間的相關性太強,則兩者之間沒有區(qū)別。如果約簡屬性和決策屬性之間的相關性太弱,則它們之間沒有相關性。這兩種情況下的約簡屬性都是冗余的。因此,為了保證輸入樣本的多樣性,約簡屬性的選擇需要綜合考慮約簡屬性和決策屬性之間的相關性和獨立性。本文采用協(xié)方差來評價PM2.5濃度與其他污染物濃度的關系,如表4所示。cov (PM2.5,PM10)、cov (PM2.5, NO2)、cov (PM2.5, CO)和cov (PM2.5,SO2)均為正值。cov (PM2.5, O3)為負值。cov (PM2.5,PM10)、cov (PM2.5, NO2)和cov (PM2.5, CO)的絕對值遠大于cov (PM2.5, SO2)和cov (PM2.5, O3)的絕對值。在保證輸入屬性獨立性方面,RSAR算法是有效的。為了避免維度災難給模型訓練帶來的困難,選擇相關程度較高的屬性作為核心屬性,并將其他相關性較弱的數據作為約簡屬性。
表3 屬性約簡表
3.3.2. k均值聚類結果
屬性約簡后,原始數據集為N× 3的樣本空間。使用三維KC算法將該空間劃分為多個簇。使用誤差平方和(SSE)[42]和輪廓系數(SC)[43]選擇k的最佳值。由于3個數據集的聚類結果非常相似,因此以D1為例說明結果。
由圖4可見,當選擇不同的k時,SSE和SC不同。k值的范圍為1~15,SSE值隨著k值的增加而減小。當k=3時,SC值最大,此時SSE值也較大。根據圖4,綜合考慮SSE和SC,選定k值為7。
當k= 7時,原始數據D1被分成7組,結果如圖5所示。圖5(a)顯示了PM2.5的結果,而SO2和O3的結果分別如圖5(b)和(c)所示。圖5(a)所示的PM2.5的聚類結果是本文的重點部分。聚類簇(C)1的振幅為0~200 μg·m-3,并且波動平緩。C2的振幅為0~55 μg·m-3,短周期波動劇烈。C3的振幅為0~400 μg·m-3,波動平穩(wěn),周期性不強。C4的振幅為50~150 μg·m-3,周期性和對稱性好。C5的振幅為0~200 μg·m-3,波動比C1更劇烈。C6的振幅為160~240 μg·m-3,波動劇烈,具有很強的對稱性。C7的振幅為0~100 μg·m-3,周期明顯,但對稱性較弱。總體而言,與圖1中的原始數據相比,聚類后的數據更加穩(wěn)定,各簇數據均呈現(xiàn)不同的周期性。
為了得出更有說服力的結論,進一步分析了PM2.5濃度數據的聚類結果的統(tǒng)計描述,結果如表5所示。
7組數據的平均值分別為71.54 μg·m-3、24.00 μg·m-3、285.74 μg·m-3、91.47 μg·m-3、83.90 μg·m-3、177.00 μg·m-3和34.85 μg·m-3。聚類后的7組數據集中,組內數據的波動范圍較小。這與圖5中每組數據的幅度分布是一致的。
表4 協(xié)方差表
標準差反映了群體中個體間的離散度。聚類后的7組數據的標準差值分別為37.02 μg·m-3、14.25 μg·m-3、47.30 μg·m-3、20.96 μg·m-3、32.70 μg·m-3、29.81 μg·m-3、19.42 μg·m-3,均小于聚類前的71.00 μg·m-3。聚類后的各組數據更接近其平均值。如圖5所示,每組數據曲線上下波動的對稱性較強。
聚類后的7組數據的偏度值分別為0.70、0.72、0.74、0.21、1.01、0.22、0.88,均小于聚類前的2.01。聚類后的數據的波峰對稱性更強,即周期規(guī)律更加明顯。聚類后的7組數據峰度值分別為3.23、2.45、2.50、1.98、4.00、1.82、3.12,均小于聚類前的8.64,減少了聚類后數據在每組數據中的極端分布。在圖5中,每組數據波動平穩(wěn),沒有明顯的離群值。
MCD-ESN模型用于分析每個簇中的序列長度。為了保證誤差評估的有效性,在每個簇中選取前80%的數據進行模型訓練,后20%的數據用于模型預測性能分析。表6展示了每個簇的誤差評估指標。
當樣本數大于1000時,數據量對預測的影響很小,如C1、C3、C5、C6和C7中的樣本數。但是,當樣本數小于1000時,模型的預測效果大大降低,這表明ESN網絡的預測效果對低樣本數(如C2和C4)更為敏感。當聚類后樣本數較少時,可以通過增加原序列中的樣本數解決。
3.3.3. 預測精度與分析
在本文中,提供了另外6個預測模型作為對比模型,以考察所提出模型的預測性能。此外,為了考察該模型的多步預測性能,所有涉及的模型都進行了一步到三步預測。由于ESN算法的特點,必須遺忘一定數量的輸出結果[38]。為了避免預測精度波動,本文對3次重復實驗的結果求平均。
本文用平均絕對百分比誤差(MAPE)、平均絕對誤差(MAE)、均方根誤差(RMSE)、誤差標準差(SDE)、皮爾遜相關系數(R)和一致性指數(IA)分析預測模型的實驗結果。D1、D2和D3模型的指標值如表7所示。從表7可以看出,這3個數據集反映了相同的模型性能。為了使論文的篇幅保持在合理的范圍內,只選擇D1進行具體分析。圖6顯示了D1的PM2.5濃度預測結果。表8給出了S1、S2和T1~T4的6個預測模型的R和IA結果。圖7給出了S1和S2的6個預測模型的MAPE、MAE、RMSE和SDE結果。圖8給出了T1和T2的6個預測模型的MAPE、MAE、RMSE和SDE結果。圖9給出了T3和T4的6個預測模型的MAPE、MAE、RMSE和SDE結果。需要注意的是,由于R和IA的值與其他4個評價指標不屬于同一維度,所以沒有以圖表的形式顯示。
圖4. 不同k值的SSE和SC指標。
圖5.(a)PM2.5濃度序列的KC聚類結果;(b)PM2.5和SO2濃度序列的KC聚類結果;(c)PM2.5和O3濃度序列的KC聚類結果。
表5 數據集D1的各簇數據的統(tǒng)計描述
表6 數據集D1各簇PM2.5濃度的MCD-ESN模型預測誤差指標
表7 數據集D1、D2和D3的PM2.5濃度預測誤差指標
在表7、表8和圖6至圖9中,本文所提出的模型具有最小的誤差評估指標,實現(xiàn)了對PM2.5濃度的準確預測。與其他6種對比模型相比,本文所提出的模型具有更高的多步預測精度,證明了混合模型的有效性。
ESN-PSO模型的預測精度優(yōu)于ESN模型,說明粒子群算法選擇的最優(yōu)參數有助于提高ESN模型的預測精度。EWT-ESN-PSO模型的預測精度優(yōu)于ESN-PSO模型,說明加入EWT分解算法可以提高模型的預測精度。EWT算法得到的序列更平穩(wěn),隨機性更小。因此,將分解后的子層作為模型輸入,可以獲得更優(yōu)的預測結果。RSAR-KC-ESN模型的預測精度優(yōu)于ESN模型,說明RSAR-KC算法可以提高模型的預測精度。聚類后,不同簇之間的差異較大,相同簇之間的相似度較高,可以提高模型的預測精度。
此外,在表7和圖6至圖9中,每個預測模型的精度都隨著步數的增加而降低。隨著預測步長的增加,誤差累積愈發(fā)嚴重,導致預測精度下降。
空氣質量從優(yōu)開始排序,依次為長沙(D3)、廣州(D2)和北京(D1)。表7和圖6中的預測精度與此順序一致。此外,圖7中的數據表明,同一地區(qū)不同污染水平的樣本對模型精度沒有影響。S1的PM2.5濃度小于S2,但S2的預測精度高于S1。因此可以得出結論,在空氣質量較好的城市,該模型的預測精度要好于污染嚴重的城市。
圖6. 數據集D1的PM2.5濃度超前多步預測結果。
表8 數據集S1、S2和T1~T4的PM2.5濃度預測R值和IA值
圖7. 數據集S1(a)和數據集S2(b)的PM2.5濃度預測誤差。
在上述分析中,表7和表8以及圖6和圖7驗證了同一時間段內不同城市的數據預測的有效性。為了驗證同一城市不同時間段內預測的有效性,進行了圖8和圖 9所示的實驗。根據圖8和圖9中的數據,本文所提出的模型隨著時間段的變化保持了穩(wěn)定的預測效果,驗證了所提出模型在全年的穩(wěn)定性和有效性。
在本文中,所有的計算均在仿真條件(Intel i5-6500 CPU 3.2 GHz,RAM 8 GB)下進行。表9給出了D1中對比模型的計算時間。由于所提出模型的RSAR-KC算法和PSO算法都是離線處理,因此無法與對比模型比較計算時間。
圖8. 數據集T1(a)和數據集T2(b)的PM2.5濃度預測誤差。
圖9. 數據集T3(a)和數據集T4(b)的PM2.5濃度預測誤差。
表9 數據集D1的對比模型計算時間
由于ESN網絡本身的優(yōu)勢,ESN的計算速度比LSTM快得多。由于儲備池的存在,在ESN網絡的訓練過程中只需要訓練輸出權值,這大大提高了計算速度。
加入EWT分解算法后,模型的計算速度有一定程度的降低。由于每個分解層都需要訓練和預測,所以原始模型的計算速度在這里起著至關重要的作用,這進一步體現(xiàn)了ESN的優(yōu)越性。
預測步長的改變對模型的計算速度影響不大,這可能是因為算法模型的計算量比較大。
本文基于MCD方法和粒子群算法,建立了改進的混合ESN預測模型,對PM2.5的每小時平均濃度進行了預測和分析。將提出的混合模型與幾種基準模型進行了比較,驗證了該模型的有效性。屬性約簡結果表明,SO2和O3濃度在PM2.5濃度預測中起著重要作用。PM2.5濃度數據經過聚類處理后更加平穩(wěn),有利于ESN訓練。預測結果表明:①MCD方法可以提高模型的精度;②所提出的混合模型比其他深度學習模型或單一模型具有更好的預測精度;③所提出的混合模型在我國4個城市的PM2.5污染物濃度數據上取得了較好的實驗結果;④所提出的混合PM2.5預測框架可以應用于其他空氣污染時間序列的多步預測。預測結果可以嵌入城市空氣污染管理預警系統(tǒng)中。
本文的主要貢獻如下:
(1)提出了一種基于MCD、ESN和PSO的PM2.5濃度多步預測模型,該模型對PM2.5每小時平均濃度具有較高的預測精度。多步預測結果可用于PM2.5污染預警系統(tǒng)的開發(fā)。
(2)提出了一種新的混合PM2.5濃度預測分解方法,即MCD,該方法將特征提取與分解相結合。利用RSAR算法的特征提取結果進行多維KC聚類,既保證了聚類結果的有效性,又考慮了多維特征的影響。首先采用基于EWT算法的KC算法進行數據預處理。然后根據不同的PM2.5濃度場景,采用聚類算法對原始PM2.5濃度進行分組。最后結合EWT分解算法,對原始PM2.5濃度數據在時間尺度上的不同特征進行判別。
(3)采用ESN作為預測器。ESN模型中神經元的稀疏連接提高了神經網絡模型的收斂性,增強了模型的泛化能力,避免了模型訓練過程中的過擬合。此外,ESN在計算過程中具有良好的實時性。
致謝
本研究得到國家自然科學基金面上項目(61873283)、長沙市首屆杰出創(chuàng)新青年培養(yǎng)計劃(KQ1707017)和中南大學2019年度創(chuàng)新驅動計劃(2019CX005)的資助。
Compliance with ethics guidelines
Hui Liu, Zhihao Long, Zhu Duan, and Huipeng Shi declare that they have no conflict of interest or financial confl icts to disclose.