劉穎 陳旭東 周覓 鄭乃瑞 陳元櫞
(1.西南交通大學 地球科學與環(huán)境工程學院,成都 610031;2.重慶工商大學 計算機科學與信息工程學院,重慶 400067;3.重慶高新區(qū)飛馬創(chuàng)新研究院,重慶 400051)
大范圍、長時間、高濃度空氣污染頻發(fā),嚴重影響人們生產生活及身體健康。定量描述空氣質量狀況對于地區(qū)空氣污染預防及制定相應對策意義重大。目前空氣質量預測模型可分為機理模型和統計模型2類[1]。機理模型即通過對大氣污染形成的機理,污染物的傳輸和擴散過程進行建模,代表性模型有社區(qū)多尺度空氣質量模型(CMAQ)[2-3]、嵌套網格空氣質量預報模式系統(NAQPMS)[4]、區(qū)域性氣象和化學預報模型(WRF-Chem)[5]。但由于其機理復雜,建模難度大,且排放源、氣象場和理化過程參數具有不確定性,預測精度難以提升[6-7]。統計模型通過對歷史數據的學習與分析,挖掘數據內在特征,得到污染物濃度變化規(guī)律,并基于當前的狀態(tài)對未來給出比較合理的預測[8]。統計模型不用考慮復雜的物理化學過程,建模過程相對簡單,受到許多研究者的關注。
常見的AQI統計預測模型有多元回歸模型,時間序列模型,神經網絡模型等。非神經網絡模型需要做出假設分析,在眾多特征因子與預測結果中挖掘相應的數學關系,有一定的主觀性;神經網絡模型能夠像人腦一樣自動學習相關的特征,建立相應的預測模型,但現有研究大多沒有考慮時序特征。隨著深度學習成為機器學習的新方向,循環(huán)神經網絡因其在時序數據分析中具有更強的適應性,開始應用于空氣質量的預測,其中應用最廣泛的是長短期記憶神經網絡(LSTM,Long-Short Term Memory)。
但是上述基于LSTM的空氣質量預測模型僅考慮了污染物歷史濃度來預測空氣質量,忽略了氣象條件對污染物傳遞、擴散的影響。所以本研究根據歷史氣象要素和歷史AQI指數,提出了一種基于時間多步長的多維LSTM網絡模型。
研究采集2017年1月1日至2020年11月30日重慶市空氣質量指數和空氣污染物濃度與氣象要素數據,共15個輸入變量(SO2、NO2、PM10、PM2.5、O3、CO氣溫、相對濕度、風力等級、風速、氣壓、能見度、降水量、平均總云量)。
1.2.1 LSTM簡介
LSTM是一種改進的時間RNN,關鍵是細胞狀態(tài),將信息從上一個單元傳遞到下一個單元,通過“門”來控制丟棄或增加信息,從而實現遺忘或記憶的功能,如圖1。
這3個門分別為遺忘門、輸入門和輸出門:
1)遺忘門:
2)輸入門:
式(2)是input gate layer的輸入,式(3)是tanh層向量生成,式(4)是將前兩部分信息結合起來對cell狀態(tài)的更新。
3)輸出門:
式(5)是過濾后的信息,式(6)是tanh層處理。
1.2.2 基于多步長的多維LSTM模型建立
將2017年1月1日至2019年12月31日數據作為訓練集,2020年1月1日至2020年11月30日數據作為測試集S。
式中,xti為輸入數據,表示前i個時刻的氣象要素數據和AQI指數,yt為預測輸出數據研究日的AQI指數。
式中,yi為AQI實測值,為AQI預測值,m為預測樣本數量。
1.2.3 模型訓練調參步驟
基于時間多步長的多維LSTM模型的訓練調參步驟如下(基于keras Tensorflow框架的python實現):
1)根據特征變量與AQI指數相關性分析結果,篩選出最重要的特征變量作為輸入,訓練多維LSTM模型。
2)用MinMaxScaler函數將數據樣本歸一化。
3)設置LSTM網絡基本結構,首先采用單層的隱藏層,設置hidden_size=30,采用keras框架默認的初始化學習率learning rate=0.01,設置迭代次數Epoch=200,batch_size=16。
4)在步驟2)設置的基本網絡結構上進行訓練,使用網格調參方式確定learning rate、hiden_size、hiden_layer、dropout的最優(yōu)參數組合。
5)在步驟4)的基礎上,調整預測所用的時間步長,設置time_step分別為(2,3,4,5,6,7,8,9,10),訓練并預測,觀察輸出值收斂曲線和預測結果反歸一化后的loss。確定最優(yōu)的時間步長數(時間步長的取值表示為提前幾日的氣候要素和空氣污染物濃度)。
重慶市2017年1月1日至2020年11月30日各空氣污染物濃度、氣象要素和空氣質量指數AQI的時間序列變化趨勢見圖2。由圖可見,AQI指數呈現出較強的季節(jié)性。AQI指數除與臭氧這一特征變量物無明顯規(guī)律外,與其他5項空氣污染物濃度的走勢呈現較強的一致性,尤其與PM10和PM2.5的變化曲線高度重合。AQI指數除與氣壓變化規(guī)律相似外,AQI指數與其他7項氣候要素均負相關,尤其與能見度和降水量負相關性較強。
為進一步定量分析氣候要素和空氣污染物濃度指數特征變量對AQI指數的影響,研究計算了AQI與各特征變量的pearson相關系數,如圖3所示。AQI指數與6項空氣污染物濃度都呈現出正相關性,大小排序為PM10>PM2.5>CO>SO2>NO2>O3;AQI指數除與氣壓呈現出非常弱的正相關性以外,與其他7項要素均呈現出較強負相關性,其排序為能見度>總降水量>平均溫度>濕度>風級>風速>平均總云量。
根據相關性分析,采用多維LSTM網絡基本架構篩選對AQI指數預測精度最高的特征變量,不同變量輸入的模型精度如表1所示??梢姴捎肞M10、PM2.5、能見度、總降水量、濕度、平均溫度和歷史AQI作為特征變量來構建多維多步長LSTM網絡來進行空氣質量指數AQI的預測精度最高。
表1 不同輸入變量模型的精度對比
當設置LSTM網絡為單層隱含層、隱含層神經單元數為50,學習率learning rate=0.000 1時達到較好收斂曲線。在此基礎上設置時間步長訓練模型,預測精度如表2所示。
表2 模型預測精度評價
從表2分析可知,當time_step=7,模型的預測效果達到最優(yōu),RMSE=12.206 0,MAE=9.403 0。模型訓練與測試曲線如圖4所示,當訓練到150 Epoch后無論是訓練集數據還是測試集數據其損失曲線收斂到區(qū)域平穩(wěn),訓練數據順利穩(wěn)定在0.061 1左右,測試集數據損失穩(wěn)定在0.046 7左右。此時,AQI預測值與真實值對比如圖5。
不同模型預測的誤差分析如表3所示,顯然多維多步長LSTM網絡空氣質量指數AQI預測模型具有較好的預測結果。通過特征變量相關性分析,篩選出對AQI指數有重要影響的特征變量作為輸入,減少了模型輸入變量個數,同時提高了空氣質量指數AQI的預測精度。
表3 各類模型預測精度對比
1)AQI與氣候要素、空氣污染物濃度等特征變量直接呈現出且表現出較強的相關性、時序性。通過pearson相關性分析篩選出對AQI有重要影響的輸入變量,減少了模型復雜度,提高了模型預測精度。
2)通過與其他預測模型實驗對比,且對多維多步長LSTM網絡不同時間步長輸入變量預測精度進行實驗對比分析可知,基于多維多步長LSTM網絡的AQI指數預測模型能根據歷史氣象要素和歷史空氣污染物濃度預測研究日AQI,預測精度更高,擬合效果更好。