李艷萍,趙曉宇
(鄂爾多斯應(yīng)用技術(shù)學(xué)院信息工程系,內(nèi)蒙古 鄂爾多斯017000)
當(dāng)今時代,隨著人類社會經(jīng)濟的快速發(fā)展,環(huán)境問題逐漸引起人們的重視和關(guān)注。每到冬季,北方不少城市的空氣污染比較嚴(yán)重。為了進一步了解空氣變化趨勢并了解空氣質(zhì)量的污染情況,需要及時、準(zhǔn)確地對空氣質(zhì)量指數(shù)(AQI)進行預(yù)測。當(dāng)預(yù)測即將出現(xiàn)重污染天氣時,果斷采取應(yīng)對措施,如減少污染物排放。因此,科學(xué)、準(zhǔn)確地預(yù)測空氣質(zhì)量變化,并且有效地對空氣質(zhì)量進行評估,對改善空氣污染狀況,促進城市環(huán)境建設(shè)工作以及引導(dǎo)人們生產(chǎn)生活方式具有重要的指導(dǎo)意義。作為空氣質(zhì)量的評價指標(biāo),AQI 是根據(jù)環(huán)境質(zhì)量標(biāo)準(zhǔn)和各項污染物對人體健康、生態(tài)、環(huán)境的影響而將常規(guī)監(jiān)測的幾種空氣污染物濃度合在一起的數(shù)值評估指標(biāo),所以AQI 可以很直觀地反映空氣受污染程度[1-3]。因此,建立精確度較高的模型來預(yù)測未來的空氣質(zhì)量指數(shù),可以為空氣污染的防治和空氣質(zhì)量的提高提供良好的理論指導(dǎo)。
目前空氣質(zhì)量模型的研究主要有機理模型和數(shù)據(jù)模型兩類。機理模型需要根據(jù)復(fù)雜的物理化學(xué)過程和外部氣象條件及污染源排放等來建立預(yù)測模型[3],而數(shù)據(jù)模型不需要復(fù)雜的機理推導(dǎo),它只需歷史的污染物數(shù)據(jù),通過數(shù)據(jù)驅(qū)動的方法建立預(yù)測模型?,F(xiàn)在的大數(shù)據(jù)時代可為基于數(shù)據(jù)的建模方法提供海量數(shù)據(jù),搭建模型較為方便。通過查閱相關(guān)文獻,非機理模型的數(shù)據(jù)驅(qū)動模型預(yù)測方法使用得最為廣泛。在基于數(shù)據(jù)的機器學(xué)習(xí)算法中,神經(jīng)網(wǎng)絡(luò)模型在研究空氣質(zhì)量預(yù)測方面的預(yù)測效果較好[4-5]。人工智能(AI)中的機器學(xué)習(xí)(ML)是目前最流行的實現(xiàn)方法,而深度學(xué)習(xí)(DL)則是機器學(xué)習(xí)(ML)的一個分支,也是當(dāng)下最流行的機器學(xué)習(xí)(ML)的一種[6]。隨著深度學(xué)習(xí)理論的迅速發(fā)展,由于空氣質(zhì)量監(jiān)測數(shù)據(jù)屬于時序數(shù)據(jù),通過查閱相關(guān)文獻[7-9],LSTM 在時序預(yù)測方面得到了廣泛的使用,并且都取得了很好的預(yù)測效果。因此,本文提出了一種基于LSTM 的時間序列模型來預(yù)測空氣質(zhì)量的AQI 指數(shù)的方法。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)常用來處理序列數(shù)據(jù),但是RNN對于長序列處理會出現(xiàn)“記憶丟失”的缺點,從而產(chǎn)生梯度消失和梯度爆炸的問題。LSTM 是在克服了RNN 這一缺點的基礎(chǔ)上形成的一種RNN 變形結(jié)構(gòu),通過在LSTM 內(nèi)部結(jié)構(gòu)中引入門控機制,通過“門”(gate)來控制丟棄或者保留信息,使得時間序列上的記憶信息可控,從而實現(xiàn)遺忘或記憶的功能[10],一定程度上克服了這一問題。LSTM 的實質(zhì)是上一時刻隱含層的狀態(tài)參與到了這個時刻的計算過程中,因此LSTM 對于時間上有依賴的時序數(shù)據(jù)有著優(yōu)秀的預(yù)測能力,可以用來建立AQI 指數(shù)預(yù)測模型。
本文采用基于Keras 的深度學(xué)習(xí)框架,利用Python3.7編程語言來建立LSTM 的空氣質(zhì)量預(yù)測模型。Keras 是一個由Python 編寫的開源人工神經(jīng)網(wǎng)絡(luò)庫,是由純Python 編寫的基于theano/tensorflow 的深度學(xué)習(xí)框架,可以作為Tensorflow、Microsoft-CNTK 和Theano 的高階應(yīng)用程序接口,進行深度學(xué)習(xí)模型的設(shè)計、調(diào)試、評估、應(yīng)用和可視化[11]。預(yù)測模型用Python 實現(xiàn),非常易于調(diào)試和擴展,可讀性較好。
本文數(shù)據(jù)是中國空氣質(zhì)量在線監(jiān)測分析平臺歷史數(shù)據(jù)庫中的歷史數(shù)據(jù),以鄂爾多斯市2014-01-01—2019-12-31 的空氣污染物監(jiān)測數(shù)據(jù)為基礎(chǔ),采樣頻率為一天一次,總共包含2 192 組數(shù)據(jù),每日的數(shù)據(jù)包括PM2.5、PM10、SO2、CO、NO2、O3、AQI 指數(shù)7 個參數(shù)指標(biāo)。
由于空氣污染指數(shù)AQI 是評估空氣質(zhì)量的重要指標(biāo),因此,本文所建預(yù)測模型的輸入量為PM2.5、PM10、SO2、CO、NO2、O3這6 個參數(shù)和當(dāng)前時刻的AQI 指數(shù),指標(biāo)的單位均為μg/m3,輸出量為AQI 指數(shù)。輸入輸出變量的變化趨勢如圖1 所示。由圖1 可知,AQI 指數(shù)和PM2.5、PM10、SO2、CO、NO2這5 個指標(biāo)變化趨勢大致相同,但是和O3指標(biāo)的變化趨勢相反。因此,可以直觀地找到影響空氣質(zhì)量好壞的因素,可供政府和環(huán)保相關(guān)部門制訂相關(guān)政策時作為參考依據(jù)。
圖1 輸入輸出變量趨勢圖
由于各類數(shù)據(jù)具有量綱和性質(zhì)不同的特點,為避免因為輸入輸出數(shù)據(jù)量綱差別比較大而出現(xiàn)模型訓(xùn)練速度較慢、訓(xùn)練誤差較大的情形,本文采用Min-MAX 方法對輸入輸出數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)特征縮小到[0,1]之間,經(jīng)過歸一化的數(shù)據(jù)在尋找最優(yōu)解時速度最快。
將2 192 組數(shù)據(jù)劃分為1 972 組為訓(xùn)練集,220 組為測試集,建立基于Kears 框架的LSTM 空氣質(zhì)量預(yù)測模型。輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理之后送入LSTM 神經(jīng)網(wǎng)絡(luò)進行處理,經(jīng)過多次迭代之后得到LSTM 神經(jīng)網(wǎng)絡(luò)AQI 預(yù)測模型。
在訓(xùn)練LSTM 模型時,由于Adam 算法可以動態(tài)調(diào)整每個輸入?yún)?shù)的學(xué)習(xí)速率,因此優(yōu)化器采用Adam 優(yōu)化算法,采用均方誤差mse 最小化為損失函數(shù)的優(yōu)化目標(biāo),訓(xùn)練模型的迭代次數(shù)設(shè)為50,學(xué)習(xí)率設(shè)為0.01。最后模型經(jīng)過LSTM神經(jīng)網(wǎng)絡(luò)充分訓(xùn)練后,最終得到的預(yù)測值(深灰色線)與真實值(淺灰色線)對比如圖2 所示。
圖2 AQI 指標(biāo)預(yù)測圖
LSTM 訓(xùn)練誤差如圖3 所示。由圖3 可知,LSTM 對于時序數(shù)據(jù)具有優(yōu)秀的擬合能力,可以較準(zhǔn)確地預(yù)測AQI 指數(shù)。模型在訓(xùn)練時產(chǎn)生的均方根誤差RMSE 為4.18,測試時產(chǎn)生的均方根誤差RMSE 為3.45。預(yù)測模型的訓(xùn)練誤差和測試誤差經(jīng)過20 次迭代之后基本在0.001 左右趨于穩(wěn)定。
圖3 LSTM 訓(xùn)練誤差圖
從仿真結(jié)果可知,LSTM 模型訓(xùn)練的均方根誤差RMSE為4.18,LSTM 的空氣質(zhì)量預(yù)測模型具有自動挖掘各個輸入信息的內(nèi)在規(guī)律特征的優(yōu)點,根據(jù)上一時刻神經(jīng)網(wǎng)絡(luò)的輸出和記憶單元的狀態(tài)信息以及當(dāng)前時刻的輸入,三者共同決定當(dāng)前時刻記憶單元狀態(tài)信息的更新,因此LSTM 神經(jīng)網(wǎng)絡(luò)對于AQI 指數(shù)這樣的時序數(shù)據(jù)有著更強的學(xué)習(xí)能力,此外LSTM 還可以避免RNN 在訓(xùn)練過程中出現(xiàn)梯度消失和梯度爆炸的問題。因此,基于LSTM 的神經(jīng)網(wǎng)絡(luò)可以對時序數(shù)據(jù)建立最優(yōu)的模型。
本文采用LSTM 神經(jīng)網(wǎng)絡(luò)對空氣質(zhì)量進行建模預(yù)測。采用空氣質(zhì)量在線監(jiān)測分析平臺歷史數(shù)據(jù)庫有關(guān)指標(biāo)參數(shù),形成時間序列樣本集,通過構(gòu)建基于Kears 的LSTM 時間循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測模型,用于預(yù)測AQI 指數(shù)。LSTM 神經(jīng)網(wǎng)絡(luò)模型能夠深入挖掘并記憶輸入樣本參數(shù)自身變化與AQI 指數(shù)的相互關(guān)系,使學(xué)習(xí)更加充分,預(yù)測精度更加準(zhǔn)確。預(yù)測模型所得結(jié)果不僅能夠幫助人們?nèi)嬲莆账诘貐^(qū)空氣污染源的排放情況,還可以幫助人們及時掌握影響城市空氣質(zhì)量的因素,為空氣質(zhì)量的監(jiān)測、預(yù)警與調(diào)控提供科學(xué)依據(jù)。因此,該模型的建立對城市整體的規(guī)劃與建設(shè)、環(huán)境的污染控制管理等有著重要的理論意義與一定的參考價值。