史江振 竇燕
摘要隨著社會(huì)的發(fā)展和公眾環(huán)保意識(shí)的增強(qiáng),空氣質(zhì)量日益成為公眾關(guān)注的問題。預(yù)測(cè)未來空氣質(zhì)量情況,有利于提前采取污染防治措施和居民活動(dòng)選擇。以污染物因素和氣象因素作為空氣質(zhì)量指數(shù)預(yù)測(cè)指標(biāo),建立基于Stacking融合的預(yù)測(cè)模型,利用新疆烏魯木齊市2016年1月至2021年12月的空氣污染物監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù),對(duì)烏魯木齊市空氣質(zhì)量情況進(jìn)行了預(yù)報(bào),并與其他算法進(jìn)行了對(duì)比。研究結(jié)果表明:Stacking融合模型在AQI數(shù)值預(yù)測(cè)方面的性能優(yōu)于其他對(duì)比模型,具有良好的預(yù)測(cè)效果。
關(guān)鍵詞 空氣質(zhì)量預(yù)測(cè);Stacking融合模型;空氣質(zhì)量指數(shù)
中圖分類號(hào):X51 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):2095–3305(2023)04–0125-04
隨著工業(yè)和制造業(yè)的發(fā)展、車輛保有量的增加,以及城市化的發(fā)展,大氣環(huán)境問題愈加突出[1]。大氣污染物的濃度對(duì)大氣環(huán)境質(zhì)量有很大的影響,尤其是PM2.5、PM10等,它們直接影響能見度,會(huì)對(duì)吸入者的心血管系統(tǒng)產(chǎn)生不良影響。因此,如何提高空氣質(zhì)量預(yù)測(cè)的準(zhǔn)確性引起了眾多學(xué)者的關(guān)注。選擇空氣質(zhì)量指數(shù)(AQI)作為大氣污染預(yù)報(bào)的對(duì)象。AQI的變化受多種因素的影響,如PM2.5、PM10、SO2、CO、NO2、O3、溫度、氣壓、濕度、可見度、露點(diǎn)等。
目前,空氣質(zhì)量預(yù)測(cè)法主要有潛式預(yù)報(bào)、數(shù)值預(yù)報(bào)、統(tǒng)計(jì)預(yù)報(bào)3類[2]。主要被應(yīng)用于數(shù)值預(yù)報(bào),污染天氣的出現(xiàn)是多種因素綜合作用的結(jié)果,研究表明,污染天氣與細(xì)微顆粒物濃度存在一定的關(guān)系[3]。楊思琪等[4]將隨機(jī)森林分類和回歸算法應(yīng)用于預(yù)測(cè)城市空氣質(zhì)量狀況的研究,發(fā)現(xiàn)隨機(jī)森林算法在AQI等級(jí)和AQI數(shù)值的預(yù)測(cè)方面,表現(xiàn)出了較好的性能。肖德林等[5]采用CMAQ模型進(jìn)行預(yù)測(cè),發(fā)現(xiàn)對(duì)PM2.5濃度、主要污染物和空氣質(zhì)量等級(jí)的預(yù)測(cè)準(zhǔn)確率低于人工預(yù)測(cè),對(duì)AQI的預(yù)測(cè)準(zhǔn)確率高于人工預(yù)測(cè)。鄭紅等[6]提出一種聯(lián)合訓(xùn)練模型MLP&ST模型模擬對(duì)北京市未監(jiān)測(cè)區(qū)域未來時(shí)刻的AQI值進(jìn)行預(yù)測(cè),綜合考慮氣象因素和時(shí)空相關(guān)性對(duì)空氣質(zhì)量的影響。萬永權(quán)等[7]考慮到氣象因素對(duì)污染物濃度變化的巨大影響,提出了一種神經(jīng)網(wǎng)絡(luò)模型two-phase neural network(2-NN),該模型在短期內(nèi)對(duì)空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)時(shí)比傳統(tǒng)方法的準(zhǔn)確率更高。張春露[8]應(yīng)用LSTM時(shí)間序列模型對(duì)太原市空氣質(zhì)量AQI指數(shù)進(jìn)行預(yù)測(cè),該模型具有精度高、預(yù)測(cè)時(shí)間長(zhǎng)、適應(yīng)性強(qiáng)等優(yōu)點(diǎn),能夠完全逼近非線性映射。史學(xué)良等[9]提出了改良后的EEMD-LSTM預(yù)測(cè)模型,與以往的模型相比,其具有更強(qiáng)的泛化能力和更高的預(yù)測(cè)精度。方偉等[10]提出了基于時(shí)空相似LSTM的空氣質(zhì)量預(yù)測(cè)模型,通過結(jié)合STS-LSTM模型,可以得出更穩(wěn)定的最終空氣質(zhì)量預(yù)測(cè)結(jié)果。楊張婧等[11]提出了時(shí)空特性空氣質(zhì)量預(yù)測(cè)算法,以LSTM-CNN混合模型在開放數(shù)據(jù)集中得到了更好的預(yù)測(cè)結(jié)果。有學(xué)者研究了LSTM-RNN模型在空氣質(zhì)量預(yù)測(cè)任務(wù)中的性能,并設(shè)計(jì)了低成本的傳感器節(jié)點(diǎn),以形成監(jiān)測(cè)空氣質(zhì)量的無線傳感器網(wǎng)絡(luò)。
此處建立了一種基于Stacking融合模型的空氣質(zhì)量預(yù)測(cè)方法,將GBDT、Lasso和XGBoost作為基學(xué)習(xí)器,將線性回歸Linear Regression作為元學(xué)習(xí)器構(gòu)建Stacking預(yù)測(cè)模型。該算法考慮了不同模型的差異,并結(jié)合了不同算法的優(yōu)點(diǎn),通過種異質(zhì)算法的融合,取長(zhǎng)補(bǔ)短,而且通過采用交叉驗(yàn)證的方法,可以避免數(shù)據(jù)泄露,增強(qiáng)預(yù)測(cè)效果,實(shí)現(xiàn)比單一模型更強(qiáng)的預(yù)測(cè)性能。
1 算法介紹
1.1 Stacking算法
Stacking模型本質(zhì)上是一種分層結(jié)構(gòu),個(gè)體學(xué)習(xí)器被稱為初級(jí)學(xué)習(xí)器,組合的學(xué)習(xí)器被稱為次級(jí)學(xué)習(xí)器或元學(xué)習(xí)器,次級(jí)學(xué)習(xí)器用于訓(xùn)練的數(shù)據(jù)被稱為次級(jí)訓(xùn)練集。二次訓(xùn)練集在訓(xùn)練集上用一次學(xué)習(xí)器得到。通過將不同的算法融合,達(dá)到比組成它的基算法具有更高的準(zhǔn)確率和更強(qiáng)的泛化能力[12]。其主要算法步驟如下:
第一步,為輸入訓(xùn)練集、初級(jí)學(xué)習(xí)算法和次級(jí)學(xué)習(xí)算法。
第二步,為訓(xùn)練初級(jí)學(xué)習(xí)器,使用訓(xùn)練過的初級(jí)學(xué)習(xí)器進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果作為次級(jí)學(xué)習(xí)器的訓(xùn)練集。
第三步,為將初級(jí)學(xué)習(xí)器預(yù)測(cè)的結(jié)果訓(xùn)練到次級(jí)學(xué)習(xí)器,得到最終訓(xùn)練的模型。
1.2 XGBoost
XGBoost是一個(gè)提升樹可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)[15]。XGBoost的核心算法思想大致如下:
第一步,添加樹,重復(fù)特征分裂使一棵樹生成,每次添加樹意味著學(xué)習(xí)新的函數(shù)f(x),以便與前次預(yù)測(cè)的殘差擬合。
第二步,模型完成訓(xùn)練后,XGBoost模型由k個(gè)樹模型組成,要預(yù)測(cè)1個(gè)樣本的特征,這是指根據(jù)樣本的輸入特征,在每棵樹中都必須找到1個(gè)對(duì)應(yīng)的葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)1個(gè)值。
第三步,將k棵樹對(duì)應(yīng)葉子節(jié)點(diǎn)的值加起來得出模型的輸出值,即樣本某個(gè)特征的預(yù)測(cè)值。
1.3 Lasso算法
使用L1正則化的模型被稱為L(zhǎng)asso回歸,是一種客觀選取有效變量,解決多重共線性等問題的估計(jì)方法。為了使回歸模型的殘差平方和最小,對(duì)回歸系數(shù)的絕對(duì)值的和施加懲罰項(xiàng)。對(duì)等于零的回歸系數(shù)進(jìn)行篩選。回歸的核心是在普通線性回歸的基礎(chǔ)上添加L1懲罰項(xiàng)。
其中,t與λ一一對(duì)應(yīng),為調(diào)節(jié)系數(shù)。
令t0=(OLS),當(dāng)t<t0時(shí),一些參數(shù)值被壓縮為0,自動(dòng)篩除,使線性回歸模型的參數(shù)維度減小。
1.4 GBDT算法
GBDT (Gradient Boosting Decision Tree)是機(jī)器學(xué)習(xí)中成熟的模型,它的優(yōu)點(diǎn)是訓(xùn)練效果好,不易過擬合等。為了得到最佳模型,需要用弱分類器(決策樹)反復(fù)訓(xùn)練。實(shí)現(xiàn)GBDT算法的框架是Light GBM,支持高效的并行訓(xùn)練、更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的精度,支持分布式快速處理、大量數(shù)據(jù)等優(yōu)點(diǎn)。它將弱學(xué)習(xí)器模型以迭代的方式組合成強(qiáng)學(xué)習(xí)器,可以處理稀疏數(shù)據(jù),靈活實(shí)現(xiàn)分布式并行計(jì)算,已經(jīng)被廣泛應(yīng)用于分類、回歸預(yù)測(cè)等機(jī)器學(xué)習(xí)問題。
2 實(shí)例分析
2.1 數(shù)據(jù)獲取
所用數(shù)據(jù)為2016年1月1日至2021年12月31日烏魯木齊市6項(xiàng)污染物監(jiān)測(cè)數(shù)據(jù)和氣象數(shù)據(jù),空氣質(zhì)量指數(shù)和污染物濃度數(shù)據(jù)來源于中國(guó)環(huán)境總站全國(guó)城市空氣質(zhì)量實(shí)時(shí)監(jiān)測(cè)平臺(tái)(http://www.aqistudy.cn/),該平臺(tái)數(shù)據(jù)均來自國(guó)家環(huán)境保護(hù)部,污染物數(shù)據(jù)選取PM10、PM2.5、SO2、NO2、O3、CO日平均濃度。氣象數(shù)據(jù)來源于RP5國(guó)際交換氣象站(rp5.ru),實(shí)際天氣數(shù)據(jù)由地面氣象站通過氣象數(shù)據(jù)國(guó)際自由交換系統(tǒng)提供,包括溫度、大氣壓、濕度、風(fēng)速、可見度、露點(diǎn)等指標(biāo)。
2.2 數(shù)據(jù)處理
通常在獲取的數(shù)據(jù)中有缺失和離群值,缺失值會(huì)影響模型預(yù)測(cè)的準(zhǔn)確性,因此,訓(xùn)練之前要對(duì)所收集的樣本進(jìn)行預(yù)處理。由于這一時(shí)段前后的污染濃度對(duì)大氣污染的影響較大,而最近鄰插值更能反映出與原始數(shù)據(jù)相近的數(shù)據(jù)抖動(dòng),因此用最近鄰插值處理缺失值。
數(shù)據(jù)歸一化,將不同尺度、數(shù)量級(jí)的資料合并在一起,會(huì)產(chǎn)生很大的誤差,因此,選用一種基于標(biāo)準(zhǔn)差法的歸一化調(diào)整。
其中,u和σ分別為向量x的均值和標(biāo)準(zhǔn)差。
在數(shù)據(jù)集的劃分中,模型要有好的泛化能力,需要在訓(xùn)練過的數(shù)據(jù)集和沒有訓(xùn)練過的數(shù)據(jù)集上同時(shí)得出良好的結(jié)果。因此,將數(shù)據(jù)集分成2個(gè)部分,訓(xùn)練集和測(cè)試集的比例為4∶1。
2.3 主要大氣污染物與氣象條件相關(guān)性分析
采用Pearson相關(guān)系數(shù)法計(jì)算大氣污染物濃度與氣象條件的相關(guān)關(guān)系,公式如下:
分別計(jì)算各個(gè)指標(biāo)間的相關(guān)系數(shù),可看出AQI值與PM10、PM2.5、CO相關(guān)性較大,相關(guān)系數(shù)熱力如圖1所示。
在圖1中,橫縱坐標(biāo)為各個(gè)指標(biāo),顏色代表相關(guān)性,通過對(duì)烏魯木齊市主要污染物濃度實(shí)測(cè)數(shù)據(jù)與氣象因素的相關(guān)性分析,得到結(jié)果如下:在各要素中,PM10、PM2.5、O3、SO2與濕度呈顯著正相關(guān)性;PM10、PM2.5、NO2、SO2、CO與溫度呈負(fù)相關(guān),O3與溫度呈正相關(guān);O3與風(fēng)速呈正相關(guān);PM10、PM2.5、CO、NO2、SO2與氣壓呈顯著正相關(guān)。
2.4 評(píng)價(jià)指標(biāo)
采用以下3個(gè)指標(biāo)評(píng)價(jià)所涉及空氣質(zhì)量預(yù)測(cè)模型的性能,分別是平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)。其中,平均絕對(duì)誤差MAE經(jīng)常被用于對(duì)回歸模型的誤差判斷。回歸模型的預(yù)測(cè)誤差越小,MAE越小,反之則越大。
均方根誤差RMSE是真實(shí)值與預(yù)測(cè)值之差的平方與觀測(cè)次數(shù)比值的平方根,可以很好地表示測(cè)量的精密度。RMSE越小,表示模型精密度越高。
可決系數(shù)R2表示自變量解釋的變異程度占總的變異程度的比例,2越接近1,表示該模型的準(zhǔn)確度越高,2有可能為負(fù)值。
3 結(jié)果及分析
如表2所示,在這3個(gè)模型中,測(cè)試集中衡量指標(biāo)值的大小按照模型的順序排列為:RMSE:Lasso>XGBoost>GBDT>Stacking;MAE:Lasso> XGBoost>GBDT>Stacking;R2:Stacking>GBDT>XGBoost>Lasso;綜合分析可知,與另外幾種算法相比,Stacking模型對(duì)AQI的預(yù)測(cè)效果更好,測(cè)試集上的均方誤差也較為穩(wěn)定,穩(wěn)健性能也更好,在一定程度上體現(xiàn)了算法的優(yōu)勢(shì),所以可考慮將該算法被用于AQI的預(yù)測(cè)。結(jié)合圖2可以發(fā)現(xiàn),Stacking融合模型對(duì)AQI的預(yù)測(cè)近乎與實(shí)際數(shù)據(jù)曲線重合,預(yù)測(cè)十分有效,具有極高的準(zhǔn)確度。
4 結(jié)束語
利用Stacking融合模型預(yù)測(cè)了空氣質(zhì)量指數(shù),在數(shù)據(jù)處理階段,填補(bǔ)了缺失值,并對(duì)數(shù)據(jù)做了歸一化處理,以此減輕奇異樣本數(shù)據(jù)導(dǎo)致的不良影響。然后搭建Stacking融合模型,選擇損失函數(shù)及優(yōu)化器,劃分訓(xùn)練集與測(cè)試集。最后,將歸一化后的烏魯木齊市2016—2021年數(shù)據(jù)輸入搭建好的模型中,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,測(cè)試集被用于最后評(píng)估模型的性能。通過與其他算法作對(duì)比,結(jié)果表明Stacking融合模型在AQI數(shù)值預(yù)測(cè)方面的性能優(yōu)于上述算法,Stacking融合模型充分結(jié)合了基學(xué)習(xí)器的優(yōu)勢(shì)與差異,以不同基學(xué)習(xí)器的優(yōu)勢(shì)提升和彌補(bǔ)其模型的不足,達(dá)到“揚(yáng)長(zhǎng)避短”,可以有效地提高模型的預(yù)測(cè)精度和泛化能力,能為污染預(yù)警、空氣污染治理及公民出行提供一定的支持。
參考文獻(xiàn)
[1] 陳誠(chéng),陳婷.長(zhǎng)江沿線化工企業(yè)拆遷與搬離對(duì)荊州市空氣質(zhì)量的影響[J].公共衛(wèi)生與預(yù)防醫(yī)學(xué),2022,33(2):35-41.
[2] 張美根,韓志偉,雷孝恩.城市空氣污染預(yù)報(bào)方法簡(jiǎn)述[J].氣候與環(huán)境研究, 2001(1):113-118.
[3] 謝潔嵐,廖志恒,許欣祺,等.基于車載雷達(dá)探測(cè)的一次華北冬季重污染天氣成因研究[J].環(huán)境科學(xué)學(xué)報(bào),2023,43(1): 255-263.
[4] 楊思琪,趙麗華.隨機(jī)森林算法在城市空氣質(zhì)量預(yù)測(cè)中的應(yīng)用[J].統(tǒng)計(jì)與決策,2017(20):83-86.
[5] 肖德林,鄧仕槐,鄧小函,等.達(dá)州市城區(qū)環(huán)境空氣質(zhì)量變化趨勢(shì)及CMAQ模型預(yù)報(bào)分析[J].中國(guó)環(huán)境監(jiān)測(cè),2021,37 (4):92-103.
[6] 鄭紅,程云輝,胡陽生,等.基于MLP&ST模型的空氣質(zhì)量預(yù)測(cè)[J].應(yīng)用科學(xué)學(xué)報(bào),2022,40(2):302-315.
[7] 萬永權(quán),徐方勤,燕彩蓉,等.融合氣象參數(shù)及污染物濃度的空氣質(zhì)量預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(8): 113-117.
[8] 張春露.基于Tensorflow的LSTM在太原空氣質(zhì)量AQI指數(shù)中的分析與預(yù)測(cè)[D].太原:中北大學(xué),2019.
[9] 史學(xué)良,李梁,趙清華.基于改進(jìn)LSTM網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2021,37(16):57-60.
[10] 方偉,朱潤(rùn)蘇.基于時(shí)空相似LSTM的空氣質(zhì)量預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用研究,2021,38(9):2640-2645.
[11] 楊張婧,閻威武,王國(guó)良,等.基于大數(shù)據(jù)的城市空氣質(zhì)量時(shí)空預(yù)測(cè)模型[J].控制工程,2020,27(11):1859-1866.
[12] 陸萬榮,許江淳,李玉惠.面向Stacking集成的改進(jìn)分類算法及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(2):281-286.
責(zé)任編輯:黃艷飛
Abstract With the development of society and the improvement of public environmental awareness, air quality has increasingly become a public concern. Predicting the future air quality will help the government to take pollution prevention measures and residents choice of activities in advance. In this paper, pollutant factors and meteorological factors were used as the prediction indicators of air quality index, and a prediction model based on Stacking fusion was established. The air pollution monitoring data and meteorological data of Urumqi from January 2016 to December 2021 are used to forecast the air quality of Urumqi, and compared with other algorithms. The research results show that the Stacking fusion model has better performance in AQI numerical prediction than other comparison models, and has good prediction effect.
Key words Air quality prediction; Stacking fusion model; Air quality index
作者簡(jiǎn)介 史江振(1995—),男,湖北宜昌人,主要從事大數(shù)據(jù)分析研究。*通信作者,竇燕(1981—),女,新疆烏魯木齊人,教授,主要從事資源環(huán)境統(tǒng)計(jì)和大數(shù)據(jù)應(yīng)用研究,E-mail:douyan129@126.com。