王雨軒 周甘凝 許文龍 秦孟晟
收稿日期:2023-11-10
基金項目:江蘇省青年基金項目(KQ202330)。
作者簡介:王雨軒(1993—),男,揚州寶應(yīng)人,助理工程師,主要從事氣溶膠、大氣探測研究。
摘 要:利用揚州市氣象觀測站點和中國環(huán)境監(jiān)測總站的逐小時數(shù)據(jù)估算PM2.5的各相關(guān)組合因子,然后利用CNN卷積神經(jīng)網(wǎng)絡(luò)算法構(gòu)建反演PM2.5質(zhì)量濃度的機器學(xué)習(xí)模型。結(jié)果表明:(1)利用 CNN卷積神經(jīng)網(wǎng)絡(luò)算法反演PM2.5是有效且可行的,且比一般的線性回歸算法效果更佳,為反演PM2.5提供了一種新的機器學(xué)習(xí)方法。(2)在影響PM2.5反演的各輸入變量因子中,PM10與能見度變量為高相關(guān)因子。利用神經(jīng)卷積網(wǎng)絡(luò)算法反演PM2.5理論上反演精度能夠隨著輸入信息增多而不斷提高。
關(guān)鍵詞:CNN卷積神經(jīng)網(wǎng)絡(luò)算法;氣象觀測數(shù)據(jù);PM2.5
中圖分類號:P407.7 文獻標(biāo)識碼:B文章編號:2095–3305(2024)03–0-03
PM2.5是指懸浮在空中的空氣動力學(xué)當(dāng)量直徑≤2.5 μm的細(xì)顆粒物,其嚴(yán)重影響環(huán)境、氣候,危害人體健康,破壞生態(tài)系統(tǒng)[1]。在排放源相對穩(wěn)定的情況下,氣象因素也是污染物形成、傳輸及沉降等環(huán)節(jié)的重要原因[2-3]。因此,從氣象學(xué)的角度分析大氣污染的規(guī)律和機制,有助于為大氣污染防治提供科學(xué)支撐。盡管環(huán)境監(jiān)測站點對近地面PM2.5直接測量的精度較高,但在監(jiān)測點的數(shù)量和分布上的局限性較大,只能反映監(jiān)測站點小范圍內(nèi)PM2.5的變化。因此,有必要利用氣象觀測數(shù)據(jù)對PM2.5乃至其他一些常見的大氣污染物進行模擬反演,繼而能大范圍地揭示常見大氣污染物的時空變化規(guī)律。
氣象要素對PM2.5的形成起著促進或改善作用[4]。魏文靜等[5]對山東省17個地市的研究表明,PM2.5受氣溫和降水的影響較為顯著;黃小剛等[6]研究表明,氣象對PM2.5污染有一定調(diào)節(jié)作用,PM2.5與氣溫、風(fēng)速、濕度和降水量呈線性遞增或遞減關(guān)系。
前人針對PM2.5也開展了多途徑的反演,一般較常用的方法是多元線性回歸法。相關(guān)學(xué)者利用多元線性回歸模型分析2014年APEC和2015年國慶閱兵期間氣象要素對PM2.5的影響;何鈺清等[7]利用多元線性回歸分析法建立了PM2.5月均濃度的預(yù)測模型。但顆粒物濃度的變化與氣象條件之間呈現(xiàn)很強的非線性關(guān)系,因此,傳統(tǒng)的多元線性回歸模型預(yù)測PM2.5質(zhì)量濃度的局限性較大[8]。
近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,已有不少學(xué)者利用神經(jīng)網(wǎng)絡(luò)算法來估算PM2.5。陳兵紅等[9]應(yīng)用多元線性回歸和隨機森林方法反演浙江省PM2.5濃度;石靈芝等[10]運用BP人工神經(jīng)網(wǎng)絡(luò)預(yù)測短期的PM10小時數(shù)據(jù);胡娟等[11]嘗試從遙感的角度利用BP神經(jīng)網(wǎng)絡(luò)算法反演PM2.5;還有學(xué)者基于隨機森林算法的氣象歸一化方法評估了全球11個城市2020年初的PM2.5、O3等濃度的變化情況。機器學(xué)習(xí)基于統(tǒng)計學(xué)原理,理論上只要輸入的信息越多越詳細(xì),神經(jīng)算法的效果就越好。不同于以往傳統(tǒng)的對復(fù)雜的大氣污染的物理化學(xué)過程和衛(wèi)星遙感原理的研究,神經(jīng)網(wǎng)絡(luò)算法為PM2.5的反演提供了新途徑。
1 數(shù)據(jù)來源及算法原理
1.1 數(shù)據(jù)來源
聚焦揚州地區(qū),大氣污染數(shù)據(jù)來源于中國環(huán)境監(jiān)測總站,包括PM2.5和PM10,使用其逐小時數(shù)據(jù)計算日平均值。相應(yīng)的氣象數(shù)據(jù)來源于揚州市氣象局自動觀測站監(jiān)測數(shù)據(jù)。時間段為2018年1月1日—2022年11月30日。其中,2020年2月1日—6月30日數(shù)據(jù)缺失,不在研究范圍內(nèi)。
1.2 算法原理
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)算法
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)
最早由Yann LeCun等提出。CNN 卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積計算且有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)算法代表之一[12]。近年來,隨著機器學(xué)習(xí)方法的不斷發(fā)展,CNN卷積神經(jīng)網(wǎng)絡(luò)算法也逐漸被應(yīng)用于大氣科學(xué)領(lǐng)域。 典型的CNN網(wǎng)絡(luò)結(jié)構(gòu)主要包含輸入層、隱含層和輸出層(圖1)。其中,隱含層主要包含卷積層、池化層和全連接層。數(shù)據(jù)通過輸入層后,依次在各個神經(jīng)網(wǎng)絡(luò)層傳遞,每一網(wǎng)絡(luò)層都能夠獲取對平移、縮放和旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征。隱含層的主要作用是實現(xiàn)特征提取。
1.2.2 多元線性回歸
多元線性回歸模型(MLR)是應(yīng)用較為廣泛的統(tǒng)計方法,可用于研究因變量與多個自變量之間的關(guān)系。建立多元線性回歸模型可較好地解釋以及估計因變量的值,其一般形式為:
Y=β0+β1x1+β2x2+…+βmxm+ε(1)
式(1)中,Y為因變量,x1,x2,…,xm為自變量,β0,
β1,…,βm為回歸系數(shù),ε為隨機誤差。
1.2.3 模型變量選擇及評價指標(biāo)
嘗試建立基于氣象觀測數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)反演PM2.5的模型,輸入氣象觀測數(shù)據(jù),隨機挑選輸入的日數(shù)據(jù)的70%作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練集,30%作為結(jié)果對比集。反演精度評價指標(biāo)包括:
均方根誤差(Root Mean Squared Error,RMSE)。
RMSE=(2)
均方絕對百分比誤差(Mean Absolute Percentage Error,MAPE)。
MAPE=||(3)
決定系數(shù)(Coefficient of Determination,R2)。
(4)
(5)
式(2)~式(5)中,為PM2.5實測值,為多元線性回歸MLR或卷積神經(jīng)網(wǎng)絡(luò)CNN反演得到的PM2.5。
2 結(jié)果與分析
2.1 PM2.5反演模型的建立
輸入?yún)?shù)包括PM10、能見度、溫度系列參數(shù)、氣壓系列參數(shù)、相對濕度系列參數(shù),露點溫度、風(fēng)向風(fēng)速系列參數(shù)、降水量和日照時數(shù)(表1)。利用皮爾遜相關(guān)系數(shù)r估計變量x,y間的相關(guān)性。r值介于[-1,1],r>0表示正相關(guān),即兩變量同向相關(guān),反之表示兩變量異向相關(guān)。r絕對值越接近1,表示兩變量的關(guān)系越密切;越接近0,表示兩變量的關(guān)系越不密切。表1是各變量因子與PM2.5的相關(guān)系數(shù)r和顯著性水平P。該表可以反映出,與PM2.5相關(guān)性較大的變量為PM10、VIS。其中,PM10、P、Pmax、Pmin、U、SSD這6個變量與PM2.5呈正相關(guān)關(guān)系,剩下的10個變量與PM2.5呈負(fù)相關(guān)關(guān)系。還可以發(fā)現(xiàn),除了U、WINDir和SSD,其余變量均在0.01水平(雙側(cè))上相關(guān)性顯著。
2.2 CNN與MLR反演性能對比
基于上述建立的PM2.5反演模型,輸入變量首先采用“試驗5”的變量組合(表3),CNN和MLR的反演結(jié)果對比見表2。其中,按輸入數(shù)據(jù)的年份分為2年期、3年期、4年期和5年期。首先可以整體性地看出,MLR的R2值均小于CNN的R2值,MLR的RMSE和MAPE均大
于CNN的RMSE和MAPE,說明CNN的反演精度要優(yōu)于MLR。然后對2年期的3組數(shù)據(jù)和3年期的2組數(shù)據(jù)取平均。
2年期的3組數(shù)據(jù)平均值為:
MLR:R2=0.744,RMSE=15.579,MAPE=9.028;
CNN:R2=0.826,RMSE=11.794,MAPE=8.768。
3年期的2組數(shù)據(jù)平均值為:
MLR:R2=0.798,RMSE=13.435,MAPE=8.580;
CNN:R2=0.849,RMSE=10.850,MAPE=7.908。
由此可以看出,隨著輸入數(shù)據(jù)年份數(shù)的增加,CNN
和MLR的反演性能指標(biāo)都在提升,其中,R2值隨著年份數(shù)的增加而增大,RMSE和MAPE隨著年份數(shù)的增加而減小。表明反演的相關(guān)性不斷提升,誤差不斷減小,精度有所提高。因此,若能有長時間的年份數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,反演的PM2.5理論上十分接近實際的PM2.5。
2.3 CNN模型輸入?yún)?shù)的分析
在驗證CNN模型的反演精度后,有必要對CNN模型的輸入?yún)?shù)做研究,探討各輸入?yún)?shù)對反演精度的影響情況??紤]依次增加輸入?yún)?shù),即“試驗1”至“試驗5”(表3)。由于PM10和能見度VIS與PM2.5的相關(guān)性較大,因此,將其作為基本的輸入?yún)?shù),即“試驗1”,后依次增加溫度系列參數(shù)、氣壓系列參數(shù)、露點溫度,即“試驗2”至“試驗4”,“試驗5”包含研究全部的氣象觀測數(shù)據(jù)參數(shù)。從反演的誤差結(jié)果可以看出,隨著輸入?yún)?shù)的不斷增加,RMSE值不斷減小,R2值不斷增加,說明反演精度不斷提高,這也與上述介紹的機器學(xué)習(xí)的特性相對應(yīng):理論上,輸入的信息越多,機器學(xué)習(xí)的效果越好。
3 結(jié)論
(1)利用 CNN卷積神經(jīng)網(wǎng)絡(luò)算法反演PM2.5是有效可行的,且比一般的線性回歸算法效果更好,為反演PM2.5提供了一種新的機器學(xué)習(xí)方法。
(2)在影響PM2.5反演的各輸入變量因子中,PM10與能見度變量為高相關(guān)因子。利用神經(jīng)卷積網(wǎng)絡(luò)算法反演PM2.5理論上反演精度能夠隨著輸入信息增多而不斷提高,具體有待進一步研究。
參考文獻
[1] 郭新彪,魏紅英.大氣PM2.5對健康影響的研究進展[J].科學(xué)通報,2013,58(13):1171-1177.
[2] 余鐘奇,馬井會,毛卓成,等.2017年上海臭氧污染氣象條件分析及臭氧污染天氣分型研究[J].氣象與環(huán)境學(xué)報, 2019,35(6):46-54.
[3] 嚴(yán)文蓮,劉端陽,康志明,等.江蘇臭氧污染特征及其與氣象因子的關(guān)系[J].氣象科學(xué),2019,39(4):477-487.
[4] 馮萬富,沈新志,周繼良,等.基于氣象要素的雞公山景區(qū)PM10濃度預(yù)測[J].河南大學(xué)學(xué)報(自然科學(xué)版),2022,52(5): 571-578.
[5] 魏文靜,謝炳庚,周楷淳,等.2013—2018年山東省大氣PM2.5和PM10污染時空變化及其影響因素[J].環(huán)境工程, 2020,38(12):103-111.
[6] 黃小剛,趙景波,孫從建,等.汾渭平原PM2.5空間分布的地形效應(yīng)[J].環(huán)境科學(xué),2021,42(10):4582-4592.
[7] 何鈺清,李磊,楊紅龍,等.深圳PM2.5濃度變化趨勢及其月尺度預(yù)測方法[J].科學(xué)技術(shù)與工程,2022,22(1):400-408.
[8] 刁一偉,王紅磊,沈利娟,等.2015—2021年南京市大氣污染特征及污染個例研究[J].環(huán)境科學(xué)研究,2023,36(2):260-272.
[9] 陳兵紅,靳全鋒,柴紅玲,等.浙江省大氣PM2.5時空分布及相關(guān)因子分析[J].環(huán)境科學(xué)學(xué)報,2021,41(3):817-829.
[10] 石靈芝,鄧啟紅,路嬋,等.基于BP人工神經(jīng)網(wǎng)絡(luò)的大氣顆粒物PM10質(zhì)量濃度預(yù)測[J].中南大學(xué)學(xué)報(自然科學(xué)版),2012,43(5):1969-1974.
[11] 胡娟,鄭軍,許文龍,等.利用多源數(shù)據(jù)建立GA-BP算法模型估算PM2.5的研究[J].氣象科學(xué),2021,41(3):314-322.
[12] 姚姝含,官莉.基于星載紅外高光譜觀測用機器學(xué)習(xí)算法反演大氣溫濕廓線[J].紅外與激光工程,2022,51(8):461-472.