基于機器學習方法的臭氧和 PM2.5 污染潛勢預報模型
——以成都市為例

2021-11-17 08:46:18王馨陸黃冉張雯嫻呂寶磊杜云松張巍李波蘭胡泳濤

北京大學學報(自然科學版) 2021年5期

王馨陸黃冉,? 張雯嫻呂寶磊杜云松張巍李波蘭胡泳濤

1. 杭州矮馬科技有限公司, 杭州 311121; 2. 華云升達(北京)氣象科技有限責任公司, 北京 102299; 3. 四川省生態(tài)環(huán)境監(jiān)測總站,成都 610091; 4. School of Civil and Environmental Engineering, Georgia Institute of Technology, Atlanta, GA 30332;

環(huán)境空氣質量的好壞對公眾健康有著顯著影響, 不論是極端重污染事件還是長期暴露于低濃度空氣污染環(huán)境中, 均會直接增加人體心血管和呼吸系統(tǒng)等多種疾病的發(fā)病率[1–2]。近年來, 我國大多數(shù)城市的空氣質量持續(xù)改善, 尤其是秋冬季細顆粒物(PM2.5, 空氣動力學直徑小于或等于 2.5 μm 的氣溶膠粒子)污染程度下降明顯[3–4], 但春夏季臭氧污染呈現(xiàn)上升趨勢[5–6]?？諝馕廴疚镌磁欧攀怯绊懣諝赓|量的決定性因素, 天氣形勢及氣象條件亦為關鍵因素。氣象條件的變化直接或間接地影響大氣中污染物的化學反應、傳輸、擴散稀釋和沉降等過程[7–11], 對空氣質量的影響呈現(xiàn)多時空尺度、影響大及變化快的特點[12]。對一定的區(qū)域而言, 如果短期內污染源排放相對穩(wěn)定, 其空氣質量則主要取決于氣象條件[13–14]。當出現(xiàn)靜穩(wěn)天氣等不利氣象條件時, 污染物濃度容易在短時間內出現(xiàn)大幅增長,造成嚴重的空氣污染事件[15–18]。因此, 研究天氣形勢及氣象條件對污染物在大氣中傳輸和轉化的影響, 開展空氣污染潛勢預報預警, 對評估氣象條件對空氣污染的貢獻以及輔助大氣環(huán)境精細化管理和科學決策具有重要意義。

污染潛勢預報是在假定污染源排放不變的情況下, 以可能影響污染物時空分布的天氣形勢及氣象條件為主要依據(jù), 對未來氣象條件下的空氣污染狀況進行預測[19–21]。其特點在于忽略不確定的污染源排放速率的變化, 重點關注有利或不利于污染物擴散稀釋等過程的氣象因素[22], 將氣象因素對空氣質量的影響分離出來[23], 是評估氣象條件對污染物濃度影響及貢獻的重要方法之一。眾多研究采用逐步多元線性回歸的方法建立氣象因子(如風速、相對濕度等)與污染物濃度(如 PM2.5和臭氧)之間的污染潛勢模型[24–28], 量化氣象條件變化對污染物濃度變化的貢獻。Zhai 等[27]以中國地面氣象觀測日值數(shù)據(jù)及 MERRA2 再分析數(shù)據(jù)中的風速、降水、相對濕度、氣溫和 850 hPa 經(jīng)向風等作為潛在預報變量, 采用逐步多元線性回歸法建立 2013—2018 年中國主要地區(qū)的 PM2.5污染潛勢預報模型, 定量分析氣象條件對 PM2.5污染變化的貢獻, 結果表明在中國 PM2.5濃度下降的趨勢中, 氣象貢獻占 12%。張小曳等[29]利用國家自動氣象站逐小時地面氣象觀測數(shù)據(jù)及歐洲中期天氣預報中心的再分析數(shù)據(jù), 對與氣溶膠濃度密切相關的氣象要素(如風速、風向和大氣穩(wěn)定度等)進行診斷和參數(shù)化分析, 得到可定量反映停滯–靜穩(wěn)型天氣程度的“污染–氣象條件”指數(shù)(PLAM 指數(shù)), 建立氣溶膠濃度與氣象要素之間的量化關系, 并分析評估了 2013 年《大氣污染防治行動計劃》實施以來氣象條件變化對 PM2.5污染變化的影響。

數(shù)值預報計算量大, 計算成本高, 依賴于大量輸入數(shù)據(jù)(如源排放清單和氣象場)的驅動, 與之相比, 基于各種機器學習算法的空氣污染潛勢預報較為簡單易行, 且無需源排放清單, 已廣泛應用于各項研究中[30–31], 具有較好的預報效果。不同于數(shù)值預報模式中以大氣污染物轉化擴散的化學和物理機制為基礎[32], 基于統(tǒng)計方法的污染潛勢預報主要利用大量污染監(jiān)測歷史數(shù)據(jù)及同期氣象觀測資料, 分析污染物濃度與相關輔助因子之間的統(tǒng)計關系, 建立從簡單相關到復雜多參數(shù)的模型, 從而進行未來空氣質量的預測[19,22–23]。常見的潛勢預報方法包括多元線性回歸[33–35]、支持向量機[36–37]、決策樹[30,38]、隨機森林[39–40]和人工神經(jīng)網(wǎng)絡[41–43]等。Lightstone 等[44]利用 2016 年 NCEP/NARR 再分析資料及 NYSDEC 地面監(jiān)測網(wǎng)的 PM2.5數(shù)據(jù), 建立紐約市PM2.5神經(jīng)網(wǎng)絡預報模型, 并與 CMAQ 12 km 網(wǎng)格數(shù)值模式模擬結果進行對比, 結果表明神經(jīng)網(wǎng)絡模型準確性更好, 尤其是對傳輸引起的污染濃度快速變化時段的模擬。

本研究利用成都市 2016—2019 年WRF 模式回溯模擬氣象場及同期空氣質量觀測數(shù)據(jù), 以影響污染物轉化、擴散和傳輸?shù)闹饕獨庀笠蜃蛹跋嚓P輔助因子為潛在預報因子, 通過篩選關鍵入模變量, 利用多元線性回歸、隨機森林及 BP (back-propagation)神經(jīng)網(wǎng)絡等機器學習算法, 建立成都市夏季(4—8 月) O3及冬季(11 月—來年 2 月) PM2.5濃度污染潛勢預報模型, 對比分析各模型對成都市 O3及PM2.5污染的預測效果, 并檢驗建立的污染潛勢模型的中長期預報能力。

1 研究數(shù)據(jù)與方法

1.1 研究數(shù)據(jù)

1.1.1 空氣質量數(shù)據(jù)

本研究使用的 2016—2019 年成都市逐日臭氧及 PM2.5環(huán)境濃度觀測數(shù)據(jù)來自四川省空氣質量監(jiān)測網(wǎng)絡管理平臺(http://www.scnewair.cn:3389)。成都市 2016—2019 年 O3日最大 8 小時濃度在每年的4—8 月達到污染高峰期, O3超標事件(O3≥160 μg/m3)頻發(fā)(圖 1), 4—8 月的多年累月平均濃度分別為114.5, 128.2, 126.2, 131.2 和 143.7 μg/m3。PM2.5日均濃度的污染高峰期主要發(fā)生在每年的 11 月至來年 2 月(圖 1), 11—2 月的多年累月平均濃度分別為65.2, 89.9, 93.5 和 69.7 μg/m3。

圖1 成都市2016—2019 年O3 日最大8 小時濃度及PM2.5 日均濃度的月平均及每月超標日數(shù)(O3≥160 μg/m3, PM2.5 ≥75 μg/m3)統(tǒng)計Fig. 1 Monthly mean of daily maximum 8-hr average O3 and daily average PM2.5 concentrations,and monthly number of exceedance days (O3 ≥ 160 μg/m3, PM2.5 ≥ 75 μg/m3)

考慮到成都市 O3和 PM2.5污染以及各氣象因子的顯著季節(jié)波動, 為提高所建模型的可靠性、準確性和實用性, 本文針對成都市每年 4—8 月和 11—2月分別建立 O3和 PM2.5的污染潛勢預報模型。

1.1.2 氣象數(shù)據(jù)

本研究使用的成都市 2016—2019 年氣象數(shù)據(jù)來自中尺度預報模式 WRF (Weather Research and Forecast Model, 版本 3.6)[45]的氣象回溯模擬結果。該回溯模擬采用基于 Lambert 投影坐標的 36 km、12 km 和 4 km 水平分辨率的 3 重嵌套網(wǎng)格(見 http://xbna.pku.edu.cn (以下簡稱 xbna)附錄 1), 最外層網(wǎng)格覆蓋包括青藏高原在內的所有中國地區(qū)和東亞以及部分東南亞和印度次大陸, 次內層網(wǎng)格包括四川省全省及西南地區(qū)各省(市、區(qū))的大部分區(qū)域, 最內層網(wǎng)格覆蓋四川盆地的主要城市, 垂直方向采用從地面到 50 hPa 共 35 個σ層。模擬中以 NCEP GDAS/FNL 0.25°×0.25° 全球再分析資料作為初始條件和邊界條件, 主要物理過程采用 Lin 微物理參數(shù)化方案[46]、Kain-Fritsch 積云方案[47]、YSU 邊界層參數(shù)化方案[48]以及 NOAH+MOSAIC 陸面模式[49]。此外, 在模擬過程中啟用 Grid Nudging 同化技術[50–51], 利用 NCEP ADP 全球地面及探空氣象觀測數(shù)據(jù), 對逐6 小時猜測場進行“校正”, 并在 WRF 計算過程中通過同化技術優(yōu)化模擬結果。利用中國地面氣象觀測站逐小時數(shù)據(jù), 對 2016—2019 年 WRF 回溯模擬結果進行評估(xbna 附錄 2), 各評估統(tǒng)計指標都處于合理的可接受范圍[52], 表明氣象回溯模擬數(shù)據(jù)可進一步用于成都市污染潛勢預報模型的建立及后續(xù)的預報能力評估。

本研究以可能影響 O3及 PM2.5污染的氣象及相關輔助因子為潛在預報變量, 建立污染潛勢模型,重點在于識別影響空氣質量的關鍵預報因子。瞬時多變的天氣形勢及氣象條件對空氣質量的影響極為復雜, 不同氣象條件和相關輔助因子對不同污染物的作用各不相同, 又相互影響。為了盡可能準確地識別影響 O3和及 PM2.5污染的關鍵預報因子, 本研究擬定 39 個潛在的預報因子(xbna 附錄 3), 主要包含污染持續(xù)性因子(如前一日的污染物濃度)、節(jié)假日和工作日信息[53–55]以及相關氣象條件因子(如風速、氣溫、濕度和云量等)[12–13,22,24,56], 并利用WRF 回溯模擬結果建立潛在預報因子數(shù)據(jù)集, 以便后續(xù)關鍵預報因子的篩選。

1.2 研究方法

以成都市 2016—2019 年 O3及 PM2.5的日值觀測數(shù)據(jù)和 1.1.2 節(jié)建立的包含 39 個潛在預報因子的數(shù)據(jù)集為基礎, 篩選關鍵預報因子, 并分別建立訓練、測試和評估數(shù)據(jù)集。采用多元線性回歸(Multiple Linear Regression, MLR)[57]、隨機森林(Random Forest, RF)[58]以及 BP 神經(jīng)網(wǎng)絡(Back-Propagation Neural Network, NN)[43]3 種機器學習算法, 建立成都市夏季 O3及冬季 PM2.5污染潛勢預報模型, 并進行驗證和評估。圖 2 為建立污染潛勢預報模型的技術路線。

圖2 建立污染潛勢預報模型的技術路線Fig. 2 Flow chart of building the air pollution potential forecasting models

1.2.1 關鍵入模變量的篩選

首先進行預報因子的篩選, 確認影響成都市夏季 O3及冬季 PM2.5濃度的關鍵入模變量。采用基于隨機森林算法的變量重要性分析工具進行潛在變量的初步篩選, 然后根據(jù)相關性及不同組間的差異性分析, 最終選定入模變量。

1) 以潛在預報因子數(shù)據(jù)集中的 39 個變量為自變量, 分別以成都市 2016—2019 年的 O3及 PM2.5濃度為因變量, 利用隨機森林算法進行潛在預報因子的重要性分析, 降序排列選擇其中前 25 個變量為初步選定的潛在入模因子。分別計算上述步驟初步選定的 O3及 PM2.5的 25 個入模變量間的相關系數(shù)矩陣(xbna 附錄 4 和 5), 可見其中存在大量高度相關的相似變量, 進一步剔除相關系數(shù)高于 0.7 的相對不重要變量, 達到刪除多余相似變量的目的, 避免高度相關變量進入模型中可能導致的嚴重的多重共線性問題[59–60]并減少模型訓練過程中的計算量。

2) 分別分析 O3及 PM2.5濃度與上一步篩選出的對應潛在入模因子的相關性, 并根據(jù)國家一級及二級標準(GB/T 3095—2012 環(huán)境空氣質量標準), 分別劃分 O3和 PM2.5污染的清潔日(O3<100 μg/m3,PM2.5<35 μg/m3)和污染日(O3>160 μg/m3, PM2.5>75 μg/m3), 利用 t 檢驗對在清潔日與污染日潛在入模因子的差異性進行分析, 選擇具有顯著相關性及顯著差異的因子分別作為 O3和 PM2.5潛勢預報模型的最終關鍵入模因子。

通過上述步驟, 最終選定成都市臭氧污染的關鍵入模變量為 T_MAX (地面每日最高氣溫)、PBL_MAX (每日邊界層高度最大值)、O3_YEST (前一日臭氧平均濃度)、HCC (每日平均高云量)、MCC (每日平均中云量)、WS850 (850 hPa 每日平均風速)、WS_AFTE (地面下午時段平均風速)、PR (每日降水總量)、PS_DELTA_YEST (前一日 24 小時變壓)、WD (地面每日最多風向)及 WD700 (700 hPa 每日最多風向)。PM2.5的關鍵入模變量為 PM2.5_YEST(前一日 PM2.5平均濃度)、PBL (每日平均邊界層高度)、WS (地面每日平均風速)、T700_MAX (700 hPa每日最高氣溫)、PS_DELTA (當日 24 小時變壓)、WD_CHANGE (風向日變化因子)、PS_DELTA_YEST (前一日 24 小時變壓)、PR (每日降水總量)、WS500 (500 hPa 每日平均風速)、GHT500 (500 hPa 每日平均位勢高度)及 WD (地面每日最多風向)。

1.2.2 數(shù)據(jù)預處理

在正式建立預報模型之前, 需要對數(shù)據(jù)進行預處理, 包括歸一化處理、污染物濃度對數(shù)化處理及風向相關變量特殊處理等。

1) O3及 PM2.5濃度數(shù)據(jù)為對數(shù)正態(tài)分布, 對相關變量(PM2.5, O3, PM2.5_YEST 和 O3_YEST)進行自然對數(shù)化處理, 處理完成后的數(shù)據(jù)主要用于 MLR及 NN 模型的建立。

2) 為消除量綱的影響, 對各變量數(shù)據(jù)做歸一化處理, 處理完成后的數(shù)據(jù)用于 MLR, NN 及 RF 模型的建立。

3) 針對類別型變量(WD, WD700, IF_HOLIDAY和 IF_WEEK)進行特殊處理。在 RF 模型的建立中,對上述 4 個變量進行因子化處理; 在 MLR 及 NN 模型的建立中, 則分別構建新的虛擬變量, 如 WD 變量共包含 17 個因子水平(N, NNE, NE, ENE, E, ESE,SE, SSE, S, SSW, SW, WSW, W, WNW, NW, NNW和 C), 因此新建 16 個虛擬變量(WD.N, WD.NNE,WD.NE, WD.ENE, WD.E, WD.ESE, WD.SE, WD.SSE, WD.S, WD.SSW, WD.SW, WD.WSW, WD.W,WD.WNW, WD.NW 和 WD.NNW)。若所有虛擬變量為 0, 則代表 WD 為 C; 若 WD.N 為 1 且其他虛擬變量為 0, 則代表 WD 為 N; 依此類推。

此外, 隨機抽取 2016—2018 年 75%的數(shù)據(jù)作為模型訓練數(shù)據(jù)集, 剩余 25%的數(shù)據(jù)為測試數(shù)據(jù)集,保留 2019 年數(shù)據(jù)為回顧預報數(shù)據(jù)集, 用于模型建立完成后對預報效果進行獨立評估。

1.2.3 模型訓練及優(yōu)化

本研究利用建立的訓練數(shù)據(jù)集, 分別采用多元線性回歸(MLR)、BP 神經(jīng)網(wǎng)絡(NN)和隨機森林(RF) 3 種方法訓練, 建立成都市夏季臭氧及冬季PM2.5污染潛勢預報模型。

1) MLR 模型: 在數(shù)據(jù)預處理過程中, 針對類別型變量新建了大量的虛擬變量, 首先利用最優(yōu)子集回歸法進一步篩選變量, 基于馬洛斯 Cp 準則、貝葉斯信息量準則和修正R2選擇最佳的變量組合, 建立初步的 MLR 模型, MLR 模型建立完成后, 進行模型的診斷及顯著性檢驗, 并利用方差膨脹因子進行共線性分析和模型優(yōu)化, 確定相對最優(yōu)的 MLR 模型。

2) NN 模型: 采用最優(yōu)子集回歸法確定最佳變量組合, 建立 NN 模型。設置隱含層層數(shù)為 1, 采用十折交叉檢驗確定隱含層神經(jīng)元個數(shù), 建立相對最優(yōu)的 NN 模型。

3) RF 模型: 采用篩選的關鍵入模變量建立 RF模型, 通過診斷測試抽樣的特征個數(shù)和森林決策樹的個數(shù)等參數(shù)對 RF 模型的影響, 確定最優(yōu)的參數(shù)組合, 建立相對最優(yōu)的 RF 模型。

1.2.4 模擬和預報效果評估

對建立的“最優(yōu)”MLR, NN 和 RF 模型在訓練集和測試集中的表現(xiàn)進行評估, 并分析模型的泛化能力; 利用建立的模型對 2019 年的 O3及 PM2.5濃度進行回顧預報, 進一步驗證 3 種模型的預報模擬能力。用于評估模擬效果的統(tǒng)計量包括相關系數(shù)(R)、平均偏差(Bias)、平均絕對誤差(GE)、均方根誤差(RMSE)以及分類誤判率。

2 結果與討論

2.1 成都市臭氧污染潛勢預報模型

在成都市 2016—2018 年數(shù)據(jù)中隨機選取 75%作為訓練數(shù)據(jù)集, 剩余 25%的數(shù)據(jù)作為測試集, 利用多元線性回歸、BP 神經(jīng)網(wǎng)絡及隨機森林算法進行模型訓練, 分別建立成都市臭氧污染潛勢預報MLR, NN 及 RF 模型(各模型參數(shù)設置見 xbna 附錄6), 并評估各模型在訓練數(shù)據(jù)集和測試數(shù)據(jù)集中的模擬表現(xiàn)(表 1 和 xnba 附錄 7)。MLR 及 NN 模型在訓練集和測試集中的表現(xiàn)相對穩(wěn)定, 性能接近。與訓練集相比, 兩個模型在測試集中的相關性有所降低, 誤差值略有增大, 但仍處于合理的可接受范圍內。RF 模型在訓練集中的綜合表現(xiàn)最優(yōu), 其相關系數(shù)高達0.98, BIAS, GE, RMSE 和分類誤判率分別為?0.22, 9.09, 11.98 和 8.93, 均明顯優(yōu)于 MLR 及NN 模型在訓練集中的模擬表現(xiàn)。在測試集中,RF 模型的相關系數(shù)顯著降低 22.4%, GE, RMSE 和分類誤判率等誤差指標分別增加 148%, 150%和300%, 模擬能力顯著降低, 但仍與 MLR 及 NN 模型在測試集中的評估結果接近?？梢? 盡管 RF 模型存在明顯的過擬合問題, 但依舊保持較好的模擬能力。綜上所述, 利用多元線性回歸、BP 神經(jīng)網(wǎng)絡、隨機森林算法訓練建立的 MLR, NN 以及 RF 模型的模擬表現(xiàn)較為接近, 都能夠對成都市夏季臭氧污染進行良好的預測。

利用上述建立的 MLR, NN 及 RF 模型, 對成都市2019 年 4—8 月的臭氧污染進行回顧預報模擬,對模型的獨立預報能力進行評估(表 1 和圖 3)。該回顧預報可理解為提前一天(1-day lead)的污染潛勢預報。MLR, NN 及 RF 模型在回顧預報集中的模擬值與觀測值的相關系數(shù)位于 0.75～0.77 之間, 除BIAS 指標外, GE, RMSE 及分類誤判率等誤差結果較為一致(表 1)。對比在測試集中的表現(xiàn), 3 個模型在回顧預報集中的評估指標結果并無明顯差異, 可見 MLR, NN 及 RF 模型的表現(xiàn)均較為穩(wěn)定。此外,雖然 MLR, NN 及 RF 模型的模擬結果存在一定的定量方面問題(圖 3), 表現(xiàn)在對臭氧高峰值存在一定的低估(如 8 月 5—19 日期間的 3 個高峰值)或漏報(如 5 月 13 日)或 1～2 天的遲滯(如 6 月 12 日), 對低谷時段則存在一定的高估(如 6 月 17—19 日), 但模擬值與觀測值之間的時間變化趨勢保持良好的一致性, 可見 3 個模型都能對成都市 2019 年夏季臭氧進行較好的模擬。模型之間相較而言, MLR 及 RF 模型在定量方面能夠更好地再現(xiàn)臭氧高污染時段, 更接近污染高峰觀測值, 其中 RF 模型雖具有更小的 GE, RMSE 及分類誤判率, 但在整體上存在一定的高估(其在測試集及回顧預報集中的 BIAS 分別為3.88 和 3.53), 在某些時段的變化趨勢識別上不如MLR 模型精準。整體而言, 在 3 個模型中, MLR 模型具有最好的預報能力。

圖3 成都市 2019 年夏季 O3 濃度觀測值及 MLR, NN 和 RF 模型模擬值時間序列Fig. 3 Timeseries of O3 concentrations: observed versus simulated by MLR, NN and RF models for Chengdu in summer 2019

表1 成都市臭氧污染潛勢模型模擬效果評估Table 1 Evaluation of the ozone pollution potential forecast models in Chengdu

2.2 成都市 PM2.5 污染潛勢預報模型

同樣針對成都市冬季(11—2 月) PM2.5污染建立MLR, NN 及 RF 潛勢預報模型, 模型在訓練集和測試集中的結果見 xbna 附錄 8 和表 2。在訓練集和測試集中, MLR 及 NN 模型的各項評估結果較為接近,且 MLR 和 NN 模型在測試集中的模擬能力反映在相關系數(shù)上與訓練集無明顯差別, GE, RMSE 和分類誤判率則略有降低。RF 模型在訓練集中的相關系數(shù)最大, GE, RMSE 及分類誤判率等各項誤差最小。RF 模型在測試集中的表現(xiàn)整體上與 MLR 和NN 模型相似, 但對比其在訓練集中的表現(xiàn), 相關性明顯降低, 各項誤差(GE, RMSE 和分類誤判率)顯著增大, 可見 RF 模型依舊存在一定程度的過擬合問題。MLR, NN 和 RF 模型對 PM2.5污染潛勢的模擬能力較為相似, 表現(xiàn)穩(wěn)定, 能夠對成都市冬季PM2.5污染進行較好的模擬, 且模擬效果(表 2)優(yōu)于其在臭氧污染潛勢模擬中的表現(xiàn)(表 1)。

表2 成都市PM2.5 污染潛勢預報模型模擬效果評估Table 2 Evaluation of the PM2.5 pollution potential forecast models in Chengdu

對成都市 2019 年 1—2 月和 11—12 月的 PM2.5濃度進行回顧模擬, 評估建立的污染潛勢預報模型的預報能力(表 2 和圖 4)。MLR 及 RF 模型的預報性能整體上較為穩(wěn)定, 與測試集中的評估結果接近。這兩個模型預測值與觀測值的相關系數(shù)分別為 0.83和 0.85, GE, RMSE 及分類誤判率等誤差值也都保持在同一水平, 但 RF 模型的 BIAS 高于 MLR 模型,說明 RF 模型的高估程度更大。NN 模型的預報能力相較于測試集顯著降低, 其預測值與觀測值的相關系數(shù)降至 0.78, 雖然其 GE 和 RMSE 值與 MLR 和RF 模型較為接近, 但 BIAS 為 4.01, 說明 NN 模型在回顧預報集中亦存在一定程度的高估, 且分類誤判率比測試集中的 22.92 增加 38.2%。MLR, NN 及 RF模型的模擬結果與觀測時間序列皆較為吻合(圖 4),對 PM2.5的變化趨勢都能夠進行較好的模擬, 且都能夠識別主要的高濃度時段(如 12 月 8—15 日的連續(xù)重污染時段)。對比 MLR, NN 及 RF 模型的預報性能, NN 模型的相關系數(shù)相對較低, 分類誤判率誤差較高, 在時間序列中也存在更多的不一致; MLR及 RF 模型具有更好的模擬能力。雖然 MLR 模型預測結果與觀測值的相關性最強, 各項誤差皆較低,但在各項評估指標與 MLR 模型相近的情況下, RF模型對 PM2.5的重污染時段具有更好的識別能力(如1 月 6—9 日和 2 月 5 日)。從整體上看, RF 模型對成都市冬季 PM2.5污染的預報性能最佳。

圖4 成都市2019 年冬季PM2.5 污染觀測值及MLR, NN 和RF 模型模擬值時間序列Fig. 4 Timeseries of PM2.5 concentrations: observed versus simulated by MLR, NN and RF models for Chengdu in winter 2019

2.3 中長期潛勢預報

2.3.1 臭氧中長期潛勢預報

本研究選定的成都市臭氧及 PM2.5污染潛勢預報模型的關鍵入模變量主要為相關氣象因子(基于WRF 回溯模擬結果)及前一日污染濃度變量(基于觀測數(shù)據(jù))。在 2.1 及 2.2 節(jié)的提前一天(1-day lead)污染潛勢預報中, 我們利用 WRF 當日氣象回溯模擬結果及前一日污染濃度觀測結果對當日臭氧和PM2.5污染潛勢進行預測, 而通過迭代預報結果生成前一日污染物濃度變量(即利用當天的濃度預報值作為下一天預報中的前一日污染物濃度值), 則可對未來 2～15 天(2–15-day lead)的污染潛勢進行提前更長時間的預報(xbna 附錄 9)。利用建立的 MLR,NN 及 RF 模型, 對成都市 2019 年夏季(4—8 月)臭氧及冬季(1—2 月及 11—12 月) PM2.5的污染潛勢進行提前 1～15 天的預報, 評估 MLR, NN 及 RF 模型對中長期污染潛勢預報的性能。

在 MLR 模型的中長期臭氧潛勢預報結果(圖 5和 6)中, 不同提前天數(shù)的預報濃度數(shù)值非常接近,除提前 1～3 天(1–3-day lead)的預報結果外, 其余提前各天(4–15-day lead)的預報濃度時間序列幾乎完全重疊, 且都能與實測濃度數(shù)據(jù)的變化趨勢較好地吻合(圖 5)。當從提前 1 天增加至提前 3 天預報時,MLR 模型預報結果與實測值的相關性有所下降(由 0.77 降至 0.73), 各項誤差指標有所增加, 但不顯著(GE, RMSE 和分類污染率分別增加 5.6%, 6.0%和 6.7%); 當提前預報時間延長至 7～15 天(7–15-day lead)時, 各項誤差指標保持穩(wěn)定, 不再發(fā)生明顯的變化, 始終保持較高的預報性能(圖 6)。在 NN 及RF 模型中也觀察到短期預報(提前 1～3 天)誤差微弱增加、中長期(提前 7～15 天)預報趨于穩(wěn)定的特征(圖 6), 可見 3 個模型在中長期臭氧潛勢預報中都有較好的預報性能, 其中 MLR 模型能夠更準確地識別臭氧重污染時段(圖 5), 在定量上與觀測結果更接近, 中長期污染潛勢預報性能最佳。

圖5 成都市2019 年夏季臭氧污染潛勢提前1～15 天預報值和觀測值時間序列Fig. 5 Timeseries of 1–15-day lead O3 pollution potential forecasts versus observations for Chengdu in summer 2019

圖6 成都市2019 年O3 污染潛勢提前1～15 天預報性能評估結果Fig. 6 Evaluation of 1–15-day lead forecasts of O3 pollution potential for Chengdu in summer 2019

考慮到在提前 1～15 天的臭氧污染潛勢預報測試中, 各模型關鍵預報因子中的相關氣象因子均無變化(基于當日 WRF 回溯模擬氣象場), 僅前一日臭氧濃度預報因子(O3_YEST)由預報模擬值迭代重新生成, 在不考慮 WRF 模擬氣象場的不確定條件下,臭氧中長期污染潛勢預報的準確性差異主要受 O3_YEST 變量的影響。由前面的分析可知, O3_YEST變量對中長期污染潛勢預報模擬的影響極為有限,表現(xiàn)在提前 1～3 天的預報中 O3_YEST 的改變對預報性能影響較小, 而當預報時間超過 3 天時, O3_YEST 變量的影響幾乎消失。為進一步驗證 O3_YEST 變量對成都市夏季臭氧污染潛勢預報性能的影響, 去除 O3_YEST 變量后重新構建 MLR, NN 及RF 潛勢預報模型(評估結果見 xbna 附錄 10 和 11)。對比包含 O3_YEST 變量的模型預報效果(2.1 節(jié)),不包含 O3_YEST 變量的 MLR, NN 及 RF 模型在回顧預報集中的相關性分別略為下降至 0.72, 0.71 和0.74 (xbna 附錄 11, 與表 1 對比), GE, RMSE 及分類誤判率都小幅增加(GE, RMSE 及分類誤判率增幅分別為 7.9%～10.6%, 6.4%～8.9%和1.7%～10.3%)。3 個模型預報結果的時間序列變化趨勢也都依舊保持與觀測值良好的一致性(xbna 附錄 10)。可見在模型建立的過程中, 雖然 O3_YEST 變量對臭氧潛勢模型預報性能的提升起到一定的作用, 但效果有限, 成都市 O3污染潛勢預報模型的預報效果主要受各相關氣象因子的影響。

2.3.2 PM2.5 中長期潛勢預報

同樣地, 利用建立的 MLR, NN 及 RF 模型對成都市 2019 年 1—2 月和 11—12 月的 PM2.5污染進行提前 1～15 天的預報模擬, 結果如圖 7 和 8 所示。MLR 模型在提前 1～3 天(1–3-day lead)的預報測試中相關性降低 17.6%, BIAS 由 1.75 增至 5.2, GE, RMSE及分類誤判率分別增加 41.9%, 41.3%和 58.9%(圖8), 模型誤差顯著增加, MLR 模型的預報效果明顯下降。當延長至提前 7～15 天(7–15-day lead)的預報時, 各誤差指標(GE, RMSE 及分類誤判率)依舊存在一定程度的增長趨勢, 且 BIAS 持續(xù)增加說明高估問題更加顯著, 但各誤差指標仍處于可接受范圍內。從圖 7 預報值的時間序列中亦可見, 1～3 天預報結果之間的差異較為顯著, 隨著預報提前時間的延長, 對 PM2.5的高估愈加明顯(如 2019 年 2 月 15 及11 月 25 日前后)。當延長至提前 7～15 天時, 預報值時間序列出現(xiàn)很大程度的重疊, 但依舊與觀測值的時間變化趨勢大體上保持一致。同樣的結果在 NN及 RF 模型的中長期潛勢預報測試中亦可見, 尤其是 NN 模型, 其性能變差更為顯著。對比 3 個模型對提前 1～15 天預報的性能評估結果, 可見 RF 模型的預報效果更為穩(wěn)定, 與觀測結果的時間序列保持更好的一致性, 具有最好的預報性能。針對成都市PM2.5污染建立的 MLR, NN 及 RF 模型對中長期PM2.5污染潛勢預報的性能均隨提前預報時長的增加而明顯地下降, 其中 NN 模型的預報性能下降最嚴重, MLR 和 RF 模型預報性能的下降幅度較小。綜合來看, 3 個模型的預報性能都仍處于可接受的范圍[61]。

圖7 成都市2019 年冬季PM2.5 污染潛勢提前1～15 天預報值和觀測值時間序列Fig. 7 Timeseries of 1–15-day lead forecasts of PM2.5 pollution potential versus observations for Chengdu in winter 2019

在 PM2.5模型中, 相關氣象預報因子數(shù)據(jù)不變的情況下, 成都市 PM2.5中長期污染潛勢預報模擬效果的顯著降低主要受前一日 PM2.5濃度(PM2.5_YEST)變量的影響。尤其在提前 1～3 天的短期預報中, PM2.5_YEST 的影響極為顯著, 而當延長至提前 7～15 天時, 其預報性能趨于相對穩(wěn)定, PM2.5_YEST 的影響顯著變小。去除 PM2.5_YEST 后重新建立成都市冬季 PM2.5污染潛勢 MLR, NN 和 RF 模型, 進行預報效果測試(評估結果見xbna 附錄 11 和12)。與包含 PM2.5_YEST 變量的模型預報效果(表2)相比, 去除 PM2.5_YEST 變量后, 新建的 PM2.5模型預報性能顯著下降(xbna 附錄 11), 各模型預報值在回顧預報集中與觀測值的相關系數(shù)由原來的0.78～0.85 下降至 0.38～0.47, 且各項誤差指標(GE,RMSE 及分類誤判率等)的增幅都達到 90%～130%,尤其是分類誤判率皆達到 50%以上, 不論是在定性還是定量方面, 各模型模擬的時間序列(xbna 附錄 12)都與觀測值存在很大的差異。PM2.5_YEST 對 PM2.5污染潛勢預報模型的建立具有顯著影響, 該變量能夠明顯地提升模型的預報性能, 可見 PM2.5潛勢模型的預報性能隨提前預報時長的增加而顯著降低主要是對 PM2.5_YEST 這一變量的依賴所致。

3 結論

本文以成都市為例, 利用 2016—2019 年 WRF模式回溯模擬氣象場及同期 O3及 PM2.5日值觀測數(shù)據(jù), 利用影響污染物轉化、擴散和傳輸?shù)闹饕獨庀髼l件及相關因子建立潛在預報因子數(shù)據(jù)集。通過篩選影響成都市夏季(4—8 月) O3及冬季(11 月—來年2 月) PM2.5污染的關鍵預報因子, 利用多元線性回歸、隨機森林以及 BP 神經(jīng)網(wǎng)絡等機器學習算法,分別建立夏季 O3及冬季 PM2.5污染潛勢預報模型。對比分析各模型對成都市 O3及 PM2.5濃度的預報效果, 討論基于機器學習方法建立的污染潛勢預報模型的中長期預報能力。

基于多元線性回歸、BP 神經(jīng)網(wǎng)絡、隨機森林等算法建立的 MLR, NN 及 RF 模型對成都市夏季臭氧濃度均具有良好的預報性能, 模型泛化能力較好,能夠準確地識別成都市典型的臭氧高污染時段。在不考慮氣象模擬準確性的情況下, 建立的潛勢模型亦能夠較好地應用于成都市夏季臭氧中長期(提前7～15 天)污染潛勢預報。隨著預報提前時間延長,模型預報性能并未顯著降低, 表現(xiàn)穩(wěn)定, 主要原因是各模型都對前一日臭氧濃度變量的依賴性較小。其中, MLR 模型對成都市臭氧濃度具有相對最佳的預報性能, 臭氧高值更接近觀測結果, 且與觀測結果的時間變化趨勢更加吻合。

基于關鍵氣象因子和前一日 PM2.5濃度變量建立的 MLR, NN 及 RF 模型能夠較好的預測成都市冬季 PM2.5濃度的變化趨勢, 與觀測時間序列保持較好的一致性, 各項誤差指標較低, 3 個模型均具有較優(yōu)的預報性能。通過迭代生成前一日 PM2.5濃度變量, 可利用建立的 MLR, NN 及 RF 模型, 對 PM2.5污染的中長期潛勢進行預報。受前一日 PM2.5濃度變量的影響, 隨著提前時長的增加, 各模型的預報性能均有所降低, 但仍處于可接受范圍。其中, RF 模型在保持良好誤差指標的同時, 在定量上對 PM2.5的高濃度數(shù)值有更好的表現(xiàn), 具有相對最優(yōu)的預報能力。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學習方法的臭氧和 PM2.5 污染潛勢預報模型——以成都市為例