肖 宇
上海市環(huán)境監(jiān)測中心,上海 200030
大氣環(huán)境污染已經(jīng)對公眾的健康造成了嚴(yán)重影響[1],因此發(fā)展各類統(tǒng)計(jì)學(xué)模型對污染物濃度進(jìn)行預(yù)測至關(guān)重要.空氣質(zhì)量模型能夠綜合考慮污染物排放、氣象條件和物理化學(xué)反應(yīng)等,是目前最為主流的預(yù)測空氣質(zhì)量的手段[2-4].但是,空氣質(zhì)量模式對初始條件和外在強(qiáng)迫的依賴造成了模型的不確定性,大氣運(yùn)動的非線性特征決定了無論來自初始場還是來自模式本身極小的誤差在模式積分過程中都將被放大[5].自從混沌理論和大氣的非線性本質(zhì)提出后,Epstein和Lorenz提出了集合預(yù)報的思想和方法[6-7],成為大氣科學(xué)領(lǐng)域的重要研究方向[8].
近年來,多數(shù)研究著重利用機(jī)器學(xué)習(xí)相關(guān)方法構(gòu)建新的預(yù)報模型,根據(jù)輸入氣象數(shù)據(jù)和排放清單對NO2、PM2.5和O3濃度進(jìn)行預(yù)報[9-10],較少將機(jī)器學(xué)習(xí)方法作為模式結(jié)果訂正的手段.目前用于預(yù)報結(jié)果訂正的機(jī)器學(xué)習(xí)方法中,研究較多的主要包括神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、嶺回歸、隨機(jī)森林、長短期記憶網(wǎng)絡(luò)等.研究發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)對污染物濃度預(yù)測具有較好的訂正效果[11];支持向量機(jī)算法較多元線性回歸法對O3預(yù)報準(zhǔn)確度更高[12];門曉磊等[13]利用嶺回歸、隨機(jī)森林和深度學(xué)習(xí)3種機(jī)器學(xué)習(xí)算法對多模式氣溫進(jìn)行集合預(yù)報,發(fā)現(xiàn)在短期預(yù)報時深度學(xué)習(xí)算法的訂正效果更好,在中后期預(yù)報時嶺回歸的訂正效果略好.極端隨機(jī)樹和梯度提升回歸樹算法對CMAQ的預(yù)報也有較好的訂正效果,且其對NO2和O3的優(yōu)化效果最為明顯[14].此外,嶺回歸比最優(yōu)化集合預(yù)測算法在預(yù)測精度和穩(wěn)定性上均有所提升[15].隨機(jī)森林對PM2.5優(yōu)化效果顯著,支持向量機(jī)對O3的優(yōu)化效果最理想[16].
基于機(jī)器學(xué)習(xí)的空氣質(zhì)量預(yù)測方法主要在歐洲和美國使用,雖在中國起步較晚但近年來發(fā)展迅速.結(jié)合多個預(yù)測器的集成學(xué)習(xí)算法主要用于污染評估,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等機(jī)器學(xué)習(xí)算法則主要用于空氣質(zhì)量預(yù)測[17-18].因此,為了提高機(jī)器學(xué)習(xí)算法對污染物的預(yù)報效果,需要考慮對常規(guī)污染物均有較好訂正效果的單機(jī)器學(xué)習(xí)算法,同時結(jié)合各機(jī)器學(xué)習(xí)算法自身的優(yōu)點(diǎn),在空間和時間上進(jìn)行耦合.因此,該研究基于隨機(jī)森林、極端隨機(jī)樹、梯度提升回歸樹和BP神經(jīng)網(wǎng)絡(luò)4種算法各自的特點(diǎn)進(jìn)行時空耦合,從而建立一種新的多模式集合預(yù)報訂正算法(簡稱“ET-BPNN算法”),提高了對污染物濃度及變化趨勢的預(yù)報準(zhǔn)確率,以期為重大活動提供技術(shù)保障,為管理決策提供重要的理論依據(jù).
該研究單模式數(shù)據(jù)源自長三角區(qū)域空氣質(zhì)量預(yù)報多模式集合預(yù)報系統(tǒng),模式區(qū)域的中心經(jīng)緯度為105°E、36°N,第一區(qū)域取東亞地區(qū),水平分辨率為27 km,水平網(wǎng)格點(diǎn)數(shù)為240×200;第二區(qū)域?yàn)橹袊鴸|南沿海地區(qū),水平分辨率為9 km,水平網(wǎng)格點(diǎn)數(shù)為238×223;第三區(qū)域取長江下游地區(qū),水平分辨率為3 km,水平網(wǎng)格點(diǎn)數(shù)為223×202. 4個空氣質(zhì)量模型分別為CMAQ、CAMx、NAQPMS和WRFChem,模式中采用的參數(shù)化方案分別為CBMZ、RADMS、CB05和CB05,排放模型SMOKE為集合系統(tǒng)提供同樣區(qū)域設(shè)置的3層網(wǎng)格化排放源.氣象模式為WRF,初始和邊界條件取自NOAA(National Oceanic and Atmospheric Administration)的全球預(yù)報氣象場GFS(Global Forecasting System)數(shù)據(jù)集.觀測資料來自上海市10個國控點(diǎn)的實(shí)時觀測數(shù)據(jù).
該研究中使用的模式資料為長三角區(qū)域空氣質(zhì)量預(yù)報系統(tǒng)中CAMx、CMAQ、NAQPMS以及WRFChem每日20:00起報的上海市未來7 d逐小時數(shù)據(jù),優(yōu)化的污染物為NO2、O3、PM2.5和PM10,優(yōu)化的預(yù)報時效為24、48、72和96 h.為了排除新冠肺炎疫情的影響,同時考慮季節(jié)變化,該研究選取2018年3月1日?2019年2月28日一個完整年作為研究時段.
隨機(jī)森林算法.隨機(jī)森林算法是由Leo Breiman和Adele Cutler發(fā)展推論出的,該算法從原始數(shù)據(jù)集中隨機(jī)地抽取m個子樣本,并且在訓(xùn)練每個基學(xué)習(xí)器時隨機(jī)地選取k個特征,從中選擇最優(yōu)特征來切分節(jié)點(diǎn),從而進(jìn)一步降低模型的方差,且不容易出現(xiàn)過擬合現(xiàn)象[19].模型中弱學(xué)習(xí)器的最大迭代次數(shù)n_estimators的選取較為重要,n_estimators越大模擬效果越好,但需要的計(jì)算量和內(nèi)存也越大,訓(xùn)練時間也會延長,為綜合平衡預(yù)報效果和訓(xùn)練時長,同時結(jié)合樣本量,該研究中該參數(shù)取值100.
極端隨機(jī)樹算法.極端隨機(jī)樹算法是隨機(jī)森林算法的一個變種,基本原理與隨機(jī)森林算法類似,僅在采樣方式和特征值劃分方式上有區(qū)別.在采樣方式上,隨機(jī)森林算法采用的是bootstrap,極端隨機(jī)樹算法采用的是原始訓(xùn)練集;在特征值劃分方式上,隨機(jī)森林算法會選擇最優(yōu)特征值作為劃分點(diǎn),極端隨機(jī)樹算法會隨機(jī)選擇一個特征值來劃分決策樹.
梯度提升回歸樹算法.梯度提升回歸樹算法是集成學(xué)習(xí)的一個重要算法,在被Friedman提出之初與支持向量機(jī)算法一起被認(rèn)為是泛化能力較強(qiáng)的算法,其核心在于每棵樹是從先前所有樹的殘差中來學(xué)習(xí).梯度提升回歸樹算法利用當(dāng)前模型中損失函數(shù)的負(fù)梯度值作為殘差的近似值,進(jìn)而擬合一棵回歸樹.梯度提升回歸樹算法具有三點(diǎn)優(yōu)勢,分別為可以自然地處理混合類型的數(shù)據(jù)、預(yù)測能力較強(qiáng)以及對異常值的魯棒性強(qiáng)[20].
BP神經(jīng)網(wǎng)絡(luò)算法.BP神經(jīng)網(wǎng)絡(luò)算法在1986年由Rumelhart和McClelland首次提出[21],其輸出結(jié)果采用前向傳播,誤差采用反向(back propagation)傳播方式進(jìn)行,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)包含一個輸入層、一個或多個隱含層以及一個輸出層,每一層可以有多個神經(jīng)元.張恒德等[22]對BPNN(反向神經(jīng)網(wǎng)絡(luò))算法中不同隱含層節(jié)點(diǎn)數(shù)和不同訓(xùn)練函數(shù)進(jìn)行了對比分析,發(fā)現(xiàn)隱含層節(jié)點(diǎn)數(shù)和訓(xùn)練函數(shù)分別取10和trainbr (貝葉斯歸一化法)時預(yù)報效果最好.該研究中激活函數(shù)選為softmax,該函數(shù)可得到每個模式對污染物濃度預(yù)報值與觀測值最為接近的概率,最終通過加權(quán)平均的方法得到結(jié)果.
隨機(jī)森林、極端隨機(jī)樹和梯度提升回歸樹均是以決策樹為基模型的集成學(xué)習(xí)算法,具有較大的解釋度,同時這類算法適用于類別豐富且存在缺失的數(shù)據(jù)集.相比而言,神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)集整潔程度要求較高,需要更為嚴(yán)苛的前期準(zhǔn)備工作,同時神經(jīng)網(wǎng)絡(luò)算法在調(diào)參上也更為靈活多變.因此,該研究結(jié)合兩類機(jī)器學(xué)習(xí)算法的特點(diǎn),主要優(yōu)化思路如圖1所示.首先,利用以隨機(jī)森林、極端隨機(jī)樹、梯度提升回歸樹為代表的集成決策樹算法,融入大量、多類源數(shù)據(jù)進(jìn)行第一次優(yōu)化,得到優(yōu)化后的污染物小時預(yù)報值;訓(xùn)練結(jié)果進(jìn)入基于均方根誤差的擇優(yōu)選擇器,選取3種決策樹算法中優(yōu)化效果最好的算法,再利用BP神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)集進(jìn)行二次優(yōu)化,此時輸入數(shù)據(jù)規(guī)范且整潔,更有利于BP神經(jīng)網(wǎng)絡(luò)算法的調(diào)參優(yōu)化;最終得到單個輸入向量的權(quán)重,通過加權(quán)平均獲得訂正結(jié)果,稱為多模式集合預(yù)報訂正算法(Ensemble Tree-Back Propagation Neural Network,簡稱“ET-BPNN算法”).
圖1 ET-BPNN算法運(yùn)行流程Fig.1 Running process of ET-BPNN algorithm
利用隨機(jī)森林、極端隨機(jī)樹和梯度提升回歸樹算法對4個單模式預(yù)測的4項(xiàng)常規(guī)污染物濃度進(jìn)行第一次優(yōu)化過程中,綜合考慮單模式多尺度的污染物濃度預(yù)報數(shù)據(jù)、影響污染物濃度的WRF氣象因子預(yù)報數(shù)據(jù)(包括2 m溫度、2 m相對濕度、10 m風(fēng)速、10 m風(fēng)向、氣壓和小時累計(jì)降水量)以及污染物濃度觀測數(shù)據(jù).滾動訂正預(yù)報的運(yùn)作流程如圖2所示,在訓(xùn)練階段,設(shè)當(dāng)日時間為t,考慮到氣象場和污染場的時間連續(xù)性,訓(xùn)練時長選取15 d,即用前15 d〔即(t?14)d至t時段〕的逐小時數(shù)據(jù)作為訓(xùn)練樣本,其為8(8類變量)×360(小時數(shù))的矩陣,對應(yīng)的逐小時觀測污染物濃度數(shù)據(jù)作為測試樣本,其為1×24(小時數(shù))的矩陣,訓(xùn)練樣本和測試樣本為圖2中橙色方框所示的數(shù)據(jù)集,分別利用隨機(jī)森林、極端隨機(jī)樹和梯度提升回歸樹進(jìn)行建模;在預(yù)報階段,利用訓(xùn)練時段的建模,輸入(t+1)d的逐小時預(yù)報數(shù)據(jù),即可得到優(yōu)化后的單模式污染物濃度預(yù)報數(shù)據(jù)(圖2中藍(lán)色方框所示的數(shù)據(jù)集).
圖2 ET-BPNN算法所用數(shù)據(jù)集(以PM 2.5為例)Fig.2 Diagram of data set used in ET-BPNN algorithm (taking PM 2.5 as an example)
在利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行二次優(yōu)化過程中,通過計(jì)算均方根誤差的最小值得出隨機(jī)森林、極端隨機(jī)樹和梯度提升回歸樹中預(yù)報效果最優(yōu)的結(jié)果集,該數(shù)據(jù)集中包含4個不同模式和3個不同模擬區(qū)域,共12個輸入向量,輸入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行集合優(yōu)化.經(jīng)過softmax算法,得到每個模式與觀測最為接近的概率(?i).因此,最終的預(yù)報值為各單模式優(yōu)化結(jié)果的加權(quán)平均(C),計(jì)算公式:
式中:Ci為第i個輸入向量的模擬濃度,μg/m3,其中i=1,2,...,12;?i為經(jīng)過BP神經(jīng)網(wǎng)絡(luò)算法得到的該輸入向量對應(yīng)的概率.
4個空氣質(zhì)量數(shù)值預(yù)報模式(CMAQ、CAMx、NAQPMS和WRFChem)以及經(jīng)模式集合平均算法及ET-BPNN算法優(yōu)化后的各項(xiàng)污染物小時濃度預(yù)報值與觀測值的統(tǒng)計(jì)學(xué)指標(biāo)如表1所示.由表1可見,ET-BPNN算法對單模式的預(yù)報效果有明顯改進(jìn),以預(yù)報效果較好的NAQPMS模式為例,經(jīng)ET-BPNN算法優(yōu)化后NO2、O3、PM2.5和PM10濃度預(yù)報值與觀測值之間的相關(guān)系數(shù)分別提高了60.6%、41.6%、43.0%和91.4%,均方根誤差分別減小了51.9%、60.1%、63.0%和60.0%,均一化標(biāo)準(zhǔn)差分別降低了99.5%、105.3%、97.8%和106.7%,平均相對誤差分別降低了39.9%、62.8%、44.8%和50.0%.
表1 單模式、模式集合平均算法、ET-BPNN算法預(yù)報效果對比Table1 Comparisonsof forecasting results of single models,ensemble mean and ET-BPNN
經(jīng)模式集合平均算法優(yōu)化后的預(yù)報效果較單模式有所提升,與NAQPMS單模式預(yù)報結(jié)果相比,經(jīng)模式集合平均算法優(yōu)化后NO2、O3、PM2.5和PM10濃度預(yù)報值與觀測值之間的均方根誤差分別減小了30.8%、50.8%、34.7%和35.4%.與模式集合平均算法相比較,ET-BPNN算法的優(yōu)化效果更好,經(jīng)ET-BPNN算法優(yōu)化后,NO2、O3、PM2.5和PM10濃度預(yù)報值與觀測值之間的相關(guān)系數(shù)分別提高了15.6%、9.5%、17.7%和46.5%,均方根誤差分別減小了30.4%、18.9%、43.3%和38.1%,均一化標(biāo)準(zhǔn)差分別降低了100.0%、110.0%、95.7%和113.3%,平均相對誤差分別降低了29.6%、17.4%、63.8%和36.8%.
總體而言,ET-BPNN算法能夠使模式預(yù)報數(shù)據(jù)在變化趨勢和絕對值上與實(shí)況更為接近.在數(shù)值偏差上,ET-BPNN算法對PM2.5和O3的優(yōu)化效果最為明顯.目前,PM2.5和O3已成為全球最為關(guān)注的兩種污染物,ET-BPNN算法對二者預(yù)報效果的明顯改進(jìn)為污染預(yù)報預(yù)警和精準(zhǔn)管控提供了有力的技術(shù)支撐.
由圖3可見,經(jīng)ET-BPNN算法優(yōu)化后的預(yù)報效果較單模式和模式集合平均算法均有明顯提升.在4種污染物中,經(jīng)ET-BPNN算法優(yōu)化后O3濃度預(yù)報值與觀測值的相關(guān)系數(shù)最高,達(dá)0.82,標(biāo)準(zhǔn)化偏差僅為0.85;對于PM2.5濃度而言,其在CMAQ單模式中預(yù)報效果最為突出,經(jīng)ET-BPNN算法優(yōu)化后,預(yù)報值與觀測值在變化特征和絕對值上與觀測值更為接近,相關(guān)系數(shù)由0.59提至0.73.與模式集合平均算法相比,ET-BPNN算法對固態(tài)污染物的優(yōu)化效果略優(yōu)于氣態(tài)污染物,ET-BPNN算法使NO2、O3、PM2.5和PM10四種污染物預(yù)報結(jié)果的標(biāo)準(zhǔn)化偏差較優(yōu)化前分別降低了24.0%、4.4%、38.3和41.0%.
圖3 單模式、模式集合平均算法和ET-BPNN算法預(yù)報效果評估的泰勒圖Fig.3 Forecasting assessment Taylor diagram of the single model,ensemblemean and the ET-BPNN
自2013年起,中國相繼發(fā)生了數(shù)次大范圍和長時間的空氣污染事件,自此社會對于PM2.5污染的關(guān)注程度日益升高[23].ET-BPNN算法在不同季節(jié)和不同預(yù)報時效上的優(yōu)化效果如圖4、5所示,樣本點(diǎn)為上海市10個國控站點(diǎn).對不同季節(jié)而言,ET-BPNN算法在較易發(fā)生污染的秋冬季對PM2.5的預(yù)報具有明顯的優(yōu)化效果;此外,該算法明顯縮小了不同站點(diǎn)之間的預(yù)報偏差,具有較好的魯棒性(即機(jī)器學(xué)習(xí)算法在數(shù)據(jù)變化時的穩(wěn)定性).對不同預(yù)報時效而言,隨著預(yù)報時效的增加,單模式的預(yù)報偏差逐漸增大,通過ET-BPNN算法優(yōu)化后不同預(yù)報時效之間的偏差明顯減小,較大地提高了預(yù)報的時效穩(wěn)定性;同樣地,ET-BPNN算法提高了不同站點(diǎn)的預(yù)報穩(wěn)定性,表明該算法具有較強(qiáng)的泛化能力(即機(jī)器學(xué)習(xí)算法對新樣本的適應(yīng)能力).
圖4 單模式和ET-BPNN算法在不同季節(jié)模擬的均方根誤差盒須圖Fig.4 RMSE distribution of four models and the ET-BPNN in four seasons
圖5 單模式和ET-BPNN算法在不同預(yù)報時效模擬的均方根誤差盒須圖Fig.5 RMSE distribution of four models and the ET-BPNN in different forecasting time
在該研究時段上海市出現(xiàn)了多次O3污染過程,集中在2018年4?10月,其中,輕度污染24 d,中度污染3 d.選取包含輕度和中度污染過程的2018年7月27?28日(其中,27日為中度污染,28日為輕度污染)進(jìn)行分析,在此次污染過程中實(shí)測O3小時濃度最高值為294μg/m3,ET-BPNN算法和模式集合平均算法預(yù)報的當(dāng)日O3小時濃度最高值分別為209和124μg/m3,可見ET-BPNN算法較模式集合平均算法對O3峰值濃度有更好的預(yù)報效果.與模式集合平均算法相比,ET-BPNN算法對此次污染過程預(yù)報結(jié)果進(jìn)行訂正后,均方根誤降低了30.3%.對PM2.5而言,在研究時段共出現(xiàn)25個輕度污染日,2個中度污染日,集中在2018年11月?2019年2月. 選取包含PM2.5輕度和中度污染過程的2019年2月23?25日進(jìn)行分析(其中,23日為中度污染,24?25日為輕度污染),實(shí)測PM2.5小時濃度最高值為159μg/m3,ET-BPNN算法和模式集合平均算法預(yù)報的當(dāng)日PM2.5小時濃度最高值分別為100和78μg/m3.與模式集合平均算法相比,ET-BPNN算法對此次污染過程預(yù)報結(jié)果進(jìn)行訂正后,均方根誤降低了20.6%.
分析ET-BPNN算法對污染時段O3-8 h濃度和PM2.5濃度日均值的模擬優(yōu)化情況.由圖6可見,對O3而言,單模式預(yù)報結(jié)果出現(xiàn)一定程度的高估,經(jīng)ET-BPNN算法優(yōu)化后的預(yù)報值能夠更好地把握污染過程,對污染物峰值濃度的預(yù)報也較模式集合平均算法更準(zhǔn)確,二者的預(yù)報平均誤差分別為32.5和48.9 μg/m3,平均誤差率分別為27.1%和40.8%.由圖7可見,對PM2.5而言,單模式在污染日的預(yù)報效果較非污染日差,經(jīng)ET-BPNN算法優(yōu)化后的預(yù)報值在變化趨勢和絕對值上都與觀測值最為接近,與模式集合平均算法相比,ET-BPNN算法在污染日的預(yù)報效果更優(yōu),而模式集合平均算法易出現(xiàn)高估或低估的情況,二者的預(yù)報平均誤差分別為16.0和22.2μg/m3,平均誤差率分別為37.5%和52.1%.
圖6 2018年4—10月O3-8 h濃度的觀測值、ET-BPNN算法預(yù)報值、模式集合平均算法預(yù)報值以及單模式預(yù)報值范圍的時間序列Fig.6 Timeseries of observed daily O3-8 h concentration and forecasting daily O3-8 h concentration optimized by ET-BPNN algorithm and ensembleaverage algorithm from April to October,2018
圖7 2018年11月—2019年2月PM 2.5濃度的觀測值、ET-BPNN算法預(yù)報值、模式集合平均算法預(yù)報值以及單模式預(yù)報值范圍的時間序列Fig.7 Time seriesof observed daily PM 2.5 concentration and forecasting daily PM 2.5 concentration optimized by ET-BPNN algorithm and ensembleaverage algorithm from November 2018 to February 2019
4個單模式、模式集合平均算法以及ET-BPNN算法的污染物(NO2、O3、PM2.5和PM10)小時濃度預(yù)報值與實(shí)測值的均方根誤差月分布熱力圖如圖8所示.由圖8可見,單模式以及ET-BPNN算法和模式集合平均算法均對NO2的預(yù)報效果較優(yōu),PM2.5次之,對O3和PM10的預(yù)報效果相對較差.由于PM10污染主要是由北方沙塵傳輸引起,而未包含沙塵預(yù)報模塊的空氣質(zhì)量模型僅能通過數(shù)據(jù)同化對初始場和邊界場進(jìn)行更新,因此對沙塵的預(yù)報能力較弱.對于出現(xiàn)O3污染的4?10月,單模式模擬效果預(yù)報效果均較差,經(jīng)ET-BPNN算法優(yōu)化后預(yù)報效果較模式集合平均算法更好,在9、10月EP-BPNN算法使O3濃度預(yù)報值與實(shí)測值的均方根誤差分別較模式集合平均算法降低了27.2%和33.9%.在出現(xiàn)PM2.5污染的2018年11月?2019年2月,對4個單模式而言,CMAQ和WRFChem的預(yù)報效果較CAMx和NAQPMS好,ET-BPNN算法優(yōu)化效果明顯,2018年11月、12月和2019年1月、2月EP-BPNN算法使PM2.5濃度預(yù)報值與實(shí)測值的均方根誤差較模式集合平均算法分別降低了57.7%、31.3%、30.8%和0.3%.對全年各月份而言,ET-BPNN算法較模式集合平均算法對固態(tài)污染物預(yù)報的優(yōu)化效果比氣態(tài)污染物更好,使PM2.5、PM10、NO2和O3小時濃度預(yù)報值與實(shí)測值的均方根誤差分別減少了40.7%、38.7%、28.8%和17.2%.
圖8 單模式和兩種集合算法的4種污染物小時濃度預(yù)報值與實(shí)測值的均方根誤差月分布熱力圖Fig.8 Monthly RMSE of four models and two ensemble algorithms between the hourly forecasting valuesand hourly observation values of four pollutants
ET-BPNN算法的適用范圍較廣,該研究中建立的ET-BPNN算法是對4種污染物的預(yù)報小時濃度數(shù)據(jù)進(jìn)行優(yōu)化訂正,但該算法也可用于對不同站點(diǎn)、不同預(yù)報時效和不同污染物的預(yù)報訂正.此外,該算法也可用于氣象領(lǐng)域,對不同氣象因子的預(yù)報效果進(jìn)行訂正.在利用該算法進(jìn)行優(yōu)化時,可引入對優(yōu)化目標(biāo)有影響的特征因子,特征因子的合理選取和前期清洗對訂正效果有較大影響,許博等[24]利用隨機(jī)森林算法探究了排放源、大氣氧化能力、氣象條件等多種驅(qū)動因素對PM2.5濃度的影響.Jiang等[25]基于粗糙集理論進(jìn)行數(shù)據(jù)清洗后再利用BPNN算法對空氣質(zhì)量預(yù)測,取得了較好的效果.
由于大部分集合預(yù)報的缺陷在于統(tǒng)計(jì)方法常常對平均狀態(tài)的預(yù)報改進(jìn)顯著,但會漏掉極端值的預(yù)報[26],對于日變化較大的污染物(如O3)集合算法在這方面的缺陷則顯現(xiàn)出來[27].Chaiyakhan等[28]先利用K-mean方法對O3濃度先進(jìn)行聚類,然后利用支持向量機(jī)對小時地面O3濃度進(jìn)行預(yù)報,達(dá)到較好的預(yù)報效果.類似地,結(jié)合基于遺傳優(yōu)化的BPNN算法和支持向量機(jī)算法對北京市O3濃度進(jìn)行預(yù)報也得到了較好的效果[29].Mallet等[30]研究發(fā)現(xiàn),連續(xù)聚類的機(jī)器學(xué)習(xí)集合預(yù)報算法對O3濃度的業(yè)務(wù)預(yù)報具有較大的改進(jìn)作用.因此,在對有規(guī)律日變化的污染物進(jìn)行預(yù)報訂正時,采用聚類方法對數(shù)據(jù)進(jìn)行前處理,或許可以有效地改善預(yù)報效果.
a)ET-BPNN算法對單模式的預(yù)報效果有明顯改進(jìn),以預(yù)報效果較好的NAQPMS模式為例,經(jīng)過ET-BPNN算法優(yōu)化后NO2、O3、PM2.5和PM10濃度預(yù)報值與觀測值之間的均方根誤差分別減小了51.9%、60.1%、63.0%和60.0%;與模式集合平均算法相比較,經(jīng)ET-BPNN算法優(yōu)化后NO2、O3、PM2.5和PM10濃度預(yù)報值與觀測值之間的均方根誤差分別減小了30.4%、18.9%、43.3%和38.1%.ET-BPNN算法能夠使模式預(yù)報數(shù)據(jù)在變化趨勢和絕對值上均與實(shí)況更為接近,綜合考慮所有單模式的預(yù)報效果,該優(yōu)化算法對NO2的優(yōu)化效果最為明顯.
b) 對不同季節(jié)PM2.5預(yù)報效果改進(jìn)方面,ET-BPNN算法在較易發(fā)生污染的秋冬季對PM2.5的預(yù)報具有明顯的優(yōu)化效果;此外,該算法明顯縮小了不同站點(diǎn)的預(yù)報偏差,具有較好的魯棒性.對不同預(yù)報時效的PM2.5預(yù)報效果改進(jìn)方面,經(jīng)ET-BPNN算法優(yōu)化后不同預(yù)報時效之間的偏差明顯減小,較大地提高了預(yù)報的時效穩(wěn)定性.
c)在污染過程模擬方面,對O3-8 h濃度而言,單模式預(yù)報結(jié)果有一定程度的高估,經(jīng)ET-BPNN算法優(yōu)化后的預(yù)報值能夠更好地把握污染過程,對污染物峰值濃度的預(yù)報也較模式集合平均算法更準(zhǔn)確,二者的預(yù)報平均誤差分別為32.5和48.9μg/m3.對PM2.5濃度而言,與模式集合平均算法相比較,ET-BPNN算法在污染日的預(yù)報效果更優(yōu),而模式集合平均算法容易出現(xiàn)高估或低估,二者的預(yù)報平均誤差分別為16.0和22.2μg/m3.ET-BPNN算法較模式集合平均算法對固態(tài)污染物的優(yōu)化效果比氣態(tài)污染物更明顯,PM2.5、PM10、NO2和O3小時濃度預(yù)報值與實(shí)測值的均方根誤差分別減少了40.7%、38.7%、28.8%和17.2%.