余東昌,趙文芳*,聶 凱,張 舸
(1.北京城市氣象研究院,北京 100089;2.北京市氣象信息中心,北京 100089;3.北京市氣象探測(cè)中心,北京 100176;4.信圖智行(北京)科技有限公司,北京 100022)
大氣能見度是反映大氣透明度的一個(gè)指標(biāo),具體定義為視力正常的人能從背景(天空或地面)中識(shí)別出具有一定大小的目標(biāo)物的最大距離。影響能見度的因子主要有大氣透明度、氣溶膠的化學(xué)成分、氣象因子等,當(dāng)出現(xiàn)降雨、霧、霾、沙塵暴等天氣過(guò)程時(shí),大氣透明度較低,因此能見度較差。能見度高低與人們?nèi)粘I钕⑾⑾嚓P(guān),低能見度容易引發(fā)交通事故,帶來(lái)嚴(yán)重的危害和經(jīng)濟(jì)損失。例如,長(zhǎng)時(shí)間的低能見度天氣不僅會(huì)造成大范圍的航班延誤和取消,對(duì)航空公司帶來(lái)巨大損失,還會(huì)對(duì)公眾出行造成影響。近年來(lái),京津冀地區(qū)霧霾事件頻發(fā),低能見度已經(jīng)成為衡量霧霾污染程度最重要的指標(biāo)之一[1-2],能見度的相關(guān)研究受到大氣、環(huán)境領(lǐng)域乃至社會(huì)的廣泛關(guān)注,而能見度的預(yù)報(bào)也成為霾天氣預(yù)報(bào)以及相關(guān)環(huán)境氣象預(yù)報(bào)服務(wù)的重要基礎(chǔ)之一。
目前,能見度的預(yù)報(bào)方法主要包括數(shù)值模式預(yù)報(bào)和統(tǒng)計(jì)預(yù)報(bào)。數(shù)值模式預(yù)報(bào)主要基于空氣動(dòng)力學(xué)理論和物理化學(xué)過(guò)程,使用各類氣象數(shù)據(jù)和排放源數(shù)據(jù),建立環(huán)境氣象數(shù)值模式系統(tǒng)來(lái)模擬大氣中的污染物、濕度、液態(tài)水含量等要素,依據(jù)大氣光學(xué)理論,計(jì)算其對(duì)大氣消光的貢獻(xiàn),診斷預(yù)報(bào)大氣能見度[3-5]。廣泛應(yīng)用的模式包括美國(guó)環(huán)保署開發(fā)的通用多尺度空氣質(zhì)量模型(Community Multi-scale Air Quality model,CMAQ),美國(guó)國(guó)家大氣研究中心、美國(guó)國(guó)家海洋和大氣管理局等多家聯(lián)合研發(fā)的氣象-化學(xué)在線完全耦合的區(qū)域空氣質(zhì)量模式(Weather Research and Forecasting(WRF)model coupled with Chemistry,WRF-Chem)[6],中國(guó)氣象科學(xué)研究院研發(fā)的城市空氣污染數(shù)值預(yù)報(bào)系統(tǒng)(City Air Pollution Prediction System,CAPPS)[7]和霧霾數(shù)值預(yù)報(bào)模式CAUCE(CMA Unified Atmospheric Chemistry Environment)[8]等。部分省級(jí)氣象部門也通過(guò)引進(jìn)國(guó)外WRF-Chem化學(xué)模式進(jìn)行本地化改來(lái)提升區(qū)域環(huán)境業(yè)務(wù)水平,例如,華北區(qū)域氣象中心北基于北京地區(qū)快速更新循環(huán)同化預(yù)報(bào)系統(tǒng)、WRF-Chem 模式和優(yōu)選的能見度參數(shù)化方案,建立了華北區(qū)域環(huán)境氣象數(shù)值預(yù)報(bào)系統(tǒng)(Beijing Regional Environmental Meteorology Prediction System,RMAPS-CHEM)[9]。已有研究表明,這些模式的預(yù)報(bào)能力隨能見度降低均逐漸下降,存在對(duì)于低能見度模擬偏高的問題,在能見度預(yù)報(bào)業(yè)務(wù)中需要預(yù)報(bào)員進(jìn)行訂正[10-11]。
傳統(tǒng)的統(tǒng)計(jì)預(yù)報(bào)法是通過(guò)尋找氣象要素對(duì)能見度的影響關(guān)系,構(gòu)建預(yù)報(bào)量與預(yù)報(bào)因子之間的預(yù)報(bào)模型來(lái)實(shí)現(xiàn)。這種建模都是事先給定模式的因變量與自變量之間的函數(shù)關(guān)系,不能較好地描述因變量與自變量之間的聯(lián)系,也無(wú)法預(yù)報(bào)歷史數(shù)據(jù)中未出現(xiàn)過(guò)的天氣,存在一定局限性。近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,不少學(xué)者開始用機(jī)器學(xué)習(xí)算法進(jìn)行能見度預(yù)報(bào)的研究,通過(guò)選取污染物濃度、溫度、濕度、氣壓、風(fēng)速、水汽壓等影響因子,使用多元線性回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等對(duì)能見度進(jìn)行預(yù)測(cè)[12-17]。然而,除了氣象條件,能見度還受到排放量、氣溶膠化成分等因素的共同影響,應(yīng)用單一模型和有限的氣象因子建立模型,對(duì)預(yù)測(cè)精度產(chǎn)生了一定影響。
集成學(xué)習(xí)是目前機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,它的基本思想是把多個(gè)學(xué)習(xí)器通過(guò)一定方法進(jìn)行組合,通過(guò)優(yōu)勢(shì)互補(bǔ)以獲得比單一模型更好的擬合表現(xiàn)和更小的誤差,從而達(dá)到最終效果的提升。目前主流的集成機(jī)器學(xué)習(xí)方法有:Boosting、Bagging 和Stacking。近年來(lái)許多機(jī)器學(xué)習(xí)競(jìng)賽的冠軍均使用了集成學(xué)習(xí),一些主流的互聯(lián)網(wǎng)公司,例如騰訊、阿里巴巴都已經(jīng)將集成學(xué)習(xí)用在推薦、搜索排序、用戶行為預(yù)測(cè)、點(diǎn)擊率預(yù)測(cè)、產(chǎn)品分類等業(yè)務(wù)中,并取得了良好效果。已有文獻(xiàn)將集成學(xué)習(xí)應(yīng)用在PM2.5預(yù)測(cè)[18-20]、溫度預(yù)報(bào)訂正[21]、O3濃度預(yù)測(cè)[22]和估算[23]中并達(dá)到了更加準(zhǔn)確的預(yù)報(bào)效果,尚沒有研究將集成學(xué)習(xí)應(yīng)用至能見度預(yù)報(bào)中。因此,本文選擇boosting集成學(xué)習(xí)方法建立能見度預(yù)測(cè)模型,有利于降低預(yù)報(bào)誤差。
本文利用1980—2020 年北京地區(qū)國(guó)家級(jí)地面氣象臺(tái)站觀測(cè)的大氣水平能見度數(shù)據(jù)對(duì)北京地區(qū)大氣能見度的逐年變化趨勢(shì)進(jìn)行分析,這些數(shù)據(jù)均經(jīng)過(guò)“臺(tái)站級(jí)—省級(jí)—國(guó)家級(jí)”三級(jí)質(zhì)控。先計(jì)算每個(gè)站逐年能見度均值,再統(tǒng)計(jì)所有站的年平均能見度,結(jié)果如圖1所示??梢钥闯?,1980—2020年北京地區(qū)年均能見度整體呈下降趨勢(shì):1980—2006 年能見度呈波動(dòng)式的變化,整體上呈現(xiàn)緩慢下降趨勢(shì);2007—2013 年能見度呈上升趨勢(shì);2014 年能見度最低,城區(qū)的能見度均值比北京地區(qū)年均值低25.14%;2015—2019 年能見度又呈現(xiàn)上升趨勢(shì),這從側(cè)面反映了近幾年空氣污染治理取得了良好效果。余予等[24]分析北京地區(qū)能見度變化后指出,海淀和石景山站點(diǎn)觀測(cè)的能見度整體呈下降趨勢(shì),這與本文的研究結(jié)果較為接近。
圖1 北京地區(qū)能見度逐年變化趨勢(shì)Fig.1 Annual change trend of visibility in Beijing area
參考霧霾等級(jí)標(biāo)準(zhǔn)劃將能見度分為四個(gè)級(jí)別:0~2 km、2~5 km、5~10 km 和10 km 以上,分析1980—2020 年北京地區(qū)各個(gè)季節(jié)(春季3~5 月、夏季6~8 月、秋季9~11 月、冬季12 月至來(lái)年2 月)不同等級(jí)能見度出現(xiàn)的天數(shù)和所占百分比,低能見度<2 km在不同季節(jié)出現(xiàn)天數(shù)的結(jié)果如圖2所示。從圖2中可以看出,冬季出現(xiàn)能見度<2 km的天數(shù)最多,秋季次之,春季和夏季較少;1980—1999 年期間逐年能見度<2 km 出現(xiàn)的天數(shù)不超過(guò)15 d,2000—2012 年期能見度<2 km 出現(xiàn)的天數(shù)最少,2013—2016 年秋冬季節(jié)能見度<2 km 出現(xiàn)的天數(shù)明顯增多,2017—2019 年能見度<2 km 出現(xiàn)的天數(shù)明顯下降,不超過(guò)10 d 能見度在2~5 km 出現(xiàn)的天數(shù)隨時(shí)間的變化特征如下:1980—1999 年呈波浪形變化,變化幅度不大;2000—2012 年呈現(xiàn)明顯遞減趨勢(shì);2013—2016 年又呈現(xiàn)上升趨勢(shì),最高達(dá)到80 d;2017 年之后下降至30 d 左右。能見度在2~5 km 出現(xiàn)的天數(shù)比較平均的分布在夏、秋、冬三個(gè)季節(jié),春季最少。
圖2 北京地區(qū)1980—2019年低能見度季節(jié)性的變化趨勢(shì)Fig.2 Seasonal change trend of low-visibility in Beijing area from 1980 to 2019
對(duì)所有氣象站的能見度觀測(cè)數(shù)據(jù)按春、夏、秋、冬季分類,計(jì)算各季節(jié)0 點(diǎn)到23 點(diǎn)逐小時(shí)能見度平均值,結(jié)果如圖3所示。
圖3 北京地區(qū)不同季節(jié)能見度日內(nèi)逐小時(shí)變化趨勢(shì)Fig.3 Hour-by-hour change trend in one day of visibility in Beijing are in different seasons
可以看出,春夏秋三季,一日中能見度最低值出現(xiàn)在上午5時(shí)至7時(shí),隨著氣溫的升高,相對(duì)濕度減小,熱力對(duì)流趨于旺盛,能見度逐漸轉(zhuǎn)好,平均能見度最高值出現(xiàn)在下午15 時(shí)至16 時(shí),到了傍晚隨著熱力對(duì)流條件減弱,相對(duì)濕度增加,能見度又持續(xù)變差。冬季,一日中能見度從凌晨開始呈現(xiàn)上升再下降趨勢(shì),最低值出現(xiàn)在上午8 時(shí),隨后又呈現(xiàn)上升趨勢(shì),下午15 時(shí)至16 時(shí)到達(dá)最大,到了傍晚能見度隨時(shí)間推移緩慢下降。
除了氣象要素,以PM2.5為代表的顆粒物濃度對(duì)能見度也有影響,因此進(jìn)行能見度與常規(guī)氣象要素及大氣成分觀測(cè)數(shù)據(jù)的相關(guān)性分析,考慮到北京地區(qū)最早開始PM2.5觀測(cè)是在2002 年,因此選擇使用2002—2019 年北京地區(qū)能見度、氣象要素及大氣成分觀測(cè)數(shù)據(jù)進(jìn)行該項(xiàng)數(shù)據(jù)分析工作。其中,PM2.5濃度數(shù)據(jù)來(lái)自于PM2.5監(jiān)測(cè)儀。該監(jiān)測(cè)儀利用β 射線作為輻射源,采用恒定流量抽氣,將PM2.5顆粒吸附在β 源和探測(cè)器之間的濾紙表面,然后根據(jù)抽氣前后探測(cè)器對(duì)β 射線計(jì)數(shù)值的改變換算單位體積空氣中PM2.5的濃度。
將能見度劃分四個(gè)等級(jí),計(jì)算每個(gè)等級(jí)下能見度和不同氣象要素的平均值,結(jié)果如表1 所示。當(dāng)能見度<2 km 時(shí),平均相對(duì)濕度78%,平均PM2.5濃度達(dá)到了119 μg/m3;當(dāng)能見度>10 km 時(shí),平均相對(duì)濕度僅有43%,平均PM2.5濃度為28.7 μg/m3;隨著能見度從好變差,氣壓、溫度、風(fēng)這三個(gè)氣象要素的變化并不顯著,相反PM2.5濃度變化最大,相對(duì)濕度變化次之。
對(duì)能見度的相關(guān)性按春夏秋冬四季和年兩個(gè)尺度進(jìn)行分析,結(jié)果如表2 所示。從中可看出,與能見度相關(guān)性較高的要素主要為PM2.5濃度、相對(duì)濕度、風(fēng)向及風(fēng)速,其中相對(duì)濕度、PM2.5濃度與能見度呈負(fù)相關(guān)關(guān)系,風(fēng)速、風(fēng)向與能見度呈正相關(guān)關(guān)系,這與以往研究結(jié)果一致[25]。相對(duì)濕度在春季與能見度相關(guān)性最高,而冬季最低;風(fēng)速與能見度的相關(guān)性在春季表現(xiàn)最弱,夏季最強(qiáng);風(fēng)向與能見度相關(guān)性在冬季最強(qiáng),春季最低;SO2濃度是北京地區(qū)供暖期間最主要的大氣污染物之一,在冬季和夏季與能見度相關(guān)性較高;PM2.5濃度與能見度在四季都保持著較高的相關(guān)性;由此可見,不同氣象要素對(duì)北京地區(qū)能見度的影響存在明顯的季節(jié)性差異。
表1 2009—2019年能見度及氣象要素的年平均值Tab.1 Annual mean values of visibility and meteorological factors from 2009 to 2019
表2 2009—2019年北京地區(qū)季、年平均能見度與各類要素間的相關(guān)系數(shù)Tab.2 Correlation coefficients between seasonal/annual average visibility with meteorological factors from 2009 to 2019
本文采用隨機(jī)森林方法選擇特征向量,使用LightGBM 建立能見度預(yù)測(cè)模型的方法。使用基于北京市空氣質(zhì)量歷史數(shù)據(jù)集、氣象和天氣預(yù)報(bào)數(shù)據(jù)集構(gòu)建的訓(xùn)練數(shù)據(jù)集開展模型訓(xùn)練。以過(guò)去24 h 的氣象數(shù)據(jù)、能見度數(shù)據(jù)、PM2.5濃度測(cè)數(shù)據(jù)、當(dāng)前時(shí)刻的氣象要素實(shí)況數(shù)據(jù)和氣象要素物理量數(shù)據(jù)等作為模型的輸入,通過(guò)優(yōu)化參數(shù)得到最佳模型并進(jìn)行預(yù)測(cè)。
梯度提決策升樹(Gradient Boosting Decision Tree,GBDT)是一種基于迭代所構(gòu)造的決策樹算法,既可以做回歸也可以做分類,它以分類回歸樹(Classification And Regression Trees,CART)模型作為弱學(xué)習(xí)器,將新學(xué)習(xí)器建立在之前學(xué)習(xí)器損失函數(shù)梯度下降的方向,通過(guò)不斷迭代來(lái)訓(xùn)練模型。迭代過(guò)程中,每一輪預(yù)測(cè)值和實(shí)際值有殘差,下一輪根據(jù)殘差再進(jìn)行預(yù)測(cè),最后將所有預(yù)測(cè)相加作為最終結(jié)論。因此,GBDT 可以表示為決策樹的加法模型,如式(1)所示:
其中:T(x;θm)表示決策樹;θm為決策樹參數(shù);M為樹的個(gè)數(shù)。根據(jù)向前分步算法,第m步的模型可以表示為式(2):
設(shè)定yi為第i個(gè)樣本的真實(shí)值,fm(xi)為第i個(gè)樣本的預(yù)測(cè)值,取損失函數(shù)為平方損失,那么損失函數(shù)可以表示為式(3):
根據(jù)式(4)極小化損失函數(shù)得到參數(shù)θm:
通過(guò)多次迭代,更新回歸樹可以得到最終模型。
LightGBM 是微軟基于GBDT 框架提出的改進(jìn)模型,使用基于直方圖的分割算法取代了傳統(tǒng)的預(yù)排序遍歷算法,不僅在訓(xùn)練速度和空間效率上均優(yōu)于GBDT,還能有效防止過(guò)擬合,更加適用于訓(xùn)練海量高維數(shù)據(jù)。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于北京地區(qū)2015—2018 年逐小時(shí)的氣象觀測(cè)數(shù)據(jù)、空氣質(zhì)量觀測(cè)數(shù)據(jù)以及氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)。氣象觀測(cè)數(shù)據(jù)和空氣質(zhì)量觀測(cè)數(shù)據(jù)來(lái)自于北京市氣象局國(guó)家級(jí)地面觀測(cè)站,包括逐小時(shí)氣壓、氣溫、相對(duì)濕度、降水量、風(fēng)向、風(fēng)速、PM2.5濃度、SO2濃度;氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)來(lái)源于北京市氣象局?jǐn)?shù)值模式系統(tǒng),主要包括不同高度層(1 000,975,925,850,700,500 hPa)的溫度預(yù)報(bào)、相對(duì)濕度預(yù)報(bào)、風(fēng)速風(fēng)向預(yù)報(bào)等。氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)完整性較好,觀測(cè)數(shù)據(jù)大約有5.7%的缺失。
對(duì)于缺失的觀測(cè)數(shù)據(jù),進(jìn)行缺失時(shí)長(zhǎng)統(tǒng)計(jì)。缺失時(shí)長(zhǎng)是指以小時(shí)為單位,將從最近一次觀測(cè)到有效值,到當(dāng)前時(shí)刻所經(jīng)過(guò)的時(shí)間跨度。所有缺失數(shù)據(jù)里,87.6%數(shù)據(jù)缺失時(shí)長(zhǎng)時(shí)長(zhǎng)為不超過(guò)2 h,10.4%數(shù)據(jù)缺失時(shí)長(zhǎng)為3~12 h,1.72%數(shù)據(jù)缺失時(shí)長(zhǎng)為12~2 h,0.28%數(shù)據(jù)缺失時(shí)長(zhǎng)為24 h 以上??紤]到不同季節(jié)中的小時(shí)平均能見度濃度變化存在較大差異,本文根據(jù)缺失時(shí)長(zhǎng)設(shè)計(jì)了三種不同的缺失值處理方法。對(duì)于缺失時(shí)長(zhǎng)≤2 h的,用上一時(shí)次和下一時(shí)次觀測(cè)數(shù)據(jù)的平均值替代;對(duì)于2 h<缺失時(shí)長(zhǎng)≤12 h 的,用最近的有效數(shù)據(jù)替代缺失值;對(duì)于12 h<缺失時(shí)長(zhǎng)≤24 h 的,用過(guò)去24 h 的平均值替代;缺失時(shí)長(zhǎng)超過(guò)24 h 的,用相同時(shí)間段的所有站的能見度均值和最近有效值作加權(quán)和替代缺失值。最近有效值和均值的結(jié)合,既考慮了長(zhǎng)期穩(wěn)定值又考慮了能見度突變狀況,比單一用均值替代更接近能見度實(shí)際變化情況。
數(shù)值模式系統(tǒng)中輸出的氣象要素格點(diǎn)預(yù)報(bào)多達(dá)幾十種,若所有格點(diǎn)預(yù)報(bào)全部輸入能見度預(yù)測(cè)模型進(jìn)行訓(xùn)練,會(huì)使模型結(jié)構(gòu)過(guò)于復(fù)雜,并產(chǎn)生過(guò)擬合現(xiàn)象,甚至導(dǎo)致模型泛化能力不足,因此,需要進(jìn)行篩選。
隨機(jī)森林是一種分類和回歸技術(shù),實(shí)現(xiàn)簡(jiǎn)單,計(jì)算開銷小,不僅適用于非線性數(shù)據(jù)建模,還適用于對(duì)變量進(jìn)行重要性分析,已有很多學(xué)者將隨機(jī)森林方法用于特征選擇,在衛(wèi)星遙感數(shù)據(jù)反演、空氣質(zhì)量預(yù)測(cè)、林地動(dòng)態(tài)預(yù)測(cè)、生態(tài)學(xué)預(yù)測(cè)等應(yīng)用中取得了良好效果。本文采用隨機(jī)森林法,從觀測(cè)數(shù)據(jù)和氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)中,選取對(duì)北京地區(qū)能見度有重要影響的觀測(cè)要素或預(yù)報(bào)要素作為特征向量。圖4 顯示了不同氣象要素及其重要性系數(shù)分布情況,排在前5 的分別是PM2.5濃度、相對(duì)濕度、海平面氣壓、850 hPa 和500 hPa 兩個(gè)高度層的溫度預(yù)報(bào),按照重要性系數(shù)從高到低選取12 個(gè)氣象要素作為能見度預(yù)測(cè)模型的特征向量。
圖4 不同特征向量的重要性系數(shù)Fig.4 Importance coefficient of different feature vectors
能見度預(yù)報(bào)是一個(gè)典型的時(shí)序預(yù)測(cè)問題,不僅相鄰時(shí)刻之間的能見度數(shù)值具有較強(qiáng)的相關(guān)性,而且各氣象要素前幾個(gè)時(shí)刻的變化速率和幅度也對(duì)當(dāng)前時(shí)刻的能見度有重要影響,因此,選擇當(dāng)前小時(shí)氣象觀測(cè)數(shù)據(jù)和PM2.5濃度數(shù)據(jù)、過(guò)去24 h 能見度、過(guò)去24 h 的觀測(cè)數(shù)據(jù)、當(dāng)前小時(shí)氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)作為模型的輸入量,將下1 h能見度預(yù)測(cè)數(shù)據(jù)作為模型的輸出量,進(jìn)行模型訓(xùn)練。
對(duì)于觀測(cè)數(shù)據(jù),根據(jù)缺失時(shí)長(zhǎng)選擇不同的處理方法進(jìn)行缺失值替換;對(duì)于預(yù)報(bào)數(shù)據(jù),根據(jù)觀測(cè)站點(diǎn)的經(jīng)緯度信息,通過(guò)雙線性插值法將氣象要素格點(diǎn)預(yù)報(bào)數(shù)據(jù)插值到觀測(cè)站點(diǎn),即可得到觀測(cè)站點(diǎn)的氣象要素預(yù)報(bào)數(shù)據(jù),從而生成關(guān)于觀測(cè)站點(diǎn)的逐小時(shí)原始數(shù)據(jù)集,然后使用隨機(jī)森林算法進(jìn)行特征提取形成特征向量集合。根據(jù)模型對(duì)輸入量要求,對(duì)向量集合進(jìn)行轉(zhuǎn)換,形成每個(gè)站點(diǎn)都包含當(dāng)前小時(shí)和過(guò)去24 h 特征量的樣本集合。基于樣本集合應(yīng)用LightGBM 建立預(yù)測(cè)模型,利用網(wǎng)絡(luò)搜索法優(yōu)化模型參數(shù),對(duì)未來(lái)1 h能見度進(jìn)行預(yù)報(bào)。
數(shù)據(jù)預(yù)處理后獲得114 104個(gè)逐小時(shí)的連續(xù)樣本,時(shí)間跨度為2015 年12 月—2018 年12 月,每個(gè)樣本包含41 個(gè)特征向量。訓(xùn)練集的時(shí)間跨度為2016年1月—2018年12月;2015年12 月京津冀地區(qū)經(jīng)歷了多次重霧霾污染過(guò)程,低能見度天氣現(xiàn)象發(fā)生頻繁,因此選擇測(cè)試集的時(shí)間為2015年12月。
使用python 和機(jī)器學(xué)習(xí)庫(kù)scikit-learn 完成數(shù)據(jù)的預(yù)處理和基于LightGBM 的能見度預(yù)測(cè)模型建立。為了進(jìn)一步將該模型與其他模型相比,還實(shí)現(xiàn)了多元線性回歸(Multiple Linear Regression,MLR)、結(jié)合粒子群優(yōu)化算法的支持向量機(jī)(Support Vector Machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的建模,其中ANN 模型使用反向傳播算法進(jìn)行訓(xùn)練。
為了評(píng)估模型的性能,將能見度按四個(gè)等級(jí)分別使用均方根誤差(Root Mean Square Error,RMSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)、相關(guān)系數(shù)(Relative coefficient,R)、預(yù)兆得分(Threat Score,TS)、漏報(bào)率和空?qǐng)?bào)率作為評(píng)價(jià)指標(biāo)。RMSE 和MAE 用于評(píng)估絕對(duì)誤差,可以反映預(yù)測(cè)的極值效應(yīng)和誤差范圍值,TS 評(píng)分是氣象預(yù)報(bào)業(yè)務(wù)上常用的檢驗(yàn)指標(biāo),用來(lái)全面評(píng)估預(yù)報(bào)準(zhǔn)確性。TS評(píng)分公式為:
其中:NA為預(yù)報(bào)正確的站(次)數(shù);NB為空?qǐng)?bào)站(次)數(shù);NC為漏報(bào)站(次)數(shù)。當(dāng)預(yù)報(bào)等級(jí)與實(shí)況等級(jí)相同,則判定為預(yù)報(bào)正確;預(yù)報(bào)在某等級(jí)內(nèi)而實(shí)況未出現(xiàn)在該等級(jí)內(nèi),則為空?qǐng)?bào);預(yù)報(bào)不在某等級(jí)內(nèi),而實(shí)況出現(xiàn)在該等級(jí)內(nèi),則為漏報(bào)。
對(duì)于基于LightGBM 的能見度預(yù)測(cè)模型,本文采用Scikitlearn 提供的GridSearch(格網(wǎng)搜索)法進(jìn)行4個(gè)主要參數(shù)調(diào)優(yōu):學(xué)習(xí)率、迭代次數(shù)、葉節(jié)點(diǎn)數(shù)以及樹的深度。在訓(xùn)練數(shù)據(jù)集上,進(jìn)行多次迭代,采用5 折交叉驗(yàn)證的方法來(lái)確定訓(xùn)練階段的最佳參數(shù)來(lái)用于預(yù)測(cè)。該模型參數(shù)最終確定為:學(xué)習(xí)率learning_rate=0.1,迭代次數(shù)n_estimators=100,葉節(jié)點(diǎn)num_leaves=64,樹的深度max_depth=8。
對(duì)于實(shí)驗(yàn)中其他模型,例如多元線性回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等,則根據(jù)不同模型的算法特性和調(diào)數(shù)參經(jīng)驗(yàn)進(jìn)行參數(shù)的初始值設(shè)置,再采用GridSearch 進(jìn)行參數(shù)優(yōu)化。SVM構(gòu)建模型時(shí),核函數(shù)選“rbf”,初始化參數(shù)C為100,gamma參數(shù)為10,經(jīng)過(guò)粒子群優(yōu)化后最終參數(shù)確定為,kernel=′rbf′,C=23.250 4,gamma=14.298 0。ANN 模型設(shè)置隱含層為3層,每層10 個(gè)神經(jīng)元,激活函數(shù)選“tanh”,學(xué)習(xí)率learning_rate=0.05,批量樣本batch_size=64。MLR 模型參數(shù)設(shè)置為:fit_intercept=True,normalize=False,copy_X=True,n_jobs=None。
3.3.1 能見度分級(jí)檢驗(yàn)
在能見度預(yù)報(bào)業(yè)務(wù)中,經(jīng)常使用分級(jí)檢驗(yàn)方法來(lái)評(píng)估不同數(shù)值模式預(yù)報(bào)系統(tǒng)的預(yù)報(bào)效果,預(yù)報(bào)員尤其關(guān)注低能見度的預(yù)報(bào)準(zhǔn)確率,數(shù)值模式研究人員也嘗試多種方法來(lái)提高低能見度的預(yù)報(bào)準(zhǔn)確率。因此,本文也對(duì)能見度進(jìn)行分級(jí)檢驗(yàn),按照4 個(gè)等級(jí),分別計(jì)算各模型在不同等級(jí)上的TS 得分,其結(jié)果如圖5 所示。由圖5 可見,對(duì)于<2 km 的能見度,LightGBM TS 最高,預(yù)報(bào)效果最好,可達(dá)0.89,而SVM 模型TS最低,為0.65,ANN 和MLR 模型TS 比LightGBM 略低;對(duì)于2~5 km 能見度,LightGBM 和MLR 模型表現(xiàn)相不差上下;對(duì)于5~10 km 能見度,ANN 模型能見度的預(yù)報(bào)效果最好,LightGBM和MLR 模型的TS 均略低;對(duì)于當(dāng)能見度≥10 km 時(shí),各模型的預(yù)報(bào)均比較好,TS差別較小。LightGBM 在不同等級(jí)能見度上的TS 分別為0.89、0.51、0.41、0.58,低能見度預(yù)報(bào)效果最好。
圖5 幾個(gè)模型的TS得分Fig.5 TS scores of different models
3.3.2 幾種模型預(yù)報(bào)效果比較
北京城區(qū)人口密集,是人們生活、生產(chǎn)、交通相對(duì)集中的地區(qū),也是低能見度的高發(fā)地;郊區(qū)人口密度相對(duì)稀疏,地勢(shì)開闊,因而發(fā)生低能見度的概率較少。因此,根據(jù)站點(diǎn)周邊環(huán)境以及氣候北京,從城區(qū)選擇3 個(gè)代表性的觀測(cè)站點(diǎn),郊區(qū)選擇1 個(gè)代表性的站點(diǎn)進(jìn)行誤差和預(yù)測(cè)結(jié)果的分析。對(duì)這4 個(gè)站點(diǎn)2015 年12 月24 日—31 日逐小時(shí)(共192 個(gè)時(shí)次)能見度進(jìn)行預(yù)測(cè),并分析平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)、R 等模型評(píng)價(jià)指標(biāo)。幾個(gè)模型的總體誤差及在各站點(diǎn)的誤差如表3 所示。四個(gè)模型中,LightGBM 的RMSE 最小,R 相關(guān)系數(shù)最高,RMSE的值越小,說(shuō)明預(yù)測(cè)模型具有更好的精確度,站點(diǎn)3 在海拔較高的地區(qū),偏北風(fēng)發(fā)生概率較高而且風(fēng)速大,因此低能見度發(fā)生概率偏小,而LightGBM 對(duì)低能見度預(yù)報(bào)TS 評(píng)分比高能見度要高,因此對(duì)站點(diǎn)3 的預(yù)報(bào)誤差比其他三個(gè)站點(diǎn)誤差略高;ANN 模型在四個(gè)站點(diǎn)上的預(yù)測(cè)效果差異不大,總體情況與MLR 模型類似,不過(guò)MLR 模型在站點(diǎn)1 和站點(diǎn)3 上的MAE 偏差最大,說(shuō)明MLR 模型對(duì)能見度峰值的預(yù)測(cè)與實(shí)況偏差較大;SVM模型的預(yù)測(cè)效果是四個(gè)模型中最差的,相關(guān)系數(shù)低于其他幾個(gè)模型。
表3 各模型在不同站點(diǎn)的誤差比較Tab.3 Error comparison of different models over different stations
四個(gè)站點(diǎn)中,所有模型均在站點(diǎn)2 上有最佳預(yù)測(cè)效果,因此給出四種模型對(duì)該站的逐小時(shí)能見度預(yù)測(cè)曲線隨時(shí)間的變化趨勢(shì),如圖6所示,其中obs_value是能見度觀測(cè)值??梢钥闯觯瑢?duì)于192 個(gè)時(shí)次的能見度預(yù)報(bào),各模型的表現(xiàn)差異比較明顯。LightGBM 的預(yù)測(cè)曲線與觀測(cè)曲線最為接近,尤其是在低能見度時(shí)的擬合非常好,表明該模型能較準(zhǔn)確地對(duì)低能見度進(jìn)行預(yù)測(cè),隨著預(yù)報(bào)時(shí)效的增加,該模型的預(yù)測(cè)效果并沒有明顯下降;ANN 模型對(duì)低能見度的預(yù)測(cè)比實(shí)況偏高,對(duì)能見度>10 km的預(yù)報(bào)比實(shí)況明顯偏低,而且隨著預(yù)報(bào)時(shí)間的推移偏差逐漸增大;MLR 模型對(duì)低能見度的預(yù)報(bào)比實(shí)況也偏高,在能見度>5 km時(shí)與實(shí)況的變化趨勢(shì)保持一致,對(duì)能見度峰值的擬合較好;SVM模型的預(yù)測(cè)效果表現(xiàn)最差,預(yù)測(cè)值明顯高于觀測(cè)值。相比之下,LightGBM 整體預(yù)測(cè)效果最好。幾個(gè)模型在其他站點(diǎn)的預(yù)測(cè)表現(xiàn)與觀象臺(tái)站相類似。
圖6 不同模型對(duì)站點(diǎn)1的預(yù)報(bào)效果對(duì)比Fig.6 Comparison of forecast results of different models over station 1
本文在分析北京地區(qū)不同等級(jí)能見度濃度隨季節(jié)變化規(guī)律、逐日變化趨勢(shì)的基礎(chǔ)上,利用隨機(jī)森林方法對(duì)氣象要素、大氣污染物濃度和能見度進(jìn)行分析,選擇了關(guān)聯(lián)度最大的12個(gè)指標(biāo)作為預(yù)測(cè)能見度的主要因素,并提出了一種使用集成學(xué)習(xí)LightGBM 預(yù)測(cè)能見度的方法。此外,針對(duì)數(shù)據(jù)缺測(cè)情況,設(shè)計(jì)了三種不同處理方法來(lái)替換缺失值,生成了2016—2018 年近三年逐小時(shí)的連續(xù)樣本數(shù)據(jù)集。通過(guò)幾個(gè)模型預(yù)測(cè)結(jié)果和誤差的對(duì)比表明,LightGBM 預(yù)測(cè)效果良好,尤其是對(duì)低能見度的預(yù)測(cè),與實(shí)況擬合非常接近。
PM2.5濃度與能見度相關(guān)性比較大,在本文實(shí)驗(yàn)中將它加入特征向量,取得了較好的預(yù)測(cè)效果。但是北京地區(qū)同時(shí)進(jìn)行大氣污染物和氣象要素觀測(cè)的站點(diǎn)不多,在后續(xù)的研究中,需要考慮使用PM2.5實(shí)況格點(diǎn)數(shù)據(jù)對(duì)站點(diǎn)進(jìn)行插值,在模型中接入更多的站點(diǎn)數(shù)據(jù),進(jìn)一步提高模型的效率和精度。