李 云, 張 瑩, 許金萍, 蔣曉梅, 楊 聃, 梁明珠
(1.浙江省安吉縣氣象局,浙江 安吉 313300; 2.浙江省湖州市氣象局,浙江 湖州 313000)
在全國污染物減排的大背景下,氣象條件顯然已成為大氣污染濃度變化的最重要因子[1-7]。包括地面氣象觀測要素及天氣形勢場及其相關(guān)物理量在內(nèi)的氣象條件,是研究地區(qū)大氣重污染事件的主要對象。然而污染物濃度變化的主要驅(qū)動因子不同研究區(qū)域之間有較大的差別。Zhang等[8]研究發(fā)現(xiàn),環(huán)流形勢是北京地區(qū)污染物濃度逐日變化的主要驅(qū)動因子。楊茜等[9]探究了降水對重慶市大氣污染物濃度的影響,發(fā)現(xiàn)PM2.5、PM10濃度隨降水量增加逐漸降低,降低趨勢線較為明顯。馬格等[10]對鄭州市氣象因子對大氣顆粒物濃度的影響研究發(fā)現(xiàn),降水、風(fēng)向、濕度與大氣顆粒物濃度相關(guān)。劉雯等[11]對武漢市觀象臺2013—2016年P(guān)M2.5質(zhì)量濃度變化及其與氣象因子的相關(guān)分析發(fā)現(xiàn),PM2.5質(zhì)量濃度變化與降水量、風(fēng)速和氣溫等氣象因子明顯相關(guān)。王景云等[12]分析了2012—2015年北京市空氣質(zhì)量指數(shù)變化及其與氣象要素的關(guān)系,發(fā)現(xiàn)整體上空氣質(zhì)量指數(shù)與風(fēng)速、日照時數(shù)、降水量、平均氣溫和最高氣溫呈負(fù)相關(guān),與濕度呈正相關(guān)。李德平[13]、孫燕[14]等通過分析發(fā)現(xiàn),風(fēng)是重污染的主要因子之一。劉郁玨等[15]對北京市房山區(qū)大氣污染物時空分布特征及氣象影響因素分析發(fā)現(xiàn),在不同季節(jié)條件下,局地氣象要素與污染天氣發(fā)生概率之間有著很好的相關(guān)關(guān)系;Pearce等[16-17]研究也指出,局地氣象條件而非天氣形勢是污染物日變化的主要驅(qū)動因子。大氣污染物濃度的變化與多個非獨(dú)立因子的氣象條件有著非線性關(guān)系。何建軍等[18]利用ANN技術(shù),構(gòu)建了氣象條件、污染物排放變化和污染物濃度的預(yù)測模型,其對NO2模擬準(zhǔn)確度最好,其次是SO2的模擬,對PM10的模擬結(jié)果最差。宋丹等[19]通過多元線性逐步回歸和BP神經(jīng)網(wǎng)絡(luò)方法,分季節(jié)建立空氣質(zhì)量指數(shù)預(yù)報模型,夏季指數(shù)準(zhǔn)確率近99%,冬季超過或接近80%。
為構(gòu)建一個較高準(zhǔn)確度的重污染天氣時PM10及PM2.5最優(yōu)預(yù)測模型及其氣象條件特征,本文以浙江天目山為例開展研究。
天目山地區(qū)位于浙江西北部,西接皖南,經(jīng)浙、皖邊境過杭嘉湖平原西緣,呈西南—東北走向。山脈主體在安吉、臨安境內(nèi),余脈還延伸至德清、余杭境內(nèi)。由于浙江省內(nèi)的重污染天氣西部比東部的多,持續(xù)時間長,北部又比南部的多,加之天目山山脈影響,致使天目山地區(qū)成了省內(nèi)冬、春空氣污染的重災(zāi)區(qū)之一。由于地處天目山山脈的安吉和臨安,都是國家級生態(tài)建設(shè)示范區(qū),因此本文重點(diǎn)探討天目山地區(qū)重污染時期氣象條件與污染濃度預(yù)測模型及其氣象條件特征。
天目山地區(qū)空氣污染監(jiān)測數(shù)據(jù)時間序列普遍偏短,重污染天氣數(shù)量少。李云等[20]研究發(fā)現(xiàn),安吉地區(qū)大氣顆粒物濃度及氣象要素數(shù)據(jù)的多元線性回歸方程擬合度差,與顯著性要素偏少有密切關(guān)系。
據(jù)有關(guān)研究和大量的使用結(jié)果顯示,支持向量機(jī)(SVM)[21-24]是一種優(yōu)秀的淺層學(xué)習(xí)方法,在小樣本訓(xùn)練集上有著無可比擬的優(yōu)勢,能夠得到比其他算法好很多的結(jié)果。LIBSVM是臺灣大學(xué)林智仁教授開發(fā)設(shè)計的一個快速有效的SVM模式識別與回歸方法。因此本文嘗試使用支持向量機(jī)(LIBSVM)方法,以期解決重污染時期氣象條件與污染濃度預(yù)測模型精確度問題。
在針對2015年1月—2018年10月天目山地區(qū)出現(xiàn)的重污染天氣(AQI大于等于151),分別建立PM2.5、PM10日數(shù)據(jù)最優(yōu)預(yù)測模型,并對其環(huán)流特征進(jìn)行分析。
擇優(yōu)選取天目山地區(qū)8個大氣成分監(jiān)測站,以及安吉、臨安、德清及余杭?xì)庀髧艺拘r數(shù)據(jù),對天目山地區(qū)地面氣象觀測要素(包括雨量、氣溫、最高氣溫、最低氣溫、本站氣壓、海平面氣壓、濕靜力能量、最大風(fēng)速、極大風(fēng)速、露點(diǎn)溫度、溫度露點(diǎn)差、水汽壓、相對濕度、最小濕度、能見度、最小能見度、地面溫度、地面最低溫度)、NECP再分析(FNL)資料(包括30°-31°E、120°-121°N的1000、850、700、500 hPa形勢場及邊界層高度、最大緯向風(fēng)、最大經(jīng)向風(fēng)、2 m溫度、地表溫度等相關(guān)物理場)及對應(yīng)的PM2.5、PM10濃度進(jìn)行數(shù)據(jù)預(yù)處理和日數(shù)據(jù)統(tǒng)計,利用LIBSVM方法,對PM2.5、PM10分別建立預(yù)測模型及參數(shù)(主要是懲罰參數(shù)c和核函數(shù)g)尋優(yōu)。
建立基于LIBSVM方法預(yù)測模型及參數(shù)尋優(yōu),首先對PM2.5、PM10、地面氣象要素、FNL再分析資料分別歸一化處理,然后進(jìn)行PCA降維,最后用交叉驗證(CV)、粒子群優(yōu)化(PSO)和遺傳(GA)等算法分別進(jìn)行預(yù)測模型參數(shù)對比尋優(yōu)。
關(guān)于SVM參數(shù)的優(yōu)化選取,國際上沒有公認(rèn)的統(tǒng)一方法,目前常用的是利用K-CV算法進(jìn)行交叉驗證[25]。
K-fold Cross Validation(K-CV)是常見的CV方法之一。它將原始數(shù)據(jù)分成K組,將每個子集數(shù)據(jù)分別作一次驗證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會得到K個模型,將K個模型最終的驗證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo)。K-CV可以有效地避免過學(xué)習(xí)及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果比較具有說服性。
K-CV算法需要遍歷網(wǎng)格內(nèi)所有參數(shù)點(diǎn)參數(shù)尋優(yōu),相對費(fèi)時。PSO和GA等啟發(fā)式算法的參數(shù)尋優(yōu)可更快找到最優(yōu)解。GA是一種基于生物遺傳和進(jìn)化機(jī)制的適合復(fù)雜系統(tǒng)優(yōu)化的自適應(yīng)概率優(yōu)化技術(shù),也是一種實(shí)用、高效、魯棒性強(qiáng)的優(yōu)化算法。PSO是一種基于群體智能的演化算法,通過粒子在解空間追隨最優(yōu)的例子進(jìn)行搜索。
利用構(gòu)建PM2.5、PM10最優(yōu)預(yù)測模型的地面氣象觀測要素、FNL再分析資料結(jié)果,對參與最優(yōu)預(yù)測模型的環(huán)流形勢場及相關(guān)物理量進(jìn)行k-means聚類分析,根據(jù)相關(guān)研究和本地經(jīng)驗選取k=4、5、6進(jìn)行對比擇優(yōu);根據(jù)擇優(yōu)結(jié)果,將相同類型的環(huán)流形勢場進(jìn)行合成計算,得到重污染天氣PM2.5、PM10對應(yīng)的最優(yōu)環(huán)流形勢場,并分析重污染天氣環(huán)流特征。
根據(jù)與PM2.5的相關(guān)系數(shù)的絕對值與顯著性特點(diǎn),將55個氣象條件按照順序進(jìn)入模型參與預(yù)測,在訓(xùn)練值占比69%,相關(guān)性與顯著性最好的27個要素參與時得到了重污染天氣下PM2.5日數(shù)據(jù)最優(yōu)預(yù)測模型(表1)。由表1可知,最佳c為2.7114,g為3.6141,訓(xùn)練值和測試值的R2分別達(dá)到了0.9992和0.7196。對比分析預(yù)測值與初始值發(fā)現(xiàn)(圖1),不僅訓(xùn)練值與趨勢都很好吻合,測試值也取得了很好的檢驗結(jié)果。因此本文構(gòu)建的模型考慮要素合理,方法合適,取得了很好的預(yù)報效果。
表1 PM2.5最優(yōu)預(yù)測模型參數(shù)尋優(yōu)
圖1 基于支持向量機(jī)的訓(xùn)練集(a)和測試集(b)PM2.5最優(yōu)預(yù)測模型
與PM2.5一樣的方法與步驟,在訓(xùn)練值占比69%,相關(guān)性與顯著性最好的24個要素參與時得到了重污染天氣下PM10日數(shù)據(jù)最優(yōu)預(yù)測模型(表2)。由表2可看出,最佳c=30.3874,g=1.6613,訓(xùn)練值和測試值的R2分別達(dá)到了0.9978和0.7792。對比分析預(yù)測值與初始值發(fā)現(xiàn)(圖2),不僅訓(xùn)練值與趨勢都較好吻合,雖然測試值的趨勢不如PM2.5的好,但明顯優(yōu)于何建軍等[18]得到的R值0.67(R2值0.4489)。因此本文構(gòu)建的模型考慮要素合理,方法合適,取得了更好的預(yù)報效果。
圖2 基于支持向量機(jī)的訓(xùn)練集(a)和測試集(b)PM10最優(yōu)預(yù)測模型
表2 PM10最優(yōu)預(yù)測模型參數(shù)尋優(yōu)
聚類有效性的評價標(biāo)準(zhǔn)有兩種:一是外部標(biāo)準(zhǔn),通過測量聚類結(jié)果和參考標(biāo)準(zhǔn)的一致性來評價聚類結(jié)果的優(yōu)良;另一種是內(nèi)部指標(biāo),用于評價同一聚類算法在不同聚類數(shù)條件下聚類結(jié)果的優(yōu)良程度,通常用來確定數(shù)據(jù)集的最佳聚類數(shù)。
最佳聚類數(shù)判定的方法,對于內(nèi)部指標(biāo),通常分為三種類型:基于數(shù)據(jù)集模糊劃分的指標(biāo),基于數(shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo),基于數(shù)據(jù)集統(tǒng)計信息的指標(biāo)?;跀?shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo)根據(jù)數(shù)據(jù)集本身和聚類結(jié)果的統(tǒng)計特征對聚類結(jié)果進(jìn)行評估,并根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù)。本文主要介紹Calinski-Harabasz(CH)指標(biāo)、Davies-Bouldin(DB)指標(biāo)和silhouette(SI)指標(biāo)。
(1)CH指標(biāo)
CH指標(biāo)通過類內(nèi)離差矩陣描述緊密度、類間離差矩陣描述分離度,指標(biāo)定義為
(1)
其中,n表示聚類的數(shù)目,k表示當(dāng)前的類,trB(k)表示類間離差矩陣的跡,trW(k)表示類內(nèi)離差矩陣的跡。CH越大,代表著類自身越緊密,類與類之間越分散,即更優(yōu)的聚類結(jié)果。
(2)DB指標(biāo)
DB指標(biāo)描述樣本的類內(nèi)散度與各聚類中心的間距,定義為
(2)
其中,K是聚類數(shù)目,Wi表示類Ci中的所有樣本到其聚類中心的平均距離,Wj表示類Ci中的所有樣本到類Cj中心的平均距離,Cij表示類Ci和Cj中心之間的距離。可以看出,DB越小,表示類與類之間的相似度越低,從而對應(yīng)越佳的聚類結(jié)果。
(3)SI指標(biāo)
對于D中的每個對象o,計算o與o所屬的簇內(nèi)其他對象之間的平均距離a(o):
(3)
b(o)是o到不包含o的所有簇的最小平均距離
(4)
輪廓系數(shù)定義為
(5)
Si越接近1,則說明樣本i聚類越合理。
2.3.1 PM2.5環(huán)流形勢場分類
利用構(gòu)建PM2.5最優(yōu)預(yù)測模型的地面氣象觀測
要素、FNL再分析資料,對參與最優(yōu)預(yù)測模型的環(huán)流形勢場及相關(guān)物理量進(jìn)行k-means聚類分析。根據(jù)相關(guān)研究和本地經(jīng)驗選取k=4、5、6進(jìn)行對比擇優(yōu)[26],其中k=5時,DB指標(biāo)、SI指標(biāo)最優(yōu),CH指標(biāo)次優(yōu)。YC最優(yōu)污染天氣環(huán)流類型分5類(表3),第四類最多,第五類次之,第二、三類最少。其中第一類5天,占17.2%;第二類、第三類各2天,各占6.9%;第四類11天,占37.9%;第五類9天,占31.0%(表略)。
表3 PM2.5和PM10不同k值聚類有效性指標(biāo)比較
2.3.2 PM2.5環(huán)流特征
利用k-means聚類方法,最優(yōu)歸類出5類,根據(jù)相關(guān)性較好的700 hPa合成環(huán)流形勢分別是第1類弱脊型(圖3a),第2類低槽南壓型(圖3b),第3類淺槽東移型(圖3c),第4、5類均屬于高壓脊控制(影響)型(圖3d和3e),而第4類的脊線更密,脊區(qū)更深厚。
圖3 第1—5類700 hPa合成環(huán)流形勢(a)為第1類弱脊型,(b)為第2類低槽南壓型,(c)為第3類淺槽東移型,(d)(e)為第4、5類高壓脊控制(影響)型;圖中★指天目山地區(qū)
第2、3類天目山地區(qū)分別屬于槽前、槽后天氣,是5種類型中最少的一類,第2類容易出現(xiàn)降水,污染持續(xù)時間較短;第3類氣溫低,露點(diǎn)低,濕靜力能量小,大氣邊界層高度較低,不利于污染擴(kuò)散;第1類弱脊型,濕度大,溫度露點(diǎn)差小,容易出現(xiàn)降水,不利于污染持續(xù);第4、5類均屬于高壓脊控制(影響)型,天目山地區(qū)處在西北或偏西氣流控制,容易出現(xiàn)長時間持續(xù)污染,是天目山地區(qū)影響PM2.5濃度的最主要天氣類型。
2.3.3 PM10環(huán)流形勢場分類
對參與最優(yōu)預(yù)測模型的環(huán)流形勢場及相關(guān)物理量進(jìn)行k-means聚類分析,根據(jù)相關(guān)研究和本地經(jīng)驗,選取k=4、5、6進(jìn)行對比擇優(yōu)。其中k=6時,DB指標(biāo)、CH指標(biāo)最優(yōu)。因此最優(yōu)污染天氣環(huán)流類型分5類(表3),第1類最多,第2、3類次之,第6類最少。其中第1類9天,占31.0%;第2類、第3類各6天,各占20.7%;第4類5天,占17.2%;第5類、第6類分別為2天、1天,合計10.3%(表略)。
2.3.4 PM10環(huán)流特征
利用k-means聚類方法最優(yōu)歸類出的6類,根據(jù)相關(guān)性較好的700 hPa環(huán)流進(jìn)行分析,對應(yīng)500 hPa合成環(huán)流形勢分別是第1、3、4類均屬于高壓脊控制(影響)型(圖4a、4c和4d),而第4類的脊區(qū)更深厚、寬廣;第2類為低槽南壓型(圖4b);第5類低渦東移型(圖4e);第6類低渦南壓型(圖4f)。
圖4 6類700 hPa合成環(huán)流形勢(b)為第2類低槽南壓型,(e)為第5類低渦東移型,(f)為第6類低渦南壓型,(a)(c)(d)為第1、3、4類高壓脊控制(影響)型;圖中★指天目山地區(qū)
第5、6類天目山地區(qū)分別屬于槽(渦)后天氣,是6種類型中最少的兩類,容易出現(xiàn)降水,污染持續(xù)時間較短;第2類氣溫低,露點(diǎn)低,濕靜力能量較小,大氣邊界層高度較低,不利于污染擴(kuò)散;第1、3、4類均屬于高壓脊控制(影響)型,天目山地區(qū)處在西北或偏西氣流控制,容易出現(xiàn)長時間持續(xù)污染,是天目山地區(qū)影響PM10濃度的最主要天氣類型。
針對2015年1月-2018年10月天目山地區(qū)出現(xiàn)重污染天氣(AQI大于等于151),建立基于LIBSVM方法的預(yù)測模型及參數(shù)尋優(yōu);對參與最優(yōu)預(yù)測模型的環(huán)流形勢場及相關(guān)物理量進(jìn)行k-means聚類分析,得到重污染天氣PM2.5、PM10對應(yīng)最優(yōu)環(huán)流形勢場并分析重污染天氣環(huán)流特征,得到如下結(jié)論。
(1)根據(jù)與PM2.5的相關(guān)系數(shù)的絕對值及顯著性特點(diǎn),將55個氣象條件按照順序進(jìn)入模型參與預(yù)測,在訓(xùn)練值占比69%,相關(guān)性與顯著性最好的27個要素參與時得到了重污染天氣下PM2.5日數(shù)據(jù)最優(yōu)預(yù)測模型,訓(xùn)練值和測試值的R2分別達(dá)到了0.9992和0.7196,訓(xùn)練值與趨勢都能很好吻合,測試值也取得了很好的檢驗結(jié)果。因此本文構(gòu)建的模型考慮要素合理,方法合適,取得了很好的預(yù)報效果。
(2)由相關(guān)性與顯著性最好的24個要素參與,得到了重污染天氣下PM10日數(shù)據(jù)最優(yōu)預(yù)測模型,雖然測試值的趨勢不如PM2.5的好,訓(xùn)練值和測試值的R2分別達(dá)到了0.9978和0.7792,訓(xùn)練值與趨勢吻合較好。因此本文構(gòu)建的PM10模型考慮要素合理,方法合適,也取得了更好的預(yù)報效果。
(3)PM2.5最優(yōu)預(yù)測模型對應(yīng)最優(yōu)5類700 hPa合成環(huán)流形勢中第4、5類均屬于高壓脊控制(影響)型,容易出現(xiàn)長時間持續(xù)污染,是天目山地區(qū)影響PM2.5濃度的最主要天氣類型。PM10最優(yōu)預(yù)測模型對應(yīng)最優(yōu)6類700 hPa合成環(huán)流形勢中第1、3、4類均屬于高壓脊控制(影響)型,容易出現(xiàn)長時間持續(xù)污染,是天目山地區(qū)影響PM10污染的最主要天氣類型。
雖然構(gòu)建的天目山重污染天氣預(yù)測模型取得了較好的預(yù)報效果,但缺少要素個數(shù)、訓(xùn)練與測試比率等對預(yù)測模型影響因子的量化分析,對預(yù)測模型的穩(wěn)定和推廣有較大的制約。另外,研究更小尺度,如1 h、3 h等,以及非重污染天氣的預(yù)報模型和構(gòu)建無縫預(yù)報體系是今后研究重點(diǎn)之一。