孫源龍,趙文娜,汪梓彤,卓 嘎
(1.西藏大學(xué)理學(xué)院,西藏 拉薩 850000;2.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000)
西藏作為“世界第三極”[1],其空氣質(zhì)量的變化對(duì)于中國(guó)乃至全球環(huán)境都有很大的影響,因此實(shí)現(xiàn)對(duì)西藏自治區(qū)各地區(qū)空氣質(zhì)量的監(jiān)測(cè)和更準(zhǔn)確地預(yù)測(cè),對(duì)于保護(hù)西藏脆弱的生態(tài)環(huán)境、制定經(jīng)濟(jì)建設(shè)方案等都具有一定的意義。拉薩是西藏自治區(qū)政治、經(jīng)濟(jì)、文化中心和交通樞紐,是全區(qū)相對(duì)人口密度最高和受人為活動(dòng)影響最顯著的城市。拉薩市位于西藏自治區(qū)中南部、喜馬拉雅山脈北側(cè)(見圖1),年日照時(shí)長(zhǎng)3 000小時(shí)以上[2],擁有“日光城”的美譽(yù)。其主要?dú)夂蛱攸c(diǎn)為空氣稀薄、氣溫偏低、全年降雨稀少、多晴朗天氣、太陽(yáng)輻射強(qiáng)且冬春寒冷干燥、多風(fēng)。卓嘎等[3]研究發(fā)現(xiàn)2001-2006年期間拉薩市大氣污染物SO2、NO2、PM10的濃度具有冬強(qiáng)夏弱的季節(jié)變化規(guī)律,降水量、溫度和相對(duì)濕度等氣象要素與污染濃度呈現(xiàn)較好的負(fù)相關(guān)性。
圖1 西藏自治區(qū)拉薩地圖
1.2.1 數(shù)據(jù)來(lái)源
本文中所分析的拉薩市區(qū)空氣質(zhì)量數(shù)據(jù)來(lái)源于空氣質(zhì)量實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)網(wǎng)頁(yè)https://aqicn.org/,從該網(wǎng)頁(yè)下載了在西藏自治區(qū)環(huán)保局站監(jiān)測(cè)的2015年1月-2019年12月的PM10、PM2.5、O3、NO2、SO2、CO的空氣質(zhì)量指數(shù)(AQI)的日均值,并根據(jù)美國(guó)EPA標(biāo)準(zhǔn)[4]將AQI數(shù)據(jù)轉(zhuǎn)化為質(zhì)量濃度數(shù)據(jù)。該監(jiān)測(cè)站所采用的設(shè)備信息詳見表1。
表1 監(jiān)測(cè)站的設(shè)備信息[5]
1.2.2 數(shù)據(jù)處理方法
對(duì)2015年1月-2019年12月拉薩市每天監(jiān)測(cè)的PM10、PM2.5、O3、NO2、SO2、CO的AQI數(shù)據(jù)進(jìn)行篩查后發(fā)現(xiàn),部分月份的數(shù)據(jù)存在缺失現(xiàn)象。針對(duì)部分缺失數(shù)據(jù)我們采用了Matlab軟件中的interp1函數(shù)進(jìn)行插值處理。插值方法的選取是通過(guò)如下方法實(shí)現(xiàn)的:選取任意連續(xù)的61個(gè)數(shù)據(jù)后選取其中的5個(gè)數(shù)據(jù)進(jìn)行插值并與真實(shí)值進(jìn)行對(duì)比,計(jì)算殘差,殘差最小的即為最優(yōu)插值方法。各空氣質(zhì)量數(shù)據(jù)所采用的最優(yōu)插值方法詳見表2。
表2 各空氣質(zhì)量數(shù)據(jù)所采用的最優(yōu)插值方法
訓(xùn)練樣本、驗(yàn)證樣本的劃分:訓(xùn)練樣本與驗(yàn)證樣本個(gè)數(shù)的劃分采取80%為訓(xùn)練集,20%為驗(yàn)證集的原則[6]。其中驗(yàn)證樣本選擇2019年的各空氣指標(biāo)質(zhì)量濃度(共365個(gè))。訓(xùn)練樣本為2015-2018年各空氣指標(biāo)質(zhì)量濃度。為了加快訓(xùn)練速度與精度,應(yīng)用標(biāo)準(zhǔn)歸一化進(jìn)行預(yù)處理,同時(shí)對(duì)于缺失值數(shù)據(jù)采用前文比較出的合適的插值方法進(jìn)行數(shù)據(jù)填補(bǔ)。
EMD即經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,簡(jiǎn)稱EMD)是對(duì)輸入的原數(shù)據(jù)信號(hào)進(jìn)行分解而獲得本征模函數(shù)(Intrinsic Mode Function,簡(jiǎn)稱IMF),是一種基于瞬時(shí)頻率的信號(hào)處理方法,其最顯著的特點(diǎn)就是克服了基函數(shù)無(wú)自適應(yīng)性的問(wèn)題,適合于分析復(fù)雜、不平穩(wěn)的信號(hào)序列[7]。
在完成線性插值,EMD分解后,采用MATLAB中的Mapminmax函數(shù)進(jìn)行歸一化預(yù)處理,以加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度和訓(xùn)練精度;對(duì)預(yù)測(cè)的輸出數(shù)據(jù)采用Mapminmax函數(shù)進(jìn)行反歸一化處理,得到的數(shù)據(jù)與真實(shí)值進(jìn)行比較。
ELM算法即極限學(xué)習(xí)機(jī)算法(Extreme Learning Machine,ELM),是2006年南洋理工大學(xué)Huang提出的一種神經(jīng)網(wǎng)絡(luò)算法[8],其學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)為單隱含層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)求解最小范數(shù)最小二乘的形式確定隱含層和輸出層之間的權(quán)值[9],極限學(xué)習(xí)機(jī)預(yù)測(cè)算法的學(xué)習(xí)訓(xùn)練速度相比于BP神經(jīng)網(wǎng)絡(luò)要快,且泛化能力增強(qiáng),避免了BP神經(jīng)網(wǎng)絡(luò)算法所存在的過(guò)度擬合、陷入局部最值等問(wèn)題的產(chǎn)生[10],同時(shí)在降雨-徑流預(yù)測(cè)模擬等環(huán)境類問(wèn)題上,ELM算法與BP神經(jīng)網(wǎng)絡(luò)算法相比,對(duì)算力的要求更小[11]。
依據(jù)ELM算法通過(guò)隨機(jī)特征映射后再進(jìn)行線性參數(shù)求解對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,首先對(duì)隱含層參數(shù)進(jìn)行初始化,其中隱含層節(jié)點(diǎn)的輸入權(quán)值w以及隱含層的偏置b都是根據(jù)任意連續(xù)的概率分布隨機(jī)進(jìn)行初始化的,接著通過(guò)Sigmoid激活函數(shù)進(jìn)行映射,得到ELM特征空間[12]。之后,求解輸出層的權(quán)值β,為尋找到最優(yōu)權(quán)值組合W=(w,b,β),應(yīng)使其訓(xùn)練誤差達(dá)到最小,即網(wǎng)絡(luò)的輸出與期望值的差作為評(píng)價(jià)誤差,目標(biāo)函數(shù)得到的最小解后即可得到W的最優(yōu)解。
通過(guò)ELM神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練學(xué)習(xí)后,將驗(yàn)證集的預(yù)測(cè)數(shù)據(jù)與真實(shí)值進(jìn)行對(duì)比,本次預(yù)測(cè)結(jié)果,采用平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)、方向預(yù)測(cè)統(tǒng)計(jì)(Direction Forecast Statistics,Dstat)、決定系數(shù)(Determination Coefficient,R2)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
圖2給出了拉薩市2015-2019年P(guān)M10、PM2.5、O3、NO2、SO2、CO空氣污染物的日均濃度逐日變化趨勢(shì),每個(gè)子圖中分別用不同的標(biāo)記代表了這五年每年的污染物的日均濃度值,實(shí)線代表了污染物的日均濃度的5年平均值。從各子圖中的實(shí)線可以看出,PM2.5、PM10和CO濃度值在5月到10月相對(duì)降低,10月至次年5月以后其濃度在增長(zhǎng)。這種變化規(guī)律符合該地區(qū)的季風(fēng)時(shí)間,即每年10月至次年5月[13]。從O3濃度變化曲線可以看出近地表的O3濃度在每年的5月份左右達(dá)到最大值。
圖2 拉薩市2015-2019年空氣污染物的日均濃度逐日變化趨勢(shì)
之后我們按春季(3-5月)、夏季(6-8月)、秋季(9-11月)、冬季(12-翌年2月)進(jìn)行劃分[14]。可以看出各污染物濃度隨季節(jié)的變化情況有一定的周期性,其中PM2.5、PM10、CO和NO2的變化趨勢(shì)比較一致,普遍于冬季達(dá)到最大值;而O3和SO2有各自的變化規(guī)律,O3濃度普遍春夏季的值高于秋冬季節(jié),而SO2濃度有明顯的逐年降低的變化趨勢(shì)。其中,NO2和PM10最高值出現(xiàn)在冬季與之前研究[3]相符,PM2.5和PM10的最高值出現(xiàn)在冬季與該季節(jié)的氣候特點(diǎn)如氣候干燥、大風(fēng)天數(shù)多等因素有關(guān)。而PM2.5和PM10的最低值普遍出現(xiàn)在夏季,這可能是因?yàn)槔_的降雨主要集中在夏季,降水一般伴隨著大風(fēng)天氣,對(duì)大氣污染物的擴(kuò)散清除具有明顯的作用,通常情況下,是大氣中污染物質(zhì)去除的主要方式[15]。
圖3給出了拉薩市這6種大氣污染物隨年的變化趨勢(shì),其中CO濃度的縱坐標(biāo)軸位于圖的右側(cè),其余各污染物濃度的縱坐標(biāo)軸位于圖的左側(cè)??梢钥闯?,除了O3,其余污染物濃度自2016年都在逐年下降。其變化規(guī)律與白永飛等[16]得出的SO2和CO濃度的逐年變化趨勢(shì)一致。這6種污染物中,CO濃度最高,是該地區(qū)這6種空氣污染物中最主要的污染物,其次是O3,濃度最低的是SO2。污染物濃度的逐年降低從某種程度上與國(guó)家出臺(tái)的關(guān)于環(huán)境保護(hù)的相關(guān)政策以及拉薩市國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展“十四五”規(guī)劃相關(guān)文件提出的拉薩市城關(guān)區(qū)其經(jīng)濟(jì)發(fā)展的重點(diǎn)主要在文體、旅游、服務(wù)等具有民族特色的產(chǎn)業(yè)集群,產(chǎn)業(yè)鏈以及縣區(qū)發(fā)展都要以保護(hù)生態(tài)為前提有關(guān)[17]。
圖3 拉薩市2015-2019年6種空氣污染物濃度隨年變化趨勢(shì)
ELM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與真實(shí)值的對(duì)比如圖4所示:
圖4 各空氣指標(biāo)預(yù)測(cè)值與真實(shí)值對(duì)比圖
表3列出的評(píng)價(jià)指標(biāo)中預(yù)測(cè)效果越好,Dstat、R2值越大,MAPE、RMSE值約需越小。
表3 EMD和ELM算法預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo)
由上述評(píng)價(jià)指標(biāo)與真實(shí)值和預(yù)測(cè)值對(duì)比圖可以看出,通過(guò)EMD與ELM的方法進(jìn)行空氣質(zhì)量的預(yù)測(cè),其中決定系數(shù)R2均大于0.69,RMSE、MAPE較小。
本文以拉薩市作為研究區(qū)域,根據(jù)2015-2019年數(shù)據(jù),首先比較選出各空氣指標(biāo)合適的插值方法,借助各空氣指標(biāo)的年、月、日的變化趨勢(shì)圖分析其變化特點(diǎn),發(fā)現(xiàn)拉薩市空氣有持續(xù)變好的趨勢(shì),再通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分析對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,劃分訓(xùn)練集和驗(yàn)證集后,采用極限學(xué)習(xí)機(jī)方法對(duì)2019年1月-12月PM10、PM2.5、O3、NO2、SO2、CO空氣質(zhì)量指標(biāo)進(jìn)行訓(xùn)練預(yù)測(cè),通過(guò)Dstat、MAPE、RMSE、R2指標(biāo)評(píng)價(jià)預(yù)測(cè)結(jié)果,證明了該預(yù)測(cè)方法的可靠性。