金仁浩,曾國(guó)靜,王 莎
(北京物資學(xué)院 信息學(xué)院,北京 101149)
國(guó)內(nèi)空氣質(zhì)量問題一直受到各界的高度關(guān)注,尤其是北方冬季較容易出現(xiàn)的霧霾天氣,不僅會(huì)導(dǎo)致大氣能見度下降,還會(huì)增加呼吸道系統(tǒng)疾病的發(fā)病率和死亡率[1]。近年來(lái),經(jīng)過政府的積極治理,華北地區(qū)的空氣質(zhì)量得到了顯著提升,但大氣污染防治工作仍然是一個(gè)長(zhǎng)期艱巨的過程。當(dāng)前,各地的環(huán)境監(jiān)測(cè)機(jī)構(gòu)和氣象部門實(shí)時(shí)公布當(dāng)?shù)氐目諝赓|(zhì)量數(shù)據(jù)和氣候條件,對(duì)這些數(shù)據(jù)進(jìn)行建模分析及預(yù)報(bào)調(diào)控是當(dāng)下亟待解決的科學(xué)問題。
國(guó)家環(huán)保部從2012年開始采用空氣質(zhì)量指數(shù)(AQI),定量描述空氣質(zhì)量狀況。AQI是根據(jù)SO2、NO2、PM 10、PM 2.5、O3、CO這6項(xiàng)污染物濃度指標(biāo)計(jì)算出來(lái)的一個(gè)綜合指標(biāo)[2],各地環(huán)保部門一般同時(shí)會(huì)監(jiān)測(cè)和公布這7項(xiàng)指標(biāo)。目前,對(duì)污染物濃度預(yù)測(cè)的技術(shù)主要分為數(shù)值模式方法和統(tǒng)計(jì)預(yù)測(cè)兩大類。數(shù)值模式方法是基于大氣物理學(xué)、大氣動(dòng)力學(xué)和大氣化學(xué)理論,以污染物移動(dòng)的動(dòng)力學(xué)模型、污染源詳細(xì)信息及化學(xué)反應(yīng)模型為基礎(chǔ),可以準(zhǔn)確地預(yù)測(cè)任何指定的、任意地點(diǎn)和任意時(shí)間段上的污染物濃度。由于這種方法需要多方面大量的數(shù)據(jù)來(lái)確定復(fù)雜方程中的參數(shù),涉及到巨大的計(jì)算量,限制了這種方法的廣泛應(yīng)用[3]。然而,統(tǒng)計(jì)預(yù)測(cè)方法不依賴于大氣變化機(jī)制,僅基于污染物和氣象歷史數(shù)據(jù)通過建立統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型實(shí)現(xiàn)對(duì)污染物濃度的預(yù)測(cè)。目前,大型氣象研究機(jī)構(gòu)主要采用數(shù)值模式方法,而普通研究者往往采用統(tǒng)計(jì)預(yù)測(cè)方法。
國(guó)內(nèi)基于統(tǒng)計(jì)預(yù)測(cè)方法的空氣質(zhì)量預(yù)測(cè)研究已經(jīng)相當(dāng)豐富。譬如:劉慧君利用逐步回歸方法對(duì)武漢市的PM 2.5指標(biāo)進(jìn)行了預(yù)測(cè)[3]。田靜毅等使用BP神經(jīng)網(wǎng)絡(luò)模型對(duì)秦皇島市空氣質(zhì)量進(jìn)行預(yù)測(cè)分析,預(yù)測(cè)結(jié)果較為準(zhǔn)確地?cái)M合了往期的空氣質(zhì)量數(shù)據(jù)[4]。戴李杰等以上海浦東區(qū)的PM 2.5指標(biāo)為目標(biāo)變量,以該地區(qū)PM 2.5模式預(yù)報(bào)值和5個(gè)氣象因子作為輸入變量構(gòu)建支持向量機(jī)模型[5]。崔相輝等(2017)以京津冀地區(qū)為例,選擇氣象參數(shù)建立基于深度置信網(wǎng)絡(luò)的PM 2.5預(yù)測(cè)模型[6]。侯俊雄等利用隨機(jī)森林算法以PM 2.5模式預(yù)報(bào)值和氣象因子對(duì)北京單個(gè)監(jiān)測(cè)點(diǎn)的PM 2.5值進(jìn)行預(yù)測(cè)[7]。鄭洋洋等建立基于深度長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)模型對(duì)太原市空氣質(zhì)量指數(shù)(AQI)進(jìn)行仿真預(yù)測(cè)[8]。上述這些基于統(tǒng)計(jì)預(yù)測(cè)方法的研究往往都得到較高的預(yù)測(cè)精度,但在模型設(shè)置時(shí)普遍存在不合理現(xiàn)象。這些研究都以包含當(dāng)日氣象條件或當(dāng)日其他污染物濃度值的數(shù)據(jù)為基礎(chǔ)來(lái)預(yù)測(cè)當(dāng)日的 AQI 或 PM 2.5 濃度值。同日的6項(xiàng)污染物濃度指標(biāo)之間往往存在較高的相關(guān)性,且這種預(yù)測(cè)設(shè)置意義較小,因?yàn)榭諝獗O(jiān)測(cè)站點(diǎn)會(huì)同時(shí)監(jiān)測(cè)常見的所有污染物濃度,無(wú)需再對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)。但僅以往日的污染物或氣象數(shù)據(jù)對(duì)下一日空氣污染物濃度預(yù)測(cè)的研究較少尚未檢索到,因此本研究嘗試填補(bǔ)這一空缺,并分析和比較這種數(shù)據(jù)設(shè)置的模型預(yù)測(cè)效果。
目前統(tǒng)計(jì)預(yù)測(cè)方法中,神經(jīng)網(wǎng)絡(luò)類模型被廣泛應(yīng)用,主要包括有:多層前饋神經(jīng)網(wǎng)絡(luò)( BP神經(jīng)網(wǎng)絡(luò))、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和模糊神經(jīng)網(wǎng)絡(luò)等。其中,BP神經(jīng)網(wǎng)絡(luò)是成熟的最常用的神經(jīng)網(wǎng)絡(luò)模型,被各種數(shù)據(jù)分析軟件支持,該模型還適合進(jìn)行短相關(guān)的非線性時(shí)間序列預(yù)測(cè)[9]。相較于其他神經(jīng)網(wǎng)絡(luò)模型,BP模型對(duì)數(shù)據(jù)量要求不高,適合本研究的數(shù)據(jù)要求,因此選用BP神經(jīng)網(wǎng)絡(luò)對(duì)本研究的數(shù)據(jù)設(shè)置效果進(jìn)行預(yù)測(cè)效果分析。另外,本研究還選用更受關(guān)注的北京空氣質(zhì)量數(shù)據(jù)作為研究的數(shù)據(jù)基礎(chǔ)。
選用2016年1月1日至2018年12月31日的北京市空氣質(zhì)量數(shù)據(jù)建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,空氣質(zhì)量數(shù)據(jù)來(lái)自“中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)”(www.aqistudy.cn)。空氣質(zhì)量數(shù)據(jù)包括北京市 AQI 指數(shù)、PM 2.5、PM 10、 SO2、NO2、CO 和 O3的每日均值,本研究選取 AQI 作為目標(biāo)變量。由于城市的空氣質(zhì)量數(shù)據(jù)往往與天氣狀況存在著一定的相關(guān)性[7],基于天氣數(shù)據(jù)的可獲得性,本研究選取了4種北京天氣數(shù)據(jù):日最高溫(HT)、日最低溫(LT)、風(fēng)速(WNDP)、天氣(WEAT)。天氣數(shù)據(jù)來(lái)自于“天氣后報(bào)網(wǎng)”(www.tianqihoubao.com)。
如圖1,BP 神經(jīng)網(wǎng)絡(luò)包含一個(gè)輸入層、一個(gè)或多個(gè)隱含層和一個(gè)輸出層,每層包含若干個(gè)節(jié)點(diǎn),各層節(jié)點(diǎn)通過加權(quán)路徑與相鄰層節(jié)點(diǎn)鏈接。當(dāng)預(yù)測(cè)目標(biāo)變量為分類變量時(shí),輸出層包含多個(gè)輸出結(jié)點(diǎn);但當(dāng)目標(biāo)變量為區(qū)間型變量時(shí),僅包含一個(gè)輸出節(jié)點(diǎn)。 BP 神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),它的基本思想是梯度下降法,利用梯度搜索技術(shù),以期使網(wǎng)絡(luò)的實(shí)際輸出值和期望輸出值的誤差均方差為最小,是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò),其突出優(yōu)點(diǎn)就是具有很強(qiáng)的非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu)[9]。
BP神經(jīng)網(wǎng)絡(luò)的工作方法主要分為兩個(gè)過程。第一個(gè)過程是信號(hào)的前向傳播,信號(hào)從輸入層輸入,經(jīng)過隱含層的計(jì)算輸出新的權(quán)重,最后到達(dá)輸出層;第二個(gè)過程是誤差的反向傳播,獲得的權(quán)重從輸出層到隱含層,最后到輸入層,依次調(diào)節(jié)隱含層到輸出層的權(quán)重和偏置,輸入層到隱含層的權(quán)重和偏置。簡(jiǎn)而言之,BP神經(jīng)網(wǎng)絡(luò)的核心就是根據(jù)得到的結(jié)果計(jì)算誤差,通過反饋誤差,不斷修改權(quán)重和閾值,從而得到誤差最小的輸出結(jié)果[10]。
圖1 BP神經(jīng)網(wǎng)絡(luò)模型Fig.1 BP neural network model
以當(dāng)日污染物濃度或氣象數(shù)據(jù)對(duì)當(dāng)日 AQI 或 PM 2.5 的預(yù)測(cè)研究已經(jīng)比較充分,眾多文獻(xiàn)顯示,多種統(tǒng)計(jì)預(yù)測(cè)方法都能取得較高的預(yù)測(cè)精度。本研究選取當(dāng)日 AQI 濃度值作為目標(biāo)變量,主要研究?jī)H以往日污染物或氣象數(shù)據(jù)實(shí)現(xiàn)對(duì)當(dāng)日空氣污染物濃度預(yù)測(cè)的可行性,因此本研究根據(jù)模型輸入變量的不同設(shè)置了3種預(yù)測(cè)模型,模型變量設(shè)置如表1所示。全模型的輸入變量包括:當(dāng)日其他污染物濃度值、當(dāng)日天氣變量、滯后一天 AQI 及其他污染物濃度值、滯后一天天氣變量。滯后全模型的輸入變量包括:滯后一天 AQI 及其他污染物濃度值、滯后一天天氣變量。滯后污染模型的輸入變量包括:滯后一天 AQI 及其他污染物濃度值。
本研究構(gòu)建包含輸入層、輸出層和兩層隱含層的四層BP神經(jīng)網(wǎng)絡(luò)模型,輸出層的節(jié)點(diǎn)僅包含一個(gè)神經(jīng)元,即當(dāng)日 AQI 值。為了比較不同輸入變量對(duì)預(yù)測(cè)效果的影響,本研究對(duì)隱含層進(jìn)行統(tǒng)一設(shè)置,兩層隱含層都包含8個(gè)神經(jīng)元結(jié)點(diǎn)。選用平均絕對(duì)誤差和平均絕對(duì)誤差率這兩個(gè)統(tǒng)計(jì)量來(lái)衡量模型的預(yù)測(cè)效果,并將數(shù)據(jù)集按 7:3 的比例分為訓(xùn)練集和測(cè)試集,以模型在測(cè)試集上的預(yù)測(cè)效果來(lái)評(píng)價(jià)模型的優(yōu)劣。
表1 3種預(yù)測(cè)模型輸入變量設(shè)置Tab.1 Input variable setting of 3 kinds of prediction models
各種污染物的日均變化圖與月均變化圖所反映的趨勢(shì)基本一致,但由于日均變化圖較為密集,展示效果差,因此本研究?jī)H僅展示月均變化圖。各污染物2016—2018年月均濃度變化如圖2所示。由于CO和SO2的濃度值尺度與其他污染物相比明顯偏小,故與AQI的相關(guān)性以散點(diǎn)圖形式分別展示,如圖3所示。由圖2可知,AQI月均指標(biāo)值與PM 10、PM 2.5、NO2濃度值的變化趨勢(shì)大體相同,與O3的變化趨勢(shì)存在一定的滯后性。由圖3散點(diǎn)圖可得,AQI月均指標(biāo)值與SO2的相關(guān)性較高,相關(guān)系數(shù)達(dá)到0.73;與CO的相關(guān)性一般,相關(guān)系數(shù)達(dá)到0.53。
圖2 北京市2016—2018年污染物濃度月均變化圖Fig.2 Monthly variation diagram of the pollutant concentration from 2016 to 2018 in Beijing City
圖3 北京市2016—2018年污染物濃度月均值散點(diǎn)圖Fig.3 Scatter diagram of monthly mean value of pollutant concentration from 2016 to 2018 in Beijing City
由表2可知,除臭氧指標(biāo)外,AQI日均值與當(dāng)日其他污染物濃度日均值相關(guān)系數(shù)普遍較高,其中與PM 2.5相關(guān)性達(dá)到0.97,與PM 10相關(guān)性達(dá)到0.86,與當(dāng)日天氣指標(biāo)值的相關(guān)性明顯偏低,其中與風(fēng)速指標(biāo)值的相關(guān)性最強(qiáng),系數(shù)絕對(duì)值僅僅為0.07。AQI日均值與滯后一日指標(biāo)值的相關(guān)性強(qiáng)度比當(dāng)日值有一定程度的下降,除臭氧指標(biāo)外,與污染物滯后值相關(guān)性強(qiáng)度一般,與NO2相關(guān)性最高達(dá)到0.6,與AQI滯后值的相關(guān)系數(shù)為0.58,與滯后一日天氣指標(biāo)值的相關(guān)性有所上升,但依舊不強(qiáng),其中與風(fēng)速指標(biāo)值的相關(guān)性最強(qiáng),系數(shù)絕對(duì)值僅為0.15。
綜合圖3和表2信息可知,當(dāng)日AQI日均值與其他各指標(biāo)之間均存在一定的相關(guān)性,將這些指標(biāo)作為BP神經(jīng)網(wǎng)絡(luò)模型的輸入變量存在一定的合理性。
表2 日均AQI值與其他指標(biāo)當(dāng)日或滯后1日值的相關(guān)系數(shù)Tab.2 Correlation coefficient of average daily AQI value and other indexes on the day and one day lag behind
根據(jù)模型設(shè)置進(jìn)行建模分析,將建模所得預(yù)測(cè)值與真實(shí)值進(jìn)行比較,可得到對(duì)不同模型設(shè)置的預(yù)測(cè)效果進(jìn)行評(píng)估。選用平均絕對(duì)誤差和平均絕對(duì)誤差率作為模型預(yù)測(cè)效果的評(píng)價(jià)準(zhǔn)則,模型計(jì)算是通過 SAS EM 軟件實(shí)現(xiàn)。根據(jù)輸入變量不同而形成的3種模型預(yù)測(cè)效果,如表3所示。
表3 北京AQI指數(shù)模型預(yù)測(cè)誤差分析表Tab.3 Analytical statement of the model prediction of AQI index in Beijing
由表3可知,基于“全模型”的BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)效果都達(dá)到最優(yōu),預(yù)測(cè)效果明顯高于“滯后全模型”和“滯后污染模型”。在測(cè)試集上,“全模型”的平均誤差率僅為5.99%,而平均絕對(duì)誤差僅為5.23,預(yù)測(cè)精度較高,說(shuō)明“全模型”對(duì)當(dāng)日空氣質(zhì)量的預(yù)測(cè)能力較高。此結(jié)果與表2中展示出來(lái)的當(dāng)日AQI日均值與當(dāng)日其他污染物濃度高度相關(guān)的結(jié)果一致。然而,“滯后全模型”和“滯后污染模型”的預(yù)測(cè)效果較差,在測(cè)試集上的平均絕對(duì)誤差率達(dá)到45.70%和45.85%,說(shuō)明僅僅依靠滯后一日的污染物數(shù)據(jù)或天氣數(shù)據(jù)不能實(shí)現(xiàn)對(duì)當(dāng)日AQI指數(shù)的準(zhǔn)確預(yù)測(cè)。此結(jié)果也符合表2中展示出來(lái)的結(jié)果,即當(dāng)日AQI日均值與滯后一日其他變量信息相關(guān)性普遍不高。雖然“滯后全模型”比“滯后污染模型”多包含4個(gè)滯后天氣變量,但在測(cè)試集上預(yù)測(cè)的絕對(duì)誤差率僅降低0.15%,這主要是因?yàn)闇筇鞖庾兞颗c目標(biāo)變量的相關(guān)性都比較低,說(shuō)明天氣變量提供的信息量較少。另外,表3所展示出來(lái)的預(yù)測(cè)效果在一定程度上也符合民眾對(duì)北京空氣質(zhì)量的真實(shí)感官,尤其在秋冬季,比較容易會(huì)出現(xiàn)前后兩日空氣質(zhì)量等級(jí)差異明顯的現(xiàn)象。
數(shù)值模式方法雖然可以精確地實(shí)現(xiàn)對(duì)空氣質(zhì)量的預(yù)測(cè),但該方法對(duì)大氣變化理論、數(shù)據(jù)和計(jì)算量都有較高的要求,僅適用于大型研究機(jī)構(gòu),而統(tǒng)計(jì)預(yù)測(cè)模型要求簡(jiǎn)單,被廣泛應(yīng)用。在統(tǒng)計(jì)模型預(yù)測(cè)研究中,主要以當(dāng)日氣象條件或當(dāng)日其他污染物濃度值的數(shù)據(jù)為基礎(chǔ)來(lái)預(yù)測(cè)當(dāng)日的空氣質(zhì)量,雖然能取得較高的精度,但這種預(yù)測(cè)模型設(shè)置實(shí)際應(yīng)用意義較小。嘗試僅以往日的污染物或天氣數(shù)據(jù)實(shí)現(xiàn)對(duì)下一日空氣質(zhì)量預(yù)測(cè)的統(tǒng)計(jì)建模,并分析這種數(shù)據(jù)設(shè)置的預(yù)測(cè)效果,相關(guān)研究結(jié)果可總結(jié)如下:
(1)AQI 日均值與當(dāng)日其他污染物濃度日均值的相關(guān)系數(shù)普遍較高,與滯后一日污染物濃度的相關(guān)性強(qiáng)度一般,但與當(dāng)日或滯后一日天氣指標(biāo)值的相關(guān)性普遍較低。
(2)基于“全模型”的BP神經(jīng)網(wǎng)絡(luò)對(duì)當(dāng)日空氣質(zhì)量有著較高的預(yù)測(cè)能力,預(yù)測(cè)精度較高;“滯后全模型”和“滯后污染模型”的預(yù)測(cè)效果較差,僅僅依靠滯后一日的污染物數(shù)據(jù)和天氣數(shù)據(jù)不能實(shí)現(xiàn)對(duì)當(dāng)日AQI指數(shù)的準(zhǔn)確預(yù)測(cè)。
(3)模型預(yù)測(cè)結(jié)果和相關(guān)性分析的結(jié)論一致,當(dāng)日 AQI 的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)主要依靠當(dāng)日其他污染物濃度指標(biāo),而對(duì)滯后一日相關(guān)污染物和天氣指標(biāo)的依賴較少。
根據(jù)研究?jī)?nèi)容總結(jié),本研究對(duì)空氣質(zhì)量的統(tǒng)計(jì)模型預(yù)測(cè)提出如下建議:
(1)雖然當(dāng)日其他污染物濃度指標(biāo)對(duì)提高當(dāng)日空氣質(zhì)量的預(yù)測(cè)有著較大的幫助,但實(shí)際意義較小。建立空氣質(zhì)量統(tǒng)計(jì)預(yù)測(cè)模型,應(yīng)僅基于歷史數(shù)據(jù)。
(2)歷史天氣與當(dāng)日空氣質(zhì)量有著密切的聯(lián)系,但如何提取出有效的歷史天氣信息變量用于下一日空氣質(zhì)量的預(yù)測(cè)仍需進(jìn)一步的研究。