金仁浩,曾國(guó)靜,趙欣然
(北京物資學(xué)院 信息學(xué)院,北京 101149)
北京地區(qū)的空氣質(zhì)量一直受到人們的高度關(guān)注。近年來,北京市及其周邊地區(qū)的空氣質(zhì)量得到了明顯的改善,但空氣污染治理是一個(gè)長(zhǎng)期系統(tǒng)的過程[1],各級(jí)環(huán)保部門定期公布當(dāng)?shù)?種空氣污染物,即PM2.5、PM10、SO2、CO、O3、NO2指標(biāo)值及綜合空氣質(zhì)量指數(shù)AQI指標(biāo)值[2]。目前,研究北京地區(qū)空氣質(zhì)量的文獻(xiàn)較多,主要可包括空氣質(zhì)量的影響因素分析和預(yù)測(cè)兩方面。
相關(guān)研究主要基于北京環(huán)保部門發(fā)布的市內(nèi)35個(gè)空氣質(zhì)量站點(diǎn)每日空氣污染物數(shù)據(jù)。姚祎等基于2016-2020年北京市春節(jié)期間的空氣質(zhì)量數(shù)據(jù),利用多元線性回歸模型,得出氣象因素對(duì)污染物濃度的影響占主導(dǎo)地位,社會(huì)經(jīng)濟(jì)活動(dòng)水平對(duì)空氣質(zhì)量也存在顯著性影響[3]。許昌日等基于2014-2017年北京市每日數(shù)據(jù)得出氣象條件、PM2.5和O3對(duì)霧霾天氣的產(chǎn)生有重要的影響[4]。王娟利用多元回歸模型對(duì)全國(guó)各大城市空氣質(zhì)量數(shù)據(jù)進(jìn)行分析得出,氣象條件及污染物排放是影響PM2.5濃度的主要因素[5]。
國(guó)內(nèi)基于統(tǒng)計(jì)預(yù)測(cè)模型和機(jī)器學(xué)習(xí)方法的空氣質(zhì)量預(yù)測(cè)研究比較豐富,譬如:王娟指出基于氣象因素和污染濃度的多元回歸模型對(duì)PM2.5濃度預(yù)測(cè)有著較高的精度[5];劉慧君通過逐步回歸模型實(shí)現(xiàn)了對(duì)武漢市PM2.5指標(biāo)的預(yù)測(cè),并取得了較好的效果[6];朱晏民等對(duì)深度學(xué)習(xí)方法在空氣質(zhì)量預(yù)報(bào)方面的應(yīng)用進(jìn)展進(jìn)行了總結(jié),指出現(xiàn)有的機(jī)器學(xué)習(xí)方法能夠?qū)崿F(xiàn)對(duì)空氣質(zhì)量的有效預(yù)測(cè),但其預(yù)測(cè)精度仍可有很大的提升,并對(duì)構(gòu)建新的深度學(xué)習(xí)模型給出了展望[7];付悅等以北京市空氣質(zhì)量等級(jí)作為分類型目標(biāo)變量,分別使用統(tǒng)計(jì)判別分析和機(jī)器學(xué)習(xí)分類方法進(jìn)行實(shí)證研究,得出決策樹模型的預(yù)測(cè)結(jié)果次于隨機(jī)森林模型但優(yōu)于判別分析和支持向量機(jī)模型,且能較清晰地展示分類結(jié)果[8]??傮w而言,機(jī)器學(xué)習(xí)模型較一般統(tǒng)計(jì)模型預(yù)測(cè)精度更高,但存在模型理論較復(fù)雜、模型實(shí)現(xiàn)較難、解釋性較差等問題。
目前,對(duì)北京空氣質(zhì)量影響因素和預(yù)測(cè)方面的研究尚存在一定的不足。譬如,相關(guān)文獻(xiàn)的研究對(duì)象往往局限于一個(gè)站點(diǎn)或僅僅局限于北京城六區(qū),或把北京市全域作為一個(gè)整體,并沒有對(duì)北京的各個(gè)區(qū)域展開研究。另外,往往僅對(duì)北京空氣質(zhì)量的具體指標(biāo)值進(jìn)行相關(guān)因素分析和預(yù)測(cè),并沒有同時(shí)對(duì)空氣質(zhì)量等級(jí)進(jìn)行相關(guān)因素分析和預(yù)測(cè)。針對(duì)這些不足,在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,研究北京不同區(qū)域的空氣質(zhì)量問題,并同時(shí)考慮空氣質(zhì)量和空氣質(zhì)量等級(jí)的影響因素分析及預(yù)測(cè)研究。根據(jù)回歸模型和機(jī)器學(xué)習(xí)模型的特點(diǎn),對(duì)空氣質(zhì)量的研究主要通過回歸模型進(jìn)行展開,對(duì)空氣質(zhì)量等級(jí)的研究則通過決策樹模型進(jìn)行分析,研究結(jié)果可為北京地區(qū)大氣污染治理提供一定的參考,具有重要的實(shí)踐價(jià)值。
北京市共有35個(gè)空氣監(jiān)測(cè)站,基于北京市2017-2020年各站點(diǎn)數(shù)據(jù)開展研究,由于2018年的數(shù)據(jù)質(zhì)量相對(duì)較好,建模分析主要基于2018年的數(shù)據(jù)展開。每個(gè)監(jiān)測(cè)站點(diǎn)會(huì)記錄每日每小時(shí)的 PM2.5、PM10、SO2、CO、O3、NO2及AQI指標(biāo)數(shù)值,各站點(diǎn)各指標(biāo)當(dāng)日均值通過當(dāng)天每時(shí)均值獲得,可在每日均值的基礎(chǔ)上計(jì)算出各站點(diǎn)月均值和年均值。對(duì)相應(yīng)站點(diǎn)均值進(jìn)行平均計(jì)算,可得到局部區(qū)域或整個(gè)北京市域?qū)?yīng)時(shí)間段均值。在這些空氣質(zhì)量指標(biāo)數(shù)據(jù)中,AQI反映綜合空氣質(zhì)量,故將該指標(biāo)作為目標(biāo)變量。根據(jù)AQI日均值,可將空氣質(zhì)量分為6個(gè)級(jí)別:優(yōu),良,輕度污染,中度污染,重度污染,嚴(yán)重污染。這6個(gè)級(jí)別對(duì)應(yīng)的AQI區(qū)間分別為0~50、50~100、101~150、151~200、201~300、300以上[9]。
為研究北京不同區(qū)域的空氣質(zhì)量問題,根據(jù)北京市各區(qū)地理位置及政府相關(guān)文件,將北京市域劃分為如表1中所示的5個(gè)區(qū)域。各個(gè)區(qū)域的空氣質(zhì)量可通過對(duì)區(qū)域內(nèi)所有監(jiān)測(cè)站點(diǎn)值取均值獲得。
對(duì)北京各區(qū)域的2017-2020年空氣質(zhì)量數(shù)據(jù)進(jìn)行描述分析,從整體上了解北京近幾年空氣質(zhì)量變化情況。通過相關(guān)分析研究北京空氣質(zhì)量與氣象、社會(huì)經(jīng)濟(jì)因素之間的關(guān)系。通過回歸模型和決策樹模型分別對(duì)北京市空氣質(zhì)量數(shù)據(jù)和空氣質(zhì)量等級(jí)數(shù)據(jù)進(jìn)行影響因素和預(yù)測(cè)分析。
回歸模型是一種常見的統(tǒng)計(jì)模型,主要研究因變量和自變量之間的關(guān)系,既可以用作發(fā)現(xiàn)變量之間的因果關(guān)系,也可以用作對(duì)因變量的預(yù)測(cè)。回歸模型具有簡(jiǎn)單易懂、統(tǒng)計(jì)理論完善、解釋性強(qiáng)、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。決策樹模型是一種簡(jiǎn)單易用的機(jī)器學(xué)習(xí)方法,是一種基本的分類與回歸方法。該模型對(duì)連續(xù)性目標(biāo)變量的預(yù)測(cè)精度往往較低,但由于其結(jié)果比較直觀,可解釋性強(qiáng),比較適合對(duì)離散型目標(biāo)變量建模。同時(shí)該模型具有計(jì)算速度快、容易解釋、穩(wěn)健性強(qiáng)等優(yōu)點(diǎn)[10]?;谶@兩模型的特點(diǎn),主要通過多元線性回歸模型和分類決策樹模型分別對(duì)AQI數(shù)據(jù)和AQI等級(jí)數(shù)據(jù)進(jìn)行建模分析。
基于各個(gè)空氣檢測(cè)站點(diǎn)的日均空氣質(zhì)量數(shù)據(jù)可計(jì)算出表1中列出的北京市各個(gè)區(qū)域的年度空氣質(zhì)量指標(biāo)均值。各污染物濃度值變化情況基本相似,且AQI指標(biāo)是反映空氣質(zhì)量的綜合指標(biāo),故僅列出北京市5個(gè)區(qū)域2017-2020年AQI年均值變化情況,如圖1所示。
從整體上看,各個(gè)區(qū)域這4年AQI年均值都分布在70~120,且各地區(qū)年均值都呈現(xiàn)逐年下降的趨勢(shì),表明近年來經(jīng)過政府和民眾的努力,北京市空氣質(zhì)量得到了顯著提升。在圖1中橫向比較各區(qū)域AQI年均值可得,東北部和西北部區(qū)域空氣質(zhì)量相對(duì)較好,城六區(qū)居中,而東南部和西南部區(qū)域空氣質(zhì)量相對(duì)較差。造成這一結(jié)果的原因可能是北京北部地區(qū)以山區(qū)居多,而中部和南部地區(qū)以平原為主,北部地區(qū)人口較少,且北部地區(qū)還處上風(fēng)向。
基于北京市5個(gè)區(qū)域2018年每日AQI指標(biāo)均值進(jìn)行空氣質(zhì)量等級(jí)劃分,并將2018年各區(qū)域空氣質(zhì)量等級(jí)分布情況列于表2中。由表2可知,各區(qū)域空氣質(zhì)量等級(jí)為良好的天數(shù)占比最高,達(dá)到45%左右;其次為輕度污染和優(yōu),占比分別達(dá)到25%和15%左右;重度污染和嚴(yán)重污染所占比重普遍較低。其中,東北部區(qū)域空氣質(zhì)量相對(duì)較好,等級(jí)為優(yōu)的天數(shù)占比高達(dá)28%,明顯高于其他區(qū)域。表2說明北京市各區(qū)域空氣質(zhì)量情況整體較好。
()中數(shù)據(jù)為天數(shù)占年度的百分比
氣象因素對(duì)空氣質(zhì)量存在著顯著影響,但氣象數(shù)據(jù)收集相對(duì)比較困難,僅從相關(guān)氣象數(shù)據(jù)網(wǎng)中收集到北京市2018年每日平均氣溫和平均風(fēng)速兩個(gè)氣象變量?;?018年35個(gè)監(jiān)測(cè)站點(diǎn)每日AQI均值可計(jì)算得北京市2018年每日AQI均值。通過相關(guān)性分析可得,北京2018年每日平均溫度與AQI均值的相關(guān)系數(shù)為-0.242,呈現(xiàn)出顯著的負(fù)相關(guān)性。平均氣溫高時(shí),空氣質(zhì)量相對(duì)較好,這是因?yàn)闅鉁馗邥r(shí)會(huì)促進(jìn)底層大氣向高層溫度低處流動(dòng),帶來離地面較近的空氣污染物向高空擴(kuò)散。平均風(fēng)速與AQI均值的相關(guān)系數(shù)為-0.359,也呈現(xiàn)出顯著的負(fù)相關(guān)性,即風(fēng)速越大空氣中的污染物濃度越低,空氣質(zhì)量越好。風(fēng)速較大,大氣污染物的擴(kuò)散率也就越高,進(jìn)而空氣污染物濃度會(huì)下降,結(jié)果與自然規(guī)律和民眾的認(rèn)知一致。
社會(huì)經(jīng)濟(jì)因素對(duì)空氣質(zhì)量也存在著顯著影響,但北京市經(jīng)濟(jì)數(shù)據(jù)主要是年度數(shù)據(jù),因此選取了2010-2019年北京AQI年均值數(shù)據(jù)及7個(gè)年度經(jīng)濟(jì)數(shù)據(jù):GDP、第二產(chǎn)業(yè)占比、綠地覆蓋率、綜合能源消費(fèi)量、工業(yè)粉塵排放量、總?cè)丝?、汽車保有量。相關(guān)性檢驗(yàn)可得,AQI與GDP、綜合能源消費(fèi)量、汽車保有量呈現(xiàn)出顯著的負(fù)相關(guān)性,相關(guān)性系數(shù)依次為-0.989、-0.986、-0.949;但與工業(yè)粉塵排放量呈現(xiàn)出顯著的正相關(guān)性,相關(guān)系數(shù)為0.848;與其他3個(gè)經(jīng)濟(jì)因素未呈現(xiàn)出顯著的相關(guān)性。這是因?yàn)楸本┦薪陙碓诒3諫DP、綜合能源消費(fèi)量和汽車保有量增長(zhǎng)的同時(shí),注重社會(huì)高質(zhì)量的經(jīng)濟(jì)發(fā)展、大力利用綠色低碳能源、促進(jìn)新能源汽車消費(fèi),使得空氣質(zhì)量逐年得到改善。
公眾對(duì)空氣質(zhì)量的關(guān)注主要集中在污染物濃度和污染物等級(jí)兩個(gè)角度,即從AQI數(shù)值和AQI污染等級(jí)兩個(gè)角度評(píng)估空氣質(zhì)量,因此嘗試分別以這兩個(gè)指標(biāo)作為目標(biāo)變量建立預(yù)測(cè)模型。根據(jù)討論的統(tǒng)計(jì)與機(jī)器學(xué)習(xí)模型的特點(diǎn),對(duì)AQI指標(biāo)建立回歸模型,對(duì)AQI污染等級(jí)建立決策樹模型進(jìn)行預(yù)測(cè)研究。
基于北京市2018年35個(gè)空氣監(jiān)測(cè)站點(diǎn)每日數(shù)據(jù),計(jì)算出5個(gè)區(qū)域的每日均值,并對(duì)每個(gè)區(qū)域分別建立空氣質(zhì)量預(yù)測(cè)模型。在對(duì)每個(gè)區(qū)域的建模分析中,因變量為區(qū)域每日AQI均值或其對(duì)應(yīng)的空氣質(zhì)量等級(jí)值,自變量為 PM2.5、PM10、SO2、CO、O3、NO2這6個(gè)指標(biāo)的區(qū)域日均值。為了消除不同量綱數(shù)值對(duì)建模的影響,對(duì)原始數(shù)據(jù)進(jìn)行了正態(tài)標(biāo)準(zhǔn)化處理。由于對(duì)各區(qū)域建模過程類似,因此僅對(duì)城六區(qū)這一區(qū)域的建模過程展開分析,僅給出其他4個(gè)區(qū)域的主要模型結(jié)果。
以城六區(qū)為例,自變量 PM2.5、PM10、SO2、CO、O3、NO2之間存在著一定的相關(guān)性,但整體相關(guān)性不強(qiáng),絕大多數(shù)變量之間的相關(guān)性系數(shù)在0.5左右。故在建立回歸模型前需對(duì)自變量進(jìn)行多重共線性檢驗(yàn),檢驗(yàn)結(jié)果如表3所示。由表3可知,共線性統(tǒng)計(jì)量VIF值都低于10,說明各變量之間存在較弱的多重共線性,可以把這些變量一起放入回歸模型進(jìn)行逐步回歸分析。模型結(jié)果顯示,各個(gè)自變量的顯著性水平都低于1‰,表明各自變量都對(duì)因變量有顯著的影響。模型調(diào)整后的判定系數(shù)為0.895,該模型的擬合度良好,可以用于對(duì)AQI指數(shù)的預(yù)測(cè)。模型方程為:
AQI=0.4×PM2.5+0.3×PM10-0.9×SO2+15.2×CO+0.5×O3+0.3×NO2-14.5,
說明AQI 與SO2呈負(fù)相關(guān)外,與其他自變量都呈現(xiàn)出正相關(guān)關(guān)系,且 CO對(duì)空氣質(zhì)量指數(shù)的影響最大,SO2次之。
表3 自變量之間多重共線性診斷Tab.3 Multicollinearity diagnosis among independent variables
北京市其他4個(gè)區(qū)域的線性回歸分析類似,模型主要結(jié)果如表4所示。由表4可知,除西南部區(qū)域的模型判定系數(shù)為0.68外,其余各區(qū)域模型判定系數(shù)均大于0.8,表明回歸模型在各個(gè)區(qū)域整體擬合效果較好。同時(shí),對(duì)北京東北部區(qū)域AQI影響最大的三個(gè)變量依次為CO、SO2、O3;對(duì)東南部區(qū)域AQI影響最大的兩個(gè)變量依次為PM2.5和SO2;對(duì)西北部區(qū)域AQI影響最大的三個(gè)變量依次為CO、SO2、O3;對(duì)西南部區(qū)域影響最大的兩個(gè)變量依次為O3和PM2.5。通過模型結(jié)果可知,北京市各區(qū)域模型自變量對(duì)其AQI指數(shù)的影響關(guān)系不完全相同,但綜合而言,對(duì)各區(qū)域AQI影響較大的污染物主要集中在CO、SO2、PM2.5、O3。因此為了降低AQI指標(biāo)值,政府部門應(yīng)制定相關(guān)政策措施有效降低這4種空氣污染物濃度。
表4 各區(qū)域回歸方程Tab.4 Regression equation of all regions
以城六區(qū)為例,自變量為 PM2.5、PM10、SO2、CO、O3、NO2,因變量為空氣質(zhì)量等級(jí)建立決策樹模型。在建模前,對(duì)樣本進(jìn)行隨機(jī)劃分,70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集,在訓(xùn)練集上創(chuàng)建了決策樹模型,在測(cè)試集上評(píng)估模型預(yù)測(cè)效果。為防止過擬合現(xiàn)象出現(xiàn),限制決策樹的生長(zhǎng)深度為4。決策樹建模結(jié)果和生長(zhǎng)規(guī)則如圖2所示,決策樹的每個(gè)子節(jié)點(diǎn)都包含優(yōu)、良好、輕度污染、中度污染、重度污染、嚴(yán)重污染這6個(gè)空氣質(zhì)量等級(jí),僅展示出比重最大的空氣質(zhì)量等級(jí)。模型篩選結(jié)果顯示僅僅PM2.5和 O3這兩個(gè)自變量對(duì)預(yù)測(cè)城六區(qū)空氣質(zhì)量等級(jí)起作用,且PM2.5的作用最為重要。在整體上,模型在訓(xùn)練集上的正確率達(dá)到85.9%,而在測(cè)試集上的正確率達(dá)到88.7%,表明決策樹模型對(duì)城六區(qū)空氣質(zhì)量等級(jí)的預(yù)測(cè)精度較高。
圖2 2018年城六區(qū)區(qū)域空氣質(zhì)量等級(jí)決策樹模型結(jié)果圖Fig.2 Decision-making treeresults of air quality ranks in 6 urban regions in 2018
決策樹模型在其他4個(gè)區(qū)域的結(jié)果如表5所示。由表5可知,決策樹模型在北京其他4個(gè)區(qū)域的預(yù)測(cè)正確率也都達(dá)到85%左右,表明模型在各個(gè)區(qū)域的預(yù)測(cè)精度較高,整體結(jié)果理想。表5同時(shí)也給出了各個(gè)區(qū)域決策樹生成規(guī)則的重要性變量,PM2.5和O3是所有區(qū)域模型的關(guān)鍵性指標(biāo),PM10是除城六區(qū)和東北部外的模型關(guān)鍵性指標(biāo)。因此為了提高空氣質(zhì)量等級(jí),政府部門需要制定政策措施有效降低這3種空氣污染物濃度。
表5 決策樹模型在其他站點(diǎn)的預(yù)測(cè)結(jié)果Tab.5 Prediction results of other stations of decision-making model
基于北京市2017-2020年各空氣監(jiān)測(cè)站點(diǎn)數(shù)據(jù),計(jì)算出北京5個(gè)區(qū)域的空氣質(zhì)量日均值數(shù)據(jù),在對(duì)各區(qū)域空氣質(zhì)量數(shù)據(jù)進(jìn)行描述分析的基礎(chǔ)上,從整體上分析北京市空氣質(zhì)量與氣象、社會(huì)經(jīng)濟(jì)因素之間的關(guān)系,通過回歸模型和決策樹模型,分別對(duì)北京5個(gè)區(qū)域AQI指標(biāo)值和空氣質(zhì)量等級(jí)數(shù)據(jù)進(jìn)行影響因素和預(yù)測(cè)研究,相關(guān)研究結(jié)果總結(jié)如下:
近幾年,北京市各個(gè)區(qū)域空氣質(zhì)量都得到了明顯提升,全年中空氣質(zhì)量等級(jí)為良的天數(shù)居多,其次為輕度污染和優(yōu),其中空氣質(zhì)量等級(jí)為良以上的天數(shù)占比達(dá)到60%以上。北京各個(gè)區(qū)域中,東北部和西北部區(qū)域空氣質(zhì)量相對(duì)較好,城六區(qū)居中。
氣象因素對(duì)空氣質(zhì)量存在著顯著的影響,每日AQI均值與平均溫度、平均風(fēng)速都呈現(xiàn)出顯著的負(fù)相關(guān)性。
近年來,北京市通過優(yōu)化經(jīng)濟(jì)結(jié)構(gòu),在保持社會(huì)經(jīng)濟(jì)持續(xù)增長(zhǎng)的同時(shí)提高了空氣質(zhì)量,AQI指標(biāo)值與主要經(jīng)濟(jì)指標(biāo)呈現(xiàn)出顯著的負(fù)相關(guān)性。
在各個(gè)區(qū)域上,回歸模型對(duì)AQI指標(biāo)值的擬合效果整體較好,雖然各區(qū)域模型篩選出的自變量不完全相同,但綜合而言,對(duì)AQI影響較大的污染物依次為CO、SO2、PM2.5、O3。各個(gè)區(qū)域上,決策樹模型對(duì)空氣質(zhì)量等級(jí)的預(yù)測(cè)精度較高,各區(qū)域模型篩選出的自變量基本相同,對(duì)空氣質(zhì)量等級(jí)影響較大的污染物依次為 PM2.5、PM10、O3。
根據(jù)研究?jī)?nèi)容總結(jié),對(duì)北京市空氣質(zhì)量治理提出如下建議:
政府部門加大對(duì)民眾環(huán)境保護(hù)工作的宣傳,提高民眾環(huán)保意識(shí);鼓勵(lì)民眾選乘公交地鐵出行;制定激勵(lì)政策,鼓勵(lì)民眾以新能源車替代汽油車。
北京城六區(qū)和南部地區(qū)空氣質(zhì)量較北部地區(qū)相對(duì)較差,雖然自然因素是導(dǎo)致這一現(xiàn)象的主要因素,但政府部門仍可通過疏解人口、降低污染產(chǎn)業(yè)比重、提高清潔能源使用等方法提高北京中南部地區(qū)的空氣質(zhì)量。
從降低北京市空氣質(zhì)量指數(shù)和提高空氣質(zhì)量等級(jí)兩個(gè)角度看,需要降低 CO、SO2、PM2.5、O3、PM10 這5種污染物的濃度,但從變量的重要性角度出發(fā),CO和 PM2.5是影響空氣質(zhì)量較為重要的因素,因此政府部門在制定限制大氣污染物排放政策時(shí),應(yīng)尤為重視對(duì) CO和 PM2.5這兩種污染物排放的限制。