杭 琦,楊敬輝,黃國(guó)榮
(上海第二工業(yè)大學(xué)a.環(huán)境與材料工程學(xué)院;b.智能制造與控制工程學(xué)院,上海201209)
隨著工業(yè)化進(jìn)程加快,城市人口增多,空氣污染的問題也日趨嚴(yán)重。近年來,雖然國(guó)家在大氣污染防治的問題上取得了很大的成就,但是我國(guó)的大氣污染問題仍然不容樂觀,特別是以可吸入顆粒物、氮氧化物、臭氧等為主要污染物的空氣污染問題也日趨嚴(yán)重。為了加強(qiáng)空氣污染防治工作,減少由于空氣污染造成對(duì)人體健康的危害和對(duì)環(huán)境造成的污染,采取有效的空氣評(píng)價(jià)方法對(duì)海量的空氣質(zhì)量數(shù)據(jù)進(jìn)行評(píng)價(jià),并以此為基礎(chǔ)進(jìn)一步減少大氣污染、優(yōu)化空氣質(zhì)量,就顯得尤為重要[1]。
目前國(guó)內(nèi)外空氣質(zhì)量的算法有BP神經(jīng)網(wǎng)絡(luò)法[2]、支持向量機(jī)(support vector machine,SVM)[3]、決策樹[4]和污染損害率法[5],文獻(xiàn)[2]中提出的神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的自學(xué)習(xí)和自適應(yīng)能力,但其在訓(xùn)練的過程中需要大量的原始數(shù)據(jù),計(jì)算量較大;對(duì)于經(jīng)典的SVM算法,它處理二分類算法的效率較高,但對(duì)于多分類模型來說,分類的準(zhǔn)確性較低;文獻(xiàn)[4]中提出的決策樹算法中不能較好地處理連續(xù)值的屬性、產(chǎn)生過擬合或欠擬合的情況;文獻(xiàn)[5]中的污染損害率法的評(píng)價(jià)結(jié)果較客觀,但是沒有考慮PM2.5和O3的濃度問題對(duì)空氣質(zhì)量的影響。本文考慮并增加了PM2.5和O3兩個(gè)屬性,并創(chuàng)新性地采用隨機(jī)森林算法進(jìn)行空氣質(zhì)量評(píng)估。隨機(jī)森林算法是在決策樹理論基礎(chǔ)上發(fā)展起來的一種新的分類算法,它解決了小樣本、高維度和多分類等實(shí)際問題,并且無需做特征選擇,對(duì)數(shù)據(jù)集的泛化能力強(qiáng),既可以處理離散型數(shù)據(jù),也可以處理連續(xù)型數(shù)據(jù),既克服了神經(jīng)網(wǎng)絡(luò)收斂速度慢,需要大量樣本等缺點(diǎn),也很好地解決決策樹過擬合或欠擬合以及經(jīng)典SVM對(duì)多分類模型準(zhǔn)確率較低等情況,具有較好的推廣性。本文采取《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》中給出的大氣污染物的種類,利用2014—2016年統(tǒng)計(jì)年鑒的數(shù)據(jù),將泛化能力強(qiáng)、訓(xùn)練速度快的隨機(jī)森林算法引入空氣質(zhì)量評(píng)價(jià)模型,對(duì)我國(guó)113個(gè)重點(diǎn)城市的空氣質(zhì)量進(jìn)行評(píng)價(jià),將評(píng)價(jià)結(jié)果與其他分類算法進(jìn)行比較,取得了滿意的效果。
隨機(jī)森林(random forest)是一種基于分類樹(classif i cation tree)的算法[6],它通過Bootstrap重采技術(shù),以隨機(jī)的方式來構(gòu)建一個(gè)森林,利用Bagging算法有放回地從原始訓(xùn)練數(shù)據(jù)集中取樣得到多個(gè)Bootstrap訓(xùn)練數(shù)據(jù)集,然后用每個(gè)訓(xùn)練集進(jìn)行訓(xùn)練得到相應(yīng)的決策樹模型。隨機(jī)森林可以生產(chǎn)幾百個(gè)甚至幾千個(gè)決策樹,它的預(yù)測(cè)分類結(jié)果是通過模型中的所有決策樹的投票結(jié)果來執(zhí)行的,票數(shù)最多的一類即為隨機(jī)森林模型選出來的最佳分類器??偟膩碚f隨機(jī)森林就是一個(gè)綜合考慮多個(gè)決策樹而形成的一種集成分類器的算法。
對(duì)分類問題或規(guī)則學(xué)習(xí)問題,決策樹的生成是一個(gè)從上至下、分而治之的過程[7]。決策樹從根節(jié)點(diǎn)開始,對(duì)每個(gè)非葉節(jié)點(diǎn)找出一個(gè)特征對(duì)訓(xùn)練集進(jìn)行測(cè)試,根據(jù)不同的測(cè)試結(jié)果將訓(xùn)練集劃分為若干個(gè)分支,每個(gè)分支構(gòu)成一個(gè)新的非葉節(jié)點(diǎn),再重復(fù)上述的劃分過程,直到達(dá)到規(guī)定的終止條件或者自然終止而形成葉節(jié)點(diǎn)。故決策樹需要比較不同的組合,選擇劃分結(jié)果最好的特征進(jìn)行節(jié)點(diǎn)的劃分。效果最佳的兩種劃分節(jié)點(diǎn)的方式為信息增益和Gini指數(shù)。根據(jù)信息論中熵值的定義,信息熵越大表示數(shù)據(jù)純度越高[8]。對(duì)于信息增益來說,使用劃分前后的熵的差值來劃分效果的好壞。樣本T的信息熵公式為:
式中,pi表示任意類別樣本i占T的概率。H(T)越小,說明樣本信息越有序。當(dāng)用特征A進(jìn)行分割時(shí),T個(gè)樣本將會(huì)被分割為k個(gè)部分,此時(shí)就可以計(jì)算用特征A分割節(jié)點(diǎn)的信息熵和信息增益分別用H(TA)、G(T,A)來表示。公式如下:
對(duì)于Gini指數(shù)來說,某節(jié)點(diǎn)的Gini指數(shù)越小,分類效果越好。公式如下:
由上述公式可以看出,信息增益和基尼系數(shù)大體一致,而隨機(jī)森林算法在選擇劃分方法時(shí),一般選擇用Gini指數(shù)進(jìn)行劃分。但由于決策樹在劃分節(jié)點(diǎn)時(shí)采用的是單一分類器的決策模式,故經(jīng)常存在由于分類器過于復(fù)雜而導(dǎo)致的過擬合或者欠擬合問題。
為了克服決策樹過擬合或欠擬合問題,必需解決單分類器決策模式,此時(shí)基于多分類器的隨機(jī)森林算法的出現(xiàn)很好地解決了這個(gè)問題。構(gòu)建隨機(jī)森林主要有以下幾個(gè)步驟:
(1)從原始數(shù)據(jù)T里面通過Bootstrap抽樣法抽取N個(gè)樣本組成一個(gè)新的訓(xùn)練集TN,并且每個(gè)樣本之間相互獨(dú)立。
(2)對(duì)每個(gè)通過Bootstrap抽樣法建立的分類樹模型,產(chǎn)生m棵分類樹從而形成“森林”,每棵決策樹均不需要剪枝處理。而且在構(gòu)建每棵樹時(shí),并不是選擇全部k個(gè)屬性都參與屬性指標(biāo)的計(jì)算,而是使用簡(jiǎn)單隨機(jī)抽樣,選擇其中k(k∈K)個(gè)屬性進(jìn)行比較。
(3)生成的多個(gè)決策模型相當(dāng)于多個(gè)領(lǐng)域的專家,統(tǒng)計(jì)m個(gè)決策樹的分類結(jié)果,最后采用投票方式?jīng)Q定要樣本的類別。
表1 部分重點(diǎn)環(huán)保城市空氣質(zhì)量情況Tab.1 Partial air conditions of major environmental protection cities
表2 二分類模型預(yù)處理部分?jǐn)?shù)據(jù)Tab.2 Partial data preprocessing of binary classif i cation model
要準(zhǔn)確地建立空氣質(zhì)量的評(píng)價(jià)模型,首先要了解影響空氣質(zhì)量的因素[9]。本文選取2014—2016年我國(guó)113個(gè)環(huán)保重點(diǎn)城市的空氣質(zhì)量數(shù)據(jù)[10],空氣質(zhì)量標(biāo)準(zhǔn)取于《環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3095—2012),根據(jù)影響空氣質(zhì)量的幾個(gè)重要因素作為屬性變量,同時(shí)使用空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)來表示空氣質(zhì)量好壞。本文所使用的部分原始數(shù)據(jù)如表1所示。
本文樣本個(gè)數(shù)為277個(gè),由于表中的6個(gè)屬性的量綱級(jí)別差距不大,且隨機(jī)森林有著較好的泛化能力,故此數(shù)據(jù)集無需做規(guī)范化處理,節(jié)約了大量時(shí)間。為了得到較好的分類精度,令響應(yīng)變量Y為空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年天數(shù)的比重。本文同時(shí)考慮隨機(jī)森林的二分類和多分類的能力,先對(duì)二分類中的響應(yīng)變量Y處做如下處理:依據(jù)2015年2月2日環(huán)境部網(wǎng)站消息,我國(guó)重點(diǎn)環(huán)保城市的空氣質(zhì)量平均達(dá)標(biāo)天數(shù)為298 d,約占全年的70%,故本文以70%作為閾值點(diǎn)。當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于70%時(shí),歸類為空氣質(zhì)量較好,用“1”來表示,當(dāng)比重小于70%時(shí),歸類為空氣質(zhì)量較差,用“0”來表示,如表2所示;而對(duì)于多分類模型,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于70%時(shí),用“2”來表示,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于30%且小于70%時(shí),用“1”來表示,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重小于30%時(shí),用“0”來表示,如表3所示。
表3 多分類模型預(yù)處理部分?jǐn)?shù)據(jù)Tab.3 Partial data preprocessing of multiclass classification model
對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行抽樣,抽取70%的數(shù)據(jù)作為訓(xùn)練樣本,其余作為測(cè)試樣本。模型主要由輸入、輸出和算法處理3部分組成,其中模型的輸入部分包括建模的樣本輸入和參數(shù)輸入。本文所用到的原始樣本為277個(gè),從空氣質(zhì)量分布可以看出,在中國(guó)空氣質(zhì)量較好或較差的城市占比較少,而城市質(zhì)量一般的城市占比相對(duì)較多。其中較好的占比30%~40%,較差的占比5%~15%,一般的占比50%~60%??紤]到數(shù)據(jù)的分布情況,本文在算法構(gòu)建的過程中采用非平衡的方法進(jìn)行取樣。在利用spss modeler構(gòu)建隨機(jī)森林分類器時(shí),首先設(shè)置要構(gòu)建的決策樹的個(gè)數(shù)為300,也就是要從原始樣本中,利用Bootstrap抽樣法進(jìn)行300次采樣,并用這300組數(shù)據(jù)集分別作為決策樹根節(jié)點(diǎn)的訓(xùn)練樣本。每棵決策M(jìn)樹隨機(jī)選擇的特征數(shù)目為系統(tǒng)默認(rèn)參數(shù),一般取其中M 為總特征數(shù)目。同時(shí)設(shè)置最大樹深度為10,最小子節(jié)點(diǎn)大小為5,以信息增益的高低來確定每個(gè)分類節(jié)點(diǎn)的最佳分割閾值。最終訓(xùn)練完300棵樹后,系統(tǒng)自動(dòng)統(tǒng)計(jì)300個(gè)決策樹的分類結(jié)果,最后采用投票方式?jīng)Q定此樣本的類別。實(shí)驗(yàn)共重復(fù)100次,取其平均結(jié)果作為最終的分類結(jié)果。為了比較隨機(jī)森林算法與其他算法的優(yōu)劣,在相同的數(shù)據(jù)環(huán)境下,同時(shí)還建立了SVM模型、人工神經(jīng)網(wǎng)絡(luò)和決策樹模型。
為了說明各個(gè)算法的分類精度,本文使用隨機(jī)森林模型在測(cè)試集上的分類準(zhǔn)確率來衡量二分類模型和多分類模型的分類效果,其指標(biāo)的比較如圖1所示。
圖1 二分類模型性能指標(biāo)的比較Fig.1 The comparison of different indicators of binary classif i cation model
準(zhǔn)確率公式如下:
式中:nsample為樣本總數(shù);?y為測(cè)試樣本類別;而yi為實(shí)際樣本類別即
圖2所示為多分類模型性能指標(biāo)的比較。從圖1、圖2中可以直觀地看出,無論是二分類還是多分類,對(duì)于分類的準(zhǔn)確率來說,隨機(jī)森林算法的分類準(zhǔn)確性最高。從圖中可得知隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、決策樹、SVM這4種算法的準(zhǔn)確性值依次降低,說明與這些算法相比,隨機(jī)森林具有更好的分類精度,綜合性能最好。圖3所示為基于隨機(jī)森林算法計(jì)算得出的預(yù)測(cè)變量重要性的排序結(jié)果。由結(jié)果可看出,本文給出的6個(gè)屬性變量在構(gòu)建空氣質(zhì)量評(píng)價(jià)模型時(shí),均產(chǎn)生了一定的影響,而可吸入顆粒物PM10,細(xì)顆粒物PM2.5和O3的濃度是影響各大城市空氣質(zhì)量好壞的主要因素。
圖2 多分類模型性能指標(biāo)的比較Fig.2 The comparison of different indicators of multiclass classif i cation model
圖3 預(yù)測(cè)變量重要性排序結(jié)果Fig.3 Results of predicting the importance of variables
隨著國(guó)家對(duì)環(huán)境保護(hù)的重視,有關(guān)空氣質(zhì)量的評(píng)估方法也日趨完善。無論是在空氣監(jiān)測(cè)范圍上還是在數(shù)據(jù)的處理速度或是準(zhǔn)確率上都有了很大的進(jìn)步。國(guó)家在2016年正式將PM2.5和O3列入全國(guó)空氣監(jiān)測(cè)范圍內(nèi),本文收集到了3年的數(shù)據(jù),并在現(xiàn)有研究的基礎(chǔ)上,增加PM2.5和O3兩個(gè)影響因子,針對(duì)影響空氣質(zhì)量的幾個(gè)重要因素,得出了影響空氣質(zhì)量因素的重要性排序,并且在常用的準(zhǔn)確率評(píng)價(jià)指標(biāo)的基礎(chǔ)上,將隨機(jī)森林算法應(yīng)用于空氣質(zhì)量評(píng)價(jià)模型的研究中,并與決策樹、SVM和神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較,發(fā)現(xiàn)無論在二分類還是多分類模型中,隨機(jī)森林算法的分類效果均優(yōu)于上述幾類算法。同時(shí)隨機(jī)森林算法在數(shù)據(jù)的處理方法上只需知道空氣質(zhì)量的分級(jí)標(biāo)準(zhǔn)就可以建立模型,只要樣本屬性選擇恰當(dāng),無需對(duì)原始數(shù)據(jù)進(jìn)行歸約和標(biāo)準(zhǔn)化處理,收斂速度快,具有比較好的推廣性,有利于空氣質(zhì)量的科學(xué)評(píng)估。
[1] 汪瀅.基于決策樹的數(shù)據(jù)挖掘算法在空氣質(zhì)量評(píng)估中的應(yīng)用[D].南昌:南昌大學(xué),2009.
[2] 陳祖云,金波,鄔長(zhǎng)福.支持向量機(jī)在環(huán)境空氣質(zhì)量評(píng)價(jià)中的應(yīng)用[J].環(huán)境科學(xué)與技術(shù),2012,35(6):395-397.
[3] 李璐,劉永紅,蔡銘,等.基于氣象相似準(zhǔn)則的城市空氣質(zhì)量預(yù)報(bào)模型[J].環(huán)境科學(xué)與技術(shù),2013,36(5):156-157.
[4] 汪瀅,邱芬.基于決策樹算法在空氣質(zhì)量評(píng)估中的應(yīng)用[J].科技視界,2012(31):253-254
[5] 李祚泳,彭荔紅.基于遺傳算法優(yōu)化的大氣質(zhì)量評(píng)價(jià)的污染危害指數(shù)公式[J].中國(guó)環(huán)境科學(xué),2000,20(4):313-317.
[6] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.
[7] 王崢琦.基于決策樹算法的改進(jìn)與應(yīng)用[D].西安:西安科技大學(xué),2005.
[8] 馬驪.隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D].廣州:暨南大學(xué),2016.
[9] 沈勁,鐘流舉,何芳芳,等.基于聚類與多元回歸的空氣質(zhì)量預(yù)報(bào)模型開發(fā)[J].環(huán)境科學(xué)與技術(shù),2015,38(2):63-66.
[10]中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.環(huán)境統(tǒng)計(jì)數(shù)據(jù)[Z/OL].[2017-12-09].http://www.stats.gov.cn/ztjc/ztsj/hjtjzl/.
上海第二工業(yè)大學(xué)學(xué)報(bào)2018年2期