亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林算法在空氣質(zhì)量評(píng)價(jià)中的應(yīng)用

        2018-07-04 10:25:46楊敬輝黃國(guó)榮
        關(guān)鍵詞:決策樹分類器空氣質(zhì)量

        杭 琦,楊敬輝,黃國(guó)榮

        (上海第二工業(yè)大學(xué)a.環(huán)境與材料工程學(xué)院;b.智能制造與控制工程學(xué)院,上海201209)

        0 引 言

        隨著工業(yè)化進(jìn)程加快,城市人口增多,空氣污染的問題也日趨嚴(yán)重。近年來,雖然國(guó)家在大氣污染防治的問題上取得了很大的成就,但是我國(guó)的大氣污染問題仍然不容樂觀,特別是以可吸入顆粒物、氮氧化物、臭氧等為主要污染物的空氣污染問題也日趨嚴(yán)重。為了加強(qiáng)空氣污染防治工作,減少由于空氣污染造成對(duì)人體健康的危害和對(duì)環(huán)境造成的污染,采取有效的空氣評(píng)價(jià)方法對(duì)海量的空氣質(zhì)量數(shù)據(jù)進(jìn)行評(píng)價(jià),并以此為基礎(chǔ)進(jìn)一步減少大氣污染、優(yōu)化空氣質(zhì)量,就顯得尤為重要[1]。

        目前國(guó)內(nèi)外空氣質(zhì)量的算法有BP神經(jīng)網(wǎng)絡(luò)法[2]、支持向量機(jī)(support vector machine,SVM)[3]、決策樹[4]和污染損害率法[5],文獻(xiàn)[2]中提出的神經(jīng)網(wǎng)絡(luò)算法具有很強(qiáng)的自學(xué)習(xí)和自適應(yīng)能力,但其在訓(xùn)練的過程中需要大量的原始數(shù)據(jù),計(jì)算量較大;對(duì)于經(jīng)典的SVM算法,它處理二分類算法的效率較高,但對(duì)于多分類模型來說,分類的準(zhǔn)確性較低;文獻(xiàn)[4]中提出的決策樹算法中不能較好地處理連續(xù)值的屬性、產(chǎn)生過擬合或欠擬合的情況;文獻(xiàn)[5]中的污染損害率法的評(píng)價(jià)結(jié)果較客觀,但是沒有考慮PM2.5和O3的濃度問題對(duì)空氣質(zhì)量的影響。本文考慮并增加了PM2.5和O3兩個(gè)屬性,并創(chuàng)新性地采用隨機(jī)森林算法進(jìn)行空氣質(zhì)量評(píng)估。隨機(jī)森林算法是在決策樹理論基礎(chǔ)上發(fā)展起來的一種新的分類算法,它解決了小樣本、高維度和多分類等實(shí)際問題,并且無需做特征選擇,對(duì)數(shù)據(jù)集的泛化能力強(qiáng),既可以處理離散型數(shù)據(jù),也可以處理連續(xù)型數(shù)據(jù),既克服了神經(jīng)網(wǎng)絡(luò)收斂速度慢,需要大量樣本等缺點(diǎn),也很好地解決決策樹過擬合或欠擬合以及經(jīng)典SVM對(duì)多分類模型準(zhǔn)確率較低等情況,具有較好的推廣性。本文采取《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》中給出的大氣污染物的種類,利用2014—2016年統(tǒng)計(jì)年鑒的數(shù)據(jù),將泛化能力強(qiáng)、訓(xùn)練速度快的隨機(jī)森林算法引入空氣質(zhì)量評(píng)價(jià)模型,對(duì)我國(guó)113個(gè)重點(diǎn)城市的空氣質(zhì)量進(jìn)行評(píng)價(jià),將評(píng)價(jià)結(jié)果與其他分類算法進(jìn)行比較,取得了滿意的效果。

        1 研究方法

        1.1 隨機(jī)森林的工作原理

        隨機(jī)森林(random forest)是一種基于分類樹(classif i cation tree)的算法[6],它通過Bootstrap重采技術(shù),以隨機(jī)的方式來構(gòu)建一個(gè)森林,利用Bagging算法有放回地從原始訓(xùn)練數(shù)據(jù)集中取樣得到多個(gè)Bootstrap訓(xùn)練數(shù)據(jù)集,然后用每個(gè)訓(xùn)練集進(jìn)行訓(xùn)練得到相應(yīng)的決策樹模型。隨機(jī)森林可以生產(chǎn)幾百個(gè)甚至幾千個(gè)決策樹,它的預(yù)測(cè)分類結(jié)果是通過模型中的所有決策樹的投票結(jié)果來執(zhí)行的,票數(shù)最多的一類即為隨機(jī)森林模型選出來的最佳分類器??偟膩碚f隨機(jī)森林就是一個(gè)綜合考慮多個(gè)決策樹而形成的一種集成分類器的算法。

        1.2 隨機(jī)森林基分類器—-決策樹

        對(duì)分類問題或規(guī)則學(xué)習(xí)問題,決策樹的生成是一個(gè)從上至下、分而治之的過程[7]。決策樹從根節(jié)點(diǎn)開始,對(duì)每個(gè)非葉節(jié)點(diǎn)找出一個(gè)特征對(duì)訓(xùn)練集進(jìn)行測(cè)試,根據(jù)不同的測(cè)試結(jié)果將訓(xùn)練集劃分為若干個(gè)分支,每個(gè)分支構(gòu)成一個(gè)新的非葉節(jié)點(diǎn),再重復(fù)上述的劃分過程,直到達(dá)到規(guī)定的終止條件或者自然終止而形成葉節(jié)點(diǎn)。故決策樹需要比較不同的組合,選擇劃分結(jié)果最好的特征進(jìn)行節(jié)點(diǎn)的劃分。效果最佳的兩種劃分節(jié)點(diǎn)的方式為信息增益和Gini指數(shù)。根據(jù)信息論中熵值的定義,信息熵越大表示數(shù)據(jù)純度越高[8]。對(duì)于信息增益來說,使用劃分前后的熵的差值來劃分效果的好壞。樣本T的信息熵公式為:

        式中,pi表示任意類別樣本i占T的概率。H(T)越小,說明樣本信息越有序。當(dāng)用特征A進(jìn)行分割時(shí),T個(gè)樣本將會(huì)被分割為k個(gè)部分,此時(shí)就可以計(jì)算用特征A分割節(jié)點(diǎn)的信息熵和信息增益分別用H(TA)、G(T,A)來表示。公式如下:

        對(duì)于Gini指數(shù)來說,某節(jié)點(diǎn)的Gini指數(shù)越小,分類效果越好。公式如下:

        由上述公式可以看出,信息增益和基尼系數(shù)大體一致,而隨機(jī)森林算法在選擇劃分方法時(shí),一般選擇用Gini指數(shù)進(jìn)行劃分。但由于決策樹在劃分節(jié)點(diǎn)時(shí)采用的是單一分類器的決策模式,故經(jīng)常存在由于分類器過于復(fù)雜而導(dǎo)致的過擬合或者欠擬合問題。

        1.3 隨機(jī)森林的構(gòu)建

        為了克服決策樹過擬合或欠擬合問題,必需解決單分類器決策模式,此時(shí)基于多分類器的隨機(jī)森林算法的出現(xiàn)很好地解決了這個(gè)問題。構(gòu)建隨機(jī)森林主要有以下幾個(gè)步驟:

        (1)從原始數(shù)據(jù)T里面通過Bootstrap抽樣法抽取N個(gè)樣本組成一個(gè)新的訓(xùn)練集TN,并且每個(gè)樣本之間相互獨(dú)立。

        (2)對(duì)每個(gè)通過Bootstrap抽樣法建立的分類樹模型,產(chǎn)生m棵分類樹從而形成“森林”,每棵決策樹均不需要剪枝處理。而且在構(gòu)建每棵樹時(shí),并不是選擇全部k個(gè)屬性都參與屬性指標(biāo)的計(jì)算,而是使用簡(jiǎn)單隨機(jī)抽樣,選擇其中k(k∈K)個(gè)屬性進(jìn)行比較。

        (3)生成的多個(gè)決策模型相當(dāng)于多個(gè)領(lǐng)域的專家,統(tǒng)計(jì)m個(gè)決策樹的分類結(jié)果,最后采用投票方式?jīng)Q定要樣本的類別。

        表1 部分重點(diǎn)環(huán)保城市空氣質(zhì)量情況Tab.1 Partial air conditions of major environmental protection cities

        表2 二分類模型預(yù)處理部分?jǐn)?shù)據(jù)Tab.2 Partial data preprocessing of binary classif i cation model

        2 數(shù)據(jù)來源及預(yù)處理

        要準(zhǔn)確地建立空氣質(zhì)量的評(píng)價(jià)模型,首先要了解影響空氣質(zhì)量的因素[9]。本文選取2014—2016年我國(guó)113個(gè)環(huán)保重點(diǎn)城市的空氣質(zhì)量數(shù)據(jù)[10],空氣質(zhì)量標(biāo)準(zhǔn)取于《環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3095—2012),根據(jù)影響空氣質(zhì)量的幾個(gè)重要因素作為屬性變量,同時(shí)使用空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)來表示空氣質(zhì)量好壞。本文所使用的部分原始數(shù)據(jù)如表1所示。

        本文樣本個(gè)數(shù)為277個(gè),由于表中的6個(gè)屬性的量綱級(jí)別差距不大,且隨機(jī)森林有著較好的泛化能力,故此數(shù)據(jù)集無需做規(guī)范化處理,節(jié)約了大量時(shí)間。為了得到較好的分類精度,令響應(yīng)變量Y為空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年天數(shù)的比重。本文同時(shí)考慮隨機(jī)森林的二分類和多分類的能力,先對(duì)二分類中的響應(yīng)變量Y處做如下處理:依據(jù)2015年2月2日環(huán)境部網(wǎng)站消息,我國(guó)重點(diǎn)環(huán)保城市的空氣質(zhì)量平均達(dá)標(biāo)天數(shù)為298 d,約占全年的70%,故本文以70%作為閾值點(diǎn)。當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于70%時(shí),歸類為空氣質(zhì)量較好,用“1”來表示,當(dāng)比重小于70%時(shí),歸類為空氣質(zhì)量較差,用“0”來表示,如表2所示;而對(duì)于多分類模型,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于70%時(shí),用“2”來表示,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重大于等于30%且小于70%時(shí),用“1”來表示,當(dāng)空氣質(zhì)量達(dá)到及優(yōu)于2級(jí)的天數(shù)占全年的比重小于30%時(shí),用“0”來表示,如表3所示。

        表3 多分類模型預(yù)處理部分?jǐn)?shù)據(jù)Tab.3 Partial data preprocessing of multiclass classification model

        3 隨機(jī)森林算法的構(gòu)建和結(jié)果分析

        對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行抽樣,抽取70%的數(shù)據(jù)作為訓(xùn)練樣本,其余作為測(cè)試樣本。模型主要由輸入、輸出和算法處理3部分組成,其中模型的輸入部分包括建模的樣本輸入和參數(shù)輸入。本文所用到的原始樣本為277個(gè),從空氣質(zhì)量分布可以看出,在中國(guó)空氣質(zhì)量較好或較差的城市占比較少,而城市質(zhì)量一般的城市占比相對(duì)較多。其中較好的占比30%~40%,較差的占比5%~15%,一般的占比50%~60%??紤]到數(shù)據(jù)的分布情況,本文在算法構(gòu)建的過程中采用非平衡的方法進(jìn)行取樣。在利用spss modeler構(gòu)建隨機(jī)森林分類器時(shí),首先設(shè)置要構(gòu)建的決策樹的個(gè)數(shù)為300,也就是要從原始樣本中,利用Bootstrap抽樣法進(jìn)行300次采樣,并用這300組數(shù)據(jù)集分別作為決策樹根節(jié)點(diǎn)的訓(xùn)練樣本。每棵決策M(jìn)樹隨機(jī)選擇的特征數(shù)目為系統(tǒng)默認(rèn)參數(shù),一般取其中M 為總特征數(shù)目。同時(shí)設(shè)置最大樹深度為10,最小子節(jié)點(diǎn)大小為5,以信息增益的高低來確定每個(gè)分類節(jié)點(diǎn)的最佳分割閾值。最終訓(xùn)練完300棵樹后,系統(tǒng)自動(dòng)統(tǒng)計(jì)300個(gè)決策樹的分類結(jié)果,最后采用投票方式?jīng)Q定此樣本的類別。實(shí)驗(yàn)共重復(fù)100次,取其平均結(jié)果作為最終的分類結(jié)果。為了比較隨機(jī)森林算法與其他算法的優(yōu)劣,在相同的數(shù)據(jù)環(huán)境下,同時(shí)還建立了SVM模型、人工神經(jīng)網(wǎng)絡(luò)和決策樹模型。

        為了說明各個(gè)算法的分類精度,本文使用隨機(jī)森林模型在測(cè)試集上的分類準(zhǔn)確率來衡量二分類模型和多分類模型的分類效果,其指標(biāo)的比較如圖1所示。

        圖1 二分類模型性能指標(biāo)的比較Fig.1 The comparison of different indicators of binary classif i cation model

        準(zhǔn)確率公式如下:

        式中:nsample為樣本總數(shù);?y為測(cè)試樣本類別;而yi為實(shí)際樣本類別即

        圖2所示為多分類模型性能指標(biāo)的比較。從圖1、圖2中可以直觀地看出,無論是二分類還是多分類,對(duì)于分類的準(zhǔn)確率來說,隨機(jī)森林算法的分類準(zhǔn)確性最高。從圖中可得知隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、決策樹、SVM這4種算法的準(zhǔn)確性值依次降低,說明與這些算法相比,隨機(jī)森林具有更好的分類精度,綜合性能最好。圖3所示為基于隨機(jī)森林算法計(jì)算得出的預(yù)測(cè)變量重要性的排序結(jié)果。由結(jié)果可看出,本文給出的6個(gè)屬性變量在構(gòu)建空氣質(zhì)量評(píng)價(jià)模型時(shí),均產(chǎn)生了一定的影響,而可吸入顆粒物PM10,細(xì)顆粒物PM2.5和O3的濃度是影響各大城市空氣質(zhì)量好壞的主要因素。

        圖2 多分類模型性能指標(biāo)的比較Fig.2 The comparison of different indicators of multiclass classif i cation model

        圖3 預(yù)測(cè)變量重要性排序結(jié)果Fig.3 Results of predicting the importance of variables

        4 結(jié) 論

        隨著國(guó)家對(duì)環(huán)境保護(hù)的重視,有關(guān)空氣質(zhì)量的評(píng)估方法也日趨完善。無論是在空氣監(jiān)測(cè)范圍上還是在數(shù)據(jù)的處理速度或是準(zhǔn)確率上都有了很大的進(jìn)步。國(guó)家在2016年正式將PM2.5和O3列入全國(guó)空氣監(jiān)測(cè)范圍內(nèi),本文收集到了3年的數(shù)據(jù),并在現(xiàn)有研究的基礎(chǔ)上,增加PM2.5和O3兩個(gè)影響因子,針對(duì)影響空氣質(zhì)量的幾個(gè)重要因素,得出了影響空氣質(zhì)量因素的重要性排序,并且在常用的準(zhǔn)確率評(píng)價(jià)指標(biāo)的基礎(chǔ)上,將隨機(jī)森林算法應(yīng)用于空氣質(zhì)量評(píng)價(jià)模型的研究中,并與決策樹、SVM和神經(jīng)網(wǎng)絡(luò)算法進(jìn)行比較,發(fā)現(xiàn)無論在二分類還是多分類模型中,隨機(jī)森林算法的分類效果均優(yōu)于上述幾類算法。同時(shí)隨機(jī)森林算法在數(shù)據(jù)的處理方法上只需知道空氣質(zhì)量的分級(jí)標(biāo)準(zhǔn)就可以建立模型,只要樣本屬性選擇恰當(dāng),無需對(duì)原始數(shù)據(jù)進(jìn)行歸約和標(biāo)準(zhǔn)化處理,收斂速度快,具有比較好的推廣性,有利于空氣質(zhì)量的科學(xué)評(píng)估。

        [1] 汪瀅.基于決策樹的數(shù)據(jù)挖掘算法在空氣質(zhì)量評(píng)估中的應(yīng)用[D].南昌:南昌大學(xué),2009.

        [2] 陳祖云,金波,鄔長(zhǎng)福.支持向量機(jī)在環(huán)境空氣質(zhì)量評(píng)價(jià)中的應(yīng)用[J].環(huán)境科學(xué)與技術(shù),2012,35(6):395-397.

        [3] 李璐,劉永紅,蔡銘,等.基于氣象相似準(zhǔn)則的城市空氣質(zhì)量預(yù)報(bào)模型[J].環(huán)境科學(xué)與技術(shù),2013,36(5):156-157.

        [4] 汪瀅,邱芬.基于決策樹算法在空氣質(zhì)量評(píng)估中的應(yīng)用[J].科技視界,2012(31):253-254

        [5] 李祚泳,彭荔紅.基于遺傳算法優(yōu)化的大氣質(zhì)量評(píng)價(jià)的污染危害指數(shù)公式[J].中國(guó)環(huán)境科學(xué),2000,20(4):313-317.

        [6] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.

        [7] 王崢琦.基于決策樹算法的改進(jìn)與應(yīng)用[D].西安:西安科技大學(xué),2005.

        [8] 馬驪.隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D].廣州:暨南大學(xué),2016.

        [9] 沈勁,鐘流舉,何芳芳,等.基于聚類與多元回歸的空氣質(zhì)量預(yù)報(bào)模型開發(fā)[J].環(huán)境科學(xué)與技術(shù),2015,38(2):63-66.

        [10]中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.環(huán)境統(tǒng)計(jì)數(shù)據(jù)[Z/OL].[2017-12-09].http://www.stats.gov.cn/ztjc/ztsj/hjtjzl/.

        猜你喜歡
        決策樹分類器空氣質(zhì)量
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        “空氣質(zhì)量發(fā)布”APP上線
        車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
        汽車與安全(2016年5期)2016-12-01 05:22:14
        重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
        汽車與安全(2016年5期)2016-12-01 05:22:13
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        開展“大氣污染執(zhí)法年”行動(dòng) 加快推動(dòng)空氣質(zhì)量改善
        基于決策樹的出租車乘客出行目的識(shí)別
        国产男女猛烈无遮挡免费网站| 久久夜色精品国产三级| 一区二区视频在线国产| 内射口爆少妇麻豆| 亚洲粉嫩高潮的18p| 国产精品入口蜜桃人妻| 理论片87福利理论电影| 自拍 另类 综合 欧美小说| av在线网站一区二区| 91久久精品国产综合另类专区| 成人免费777777被爆出| 综合五月网| 国产三级三级精品久久| 少妇高潮太爽了在线看| 中文字幕无码日韩专区免费| 国产成人亚洲综合无码DVD| 精品久久一区二区av| 亚洲av无码精品无码麻豆| 中文字幕精品一二三四五六七八| 久久精品国产亚洲av高清色欲| 无码av永久免费大全| 中文字幕一区二区三区乱码人妻| 人妻少妇无码精品视频区| 日韩中文字幕欧美亚洲第一区| 中文乱码字幕在线中文乱码 | 97久久精品人妻人人搡人人玩 | 国产精品激情自拍视频| 好屌草这里只有精品| 亚洲色偷拍一区二区三区 | 深夜福利国产| 中文字幕人妻互换av| 国产精品久久777777| 男女性高爱潮免费观看| 人人爽亚洲aⅴ人人爽av人人片| 亚洲国产综合人成综合网站| 少妇厨房愉情理伦bd在线观看 | 99久久国语露脸精品国产| 人妻少妇av中文字幕乱码免费| 国产精品日韩经典中文字幕| 国产精品久久久久久一区二区三区| 真人男女做爰无遮挡免费视频|