亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隨機(jī)森林算法在氣象與空氣質(zhì)量分析中的應(yīng)用★

        2021-12-13 07:23:20邵凱旋吳映涵
        山西建筑 2021年24期
        關(guān)鍵詞:模型

        邵凱旋,吳映涵,梅 鋼

        (中國(guó)地質(zhì)大學(xué)(北京),北京 100083)

        1 概述

        近年來(lái),隨著經(jīng)濟(jì)的高速發(fā)展和人民生活質(zhì)量的不斷上升,社會(huì)對(duì)空氣質(zhì)量的關(guān)注度日益增高??諝赓|(zhì)量是健康和生活的重要影響因素之一。局部環(huán)境空氣質(zhì)量除了受局地大氣污染物排放的直接影響,也受局地氣象要素及氣候變化的影響。有研究表明,在污染源排放相對(duì)穩(wěn)定的條件下,氣象條件對(duì)空氣質(zhì)量起主導(dǎo)作用。研究氣象要素與大氣污染物的關(guān)系,并將氣候變化與其結(jié)合起來(lái),預(yù)測(cè)未來(lái)各氣象要素變化對(duì)各大氣污染物的潛在影響,對(duì)我國(guó)節(jié)能減排政策的制定具有一定的指導(dǎo)意義。對(duì)同一地區(qū)而言,由于天氣狀況等自然條件的不斷改變極其他因素的影響,在同一地點(diǎn)對(duì)同一來(lái)源的污染物的監(jiān)測(cè)結(jié)果也可能出現(xiàn)很大差異。北京作為我國(guó)首都,在國(guó)家發(fā)展中扮演著極其重要的角色,其空氣質(zhì)量問(wèn)題也常常受到全國(guó)人民的普遍關(guān)注。

        機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析的方法,作為人工智能的一個(gè)分支,它可以自動(dòng)化構(gòu)建分析模型。它的理念是,系統(tǒng)僅需要最小的人工干預(yù)就可以從數(shù)據(jù)中學(xué)習(xí),識(shí)別模式并且做出決策。機(jī)器學(xué)習(xí)的種類(lèi)有很多,隨機(jī)森林便是一種非常簡(jiǎn)便且易于使用的算法。作為一種監(jiān)督學(xué)習(xí)算法,隨機(jī)森林具有很強(qiáng)的抗干擾能力,可用于許多不同的領(lǐng)域。它能夠處理具有很多特征的高維度數(shù)據(jù),并在大多數(shù)情況下避免了過(guò)擬合問(wèn)題,近年來(lái)越來(lái)越多地應(yīng)用于人們?nèi)粘I畹母鱾€(gè)方面。隨機(jī)森林可以用多種編程語(yǔ)言實(shí)現(xiàn)。Julia作為一種新興的編程語(yǔ)言,擁有著簡(jiǎn)潔的語(yǔ)法,優(yōu)良的運(yùn)行速度,強(qiáng)大的元編程能力,可以輕松使用Python,R,C/C++和Java多種語(yǔ)言中的庫(kù),極大地?cái)U(kuò)展了Julia語(yǔ)言的使用范圍。除此之外,它還可以調(diào)用其他許多成熟的高性能基礎(chǔ)代碼。與其他編程語(yǔ)言相比,Julia非常易用,可以大幅減少需要寫(xiě)的代碼行數(shù),并有著更豐富的工具包和庫(kù)等,它不僅解決了許多傳統(tǒng)編程語(yǔ)言問(wèn)題,還為機(jī)器學(xué)習(xí)和人工智能提供了強(qiáng)大的深度學(xué)習(xí)工具。

        在世界范圍內(nèi)的許多國(guó)家環(huán)境問(wèn)題越來(lái)越受到政府和公民的重視,國(guó)內(nèi)外的許多學(xué)者都對(duì)空氣質(zhì)量的預(yù)測(cè)問(wèn)題進(jìn)行了多方面的分析與研究。周兆媛等[1]使用主成分分析的方法將多個(gè)氣象要素簡(jiǎn)化為兩個(gè)主成分并進(jìn)行線性回歸分析,根據(jù)回歸系數(shù)得到了氣象要素與空氣質(zhì)量的相關(guān)關(guān)系;祁曉雨等[2]使用數(shù)據(jù)分析和挖掘的方法對(duì)北京六種大氣污染物濃度和五種氣象因子的數(shù)據(jù)集進(jìn)行分析,通過(guò)擬合發(fā)現(xiàn)相較于單一氣象因子,多種氣象因子組合對(duì)大氣污染物濃度的影響更加顯著,并分析了相同的氣象因子對(duì)不同污染物的不同影響;任才溶等[3]在構(gòu)建基于氣象參數(shù)的隨機(jī)森林預(yù)測(cè)模型時(shí)使用K-Means算法對(duì)訓(xùn)練樣本進(jìn)行聚類(lèi),對(duì)不同的聚類(lèi)使用不同的分類(lèi)模型,將每個(gè)模型的結(jié)果匯總得到最終的PM2.5等級(jí)預(yù)測(cè)結(jié)果;Efnan等[4]通過(guò)從空氣質(zhì)量數(shù)據(jù)中提取統(tǒng)計(jì)特征并將其輸入線性和非線性分類(lèi)器,提出了一種適用于大范圍地理區(qū)域的空氣質(zhì)量預(yù)測(cè)模型;Paulo等[5]提出了一種基于隨機(jī)游走的時(shí)間序列預(yù)測(cè)體系,在不依托于其他外部信息的條件下,僅用過(guò)去的污染物濃度變化預(yù)測(cè)未來(lái)的污染物濃度;此外,神經(jīng)網(wǎng)絡(luò)也是用于空氣質(zhì)量預(yù)測(cè)的常見(jiàn)方法之一,鮑慧[6]等使用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,通過(guò)研究往年空氣污染物濃度的變化規(guī)律,建立基于時(shí)間序列的網(wǎng)絡(luò)模型,得到了較好的預(yù)測(cè)結(jié)果,但神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置缺乏一定的理論依據(jù),且搜索過(guò)程具有一定的隨機(jī)性,無(wú)法確保最優(yōu)解的得出。

        在上述研究和分析中,國(guó)內(nèi)外學(xué)者采用神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、隨機(jī)森林等多種方法對(duì)空氣質(zhì)量預(yù)測(cè)問(wèn)題進(jìn)行了研究,但也存在著統(tǒng)計(jì)分析方法較單一、因子選擇具有一定的主觀性和隨機(jī)性、多重因素綜合作用的影響考慮不足等問(wèn)題。本文采用準(zhǔn)確度高、針對(duì)性強(qiáng)、綜合多因素的隨機(jī)森林算法對(duì)空氣質(zhì)量預(yù)測(cè)問(wèn)題進(jìn)行了研究。在對(duì)空氣質(zhì)量和氣象條件之間的關(guān)系進(jìn)行研究的基礎(chǔ)上,本文選擇合適的特征作為依據(jù),使用Julia語(yǔ)言建立隨機(jī)森林預(yù)測(cè)模型,借助易于得到的實(shí)時(shí)氣象條件數(shù)據(jù),通過(guò)算法得到空氣質(zhì)量相關(guān)數(shù)據(jù),在應(yīng)用程序進(jìn)行預(yù)測(cè)的同時(shí),本文對(duì)預(yù)測(cè)準(zhǔn)確度與節(jié)點(diǎn)特征和決策樹(shù)數(shù)目的關(guān)系進(jìn)行了研究,在對(duì)兩個(gè)參數(shù)進(jìn)行調(diào)整后得到了較好的預(yù)測(cè)結(jié)果,對(duì)得到更加客觀準(zhǔn)確的空氣質(zhì)量及空氣質(zhì)量的預(yù)測(cè)有較為重要的意義。

        2 材料與方法

        2.1 數(shù)據(jù)來(lái)源

        本文所采用的數(shù)據(jù)為2017年1月至2018年1月北京市朝陽(yáng)區(qū)奧體中心空氣質(zhì)量監(jiān)測(cè)站的實(shí)時(shí)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)及其對(duì)應(yīng)的氣象條件數(shù)據(jù)。其中,空氣質(zhì)量數(shù)據(jù)包括該監(jiān)測(cè)站點(diǎn)測(cè)得的PM2.5,PM10,NO2,CO,O3,SO2每小時(shí)內(nèi)的濃度值;氣象條件數(shù)據(jù)包括該地區(qū)每小時(shí)內(nèi)的氣溫、氣壓、濕度、風(fēng)向、風(fēng)速及天氣狀況。在本文中,為便于研究空氣質(zhì)量與天氣狀況之間的聯(lián)系,以如下關(guān)系表示不同的天氣狀況:1=“Sunny/clear”;2=“Rain”;3=“Fog”;4=“Haze”;5=“Snow”;6=“Dust”;7=“Sand”。

        北京市朝陽(yáng)區(qū)空氣質(zhì)量監(jiān)測(cè)站和氣象站位置見(jiàn)圖1。

        2.2 空氣質(zhì)量評(píng)價(jià)等級(jí)

        在日常生活中,人們通常習(xí)慣于根據(jù)大氣污染物的濃度對(duì)空氣質(zhì)量的優(yōu)劣進(jìn)行評(píng)價(jià),并將其劃分為優(yōu)、良、輕度污染、中度污染、重度污染、嚴(yán)重污染等多個(gè)等級(jí)。根據(jù)我國(guó)發(fā)布的空氣質(zhì)量指數(shù)的評(píng)級(jí)規(guī)定[7],本文根據(jù)表1所示的空氣質(zhì)量指數(shù)及對(duì)應(yīng)各項(xiàng)污染物濃度的參考值,將空氣質(zhì)量數(shù)據(jù)的具體數(shù)值劃分為6個(gè)等級(jí),并以字母A~字母F表示,用以代表各項(xiàng)污染物的嚴(yán)重程度,從而通過(guò)分類(lèi)提高使用隨機(jī)森林對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)的實(shí)用性和可操作性。

        表1 空氣質(zhì)量指數(shù)及各項(xiàng)污染物質(zhì)量濃度參照表 μg/m3

        2.3 分析方法

        本文采用基于Julia語(yǔ)言的隨機(jī)森林算法對(duì)空氣質(zhì)量預(yù)測(cè)問(wèn)題進(jìn)行研究。在對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的基礎(chǔ)上,本文通過(guò)空氣質(zhì)量與時(shí)間因子和氣象條件的相關(guān)性的分析對(duì)特征因子的選擇進(jìn)行了探究,并將選擇出的適當(dāng)?shù)奶卣饕蜃幼鳛閰?shù)輸入到隨機(jī)森林模型中進(jìn)行空氣質(zhì)量預(yù)測(cè)的應(yīng)用研究。在隨機(jī)森林中,每一個(gè)決策樹(shù)的“種植”和“生長(zhǎng)”都大致包含以下幾個(gè)步驟:

        1)假設(shè)原始訓(xùn)練集中的樣本個(gè)數(shù)為N,然后通過(guò)有放回地重復(fù)多次抽樣獲得這N個(gè)樣本,這樣的抽樣結(jié)果將作為我們生成決策樹(shù)的訓(xùn)練集。

        2)設(shè)有M個(gè)輸入變量,在每一棵樹(shù)每個(gè)節(jié)點(diǎn)都將隨機(jī)抽取m(m

        3)每棵決策樹(shù)都最大限度地生長(zhǎng)且不進(jìn)行任何修剪。

        4)將生成的多棵分類(lèi)樹(shù)組成隨機(jī)森林來(lái)預(yù)測(cè)新的數(shù)據(jù)(在分類(lèi)時(shí)采用多數(shù)投票,在回歸時(shí)采用平均)。

        在應(yīng)用程序進(jìn)行預(yù)測(cè)的同時(shí),本文對(duì)預(yù)測(cè)準(zhǔn)確度與節(jié)點(diǎn)特征和決策樹(shù)數(shù)目的關(guān)系進(jìn)行了研究,并對(duì)其預(yù)測(cè)結(jié)果進(jìn)行了分析討論。

        3 隨機(jī)森林預(yù)測(cè)模型的建立

        在本節(jié)中,本文首先對(duì)大氣污染物與各氣象條件和時(shí)間因子的相關(guān)性進(jìn)行了分析,之后采用選擇出的特征值對(duì)隨機(jī)森林預(yù)測(cè)模型進(jìn)行了訓(xùn)練,最后應(yīng)用經(jīng)訓(xùn)練的模型進(jìn)行預(yù)測(cè)并對(duì)預(yù)測(cè)結(jié)果準(zhǔn)確度進(jìn)行了分析。

        3.1 特征值選取及相關(guān)性分析

        3.1.1 氣象因子的相關(guān)性分析

        在人們通常的認(rèn)識(shí)中,陰雨天氣往往比晴朗天氣更容易出現(xiàn)空氣污染較為嚴(yán)重的情況。顯然,空氣質(zhì)量與氣象條件之間確實(shí)存在著一定的聯(lián)系,某些氣象條件可能會(huì)在污染物的流通擴(kuò)散等過(guò)程中發(fā)揮著復(fù)雜而顯著的作用[8]。然而,衡量某地區(qū)氣象條件的內(nèi)容通常是復(fù)雜多樣的。使用隨機(jī)森林方法進(jìn)行預(yù)測(cè)的主要工作原理是在構(gòu)建和應(yīng)用隨機(jī)森林預(yù)測(cè)模型之前,如果不對(duì)空氣質(zhì)量和氣象條件之間內(nèi)在聯(lián)系進(jìn)行分析并得出基本的認(rèn)識(shí),直接進(jìn)行計(jì)算可能會(huì)帶有一定的主觀性和偶然性。因此,本文對(duì)大氣污染物與各氣象條件進(jìn)行了相關(guān)性分析,從而幫助評(píng)價(jià)和修改預(yù)測(cè)模型。

        以PM2.5與氣溫、風(fēng)速等各氣象條件之間的相關(guān)性分析為例,表2給出了使用SPSS求得的PM2.5與各氣象條件之間相關(guān)系數(shù)的具體數(shù)值,圖2為根據(jù)PM2.5與各氣象條件數(shù)據(jù)繪制的散點(diǎn)圖。通過(guò)圖表并結(jié)合Pearman相關(guān)系數(shù)的計(jì)算可以看出,除天氣狀況以外,PM2.5與各氣象條件之間并無(wú)明顯的線性相關(guān)關(guān)系。

        表2 PM2.5與各氣象因子相關(guān)系數(shù)表

        結(jié)合Spearman相關(guān)系數(shù)進(jìn)行分析,可見(jiàn)氣象因子與濕度和天氣狀況之間存在相對(duì)明顯的正相關(guān)關(guān)系,而與風(fēng)速之間存在相對(duì)明顯的負(fù)相關(guān)關(guān)系。據(jù)此可以推斷較大的風(fēng)速在一定程度上有利于PM2.5的擴(kuò)散,從而使其觀測(cè)值降低;而濕度較大時(shí),空氣中含量較高的水蒸氣可能有利于PM2.5的凝結(jié),且水蒸氣的存在可能造成PM2.5的觀測(cè)值偏大的誤差。同時(shí),天氣狀況在很多方面與PM2.5的擴(kuò)散和沉積等過(guò)程有著密切聯(lián)系[9-10]。雖然相關(guān)系數(shù)顯示風(fēng)向與PM2.5濃度相關(guān)性很低,但結(jié)合散點(diǎn)圖可以明顯看出PM2.5濃度較高值均大致集中在三個(gè)方向,可推斷該結(jié)果是在對(duì)應(yīng)方向的上風(fēng)向上存在排放量較大的企業(yè)或更密集的交通網(wǎng)等因素的影響下造成的。

        此外,相關(guān)系數(shù)計(jì)算顯示出PM2.5與溫度之間存在著一定的正相關(guān)關(guān)系。而在其他研究中,北方地區(qū)在冬季往往處于采暖季,且由于氣溫較低往往容易出現(xiàn)逆溫層,對(duì)PM2.5的擴(kuò)散產(chǎn)生不利影響。這與其研究結(jié)果和日常生活中溫度回暖,空氣質(zhì)量狀況與供暖季相比有所改觀的認(rèn)識(shí)存在著一定的差異。通過(guò)對(duì)PM2.5變化的具體時(shí)間段進(jìn)行分析可以看出,其年度峰值出現(xiàn)在五一小長(zhǎng)假期間,在假期末尾PM2.5升高尤為明顯,可推斷由于假期出行及返程等因素的影響下,出現(xiàn)了溫度較高時(shí)PM2.5濃度也存在明顯升高的現(xiàn)象。此外,本文數(shù)據(jù)主要來(lái)源于奧體中心空氣質(zhì)量監(jiān)測(cè)站,反映空氣質(zhì)量變化的地區(qū)范圍有限,也在一定程度上影響了此處結(jié)果的出現(xiàn)。

        通過(guò)對(duì)PM2.5與其他大氣污染物之間的相關(guān)性進(jìn)行分析(見(jiàn)表3),可以看出PM2.5在很大程度上與其他大氣污染物存在著一定的相關(guān)性,PM2.5與各氣象條件的相關(guān)性分析對(duì)其他大氣污染物的分析而言同樣具有一定的參考價(jià)值,進(jìn)而幫助選擇合適的因子用于預(yù)測(cè)并對(duì)模型進(jìn)行評(píng)價(jià)和改進(jìn)(見(jiàn)圖3)。

        表3 PM2.5與其他大氣污染物相關(guān)系數(shù)表

        3.1.2 時(shí)間因子的相關(guān)性分析

        在應(yīng)用氣象條件對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)的過(guò)程中,考慮到氣象條件在時(shí)間上往往存在一定的周期變化規(guī)律,本文同樣對(duì)大氣污染物與時(shí)間或季節(jié)的相關(guān)性進(jìn)行了研究。以PM2.5為例,其一年內(nèi)的觀測(cè)數(shù)據(jù)與不同季節(jié)一天中的觀測(cè)數(shù)據(jù)隨時(shí)間的變化曲線如圖4~圖6所示。

        由圖4~圖6可以看出,PM2.5濃度與時(shí)間具有較為明顯的相關(guān)性,其按季節(jié)劃分的變化規(guī)律較為明顯。其中,PM2.5在1 d內(nèi)各時(shí)刻平均濃度的季節(jié)性差異較大,在該站點(diǎn)的觀測(cè)數(shù)據(jù)中,春季平均濃度最高,夏季平均濃度最低。而在1 d中的某些時(shí)刻,不同季節(jié)PM2.5濃度變化值的大小具有較明顯的同步改變現(xiàn)象。例如,在15:00~16:00這一時(shí)間段內(nèi),秋、冬、春三個(gè)季節(jié)的PM2.5濃度均存在明顯升高,夏季PM2.5濃度存在明顯降低。PM2.5濃度值不僅與季節(jié)和月份有關(guān),在同一天的不同時(shí)段同樣存在著一定變化規(guī)律。

        通過(guò)以上分析可以看出,大氣污染物濃度與時(shí)間之間同樣具有較為明顯的相關(guān)性。為了得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果,本文在應(yīng)用氣象因子預(yù)測(cè)空氣質(zhì)量的過(guò)程中同樣將時(shí)間因子作為預(yù)測(cè)的參考特征之一納入了考慮范圍,從而進(jìn)一步提高預(yù)測(cè)結(jié)果的可靠性。

        3.2 模型的建立及應(yīng)用

        3.2.1 數(shù)據(jù)準(zhǔn)備

        在對(duì)數(shù)據(jù)進(jìn)行分析之前的數(shù)據(jù)收集階段,盡管數(shù)據(jù)集已經(jīng)被進(jìn)行初步處理,但在分析的過(guò)程中依然存在很多問(wèn)題。例如,在進(jìn)行相關(guān)性分析時(shí)得到的圖2中可以明顯看到,在龐大繁雜的數(shù)據(jù)中,大氣污染物濃度較高的數(shù)據(jù)只占很小的一部分。目前現(xiàn)有的學(xué)習(xí)算法一般建立在各類(lèi)數(shù)據(jù)數(shù)量相差不大的前提下。而在本文的數(shù)據(jù)集中,空氣質(zhì)量較好的數(shù)據(jù)和較差的數(shù)據(jù)所占比例很不平衡,這便導(dǎo)致了在隨機(jī)森林學(xué)習(xí)和訓(xùn)練的過(guò)程中,在空氣質(zhì)量較好的方面能夠搜集到的數(shù)據(jù)和規(guī)律要比空氣質(zhì)量較差的大的多,這便導(dǎo)致了在應(yīng)用隨機(jī)森林進(jìn)行預(yù)測(cè)的過(guò)程中,得到的結(jié)果更容易偏向于空氣質(zhì)量較好的等級(jí)。數(shù)據(jù)集中不同等級(jí)的空氣質(zhì)量數(shù)據(jù)分布不均勻使預(yù)測(cè)結(jié)果產(chǎn)生了一定的誤差。目前解決這類(lèi)問(wèn)題的主要方法有欠采樣方法(undersampling)、過(guò)采樣方法(Oversampling)及組合方法(Combination)等。本文采用過(guò)采樣方法,通過(guò)復(fù)制或內(nèi)插的方式,將人工合成的樣本整合到原始樣本中,從而提高空氣質(zhì)量較差數(shù)據(jù)的樣本容量,改善數(shù)據(jù)類(lèi)別不平衡帶來(lái)的影響。

        3.2.2 模型構(gòu)建

        根據(jù)空氣質(zhì)量與氣象因子和時(shí)間因子的相關(guān)性分析,本文不放回地隨機(jī)選擇經(jīng)過(guò)欠采樣后的2017年1月~2018年1月北京市朝陽(yáng)區(qū)奧體中心空氣質(zhì)量監(jiān)測(cè)站的實(shí)時(shí)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)及其對(duì)應(yīng)的氣象條件的部分?jǐn)?shù)據(jù)作為測(cè)試集,并將其余數(shù)據(jù)作為訓(xùn)練集,選擇氣溫、氣壓、濕度、風(fēng)向、風(fēng)速、時(shí)間及天氣狀況作為特征值,并將其對(duì)應(yīng)的空氣質(zhì)量等級(jí)輸入模型進(jìn)行訓(xùn)練,按照“特征數(shù)量(number of features)=2、決策樹(shù)的數(shù)量(number of trees)=15、分段抽樣比例(ratio of subsampling)=0.5”的初始參數(shù)構(gòu)建隨機(jī)森林。

        3.2.3 模型應(yīng)用

        將測(cè)試集中的氣象條件數(shù)據(jù)輸入經(jīng)過(guò)訓(xùn)練的隨機(jī)森林預(yù)測(cè)模型之后,各項(xiàng)空氣污染物指標(biāo)預(yù)測(cè)的準(zhǔn)確率如表4所示。

        表4 大氣污染物預(yù)測(cè)結(jié)果準(zhǔn)確率表

        在對(duì)隨機(jī)森林進(jìn)行訓(xùn)練的過(guò)程中,每次節(jié)點(diǎn)隨機(jī)分割時(shí)選擇的特征屬性是從原始的輸入因子中選取的,而隨機(jī)森林最終的預(yù)測(cè)結(jié)果是根據(jù)多棵決策樹(shù)的綜合預(yù)測(cè)結(jié)果得到的,因此,對(duì)隨機(jī)森林模型的預(yù)測(cè)性能影響最大的兩個(gè)參數(shù)分別是節(jié)點(diǎn)分割時(shí)選擇的特征屬性和決策樹(shù)的數(shù)量[11]。為進(jìn)一步優(yōu)化模型,以得到更好的預(yù)測(cè)效果,本文使用控制變量的方法,對(duì)兩個(gè)參數(shù)變化時(shí)的模型預(yù)測(cè)準(zhǔn)確度的變化進(jìn)行了探索[12-13]。以PM2.5為例,圖7給出了當(dāng)節(jié)點(diǎn)分割時(shí)選擇的特征屬性數(shù)目分別為2~5時(shí)隨機(jī)森林模型預(yù)測(cè)結(jié)果準(zhǔn)確度隨決策樹(shù)數(shù)量不同而變化的曲線。

        分析圖7中的曲線可以看出,當(dāng)決策樹(shù)的數(shù)量在30以上時(shí),隨機(jī)森林的預(yù)測(cè)精度的變化趨于穩(wěn)定。通過(guò)研究節(jié)點(diǎn)特征和決策樹(shù)數(shù)目對(duì)隨機(jī)森林預(yù)測(cè)精度的影響,可以幫助選擇合適的參數(shù)對(duì)模型進(jìn)行改進(jìn)。

        經(jīng)過(guò)模型構(gòu)建和應(yīng)用時(shí)對(duì)其預(yù)測(cè)性能與節(jié)點(diǎn)屬性數(shù)目和決策樹(shù)數(shù)量?jī)蓚€(gè)參數(shù)之間關(guān)系的研究,同時(shí)考慮到預(yù)測(cè)準(zhǔn)確度和運(yùn)算速度兩方面對(duì)程序的影響,本文最終采用特征數(shù)量為2,決策樹(shù)數(shù)量為30作為隨機(jī)森林預(yù)測(cè)模型構(gòu)建時(shí)的參數(shù)。其各等級(jí)的預(yù)測(cè)結(jié)果情況及準(zhǔn)確率見(jiàn)圖8。

        4 結(jié)論

        本文基于隨機(jī)森林算法研究了北京市氣象條件與空氣質(zhì)量變化關(guān)系的相關(guān)性。通過(guò)以上研究發(fā)現(xiàn):1)空氣質(zhì)量與溫濕狀況、風(fēng)速風(fēng)向及天氣情況等氣象因子之間存在一定的相關(guān)關(guān)系;2)北京市空氣質(zhì)量存在明顯的季節(jié)性變化,受浮塵天氣等因素的影響,春季空氣污染物濃度最高;3)各空氣污染物之間存在較明顯的相關(guān)性;4)在一定范圍內(nèi),隨機(jī)森林預(yù)測(cè)精度與決策樹(shù)數(shù)量成正相關(guān)。同時(shí),對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析,PM2.5等級(jí)為優(yōu)(A)的數(shù)據(jù)預(yù)測(cè)準(zhǔn)確度最好,但其預(yù)測(cè)結(jié)果中包含的其他等級(jí)的種類(lèi)也最多;PM2.5等級(jí)為輕度污染(C)的數(shù)據(jù)預(yù)測(cè)結(jié)果準(zhǔn)確度相對(duì)較差,由此可見(jiàn)在該組數(shù)據(jù)中,PM2.5等級(jí)為輕度污染時(shí)其氣象條件的特征性相對(duì)較差,在程序的不斷優(yōu)化中應(yīng)對(duì)預(yù)測(cè)存在偏差的C類(lèi)數(shù)據(jù)與氣象條件的關(guān)系進(jìn)行進(jìn)一步探索,通過(guò)增加C類(lèi)典型樣本加強(qiáng)隨機(jī)森林的訓(xùn)練或根據(jù)多次測(cè)試得出的誤差概率對(duì)C類(lèi)結(jié)果進(jìn)行補(bǔ)償?shù)确绞綔p小誤差。該模型不僅可用于PM2.5的預(yù)測(cè),在對(duì)其他大氣污染物的預(yù)測(cè)中同樣具有良好的表現(xiàn),對(duì)得到更加客觀準(zhǔn)確的空氣質(zhì)量及空氣質(zhì)量的預(yù)測(cè)有較為重要的意義。采用該方法具有較強(qiáng)的針對(duì)性,但為保證較好的預(yù)測(cè)結(jié)果,對(duì)訓(xùn)練集的特征性要求較高,在對(duì)其他地區(qū)的空氣質(zhì)量進(jìn)行預(yù)測(cè)時(shí)應(yīng)重新選擇數(shù)據(jù)集對(duì)該模型進(jìn)行訓(xùn)練,對(duì)較大地理區(qū)域范圍內(nèi)空氣質(zhì)量的預(yù)測(cè)結(jié)果的準(zhǔn)確性和普適性有待進(jìn)一步研究。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        老色鬼永久精品网站| 亚洲av三级黄色在线观看| 欧美奶涨边摸边做爰视频| 精品无码久久久久成人漫画| 911香蕉视频| 国产成人亚洲合色婷婷| 久久一区二区三区久久久| 蜜桃一区二区三区| 熟妇人妻AV中文字幕老熟妇| 国产黄片一区视频在线观看| 美女露出奶头扒开内裤的视频| 亚洲av精品一区二区三区| 国产精品天天狠天天看| 成年人免费黄色h网| 一区二区三区国产精品麻豆| 国产又大又黑又粗免费视频| 亚洲一本大道无码av天堂| 99久久久69精品一区二区三区| 国产精品自拍午夜伦理福利| 无码一区二区三区免费视频| 老熟女多次高潮露脸视频| 精品国产又大又黄又粗av| 美妇炮灰被狂躁爽到高潮h| 无人视频在线观看免费播放影院 | 欧美在线视频免费观看 | av资源在线免费观看| 人人妻人人澡人人爽国产一区| 国产精品视频一区二区噜噜| 四虎无码精品a∨在线观看| 国产在线观看午夜视频| 国产日产精品一区二区三区四区的特点| 伊人久久大香线蕉免费视频 | 精品久久久无码人妻中文字幕豆芽| 欧美黑人又粗又大久久久| 九九日本黄色精品视频| 亚洲人成在久久综合网站| 亚洲av日韩专区在线观看| 美女超薄透明丝袜美腿| 日韩在线不卡一区三区av| 亚洲av美国av产亚洲av图片| 欧美在线观看一区二区|