亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集成學(xué)習(xí)在PM2.5預(yù)測中的應(yīng)用研究

        2023-03-04 13:36:56祭海洋付均元周一鳴
        河南科技 2023年3期
        關(guān)鍵詞:見式分類器機器

        祭海洋 李 玉 付均元 周一鳴

        (東北林業(yè)大學(xué),黑龍江 哈爾濱 150040)

        0 引言

        對空氣中的PM2.5進行實時預(yù)測,能更好地對社會生產(chǎn)生活進行指導(dǎo),具有很強的現(xiàn)實意義。PM2.5的形成原因有很多,PM2.5的預(yù)測方法[1-7]可分為機理性模型預(yù)測和非機理性模型進行檢測。機理性模型對各個環(huán)境因子的要求多,要考慮多種PM2.5產(chǎn)生和擴散的因素。非機理性模型只把與PM2.5有關(guān)的相關(guān)因子通過機器學(xué)習(xí)模型進行分析,最終實現(xiàn)對PM2.5的預(yù)測??紤]到單機器學(xué)習(xí)模型的預(yù)測精度與對新數(shù)據(jù)的泛化能力較低,因此本研究采用集成學(xué)習(xí)模型對PM2.5含量進行預(yù)測。由于集成學(xué)習(xí)合并了多個機器學(xué)習(xí)模型,克服了單一預(yù)測方法的缺點,對數(shù)據(jù)的預(yù)測效果更好。

        1 PM2.5預(yù)測原理

        1.1 預(yù)測原理

        PM2.5實時預(yù)測主要是通過建立不同的機器學(xué)習(xí)模型對歷史數(shù)據(jù)進行訓(xùn)練,在得到不同模型[7-15]的合適參數(shù)值后,進行模擬仿真。可設(shè)第i個PM2.5影響因子為Xi,其預(yù)測值Y,計算公式見式(1)。

        1.2 預(yù)測試驗數(shù)據(jù)集

        空氣中的PM2.5不是單一的空氣污染物,其形成的原因較為復(fù)雜,不僅與空氣中的多種污染物有關(guān)(空氣中的細微顆粒污染物、硫的氧化物SOx、氮的氧化物NOx、CO 和PM10等對PM2.5的形成具有較大影響),還與氣象因素密切相關(guān)(露點、溫度、大氣壓、濕度、風(fēng)速、累計降雨量),通過對文獻進行分析,本研究選取影響PM2.5實時濃度的十個指標(biāo)。本研究的數(shù)據(jù)集采用2014—2021 年哈爾濱氣象局發(fā)布的氣象數(shù)據(jù),數(shù)據(jù)包含十項特征,見表1。

        表1 數(shù)據(jù)集特征

        由于獲取到的數(shù)據(jù)集中包含許多缺失數(shù)據(jù),本研究采用差值法對缺失數(shù)據(jù)進行補全。

        1.3 特征提取

        考慮到PM2.5的形成與多種因素有關(guān),計算各個因子的皮爾遜相關(guān)系數(shù)(見圖1)。除去相關(guān)性不足0.5的因子。

        圖1 各指標(biāo)相關(guān)性系數(shù)

        1.4 標(biāo)準(zhǔn)化

        由于以上十項特征的單位、數(shù)據(jù)量不統(tǒng)一,無法將其與PM2.5進行直接比較。為觀察不同因子與PM2.5之間的關(guān)系,將每項特征進行標(biāo)準(zhǔn)化處理,全部縮放到0~1范圍內(nèi),見式(2)。

        式中:min 為數(shù)據(jù)中最小值;max 為數(shù)據(jù)的最大值。

        2 集成學(xué)習(xí)

        集成學(xué)習(xí)(Ensemble learning)是通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),集成多個模型能克服傳統(tǒng)單一的機器學(xué)習(xí)模型在預(yù)測精度上存在的不足。根據(jù)個體在學(xué)習(xí)器中的生成方式,集成學(xué)習(xí)模型可分為兩大類。第一類是個體學(xué)習(xí)器不存在過于強的依賴關(guān)系,可同時生成的并行化方法,如Bagging 類算法。第二類是個體學(xué)習(xí)器存在強依賴性關(guān)系,必須串行生成的序列化方法,如Boosting類算法。

        2.1 隨機森林模型(Random forests)

        隨機森林是對Bagging算法[2]的一種優(yōu)化,其通過建立大量不相關(guān)的分類樹,并取這些分類樹的平均值,從而獲得結(jié)果。在許多問題中,隨機森林很容易進行訓(xùn)練和調(diào)優(yōu)。因此,隨機森林模型被廣泛地應(yīng)用。隨機森林的訓(xùn)練過程描述如下。

        若總共訓(xùn)練B棵分類樹,對每一棵分類樹Ti,從訓(xùn)練樣本中隨機選取一個大小為N的引導(dǎo)樣本Z*。在引導(dǎo)樣本中,隨機選擇m個維度的變量,按照自上向下的遞歸分裂原則,在Ti分類樹中從根節(jié)點開始對引導(dǎo)樣本進行劃分。對節(jié)點本身,按照節(jié)點純度最小的原則,分裂為左節(jié)點和右節(jié)點,其分別包含訓(xùn)練數(shù)據(jù)的一個子集。

        在此類問題中,隨機森林用于回歸時,回歸樹的純度可用兩個子節(jié)點方差之和來描述。當(dāng)劃分特征為A,劃分點為s,將樣本劃分為z1和z2兩部分時,上述對節(jié)點的劃分可用公式(3)來描述。

        其中,c1和c2的計算公式見式(4)。

        最后,對數(shù)據(jù)X′模型給出其預(yù)測值,其計算公式見式(5)。

        2.2 Adaptive Boosting算法(AdaBoost)

        AdaBoost算法[7]最主要的特點是前面的分類器會為后面的分類器創(chuàng)造條件,后面的分類器是基于前面分類器創(chuàng)造的條件進行改進的,以獲得對前面錯誤樣本的更優(yōu)預(yù)測。

        AdaBoost回歸算法的運行過程如下。

        剛開始時,所有樣本具有相同的權(quán)重。即對總共m個訓(xùn)練樣本,在第t次訓(xùn)練前第i個樣本的權(quán)重為ωt,i,其計算公式見式(6)。

        每輪訓(xùn)練后都會得到一個基學(xué)習(xí)器,每輪結(jié)束后都會根據(jù)上一輪分類器的分類效果來調(diào)整每個樣本的權(quán)重,提高上一輪預(yù)測偏差大的樣本權(quán)重,并降低預(yù)測偏差小的樣本權(quán)重。

        對第t次迭代訓(xùn)練出的模型?t()·,先要計算該模型的樣本最大誤差Et,見式(7)。

        再計算每個樣本在此輪模型中的相對誤差et,i,見式(8)。

        然后求出基學(xué)習(xí)器?t()·在訓(xùn)練數(shù)據(jù)集中的回歸誤差率εt,見式(9)。

        進一步求出基學(xué)習(xí)器?t()·的權(quán)重系數(shù)αt,見式(10)。

        并以此來更新每個訓(xùn)練樣本的權(quán)重系數(shù),見式(11)。

        其中,Zt為規(guī)范化參數(shù),見式(12)。

        下一輪的訓(xùn)練要根據(jù)新得到樣本權(quán)重來指導(dǎo)本輪中的基分類器訓(xùn)練。重復(fù)上述步驟,直至達到設(shè)定的訓(xùn)練輪數(shù),每輪訓(xùn)練都會得到一個基分類器。

        在所有弱學(xué)習(xí)器的共同作用下,得到最終的強學(xué)習(xí)器H(·),訓(xùn)練T輪的學(xué)習(xí)器對輸入X′的預(yù)測值見式(13)。

        3 試驗結(jié)果與分析

        基于多種機器學(xué)習(xí)和哈爾濱氣象的數(shù)據(jù)集,來完成對PM2.5濃度的預(yù)測。試驗方法如下。①對原始氣象數(shù)據(jù)進行處理,構(gòu)建符合要求的數(shù)據(jù)集。②調(diào)用訓(xùn)練集對機器學(xué)習(xí)模型進行訓(xùn)練。③調(diào)用驗證集對結(jié)果模型進行驗證評估。④對預(yù)測效果進行統(tǒng)計學(xué)分析,并判斷預(yù)測的精確度,通過擬合度和回歸精度等指標(biāo)來選出最佳的預(yù)測模型。⑤用最優(yōu)模型對PM2.5含量進行預(yù)測,并與實際的PM2.5含量進行對比。

        3.1 試驗環(huán)境

        本研究的試驗環(huán)境詳見表2。

        表2 試驗環(huán)境介紹

        3.2 多模型選擇

        本研究采用XGboost(Xtreme Gradient Boosting)[8]、RF(Random Forest)、GBDT[10](Gradient Boosting Decision Tree)、AdaBoost[9](Adaptive boosting)等方法對數(shù)據(jù)進行預(yù)測。

        3.3 結(jié)果分析

        基于模型對經(jīng)過預(yù)處理和轉(zhuǎn)換后的測試集數(shù)據(jù)進行預(yù)測,預(yù)測結(jié)果和實際結(jié)果如圖2 所示。從圖2 可以看出,集成類學(xué)習(xí)模型的預(yù)測效果較好。在對測試集進行預(yù)測時,不同集成學(xué)習(xí)的預(yù)測指標(biāo)大小如圖3 所示。其中,GBDT 模型的MSE 為334.204 6,RMSE 為18.281 3,MAPE 為83.438 9,SMAPE 為50.616 9,且預(yù)測PM2.5含量與實際PM2.5含量變化趨勢的吻合度最好,滿足回歸預(yù)測過程中的經(jīng)驗誤差要求。因此,集成學(xué)習(xí)模型預(yù)測模型在預(yù)測PM2.5濃度的擬合度要好于其他機器學(xué)習(xí)模型。

        圖2 各個模型的預(yù)測結(jié)果

        圖3 各個模型的預(yù)測結(jié)果指標(biāo)大小

        猜你喜歡
        見式分類器機器
        高速公路下穿既有鐵路橋橋墩基底承載力驗算*
        公路與汽運(2024年1期)2024-03-07 03:02:06
        低溫下船用鋼材彈塑性曲線研究
        河南科技(2023年1期)2023-02-11 12:17:04
        機器狗
        Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
        機器狗
        橋(門)式起重機起升機構(gòu)高速浮動軸設(shè)計
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        人妻无码一区二区三区四区| 婷婷色国产精品视频二区| 欧美成人看片一区二区三区尤物| 夫妇交换刺激做爰视频| 亚洲精品美女自拍偷拍| 青青视频在线播放免费的| 亚洲2022国产成人精品无码区| 国产情侣久久久久aⅴ免费| 久热香蕉精品视频在线播放| 日本一区二区三区免费| 国产 高潮 抽搐 正在播放| 亚洲中文字幕无码久久| 日韩国产精品一本一区馆/在线| 中文字幕乱码人妻在线| 久久久久夜夜夜精品国产| 久久久久无码国产精品不卡| 亚洲精品中文字幕二区| 在线免费看91免费版.| 亚洲国产精品久久人人爱| 96免费精品视频在线观看| 久久熟女精品—区二区蜜臀| 伊人久久综合无码成人网| 天天综合亚洲色在线精品| 亚洲av午夜成人片精品| 青青草激情视频在线播放| 青青国产揄拍视频| 91呻吟丰满娇喘国产区| 日本高清在线一区二区三区| 国产午夜免费高清久久影院| 少妇被爽到高潮动态图| 精品国产亚洲av麻豆尤物| 一本色道久久88—综合亚洲精品| 国产裸体xxxx视频在线播放| 国产在线无码免费视频2021| 麻豆视频黄片在线免费观看| 专干老熟女视频在线观看| 国产普通话对白视频二区| 人妻av不卡一区二区三区| 国产大屁股喷水视频在线观看| 69久久夜色精品国产69| 国产高清一区在线观看|