亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RF-Kmeans-LIBSVM 的烏魯木齊市顆粒物濃度預測研究

        2022-09-02 09:20:24李愛英
        環(huán)境保護科學 2022年4期
        關鍵詞:顆粒物模型

        李愛英

        (新疆維吾爾自治區(qū)環(huán)境工程評估中心,新疆 烏魯木齊 830016)

        近年來,空氣污染已經成為了公眾所熱議的話題,尤其是對于發(fā)達城市而言,其影響的人群更多更廣。中國空氣污染狀況呈現(xiàn)出冬半年較嚴重,夏半年較輕,北方地區(qū)較嚴重,南方地區(qū)較輕的分布特征[1]。為了遏制空氣污染的進一步惡化,相關部門采取了一系列高效的空氣污染防治措施并取得了不錯的效果[2],即便如此,仍然不能放緩空氣污染防治的腳步,氣象部門應不斷規(guī)范污染預報預警信息的發(fā)布,加強氣象災害的防御工作,以便帶來不必要的損失。

        空氣污染帶來的危害不僅局限于人體健康方面,其對氣候、植物以及生態(tài)系統(tǒng)也會產生影響[3?7]。大氣污染給人體健康帶來的危害是多方面的,主要會造成生理機能障礙和呼吸系統(tǒng)疾病,人體眼睛與鼻子等器官中的粘膜組織受到污染氣體的刺激也會引發(fā)患病。大氣污染物,尤其是二氧化硫、氟化物等對植物的危害也是十分嚴重的,當污染物濃度很高時,會對植物產生急性危害,使植物葉表面產生傷斑,或者直接使葉片枯萎而脫落;當污染物濃度不高時,會對植物產生慢性危害,盡管表面上危害癥狀并不明顯,但實際上植物的生理機能已受到了侵襲,進而使得產量下降,品質變差。除此之外,大氣污染還能對氣候產生影響,可以減少到達地面的太陽輻射量,二氧化硫經過氧化會形成硫酸,伴隨自然降雨落到地面,破壞建筑物和農作物。

        由于空氣污染會給居民的生產生活帶來不便,因此對于空氣質量的準確預報就非常重要。目前國內的學者們在空氣污染物濃度預測方面做了諸多嘗試,其主要方法有數(shù)值預報和統(tǒng)計預報。相比于數(shù)值預報,統(tǒng)計預報無需考慮復雜多樣的化學物理過程,模型的構建過程比較簡單,使用起來也更加方便,尤其是近年來一些機器學習算法在環(huán)境和氣象預測領域表現(xiàn)優(yōu)異[8?13],使得統(tǒng)計預報方法的應用越來越廣泛。李龍等[14]利用最小二乘支持向量機對PM2.5濃度做了預測,研究發(fā)現(xiàn)引入綜合氣象指數(shù)可以使得預測結果的誤差降低約30%,此外還發(fā)現(xiàn)了PM2.5濃度與住院率、醫(yī)院門診量高度相關;劉杰等[15]構建了包括機器學習算法在內的4 種模型對PM2.5質量濃度進行了預測,通過對比研究,發(fā)現(xiàn)支持向量機可以更好地捕捉到PM2.5質量濃度與預報因子之間的非線性關系,整體的預測準確度更高,可作為首選方法;李勇等[16]將小波分析與BP 神經網絡相結合對PM10濃度進行了預測,發(fā)現(xiàn)結合后的模型比傳統(tǒng)的BP 模型預測精度更高;梁澤等[17]利用經遺傳算法優(yōu)化的徑向基神經網絡模型預測了北京市24 小時的平均PM2.5濃度值,結果發(fā)現(xiàn)該模型預測性能良好且無需輸入地理位置信息與氣象等數(shù)據(jù),依賴變量少且預測準確率高(R2高達75%),能夠對多種時空情境下的城市空氣污染物濃度進行預測;為了提高多變天氣情況下PM2.5濃度的預測準確率,李芬等[18]對天氣類型進行聚類與識別,基于LSTM 算法構建了不同天氣類型下的PM2.5濃度預測模型,研究發(fā)現(xiàn)該方法比傳統(tǒng)BP 神經網絡與支持向量機方法效果更好。本文利用空氣質量監(jiān)測數(shù)據(jù)(包括SO2、NO2、O3、CO、PM10和PM2.5)與氣象數(shù)據(jù),基于RF-Kmeans-LIBSVM算法建立PM2.5與PM10日均濃度的預報模型,為相關部門制定決策提供理論依據(jù)。

        1 資料與方法

        1.1 數(shù)據(jù)來源

        空氣污染物濃度監(jiān)測數(shù)據(jù)來源于環(huán)境監(jiān)測站,氣象數(shù)據(jù)來自天氣后報網站(http://www.tianqihoubao.com/),選取烏魯木齊市的逐日數(shù)據(jù),時間段為北京時間2015 年1 月1 日~2020 年12 月31 日,空氣污染物濃度監(jiān)測數(shù)據(jù)包括的要素為:SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物的日均濃度值;氣象數(shù)據(jù)包括的要素為:風向和風速、天氣狀況、最高和最低氣溫。首先對數(shù)據(jù)進行質量控制,將序列中亂碼和缺失的數(shù)據(jù)進行識別與剔除,采用相鄰非缺失值線性插值的方法進行訂正。為了消除不同量綱單位之間的差異,在建立模型之前需要使用公式(1)將所選數(shù)據(jù)歸一化到指定區(qū)間(0,1)內。

        式中,Xn代表經歸一化處理之后的數(shù)據(jù),X代表經歸一化處理之前的數(shù)據(jù),Xmax代表樣本數(shù)據(jù)中的最大值,Xmin代表樣本數(shù)據(jù)中的最小值。

        1.2 研究方法

        1.2.1 RF 重要性評估 隨機森林算法(RF)[19?22]是由LEO Breiman 教授提出的,該算法能夠對特征變量的重要性進行評估,在非線性問題中表現(xiàn)優(yōu)異,付旭東[23]使用RF 重要性評估的方法結合機器學習預測模型有效提高了風場預報的準確率。使用RF 算法篩選出重要變量的思想是看每個特征對隨機森林中每棵決策樹的貢獻程度,然后取該特征貢獻的平均值,最后依據(jù)貢獻值大小對每個特征進行排序。通常情況下,可以通過基尼系數(shù)對各個因子的貢獻大小進行衡量。

        1.2.2 K-Means 聚類分析 K-Means 算法[24]作為應用最為廣泛的聚類分析算法之一,是一種非常典型的基于距離的硬聚類算法,認為對象之間的距離

        越小,相似性就越大。K-Means 聚類是基于樣本集合劃分的聚類算法,它將樣本集合劃分為K個子集,構成K個類,將n個樣本分到K個類中,每個樣本到其所屬類的中心距離最小,每個樣本僅屬于一個類。K-Means 聚類算法的實現(xiàn)過程,見圖1。

        圖1 K-Means 聚類算法的實現(xiàn)流程

        1.2.3 LIBSVM 回歸預測 LIBSVM 是由林智仁副教授設計發(fā)明的,如今已經被廣泛應用于回歸擬合問題[25?26]。傳統(tǒng)支持向量機預測模型有一個明顯的缺點,就是只能依靠經驗和對比實驗來進行選取核函數(shù)以及其他參數(shù),而LIBSVM 的出現(xiàn)則克服了這一缺陷。相對于傳統(tǒng)支持向量機(SVM)模型,LIBSVM 的很多參數(shù)都是默認的,涉及到的參數(shù)調節(jié)更少,合理利用這些設置好的默認參數(shù)可用來解決許多問題,LIBSVM 還在傳統(tǒng)SVM 的基礎上提供了一種用于交互檢驗的新功能。

        1.2.4 誤差評價指標 選用平均絕對誤差(MAE)、均方根誤差(RMSE)和預報準確率(P)3 個誤差評價指標對PM2.5和PM10濃度的預測結果進行檢驗,每種誤差評價指標的計算過程,見式(2~4):

        2 實例分析

        2.1 基于RF 的預報因子重要性評估

        本文在構建PM2.5和PM10濃度預報模型時,除了考慮前日的6 種污染物濃度值和AQI 指數(shù)對次日PM2.5和PM10濃度的影響外,還考慮了預測日的最高氣溫、最低氣溫、風速、風向和天氣狀況等。為了減小濃度的突然波動對預測結果的影響,這里采用滑動平均法對污染物濃度進行3 d 滑動平均處理。將預測日的天氣狀況進行分類,分為晴、陰、多云、霧、雨、雪和雨夾雪等7 種天氣類型,并將以上7 種天氣類型分別用數(shù)字1~7 表示;風向用角度值表示。顆粒物濃度預報中預報因子的變量符號及其物理意義,見表1。其中,X表示輸入變量,Y表示輸出變量。

        表1 顆粒物物濃度預測中預報因子的變量符號及其物理意義

        顆粒物濃度預測中影響PM2.5和PM10濃度的因子重要性評分,見圖2。

        圖2 烏魯木齊市顆粒物預報中各預報因子的重要性評分

        對于PM2.5而言,排名在前3 位的預報因子依次為前日的PM2.5濃度、前日的CO 濃度和預測日的天氣狀況;對于PM10而言,排名在前3 位的預報因子依次為前日的PM10濃度、預測日的天氣狀況和前日的O3濃度??偟膩碚f,當以某種顆粒物濃度作為輸出變量時,前日的該顆粒物濃度對預報結果的貢獻最大,預測日的天氣狀況也是一個不容忽視的預報因子。

        2.2 基于K-Means 的顆粒物濃度聚類

        對于PM2.5而言,選擇重要性評分最高的2 個因子進行聚類運算,它們分別為前日的PM2.5濃度和前日的CO 濃度;對于PM10而言,重要性評分最高的因子為前日的PM10濃度,預測日的天氣狀況與前日的O3濃度緊隨其后且兩者的評分大小相差不大,考慮到天氣狀況的數(shù)據(jù)是通過定性分析轉化而來的,數(shù)據(jù)精度不高,因此選擇前日的PM10濃度和前日的O3濃度進行聚類運算。經試驗發(fā)現(xiàn),當K值<2 或>7 時,PM2.5模型的訓練誤差會明顯增大,當K值<3 或>8 時,PM10模型的訓練誤差會明顯增大,因此,從2~8 依次設置K值,利用SPSS軟件進行聚類分析,可得到不同K值下的聚類數(shù)據(jù)與質心,經過多次統(tǒng)計嘗試發(fā)現(xiàn)當PM2.5和PM10都被分為4 個類別時預測效果最好。K=4 時顆粒物的數(shù)據(jù)樣本聚類結果,將PM2.5和PM10各自分為4 個類別,針對每個類別的數(shù)據(jù)分別建立模型,見圖3。

        圖3 數(shù)據(jù)樣本聚類結果

        經聚類分析后基本能夠將不同濃度范圍的顆粒物濃度值分開,分為4 類,然后針對每一類分別構建預報模型,減少數(shù)據(jù)的樣本差異給預報結果帶來的干擾,降低模型的過擬合程度,提高預測精度,見表2。

        表2 聚類結果

        2.3 預測模型的構建與檢驗

        利用LIBSVM 的回歸原理構建大氣顆粒物濃度預報模型。將數(shù)據(jù)集劃分為訓練數(shù)據(jù)和測試數(shù)據(jù),其中訓練數(shù)據(jù)和測試數(shù)據(jù)又各自包含輸入數(shù)據(jù)與輸出數(shù)據(jù)。選取2015 年1 月1 日~2019 年12 月31 的數(shù)據(jù)作為訓練數(shù)據(jù),2020 年1 月1 日~2020 年12 月31 日的數(shù)據(jù)作為測試數(shù)據(jù),以此來構建基于LIBSVM 的顆粒物濃度預報模型。

        (1)調入數(shù)據(jù),對數(shù)據(jù)進行歸一化處理。

        (2)利用RF-Kmeans 算法對顆粒物數(shù)據(jù)進行聚類運算,將PM2.5和PM10分別分成4 種不同類別。

        (3)采用LIBSVM 算法對各個類別的模型分別進行訓練。

        (4)將測試數(shù)據(jù)中的輸入數(shù)據(jù)輸入到已經訓練好的預報模型中,輸出經模型預報的顆粒物濃度數(shù)據(jù)。

        (5)反歸一化,得到空氣顆粒物濃度預報值的最終結果。

        (6)對模型輸出的空氣顆粒物濃度預報結果進行誤差分析,評價模型的泛化能力。

        根據(jù)以上建模步驟,給出了不同顆粒物濃度序列的RF-Kmeans-LIBSVM 預測結果,見圖4 和5。

        圖4 不同類別PM2.5 濃度序列的預測結果

        圖5 不同類別PM10 濃度序列的預測結果

        總體上,顆粒物的預測值能夠較好地反映出真實值的變化趨勢。從預測值與真實值之間的相關程度來看,無論是PM2.5還是PM10,相關系數(shù)都在0.54 以上:對于PM2.5來說,第一類為0.83,第二類為0.69,第三類為0.54,第四類為0.73;對于PM10來說,第一類為0.81,第二類為0.67,第三類為0.55,第四類為0.66;這說明預測值與真實值之間有較高的正相關關系。

        為了驗證該模型的泛化能力,本文采用未經聚類分析的傳統(tǒng)LIBSVM 模型對顆粒物濃度進行預測,為了更加直觀地對比模型優(yōu)化前后的整體預測效果,首先將聚類分析后得到的顆粒物預測數(shù)據(jù)按照時間的先后順序進行整合,得到整體的顆粒物濃度序列預測結果,再對實際監(jiān)測值和預測值之間進行相關性分析。若實際監(jiān)測值與預測值之間相差較小,則在相關性分析圖中呈現(xiàn)為收斂,即相關性較好,反之則呈現(xiàn)為發(fā)散,相關性較差。各圖中的折線圖表示PM2.5和PM10實際即監(jiān)測值與預測值的對比效果圖,散點圖表示實際監(jiān)測值與預測值之間的相關性分析圖,預測結果見,圖6~9。

        圖6 LIBSVM 模型的PM2.5 濃度預測結果

        圖7 RF-KMeans-LIBSVM 模型的PM2.5 濃度預測結果

        圖8 LIBSVM 模型的PM10 濃度預測結果

        圖9 RF-KMeans-LIBSVM 模型的PM10 濃度預測結果

        圖中可以看出,顆粒物的預測值能夠較好地反映真實值的大小及變化趨勢,預測值與真實值之間的相關程度較高,對PM2.5而言,LIBSVM 模型的相關系數(shù)為0.961,RF-Kmeans-LIBSVM 模型的相關系數(shù)為0.975;對PM10而言,LIBSVM 模型的相關系數(shù)為0.906,RF-Kmeans-LIBSVM 模型的相關系數(shù)為0.919。

        相對于傳統(tǒng)的LIBSVM 預測方法,經聚類分析優(yōu)化之后的RF-Kmeans-LIBSVM 預測方法的各項誤差評價指標得到明顯提升,說明RF-Kmeans 聚類方法能夠為模型提供相似度較高的訓練樣本,從而提高訓練效率,進而使得模型的泛化能力得到顯著提高,見表3。

        表3 不同模型預測性能的比較

        從預測整體效果方面看,本方法通過聚類分析對模型實現(xiàn)了優(yōu)化,在對PM2.5的預測中,MAE、RMSE 分別下降了33.1%和26.5%,準確率提高了7.4%;在對PM10的預測中,MAE、RMSE 分別下降了15.7%和12.7%,準確率提高了3.3%,表明了該方法能夠大幅度地提高LIBSVM 模型對大氣顆粒物濃度的預測性能,具有一定的實用價值,可為顆粒物質量濃度的預測業(yè)務提供參考。

        3 結論

        本研究基于烏魯木齊市2015~2020 年的空氣污染資料與氣象資料,利用RF-Kmeans 的聚類方法對空氣顆粒物數(shù)據(jù)進行分型,結合支持向量機回歸模型對PM2.5和PM10質量濃度分別進行了預報,主要結論如下。

        一是在所選預報因子中,前日的PM2.5濃度對預測日PM2.5濃度預測的貢獻最大,其次是前日的CO 濃度和預測日的天氣狀況,前日的PM10濃度對預測日PM10濃度預測的貢獻最大,其次是預測日的天氣狀況和前日的O3濃度。

        二是使用RF-Kmeans 聚類方法將顆粒物濃度數(shù)據(jù)分成相似度較高的若干類,針對每一類分別構建預測模型,并用各類顆粒物濃度數(shù)據(jù)訓練各類模型,不僅可以提高模型的訓練速度, 還可以提高模型對此類數(shù)據(jù)的泛化能力,提高模型的預測準確率。

        三是相對于傳統(tǒng)支持向量機預測模型,該預測方法對PM2.5預測結果的MAE、RMSE 分別下降了33.1%和26.5%,對PM10預測結果的MAE、RMSE分別下降了15.7% 和12.7%??蓪⒃摲椒ㄍ茝V至烏魯木齊市空氣質量預報業(yè)務中,為空氣質量業(yè)務化預報提供技術支撐。

        猜你喜歡
        顆粒物模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        南平市細顆粒物潛在來源分析
        固定源細顆粒物監(jiān)測技術現(xiàn)狀分析與思考
        3D打印中的模型分割與打包
        錯流旋轉填料床脫除細顆粒物研究
        化工進展(2015年3期)2015-11-11 09:18:15
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        多層介質阻擋放電處理柴油機尾氣顆粒物
        借鑒歐洲經驗加快我國顆粒物污染防治
        国产免费av片无码永久免费| 92自拍视频爽啪在线观看| 在线观看一区二区中文字幕| 狼人av在线免费观看| 国产av一卡二卡日韩av| 日韩一区在线精品视频| 免费国产在线精品一区| 丰满人妻一区二区三区视频53| 无码精品日韩中文字幕| 动漫在线无码一区| 色窝窝手在线视频| 毛片色片av色在线观看| 人日本中文字幕免费精品| 久久综合精品人妻一区二区三区| 屁屁影院ccyy备用地址| 欧美老熟妇欲乱高清视频| 国内精品久久久久久久亚洲| 人妻少妇无乱码中文字幕| 新视觉亚洲三区二区一区理伦| 热99re久久精品这里都是精品免费 | 日韩人妻中文字幕一区二区| 人妻制服丝袜中文字幕| 色 综合 欧美 亚洲 国产| 国产成人美女AV| 白白色日韩免费在线观看| 少妇高潮太爽了在线视频| 免费精品无码av片在线观看| 日韩AV无码一区二区三| 日本啪啪一区二区三区| 国产高清在线一区二区不卡| 四虎国产精品永久在线国在线| 亚洲熟妇色xxxxx欧美老妇| 一区二区三区四区亚洲综合| 日韩av毛片在线观看| 国产无套内射久久久国产| 国产乱人伦av在线无码| 人妻系列影片无码专区| 久久丝袜熟女av一区二区| 亚洲欧美国产精品久久| 国产一区二区三区四区五区vm| 国产乱子伦农村xxxx|