亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多元統(tǒng)計(jì)的PM2.5分析與預(yù)測(cè)—以合肥地區(qū)為例①

        2018-02-05 07:56:06敖希琴費(fèi)久龍陳家麗汪金婷
        關(guān)鍵詞:影響分析模型

        敖希琴, 費(fèi)久龍, 陳家麗, 鄭 陽, 汪金婷

        (安徽新華學(xué)院信息工程學(xué)院,安徽 合肥 230088))

        0 引 言

        近年來中國(guó)環(huán)境污染日益嚴(yán)重,許多城市出現(xiàn)霧霾天氣,監(jiān)控和預(yù)測(cè)大氣污染已成為空氣質(zhì)量研究中的一個(gè)重要部分。PM2.5指的是大氣中粒徑小于或等于2.5μm的顆粒物,表示每立方米空氣中這種顆粒的含量,其值越高,就代表空氣污染越嚴(yán)重[1]。PM2.5從客觀上對(duì)空氣中的細(xì)小微粒能夠做出描述和衡量,體現(xiàn)空氣中微粒的濃度,已經(jīng)成為人們?nèi)粘I钪幸粋€(gè)不可或缺的一項(xiàng)空氣質(zhì)量指標(biāo)。

        由于對(duì)PM2.5造成影響的因素有很多,統(tǒng)計(jì)分析中的多元回歸分析模型可以處理這種情況,并且在氣象、經(jīng)濟(jì)等領(lǐng)域已經(jīng)有相當(dāng)多的研究。例如唐猛分析了PM10濃度的統(tǒng)計(jì)學(xué)分布及預(yù)測(cè)[2];趙廣華等將多元回歸模型應(yīng)用在區(qū)域經(jīng)濟(jì)預(yù)測(cè)中[3]。由國(guó)內(nèi)諸多的文獻(xiàn)可以看出,多元回歸分析是預(yù)測(cè)方法中一種比較主流的的方法,在以往的研究中得到廣泛的應(yīng)用。

        1 多元線性回歸

        多元線性回歸分析是以多個(gè)解釋變量的給定值為條件的回歸分析,是研究一個(gè)因變量和多個(gè)自變量之間的線性關(guān)系方法[4],多元線性回歸模型的一般形式為:

        Y=β0+β1X1+β2X2+β3X3+…+βjXj+…

        +βkXk+μ

        (1)

        式中,K為解釋變量的數(shù)目,βj(j=1,2,…,k)為回歸系數(shù),μ為去除k個(gè)自變量時(shí)對(duì)Y影響后的隨機(jī)誤差。

        2 模型數(shù)據(jù)準(zhǔn)備

        2.1 數(shù)據(jù)收集

        為驗(yàn)證多元統(tǒng)計(jì)方法在PM2.5分析及預(yù)測(cè)方面的適用性,選取了合肥地區(qū)的PM2.5數(shù)據(jù)進(jìn)行了相關(guān)實(shí)驗(yàn)。數(shù)據(jù)來源于“天氣后報(bào)網(wǎng)[5]”,選取了時(shí)間段為2015年1月至2015年12月全年數(shù)據(jù)進(jìn)行分析。

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1 數(shù)據(jù)的篩選

        由于該網(wǎng)站提供的數(shù)據(jù)項(xiàng)目比較多,基于實(shí)驗(yàn)?zāi)康?,?015年全年的數(shù)據(jù)中的“AOI指數(shù)”、“當(dāng)天AQI排名”這兩列數(shù)據(jù)剔除,剩下的“日期”、“質(zhì)量等級(jí)”、“PM2.5”、“PM10”、“SO2”、“NO2”、“CO”、“O3”等列保留。

        2.2.2 數(shù)據(jù)處理

        該網(wǎng)站提供的數(shù)據(jù)當(dāng)中,經(jīng)過排查,出現(xiàn)了若干缺失值,需要進(jìn)行填補(bǔ),以滿足數(shù)據(jù)的完整性要求。實(shí)驗(yàn)缺失值的處理方法是利用簡(jiǎn)單(非隨機(jī))插補(bǔ),即用某個(gè)值(如平均值、中位數(shù)、眾數(shù))來替換變量中的缺失值,此處采用缺失值相鄰兩個(gè)值的平均值進(jìn)行替代。

        數(shù)據(jù)中存在一些影響模型效果的觀測(cè)點(diǎn),這些觀測(cè)點(diǎn)或大或小,需要對(duì)其進(jìn)行排查處理,以減小異常值對(duì)于整個(gè)數(shù)據(jù)模型的影響。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離它所屬樣本的其余觀察值[6]。對(duì)于異常值,可以通過箱線圖判斷。

        圖1 箱線圖

        由圖1可以看出,數(shù)據(jù)中存在著一些異常值,如2015年1月17日、2015年1月25日、2015年2月04日、2015年2月14日、2015年2月17日、2015年5月27日、2015年8月10日等異常值。采取的處理方法是直接刪除異常值。

        2.2.3 數(shù)據(jù)分割

        為體現(xiàn)實(shí)驗(yàn)的科學(xué)性,將合肥地區(qū)2015年的數(shù)據(jù)進(jìn)行分割,2015年1月1日至2015年9月30日的數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,用于分析建模;2015年10月1日至2015年12月31日的數(shù)據(jù)為驗(yàn)證數(shù)據(jù)集,用于驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確性。

        3 模型建立

        3.1 相關(guān)性分析

        相關(guān)分析是指對(duì)不同變量進(jìn)行定量分析,由此來判斷他們之間是否存在較為密切的關(guān)系,以及關(guān)系的密切程度。課題研究的是PM2.5和各個(gè)影響因素的關(guān)系,因此首先要進(jìn)行PM2.5和各個(gè)影響因素相關(guān)性的考察,可以通過觀察變量間的散點(diǎn)圖來進(jìn)行相關(guān)性分析。

        借助于R軟件,可做PM2.5和各個(gè)影響因素之間的散點(diǎn)圖,如圖2所示。并計(jì)算二者之間的相關(guān)系數(shù),如表1所示。

        表1 PM2.5與各影響因素間相關(guān)系數(shù)

        圖2 綜合散點(diǎn)圖

        由圖2可觀察到PM2.5和PM10、CO之間有較為明顯的線性趨勢(shì)關(guān)系,其關(guān)系系數(shù)分別為0.803和0.838;PM2.5和SO2、NO2之間有一定的線性趨勢(shì)關(guān)系,其關(guān)系系數(shù)分別為0.615和0.456,這四個(gè)影響因素與PM2.5呈正相關(guān),說明當(dāng)其濃度高增大時(shí),PM2.5的濃度也會(huì)相應(yīng)的增大。而PM2.5和PM10之間的散點(diǎn)圖較為分散,其關(guān)系系數(shù)為-0.343。

        圖3 五個(gè)影響因素為整體時(shí)與PM2.5之間的散點(diǎn)圖

        3.2 多元回歸模型的建立

        通過相關(guān)性分析的結(jié)果,可以發(fā)現(xiàn)PM2.5與各個(gè)變量之間的關(guān)系基本呈現(xiàn)出線性趨勢(shì),為更好地研究PM2.5與各個(gè)影響因素之間的關(guān)系,選擇PM10、SO2、NO2、CO、O3五個(gè)影響因素為自變量,建立多元回歸模型。

        首先將五個(gè)影響因素看成整體,做與PM2.5之間的散點(diǎn)圖,從而大致的判斷點(diǎn)的趨勢(shì),如圖3所示。

        從圖3中可以看出大概呈現(xiàn)出線性的趨勢(shì),于是借助于R軟件建立多元線性回歸方程,得到結(jié)果如表2所示。

        表2 系數(shù)表

        根據(jù)實(shí)驗(yàn)結(jié)果,可得到該多元線性回歸模型的表達(dá)式:

        PM2.5=0.37PM10+0.20SO2-0.76MO2+

        64.44CO-0.22O3-6.75

        (2)

        3.3 模型的檢驗(yàn)

        為驗(yàn)證模型的有效性,采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)對(duì)模型進(jìn)行檢驗(yàn)和評(píng)價(jià)。

        3.3.1 擬合優(yōu)度檢驗(yàn)

        在多元線性回歸模型中,Multiple R-Square為決定系數(shù),又稱擬合優(yōu)度,反映了自變量對(duì)因變量解釋程度的高低,其值越大,說明自變量對(duì)因變量解釋程度越高;Adjusted R-Square為可調(diào)整的擬合優(yōu)度,反映了回歸方程對(duì)樣本的擬合程度,其值越大,回歸方程對(duì)樣本的擬合程度越高。借助于R軟件中的summary函數(shù),可得到擬合優(yōu)度檢驗(yàn)結(jié)果,如表3所示:

        表3 擬合優(yōu)度檢驗(yàn)結(jié)果

        由表3可知,Multiple R-Square的值為0.813,Adjusted R-Square的值為0.810,接近于1,表明擬合優(yōu)度較好。

        圖4 預(yù)測(cè)值與實(shí)際值的對(duì)比圖

        3.3.2 方程顯著性檢驗(yàn)

        在多元線性回歸模型中,方程的顯著性檢驗(yàn)通常用F檢驗(yàn),即當(dāng)p-value<0.05,即通過顯著性檢驗(yàn)。通過R軟件,計(jì)算出來的p-value小于2.2e-16,遠(yuǎn)小于0.05,即滿足顯著性要求。

        3.3.3 參數(shù)顯著性檢驗(yàn)

        在多元線性回歸模型中,參數(shù)的顯著性檢驗(yàn)是對(duì)自變量的顯著性進(jìn)行判定,即當(dāng)Pr(>|t|)<0.05,通過顯著性檢驗(yàn)。借助于R軟件中的summary函數(shù),可得到參數(shù)顯著性檢驗(yàn)結(jié)果,如表4所示。

        表4 參數(shù)顯著性檢驗(yàn)結(jié)果

        由表4可知,除SO2剩余四個(gè)自變量均通過參數(shù)顯著性檢驗(yàn)。但是結(jié)合實(shí)際來看,SO2顯然是對(duì)PM2.5有影響的。而作為模型選擇的重要方法之一,逐步回歸分析法可以用來篩選模型。

        3.4 模型篩選

        3.4.1 逐步回歸分析

        逐步回歸就是在許多自變量共同影響著一個(gè)因變量的關(guān)系中,判斷哪個(gè)( 或哪些) 自變量的影響是顯著的,哪些自變量的影響是不顯著的,然后將影響顯著的自變量選入和將影響不顯著的變量剔除[7],逐步回歸分析結(jié)果如表5所示。

        表5 逐步回歸分析模型參數(shù)分析

        由表5可知,又得到了一個(gè)預(yù)測(cè)模型:

        PM2.5=0.37PM10+0.20SO2-0.76MO2+

        64.44CO-0.22O3-6.75

        (3)

        由逐步回歸分析可知,相對(duì)于原來的模型,新模型去除SO2、為驗(yàn)證新的模型是否滿足課題需要,同理采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)等指標(biāo)驗(yàn)證模型。

        其中擬合優(yōu)度檢驗(yàn)結(jié)果,Multiple R-Square的值為0.8117,Adjusted R-Square的值為0.8089,相比于原來的模型,略有下降;方程顯著性檢驗(yàn)中,p-value: < 2.2e-16,可以得知方程通過了顯著性檢驗(yàn);方程的顯著性檢驗(yàn)結(jié)果中,所有自變量均通過參數(shù)顯著性檢驗(yàn)。

        3.4.2 模型選擇

        AIC準(zhǔn)則又稱最小信息準(zhǔn)則,是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型,因此優(yōu)先考慮的模型是應(yīng)該是AIC最小的一個(gè)[8]。

        表6 AIC模型比較

        從上述實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)第二種模型的AIC相對(duì)較小,并且在考慮自變量盡可能少的原則下,選擇逐步回歸分析后的模型為最終的預(yù)測(cè)模型。

        PM2.5=0.30PM10-0.76NO2+64.16CO-

        0.26O3-3.51

        (4)

        3.5 模型的預(yù)測(cè)

        通過以上分析得到的模型,用于預(yù)測(cè)合肥市2015年10月至12月合肥市的PM2.5。采用均方根誤差(RMSE)準(zhǔn)則(公式5)、平均絕對(duì)誤差(MAE)準(zhǔn)則(公式6)和Theil不相等系數(shù)準(zhǔn)(公式7)則用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,并做預(yù)測(cè)值與實(shí)際值的對(duì)比圖如圖4所示。

        (5)

        (6)

        (7)

        其中yi表示真實(shí)值,gi表示預(yù)測(cè)值,RMSE值和MAE值都是越小,表示預(yù)測(cè)值與真實(shí)值越接近,預(yù)測(cè)準(zhǔn)確度越高;U取值在0到1之間,U越接近0,模型預(yù)測(cè)越準(zhǔn)確。

        由公式可得均方根誤差(RMSE)為24.56,平均絕對(duì)誤差(MAE)為15.65, Theil不相等系數(shù)為0.14,由于PM2.5的數(shù)據(jù)是在0~500甚至更大范圍內(nèi)波動(dòng),相比之下,該預(yù)測(cè)模型的RMSE、MAE、和Theil不相等系數(shù)較為理想,由此推斷模型整體預(yù)測(cè)效果較好。

        4 結(jié) 語

        通過分析合肥市2015年P(guān)M2.5相關(guān)數(shù)據(jù),建立一種以PM2.5為核心的多元線性回歸模型。該模型指標(biāo)共包括PM10、SO2、NO2、CO、O3五項(xiàng)。通過建立PM2.5與各個(gè)指標(biāo)之間的散點(diǎn)圖,大致判斷各個(gè)指標(biāo)是否與PM2.5呈現(xiàn)出一定的線性關(guān)系,從而建立一個(gè)“強(qiáng)行”的多元線性回歸模型;采用擬合優(yōu)度檢驗(yàn)、方程顯著性檢驗(yàn)、參數(shù)顯著性檢驗(yàn)以及逐步回歸分析對(duì)模型進(jìn)行驗(yàn)證;最后得到一個(gè)較為滿意的模型。運(yùn)用該模型預(yù)測(cè)了2015年合肥市10月至12月份的PM2.5,且擬合優(yōu)度和調(diào)整的擬合優(yōu)度分別為0.81,0.81,均方根誤差(RMSE)為24.56,平均絕對(duì)誤差(MAE)為15.65,Theil不相等系數(shù)為0.14,模型預(yù)測(cè)效果較好。

        雖然提出的多元線性回歸模型可以在一定程度上較好的預(yù)測(cè)PM2.5,但仍然存在一些不足,具體如下:

        1)該模型在建模前剔除了異常值,所以得到的模型較為穩(wěn)健,對(duì)于一些較為極端的天氣,預(yù)測(cè)效果不理想,如何將這些異常值納入預(yù)測(cè)模型,提高模型對(duì)極端天氣的預(yù)測(cè)準(zhǔn)確性,這方面的工作有待進(jìn)一步研究。

        2)結(jié)合實(shí)際分析來看,PM2.5的變化與時(shí)間存在一定的關(guān)系,可以在多元線性回歸模型的基礎(chǔ)上結(jié)合時(shí)間序列模型,從而得到一個(gè)更為精確的模型。

        [1] 百度百科.PM2.5.https://www.sogou.com/sie?hdq=AQxRG-4492&query=PM2.5&ie=utf8.

        [2] 唐猛.長(zhǎng)沙市顆粒物PM10濃度統(tǒng)計(jì)學(xué)分布特性與預(yù)測(cè)[D].長(zhǎng)沙:中南大學(xué),2010.

        [3] 趙廣華,劉煒.多元回歸模型在經(jīng)濟(jì)預(yù)測(cè)區(qū)域中的應(yīng)用[J].中國(guó)商貿(mào),2009(08):180-181.

        [4] 張景陽,潘光友.多元線性回歸與BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)比與運(yùn)用研究[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,38(06):61-67.

        [5] 天氣后報(bào)網(wǎng).http://www.tianqihoubao.com/ .

        [6] 王懷亮.統(tǒng)計(jì)數(shù)據(jù)異常值的識(shí)別及r語言實(shí)現(xiàn)[J].電子技術(shù),2012(05):6-8.

        [7] 姜新華,劉霞,薛河儒,等.基于逐步回歸的空氣質(zhì)量影響因素分析——以呼和浩特市區(qū)為例[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(02):123-126.

        [8] Guofeng, SongXiaogang, DongJiafeng etc. Blockwise AIC for Model Selection in Generalized Linear Models[J].Environmental Modeling & Assessment, 2017 (1) :1-11.

        猜你喜歡
        影響分析模型
        一半模型
        是什么影響了滑動(dòng)摩擦力的大小
        哪些顧慮影響擔(dān)當(dāng)?
        隱蔽失效適航要求符合性驗(yàn)證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        3D打印中的模型分割與打包
        擴(kuò)鏈劑聯(lián)用對(duì)PETG擴(kuò)鏈反應(yīng)與流變性能的影響
        浪货趴办公桌~h揉秘书电影| 亚洲国产日韩在线精品频道| 女同成片av免费观看| 白色白色白色在线观看视频| 国产美女高潮流白浆免费视频| 男女猛烈xx00免费视频试看| 久久久久久久无码高潮| 狠狠色欧美亚洲综合色黑a| 亚洲国产天堂av成人在线播放| 色久悠悠婷婷综合在线| 中文字幕日韩人妻在线视频| 内射少妇36p九色| 男人的天堂av网站一区二区 | 亚洲国产一区二区三区精品| 狠狠精品久久久无码中文字幕| 制服丝袜人妻中文字幕在线 | 久久AⅤ无码精品色午麻豆| 情av一区二区三区在线观看| av免费网址在线观看| 精品人妻人人做人人爽夜夜爽| 中文字幕在线亚洲一区二区三区| 欧美乱妇高清无乱码在线观看| 天天干夜夜操| 91免费国产| 亚洲毛片免费观看视频| 蜜臀av999无码精品国产专区| 亚洲av无码乱观看明星换脸va | 亚洲国产香蕉视频欧美| 中文字幕乱码在线婷婷| 国产一区二区三区中文在线| 国产国拍精品av在线观看按摩 | a级黑人大硬长爽猛出猛进 | 日本熟女人妻一区二区三区| 国产一区二区视频免费在线观看| 帮老师解开蕾丝奶罩吸乳网站| 三年片在线观看免费大全电影| 欧美日韩综合在线视频免费看| 日本免费三级一区二区| 免费日本一区二区三区视频| 久久婷婷成人综合色| 国产欧美激情一区二区三区|