張玉麗,何 玉,朱家明
(1.安徽財經(jīng)大學(xué) 金融學(xué)院,安徽 蚌埠 233000;2.安徽財經(jīng)大學(xué) 統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院, 安徽 蚌埠 233000)
?
基于多元線性回歸模型PM 2.5預(yù)測問題的研究
張玉麗1,何玉1,朱家明2
(1.安徽財經(jīng)大學(xué)金融學(xué)院,安徽蚌埠233000;2.安徽財經(jīng)大學(xué)統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院, 安徽蚌埠233000)
摘要:針對PM 2.5的預(yù)測,使用相關(guān)系數(shù),主成分分析,牛頓插值法等方法,利用SPSS,EVIEWS等軟件,建立PM 2.5預(yù)測的多元線性預(yù)測模型,并對模型的結(jié)果進(jìn)行殘差分析以及K-S檢驗(yàn),得到了較為理想的結(jié)果,最后,結(jié)合所得結(jié)果為當(dāng)?shù)卣岢隽私ㄗh。
關(guān)鍵詞:PM 2.5;K-S檢驗(yàn);主成分分析;多元線性回歸模型;EVIEWS
改革開放帶來了經(jīng)濟(jì)的空前發(fā)展,加入世貿(mào)組織使我國的經(jīng)濟(jì)發(fā)展水平更上一個臺階,但持續(xù)高速的經(jīng)濟(jì)增長速度帶來了嚴(yán)重的污染問題。比如南京出現(xiàn)的玫瑰紅霧霾等均反映了環(huán)境處于惡化的邊緣。PM 2.5預(yù)測的方法較多,張怡文(2015)使用神經(jīng)網(wǎng)絡(luò)模型對PM 2.5的濃度進(jìn)行預(yù)測,該方法經(jīng)度較高,但是對樣本數(shù)據(jù)集的要求過高,實(shí)際應(yīng)用價值不高[1]。彭斯俊對PM 2.5的時間序列使用ARIMA模型進(jìn)行預(yù)測,但該預(yù)測方法隨著時間的延長誤差逐漸增大[2]。PM 2.5預(yù)測指標(biāo)一般選取容易獲得的包括PM 10、O3、CO、 SO2、NO2以及溫度等指標(biāo)[1-3]。PM 2.5濃度的計算多采用物理的方法,由于其自身的特點(diǎn)導(dǎo)致普通的物理方法精度難以滿足要求,精確地計算方法成本較高,而PM 10,O3等指標(biāo)的測量技術(shù)較為成熟,利用影響空氣質(zhì)量的指標(biāo)之間的相關(guān)關(guān)系,在提高PM 2.5預(yù)測精度的同時可以降低PM 2.5的測量成本。通過對PM 2.5環(huán)境指標(biāo)的預(yù)測,提高市民工作、生活的效率,加強(qiáng)呼吸道健康、行車安全等方面的保障具有極其重要的意義。
1數(shù)據(jù)的獲取及假設(shè)
本文所使用的數(shù)據(jù)來自于上海檢測中心官網(wǎng)以及中國環(huán)境質(zhì)量在線監(jiān)測分析平臺。選取的指標(biāo)包括日均PM 2.5濃度值,日均PM 10濃度值,臭氧日均一小時的平均濃度值、臭氧日均8小時平均濃度值、日均CO濃度值、日均SO2濃度值、日均NO2濃度值以及每日平均溫度。共選取從2015年1月1日到2015年5月31日共151組數(shù)據(jù)。為方便解決問題,做出以下幾條假設(shè):(1)影響PM 2.5濃度的指標(biāo)包含本文所列指標(biāo),其他指標(biāo)的影響忽略不計;(2)假設(shè)當(dāng)?shù)夭煌廴疚锏臐舛仁蔷鶆虻模噜彽貐^(qū)不存在較大的差異;(3)不考慮天氣的原因?qū)ψ匀晃餄舛鹊挠绊懀?4)所搜集的數(shù)據(jù)來源可靠,忽略人為誤差的存在。
2數(shù)據(jù)的處理
2.1數(shù)據(jù)的補(bǔ)全
由于所搜集數(shù)據(jù)不完整,為保證模型的完整性,使用牛頓插值法進(jìn)行數(shù)據(jù)的補(bǔ)全。其步驟如下[4]:
(1)輸入n值及(xi,f(xi)),i=0,1,……,n;要計算的函數(shù)點(diǎn)。
(2)對給定的x,由
Nn(x)=f(x0)+(x-x0)f[x0,x1]+(x-x0)(x-x1)f[x0,x1,x2]+…+(x-x0)
(x-x1)…(x-xn-1)f[x0,x1,…,xn]
(3)計算Nn(x)的值。
(4)輸出Nn(x)
2.2數(shù)據(jù)的無量綱化
由于自然環(huán)境的復(fù)雜,環(huán)境數(shù)據(jù)之間存在不同的量綱,為更好的刻畫數(shù)據(jù)之間的非線性關(guān)系,使用牛頓插值法插入4組數(shù)據(jù)后對補(bǔ)全的數(shù)據(jù)取自然對數(shù),并對其進(jìn)行無量綱化處理[5],方法如下:
(1)
其中,i為年份,j為指標(biāo)序號,xij為第個指標(biāo)的第年的數(shù)據(jù),min(xj)為第j個指標(biāo)的最小值,max(xj)為第j個指標(biāo)的最大值。
3主成分分析法
3.1模型的準(zhǔn)備
回歸模型的建立要求變量之間相關(guān)性較低,否則多重共線性的存在會影響模型的準(zhǔn)確性,采用線性相關(guān)系數(shù)研究各指標(biāo)之間的線性相關(guān)性。
(2)
使用EVIEWS軟件得到了影響PM 2.5濃度的各指標(biāo)數(shù)據(jù)之間的相關(guān)系數(shù)矩陣見表1。
表1 影響PM 2.5各指標(biāo)相關(guān)系數(shù)矩陣
注:**表示在0.01的水平上顯著,*表示在0.05的水平上顯著。指標(biāo)PM表示PM 2.5;P1表示PM 10;P2表示臭氧日均一小時的平均濃度值;P3表示臭氧日均8小時平均濃度值;P4表示CO;P5表示SO2;P6表示NO2;P1表示溫度的數(shù)據(jù)。
從各變量之間的相關(guān)系數(shù)值可以看出,所選取的變量與PM 2.5之間相關(guān)性較強(qiáng),其中CO,SO2,NO2與PM 2.5相關(guān)性最為明顯。而這些氣體的產(chǎn)生主要來源于汽車尾氣以及工廠廢氣的排放。由于變量之間存在著較強(qiáng)的相關(guān)性。難以直接進(jìn)行回歸,因此適合采用主成分分析法進(jìn)行數(shù)據(jù)的降維[8]。
3.2模型的建立與求解
我們使用SPSS軟件對所得數(shù)據(jù)進(jìn)行分析,所得主成分的貢獻(xiàn)率結(jié)果見表2:
表2 主成分貢獻(xiàn)率
表3 觀測指標(biāo)在主成分中的比重
4多元線性回歸模型
4.1模型的準(zhǔn)備
考慮到污染分布問題的復(fù)雜性,影響PM 2.5的變量之間的關(guān)系存在較強(qiáng)的非線性關(guān)系。采用冪函數(shù)的形式進(jìn)行多元線性回歸[7-8]。
(3)
為了便于求解,我們對等式(3)兩邊同時取自然對數(shù):
lnY=a0+a1ln X1+a2X2…akXk
(4)
4.2模型的求解
結(jié)合(3),使用EVIEWS軟件對數(shù)據(jù)進(jìn)行回歸分析,并結(jié)合主成分分析結(jié)果得到以下的預(yù)測模型:
(5)
因此該日的PM 2.5濃度預(yù)測值為:
(6)
5模型的檢驗(yàn)
5.1殘差分析
多元線性回歸模型要求殘差應(yīng)具有正態(tài)性。為進(jìn)一步檢驗(yàn)本文所建立的預(yù)測模型的可靠性,對其殘差是否服從正態(tài)分布進(jìn)行檢驗(yàn)。對于殘差數(shù)列,假設(shè)它是正態(tài)總體的一個樣本,該正態(tài)分布總體為N(u,δ2),其中均值和方差未知,因此,將采用極大似然法估計得到正態(tài)分布的參數(shù)[9]。
(7)
將所求得到的殘差的數(shù)據(jù)ε1,ε2,…,εk代入得到u=0.03547,δ2=0.18202,使用EVIEWS做出該估計所得正態(tài)分布概率密度曲線,如圖1所示。
圖1 殘差頻率分布直方圖
5.2K-S檢驗(yàn)
對于極大似然法所得結(jié)果,需要對殘差數(shù)列進(jìn)行進(jìn)一步檢驗(yàn),判斷其是否滿足的正態(tài)分布,使用Kolmogorov-Smirnov 檢驗(yàn)[10],即K-S檢驗(yàn)判斷殘差的樣本數(shù)列是否服從正態(tài)分布,通過比較經(jīng)驗(yàn)分布函數(shù)和理論分布函數(shù)的差異檢驗(yàn),檢驗(yàn)二者是否服從某種分布。首先,定義檢驗(yàn)統(tǒng)計量為:
D=max|Fn(x)-F0(x)|
(8)
當(dāng)實(shí)際的D>D(n,a)(其中n為樣本容量,a為顯著性水平,D(n,a)為臨界值)則拒絕原假設(shè),否則接受原假設(shè)。
對于殘差數(shù)列,使用SPSS軟件進(jìn)行K-S檢驗(yàn)結(jié)果見表4。
表4 K-S檢驗(yàn)結(jié)果
做出經(jīng)驗(yàn)分布和理論分布的函數(shù)對比的圖像,如圖2所示。
圖2 理論和經(jīng)驗(yàn)分布函數(shù)圖像
從K-S檢驗(yàn)的結(jié)果可以看出,應(yīng)該接受原假設(shè),因此該數(shù)據(jù)序列可以看成是服從,的正態(tài)分布,同時從經(jīng)驗(yàn)分布函數(shù)和極大似然估計的正態(tài)分布函數(shù)圖像可以看出,二者之間差異較小,估計誤差可以忽略。
5.3預(yù)測結(jié)果檢驗(yàn)
為了保證所建模型的準(zhǔn)確性,對模型的預(yù)測結(jié)果進(jìn)行交叉檢驗(yàn),原理如下:
k 階交叉驗(yàn)證是通過將樣本總體分為k 個子樣本,選擇其中一個子樣本作為驗(yàn)證數(shù)據(jù),其他數(shù)據(jù)用于訓(xùn)練。重復(fù)驗(yàn)證k次,并根據(jù)k次的運(yùn)行結(jié)果最終得到單一的估測值。通過使用3階交叉驗(yàn)證對預(yù)測結(jié)果進(jìn)行檢驗(yàn)[11]。檢驗(yàn)結(jié)果見表5。
表5 交叉檢驗(yàn)結(jié)果
做出了真實(shí)值與預(yù)測值的折線圖的比較的圖像,如圖3所示。
圖3 真實(shí)值與預(yù)測值的比較
從調(diào)整后的可決系數(shù)可以看出,表明解釋變量能夠?qū)Ρ唤忉屪兞窟M(jìn)行很好的解釋。從模型預(yù)測結(jié)果可以看出,預(yù)測值和真實(shí)值之間的差距較小,預(yù)測結(jié)果較為理想。
6結(jié)束語
本文通過影響環(huán)境質(zhì)量的各項(xiàng)指標(biāo)對PM 2.5的值進(jìn)行預(yù)測。通過相關(guān)性分析得到指標(biāo)之間的相關(guān)性較高的結(jié)論。在進(jìn)行主成分分析的基礎(chǔ)上建立多元線性回歸模型。模型擬合優(yōu)度較高,通過K-S檢驗(yàn)。殘差分析等得到所得預(yù)測模型合理的結(jié)論。同時本文還得到當(dāng)前上海市的CO,SO2,NO2等氣體污染物對上海市的污染影響較大,而這些氣體主要是由汽車尾氣以及工廠排放導(dǎo)致,因此建議上海市政府采取相應(yīng)的措施,大力發(fā)展公共交通,降低汽車尾氣的排放量,嚴(yán)格監(jiān)督工廠的廢氣排放,促進(jìn)當(dāng)?shù)亟?jīng)濟(jì)和環(huán)境的協(xié)調(diào)發(fā)展。
參考文獻(xiàn):
[1]張怡文,胡靜宜,王冉.基于神經(jīng)網(wǎng)絡(luò)的PM(2.5)預(yù)測模型[J].江蘇師范大學(xué)學(xué)報:自然科學(xué)版,2015,32(1):63-65.
[2]彭斯俊,沈加超,朱雪.基于ARIMA模型的PM(2.5)預(yù)測[J].安全與環(huán)境工程,2014(6):125-128.
[3]陳強(qiáng),梅琨,朱慧敏,等.鄭州市PM(2.5)濃度時空分布特征及預(yù)測模型研究[J].中國環(huán)境監(jiān)測,2015,31(3):105-112.
[4]唐暉.傳感器網(wǎng)絡(luò)數(shù)據(jù)規(guī)范與插值方法研究[D].長沙:湖南大學(xué),2010.
[5]郭亞軍,易平濤.線性無量綱化方法的性質(zhì)分析[J].統(tǒng)計研究,2008,25(2):93-100.
[6]朱家明,王犁,童金萍,等.我國就業(yè)人數(shù)的主要影響因素分析及前景預(yù)測[J].?dāng)?shù)學(xué)的實(shí)踐與認(rèn)識,2010,40(15):57-70.
[7]荊濤,李霖,于文柱,等.t分布受控遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的PM 2.5質(zhì)量濃度預(yù)測[J].中國環(huán)境監(jiān)測,2015(4):100-105.
[8]胡玉筱,段顯明.基于高斯煙羽和多元線性回歸模型的PM_(2.5)擴(kuò)散和預(yù)測研究[J].干旱區(qū)資源與環(huán)境,2015,29(6):86-92.
[9]伊麗米熱·阿布達(dá)力木,迪麗努爾·塔力甫,阿布力孜·伊米提,等.烏魯木齊市大氣可吸入顆粒物濃度與氣象因素的相關(guān)性研究[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2012,29(01):94-99.
[10]鄧啟紅,黃柏良,唐猛,等.長沙市大氣顆粒物PM(10)質(zhì)量濃度的統(tǒng)計分布特性[J].中南大學(xué)學(xué)報:自然科學(xué)版,2012,43(4):1567-1573.
[11]孫迎雪,吳光學(xué),胡洪營,等.基于達(dá)標(biāo)保證率的昆明市污水處理廠出水水質(zhì)評價[J].中國環(huán)境科學(xué),2013,33(6):1113-1119.
(責(zé)任編輯:馬世堂)
收稿日期:2016-01-20
基金項(xiàng)目:安徽省大學(xué)生創(chuàng)新項(xiàng)目(201510378470);國家自然科學(xué)基金(11301001); 安徽財經(jīng)大學(xué)教研項(xiàng)目(acjyzd201429)。
作者簡介:張玉麗(1992-),女,安徽省利辛縣人,在讀本科生,主要從事應(yīng)用數(shù)學(xué)與數(shù)學(xué)建模研究。*通訊作者:朱家明,副教授,E-mail:zhujm1973@163.com。
中圖分類號:TP391.6
文獻(xiàn)標(biāo)識碼:A
文章編號:1673-8772(2016)03-0092-06
Study of the Prediction of PM 2.5 Based on the Multivariate Linear Regression Model
ZHANG Yu-li1,HE Yu1,ZHU Jia-ming2
(1. School of Finance, Anhui University of Finance & Economics, Bengbu 233000, China;2. School of Statistics and Applied Mathematics, Anhui University of Finance & Economics, Bengbu 233000,China)
Abstract:For PM 2.5 predictions, we use the correlation coefficient, principal component analysis, Newton interpolation and other methods, and then use SPSS, EVIEWS software. We test them by using residual analysis and K-S test to obtain a more satisfactory result. Finally, we put forward a proposal for local government in line with the results.
Key words:PM 2.5; K-S test; Principal component analysis; Multivariate linear regression model; EVIEWS