楊小雷,湯鳳香
(佳木斯大學 理學院,黑龍江 佳木斯 154007)
城市空氣污染數據的分析與研究
楊小雷,湯鳳香
(佳木斯大學 理學院,黑龍江 佳木斯 154007)
針對日益嚴重的大氣污染問題,基于現(xiàn)有數據與相關研究,采用相關分析法,對AQI指標之間的相關性進行了定量分析.利用主成分分析,確定PM10為被解釋變量,其它4種污染物為解釋變量,應用逐步回歸分析方法及多元回歸分析,通過逐層分析比較得到了PM10與PM2.5,CO,SO2,NO2的最優(yōu)二次回歸模型.
空氣污染;相關分析;主成分分析;逐步回歸分析
1.1 問題的提出
近年來,隨著城市空氣污染的加劇以及廣大民眾對生活環(huán)境與質量要求的日益提高,空氣質量(AQI)越來越受到廣大民眾與政府相關部門的重視.AQI主要指標有PM10,PM2.5,CO,NO2,SO2,探究這些污染物之間關系對空氣污染的治理具有一定的現(xiàn)實意義.
1.2 模型假設
假設1 監(jiān)測數據是用統(tǒng)一的設備配置與標準獲得的;
假設2 所有空氣質量數據的誤差均相互獨立,并且服從正態(tài)分布
假設3 空氣質量的5個指標,其監(jiān)測是相互獨立的.
1.3 符號說明
本文中2σ為方差;α為顯著性水平,一般設為0.05或更小,本文設為0.01;y表示PM10的值;x1表示PM2.5的值;x2表示CO的值;x3表示NO2的值;x4表示SO2的值.
2.1 預備知識
2.1.1 相關分析 在直線相關條件下,相關系數是2個變量x和y之間相關關系的方向和密切程度的綜合性指標[1],記為r,則有
其中:n為樣本容量;r取正值或負值決定于分子協(xié)方差;r的絕對值在0與1之間,其絕對值大小可說明現(xiàn)象之間相關關系的緊密程度,具體標準為:當時,變量x和y沒有關系;當時,變量x和y低程度相關;當時,變量x和y呈顯著相關;當時,變量x和y呈高度相關.
2.1.2 主成分分析 主成分分析也稱主分量分析[2-3],旨在利用降維的思想(本文利用其性質即貢獻率)把多指標轉化為少數幾個綜合指標.
具體分析步驟為:
Step3 對m個主成分進行綜合評價.對m個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率.
Step4 求KMO測度.
該方法是SPSS提供的判斷原始變量是否適合作主成分分析的統(tǒng)計檢驗方法之一,它比較了觀測到的原始變量間的相關系數和偏相關系數的大小.一般而言,KMO測度大于0.5意味著因子分析可以進行,當KMO的測度大于0.7時,則其是令人滿意的值.
對于n組獨立觀測值,設,其中:相互獨立.設最小二乘法就是選擇β0和β1的估計和,使得,而此時yi所對應的值稱為回歸值,記為.
回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優(yōu)度.為了說明直線的擬合優(yōu)度,引進判定系數
(2)當R2=1時,原始數據的總變異完全可以由擬合值的變異來解釋,并且殘差為零,即擬合點與原始數據完全吻合;
(3)當R2=0時,回歸方程完全不能解釋原始數據的總變異.
判定系數,一方面反映了解釋的變異占總變異的百分比,從而說明回歸直線擬合的優(yōu)良程度;另一方面,它從相關性的角度,說明原因變量y與擬合變量的相關程度,從這個角度看,擬合變量與原變量y的相關度越大,擬合直線的優(yōu)良度就越高.
2.1.4 多元回歸分析 多元回歸分析可以看成是一元線性回歸分析的擴展[5].多重判定系數2R是多元回歸中回歸平方和占總平方和的比例,它是度量多元回歸方程擬合程度的一個統(tǒng)計量,反映在因變量y的變差中被估計的回歸方程所解釋的比例.
對于多重判定系數有一點需要注意:給模型增加自變量時,多重判定系數也隨之增大,然而多重判定系數的代價是殘差自由度的減少,因為殘差自由度等于樣本個數與自變量個數之差.自由度小意味著估計和預測的可靠性低.這表明,當一個回歸方程涉及的自變量很多時,回歸模型的擬合從表面上看是良好的,而區(qū)間預測和區(qū)間估計的幅度卻變大,以致失去實際意義.為此,利用樣本量n和自變量的個數k去調整,計算出調整的多重判定系數,記為,其計算公式為
2.2 數據的預處理與被解釋變量的確定
2.2.1 數據的處理與相關分析模型的求解 本文采用廣東省東莞、深圳和廣州3個地區(qū)從2014-06-01—2015-05-31的空氣質量監(jiān)測數據.由于收集的數據有缺漏,存在一些缺省值,所以在分析時首先利用SPSS對其缺省值進行了直接剔除,得到可用于統(tǒng)計分析的數據集(見表1)(由于篇幅限制,僅示意性列出最前2次與最后1次觀測值).3個城市的空氣質量數據經預處理后,由SPSS Pearson[6-8]求得AQI的5種指標之間的相關矩陣表(見表2).
表1 廣東省東莞、深圳和廣州3個地區(qū)空氣污染數據
表2 5種空氣質量指標間的相關矩陣
由表2可以看出,聯(lián)系最為緊密的監(jiān)測指標組依次為:(PM2.5,PM10),(PM10,NO2),(PM10,CO),(PM2.5,NO2),且PM10與PM2.5間相關系數為0.929,呈高度正相關,且相關系數相對較大;PM10與CO,NO2,SO2間相關系數分別為0.683,0.706,0.572,呈顯著正相關,且除了SO2與CO之間的相關系數低于0.572以外,其余各指標之間相關系數均超過0.572,且均在α=0.01水平上顯著,因此各指標之間顯著相關.
2.2.2 運用主成分分析求解AQI的被解釋變量 利用主成分分析法對AQI中5項監(jiān)測指標求解KMO,進行Bartlett的檢驗,并求取解釋的總方差(見表3~4).
表3 KMO和Bartlett的檢驗
表4 解釋的總方差
由表3可以看出,KMO測度為0.805>0.7,表示變量之間的相關性很好;而Bartlett球形度檢驗中的顯著性水平值為0,達到了極其顯著水平,這表明原變量之間具有明顯的結構性和相關性,可以進行主成分分析.
由表4可以看出,PM10的特征值為3.476,方差貢獻率為69.523%,是方差貢獻率最大的一個主成分.因此,可以確定PM10為被解釋變量,PM2.5,NO2,CO,SO2為解釋變量.
2.3 求解PM10最優(yōu)回歸模型
2.3.1 PM10與PM2.5,CO,NO2,SO2多元一次及二次線性回歸模型求解 由于PM10與PM2.5,CO,NO2,SO2等指標之間具有一定的相關性和獨立性,應用Matlab的regress(Y,X,α)函數[9],對多個候選回歸模型進行逐步回歸,分別求得多元一次回歸方程
與多元二次方程
2.3.2 PM10與PM2.5,CO,NO2,SO2多元二階多項式回歸模型求解 考慮到兩兩因素之間的交互關系,應用Matlab對PM10的多元二階多項式回歸模型進行求解,得
3.1 模型的優(yōu)點
(1)通過逐層比較,建立了相對優(yōu)化的多元二階多項式回歸模型,得出了令人滿意的結果;
(2)通過所求多元二階多項式回歸模型的置信區(qū)間可以用來判斷一些數據的真實性;
(3)利用多元二階多項式回歸模型可以通過控制變量來預測某一數據或數據走勢;
(4)可以做出關于PM10的多元二階非線性回歸模型(3)的殘差分析圖,直觀感受模型的擬合程度;
(5)所有樣本信息結合在一起分析,增加了分析的可靠性.
3.2 模型的缺點
(1)通過網絡搜集到的數據本身可能存在不真實性,從而導致建立的模型不能準確地辨別出不真實的數據;
(2)由于地域差異性的存在,使得建立的模型不能適應所有地區(qū)的空氣質量數據;
(3)PM10與PM2.5,CO,NO2,SO2的多元高階回歸模型可能效果更佳,因此還可以繼續(xù)探究PM10與PM2.5,CO,NO2,SO2的多元高階關系.
[1]賈俊平,何曉群,金勇進.統(tǒng)計學[M].北京:中國人民大學出版社,2012:30-31
[2]張志涌.MATLAB教程[M].北京:北京航空航天大學出版社,2010:20-25
[3]杜強,賈麗艷.SPSS統(tǒng)計分析從入門到精通[M].北京:人民郵電出版社,2011:18-20
[4]何曉群,劉文卿.應用回歸分析[M].北京:中國人民大學出版社,2015:48-55
[5]何曉群.多元統(tǒng)計分析[M].北京:中國人民大學出版社,2004:21-23
[6]謝志英,劉浩,唐新明.北京市近12年空氣污染變化特征及其與氣象要素的相關性分析[J].環(huán)境工程學報,2015,9(9):4471-4478
[7]鄧霞君,廖良清,胡桂萍.近10年中國主要城市空氣API及與氣象因子相關性分析[J].環(huán)境科學與技術,2013,36(9):70-75
[8]楊光霞,謝華.SPSS數據統(tǒng)計與分析[M].北京:清華大學出版社,2014:54-60
[9]司守奎,孫璽菁.數學建模算法與應用[M].北京:國防工業(yè)出版社,2012:45-50
Analysis and study of urban air pollution data
YANG Xiao-lei,TANG Feng-xiang
(School of Science,Jiamusi University,Jiamusi 154007,China)
Aiming at increasingly serious air pollution problems,use correlation analysis to make an quantitative analysis for the correlation between the AQI indicators based on existing data and the related research, and principal component analysis is used to determine that PM10is the explained variable,the other four kinds of pollutants are explained variable.Using stepwise regression analysis method and multiple regression analysis,through analysis step by step and comparison get the optimal quadratic regression model between PM10and PM2.5,CO,SO2,NO2.
air pollution;correlation analysis;principal component analysis;stepwise regression analysis
O213.1
A
10.3969/j.issn.1007-9831.2016.12.003
2016-07-30
佳木斯大學科研項目(13Z1201585)
楊小雷(1991-),男,安徽宿州人,在讀本科生.E-mail:577560628@qq.com
湯鳳香(1978-),女,黑龍江安達人,講師,碩士,從事應用數理統(tǒng)計研究.E-mail:54993661@qq.com
1007-9831(2016)12-0012-05