盧鵬,何杰,彭叢笑
(1.西南交通大學峨眉校區(qū)基礎課部,四川峨眉614202;2.西南交通大學土木工程學院,成都610031;3.四川理工學院建筑工程學院,四川自貢643000)
基于偏最小二乘法的PM2.5相關因素分析研究
盧鵬1,何杰2,彭叢笑3
(1.西南交通大學峨眉校區(qū)基礎課部,四川峨眉614202;2.西南交通大學土木工程學院,成都610031;3.四川理工學院建筑工程學院,四川自貢643000)
利用偏最小二乘法,主要分析了PM2.5(含量)與SO2、NO2和CO等指標的關聯(lián)度以及具體的關系式,并對距離分析和典型分析得到的結(jié)果進行了對比分析。最后在結(jié)果的基礎上,分析了PM2.5(含量)與SO2、NO2和CO等指標的具體函數(shù)表達式,為如何更好的控制、治理該污染物提供了依據(jù)。
距離分析;典型分析;偏最小二乘分析
細顆粒物已經(jīng)被列為了影響我國各城市空氣質(zhì)量的主要大氣污染物之一,其不僅影響氣候、城市能見度,同時對人體的健康有巨大的影響,這主要是因為細顆粒物(PM2.5)能夠被人吸入呼吸系統(tǒng),甚至能穿透肺細胞而進入血液循環(huán),最終對人體健康造成影響。鑒于此,我國已經(jīng)將細顆粒物(PM2.5)作為了首要污染物,對其做深入的研究有利于制定有效的控制治理方案。PM2.5的主要來源有兩個方面[1],即自然源與人為源,且主要成分包括水溶性離子、顆粒有機物和微量元素等。有相關學術研究[2-4]認為:AQI監(jiān)測指標中的SO2、NO2和CO在一定的條件下能通過化學反應生成PM2.5?;诖耍疚囊晕靼彩懈鞯貐^(qū)所采集的數(shù)據(jù)[5]進行分析,分析的主要內(nèi)容包括PM2.5(含量)與SO2、NO2和CO等指標的關聯(lián)度以及具體的關系式。
為了分析PM2.5(含量)與SO2、NO2和CO等指標之間的相關程度和關系,本文首先采用距離分析法進行分析各指標之間的相關性與獨立性。為進一步深層次研究各指標之間的相關性,在考慮兩組變量相關性時,同時考慮其他變量的影響,于是采用典型相關分析方法進行分析,得到更加合理的相關性關系。考慮到偏最小二乘回歸能夠提供一種多對多線性回歸模型的方法,該方法集中了主成分分析、典型相關性分析和線性回歸分析方法的特點,不僅能提供一個更為合理的回歸模型,同時還能夠完成一些類似于主成分分析和典型相關分析的研究內(nèi)容,提供一些更豐富、深入的信息。所以本文采用偏最小二乘回歸分析方法建立PM2.5與其他各指標的關系模型,利用MATLAB等數(shù)學工具就可以獲得偏最小二乘回歸分析模型中的各參數(shù)值,然后對計算結(jié)果進行檢驗。
1.1 距離分析
采用Person相關系數(shù)統(tǒng)一的表征相關程度[6],兩組變量X和Y的Person相關系數(shù)計算:
1.2 深入分析
在距離相關分析的基礎上,考慮到采用距離相關分析[7]僅能得到兩組變量之間簡單的相關系數(shù),這樣的結(jié)果不能抓住問題的本質(zhì),如果能夠采用類似于主成分的思想,分別找出兩組變量的各自的某個線性組合,討論線性組合之間的相關關系,會使結(jié)果更加符合實際情況。基于此,本文采用典型相關分析對6個指標做進一步的相關與獨立分析,這種方法更加便捷且能突顯問題的本質(zhì)。
首先研究任意兩組指標隨機變量之間的相關關系,第一組指標X共5個(包含:SO2、NO2、可吸入顆粒物、CO、O3),第二組指標為Y(包含:PM2.5),可用復相關系數(shù)。其思想是先將每一組指標隨機變量作線性組合,成為兩個隨機變量,式中,P表示5個指標,q表示1個指標。
由于u,v與投影向量c,γ有關,所以相關系數(shù)矩陣ryu與c,γ有關,ryu=ryu(c,γ)。取在cT∑xxc=1,γT∑
YYγ=1的條件下使ryu達到最大的c,γ作為投影向量,得到的相關系數(shù)為復相關系數(shù),
將兩組變量的協(xié)方差矩陣分塊得:
此時
典型相關系數(shù)計算結(jié)果檢驗公式參考文獻[8]。
1.3 偏最小二乘回歸分析
由分析結(jié)果可知,PM2.5與其他4個指標具有較強的相關性,所以采用偏最小二乘法[9]建立PM2.5與其他4個指標(SO2、NO2、可吸入顆粒物、CO,將指標編號為1-4)之間的關系模型。
用xmi(i表示時間,m表示指標編號)表示實測的AQI[10]監(jiān)測指標濃度值;yi表示實測PM2.5濃度值。4個指標濃度的數(shù)據(jù)陣記為A=(aij)238×4,實測PM2.5濃度的數(shù)據(jù)矩陣記為B=(bij)238×1,即為:
具體的求解流程:
(1)分別提取兩變量組的第一對成分,并使之相關性達到最大。
(2)建立γ1,…,γp對u1的回歸及x1,…,xm對u1的回歸。
(3)用殘差陣A1和B1代替A和B,重復以上步驟。
(4)設n×m數(shù)據(jù)陣A的秩為r≤min(n-1,m),則存在個成分u1,u2,…,ur,使得
(5)p個因變量的偏最小二乘回歸方程式為
2.1 距離分析實驗結(jié)果
將西安市各地區(qū)采集的數(shù)據(jù),經(jīng)過處理后代入(1)式進行計算,得到6個指標的相關系數(shù)矩陣(表1)。
表1指標的相關性系數(shù)表
由表1可知,PM2.5與其他5個指標之間具有較強的相關性,除O3是負相關,其他各指標對PM2.5均為正相關,且相關系數(shù)均大于0.7,這說明PM2.5濃度變化與其他5個指標密切相關。
分析O3與其他指標的相關系數(shù)可以發(fā)現(xiàn),O3與其他指標的相關性較弱,且大部分是負相關,說明其他指標對O3濃度的變化影響不大。
2.2 典型分析實驗結(jié)果
將處理后的數(shù)據(jù)代入編好的程序式進行計算,可以得到6個指標的典型相關系數(shù)及檢驗表(表2)。
表2典型相關系數(shù)
由表2可知,2個典型相關系數(shù)均較高,表明PM2.5與其他5個指標之間密切相關。但要確定典型變量相關性的顯著程度,尚需要進行相關系數(shù)χ2統(tǒng)計量檢驗[11],具體做法是:比較統(tǒng)計量χ2計算值與臨界值的大小,據(jù)比較結(jié)果判定典型變量相關性的顯著程度,結(jié)果見表3。
表3相關系數(shù)檢驗表
從表3知這兩對典型變量均值通過了χ2統(tǒng)計量檢驗,表明相應典型變量之間相關關系顯著,能夠用其他5個指標來分析PM2.5的變換。因此表4的第一組相關性系數(shù)是可靠的。
表4結(jié)構(gòu)分析(相關系數(shù))
表5給出了兩種分析方法的計算結(jié)果,可以看出兩種分析方法分析結(jié)果較為一致,典型相關性分析表明:可吸入顆粒物與PM2.5密切相關,相關性達到0.9966,O3與PM2.5不相關。
表5兩種相關性分析結(jié)果對比表
典型相關分析考慮了更多的成分影響,典型相關性分析比簡單的距離相關性分析更適合于研究PM2.5與其他5個指標的相關性。
3.1 實驗結(jié)果
將標準化后的數(shù)據(jù)代入編寫好的偏最小二乘回歸程序[12],得到的實驗結(jié)果包括PM2.5與4個指標之間的相關系數(shù)矩陣(表6)、回歸方程和回歸系數(shù)直方圖(圖1)。
PM2.5與4個指標之間的偏最小二乘回歸方程:
表6相關系數(shù)矩陣
圖1回歸系數(shù)直方圖
3.2 實驗結(jié)果的分析及驗證
根據(jù)偏最小二乘法回歸模型的求解及回歸系數(shù)圖(圖1)可以觀察到,可吸入顆粒物和CO指標對PM2.5濃度指標存在較大的正相關性。即它在空氣中的含量成分越多,PM2.5含量也就越多。SO2和NO2對PM2.5存在較小的正相關。
為了考察偏最小二乘法回歸方程的模型精度[13],以(^yi,yi)為坐標值,對所有的樣本點繪制預測圖。^yi是PM2.5指標在第i個樣本點(yi)的預測值。在預測圖上,如果所有點都能在圖的對角線附近均勻分布,則方程的擬合值與原值差異很小,這個方程的擬合效果就令人滿意。圖2為PM2.5濃度預測圖,圖3為PM2.5實測與預測值析線圖,圖4為PM2.5實測與預測值百分比分析圖。
圖2 PM2.5濃度預測圖
圖3 PM2.5實測與預測值折線圖
圖4實測與預測值百分比分析圖
由圖2可知,所有點都在圖的對角線附近均勻分布,由圖3和圖4可知擬合值與原值差異很小,這些方程的擬合效果令人滿意。故偏最小二乘法回歸分析PM2.5污染物濃度的效果較好。
建立的PM2.5與SO2、NO2、可吸入顆粒物和CO四種指標的數(shù)學模型,能夠很好的反映PM2.5與各指標的相關關系。
本文利用兩種相關分析方法,分析了PM2.5含量與SO2、NO2、可吸入顆粒物、CO以及O3含量之間的相關性,并對比分析了這兩種方法的結(jié)果,最終確定了PM2.5與這5個指標之間的相關性。
在此基礎上,進一步分析了PM2.5與這些指標之間的具體關系,簡單的回歸分析無法體現(xiàn)PM2.5與多指標間的相互依賴關系,并且回歸分析的結(jié)果較差,不能反映PM2.5與其他監(jiān)測指標間的關系。因此,采用了偏最小二乘回歸分析法,該方法能夠提供一種多對多線性回歸模型的方法,且在模型建立過程中集中了主成分分析、典型相關性分析和線性回歸分析的方法和特點,因此在分析結(jié)果中,除了可以提供一個更為合理的回歸模型外,還可以同時完成一些類似于主成分分析和典型相關分析的研究內(nèi)容,比純粹的運用灰色關聯(lián)度分析[14-15]得到的結(jié)果更為可信,同時也提供一些更豐富、深入的信息。最后通過將實際值與預測值進行對比,檢驗了該關系式具有一定的可行性。
[1]王帥,杜麗等.國內(nèi)外環(huán)境空氣質(zhì)量指數(shù)分析和比較[J].中國環(huán)境監(jiān)測,2013,29(6):58-65.
[2]盧鵬,何杰.PM 2.5的時間分布與演變擴散研究[J].西南民族大學學報:自然科學版,2014,40(1):66-71.
[3]鄭永杰,劉佳,田景芝.齊齊哈爾市大氣細粒子PM 2.5單顆粒研究[J].安全與環(huán)境學報,2014,14(1):273-277.
[4]皮帥帥,程金平.上海市霾與非霾期間PM 2.5中水溶性陽離子污染特征對比[J].上海交通大學學報:農(nóng)業(yè)科學版,2014,32(3):27-32.
[5]李勇,宋慧.西安市空氣PM 2.5問題研究[J].黑龍江大學自然科學學報,2014,31(2):233-237.
[6]司守奎,孫璽清.數(shù)學建模算法與應用[M].北京:國防工業(yè)出版社,2012.5.
[7]韓忠庚.數(shù)學建模方法及其應用(第二版)[M].北京:高等教育出版社,2009.
[8]張文彤.SPSS統(tǒng)計分析高級教程[M].北京:高等教育出版社,2013.
[9]姜啟源,謝金星,葉俊.數(shù)學模型[M].4版.北京:高等教育出版社,2011.
[10]白愛民.AQI vs API—新老空氣質(zhì)量標準之對比[J].環(huán)境工程學報,2013,32(6):95-97.
[11]盛驟.概率論與數(shù)理統(tǒng)計[M].4版.北京:高等教育出版社,2008.
[12]王桂增,葉昊.主元分析與偏最小二乘法[M].北京:清華大學出版,2012.
[13]歐陽俊強.長春市環(huán)保局大氣污染模擬系統(tǒng)的設計與實現(xiàn)[D].吉林:吉林大學,2013.
[14]周穎璇.基于灰色關聯(lián)度分析法的PM 2.5影響因素分析[J].管理觀察,2014,15(5):14-16.
[15]毛毳,孫宇.空氣中PM 2.5濃度的灰色預測與關聯(lián)因素分析[J].寧夏大學學報:自然科學版,2014,35(3):284-288.
Analysis and Research on Correlative Factors of PM2.5 Based on Partial Least Square Method
LU Peng1,HE Jie2,PENG Congxiao3
(1.Emei Campus,Southwest Jiaotong University,Emei614202,China;2.School of Civil Engineering,Southwest Jiaotong University,Chengdu,610031,China;3.School of Architecture and Engineering,Sichuan University of Science&Engineering,Zigong 643000,China)
by using partial least squaresmethod,the relevancy of PM2.5(content)and sulfur dioxide(SO2),nitrogen dioxide(NO2),correlationmonoxide(CO)and other indicators aswell as the specific relationships ismainly analyzed,and the results obtained by distance analysis and typical analysis are compared and analyzed.Finally,based on the results,specific function expressions of PM2.5(content)and sulfur dioxide(SO2),nitrogen dioxide(NO2),monoxide(CO)and other indicators are analyzed,which provides a basis for that how to better control and govern the pollutants.
distance analysis;typical analysis;partial least squares analysis
O213
A
1673-1549(2015)01-0071-05
10.11863/j.suse.2015.01.17
2014-11-13
中央高校基本科研業(yè)務費專項資金(2682014BR039)
盧鵬(1983-),男,四川貢貢人,講師,主要從事數(shù)學建模理論與方法,粗糙集理論與應用方面的研究,(E-mail)1983lupeng@163.com