亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于模糊聚類的PM2.5擬合組分選擇模型的研究

2016-06-07 06:21:05徐恒鵬史國良軒淑艷南開大學計算機與控制工程學院天津00071南開大學軟件學院天津00071南開大學環(huán)境科學與工程學院國家環(huán)境保護城市空氣顆粒物污染防治重點實驗室天津00071河北省唐山市玉田縣環(huán)境保護局河北唐山06199

中國環(huán)境科學 2016年1期

關鍵詞：模型

徐恒鵬,李岳,史國良,王瑋*,軒淑艷(1.南開大學計算機與控制工程學院,天津 00071；2.南開大學軟件學院,天津 00071；.南開大學環(huán)境科學與工程學院,國家環(huán)境保護城市空氣顆粒物污染防治重點實驗室,天津 00071；.河北省唐山市玉田縣環(huán)境保護局,河北唐山 06199)

徐恒鵬1,2,李岳1,2,史國良3,王瑋1,2*,軒淑艷4(1.南開大學計算機與控制工程學院,天津 300071；2.南開大學軟件學院,天津 300071；3.南開大學環(huán)境科學與工程學院,國家環(huán)境保護城市空氣顆粒物污染防治重點實驗室,天津 300071；4.河北省唐山市玉田縣環(huán)境保護局,河北唐山 064199)

摘要：提出了一種新的P M2.5源成分譜擬合組分選擇模型,在充分考慮擬合過程的物理意義的基礎上,采用聚類正確率作為組分選擇的依據.實驗驗證,該模型能夠準確獲取較好的擬合主組分, 相比與經驗選或者手動盲選所得擬合結果,我們提出的模型將成功擬合(誤差范圍在0～0.05之間)的比例由40%提升到83%.

關鍵詞：PM2.5源成分譜；組分選擇；CMB受體模型；源解析；模糊聚類

* 責任作者, 副教授, kevinwangwei@nankai.edu.cn

近年來,多地頻發(fā)的霧霾天氣,讓PM2.5成為時下最為熱門的詞匯之一,國家出臺了《國十條》以指導當前大氣污染防治[1].在進行大氣污染治理之前,必須明確各種大氣污染源類的分擔率.大氣顆粒物源解析的方法主要分為兩大類:擴散模型和受體模型,其中發(fā)展最為迅速和成熟的是受體模型.自20世紀70年代以來,提出了化學質量平衡法(CMB)、因子分析法(FA)等受體模型,其中化學質量平衡(CMB)模型由于其物理意義明確且能定量計算各個源類貢獻度而成為發(fā)展最迅速、應用最廣泛的源解析技術[2],被我國環(huán)保部和美國EPA列為推薦模型,在中國得到了廣泛的發(fā)展和應用[3].胡珊等[4]利用CMB模型對珠江三角洲PM2.5進行致癌風險及源解析、馮銀廠等[5]采用CMB模型對烏魯木齊環(huán)境空氣中TSP和 PM10源解析、鄒長武等[6]采用CMB模型提出了一種混合塵溯解析新方法.

雖然CMB模型在我國的顆粒物防治工作中發(fā)揮了重要作用,但是在利用CMB進行擬合時,如何選取擬合組分仍沒有得到很好的解決.靠人工或經驗挑選擬合組分,不僅工作量大且可能漏掉更優(yōu)結果,很多研究人員提出了不同的解決思路,如2001馮銀廠等[7]提出“窮舉法”方法,即通過增加一些診斷方法以期獲取“最優(yōu)”的擬合結果[7].

本文針對PM2.5源成分譜在CMB模型擬合過程中存在的人工或經驗選取組分時工作量大且較難獲取“最優(yōu)”擬合結果的問題,提出了一種基于模糊聚類的PM2.5源成分譜擬合組分選擇模型,旨在為PM2.5源成分譜在CMB模型擬合過程中的組分選擇問題提供一種新的解決思路,并對本文提出的組分選擇方法進行了可行性研究.

1 基于模糊聚類的PM2.5源成分譜參與擬合組分的選擇模型描述

PM2.5源成分譜數據是典型的小樣本、高維度數據,且不同維度含量的數量級有時相差極大,出現維數災難[8],即隨著維數的增加,計算量呈指數倍增長.有鑒于此,可將PM2.5源成分譜擬合組分問題轉換為機器學習中的特征選擇問題.通過特征選擇方法,對源成分譜數據進行處理,將得到的相應 “主組分”當作參與擬合的組分.本文采用模糊聚類方法對源成分譜數據進行聚類,將聚類正確率作為PM2.5源成分譜擬合組分選擇依據或標準.

圖1 算法整體流程Fig.1 The flow chart of algorithm

本文提出的基于模糊聚類的PM2.5源成分譜的參與擬合組分選擇模型的實驗流程如圖1所示.輸入為PM2.5源成分譜數據,首先設定組分變異、組分含量橫向對比以及組分含量縱向對比這3組參數的取值,進而生成候選組分集集合,對所有組分候選集進行聚類中心初始化,再用FSC聚類算法進行模糊聚類,最后計算聚類正確率,將聚類正確率最高的參數對應的候選組分集作為參與擬合的最佳組分集.在進行聚類中心初始化時采用協(xié)方差矩陣進行樣本篩選及聚類中心初始化操作,在后面章節(jié)2.1、2.2、2.3、2.4將詳細介紹.

1.1 組分候選集生成方法

PM2.5源成分譜中,樣本數目少,組分數目較多,根據組分的物理意義,設定3組參數來生成擬合組分候選集.

組分變異參數:對于每種源類,其中某組分變異系數越小,說明該組分離散度越小.將該組分納入CMB等主流源解析模型中,擬合結果更準確.組分變異系數其中,cvi,l表示對于源類i中組分l的變異系數,σi,l表示源類i中組分l的標準差,ui,l表示源類i中組分l的均值.

組分含量橫向對比參數:即組分含量大小.對于每種源類,組分含量較大的若干個組分,一般均為該源類的必選組分,需納入CMB等主流源解析模型,也可稱為組分含量橫向對比系數.

組分含量縱向對比參數:對于某種源類,有一些標識性組分是其他源類所不具有的,組分含量縱向對比系數用來找出該種源類的標識性組分.對于源類i,假設組分l是其標識性組分,那么para_veri,l值就為1(測量精確的情況).對比系數如下:

式中,para_veri,l表示源類i中組分l的組分縱向對比系數;ui,l表示源類i中組分l的均值;n表示源類個數.

設定上述3個參數取值范圍,組合生成不同的候選組分集η.例如,可以將求出的變異系數劃分為10個取值空間,即10個候選集.對于組分含量橫向對比及縱向對比參數也可以通過設定范圍來生成各自的候選組分集.最終,將上述生成的三類組分候選集進行簡單組合去重后,生成最終的候選組分集η.

1.2 FSC模糊加權軟子空間聚類算法

過去幾十年里,針對已有的傳統(tǒng)聚類方法,出現了很多基于特征加權或特征選擇的數據挖掘方法,其中子空間聚類是目前高維數據聚類分析中一個非常重要的研究領域[9-10].根據聚類方法的不同,主要分為兩種聚類形式[12-13]:硬子空間聚類、軟子空間聚類.

軟子空間聚類算法具有更好的適應性與靈活性,可以分為模糊加權子空間聚類方法及熵加權子空間聚類算法.模糊加權子空間聚類算法包括FWKM、FSC[11]、AWA,該類方法對每一類的各組分進行模糊加權,對于每一個組分,樣本分布越緊湊,則組分獲得權值越大,與CMB擬合算法思想一致.此外,組分方差越小,所占權重越大,同時為權重賦予一個模糊指數,使該聚類算法更具有適應性.

在FSC算法中,一個源類在某個組分或特征上的密度越大,該組分或特征對于該源類的貢獻度或權值越大.對于給定的源成分譜樣本數據集,本文利用軟子空間聚類算法得到k個源類中心值,即每個源類的信息:.定義uji表示第i個樣本xi屬于第j個聚類中心zj的模糊隸屬度,定義U表示整個源類的模糊隸屬度矩陣,.

此外,以期更好發(fā)現各個數據簇相應的子空間結構,軟子空間聚類算法在聚類過程中對每個數據簇的全部特征賦予一個特征加權系數.因此,定義wjh表示第h個特征對于第j個數據簇的重要性或貢獻度,則W表示整個源分譜樣本數據集的特征加權系數矩陣,.

FSC模糊聚類的目標函數如下[11]:

文獻[11]給出了上述公式的詳細算法步驟及W、Z和U的迭代公式.

在初始化聚類中心時Z時,采用了基于協(xié)方差矩陣的樣本篩選方法[14].

1.3 基于模糊聚類的PM2.5源成分譜組分選擇模型描述

本文采用聚類正確率作為組分選擇衡量標準.聚類正確率是指被正確劃分樣本占總體樣本的比率,定義為:

其中,numl表示源類l被正確劃分的樣本數,N表示所有源成分譜樣本數目.

對于組分候選集中每一個組分集合ηt,利用文獻[11]樣本篩選方法進行聚類中心初始化,然后根據算法FSC進行模糊聚類,最后計算該ηt下的聚類正確率CAt.最后選取CA數組中最大的值對應的組分候選集作為輸出.

測繪新技術在建筑工程測量中的地位越來越重要，尤其是隨著建筑工程行業(yè)的規(guī)模不斷壯大其重要性越來越突出。但與此同時，傳統(tǒng)的測繪技術因為效率、準確性和可靠性的問題很難再滿足建筑工程發(fā)展的需要。在這種狀況下，越來越多的新的測繪技術不斷涌現對推動測繪事業(yè)的發(fā)展以及提高建筑工程測量的準確度和可靠性起到了重要作用。

算法描述如下:

算法.Dim_Sel algorithm

輸入:PM2.5源成分譜數據集,源類個數k,組分候選集η,模糊加權系數α,一個無窮小參數ε.

輸出:輸出最佳參與擬合組分

第1步:從候選集η選取一個組分集ηt;

第2步:按照文獻[14]樣本篩選算法進行聚類中心初始化;

第3步:按照文獻[11]模糊聚類算法聚類; 第4步:依據公式(3)計算聚類正確率CA ;

第5步:計算出每個閾值對應的CA,找到CA最大值對應的組分候選集輸出.

2 方法驗證與評估

2.1 受體生成方法

為了保證實驗結果的準確性、有效性,實驗所用的PM2.5源成分譜數據是來自于實際監(jiān)測數據,該數據集中,每個樣本包括101個屬性,含有3個源類:SOIL類、COAL類、VEHICLE類,即在進行模糊聚類時源類個數k設定為3.實驗所用源解析工具是美國環(huán)保EPA-CMB8.2[15]受體模型軟件.受體生成方法參考相關文獻,從PM2.5源成分譜3種源類中隨機選取3個樣本,再按照隨機設定的貢獻度生成一條受體.實驗時,隨機生成30條受體數據,對所有組分候選集進行驗證,進而證明本文提出的組分選擇的方法可行性.

2.2 擬合結果衡量方法

CMB軟件擬合得出的各個源類的貢獻度需與真實貢獻度進行比較,本文采用相似度系數及平均絕對誤差AAE[16]進行衡量.相似度系數包括夾角余弦和相關系數.

夾角余弦函數忽略兩數據點(向量)之間的絕對長度而考慮其在方向上的相互關系,擬合貢獻度與真實貢獻度越相近,其值越大.

相關系數是關于向量標準差的夾角余弦,它表示兩個向量線性相關的程度,若兩個向量越相近,其值越大.

通過計算擬合貢獻值和真實貢獻度的平均絕對誤差(AAE)來表示擬合值和真實值的平均差異,若AAE的值較低,表明擬合值和真實值較接近.本文通過上述3種衡量標準,對算法Dim_sel驗證.

2.3 聚類正確率與組分選擇的關系驗證

圖2為閾值集η與聚類正確率CA關系,其中,橫坐標表示閾值集η,縱坐標表示聚類正確率.從圖2可知第11組組分候選集相對應的聚類正確率最高,約為84%.

圖2 聚類正確率變化Fig.2 Variation of CA

圖3、圖4、圖5中分別為采用相似系數、夾角余弦及平均絕對誤差對擬合結果進行評估的折線圖,橫坐標代表組分候選集η,縱坐標分別為30條受體擬合結果與真實貢獻度的相似系數、夾角余弦及平均絕對誤差的平均值大小.圖3與圖4的走勢和圖2的走勢近乎一致,圖5的走勢和圖2的走勢幾乎相反,表明選擇聚類正確率較高的點對應的組分候選集進行CMB擬合,其擬合正確率較高,說明了將聚類正確率作為擬合組分選擇標準的有效性.

圖3 相似系數衡量擬合結果變化Fig.3 Evaluation of fitting results by similarity factor

圖4 夾角余弦衡量擬合擬合結果變化Fig.4 Evaluation of fitting results by angle cosine

圖5 平均絕對誤差衡量擬合結果變化Fig.5 Evaluation of fitting results by AAE

2.4 參與擬合最佳組分與盲選法對比試驗

圖6為候選集組分個數與聚類正確率對應關系圖,從圖中可知聚類正確率最高點對應的參與擬合組分是16個,其中包含了Al、Si、OC、EC等3種源類的標識性組分,也是擬合過程中人工經驗篩選的必選組分,也包含了Ca、K、Cr、Fe等主要組分[2,5,7].

圖6 候選集組分個數與聚類正確率Fig.6 The number of components corresponding to CA

本文設計了兩組實驗進行對比:對于實驗隨機生成的30條受體,一組選取聚類正確率最高點對應的16個組分進行擬合;另一組采用k折交叉驗證思想,對20次手動盲選選取組分進行擬合,其中選取組分中均含三種源類常用的擬合組分Al,Si,OC,EC等.手動盲選實驗中即包含隨機選取組分,又包含三種源類的常用組分,使對比實驗結果更加客觀與穩(wěn)定.

圖7為利用AAE對20次手動盲選實驗的擬合結果進行衡量,橫坐標表示受體ID,縱坐標表示AAE.三條線分別對應20次手動盲選實驗中每個受體擬合結果的AAE的平均值,最大值及最小值.從圖7可知:最大值線和最小值線之間的浮動較大,說明采用手動盲選組分選擇方法得到的擬合結果較為隨機且常出現無法得到擬合結果的情況;平均值線與最小值線浮動較小,說明平均值線可較好體現手動盲選實驗的擬合結果.

圖8為利用AAE對盲選及算法選組分擬合所得到的結果進行衡量對比折線圖.橫坐標代表受體ID,縱坐標是AAE,即30條受體擬合結果與真實貢獻度之間的平均絕對誤差,其值越小表示擬合結果越精確.采用聚類正確率最高的16個組分所得擬合結果的AAE均遠低于20次手動盲選擬合結果AAE的平均值,再次表明采用本文算法模型選取的組分所得擬合結果較大程度上優(yōu)于隨機選取組分所得擬合結果,并且一定程度上減少了擬合實驗的次數,同時減少了PM2.5源解析過程中的工作量.

圖7 AEE衡量盲選擬合結果Fig.7 Evaluation of Random selection fitting results by AEE

圖8 AEE衡量擬合結果對比Fig.8 Fitting results contrast based on the AEE

圖9 COAL源擬合結果對比Fig.9 The comparison diagram of COAL fitting results

圖9、圖10、圖11分別表示源類COAL、SOIL、VEHICLE的算法選及隨機手選的擬合結果與真實貢獻度的比較.橫坐標表示受體ID,縱坐標表示擬合結果減去真實貢獻度的差值的絕對值.觀察得知,手動盲選對應的86%以上的受體的擬合結果與真實貢獻度的誤差絕對值均遠高于算法選所對應的誤差絕對值,即采用隨機手選的組分較難得到精確度較高的CMB擬合結果.

圖10 SOIL源擬合誤差對比圖Fig.10 The comparison diagram of SOIL fitting results

圖11 VEHICLE源擬合結果Fig.11 The comparison diagram of VEHICLE fitting results

采用算法選組分進行CMB擬合,所得3種源類的擬合結果絕對誤差值范圍在(0～0.05)之內的比例達到83%,但采用手動盲選組分進行擬合的比例僅為40%,即采用本文提出的組分選擇模型篩選的組分參與的擬合效果與真實貢獻度的誤差較小,而手動盲選的擬合結果則和真實貢獻度曲線誤差較大,進一步表明了算法模型的有效性.

3 結論

本文提出了一種基于模糊聚類的PM2.5擬合組分選擇模型,通過選取聚類正確率較高的值所對應的組分來進行CMB擬合.實驗結果表明,采用本文提出的PM2.5擬合組分選擇方法,有86%的受體所得擬合結果優(yōu)于手動盲選所得擬合結果,其誤差范圍在0～0.05之間的比例由40%提升到83%,在一定程度上提高了PM2.5源成分譜CMB擬合結果的精確度.

參考文獻：

[1] 大氣污染防治行動計劃 [J].中國環(huán)保產業(yè), 2013,(10):4-9.

[2] Shi G L, Tian Y Z, Zhang Y F, et al.Estimation of the concentrations of primary and secondary organic carbon in ambient particulate matter: Application of the CMB-Iteration method [J].Atmospheric Environment, 2011,45(32):5692-5698.

[3] 朱坦,吳琳,畢曉輝,等.大氣顆粒物源解析受體模型優(yōu)化技術研究 [J].中國環(huán)境科學, 2010,30(7):865-870.

[4] 胡珊,張遠航,魏永杰.珠江三角洲大氣細顆粒物的致癌風險及源解析 [J].中國環(huán)境科學, 2010,30(11):1202-1208.

[5] 馮銀廠,彭林,吳建會,等.烏魯木齊市環(huán)境空氣中TSP和P M10來源解析 [J].中國環(huán)境科學, 2005,25(S1):30-33.

[6] 鄒長武,印紅玲,劉盛余,等.大氣顆粒物混合塵溯源解析新方法[J].中國環(huán)境科學, 2011,31(6):881-885.

[7] 馮銀廠.關于化學質量平衡(CMB)受體模型應用中若干技術問題的研究 [D].天津:南開大學, 2002.

[8] Scott D W.Multivariate density estimation: theory, practice, and visualization [M].Wiley.com, 2009.

[9] Müller E, Günnemann S, Assent I, et al.Evaluating clustering in subspace projections of high dimensional data [J].Proceedings of the VLDB Endowment, 2009,2(1):1270-1281.

[10] Parsons L, Haque E, Liu H.Subspace clustering for high dimensional data: a review [J].ACM SIGKDD Explorations Newsletter, 2004,6(1):90-105.

[11] Gan G, Wu J.A convergence theorem for the fuzzy subspace clustering (FSC) algorithm [J].Pattern Recognition, 2008,41(6): 1939–1947.

[12] Deng Z, Choi K S, Chung F L, et al.Enhanced soft subspace clustering integrating within-cluster and between-cluster information [J].Pattern Recognition, 2010,43(3):767–781.

[13] Jing L, Ng M K, Huang J Z.An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data [J].IEEE Transactions on Knowledge & Data Engineering, 2007,19(8):1026-1041.

[14] 徐恒鵬.基于智能信息處理的PM2.5源解析問題的研究 [D].天津:南開大學, 2014.

[15] Habre R, Coull B, Koutrakis P.Impact of source collinearity in simulated PM2.5data on the PMF receptor model solution [J].Atmospheric Environment, 2011,45(38):6938-6946.

[16] Christensen W F, Gunst R F.Measurement error models in chemical mass balance analysis of air quality data [J].Atmospheric Environment, 2004,38(5):733–744.

The fitting component selection model of PM2.5based on fuzzy clustering.

XU Heng-peng1,2, LI Yue1,2, SHI Guo-liang3, WANG Wei1,2*, XUAN Shu-yan4(1.College of Computer and Control Engineering, NanKai University, Tianjin 300071, China；2.College of Software, NanKai University, Tianjin 300071, China；3.State Environmental Protection Key Laboratory of Urban Ambient Air Particulate Matter Pollution Prevention and Control, College of Environmental Science and Engineering, NanKai University, Tianjin 300071, China；4.Yutian Environmental Protection Agency, Tangshan 064199, China).China Environmental Science, 2016,36(1)：12～17

Abstract：In current research, there is a lack of uniform standards for components selection in PM2.5source profile apportionment.Researchers tend to choose the component manually and empirically, leading to a subsequent poor fitting result, or even failures.Concerning on this problem, this paper has proposed an innovative component selection model of PM2.5source profiles apportionment.On the basis of the physical representative of each component, the proposed model calculates the accuracy of fuzzy clustering as the standard score for selection.The experiments prove that our model outperforms the traditional empirical models.The successful rate for fitting, measured by the fitting errors in 0 to 0.05, grows to 83% by implementing our model, in contrast to rate of 40% from the traditional selection model.

Key words：PM2.5source profile；components selection；CMB receptor model；source apportionment；fuzzy clustering

中圖分類號：X513

文獻標識碼：A

文章編號：1000-6923(2016)01-0012-06

收稿日期：2015-06-01

作者簡介：徐恒鵬(1988-),男,山東臨沂人,在讀博士,主要從事PM2.5源成分譜擬合模型研究.發(fā)表論文1篇.