崔 嵩,李一凡,2,馬萬里,田崇國,賈宏亮,張 志,齊 虹,劉麗艷
(1.哈爾濱工業(yè)大學城市水資源與水環(huán)境國家重點實驗室國際持久性有毒物質(zhì)聯(lián)合研究中心,150090 哈爾濱,cuisong-bq@163.com;2.加拿大環(huán)境部科學技術局,M3H 5T4 加拿大多倫多;3.中國科學院煙臺海岸帶研究所,264003 山東煙臺;4.大連海事大學國際持久性有毒物質(zhì)聯(lián)合研究中心,116023 遼寧大連)
哈爾濱大氣中多環(huán)芳烴污染的FCM聚類算法
崔 嵩1,李一凡1,2,馬萬里1,田崇國3,賈宏亮4,張 志1,齊 虹1,劉麗艷1
(1.哈爾濱工業(yè)大學城市水資源與水環(huán)境國家重點實驗室國際持久性有毒物質(zhì)聯(lián)合研究中心,150090 哈爾濱,cuisong-bq@163.com;2.加拿大環(huán)境部科學技術局,M3H 5T4 加拿大多倫多;3.中國科學院煙臺海岸帶研究所,264003 山東煙臺;4.大連海事大學國際持久性有毒物質(zhì)聯(lián)合研究中心,116023 遼寧大連)
為提高環(huán)境中持久性有毒物質(zhì)殘留水平的分析能力,以2007年1~4月哈爾濱市4個不同功能區(qū)域(市區(qū)—郊區(qū)—農(nóng)村—偏遠地區(qū))的大氣中多環(huán)芳烴(PAHs)的監(jiān)測質(zhì)量濃度為數(shù)據(jù)樣本,運用模糊C均值聚類算法作為樣本聚類的方法,研究該地區(qū)2007年春季大氣中PAHs的分布特征,并得到不同樣本的聚類中心以及樣本的隸屬度矩陣,為樣本的特征分析提供量化依據(jù).分類結果發(fā)現(xiàn):城市工業(yè)區(qū)的污染狀況最為嚴重,農(nóng)村地區(qū)和介于市區(qū)和工業(yè)區(qū)的居民區(qū)的區(qū)域次之,而遠離污染源的市內(nèi)居民區(qū)、城市上風向和偏遠地區(qū)污染較輕.分析結果表明,哈爾濱市區(qū)大氣中PAHs主要來自于燃煤和工業(yè)排放,農(nóng)村大氣中的PAHs主要來自于農(nóng)作物秸稈的燃燒.市區(qū)和農(nóng)村地區(qū)大氣中PAHs對于人類的健康存在較大潛在威脅.
哈爾濱;大氣;多換芳烴;模糊C均值聚類
多環(huán)芳烴(PAHs)作為環(huán)境中一種廣泛存在的持久性有毒物質(zhì)(PTSs),具有致癌性、生物富集性和長距離遷移特性,并且有些PAHs還具有致癌、致畸及致突變等“三致”效應.在眾多污染源中,垃圾焚燒、煤的燃燒、煉油廠、焦化廠以及汽車等機動車輛尾氣的排放是 PAHs的主要來源[1].PAHs存在于大氣、土壤、植物和水體等環(huán)境介質(zhì)中,可以通過皮膚接觸、呼吸作用及食物鏈進入人體,對人體造成潛在的危害,因此,開展PAHs的研究對環(huán)境影響評價具有重要意義[2-4].
聚類分析就是將所研究的數(shù)據(jù)對象,根據(jù)其相似性分組成多個簇或類,使其在同一簇中組分之間的相似度較高,而在不同簇中的組分差別則較大[5].模糊聚類算法與硬聚類(每一元素只能歸屬于某一類)算法相比較而言,在作樣本分析時能夠很好地體現(xiàn)樣本特征,同時模糊聚類引入了隸屬度的概念,能夠更好地給出樣本分屬于各類的隸屬度,從而為制定相關的決策提供有價值的參考依據(jù).在模糊 C均值(Fuzzy C-Means,F(xiàn)CM)聚類算法中,每一個數(shù)據(jù)點都按照一定的隸屬度隸屬于某一聚類中心.這一聚類技術,首先由Dunn于1974年提出,并由Jim Bezdek于1981年改進[6].該方法提供了一種如何將多維空間分布的數(shù)據(jù)點分組成特定數(shù)目群的途徑,并且該方法首先隨機選取若干聚類中心,所有數(shù)據(jù)點都被賦予對聚類中心一定的模糊隸屬度,然后通過迭代方法不斷修正聚類中心,迭代過程中以極小化所有數(shù)據(jù)點到各個聚類中心的距離與隸屬度值的加權和為優(yōu)化目標[7].在實際應用中,由于模糊 C均值聚類算法是基于距離的算法,這就使得聚類結果可能會受到數(shù)據(jù)集中孤立點的影響.目前,F(xiàn)CM已應用于多種領域,如醫(yī)學診斷、目標識別、沉積物污染特征、巖石分類、顧客關系管理[8]等,但該方法用于環(huán)境影響評價的報道很少.本文采用模糊C均值聚類算法,以2007年春季哈爾濱大氣氣相中16種PAHs為屬性指標,在技術上對不同功能區(qū)進行了聚類,并對聚類結果進行了分析,以期能夠更好地研究該地區(qū)大氣中PAHs的分布特征,為進一步研究PAHs污染所造成的區(qū)域性環(huán)境污染評價進行初探,為環(huán)境保護部門制定相應的決策提供科學依據(jù).
本文將模糊C均值聚類算法應用于區(qū)域性環(huán)境污染評價,其基本原理為:首先假設聚類目標X={x1,x2,…,xn}∈ Rs是存在于一個 s維實數(shù)空間Rs中的有限樣本數(shù)據(jù)集,n表示樣本數(shù)據(jù)集中的元素個數(shù),本研究中樣本數(shù)據(jù)集為8個,每個樣本數(shù)據(jù)集中的元素個數(shù)為16個,即不同的采樣點所監(jiān)測到的大氣中多環(huán)芳烴的種類.設ci為FCM聚類算法把樣本數(shù)據(jù)聚為c個模糊類時,每一個類i相應的聚類中心,dij=||ci-xi||為歐幾里得距離,表示為ci中的第i個聚類中心與第j個數(shù)據(jù)點間的距離,m∈[1,∞)為加權指數(shù),U={uij}為隸屬度,是一個c×n維的矩陣,且它們須:
FCM聚類算法的基本過程就是求在約束條件式(1)成立的情況下,式(2)取最小值時的數(shù)值解.式(1)表示樣本中每個元素屬于各類的隸屬度之和為1;式(2)則表示判定距離之和的目標函數(shù).該算法的特點是,類數(shù)c需要事先給出才能進行下一步運算[9-10].
FCM聚類算法的具體運算步驟如下:1)給出擬定的分類數(shù)c和相應的加權指數(shù)m;2)初始化隸屬矩陣U,用值在[0,1]區(qū)間的隨機數(shù)進行初始化,同時使其滿足約束條件(1);3)計算相應的c個聚類中心ci,i=1,…c;4)計算目標函數(shù)(2),如果某個給定的閾值大于J值,或者J值的改變量相對于上一次仍小于某個閾值時,則停止運算;否則重新計算隸屬矩陣U,并返回上一步驟.
聚類有效性的判別是對聚類結果客觀合理性的驗證,應用MATLAB7.1提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數(shù)可以很好地對樣本數(shù)據(jù)進行聚類,此時,只需要輸入樣本所分的類數(shù)c,即初始變量,就可以得出相應的結果.但是,有關初始變量c值的給定,在某種程度上存在一定的主觀性,因為c值的不同會導致不同的聚類結果,即使在同一c值的情況下,也可能產(chǎn)生不同的結果.這是由于算法結果本身過分地依賴于初始給定值,而初始值的給定在具體的計算過程中又是隨機的,有時也會不可避免地造成局部最優(yōu)而并非能夠達到全局最優(yōu)[11-13],而這就可能導致計算結果對真實情況產(chǎn)生偏差,此時,就需要考慮聚類的有效性問題.而聚類的有效性問題一般可以通過建立有效性函數(shù)的方法來加以解決.這種函數(shù)通常用于衡量聚類的分離度和緊密度,并以此來判定聚類的有效性.1991年由XIE,X L和BENI,G共同提出的模糊聚類有效性函數(shù),可以很好地解決這個問題,具體判別如下:
其中:c為所劃分的類數(shù),n為所采集數(shù)據(jù)點的個數(shù),Vi為第i類的聚類中心,Vk為第k類的聚類中心,μik(i=1,2,…,c;k=1,2,…,n)為第k個點屬于第i類的模糊隸屬度,‖Vi-Vk‖2表示第i個聚類中心和第j個聚類中心之間的距離最小值,用來衡量類間的分離度;表示每一點到其相應聚類中心的平均偏差和,用來衡量每一類的緊密度.通常一個好的聚類結果應該是,具有相同特征的數(shù)據(jù)點盡可能地劃分為同一類,具有不同特征的數(shù)據(jù)點盡可能地劃分為不同的類別,即S值越大,表明所有的聚類都是分離的,S越小,表明所有聚類緊密且相互獨立,聚類效果越好.
根據(jù)大量研究和使用經(jīng)驗,以及相關理論依據(jù)給出[14],通常 c的范圍在[2],通過計算c在其取值范圍2≤c≤內(nèi),每個整數(shù)c所對應的S值,進一步比較取不同c值所對應的S值,當S值達到最小時所對應的c值即為所求的聚類數(shù),此時,所取的類數(shù)c獲得聚類的效果最好,且符合客觀實際,從而減少計算可能導致的結果偏差.
選擇哈爾濱地區(qū)為研究區(qū)域,大氣樣品的采集、16種PAHs的分析等詳見文獻[1].2007年春季(從1月末至4月末),在哈爾濱地區(qū),根據(jù)不同功能區(qū)特點,系統(tǒng)布設市區(qū)3個(UR)、郊區(qū)1個(SU)、農(nóng)村3個(RU)和偏遠地區(qū)1個(BA)等8個采樣點,利用聚氨酯泡沫材料(PUF)被動采樣器進行大氣樣品的采集,采樣時間從放置被動采樣器至樣品取回,為一次監(jiān)測并按監(jiān)測天數(shù)取平均值,樣品的分析以及PAHs質(zhì)量濃度數(shù)據(jù)的獲得均在哈爾濱工業(yè)大學國際持久性有毒物質(zhì)聯(lián)合研究中心(IJRC-PTS)實驗室進行.有關研究表明,應用PUF被動采樣器進行污染物大氣質(zhì)量濃度的監(jiān)測,能夠獲得大氣中污染物的準確質(zhì)量濃度,但是也受很多客觀因素的影響,其中采集氣體的體積為主要影響因素,采樣體積一般可以通過采樣速率和采樣時間計算得出.大量的研究表明,PUF的采樣平均速率通常在 3~4 m3/d[15-16],因 此,假 定 該 地 區(qū) 采 樣 速 率 為3.5 m3/d,從而得到每立方米PAHs的具體質(zhì)量濃度數(shù)值.采樣點分布和詳細情況見文獻[1],哈爾濱市大氣中16種 PAHs的平均質(zhì)量濃度見表1.
表1 哈爾濱市大氣中16種PAHs平均質(zhì)量濃度[1] ng·m-3
1)使用MATLAB7.1中的FCM函數(shù)對以上數(shù)據(jù)進行聚類運算,并進行聚類有效性的判定,得到如下結果:
對聚類有效性函數(shù)(3),確定類數(shù)c.一般地,取經(jīng)驗值m=2,分母權值均為1,由于本文采樣點數(shù)有限,當類數(shù)2≤c≤ 2時,c只能取2,由此得到聚類中心矩陣為
然而當n為3時,得到的聚類中心矩陣為
聚類中心點在各個維的取值均表征了該類的特征,由此可以看出,當n=3時,即分為3類時,特征比較明顯,此時S值也為最小.
2)隸屬度矩陣U.隸屬度矩陣U為一個3×8的矩陣,這表示8個不同功能區(qū)域分別屬于3種類型的隸屬度.由于所劃分的功能區(qū)域即采樣區(qū)域數(shù)目有限,在此任取兩個樣本點作以分析.
從以上兩個樣本可以看出,矩陣U1及U2每一列的和均為1,符合每一樣本的各類隸屬度之和為1的前提.因此,取樣本中每一列的最大值,則最大值所在的行數(shù)就表示該樣本屬于其相應的類型.例如樣本1,其最大值在第3行,所以屬于第3種類型;而樣本2,取其最大值則屬于第2種類型,但從結果中可以分析出,樣本2還兼具有類型3的特征,說明這一樣本有可能處于農(nóng)村地區(qū)并且該地區(qū)介于城市與偏遠地區(qū)之間.
通過以上運算還可具體得到單個樣本所屬類型,如表2所示.
表2 樣本所屬類型
3)聚類結果分析.從聚類結果可以看出,城區(qū)環(huán)境中PAHs的主要來源是人類活動,主要包括煤或石油化工等燃料的不完全燃燒.在本研究中,大氣中PAHs的質(zhì)量濃度最大值出現(xiàn)在UR3,該采樣點處在哈爾濱市內(nèi)的主要工業(yè)區(qū)內(nèi),石油化工、金屬冶煉等工業(yè)源排放及汽車等機動車的尾氣排放,取暖燃煤,可能是導致該采樣點高含量PAHs的原因.其中取暖用煤的不完全燃燒可能是導致該地區(qū)春季大氣中PAHs高質(zhì)量濃度的主要原因,哈爾濱地區(qū)供暖一般在每年的4月中旬結束.本研究中采集時間為1月末~4月末,正好處在冬春季采暖期,市區(qū)供暖燃燒用煤會產(chǎn)生大量PAHs,從而導致大氣中 PAHs質(zhì)量濃度相應增加.
第二類結果,其污染源可能主要來自于農(nóng)村地區(qū)(RU1,RU3)的供暖,東北地區(qū)農(nóng)村冬春兩季大多采用燃燒秸稈和木材取暖以及烹飪,有研究表明,冬季采取煤炭和秸稈等取暖普遍存在于中國北部平原地區(qū)[17].而市區(qū)內(nèi)介于工業(yè)區(qū)和居民區(qū)之間的區(qū)域(UR2)屬于這一類的原因可能是區(qū)域內(nèi)的燃煤供暖及汽車尾氣的排放.
第三類為城市上風向(SU1,RU2)、偏遠地區(qū)(BA1)及遠離污染源的市內(nèi)居民區(qū)(UR1),由于北方冬春兩季受北風的影響以及風力作用會對這些區(qū)域大氣中的PAHs產(chǎn)生稀釋作用,另外市內(nèi)居民區(qū)內(nèi)沒有大量的PAHs排放源如工業(yè)排放、汽車尾氣及燃煤供暖等,所以會導致這些區(qū)域大氣氣相中PAHs的質(zhì)量濃度較低.
1)相對于硬聚類方法,模糊C均值聚類能夠很好地對所研究的不同功能區(qū)域進行聚類,當然,將模糊C均值聚類算法用于不同功能區(qū)域樣本特征進行聚類還存在尚待解決的問題.基于距離的模糊c均值聚類算法,由于樣本點較少或存在孤立點可能會影響到聚類的效果,另外,該算法所存在的局限性在于,算法本身需要事先給出所需聚類的類數(shù)即參數(shù)c,這就會導致算法結果對這個參數(shù)十分敏感,c取值的不同,聚類的結果也會截然不同,因此,對于使用者來說,這個算法還需要根據(jù)實際情況加以判斷.而聚類有效性函數(shù)的搜索范圍在其他文獻的研究中能夠起到很好的效果,在本文中卻并不適用,可能是由于本文樣本點較少所導致.然而本文的實際聚類效果卻比較理想.
2)市區(qū)工業(yè)區(qū)內(nèi)的受污染程度最大,而上風向和偏遠地區(qū)的污染相對較小.由于本文的研究范圍為冬春季,分類結果也可對我國北方同時期不同功能區(qū)域大氣污染分布特征的研究起到借鑒意義.另外,分類結果也表明,市區(qū)工業(yè)區(qū)和農(nóng)村地區(qū)由于季節(jié)性燃煤和秸稈的燃燒導致PAHs在大氣中的質(zhì)量濃度增多,對人類的健康可能存在較大的潛在威脅,這也可為進一步對人類健康風險評價的研究起到一定的參考作用.
[1]馬萬里,李一凡,孫德智,等.哈爾濱市大氣氣相中多環(huán)芳烴的研究[J].環(huán)境科學,2009,30(11):49-54.
[2]WANG X P,XU B Q,KANG S C,et al.The historical residue trends of DDT,hexachlorocyclohexanes and polycyclic aromatic hydrocarbons in an ice core from Mt.Everest,central Himalayas,China[J].Atmos Environ,2008,42(27):6699-6709.
[3]HUNG H,BLANCHARD T P,HALSALL C J,et al.Temporal and spatial variabilities of atmospheric polychlorinated biphenyls(PCBs),organochlorine(OC)pesticides and polycyclic aromatic hydrocarbons(PAHs)in the Canadian Arctic:results from a decade of monitoring[J].Sci Total Environ,2005,342(1/3):119-144.
[4]SIMCIK M F,EISENREICH S J,LIO Y P J.Source apportionment and source/sink relationships of Polycyclic Aromatic Hydrocarbons(PAHs)in the coastal atmosphere of Chicago and Lake Michigan[J].Atmos Environ,1999,33(30):5071-5079.
[5]HSU T H.An application of fuzzy clustering in grouppositioning analysis[J].Proc Natl Sci,Counc ROC(C),2000,10(2):157 -167.
[6]MICHALOPOULOS M,DOUNIAS G D,THOMAIDIS N T.Decision making using fuzzy C-means and inductive machine learning for managing bank branches performance [EB/OL]. http://citeseer. nj. nec. com/458829,html,2002.
[7]吳曉莉,林哲輝.MATLAB輔助模糊系統(tǒng)設計[M].西安:西安電子科技大學出版社,2002:158-159.
[8]梁靜國,張亞光,戈華.CRM中的模糊C均值(FCM)客戶聚類算法研究[J].哈爾濱工程大學學報,2004,25(2):257-260.
[9]XIE X L,BENI G.A validity measure for fuzzy clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1991,13(8):841 -847.
[10]HAN J,MICHELINE K.數(shù)據(jù)挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2001:126-128.
[11]張智星,張春在,[日]水谷英二.神經(jīng)-模糊和軟計算[M].西安:西安交通大學出版社,2000:93-97.
[12]劉小覽,趙英凱,陸金桂.數(shù)據(jù)挖掘中Fuzzy C-means的自適應聚類算法[J].南京化工大學學報:自然科學版,2001,23(5):23 -25.
[13]吳成茂,范九倫.基于數(shù)據(jù)劃分最大信息的聚類有效性函數(shù)[J].西安電子科技大學學報:自然科學版,2001,28(6):781 -784.
[14]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國科學:E 輯,2002,32(2):274-280.
[15]ZHANG Z,LIU L,LI Y F,et al.Analysis of polychlorinated biphenyls in concurrently sampled Chinese air and surface soil[J].Environ Sci Technol,2008,42(17):6514-6518.
[16]SHOEIB M,HARNER T.Characterization and comparison of three passive air samplers for persistent organic pollutants[J].Environ Sci Technol,2002,36(19):4142-4151.
[17]LIU S Z,TAO S,LIU W X,et al.Atmospheric polycyclic aromatic hydrocarbons in north China:a wintertime study[J].Environ Sci Technol,2007,41(24):8256-8261.
Source identification and spatial characterization of polycyclic aromatic hydrocarbons in Harbin air by using fuzzy C-means clustering algorithm
CUI Song1,LI Yi-fan1,2,MA Wan-li1,TIAN Chong-guo3,JIA Hong-liang4,ZHANG Zhi1,QI Hong1,LIU Li-yan1
(1.International Joint Research Center for Persistent Toxic Substances,State Key Laboratory of Urban Water Resource and Environment,Harbin Institute of Technology,150090 Harbin,China,cuisong - bq@163.com;2.Science and Technology Branch,Environment Canada,M3H 5T4,Toronto,Ontario Canada;3.Yantai Institute of Coastal Ione Research,Chinese Academy of Sciences,264003 Yantai,Shandong,China;4.International Joint Research Center for Persistent Toxic Substances,Dalian Maritime University,116023 Dalian,Liaoning,China)
To improve the analysis ability of residue levels of persistent toxic substances(PTS)in environment,this paper investigated the distribution characteristics of air concentrations of polycyclic aromatic hydrocarbons(PAHs)during the Spring of 2007(January to April)in 4 different functional areas(urban,suburban,rural,and remote areas)in and near the Harbin metropolitan by using the fuzzy C -means clustering algorithm,and got the cluster centers of different samples and a membership matrix which offered quantity foundation for analysis of samples description.Results showed that the contamination level in the urban industrial area was the highest,followed by those in the other urban places and rural area,and the contamination levels in the remote area and in the places on the windward were the lowest.PAHs in Harbin urban atmospheric were mainly from coal- burning and industrial emissions,those in rural areas were mainly from the burning of crop stalks.PAHs in air in this region have imposed a potential threat on human health.
Harbin;air;polycyclic aromatic hydrocarbons;fuzzy C-means clustering algorithm
X823
A
0367-6234(2011)08-0065-05
2009-12-28.
城市水資源與水環(huán)境國家重點實驗室自主課題項目(2008DX01).
崔 嵩(1981—),男,博士研究生;
李一凡(1949—),男,教授,博士生導師.
(編輯 劉 彤)