陳嵩,張鋼
(1.國(guó)家海洋局天津海水淡化與綜合利用研究所 天津 300192;2.天津大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300072)
海水水質(zhì)監(jiān)測(cè)使用統(tǒng)一的、可比的采樣和檢測(cè)手段,獲取海水質(zhì)量要素,判斷海水元素含量比例,為保護(hù)海洋環(huán)境提供一定幫助(袁道偉等,2011)。據(jù)《2012年中國(guó)海洋環(huán)境狀況公報(bào)》,我國(guó)海域海水環(huán)境狀況總體較好,符合第一類海水水質(zhì)標(biāo)準(zhǔn)的海域面積約占我國(guó)管轄海域面積的94%;近岸以外海域水質(zhì)總體良好并保持穩(wěn)定;沉積物質(zhì)量狀況總體良好,96%以上站位符合第一類海水沉積物質(zhì)量標(biāo)準(zhǔn)。部分近岸海域污染依然嚴(yán)重,未達(dá)到第一類海水水質(zhì)標(biāo)準(zhǔn)的海域面積為17萬(wàn)km2,高于2007-2011年15萬(wàn)km2的平均水平。海水水質(zhì)為劣四類的近岸海域面積約為6.8萬(wàn)km2,較上年增加了2.4萬(wàn)km2,嚴(yán)重污染區(qū)域主要分布于大中型河口、海灣和部分大中城市近岸海域,主要超標(biāo)物質(zhì)是無(wú)機(jī)氮、活性磷酸鹽和石油類。近岸約1.9萬(wàn)km2的海域呈重度富營(yíng)養(yǎng)化狀態(tài)。
近幾年來(lái),國(guó)家對(duì)海水水質(zhì)監(jiān)測(cè)也是在不斷地增加投入,擴(kuò)大海水監(jiān)測(cè)規(guī)模(呂建華 等,2012),為全面掌握我國(guó)管轄海域水質(zhì)狀況,2012年,國(guó)家海洋局組織各級(jí)海洋行政主管部門(mén)對(duì)我國(guó)管轄海域水質(zhì)實(shí)施監(jiān)測(cè),各級(jí)監(jiān)測(cè)機(jī)構(gòu)共完成約8 400個(gè)站位的監(jiān)測(cè)工作,獲得各類海水監(jiān)測(cè)數(shù)據(jù)240余萬(wàn)個(gè)。
海水水質(zhì)監(jiān)測(cè)系統(tǒng)是一個(gè)集數(shù)據(jù)采集、無(wú)線傳輸、監(jiān)測(cè)中心分析與顯示的綜合系統(tǒng)(宗榮發(fā)等,2011)。數(shù)據(jù)采集系統(tǒng)主要采用嵌入式技術(shù)將海水水質(zhì)數(shù)據(jù)進(jìn)行采集,無(wú)線傳輸主要是3G或者GPRS傳輸模式,監(jiān)測(cè)中心將收到的數(shù)據(jù)通過(guò)數(shù)據(jù)預(yù)處理與聚類分析,判斷數(shù)據(jù)的有效性并根據(jù)聚類分析結(jié)果提出預(yù)警或者解決方案,同時(shí)將監(jiān)測(cè)結(jié)果在實(shí)時(shí)顯示。海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)項(xiàng)多,而且反饋次數(shù)多,因此,在一定時(shí)間內(nèi),海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)量將積累到一定程度,在海量的數(shù)據(jù)中挖掘出有效的預(yù)警信息具有一定難度,本文研究正是建立在此背景下,通過(guò)數(shù)據(jù)挖掘的方法對(duì)海水水質(zhì)數(shù)據(jù)進(jìn)行分析,以便更好地在紛繁的數(shù)據(jù)中提取有價(jià)值的信息。
模糊聚類特別適用于對(duì)大規(guī)模數(shù)據(jù)分析,用模糊理論完成數(shù)據(jù)分析和建模,其中模糊C均值聚類算法(FCM)能夠?qū)崿F(xiàn)自動(dòng)對(duì)數(shù)據(jù)樣本進(jìn)行分類,應(yīng)用最廣泛。而考慮到FCM的應(yīng)用對(duì)象必須是完整的數(shù)據(jù)樣本,適用條件苛刻,本文針對(duì)這一不足,對(duì)該算法進(jìn)行適當(dāng)改進(jìn),提出基于不完整數(shù)據(jù)樣本的FCM算法,該算法的適用條件相對(duì)寬泛,而且具有效率高的優(yōu)點(diǎn),本文詳細(xì)分析了不完整數(shù)據(jù)樣本的FCM算法,并運(yùn)用該算法實(shí)現(xiàn)對(duì)赤潮的聚類分析,這將為赤潮預(yù)警提供一定的幫助。
海水水質(zhì)監(jiān)測(cè)主要是對(duì)海水的溫度、鹽度、PH值、溶解氧、氮、磷、鉀、氨等元素含量進(jìn)行監(jiān)測(cè),在入??谶€要對(duì)工業(yè)元素進(jìn)行抽樣檢測(cè),確定入??诘呐盼凼欠衲軌蜻_(dá)到海水環(huán)境質(zhì)量要求(董超群等,2011)。海水水質(zhì)數(shù)據(jù)項(xiàng)多且復(fù)雜,難以根據(jù)某一項(xiàng)元素來(lái)判斷海水的質(zhì)量,因此必須對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行一定的聚類與關(guān)聯(lián)分析,判斷所有元素項(xiàng)影響下的環(huán)境特征。監(jiān)測(cè)海水水質(zhì)的某一項(xiàng)因素并不能說(shuō)明具體問(wèn)題,而多項(xiàng)海水水質(zhì)數(shù)據(jù)需要經(jīng)過(guò)聚類分析來(lái)對(duì)海水水質(zhì)問(wèn)題進(jìn)行定性分析,分類算法可以確定水質(zhì)的優(yōu)良等級(jí),而聚類算法則是將海洋水質(zhì)監(jiān)測(cè)的多項(xiàng)數(shù)據(jù)進(jìn)行聚類,由聚類結(jié)果判定當(dāng)前水質(zhì)的情況,比如赤潮。
從整個(gè)海水水質(zhì)數(shù)據(jù)監(jiān)測(cè)系統(tǒng)來(lái)說(shuō),主要包括數(shù)據(jù)監(jiān)測(cè)系統(tǒng)、無(wú)線通信系統(tǒng)和監(jiān)測(cè)中心數(shù)據(jù)分析系統(tǒng)(李超等,2011),本文主要對(duì)監(jiān)測(cè)中心數(shù)據(jù)分析系統(tǒng)做簡(jiǎn)要介紹,具體如圖1所示。
圖1 海水水質(zhì)監(jiān)測(cè)結(jié)構(gòu)圖
數(shù)據(jù)采集設(shè)備將海水元素進(jìn)行監(jiān)測(cè)得到數(shù)據(jù),然后將數(shù)據(jù)、監(jiān)測(cè)地的GPS數(shù)據(jù)和監(jiān)測(cè)地屬性數(shù)據(jù)一同以無(wú)線的方式傳給監(jiān)測(cè)中心,監(jiān)測(cè)中心獲得監(jiān)測(cè)地的海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)后,結(jié)合聚類分析及專家系統(tǒng),并將分析結(jié)果以多媒體、報(bào)表、圖標(biāo)或繪圖的方式進(jìn)行輸出。本文將著重對(duì)海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)的聚類分析進(jìn)行研究,旨在提高海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)的聚類效果。
設(shè)監(jiān)測(cè)樣本集合X={x1,x2,…xn}?Rs。為模式空間中n個(gè)模式的一組有限樣本集,其中xk={xk1,xk2,…xks}T∈Rs為其中的一個(gè)數(shù)據(jù)樣本,xkj為樣本xk的第j個(gè)指標(biāo)的監(jiān)測(cè)值(王偉等,2012)。
樣本xk與子集 {xi}(1≤i≤c)的隸屬關(guān)系用uik=uxi(xik)(uik∈[0,1]來(lái)表示,為了記錄多個(gè)子集的隸屬函數(shù),采用矩陣的方式來(lái)完成,記作。U=[uik]c×nX的模糊C劃分空間Mfc:
其中聚類原型模式P={p1,p2,…pc},pi(i=1,2,…c)表示第i類的類中心,pi∈RsFCM算法的計(jì)算過(guò)程是在保證目標(biāo)函數(shù)Jm最小的同時(shí),求解劃分矩陣U=[uik]c×n與聚類原型P={p1,p2,…,pc}的過(guò)程(樊東紅等,2012;楊靜等,2011)。Jm的計(jì)算表達(dá)式為:
迭代規(guī)則公式如下:
FCM算法的具體流程圖如圖2所示。
圖2 FCM算法流程圖
其中n表示樣本個(gè)數(shù),ε為迭代停止閾值。從算法流程圖明顯可知,整個(gè)算法的時(shí)間復(fù)雜度主要集中在劃分矩陣和聚類原型模式矩陣的求解,歸根結(jié)底,影響算法效率的因素是樣本個(gè)數(shù)n,n的個(gè)數(shù)影響劃分矩陣和聚類原型模式矩陣求解的效率。
傳統(tǒng)的FCM聚類算法是對(duì)完整數(shù)據(jù)樣本進(jìn)行聚類分析,即 X={x1,x2, …xn} ?Rs,xk={xk1,xk2,…xks}T∈Rs,xk(k=1,2,…,n) 的每一維特征都有一個(gè)確定的取值。但是對(duì)于實(shí)際應(yīng)用而言,一般樣本的數(shù)據(jù)量很大,且要保證整個(gè)數(shù)據(jù)庫(kù)的完整具有一定難度,而且可用的樣本可能也會(huì)有丟失值。在這種情況下,就無(wú)法直接使用傳統(tǒng)FCM聚類算法對(duì)數(shù)據(jù)樣本進(jìn)行聚類分析。而且上節(jié)也提到,樣本個(gè)數(shù)n會(huì)影響算法效率,當(dāng)樣本個(gè)數(shù)較大時(shí),F(xiàn)CM的算法的效率會(huì)下降,是需要改進(jìn)的地方?;诓煌暾麛?shù)據(jù)樣本集合的模糊C均值聚類算法,它是對(duì)傳統(tǒng)FCM聚類算法的一種改進(jìn),既解決了樣本丟失的不完整數(shù)據(jù)樣本的模糊聚類,又在一定程度上提高了聚類算法的效率。
上一小節(jié)提出了傳統(tǒng)FCM的缺點(diǎn),對(duì)樣本的完整度要求高,縮減了FCM算法的適用范圍,當(dāng)前對(duì)不完整樣本的聚類處理,主要是丟棄不完整樣本集,這種方法的精確度低,本文對(duì)傳統(tǒng)FCM算法進(jìn)行改進(jìn),較好地滿足了不完整樣本集的模糊聚類。
定義一 不完整數(shù)據(jù)樣本集合為XA={x1,x2,…xn}?Rs,xk=(xk1,xk2,…xks)∈Rs。樣本集合XA的子集 XW和 XP,其中 XW={xk|xk∈XA,1≤i≤n},且xk是一個(gè)完整的數(shù)據(jù)樣本,XP={xi|xi∈XA,1≤i≤n},且xi是一個(gè)不完整的數(shù)據(jù)樣本,XW∩Xp=φ,XW∪XP=XA。特征值集合 XM={xkj|xkj=?1≤j≤s},1≤k≤n},XU={xkj|xkj=確定值,1≤j≤s,1≤k≤n,XM∩XU=φ, |XM|+|XU|=|XA|,||表示集合中元素的個(gè)數(shù)。
定義二 數(shù)據(jù)樣本XA的完整率η:
定義三 數(shù)據(jù)樣本xk對(duì)聚類分析的影響因子ak
定義四 數(shù)據(jù)樣本xi與xj之間的相似度βij:
基于不完整數(shù)據(jù)樣本的模糊C聚類均值算法對(duì)傳統(tǒng)的FCM改進(jìn)的核心思想是聚類分析計(jì)算方法視樣本集合完整率而定。如果值高,則按照現(xiàn)在主流處理方式,刪除有丟失值的樣本,利用FCM計(jì)算;如果值低,根據(jù)定義四,由樣本相似度之間的關(guān)系,將丟失的樣本值補(bǔ)齊,然后參照傳統(tǒng)FCM計(jì)算。該算法的基本流程圖如圖3所示。
圖3 基于不完整數(shù)據(jù)樣本的模糊C聚類均值算法
在進(jìn)行聚類運(yùn)算之前,必須先計(jì)算樣本不完整率,選擇運(yùn)算方法。與傳統(tǒng)FCM的迭代規(guī)則不同,基于不完整數(shù)據(jù)樣本的模糊C聚類算法采用的迭代規(guī)則是:
近年來(lái),由于大量工農(nóng)業(yè)廢水和生活污水排入海水,特別是未經(jīng)處理直接排入而導(dǎo)致近海、水生生物特別是藻類將大量繁殖,使生物量的種群種類數(shù)量發(fā)生改變,破壞了水體的生態(tài)平衡港灣富營(yíng)養(yǎng)化程度日趨嚴(yán)重,海水開(kāi)發(fā)、水產(chǎn)業(yè)帶來(lái)了海水生態(tài)環(huán)境和養(yǎng)殖業(yè)自身污染問(wèn)題(胡建華等,2011),2012年以來(lái),全海域共發(fā)現(xiàn)赤潮73次,累計(jì)面積7 971 km2。正是因?yàn)槌喑眴?wèn)題嚴(yán)重,對(duì)近海的水質(zhì)監(jiān)測(cè)成為了今年來(lái)的研究熱點(diǎn),如何有效地利用海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)來(lái)預(yù)測(cè)赤潮發(fā)生,減少損失,本文將采用基于不完整樣本的模糊聚類算法實(shí)現(xiàn)海水?dāng)?shù)據(jù)的聚類,分析赤潮產(chǎn)生的概率。
在海水水質(zhì)監(jiān)測(cè)系統(tǒng)中,由于赤潮產(chǎn)生的與很多因素有關(guān),需要監(jiān)測(cè)的數(shù)據(jù)較多(高素蘭,1977),本文監(jiān)測(cè)的因素共有16個(gè),分別是海水溫度、鹽度、PH值、三氧化硅(SiO3)、溶解氧(DO)、鹵素(ChA)、銨根(NH4)、化學(xué)需氧量(COD)、磷酸根(PO4)、二氧化氮(NO2)、三氧化氮(NO3)、氨(NH3)等含量,這些元素都通過(guò)放置在海里的傳感器采集而得,傳感器采集得數(shù)據(jù)通過(guò)無(wú)線網(wǎng)絡(luò)的方式傳遞到監(jiān)測(cè)中心,本文將不再詳述整個(gè)海水水質(zhì)數(shù)據(jù)的采集過(guò)程,利用公共數(shù)據(jù)庫(kù)的監(jiān)測(cè)數(shù)據(jù)作為實(shí)驗(yàn)仿真的數(shù)據(jù)來(lái)源,記錄形式如表1所示。
為了在海水赤潮發(fā)生之前成功預(yù)警,需要運(yùn)用上表中記錄的海水水質(zhì)數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行有效分析,本文中采用模糊聚類的方法,考慮到海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)量大的情況,且在無(wú)線網(wǎng)絡(luò)傳輸中,偶爾有數(shù)據(jù)漏傳和傳錯(cuò)的情況,采用不完整樣本進(jìn)行模糊C聚類均值算法完成數(shù)據(jù)聚類。從公共數(shù)據(jù)庫(kù)中隨機(jī)抽取100個(gè)樣本作為聚類來(lái)源。
文本采用VC++6.0作為實(shí)例仿真的軟件平臺(tái),并運(yùn)用MFC來(lái)實(shí)現(xiàn)聚類結(jié)果的顯示,編寫(xiě)程序,生成運(yùn)行程序FCM.exe。在聚類參數(shù)中輸入16個(gè)監(jiān)測(cè)因素的值,參考FCM算法流程,設(shè)置相應(yīng)參數(shù),將類別數(shù)c設(shè)置為2,權(quán)重指數(shù)m設(shè)置為2,迭代閾值設(shè)置為0.01,然后點(diǎn)擊“聚類”按鈕,顯示結(jié)果如圖4所示。
表1 海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)表
圖4 仿真結(jié)果圖
如圖4所示,坐標(biāo)系中橫軸表示赤潮發(fā)生幾率,聚類分析結(jié)果都集中在離原點(diǎn)處不遠(yuǎn)的位置,赤潮發(fā)生的概率并不大,海水水質(zhì)數(shù)據(jù)正常范圍之內(nèi)。監(jiān)測(cè)數(shù)據(jù)樣本是不完整的數(shù)據(jù)樣本,而采用模糊C聚類分析能得到較好的效果,表明基于不完整數(shù)據(jù)樣本的FCM算法能較好地完成不完整數(shù)據(jù)樣本的聚類分析。
本文采用基于不完整數(shù)據(jù)樣本的模糊C聚類均值算法對(duì)海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行聚類分析,實(shí)現(xiàn)海水災(zāi)害的預(yù)警。先對(duì)傳統(tǒng)FCM算法流程進(jìn)行說(shuō)明,分析了其聚類的數(shù)據(jù)樣本必須為完整數(shù)據(jù)樣本的缺點(diǎn),提出了基于不完整數(shù)據(jù)樣本的FCM算法,經(jīng)實(shí)例驗(yàn)證,該算法在處理不完整數(shù)據(jù)樣本的聚類中,具有優(yōu)良的特性,適合對(duì)海水水質(zhì)監(jiān)測(cè)數(shù)據(jù)的聚類分析。
董超群,洪波,秦明慧,等,2011.動(dòng)態(tài)Web在海洋環(huán)境監(jiān)測(cè)系統(tǒng)中的應(yīng)用.科學(xué)技術(shù)與工程,(19):4559-4563,4567.
樊東紅,曾彥,王明娟,2012.FCM算法在欽州灣不同時(shí)期水質(zhì)預(yù)測(cè)中的應(yīng)用.中南林業(yè)科技大學(xué)學(xué)報(bào),(11):158-162.
高素蘭,1997.營(yíng)養(yǎng)鹽和微量元素與黃驊赤潮的相關(guān)性.黃渤海海洋,(2):59-63.
胡建華,盧美,王晶,2011.創(chuàng)新海水災(zāi)害預(yù)警報(bào)服務(wù)方式探索與實(shí)踐.海水預(yù)報(bào),(2):78-82.
李超,王項(xiàng)南,司惠民,等,2012.軟開(kāi)關(guān)技術(shù)在海洋環(huán)境監(jiān)測(cè)系統(tǒng)供電中的應(yīng)用.海水技術(shù),(3):85-90.
呂建華,高娜,2012.整體性治理對(duì)我國(guó)海洋環(huán)境管理體制改革的啟示.中國(guó)行政管理,(5):19-22.
王偉,劉娟,孟志斌,等,2012.衛(wèi)星云圖的多通道FCM分割算法.計(jì)算機(jī)工程與科學(xué),(10):83-87.
王興強(qiáng),劉長(zhǎng)興,劉國(guó)偉,等,2012.改進(jìn)的CSFCM聚類算法及其在赤潮監(jiān)測(cè)中的應(yīng)用.計(jì)算機(jī)工程與應(yīng)用,(8):233-235.
楊靜,周惠群,姜興長(zhǎng),等,2011.改進(jìn)的FCM自動(dòng)化建模方法.計(jì)算機(jī)工程與應(yīng)用,(33):232-235.
袁道偉,關(guān)道明,張燕,等,2011.海洋環(huán)境影響報(bào)告書(shū)質(zhì)量評(píng)估初探.海水環(huán)境科學(xué),(3):440-442.
宗榮芳,田錦明,2011.基于虛擬儀器技術(shù)的海水水質(zhì)監(jiān)測(cè)系統(tǒng)設(shè)計(jì).儀表技術(shù)與傳感器,(9):41-43.