康 明,王麗萍,趙璧奎,張驗科
(華北電力大學可再生能源學院,北京 102206)
水質評價是水資源管理與決策的重要組成部分,是根據(jù)已有的水質標準建立水質分類的模型,然后依據(jù)該模型對參與評價的樣本進行水質級別的評價。最基本的評價方法就是,直接對照標準規(guī)定的各個項目單因子的評價。但在實際應用中,僅僅基于單項影響指標的水質評價結果難免會不相容,因此直接對照水質評價標準表評價水體質量缺乏必要的實用性。一般情況下,水質的評價總是基于多種指標的綜合評定,因而要進行客觀嚴謹?shù)脑u價就必須建立起與之對應的多因素 (多指標)評價模型。文獻[1]建立了一個基于可拓神經網絡的水質評價模型;文獻[2]將模糊數(shù)學的原理應用到水質評價中;文獻[3]提出了一個基于組合權重的水質評價模型;文獻[4]建立了一個基于投影尋蹤新算法的評價模型。這些模型都存在某些局限性。例如,在計算過程中需人為地給定參數(shù),或者對于同一等級內的水質無法給出量化的比較,以及對影響因素的權重沒有主客觀綜合考慮。
因此,本文引入投影尋蹤動態(tài)聚類的方法,提出相應的水庫水質評價模型,一方面,可以避免在水質評價模型運算過程中需要人為給定的參數(shù)的缺點;另一方面,可以根據(jù)決策者的側重的因素進行分類并直接輸出水質綜合評價分級標準值。
投影尋蹤就是將高維數(shù)據(jù)向低維空間投影,通過低維空間研究高維數(shù)據(jù)的結構或特征。投影尋蹤聚類是根據(jù)投影尋蹤原理形成的一種聚類方法,在水質評價、洪水分類、關鍵因子識別等涉及多因素影響的問題研究中廣泛應用。然而,在實際聚類分析中,投影尋蹤聚類方法尚存在著不足之處,主要體現(xiàn)在兩個方面:一是在求解基于投影尋蹤聚類方法模型過程中,涉及到的唯一參數(shù)——密度窗寬取值目前還必須依靠經驗或試算來確定,缺乏相應的理論依據(jù);另外,此類模型的運算結果需要利用其他方法進行分類處理,才能得到最終的聚類結果。
針對投影尋蹤聚類的上述問題,引入動態(tài)聚類方法[5]。動態(tài)聚類法可以將樣本數(shù)據(jù)點聚成既定數(shù)量的類,使得每一類的元素都是聚合的,并且類與類之間能夠很好地區(qū)分開來。投影尋蹤動態(tài)聚類法,通常先是利用投影降維技術將高維數(shù)據(jù)投影到低維空間 (本文實際應用為線性一維),然后利用動態(tài)聚類法對投影到低維空間的投影特征值進行聚類分析。
首先,通過生成水質樣本構造出模型所需的投影數(shù)據(jù)。按照水質標準,在各水質級別范圍內隨機產生一定量的樣本數(shù)據(jù);將水質樣本的影響指標記為 Xij(i=1,2,…,n; j=1,2,…,m; n 為樣本個數(shù), m為影響指標個數(shù))。質量標準等級分為5級,在每個等級范圍內生成100個樣本,則樣本數(shù)n=500。為了與水庫水質質量標準相對應,本文規(guī)定水體受到污染的程度越嚴重,則該樣本水質的級別值越大。將污染最嚴重的水質級別記為Ⅴ,較嚴重的記為Ⅳ,依次類推,污染最輕的級別值記為Ⅰ。由于水質樣本各影響指標的量綱不盡相同或數(shù)值范圍相差較大,因此在建模之前要對各項指標數(shù)據(jù)進行無量綱化處理。對于越小越優(yōu)型指標,采用式(1);對于越大越優(yōu)型指標,采用式(2)
式中,Xjmax、Xjmin分別為第j個水質影響指標的樣本最大值與最小值。
所謂投影就是從不同角度觀察數(shù)據(jù),尋找能夠最大程度反映水質樣本數(shù)據(jù)特征的最佳觀察角度,即最優(yōu)投影方向[6]。本文采用線性投影,將水質樣本的多項影響指標值投影到一維空間,得到反映該水質樣本特征的數(shù)值,該數(shù)值被認為是能夠反映該水質樣本優(yōu)劣程度的量化值,在模型中用投影特征值zi來表示。設為m維單位投影方向向量,記為=(a1,a2,…,am), 則水質樣本影響指標 xij的一維投影特征值zi可以表示為
投影指標是樣本數(shù)據(jù)由多維向低維投影形成聚類所遵循的原則,由于聚類分析的實質就是將待評價樣本進行合理的分類,可以根據(jù)分類指標來構造投影指標。本文應用動態(tài)聚類方法來構造模型的投影指標,通過求解投影指標函數(shù),得到能夠反映水質樣本特征的最優(yōu)投影方向,同時輸出投影特征值聚類結果,即水質綜合評價的分級標準值。構造投影指標的步驟如下:
設水質樣本投影特征值集合為 Ω={z1,z2,…,zn},任意兩個投影特征值間的距離記為s(zi,zk),即s(zi,zk)=(k=1,2,…,n)。 若將水質樣本分為 N(N≤n)類,則第h類樣本投影特征值集合可記為θh(h=1,2,…,N), 即
式中, d(Ah-zi)=, d(At-zi)=。 其中,Ah和At分別為第h類和第t類的初始聚核 (聚類的中心點)。式(4)表明了動態(tài)聚類方法中聚合分類的原則。依據(jù)動態(tài)聚類的算法,每一類的初始聚核會被上一次該類樣本投影特征值的均值所迭換,直至滿足結束條件,即分類結果趨于穩(wěn)定。
式中, dh()=
為達到類類樣本充分散開、類內樣本盡量集中的聚類目的[7],根據(jù)動態(tài)聚類法構建的投影指標應為
式(7)表明,各類之間分散度越大或類內聚集程度越高,投影指標QQ()越大。
實際應用中,若決策者對水庫水質的某單項或多項影響指標存在偏好,可以通過增加模型的約束條件來實現(xiàn)。例如,在所有影響指標中,決策者最關心的是第二項指標,根據(jù)投影原理,即認為在a2方向上的投影值最大,因此可增加約束
上述優(yōu)化問題用遺傳算法求解,參閱文獻[8]。
2012年2月深圳市供水系統(tǒng)中5個水庫的水質監(jiān)測結果見表1。根據(jù)深圳市水源水質的特點,選擇了pH、氨氮、總氮、總磷、高錳酸鹽指數(shù)等作為水源地水庫水質影響指標。依據(jù)水源地水質要求,選擇GB 3838—2002《地表水環(huán)境質量標準》作為評價依據(jù),結果見表2。
表1 深圳市5個供水水庫2012年2月水質監(jiān)測結果
表2 水庫水質評價標準
本文在每個水質標準級別范圍內隨機生成30個樣本,而水庫水質評價標準分為5級,于是總共得到了150個水質樣本。依據(jù)生成的各級樣本數(shù)據(jù)建立起深圳市5所水庫基于投影尋蹤動態(tài)聚類方法的水質評價模型,其中n=150,m=5,N=5。
表3 水質綜合評價分級標準值及模型評價結果
可以看出,實例中的深圳市5個水庫中有2個達到地表水Ⅱ類標準,3個達到Ⅲ類標準。根據(jù)表1的監(jiān)測數(shù)據(jù),對照水庫水質評價標準,在編號為(1)的水庫中有2個指標屬于Ⅴ級、3個指標屬于Ⅰ級,編號為(2)的水庫中有1指標屬于Ⅳ級、1個指標屬于Ⅴ級、其他3個指標都屬于Ⅰ級,編號為(4)的水庫有1指標屬于Ⅳ級、1個指標屬于Ⅴ級、其他3個指標都屬于Ⅱ級。就污染程度而言,水庫(4)大于水庫(2)和(1), 而水庫(2)有 4個的指標都要比水庫(1)大, 所以綜合評價(4)>(2)>(1), 符合表 3中評價樣本特征值的大小排序。分析比較編號(3)、(5)這兩個水庫,同樣可以得出與模型評價結果相一致的結論。由此可見,基于投影尋蹤動態(tài)聚類方法的水庫水質評價模型計算出來的結果是較為合理的。
然而,不同地區(qū)的水庫由于自然環(huán)境及功能不同對水質的要求不盡相同。從深圳市近兩年的水質連續(xù)監(jiān)測數(shù)據(jù)分析,總氮及總磷指標超標的頻率較高,這兩項指標對控制水體富營養(yǎng)化有重要的作用,因此可以假設決策者會提高這兩項指標對其決策的影響力。在模型中通過增加約束的方法來考慮決策者的這種偏好: a2>aj(j=1,3,5); a4>aj(j=1,3,5)。
表4 考慮決策者偏好的模型評價結果
由表4可以看出,這一結果與不考慮決策者偏好的結果基本相同。其主要原因是:根據(jù)投影尋蹤方法的原理,最優(yōu)投影方向向量反映了各個因素的不同重要程度,而且它為單位投影方向的向量,滿足平方和為1。因而,可以將wi=(…,)作為各影響因素的權重[9]。在不考慮決策者此偏好時,總磷及總氮的所占權重已經很大,故兩次評價結果保持一致。
(1)將投影尋蹤技術和動態(tài)聚類的方法相結合,應用于水庫水質評價模型,既操作簡單,又增加了模型的客觀性,充分發(fā)揮了投影尋蹤技術在處理多因素綜合評價模型上的優(yōu)勢。
(2)針對可能出現(xiàn)的決策者偏好的情況,本文通過增加約束條件,使得模型能夠綜合考慮客觀權重和決策者的偏好,擴大了模型的適用范圍。
(3)模型應用于深圳市5個供水水庫的實際分析結果表明,基于投影尋蹤動態(tài)聚類的方法能夠合理地對水庫水質進行綜合評價。
[1]閆英戰(zhàn),楊勇,陳愛斌.可拓神經網絡在水質評價中的應用[J].人民長江, 2010, 41(15):27-30.
[2]張媛,王世真,朱秀華.模糊數(shù)學用于地表水的綜合評價[J].大連鐵道學院學報,2004,25(1):7-11.
[3]金菊良,黃慧梅,魏一鳴.基于組合權重的水質評價模型[J].水力發(fā)電學報, 2004, 23(3):3-19.
[4]張欣莉,丁晶,李祚泳,等.投影尋蹤新算法在水質評價模型中的應用[J].中國環(huán)境科學, 2000, 20(2):187-189.
[5]任若恩,王惠文.多元統(tǒng)計數(shù)據(jù)分析-理論、方法、實例[M].北京:國防工業(yè)出版社,1999,76-80.
[6]倪長健,崔鵬.投影尋蹤動態(tài)聚類模型[J].系統(tǒng)工程學報,2007, 22(6):634-638.
[7]倪長健,王順久,崔鵬.投影尋蹤動態(tài)聚類模型及其在地下水分類中的應用[J].四川大學工程學報:工程科學版,2006,38(6):29-33.
[8]王順久,張欣莉,倪長健,等.水資源優(yōu)化配置原理及方法[M].北京:中國水利水電出版社,2007,226-227
[9]王麗萍,葉季平,蘇學靈,等.基于可拓學理論的防洪調度方案評價研究與應用[J].水利學報, 2009, 40(12):1425-1431.