朱永軍, 吳 瓊, 湛忠宇
(江蘇省水文水資源勘測局南京分局, 江蘇 南京 210008)
合理對水體質量進行分析評價能夠為水質治理提供科學的方向,同時也是區(qū)域改善水環(huán)境的基礎,目前,存在多種對水質進行評價的方法,傳統(tǒng)的單因子評價法[1]以最差的水質指標所處等級作為評價結果,極易受到極端指標的影響,不能反映出真實情況;灰色理論[2],模糊數(shù)學法[3]、層次分析法[4]在確定指標權重時往往忽略了因子之間的相互影響且主觀性較強;傳統(tǒng)主成分分析法[5-6]采用標準差對數(shù)據(jù)進行標準化,使得同類指標之間的方差為零,消除了指標之間的差異;傳統(tǒng)的神經(jīng)網(wǎng)絡法[7]將所有的監(jiān)測指標作為輸入數(shù)據(jù),增加了模型復雜程度,效率低下。本文針對水質評價中評價指標權重難以合理確定,評價模型過于復雜、評價結果不合理等問題,依據(jù)南京市六合區(qū)的水質監(jiān)測資料,提出主成分分析與神經(jīng)網(wǎng)絡相結合的方法,以期為合理進行水質評價提供一種新思路。
主成分分析[8]的主要思想是利用正交變換對原始數(shù)據(jù)進行降維處理,找出一組線性無關的主成分,以此代表原始數(shù)據(jù)的大部分信息,一般分為以下幾個步驟。
1)對原始數(shù)據(jù)進行標準化處理,消除量綱不同帶來的影響。本文采用均值化方法對原始數(shù)據(jù)進行標準化,在保留同類變量間的差異信息的同時,消除量綱的干擾,計算公式為
ZXij=Xij/MeanXi
(1)
式中,ZXij為第i個指標的第j個數(shù)值標準化后的結果;Xij為第i個指標的第j個數(shù)據(jù)的原始值,MeanXi為第i個樣本的平均值。
由于水質指標中大部分為逆向指標,正向指標即數(shù)值越大表明水質越好的指標,采用下式進行標準化處理:
ZXij=(MaxXi-Xij)/Mean(MaxXi-Xij)
(2)
式中,MaxXi為第i個指標的最大值。
2)計算標準化后ZXij的相關系數(shù)矩陣R;
3)計算R的特征值λi和特征向量并將特征向量按照從大到小進行排列;
4)計算累計方差貢獻率確定主成分個數(shù)。以前n個特征值的和占總特征值的百分比作為累計方差貢獻K,一般取K≥85%;
5)計算主成分Fi的值及主成分綜合得分,得分越高說明水質越差,其中
(3)
BP神經(jīng)網(wǎng)絡[9-10]是一種多層前饋神經(jīng)網(wǎng)絡,依靠大量神經(jīng)元的聯(lián)系,形成一個非線性的動態(tài)系統(tǒng)。BP神經(jīng)網(wǎng)絡一般由輸入層、隱含層和輸出層三部分組成,其中隱含層可以有一個或多個(圖1)。在網(wǎng)絡的運行過程中輸入的數(shù)據(jù)由前向后傳播,每一層的神經(jīng)元輸出結果只對與其直接相連的下一層神經(jīng)元有影響,同一層的神經(jīng)元直接互不連接,互不干擾。
圖1 BP神經(jīng)網(wǎng)絡結構圖
構建BP神經(jīng)網(wǎng)絡一般有如下幾個步驟:
1)對輸入數(shù)據(jù)集{Xi}(1
3)構建神經(jīng)網(wǎng)絡,設定各層傳遞函數(shù)、最大允許步長、模型精度等;
4)當模型滿足設定精度時,保存模型,進行水質評價。
六合區(qū)位于南京市北部,長江左岸,是國家重要的現(xiàn)代工業(yè)基地,滁河由西到東貫穿境內。本文選取2019年南京市六合區(qū)23個監(jiān)測斷面年平均水質數(shù)據(jù)進行實例分析。由于監(jiān)測數(shù)據(jù)中金屬離子及石油類、揮發(fā)酚等按《地表水質量評價標準》(GB3838—2002)評價均為Ⅰ類,故在主成分分析中不對其進行分析。篩選后主要的評價因子有pH(X1)、DO(X2)、NH3-N(X3)、CODMn(X4)、COD5(X5)、F(X6)、COD(X7)、TP(X8)、TN(X9)共9類。
(1)對數(shù)據(jù)進行均值化處理,計算相關系數(shù)矩陣,由表1可知大部分監(jiān)測指標相關系數(shù)均大于0.3,說明各指標之間存在信息的重疊,因此適用主成分分析對原始數(shù)據(jù)進行降維處理。
表1 相關系數(shù)矩陣
(2)計算特征值和主成分貢獻率,得到每個主成分所對應的解釋方差、特征值和累計方差貢獻率,由表2可知前3個主成分累計反映了原始參數(shù)信息的88.469%,可將原來11個影響指標減少為3個,進而大大降低因子的維數(shù)。
表2 特征值及累計方差貢獻率
由主成分荷載矩陣可以看出,F(xiàn)1中DO、CODMn、COD5、F、COD對其影響程度較大,可認為F1在一定程度上表示了水體的有機污染;F2中NH3-N、TP、TN對其影響程度較大,可認為F2在一定程度上表示了水體的無機污染;F3中pH對其影響程度較大,故可認為F3在一定程度上表示了水體的酸堿性。
(3)根據(jù)主成分荷載矩陣計算各主成分的對應指標的得分系數(shù),由此計算F1、F2、F3的值并根據(jù)公式(4)計算綜合得分F,主成分得分越大說明水質越差,如表4所示。其中按照《地表水環(huán)境質量標準》各類水質的標準值計算得到Ⅰ類水質主成分綜合得分為的-2.891、II類為-2.008、III類為-0.706、IV類為1.788、V類3.817。
表3 主成分荷載矩陣
F=0.108ZX1-0.178ZX2+0.360ZX3+0.211ZX4+0.229ZX5+0.224ZX6+0.184ZX7+0.426ZX8+0.486ZX9
(4)
由表4可知僅有3個斷面的評價結果與單因子評價法保持了相同,這是因為這些斷面中大多數(shù)水質指標都處單因子評價法的評價等級。其余20個斷面評價結果提升了1~3個等級,這是因為這些斷面水質指標僅有少數(shù)處于單因子評價法的評價等級。主成分分析法的綜合考慮了所有評價指標,避免了某一評價因子將其他因子的信息完全覆蓋,讓一些處于“劣勢”的指標得到了反映,評價結果與單因子評價法在整體上的趨勢是相同的,因此具有一定的合理性。但是可能存在過于樂觀的評價結果,比如遠古水業(yè)斷面,除DO、COD5為Ⅰ類外,其余各指標均在Ⅲ類和Ⅳ類之間,因此主成分分析法將其評價為Ⅰ類過于樂觀。
表4 主成分分析評價結果
(5)通過主成分分析對原本的9個評價指標進行降維,得出的3個主成分能夠反映原指標88.469%的信息,大大簡化了信息處理的維度;由主成分的綜合表達式可以看出NH3-N、TP、TN相比其他指標在權重方面占有絕對的優(yōu)勢,因此認為NH3-N、TP、TN是六合區(qū)的主要污染物,這與南京市水資源公報里的分析結果同樣是吻合的,因此后續(xù)搭建神經(jīng)網(wǎng)絡模型,以此3項指標作為模型的輸入數(shù)據(jù)。
(1)生成樣本數(shù)據(jù)
樣本的數(shù)量和差異性對神經(jīng)網(wǎng)絡的模擬精度有重要影響,為獲得足夠多的樣本,將各項指標測定國標法中最低檢出濃度作為Ⅰ類下限值,結合《地表水環(huán)境質量標準》(GB3838—2002)可以得到各級水質的上下限值,在各類水質等級之間進行隨機插值(比如當N、TP、TN分別處于(0.15,0.5]、(0.02,0.1]、(0.2,0.5]之間時,該水體水質肯定屬于Ⅱ類),考慮到研究區(qū)域水質多為劣Ⅴ類,因此共設置六個水質等級(Ⅰ~劣Ⅴ類),每兩級之間隨機插值生成450個樣本,共2 700個樣本。
表5 地表水環(huán)境質量標準各項指標限值 單位:mg/L
(2)樣本數(shù)據(jù)預處理
在MATLAB中將樣本矩陣P的每一個元素歸一化到[-1,1],樣本集作為輸入樣本時是一個5×2 700的矩陣,其中每一列代表一個樣本,共2 700個樣本。
(3)確定目標矩陣
輸出層共有6種水質類別,因此輸出層選用6個神經(jīng)元。用6×1的矩陣表示每個輸出類別,其中(1,0,0,0,0,0)T表示Ⅰ類水質、(0,1,0,0,0,0)T表示Ⅱ類水質、(0,0,1,0,0,0)T表示Ⅲ類水質、(0,0,0,1,0,0)T表示Ⅳ類水質、(0,0,0,0,1,0)T表示Ⅴ類水質、(0,0,0,0,0,1)T表示劣Ⅴ類水質。每一個輸入樣本對應一個輸出矩陣,因此目標集T為一個3×2 700的矩陣。
(4)創(chuàng)建神經(jīng)網(wǎng)絡
在MATLAB中輸入樣本集[P,T],將樣本中的75%用于訓練網(wǎng)絡,10%用于驗證,15%用于測試;隱含層神經(jīng)元個數(shù)按照經(jīng)驗公式取值在[4,13]之間,先選取4個神經(jīng)元進行訓練,然后依次增加神經(jīng)元的個數(shù)直到15,依據(jù)神經(jīng)元個數(shù)和均方誤差(圖2)及神經(jīng)元個數(shù)和訓練步長(圖3)的關系,確定隱含層神經(jīng)元個數(shù)為11。
圖2 隱含層神經(jīng)元數(shù)與均方誤差的關系
圖3 隱含層神經(jīng)元數(shù)與步長的關系
此時模型運行了76步,在第70步時達到了最佳表現(xiàn),如圖4所示。通過輸入層、隱含層、輸出層神經(jīng)元個數(shù)的確定,最終的神經(jīng)網(wǎng)絡采用3-11-6的3層網(wǎng)絡結構。
圖4 n=11時訓練表現(xiàn)
(5)進行水質評價
由表6可以看出,PCA-BP神經(jīng)網(wǎng)絡法的評價結果與單因子評價法和主成分分析法的評價結果在整體趨勢上同樣是一致的。相比單因子評價法,龍津橋、六合大橋、方州橋、馬汊河大橋、靈鋼河橋、安橋6個斷面神經(jīng)網(wǎng)絡的評價結果與其完全一致。遠古水業(yè)、南廠碼頭、揚子8號碼頭等斷面評價結果上升了2個等級;滁河寧連公路大橋、六合鐵路橋、友誼橋等斷面1個等級。劣Ⅴ類斷面占比由47.8%下降為26.1%;Ⅴ類斷面占比由34.8%下降為13.0%;Ⅳ類斷面減少100%;新增Ⅲ類及Ⅲ類以上斷面7個。與主成分分析法相比,陳擺江渡口、岳子河閘、劃子口閘斷面與其評價結果完全一致,對于遠古水業(yè)斷面,PCA-BP神經(jīng)網(wǎng)絡法對上文的主成分分析法的結果進行了一定程度上的“糾正”,避免了評價結果的過分樂觀。
表6 神經(jīng)網(wǎng)絡評價結果
本文針對六合區(qū)23個斷面水質監(jiān)測數(shù)據(jù),首先利用改進的主成分分析法對各斷面水質進行評價,并由此確定主要污染物,實現(xiàn)評價因子降維的目的。然后結合BP神經(jīng)網(wǎng)絡,構建PCA-BP神經(jīng)網(wǎng)絡評價模型,同時利用主成分分析法的評價結果對PCA-BP神經(jīng)網(wǎng)絡評價模型的評價結果從側面進行驗證,就評價效果而言,PCA-BP神經(jīng)網(wǎng)絡評價模型既避免了單因子評價法中某一評價因子將其他因子的信息完全覆蓋的弊端,同時也避免了主成分分析法評價結果的過分樂觀,因此PCA-BP神經(jīng)網(wǎng)絡評價模型評價結果更為客觀真實。總體來說,PCA-BP神經(jīng)網(wǎng)絡評價模型在解決了水質評價中評價指標權重難以合理確定,評價模型過于復雜、評價結果不合理等問題的基礎上,為六合區(qū)的水資源保護與治理工作提供了參考。