石晴宜,董增川,羅 赟,姚 敏,崔 璨,王天宇
(1.河海大學(xué)水文水資源學(xué)院,南京 210098;2.江蘇省水文水資源勘測局,南京 210029;3.長江勘測規(guī)劃設(shè)計研究有限責(zé)任公司,武漢 430010)
水是人類和其他生命體所依賴的不可缺少的資源,建立水質(zhì)模型預(yù)測水質(zhì)狀況具有重要的社會經(jīng)濟和生態(tài)環(huán)保價值。目前水質(zhì)預(yù)測模型可按其內(nèi)理性質(zhì)分為機理性水質(zhì)預(yù)測模型和非機理性水質(zhì)預(yù)測模型兩大類[1]。機理性模型本質(zhì)上是依據(jù)水環(huán)境系統(tǒng)的基本物理、生物、化學(xué)特性,利用系統(tǒng)結(jié)構(gòu)數(shù)據(jù)推導(dǎo)出的模型,如S-P、QUAL、WASP等模型[2-4]。機理性模型預(yù)測結(jié)果較為理想,但由于其模型搭建需要大量基礎(chǔ)資料與長期的監(jiān)測數(shù)據(jù),而水質(zhì)數(shù)據(jù)通常較為缺乏,因此在實際運用上存在一定的困難。非機理性水質(zhì)預(yù)測模型是一種黑箱方法,直接對帶有時間序列的水質(zhì)監(jiān)測數(shù)據(jù)進行預(yù)測研究,不探究水質(zhì)變化內(nèi)在原理。諸多學(xué)者基于數(shù)理統(tǒng)計方法與計算機技術(shù),開展了大量非機理性水質(zhì)預(yù)測模型的研究:鄧聚龍?zhí)岢龅幕疑P蛯π蛄兄袠颖緮?shù)量和分布沒有特殊要求,在水質(zhì)預(yù)測建模中得到了較多的應(yīng)用[5]。翟偉等提出了將人工神經(jīng)網(wǎng)絡(luò)結(jié)合灰色預(yù)測法,實現(xiàn)了對水質(zhì)的動態(tài)預(yù)測[6]。張秀菊等運用支持向量回歸機的理論與方法,構(gòu)造水質(zhì)預(yù)測模型,較好地反映了通州區(qū)新江海河站點NH3N及TP兩項指標的變化趨勢[7]。
為提高水質(zhì)模型預(yù)測精度,提出耦合多種黑箱式模型進行綜合水質(zhì)預(yù)測。小波分析是一種多分辨率分析方法,可以對信號逐步進行多尺度劃分,具有良好的局部檢測功能,常用于表征數(shù)據(jù)變換的瞬態(tài)和奇異點特征[8]。目前小波分析已被廣泛運用于水文序列多時間尺度變化特性分析[9]、水文序列消噪[10]、中長期水文預(yù)報[11]等領(lǐng)域。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類具有短期記憶能力的神經(jīng)網(wǎng)絡(luò),其每個神經(jīng)元在某時刻的輸出可以作為輸入再次輸入到神經(jīng)元[12],因此對時間序列的處理具有一定優(yōu)勢。Hochreiter 等提出的長短記憶網(wǎng)絡(luò)[13]改進了傳統(tǒng)的RNN存在的循環(huán)多次后出現(xiàn)梯度消失甚至梯度爆炸的問題[14],已用于藍藻水華預(yù)測[15]、養(yǎng)殖水質(zhì)分類預(yù)測[16]和地表水多因子預(yù)測[17]。水質(zhì)評價是反映水體污染狀況的重要方式,目前常用的評價方法有:單因子評價法、內(nèi)梅羅指數(shù)法、模糊綜合評價法、主成分分析法等[18]。其中,模糊綜合評價法基于模糊理論,綜合考慮了水環(huán)境污染因素的模糊性和不確定性[19],近年來模糊綜合評價法及其改進算法被廣泛應(yīng)用于河流、湖泊、水庫等水質(zhì)評價中[20,22]。模糊神經(jīng)網(wǎng)絡(luò)是模糊理論與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它兼具兩者的優(yōu)點,既可以表示模糊和定性的知識,又具有較好的學(xué)習(xí)能力[23],而其中基于T-S 的模糊神經(jīng)網(wǎng)絡(luò)在模式識別分類方面具有優(yōu)勢,被證明在水質(zhì)評價中切實可行[24,25]。將小波分析、長短記憶神經(jīng)網(wǎng)絡(luò)與模糊神經(jīng)網(wǎng)絡(luò)耦合進行水質(zhì)預(yù)測可以結(jié)合三種模型的優(yōu)勢:針對水質(zhì)序列波動大的特征,可利用小波分析細化水質(zhì)數(shù)據(jù),優(yōu)化LSTM 預(yù)測模型輸入;針對單因子水質(zhì)預(yù)測難以展現(xiàn)水體整體狀況的問題,可通過模糊神經(jīng)網(wǎng)絡(luò)預(yù)測水質(zhì)變化綜合趨勢。
本文提出基于小波分析和長短期記憶神經(jīng)網(wǎng)絡(luò)的水質(zhì)單因子預(yù)測方法,在此基礎(chǔ)上使用模糊神經(jīng)網(wǎng)絡(luò)的方法對未來水質(zhì)進行綜合評價。洪澤湖是中國第四大淡水湖,位于江蘇省西部淮河下游,是國家南水北調(diào)東線工程的重要調(diào)蓄湖泊和江蘇省北部地區(qū)重要水源。因此,洪澤湖水質(zhì)的好壞將直接影響“南水北調(diào)”水體的質(zhì)量以及蘇北地區(qū)乃至淮海平原的用水質(zhì)量與安全[26]。本文采用洪澤湖主要入湖河道淮河(盱眙化肥廠站)的水質(zhì)數(shù)據(jù),通過WA-LSTM 模型進行水質(zhì)單因子預(yù)測,利用T-S模糊神經(jīng)網(wǎng)絡(luò)評價整體水質(zhì)狀況,并在計算過程中,與傳統(tǒng)LSTM模型進行對比,驗證本方法的有效性和科學(xué)性。
小波變換是用于分析和處理非平穩(wěn)時間序列的有用且強大的數(shù)學(xué)工具[27,28]。小波變換通過伸縮平移運算對信號進行細化,提取時頻特征。小波變換分為連續(xù)小波變換(CWT)和離散小波變換(DWT)。連續(xù)小波變換表示如式(1):
式中:f(t)為原始信號;Wf(a,b)為小波變換系數(shù);a為伸縮因子;b為平移因子;Ψ(t)為一連續(xù)函數(shù),被稱為母小波;*表示復(fù)共軛。
由于離散小波變換的計算速度較快且開發(fā)過程更簡單,實際應(yīng)用中離散小波變換比連續(xù)小波變換更常用[29]。用Mallat塔式算法計算離散小波變換,計算方法見式(2)和式(3):
式中:n為樣本數(shù);j為分解級別;cAj為近似系數(shù);cDj為細節(jié)系數(shù);h為低通濾波器;g為高通濾波器。
Mallat重構(gòu)算法進行重構(gòu),計算方法見式(4):
Mallat塔式算法離散小波分解與重構(gòu)流程示意圖見圖1。
小波分解后得到的重構(gòu)數(shù)據(jù)序列在時域和頻域都有表征信號局部特征的能力,與原數(shù)據(jù)序列相比,更易檢測信號的瞬態(tài)或奇異點,對于分析和處理如水質(zhì)數(shù)據(jù)一類的非平穩(wěn)時間序列具有明顯優(yōu)勢。
長短記憶神經(jīng)網(wǎng)絡(luò)作為RNN的一種變體,同樣具有重復(fù)模塊的鏈狀結(jié)構(gòu)。但不同的是,LSTM 的重復(fù)模塊更為復(fù)雜,且將RNN 中隱含層的神經(jīng)元替換為記憶體[30],實現(xiàn)序列信息的保留和長期記憶。
圖2為LSTM 記憶體結(jié)構(gòu),LSTM 的關(guān)鍵是細胞狀態(tài)C,LSTM 通過3 種類型的“門控”實現(xiàn)細胞狀態(tài)中信息的刪除與添加:遺忘門(f)、輸入門(i)、輸出門(o)。
遺忘門確定丟棄的信息,即對于上一時刻細胞狀態(tài)Ct-1的保留程度。計算方法如式(5)。
式中:σ為sigmoid 函數(shù);Wf為輸入權(quán)重;ht-1為上一時刻的隱藏層狀態(tài);xt為當前時刻節(jié)點的輸入值;bf為偏置項。
輸入門確定存儲的信息,與遺忘門結(jié)合,更新當前時刻細胞狀態(tài)Ct。計算方法如式(6)~(8)。
式中:為新信息;Wi、WC為輸入權(quán)重;bi、bC為偏置項。
輸出門確定輸出值,由細胞狀態(tài)與Sigmoid 門的輸出共同確定輸出信息。計算方法如下式(9)和式(10)。
式中:Wo為輸入權(quán)重;bo為偏置項;ht為輸出的當前時刻隱藏層狀態(tài)。
構(gòu)建基于小波分析的LSTM 時間序列預(yù)測模型,結(jié)構(gòu)如圖3所示,算法步驟如下:①數(shù)據(jù)收集與預(yù)處理:收集實測水質(zhì)數(shù)據(jù),識別并刪除異常數(shù)據(jù),填補缺失值,確保模型輸入的準確性和完整性;②小波分解:選取基小波,確定分解層數(shù)n,對原始信號數(shù)據(jù)進行n層小波分解,由高通濾波器產(chǎn)生與子波函數(shù)相關(guān)的n組細節(jié)系數(shù),低通濾波器產(chǎn)生與尺度函數(shù)相關(guān)的近似系數(shù),并進行系數(shù)重構(gòu),由小波長度轉(zhuǎn)換為時域長度;③樣本數(shù)據(jù)劃分:將小波分解后的各組數(shù)據(jù)統(tǒng)一劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)用于訓(xùn)練LSTM 模型,模擬時間序列演變規(guī)律;測試數(shù)據(jù)用于分析預(yù)測精度,驗證模型性能;④訓(xùn)練模型:將訓(xùn)練數(shù)據(jù)作為樣本輸入訓(xùn)練LSTM 時間序列預(yù)測模型,不斷調(diào)整參數(shù),直至滿足精度要求;⑤信號預(yù)測:將測試數(shù)據(jù)輸入訓(xùn)練好的LSTM 時間序列模型,分別對低頻信號和高頻信號進行預(yù)測;⑥重構(gòu)信號:對LSTM 模型輸出結(jié)果進行小波重構(gòu),獲得水質(zhì)單因子預(yù)測結(jié)果,并對比分析LSTM、WA-LSTM預(yù)測準確度。
模糊神經(jīng)網(wǎng)絡(luò)是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)的結(jié)合,模糊系統(tǒng)按常見的形式可分為:純模糊邏輯系統(tǒng)、T-S(Takagi-Sugneo)模糊邏輯系統(tǒng)和廣義模糊邏輯系統(tǒng)等。其中基于T-S模糊系統(tǒng)的神經(jīng)網(wǎng)絡(luò)是一種非線性模糊推理模型,具有表達模糊推理規(guī)則、計算簡單、利于數(shù)學(xué)分析的優(yōu)點[31]。T-S 模糊系統(tǒng)采用“ifthen”規(guī)則形式來定義,輸入向量為X=[x1,x2,…xk],規(guī)則為Ri的模糊推理如下:
式中:i為模糊子集數(shù);k為輸入?yún)?shù)總個數(shù);A為模糊系統(tǒng)的模糊集;p為模糊參數(shù);y為根據(jù)模糊規(guī)則得到的輸出。該模糊推理表示輸出為輸入的線性組合[32]。
T-S 模糊神經(jīng)網(wǎng)絡(luò)具有輸入層、模糊化層、模糊計算層、輸出層四層結(jié)構(gòu)。輸入層節(jié)點數(shù)與輸入向量的維數(shù)一致;模糊化層對輸入值進行模糊化,各輸入變量xj的隸屬度μAij為:
式中:j為輸入?yún)?shù)數(shù);cij為隸屬度函數(shù)的中心;bij為隸屬度函數(shù)的寬度。
模糊計算層對各隸屬度進行模糊計算,見式(13):
輸出層根據(jù)模糊計算結(jié)果計算模糊神經(jīng)網(wǎng)絡(luò)的輸出,見式(14):
其中,模糊參數(shù)、隸屬度函數(shù)的中心和寬度依據(jù)實際輸出與期望輸出的誤差進行修正。
洪澤湖是中國第四大淡水湖,位于江蘇省西部淮河下游,蘇北平原中部西側(cè),地處淮安、宿遷兩市境內(nèi),地理位置在北緯33°06′~33°40′,東經(jīng)118°10′~118°52′之間。目前洪澤湖現(xiàn)狀水體存在富營養(yǎng)化問題,TN、TP 污染較為嚴重。若TN、TP 不參評,湖區(qū)水質(zhì)可維持在III~IV類;若參評,湖區(qū)水質(zhì)屬于V類。
洪澤湖接納的污水以外來污染源為主,洪澤湖主要入湖河道有:淮河、新汴河、老濉河、新濉河、徐洪河、懷洪新河。選取氨氮(NH3N)、總磷(TP)、總氮(TN)、高錳酸鹽指數(shù)(CODMn)四項指標濃度,根據(jù)2003-2018年洪澤湖各入湖河道的水量及水質(zhì)數(shù)據(jù),計算通過各河道進入洪澤湖的多年平均污染物通量,可得淮河入湖污染物所占比重最大,其中NH3N 占入湖總量的79.13%,TP 占入湖總量的83.38%,TN 占入湖總量的87.67%,CODMn占入湖總量的81.10%?;春痈闪髟?992、1994、1995、2004年等年份相繼發(fā)生污染團下泄事件,對洪澤湖的水體造成嚴重污染,破壞了其生態(tài)系統(tǒng)[33]。由此可見,淮河作為洪澤湖主要污染來源,準確并及時地對其進行水質(zhì)預(yù)測與評價對于改善洪澤湖水環(huán)境有重要意義。
本文選取NH3N、TP、TN、CODMn四項指標,從江蘇省水土保持生態(tài)環(huán)境監(jiān)測總站收集2003-2018年盱眙化肥廠水質(zhì)測站(代表淮河干流)逐月各項指標濃度共192 組數(shù)據(jù),取前173 組作為訓(xùn)練數(shù)據(jù),后19組作為測試數(shù)據(jù)。
TP 與TN 指標在2003年1月-2004年4月存在缺失,采用均值平滑法進行填補,用缺失數(shù)據(jù)前后的平均值替代缺失值。
為判斷預(yù)測結(jié)果優(yōu)劣,選取均方根誤差(RMSE)和決定系數(shù)(R2)作為評價指標。其中RMSE表征模型擬合偏差,RMSE值越小,預(yù)測值相對于真實值的偏差越??;R2表征擬合優(yōu)度,R2值越接近1,模型擬合能力越好。計算公式如下。
式中:n為樣本數(shù);xi為實測值;xi′為預(yù)測值為實測數(shù)據(jù)平均值。
2.3.1 小波分解
利用Matlab 對預(yù)處理后的四組數(shù)據(jù)進行小波分解,選擇“db5”作為基小波,確定分解層數(shù)為3層,并進行系數(shù)重構(gòu),將原始信號分解為表征細節(jié)的高頻信號D1、D2、D3和表征逼近的低頻信號A3,分解結(jié)果如圖5。
將經(jīng)過小波分解后的各個頻段信號相加還原,計算四項指標重構(gòu)后與原始信號的最大絕對誤差。NH3N、TP、TN、CODMn四項指標重構(gòu)信號與原始信號的最大絕對誤差分別為1.02×10-11、4.45×10-13、1.60×10-11、6.19×10-12,可見重構(gòu)信號與原信號誤差很小,可忽略不計,表明離散小波分解具有重現(xiàn)原始數(shù)據(jù)的能力。
2.3.2 預(yù)測結(jié)果對比分析
使用基于小波分析的LSTM 模型對前173 組數(shù)據(jù)進行訓(xùn)練,對后19組做出預(yù)測。設(shè)置求解器為Adam,隱藏層節(jié)點數(shù)為128,每次預(yù)測進行300 輪訓(xùn)練,不斷調(diào)整batch_size(批量大小)及l(fā)earning_rate(學(xué)習(xí)率),使模型不僅具有較高的預(yù)測精度,還能達到快速收斂的效果。為避免實驗中偶然因素,每組實驗進行5 次預(yù)測。經(jīng)多次實驗確定最優(yōu)模型參數(shù)如表1所示。將各個頻段的預(yù)測結(jié)果融合,實現(xiàn)小波重構(gòu),獲得單因子預(yù)測水質(zhì)濃度。再將原始信號輸入傳統(tǒng)的LSTM 模型,前173 個數(shù)據(jù)訓(xùn)練模型,預(yù)測后19個時間點的各項水質(zhì)指標濃度。盱眙化肥廠水質(zhì)監(jiān)測站LSTM 及WA-LSTM 單因子預(yù)測結(jié)果如圖6所示,預(yù)測結(jié)果精度如表2所示。
表1 LSTM及WA-LSTM 網(wǎng)絡(luò)設(shè)置參數(shù)Tab.1 Parameters of LSTM and WA-LSTM network
由圖6可以看出,傳統(tǒng)LSTM 模型雖能預(yù)測出水質(zhì)變化趨勢,但存在較大誤差,對于變化細節(jié)以及突變點預(yù)測精度不足:NH3N 指標未能預(yù)測兩次(編號6-9)突變現(xiàn)象,且在后期(編號16-19)預(yù)測誤差顯著增大;TP 指標未能預(yù)測出濃度的陡落(編號5-6)及陡升(編號16-17);TN 指標在極大值(編號2、10、14)處的預(yù)測精度較低;CODMn預(yù)測值普遍低于實際值。而基于小波變換的LSTM 模型預(yù)測誤差明顯小于傳統(tǒng)LSTM 模型,不僅能準確預(yù)測變化趨勢,而且預(yù)測值與實測值十分接近。根據(jù)表2對模型進行性能分析:WA-LSTM模型的預(yù)測結(jié)果RMSE均小于LSTM,說明WA-LSTM 模型單因子預(yù)測值與實測值誤差較?。籛A-LSTM 模型決定系數(shù)R2均接近1.0 且遠大于LSTM,表明WA-LSTM 模型性能較好,預(yù)測結(jié)果較為準確。其中TN 的預(yù)測結(jié)果精度較高,CODMn指標精度較低,但均在誤差允許范圍內(nèi)。單因子預(yù)測結(jié)果是后續(xù)模糊神經(jīng)網(wǎng)絡(luò)綜合水質(zhì)預(yù)測的基礎(chǔ),因此為確保綜合水質(zhì)預(yù)測的有效性,選用WA-LSTM 單因子預(yù)測結(jié)果作為綜合水質(zhì)預(yù)測的輸入。
表2 單因子預(yù)測精度Tab.2 Accuracy of single factor prediction
由于水質(zhì)評價真實數(shù)據(jù)較少,采用等隔均勻分布方式內(nèi)插水質(zhì)指標標準數(shù)據(jù)生成訓(xùn)練樣本和測試樣本,采用的水質(zhì)指標標準數(shù)據(jù)見表3。
表3 地表水環(huán)境質(zhì)量標準mg/LTab.3 Surface Water Environmental Quality Standard
考慮盱眙化肥廠站TN 指標超標較為嚴重,因此區(qū)分包含TN和不包含TN進行綜合水質(zhì)預(yù)測。根據(jù)訓(xùn)練樣本的維度確定輸入層節(jié)點數(shù),結(jié)合經(jīng)驗公式及試錯法確定模糊層節(jié)點數(shù),最終確定含TN 的綜合水質(zhì)預(yù)測模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為4-8-1,不含TN 的綜合水質(zhì)預(yù)測模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為3-6-1;根據(jù)水質(zhì)指標評價標準,生成350 組訓(xùn)練樣本,50 組測試樣本,對單因子預(yù)測的19組結(jié)果進行綜合水質(zhì)預(yù)測,預(yù)測結(jié)果如表4所示。
由表4可知,將WA-LSTM 單因子預(yù)測作為水質(zhì)綜合預(yù)測模型輸入,計算結(jié)果與實測數(shù)據(jù)綜合評價結(jié)果基本相同。在TN參評情況下,預(yù)測結(jié)果與真實值完全一致,在預(yù)測時間段內(nèi)盱眙化肥廠站水質(zhì)始終處于V 類水平,水質(zhì)較差。在TN 不參評時,預(yù)測值與真實值稍有偏差,預(yù)測準確率為78.9%,盱眙化肥廠站通常處于III~IV 類標準且在預(yù)測時間內(nèi)有好轉(zhuǎn)趨勢,將III類標準作為洪澤湖目標水質(zhì)標準,若TN 參評,則達標次數(shù)為0,若TN 不參評,實際達標次數(shù)為5 次,預(yù)測達標次數(shù)為3 次,可見預(yù)測水質(zhì)情況稍劣于實際情況。該評價結(jié)果與洪澤湖湖區(qū)水質(zhì)狀況相似,進一步驗證了將淮河作為洪澤湖主要污染來源進行分析的可靠性。從評價結(jié)果來看,淮河入洪澤湖水質(zhì)情況雖有好轉(zhuǎn),但TN 仍為超標的主要污染物,需嚴格把控淮河入洪澤湖河口的水質(zhì),加大檢測力度,采取改善水質(zhì)的干預(yù)措施,以此改善洪澤湖湖區(qū)的水生態(tài)環(huán)境。
表4 T-S模糊神經(jīng)網(wǎng)絡(luò)綜合水質(zhì)預(yù)測結(jié)果Tab.4 Results of T-S fuzzy neural network comprehensive water quality prediction
本研究利用WA-LSTM 模型與模糊神經(jīng)網(wǎng)絡(luò)結(jié)合建立了水質(zhì)綜合預(yù)測模型,將其運用于洪澤湖入湖水質(zhì)的綜合預(yù)測與評價,主要得到以下兩個結(jié)論。
(1)由于單項水質(zhì)指標經(jīng)過小波分解后再利用長短記憶神經(jīng)網(wǎng)絡(luò)模型進行時間序列預(yù)測更能準確地反映整體趨勢,把握變化細節(jié),因此與傳統(tǒng)LSTM 模型相比,WA-LSTM 水質(zhì)預(yù)測誤差更小且模型性能更好。
(2)基于T-S的模糊神經(jīng)網(wǎng)絡(luò)綜合水質(zhì)預(yù)測模型,可以有效解決單因子預(yù)測不能解釋水質(zhì)整體情況的問題,其與WALSTM 模型的耦合使用不僅能夠較好地處理水質(zhì)這種高噪聲數(shù)據(jù),還可以保持較好的泛化性。□