周添一,徐 慶,劉振鴻,高 品
(1.東華大學(xué) 環(huán)境科學(xué)與工程學(xué)院,上海 201620;2.上海市環(huán)境監(jiān)測中心,上海 200235)
溶解氧(dissolved oxygen,DO)是評價水體質(zhì)量及水生態(tài)系統(tǒng)安全的關(guān)鍵水質(zhì)指標(biāo)之一,是水體自凈的重要條件[1],能夠反映水體受污染程度,同時也是地表水環(huán)境質(zhì)量考核指標(biāo)之一[2-3],因此監(jiān)測并預(yù)警水體DO質(zhì)量濃度對維持水生態(tài)安全,以及地表水環(huán)境質(zhì)量考核和環(huán)境管理決策具有重要意義。
水體中DO質(zhì)量濃度受溫度、pH、耗氧污染物濃度等因素影響顯著[4],具有時序性、非線性、不穩(wěn)定性等特征。目前,針對水體DO質(zhì)量濃度的傳統(tǒng)預(yù)測方法主要有回歸預(yù)測法[5]、時間序列法[6]、水質(zhì)模型預(yù)測法等。例如:于慧等[7]采用優(yōu)化后的灰色GM(1,1)模型對海河三岔口斷面的DO等多項指標(biāo)年度變化趨勢進(jìn)行預(yù)測,效果良好,預(yù)測指標(biāo)的相對誤差為7.5%。石子泊等[8]采用自回歸差分移動平均模型結(jié)合小波變換對黑龍江黑河流域未來5星期的DO質(zhì)量濃度進(jìn)行預(yù)測,預(yù)測平均絕對百分誤差(mean absolute percentage error,MAPE)約為0.29%,均方根誤差(root mean square error,RMSE)為2.23 mg/L,但由于以7 d為單位時間對DO質(zhì)量濃度進(jìn)行預(yù)測,預(yù)測頻率低,無法為在線水質(zhì)監(jiān)測提供預(yù)警依據(jù)。吳慧英等[9]結(jié)合主成分分析(principal component analysis,PCA)和支持向量機(supporting vector machine,SVM)法對養(yǎng)殖池塘DO質(zhì)量濃度進(jìn)行預(yù)測,結(jié)果表明其MAPE和RMSE值分別為3.43%和2.19 mg/L,但SVM算法難以實現(xiàn)大規(guī)模訓(xùn)練樣本,對大體量的水質(zhì)監(jiān)測數(shù)據(jù)利用率較低。
人工神經(jīng)網(wǎng)絡(luò)具有強大的非線性建模能力、自主學(xué)習(xí)能力和容錯能力,以及對非線性數(shù)據(jù)預(yù)測具有精確度高等優(yōu)點[10],已被廣泛應(yīng)用于水質(zhì)預(yù)測研究和實踐[11-12]。非線性有源自回歸模型(nonlinear autoregressive with exogenous inputs,NARX)是一種外部輸入型的動態(tài)神經(jīng)網(wǎng)絡(luò)模型,可較好地描述動態(tài)系統(tǒng)特征,實現(xiàn)對復(fù)雜動態(tài)系統(tǒng)的建模。Tripura等[13]采用NARX神經(jīng)網(wǎng)絡(luò)模型對印度阿薩姆邦巴拉克河體積流量進(jìn)行預(yù)測,取得了理想的預(yù)測效果。Sofiane等[14]建立的一種基于NARX神經(jīng)網(wǎng)絡(luò)的預(yù)測模型用于預(yù)測短期水流量的變化趨勢,準(zhǔn)確預(yù)測時間可達(dá)12 h。劉墨陽等[15]結(jié)合NARX神經(jīng)網(wǎng)絡(luò)模型與小波分析法對水位進(jìn)行預(yù)測,結(jié)果表明其短期預(yù)測效果較好。本文以上海市某主要支流具有代表性的河流監(jiān)測斷面為研究對象,基于PCA和灰色關(guān)聯(lián)分析(grey relation analysis,GRA)優(yōu)化的NRAX神經(jīng)網(wǎng)絡(luò)模型,即PCA-NARX和GRA-NARX模型,對比分析兩種模型對時間序列DO質(zhì)量濃度變化的短期(48 h)預(yù)測效果,以期為地表水水質(zhì)預(yù)測和監(jiān)管提供方法借鑒。
NARX神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),由于其在輸入層加入了延時層與反饋層,因此輸入的信息同時包含當(dāng)前時刻的輸入值與歷史時刻的輸出值,可反映系統(tǒng)的歷史狀態(tài)信息,具有更好的預(yù)測精度和自適應(yīng)能力,是一種有記憶功能的神經(jīng)網(wǎng)絡(luò)[16-17],其網(wǎng)絡(luò)結(jié)構(gòu)模型如圖1所示。圖中,x(t),…,x(t-n)為輸入,n為輸入階數(shù),y(t)為輸出,y(t-1),…,y(t-d)為歷史時刻的輸出,d為延遲層的階數(shù)。
圖1 NARX神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖Fig.1 Diagram of NARX neural network model structure
PCA是一種多元統(tǒng)計方法,通常被用于對原始數(shù)據(jù)進(jìn)行特征提取和降維,其可將高維的多變量問題轉(zhuǎn)化到低維的少變量空間中進(jìn)行處理[18],不僅可以減少網(wǎng)絡(luò)模型輸入變量的個數(shù),而且可以簡化網(wǎng)絡(luò)模型結(jié)構(gòu),計算步驟主要包括數(shù)據(jù)標(biāo)準(zhǔn)化、計算協(xié)方差矩陣、計算特征值與特征向量、計算主成分的貢獻(xiàn)率和累計貢獻(xiàn)率[19]。
GRA是一種通過判斷各因素之間發(fā)展趨勢的相似程度,進(jìn)而衡量各因素之間關(guān)聯(lián)程度的方法[20],計算過程較為簡單,原理主要是通過計算與目標(biāo)序列的關(guān)聯(lián)度并進(jìn)行排序,進(jìn)而獲得與其關(guān)聯(lián)度較高的序列[21]。本文利用GRA法篩選與DO質(zhì)量濃度關(guān)聯(lián)度較高的指標(biāo)以簡化網(wǎng)絡(luò)模型結(jié)構(gòu),提高預(yù)測準(zhǔn)確度。
選取RMSE、MAPE和Pearson相關(guān)系數(shù)r評價預(yù)測模型性能。其中:RMSE用于描述預(yù)測值與真實值之間的偏差,RMSE值越小,預(yù)測結(jié)果越準(zhǔn)確;MAPE可反映預(yù)測值偏離真實值的百分比;r用于描述模型擬合度,其值越接近1,擬合度越好。具體計算公式如式(1)~(3)所示。
(1)
(2)
(3)
本文以上海市某主要支流具有代表性的監(jiān)測斷面的枯水期水質(zhì)監(jiān)測結(jié)果為基礎(chǔ),選取2019年1月14日0時至2月19日4時的水質(zhì)監(jiān)測數(shù)據(jù),包括pH、濁度、水溫、DO、電導(dǎo)率、總氮、氨氮、總磷、水中油、水中有機物(UV254)和氧化還原電位(oxidation-reduction potential,ORP)11個指標(biāo),每4 h獲取一組數(shù)據(jù),共212組數(shù)據(jù)。其中,前200組用于模型訓(xùn)練,后12組用于驗證模型預(yù)測結(jié)果的準(zhǔn)確性。
2.2.1 空白數(shù)據(jù)補全
由于監(jiān)測設(shè)備故障等原因,提取原始數(shù)據(jù)時發(fā)現(xiàn)有數(shù)據(jù)缺失,因此在數(shù)據(jù)處理時,對缺失的數(shù)據(jù)采用前一天同一時間點與其前后時間點的平均值進(jìn)行填補,如式(4)所示。
(4)
式中:xi為第i時刻的DO質(zhì)量濃度。
2.2.2 異常數(shù)據(jù)判斷
2.2.3 數(shù)據(jù)相關(guān)性分析
計算DO與其他水質(zhì)指標(biāo)之間的Pearson相關(guān)系數(shù),如表1所示。由表1可知,DO與氨氮、電導(dǎo)率和總氮的相關(guān)系數(shù)分別為-0.83、-0.78和-0.73,均有p<0.01,表明DO與氨氮、電導(dǎo)率和總氮之間具有顯著相關(guān)性。
表1 DO與其他水質(zhì)指標(biāo)之間的Pearson相關(guān)系數(shù)Table 1 Pearson correlation coefficients between DO and other water quality indices
2.3.1 PCA-NARX模型外部輸入變量的確定
根據(jù)PCA方法原理,對除DO外的10項水質(zhì)指標(biāo)進(jìn)行主成分提取,分別計算主成分特征值λi、貢獻(xiàn)率ei和累計貢獻(xiàn)率P,結(jié)果如表2所示。
由表2可知,前3個主成分的特征值大于1,且累計貢獻(xiàn)率為 84.62%>80%,因此可將這3個主成分作為NARX神經(jīng)網(wǎng)絡(luò)模型的輸入。通過主成分提取,將原來10維的輸入降至3維,可簡化模型網(wǎng)絡(luò)結(jié)構(gòu)。3個主成分的成分矩陣如表3所示。
表2 主成分分析計算結(jié)果Table 2 Results of principal component analysis
表3 主成分成分矩陣Table 3 Principal component matrix
2.3.2 GRA-NARX模型外部輸入變量的確定
根據(jù)GRA方法原理,確定DO與其他各水質(zhì)指標(biāo)之間的關(guān)聯(lián)度和主次順序,結(jié)果如表4所示。
由表4可知,pH、水中油和ORP與DO的關(guān)聯(lián)度較大,分別為0.796、0.709和0.736,因此將pH、ORP和水中油作為NARX神經(jīng)網(wǎng)絡(luò)模型的外部輸入。
表4 DO與其他各水質(zhì)指標(biāo)之間的灰色關(guān)聯(lián)度Table 4 Grey relation between DO and other water quality indices
2.3.3 模型網(wǎng)絡(luò)結(jié)構(gòu)的確定
(1)數(shù)據(jù)選取及劃分。在確定的200組數(shù)據(jù)樣本集中,以3項主成分和3項灰色關(guān)聯(lián)度較高的水質(zhì)指標(biāo)分別為PCA-NARX和GRA-NARX的外部輸入,同時以原始數(shù)據(jù)中48 h后的DO質(zhì)量濃度為輸出,選取數(shù)據(jù)樣本的70%作為訓(xùn)練集,主要用于模型數(shù)據(jù)的訓(xùn)練和擬合,同時各選取15%數(shù)據(jù)樣本作為驗證集和測試集,驗證網(wǎng)絡(luò)泛化能力和模型預(yù)測精度。此外,選用‘trainlm’作為網(wǎng)絡(luò)的訓(xùn)練函數(shù),根據(jù)Levenberg-Marquardt算法(簡稱L-M算法)進(jìn)行優(yōu)化以更新權(quán)值。
(2)隱含層神經(jīng)元數(shù)量的確定。PCA-NARX和GRA-NARX神經(jīng)網(wǎng)絡(luò)模型的輸入層數(shù)均為3,輸出層數(shù)均為1,隱含層神經(jīng)元數(shù)量可通過經(jīng)驗公式確定其范圍,如式(5)所示。
(5)
圖2 不同隱含層神經(jīng)元數(shù)量下的RMSE、MAPE和r值比較Fig.2 Comparison of RMSE,MAPE and r values with different number of neurons in the hidden layer
分析圖2可知,PCA-NARX和GRA-NARX神經(jīng)網(wǎng)絡(luò)模型在隱含層神經(jīng)元數(shù)量分別為6和9時性能最優(yōu),模型擬合度最好。最優(yōu)條件下,PCA-NARX模型的RMSE、MAPE和r值分別為0.577 mg/L、4.29%和0.876,而GRA-NARX模型的RMSE、MAPE和r值分別為0.509 mg/L、4.16%和0.881。相比之下,GRA-NARX模型整體性能更優(yōu)。基于此,本研究選取隱含層神經(jīng)元數(shù)量為9時的GRA-NARX模型進(jìn)行后續(xù)調(diào)試。
(3)延遲層階數(shù)的確定。目前,針對如何確定延遲層階數(shù)暫無相應(yīng)的理論指導(dǎo),本研究選取延遲層階數(shù)為4~8,通過對比GRA-NARX神經(jīng)網(wǎng)絡(luò)模型在相同隱含層神經(jīng)元數(shù)量條件下整體RMSE、MAPE和r值,進(jìn)而確定延遲層階數(shù),結(jié)果如表5所示。由表5可知,當(dāng)延遲層階數(shù)為6時,模型整體性能最好。
表5 GRA-NARX神經(jīng)網(wǎng)絡(luò)模型在不同延遲層 階數(shù)下的RMSE、MAPE和r值Table 5 RMSE,MAPE and r values of GRA-NARX neural network model with different delay sizes
基于上述確定的模型網(wǎng)絡(luò)結(jié)構(gòu),對GRA-NARX和PCA-NARX神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
DO質(zhì)量濃度預(yù)測值和誤差(預(yù)測值與真實值的差)的時間序列變化情況分別如圖3和4所示。由圖3和4可以看出,GRA-NARX和PCA-NARX模型對DO質(zhì)量濃度的預(yù)測值均與實測值變化趨勢一致,誤差值在0上下波動,表明模型預(yù)測值與實測值吻合度均較好。相比PCA-NARX模型,GRA-NARX模型對DO質(zhì)量濃度的預(yù)測性能更好,預(yù)測值與實測值之間的貼合度更高,誤差值波動更小。由模型訓(xùn)練結(jié)果可知,GRA-NARX神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度優(yōu)于PCA-NARX模型。
圖3 GRA-NARX和PCA-NARX神經(jīng)網(wǎng)絡(luò)模型對DO質(zhì)量濃度的預(yù)測結(jié)果Fig.3 Prediction results of DO mass concentration with GRA-NARX and PCA-NARX neural network models
圖4 GRA-NARX和PCA-NARX神經(jīng)網(wǎng)絡(luò)模型對DO質(zhì)量濃度預(yù)測誤差變化情況Fig.4 Prediction errors of DO mass concentration with GRA-NARX and PCA-NARX neural network models
為評估并驗證神經(jīng)網(wǎng)絡(luò)模型對DO質(zhì)量濃度的預(yù)測效果,本文分別采用NARX、PCA-NARX和GRA-NARX神經(jīng)網(wǎng)絡(luò)模型對未來連續(xù)48 h的DO質(zhì)量濃度進(jìn)行預(yù)測,并將預(yù)測結(jié)果與實測值進(jìn)行對比,結(jié)果如圖5和表6所示。由圖5可以看出,優(yōu)化后的PCA-NARX和GRA-NARX模型優(yōu)于單獨NARX模型的預(yù)測效果。這主要是因為PCA和GRA方法可有效降低預(yù)測模型輸入的維數(shù),簡化了模型系統(tǒng)結(jié)構(gòu),而優(yōu)化選取的輸入變量能夠更大程度地體現(xiàn)其與輸出DO質(zhì)量濃度之間的關(guān)聯(lián)性,從而提高了模型預(yù)測精度。由表6可以看出,NARX、PCA-NARX和GRA-NARX模型對未來24 h的DO質(zhì)量濃度的預(yù)測RMSE值分別為0.433、0.276和0.173 mg/L,MAPE值分別為4.37%、3.13%和1.16%。由此可見,GRA-NARX的預(yù)測效果比NARX和PCA-NARX模型更好,其RMSE和MAPE值相比NARX模型分別降低60.0%和73.5%,相比PCA-NARX模型分別降低37.3%和62.9%。這是因為GRA方法可以在多變量的復(fù)雜體系中優(yōu)化提取與DO關(guān)聯(lián)度更高的變量作為輸入,能夠更好地反映和描述DO質(zhì)量濃度的變化情況,可提高NARX模型的預(yù)測效果與預(yù)測精度。
圖5 DO質(zhì)量濃度短期(48 h)預(yù)測效果及誤差分析Fig.5 Short-term (48 h)prediction of DO mass concentration and error analysis
表6 NARX、GRA-NARX、PCA-NARX神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能對比Table 6 Comparison of prediction performance of NARX,GRA-NARX,and PCA-NARX neural network models
隨著預(yù)測時間的延長,GRA-NARX神經(jīng)網(wǎng)絡(luò)模型對短期DO質(zhì)量濃度的預(yù)測精度也出現(xiàn)些許下降。盡管如此,當(dāng)預(yù)測時間為36 h時,DO質(zhì)量濃度預(yù)測誤差仍可控制在-0.5~0.5 mg/L(見圖5),預(yù)測RMSE和MAPE值分別為0.261 mg/L和1.98%。需要注意的是,當(dāng)預(yù)測時間從40 h延長至48 h時,DO質(zhì)量濃度預(yù)測值與實測值偏差較大,這可能與DO質(zhì)量濃度實測值大幅度波動有關(guān)。此時,DO質(zhì)量濃度實測值相應(yīng)地從10.25 mg/L降至8.52 mg/L,而與顯著相關(guān)的總氮和氨氮實測值則分別從3.43和0.90 mg/L升高至4.85和2.28 mg/L??紤]到目標(biāo)監(jiān)測斷面水質(zhì)變化較為平穩(wěn),在短時間內(nèi)出現(xiàn)大幅波動可能與水質(zhì)異常情況的發(fā)生有關(guān)。由此可見,本文GRA-NARX神經(jīng)網(wǎng)絡(luò)模型可以實現(xiàn)水體DO質(zhì)量濃度的短期預(yù)測,此外還能對與其具有顯著相關(guān)性的水質(zhì)指標(biāo)進(jìn)行關(guān)聯(lián)預(yù)測,識別水質(zhì)異常情況,這對地表水體水質(zhì)預(yù)測及預(yù)警具有較好的實踐意義。
分別采用NARX、PCA-NARX和GRA-NARX神經(jīng)網(wǎng)絡(luò)模型對地表水體短期(48 h)DO質(zhì)量濃度進(jìn)行預(yù)測,并對其預(yù)測精度和效果進(jìn)行對比分析,結(jié)果表明:
(1)GRA-NARX神經(jīng)網(wǎng)絡(luò)模型對時間序列DO質(zhì)量濃度的預(yù)測效果優(yōu)于NARX和PCA-NARX模型,當(dāng)隱含層神經(jīng)元數(shù)量為9,延遲層階數(shù)為6時,GRA-NARX模型的RMSE和MAPE值分別為0.509 mg/L和4.16%。
(2)基于已有數(shù)據(jù)的訓(xùn)練學(xué)習(xí),GRA-NARX神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果較好,在24 h內(nèi)對DO質(zhì)量濃度預(yù)測的RMSE和MAPE值分別為0.173 mg/L和1.16%。隨著預(yù)測時間的延長,預(yù)測精度雖出現(xiàn)小幅下降,但在36 h內(nèi)預(yù)測誤差仍可控制在-0.5~0.5 mg/L,預(yù)測指標(biāo)的RMSE和MAPE值分別為0.261 mg/L和1.98%。
本文對地表水體枯水期DO質(zhì)量濃度進(jìn)行模型預(yù)測并取得了較好的預(yù)測效果,后期將考慮采用數(shù)據(jù)降噪等手段提高模型預(yù)測精度,同時結(jié)合DO與其他相關(guān)性指標(biāo)對總氮和氨氮等水質(zhì)指標(biāo)進(jìn)行預(yù)測,以期為水質(zhì)預(yù)測及預(yù)警提供技術(shù)支撐。