王昱文,杜震洪*,戴震,劉仁義,張豐
(1.浙江大學 浙江省資源與環(huán)境信息系統(tǒng)重點實驗室,浙江 杭州 310028;2.浙江大學地理信息科學研究所,浙江 杭州 310027)
基于復合神經網絡的多元水質指標預測模型
王昱文1,2,杜震洪1,2*,戴震1,2,劉仁義1,2,張豐1,2
(1.浙江大學 浙江省資源與環(huán)境信息系統(tǒng)重點實驗室,浙江 杭州 310028;2.浙江大學地理信息科學研究所,浙江 杭州 310027)
長江流域在我國水資源配置體系中具有重要地位,對其進行水質預測尤為重要?;诂F有研究結果,結合循環(huán)神經網絡(recurrent neural network,RNN)中的門控循環(huán)單元(gate recurrent unit,GRU)模型與全連接神經網絡(fully connected neural network,FCNN),提出了改進的多元水質指標預測(MWQPP)模型,并用其預測長江流域水體的pH、溶解氧(DO)、高錳酸鹽指數(CODMn)、氨氮(NH3-N)?;陂L江流域2011—2018年23個水質監(jiān)測點7 566條原始數據,經對比實驗,證明了用MWQPP模型預測得到的均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和決定系數(R2)均優(yōu)于傳統(tǒng)水質預測模型,有效提升了水質預測的精度,具有較好的魯棒性,為水質預測和流域管理提供了科學支撐。
水質預測;人工神經網絡;門控循環(huán)單元(GRU);全連接神經網絡(FCNN)
我國水系主要分為長江、黃河、松花江、珠江、海河、淮河和遼河七大流域。其中,長江流域指長江干流和支流流經的區(qū)域,長江作為我國第一大河,干流全長超過6 300 km,自西而東流經11個?。ㄖ陛犑?、自治區(qū)),支流展延至8個?。ㄗ灾螀^(qū)),流域面積達1.80×106km2,覆蓋全國約19%的區(qū)域。因此,長江流域在我國水資源配置中具有重要地位,其水質變化深刻影響社會經濟的發(fā)展,對其進行水質預測與評估顯得尤為重要。然而,目前大多研究主要集中于水質評估,針對長江流域水質預測的研究不多。
現有的水質預測方法主要有水質模擬模型、時間序列分析、回歸分析、傳統(tǒng)機器學習、人工神經網絡等。水質模擬模型是早期廣泛使用的一種水質研究方法,通過選取一系列水質指標,建立數學模型,預測未來水質變化,如WASP模型[1]、QUAL模型[2]、SWAT模型[3]等。這些模型可以較準確地模擬基本水質規(guī)律,但往往只適用于小范圍水域,如特定的水庫、湖泊、河流等,通用性欠佳。時間序列分析,運用加權平均等數學方法建立模型,其中的自回歸方法常被用于中、短期水質預測,如自回歸(AR)模型[4]、自回歸差分滑動平均(ARIMA)模型[5]等。其優(yōu)點是無須依賴外生變量;但存在以下限制:只能用自身的歷史數據進行預測,且需要足夠長歷史序列;數據必須具有自相關性;數據必須為平穩(wěn)性序列,否則要先進行差分運算,易造成信息損失;只能捕捉線性關系,對非線性關系捕捉不佳?;貧w分析,用回歸方程擬合自變量和因變量的關系,在預測水質時,往往需先分析水質指標之間的相關系數,再據此回歸預測特定指標,常用的有線性回歸模型、嶺回歸分析、多元回歸分析[6]等。對于受多種因素互相作用影響的水環(huán)境,考慮多變量的回歸分析具有獨特優(yōu)勢,當情況簡單時預測效果較好,然而即使是非線性回歸,每個單元也需進行線性組合,因此回歸分析難以很好地表達高度復雜的數據。
傳統(tǒng)機器學習以機器模擬人的學習機制,在學習過程中不斷完善。常用的有支持向量回歸[7]、隨機森林、決策樹等,也有將機器學習算法與各種參數優(yōu)化算法相結合,如變分模態(tài)分解(VMD)[8]、遺傳算法(GA)[9]等。因機器學習算法高度非線性,非常適合水質預測,能從原始特征中學習高級特征,從而更好地擬合數據波動,但模型的解釋性較差。人工神經網絡是實現機器學習的一種手段,其由多個神經元連接而成,通??蓜澐譃檩斎雽印㈦[藏層、輸出層,隨著計算機運算能力的提升,人工神經網絡逐漸在各個領域得到推廣。因人工神經網絡具有非線性和自學習能力,在水質預測中具有獨特優(yōu)勢,例如王曉萍等[10]利用反向傳播(back propagation,BP)神經網絡預測了錢塘江水質指標;宓云軿等[11]采用LM-BP神經網絡和支持向量機預測了化學需氧量的變化情況;SAIFUL等[12]在紅樹林河口區(qū)海水水質指數預測中,發(fā)現引入ANN較多元線性回歸結果更好;RAJAEE等[13]綜合比較了ARIMA等水質模擬模型與SVR、ANN及多方法復合模型之間的差別,發(fā)現加入神經網絡后水質預測性能得到了提升;TA等[14]將CNN運用于溶解氧的預測,獲得了較傳統(tǒng)BP神經網絡更好的結果。
目前用于水質預測的人工神經網絡主要有全連接神經網絡(fully connected neural network,FCNN)、循環(huán)神經網絡(recurrent neural network,RNN)、基于長短期記憶神經網絡(long short-term memory networks,LSTM)模型改進的RNN等。例如NOORI等[15]提出的結合SWAT的FCNN模型,WANG等[16]利用CNN-LSTM復合模型預測了城市污水的化學需氧量。近年來,有學者將門控循環(huán)單元(gate recurrent unit,GRU)模型引入水質預測領域,如TU等[17]提出的CNN-GRU復合模型,但GRU模型的應用仍較少。
針對長江流域的研究現狀和傳統(tǒng)水質預測方法的不足,本研究使用多模塊GRU,在長期記憶和反向傳播中保留長期序列信息,避免梯度消失問題的發(fā)生,考慮指標間的互相影響,并聯(lián)輸入多層全連接(FC),以提高模型穩(wěn)定性,最終構建了針對長江流域的多元水質指標預測(multivariate water quality parameter prediction,MWQPP)模型。同時設計了相關實驗和模型評級體系,并與多元線性回歸、隨機森林、全連接神經網絡、LSTM神經網絡等模型進行了對比,證明MWQPP模型具有較高的準確性和良好的魯棒性。
BP神經網絡是最傳統(tǒng)的神經網絡之一,使用的是反向傳播算法。FCNN是其基礎模型,可分為輸入層、隱藏層、輸出層,隱藏層常有多層,每一層的輸出為下一層的輸入,以非線性函數進行激活。
在BP神經網絡訓練中,用損失函數反映每次迭代(epoch)的前向計算結果與真實值之間的差距,用梯度下降法更新權重,逼近損失函數的最小值,利用BP原理求解梯度,指導下一迭代的訓練不斷向最優(yōu)解靠攏。常用的有均方差損失函數、指數損失函數、交叉熵損失函數等。BP神經網絡的訓練流程如下:
Step 1 用自定義的參數初始值,進行前向傳播,計算輸出的預測值;
Step 2 用損失函數計算預測值和標簽值(真實值)之間的誤差;
Step 3 計算損失函數的導數,根據梯度最小方向,反向修正前向傳播中的權重;
Step 4 多次迭代,當損失函數值滿足要求或迭代次數達到上限時,停止訓練。
圖1 FCNN結構Fig.1 The structure of FCNN
RNN模擬了生物的循環(huán)反饋系統(tǒng),由于能關聯(lián)上下文信息,非常適合處理序列數據,其在自然語言處理、時間序列預測等領域大放異彩。但是,當序列較長時,標準RNN易出現梯度消失(gradient vanishing)或梯度爆炸(gradient exploding)等問題。
為解決上述問題,HOCHREITER等[18]引入了門機制,提出LSTM,在RNN基礎上增加了3個門控(gate)單元,分別為遺忘門(forget gate)、輸入門(input gate)、輸出門(output gate),用于記憶之前的信息,但復雜的結構令網絡訓練成本升高。CHO等[19]對LSTM進行了優(yōu)化,提出基于GRU的神經網絡,門控單元由原來的3個變?yōu)?個,分別為重置門(reset gate)和更新門(update gate),從而提高了網絡訓練效率。
圖2 GRU結構原理Fig.2 The structure principle of GRU
長江流域覆蓋19個?。ㄖ陛犑小⒆灾螀^(qū)),年平均水量達9 959×108m2,約占我國水資源總量的36%;單位面積(km2)水量約60×104m3,是全國平均值的2倍,充沛的水資源為我國地區(qū)社會經濟的平穩(wěn)發(fā)展提供了有力保障。國家地表水環(huán)境質量監(jiān)測網在長江流域內設置了約500個監(jiān)測斷面,時刻關注其水質情況。本研究共涉及湖南長沙新港、湖南岳陽城陵磯、湖南益陽萬家嘴、湖南常德沙河口、湖南常德坡頭、湖南岳陽岳陽樓、湖北宜昌南津關、湖北武漢宗關、湖北丹江口胡家?guī)X、江蘇揚州三江營、江蘇南京林山、重慶朱沱、河南南陽陶岔、安徽安慶皖河口、貴州赤水鰱魚溪、江西九江蛤蟆石、江西九江河西水廠、江西南昌滁槎、四川樂山岷江大橋、四川廣元清風峽、四川宜賓涼姜溝、四川攀枝花龍洞、四川瀘州沱江二橋等23個水質監(jiān)測站,共7 566條原始數據。
原始數據源自環(huán)保部環(huán)境監(jiān)測總站地表水水質自動監(jiān)測發(fā)布網站發(fā)布的2011—2018年水質監(jiān)測數據,以周(w)為單位,對pH、溶解氧(DO)、高錳酸鹽指數(CODMn)、氨氮(NH3-N)等4項水質指標進行預測?!兜乇硭h(huán)境質量標準GB3838—2002》將水質從高到低劃分為Ⅰ~Ⅴ類,其中包含對上述4項指標的評判標準,本研究所用數據集的最小值、最大值及對應評價標準如表1所示。
表1 《地表水環(huán)境質量標準GB3838—2002》中水質指數評價標準Table 1 Water quality index evaluation criteria of Environmental Quality Standard for Surface WaterGB3838-2002
由于數據集中個別指數空缺、部分周數據缺失,因此首先用線性插值法填補缺失數據。
接著,從上述樣本數據集中隨機抽取其中的80%作為訓練集,10%作為驗證集,10%作為測試集。
最后,基于訓練集對輸入數據進行標準化預處理,從而規(guī)范數據,提高神經網絡的訓練效率和模型精度。因為不同維度的輸入指標具有不同的量綱和取值范圍,數據間差異很大,若不進行標準化預處理,則會影響模型的運算結果。
本研究采用z-score標準化方法對原始水質指標進行預處理。z-score標準化也叫標準差標準化,依據原始數據的均值(mean)和標準差(standard deviation)進行計算,處理后的數據符合標準正態(tài)分布,即均值為0,標準差為1。計算式為
基于預處理后得到的數據,設計GRU-FC復合神經網絡。為提高模型梯度下降的效率與穩(wěn)定性,集成小批量梯度下降(mini-batch gradient descent,MBGD)和自適應矩估計(adaptive moment estimation,ADAM)優(yōu)化算法,構建多元水質指標預測(multivariate water quality parameter prediction,MWQPP)模型。MBGD與ADAM算法分別通過不同原理實現模型訓練過程的優(yōu)化。
MBGD算法將數據集劃分為多個小批量(mini-batch)數據,一次只訓練其中一個,這樣可在每個mini-batch訓練結束后更新權重和偏差,一代訓練中可以調整多次,使梯度下降速度更快;同時由多個數據共同決定梯度的下降速度,訓練過程較隨機梯度下降法更穩(wěn)定,不易產生大的振蕩。本模型的mini-batch設置為64。
ADAM算法將動量(momentum)梯度下降算法與均方根傳遞(root mean square prop,RMSProp)算法相結合,其中動量用指數加權平均代替梯度,RMSProp用權重w和偏置b的梯度的微分平方加權平均代替梯度,以減少梯度下降過程中的擺動,加快逼近速度。
在模型結構上,MWQPP模型可分為輸入層、多模塊GRU層、并聯(lián)FC層、輸出層。
首先,將4項水質指標輸入各自獨立的GRU模塊,模塊內使用多層GRU,pH、DO、CODMn、NH3-N的GRU層數對應的單元數分別為(32,16)(32,8,4)(16,8)(64)。
其次,將4個GRU模塊的輸出數據進行并聯(lián)操作,然后輸入FC層,使用多層FC層模擬各水質指標之間的關系,調節(jié)模型的穩(wěn)定性。共使用3層FC層,各層神經元個數分別為16,64,4,激活函數為縮放指數線性單元(scaled exponential linear unit,SELU),其中最后一層為輸出層,用于輸出目標時刻的水質指標預測值。
本模型以堆疊的方式組合各神經網絡層,用均方誤差(mean square error,MSE)作為損失函數。模型構建流程如下:
Step 1 對數據集進行篩選、標準化等預處理操作;
Step 2 根據選定的滑動窗口大小d,劃分訓練集、驗證集、測試集;
Step 3 構建長江流域多元水質指標預測模型,設置相關超參數,初始化模型;
Step 4 訓練預測模型,利用BP算法更新神經網絡梯度,監(jiān)測損失函數值,當其保持穩(wěn)定時,自動停止訓練;
Step 5 利用訓練好的模型預測水質指標,計算各水質指標的模型評價指標。
模型整體結構如圖3所示。
圖3 多元水質指標預測(MWQPP)模型神經網絡結構Fig.3 Neural network structure of MWQPP model
2.4.1 實驗環(huán)境與設計
硬件環(huán)境:處理器Intel(R)Core(TM)i5-8300H CPU@2.30GHz,內存16.00 GB;軟件環(huán)境:操作系統(tǒng)Microsoft Windows 10(64 bit)。使用Python API TensorFlow建立人工神經網絡模型。
為借助其他研究成果驗證本模型的有效性,實驗還建立了多元線性回歸(multiple linear regression,MLR)、隨機森林(random forest,RF)[20]、FCNN[21]、LSTM[22]和CNN-GRU[17]水質預測模型,用于橫向對比分析。
參考已有研究進行對比模型設計,并針對本研究樣本數據進行調優(yōu)。其中,RF模型中設置的決策樹為100棵;FCNN模型包含了6層FC層,各層神經元數分別為32,64,128,64,8,4;LSTM模型包含雙層LSTM循環(huán)神經網絡,各層單元數分別為16和4;CNN-GRU模型包含二維卷積層與GRU層,過濾器維度為3,數量為1,GRU層單元數為64。
2.4.2 模型評價體系
用平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和決定系數(R2)等評價指標構建模型評價體系。各評價指標的計算式為:
2.4.3 誤差評價
用所構建的MWQPP模型對驗證集數據進行預測,以平均相對誤差(mean relative error,MRE)指標為例,訓練過程中模型的誤差變化情況如圖4所示。
圖4 訓練過程MRE變化折線圖Fig.4 MRE line chart of training process
同時,為進一步評價本模型的準確率與可靠性,選擇部分當前常見的水質預測方法進行對比??紤]歷史序列較短(8 w),預測范圍較廣,因此沒有選擇水質模擬模型和時間序列分析方法,而是選擇了FCNN、LSTM、CNN-GRU、RF、MLR模型進行對比實驗,橫向比較6個模型的平均預測結果。表2列出了6個模型在pH、DO、CODMn、NH3-N水質指標上的誤差評價結果。
表2 水質指標預測模型結果評價與比較Table 2 Result evaluation and comparison of water quality parameter prediction models
對預測結果進行反歸一化處理,將預測結果縮放至真實量級,從而直觀判斷預測的實際誤差。圖5展示了某水質監(jiān)測點位預測值與真實值的比較情況,橫坐標為采樣年份及周數,縱坐標為水質指標值。MWQPP模型對pH和DO這兩項水質指標的預測精度較高,而對CODMn還有更進一步的提升空間。通過模型橫向比較可知,MWQPP模型除pH的RMSE略大于MLR模型及pH的R2略小于MLR模型外,均較FCNN、LSTM、CNN-GRU、RF、MLR模型具有更小的MAE、RMSE、MAPE和更大的R2。計算MWQPP、FCNN、LSTM、CNN-GRU、RF、MLR模型的各指標平均MAPE,分別為0.130,0.200,0.140,0.138,0.155,0.144,可見MWQPP模型的精度至少提升了6%。
總之,從誤差評估結果看,MWQPP模型的表現更均衡、更優(yōu)良,在長江流域水質指標預測上的適用性更強。
2.4.4 魯棒性評價
為驗證模型的魯棒性,即模型對數據的敏感性,隨機挑選1個監(jiān)測點位,以MAPE為誤差指標,比較各模型在2011—2018年間每年的預測精度,并對比其預測誤差的穩(wěn)定性,結果如圖6所示。可見,MWQPP模型的預測誤差較穩(wěn)定,而其他模型的預測誤差更大,且誤差波動更劇烈,這證明了MWQPP模型具有較好的魯棒性。
圖5 某點位水質指標各模型預測值與真實值比較Fig.5 Comparison of predicted values and true value at one certain point
同時,隨機挑選10個監(jiān)測點位,以MAPE為誤差指標,比較各模型在不同點位上的預測誤差,結果如圖7所示??梢?,MWQPP模型在不同點位上的預測誤差較穩(wěn)定,而其他模型在不同指標或點位上波動較大,這從另一角度證明了MWQPP模型的魯棒性更好。
圖6 某點位水質指標逐年預測MAPE比較Fig.6 Comparison of MAPE of each year at one certain point
圖7 多點位水質指標預測MAPE比較Fig.7 Comparison of MAPE at several points
此外,對原測試集內3種不同比例的數據添加白噪聲,形成3組新測試集。分別對原測試集的20%,40%,60%數據加入高斯白噪聲,使用各對比模型進行預測與評價,用MAPE指標衡量各模型之間的魯棒性差異,實驗結果如表3所示。由表3可知,相較其他模型,MWQPP模型的噪聲比例在20%~60%時,預測結果波動較小,MAPE小于0.02,且變化速率小,較穩(wěn)定,可見MWQPP模型更為健壯,具有更好的抗噪性。
表3 不同噪聲下各模型預測結果的MAPE對比Table 3 MAPE of different models under different noises
水質指標預測有助于把握水質的未來變化,該項工作有助于為長江流域水環(huán)境保護與水資源規(guī)劃提供科學的決策依據,幫助相關部門針對性地制訂水環(huán)境治理方案,為水資源保護與規(guī)劃提供科學支持。
面向目前長江流域水質預測的現狀,參考傳統(tǒng)水質預測模型的優(yōu)缺點,針對水質指標的非線性特點,基于人工神經網絡理論,將GRU與FCNN相結合,提出了MWQPP模型。通過模型評價與橫向比較,證明了MWQPP模型較FCNN、LSTM、CNN-GRU、RF、MLR模型能更均衡、更準確地預測長江流域pH、DO、CODMn、NH3-N等4項水質指標,且魯棒性更佳,能較好地擬合水質指標數據的時間波動。
基于目前的研究趨勢與工作成果,在對水質指標預測的進一步研究中,可考慮將神經網絡與其他數據處理方法相結合,提高模型的預測性能,如在數據預處理時,對輸入數據進行參數優(yōu)化或分解重構,進一步提取數據特征;或結合機器學習等多種預測方法,構建復合預測模型;或引入注意力(attention)機制等新型人工神經網絡方法,探索深度學習的更優(yōu)實踐方式。
[1]BERNHARD L, H?JSTRUP J. Evaluation of the wind-resource estimation program WAsP for offshore applications[J]. Journal of Wind Engineering and Industrial Aerodynamics,2001, 89(3/4):271-291. DOI:10.1016/S0167-6105(00)00082-9
[2]MARTIN N, MCEACHERN P M,YU T, et al. Model development for prediction and mitigation of dissolved oxygen sags in the Athabasca River,Canada[J]. Science of the Total Environment,2013, 443:403-412. DOI:10.1016/j.scitotenv.2012. 10.030
[3]BAUWE A, ECKHARDT K U,LENNARTZ B. Predicting dissolved reactive phosphorus in tile-drained catchments using a modified SWAT model[J]. Ecohydrology and Hydrobiology, 2019,19(2): 198-209. DOI:10.1016/j.ecohyd.2019.03.003
[4]秦文虎,付亞濤. 基于向量自回歸模型的水質異常檢測研究[J]. 安全與環(huán)境學報, 2018,18(4): 1560-1563. DOI:10.13637/j.issn.1009-6094.2018.04.056
QIN W H, FU Y T. Water quality abnormity inspection and detection via the vector auto-regressive model[J]. Journal of Safety and Environment, 2018,18(4): 1560-1563. DOI:10.13637/j.issn.1009-6094.2018.04.056
[5]CHEN W, XU H L,CHEN Z S, et al. A novel method for time series prediction based on error decomposition and nonlinear combination of forecasters[J]. Neurocomputing,2021, 426: 85-103. DOI:10.1016/j.neucom.2020.10.048
[6]馬晉,何鵬,楊慶,等. 基于回歸分析的地下水污染預警模型[J]. 環(huán)境工程, 2019,37(10):211-215. DOI:10.13205/j.hjgc.201910036
MA J, HE P,YANG Q, et al. Early warning model for groundwater pollution based on regression analysis[J]. Environmental Engineering, 2019, 37(10):211-215. DOI:10.13205/j.hjgc.201910036
[7]LI X, CHENG Z, YU Q, et al. Water-quality prediction using multimodal support vector regression: Case study of Jialing River, China[J]. Journal of Environmental Engineering, 2017,143(10):04017070.
[8]白云,李勇. 基于VMD-LSSVR的河水水質預測方法[J]. 安全與環(huán)境學報, 2020,20(3): 1162-1168. DOI:10.13637/j.issn.1009-6094.2019.0727
BAI Y, LI Y. A prediction model of the river water quality based on the VMD-LSSVR[J]. Journal of Safety and Environment, 2020,20(3): 1162-1168. DOI:10.13637/j.issn.1009-6094.2019.0727
[9]薛同來,趙冬暉,韓菲. 基于GA優(yōu)化的SVR水質預測模型研究[J]. 環(huán)境工程,2020, 38(3):123-127,128. DOI:10.13205/j.hjgc.202003021
XUE T L, ZHAO D H,HAN F. SVR water quality prediction model based on GA optimization[J]. Environmental Engineering, 2020, 38(3):123-127,128. DOI:10.13205/j.hjgc.202003021
[10]王曉萍,孫繼洋,金鑫. 基于BP神經網絡的錢塘江水質指標的預測[J]. 浙江大學學報(工學版), 2007,41(2): 361-364. DOI:10.3785/j.issn.1008-973X.2007.02.037
WANG X P, SUN J Y,JIN X. Prediction of water quality index in Qiantang River based on BP neural network model[J]. Journal of Zhejiang University(Engineering Science), 2007,41(2): 361-364. DOI:10.3785/j.issn.1008-973X.2007.02.037
[11]宓云軿,王曉萍,金鑫. 基于機器學習的水質COD預測方法[J]. 浙江大學學報(工學版),2008, 42(5):790-793. DOI:10.3785/j.issn.1008-973X.2008.05.013
MI Y P, WANG X P,JIN X. Water COD prediction based on machine learning[J]. Journal of Zhejiang University(Engineering Science), 2008,42(5):790-793. DOI:10.3785/j.issn.1008-973X.2008.05.013
[12]SAMSUDIN M S, AZID A,KHALIT S I, et al. Comparison of prediction model using spatial discriminant analysis for marine water quality index in Mangrove Estuarine Zones[J]. Marine Pollution Bulletin, 2019,141: 472-481. DOI:10.1016/j.marpolbul.2019.02.045
[13]RAJAEE T, KHANI S,RAVANSALAR M. Artificial intelligence-based single and hybrid models for prediction of water quality in rivers: A review[J]. Chemometrics and Intelligent Laboratory Systems, 2020,200: 103978. DOI:10.1016/j.chemolab.2020. 103978
[14]TA X X, WEI Y. Research on a dissolved oxygen prediction method for recirculating aquaculture systems based on a convolution neural network[J]. Computers and Electronics in Agriculture, 2018,145: 302-310. DOI:10.1016/j.compag.2017.12.037
[15]NOORI N, KALIN L,ISIK S. Water quality prediction using SWAT-ANN coupled approach[J]. Journal of Hydrology, 2020,590: 125220. DOI:10. 1016/j.jhydrol.2020.125220
[16]WANG Z, MAN Y,HU Y, et al. A deep learning based dynamic COD prediction model for urban sewage[J]. Environmental Science (Water Research amp; Technology), 2019,5(12):2210-2218. DOI:10.1039/C9EW00505F
[17]TU J C, YANG X Q,CHEN C B, et al. Water quality prediction model based on GRU hybrid network[C]// 2019 Chinese Automation Congress (CAC). Hangzhou: CAC,2019: 1893-1898. DOI:10.1109/CAC48633.2019. 8996847
[18]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780. DOI:10.1162/neco.1997.9.8.1735
[19]CHO K, VAN MERRI?NBOER B,BAHDANAU D, et al. On the properties of neural machine translation: Encoder-decoder approaches[EB/OL].[2014-10-07]https://arxiv.org/abs/1409.1259. DOI:10.48550/arXiv. 1409.1259
[20]BILALI A E, TALEB A,BROUZIYNE Y. Groundwater quality forecasting using machine learning algorithms for irrigation purposes[J]. Agricultural Water Management, 2021,245: 106625. DOI:10.1016/j.agwat.2020.106625
[21]劉世存,楊薇,田凱,等. 基于多層全連接神經網絡的白洋淀水質預測[J]. 農業(yè)環(huán)境科學學報, 2020,39(6): 1283-1292. DOI:10.11654/jaes.2020-0288
LIU S C, YANG W,TIAN K, et al. Water quality forecasting based on multilayer fully connected neural network for Baiyangdian Lake[J]. Journal of Agro-Environment Science, 2020,39(6): 1283-1292. DOI:10.11654/jaes.2020-0288
[22]ZHOU J, WANG Y Y,XIAO F, et al. Water quality prediction method based on IGRA and LSTM[J]. Water,2018, 10(9):1148. DOI:10.3390/w10091148
Multivariate water quality parameter prediction model based on hybrid neural network
WANG Yuwen1,2, DU Zhenhong1,2, DAI Zhen1,2, LIU Renyi1,2, ZHANG Feng1,2
(1. Zhejiang Provincial Key Lab of GIS,Zhejiang University,Hangzhou310028,China;2. Department of Geographic Information Science,Zhejiang University,Hangzhou310027,China)
The Yangtze River basin plays an important role in Chinese water resources allocation. What proves common knowledge is that it is particularly important to predict the water quality in the Yangtze River basin. Based on the existing research, the recurrent neural network (RNN) model with gate recurrent unit (GRU) and fully connected neural network (FCNN) are combined in this study to improve a multiple water quality parameter prediction (MWQPP) model. It is proposed to predict the four water quality parameters, such as pH, dissolved oxygen (DO), permanganate index (CODMn) and ammonia nitrogen (NH3-N) in the Yangtze River basin. Based on 7 566 raw data of 23 water quality monitoring points in the Yangtze River basin from 2011 to 2018, the comparative experiments show that the root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE) and coefficient of determination (R2) obtained from the MWQPP modelapos;s prediction results are better than traditional models, such as the multiple linear regression model, the random forest model, FCNN model and LSTM model, and the MWQPP model also has better robustness than these traditional water quality prediction models. As we can say, the MWQPP model can provide scientific, reasonable and effective support for water quality assurance and water management in Yangtze River basin.
water prediction; artificial neural network; gate recurrent unit (GRU); fully connected neural network(FCNN)
P 208
A
1008?9497(2022)03?354?09
10.3785/j.issn.1008-9497.2022.03.013
2021?01?14.
國家自然科學基金資助項目(41922043,41871287,42001323);國家重點研發(fā)計劃項目(2018YFB0505000).
王昱文(1996—),ORCID:https://orcid.org/0000-0003-1119-7120,女,碩士研究生,主要從事時空大數據挖掘研究.
通信作者,ORCID:https://orcid.org/0000-0001-9449-0415,E-mail:duzhenhong@zju.edu.cn.