摘要:由于水質(zhì)數(shù)據(jù)特征復(fù)雜、關(guān)聯(lián)度參差不齊而導(dǎo)致溶解氧濃度預(yù)測難度較大,為提高水質(zhì)溶解氧濃度預(yù)測的準(zhǔn)確性,提出了一種基于特征工程和北方蒼鷹優(yōu)化算法的長短期記憶網(wǎng)絡(luò)(Feature Engineering-Northern Goshawk Optimization-Long Short Term Memory,F(xiàn)E-NGO-LSTM)混合模型。首先對水質(zhì)數(shù)據(jù)集進(jìn)行缺失值補齊、特征篩選與特征多項式構(gòu)造,然后基于NGO-LSTM模型優(yōu)化模型參數(shù),提升預(yù)測性能;對不同多項式階數(shù)下的特征預(yù)測效果進(jìn)行分析之后,將該模型與基于灰狼優(yōu)化算法、鯨魚優(yōu)化算法及粒子群優(yōu)化算法的LSTM模型進(jìn)行對比;最后,在太湖流域東苕溪城南監(jiān)測斷面對該模型進(jìn)行了驗證,計算FE-NGO-LSTM模型預(yù)見期為4,8,12,16,20,24 h的預(yù)測結(jié)果。試驗結(jié)果顯示:當(dāng)多項式階數(shù)為2階時,模型預(yù)測效果最好,F(xiàn)E-NGO-LSTM模型相比基于其他優(yōu)化算法的LSTM模型,平均絕對誤差、均方誤差、均方根誤差分別至少降低9.0%,12.9%及6.3%,且隨著預(yù)見期的增加,預(yù)測誤差仍在可接受范圍內(nèi),說明FE-NGO-LSTM模型在預(yù)測溶解氧濃度時具有一定優(yōu)勢與泛化性。
關(guān) 鍵 詞:水質(zhì)預(yù)測;溶解氧;特征工程;深度學(xué)習(xí);北方蒼鷹優(yōu)化算法;耦合模型;苕溪流域;太湖流域
中圖法分類號:TV213.4
文獻(xiàn)標(biāo)志碼:ADOI:10.16232/j.cnki.1001-4179.2024.10.012
0 引 言
水質(zhì)監(jiān)測和預(yù)測是全面提升國家水安全保障能力的重要環(huán)節(jié),提高水質(zhì)預(yù)測準(zhǔn)確度有助于加快推進(jìn)國家水網(wǎng)建設(shè)。隨著計算機科學(xué)技術(shù)的發(fā)展,基于人工智能深度學(xué)習(xí)算法的水質(zhì)預(yù)報在解決以往經(jīng)驗公式老舊、大量數(shù)據(jù)處理、物理機制模型受限等問題時有較好表現(xiàn)[1-2]。例如基于長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的水庫水位預(yù)測模型,相對預(yù)報誤差較低[3-4]。在此基礎(chǔ)上,郭利進(jìn)等[5]提出基于改進(jìn)果蠅算法優(yōu)化的LSTM模型應(yīng)用于水質(zhì)預(yù)測,該模型預(yù)測溶解氧濃度效果較好。為進(jìn)一步提高LSTM模型預(yù)測性能,周朝勉[6]、王軍[7]等進(jìn)行了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)-LSTM的混合水質(zhì)預(yù)測模型研究,有效提高了預(yù)測精度。
盡管深度學(xué)習(xí)在水質(zhì)預(yù)測方面性能出色,但是基于單一算法的超參數(shù)選擇存在局限性,無法得到較優(yōu)解。因此,為克服LSTM中超參數(shù)對預(yù)測性能的影響,楊坪宏等[8]采用變色龍優(yōu)化算法(Chameleon Swarm Algorithm,CSA)、獵豹優(yōu)化(Cheetah Optimization,CO)算法、山瞪羚優(yōu)化(Mountain gazelle Optimization,MGO)算法分別調(diào)優(yōu)門控循環(huán)單元(Gated Recurrent Unit,GRU)-LSTM 超參數(shù)的水質(zhì)時間序列預(yù)測模型,使模型獲得較好的智能化水平。肖明君等[9]利用粒子群算法(Particle Swarm Optimization,PSO)改進(jìn)反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)模型的參數(shù)選擇方式,提高了模型預(yù)測結(jié)果準(zhǔn)確性。魯言波等[10]提出PSO-GRU水質(zhì)預(yù)測模型,引入粒子群優(yōu)化算法,快速簡便地實現(xiàn)了GRU模型遷移使用。宋治岑等[11]研究對比了基于鯨魚算法(Whale Optimization Algorithm,WOA)的支持向量機(Support Vector Machines,SVM)模型和其他算法的模型預(yù)測準(zhǔn)確度。牛景輝[12]設(shè)計了一種基于灰狼算法(Grey Wolf Optimizer,GWO)優(yōu)化的XGBoost(eXtreme Gradient Boosting)算法,用以解決模型參數(shù)調(diào)整復(fù)雜和預(yù)測水質(zhì)數(shù)據(jù)準(zhǔn)確率較低的問題。但全局搜索能力較好的北方蒼鷹算法(Northern Goshawk Optimization,NGO)暫未應(yīng)用于水質(zhì)預(yù)測。
此外,預(yù)測模型對水質(zhì)監(jiān)測數(shù)據(jù)要求較高,當(dāng)水質(zhì)指標(biāo)特征較少或者較多時都會影響預(yù)測的效果,因此學(xué)者們提出特征提取、構(gòu)造等方法。許德昊等[13]通過相關(guān)性計算和特征構(gòu)造方法增加有效特征個數(shù),有效提高了預(yù)測準(zhǔn)確率。而在特征提取時,方國華等[14]則運用灰色關(guān)聯(lián)分析選擇多元特征輸入變量,構(gòu)建基于灰色關(guān)聯(lián)-長短期記憶網(wǎng)絡(luò)(Grey Relational Analysis-Long Short Term Memory,GRA-LSTM)的水質(zhì)預(yù)測模型,實現(xiàn)關(guān)鍵水質(zhì)指標(biāo)影響因子重要性定量化排序與冗余信息的消除。但是上述研究缺乏對深度學(xué)習(xí)的優(yōu)化。
因此,本文創(chuàng)新性地構(gòu)建一種基于特征工程和NGO-LSTM的水質(zhì)預(yù)測模型。此模型優(yōu)勢在于先通過特征工程,篩選水質(zhì)監(jiān)測指標(biāo)中對溶解氧影響較大的指標(biāo),再進(jìn)行特征構(gòu)造得到新的特征數(shù)據(jù)集,最后基于NGO優(yōu)化算法找出LSTM的相對最優(yōu)超參數(shù),進(jìn)行溶解氧預(yù)測,以期得到較好的水質(zhì)預(yù)測效果。
1 研究區(qū)域與數(shù)據(jù)來源
研究區(qū)域東苕溪城南監(jiān)測斷面(東經(jīng)120.0733°,北緯30.5402°)地處浙江省湖州市,東苕溪流域?qū)儆谔饔蜍嫦?,位于浙江省北部,監(jiān)測斷面水質(zhì)基本能達(dá)到Ⅲ類水質(zhì),偶有出現(xiàn)溶解氧小于3 mg/L的Ⅳ類水質(zhì)情況。該斷面存在太湖逆流影響溶解氧波動的可能,因此選取此斷面作為研究對象,研究區(qū)域位置見圖1。
研究數(shù)據(jù)均來自國家地表水水質(zhì)自動監(jiān)測實時數(shù)據(jù)發(fā)布系統(tǒng)。水質(zhì)指標(biāo)主要有水溫(℃)、pH(無量綱)、溶解氧(DO,mg/L)、高錳酸鹽指數(shù)(KMnO,mg/L)、氨氮[15](NH-N,mg/L)、總磷(TP,mg/L)、總氮(TN,mg/L)、電導(dǎo)率(EC,μs/cm)、濁度(NTU)。系統(tǒng)每4 h更新一次水質(zhì)數(shù)據(jù)。
水質(zhì)數(shù)據(jù)監(jiān)測時間為2020年11月8日至2023年4月30日,采樣頻率為4 h,理論應(yīng)有5 424組數(shù)據(jù),實際已有數(shù)據(jù)5 130組,缺失294組,占樣本總量的5%,即存在少量缺失數(shù)據(jù)。本文已通過線性插值方法補充,該監(jiān)測站的水質(zhì)監(jiān)測數(shù)據(jù)分布見圖2。因9個指標(biāo)的數(shù)據(jù)范圍差異較大,故采用子圖(a)~(i)分別展示。從圖2中可看出,該監(jiān)測斷面的水溫、pH、溶解氧、電導(dǎo)率分布較為均勻,數(shù)據(jù)異常值較少,高錳酸鹽指數(shù)、氨氮、總磷和濁度的監(jiān)測數(shù)據(jù)較為集中,整體數(shù)據(jù)真實可靠。其中,溶解氧屬于水質(zhì)監(jiān)測重要指標(biāo)之一[16],對水生生物的生存和發(fā)展具有重要影響,影響水體凈化速度快慢,因此選擇溶解氧指標(biāo)為本文預(yù)測指標(biāo)。
2 研究方法
2.1 特征工程
2.1.1 特征選擇
特征選擇的目標(biāo)是尋找最優(yōu)特征子集,剔除關(guān)聯(lián)度較低的特征,從而達(dá)到減少特征個數(shù)、提高模型精確度、減少運行時間的目的。本文原始數(shù)據(jù)集共有9個特征,采用Spearman系數(shù)[17-19]分析對原始特征進(jìn)行篩選,按照特征相關(guān)性對各個特征進(jìn)行評分篩選,反映等級相關(guān)程度。Spearman相關(guān)系數(shù)表達(dá)式如式(1)所示:
式中:R(x)和R(y)分別是特征x和特征y的位次,R(x)和R(y)分別表示平均位次。Spearman系數(shù)絕對值越高,表明y與x相關(guān)性越強。一般認(rèn)為當(dāng)系數(shù)絕對值大于0.4時,兩個特征之間即存在較強關(guān)聯(lián)性。
2.1.2 特征構(gòu)造
基于Spearman系數(shù)獲得溶解氧的強關(guān)聯(lián)特征,提出多項式的特征構(gòu)造方法[15],能夠獲得與溶解氧強相關(guān)的更高維度的特征數(shù)據(jù)集。假設(shè)與溶解氧強關(guān)聯(lián)的特征為{S,S},則基于2階多項式特征構(gòu)造的特征數(shù)據(jù)集為{S,S,SS,S2,S2},基于3階多項式特征構(gòu)造的特征數(shù)據(jù)集為{S,S,S2S,S3,S3,SS2,SS},以此類推。隨著多項式n階的增加,數(shù)據(jù)集特征數(shù)量的增加可能導(dǎo)致預(yù)測性能的下降。因此,較優(yōu)n階的設(shè)置將通過相關(guān)試驗進(jìn)行確定。
2.2 LSTM算法
長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[20-21]被廣泛應(yīng)用于各個領(lǐng)域,是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[22-24]。圖3為t-1時刻和t時刻的LSTM記憶單元的交互邏輯。在t時刻,記憶單元的輸入包括t-1時刻的隱藏層狀態(tài)變量h,記憶單元狀態(tài)變量C和當(dāng)前時刻的輸入信息X;其中t時刻記憶單元中從左至右的σ激活函數(shù)分別為遺忘門f,輸入門i以及輸出門o。模型依次通過上述3個門得到t時刻的隱藏層狀態(tài)變量h和記憶單元狀態(tài)變量C;最終h會傳入輸出層生成LSTM在t時刻的計算結(jié)果,同時與C一起傳入后一時刻進(jìn)行計算。
圖3 LSTM模型結(jié)構(gòu)
Fig.3 LSTM model structure
2.3 北方蒼鷹優(yōu)化算法
北方蒼鷹優(yōu)化算法(Northern Goshawk Optimization,NGO)在2021年由Dehghani等[25]提出,該算法模擬北方蒼鷹的狩獵策略,具體包括獵物識別與攻擊、追擊與逃亡等行為[26]。在NGO初始階段,隨機初始化種群成員在搜索空間中的分布:
式中:X為北方蒼鷹種群的矩陣;X為第i只蒼鷹的初始解;x為第i只蒼鷹在第j維度的值;N和m分別為種群數(shù)量和問題空間的維度。算法目標(biāo)函數(shù)向量如下式:
式中:F(X)為目標(biāo)函數(shù)向量,F(xiàn)為第i個解對應(yīng)的目標(biāo)函數(shù)值。
2.4 基于特征工程和NGO-LSTM的模型
本文提出的FE-NGO-LSTM水質(zhì)預(yù)測模型核心思想在于擴充與水質(zhì)指標(biāo)核心相關(guān)的數(shù)據(jù)特征,通過北方蒼鷹優(yōu)化算法優(yōu)化LSTM的核心參數(shù)(學(xué)習(xí)率、隱含層節(jié)點數(shù)、L2正則因子),以期提高水質(zhì)預(yù)測的能力。模型整體流程如圖4所示。原始數(shù)據(jù)包含9個水質(zhì)指標(biāo),存在殘缺數(shù)據(jù)、數(shù)據(jù)量綱不同的情況,首先通過線性插值以及數(shù)據(jù)歸一化進(jìn)行數(shù)據(jù)預(yù)處理。接著根據(jù)20%和80%的比例劃分測試集以及訓(xùn)練集。
為避免數(shù)據(jù)信息泄露,模型僅基于訓(xùn)練集進(jìn)行特征工程操作,其中包含特征關(guān)聯(lián)度分析與多項式n階特征的構(gòu)造。然后基于合適的關(guān)聯(lián)特征與多項式階數(shù)n構(gòu)造得到新的數(shù)據(jù)集。為避免數(shù)據(jù)過擬合,將訓(xùn)練集重新劃分為20%的驗證集與60%的新訓(xùn)練集。
最后基于訓(xùn)練集與驗證集進(jìn)行FE-NGO-LSTM的參數(shù)優(yōu)化,將驗證集的驗證誤差作為優(yōu)化指標(biāo),得到最優(yōu)的LSTM參數(shù)。最后將優(yōu)化參數(shù)帶入新數(shù)據(jù)集中進(jìn)行測試驗證。
3 試驗與結(jié)果分析
3.1 試驗環(huán)境
本文所有試驗均基于MATLAB平臺,深度學(xué)習(xí)GPU為NVIDIA GeForce RTX 4080。同時為驗證該模型的有效性,本文在試驗中對LSTM其他網(wǎng)絡(luò)模型參數(shù)均保持相同設(shè)置,如表1所列。
3.2 評價標(biāo)準(zhǔn)
水質(zhì)預(yù)測屬于回歸預(yù)測問題,采用平均絕對誤差(Mean Absolute Error,MAE),均方誤差(Mean Squared Error,MSE),均方根誤差(Root Mean Square Error,RMSE)和決定系數(shù)(R2)來評估模型的預(yù)測能力。
式中:y表示實際水質(zhì)指標(biāo);y′表示預(yù)測水質(zhì)指標(biāo);y則為實際水質(zhì)指標(biāo)的平均值;m表示測試樣本數(shù)量。
3.3 試驗過程
3.3.1 Spearman系數(shù)設(shè)置
(1)對原始數(shù)據(jù)集進(jìn)行Spearman系數(shù)分析,圖5表示該數(shù)據(jù)集不同特征之間的Spearman系數(shù)相關(guān)性,與溶解氧特征關(guān)聯(lián)性較強的特征依次為水溫(0.81)、pH(0.80)、電導(dǎo)率(0.51)、總磷(0.32)、總氮(0.20)、高錳酸鹽指數(shù)(0.19)、濁度(0.17)、氨氮(0.12)。初步判斷水溫、pH與電導(dǎo)率為溶解氧強關(guān)聯(lián)特征。
(2)使用大于溶解氧Spearman系數(shù)特定值的數(shù)據(jù)集分別基于傳統(tǒng)LSTM模型以及NGO-LSTM模型進(jìn)行試驗。在此試驗中Spearman系數(shù)設(shè)置為[0,0.2,
0.4,0.6],其中傳統(tǒng)LSTM模型的參數(shù)參考主流設(shè)置,
L2正則因子為0.000 01,學(xué)習(xí)率為0.001,隱藏層節(jié)點數(shù)量為128。試驗結(jié)果如表2所列,可以看到Spearman系數(shù)為0時,即數(shù)據(jù)集為原始數(shù)據(jù)集,冗余特征較多,對預(yù)測干擾較大,因此該試驗預(yù)測效果最差,且此時LSTM模型的3個誤差指標(biāo)都大于NGO-LSTM模型的誤差指標(biāo),決定系數(shù)小于NGO-LSTM模型的決定系數(shù)。類似情況在Spearman系數(shù)為0.6時一樣存在,基本證明NGO-LSTM模型優(yōu)于LSTM模型。隨著Spearman系數(shù)逐漸增大,LSTM模型預(yù)測誤差先減小后增大,表現(xiàn)不夠穩(wěn)定,而NGO-LSTM模型中MAE、MSE、RMSE逐漸減小,R2越來越接近1,充分證明了NGO-LSTM模型的優(yōu)勢。
3.3.2 基于FE-NGO-LSTM的水質(zhì)預(yù)測結(jié)果
基于上述研究,該試驗使用Spearman系數(shù)大于0.6的特征數(shù)據(jù)集,即上一時刻的水溫、pH以及溶解氧。FE-NGO-LSTM模型訓(xùn)練數(shù)據(jù)基于以上3個特征,進(jìn)行多項式n階特征構(gòu)造,n為[2,3,4]。因上一時刻溶解氧與該時刻溶解氧的Spearman相關(guān)系數(shù)為1,所以基于上一時刻的溶解氧構(gòu)造的任意特征與該時刻溶解氧的Spearman相關(guān)系數(shù)均為1,故此處不針對上一時刻溶解氧指標(biāo)進(jìn)行多項式構(gòu)造。其中多項式2階數(shù)據(jù)構(gòu)造如表3所列,指標(biāo)特征由3維升維至6維。
將新構(gòu)造的數(shù)據(jù)集帶入FE-NGO-LSTM算法中進(jìn)行比較,試驗結(jié)果如圖6所示,各項指標(biāo)在2階時效果最好,決定系數(shù)R2達(dá)到了0.871 29,MAE為0.375 04 mg·L-1。當(dāng)階數(shù)達(dá)到3,4時,預(yù)測指標(biāo)決定系數(shù)降低較為明顯,而且MAE、MSE、RMSE均有不同程度上升,可以推測當(dāng)核心特征數(shù)量有限時,過高的多項式階
數(shù)將導(dǎo)致特征冗余,預(yù)測性能過擬合。由此可以判定,
在此數(shù)據(jù)集中,當(dāng)多項式階數(shù)為2時,F(xiàn)E-NGO-LSTM的預(yù)測效果較為出色。
總氮、總磷及電導(dǎo)率與溶解氧含量有密切關(guān)系,所以本文將Spearman系數(shù)大于0.2的特征數(shù)據(jù)集也納入構(gòu)造多項式n階特征,n同樣為[2,3,4],對比前后數(shù)據(jù)集的預(yù)測精度。試驗結(jié)果如表4所列,可見誤差已經(jīng)遠(yuǎn)大于水溫、pH數(shù)據(jù)集的預(yù)測結(jié)果,進(jìn)一步證實該試驗使用Spearman系數(shù)大于0.6的特征數(shù)據(jù)集進(jìn)行預(yù)測的科學(xué)合理性。
圖7為基于2階新數(shù)據(jù)集的FE-NGO-LSTM模型預(yù)測結(jié)果和真實值的擬合效果。由圖7可知:預(yù)測值和真實值吻合程度較高。其中真實值略大于測試值的比例約占43%,真實值與測試值的最大差值約為2.7 mg/L,模型預(yù)測的曲線相對真實值更為平穩(wěn),整體預(yù)測情況基本能夠擬合溶解氧指標(biāo)變化趨勢。
為進(jìn)一步驗證FE-NGO-LSTM算法的有效性,本文基于同樣的多項式2階數(shù)據(jù)集,將FE-NGO-LSTM模型與耦合其他優(yōu)化算法的LSTM模型進(jìn)行對比。參與比較的有灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)、鯨魚優(yōu)化算法(Whale Optimization Algorithm,WOA)、粒子群優(yōu)化算法(Particle Swarm Optimization,PSO),均為學(xué)術(shù)界主流算法。試驗結(jié)果如圖8所示,其中FE-NGO-LSTM效果最好,R2達(dá)到0.871 29,RMSE為0.230 25 mg·L-1。FE-GWO-LSTM模型、FE-WOA-LSTM模型、FE-PSO-LSTM模型預(yù)測準(zhǔn)確度依次下降,而效果相對最差的FE-PSO-LSTM算法的R2為0.795 86,RMSE為0.289 96 mg/L??傮w來看,F(xiàn)E-NGO-LSTM模型的平均絕對誤差、均方誤差、均方根誤差分別至少降低9.0%,12.9%及6.3%,因此可以判斷NGO優(yōu)化算法更具優(yōu)勢。
為進(jìn)一步驗證FE-NGO-LSTM模型的預(yù)測性能和泛化能力,本文將構(gòu)造的2階數(shù)據(jù)集的水質(zhì)預(yù)見期由4 h擴展至8,12,16,20,24 h,分別進(jìn)行試驗。其中圖9展示不同預(yù)見期下模型的預(yù)測值與真實值的偏差,直線線段為基于最小二乘法展示的預(yù)測值擬合情況。隨著預(yù)見期的增加,數(shù)據(jù)樣本減少,預(yù)測點更偏離擬合線段。圖10為基于不同預(yù)見期的FE-NGO-LSTM預(yù)測效果。隨著預(yù)見期的增加,誤差緩慢增加,預(yù)測性能略微下降,基本符合隨時間增長,預(yù)測難度加大的實際情況。R2由8 h預(yù)見期的0.789 85降低為24 h的0.703 01,其余誤差指標(biāo)均有所上升,整體性能下降最大為27%,仍在可接受范圍內(nèi)。因此,當(dāng)預(yù)見期為24 h以內(nèi)時,F(xiàn)E-NGO-LSTM模型仍有相對較好的預(yù)測效果,具有較強泛化能力。
4 結(jié) 論
考慮水質(zhì)監(jiān)測指標(biāo)之間的關(guān)聯(lián)性,在預(yù)測溶解氧指標(biāo)時,本文利用Spearman相關(guān)系數(shù)篩選出關(guān)聯(lián)度較高的水溫、pH等水質(zhì)指標(biāo)進(jìn)行特征構(gòu)造,提出FE-NGO-LSTM預(yù)測模型。對比試驗結(jié)果,得到結(jié)論如下:
(1)就原始監(jiān)測數(shù)據(jù)而言,NGO-LSTM模型比LSTM模型預(yù)測精度更高,初步證明北方蒼鷹算法耦合長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)預(yù)測的可行性。并且選擇Spearman相關(guān)系數(shù)大于0.6的數(shù)據(jù)特征時,預(yù)測結(jié)果相對較優(yōu)。
(2)在此基礎(chǔ)上,進(jìn)一步構(gòu)造多項式[2,3,4]階新數(shù)據(jù)集,采用FE-NGO-LSTM模型進(jìn)行預(yù)測對比分析,基于2階新數(shù)據(jù)集的預(yù)測結(jié)果最優(yōu)。
(3)基于2階特征構(gòu)造的新數(shù)據(jù)集,F(xiàn)E-NGO-LSTM對比粒子群算法、鯨魚算法以及灰狼算法耦合LSTM模型,誤差指標(biāo)最小。
(4)溶解氧指標(biāo)的預(yù)見期由4 h延長至8,12,16,20,24 h,F(xiàn)E-NGO-LSTM模型仍能夠保持較好的預(yù)測精度,R2最低為0.703 01,在可接受范圍內(nèi)。
參考文獻(xiàn):
[1] DING F,ZHANG W J,CAO S H,et al.Optimization of water quality index models using machine learning approaches[J].Water Research,2023,243:120337.
[2] 歐陽文宇,葉磊,顧學(xué)志,等.深度學(xué)習(xí)水文預(yù)報研究進(jìn)展綜述Ⅱ:研究進(jìn)展及展望[J].南水北調(diào)與水利科技(中英文),2022,20(5):862-875.
[3] ZHANG L,JIANG Z Q,HE S S,et al.Study on water quality prediction of urban reservoir by coupled CEEMDAN decomposition and LSTM Neural Network Model[J].Water Resources Management,2022,36:3715-3735.
[4] 王渤權(quán),金傳鑫,周論,等.基于長短期記憶網(wǎng)絡(luò)的西麗水庫水質(zhì)預(yù)測[J].長江科學(xué)院院報,2023,40(6):64-70.
[5] 郭利進(jìn),許瑞偉.基于改進(jìn)果蠅算法的 LSTM 在水質(zhì)預(yù)測的應(yīng)用[J].長江科學(xué)院院報,2023,40(8):57-63.
[6] 周朝勉,劉明萍,王京威.基于CNN-LSTM的水質(zhì)預(yù)測模型研究[J].水電能源科學(xué),2021,39(3):20-23.
[7] 王軍,高梓勛,朱永明.基于CNN-LSTM模型的黃河水質(zhì)預(yù)測研究[J].人民黃河,2021,43(5):96-99,109.
[8] 楊坪宏,胡奧,崔東文,等.基于數(shù)據(jù)處理與若干群體算法優(yōu)化的 GRU/LSTM水質(zhì)時間序列預(yù)測[J].水資源與水工程學(xué)報,2023,34(4):45-53.
[9] 肖明君,朱逸純,高雯媛,等.基于不同人工神經(jīng)網(wǎng)絡(luò)的水質(zhì)預(yù)測方法對比[J/OL].環(huán)境科學(xué):1-10[2024-09-03].https:∥doi.org/10.13227/j.hjkx.202310074.
[10]魯言波,陳湛峰,李曉芳.基于粒子群優(yōu)化的GRU廣東省跨境斷面水質(zhì)預(yù)測模型研究[J].生態(tài)環(huán)境學(xué)報,2023,32(9):1673-1681.
[11]宋治岑,張順平,盧敏.基于HHO-SVM的水質(zhì)預(yù)測模型及應(yīng)用[J].水電能源科學(xué),2023,41(8):70-72,47.
[12]牛景輝.基于GWO-XGBoost的工業(yè)污水水質(zhì)關(guān)鍵數(shù)據(jù)預(yù)測算法[J].工業(yè)水處理,2024,44(1):184-190.
[13]許德昊,王魏,胡顯輝,等.基于特征構(gòu)造的MDconv-GRU刺參養(yǎng)殖水質(zhì)pH值預(yù)測[J/OL].控制工程:1-10[2024-09-03].https:∥doi.org/10.14107/j.cnki.kzgc.20230171.
[14]方國華,張鈺,袁婷,等.基于灰色關(guān)聯(lián)-長短時記憶網(wǎng)絡(luò)的水質(zhì)預(yù)測研究[J].安全與環(huán)境學(xué)報,2023,23(12):4557-4568.
[15]劉揚揚,蘇新華,蔡洺垚.孤山航電樞紐工程對漢江水環(huán)境的影響研究[J].人民長江,2023,54(5):73-79.
[16]李余隆,張?zhí)m,李立.基于GCN-LSTM的錢塘江南源水質(zhì)預(yù)測研究[J].人民黃河,2023,45(12):83-87,95.
[17]余鵬明,管孝艷,陳俊英,等.基于Spearman秩相關(guān)的再生水利用量影響因素研究[J].節(jié)水灌溉,2019(10):78-82,88.
[18]張晶梅.基于秩相關(guān)系數(shù)的大壩安全評價組合賦權(quán)研究[J].水電能源科學(xué),2012,30(10):69-71.
[19]趙朔,桂峰蘭,柳后起.基于三種機器學(xué)習(xí)模型的太湖總氮濃度預(yù)測[J].中國農(nóng)村水利水電,2022(6):24-28,39.
[20]HOCHREITER S,SCHMIDHUBER J.Long-term memory[J].Neural Computation,1997,9(8):1735-1780.
[21]覃曉東,朱仟,周東旸,等.基于深度學(xué)習(xí)的多源降水?dāng)?shù)據(jù)融合方法及其應(yīng)用[J].人民長江,2023,54(11):68-75.
[22]殷兆凱,廖衛(wèi)紅,王若佳,等.基于長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的降雨徑流模擬及預(yù)報[J].南水北調(diào)與水利科技,2019,17(6):1-9,27.
[23]JIANG Y Q,LI C L,SUN L,et al.A deep learning algorithm for multi-source data fusion to predict water quality of urban sewer networks[J].Journal of Cleaner Production,2021,318:128533.
[24]RASHEED ABDUL HAQ K P,HARIGOVINDAN V P.Water quality prediction for smart aquaculture using hybrid deep learning models[J].IEEE Access,2022.10:60078-60098.
[25]DEHGHANI M,HUBáLOVSK? ?,TROJOVSK? P.Northern goshawk optimization:a new swarm-based algorithm for solving optimization problems[J].IEEE Access,2021(9):162059-162080.
[26]YANG C,JIANG Y T,LIU Y,et al.A novel model for runoff prediction based on the ICEEMDAN-NGO-LSTM coupling[J].Environmental Science and Pollution Research,2023,30:82179-82188.
[27]楊婷婷,虞佳穎,肖姚,等.基于Embedding-GRU的水庫水位預(yù)測模型[J].南水北調(diào)與水利科技(中英文),2023,21(5):940-950.
[28]項新建,張穎超,許宏輝,等.基于CEEMDAN-VMD-TCN-light GBM模型的水質(zhì)預(yù)測研究[J/OL].中國農(nóng)村水利水電,2024(3):86-95.
[29]王昱文,杜震洪,戴震,等.基于復(fù)合神經(jīng)網(wǎng)絡(luò)的多元水質(zhì)指標(biāo)預(yù)測模型[J].浙江大學(xué)學(xué)報(理學(xué)版),2022,49(3):354-362,375.
[30]王紅晨,馬俊,陳博行.基于進(jìn)化算法優(yōu)化的CNN-EA-Conv LSTM水質(zhì)預(yù)測模型[J].水電能源科學(xué),2023,41(8):73-76.
(編輯:劉 媛)
Research on water quality prediction model based on feature engineering
and NGO-LSTMYU Jiaying1,XIAO Yao 2
(1.School of Hydraulic Engineering,Zhejiang Tongji Vocational College of Science and Technology,Hangzhou 311231,China; 2.College of Aerospace Engineering,Chongqing University,Chongqing 400044,China)
Abstract: Due to complex characteristics and uneven correlation of water quality data,it is difficult to predict dissolved oxygen concentration.To improve the prediction accuracy of water quality dissolved oxygen concentration,a Feature Engineering and Northern Goshawk Optimization-Long Short Term Memory (FE-NGO-LSTM) hybrid model was proposed.Firstly,missing value imputation,feature screening,and feature polynomial construction were performed on the water quality dataset.Then,the model parameters were optimized based on the NGO-LSTM model to improve prediction performance.After analyzing the feature prediction performance under different polynomial orders,the model was compared with LSTM models based on grey wolf optimization algorithm,whale optimization algorithm,and particle swarm optimization algorithm.Finally,the model was validated with the dataset of the Chengnan monitoring section on east Tiaoxi River,and the prediction results of the FE-NGO-LSTM model were calculated for prediction periods of 4,8,12,16,20,and 24 hours.The experimental results demonstrated that when the polynomial order was 2nd,the model had the best prediction performance.Compared with LSTM models based on other optimization algorithms,the average absolute error,mean square error,and root mean square error of FE-NGO-LSTM model were reduced at least 9.0%,12.9%,and 6.3% respectively.Moreover,as the prediction period increased,the prediction error was still within an acceptable range,indicating that the FE-NGO-LSTM model has certain advantages and generalization in predicting dissolved oxygen concentration.
Key words: water quality prediction;dissolved oxygen;feature engineering;deep learning;Northern Goshawk;optimization algorithm;coupling model;Tiaoxi River Basin;Taihu Lake Basin