陳夢云
(福建省淡水水產(chǎn)研究所,福建 福州350002)
近些年來,隨著水產(chǎn)養(yǎng)殖業(yè)的迅速發(fā)展,水質(zhì)預(yù)測預(yù)警技術(shù)作為水產(chǎn)養(yǎng)殖過程中重要的一環(huán)越來越受重視[1],溶解氧(Dissolved oxygen,DO)是進行水質(zhì)監(jiān)測時的一項重要指標[2],關(guān)系到水產(chǎn)養(yǎng)殖物種的存活[3-5],也是水質(zhì)狀況變化的風(fēng)向標。因此,精確預(yù)測DO變化趨勢,根據(jù)DO預(yù)測結(jié)果指導(dǎo)水產(chǎn)養(yǎng)殖的生產(chǎn)經(jīng)營十分重要[6]。精準的DO預(yù)測工具一旦可以應(yīng)用于水產(chǎn)養(yǎng)殖業(yè),就能通過促進養(yǎng)殖物種的健康生長來增加經(jīng)濟效益,并且在水質(zhì)變化前進行精確預(yù)警,及早防范缺氧對水產(chǎn)養(yǎng)殖帶來的風(fēng)險。
中國對水產(chǎn)養(yǎng)殖水質(zhì)預(yù)測預(yù)警在研究和實踐層面都起步較晚,但隨著水產(chǎn)養(yǎng)殖業(yè)的發(fā)展,針對水產(chǎn)養(yǎng)殖系統(tǒng)的水質(zhì)預(yù)測預(yù)警的相關(guān)研究和探索在最近幾年里發(fā)展比較迅速[7]。劉雙印等[8]以水產(chǎn)養(yǎng)殖中河蟹養(yǎng)殖過程中的關(guān)鍵水質(zhì)參數(shù)、DO和pH值為研究對象,采用信號處理技術(shù)、群集智能計算和機器學(xué)習(xí)技術(shù),研究了基于計算智能的水產(chǎn)養(yǎng)殖水質(zhì)預(yù)測預(yù)警方法;袁琦等[9]分別采用Matlab神經(jīng)網(wǎng)絡(luò)工具箱建立了水產(chǎn)養(yǎng)殖水環(huán)境因子pH值和DO的預(yù)測模型,其預(yù)測結(jié)果與實際值相比,平均相對誤差小于1%;孫龍清等[10]提出了一種基于改進的天牛須搜索算法和長短期記憶網(wǎng)絡(luò)相結(jié)合的DO含量預(yù)測模型;張秀菊等[11]運用BP神經(jīng)網(wǎng)絡(luò)研究了一種水質(zhì)預(yù)測模型,通過對瀟河流域的DO預(yù)測結(jié)果表明,BP網(wǎng)絡(luò)能夠有效地運用在水質(zhì)預(yù)測方面,具有較高的預(yù)測精度和很高的實際應(yīng)用價值。但是,與任何統(tǒng)計模型一樣,BP神經(jīng)網(wǎng)絡(luò)模型也有一些缺點[12-13],如難以解釋DO變化背后的機制、過多的候選因子輸入會增加模型的計算復(fù)雜性以及識別最優(yōu)解的難度等。因此,識別和篩選輸入因子對預(yù)測DO至關(guān)重要。Reshef D N等[14]使用了一種新的變量識別方法,即最大信息系數(shù)(Maximum information coefficient,MIC),這是一種探索性分析工具,MIC用于衡量兩個變量X和Y之間的關(guān)聯(lián)程度[15],可以衡量兩個變量線性或非線性的強度,常用于機器學(xué)習(xí)的特征選擇,將輸入因子經(jīng)MIC識別和篩選后輸入BP神經(jīng)網(wǎng)絡(luò)模型,構(gòu)造一個MIC與BP神經(jīng)網(wǎng)絡(luò)融合的模型,將大大提高模型的準確度,并降低模型的計算難度。
因此,本文主要研究:1)利用MIC技術(shù)對輸入因子進行識別和篩選;2)構(gòu)建混合MIC-BP神經(jīng)網(wǎng)絡(luò)DO預(yù)測模型,并將其性能與獨立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型進行比較;3)比較獨立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型和混合MIC-BP神經(jīng)網(wǎng)絡(luò)DO預(yù)測模型性能,得到最優(yōu)DO預(yù)測模型。通過構(gòu)建和對比兩種不同的DO預(yù)測模型,為閩江水口庫區(qū)的DO精準預(yù)測提供方法指導(dǎo),進而為閩江水口庫區(qū)的漁業(yè)生產(chǎn)調(diào)控管理提供科學(xué)依據(jù)。
研究區(qū)域選擇福建省樟湖鎮(zhèn)和古田縣的淡水水產(chǎn)養(yǎng)殖重點水域,水質(zhì)數(shù)據(jù)來自兩個在線浮標站位SK11、SK18,其中SK11站位(118°44′19.95″E、26°22′32.73″N)位于寧德市古田縣水口鎮(zhèn)水域,SK18站位(118°29′37.76″E、26°23′28.54″N)位于南平市延平區(qū)樟湖鎮(zhèn)水域(圖1),監(jiān)測水深為0.5 m。氣象數(shù)據(jù)來源于中國氣象網(wǎng)。水質(zhì)指標包括DO、水溫、pH、葉綠素a、濁度、電導(dǎo)率、氨氮濃度和亞硝酸鹽氮濃度,監(jiān)測時間為2022年1月到6月,其中水溫、pH、葉綠素a、濁度、電導(dǎo)率監(jiān)測頻次為1 h/次,氨氮濃度和亞硝酸鹽氮濃度的監(jiān)測頻次為4 h/次;氣象指標包括濕度、風(fēng)速、風(fēng)向、氣壓、能見度和平均總云量,監(jiān)測時間為2022年1月至6月,監(jiān)測頻次為1 h/次。為了統(tǒng)一樣本時間尺度,提高結(jié)果的準確性,模型構(gòu)建前通過去除異常值和插值法來預(yù)處理數(shù)值因子數(shù)據(jù),將氨氮濃度和亞硝酸鹽氮濃度的頻次科學(xué)地轉(zhuǎn)化為1 h/次,與氣象數(shù)據(jù)頻次一致,統(tǒng)一樣本數(shù)據(jù)頻次。
圖2為模型構(gòu)建流程。
1)通過去除異常值和插值法來預(yù)處理水質(zhì)因子和氣象因子數(shù)據(jù),去除對結(jié)果造成影響的異常數(shù)據(jù)并填補空缺,達到統(tǒng)一樣本數(shù)據(jù)頻次目的;
2)在經(jīng)過數(shù)據(jù)預(yù)處理后,使用MIC最大信息系數(shù)對輸入因子進行識別和篩選,剔除對DO影響較小的因子;
3)使用完整的數(shù)據(jù)集(未經(jīng)MIC識別和篩選后的數(shù)據(jù)集)構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型,進行訓(xùn)練,并計算模型誤差;
4)使用經(jīng)MIC識別和篩選后的數(shù)據(jù)集構(gòu)建混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型,進行訓(xùn)練,并計算模型誤差;
5)對比分析獨立BP神經(jīng)網(wǎng)絡(luò)模型和混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的誤差,得出最優(yōu)DO預(yù)測模型。
人工神經(jīng)網(wǎng)絡(luò)無需事先確定輸入與輸出之間映射關(guān)系的數(shù)學(xué)方程,僅通過自身的訓(xùn)練,學(xué)習(xí)某種規(guī)則,在給定輸入值時得到最接近期望輸出值的結(jié)果。作為一種智能信息處理系統(tǒng),人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)其功能的核心是算法。BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最多、最廣泛的一種神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)主要是多層前饋神經(jīng)網(wǎng)絡(luò),是按照誤差逆向傳播算法訓(xùn)練出來的。這種網(wǎng)絡(luò)結(jié)構(gòu)具有對復(fù)雜數(shù)據(jù)模式進行分類和映射的能力。從網(wǎng)絡(luò)結(jié)構(gòu)上看,BP網(wǎng)絡(luò)具有輸入層、隱含層和輸出層;從本質(zhì)上來看,BP網(wǎng)絡(luò)采用梯度下降法來計算目標數(shù)的最小值,然后以網(wǎng)絡(luò)誤差平方進行函數(shù)逼近,其算法稱為BP算法,這種方法的特征是利用梯度搜索原理,使整個網(wǎng)絡(luò)的最終輸出結(jié)果和期望的輸出結(jié)果之間的平均誤差百分比的值最小。BP網(wǎng)絡(luò)的模型結(jié)構(gòu)一般由輸入層、隱含層和輸出層組成,其主要用于以下四個方面:
1)函數(shù)逼近:用輸入向量和相應(yīng)的輸出向量訓(xùn)練一個網(wǎng)絡(luò)逼近一個函數(shù);
2)模式識別:用一個待定的輸出向量將它與輸入向量聯(lián)系起來;
3)分類:采用輸入向量所定義的合適方式進行分類;
4)數(shù)據(jù)壓縮:減少輸出向量維數(shù)以便于傳輸或存儲。
圖3顯示了BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,輸入信息從輸入層進入后,經(jīng)過隱含層變換傳遞到輸出層,計算均方誤差(MSE)。如果MSE值超過要求,則誤差開始反向傳遞,經(jīng)過隱含層傳向輸入層。然后調(diào)整輸入變量參數(shù)再次進行訓(xùn)練,多次訓(xùn)練使MSE達到要求。
BP神經(jīng)網(wǎng)絡(luò)模型為預(yù)測DO提供了一種強大的方法,因為此類模型通常具有較高的效率,決定系數(shù)(R2)高達0.9,本研究采用了BP神經(jīng)網(wǎng)絡(luò)技術(shù)進行DO預(yù)測,利用Matlab軟件中的神經(jīng)網(wǎng)絡(luò)進行機器學(xué)習(xí),以解決環(huán)境因素和DO之間的非線性問題。
水動力系統(tǒng)在所有的時空尺度上基本表現(xiàn)為非線性關(guān)系,例如最典型的溫度和流量,它們表現(xiàn)出高度的非線性關(guān)系,而且水動力循環(huán)的相關(guān)因素之間的相互作用也十分復(fù)雜,這也決定了水動力系統(tǒng)中的各個因素都表現(xiàn)為高度非線性關(guān)系,因此這種非線性關(guān)系也幾乎否決了建立輸入因子與DO之間的線性關(guān)系的可能。常用的相關(guān)性分析法,如Pearson相關(guān)系數(shù)法、Spearman相關(guān)系數(shù)法和Kendall相關(guān)系數(shù)法等常用于線性數(shù)據(jù)或者簡單非線性數(shù)據(jù)的分析,但若應(yīng)用于非線性數(shù)據(jù)如本次DO與候選因子的數(shù)據(jù)分析,可能會造成很大的誤差,影響預(yù)測的準確性。MIC是一種可以捕捉兩個變量相關(guān)性的工具,不管變量之間的關(guān)系是線性還是非線性,MIC均有不錯的捕捉效果。MIC的原理是若變量之間存在相關(guān)性,則可在散點圖上繪制網(wǎng)格來劃分和封裝其關(guān)系,且如果變量之間是獨立的,MIC值趨向于0;相反,若兩變量不獨立且相關(guān),MIC值則趨向于1。
混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型是將輸入因子經(jīng)過識別和篩選后進行訓(xùn)練的,有助于快速識別原始時間序列中包含的信息;BP神經(jīng)網(wǎng)絡(luò)模型則是使用所有候選輸入創(chuàng)建了一個獨立的BP神經(jīng)網(wǎng)絡(luò)模型,稱為基礎(chǔ)模型。列舉基礎(chǔ)模型是為了提供一個參考模型,從中可以比較基礎(chǔ)BP神經(jīng)網(wǎng)絡(luò)模型和混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的結(jié)果,比較的目的是評估使用MIC方法減少輸入數(shù)量后模型性能的變化。
本研究使用一些被廣泛認可的指標來評估所提出的預(yù)測模型的性能,包括R2、均方根誤差(RMSE)、MSE、平均絕對誤差(MAE)、納什系數(shù)(NSE),這些指標計算公式如下:
(1)
(2)
(3)
(4)
對SK11和SK18站位的8個水質(zhì)參數(shù)(DO、葉綠素a、pH、水溫、濁度、電導(dǎo)率、氨氮濃度和亞硝酸鹽氮濃度)1—6月監(jiān)測數(shù)據(jù)進行分析。兩站位各水質(zhì)參數(shù)時間變化特征如圖4、圖5所示。
SK11站位DO濃度區(qū)間為2~14 mg/L,葉綠素a濃度區(qū)間為3~90 μg/L,兩者變化趨勢相似;隨著氣溫回暖,藻類等植物大量生長,1—3月DO和葉綠素a濃度逐漸升高,均在3月出現(xiàn)最高值,其中DO濃度最高為14 mg/L,葉綠素a濃度最高為90 μg/L;隨后可能受降雨等因素影響,DO和葉綠素a濃度降低,但天氣好轉(zhuǎn),又繼而升高,總體來說,4—6月DO和葉綠素a濃度呈波動變化。pH的變化區(qū)間在6.3~8.7之間,呈弱酸弱堿性,分布較為平均,個別天數(shù)受多種因素影響而出現(xiàn)波動。在1—6月之間,隨著時間推移,水溫逐漸升高。氨氮濃度和亞硝酸鹽氮濃度在1—6月分布較為雜亂,無明顯規(guī)律。電導(dǎo)率主要與溫度、懸浮物含量與水體中陰陽離子含量等有關(guān)。5—6月水溫過高,導(dǎo)致水體電導(dǎo)率下降嚴重,其余月份水溫較低,因此電導(dǎo)率普遍偏高。
SK18站位各水質(zhì)參數(shù)時間變化與SK11大體一致,個別天數(shù)的數(shù)據(jù)因在線浮標儀器自身故障而偏離和丟失。
圖6顯示了SK11站位和SK18站位所有候選因子和DO之間線性和非線性關(guān)系(MIC值),數(shù)據(jù)顯示:無論在SK11站位還是SK18站位,pH是對DO影響最大的因子,其與DO的MIC值在SK18站位達到了0.714 4,這與崔莉鳳等[16]的研究結(jié)果一致,這主要是由于pH在水體中主要受CO2含量的影響,而CO2的含量又主要受生物過程的控制,因此pH與DO有很好的相關(guān)性;其次是水溫,在SK11站位與DO的MIC值為0.411 3;濕度、風(fēng)速、風(fēng)向、氣壓和能見度與DO的MIC值均在0.1以下,說明其對DO的影響不大,因此在構(gòu)建混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型時可以考慮剔除;平均總云量與DO的MIC值雖然在SK11站位達到0.190 7,但在SK18站位僅為0.089 4,綜合考慮,在構(gòu)建混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型時剔除候選因子平均總云量。
綜上所述,候選因子經(jīng)過MIC的識別和篩選后,在構(gòu)建混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型時,SK11、SK18站位的輸入因子為pH、水溫、葉綠素a、電導(dǎo)率、濁度、氨氮濃度和亞硝酸鹽氮濃度。
獨立的BP神經(jīng)網(wǎng)絡(luò)模型使用完整的數(shù)據(jù)集(未經(jīng)過MIC識別和篩選后的數(shù)據(jù)集),混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型使用經(jīng)過MIC識別和篩選后的數(shù)據(jù)集,同時對兩種模型開展機器學(xué)習(xí),選擇前70%的數(shù)據(jù)(2022年1月1日0時至2022年5月7日18時,共3 036組數(shù)據(jù))作為樣本集訓(xùn)練;選擇后30%的數(shù)據(jù)(2022年5月7日19時至2022年6月30日23時,共1 300組數(shù)據(jù))作為測試集來評估模型的效果。
表1顯示了在SK11和SK18站位基于獨立BP神經(jīng)網(wǎng)絡(luò)模型和混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果。SK11和SK18站位混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型和獨立的BP神經(jīng)網(wǎng)絡(luò)模型的R2平均值均為0.97,說明兩種模型均具有較好的擬合效果,預(yù)測結(jié)果均有較高的可信度;混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的MAE、RMSE和NSE的平均值分別為1.05、1.76和0.62,而獨立BP神經(jīng)網(wǎng)絡(luò)模型分別為1.34、2.27和0.48,對比可知混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測誤差較小。比較兩個模型的MAE、RMSE和NSE,結(jié)果表明:混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的性能相對于獨立BP神經(jīng)網(wǎng)絡(luò)模型,在SK11站位:MAE降低約29.29%,RMSE降低約60.09%,NSE增加27.63%;在SK18站位:MAE降低約17.16%,RMSE降低約16.23%,NSE增加12.77%。SK11和SK18站位模擬效果見圖7~圖14。
表1 SK11、SK18站位模擬效果
綜上所述,通過對兩個站位的平均誤差以及各個站位不同模型的誤差比較可以得出:混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的效果明顯優(yōu)于獨立的BP神經(jīng)網(wǎng)絡(luò)模型,候選因子經(jīng)過MIC的識別和篩選后可以明顯提高模型的性能,因此使用混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型進行DO預(yù)測得到的結(jié)果更準確。
1)分別對SK11、SK18站位的獨立和混合BP神經(jīng)網(wǎng)絡(luò)模型進行比較,發(fā)現(xiàn)經(jīng)過MIC的識別和篩選后,模型的擬合效果和預(yù)測精度明顯提升,說明MIC技術(shù)能有效篩選影響DO的主要環(huán)境因素;
2)經(jīng)過MIC的識別和篩選后,混合MIC-BP神經(jīng)網(wǎng)絡(luò)模型的MAE、RMSE均得到顯著的降低,NSE得到顯著增大,說明基于MIC-BP神經(jīng)網(wǎng)絡(luò)模型有助于提高模型性能,更適合用于DO的預(yù)測。
總體來說,與常見的過程驅(qū)動模型、數(shù)學(xué)模型不同,BP神經(jīng)網(wǎng)絡(luò)模型屬于數(shù)據(jù)驅(qū)動模型。過程驅(qū)動模型提供DO的預(yù)測是通過模擬研究區(qū)域的生化過程完成的,如硝化、反硝化和光合作用;而數(shù)據(jù)驅(qū)動模型,如BP神經(jīng)網(wǎng)絡(luò)模型,其不能完整地反映出具體的過程,但可以將現(xiàn)有的數(shù)據(jù)進行充分的應(yīng)用,模擬出各個候選因子與DO的非線性關(guān)系,并提供DO的精準預(yù)測;與數(shù)學(xué)方法相比,BP神經(jīng)網(wǎng)絡(luò)則具有更好的穩(wěn)定性和魯棒性,能夠更加快速準確地對DO進行預(yù)測,而經(jīng)過MIC的篩選后,模型的擬合效果和預(yù)測精度明顯提升,更適合用于DO的預(yù)測。