曹守啟,周禮馨,張 錚
(1.上海海洋大學工程學院,上海 201306;2.上海海洋可再生能源工程技術(shù)研究中心,上海 201306)
在水產(chǎn)養(yǎng)殖中,溶解氧(Dissolved Oxygen,DO)已成為預測水質(zhì)的重要參數(shù)[1]。水中溶解氧過高或不足,都會影響生物的繁殖和新陳代謝等生理功能,甚至嚴重影響生物的正常生長[2-3]。然而,溶解氧易受天氣、水質(zhì)、人類活動等多種因素的影響[4],具有非線性、大慣性、強耦合、時變性等特點[5-7]。因此,加強溶解氧預測模型研究[8],提高水產(chǎn)養(yǎng)殖減災防災能力,保障水產(chǎn)養(yǎng)殖的安全,已成為農(nóng)業(yè)生產(chǎn)的關(guān)鍵內(nèi)容[9]。
預測水質(zhì)變化是一項艱巨的任務(wù),涉及多參數(shù)動態(tài)時延過程,很難用簡單的數(shù)學公式或傳遞函數(shù)來體現(xiàn)其模型。此外,傳感器的準確度會受到環(huán)境因素的影響而降低,導致數(shù)據(jù)丟失或產(chǎn)生不確定的異常值,這對預測精度提出了挑戰(zhàn)。
在現(xiàn)有的解決上述 2個問題的方法中,支持向量機(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是2種廣泛應(yīng)用于水質(zhì)預測的方法[10]。為了提高預測精度,Yu等[11]提出了一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)數(shù)據(jù)融合方法和最小二乘支持向量機的混合溶解氧預測模型。但是支持向量機容易出現(xiàn)對數(shù)據(jù)丟失敏感、訓練耗時、預測性能差等問題,很難為各種應(yīng)用選擇合適的核函數(shù)[12]。相較于支持向量機模型,ANN可以容忍一定程度的數(shù)據(jù)缺失[13]。Faruk等[10]提出了季節(jié)性的平均自回歸模型(Autoregressive Integrated Moving Average Model,ARIMA)和神經(jīng)網(wǎng)絡(luò)反向傳播模型相結(jié)合的水質(zhì)參數(shù)月度預測方法。然而,由于網(wǎng)絡(luò)拓撲和數(shù)據(jù)的復雜性,人工神經(jīng)網(wǎng)絡(luò)模型往往存在過擬合、穩(wěn)定性差和耗時等問題。上述提及的預測方法均屬于淺層結(jié)構(gòu)的機器學習方法,在處理大規(guī)模數(shù)據(jù)時魯棒性較差,導致模型缺乏長效性和擴展能力,不能完全反應(yīng)數(shù)據(jù)的本質(zhì)特征[14]。
近年來,很多基于深度學習的方法在不同的領(lǐng)域得到廣泛應(yīng)用。深度學習方法能夠?qū)崿F(xiàn)高維函數(shù)的逼近,挖掘數(shù)據(jù)的隱含信息,與淺層結(jié)構(gòu)的機器學習方法相比具有更強的數(shù)據(jù)學習能力和泛化能力,能高度抽象化數(shù)據(jù)特征[15]。在現(xiàn)有的方法中,神經(jīng)網(wǎng)絡(luò)模型是解決復雜預測問題的強有力工具。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò)算法[16],被廣泛應(yīng)用于序列的非線性特征學習,如語音識別和時間序列預測等[17]。長短時記憶神經(jīng)網(wǎng)絡(luò)作為RNN神經(jīng)網(wǎng)絡(luò)最受歡迎的變體,可以有效地解決 RNN訓練時存在的梯度彌散和梯度爆炸問題[18]。Huan等[19]采用梯度提升決策樹對數(shù)據(jù)進行特征選取,建立長短時記憶神經(jīng)網(wǎng)絡(luò)溶解氧預測模型,并與 PSO-LSSVM 模型(Particle Swarm Optimization Least Squares Support VectorMachine)對比,證明了其模型的優(yōu)越性。Fu等[20]應(yīng)用LSTM神經(jīng)網(wǎng)絡(luò)預測交通流。Garn等[21]使用長短時記憶(Long Short-term Memory ,LSTM)神經(jīng)網(wǎng)絡(luò)預測英國租戶的財務(wù)狀況,并及時干預可能拖欠租金的租戶,以避免收入損失。目前,LSTM神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于不同場景的預測,并從很大程度上提高了預測的準確性。LSTM神經(jīng)網(wǎng)絡(luò)能夠有效預測集約化養(yǎng)殖中DO含量,可以平衡預測的穩(wěn)定性和準確性。
因此,本文提出了IPSO-KLSTM(Improved Particle Swarm Optimization Long Short-term Memory Neural Network Model Based on K-means Algorithm)模型預測水產(chǎn)養(yǎng)殖溶解氧,應(yīng)用 K-means算法對數(shù)據(jù)進行聚類,并利用改進的PSO算法對LSTM網(wǎng)絡(luò)進行參數(shù)選取,以期提高預測精度,并驗證模型的準確性和可靠性。
試驗選取上海市崇明光明田原清水蟹養(yǎng)殖示范基地為試驗區(qū)域。該養(yǎng)殖區(qū)域水資源極其豐富,水中石油類、重金屬等水化因子符合漁業(yè)水質(zhì)標準要求,區(qū)域面積約78.5 hm2,養(yǎng)殖水深為1.8 m,溶解氧、pH傳感器均置于水下1.0 m處,所有數(shù)據(jù)都已傳輸?shù)綗o線傳感器監(jiān)控系統(tǒng)。
水產(chǎn)養(yǎng)殖環(huán)境數(shù)據(jù)采集來自上海海洋大學開發(fā)的遠程低功耗無線監(jiān)控系統(tǒng),如圖1所示。該系統(tǒng)集成水質(zhì)和氣象傳感器,并通過NB-IoT技術(shù)傳輸數(shù)據(jù)到遠程終端,終端應(yīng)用軟件對數(shù)據(jù)進行預測預警處理。試驗采用的傳感器記錄了從2021年5月1日—7月6日共67d的溶解氧、pH值、溫度、濕度、氣壓、光照、風速、風向等養(yǎng)殖環(huán)境數(shù)據(jù),采集間隔為15 min,每天可獲取96條數(shù)據(jù),共收集了6 432條數(shù)據(jù)記錄,用于2021年7月7、8日的溶解氧預測。在 67d的樣本中,訓練集與測試集占比為7∶3。將歷史數(shù)據(jù)的 7個影響因子和溶解氧值作為預測模型的輸入向量,模型的輸出結(jié)果為預測日的溶解氧值。
由于采集到的原始數(shù)據(jù)具有不同維度和量綱,容易影響模型的最終預測效果[22]。在模型研究前,首先對數(shù)據(jù)進行公式(1)的歸一化處理。
式中xk和分別為原始數(shù)據(jù)和歸一化后的數(shù)據(jù),xmin和xmax分別為原始數(shù)據(jù)的最小值和最大值。
水產(chǎn)養(yǎng)殖在線監(jiān)測系統(tǒng)采集了大量不同類型的數(shù)據(jù),若將所有數(shù)據(jù)直接作為模型的輸入,模型會變得非常復雜。本文采用皮爾森相關(guān)系數(shù)公式(2)選取DO的關(guān)鍵影響因子,以減少輸入維度并解決信息冗余問題。溶解氧與不同環(huán)境因素之間的皮爾森相關(guān)系數(shù)結(jié)果如表1所示。
式中x和y為維度為1×m的向量,xi和yi分別為向量x和y的第i個元素,和分別為向量x和y元素的平均值。
從表1中可以看出,每個因素的特征重要性排序為光照強度、溫度、氣壓、濕度、pH值、風速和風向。本文選取前6個環(huán)境因素作為溶解氧預測模型的輸入樣本,以降低數(shù)據(jù)維度和復雜度。
表1 溶解氧與各影響因子的皮爾森相關(guān)系數(shù)Table 1 Pearson correlation coefficient among dissolved oxygen and influencing factors
為避免無規(guī)則樣本直接作為輸入導致預測精度低、收斂慢等問題,本文在預測前先采用 K-means算法將環(huán)境因子進行聚類,找出變量的相似性變化規(guī)律,然后在同簇別中建立LSTM神經(jīng)網(wǎng)絡(luò)模型進行溶解氧預測。
2.2.1 相似度統(tǒng)計量權(quán)重確定
環(huán)境因子的權(quán)重隨天氣變化會有一定的差異,在計算相似度統(tǒng)計量時,統(tǒng)一各影響因子間的權(quán)重會導致相似度大的因子直接決定總體相似度,造成誤差[23]。因此,采用灰色關(guān)聯(lián)系數(shù)法計算環(huán)境因子對平均溶解氧的權(quán)重。根據(jù)歷史天氣記錄,將收集到的數(shù)據(jù)按照不同的溫度和光照強度分為晴天、多云、陰天、雨天和混合天氣(一天中出現(xiàn)2種不同天氣類型)5類,氣象數(shù)據(jù)劃分見表2,分別計算5種天氣類型的因子權(quán)重。
表2 天氣類型氣象數(shù)據(jù)劃分Table 2 Division of meteorological data for weather types
假設(shè)有e天某天氣類型的歷史數(shù)據(jù),將每天的平均酸堿度pHavg,日平均溫度Tavg,日平均濕度Havg,日平均氣壓Pavg,日平均風速Savg和日平均光照Lavg作為反映該天的影響因子。構(gòu)造 6個大小為d×1的屬性因子向量z1~z6。以日平均溶解氧作為參考向量,構(gòu)造出e×1的溶解氧向量z7,利用灰色關(guān)聯(lián)系數(shù)法求出 6個因子向量與溶解氧向量在第e個分量的關(guān)聯(lián)系數(shù)。
式中λj(a)為因子向量與降解氧向量的關(guān)聯(lián)系數(shù);ρ是[0,1]之間的分辨系數(shù),ρ通常取0.5,a為天氣類型的天數(shù);得到的不同類別中環(huán)境相關(guān)因素對溶解氧的影響權(quán)重見表3。
表3 不同天氣類型下的影響因子權(quán)重Table 3 Weight of influence factors under different weather types
式中rj是zj和z7之間的關(guān)聯(lián)度,jσ為各因子的權(quán)重。
2.2.2 組合聚類相似度統(tǒng)計量
在聚類分析中,常用歐氏距離和角余弦來度量 2個樣本之間的相似度。假設(shè)要比較的 2個個體分別是溶解氧X和其他任意一個影響因子Y。它們都包含t維特征,即X= (x1,x2,… ,xt),Y= (y1,y2,… ,yt)。
歐式距離用來度量多維空間中點之間的絕對距離,反映樣本的數(shù)值差異。公式如下
角余弦使用向量空間中 2個向量之間的角的余弦值作為2個個體之間差異的度量。公式如下
由于溶解氧在不同環(huán)境條件下的變化趨勢復雜,僅用1個距離指標來計算樣本間的相似性有一定的局限性。為綜合考慮歷史數(shù)據(jù)中的數(shù)值信息和形狀信息,結(jié)合歐氏距離和角余弦計算方法,采用宦娟等[9]提出的改進的相似統(tǒng)計量。又由于統(tǒng)一各影響因子間的權(quán)重會導致相似度大的因子直接決定總體相似度,造成誤差,故將上述計算的不同環(huán)境因子對溶解氧的影響權(quán)重jσ嵌入到該方法中,以計算樣本間的趨勢相似性。計算公式如下
其中,
式中xij和yij為樣本x和y在第i時刻的第j個特征,其值介于0到1之間。α和β分別是夾角余弦Dcosxy和歐氏距離dxy之間的權(quán)重系數(shù),m為特征因素,t為監(jiān)測時刻。這 2個值將隨天氣條件而變化,天氣變化劇烈時α接近于1,否則,β接近于1,且α+β=1,σj是公式(5)中第j個環(huán)境因子對溶解氧的影響權(quán)重。
2.2.3 基于組合相似度的K-means聚類
歷史天氣記錄簡單將天氣分為晴天、多云、陰天和雨天,劃分不夠明確。易出現(xiàn)不同天氣情況溶解氧趨勢相似及一天中出現(xiàn)不同天氣類型難以歸類的情況。又K-means算法的初始聚類中心是隨機選擇的,這會增加整個計算的迭代時長。因此,本文基于天氣類型不同對數(shù)據(jù)進行有效聚類。在對晴天、多云、陰天、雨天、以及混合天氣類型的分類中初始化聚類中心,以節(jié)省運算時間和避免出現(xiàn)局部極值。
基于給定的聚類目標函數(shù)采用K-means迭代更新算法。每個迭代過程都往目標函數(shù)縮減的方向上進行[24]。最終的聚類結(jié)果使目標函數(shù)得到最小值,從而達到較好的分類效果。聚類結(jié)果如圖2所示,類1~5分別為改進K-means聚類算法對原始數(shù)據(jù)的不同分類。從圖中可以看出,每個簇中的數(shù)據(jù)對象都是集中的,簇與簇之間的分散程度相對較高。
長短時記憶(Long Short-term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[25],解決了RNN存在的梯度彌散和梯度爆炸問題,被廣泛應(yīng)用于時間序列中具有長時間間隔和時滯的預測場景。
LSTM在標準RNN的基礎(chǔ)上增加了更多的神經(jīng)網(wǎng)絡(luò)層,增加了記憶單元和輸入門、輸出門、遺忘門 3個具有記憶功能的模塊,有選擇地讓信息通過,每個門的功能各不相同。
遺忘門負責決定從記憶單元中丟棄哪些信息。更新公式如下
式中wfx、wfh、wfc和bf分別表示遺忘門的權(quán)重系數(shù)和偏置。
輸入門負責決定哪些信息可以保存在記憶單元中。更新公式如下
式中wix、wih、wic和bi分別表示輸入門的權(quán)重系數(shù)和偏置。wcx、wch、bo分別表示候選向量的權(quán)重系數(shù)和偏置。
輸出門決定將輸出哪些信息。除所需的信息外,沒有其他信息可以通過輸出門。其表達方式如下
式中it、ft和ot分別為輸入門、遺忘門和輸出門,xt為t時刻的輸入,σ(·)為 sigmoid激活函數(shù),tanh(·)為雙曲正切激活函數(shù),wox、woh、woc分別表示輸出門的權(quán)重系數(shù),Ct和為t時刻的候選向量和候選向量更新值,ht和ht-1分別為t、t-1時刻的輸出。
2.4.1 粒子群優(yōu)化算法
粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法最早由 Eberhart等[26]提出,通過群體中個體之間的協(xié)作和信息的共享,使整個群體的運動在問題求解空間中由無序演化為有序,從而獲得最優(yōu)解[27]。
d維搜索空間中,存在n個粒子Y= (Y1, … ,Yn),其中Yi= (yi1,yi2,… ,yid)T表示優(yōu)化問題的潛在最優(yōu)解和粒子在解空間中的位置。粒子的速度V= (V1, … ,VN)包含了它的距離和方向,其中Vi= (vi1,… ,vid)T。粒子特性由 3個指標表示:“位置”()、“速度”()和適應(yīng)度值。在每次迭代中,粒子通過個體極值和群體極值更新其速度和位置。更新公式如下
式中k為當前迭代次數(shù),ω表示慣性權(quán)重,c1和c2表示學習因子,r1和r2為隨機設(shè)置的常數(shù),取值范圍[0,1]。Pi=(pi1,… ,pin)T和Pg= (pg1,… ,pgn)T分別代表個體最佳位置和群體最佳位置。速度的范圍是 [vmin,vmax]。
2.4.2 改進粒子群優(yōu)化算法
PSO作為一種元啟發(fā)式優(yōu)化算法,可以用來優(yōu)化LSTM的參數(shù)選擇,以減少計算時間,提高預測精度。粒子群算法在解決復雜優(yōu)化問題上有著顯著的效果,但在處理優(yōu)化問題時缺乏有效的參數(shù)控制。易出現(xiàn)收斂速度慢、易陷入局部最優(yōu)、后期迭代精度低等問題。
1)改進的慣性權(quán)重
根據(jù)之前的相關(guān)研究[28],慣性權(quán)重是PSO模型中最重要的可調(diào)參數(shù)之一,適當?shù)膽T性權(quán)重值能平衡算法的局部和全局搜索能力,從而減少了定位最優(yōu)解所需的迭代次數(shù),并提高了PSO的性能。經(jīng)典的時變慣性權(quán)重方法雖然易于實現(xiàn),但由于不同的問題有其自身的特點,因而不能體現(xiàn)顯著的優(yōu)勢。由于慣性權(quán)重與迭代時間呈負相關(guān),粒子在進化初期具有較大的慣性權(quán)重以促進群體的多樣性。隨著迭代次數(shù)的增加,慣性權(quán)重呈非線性減小。慣性權(quán)重的減小可以顯著地增強粒子的收斂性。因此本文采用非線性雙曲正切函數(shù)來平衡局部和全局搜索。表達如下
式中Tω為改進的慣性權(quán)重,ωmin是最小慣性權(quán)重,ωmax是最大慣性權(quán)重。T是當前迭代,Tmax是最大迭代次數(shù)?,F(xiàn)用Tω代替式(17)中的ω。每個粒子慣性權(quán)重Tω根據(jù)上式獨立更新。
2)改進的學習因子
學習因子c1和c2主要用于調(diào)整粒子移動到個體最優(yōu)位置和全局最優(yōu)位置的步長。在實際應(yīng)用中,隨著迭代過程的推進,通常要求c1值由大變小,以加快迭代初期的搜索速度,提高全局搜索能力。同時要求c2值由小變大,以便于在迭代后期進行局部細化搜索,同時提高精度[29]。然而,標準PSO通常將其設(shè)置為122c=c= 不能滿足實際應(yīng)用的要求。因此,引入余弦函數(shù)來改進學習因子,如下式所示
2.4.3 IPSO-KLSTM網(wǎng)絡(luò)預測模型
溶解氧時間序列數(shù)據(jù)受到多方面因素的影響,具有復雜的不穩(wěn)定性、非線性和時變性。為了準確地預測溶氧變化趨勢,本文以在時間序列分析中實現(xiàn)性能優(yōu)越的LSTM模型為基礎(chǔ),在預測前進行K-means聚類,同時提出改進的 PSO算法來優(yōu)化模型參數(shù),建立IPSO-KLSTM溶解氧預測模型。其預測流程如圖3,具體實施步驟如下:
1)通過遠程無線監(jiān)測系統(tǒng)獲取試驗區(qū)域的水質(zhì)、氣象數(shù)據(jù),并對其進行預處理,利用皮爾森相關(guān)系數(shù)篩選出溶解氧的關(guān)鍵影響因子,以降低模型輸入的維度和復雜度;
2)為避免天氣狀況相近而溶解氧變化差異較大的情況,采用灰色關(guān)聯(lián)度計算不同天氣下影響因子相似度,根據(jù)溶解氧的濃度和曲線形狀,利用 K-means算法對數(shù)據(jù)進行聚類,圖3中在建立LSTM網(wǎng)絡(luò)前數(shù)據(jù)被分為1~5類,找出數(shù)據(jù)之間的相似性,以提高預測的準確度;
3)設(shè)定 IPSO參數(shù)并初始化粒子:確定種群大小、粒子維數(shù)、迭代次數(shù)、學習因子、慣性權(quán)重以及待優(yōu)化參數(shù)的定義區(qū)間。初始化粒子的位置和速度,隨機產(chǎn)生粒子Yi,1(node,look_back),其中node表示隱含層神經(jīng)元的個數(shù),look_back表示時間步長;
4)設(shè)置粒子的適應(yīng)度函數(shù):適應(yīng)度函數(shù)用來衡量每個粒子的性能。以當前粒子作為每個粒子的個體極值點,以適應(yīng)度最小的粒子作為全局極值點。在 LSTM的訓練和測試過程中,目標是使測試樣本的實際值和預測值之間的誤差最小化。因此,IPSO的適應(yīng)度函數(shù)定義為
式中M為驗證樣本數(shù),yij和分別為驗證樣本的真實值和預測值;
5)更新粒子的速度和位置:計算每個粒子的適應(yīng)度值,確定個體最優(yōu)適應(yīng)度值和群體最優(yōu)適應(yīng)度值;
6)完成預測并對結(jié)果進行分析:將IPSO算法在滿足最終條件時得到的參數(shù)值代入LSTM神經(jīng)網(wǎng)絡(luò)模型,建立IPSO-KLSTM水產(chǎn)養(yǎng)殖溶解氧預測模型,然后將測試樣本輸入模型進行預測,最后對預測結(jié)果進行分析。
所有試驗均在MATLAB環(huán)境下進行,并在2.4GHz內(nèi)核處理器、8.0G內(nèi)存和Microsoft Windows 10的PC機上運行。在本試驗中,使用2.2節(jié)提出的聚類模型將所有數(shù)據(jù)(6432個數(shù)據(jù)集)劃分為5個簇。分別在各個類中應(yīng)用IPSO-KLSTM模型。利用IPSO算法得到了溶解氧預測模型的最優(yōu)參數(shù)node和look_back。IPSO的初始化參數(shù)如下:群體大小P=50,慣性權(quán)重ωmax= 0.95,ωmin= 0.3,迭代次數(shù)T=200,歸一化樣本的適應(yīng)度精度為0.005。IPSO參數(shù)的選擇是基于大量的試驗和參考[30],這些值在訓練數(shù)據(jù)集上提供了最小的MSE和最好的計算效率。這表明IPSO算法收斂速度快,更適合于尋找LSTM模型的未知參數(shù)。通過IPSO算法得到最優(yōu)組合參數(shù),即node=10,look_back=20。
為了進一步檢驗模型的預測性能,采用平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)[31]、平均絕對誤差(Mean Absolute Error,MAE)和納什系數(shù)(Nash-sutcliffe Coefficient,NSC)[32]對預測結(jié)果進行了評價。這些度量可以從不同的數(shù)學角度反映原始數(shù)據(jù)與預測數(shù)據(jù)之間的誤差和擬合程度。這些指標分別由公式(23)~(26)計算。
式中N為每個數(shù)據(jù)集中預測時間點的數(shù)量,Yi是原始數(shù)據(jù),fi為預測值,表示原始數(shù)據(jù)的均值,當NSC的值越高,且MAPE、RMSE和MAE值越低時,模型越精確。
為了驗證提出模型的預測性能,本文采用不同的預測模型進行比較。比較模型有粒子群優(yōu)化的 K-means長短時神經(jīng)網(wǎng)絡(luò)模型(PSO-KLSTM)、PSO優(yōu)化最小二乘支持向量機模型(PSO-LSSVM)、PSO和LSTM組合模型(PSO-LSTM)和傳統(tǒng)的極限學習機模型(ELM)、反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型、長短時記憶(LSTM)網(wǎng)絡(luò)模型。為了驗證模型在不同天氣狀況下的預測性能,分別選取2021年7月7、8日作為預測日,預測其24h內(nèi)的溶解氧含量,如圖4所示。其中7月7日是晴天,最低、最高溫度分別為 26、35℃;平均光照強度為38 643 Lux。圖4 a顯示了其6種不同模型對溶解氧含量預測曲線,隨著光照強度的增大,引起水中植物的光合作用轉(zhuǎn)換增強,氧氣逐步積累在下午四點后達到峰值。同時圖5展示了這一天中不同模型對應(yīng)的預測誤差,從圖中可以看出,本文提出的IPSO-KLSTM較其他5種模型的誤差曲線波動較小。這是由于溶解氧受到光照強度、溫度、氣壓等多種環(huán)境因素的影響,在預測前對數(shù)據(jù)集進行環(huán)境因子分析聚類,可以優(yōu)化輸入樣本,避免差異樣本的干擾,有效提取溶解氧的變化特性。另外,利用IPSO方法優(yōu)化LSTM模型所需的參數(shù)選取,可以提高模型搜索速度,克服了傳統(tǒng)LSTM模型在參數(shù)選擇上的盲目性和局限性,從而提高模型預測精度。
7月 8日為混合天氣類型,最低、最高溫度分別為25、31 ℃;平均光照強度為31 047 Lux,其白天大部分時間較為晴朗,至下午16:30突降暴雨。圖4 b顯示了該天氣狀況下 6種模型的預測曲線,天氣突變使得光照強度降低,水生物光和作用受到影響,同時氣壓降低導致水體對氧的溶解度降低,溶解氧含量快速下降,圖5中顯示其誤差曲線變化波動較大。
表4為不同模型對應(yīng)的性能評估,可以看出當天氣發(fā)生突變時,本文提出模型的MAPE、RMSE、MAE和NSC分別為0.129 5、0.645 3、0.461 3和0.902 2。與未經(jīng)過相似度聚類的模型相比,IPSO-KLSTM預測效果較好,該模型能構(gòu)造最優(yōu)化的樣本訓練集,能夠根據(jù)天氣變化做出相應(yīng)的學習訓練,快速獲取最新樣本,對突變的天氣狀況樣本具有較強的學習能力,同時也獲得了更好的泛化性能,從而降低天氣突變時的預測誤差。與傳統(tǒng)的LSTM、ELM和BP模型相比,該算法的RMSE分別提高了17.10%、24.89%和24.21%,說明只依靠網(wǎng)絡(luò)自身訓練的模型,其預測效果不能滿足實際的環(huán)境需求,改進的LSTM較好的平衡了預測的穩(wěn)定性和準確性,能夠容忍因不確定的混合天氣類型而導致的傳感器數(shù)據(jù)異?;蛉笔В且环N適合用于預測集約化養(yǎng)殖DO含量的有效方法。
表4 2021年7月7-8日模型預測結(jié)果分析Table 4 Analysis of model forecast results on July 7 and 8, 2021
通過對 2種天氣情況的預測分析,可以看出,在天氣突變的情況下,IPSO-KLSTM 預測誤差略有增加,但優(yōu)于其他5種模型。能有效預測水產(chǎn)養(yǎng)殖中溶解氧含量,為水產(chǎn)養(yǎng)殖的預測和預警提供幫助。
為了解決溶解氧含量預測中傳統(tǒng)預測方法預測精度低、魯棒性差的問題,將 K-means聚類和長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)相結(jié)合,同時引入改進粒子群優(yōu)化算法(IPSO),建立了池塘養(yǎng)殖河蟹養(yǎng)殖中溶解氧含量的非線性預測模型,得出以下結(jié)論:
1)本文利用灰色關(guān)聯(lián)系數(shù)確定在不同天氣類型下影響因子對溶解氧的權(quán)重,并結(jié)合改進相似度統(tǒng)計量,用K-means算法將原始數(shù)據(jù)集劃分為5個不同的簇,通過選擇與預測日溶解氧高度相關(guān)的類別作為輸入數(shù)據(jù),有利于選取優(yōu)質(zhì)訓練樣本,避免了因天氣差異造成的不同趨勢樣本間的干擾。
2)通過改進 PSO的慣性權(quán)重和學習因子,優(yōu)化LSTM的參數(shù)選取,其最優(yōu)參數(shù)組合為隱含層神經(jīng)元個數(shù)node=10,時間步長look_back=20。能避免參數(shù)設(shè)定的盲目性,減少人工選擇參數(shù)的主觀影響。
3)針對不同天氣狀況,將提出的模型與PSO-LSSVM、PSO-LSTM和傳統(tǒng)單一的BP、ELM、LSTM預測模型相比,本文建立的模型其預測結(jié)果更接近真實值。在良好天氣情況下,其預測誤差曲線波動較小。當天氣發(fā)生突變時模型具有較低的RMSE、MAE、MAPE和更高的NSC,分別為0.129 5、0.645 3、0.461 3和0.902 2。擬合效果比較理想,一定程度改善了突變狀況下的數(shù)據(jù)缺失、魯棒性差等問題,在大規(guī)模集約化養(yǎng)殖中具有一定優(yōu)勢。
在未來的工作中,我們將在其他類型的水產(chǎn)養(yǎng)殖參數(shù)的應(yīng)用領(lǐng)域進行試驗和探討,并加以推廣。同時,我們會更加注重不同模型的對比,以便對模型的性能進行更深入的分析和探討。