徐勝強
(河北省邯鄲水文勘測研究中心,河北 邯鄲 056001)
水質是水資源管理和保護的重要指標之一,對于保障人類健康和生態(tài)環(huán)境的可持續(xù)發(fā)展具有重要意義。邯鄲岳城水庫位于磁縣與安陽縣兩縣相交界處,是該地區(qū)重要的水源地和水利工程,水質的評價和預測對于水庫管理和保護至關重要。傳統(tǒng)的水質評價和預測方法主要依賴于統(tǒng)計分析和經(jīng)驗模型,對于復雜的非線性關系和時空變化規(guī)律的揭示存在一定的局限性。因此,本研究基于BP 神經(jīng)網(wǎng)絡技術,旨在提供一種新的、準確的水質評價和預測方法,通過對水質監(jiān)測數(shù)據(jù)的分析和處理,可以建立起水質與相關因素之間的復雜非線性關系,實現(xiàn)對水質的準確評價和未來趨勢的預測。
BP 神經(jīng)網(wǎng)絡,即反向傳播神經(jīng)網(wǎng)絡,是一種常用的人工神經(jīng)網(wǎng)絡模型,用于解決分類和回歸等問題[1]。它基于誤差反向傳播算法,通過不斷調(diào)整網(wǎng)絡參數(shù),使得網(wǎng)絡的輸出與期望值盡可能接近。
第一,神經(jīng)元模型:BP 神經(jīng)網(wǎng)絡由多個神經(jīng)元(或稱為節(jié)點)組成。每個神經(jīng)元接收來自上一層神經(jīng)元的輸入,通過激活函數(shù)處理后產(chǎn)生輸出。
第二,前向傳播:BP 神經(jīng)網(wǎng)絡采用前向傳播的方式,將輸入信號通過網(wǎng)絡的各層傳遞,直到輸出層產(chǎn)生最終的輸出。
第三,權重調(diào)整:BP 神經(jīng)網(wǎng)絡通過誤差反向傳播算法進行訓練。首先,根據(jù)輸入樣本的真實輸出和網(wǎng)絡當前輸出之間的誤差,計算輸出層神經(jīng)元的誤差[2]。然后,將誤差通過網(wǎng)絡的連接權重反向傳播到隱藏層和輸入層的神經(jīng)元,根據(jù)誤差大小調(diào)整權重。這樣,網(wǎng)絡逐漸調(diào)整權重,使得輸出逼近期望值。
第四,激活函數(shù):在BP 神經(jīng)網(wǎng)絡中的神經(jīng)元中,所用的激活函數(shù)一般使用Sigmoid 函數(shù),對神經(jīng)元的輸入進行輸出轉換。Sigmoid 函數(shù)具有連續(xù)、可導的特性,適合用于誤差反向傳播算法。
BP 神經(jīng)網(wǎng)絡的模型結構分為三層。其中,輸入層用于接收外部輸入的特征向量或樣本數(shù)據(jù),每個輸入節(jié)點對應一個特征或屬性,輸入層節(jié)點的數(shù)量取決于輸入數(shù)據(jù)的維度;隱藏層是位于輸入層和輸出層之間的一層或多層神經(jīng)元組成的層,隱藏層的節(jié)點數(shù)量和層數(shù)可以根據(jù)問題的復雜程度和需求進行設置,隱藏層的主要功能是進行特征提取和數(shù)據(jù)轉換,通過非線性激活函數(shù)將輸入信號轉化為更高級的特征表示;輸出層是神經(jīng)網(wǎng)絡的最后一層,將隱藏層的輸出轉化為最終的輸出結果,輸出層的節(jié)點數(shù)量通常根據(jù)問題的要求來決定,例如分類問題中,輸出節(jié)點的數(shù)量可以對應不同的類別。
BP 神經(jīng)網(wǎng)絡的優(yōu)點是可以解決非線性問題,具有較強的逼近能力和泛化能力。它可以通過訓練過程自動學習數(shù)據(jù)的特征和規(guī)律,并進行模式識別和預測。需要注意的是,BP 神經(jīng)網(wǎng)絡存在訓練速度慢等問題,為此,相關研究人員對算法和結構進行了一定的改進,如改進的激活函數(shù)、正則化技術、卷積神經(jīng)網(wǎng)絡等??傊?BP 神經(jīng)網(wǎng)絡是以誤差反向傳播算法為基礎的網(wǎng)絡模型,通過調(diào)整網(wǎng)絡參數(shù)來實現(xiàn)輸入與期望輸出的接近,適用于各種分類和回歸問題。
收集與水庫水質相關的監(jiān)測數(shù)據(jù),包括水溫、pH 值、溶解氧、濁度、總磷、總氮等指標,數(shù)據(jù)可以通過水質監(jiān)測站、傳感器等設備獲取,也可以通過歷史記錄、實地采樣等方式獲取[3]。對收集到的數(shù)據(jù)進行篩選,將其中的異?;蛘呷笔У臄?shù)值去除,減少干擾。異常值可以通過統(tǒng)計方法或專業(yè)知識進行識別和處理,缺失值可以通過插值或刪除等方法進行處理。
第一,特征提?。簭脑嫉乃|監(jiān)測數(shù)據(jù)中提取與水庫水質評價和檢測相關的特征。特征提取的目標是從原始數(shù)據(jù)中提取出最能反映水質狀態(tài)和變化的信息。常用的特征提取方法包括統(tǒng)計、頻域、時域等特征的提取等。統(tǒng)計特征提取是計算監(jiān)測數(shù)據(jù)的均值、方差、最大值、最小值等統(tǒng)計指標,這些統(tǒng)計特征可以反映水質數(shù)據(jù)的分布和變化情況。頻域特征提取是通過對水質數(shù)據(jù)進行傅里葉變換或小波變換,提取頻域信息,如頻譜能量、頻帶特征等,這些頻域特征可以反映水質數(shù)據(jù)的周期性和頻率特征。時域特征提取是利用時序信息提取水質數(shù)據(jù)的動態(tài)特征,如趨勢分析、自相關系數(shù)等,這些時域特征可以反映水質數(shù)據(jù)的變化趨勢和關聯(lián)性。
第二,特征選擇:從提取的特征中選擇對水質評價和檢測具有重要意義的特征。特征選擇的目標是減少特征維度,提高模型的訓練效果和泛化能力。常用的特征選擇方法包括相關性分析、信息增益、主成分分析等。相關性分析是計算特征與水質指標之間的相關系數(shù)或相關性指標,篩選出與目標水質指標相關性較高的特征[4]。信息增益是通過信息熵和條件熵的計算,評估特征對目標水質指標的信息增益,選擇具有較高信息增益的特征。主成分分析是將原始特征通過線性變換,得到一組新的主成分,選擇對目標水質指標解釋能力較強的主成分作為特征。
對選擇的特征使用最大-最小歸一化進行歸一化處理,將各特征之間的量綱差別進行消除。將標準化后的數(shù)據(jù)集進行劃分,劃分為訓練集、驗證集和測試集三個數(shù)據(jù)集,通常用于各集的數(shù)據(jù)分別占總數(shù)據(jù)的70%、20%和10%的比例。劃分數(shù)據(jù)集的目的是為了評估模型的泛化能力和預測效果,并避免過擬合和欠擬合的問題。
根據(jù)問題的定義和研究目標,確定BP 神經(jīng)網(wǎng)絡的輸入變量和輸出變量。輸入變量通常為水質監(jiān)測指標,輸出變量可以是水質的分類結果、預測值等。將輸入和輸出變量進行編碼,使其適合于BP 神經(jīng)網(wǎng)絡的輸入和輸出格式。常用的編碼方法包括二進制編碼、獨熱編碼等。對數(shù)據(jù)集進行平衡處理,以保證訓練集、驗證集和測試集中各類別數(shù)據(jù)的數(shù)量大致相等。對于不平衡數(shù)據(jù)集,可以采用欠采樣、過采樣等方法進行處理。
對BP 神經(jīng)網(wǎng)絡的輸入層、輸出層以及隱藏層的結點數(shù)量以及各自權重進行明確,隱藏層的節(jié)點數(shù)和層數(shù)的確定需要根據(jù)問題的復雜度和數(shù)據(jù)集的大小進行選擇和調(diào)整。對網(wǎng)絡的連接權重和偏置進行初始化,通常可以使用隨機數(shù)進行初始化。通過BP 神經(jīng)網(wǎng)絡,對訓練集的輸入數(shù)據(jù)進行前向傳播,得到輸出數(shù)據(jù),并將其和實際輸出數(shù)據(jù)相對比,計算兩者之間的誤差。根據(jù)誤差,使用反向傳播算法更新網(wǎng)絡的連接權重和偏置,以減小誤差,使網(wǎng)絡的輸出更接近實際值。
對前向和反向傳播的過程進行循環(huán)進行,直到達到預設的訓練終止條件,如達到最大迭代次數(shù)或誤差降低到一定閾值。使用驗證集,評估已經(jīng)訓練好的模型對訓練好的模型,并對模型的準確率、精確率、召回率等指標進行計算,以評估模型的性能和泛化能力。根據(jù)評估結果和實際需求,對模型進行調(diào)優(yōu),包括調(diào)整網(wǎng)絡結構、學習率、正則化等超參數(shù)的選擇和調(diào)整。
使用測試集對訓練好的模型進行測試,預測水質的分類結果或預測值,對模型在測試集上的準確率等指標進行計算,從而進行模型預測能力和穩(wěn)定性能的評估。通過對模型在驗證集和測試集上的表現(xiàn),評估模型的性能和泛化能力,可以比較不同模型的評估指標,選擇表現(xiàn)最佳的模型作為最終模型。對模型的預測結果進行分析和解釋,根據(jù)模型的輸出結果提供水質評價和檢測的相關建議和解釋。
根據(jù)水質評價分級標準和國家生活用水質量標準,將水庫的水質劃分為三級。構建BP 網(wǎng)絡模型,輸入層和輸出層的結點數(shù)分別為6 和3,輸出向量的含義以及對應的關系見表1。
隱含層結點數(shù)按照式(1)選?。?/p>
式中:Q、M、N分別表示隱含、輸入以及輸出各層的結點數(shù)量;C為整數(shù),取值自1 到10。進行多次試驗,選取Q為5,學習效率取值0.4,網(wǎng)絡結構為(6,5,3)。進行網(wǎng)絡訓練達到12000次后達到精度0.005 的要求。
BP 神經(jīng)網(wǎng)絡的輸出范圍為0~1,因此需要對原始樣本進行歸一化處理,結果見表2。
表2 歸一化處理后的訓練樣本
BP神經(jīng)網(wǎng)絡訓練完成以后,使用待測樣本對其進行檢驗,結果見表3。
表3 樣本檢驗結果
通過樣本檢驗結果,樣本二和四屬于一級水質,樣本五屬于二級水質,樣本一屬于三級水質,樣本三界于二級水質和三級水質之間,但樣本三中Cr 的含量超過二級水質標準,而且其三級水質的隸屬度達到0.587,因此該樣本為三級水質。對BP 神經(jīng)網(wǎng)絡的輸出結果和水質分級標準相比較,可以看出兩者之間較為吻合,可以用來進行水質的評價與預測。
本研究基于BP 神經(jīng)網(wǎng)絡模型,對邯鄲岳城水庫的水質進行評價和預測。通過收集水質監(jiān)測數(shù)據(jù),并利用BP 神經(jīng)網(wǎng)絡模型建立水質與各指標之間的映射關系,我們得到了準確的水質評價和未來趨勢的預測結果。本研究的結果對于深入了解岳城水庫的水質狀況具有重要意義。通過對水質數(shù)據(jù)的分析和預測,可以及時發(fā)現(xiàn)水質異常和趨勢變化,為水資源管理和環(huán)境保護提供科學依據(jù)。同時,基于BP 神經(jīng)網(wǎng)絡的水質預測模型可以為未來水質變化的預測提供參考,幫助決策者采取相應的措施,保障水源地的安全和可持續(xù)利用??傊?本研究基于BP 神經(jīng)網(wǎng)絡模型,對邯鄲岳城水庫的水質進行了評價和預測,為水資源管理和環(huán)境保護提供了重要的科學依據(jù)。進一步的研究可以進一步改進模型的性能,并結合其他技術手段,提高水質評價和預測的準確性和可靠性。