項新建 顏超龍 費正順等
關鍵詞:水質分類;多分類器;神經(jīng)網(wǎng)絡;證據(jù)理論融合
中圖分類號: X824 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.01.019
引用格式:項新建,顏超龍,費正順,等.一種基于多分類器和證據(jù)理論融合的水質分類方法[J].人民黃河,2024,46(1):109-113.
近年來,水資源污染及短缺狀況愈發(fā)嚴重。為此,中央及地方政府已頒布實施多項治水政策,水質評價成為水環(huán)境科學領域的研究熱點[1] 。水質評價方法分為單因子污染評價法和多因子綜合評價法兩類[2] 。單因子污染評價法選取最差單項水質因子所屬類別來代表所測區(qū)域綜合水質類別[3] ,評價結果存在較高片面性。多因子綜合評價法是根據(jù)各種水質因子組成的非線性系統(tǒng)進行綜合評價,其包括模糊綜合評價法[4] 、內梅羅指數(shù)法[5] 、熵權法[6] 等,但難以處理評價指標與水質等級之間的非線性關系,多是對指標賦權重,受人為干預較多。
當前機器學習與神經(jīng)網(wǎng)絡算法快速發(fā)展,如支持向量機和人工神經(jīng)網(wǎng)絡等極具代表性的算法,可解決傳統(tǒng)方法難以處理的非線性關系和人為主觀干預問題。近年來,BP 神經(jīng)網(wǎng)絡模型被廣泛用于水質評價,并融合各種仿生算法以提升評價精度,如海豚群算法和螢火蟲算法[7] 等。但實際工作中不同分類器會對水質評價產(chǎn)生不均衡問題,且適應性較差、準確率較低,依賴單分類器進行決策仍具有風險。因此,本文提出一種基于多分類器和證據(jù)理論融合的方法對水質類別進行判定,以準確率、精確率、召回率、F1 值驗證多分類器融合模型的分類效果,以期為解決水污染問題提供參考。
1 水質數(shù)據(jù)來源與處理
根據(jù)國控水站水質評價結果,全國地表水Ⅱ類水質占39.0%,Ⅴ類水質、劣Ⅴ類水質僅分別占5.2%、3.1%,說明全國地表水水質總體良好。從國家地表水水質自動站發(fā)布的2022 年3 月1—22 日水質數(shù)據(jù)中選取3 558條數(shù)據(jù)為樣本集,其中:Ⅰ類水質數(shù)據(jù)531條,Ⅱ類水質數(shù)據(jù)840 條,Ⅲ類水質數(shù)據(jù)569 條,Ⅳ類水質數(shù)據(jù)546 條,Ⅴ類水質數(shù)據(jù)544 條,劣Ⅴ類水質數(shù)據(jù)528 條。
水質樣本pH 值為6~9,對水質類別判定無影響。選用溶解氧、高錳酸鹽指數(shù)、氨氮、總磷作為評價水質類別的指標。各指標標準限值參考《地表水環(huán)境質量標準》(GB 3838—2002),見表1。
2 研究方法
2.1 深度神經(jīng)網(wǎng)絡水質分類模型
深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)是一種利用誤差反向傳播算法訓練的多層神經(jīng)網(wǎng)絡,可從原始數(shù)據(jù)中逐步提取更高層次的特征。DNN 依靠其內部激活函數(shù)具有強大的非線性擬合能力,通過前向傳播和誤差反向傳播兩個過程優(yōu)化各種參數(shù),不斷更新各層權值和偏置,使預測輸出結果更接近真實值。DNN 內部結構分為輸入層、隱藏層以及輸出層[8] ,見圖1,圖中x 為輸入數(shù)據(jù),y 為輸出數(shù)據(jù)。
采用3 層深度神經(jīng)網(wǎng)絡預測水質類別,把ReLu作為激活函數(shù),采用Adam 梯度下降算法對權重進行更新,使DNN 預測水質類別不斷接近真實水質類別。
2.2 支持向量機水質分類模型
支持向量機(Support Vector Machine,SVM)是較為經(jīng)典的機器學習算法,其遵循結構風險最小化原則[9] ,具有較強的泛化能力,能夠實現(xiàn)較好的分類效果。SVM 算法中核函數(shù)可將低維數(shù)據(jù)映射至高維空間實現(xiàn)非線性可分,并且通過一對多法與一對一法可有效實現(xiàn)多分類。
3.3 水質分類流程
基于多分類器和證據(jù)理論融合的水質分類流程見圖2。
4 結果分析
4.1 單分類器性能
多分類器融合前需要獲得DNN 水質分類模型、PSO-SVM 水質分類模型和貝葉斯水質分類模型。將水質訓練樣本放入深度神經(jīng)網(wǎng)絡可獲得DNN 水質分類模型,其訓練過程損失值變化見圖3。DNN 水質分類模型損失值在迭代次數(shù)為0~100 時收斂速度較快,在迭代次數(shù)為100~400 時收斂速度緩慢,在迭代次數(shù)為400~600 時收斂于損失值27,此時DNN 水質分類模型對待測水質樣本的分類準確率為89.2%。
使用粒子群優(yōu)化后的支持向量機水質分類模型(PSO-SVM)對訓練樣本進行迭代,可獲得粒子群算法的慣性權重為0.5,學習因子c1 為0.5、c2 為0.5,迭代次數(shù)為10,種群規(guī)模為50。經(jīng)過粒子群優(yōu)化算法(PSO)可獲得支持向量機參數(shù)中最佳懲罰系數(shù)C 和核函數(shù)參數(shù)δ 分別為6.325 和0.549。此時PSO-SVM 水質分類模型對待測水質樣本分類的準確率為85.8%。
根據(jù)水質訓練樣本可獲得貝葉斯水質分類模型,該模型對240 條待測水質數(shù)據(jù)(樣本)分類的準確率為82.9%。
4.2 4 種模型對各水質類別的識別結果
DNN 水質分類模型、PSO-SVM 水質分類模型、貝葉斯水質分類模型和多分類器融合模型對測試樣本的識別準確率、精確率、召回率分別見表2~表4。此外,得出DNN 水質分類模型、PSO-SVM 水質分類模型、貝葉斯水質分類模型和多分類器融合模型對測試樣本的F1 值分別為89.2%、85.3%、83.7%、94.0%。由表2~表4 可知,多分類器融合模型對各水質類別的平均識別準確率、精確率、召回率分別為94.2%、93.8%、94.2%,相較于DNN 水質分類模型、PSO-SVM 水質分類模型和貝葉斯水質分類模型,多分類器融合模型準確率分別提高5.6%、9.8%和13.6%,精確率分別提高5.2%、10.0%和10. 9%, 召回率分別提高5. 6%、9. 8% 和13.6%,F1 值分別提高5.4%、10.2%和12.3%。多分類器融合模型的水質識別效果最好。
5 結論
本文提出的基于多分類器和證據(jù)理論融合的水質分類方法,可有效解決單分類器對不同水質識別不均衡問題,相比于單分類器,多分類器融合模型對水質類別的識別準確率、精確率、召回率、F1 值均有所提高,在水質分類方面的準確性和適應性更好,能夠有效識別水質狀況,有利于保護生態(tài)環(huán)境。
【責任編輯 栗銘】