吳旭東+馮璐遠+陳正軍+李映曦
摘要:該文采用決策樹、BP神經(jīng)網(wǎng)絡、Logistic回歸和基于徑向基的RBF神經(jīng)網(wǎng)絡四種算法來建立水質(zhì)評價預測模型,并對結(jié)果進行了分析。預測結(jié)果顯示,基于徑向基的RBF神經(jīng)網(wǎng)絡在四種算法中是最合適的方法,預測準確率較高,建議推廣和使用。
關鍵詞:神經(jīng)網(wǎng)絡;決策樹;水質(zhì)模型
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)35-0003-02
1 概述
水是人類賴以生存的重要物質(zhì),它是不可缺少、不可替代的重要資源。隨著我國工業(yè)化進程的加快和經(jīng)濟的迅速發(fā)展,水污染日益嚴重已經(jīng)成為制約我國實施可持續(xù)發(fā)展戰(zhàn)略重要因素。水環(huán)境問題已經(jīng)成為眾多專家、學者研究的重點問題,目前國內(nèi)外研究水環(huán)境質(zhì)量的評價方法非常多,有關文獻討論水質(zhì)評價的方法有幾十種,呈現(xiàn)出非常活躍的態(tài)勢。由于水環(huán)境中的各種元素的不確定性和水體的未知性,傳統(tǒng)的確定性評價方法已經(jīng)很難適應研究。有些水質(zhì)模型雖考慮了影響水質(zhì)變化的諸多因素,模擬預測效果較理想,但往往較復雜并需要大量基礎資料和數(shù)據(jù),使得研究的進一步開展和應用受到限制。而目前,較常見的情況是根據(jù)水體當前的水質(zhì)情況、污染物的遷移特點和流域內(nèi)污染物的排放情況來預測水質(zhì)未來的變化趨勢,為水質(zhì)污染預測尋找一種合適的模型是非常必要。
2 相關理論分析
2.1 決策樹
決策樹是應用的最廣的歸納推理算法之一,它是一種逼近離散值函數(shù)方法,對噪聲有很好的健壯性且能夠?qū)W習析取表達式。決策樹一般都是自上而下的來生成的,并用了貪婪的搜索遍歷方法進行遍歷。每個決策或事件都可能引出兩個或多個事件,導致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。常用的決策樹算法包括C&RT算法、ID3經(jīng)典算法、C4.5算法、C5.0算法、CHAID算法、QUEST算法。
決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構造決策樹,最著名的決策樹算法為ID3算法。ID3算法主要針對屬性選擇問題,是決策樹學習方法中最具影響和最為典型的算法。該方法使用信息增益度選擇測試屬性。
2.2 基于徑向基的RBF神經(jīng)網(wǎng)
最基本的RBF神經(jīng)網(wǎng)絡的構成包括三層,分別為輸入層、隱層(中間層)和輸出層。其中輸入層由一些源點(感知單元)組成,它們將網(wǎng)絡與外部環(huán)境連接起來,僅起到數(shù)據(jù)信息的傳遞作用,對輸入信息不進行任何變換;隱層神經(jīng)元的核函數(shù)(或稱作用函數(shù))取為徑向基函數(shù),對輸入信息到隱層空間之間進行非線性變換,通常具有較高的維數(shù);輸出層是線性的,為輸入層的激活模式提供響應。
設隱層、輸出層上的神經(jīng)元數(shù)分別為,,輸入模式記為,,輸出記為,。本文取徑向基函數(shù)為Gauss函數(shù),隱單元輸出則為
式中:為隱層第個神經(jīng)元的輸出值;為隱層第個神經(jīng)元的中心,由隱層第個神經(jīng)元對應于輸入層所有神經(jīng)元的中心分量構成,;為隱層第個神經(jīng)元的寬度,與相對應;為歐氏范數(shù)。
輸出層神經(jīng)元的輸入輸出關系表達式是:
式中:為輸出層第個神經(jīng)元的輸出值;為輸出層第個神經(jīng)元與隱層第個神經(jīng)元間的權值。RBF神經(jīng)網(wǎng)絡的參數(shù)在此主要是指網(wǎng)絡的中心、寬度、和調(diào)節(jié)權重。
3 實驗過程
收集和提取一組用戶基本數(shù)據(jù),對數(shù)據(jù)進行預處理,如圖1所示。
影響水質(zhì)狀態(tài)的指標主要有:1) 溶解氧(DO):衡量水體的自凈能力(傳感器網(wǎng)絡自動采集);2)溫度:水溫隨著天氣的變化(傳感器網(wǎng)絡自動采集);3) PH值:反映水質(zhì)的酸堿程度(傳感器網(wǎng)絡自動采集);4)氨氮:代表水中營養(yǎng)性污染物的含量(手持傳感器手動采集);5)氧化還原電位(ORP):水溶液氧化還原能力的測量指標(手持傳感器手動采集);6)當前環(huán)境因素(天氣,水體環(huán)境狀況)。其中1-250條記錄為訓練樣本,251-300條記錄為測試樣本數(shù)據(jù)。通過建立各種模型來尋求一套最合適的評價方法,預測準確率較高的模型。
基于水質(zhì)評價量化指標抽取DO、PH、NH、SD等四個關鍵指標,建立水體環(huán)境質(zhì)量評價量化模型,實現(xiàn)水質(zhì)智能化識別。依據(jù)依照《地表水環(huán)境質(zhì)量標準》(GB3838-2002)中規(guī)定,地面水使用目的和保護目標,中國地面水分五大類:Ⅰ類—主要適用于源頭水,國家自然保護區(qū);Ⅱ類— 主要適用于集中式生活飲用水、地表水源地一級保護區(qū),珍稀水生生物棲息地,魚蝦類產(chǎn)卵場,仔稚幼魚的索餌場等;Ⅲ類— 主要適用于集中式生活飲用水、地表水源地二級保護區(qū),魚蝦類越冬、回游通道,水產(chǎn)養(yǎng)殖區(qū)等漁業(yè)水域及游泳區(qū);本文取前三類水質(zhì)進行研究,對水質(zhì)進行實時預測、分類和仿真。
3.1 利用決策樹建立模型
利用決策樹算法建立數(shù)據(jù)流,快速建立整體數(shù)據(jù)流圖,決策樹的核心算法采用C&RT模型算法。此算法的優(yōu)點是可以啟用交互會話作為模型的構建選項,生成的模型之前可以編輯樹,使用專家模式可以使用生成樹和修剪樹。
SD<=9.8且PH>6.75為III類水質(zhì);當9.8
通過樣本數(shù)據(jù)建立了決策樹模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到以下結(jié)果,預測結(jié)果準確率為76%,方差為0.021,標準差為0.144,均值標準誤0.02。
3.2 利用BP神經(jīng)網(wǎng)絡建立模型
使用數(shù)據(jù)挖掘軟件,應用BP神經(jīng)網(wǎng)絡算法的水質(zhì)評價預測模型,輸入變量是基于水質(zhì)評價量化指標DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價量化模型,實現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。
如圖3所示,BP神經(jīng)網(wǎng)絡模型根據(jù)DO、PH、NH、SD等四個關鍵指標的含量來判斷水質(zhì)處于哪個級別。通過樣本數(shù)據(jù)建立了神經(jīng)網(wǎng)絡訓練模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到結(jié)果,預測結(jié)果準確率為68.852%,方差為0.103,標準差為0.321,均值標準誤0.045。
3.3 構建預測Logistic回歸模型
使用數(shù)據(jù)挖掘軟件,應用Logistic回歸算法來構建水質(zhì)評價預測模型,輸入變量是基于水質(zhì)評價量化指標DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價量化模型,實現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。
如圖4所示,Logistic回歸算法模型根據(jù)DO、PH、NH、SD等四個關鍵指標的含量來判斷水質(zhì)處于哪個級別。通過樣本數(shù)據(jù)建立了神經(jīng)網(wǎng)絡訓練模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到結(jié)果,預測結(jié)果準確率為70%,方差為0.011,標準差為0.105,均值標準誤0.015。
3.4 利用RBF神經(jīng)網(wǎng)絡建立模型
使用數(shù)據(jù)挖掘軟件,應用RBF神經(jīng)網(wǎng)絡算法的水質(zhì)評價預測模型,輸入變量是基于水質(zhì)評價量化指標DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價量化模型,實現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。測試結(jié)果與誤差,其中預測誤差中,準確率為88.23%,錯誤率為11.76%,Kappa統(tǒng)計為0.7692,平均絕對誤差0.11,均方根誤差為0.2291。從結(jié)果來看該模型的自學能力較強,模型精度高,誤差范圍小,適合水質(zhì)預測評價模型的需要。
通過以上數(shù)據(jù)比較分析,RBF神經(jīng)網(wǎng)絡算法的預測效果明顯優(yōu)于決策樹算法、Logistic回歸算法和BP神經(jīng)網(wǎng)絡算法。RBF神經(jīng)網(wǎng)絡通過多次模型的學習來完善算法模型,RBF神經(jīng)網(wǎng)絡快速收斂的特性使得它非常適合水質(zhì)預測模型的建立,并且可以進一步跟蹤探索水質(zhì)變化過程中的規(guī)律。而決策樹算法和Logistic回歸無論是從對樣本的要求上,還是從預測的精度來說都不具備神經(jīng)網(wǎng)絡的優(yōu)點,所以,應用結(jié)果表明,利用RBF神經(jīng)網(wǎng)絡進行水質(zhì)預測是可行的,可為水質(zhì)模擬預測提供一種有效的新方法,建議在水質(zhì)預測中推廣和應用。
參考文獻:
[1] 王海英,曹晶.基于L-M神經(jīng)網(wǎng)絡優(yōu)化算法的池塘水色判別系統(tǒng)的初步建立[J].漁業(yè)現(xiàn)代化,2010,37(5):19-21.
[2] 申艷.BP神經(jīng)網(wǎng)絡在河流水質(zhì)評價中的應用[J].中國科技縱橫,2011(9):68-69.
[3] 胡海清,周小麗,宋毅. LM-BP神經(jīng)網(wǎng)絡在水質(zhì)預測的應用[J].微型電腦應用,2011,27(9):44-46.
[4] 王冬生,李世華,周杏鵬. 基于PSO-RBF神經(jīng)網(wǎng)絡模型的原水水質(zhì)評價方法及應用[J].東南大學學報:自然科學版,2011,41(5):1019-1023.endprint