查木哈, 盧志宏, 翟繼武, 張福順
(1.赤峰市環(huán)境監(jiān)測中心站, 內(nèi)蒙古 赤峰 024000; 2.銅仁學(xué)院, 貴州 銅仁 554300;3.中國農(nóng)業(yè)科學(xué)院草原研究所, 內(nèi)蒙古 呼和浩特 010010)
水資源是經(jīng)濟社會可持續(xù)發(fā)展和生態(tài)文明建設(shè)不可替代的基礎(chǔ)性自然資源和戰(zhàn)略資源[1]。隨著社會經(jīng)濟的快速增長和人民生活水平的不斷提高,人們對水資源的需求不斷增大,對水環(huán)境系統(tǒng)造成了持續(xù)的高強度的破壞。生產(chǎn)廢水、生活污水的排放以及降雨徑流攜帶地表污染物匯入河流等因素,導(dǎo)致河流水質(zhì)不斷惡化[2]。水環(huán)境污染是多種因素影響的結(jié)果,具有非線性、不確定性和模糊性。水質(zhì)預(yù)測,通常是利用歷史數(shù)據(jù),通過不同的預(yù)測方法推求環(huán)境變量與待預(yù)測水質(zhì)指標之間的非線性關(guān)系或待預(yù)測水質(zhì)指標本身隨時間的變化規(guī)律[3]。
人工神經(jīng)網(wǎng)絡(luò)是一種非線性的、能夠模擬人類大腦思維活動的數(shù)學(xué)模型[4-5],BP神經(jīng)網(wǎng)絡(luò)是目前發(fā)展最為成熟、應(yīng)用最為廣泛的一種網(wǎng)絡(luò)模型,其具有完整的理論推導(dǎo)過程。國內(nèi)外學(xué)者把人工神經(jīng)網(wǎng)絡(luò)引入到水質(zhì)動態(tài)預(yù)測中,BP神經(jīng)網(wǎng)絡(luò)模型在多個區(qū)域河流水質(zhì)預(yù)測中得到具體應(yīng)用,鄭鵬[6]運用改進的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測遼寧中部河流水質(zhì),郭亮等[7]應(yīng)用人工神經(jīng)網(wǎng)絡(luò)技術(shù)對松花江四方臺高錳酸鹽指數(shù)進行預(yù)測,高雅玉等[8]把改進的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到雙塔水庫水質(zhì)的預(yù)測中,李占東等[9]應(yīng)用BP人工神經(jīng)網(wǎng)絡(luò)模型評價珠江水質(zhì),陳文花[10]應(yīng)用BP神經(jīng)網(wǎng)絡(luò)模型對水質(zhì)變化趨勢做出預(yù)測。目前的預(yù)測和評價模型多集中在單隱含層及優(yōu)化算法方面,多層隱含層BP神經(jīng)網(wǎng)絡(luò)模型在水質(zhì)預(yù)測中的應(yīng)用較少,而影響河流水質(zhì)的因素很多,是一個復(fù)雜的系統(tǒng),一般認為單隱含層模型能夠處理簡單的問題,多個隱含層的模型適合于處理比較復(fù)雜的問題。因此本文嘗試應(yīng)用雙層隱含層的BP神經(jīng)網(wǎng)絡(luò)模型對老哈河水質(zhì)進行預(yù)測分析,采用赤峰段甸子點位2010-2014年化學(xué)需氧量、五日生化需氧量、高錳酸鹽指數(shù)、總磷濃度這4項污染指標為樣本訓(xùn)練數(shù)據(jù),建立雙隱含層BP 人工神經(jīng)網(wǎng)絡(luò)模型,預(yù)測2015年的水質(zhì)變化情況,驗證BP神經(jīng)網(wǎng)絡(luò)模型對老哈河水質(zhì)預(yù)測的準確性,探討 BP 神經(jīng)網(wǎng)絡(luò)模型運用于水質(zhì)預(yù)測的可行性與適用性,為水環(huán)境管理和水污染控制提供科學(xué)依據(jù)。
作為西遼河的源頭,老哈河流域地處河北、遼寧兩省與內(nèi)蒙古自治區(qū)交界,是我國重要的重工業(yè)、能源和商品糧生產(chǎn)基地。該流域形狀呈不對稱扇形,介于41°N ~ 43°N、117° E ~ 120° E 之間,流域內(nèi)地形復(fù)雜,地勢西高東低起伏較大,海拔 427~2 017 m。老哈河發(fā)源于河北省平泉縣西北山區(qū)柳溪滿族鄉(xiāng),從寧城縣甸子鄉(xiāng)入內(nèi)蒙古赤峰市境內(nèi),流經(jīng)赤峰市東南部(喀喇沁、元寶山、松山區(qū)、敖漢),全長約426 km,流域面積33 076 km2,河道總落差1 215 m,主要支流有黑里河,坤頭河,錫伯河,英金河。老哈河流域?qū)僦袦貛О敫珊荡箨懶约撅L氣候,多年平均氣溫為7℃,平均降水量為430.89 mm,流域內(nèi)降雨量年際和年內(nèi)分配不均衡,豐枯變化大,老哈河天然徑流主要來源于大氣降水,屬于降水補給型。
選取的水質(zhì)項目的確定,是根據(jù)《地表水環(huán)境質(zhì)量標準》(GB3838-2002)中規(guī)定的基本項目,并結(jié)合老哈河各斷面水質(zhì)污染狀況,選取化學(xué)需氧量(CODCr)、五日生化需氧量(BOD5)、高錳酸鹽指數(shù)(CODMn)、總磷(TP)等4項指標。按照地表水監(jiān)測采樣原則,進行水樣采集,并按照《水和廢水監(jiān)測分析方法》(第4版)相關(guān)規(guī)定,采用國家標準方法進行測定。本文采用 2011-2014年每月老哈河赤峰段甸子點位水質(zhì)監(jiān)測數(shù)據(jù)預(yù)測2015年水質(zhì)。
2.3.1 BP網(wǎng)絡(luò)結(jié)構(gòu) BP網(wǎng)絡(luò)是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。網(wǎng)絡(luò)包括輸入層、輸出層和隱含層,其中隱含層可以有多層。雙隱含層BP網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,同層節(jié)點(單元)中沒有任何耦合。從輸入層輸入信號節(jié)點,傳過各隱含層節(jié)點,傳到輸出層,每一層節(jié)點的輸出結(jié)果只影響下一層節(jié)點的輸出結(jié)果,相鄰層每個節(jié)點通過適當?shù)倪B接權(quán)值和閾值前向連接。BP網(wǎng)絡(luò)是非線性映射模型,能夠?qū)W習和模擬任意復(fù)雜的非線性函數(shù)。
其中,x1,x2,…,xn為網(wǎng)絡(luò)的輸入向量,y1為輸出向量,連接層與層之間的傳遞函數(shù)是連續(xù)可微的非線性函數(shù),通常采用S形的對數(shù)或正切函數(shù),如logsig函數(shù)和tansig函數(shù);層與層之間的神經(jīng)元通過權(quán)值wni、pij、wnj和閾值αi、qj、βk連接。
圖1 雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型示意圖
2.3.2 BP網(wǎng)絡(luò)的訓(xùn)練 在梯度下降法基礎(chǔ)上建立的BP網(wǎng)絡(luò)的訓(xùn)練學(xué)習過程,由誤差信號正向和誤差信號反向傳播組成。誤差信號正向傳播的時候,每一層神經(jīng)元的結(jié)果僅影響下一層神經(jīng)網(wǎng)絡(luò),訓(xùn)練樣本輸入矩陣從輸入層經(jīng)過隱含層向前傳播到輸出層,并得出輸出結(jié)果。假如輸出結(jié)果未達到期望值,即輸出值和期望值誤差未達到預(yù)期精度,則網(wǎng)絡(luò)轉(zhuǎn)入反向傳播過程,會將誤差信號沿原本的連接通路撤回,并通過修改各層神經(jīng)元的權(quán)值和閾值,逐次地向輸入層傳播進行計算,再經(jīng)正向傳播過程,通過兩個過程的反復(fù)運行,直至達到預(yù)期精度值,網(wǎng)絡(luò)訓(xùn)練結(jié)束。
2.3.3 BP網(wǎng)絡(luò)的測試 經(jīng)過訓(xùn)練的BP網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成后,各層之間的連接權(quán)值矩陣和各層閾值矢量均已確定,此網(wǎng)絡(luò)就是實際應(yīng)用運行的模型。此神經(jīng)網(wǎng)絡(luò)模型能否用于實踐,是否達到預(yù)期目的,還需要對已確定的神經(jīng)網(wǎng)絡(luò)模型用已知的樣本進行測試驗證。假如測試精度達到預(yù)期要求,則證明該模型可以用于預(yù)測,否則還需要重新建立新的模型。網(wǎng)絡(luò)模型測試過程就是用測試樣本代入訓(xùn)練樣本作為網(wǎng)絡(luò)輸入,計算網(wǎng)絡(luò)輸出結(jié)果,探討其輸出與測試樣本目標的誤差。經(jīng)過訓(xùn)練的網(wǎng)絡(luò),再經(jīng)過測試證實可行,即測試樣本相對誤差滿足預(yù)期要求,就可用于預(yù)測。
在網(wǎng)絡(luò)學(xué)習過程中,為了消除輸入樣本間的量綱差異,以便更好地進行學(xué)習,需要對樣本進行歸一化處理:
(1)
(2)
(3)
(i=1, 2,……,n,n=12)
當缺失值存在時,往往會影響變化規(guī)律的模擬,在數(shù)值分析中,運用拉格朗日插值法補充缺失值。拉格朗日插值法是一種多項式插值方法,可以提供一個正好穿過二維平面上若干已知點的多項式函數(shù)。拉格朗日插值法的公式結(jié)構(gòu)緊湊,在理論分析中應(yīng)用方便[13]。
本文中因河流冬季冰凍,造成了5個月份數(shù)據(jù)的缺失,因此采用拉格朗日插值法進行插值,五日生化需氧量、化學(xué)需氧量、高錳酸鹽指數(shù)、總磷插值情況如圖2。2010年12月、2013年1-2月3個月的高錳酸鹽、化學(xué)需氧量插值比較平滑,五日生化需氧量插值連續(xù)下降,總磷連續(xù)上升;2012年1、2月份,化學(xué)需氧量連續(xù)上升,五日生化需氧量、高錳酸鹽和總磷連續(xù)下降。插值后的數(shù)據(jù)能夠滿足數(shù)值分析的要求。
圖2 拉格朗日插值圖
經(jīng)過試湊法確定五日生化需氧量最優(yōu)模型的第一隱含層節(jié)點數(shù)為4,第二隱含層節(jié)點數(shù)為12,預(yù)測模型結(jié)構(gòu)為 3-4-12-1。從圖3可以看出,五日生化需氧量預(yù)測值與實測值的決定系數(shù)R2為0.751 6(P=0.0003),4、7、11月份的誤差較大,其余9個月的誤差較小。
經(jīng)過試湊法確定化學(xué)需氧量最優(yōu)模型的第一隱含層節(jié)點數(shù)為12,第二隱含層節(jié)點數(shù)為10,模型結(jié)構(gòu)為 3-12-10-1。從圖4可以看出,化學(xué)需氧量預(yù)測值與實測值的決定系數(shù)R2為0.887 5(P<0.0001),4、12月份的誤差較大,其余10個月的誤差較小。
圖3 五日生化需氧量濃度預(yù)測值與實測值對比
圖4 化學(xué)需氧量濃度預(yù)測值與實測值對比
經(jīng)過試湊法確定高錳酸鹽最優(yōu)模型的第一隱含層節(jié)點數(shù)為6,第二隱含層節(jié)點數(shù)為3,模型結(jié)構(gòu)為 3-6-3-1。從圖5可以看出,高錳酸鹽指數(shù)預(yù)測值與實測值的決定系數(shù)R2為0.854 7(P<0.000 1),9、10、11月份的誤差較大,其余9個月的誤差較小。
圖5 高錳酸鹽指數(shù)濃度預(yù)測值與實測值對比
經(jīng)過試湊法確定總磷最優(yōu)模型的第一、第二隱含層節(jié)點數(shù)均為12,模型結(jié)構(gòu)為 3-12-12-1。從圖6可以看出,總磷濃度預(yù)測值與實測值的決定系數(shù)R2為0.889 2(P<0.000 1),7、11、12月份誤差較大,其余9個月的誤差較小。
圖6 總磷濃度預(yù)測值與實測值對比
由表1可知,4個預(yù)測模型的回歸系數(shù)從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6),平均相對誤差依次為TP 表1 預(yù)測值與實測值誤差分析 人工神經(jīng)網(wǎng)絡(luò)是一種非線性數(shù)學(xué)模型,能夠模擬任意復(fù)雜程度的非線性過程,最大的優(yōu)點是能夠反復(fù)訓(xùn)練、測試網(wǎng)絡(luò)結(jié)構(gòu),最終以任意精度逼近任意復(fù)雜的非線性函數(shù),BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用范圍最廣泛的一種人工神經(jīng)網(wǎng)絡(luò)[5,14-15]。分析監(jiān)測數(shù)據(jù)過程中發(fā)現(xiàn),由于水質(zhì)的變化一般都是漸變的過程,可通過歷史監(jiān)測數(shù)據(jù)的變化趨勢來預(yù)測將來的水質(zhì)指標,可達到較好的效果。本文以若干連續(xù)實測值作為輸入值建立神經(jīng)網(wǎng)絡(luò)模型的主要框架,預(yù)測下一時段的輸出值。通過雙隱含層BP人工神經(jīng)網(wǎng)絡(luò)分析2011-2014年老哈河赤峰段甸子點位的4項污染指標的變化規(guī)律,預(yù)測2015年的數(shù)值并驗證神經(jīng)網(wǎng)絡(luò)預(yù)測的準確性,表明人工神經(jīng)網(wǎng)絡(luò)用來預(yù)測老哈河赤峰段水質(zhì)變化具有可行性,其中總磷具有較高的預(yù)測精度。 缺失值是影響完整性的主要因素。由于數(shù)據(jù)錄入的遺漏、不正確的度量方法和數(shù)據(jù)采集條件的限制等多方面因素都有可能導(dǎo)致數(shù)據(jù)缺失,從而使數(shù)據(jù)不完整,更會影響后續(xù)數(shù)據(jù)挖掘、統(tǒng)計分析等工作的進行[16]。常規(guī)處理方法有歷史均值替代缺失值、利用資料序列的前后值加權(quán)以及直接代替?zhèn)€別缺失值。從缺失的分布來看,缺失值可分為完全隨機缺失、隨機缺失和完全非隨機缺失[17]。缺失值掩蓋了數(shù)據(jù)的分布,干擾了屬性相關(guān)性的發(fā)現(xiàn),缺失值補全具有重要的理論和實踐意義,是后續(xù)分析挖掘工作的基礎(chǔ)[18]。本文可用的訓(xùn)練樣本數(shù)量較少,應(yīng)用拉格朗日插值法補充了缺失值,保證了時間序列數(shù)據(jù)的完整性,保證了模型的預(yù)測精度。 神經(jīng)網(wǎng)絡(luò)隱含層層數(shù)和模型的預(yù)測精度密切相關(guān),隱含層較少時因獲取的有效信息太少而導(dǎo)致預(yù)測精度較低,過多時往往會出現(xiàn)過擬合現(xiàn)象而降低預(yù)測精度,因此隱含層層數(shù)的選擇對BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測能力十分重要[19-20]。一般認為針對簡單的問題,單隱含層即可滿足要求,但是對于復(fù)雜的問題,則需要多個隱含層才能達到較好的預(yù)測效果,同時隨著隱含層的增加,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜程度也隨之增加,對數(shù)據(jù)中的噪聲信號具有放大作用,從而降低模型的預(yù)測精度,因此網(wǎng)絡(luò)隱含層層數(shù)的選擇十分重要[14,20]。本文采用雙層BP神經(jīng)網(wǎng)絡(luò)對老哈河水質(zhì)預(yù)測取得了較好的預(yù)測精度。 本文通過插值方法對存在缺失值的河流水質(zhì)指標進行補充,分別對化學(xué)需氧量、生化需氧量、高錳酸鹽指數(shù)和總磷建立Levenberg - Marquardt 優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型進行水質(zhì)預(yù)測,結(jié)論如下: (1)4個預(yù)測模型的回歸系數(shù)從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6);平均誤差依次為TP (2)Levenberg - Marquardt 優(yōu)化的雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型在老哈河水質(zhì)預(yù)測中精度較高,其中總磷濃度預(yù)測效果最好。 (3)通過拉格朗日插值,可以建立老哈河赤峰段甸子點位污染指標的雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型進行水質(zhì)預(yù)測。 參考文獻: [1] 王 新. 新疆某縣河流水質(zhì)現(xiàn)狀評價及其變化趨勢分析[J].干旱環(huán)境監(jiān)測,2017,21(1):33-36. [2] 尹海龍,徐祖信.河流綜合水質(zhì)評價方法比較研究[J].長江流域資源與環(huán)境, 2008,17(5) :729-733. [3] 田建平,曹東衛(wèi),李海楠. LM-BP神經(jīng)網(wǎng)絡(luò)在于橋水庫水質(zhì)預(yù)測中的應(yīng)用[J]. 水利信息化,2010(3):31-34. [4] 高 雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實例[M].北京:機械工業(yè)出版社,2003. [5] 陳 明.MATLAB神經(jīng)網(wǎng)絡(luò)原理與實例精解[M].北京:清華大學(xué)出版社,2013. [6] 鄭 鵬.改進的BP 神經(jīng)網(wǎng)絡(luò)模型在遼寧中部河流水質(zhì)預(yù)測中的應(yīng)用研究[J].吉林水利, 2017(2): 18-21. [7] 郭 亮,王 鵬,趙 英.基于BP 神經(jīng)網(wǎng)絡(luò)的松花江四方臺水質(zhì)預(yù)測[J].哈爾濱工業(yè)大學(xué)學(xué)報,2009,41(6) : 62-66. [8] 高雅玉,張麗萍,閔祥宇,等.改進的BP神經(jīng)網(wǎng)絡(luò)在雙塔水庫水質(zhì)預(yù)測中的應(yīng)用[J]. 水資源與水工程學(xué)報,2012,23(6):149-153. [9] 李占東,林 欽. BP人工神經(jīng)網(wǎng)絡(luò)模型在珠江口水質(zhì)評價中的應(yīng)用[J].南方水產(chǎn),2005,1(4):47-54. [10] 陳文花. 基于BP神經(jīng)網(wǎng)絡(luò)模型的閩江流域地表水(福州段)水質(zhì)變化趨勢預(yù)測[J].能源與環(huán)境,2014(1):13-14+19. [11] 李輝東,關(guān)德新,袁鳳輝,等.BP人工神經(jīng)網(wǎng)絡(luò)模擬楊樹林冠蒸騰[J].生態(tài)學(xué)報,2015,35(12):4137-4145. [12] 王宏宇,馬娟娟,孫西歡,等.基于 BP 神經(jīng)網(wǎng)絡(luò)的土壤水熱動態(tài)預(yù)測模型研究[J].節(jié)水灌溉,2017(7):11-15+27. [13] 楊皓翔,李 濤,張招金,等. 基于拉格朗日插值法的新陳代謝模型在邊坡位移監(jiān)測中的應(yīng)用[J]. 安全與環(huán)境工程,2017,24(2):33-38. [14] 哈明光.單隱含層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇研究[D].保定:河北大學(xué),2014. [15] 唐云輝,高陽華. 基于鄰域特征的溫度缺失值的填補方法[J].中國農(nóng)業(yè)氣象,2008,29(4):454-457. [16] 金 連.不完全數(shù)據(jù)中缺失值填充關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013. [17] 宋煥林. 數(shù)據(jù)挖掘中的數(shù)據(jù)缺失處理[J].河套學(xué)院學(xué)報,2016,13(3):95-98. [18] 賈梓健,宋騰煒,王建新. 基于傅里葉變換和kNNI的周期性時序數(shù)據(jù)缺失值補全算法[J].軟件工程,2017,20(3):9-13. [19] 唐萬梅.BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問題的研究[J].系統(tǒng)工程理論與實踐,2005,25 (10):95-100. [20] 韓力群.人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計及應(yīng)用:人工神經(jīng)網(wǎng)絡(luò)理論設(shè)計及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2007.4 結(jié) 論