[摘要]為快速全面了解地下水環(huán)境質(zhì)量,解決地下水水質(zhì)分類中指標(biāo)復(fù)雜、樣本稀缺、分類結(jié)果不準(zhǔn)確等問(wèn)題,將PCA降維原理與BP神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)相結(jié)合,構(gòu)建PCA-BP水質(zhì)分類模型,并與單因子評(píng)價(jià)法作比較。通過(guò)實(shí)例研究表明:相較于單因子評(píng)價(jià)法,PCA-BP水質(zhì)分類法不僅能夠篩選出主要污染變量,還充分利用神經(jīng)網(wǎng)絡(luò)的自學(xué)性、容錯(cuò)性和抗干擾能力,評(píng)價(jià)結(jié)果能客觀反映水體綜合水質(zhì)狀況,為地下水資源開(kāi)發(fā)利用及水害防治提供理論依據(jù)。
[關(guān)鍵詞]神經(jīng)網(wǎng)絡(luò);地下水;水質(zhì);分類評(píng)價(jià);水質(zhì)模型
地下水水質(zhì)分類評(píng)價(jià)的結(jié)果決定了水源能夠被利用的程度,對(duì)地下水體受污染程度進(jìn)行評(píng)估,能夠?yàn)楹侠砝玫叵滤Y源提供科學(xué)依據(jù)。目前國(guó)內(nèi)外常用的地下水質(zhì)量評(píng)價(jià)方法主要包括單因子評(píng)價(jià)法、模糊綜合評(píng)價(jià)法、灰色關(guān)聯(lián)度評(píng)價(jià)法、人工神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)法等[1-6]。單因子評(píng)價(jià)具有片面性,容易受到極端指標(biāo)的影響,以致水環(huán)境質(zhì)量不能被全面反映;灰色關(guān)聯(lián)度評(píng)價(jià)法等級(jí)分辨率低,模糊綜合評(píng)價(jià)法、主成分分析(PCA)法計(jì)算相對(duì)復(fù)雜,對(duì)指標(biāo)權(quán)重值過(guò)分依賴,致使評(píng)價(jià)結(jié)果可靠性降低。BP神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)直接影響網(wǎng)絡(luò)的逼近能力,當(dāng)污染指標(biāo)過(guò)多時(shí),模型結(jié)構(gòu)過(guò)于復(fù)雜,導(dǎo)致模型效率低下。為了克服單一方法造成評(píng)價(jià)結(jié)果不準(zhǔn)確的問(wèn)題,本文構(gòu)建PCA-BP模型進(jìn)行水質(zhì)分類,以期客觀反映地下水水質(zhì)現(xiàn)狀。
1 方法和原理
1.1 主成分分析法(PCA)
主成分分析是一種對(duì)原始數(shù)據(jù)壓縮和特征信息提取的方法[7,8]。在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。當(dāng)變量間存在相關(guān)性時(shí),就可利用主成分分析法通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,既能夠表達(dá)出原有信息變量,又能保持變量間的獨(dú)立性。其基本原理如下:
若定義X1,X2,…Xp為原變量指標(biāo),F(xiàn)1,F(xiàn)2,…Fm(mlt;p)為新變量指標(biāo),兩者之間的關(guān)系如下:
式中:Fi與Fj(i≠j;i,j=1,2,…m)互不相關(guān);F1是X1,X2,…Xp所有線性組合中方差最大者,F(xiàn)2是與F1不相關(guān)的X1,X2,…Xp的所有線性組合中方差最大者,依此類推。新變量指標(biāo)F1,F(xiàn)2,…Fm分別作為原變量X1,X2,…Xp指標(biāo)的第一,第二,…第m主成分。
對(duì)變量做主成分分析的步驟通常為:首先,將原有變量數(shù)據(jù)標(biāo)準(zhǔn)化,求出協(xié)方差矩陣的特征值和特征向量。然后,將特征值按照一定的順序排列,選擇特征值大于1的k個(gè)特征向量分別作為X1,X2,…Xp在各主成分F1,F(xiàn)2,…Fm上的載荷lij(i=1,2,…m;j=1,2,…p)。最后,計(jì)算主成分Fi的綜合得分值F。
1.2 BP 神經(jīng)網(wǎng)絡(luò)分類法
BP神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)[9],其主要特征就是它的信號(hào)在各層正向傳播,而分類誤差卻反向傳播。它根據(jù)導(dǎo)師的學(xué)習(xí)方式進(jìn)行訓(xùn)練,將設(shè)定好的學(xué)習(xí)模式提供給神經(jīng)網(wǎng)絡(luò)后,神經(jīng)元就會(huì)逐層被激活,信號(hào)沿輸入層―隱含層―輸出層傳播,隨即輸出層的神經(jīng)元就會(huì)輸出對(duì)應(yīng)于輸入模式的網(wǎng)絡(luò)響應(yīng)。隨后,誤差開(kāi)始從輸出層―隱含層―輸入層反向傳播以不斷修正權(quán)重和偏置,這是為了使搭建的神經(jīng)網(wǎng)絡(luò)精度最高,必須使期望輸出與實(shí)際輸出之間的誤差最小,其結(jié)構(gòu)示意圖見(jiàn)圖1,流程圖見(jiàn)圖2。
當(dāng)輸入層有n個(gè)神經(jīng)元,而隱含層有p個(gè)神經(jīng)元,輸出層有q個(gè)神經(jīng)元時(shí),則隱含層第j個(gè)神經(jīng)元的輸入值tj為:
其中:xi(i=1,2,…n)用來(lái)代表第i個(gè)神經(jīng)元的輸入值;wij(j=1,2,…p)代表輸入層神經(jīng)元i與隱含層神經(jīng)元j之間的權(quán)重,bj是對(duì)應(yīng)神經(jīng)元的偏置。
隱含層中第j個(gè)神經(jīng)元的輸出值z(mì)j為:
zj = f1 (tj ) (4)
其中:f1(·)為輸入層到隱含層的傳遞函數(shù),一般為非線性Sigmoid函數(shù)。
輸出層中第k個(gè)神經(jīng)元的輸入值uk為:
其中:zj(j=1,2,…p)用來(lái)代表來(lái)自隱含層第j個(gè)神經(jīng)元的輸入值;wjk(k=1,2,…q)則能夠表示隱含層神經(jīng)元j與輸出層神經(jīng)元k之間的權(quán)重,bk是對(duì)應(yīng)神經(jīng)元的偏置。
輸出層第k個(gè)神經(jīng)元的輸出值yk為:
yk = f2 (uk ) (6)
其中:f2(·)表示隱含層到輸出層的傳遞函數(shù)。
2 實(shí)例分析
焦作市位于河南省西北部,北起太行,南依黃河,交通便利。本文選取焦作淺層地下水12組水質(zhì)數(shù)據(jù)進(jìn)行實(shí)例分析[10]。根據(jù)《地下水質(zhì)量標(biāo)準(zhǔn)》(GB/T 14848-2017),篩選出硫化物、氯化物、礦化度、pH、總硬度、氟化物6項(xiàng)污染指標(biāo)。
2.1 基于PCA 的指標(biāo)賦權(quán)
采用SPSS 分析軟件對(duì)12組水質(zhì)數(shù)據(jù)進(jìn)行主成分分析,主要步驟如下:
(1)將水質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)化處理,計(jì)算相關(guān)系數(shù)矩陣,見(jiàn)表1。
(2)計(jì)算每個(gè)主成分所對(duì)應(yīng)的初始特征值、方差百分比及累計(jì)方差貢獻(xiàn)率,見(jiàn)表2。前2個(gè)主成分特征值均大于1,其累積反映了原始參數(shù)信息的89.59%,可見(jiàn)主成分分析法結(jié)果有效。
(3)計(jì)算初始因子載荷矩陣,主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)絕對(duì)值越接近1,表示相關(guān)程度越高。將各主成分的載荷向量除以各自主成分特征值的算術(shù)平方根,得到主成分特征向量值,再經(jīng)變換推導(dǎo)確定指標(biāo)權(quán)重,見(jiàn)表3。
由指標(biāo)權(quán)重計(jì)算結(jié)果可知,各指標(biāo)權(quán)重總體差別不大,總硬度、氟化物、pH與其他三項(xiàng)指標(biāo)相比權(quán)重較小,因此將硫酸鹽、礦化度、氯化物作為搭建BP神經(jīng)網(wǎng)絡(luò)模型的主要指標(biāo)。
2.2 水質(zhì)分類模型構(gòu)建
(1)隨機(jī)生成訓(xùn)練樣本
本文基于MATLAB 軟件構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)。地下水水質(zhì)量分類參考《地下水質(zhì)量標(biāo)準(zhǔn)》(GB/T 14848-2017),將實(shí)測(cè)數(shù)據(jù)依據(jù)標(biāo)準(zhǔn)劃分為五個(gè)水質(zhì)類別,見(jiàn)表4。在MATLAB 中使用rand函數(shù)生成隨機(jī)樣本,在各大標(biāo)準(zhǔn)限值的取值區(qū)間內(nèi)隨機(jī)取值,對(duì)于每一類水質(zhì),隨機(jī)生成300組符合標(biāo)準(zhǔn)的隨機(jī)數(shù)組,5個(gè)水質(zhì)類別總計(jì)生成1500組隨機(jī)數(shù),見(jiàn)表5。
生成隨機(jī)數(shù)組后,在各個(gè)水質(zhì)類型的隨機(jī)數(shù)組中分別隨機(jī)抽取200 組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,即五個(gè)水質(zhì)類型的訓(xùn)練數(shù)據(jù)共1000 組,其余500 組作為驗(yàn)證數(shù)據(jù)集,用于驗(yàn)證將要構(gòu)建的神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。
(2)訓(xùn)練樣本歸一化
為了使后續(xù)計(jì)算方便,程序運(yùn)行時(shí)收斂更快,在構(gòu)建BP模型前的預(yù)處理階段,必須對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,利用mapminmax 函數(shù)進(jìn)行歸一化,使處理后的隨機(jī)數(shù)組所有數(shù)值在[-1,1]之間。
計(jì)算公式如下:
y = (ymax - ymin )*(x - xmin )/(xmax - xmin ) + ymin (7)
(3)確定目標(biāo)矩陣
每一個(gè)輸入樣本對(duì)應(yīng)一個(gè)輸出矩陣,由于第一步生成了1500組隨機(jī)樣本,因此目標(biāo)集T 為一個(gè)5×1500的矩陣。本次模型構(gòu)建中輸出層有5種水質(zhì)類別,將輸出層設(shè)為5個(gè)神經(jīng)元。用5×1的矩陣T表示每個(gè)輸出類別,( 1,0,0,0,0) T 表示第Ⅰ類水質(zhì)、( 0,1,0,0,0) T 表示第Ⅱ類水質(zhì)、( 0,0,1,0,0) T 表示第Ⅲ類水質(zhì)、( 0,0,0,1,0) T 表示第Ⅳ類水質(zhì)、( 0,0,0,0,1) T 表示第Ⅴ類水質(zhì)。
(4)創(chuàng)建神經(jīng)網(wǎng)絡(luò)
將1000組數(shù)據(jù)作為訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò),500組數(shù)據(jù)用于測(cè)試網(wǎng)絡(luò),在MATLAB 中輸入樣本集[P,T],使用newff 函數(shù)創(chuàng)建一個(gè)BP神經(jīng)網(wǎng)絡(luò),設(shè)置激活函數(shù)、訓(xùn)練函數(shù)、學(xué)習(xí)函數(shù)后,再進(jìn)行相關(guān)參數(shù)的設(shè)置,最大訓(xùn)練次數(shù)設(shè)為1000,學(xué)習(xí)速率、動(dòng)量因子和訓(xùn)練精度分別設(shè)置為0.1、0.9和0.025。經(jīng)多次調(diào)試后發(fā)現(xiàn)隱含層神經(jīng)元個(gè)數(shù)為10時(shí)網(wǎng)絡(luò)誤差最小,確定網(wǎng)絡(luò)結(jié)構(gòu)為3-10-5。
(5)分類結(jié)果
調(diào)用水質(zhì)分類模型,將12組實(shí)測(cè)水質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化處理,作為輸入變量,經(jīng)過(guò)網(wǎng)絡(luò)模型輸出對(duì)應(yīng)的結(jié)果,見(jiàn)表6。
3 結(jié)論
從評(píng)價(jià)結(jié)果上看,該區(qū)域地下水中存在IV、Ⅴ類水,這可能是受到人類活動(dòng)、采礦堆積等因素影響,采煤過(guò)程中堆積在礦坑附近的煤矸石在雨水的淋濾作用下釋放出一些重金屬及硫酸鹽等物質(zhì),從而對(duì)該層水質(zhì)造成污染破壞。但總體上水質(zhì)較好,可以作為飲用水和工農(nóng)業(yè)用水水源。
選用主成分分析法賦權(quán),得到結(jié)果中對(duì)水質(zhì)影響最小的為pH值,影響最大的污染因素為礦化度和硫化物。比較兩種方法的評(píng)價(jià)結(jié)果可知,PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)結(jié)果要優(yōu)于單因子評(píng)價(jià)法,相較于單因子評(píng)價(jià)法的悲觀性,PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)更為客觀。
[參考文獻(xiàn)]
[1]韓忠,王曉麗,施龍青.PCA-BP 神經(jīng)網(wǎng)絡(luò)在礦山巖溶突水水源判別中的應(yīng)用研究[J]. 河南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,42(01):46-53.
[2]Gai RL;Guo ZB. A water quality assessment method based on an improved grey relational analysis and particle swarm optimization multi-classification support vector machine[J]. Frontiers in Plant Science,2023:14.
[3]Pany Rajashree;Rath Ashutosh;Swain Prakash Chandra. Water quality assessment for River Mahanadi of Odisha,India using statistical techniques and Artificial Neural Networks[J]. Journal of Cleaner Production,2023,417(Sep.10):137713.1-37713.16.
[4]喻澤斌,施麗玲.PCA-BP 神經(jīng)網(wǎng)絡(luò)在流域水質(zhì)評(píng)價(jià)中的應(yīng)用[J]. 桂林理工大學(xué)學(xué)報(bào),2012,32(02):189-194.
[5]許飛青,李瀟,李凱等. 隨機(jī)森林回歸模型在地下水水質(zhì)評(píng)價(jià)的新應(yīng)用[J]. 地質(zhì)與勘探,2023,59(02):408-417.
[6]朱永軍,吳瓊,湛忠宇. 基于主成分分析法與人工神經(jīng)網(wǎng)絡(luò)耦合模型的水質(zhì)評(píng)價(jià)[J]. 江蘇水利,2021(08):48-54.
[7]呂海洋,黨秀麗,朱影影,等. 河南省典型工業(yè)區(qū)地下水水質(zhì)分析及重金屬健康風(fēng)險(xiǎn)評(píng)價(jià)[J/OL]. 農(nóng)業(yè)環(huán)境科學(xué)學(xué)報(bào),2023(12):2740-2751.
[8]蘇俏俏,黃平華,丁風(fēng)帆,等. 基于Piper-PCA-Fisher 模型的礦井突水水源識(shí)別[J]. 能源與環(huán)保,2021,43(10):122-127.
[9]張怡,馮萱,王碩等. 基于BP 人工神經(jīng)網(wǎng)絡(luò)的紅旗泡水庫(kù)富營(yíng)養(yǎng)化評(píng)價(jià)[J]. 環(huán)境生態(tài)學(xué),2022,4(09):103-107.
[10]Huang PH,Wang XY. Groundwater―Mixing Me chanism in a Multiaquifer System Based on Isotopic Tracing Theory:A Case Study in a Coal Mine District,China[J]. Geofluids,2018:1-10.