張林
(商洛學(xué)院,商洛市人工智能研究中心,陜西商洛 726000)
隨著我國現(xiàn)代工業(yè)的快速發(fā)展,環(huán)境污染問題日趨受到公眾關(guān)注。人們希望能夠?qū)λ|(zhì)進行實時監(jiān)測,了解污水中有害物的種類及濃度[1]。由于水體中污染物種類繁多,污染物濃度的實時監(jiān)測難度很大[2]。污水中的污染物主要分為有機污染物和無機污染物兩類,無機污染物主要以自然產(chǎn)生的碳水化合物為主,有機污染物是以人類工、農(nóng)業(yè)活動產(chǎn)生的殘留物為代表,通常指農(nóng)藥等化工產(chǎn)品中的芳烴類和酚醛類等[3]。一般情況下無機污染物的危害不大,水體通過自凈就可恢復(fù);而有機污染物對水體危害較大而且持久,容易造成生態(tài)鏈?zhǔn)Ш?,如果人誤食含有機污染物的水體中的魚蝦身體健康將會遭受危害[4–6]。水中的污染物擴散速度較快,目前提高污水中危害物的檢測速度是防范水污染的重要措施之一,對人與自然的和諧發(fā)展具有重要意義。
傳統(tǒng)的污水危害物檢測方法均需借助化學(xué)試劑和先進的檢測設(shè)備,如化學(xué)分析法、色譜法等,這些方法雖然能夠較準(zhǔn)確測定污水中的危害物含量,但其樣品處理過程復(fù)雜,檢測耗時長,且對檢測人員的技術(shù)要求較高,因此難以大范圍推廣[7–9]。近紅外光譜處理技術(shù)是利用C—H、O—H、N—H等有機基團對近紅外光的合頻與倍頻對樣品成分進行間接預(yù)測的方法[10–12]。近紅外光譜檢測技術(shù)是一種簡單、便捷的檢測方法,它具有高的靈敏度和穩(wěn)定性,測定污水中的危害物便捷而高效。在對污水中有害有機物質(zhì)進行檢測時,傳統(tǒng)的檢測方法一般不能有效分辨有機物的種類及含量,而近紅外光譜檢測技術(shù)能夠?qū)τ袡C物基團的吸收光譜進行增強[13],從而實現(xiàn)污水中有機污染物的辨別與準(zhǔn)確定量。由于普通的近紅外光譜增強技術(shù)存在熱效應(yīng)差的缺陷,筆者構(gòu)建了一種近紅外光譜增強方法并將其應(yīng)用于污水中有害物質(zhì)的檢測,提高了檢測精度與靈敏度。
由于神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具有特殊的深度學(xué)習(xí)訓(xùn)練結(jié)構(gòu)[14],需要對輸入的光譜信息進行降維處理。通常采用重新構(gòu)建二維光譜信息矩陣的方法對其進行降維,將每個樣本的近紅外光譜數(shù)據(jù)轉(zhuǎn)換為二維光譜矩陣,具體處理過程如下:
設(shè)x表示其中一個樣本的光譜數(shù)據(jù)向量,且以列向量的形式表示,則該樣本的二維近紅外光譜數(shù)據(jù)矩陣可以表示為:
S=xxT(1)
如果x代表的是一個三維光譜數(shù)據(jù)的一個列向量,則一個典型的二維光譜矩陣可以表示為:
該矩陣被稱為原始近紅外光譜的信息矩陣,其中包含所有原始光譜的有效信息。此二維光譜信息矩陣即保持著與原始光譜間的相關(guān)性,同時又符合CNN模型對輸入數(shù)據(jù)的格式要求,另外,將光譜信息降維成二維向量,更加有利于CNN網(wǎng)絡(luò)對光譜特征的提取,實現(xiàn)更好的模型預(yù)測效果。
卷積神經(jīng)網(wǎng)絡(luò)是一種端到端的有監(jiān)督的神經(jīng)網(wǎng)絡(luò)[15–16],其基本結(jié)構(gòu)分為輸入層、卷積層、非線性激活層、池化層和全連接層5層。其中卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心運算過程,向量經(jīng)過卷積后會發(fā)生偏置,因此引入非線性激活函數(shù)對卷積后的向量進行修正,經(jīng)過非線性激活函數(shù)修正后得到結(jié)果:
池化層主要作用是對卷積層輸出的數(shù)據(jù)再次降維,以達(dá)到減小運算復(fù)雜度的目的。目前常用的是最大值池化和平均值池化兩種方法,本實驗采用最大值池化法對數(shù)據(jù)進行降維處理。
實驗采集300個水樣,將采集到的水樣于試管中密封,于15 ℃條件下避光保存,3 h內(nèi)完成光譜采集和理化分析數(shù)據(jù)的統(tǒng)計,其統(tǒng)計數(shù)據(jù)列于表1。檢測樣本的污染物含量較低且分布密集,對檢測設(shè)備的精度有較高的要求。
表1 采集水樣污染物統(tǒng)計數(shù)據(jù)
采用美國熱電尼高力儀器公司生產(chǎn)的NEXUS型傅里葉變換紅外光譜儀及其透色組件完成水體樣本近紅外光譜的采集。光源由波長為400~2 400 nm的石英鹵素?zé)籼峁?,光譜分辨率設(shè)定為16 cm–1,每個樣本掃描32次。
利用熱電尼高力儀器公司提供的OMNIC軟件對采集的樣本近紅外光譜進行一階平滑處理,消除噪音干擾,將經(jīng)過處理的數(shù)據(jù)導(dǎo)出,利用統(tǒng)計分析軟件MATLAB 2017對導(dǎo)出的數(shù)據(jù)進行聚類分析,結(jié)果表明光譜的前20個主成分累計貢獻率超過99.1%,因此選用前20個主成分作為樣本的有效數(shù)據(jù)進行建模,有效降低了CNN模型的運算復(fù)雜度。主成分分析光譜累計貢獻率如圖1所示。
圖1 水樣近紅外光譜前20個主成分方差累計貢獻率
采用卷積神經(jīng)網(wǎng)絡(luò)的方法建立水樣中可持續(xù)污染物含量的檢測模型,用MATLAB軟件進行編程。采用實驗樣本對模型進行多次訓(xùn)練,對模型結(jié)構(gòu)進行調(diào)整與改進。整個模型以BP神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),設(shè)置卷積核函數(shù)對其進行初始化,將偏置設(shè)置為0,采用留一交叉驗證的方法確定最佳參數(shù)。采用損失函數(shù)對歐氏距離進行定義:
式中:yp——模型的預(yù)測值;
yi——樣本的理化分析值。
試驗過程中將模型的學(xué)習(xí)率設(shè)定為0.5,最大迭代次數(shù)設(shè)定為1 000次,模型隨著迭代次數(shù)的增加而收斂,且損失函數(shù)平滑下降,說明模型的學(xué)習(xí)狀態(tài)較好,沒有出現(xiàn)過擬合現(xiàn)象。
引入相關(guān)系數(shù)r、均方根誤差(RMSEC)、預(yù)測標(biāo)準(zhǔn)差(RMSEP)3個指標(biāo)對預(yù)測模型進行評價。其中相關(guān)系數(shù)r值越接近于1,說明模型的擬合效果越好,RMSEC和RMSEP的值越低說明系統(tǒng)的穩(wěn)定性越好。
同時建立標(biāo)準(zhǔn)的BP神經(jīng)網(wǎng)絡(luò)模型,與PLSR模型進行對比,其中BP神經(jīng)網(wǎng)絡(luò)模型設(shè)定為單隱層結(jié)構(gòu)。將300個水樣樣本數(shù)據(jù)按照2∶1的比例劃分為校正集和驗證集,即200個樣品用于對模型的訓(xùn)練,100個樣品用于對模型的驗證。對模型進行10次重復(fù)訓(xùn)練和測試,得模型平均值,其結(jié)果列于表2。由表2可知,近紅外光譜分析方法對水體中的氰化物、總汞和多環(huán)芳烴的預(yù)測精度較高,采用卷積神經(jīng)網(wǎng)絡(luò)建立的模型總體效果優(yōu)于BP、PLSR建模方法。
表2 不同模型水中污染物建模結(jié)果
分析結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)能夠用于建立近紅外光譜水中持久性污染物含量檢測模型,且模型比傳統(tǒng)建模方法預(yù)測精度更高。采用卷積神經(jīng)網(wǎng)絡(luò)模型能夠有效地簡化光譜數(shù)據(jù)的維度,同時實現(xiàn)更好的預(yù)測效果。研究表明采用卷積神經(jīng)網(wǎng)絡(luò)模型獨特的深度學(xué)習(xí)方法能夠有效提取光譜數(shù)據(jù)的特征點,從而獲取更加有效和細(xì)致的局部抽象映射。另外由于卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)能夠有效降低不相關(guān)數(shù)據(jù)對模型的影響,能夠提高預(yù)測模型的魯棒性和健壯性。由于需要對多層結(jié)構(gòu)進行大量的訓(xùn)練,才能使卷積神經(jīng)網(wǎng)絡(luò)模型達(dá)到最優(yōu),接下來將對模型訓(xùn)練集樣本所占數(shù)量對模型效果的影響進一步加以討論研究。
為了探討訓(xùn)練集樣本數(shù)量的多少對卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測能力的影響,采用相同的劃分方法將訓(xùn)練集樣本按照所占總樣本的10%~90%對模型進行訓(xùn)練,對氰化物的檢測訓(xùn)練結(jié)果列于表3。
表3 不同訓(xùn)練集樣本數(shù)量下模型的預(yù)測效果
采用驗證集樣本對模型的擬合精度進行評判,根據(jù)模型評價原則,對比實驗數(shù)據(jù)發(fā)現(xiàn),隨著訓(xùn)練模型樣本數(shù)量的增加,卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型的預(yù)測精度和穩(wěn)定性逐步提高。當(dāng)對模型的訓(xùn)練樣本數(shù)量小于60時,模型得不到足夠的訓(xùn)練,不能有效預(yù)測驗證集樣本中的數(shù)據(jù)。3種污染物的預(yù)測相關(guān)系數(shù)隨訓(xùn)練集樣本數(shù)量的變化情況如圖2所示。
圖2 預(yù)測系數(shù)隨訓(xùn)練集樣本數(shù)量占比變化情況
由圖2可以發(fā)現(xiàn),隨著訓(xùn)練集樣本數(shù)目的增加,卷積神經(jīng)網(wǎng)絡(luò)建立的水中污染物含量預(yù)測模型的性能穩(wěn)步提高,說明利用卷積神經(jīng)網(wǎng)絡(luò)建立水中污染物含量模型,在大數(shù)據(jù)環(huán)境下能夠穩(wěn)定且有效地對水體中的各污染物含量進行動態(tài)檢測和預(yù)測。
將卷積神經(jīng)網(wǎng)絡(luò)技術(shù)與近紅外光譜檢測方法相結(jié)合,應(yīng)用于水中持久性污染物含量的檢測,設(shè)計了一種有效的卷積神經(jīng)網(wǎng)絡(luò)回歸模型,并在低濃度污染物的檢測中取得了較好的效果。首先采用不同的建模預(yù)測方法進行對比分析,采用卷積神經(jīng)網(wǎng)絡(luò)所建立的預(yù)測模型,其穩(wěn)定性和線性預(yù)測精度均較理想,然后對比分析訓(xùn)練集樣本個數(shù)對模型預(yù)測能力的影響,發(fā)現(xiàn)隨著訓(xùn)練樣本數(shù)量的增加,采用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)建立的模型性能顯著提高,說明在大數(shù)據(jù)環(huán)境下,卷積神經(jīng)網(wǎng)絡(luò)模型能夠適應(yīng)水中污染物動態(tài)檢測的需求。