侯茂澤,馬艷瓊,田森林,歐陽(yáng)昊,趙 恒,李英杰,鐵 程,趙琦琳
1.昆明理工大學(xué)環(huán)境科學(xué)與工程學(xué)院,云南 昆明 650031 2.昆明市生態(tài)環(huán)境局安寧分局生態(tài)環(huán)境監(jiān)測(cè)站,云南 昆明 650309 3.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096 4.天津工業(yè)大學(xué)電氣與電子工程學(xué)院,天津 300387 5.云南省生態(tài)環(huán)境監(jiān)測(cè)中心,云南 昆明 650034
我國(guó)“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要提出“健全有毒有害化學(xué)物質(zhì)環(huán)境風(fēng)險(xiǎn)管理體制”和“重視化學(xué)品污染治理”的要求。頻發(fā)的安全生產(chǎn)突發(fā)事件是有毒有害化學(xué)物質(zhì)進(jìn)入環(huán)境的重要途徑,對(duì)生態(tài)環(huán)境造成破壞的同時(shí)也對(duì)社會(huì)安定和居民健康帶來(lái)嚴(yán)重危害[1]。典型案例有2010年福建紫金礦業(yè)潰壩事件、2010年大連新港原油泄漏事件、2011年云南曲靖鉻渣污染事件、2012 年廣西龍江鎘污染事件、2013年山西長(zhǎng)治苯胺泄漏事件等,這些水污染事件的發(fā)生嚴(yán)重威脅到受污水系流經(jīng)地域內(nèi)居民的用水安全,極大地破壞了所流經(jīng)地域的生態(tài)環(huán)境[2-3]。
污染物溯源追蹤是一種可在污染事件發(fā)生早期對(duì)污染源進(jìn)行快速準(zhǔn)確溯源和處理的技術(shù)[4]。目前主要的水污染溯源方法可分為排查法、數(shù)學(xué)模型模擬法和水紋法。排查法[5]是我國(guó)環(huán)境監(jiān)測(cè)部門(mén)在發(fā)生污染事件后進(jìn)行污染溯源的傳統(tǒng)手段,是在現(xiàn)有河流監(jiān)測(cè)數(shù)據(jù)的基礎(chǔ)上進(jìn)行大量的人工采樣和檢測(cè),并結(jié)合系統(tǒng)科學(xué)的分析判斷最有可能的污染源,該方法缺乏科學(xué)的搜索導(dǎo)則,效率較低。數(shù)學(xué)模型模擬法是目前水污染溯源領(lǐng)域報(bào)道最多的方法,主要是根據(jù)區(qū)域水環(huán)境監(jiān)測(cè)數(shù)據(jù)結(jié)合河流水系關(guān)系建立模型,反演污染源位置信息。藍(lán)志峰等[6]在福建敖江流域整合現(xiàn)有流域要素,構(gòu)建了水污染溯源的流域要素空間關(guān)系模型,該模型能有效提供污染源空間分布和結(jié)構(gòu)信息,識(shí)別和篩選研究區(qū)域的水污染引發(fā)源,快速縮小未知污染源搜查范圍,但對(duì)于集中排放的工業(yè)園區(qū)難以準(zhǔn)確找到對(duì)應(yīng)的排污企業(yè)。陳正俠等[7]在佛山西江流域基于EFDC和WASP模型建立了研究區(qū)域的水動(dòng)力模型、常規(guī)污染物水質(zhì)模型以及有毒污染物水質(zhì)模型,該模型可反向估算污染源得到可能的污染源位置及對(duì)應(yīng)的排放量,但在實(shí)際應(yīng)用場(chǎng)景中需選取能夠正確反映水體污染的參數(shù),需要大量的試錯(cuò)工作,且存在一定難度。水紋法是近幾年基于三維熒光光譜技術(shù)提出的一種新型水污染溯源方法。生活污水、工業(yè)廢水和地表徑流中均含有大量熒光物質(zhì),如蛋白質(zhì)、腐殖質(zhì)、酚、脂質(zhì)、葉綠素等[8],水樣經(jīng)三維熒光光譜技術(shù)檢測(cè)后生成與之對(duì)應(yīng)的熒光譜圖,該技術(shù)具有所需樣品量少、幾乎無(wú)需化學(xué)試劑、對(duì)樣品無(wú)破壞、測(cè)試快速準(zhǔn)確等特點(diǎn)。劉傳旸等[9]以南方C市A河為研究對(duì)象,運(yùn)用水質(zhì)熒光指紋比對(duì)算法[10],將待檢測(cè)水樣與污染源數(shù)據(jù)庫(kù)進(jìn)行對(duì)比溯源,確定了該水樣為印染廢水;蔣鳳華[11]采集膠州灣和萊州灣20個(gè)樣品,應(yīng)用三維熒光光譜聯(lián)合GC-MS技術(shù)建立指紋譜圖庫(kù),并對(duì)平行樣進(jìn)行模式識(shí)別,區(qū)域識(shí)別正確率達(dá)80%。目前,這類方法在水質(zhì)監(jiān)測(cè)和水污染溯源方面得到了一定應(yīng)用[12-14]。但是在現(xiàn)實(shí)情況中,污染廢水進(jìn)入水體后被大幅度稀釋,其熒光特征也會(huì)隨之衰弱和改變,依靠水質(zhì)熒光指紋比對(duì)算法將未經(jīng)預(yù)處理的水樣譜圖直接與數(shù)據(jù)庫(kù)中譜圖進(jìn)行比對(duì)溯源難度較高。近年來(lái),隨著深度學(xué)習(xí)(Deep Learning)在目標(biāo)識(shí)別、語(yǔ)音處理、自然語(yǔ)音處理等領(lǐng)域的廣泛運(yùn)用,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks)結(jié)合大量的數(shù)據(jù)對(duì)三維熒光光譜進(jìn)行研究成為一種趨勢(shì)。本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)識(shí)別三維熒光譜圖的水污染溯源方法,運(yùn)用該方法能在短時(shí)間內(nèi)較為準(zhǔn)確地追溯到污染物來(lái)源企業(yè),及時(shí)阻斷污染。
通過(guò)采集安寧市內(nèi)8家重點(diǎn)企業(yè)共計(jì)20個(gè)廢水水樣進(jìn)行三維熒光光譜檢測(cè),得到相應(yīng)的三維熒光譜圖,對(duì)所獲三維熒光譜圖進(jìn)行目視剔除散射區(qū)域-線性歸一化處理,基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建水污染溯源模型,利用溯源模型識(shí)別三維熒光譜圖找到對(duì)應(yīng)的企業(yè)(圖1)。
圖1 水污染溯源技術(shù)路線圖Fig.1 Technical route for water pollution traceability
熒光是一種光致冷發(fā)光現(xiàn)象。一定波長(zhǎng)的入射光照射后,熒光物質(zhì)分子會(huì)吸收光能,躍遷為激發(fā)態(tài)。激發(fā)態(tài)的分子不穩(wěn)定,容易經(jīng)非輻射躍遷和輻射躍遷返回基態(tài),輻射躍遷的衰變過(guò)程伴隨著光子的發(fā)射,即產(chǎn)生熒光或者磷光。溶液的熒光強(qiáng)度與溶液濃度有一定的關(guān)系,通常情況下用式(1)表示:
If=2.303φf(shuō)Ioεbc
(1)
式中:If表示溶液的熒光強(qiáng)度;φf(shuō)表示熒光量子產(chǎn)率;Io表示入射光強(qiáng)度;ε表示摩爾吸光系數(shù);b表示吸收光程;c表示溶液的濃度。
熒光強(qiáng)度是一個(gè)無(wú)量綱值。當(dāng)入射光強(qiáng)度一定時(shí),熒光物質(zhì)濃度極稀的情況下,溶液的熒光強(qiáng)度與溶液的濃度呈線性關(guān)系。一般熒光測(cè)量所得到的光譜圖是二維平面圖,一種是固定發(fā)射波長(zhǎng),取熒光強(qiáng)度隨激發(fā)波長(zhǎng)而變化的激發(fā)光譜圖;另一種則是固定激發(fā)波長(zhǎng),取熒光強(qiáng)度隨發(fā)射波長(zhǎng)變化的發(fā)射光譜圖[15]。三維熒光區(qū)別于一般熒光分析的主要特點(diǎn)是能獲得激發(fā)波長(zhǎng)與發(fā)射波長(zhǎng)同時(shí)變化時(shí)的熒光強(qiáng)度信息,并繪制成三維熒光譜圖[16]。
2021年3月,選擇昆明市安寧市內(nèi)8家典型行業(yè)重點(diǎn)企業(yè)為研究對(duì)象,根據(jù)企業(yè)環(huán)境影響評(píng)價(jià)報(bào)告書(shū)中排污分析內(nèi)容采集企業(yè)內(nèi)各產(chǎn)污工段水樣,共采集20個(gè)水樣;同年4月,第二次采集8家企業(yè)各1個(gè)水樣。樣品采集、保存按照《水質(zhì)樣品的保存和管理技術(shù)規(guī)定》(HJ 493—2009)進(jìn)行。水樣經(jīng)0.45 μm水溶性濾膜過(guò)濾后,用去離子水分別將水樣稀釋1、2、5、10、20、50、100、500倍。使用三維熒光光譜儀測(cè)定樣品前應(yīng)用去離子水作為空白樣進(jìn)行測(cè)定,檢驗(yàn)去離子水是否合格。企業(yè)相關(guān)信息見(jiàn)表1。
表1 水樣采集企業(yè)相關(guān)信息Table 1 Information of water sample collection enterprises
實(shí)驗(yàn)樣本的三維熒光光譜數(shù)據(jù)由日立公司生產(chǎn)的F-2700FL Spectrophotometer型熒光光譜儀測(cè)得。儀器主要性能參數(shù):激發(fā)光源為150 W氙燈;PMT電壓為700 V;掃描速度為12 000 nm/min;掃描光譜進(jìn)行儀器自動(dòng)校正;自動(dòng)響應(yīng)時(shí)間;激發(fā)波長(zhǎng)范圍為220~600 nm;發(fā)射波長(zhǎng)范圍為230~650 nm;激發(fā)和發(fā)射步長(zhǎng)為5 nm;激發(fā)和發(fā)射端狹縫寬度為5 nm。
利用熒光分光光度計(jì)測(cè)量廢水樣品,可以完整地記錄激發(fā)波長(zhǎng)和發(fā)射波長(zhǎng)變化時(shí)的廢水熒光強(qiáng)度,但同時(shí)也會(huì)記錄來(lái)自容器表面和溶劑的散射光的干擾信號(hào),主要表現(xiàn)為瑞利散射,即與激發(fā)光波長(zhǎng)相等或相近的發(fā)射光[17]。瑞利散射的存在會(huì)對(duì)樣品本身的熒光峰產(chǎn)生較強(qiáng)的掩蓋作用,并且會(huì)對(duì)待測(cè)樣品真實(shí)光譜數(shù)據(jù)的獲取產(chǎn)生干擾,是一種典型的“缺陷數(shù)據(jù)”。消除瑞利散射通常采用儀器校正法、空白扣除法、Delaunay三角形內(nèi)插值法和缺損數(shù)據(jù)重構(gòu)(MDR)法[18]等。本研究創(chuàng)新性采用目視剔除散射區(qū)域-線性歸一化方法對(duì)原始熒光譜圖進(jìn)行預(yù)處理,即在使用MATLAB軟件heatmap函數(shù)繪制三維熒光熱圖后,利用imcrop函數(shù)目視選中需要剔除的瑞利散射區(qū)域,利用roipoly函數(shù)將其剔除。對(duì)保留下來(lái)的譜圖進(jìn)行線性歸一化增益:針對(duì)一個(gè)水樣,分別將最大、最小熒光強(qiáng)度線性歸一化為1和0,以提高熒光信號(hào)強(qiáng)度,提高溯源追蹤的識(shí)別率。線性歸一化計(jì)算公式:
(2)
式中:F為在激發(fā)波長(zhǎng)nnm、發(fā)射波長(zhǎng)mnm處線性歸一化計(jì)算后的熒光強(qiáng)度;fi(n,m)為在激發(fā)波長(zhǎng)nnm、發(fā)射波長(zhǎng)mnm處熒光分光光度計(jì)掃描得到的熒光強(qiáng)度;fimin為剔除散射后的最小熒光強(qiáng)度;fimax為剔除散射后的最大熒光強(qiáng)度。
基于卷積神經(jīng)網(wǎng)絡(luò)近幾年在進(jìn)行圖像識(shí)別領(lǐng)域和環(huán)境預(yù)測(cè)領(lǐng)域的出色表現(xiàn)[19-22],本研究以ConvNet卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)建立模型,作為預(yù)處理后的三維熒光譜圖的溯源識(shí)別計(jì)算工具。采用由2個(gè)卷積層和1個(gè)池化層構(gòu)成的規(guī)模較小的CNN網(wǎng)絡(luò),通過(guò)設(shè)置不同的圖片分辨率(Image resolution)、步長(zhǎng)值(Stride)、卷積層數(shù)(NCL)、濾波器尺寸(FS)、濾波器數(shù)量(NF)等超級(jí)參數(shù)建立不同的溯源模型。以2021年3月所采集水樣熒光譜圖組成樣本集,設(shè)定樣本集中95%樣本為訓(xùn)練樣本,剩余5%樣本為模型測(cè)試樣本,步長(zhǎng)值(Stride)設(shè)為默認(rèn)值2,分別在圖片分辨率為300×300、200×200、150×150、100×100下設(shè)定濾波器尺寸和第一、第二個(gè)卷積層中濾波器數(shù)量進(jìn)行循環(huán)測(cè)試,得到1 425組測(cè)試結(jié)果。每組測(cè)試結(jié)果含卷積網(wǎng)識(shí)別得分、正確率以及對(duì)應(yīng)的模型。卷積網(wǎng)識(shí)別得分是經(jīng)模型計(jì)算后得到的測(cè)試樣本與各企業(yè)廢水的相似度,取最大值對(duì)應(yīng)企業(yè)為溯源結(jié)果,其計(jì)算公式見(jiàn)式(3)、式(4)。
PScorei=W×Xi+b
(3)
(4)
式中:PScorei為第i個(gè)輸入樣本經(jīng)卷積網(wǎng)識(shí)別的原始得分;W為第i個(gè)輸入樣本經(jīng)卷積網(wǎng)訓(xùn)練得到的權(quán)值矩陣;Xi為第i個(gè)輸入樣本圖像像素值變形為單列向量;b為卷積網(wǎng)訓(xùn)練得到的閾值矩陣;Scorei為第i個(gè)輸入樣本經(jīng)卷積網(wǎng)識(shí)別的最終得分;PScorei為所有輸入樣本原始得分最大值;PScoremin為所有輸入樣本原始得分最小值。
溯源正確率是溯源結(jié)果與測(cè)試樣本相符的數(shù)量與測(cè)試樣本數(shù)量的比值,其計(jì)算公式見(jiàn)式(5)。
(5)
式中:T為溯源正確率;Nt為溯源結(jié)果與測(cè)試樣本相符的數(shù)量;Ns為測(cè)試樣本數(shù)量。
溯源正確率越高代表模型性能越好,識(shí)別三維熒光譜圖越準(zhǔn)確。測(cè)試結(jié)果顯示,在圖片分辨率為300×300、200×200、150×150、100×100下,最高溯源正確率分別為62.5%、75%、75%、75%,排除300×300分辨率下的模型,由此得到3個(gè)性能較好的溯源模型。
以希陶藥業(yè)安寧分公司中藥工藝廢水原水(水樣A)和希陶藥業(yè)安寧分公司中藥工藝廢水(水樣B)稀釋10倍水為例。如圖2(a)、圖2(b)所示,預(yù)處理前的三維熒光熱力圖中存在明顯的瑞利散射區(qū)域,并與污染物熒光特征區(qū)域相連,水樣B譜圖中熒光特征較水樣A顯著衰弱。使用目視剔除散射區(qū)域-線性歸一化方法對(duì)熒光譜圖進(jìn)行預(yù)處理,結(jié)果如圖2(c)、圖2(d)所示,熒光譜圖中的瑞利散射區(qū)域被有效剔除,水樣B譜圖中因稀釋導(dǎo)致衰弱的熒光特征經(jīng)線性歸一化處理后得到了顯著增強(qiáng),與此同時(shí),稀釋10倍后廢水的熒光譜圖經(jīng)預(yù)處理后極大程度還原了原廢水的熒光譜圖特征,兩者具有極高相似性。
圖2 散射去除效果Fig.2 Effect of scattering removal
為檢驗(yàn)此預(yù)處理方法對(duì)于提高模型識(shí)別譜圖的效果,從已有的1 425個(gè)模型中隨機(jī)抽取100個(gè)模型分為10組,再進(jìn)行水樣A和水樣B預(yù)處理前后的熒光譜圖識(shí)別,結(jié)果見(jiàn)表2。
由表2可知,熒光譜圖經(jīng)預(yù)處理后,能正確識(shí)別水樣A、B熒光譜圖的模型個(gè)數(shù)分別從18、13個(gè)提升到39、35個(gè),說(shuō)明目視剔除散射區(qū)域-線性歸一化方法可有效避免熒光散射對(duì)溯源結(jié)果造成干擾的影響,有利于提高后期溯源模型溯源的正確率。
表2 熒光譜圖預(yù)處理效果檢驗(yàn)結(jié)果Table 2 Testing results of fluorescence spectrum pretreatment
將圖片分辨率200×200、150×150、100×100時(shí)所獲得的模型命名為Model-200、Model-150、Model-100,以2021年4月采樣廢水經(jīng)預(yù)處理后的三維熒光譜圖作為模擬溯源樣本集,將其分別導(dǎo)入3個(gè)模型中進(jìn)行模擬溯源,結(jié)果見(jiàn)表3。由模擬溯源結(jié)果可知,3個(gè)模型均能正確溯源來(lái)自安寧鋼力金屬制品有限公司、云南弘祥化工有限公司、云南煤業(yè)能源股份有限公司安寧分公司、中石油云南石化有限公司、希陶藥業(yè)安寧分公司5家企業(yè)的污水,但對(duì)于來(lái)自云南天安化工有限公司、安寧萬(wàn)家康生豬屠宰有限公司、昆明客運(yùn)段洗滌車間3家企業(yè)的污水溯源存在困難,且對(duì)應(yīng)的卷積網(wǎng)識(shí)別得分較低,最高為66.9。Model-100溯源模型性能最佳,溯源正確率為75%,Model-200、Model-150溯源正確率均為62.5%,說(shuō)明本研究所提出的水污染溯源模型能準(zhǔn)確識(shí)別經(jīng)預(yù)處理后的三維熒光譜圖是一種有效的水污染溯源方法。
表3 模擬溯源結(jié)果Table 3 Simulation traceability results
對(duì)比預(yù)處理前、后三維熒光譜圖,處理后三維熒光譜圖的瑞利散射區(qū)域被有效剔除,水樣熒光譜圖中污染物熒光特征比未處理前更加明顯。從1 425個(gè)模型中隨機(jī)選取100個(gè)模型用于該方法的檢驗(yàn),結(jié)果顯示,經(jīng)處理后的熒光譜圖更容易被溯源模型識(shí)別,能正確識(shí)別水樣A、B模型數(shù)量分別從18、13個(gè)提升到39、35個(gè)。除瑞利散射外,三維熒光光譜還受其他散射影響,如拉曼散射和容器表面的散射。BAHRAM等[23]提出使用插值法去除一、二階瑞利散射和拉曼散射區(qū)域,隨后運(yùn)用平行因子分析法進(jìn)行擬合,結(jié)果表明該方法適用于各種熒光光譜的散射去除;孔德明等[18]分別采用儀器校正法、空白扣除法、 Delaunay三角形內(nèi)插值法和MDR對(duì)海面溢油三維熒光光譜中的瑞利散射進(jìn)行校正,并結(jié)合定性鑒別、定量分析結(jié)果對(duì)比分析了幾種方法的校正效果,得出結(jié)論:MDR可在保證原有光譜特征不失真的基礎(chǔ)上有效去除瑞利散射。上述研究雖然可以很好地去除瑞利散射,但不同濃度水樣校正后的熒光譜圖有較大差異。目視剔除瑞利散射區(qū)域-線性歸一化的預(yù)處理方法在去除瑞利散射區(qū)域的同時(shí)還對(duì)熒光譜圖進(jìn)行了增益處理,使得處理后的熒光譜圖具有較高的相似度,有利于后期溯源模型的識(shí)別比對(duì)。
運(yùn)用ConvNet卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建溯源模型,通過(guò)設(shè)置不同的圖片分辨率、步長(zhǎng)值、卷積層數(shù)、濾波器尺寸、濾波器數(shù)量等超級(jí)參數(shù)得到1425組測(cè)試結(jié)果,從而篩選出3個(gè)性能較好的模型進(jìn)行模擬溯源。模擬溯源結(jié)果顯示,性能最佳的Modle-100溯源正確率達(dá)到75%。辛小康等[24]將遺傳方法與數(shù)學(xué)分析算法相結(jié)合建立水污染事故和污染源識(shí)別模型,可得到單點(diǎn)源和多點(diǎn)源的識(shí)別結(jié)果;朱嵩等[25]通過(guò)將貝葉斯估計(jì)方法與水質(zhì)模型相結(jié)合,得到污染源位置的概率分布。以上這些溯源方法僅能得到追溯到污染源的大致區(qū)域,無(wú)法精準(zhǔn)溯源到某個(gè)污染源。本研究選擇安寧市各行業(yè)重點(diǎn)企業(yè)采集水樣并進(jìn)行三維熒光檢測(cè),通過(guò)目視剔除瑞利散射區(qū)域-線性歸一化方法對(duì)三維熒光譜圖進(jìn)行預(yù)處理,通過(guò)建立卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別三維熒光譜圖進(jìn)行溯源,能較為準(zhǔn)確地追溯到污染物來(lái)源企業(yè)。
本研究以安寧市8家重點(diǎn)企業(yè)為研究對(duì)象,通過(guò)采集企業(yè)各工段污水進(jìn)行三維熒光檢測(cè)得到原始熒光譜圖,運(yùn)用目視剔除瑞利散射區(qū)域-線性歸一化方法對(duì)三維熒光譜圖進(jìn)行預(yù)處理,基于ConvNet卷積神經(jīng)網(wǎng)絡(luò)建立模型進(jìn)行水污染溯源研究。結(jié)果表明,目視剔除瑞利散射區(qū)域-線性歸一化熒光譜圖預(yù)處理方法能有效去除瑞利散射干擾,增強(qiáng)因水樣稀釋而衰弱的熒光特征,提高溯源模型識(shí)別熒光譜圖的能力;基于ConvNet卷積神經(jīng)網(wǎng)絡(luò)建立的水污染模型能在短時(shí)間內(nèi)較為準(zhǔn)確地追溯到污染物來(lái)源企業(yè),相比傳統(tǒng)的污染源排查法更加準(zhǔn)確高效。受疫情影響,本研究只采集了8家不同行業(yè)企業(yè)的廢水樣品,建立的數(shù)據(jù)庫(kù)較小,溯源模型還需要更多的樣本進(jìn)行驗(yàn)證和優(yōu)化。