沈文淵,吳也正,魏恒,繆青
(江蘇省蘇州環(huán)境監(jiān)測(cè)中心,江蘇蘇州,215004)
環(huán)境污染已經(jīng)成為影響人們健康生活的重要問題之一,隨著環(huán)境污染種類的增多,污染成分也更加復(fù)雜,不僅包括傳統(tǒng)的大氣污染、海洋污染、水土污染、糧食污染等,還包括光污染、噪聲污染、輻射污染等,為人們的健康安全帶來了惡劣影響。因此,加強(qiáng)環(huán)境污染的防治和保護(hù)成為重要的工作,由于污染區(qū)域、成分、后果都比較復(fù)雜,傳統(tǒng)的人工管理模式已經(jīng)無法適應(yīng)需求,政府機(jī)構(gòu)或企業(yè)組織開始在環(huán)境污染防治中引入先進(jìn)的信息技術(shù),開發(fā)和部署了許多的信息系統(tǒng),比如污染數(shù)據(jù)監(jiān)控系統(tǒng)、環(huán)境污染預(yù)測(cè)系統(tǒng)等,這些應(yīng)用軟件引入了數(shù)據(jù)庫、物聯(lián)網(wǎng)等關(guān)鍵技術(shù),有效地提升了環(huán)境污染防治信息化水平[1]。
目前,環(huán)境污染信息平臺(tái)集成的功能越來越多,經(jīng)過多年的運(yùn)行積累了海量的數(shù)據(jù)資源,這些數(shù)據(jù)中蘊(yùn)含著有價(jià)值的知識(shí)信息,可以為人們提供環(huán)境污染防治的決策支撐[2]。因此,本文引入深度學(xué)習(xí)技術(shù),構(gòu)建一個(gè)數(shù)據(jù)加工和處理模型,提高環(huán)境污染平臺(tái)的智能分析水平,具有一定的意義。
目前,環(huán)境污染平臺(tái)經(jīng)過多年的運(yùn)行,集成的信息功能更多,不僅包括環(huán)境污染監(jiān)控、環(huán)境污染預(yù)警、環(huán)境污染治理、環(huán)境污染影響評(píng)估等多個(gè)方面,還包括環(huán)境污染預(yù)測(cè)等功能。因此,本文對(duì)這些應(yīng)用功能進(jìn)行總結(jié)和歸納,將其劃分為數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)存儲(chǔ)等功能,這樣就可以實(shí)現(xiàn)環(huán)境污染數(shù)據(jù)的共享。
(1)環(huán)境污染數(shù)據(jù)采集
數(shù)據(jù)采集是環(huán)境污染平臺(tái)的基礎(chǔ)功能,人們可以在各個(gè)環(huán)境污染采集點(diǎn)部署傳感器,比如硫化物傳感器、二氧化碳傳感器等,采集環(huán)境污染的各種成分?jǐn)?shù)據(jù),將這些數(shù)據(jù)通過物聯(lián)網(wǎng)和互聯(lián)網(wǎng)傳輸?shù)椒?wù)器。
(2)環(huán)境污染數(shù)據(jù)傳輸
環(huán)境污染數(shù)據(jù)傳輸?shù)姆椒ê芏?,包括物?lián)網(wǎng)、移動(dòng)通信、光纖網(wǎng)絡(luò)等。由于環(huán)境污染數(shù)據(jù)采集點(diǎn)分布的比較散亂,每一平方公里都有多個(gè)傳感器,因此這些傳感器可能分布于野外、水面、大氣中,因此采集的數(shù)據(jù)傳輸就需要使用物聯(lián)網(wǎng)和移動(dòng)通信,將其從采集終端傳輸?shù)椒?wù)器。服務(wù)器和各個(gè)電腦終端之間的傳輸則可以使用光纖網(wǎng)絡(luò),幫助人們掌握環(huán)境污染情況,數(shù)據(jù)傳輸需要保證高可靠性和高速性。
(3)數(shù)據(jù)存儲(chǔ)
環(huán)境污染平臺(tái)保存的數(shù)據(jù)種類非常多,時(shí)間久遠(yuǎn),一般都需要保存數(shù)十年的環(huán)境污染數(shù)據(jù),以便人們能夠針對(duì)某一個(gè)低于的環(huán)境污染情況進(jìn)行全方位的掌握,避免由于數(shù)據(jù)保存漏洞產(chǎn)生不全面的問題。因此,數(shù)據(jù)存儲(chǔ)可以采用冗余的光纖陣列存儲(chǔ)器,并且可以在不同的地域建設(shè)保存機(jī)房,實(shí)現(xiàn)數(shù)據(jù)安全存儲(chǔ)。
環(huán)境污染平臺(tái)的數(shù)據(jù)非常多,傳統(tǒng)的分析方法已經(jīng)無法滿足高效性需求,因此本文提出引入一個(gè)深度學(xué)習(xí)算法,從而可以接收環(huán)境污染平臺(tái)數(shù)據(jù),針對(duì)這些數(shù)據(jù)進(jìn)行加工和分析,從中發(fā)現(xiàn)有價(jià)值的知識(shí),為環(huán)境污染預(yù)警、治理提供決策支撐[3]。深度學(xué)習(xí)算法是一種非線性模式識(shí)別技術(shù),其可以從一堆數(shù)據(jù)中構(gòu)建一個(gè)復(fù)雜的、非線性的多變量分析模型,該模型能夠更加真實(shí)的模擬現(xiàn)實(shí)客觀存在,從而可以全面的、準(zhǔn)確的識(shí)別結(jié)果。深度學(xué)習(xí)最核心的技術(shù)是卷積神經(jīng)網(wǎng)絡(luò),這是一種數(shù)學(xué)處理方法,在環(huán)境污染平臺(tái)中的具體應(yīng)用模型包括多個(gè)層次,分別是輸入層、卷積層、池化層、全連接層,這樣就可以增加深度學(xué)習(xí)算法的訓(xùn)練和學(xué)習(xí)深度,從而提高環(huán)境污染數(shù)據(jù)的識(shí)別精確度,獲取一個(gè)良好的輸出模型,也可以在運(yùn)行中實(shí)時(shí)的根據(jù)需求調(diào)整卷積神經(jīng)網(wǎng)絡(luò)參數(shù),動(dòng)態(tài)的優(yōu)化深度學(xué)習(xí)算法[4]。深度學(xué)習(xí)在環(huán)境污染平臺(tái)數(shù)據(jù)分析模型如圖1所示。
圖1 基于深度學(xué)習(xí)的環(huán)境污染平臺(tái)數(shù)據(jù)分析流程
深度學(xué)習(xí)在環(huán)境污染平臺(tái)數(shù)據(jù)分析中的每一層的功能及作用描述如下。
(1)輸入層。環(huán)境污染平臺(tái)存儲(chǔ)的數(shù)據(jù)非常多,防治和保護(hù)人員可以從數(shù)據(jù)服務(wù)器中調(diào)取各種數(shù)據(jù),將這些數(shù)據(jù)輸入到深度學(xué)習(xí)算法的輸入層。輸入層針對(duì)環(huán)境污染數(shù)據(jù)進(jìn)行初步的建模和預(yù)處理,比如刪除一些噪聲數(shù)據(jù)或稀疏數(shù)據(jù)等,然后針對(duì)環(huán)境污染數(shù)據(jù)進(jìn)行歸一化處理,以便能夠統(tǒng)一數(shù)據(jù)的量綱,保證數(shù)據(jù)能夠被深度學(xué)習(xí)算法識(shí)別和加工處理。
(2)卷積層。卷積層通常包括兩個(gè)關(guān)鍵操作,可以實(shí)現(xiàn)卷積網(wǎng)絡(luò)的局部關(guān)聯(lián)操作和窗口滑動(dòng)操作。局部操作可以針對(duì)數(shù)據(jù)特征進(jìn)行過濾,滑動(dòng)窗口可以完成卷積神經(jīng)網(wǎng)絡(luò)特征的提取,實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的特征分析,進(jìn)一步改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度。卷積層可以采用的核函數(shù)非常多,比如Sigmoid函數(shù),適用環(huán)境污染數(shù)據(jù)中有價(jià)值知識(shí)的挖掘分析工作。由于Sigmoid函數(shù)擁有很強(qiáng)的收斂性,因此可以在很短的時(shí)間內(nèi)獲取數(shù)據(jù)挖掘結(jié)果,避免過度擬合現(xiàn)象發(fā)生,可以大幅度提高數(shù)據(jù)分析準(zhǔn)確度。
(3)池化層。池化層可以壓縮卷積神經(jīng)網(wǎng)絡(luò)處理的數(shù)據(jù)量,同時(shí)還可以減少網(wǎng)絡(luò)設(shè)置的參數(shù)數(shù)量,避免卷積神經(jīng)網(wǎng)絡(luò)計(jì)算和處理時(shí)過度擬合。具體的,在卷積層處理的結(jié)果上,神經(jīng)網(wǎng)絡(luò)可以獲取環(huán)境污染數(shù)據(jù)的基因特征,這些特征數(shù)據(jù)采取池化操作之后就可以計(jì)算某一個(gè)局部卷積特征平均值,也可以計(jì)算最大值或最小值,利用這些值可以針對(duì)卷積層獲取的特征數(shù)量進(jìn)行過濾,從而可以降低分類器的計(jì)算復(fù)雜度,充分的減少過度擬合發(fā)生的概率。
(4)全連接層。全連接層是一個(gè)分類器,其可以將神經(jīng)網(wǎng)絡(luò)經(jīng)過學(xué)習(xí)和訓(xùn)練的結(jié)果輸出到全連接層,全連接層可以構(gòu)建一個(gè)圖形化的顯示模式,該模式能夠按照需求輸出每一個(gè)期望的知識(shí)信息,比如大氣污染的成分、某地區(qū)易發(fā)生的污染事故、某一個(gè)時(shí)間段即將發(fā)生的環(huán)境污染事故等,從而為環(huán)境污染防治和保護(hù)提供準(zhǔn)確的決策。
為了能夠驗(yàn)證深度學(xué)習(xí)算法的有效性,本文從環(huán)境污染平臺(tái)中獲取了近兩年的環(huán)境污染數(shù)據(jù),同時(shí)引入人工處理方法、支持向量機(jī)算法和K-means算法作為對(duì)比。具體的,環(huán)境污染數(shù)據(jù)共計(jì)100萬份,這些污染數(shù)據(jù)中有二氧化硫、工業(yè)廢氣、工業(yè)氮氧化物、工業(yè)煙粉塵、二氧化氮、一氧化碳等污染成分,提取這些數(shù)據(jù)污染成分的特征高達(dá)數(shù)萬個(gè),詳細(xì)數(shù)據(jù)如表1所示。
表1 環(huán)境污染數(shù)據(jù)集詳細(xì)信息
本文針對(duì)每一種方法都進(jìn)行了100次試驗(yàn),取這100次試驗(yàn)的平均值為比較數(shù)據(jù),人工處理方法的準(zhǔn)確度為64.8%,支持向量機(jī)算法的準(zhǔn)確度為84.7%,K-means算法的準(zhǔn)確度為81.6%,深度學(xué)習(xí)算法的準(zhǔn)確度為98.5%,同時(shí)深度學(xué)習(xí)算法的處理時(shí)間也最短,遠(yuǎn)遠(yuǎn)的超過了人工處理時(shí)間,因此可以更快的獲取環(huán)境污染數(shù)據(jù),同時(shí)對(duì)未來的環(huán)境污染數(shù)據(jù)走勢(shì)進(jìn)行預(yù)測(cè),以便環(huán)境污染保護(hù)人員開展工作。詳細(xì)數(shù)據(jù)如表2 所示。
表2 各個(gè)算法實(shí)驗(yàn)結(jié)果
環(huán)境污染防治是一項(xiàng)系統(tǒng)的、復(fù)雜的工程,其需要全社會(huì)共同參與和努力,同時(shí)引入更加先進(jìn)的信息化平臺(tái),實(shí)現(xiàn)環(huán)境污染數(shù)據(jù)的采集、分析、預(yù)警、治理和保護(hù),以便能夠提高環(huán)境污染監(jiān)控和保護(hù)的實(shí)時(shí)化,具有重要的作用和意義。本文詳細(xì)地分析了環(huán)境污染平臺(tái)數(shù)據(jù)處理工作內(nèi)容,引入先進(jìn)的深度學(xué)習(xí)技術(shù),基于卷積神經(jīng)網(wǎng)絡(luò),利用先進(jìn)的Sigmoid函數(shù),提高算法的處理速度和收斂性,從而可以獲取一個(gè)準(zhǔn)確的環(huán)境污染數(shù)據(jù)處理結(jié)果,與傳統(tǒng)的人工數(shù)據(jù)處理方法、支持向量機(jī)算法、K-means算法相比,實(shí)驗(yàn)結(jié)果顯示深度學(xué)習(xí)算法大幅度提高處理精確度,可以為環(huán)境保護(hù)工作提供更加精準(zhǔn)的預(yù)測(cè),也可以為污染防治提供更加有力的支持。未來,環(huán)境污染平臺(tái)將會(huì)持續(xù)改進(jìn)數(shù)據(jù)處理算法,以便提高污染數(shù)據(jù)處理的實(shí)時(shí)化、精準(zhǔn)化和智能化,同時(shí)還要提供數(shù)據(jù)處理的便捷化。