李志華
(甘肅省定西生態(tài)環(huán)境監(jiān)測中心 甘肅定西 743000)
環(huán)境污染治理事關(guān)國家發(fā)展,相關(guān)部門提高了環(huán)境污染監(jiān)測標(biāo)準(zhǔn)、加大了對環(huán)境監(jiān)測力度。然而在環(huán)境監(jiān)測過程中仍然存在一些問題,比如監(jiān)測數(shù)據(jù)造假、監(jiān)測力度不夠。這些問題直接影響了環(huán)境污染治理問題。如何解決當(dāng)前環(huán)境污染治理中存在的問題,是相關(guān)部門急需解決的問題。近年來隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,無線傳感器應(yīng)用到環(huán)境監(jiān)測中發(fā)揮了重要作用,馬冬[1]使用大數(shù)據(jù)技術(shù)研究了中國再用車排放情況,結(jié)果表明中國再用車合格率為89.5%、中國合資與自主品牌車之間合格率差異性較高。李蔚[2]研究了大數(shù)據(jù)解析技術(shù)在環(huán)境監(jiān)測中應(yīng)用,使用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行PM2.5 濃度、氣象條件、交通情況、人群流動等特征分析,為環(huán)境監(jiān)測提供了新思路。
熊麗君[3]詳細(xì)研究了大數(shù)據(jù)技術(shù)在生態(tài)環(huán)境領(lǐng)域的應(yīng)用現(xiàn)狀,指出當(dāng)前大數(shù)據(jù)技術(shù)在環(huán)境監(jiān)測管理中中國還處于發(fā)展階段。目前大數(shù)據(jù)環(huán)境監(jiān)測管理主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析,數(shù)據(jù)采集主要使用地面監(jiān)測、遙感監(jiān)測、無線傳感器監(jiān)測;數(shù)據(jù)處理主要包括數(shù)據(jù)存儲管理、數(shù)據(jù)預(yù)處理管理、數(shù)據(jù)深度處理管理以及數(shù)據(jù)挖掘管理;數(shù)據(jù)分析包括各種人工神經(jīng)網(wǎng)絡(luò)算法、預(yù)測算法應(yīng)用。關(guān)于大數(shù)據(jù)技術(shù)在環(huán)境污染治理中的應(yīng)用目前國內(nèi)研究較少,本文進(jìn)行詳細(xì)大數(shù)據(jù)污染治理研究。
環(huán)境保護(hù)是指人類未解決環(huán)境存在問題,協(xié)調(diào)人類與環(huán)境發(fā)展關(guān)系,保護(hù)人類生存資源以及經(jīng)濟(jì)可持續(xù)發(fā)展的總稱。目前環(huán)境保護(hù)主要有大氣污染、水污染、土壤污染等。
環(huán)境保護(hù)手段主要有環(huán)境監(jiān)測、環(huán)境治理,環(huán)境監(jiān)測是對環(huán)境指標(biāo)進(jìn)行檢測,根據(jù)檢測結(jié)果進(jìn)行環(huán)境污染情況進(jìn)行評價;環(huán)境治理是采用各種技術(shù)對已污染的環(huán)境進(jìn)行修復(fù)降低環(huán)境污染程度。本文重點(diǎn)分析環(huán)境監(jiān)測在環(huán)境保護(hù)中作用。環(huán)境監(jiān)測在環(huán)境保護(hù)中的作用體現(xiàn)在:(1)能為環(huán)境保護(hù)提供數(shù)據(jù)支撐,目前環(huán)境保護(hù)制定了國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)中規(guī)定了環(huán)境污染的指標(biāo),環(huán)境監(jiān)測為環(huán)境污染指標(biāo)提供數(shù)據(jù)。(2)為環(huán)境規(guī)劃提供決策數(shù)據(jù),隨著國民經(jīng)濟(jì)不斷發(fā)展,中國環(huán)境保護(hù)工作不斷提升,對環(huán)境規(guī)劃提出了更高要求。環(huán)境監(jiān)測為環(huán)境規(guī)劃提供了數(shù)據(jù)源[4]。
本文在現(xiàn)有的環(huán)境污染基礎(chǔ)上進(jìn)行問卷調(diào)查,得到基于大數(shù)據(jù)的環(huán)境污染治理系統(tǒng)包含功能主要有:環(huán)境污染治理系統(tǒng)管理、環(huán)境污染治理設(shè)備管理、環(huán)境污染治理數(shù)據(jù)采集管理、環(huán)境污染治理數(shù)據(jù)預(yù)處理、環(huán)境污染治理數(shù)據(jù)分析管理、環(huán)境污染預(yù)警管理、環(huán)境污染數(shù)據(jù)統(tǒng)計(jì)管理、環(huán)境污染決策管理。環(huán)境污染治理系統(tǒng)包含功能有:環(huán)境污染治理系統(tǒng)權(quán)限管理、環(huán)境污染治理系統(tǒng)人員管理、環(huán)境污染治理數(shù)據(jù)安全管理;環(huán)境污染治理設(shè)備管理包括環(huán)境設(shè)備信息添加、環(huán)境設(shè)備信息查看、環(huán)境設(shè)備信息刪除、環(huán)境設(shè)備信息修改、環(huán)境設(shè)備使用添加管理、環(huán)境設(shè)備使用修改管理、環(huán)境設(shè)備使用挖掘管理;環(huán)境污染治理采集管理包括傳感器采集管理、人員采集管理、大數(shù)據(jù)存儲管理;環(huán)境污染數(shù)據(jù)預(yù)處理包括預(yù)處理規(guī)則設(shè)置、預(yù)處理分析;環(huán)境污染治理分析包括智能算法應(yīng)用、分析結(jié)果顯示;環(huán)境污染預(yù)警管理包括預(yù)警提示、預(yù)測設(shè)置;環(huán)境污染治理統(tǒng)計(jì)包括信息查詢、信息分析;環(huán)境污染決策管理包括決策信息添加、決策信息生成。
環(huán)境污染治理中數(shù)據(jù)存儲是關(guān)鍵技術(shù),目前常見的開源數(shù)據(jù)存儲框架為Hadoop,該框架中核心功能模塊為HDFS、MapReduce,HDFS 主要用于存儲環(huán)境污染數(shù)據(jù),使用非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu);MapReduce 是分布式計(jì)算,非常適合環(huán)境監(jiān)測數(shù)據(jù)管理,兩者結(jié)合使用提高了環(huán)境監(jiān)測管理數(shù)據(jù)存儲能力。圖1 為基于大數(shù)據(jù)的環(huán)境污染架構(gòu)圖。
圖1 基于大數(shù)據(jù)的環(huán)境污染架構(gòu)圖
圖1 可知基于大數(shù)據(jù)的環(huán)境污染包括了數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)挖掘、數(shù)據(jù)分析等功能。數(shù)據(jù)源是將分布在各地的環(huán)境監(jiān)測設(shè)備采集信息獲取存儲,進(jìn)行分析,從而獲取有價值的數(shù)據(jù)為后續(xù)數(shù)據(jù)分析提供數(shù)據(jù)源。數(shù)據(jù)采集結(jié)構(gòu)包括結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(主要有平臺運(yùn)行日志、設(shè)備采集日志、設(shè)備采集文字、圖片等信息)。數(shù)據(jù)存儲層中是構(gòu)建分布式文件系統(tǒng)(HDFS),能實(shí)現(xiàn)海量的環(huán)境監(jiān)測數(shù)據(jù)存儲,滿足非結(jié)構(gòu)化存儲,此外還具有強(qiáng)大的容量可擴(kuò)展性,能夠?qū)崿F(xiàn)文件自動備份、遷移。數(shù)據(jù)計(jì)算層中使用MapReduce 框架進(jìn)行分布式計(jì)算,采用單元計(jì)算,最后合并結(jié)果,實(shí)現(xiàn)了快速計(jì)算、吞吐量大、擴(kuò)展性計(jì)算強(qiáng)的功能。此外利用Spark 技術(shù)能夠降低內(nèi)存讀取效率,提高數(shù)據(jù)分析效率。數(shù)據(jù)服務(wù)層是進(jìn)行數(shù)據(jù)挖掘功能,利用實(shí)時決策、機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行環(huán)境監(jiān)測數(shù)據(jù)分析,為環(huán)境治理提供決策。
環(huán)境監(jiān)測設(shè)備分布在各地,使用分布式管理系統(tǒng)非常適合,HDFS 用于環(huán)境監(jiān)測數(shù)據(jù)存儲具有較高的容錯性和可用性。HDFS 系統(tǒng)中使用一個主控節(jié)點(diǎn)NameNode 和多組DataNode 節(jié)點(diǎn),NameNode 節(jié)點(diǎn)主要進(jìn)行環(huán)境監(jiān)測數(shù)據(jù)文件名管理,DataNode 主要存儲環(huán)境監(jiān)測數(shù)據(jù),圖2 為環(huán)境監(jiān)測HDFS 結(jié)構(gòu)圖。所設(shè)計(jì)的環(huán)境監(jiān)測分布式系統(tǒng)提供文件操作類,可進(jìn)行文件讀寫、文件關(guān)閉等功能。所設(shè)計(jì)的存儲管理類中提供Path 路徑類,實(shí)現(xiàn)數(shù)據(jù)存儲路徑管理。Path 類中提供參數(shù)配置變量,變量值存儲于開源數(shù)據(jù)庫SQLite 數(shù)據(jù)庫中。Path 中提供文件讀函數(shù),能夠進(jìn)行設(shè)備檢測數(shù)據(jù)讀操作,為提高設(shè)備讀效率本文使用Java 多線程技術(shù)進(jìn)行數(shù)據(jù)讀操作。Path 類中提供文件寫操作,完成操作后使用CloseStream()方法進(jìn)行數(shù)據(jù)流關(guān)閉。
圖2 環(huán)境監(jiān)測HDFS結(jié)構(gòu)圖
所設(shè)計(jì)的環(huán)境監(jiān)測數(shù)據(jù)預(yù)警系統(tǒng)是由權(quán)限管理、安全認(rèn)證、技術(shù)層組成。技術(shù)層中主要包括環(huán)境監(jiān)測場景應(yīng)用、運(yùn)行數(shù)據(jù)層、核心能力層以及數(shù)據(jù)采集層組成,圖3 為環(huán)境監(jiān)測數(shù)據(jù)預(yù)測管理結(jié)構(gòu)體系。
圖3 環(huán)境監(jiān)測數(shù)據(jù)預(yù)測管理結(jié)構(gòu)體系[5]
環(huán)境監(jiān)測場景應(yīng)用主要進(jìn)行數(shù)據(jù)網(wǎng)關(guān)管理;運(yùn)行數(shù)據(jù)層主要進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)查詢;核心能力層主要包括Hadoop 集群、云存儲、數(shù)據(jù)庫管理;數(shù)據(jù)采集層主要包括歷史數(shù)據(jù)管理、監(jiān)測數(shù)據(jù)管理。安全認(rèn)證管理使用iPaas 認(rèn)證管理技術(shù)。權(quán)限管理采用權(quán)限管理機(jī)制進(jìn)行管理。
環(huán)境監(jiān)測數(shù)據(jù)異常數(shù)據(jù)方法可使用文獻(xiàn)[5]中提供樣本數(shù)據(jù)處理公式進(jìn)行處理。
假設(shè)存在n 個環(huán)境監(jiān)測數(shù)據(jù)屬性值,用符號m 表示環(huán)境監(jiān)測數(shù)據(jù)維度,用符號S(t0)表示設(shè)備tk時刻采集數(shù)據(jù)的樣本。根據(jù)設(shè)備性能,得到剔除異常數(shù)據(jù)方法可使用公式1 所示方法。
式中:SC(t-1)表示-1時刻設(shè)備運(yùn)行數(shù)據(jù);r(SC(t-1))表示設(shè)備采集數(shù)據(jù)結(jié)果。
大數(shù)據(jù)應(yīng)用以環(huán)境污染治理為目的。環(huán)境污染治理中應(yīng)根據(jù)國家、人民需求進(jìn)行大數(shù)據(jù)應(yīng)用方法制定,從而實(shí)現(xiàn)環(huán)境污染治理信息傳播、交流。綜合各地環(huán)境因素、經(jīng)濟(jì)指標(biāo)等進(jìn)為環(huán)境污染治理提供準(zhǔn)確的治理信息。