解輝
(天津市環(huán)境監(jiān)測(cè)中心,天津 300191)
大數(shù)據(jù)技術(shù)在環(huán)境監(jiān)測(cè)中的應(yīng)用
解輝
(天津市環(huán)境監(jiān)測(cè)中心,天津 300191)
簡(jiǎn)述了環(huán)境監(jiān)測(cè)信息化建設(shè)應(yīng)用現(xiàn)狀及問題;分析了大數(shù)據(jù)技術(shù)的特點(diǎn)及其在環(huán)境監(jiān)測(cè)信息化中的優(yōu)勢(shì)。提出,基于“大數(shù)據(jù)”技術(shù),可以建設(shè)環(huán)境監(jiān)測(cè)大數(shù)據(jù)中心,突破傳統(tǒng)關(guān)系型數(shù)據(jù)庫局限性,運(yùn)用大數(shù)據(jù)的核心技術(shù),實(shí)現(xiàn)環(huán)境質(zhì)量綜合評(píng)價(jià)技術(shù)的新突破,提升環(huán)境狀況綜合預(yù)警能力;應(yīng)用大數(shù)據(jù)可視化技術(shù),提高科學(xué)決策水平,提高人體健康風(fēng)險(xiǎn)評(píng)價(jià)能力;建立環(huán)保輿情分析云平臺(tái),提升公眾服務(wù)能力。
環(huán)境監(jiān)測(cè);大數(shù)據(jù);環(huán)境質(zhì)量綜合評(píng)價(jià);可視化;環(huán)保輿情
1.1 現(xiàn)狀
從信息化角度而言,對(duì)環(huán)境監(jiān)測(cè)過程合理而簡(jiǎn)要的描述就是獲取、分析、呈現(xiàn)環(huán)境監(jiān)測(cè)數(shù)據(jù)的過程,每一環(huán)節(jié)皆與信息技術(shù)的發(fā)展密不可分。伴隨著中國(guó)環(huán)境監(jiān)測(cè)事業(yè)40余年的發(fā)展歷程,環(huán)境監(jiān)測(cè)信息化工作也開展了近30年,已成為環(huán)境監(jiān)測(cè)現(xiàn)代化的重要組成部分。在環(huán)境監(jiān)測(cè)工作的每一次跨越發(fā)展中,環(huán)境監(jiān)測(cè)信息化建設(shè)也同樣經(jīng)歷了重大突破與挑戰(zhàn),大體歸納為3個(gè)階段:
第一階段,20世紀(jì)70年代中后期至90年代中期,環(huán)境質(zhì)量評(píng)價(jià)與污染動(dòng)態(tài)分析報(bào)告的初級(jí)階段。環(huán)境監(jiān)測(cè)工作經(jīng)歷了20世紀(jì)70年代的起步階段、80年代的調(diào)整鞏固階段和90年代初期的充實(shí)提高深化階段,這期間對(duì)信息化的需求逐步加大,建立了一些小規(guī)模信息處理系統(tǒng),工具化統(tǒng)計(jì)軟件得到應(yīng)用,分析報(bào)告水平逐步提高,對(duì)提高民眾環(huán)境意識(shí)、為各級(jí)政府下決心加大投入進(jìn)行污染綜合防治起了很大的推動(dòng)作用[1]。
第二階段,“九五”至“十五”期間,以單要素為主的環(huán)境質(zhì)量綜合分析與表征技術(shù)相結(jié)合的發(fā)展階段。鞏固和完善了國(guó)家環(huán)境監(jiān)測(cè)網(wǎng),環(huán)境監(jiān)測(cè)能力迅速提高,環(huán)境監(jiān)測(cè)數(shù)據(jù)及信息的收集、處理、傳輸已實(shí)現(xiàn)計(jì)算機(jī)化,并應(yīng)用多媒體技術(shù)編制環(huán)境監(jiān)測(cè)報(bào)告,初步建立了全國(guó)、省、流域環(huán)境監(jiān)測(cè)地理信息基礎(chǔ)數(shù)據(jù)庫和數(shù)字地圖。這期間現(xiàn)代信息技術(shù)得到普遍應(yīng)用,在運(yùn)用先進(jìn)、簡(jiǎn)明、實(shí)用的綜合評(píng)價(jià)方法和表征技術(shù)說清楚環(huán)境質(zhì)量現(xiàn)狀及其變化規(guī)律方面,取得了重大突破。
第三階段,“十一五”至“十二五”期間,基于多環(huán)境要素環(huán)境質(zhì)量綜合評(píng)價(jià)的探索階段。環(huán)境污染呈現(xiàn)更加復(fù)雜的態(tài)勢(shì),環(huán)境保護(hù)的一項(xiàng)核心任務(wù)就是探索一條代價(jià)小、效益好、排放低、可持續(xù)的中國(guó)特色環(huán)境保護(hù)新道路。國(guó)家適時(shí)提出了構(gòu)建先進(jìn)環(huán)境監(jiān)測(cè)預(yù)警體系的大思路,這一時(shí)期的環(huán)境監(jiān)測(cè)信息化技術(shù)主要應(yīng)用在綜合指數(shù)法、模糊綜合評(píng)判法、灰色聚類法、人工神經(jīng)網(wǎng)絡(luò)法、投影尋蹤模型法、基于層次分析法的區(qū)域環(huán)境質(zhì)量綜合評(píng)價(jià)體系等,多方嘗試突破按空氣、地表水、噪聲、海洋等單一環(huán)境要素評(píng)價(jià)模式,全面展開了向基于多環(huán)境要素的綜合信息評(píng)價(jià)技術(shù)的探索。
1.2 面臨的問題與機(jī)遇
進(jìn)入“十三五”以來,環(huán)境監(jiān)測(cè)事業(yè)面臨著前所未有的壓力與挑戰(zhàn),要實(shí)現(xiàn)全面設(shè)點(diǎn)、全國(guó)聯(lián)網(wǎng)、自動(dòng)預(yù)警,尤其對(duì)生態(tài)環(huán)境監(jiān)測(cè)信息的集成、共享、開發(fā)與應(yīng)用提出了更高要求,因此,環(huán)境監(jiān)測(cè)信息化面臨的問題愈加突出。
(1)宏觀層面上,目前環(huán)境監(jiān)測(cè)信息呈現(xiàn)工作雖然有一些技術(shù)方法嘗試將社會(huì)、人口、經(jīng)濟(jì)等指標(biāo)納入環(huán)境質(zhì)量綜合評(píng)價(jià)體系,但總體仍是一元應(yīng)對(duì)模式,沒有整合社會(huì)各方資源,建立起環(huán)境問題高效治理的多元協(xié)同模式;
(2)微觀層面上,目前的信息利用技術(shù)方法均存在一定缺陷,如:指數(shù)評(píng)價(jià)法難以反映環(huán)境質(zhì)量的綜合狀況;模糊綜合評(píng)判法對(duì)每個(gè)參評(píng)指標(biāo)的權(quán)重值需要人為給定,且參評(píng)指標(biāo)數(shù)量較多時(shí),往往低估了主要指標(biāo)的貢獻(xiàn)[2]。這些方法大多限于環(huán)境質(zhì)量評(píng)價(jià),并未真正體現(xiàn)環(huán)境和社會(huì)系統(tǒng)的關(guān)聯(lián)和可持續(xù)發(fā)展思想;
(3)數(shù)據(jù)庫管理仍然沿用傳統(tǒng)模式,各系統(tǒng)獨(dú)立部署,數(shù)據(jù)分散,無法實(shí)現(xiàn)跨系統(tǒng)的數(shù)據(jù)分析;大量外部數(shù)據(jù)未能有效管理,如經(jīng)濟(jì)社會(huì)發(fā)展、氣象、地理國(guó)情、人口等,尤其是大量非結(jié)構(gòu)化信息,如互聯(lián)網(wǎng)、健康、金融、經(jīng)濟(jì)、交通等活動(dòng)過程所產(chǎn)生的各類數(shù)據(jù),包括微博、文字、圖形、視頻等尚未開發(fā)利用;系統(tǒng)間接口效率低下,對(duì)于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)共享等造成較大壓力,維護(hù)成本高昂。
2.1 大數(shù)據(jù)技術(shù)及其特點(diǎn)
大數(shù)據(jù)(Big Data)是從多種來源中搜集得到的海量數(shù)據(jù)信息的總稱,是數(shù)據(jù)量大、類型復(fù)雜、需要即時(shí)處理和價(jià)值提純的各類數(shù)據(jù)。大數(shù)據(jù)技術(shù)是一代全新的數(shù)據(jù)科學(xué)領(lǐng)域的技術(shù)架構(gòu)或模式,是對(duì)預(yù)測(cè)分析、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、人工智能、自然語言處理、并行計(jì)算、數(shù)據(jù)存儲(chǔ)等技術(shù)的綜合運(yùn)用[3]。大數(shù)據(jù)有4個(gè)基本特征:一是數(shù)據(jù)種類多,處理和分析方式區(qū)別大。二是數(shù)據(jù)量巨大,據(jù)統(tǒng)計(jì),每天產(chǎn)生2.5艾字節(jié)(quintillion bytes)的數(shù)據(jù)信息,全球?qū)⒔?0%的數(shù)據(jù)是過去2年創(chuàng)造出來的。三是處理速度快,多數(shù)為高速實(shí)時(shí)數(shù)據(jù)流。四是價(jià)值密度低,需要價(jià)值提純[4]。實(shí)質(zhì)上,容量大是大數(shù)據(jù)的整體特點(diǎn),增速快是大數(shù)據(jù)的過程性特點(diǎn),多樣性是大數(shù)據(jù)的具象性特點(diǎn),價(jià)值性是大數(shù)據(jù)的時(shí)代性特點(diǎn)[5]。
2.2 大數(shù)據(jù)技術(shù)應(yīng)用于環(huán)境監(jiān)測(cè)信息化的優(yōu)勢(shì)
2.2.1 提升生態(tài)環(huán)境綜合預(yù)警能力
應(yīng)用大數(shù)據(jù)從海量、分散、實(shí)時(shí)變化的環(huán)保數(shù)據(jù)中挖掘出有價(jià)值的信息,通過分析獲取當(dāng)前狀況的總體描述,進(jìn)行態(tài)勢(shì)推演,綜合研判和決策,及時(shí)提供給政府和公眾。第一,大數(shù)據(jù)能夠驅(qū)動(dòng)預(yù)警預(yù)報(bào)的精確度。在大氣污染預(yù)警中,氣象局可以對(duì)星及風(fēng)云系列氣象衛(wèi)星反饋的數(shù)據(jù)進(jìn)行監(jiān)測(cè)和分析,準(zhǔn)確地預(yù)警大氣污染過程,作為啟動(dòng)預(yù)警的技術(shù)支撐。第二,大數(shù)據(jù)能夠驅(qū)動(dòng)預(yù)警信息的時(shí)效性。大數(shù)據(jù)的時(shí)效性,在于對(duì)海量信息的快速正確研判。理論上講,污染事件發(fā)生后,大數(shù)據(jù)的功能可以加倍放大,并以一種沒有提前規(guī)劃卻及時(shí)有效的方式監(jiān)測(cè)和推動(dòng)事件進(jìn)程,如發(fā)布環(huán)境污染預(yù)警、發(fā)布避難場(chǎng)所信息、請(qǐng)求救援等,海量涌現(xiàn)的數(shù)據(jù)信息在網(wǎng)絡(luò)平臺(tái)上下呼應(yīng),相互關(guān)聯(lián),這都是傳統(tǒng)的污染監(jiān)測(cè)、信息公開手段望塵莫及的[6-7]。
2.2.2 提升科學(xué)決策水平
大數(shù)據(jù)可視化技術(shù)應(yīng)用在環(huán)境監(jiān)測(cè)中有2個(gè)優(yōu)點(diǎn):首先是基于可視化技術(shù)的環(huán)境監(jiān)測(cè)數(shù)據(jù)分析結(jié)果可以提高科學(xué)決策水平,讓數(shù)據(jù)自由流動(dòng),不斷提高其附加值,并且將分析結(jié)果完整地呈現(xiàn)給公眾,將各種環(huán)境數(shù)據(jù)信息轉(zhuǎn)換為有資訊價(jià)值和行動(dòng)含義的表達(dá),為政府決策管理層、企業(yè)生產(chǎn)管理者、環(huán)境組織和社會(huì)公眾提供決策、管理、生產(chǎn)、行動(dòng)和生活信息;其次,通過虛擬的數(shù)據(jù)及治理模型的立體化展現(xiàn)是一種極具創(chuàng)意的環(huán)境治理方式,可以測(cè)試環(huán)境保護(hù)治理方案是否有效。
2.2.3 提升健康風(fēng)險(xiǎn)評(píng)價(jià)能力
當(dāng)前環(huán)保的核心已逐步轉(zhuǎn)移到保護(hù)民生健康方面,有毒有害污染、重金屬污染以及環(huán)境中病原體等的監(jiān)測(cè)與評(píng)價(jià)必將逐步列為重點(diǎn)監(jiān)測(cè)內(nèi)容,這不僅需要先進(jìn)的儀器設(shè)備和技術(shù)方法,更需要科學(xué)的健康風(fēng)險(xiǎn)評(píng)價(jià)技術(shù)。大數(shù)據(jù)下的人體健康風(fēng)險(xiǎn)評(píng)價(jià),就是通過有害因子對(duì)人體不良影響發(fā)生概率的估算,評(píng)價(jià)暴露于該有害因子的個(gè)體健康受到影響的風(fēng)險(xiǎn)。其主要特征是以風(fēng)險(xiǎn)度為評(píng)價(jià)指標(biāo),將環(huán)境變量的大數(shù)據(jù)與出行、疾病預(yù)測(cè)、城市資源配置相關(guān)聯(lián),將環(huán)境污染程度與人體健康聯(lián)系起來,通過模型分析,定量描述污染對(duì)人體健康產(chǎn)生危害的風(fēng)險(xiǎn)。
2.2.4 提升公眾服務(wù)能力
應(yīng)用大數(shù)據(jù)技術(shù)可以建立面向環(huán)保的輿情分析云平臺(tái),警示人們對(duì)于環(huán)境保護(hù)、生態(tài)文明建設(shè)等問題的重視,推進(jìn)環(huán)境保護(hù)的公共治理問題。例如:對(duì)于污染源企業(yè)的部分監(jiān)管工作,可以借鑒“數(shù)據(jù)眾包”思路,通過平臺(tái)自助式地把各類數(shù)據(jù)采集任務(wù)發(fā)布給公眾人群,公眾利用手機(jī)參與應(yīng)用,即可直接完成各類數(shù)據(jù)采集任務(wù),整個(gè)數(shù)據(jù)采集過程無須人工干預(yù)。同時(shí)利用多種數(shù)據(jù)挖掘及自然語言處理技術(shù)對(duì)網(wǎng)頁內(nèi)容進(jìn)行分析,獲取新聞事件主題及關(guān)鍵信息,定位環(huán)境事件發(fā)生地點(diǎn),發(fā)現(xiàn)熱點(diǎn)事件并跟蹤發(fā)展趨勢(shì),一方面使得環(huán)境管理者可以更好地了解社會(huì)熱點(diǎn)事件、政策實(shí)施效果等;另一方面,可以將公眾交互行為產(chǎn)生的最新信息及時(shí)記錄下來進(jìn)行分析,進(jìn)而面向社會(huì)開展精細(xì)化服務(wù),實(shí)現(xiàn)個(gè)性化的推薦功能,為公眾提供更多便利,產(chǎn)生更大價(jià)值。
3.1 環(huán)境監(jiān)測(cè)大數(shù)據(jù)的采集類別
3.1.1 根據(jù)內(nèi)容分類
環(huán)境監(jiān)測(cè)大數(shù)據(jù)來源主要有兩個(gè)方面,一是監(jiān)測(cè)部門自身產(chǎn)生的數(shù)據(jù),包括生態(tài)環(huán)境監(jiān)測(cè)數(shù)據(jù)和污染源排放數(shù)據(jù),以結(jié)構(gòu)化數(shù)據(jù)為主,主要數(shù)據(jù)的時(shí)間跨度將近40年;另一種是外部產(chǎn)生的數(shù)據(jù),主要是人群活動(dòng)產(chǎn)生的與環(huán)境相關(guān)的數(shù)據(jù)信息,非結(jié)構(gòu)化數(shù)據(jù)所占比例較高,時(shí)間跨度不等,典型的如氣象數(shù)據(jù)在百年以上,而現(xiàn)代人與環(huán)境相關(guān)數(shù)據(jù)往往年代較近。
(1)生態(tài)環(huán)境綜合監(jiān)測(cè)數(shù)據(jù)??杉?xì)分為大氣監(jiān)測(cè)、水質(zhì)監(jiān)測(cè)、土壤監(jiān)測(cè)、噪聲監(jiān)測(cè)、降水監(jiān)測(cè)、氣象監(jiān)測(cè)、電磁輻射監(jiān)測(cè)、森林植被防護(hù)監(jiān)測(cè)數(shù)據(jù)等,涵蓋環(huán)境質(zhì)量監(jiān)測(cè)點(diǎn)、環(huán)境功能區(qū)、水源保護(hù)區(qū)、自然生態(tài)保護(hù)區(qū)等環(huán)境敏感區(qū)域。由全國(guó)環(huán)境質(zhì)量監(jiān)測(cè)網(wǎng)產(chǎn)生,用于描述整體生態(tài)環(huán)境質(zhì)量狀況。
(2)污染源排放數(shù)據(jù)。可細(xì)分為廢氣污染源、廢水污染源、固體廢物在線監(jiān)管數(shù)據(jù)等。包括污染源基本情況、污染源監(jiān)測(cè)、治理設(shè)施運(yùn)行、總量控制、污染防治、排污費(fèi)征收、監(jiān)察執(zhí)法、行政處罰、環(huán)境應(yīng)急等環(huán)境監(jiān)管信息。
(3)人群活動(dòng)產(chǎn)生的與環(huán)境相關(guān)的數(shù)據(jù)信息??杉?xì)分為經(jīng)濟(jì)社會(huì)發(fā)展規(guī)劃、基礎(chǔ)氣象、地理國(guó)情、人口經(jīng)濟(jì)統(tǒng)計(jì)、用水量、用電量、生活垃圾、交通等。主要來源于各類官方統(tǒng)計(jì)年鑒、網(wǎng)絡(luò)、媒體等,以數(shù)據(jù)庫、文件、圖形、視頻等方式存在。
3.1.2 根據(jù)數(shù)據(jù)的生命周期分類
(1)冷數(shù)據(jù),歷史歸檔數(shù)據(jù)及未經(jīng)處理的原始數(shù)據(jù)。在生態(tài)環(huán)境監(jiān)測(cè)數(shù)據(jù)及污染源排放數(shù)據(jù)中,有相當(dāng)比例是該類數(shù)據(jù)。特點(diǎn)是極少被訪問,計(jì)算需求較低。存儲(chǔ)需要大容量硬盤,低端CPU和較低內(nèi)存即可;
(2)溫?cái)?shù)據(jù),供歷史查詢、周期較長(zhǎng)的各種分析報(bào)表數(shù)據(jù)等。如:環(huán)境質(zhì)量日?qǐng)?bào)、月報(bào)、季報(bào)、年報(bào),統(tǒng)計(jì)年鑒信息等。特點(diǎn)是訪問頻率較低,運(yùn)算要求中等。存儲(chǔ)需要大容量硬盤,低端CPU和相對(duì)較低內(nèi)存;
(3)熱數(shù)據(jù),指當(dāng)期使用數(shù)據(jù),包括處理后的入庫及部分原始數(shù)據(jù)。如水、氣、污染源、氣象等需要實(shí)時(shí)發(fā)布的在線監(jiān)測(cè)數(shù)據(jù)及模型數(shù)據(jù)等。特點(diǎn)是頻繁被訪問、高運(yùn)算、高并發(fā)、高實(shí)時(shí)。存儲(chǔ)需要大容量高速硬盤,中端CPU、高內(nèi)存和高速網(wǎng)絡(luò)。
3.2 數(shù)據(jù)集成策略
大數(shù)據(jù)集成的主要目的是保證數(shù)據(jù)質(zhì)量,這是大數(shù)據(jù)應(yīng)用的前提。為保證大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,需要將不真實(shí)的數(shù)據(jù)剔除掉,挑選出最正確有效的數(shù)據(jù)。具體步驟是將來自底層數(shù)據(jù)源系統(tǒng)的不同類型數(shù)據(jù),通過數(shù)據(jù)抽取、分發(fā)、清洗、轉(zhuǎn)換和裝載等過程,將源數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)共享平臺(tái)中。根據(jù)環(huán)境監(jiān)測(cè)大數(shù)據(jù)類型及特點(diǎn),在集成過程中應(yīng)側(cè)重考慮以下環(huán)節(jié)。
(1)數(shù)據(jù)轉(zhuǎn)換模塊。對(duì)類型或格式不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。由于歷史原因,環(huán)境監(jiān)測(cè)數(shù)據(jù)始終存在編碼不統(tǒng)一的問題,所以應(yīng)將不同數(shù)據(jù)源或網(wǎng)元的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式編碼;
(2)數(shù)據(jù)補(bǔ)采模塊。為應(yīng)對(duì)數(shù)據(jù)中斷、數(shù)據(jù)不完整等問題,需要根據(jù)不同類型數(shù)據(jù)設(shè)定不同的補(bǔ)采規(guī)則,對(duì)于冷、溫?cái)?shù)據(jù),可以人工進(jìn)行補(bǔ)采,而對(duì)于熱數(shù)據(jù)要實(shí)現(xiàn)補(bǔ)采任務(wù)的自動(dòng)發(fā)起;
(3)數(shù)據(jù)清洗模塊。負(fù)責(zé)對(duì)“臟數(shù)據(jù)”進(jìn)行剔除,消除數(shù)據(jù)的不一致。“臟數(shù)據(jù)”包括不規(guī)則數(shù)據(jù)、不符合事實(shí)數(shù)據(jù)。要設(shè)置盡量詳細(xì)的規(guī)則,如:取值范圍、完整性規(guī)則、拼寫檢查等;
(4)采集監(jiān)控模塊。整個(gè)數(shù)據(jù)采集與集成過程需要發(fā)起大量的數(shù)據(jù)采集、轉(zhuǎn)換、加載等任務(wù),所以需要具有完備的任務(wù)調(diào)度管理及監(jiān)控能力,通過界面對(duì)各類任務(wù)進(jìn)行配置、啟動(dòng)、跟蹤、管理和監(jiān)控,包括加載任務(wù)的狀態(tài),對(duì)加載任務(wù)進(jìn)行啟停和優(yōu)先級(jí)設(shè)置等操作。
4.1 大數(shù)據(jù)管理與傳統(tǒng)數(shù)據(jù)庫的區(qū)別
傳統(tǒng)數(shù)據(jù)庫一般為關(guān)系型數(shù)據(jù)庫,有很大局限性,很難滿足大數(shù)據(jù)高效率存儲(chǔ)和訪問的需求,以及高擴(kuò)展性和高可用性的要求。大數(shù)據(jù)中心管理與傳統(tǒng)數(shù)據(jù)庫管理存在本質(zhì)區(qū)別。
(1)數(shù)據(jù)規(guī)模不同。傳統(tǒng)數(shù)據(jù)庫以MB 為基本單位;大數(shù)據(jù)則以GB、TB、PB為基本單位;
(2)數(shù)據(jù)類型不同。傳統(tǒng)數(shù)據(jù)庫以結(jié)構(gòu)化數(shù)據(jù)為主,種類單一; 大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),種類繁多;
(3)產(chǎn)生模式不同。傳統(tǒng)數(shù)據(jù)庫先設(shè)定模式,后產(chǎn)生數(shù)據(jù);大數(shù)據(jù)很難預(yù)先設(shè)定模式,通常是數(shù)據(jù)出現(xiàn)之后才有模式并且不斷演化;
(4)處理對(duì)象不同。傳統(tǒng)數(shù)據(jù)單純是處理對(duì)象,大數(shù)據(jù)已經(jīng)成為一種資源;
(5)處理工具不同。傳統(tǒng)數(shù)據(jù)僅需一種或少數(shù)幾種;大數(shù)據(jù)則需要多種不同的處理工具。
傳統(tǒng)模式下的環(huán)境監(jiān)測(cè)數(shù)據(jù)庫一般為獨(dú)立部署,數(shù)據(jù)分散,形成數(shù)據(jù)孤島,無法實(shí)現(xiàn)跨部門數(shù)據(jù)分析;系統(tǒng)間接口效率低下,數(shù)據(jù)共享會(huì)對(duì)原有系統(tǒng)造成較大壓力;數(shù)據(jù)存儲(chǔ)、維護(hù)成本高昂,不適用大數(shù)據(jù)容量的急速膨脹。
4.2 環(huán)境監(jiān)測(cè)大數(shù)據(jù)平臺(tái)架構(gòu)
“大數(shù)據(jù)”平臺(tái)與一般的業(yè)務(wù)信息應(yīng)用系統(tǒng)有本質(zhì)區(qū)別。大數(shù)據(jù)平臺(tái)不是一般的“生產(chǎn)型”數(shù)據(jù)平臺(tái)(水質(zhì)、空氣、污染源在線、例行監(jiān)測(cè)、lims等是生產(chǎn)業(yè)務(wù)性數(shù)據(jù)平臺(tái)),而是多方匯聚、吸納、整合、統(tǒng)籌,再次組織社會(huì)各類、甚至各行業(yè)信息,這些均參與或涉及生態(tài)環(huán)境監(jiān)測(cè)信息的主動(dòng)產(chǎn)生、專業(yè)產(chǎn)生、間接產(chǎn)生,是大數(shù)據(jù)平臺(tái)的上游、源頭、供給側(cè)。這些多元、異構(gòu)、結(jié)構(gòu)化和非結(jié)構(gòu)化信息在大數(shù)據(jù)平臺(tái)大量交織,信息價(jià)值密度差異很大。大數(shù)據(jù)平臺(tái)的一個(gè)重要功能就是利用信息挖掘手段,根據(jù)環(huán)保專業(yè)的規(guī)則、策略,進(jìn)行更高層次的改造、轉(zhuǎn)換、有序組織,從單一因子、單一維度向多維關(guān)聯(lián)轉(zhuǎn)化,從而認(rèn)知和洞察傳統(tǒng)的、面向某一具體領(lǐng)域的環(huán)境監(jiān)測(cè)數(shù)據(jù)庫難以準(zhǔn)確呈現(xiàn)的規(guī)律、知識(shí)、趨勢(shì)特征等。
環(huán)境監(jiān)測(cè)大數(shù)據(jù)平臺(tái)主要架構(gòu)示意如圖1。由數(shù)據(jù)采集、存儲(chǔ)、處理、共享、應(yīng)用等系統(tǒng)組成。整體技術(shù)架構(gòu)是基于物理資源及網(wǎng)絡(luò)資源,采集整合所有環(huán)保相關(guān)的數(shù)據(jù)匯聚于大數(shù)據(jù)平臺(tái);對(duì)數(shù)據(jù)進(jìn)行分析挖掘,提供基于可視化的數(shù)據(jù)分析結(jié)果應(yīng)用,建立面向?qū)ο蟮沫h(huán)保業(yè)務(wù)應(yīng)用系統(tǒng)和信息服務(wù)門戶,為第三方環(huán)保應(yīng)用提供商提供統(tǒng)一的應(yīng)用展示平臺(tái),為公眾、 企業(yè)、政府等受眾提供環(huán)保信息服務(wù)和交互服務(wù)[8]。
4.2.1 數(shù)據(jù)采集與存儲(chǔ)
為保證環(huán)境監(jiān)測(cè)大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,數(shù)據(jù)中心需要將不同類型的環(huán)境數(shù)據(jù),通過數(shù)據(jù)抽取、分發(fā)、清洗、轉(zhuǎn)換和裝載等過程,將大數(shù)據(jù)中不真實(shí)的數(shù)據(jù)剔除掉,保留最準(zhǔn)確的數(shù)據(jù),再將源數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)共享平臺(tái)中。存儲(chǔ)的數(shù)據(jù)按照生命周期配置為歷史歸檔數(shù)據(jù)和當(dāng)期使用數(shù)據(jù),提供查詢接口并對(duì)外開放。數(shù)據(jù)倉庫可以滿足大量的環(huán)境監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)分析處理的要求。
4.2.2 數(shù)據(jù)處理與共享
數(shù)據(jù)處理是按預(yù)先定義的計(jì)算處理需求進(jìn)行批量計(jì)算處理,實(shí)現(xiàn)數(shù)據(jù)建模、數(shù)據(jù)計(jì)算功能。如:針對(duì)大氣、水體、土壤的環(huán)境質(zhì)量連續(xù)監(jiān)測(cè),引入預(yù)測(cè)模型,預(yù)測(cè)環(huán)境質(zhì)量變化趨勢(shì),從而為環(huán)境容量核定、產(chǎn)業(yè)結(jié)構(gòu)布局、城市規(guī)劃建設(shè)、資源開發(fā)利用等提出更加合理的生態(tài)環(huán)境保護(hù)建議。同時(shí),在污染企業(yè)監(jiān)控預(yù)警方面,引入生產(chǎn)排污工況監(jiān)控,深度監(jiān)控排污企業(yè)生產(chǎn)、排放、存儲(chǔ)、運(yùn)輸各個(gè)環(huán)節(jié),為監(jiān)察部門提供可靠的執(zhí)法依據(jù),并結(jié)合大數(shù)據(jù)挖掘技術(shù)來計(jì)算企業(yè)排污對(duì)當(dāng)?shù)丨h(huán)境的影響。
數(shù)據(jù)共享層支持建立數(shù)據(jù)服務(wù)的標(biāo)準(zhǔn)化接口,促進(jìn)聯(lián)防聯(lián)動(dòng),將監(jiān)察執(zhí)法處理情況、環(huán)境監(jiān)測(cè)情況、污染源在線監(jiān)控情況進(jìn)行統(tǒng)一匯總分析,實(shí)現(xiàn)跨部門協(xié)作,切實(shí)加大環(huán)境監(jiān)管力度。
圖1 環(huán)境監(jiān)測(cè)大數(shù)據(jù)平臺(tái)功能架構(gòu)
4.2.3 數(shù)據(jù)挖掘應(yīng)用
應(yīng)用環(huán)境監(jiān)測(cè)大數(shù)據(jù)平臺(tái)的最大優(yōu)勢(shì),就是可以把大量的、以往沒有得到重視的水質(zhì)、空氣、污染源監(jiān)控視頻信息的“大數(shù)據(jù)”進(jìn)行集成、挖掘,把來自社交網(wǎng)絡(luò)的大量很發(fā)散、缺乏有效組織、價(jià)值密度低,但仍具有生態(tài)環(huán)境信息意義的數(shù)據(jù)資源進(jìn)行嗅探、抓取、整合、處理,賦予數(shù)據(jù)系統(tǒng)新的深度,從而達(dá)到提高環(huán)境質(zhì)量綜合評(píng)價(jià)技術(shù)水平的目的。
[1] 魏復(fù)盛.我國(guó)環(huán)境監(jiān)測(cè)的回顧與展望[J]. 環(huán)境監(jiān)測(cè)管理與技術(shù),1999,11(1):1-4.
[2] 商博,于光金,王桂勛,等.基于PCA 的區(qū)域環(huán)境質(zhì)量綜合評(píng)價(jià)及應(yīng)用實(shí)例研究[J]. 中國(guó)環(huán)境監(jiān)測(cè),2013,29(5):12-15.
[3] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014,47(11):1240-1242.
[4] 陶安.“大數(shù)據(jù)”時(shí)代下的信息資源建設(shè)[J]. 軟件導(dǎo)刊·教育技術(shù),2014(10):59-60.
[5] 任志鋒,陶立業(yè).論大數(shù)據(jù)背景下的政府“循數(shù)”治理[J].理論探索,2014(6):82-83.
[6] 黎如昊,黃云生.廣東省地表水自動(dòng)監(jiān)測(cè)系統(tǒng)數(shù)據(jù)傳輸協(xié)議的設(shè)計(jì)及應(yīng)用[J].環(huán)境監(jiān)控與預(yù)警,2016,8(2):59-62.
[7] 董艷平,喻義勇,金鑫,等.基于在線監(jiān)測(cè)數(shù)據(jù)的青奧會(huì)廢氣重點(diǎn)污染源臨時(shí)管控效果評(píng)估[J].環(huán)境監(jiān)控與預(yù)警,2015,7(4):9-11.
[8] 戴秀麗,朱培瑜,王蕾,等.環(huán)境監(jiān)測(cè)數(shù)據(jù)審核體系的回顧與展望[J].環(huán)境監(jiān)控與預(yù)警,2015,7(3):52-55.
欄目編輯 周立平
Application of Big Data Technology in Environmental Monitoring
XIE Hui
(TianjinEnvironmentalMonitoringCenter,Tianjin300191,China)
This paper described the current status and issues of information construction of environmental monitoring and analyzed the characteristics and advantages using big data technology in environmental monitoring. It was proposed that based on the big data technology, environmental monitoring big data center could be constructed to break through limits of the traditional data bank. Application of the big data core technology might find new breakthroughs in the comprehensive evaluation technology of environmental quality. The first was to improve comprehensive early warning ability of environmental conditions; the second was to use the big data visualization technology for improving in the level of scientific decision-making; the third was to improve the ability of human health risk assessment; the fourth was to establish a “cloud” platform for public opinions and analysis of environmental protection in order to improve the public service ability.
Environmental monitoring;Big data;Environmental quality comprehensive evaluation;Visualization;Environmental protection public opinion
2015-12-04;
2016-02-29
解輝(1967—),女,研究員級(jí)高級(jí)工程師,本科,從事環(huán)境監(jiān)測(cè)與信息化工作。
X821
A
1674-6732(2016)04-0062-05