田云
為落實國家政策要求以及解決生態(tài)環(huán)境資源數(shù)據(jù)中心目前發(fā)展中面臨的問題,本文對大數(shù)據(jù)時代下生態(tài)環(huán)境資源數(shù)據(jù)中心的發(fā)展方向進行了探索。面對數(shù)據(jù)來源眾多,尺度差異大,接入方式復(fù)雜的海量環(huán)境數(shù)據(jù),急需通過大數(shù)據(jù)技術(shù)提升數(shù)據(jù)的采集、存儲及分析挖掘能力,促進數(shù)據(jù)整合共享,通過數(shù)據(jù)治理手段,提高數(shù)據(jù)質(zhì)量水平,保障數(shù)據(jù)準確可用,最終支撐創(chuàng)新大數(shù)據(jù)的應(yīng)用,推動監(jiān)管創(chuàng)新。
黨中央、國務(wù)院高度重視我國大數(shù)據(jù)的發(fā)展和應(yīng)用,將大數(shù)據(jù)確定為國家級發(fā)展戰(zhàn)略,隨后各部門相繼推出了指導(dǎo)意見以及落地政策:國務(wù)院辦公廳印發(fā)《政務(wù)信息系統(tǒng)整合共享實施方案》、生態(tài)環(huán)境部印發(fā)《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》、生態(tài)環(huán)境部印發(fā)《環(huán)境保護部政務(wù)信息系統(tǒng)整合共享實施方案》等相關(guān)文件。
因此,依托大數(shù)據(jù)、云計算等技術(shù)手段推進環(huán)境治理能力現(xiàn)代化已成為必然趨勢,本文重點探索如何解決大數(shù)據(jù)時代生態(tài)環(huán)境數(shù)據(jù)資源中心建設(shè)面臨的海量環(huán)境數(shù)據(jù)的接人、存儲問題,數(shù)據(jù)質(zhì)量不高的問題以及如何對數(shù)據(jù)進行分析挖掘為環(huán)境管理提供支撐的問題。
1.大數(shù)據(jù)時代下生態(tài)環(huán)境資源數(shù)據(jù)中心面臨的問題
生態(tài)環(huán)境資源數(shù)據(jù)中心是全面實現(xiàn)環(huán)境信息資源的集中、整合、共享和管理的核心,是推動生態(tài)環(huán)境大數(shù)據(jù)建設(shè)應(yīng)用的根本,目前生態(tài)環(huán)境資源數(shù)據(jù)中心面臨以下問題:
1.1 傳統(tǒng)平臺的技術(shù)局限性,不能滿足新形勢「的數(shù)據(jù)管理需求
隨著技術(shù)的進步,環(huán)境數(shù)據(jù)逐步呈現(xiàn)容量大、類型多、存取速度快的特點,傳統(tǒng)的環(huán)境資源數(shù)據(jù)中心在大容量數(shù)據(jù)吞吐、PB級數(shù)據(jù)存儲、數(shù)據(jù)實時采集與傳送等方面均面臨瓶頸性問題,不能滿足新形勢下的數(shù)據(jù)管理需求。
1.2 數(shù)據(jù)質(zhì)量水平低,影響環(huán)境精準監(jiān)管與科學(xué)決策
數(shù)據(jù)采集的過程中缺乏有效的數(shù)據(jù)管理手段,通常會造成各手擻據(jù)質(zhì)量問題,例如單位上報數(shù)據(jù)不完整、不準確,不一致;在線監(jiān)測數(shù)據(jù)通常會產(chǎn)生丟失、錯誤、失序、造假等各幣阿貢量問題,最終難以支撐環(huán)境精準監(jiān)管與科學(xué)決策的需求。
1.3 數(shù)據(jù)對業(yè)務(wù)的支撐不足,數(shù)據(jù)沒有充分利用
沒有應(yīng)用,數(shù)據(jù)永遠只是數(shù)據(jù),海量的數(shù)據(jù).只有在應(yīng)用中才能發(fā)揮價值。目前環(huán)境業(yè)務(wù)信息系統(tǒng)積累了一定的環(huán)境管理數(shù)據(jù),但多數(shù)依然停留在原始數(shù)據(jù)收集展示的層面上,無法做到智慧化的分析與發(fā)掘,為環(huán)境科學(xué)決策提供支撐的能力明顯不足。
2.環(huán)境信息的融合應(yīng)用是生態(tài)環(huán)境資源數(shù)據(jù)中心的發(fā)展趨勢
全面整合生態(tài)環(huán)境數(shù)據(jù)資源,開展生態(tài)環(huán)境信息資源規(guī)劃,統(tǒng)籌生態(tài)環(huán)境數(shù)據(jù)采集,建立數(shù)據(jù)資源關(guān)聯(lián)關(guān)系,提高生態(tài)環(huán)境大數(shù)據(jù)分析能力,提升生態(tài)環(huán)境信息共享與服務(wù)能力是生態(tài)環(huán)境資源數(shù)據(jù)中心的發(fā)履必然要求。
2.1 推進生態(tài)月鏡數(shù)據(jù)融合共享開放
開展數(shù)據(jù)資源的集成整合,深化業(yè)務(wù)數(shù)據(jù)和社會數(shù)據(jù)關(guān)聯(lián)分析、融合利用,切實避免數(shù)據(jù)分散和信息孤島,建立以環(huán)保部門業(yè)務(wù)數(shù)據(jù)、監(jiān)測物聯(lián)網(wǎng)傳感器數(shù)據(jù)為主,國土、水利、農(nóng)業(yè)、林業(yè)、氣象等外部委數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)為輔的環(huán)境大數(shù)據(jù)資源體系,能夠有效推動生態(tài)環(huán)境數(shù)據(jù)資源共享服務(wù)和生態(tài)環(huán)境數(shù)據(jù)開放。
2.2 增強大數(shù)據(jù)技術(shù)的應(yīng)用能力
面對海量數(shù)據(jù)整合共享給傳統(tǒng)環(huán)境資源數(shù)據(jù)中心帶了的挑戰(zhàn),應(yīng)該充分利用大數(shù)據(jù)技術(shù)實現(xiàn)海量數(shù)據(jù)的采集與接人,重點解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理,同時應(yīng)用人工智能、機器學(xué)習(xí)、模式識別等新技術(shù),挖掘隱藏于海量數(shù)據(jù)中的信息,提升預(yù)測、預(yù)警、溯源、模擬模型支持能力,最終為生態(tài)環(huán)境管理創(chuàng)新應(yīng)用提供支撐。
2.3 提升環(huán)境資源數(shù)據(jù)管理水平
數(shù)據(jù)的質(zhì)量問題一直制約著生態(tài)環(huán)境數(shù)據(jù)的分析與應(yīng)用,沒有準確的數(shù)據(jù)支撐,難以對數(shù)據(jù)進行深度分析,生態(tài)環(huán)境資源數(shù)據(jù)中心的今后建設(shè)要通過對數(shù)據(jù)標準管理、元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等提升數(shù)據(jù)整體質(zhì)量,提高數(shù)據(jù)的可用性和易用性,為數(shù)據(jù)資源向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)變打下堅實的基礎(chǔ)。一是要基于數(shù)據(jù)標準和標準樣例庫,與進入環(huán)境資源數(shù)據(jù)中心的數(shù)據(jù)進行校核,主動發(fā)現(xiàn)數(shù)據(jù)問題,從而實現(xiàn)對環(huán)境數(shù)據(jù)的標準化管理;二是在傳統(tǒng)環(huán)境資源數(shù)據(jù)中心以結(jié)構(gòu)化數(shù)據(jù)為主的元數(shù)據(jù)基礎(chǔ)上,升級元數(shù)據(jù)管理,實現(xiàn)關(guān)系型、非結(jié)構(gòu)化、半結(jié)構(gòu)化、時序數(shù)據(jù)等海量異構(gòu)數(shù)據(jù)的字典管理;三是將多個業(yè)務(wù)系統(tǒng)中最核心的、需要共享并保持一致的數(shù)據(jù)視為主數(shù)據(jù),實現(xiàn)對主數(shù)據(jù)清洗、整合、管理與共享。四是對數(shù)據(jù)質(zhì)量進行核查,幫助用戶定位數(shù)據(jù)在缺失、重復(fù)、極值異常、單調(diào)性異常等方面的質(zhì)量問題。
3.應(yīng)用大數(shù)據(jù)驅(qū)動環(huán)境監(jiān)管模式創(chuàng)新
應(yīng)用是生態(tài)環(huán)境大數(shù)據(jù)建設(shè)的核心,它是將數(shù)據(jù)價值傳遞給用戶的橋梁,通過大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行關(guān)聯(lián)分析,從中發(fā)現(xiàn)趨勢、找準問題,主動發(fā)現(xiàn)企業(yè)風(fēng)險,促進環(huán)境監(jiān)管模式從被動響應(yīng)向主動預(yù)見轉(zhuǎn)變。
3.1 建立污染源敏感點分析
打通各種污染源監(jiān)管數(shù)據(jù),如排污許可證申報、排污費申報、污染源在線監(jiān)控等,通過數(shù)據(jù)比對分析、模型分析等手段發(fā)現(xiàn)問題,包括識別監(jiān)測數(shù)據(jù)異常、生產(chǎn)及排放情況異常、互聯(lián)網(wǎng)輿情舉報等問題。
3.2 形成企業(yè)標簽體系
基于污染源敏感點分析結(jié)果,結(jié)合統(tǒng)計分析、建模分析以及預(yù)測分析等算法手段,多維度刻畫企業(yè)歷史、現(xiàn)在、將來行為屬性特征,即定義企業(yè)標簽體系:
事實標簽:基于原始數(shù)據(jù),提取出事實標簽。例如:連續(xù)5日超標、一年內(nèi)處罰超過兩次等標簽。
模型標簽:將原始數(shù)據(jù)及事實標簽作為數(shù)據(jù)基礎(chǔ),結(jié)合算法模型,形成模型標簽。如企業(yè)違法風(fēng)險等級等。
預(yù)測標簽:將原始數(shù)據(jù)集、事實標簽、模型標簽作為數(shù)據(jù)基礎(chǔ),結(jié)合預(yù)測模型,得出預(yù)測標簽。例如:高風(fēng)險企業(yè)、高危流域污染源等內(nèi)容。
3.3 企業(yè)違法等級計算
企業(yè)違法等級計算模型以污染源敏感點分析評價體系以及標簽體系,對目標企業(yè)進行特征值提取及特征加權(quán)分析,計算得出企業(yè)違法分數(shù)。針對企業(yè)違法等級得分范圍劃定,給出每個企業(yè)違法等級評定結(jié)果。
通過以上分析可以發(fā)現(xiàn)目前的環(huán)境資源數(shù)據(jù)中心的發(fā)展遇到瓶頸,急需通過大數(shù)據(jù)技術(shù)提升數(shù)據(jù)的采集、存儲及分析挖掘能力,最終實現(xiàn)數(shù)據(jù)整合共享、提高數(shù)據(jù)質(zhì)量,推動生態(tài)環(huán)境監(jiān)管創(chuàng)新。