盧云霞
?
污染源普查數(shù)據(jù)的二次開發(fā)利用
盧云霞
福州市環(huán)保局環(huán)境信息中心
對(duì)污染源普查原始數(shù)據(jù)的二次開發(fā)利用途徑包括:進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,建立重點(diǎn)污染源檔案和普查數(shù)據(jù)庫;對(duì)數(shù)據(jù)進(jìn)行分析、加工、處理和深度挖掘;完成基于普查大類、分行業(yè)、分地區(qū)、分流域、分規(guī)模為基礎(chǔ)的主要污染物指標(biāo)普查匯總數(shù)據(jù)信息發(fā)布平臺(tái)。
污染源 開發(fā)利用 普查數(shù)據(jù) 成果應(yīng)用
2007年第一次全國污染源普查是我國重大的國情調(diào)查,其數(shù)據(jù)涵蓋了各類企事業(yè)單位與環(huán)境有關(guān)的基本信息,健全了各類重點(diǎn)污染源檔案和各級(jí)污染源信息。之后,國家又組織了兩次污染源更新調(diào)查(針對(duì)2009年和2010年污染源信息),更加完善了各類污染源信息。
筆者全程參與了第一次全國污染源普查及兩次更新調(diào)查工作,負(fù)責(zé)數(shù)據(jù)處理和普查軟件系統(tǒng)的管理維護(hù)方面的工作,并且參與編寫《福州市第一次全國污染源普查技術(shù)報(bào)告》,該技術(shù)報(bào)告被國務(wù)院第一次全國污染源普查領(lǐng)導(dǎo)小組辦公室評(píng)為一等獎(jiǎng)。其后又組織開發(fā)了“福州市污染源普查成果應(yīng)用系統(tǒng)”,該系統(tǒng)在國家普查軟件系統(tǒng)基礎(chǔ)上,根據(jù)實(shí)際的環(huán)境管理需求,對(duì)污染源普查數(shù)據(jù)進(jìn)行二次開發(fā)利用,拓展了污染源普查成果的應(yīng)用層面。
在第一次全國污染源普查及其后的兩次更新調(diào)查工作中,數(shù)據(jù)處理統(tǒng)一使用全國污染源普查工作辦公室組織編制的數(shù)據(jù)處理軟件。國家提供的軟件主要是用于污染源基礎(chǔ)數(shù)據(jù)的紙質(zhì)數(shù)據(jù)的錄入,數(shù)據(jù)合理性的審核,數(shù)據(jù)的編輯、匯總和數(shù)據(jù)上報(bào)的傳輸工作。其中還有專門的軟件校驗(yàn)和審核程序,保證數(shù)據(jù)的真實(shí)有效。
由于幾次污染源普查及更新調(diào)查中使用的是不同版本的軟件及不同的數(shù)據(jù)庫,且軟件為C/S(Client/Server,客戶機(jī)/服務(wù)器)模式,對(duì)使用者而言不僅要求多次安裝不同版本的程序,且客戶端程序?qū)Π惭b環(huán)境有一定要求,不適用于目前所有在用系統(tǒng);若需使用網(wǎng)絡(luò)版數(shù)據(jù),用戶還需進(jìn)行繁瑣的配置工作;用戶要對(duì)比不同年份的污染源數(shù)據(jù),需要同時(shí)打開不同客戶端,登陸不同服務(wù)器才可使用;并且軟件對(duì)用戶權(quán)限沒有細(xì)分,只要能查看數(shù)據(jù)的人員同時(shí)也可以修改數(shù)據(jù),對(duì)數(shù)據(jù)的安全造成極大的隱患。另外,國家提供的軟件對(duì)使用人員的要求較高,必須是經(jīng)過充分培訓(xùn)或有一定的SQL語句編程基礎(chǔ)的專業(yè)人員方可進(jìn)行一些簡單的數(shù)據(jù)查詢,阻礙了污染源普查成果的進(jìn)一步推廣應(yīng)用。
污染源普查及更新調(diào)查收集的數(shù)據(jù)是重要的基礎(chǔ)環(huán)境數(shù)據(jù),覆蓋了污染源的方方面面。以福州市第一次全國污染源普查為例,共完成污染源普查對(duì)象數(shù)30154個(gè),包含了各個(gè)行業(yè),涉及到各類重點(diǎn)污染物50多種,其中:工業(yè)源7403個(gè);規(guī)模以上的生活源6738個(gè);集中式治理設(shè)施19個(gè);農(nóng)業(yè)源15994個(gè)。這些數(shù)據(jù)量大面廣,但是對(duì)于日常的環(huán)境管理應(yīng)用而言,存在著冗余和不直觀缺陷。
要將污染源普查成果方便、直觀、安全地應(yīng)用到日常的環(huán)境管理工作中,需要將污染源普查(更新調(diào)查)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和裝載,建立起統(tǒng)一的污染源普查數(shù)據(jù)庫及一個(gè)面向所有用戶的數(shù)據(jù)分析與處理平臺(tái)。
污染源普查成果二次開發(fā)利用目的就是通過對(duì)污染源數(shù)據(jù)的整理、提煉,可以讓用戶直觀地查閱各類污染源的數(shù)量和行業(yè)、地區(qū)、流域的分布;各類污染源排放的主要污染物及其排放量、排放去向,污染治理設(shè)施運(yùn)行狀況、污染治理水平和存在問題等情況;通過對(duì)不同年份的數(shù)據(jù)進(jìn)行整理,還可以掌握污染源變化的各種趨勢(shì);通過分級(jí)建立福州市級(jí)與所屬區(qū)縣級(jí)污染源信息數(shù)據(jù)庫,方便環(huán)境分級(jí)管理工作,有助于實(shí)現(xiàn)對(duì)各自轄區(qū)內(nèi)重點(diǎn)污染源的動(dòng)態(tài)跟蹤、實(shí)時(shí)監(jiān)控和總量核算,同時(shí)便于梳理存在安全隱患的重點(diǎn)源。通過普查及更新調(diào)查建立起的基本單位臺(tái)賬和數(shù)據(jù)庫,還可以直觀地查閱,便于今后更好地開展環(huán)境監(jiān)管工作。
二次開發(fā)利用數(shù)據(jù)處理采用了ETL技術(shù)。ETL是數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程,是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán)。ETL能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實(shí)施數(shù)據(jù)倉庫的重要步驟。二次開發(fā)利用建立的統(tǒng)一普查數(shù)據(jù)庫是一個(gè)面向主題的、集成的、穩(wěn)定的且隨時(shí)間不斷變化數(shù)據(jù)集合,是整個(gè)普查數(shù)據(jù)分析與處理工作的基礎(chǔ)。
數(shù)據(jù)處理工作按照以下3個(gè)步驟進(jìn)行:
根據(jù)日常環(huán)境管理工作需求,將原始數(shù)據(jù)中所需數(shù)據(jù)信息提取出,去除冗余字段和大量的噪聲數(shù)據(jù),按照統(tǒng)一規(guī)則集成,重新編排設(shè)計(jì)為統(tǒng)一格式的數(shù)據(jù)字典。
普查數(shù)據(jù)庫中的數(shù)據(jù)必須在對(duì)污染源普查基礎(chǔ)數(shù)據(jù)庫原始數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)普查信息的一致的全局信息。
抽?。簩?shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,這是所有工作的前提。
轉(zhuǎn)換:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來。
裝載:將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部的導(dǎo)入到數(shù)據(jù)倉庫中。
污染源普查及更新調(diào)查原始數(shù)據(jù)庫中表單近1000份,其中2007年第一次污染源普查表單587份,2009年和2010年更新調(diào)查表單各135份;數(shù)據(jù)字段上萬個(gè)。經(jīng)過數(shù)據(jù)抽取、轉(zhuǎn)換、清洗后,留下表單101個(gè),字段3000個(gè)左右,分析數(shù)據(jù)結(jié)果972條(不包含污染源基礎(chǔ)信息數(shù)據(jù))。用戶可以方便快速的從這些整理加工后的信息中查閱到自己所需的數(shù)據(jù)。
用戶信息庫統(tǒng)一集成到福州市環(huán)保局內(nèi)網(wǎng)門戶信息系統(tǒng)原有的用戶信息庫,在其中配置污染源普查成果應(yīng)用相應(yīng)權(quán)限,用戶可通過統(tǒng)一門戶入口共享二次開發(fā)利用的污染源普查成果。
圖1 福州市污染源普查數(shù)據(jù)二次開發(fā)技術(shù)結(jié)構(gòu)圖
福州市污染源普查成果應(yīng)用平臺(tái)(數(shù)據(jù)處理與分析平臺(tái))是在充分利用普查現(xiàn)有軟硬件環(huán)境的基礎(chǔ)上,采用數(shù)據(jù)抽取、轉(zhuǎn)換和裝載技術(shù)和網(wǎng)絡(luò)技術(shù)等高新信息技術(shù)手段開發(fā)建設(shè)的平臺(tái)。通過對(duì)所形成的污染源普查基礎(chǔ)數(shù)據(jù)庫進(jìn)行進(jìn)一步的分析、加工、處理和深度挖掘,完成基于普查大類、分行業(yè)、分地區(qū)、分流域、分規(guī)模等為基礎(chǔ)的主要污染物指標(biāo)的普查匯總數(shù)據(jù),同時(shí)建立福州市污染源普查主題數(shù)據(jù)庫。
福州市污染源普查成果應(yīng)用平臺(tái)將普查成果便捷、直觀地應(yīng)用于環(huán)境管理工作,進(jìn)一步拓展了污染源普查數(shù)據(jù)的應(yīng)用層面(如圖2)。
圖2
4.1.1按污染源大類(工業(yè)源、農(nóng)業(yè)源、生活源、集中式污染源)的普查數(shù)據(jù)處理和分析;
4.1.2按區(qū)域普查數(shù)據(jù)的處理和分析;
4.1.3按流域普查數(shù)據(jù)的處理和分析;
4.1.4按行業(yè)普查數(shù)據(jù)的處理和分析;
4.1.5按福州市工業(yè)園區(qū)普查數(shù)據(jù)的處理和分析
通過這個(gè)平臺(tái),用戶無需復(fù)雜專業(yè)的設(shè)置,只需點(diǎn)擊頁面上的按鈕或鏈接,即可得到日常管理工作中需要用到的大量分析數(shù)據(jù)。
4.2.1快速查詢各類污染源中產(chǎn)生排放的各類污染物的分析數(shù)據(jù),如圖3;
圖3
4.2.2可按產(chǎn)生排放污染物的量的大小,快速查詢企業(yè)列表,并查看到企業(yè)的詳細(xì)信息(企業(yè)的基本情況表和這家企業(yè)產(chǎn)生的所有污染物信息),更方便管理,如圖4;
圖4
4.2.3可以按污染源大類、分地域、分流域、分行業(yè)等不同方式查看比較各類污染物的產(chǎn)生排放分析情況;
4.2.4查詢表現(xiàn)形式多樣,有數(shù)據(jù)列表和圖表等多種方式,如圖5、圖6;
圖5
圖6
4.2.5可以通過“高級(jí)查詢”,選取合適的條件,定制查詢所需分析數(shù)據(jù);
4.2.6選取不同年份的污普原始數(shù)據(jù),可以比較不同年份污染源污染物的變化趨勢(shì),更方便地實(shí)現(xiàn)對(duì)重點(diǎn)污染源的動(dòng)態(tài)跟蹤和總量核算。
在污染源普查及更新調(diào)查基礎(chǔ)上建立的各類重點(diǎn)污染源檔案和各級(jí)污染源信息數(shù)據(jù)庫資料,有利于全面分析福州市污染源的基本情況和存在問題,為環(huán)境管理和科學(xué)決策提供依據(jù)。
污染源普查二次開發(fā)利用工作,充分利用污染源普查數(shù)據(jù)及更新調(diào)查成果,借此可以深入了解福州市工業(yè)、農(nóng)業(yè)、生活等污染源的排放和分布情況,準(zhǔn)確了解分析污染物排放情況,正確判斷環(huán)境形勢(shì),科學(xué)制定環(huán)境保護(hù)政策和規(guī)劃,有效實(shí)施主要污染物排放總量控制計(jì)劃,對(duì)于切實(shí)改善環(huán)境質(zhì)量,提高環(huán)境監(jiān)管和執(zhí)法水平,保障環(huán)境安全,加強(qiáng)和改善宏觀調(diào)控,促進(jìn)經(jīng)濟(jì)結(jié)構(gòu)調(diào)整等都有著十分重要的意義。
[1] 福州市第一次污染源普查技術(shù)報(bào)告,2009.
[2] 張寧,賈自艷.數(shù)據(jù)倉庫中ETL技術(shù)的研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2002,38(24):213-216 .