毛炳啟,汪先鋒
山東省環(huán)境信息與監(jiān)控中心,山東濟南250101
20世紀80年代以來,中國的環(huán)保部門已經積累了大量污染源數據,然而多數污染源數據分散于各部門,大多以文檔、原始數據的方式存在,沒有統(tǒng)一的數據元標準,也缺乏應有的處理和加工,難以進行共享和應用。另一方面,環(huán)境管理業(yè)務涉及環(huán)境統(tǒng)計、排污申報、排污收費、監(jiān)督性監(jiān)測、在線監(jiān)測等多個方面,導致有些不同的業(yè)務部門所管理的對象存在不同程度的重疊,但對應的信息資源系統(tǒng)卻相互獨立,造成系統(tǒng)內數出多門,一數多源或一源多數,相互矛盾的事情時有發(fā)生。同時,隨著全社會對環(huán)境問題的日益關注,社會各部門和公眾對環(huán)境數據共享與服務的需求也越來越迫切,要求也越來越高。污染源監(jiān)督性監(jiān)測作為污染源數據資源的重要組成部分,不可避免地需與環(huán)境統(tǒng)計、排污申報、排污收費、在線監(jiān)測等環(huán)境業(yè)務數據進行數據交換和數據共享。因此,必須建立一套污染源監(jiān)督性監(jiān)測數據元技術標準,一方面用于指導污染源監(jiān)督性監(jiān)測業(yè)務系統(tǒng)的建立,另一方面確保系統(tǒng)之間的環(huán)境數據能夠順暢地交換與共享,以保證數據資源的充分利用,避免信息孤島的出現。
元數據被稱為關于數據的數據,是對數據資源的規(guī)范化描述,不僅能起到描述數據的作用,而且起到管理數據的作用。鑒于此,使用元數據技術來統(tǒng)一管理分散的數據資源,并通過網絡實現數據的共享和服務這一模式得到了普遍的重視[1]。
中國在環(huán)境信息數據的研究與收集方面開展得比國際稍晚,水平也存在一定的差距。但近年來也取得了比較大的進步,環(huán)境保護部于2007年先后出臺了《環(huán)境信息分類與代碼》(HJ/T 417—2007)和《環(huán)境數據庫設計與運行管理規(guī)范》(HJ/T 419—2007),這些標準對污染源監(jiān)督性監(jiān)測數據元的構建研究提供了理論指導和研究框架。2009年以后,環(huán)境信息化建設和數據標準研究力度加大,在環(huán)境保護部出臺的《國家環(huán)境信息化2009—2015年規(guī)劃》中,國家環(huán)境信息標準規(guī)范體系建設被作為基礎保障體系建設的重點項目之一。2007年環(huán)境保護部根據國務院提出的建立和完善污染減排“三大體系”,提出了開展國控重點污染源自動監(jiān)控項目建設、污染源監(jiān)督性監(jiān)測項目建設、環(huán)境監(jiān)察執(zhí)法項目建設和環(huán)境信息與統(tǒng)計能力項目建設“四個能力”建設項目[2]。2009年國家環(huán)境信息與統(tǒng)計能力建設項目全面啟動,該項目包括制定27項與減排工作有關信息化標準與技術規(guī)范,其中,《污染源監(jiān)督性監(jiān)測數據元技術規(guī)定》是27項標準之一,是國家層面上的環(huán)境保護行業(yè)內的數據規(guī)范。為此,該課題組承擔并開展了《污染源監(jiān)督性監(jiān)測數據元技術規(guī)定》的前期研究和編制工作。課題組針對污染源監(jiān)督性監(jiān)測業(yè)務需求的調研,查閱了大量的國際、國內相關方面的最新研究成果和相關資料,對數據統(tǒng)一管理和環(huán)境管理對數據的應用進行了分析,在此基礎上,依據國家相關數據元的標準規(guī)范,對污染源監(jiān)督性監(jiān)測數據元構建進行了研究,確定了技術規(guī)定編制的原則、方法和技術路線,提出了污染源監(jiān)督性監(jiān)測數據元的目錄,規(guī)范了其表達格式和維護與管理要求,為《污染源監(jiān)督性監(jiān)測數據元技術規(guī)定》編制奠定了基礎。該技術規(guī)定適用于污染源監(jiān)督性監(jiān)測數據庫和減排綜合數據庫的建庫、維護和更新?!段廴驹幢O(jiān)督性監(jiān)測數據元技術規(guī)定》遵從國家環(huán)境保護工作要求的先進技術研究,符合國家標準規(guī)范體系建立的需求,能夠為中國的環(huán)境保護發(fā)展提供助力。
污染源監(jiān)督性監(jiān)測數據元是指污染源監(jiān)督性監(jiān)測業(yè)務中涉及的所有數據單元,污染源監(jiān)督性監(jiān)測數據元的概念和結構遵循一般數據元的概念和結構,是通用數據元的一個子集,但具有自身的特點。與其他數據元技術規(guī)定的區(qū)別主要在于它的業(yè)務特性和數據用途,因此其在數據集、標識符、數據格式、值域等數據元的表達方式上有所不同。
污染源監(jiān)督性監(jiān)測數據元就是采用相關的元數據來描述數據元的屬性。這些元數據幫助用戶理解和使用污染源監(jiān)督性監(jiān)測數據元。污染源監(jiān)督性監(jiān)測數據元是一個通過業(yè)務調研、數據元提取、數據元分類、數據元的表達,最終形成污染監(jiān)督性監(jiān)測數據元的過程。
全面調研污染源監(jiān)督性監(jiān)測業(yè)務情況,廣泛搜集與污染源監(jiān)督性監(jiān)測業(yè)務相關的資料,包括已有的相關數據標準、業(yè)務信息系統(tǒng)設計文檔、業(yè)務數據庫設計文檔(數據模型、數據字典)等,對業(yè)務數據進行分析,建立數據實體-關系模型,明確該業(yè)務數據所包含的數據實體及其屬性。同時,對調研資料進行系統(tǒng)分析,結合污染源監(jiān)督性監(jiān)測業(yè)務需求和環(huán)保能力建設項目管理要求,確定業(yè)務數據范圍。
通過對污染源監(jiān)督性監(jiān)測數據元進行詳細調研后,按照污染源監(jiān)督性監(jiān)測的業(yè)務領域,得出了不同子業(yè)務信息劃分數據集,詳見表1。
表1 污染源監(jiān)督性監(jiān)測數據集列表
分析污染源監(jiān)督性監(jiān)測業(yè)務數據,梳理已有的數據標準或業(yè)務信息系統(tǒng)設計文檔、業(yè)務數據庫設計文檔、數據模型,提取數據字段,并進行篩選、排重,分別整理形成數據元列表。
2.2.1 篩選
對數據字段進行篩選,排除部分為數據庫設計和系統(tǒng)建設而增加的數據字段,保留屬于業(yè)務數據范疇的數據字段。
2.2.2 排重
對重復的數據字段進行分析和判斷,名稱、語義完全一致的可作為一個數據元;名稱一致但語義不一致的則應分別定義為不同的數據元。
對于污染源監(jiān)督性監(jiān)測業(yè)務數據,其較為復雜,可首先進行分類,再進一步劃分數據類別,并按照此分類對數據元進行分類;對于各類數據元再進一步分析,可提煉出各類業(yè)務數據共同使用的數據元,即公共數據元[3]。
數據元的分類至少可以通過2種途徑實現,較為理想但非常麻煩的方法是,首先形成一個包括所有可能數據元的完備分類,然后將數據元放入事先定義好的分類中[4]。然而,最為實用的方法是,先形成一個基本的而相對較為簡單的分類,數據元根據分類放入事先定義好的分類中,對于新加的數據元,允許其在使用嚴格規(guī)則的情況下逐漸完善。
根據以上業(yè)務領域分析,實現污染源監(jiān)督性監(jiān)測數據元分類,詳見圖1。
圖1 污染源監(jiān)督性監(jiān)測數據元分類圖
根據以上對數據元的分類,污染源監(jiān)督性監(jiān) 測各類數據元的描述舉例如表2所示。
表2 污染源監(jiān)督性監(jiān)測數據元內容列表(部分)
數據元是通過一系列的屬性進行描述和定義的,這些屬性反映了數據元的基本特征。污染源監(jiān)督性監(jiān)測數據元采用下列屬性進行描述。
2.4.1 中文名稱
數據元中文名稱是賦予數據元的單個或多個中文字詞的唯一指稱。數據元的中文名稱應是唯一的,應盡量采用環(huán)保業(yè)務已有名稱或環(huán)保行業(yè)習慣用語,方便數據元的使用。
數據元命名一般使用一個詞語,要求用詞精準,能夠準確傳達要表示的含義。
2.4.2 短名
數據元的短名采用數據元中文名稱的首字母縮拼,當遇到無法避免的重復短名時,應采用數據元中文名稱的首漢字全拼加剩余漢字首字母組合的附加規(guī)則,以此類推,直至短名無重復。若遇到數據元中文名稱中帶有阿拉伯數字的,其短名命名中直接采用該阿拉伯數字,短名長度不得超過30個字符。
2.4.3 數據元定義
數據元定義為表達一個數據元的本質特征并使其區(qū)別于所有其他數據元的陳述。
數據元的定義應具有唯一性,定義中所表述的一個或多個特性必須使被定義的概念與其他概念相區(qū)別。數據元的定義要闡述其概念是什么,而不是闡述其概念不是什么。必須使用短語來形成包含概念的基本特性的準確定義。不能簡單地陳述一個或幾個同義詞,也不能以不同的順序簡單地重復這些名稱。如果一個描述性短語不夠,則應使用完整的、語法正確的句子。所有簡稱在第一次出現時,必須予以說明。
2.4.4 數據格式
從業(yè)務的角度規(guī)定的數據元值的格式要求,包括所允許的最大和/或最小字符長度、數據元值的表示格式等。數據元數據格式具體表示見表3。
表3 數據元數據格式
例1:a10表示定長為10的字母字符;
例2:n5表示定長為5的數字字符;
例3:n..20,2表示最長20個數字字符,小數點后2位。
2.4.5 值域
數據元的值域是指數據元屬性的表示形式,數據元通常有一個允許值的集合,這個允許值的集合被稱之為值域。
數據元的值域定義存在以下3種情況:
1)描述數據格式
數據元值域取值可以用描述數據格式的形式表示,如:定長為10的字母字符。
2)引用國標
當有國標可以引用時則引用國標,如:《數據元和交換格式信息交換日期和時間表示法》(GB/T 7408—94)中對于時間表示法的規(guī)定。
3)代碼表
數據元的值域是一個由所有允許值組成的列表,即代碼表。用代碼表表示數據元的值域須遵照以下原則:已有國家、行業(yè)標準且完全滿足需求的,直接采標;已有國家、行業(yè)標準且不能完全滿足需求的,采標并進行修訂;沒有國家、行業(yè)標準的,需要按照國家分類編碼的相關規(guī)范,制定相應的代碼標準。
2.4.6 計量單位
屬于數值型的數據元值的計量單位。例如:“監(jiān)測點溫度”數據元的計量單位就是“攝氏度”。
2.4.7 備注
數據元的附加注釋,描述在上述屬性未能描述的其他內容。
污染源監(jiān)督性監(jiān)測數據元是根據污染源監(jiān)督性監(jiān)測業(yè)務數據情況制定的環(huán)境業(yè)務數據元,通過業(yè)務調研、資料分析,提取數據元,根據已分類的數據元,將數據元歸入適當的分類中,并采用數據元的表達格式進行描述,形成污染源監(jiān)督性監(jiān)測數據元。
例如,對于數據元“廢水類型代碼”,可劃分到廢水產生數據元分類中,其數據元表示如下:
中文名稱:廢水類型代碼
短名:fslxdm
定義:表示廢水類型的一組數字
數據格式:n..5
值域:見《廢水類別代碼(試行)》(HJ 520—2009)中的代碼
計量單位:無備注:無
構建污染源監(jiān)督性監(jiān)測數據元,可以有效支持各級環(huán)境保護部門對污染源的監(jiān)督性監(jiān)測工作,也是建立污染源監(jiān)督性監(jiān)測數據庫的重要基礎和依據,并可用于指導數據庫的建設、更新和維護,以發(fā)揮信息化建設的綜合效益。通過污染源監(jiān)督性監(jiān)測數據元的構建,建立監(jiān)測數據共享和應用的長效機制,實現對污染源監(jiān)督性監(jiān)測信息統(tǒng)一、集中、規(guī)范的管理以及方便、快捷的交換共享,從而為各級環(huán)保部門加強污染源監(jiān)管和政府決策提供強有力的技術支持。
[1]周波,錢鵬.我國科學數據元數據研究綜述[J].圖書館學研究,2013(2):7-10.
[2]汪先鋒,張麗麗.《污染源監(jiān)督性監(jiān)測數據元技術規(guī)定》編制研究[C]∥中國環(huán)境科學學會學術年會論文集(2011):第4卷.北京:中國環(huán)境科學出版社,2011:3 136-3 139.
[3]GB/T 19488.2—2008 公共數據元目錄[S].
[4]GB/T 19488.1—2004 設計和管理規(guī)范[S].
[5]GB/T 18391.1—2002 數據元的規(guī)范與標準化[S].