孫彩萍,王維,張亞青
中國環(huán)境科學研究院環(huán)境信息研究所
分類是知識組織的有效方式,常用的分類方法有體系分類法和分面組配分類法[1]。隨著計算機和互聯(lián)網技術的迅速發(fā)展,知識本體經歷了文獻、信息化、數字化等發(fā)展階段,相應地產生了圖書資料分類法、網絡信息分類法、電子政務分類法等[2-5],分類法在單一知識組織功能中增加了知識發(fā)現新功能。經典分類法(如中國圖書館分類法和杜威十進制圖書分類法)向自動化、信息化發(fā)展,實現從傳統(tǒng)手工紙質圖書資料分類向自動化、網絡化的信息分類轉型[5-7]。在這一過程中,用戶驅動型的分類開始出現。隨著電子政務的興起和發(fā)展,基于元數據標準的目錄服務成為信息共享和復用的技術標準,而分類法是電子政務目錄體系建立的基礎[8-9]。大數據時代,信息更多地分散于數據中,呈現數據量大、數據處理速度快、數據結構多樣性和數據價值密度低等特點[10],基于互連網數據采集和檢索的搜索引擎技術可滿足信息發(fā)現和復用需求[11]。在大氣環(huán)境數據資源共享建設中,如何集合分類方法和現代檢索技術,實現信息的高效組織、發(fā)現和利用,成為需要解決的難題。
傳統(tǒng)分類方法常用的有體系分類法、分面分類法和混合分類法。體系分類法,又稱為線分類法、層次分類法,通常以科學分類為基礎,依據分類對象的某些特征或屬性劃分類目,逐級進行類目細化,逐次展開各分類段,形成有層次的樹狀結構的分類體系。各大搜索引擎的類目設計上,采用的是傳統(tǒng)分類法主題分類思想[10]。其優(yōu)點一是按照學科、專業(yè)集中文獻,類目的展開比較系統(tǒng);二是采取等級列舉方式,能清晰地表達出類目體系中各類目之間的從屬關系和并列關系。缺點主要是類目表為靜態(tài)結構,不能根據需要隨時改變,各種復雜主題和細小專深主題詳盡揭示受限。
分面分類法的基本原則是選擇分類對象本質的特征或屬性作為“面”;同一“面”應采用相同的分類依據;不同“面”內的類目不相互交叉,也不能重復出現。經典分面PMEST是指人物(personality)、事件(matter)、能量(energy)、空間(space)和時間(time)[1]。分面分類法面向數字環(huán)境下特定領域的組織與搜索需求,設計滿足專業(yè)化、個性化的分面類表,主要用于網站信息架構、電子商務產品目錄、企業(yè)內容組織工具以及提高搜索效率的后控詞表等[4-5]。
網絡信息具有交互性、多維性、多樣性、高頻性和海量等特征,傳統(tǒng)分類法應用受限。隨之興起的大眾分類法,又稱社會化標簽系統(tǒng),是指由大眾自發(fā)性定義的平面型非層級結構式標簽分類體系,是Web 2.0的典型產物之一。它允許用戶以元數據的形式自發(fā)地標注各種類型的網絡資源,并通過標簽實現資源的共享,幫助社區(qū)用戶進行知識的檢索、瀏覽、組織、共享和創(chuàng)新,因而被廣泛應用于國內外的在線社區(qū)中,它具有包容性、靈活性、動態(tài)性和以用戶為中心的信息組織特點。當前主流的網絡信息分類主要有:融合大眾標注的主題分類目錄的嚴格等級化分類體系;基于主題法的大眾分類的平面化分類體系;用戶驅動的非嚴格等級化的大眾分類本體分類體系和自動派生的非嚴格等級化的大眾分類本體分類體系等[13]。
1.2.1中國圖書館分類法
中國圖書館分類法(簡稱中圖分類法)以學科分類為基礎,設有22個基本大類,采用字母與阿拉伯數字相結合的混合編碼。與國際上其他分類法相比,中圖分類法雖然產生較晚,但它不僅系統(tǒng)地總結了我國分類法的編制經驗,而且吸取了國外分類法的編制理論和技術,所以發(fā)展很快[2]。基于中圖分類法的《中國分類主題詞表》(Web版)(簡稱《中分表》)通過互聯(lián)網提供詞表瀏覽、檢索和數據下載服務,提供BS模式的圖書館業(yè)務支持,并能與聯(lián)機公共目錄檢索系統(tǒng)(online public access catalog,OPAC)進行對接。《中分表》的進一步規(guī)范處理需要借助自動分詞詞性標注、新詞發(fā)現、信息抽取、自動聚類等中文本體信息處理的最新方法和技術。但在相當長的時間內,《中分表》修訂與維護工作仍然離不開人工方式[5]。
中圖分類法對環(huán)境科學分類設有8個一級類目(圖1),分別是環(huán)境科學基礎理論、社會與環(huán)境、環(huán)境保護管理、災害及其防治、環(huán)境污染及其防治、廢物處理與綜合利用、環(huán)境質量評價與環(huán)境監(jiān)測、安全科學。1999—2010年中圖分類法的環(huán)境分類有了大幅調整,增加了30個二級類目。但在專業(yè)分類應用上存在3個問題:其一,中圖分類法為體系分類,屬于預列類目,固有的缺陷是不能詳盡無遺地列出已知主題,對不斷涌現的新概念更是不能及時吸納[14];其二,中圖分類法版本更新周期較長,與現代環(huán)境科學迅速發(fā)展不相協(xié)調;其三,現代科學具有高度細化、高度綜合的發(fā)展特點,這種缺陷在專業(yè)分類上更加凸顯。
圖1 中圖分類法——環(huán)境科學之大氣科學Fig.1 Chinese Library Classification: environmental atmospheric science
1.2.2環(huán)境信息分類
圖2 環(huán)境信息分類——大氣環(huán)境質量數據Fig.2 Classification of environmental information: atmospheric environmental quality data
王宏智等[17]基于1999—2012年資源環(huán)境領域科技基礎性工作專項產生的科學數據,采用一、二級按學科,三級按關鍵詞的分類體系對資源環(huán)境領域科學數據進行分類,共有14個一級分類、67個二級分類、435個三級分類,其大氣科學及環(huán)境科學中有大氣成分或涉及大氣污染物的分類見表1。由表1可見,該分類法的優(yōu)點是以環(huán)境介質和特征污染物作為三級分類,易于理解;缺點是特征污染物過少。
表1 資源環(huán)境領域中涉及大氣部分的數據分類[17]
1.2.3FEA框架數據分類
美國電子政務共享框架(Federal Enterprise Architecture Framework,FEA框架)[18]是美國電子政務頂層設計——聯(lián)邦總體架構的方法論和集成工具,迄今有10余年的發(fā)展歷史,于2013年發(fā)布了最新版,旨在促進聯(lián)邦政府各部門與其他政府實體之間的信息共享、互操作以及通用業(yè)務過程的共享開發(fā)。FEA框架的核心是統(tǒng)一參考模型(CRM),其由6個子模型組成,包括績效參考模型、業(yè)務參考模型、數據參考模型、應用參考模型、基礎設施參考模型和安全參考模型[18]。FEA框架幫助聯(lián)邦政府實現自上向下的電子政務設計和統(tǒng)籌管理,指導聯(lián)邦機構將政府戰(zhàn)略目標轉化為機構目標,進而細化為具體、可實施的電子政務工程,因而已被多國吸收和借鑒。
FEA框架的分類思想體現在參考模型中,它從績效、業(yè)務、數據、應用、基礎設施和安全6個角度表現電子政務體系主要包含的元素。除數據參考模型外,每個參考模型都有3~4個基本的分類層級,將參考模型的具體內容層層細化。如業(yè)務參考模型采取業(yè)務域、業(yè)務線、子功能三類定義對聯(lián)邦政府的主要業(yè)務流和業(yè)務活動進行描述;應用參考模型從系統(tǒng)、應用組件、接口3個層次對支持政府業(yè)務和績效目標分類。
數據參考模型(data reference model,DRM)面向業(yè)務活動,聚焦機構和跨部門的信息互操作性和共享挑戰(zhàn),是實現整個聯(lián)邦政府間的信息描述、發(fā)現、管理、共享的基礎,將政府數據視為國家資產管理原則。DRM用于識別聯(lián)邦政府擁有哪些數據以及如何根據業(yè)務任務要求共享該數據。DRM采取三級分類(圖3),最頂級為域(4項),依次為主題(22項)和專題(144項)。需要注意的是,DRM分類標準不是固定不變的。相反,它具有靈活性和可擴展性,隨著聯(lián)邦政府業(yè)務模式的變化,可以添加新的主題和專題,也允許機構根據需要將主題進一步分解為機構特定的業(yè)務流程。
圖3 DRM分類Fig.3 Date reference model classification
DRM指出,參與美國聯(lián)邦政府首席信息官委員會(COI)的機構和組織對數據進行分類,通過定義、編寫和發(fā)布潛在用戶可以看到和訪問的分類元數據,發(fā)現共享信息,繼而實現數據服務的目標。根據數據的業(yè)務支撐特性和應用范圍,自下而上將元數據劃分為6類,即數據概念、數據交換、數據資產、專題、主題、域。需要明確的是數據資產不是DRM分類標準,但是其可按DRM分類法進行分類。此外,數據使用者可以訂閱數據注冊表中發(fā)布的主題,增強數據發(fā)現。一旦分享數據注冊表,這些分類將成為數據發(fā)現的有效工具,促進數據分享和復用。
伴隨著我國大氣污染的防治歷程從起步、發(fā)展、轉型到攻堅階段,大氣環(huán)境監(jiān)測作為重要的科技支撐體系,更是得到迅速發(fā)展,監(jiān)測技術、設備和手段日趨多樣化,并逐漸具有了重要的國際影響力。在大氣重污染成因與治理攻關項目(簡稱大氣攻關項目)中,專門組建了立體觀測網,集業(yè)務化觀測網、組分觀測網、超級站觀測網、雷達網、衛(wèi)星觀測于一體[19-20]。此外,在線監(jiān)控系統(tǒng)和天空地立體遙測技術為企業(yè)監(jiān)管提供了先進的技術手段[21]。伴隨著基于物聯(lián)網傳感器的自動化監(jiān)測技術與設備的普及和多樣化,大氣環(huán)境科學領域的數據量呈井噴式增長,其中僅空氣質量監(jiān)測數據在2015年底就已經超過10 TB[22],呈現典型的大數據特征。
大氣環(huán)境數據資源共享的目標是對項目產出的多源數據在線集成、統(tǒng)一管理和全面共享[23]。大氣攻關項目設5個研究部——大氣重污染來源與成因、排放現狀評估和強化管控、綜合科學決策支撐、大氣污染對人群健康影響以及城市研究部,在研究架構設計上為專題—課題—子課題三級科研體系,28個研究方向,從大氣重污染三大因素——污染排放、氣象條件和區(qū)域傳輸入手,對污染來源、排放強度、時間分布、行業(yè)分布開展精細化、定量化研究。針對上述業(yè)務需求,需要整合全社會資源,引入覆蓋天空地一體化的大氣環(huán)境領域的科學監(jiān)測數據和各類統(tǒng)計調查數據,并進行科學性、系統(tǒng)化分類。
大氣攻關項目組匯交的數據具有如下特征:1)數據來源復雜,既有來自研究機構(中國環(huán)境監(jiān)測總站和立體觀測網)的監(jiān)測觀測數據,包括空氣質量、顆粒物組分、激光雷達監(jiān)測文件等;也有課題組和政府發(fā)布的調查數據(以文件的形式提交),科研產出成果(如研究報告、論文、信息系統(tǒng)、模擬數據),外部必需數據(如污染源排放、氣象、標準規(guī)范、基礎數據等)。2)數據結構多樣、數據量大、時效性強,指標表達方式多樣化。3)數據采集手段呈先進性和多樣性并重,合規(guī)性不一。綜上,大氣領域研究的技術、方法和數據已經發(fā)生巨大的變革,傳統(tǒng)的分類體系既不適應也不能準確反映科研領域研究及科研數據的變化特征。需要根據業(yè)務需求,開發(fā)易于理解、面向精準化數據集的分類體系。
對行業(yè)大數據分類體系建設要堅持實用性、科學性、均衡性等原則?;贔EA框架數據類目業(yè)務化、資源化原則,定位于數據發(fā)現路徑設計,提升多元異構海量數據的檢索效率,采用分面分類法建立大氣環(huán)境數據資源分類體系。在分面分類結構中,等級分類采用經典方法,以環(huán)境信息分類法的類目層次為基礎,其一按照實際采集的綜合科研數據種類進行類目的擴充和細化,保證分類體系的完整性;其二根據數據對業(yè)務的必要性調整類目層級,保持分類體系結構的一致性;其三在平面結構的劃分上,依據數據特征(如結構化特征、時間特征)和用戶習慣等進行面分類。針對平臺數據來源和種類,建立元數據及注冊服務,在元數據中增加分類,便于數據發(fā)現。同時基于元數據,提供信息查詢服務。
依據《大氣重污染成因與治理攻關項目數據管理辦法》《大氣重污染成因與治理攻關項目數據管理技術規(guī)定》,參照HJT 417—2007框架體系,建立了標準化大氣環(huán)境科學數據分類體系和資源目錄(表2)。該分類體系充分考慮了大氣環(huán)境數據存在的來源廣、類型雜、規(guī)模小、分類難等問題,根據環(huán)境信息分類與編碼的有效范圍和容量,確定大氣環(huán)境科學的具體分類方法和結構,為綜合數據的規(guī)范化管理、構建歸一化數據集奠定了基礎。
在進行大氣環(huán)境科學綜合數據采集與共享平臺的建設中,為打破數據孤島,讓多源異構數據更易被發(fā)現和使用,支撐科研機構的業(yè)務探索需求,對大氣環(huán)境科學綜合的業(yè)務數據集提供基于類目體系的元數據目錄注冊和發(fā)布服務。元數據注冊服務包括來源信息、基礎信息、描述信息、質量信息(圖4)。通過元數據發(fā)布及相應的檢索工具——元數據搜索引擎和資源目錄,為匯交的海量多源異構數據建立具有可操作性的多種知識發(fā)現途徑。
建立基于元數據的Solr企業(yè)搜索引擎[24],提供信息查詢服務。鑒于平臺信息既有存儲在數據庫中的結構化數據,也有附載在文本、視頻等文件中的非結構化信息,且存儲比較分散,迫切需要構建一個企業(yè)搜索引擎,以便讓科研人員更方便、快速地查找信息。Solr是目前比較流行的、用于構建全文搜索引擎的先進技術,故用Solr作為構建企業(yè)搜索引擎的技術支持,其查詢效果如圖5所示。由圖5可見,基于類目體系的全文檢索結果可讓用戶更快地找到支撐業(yè)務的相關數據。未來,基于語義深度學習的推薦系統(tǒng)將會與分類體系互為助力,使大數據的業(yè)務驅動功能發(fā)揮得更加顯著。
表2 大氣環(huán)境科學數據資源目錄
圖4 元數據注冊信息Fig.4 Metadata registration information
圖5 基于元數據的搜索引擎查詢效果Fig.5 Search engine based on metadata
(1)隨著知識載體和傳播方式的改變,分類法發(fā)生從知識組織到知識發(fā)現的功能轉變。
(2)隨著網絡信息、知識社區(qū)和政府信息共建共享的不斷發(fā)展,分類法從傳統(tǒng)的學科分類法向面向業(yè)務的主題分類法發(fā)展。
(3)基于業(yè)務分析,建立了11個大類的大氣環(huán)境綜合數據分類體系,制定元數據注冊表,提供全文檢索服務,滿足大數據使用特點。