摘 要:元數(shù)據(jù)作為一種較為先進(jìn)的數(shù)據(jù)管理手段,在國際上已經(jīng)得到了廣泛的應(yīng)用。隨著統(tǒng)計(jì)信息化的逐步推進(jìn),統(tǒng)計(jì)元數(shù)據(jù)建設(shè)也逐步提上日程。本文通過梳理元數(shù)據(jù)的概念,立足于江西統(tǒng)計(jì)工作實(shí)際,應(yīng)用現(xiàn)代的信息化技術(shù),提出了建設(shè)本省元數(shù)據(jù)系統(tǒng)的設(shè)想,以更好地服務(wù)于江西統(tǒng)計(jì)工作。
關(guān)鍵詞:元數(shù)據(jù);統(tǒng)計(jì)信息化;行業(yè)標(biāo)準(zhǔn)
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2018)08-0025-03
Abstract:As a relatively advanced data management method,metadata has been widely used in the world. With the gradual advancement of statistical informatization,the construction of statistical metadata is gradually on the agenda. This article through the concept of combing metadata,based on the actual situation of statistical work in Jiangxi,the application of modern information technology,put forward the idea of building the provinces metadata system,to better serve the statistical work in Jiangxi.
Keywords:metadata;statistical informatization;industry standard
0 引 言
元數(shù)據(jù)是定義和描述其他數(shù)據(jù)的數(shù)據(jù)。依據(jù)《國家統(tǒng)計(jì)調(diào)查元數(shù)據(jù)標(biāo)準(zhǔn)》(國統(tǒng)辦設(shè)管字[2016]29號),通過建立統(tǒng)計(jì)元數(shù)據(jù)庫系統(tǒng),使所有的基層數(shù)據(jù)和宏觀數(shù)據(jù)都能夠被正確地描述和存儲,避免在數(shù)據(jù)流轉(zhuǎn)過程中出現(xiàn)信息丟失或轉(zhuǎn)義等錯誤。這對于增強(qiáng)統(tǒng)計(jì)數(shù)據(jù)的可解釋性、準(zhǔn)確性和一致性,提高統(tǒng)計(jì)工作的標(biāo)準(zhǔn)化水平,以及推進(jìn)統(tǒng)計(jì)信息化具有重要的意義。
1 目前國內(nèi)外已經(jīng)建立的元數(shù)據(jù)規(guī)范
(1)DDI(Data Documentation Initiative):針對社會科學(xué)領(lǐng)域,較貼近統(tǒng)計(jì),國際住戶調(diào)查案例較成熟,對統(tǒng)計(jì)抽樣調(diào)查規(guī)范具有很好的啟示作用;
(2)ISO/IEC 11179:針對社會組織,適合描述微觀數(shù)據(jù),并跟蹤其變動情況;
(3)SDMX(ISO 17369:2013):主要由國際金融機(jī)構(gòu)發(fā)起,人民銀行發(fā)布的行業(yè)標(biāo)準(zhǔn)(JR/T 0107.1~7-2014);
(4)GSIM(Generic Statistical Information Model):屬于概念模型,適于描述政府統(tǒng)計(jì)產(chǎn)品全過程;
(5)GSBPM(The Generic Statistical Business Process Model):用于描述統(tǒng)計(jì)業(yè)務(wù)流程模型;
(6)GILS(Global Information Locator Service):針對政府/組織,適合描述信息資源定位與檢索;
(7)Dublin Core:針對數(shù)字圖書館,對描述我們的統(tǒng)計(jì)文檔有借鑒意義;
(8)FGDC、CEN/TC287、ISO/TC211:空間元數(shù)據(jù)標(biāo)準(zhǔn)的三個組織和規(guī)范;
(9)CWM(Common Warehouse Metamodel):用于數(shù)據(jù)倉庫構(gòu)建和應(yīng)用的元數(shù)據(jù)建模;
(10)RDF(Resource Description Framework):使用XML語法和RDF Schema(RDFS),將元數(shù)據(jù)描述成為數(shù)據(jù)模型。
2 統(tǒng)計(jì)元數(shù)據(jù)庫的設(shè)計(jì)思路
按照國際標(biāo)準(zhǔn),元數(shù)據(jù)大致可分為3種類型:描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和管理性元數(shù)據(jù)。
(1)描述性元數(shù)據(jù):用以描述和識別數(shù)字對象的特征、分析信息體知識內(nèi)容的數(shù)據(jù);
(2)結(jié)構(gòu)性元數(shù)據(jù):用于確保數(shù)字化對象正常發(fā)揮功能的技術(shù)性信息;
(3)管理型元數(shù)據(jù):提供有關(guān)數(shù)字對象的存儲條件和轉(zhuǎn)換過程相關(guān)的信息。
3 統(tǒng)計(jì)元數(shù)據(jù)庫的設(shè)計(jì)原則
(1)一致性原則。在元數(shù)據(jù)設(shè)計(jì)過程中,應(yīng)保持與現(xiàn)有的國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)或者其他國際標(biāo)準(zhǔn)相一致;
(2)準(zhǔn)確性原則。在元數(shù)據(jù)設(shè)計(jì)過程中,應(yīng)盡可能全面細(xì)致地描述數(shù)字對象,滿足統(tǒng)計(jì)業(yè)務(wù)人員的專業(yè)需求,避免元數(shù)據(jù)描述與實(shí)際出現(xiàn)歧義;
(3)簡單性原則。在滿足準(zhǔn)確性原則的基礎(chǔ)上,設(shè)計(jì)的元數(shù)據(jù)在實(shí)際應(yīng)用時應(yīng)易于掌握,方便理解,這將有助于專業(yè)技術(shù)人員在編寫制度、基層表和匯總表時,更好更快地完成任務(wù);
(4)可擴(kuò)展性原則。統(tǒng)計(jì)業(yè)務(wù)在不斷地發(fā)展,統(tǒng)計(jì)標(biāo)準(zhǔn)的更新以及指標(biāo)概念的重新定義將導(dǎo)致原有的元數(shù)據(jù)在描述上變得不準(zhǔn)確,所以在元數(shù)據(jù)設(shè)計(jì)過程中,應(yīng)允許在原來的元數(shù)據(jù)定義上擴(kuò)充一些屬性值,以滿足新的統(tǒng)計(jì)標(biāo)準(zhǔn);
(5)可遷移性原則。建立的統(tǒng)計(jì)元數(shù)據(jù)庫,應(yīng)當(dāng)可以在不同的統(tǒng)計(jì)業(yè)務(wù)系統(tǒng)中應(yīng)用,具備一定的可遷移性。
4 統(tǒng)計(jì)元數(shù)據(jù)庫的標(biāo)準(zhǔn)技術(shù)框架
統(tǒng)計(jì)元數(shù)據(jù)庫標(biāo)準(zhǔn)技術(shù)框架包括元素定義、核心元素集、描述規(guī)范、語法機(jī)構(gòu)和擴(kuò)展規(guī)則。
(1)元素是統(tǒng)計(jì)元數(shù)據(jù)體系中的業(yè)務(wù)對象,可以小到單位名稱,可以是指標(biāo),也可以是制度等。元素之間具有關(guān)聯(lián)關(guān)系,比如制度包含報表,報表包含指標(biāo)等。元素定義是對元素進(jìn)行各種屬性的約定。元素的屬性具有可擴(kuò)展性,根據(jù)業(yè)務(wù)需要進(jìn)行擴(kuò)展。比如,“單位名稱”的屬性除了字段類型、長度等外,可以擴(kuò)展編碼屬性等;
(2)核心元素集是針對統(tǒng)計(jì)業(yè)務(wù)實(shí)際形成的基礎(chǔ)的、穩(wěn)定的和關(guān)鍵的元素集合。比如制度、報表、指標(biāo)、分組、目錄和方法等涉及的元素集合都是統(tǒng)計(jì)業(yè)務(wù)中的核心元素集;
(3)描述規(guī)范保證統(tǒng)計(jì)元數(shù)據(jù)體系形式上的統(tǒng)一和規(guī)范,通常采用XML或Json等格式進(jìn)行內(nèi)容描述,采用DTD、XML Schemas等文件進(jìn)行規(guī)范描述;
(4)語法結(jié)構(gòu)是利用某些技術(shù)手段形成的元數(shù)據(jù)定義和關(guān)聯(lián)關(guān)系等的統(tǒng)一、規(guī)范、一致的語法結(jié)構(gòu),保證元數(shù)據(jù)體系能夠適應(yīng)業(yè)務(wù)變化的需求,而不會造成混亂。例如:
(5)元數(shù)據(jù)體系需要建立擴(kuò)展機(jī)制和規(guī)則,靈活適應(yīng)統(tǒng)計(jì)業(yè)務(wù)的變化需求。例如:
(6)技術(shù)框架。借鑒國內(nèi)外現(xiàn)有元數(shù)據(jù)規(guī)范,結(jié)合國內(nèi)統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用的實(shí)際特點(diǎn)制定。針對統(tǒng)計(jì)調(diào)查對象、基層數(shù)據(jù)、宏觀數(shù)據(jù)、文檔資料和空間數(shù)據(jù)等信息制定元數(shù)據(jù)規(guī)范。建立調(diào)查對象、統(tǒng)計(jì)制度、統(tǒng)計(jì)報表、統(tǒng)計(jì)指標(biāo)、分組/目錄、空間數(shù)據(jù)等統(tǒng)計(jì)要素之間的關(guān)聯(lián)關(guān)系,形成統(tǒng)一、規(guī)范、可自解釋的統(tǒng)計(jì)數(shù)據(jù)資源視圖;建立元數(shù)據(jù)頂層管理規(guī)范,包括元數(shù)據(jù)注冊、審批和發(fā)布等;開發(fā)元數(shù)據(jù)編輯、管理和發(fā)布等軟件工具;為統(tǒng)計(jì)信息交換、存儲、處理、分析和發(fā)布等環(huán)節(jié)奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),統(tǒng)計(jì)元數(shù)據(jù)技術(shù)框架如圖1所示。
5 統(tǒng)計(jì)元數(shù)據(jù)庫的標(biāo)準(zhǔn)體系設(shè)計(jì)
面對數(shù)據(jù)資源來源廣泛、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)標(biāo)準(zhǔn)不一致等問題和挑戰(zhàn),需要設(shè)計(jì)面向數(shù)據(jù)資源處理的元數(shù)據(jù)規(guī)范。具體數(shù)據(jù)資源處理元數(shù)據(jù)規(guī)范涉及制度、報表、指標(biāo)、目錄、分組和方法等內(nèi)容。下面以制度元數(shù)據(jù)規(guī)范為例,制度元數(shù)據(jù)定義規(guī)范如表1所示。
參考文獻(xiàn):
[1] 胡帆.中國統(tǒng)計(jì)元數(shù)據(jù)的構(gòu)成及初步詮釋 [J].中國統(tǒng)計(jì),2008(11):6-8.
[2] 上海市統(tǒng)計(jì)局課題組.建設(shè)上海統(tǒng)計(jì)元數(shù)據(jù)研究 [J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2014(5):36-38.
[3] 馮甲策.博物館元數(shù)據(jù)規(guī)范建設(shè)與應(yīng)用 [J].現(xiàn)代信息科技,2017,1(3):17-19.
[4] 朱榮.基于信息組織技術(shù)的數(shù)字圖書館服務(wù) [J].現(xiàn)代信息科技,2018,2(3):124-125+127.
作者簡介:鄧帥(1983-),男,漢族,江西南昌人,工程師,學(xué)士。研究方向:元數(shù)據(jù)。