趙 仁 鈴
(南京大學(xué)信息管理系 南京 210093)
基于非技術(shù)途徑的元數(shù)據(jù)互操作研究究*
趙 仁 鈴
(南京大學(xué)信息管理系 南京 210093)
在數(shù)字圖書館建設(shè)的過程中,出現(xiàn)了多種元數(shù)據(jù)格式,元數(shù)據(jù)之間的互操作問題日益突出。本文從制度及規(guī)范等非技術(shù)途徑的視角,分析元數(shù)據(jù)互操作的解決方案。
元數(shù)據(jù) 互操作 規(guī)范
在數(shù)字圖書館建設(shè)的過程中,出現(xiàn)了不少分布式的、基于多種編碼體系的、基于不同元數(shù)據(jù)規(guī)范的數(shù)字資源應(yīng)用系統(tǒng),這對給用戶提供統(tǒng)一的信息資源服務(wù)造成了一定的困難。為消除數(shù)字資源結(jié)構(gòu)化的差異,給用戶提供全面、準(zhǔn)確而又便捷的信息檢索服務(wù),需要實現(xiàn)數(shù)字資源系統(tǒng)之間的互操作,進而達到數(shù)字資源的共建共享與統(tǒng)一服務(wù)。從互操作實現(xiàn)的層面來看,可以從用戶發(fā)送檢索請求的層面來實現(xiàn),也可以通過OAI協(xié)議等建立通用的資源庫來解決。然而,對于大量尚未數(shù)字化的資源來說,實現(xiàn)互操作最基本的途徑應(yīng)該在元數(shù)據(jù)層面。元數(shù)據(jù)互操作涉及到制度以及元數(shù)據(jù)規(guī)范等方面,元數(shù)據(jù)規(guī)范的標(biāo)準(zhǔn)化是實現(xiàn)全球信息資源共享的基礎(chǔ)和保障。
元數(shù)據(jù)(metadata)即關(guān)于數(shù)據(jù)的數(shù)據(jù),具有描述、揭示、管理、控制、認證、保存、互操作等功能。人們在信息資源開發(fā)、利用、管理、保存等不同階段創(chuàng)建了不同功能與作用的元數(shù)據(jù),可以從不同的角度對這些功能、作用各異的元數(shù)據(jù)進行分類。在圖書情報領(lǐng)域通常把元數(shù)據(jù)分為描述性元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、管理元數(shù)據(jù)、保存元數(shù)據(jù)等[1],而不同類型的元數(shù)據(jù)對于互操作的影響是不同的。
1.1 描述性元數(shù)據(jù)
用于描述信息資源的外部與內(nèi)容特征,以便對信息資源進行有效的檢索、定位或書目控制,如MARC、DC、METS等。
1.2 結(jié)構(gòu)元數(shù)據(jù)
用于確定元數(shù)據(jù)的語法結(jié)構(gòu)或者信息單元之間的邏輯聯(lián)系,如HTML、XML等置標(biāo)語言。
1.3 管理元數(shù)據(jù)
用于對信息資源實施管理,描述信息資源管理過程中所涉及的管理信息以及由管理信息進一步揭示的管理政策與管理機制,如與信息資源的評估、選擇、使用權(quán)限、加工等有關(guān)聯(lián)的信息與相關(guān)機制。
1.4 保存元數(shù)據(jù)
以保存資源對象為開發(fā)目的,特別注重與資源對象長期保存有關(guān)的屬性。
其中與互操作關(guān)系最密切的元數(shù)據(jù)是直接描述資源對象固有屬性的描述性元數(shù)據(jù)。開發(fā)及應(yīng)用描述元數(shù)據(jù)時,遵循標(biāo)準(zhǔn)化、規(guī)范化、開放性的原則,可以增進信息系統(tǒng)的互操作性與開放性,通過共享元數(shù)據(jù),進而共享元數(shù)據(jù)所描述的信息資源。
目前已提出的元數(shù)據(jù)互操作途徑大概有下列幾種:①開發(fā)一種能夠滿足各方面需要的統(tǒng)一的標(biāo)準(zhǔn)元數(shù)據(jù)格式;②建立元數(shù)據(jù)格式間的映射機制;③采用統(tǒng)一的語法和結(jié)構(gòu)實現(xiàn)元數(shù)據(jù)格式的開放描述,例如基于XML/RDF、METS的描述;④基于協(xié)議的元數(shù)據(jù)開放搜尋技術(shù),如OAI、Z39.50協(xié)議;⑤基于由內(nèi)核和功能傳播層組成的復(fù)合數(shù)字對象技術(shù)[2];⑥基于網(wǎng)格技術(shù)[3]、本體技術(shù)[4]實現(xiàn)互操作。
其中前三種方法是和元數(shù)據(jù)本身直接相關(guān)的,后三種方法僅涉及到信息系統(tǒng)中元數(shù)據(jù)以外的相關(guān)層次,且部分技術(shù)尚未成熟。由于本文探討的是與元數(shù)據(jù)直接相關(guān)的,基于非技術(shù)途徑的元數(shù)據(jù)互操作解決方案,所以僅對前三種方法予以討論。
在各種信息資源和應(yīng)用環(huán)境之間存在復(fù)雜差異的現(xiàn)實環(huán)境下,第一種方式不可能真正適應(yīng)變化多樣的應(yīng)用;第二種方法雖然能充分利用現(xiàn)有的多種元數(shù)據(jù)格式,但面對日益增加的元數(shù)據(jù)格式和豐富多樣的元素語義,它的實現(xiàn)成本很高且轉(zhuǎn)換準(zhǔn)確性難以保證;第三種方法只是從結(jié)構(gòu)和編碼方式上保證各種元數(shù)據(jù)格式有統(tǒng)一的表達方式,卻不能真正實現(xiàn)面向用戶的一致性服務(wù)。
根據(jù)上述情況,可以將傳統(tǒng)書目工作中的書目規(guī)范、書目控制概念引入數(shù)字資源元數(shù)據(jù)方案并加以適當(dāng)拓展,從制度以及元數(shù)據(jù)規(guī)范等非技術(shù)層面進行控制,為元數(shù)據(jù)互操作提供便利[5]。具體可以從以下三方面實現(xiàn):
2.1 制定具有普適意義的“元數(shù)據(jù)規(guī)范”以規(guī)范元數(shù)據(jù)的開發(fā)工作
國際標(biāo)準(zhǔn)化組織制定的《數(shù)據(jù)元素的規(guī)范化和標(biāo)準(zhǔn)化》(ISO11179標(biāo)準(zhǔn))對元數(shù)據(jù)的元素定義提出了規(guī)范和控制,為元數(shù)據(jù)的開放式定義奠定了基礎(chǔ)。而國際圖聯(lián)在《國際標(biāo)準(zhǔn)書目著錄》(ISBDs)的研發(fā)工程中,為更好地適應(yīng)復(fù)雜的應(yīng)用需求,采用了先研制總則再研制分則,逐步建立起完整、規(guī)范的開發(fā)體系的辦法。而我國“數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)”(CDLS)項目也提出了以《基本數(shù)字對象描述元數(shù)據(jù)規(guī)范》中的元素為核心集,向各個具體應(yīng)用領(lǐng)域擴展,從而形成專門領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)規(guī)范。關(guān)于如何制定具有普適意義的“元數(shù)據(jù)規(guī)范”,文章第三部分將會詳細展開,此處不再贅述。
2.2 建立元數(shù)據(jù)共建共享的重要機制——元數(shù)據(jù)開放登記機制(Open Registry)
開放登記就是建立一個公開的網(wǎng)站,提供各種元數(shù)據(jù)格式的權(quán)威定義和用法等信息,其它用戶可以申請注冊新的元數(shù)據(jù)格式、增加或修改元素的定義、注冊新的規(guī)范詞表及編碼方案等,逐漸使元數(shù)據(jù)格式更加規(guī)范和成熟,并且提供元數(shù)據(jù)格式、元素、修飾詞的檢索機制[6]。各使用單位可根據(jù)本地需要增減、組合元素和修飾詞,調(diào)整元素的定義和用法,從而制定出本地的元數(shù)據(jù)應(yīng)用方案。這樣不僅避免了從頭開發(fā)元數(shù)據(jù)方案的重復(fù)勞動,而且由于大家的應(yīng)用方案都基于相同的元數(shù)據(jù)規(guī)范,因此非常有利于元數(shù)據(jù)的互操作。目前已經(jīng)建立的著名的開放登記機制有DC Registry、DESIRE MetadataRegistry和 Schemas Registry等。
2.3 鼓勵元數(shù)據(jù)復(fù)用(Metadata Reuse)
當(dāng)進行一個新系統(tǒng)的元數(shù)據(jù)設(shè)計時,關(guān)鍵不是重新創(chuàng)建元數(shù)據(jù)標(biāo)準(zhǔn),而是怎樣從現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)中發(fā)現(xiàn)和選擇合適的元素形成自己的應(yīng)用規(guī)范(Application Profile)[7],即元數(shù)據(jù)復(fù)用——通過不同方法復(fù)用一個或若干元數(shù)據(jù)格式的部分元素或修飾詞,形成一個元數(shù)據(jù)應(yīng)用規(guī)范,以便描述復(fù)雜對象、擴展元數(shù)據(jù)格式適用范圍、兼容不同元數(shù)據(jù)、促進元數(shù)據(jù)的互操作。
3.1 何為規(guī)范
規(guī)范,即對于某一工程作業(yè)或者行為進行定性的信息規(guī)定。之所以被稱為規(guī)范,主要是因為無法精準(zhǔn)定量的形成標(biāo)準(zhǔn)。良好的元數(shù)據(jù)規(guī)范是成功建設(shè)數(shù)字資源的重要前提,其應(yīng)包括格式定義、語義定義、開放標(biāo)記規(guī)范、內(nèi)容編碼體系、擴展規(guī)則、與現(xiàn)有主要元數(shù)據(jù)規(guī)范的轉(zhuǎn)換關(guān)系和轉(zhuǎn)換模板、元數(shù)據(jù)登記管理機制等。
關(guān)于標(biāo)準(zhǔn)規(guī)范制定的環(huán)境,國內(nèi)外不同標(biāo)準(zhǔn)組織之間存在一定的差別。ISO等傳統(tǒng)標(biāo)準(zhǔn)組織一般遵循相同的標(biāo)準(zhǔn)制定流程,各個階段有嚴格的時間期限,標(biāo)準(zhǔn)制訂周期相對比較長,更新速度比較慢,進程管理比較嚴格。自由結(jié)合標(biāo)準(zhǔn)組織(如OASIS、DCMI)標(biāo)準(zhǔn)規(guī)范制訂流程相對比較寬松,更新速度比較快。而我國標(biāo)準(zhǔn)規(guī)范的制定具有明顯的“政府主導(dǎo)”特色,一般由標(biāo)準(zhǔn)主管部門或行政主管部門提出,企業(yè)參與較少,標(biāo)準(zhǔn)化協(xié)會或其他相關(guān)學(xué)術(shù)團體一般隸屬于政府機構(gòu)。在政府職能和企業(yè)地位已經(jīng)發(fā)生重大變化的今天,我國需要借鑒國外標(biāo)準(zhǔn)組織的先進經(jīng)驗,形成標(biāo)準(zhǔn)規(guī)范的開放建設(shè)機制,通過合作避免重復(fù)建設(shè)[8]。
3.2 為何規(guī)范
在對數(shù)字資源研究的過程中,我們不能只重點研究技術(shù)、資源數(shù)字化以及服務(wù)模式,而更應(yīng)該關(guān)注與數(shù)字資源建設(shè)有密切關(guān)系的標(biāo)準(zhǔn)規(guī)范問題。如果標(biāo)準(zhǔn)規(guī)范不統(tǒng)一,數(shù)字資源將很難實現(xiàn)共建共享。標(biāo)準(zhǔn)化問題是數(shù)字資源建設(shè)的關(guān)鍵問題之一,而元數(shù)據(jù)規(guī)范又是標(biāo)準(zhǔn)化問題的核心。目前,無論是國外還是國內(nèi),元數(shù)據(jù)并沒有統(tǒng)一的標(biāo)準(zhǔn)屬性,沒有規(guī)范的著錄格式,它的形式非常靈活,范圍很廣,因而在標(biāo)準(zhǔn)化方面存在著很多問題[9]。
首先,各數(shù)字圖書館及其它信息提供單位遵循不同的元數(shù)據(jù)標(biāo)準(zhǔn),依據(jù)不同的標(biāo)準(zhǔn)對相同類型的資料進行元數(shù)據(jù)提取和著錄,如DC、MARC等。不同的領(lǐng)域也有不同的元數(shù)據(jù)標(biāo)準(zhǔn),如檔案領(lǐng)域的EAD、地理空間信息的DGM等。
其次,某些元數(shù)據(jù)規(guī)范中同一元素的著錄內(nèi)容上存在著較大差異,在有些元素之間存在著語義交叉與涵蓋的情況。這樣的情形不僅會引起互操作的困難,也會引起本身元數(shù)據(jù)著錄前后的不一致性,影響元數(shù)據(jù)描述的質(zhì)量。
第三,不同的使用者在著錄階段對元素修飾詞的理解還有些出入,對于修飾詞的取值范圍也有所不同。
另外,各個元數(shù)據(jù)所采用的編碼語言也不盡相同。如EAD等使用SGML,DC使用HTML或者XML。
而要在元數(shù)據(jù)的層面解決這些問題,需要在元數(shù)據(jù)規(guī)范的制定階段就充分考慮到其互操作性。
3.3 如何規(guī)范
國內(nèi)元數(shù)據(jù)的研究與應(yīng)用應(yīng)避免從頭開始設(shè)計自己專用元數(shù)據(jù)格式的做法,而要遵循標(biāo)準(zhǔn)、開放和可擴展的原則,充分引進并利用一些成熟規(guī)范的編碼體系,并將其中的元素有機地加以組合,從而形成適應(yīng)具體需求與中文資源特點的應(yīng)用規(guī)范,提高互操作性。所謂元數(shù)據(jù)的互操作性,是指在由不同的組織制定與管理且技術(shù)規(guī)范不盡相同的元數(shù)據(jù)環(huán)境下,要向用戶提供一個統(tǒng)一的數(shù)據(jù)檢索界面,確保系統(tǒng)對用戶的一致性服務(wù)。從互操作性的角度考慮,制定元數(shù)據(jù)規(guī)范時有如下原則:
第一,互操作性原則:元數(shù)據(jù)方案的立足點常常就是解決互操作問題,許多原則實際上都是從一個側(cè)面或從一定程度上解決互操作問題,所以“互操作性”原則可以說是元數(shù)據(jù)方案設(shè)計和實現(xiàn)中需要遵循的最重要的原則之一[10]。
第二,遵循標(biāo)準(zhǔn)原則:通過符合元數(shù)據(jù)標(biāo)準(zhǔn)或協(xié)議而達到“互操作”是效率最高、最易實施的,因此遵循現(xiàn)有標(biāo)準(zhǔn)對于實現(xiàn)互操作至關(guān)重要。
第三,簡單性原則:要求元數(shù)據(jù)方案盡可能采用精簡的基本集,以降低成本,加快實現(xiàn)進度,并有利于互操作的實現(xiàn)[11]。
第四,復(fù)用性原則:通過盡可能復(fù)用標(biāo)準(zhǔn)方案、復(fù)用元素或復(fù)用修飾詞及擴展方式,以及建立映射、轉(zhuǎn)換機制等方式來達成互操作性[10]。
第五,易轉(zhuǎn)換性原則:在具體應(yīng)用上,互操作性表現(xiàn)為易轉(zhuǎn)換性,即在所攜信息損失最小的前提下,可方便地轉(zhuǎn)換為其它系統(tǒng)常用的元數(shù)據(jù)。這要求在設(shè)計元數(shù)據(jù)標(biāo)準(zhǔn)時要非常慎重地考慮元數(shù)據(jù)標(biāo)準(zhǔn)定義的元素的語義定義和元數(shù)據(jù)結(jié)構(gòu)兩個重要的方面,其中與目前較為通行的、被廣泛支持的元數(shù)據(jù)標(biāo)準(zhǔn)的語義定義保持一致更為重要[11]。
另外可以建立獨立于特定編碼語法的元數(shù)據(jù)抽象模型(Metadata Abstract Model)作為元數(shù)據(jù)應(yīng)用的參考模型,并對編碼對象的屬性描述進行規(guī)范,從而有助于保持元數(shù)據(jù)方案的一致性,使不同編碼語法之間更好地映射和翻譯,并有助于元數(shù)據(jù)方案的互操作。
3.4 國內(nèi)元數(shù)據(jù)規(guī)范研究進展
近年來,我國數(shù)字資源元數(shù)據(jù)規(guī)范的建設(shè)已從研究探索進入實際應(yīng)用與發(fā)展階段。部分數(shù)字圖書館建設(shè)單位已經(jīng)提出了相應(yīng)的元數(shù)據(jù)規(guī)范,例如國家圖書館的中文元數(shù)據(jù)規(guī)范、北京大學(xué)的拓片元數(shù)據(jù)規(guī)范、清華大學(xué)的建筑元數(shù)據(jù)規(guī)范、上海圖書館的數(shù)字圖書館元數(shù)據(jù)方案、國家科學(xué)數(shù)字圖書館學(xué)科信息門戶系統(tǒng)的資源導(dǎo)航元數(shù)據(jù)規(guī)范等。我國“數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)”項目(CDLS)采用開放元數(shù)據(jù)機制,遵循“模塊化”、“可擴展性”、“分布性”、“遞歸性”四大原則。該機制構(gòu)建的元數(shù)據(jù)格式系統(tǒng)有一個基本核心元數(shù)據(jù)集,在此之上的應(yīng)用層有一系列標(biāo)準(zhǔn)的擴展規(guī)則和機制。該項目的成果《基本數(shù)字對象描述元數(shù)據(jù)規(guī)范》和《專門數(shù)字對象描述元數(shù)據(jù)規(guī)范設(shè)計指南》等,可用于指導(dǎo)元數(shù)據(jù)規(guī)范的設(shè)計。
在此基礎(chǔ)上,產(chǎn)生了一批面向特定資源設(shè)計的元數(shù)據(jù)規(guī)范,如CALIS虛擬咨詢知識庫元數(shù)據(jù)規(guī)范、數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)范、多媒體資源元數(shù)據(jù)規(guī)范、古籍元數(shù)據(jù)規(guī)范、語料庫元數(shù)據(jù)規(guī)范、資源整合門戶的電子圖書描述元數(shù)據(jù)規(guī)范等。
《基本數(shù)字對象描述元數(shù)據(jù)規(guī)范》中的基本元數(shù)據(jù)是關(guān)于元數(shù)據(jù)的核心集,是根據(jù)數(shù)字對象的共同特點確定的基本元數(shù)據(jù)集合,是各領(lǐng)域元數(shù)據(jù)集互操作的一個基礎(chǔ)集。各專門領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)需要按照基本數(shù)字對象元數(shù)據(jù)描述標(biāo)準(zhǔn)的核心元素集和相關(guān)規(guī)則的框架上開發(fā)。而對于已經(jīng)有的各種元數(shù)據(jù)標(biāo)準(zhǔn),需要建立與基本元數(shù)據(jù)的映射,從而為實現(xiàn)各種元數(shù)據(jù)之間的互操作奠定基礎(chǔ)。
總的來說,國內(nèi)元數(shù)據(jù)規(guī)范在近年來的建設(shè)中,充分考慮到了元數(shù)據(jù)的互操作性原則以及由其引申出的其它原則,并正在逐步形成完整的元數(shù)據(jù)規(guī)范體系。
在數(shù)字資源建設(shè)過程中,數(shù)字化資源包括已有的大量異構(gòu)的數(shù)字化資源和有待數(shù)字化的傳統(tǒng)信息資源。對于后者,可以通過上文提到的制度以及規(guī)范的層面來解決元數(shù)據(jù)互操作問題;而對于前者,更多的需要從技術(shù)層面解決元數(shù)據(jù)互操作問題,這也將是后續(xù)研究的重點。
[1] 國家圖書館.國家圖書館管理元數(shù)據(jù)規(guī)范[OL].[2010-8-19].http://www5.nlc.gov.cn/sztsg/2qgc/sjym/files/gtglysjgf.pdf.
[2] 朱 超.關(guān)于元數(shù)據(jù)互操作的探討[J].情報理論與實踐,2005,28(6):644-647,655.
[3] 鄭志蘊,宋瀚濤,牛振東.數(shù)字圖書館元數(shù)據(jù)互操作機制的研究[J].計算機應(yīng)用,2005,25(3):699-702.
[4] 張 東.論元數(shù)據(jù)互操作的層次[J].情報理論與實踐,2005,28(6):648-650.
[5] 羅 昊.互操作——數(shù)字圖書館元數(shù)據(jù)方案的關(guān)鍵[J].情報雜志,2003(12):32-33,36.
[6] 姜愛蓉,牛金芳,鄭小惠.基本數(shù)字對象描述元數(shù)據(jù)現(xiàn)狀與發(fā)展[R]. [2010-05-17].http://cdls.nstl.gov.cn/.
[7] 韓 夏,李秉嚴.元數(shù)據(jù)的互操作研究[J].情報科學(xué),2004,22(7):812-814,877.
[8] 沈玉蘭,張愛霞.管理元數(shù)據(jù)發(fā)展趨勢研究報告[R]. [2010-05-17].http://cdls.nstl.gov.cn/.
[9] 陳虹濤,李志俊.元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范及其互操作性[J].情報雜志,2005(7):93-95.
[10] 劉煒,姜愛蓉,馬文峰等.基本元數(shù)據(jù)應(yīng)用規(guī)范[R]. [2010-05-17].http://cdls.nstl.gov.cn/.
[11] 肖 瓏,馮項云,沈蕓蕓等.專門數(shù)字對象描述元數(shù)據(jù)規(guī)范設(shè)計指南[R]. [2010-05-17]. http://cdls.nstl.gov.cn/.
ResearchonMetadataInteroperabilityBasedontheNon-technologicalApproach
Zhao Renling
Information Management Department, Nanjing University, Nanjing 210093, China
There appear several kinds of metadata during the development of digital libraries and the interoperability among the metadata is becoming more and more important. In this paper, the way of realizing interoperability among the metadata is discussed from the angle of the non-technological approach including the aspects of institution and regulation.
metadata; interoperability; regulation
*本文系國家社會科學(xué)基金項目“數(shù)字圖書館管理體制與發(fā)展模式研究”(項目編號:10BTQ005)與國家“863”計劃項目“基于高可信網(wǎng)絡(luò)的數(shù)字內(nèi)容服務(wù)系統(tǒng)開發(fā)及示范”子課題“多網(wǎng)絡(luò)終端條件下的圖書館數(shù)字資源服務(wù)模式”研究成果之一
G250.76
趙仁鈴,女,1983年生,南京大學(xué)研究生院正科級科員,助理研究員,發(fā)表論文3篇。