[摘 要]文化遺產(chǎn)資源的異構(gòu)性和保存機構(gòu)的多樣性,決定了文化遺產(chǎn)領(lǐng)域元數(shù)據(jù)標(biāo)準的多樣性。為了滿足為異構(gòu)信息資源提供統(tǒng)一存取的信息系統(tǒng)的需求,論文介紹了基于本體的元數(shù)據(jù)集成方法,提出了以CIDOC CRM為中介機制的元數(shù)據(jù)集成方案,并以DC為例,詳細介紹了DC與CIDOC CRM之間的映射。
[關(guān)鍵詞]元數(shù)據(jù)集成;CIDOC CRM;本體;文化遺產(chǎn);DC
[中圖分類號]G25076 [文獻標(biāo)識碼]B [文章編號]1008-0821(2010)05-0060-04
Metadata Integration Based on CIDOC CRM in Culture Heritage Collections
——With the Mapping of DC as an ExampleChen Yan Zhou Xin
(Library,Shanghai University,Shanghai 200444,China)
[Abstract]Heterogeneity is one of the main characteristics of cultural heritage collections.Such collections may be composed of heterogeneous objects,which described by a variety of metadata schemas.This paper introduced an ontology-based metadata integration approach,proposed the use of CIDOC CRM ontology as a mediating schema and described the mapping of the Dublin Core standard for different types to CIDOC CRM,demonstrating a real-world effort for ontology-based metadata integration.
[Keywords]metadata integration;CIDOC CRM;ontology;cultural heritage;DC
扮演著記憶性機構(gòu)角色的檔案館、圖書館和博物館都肩負著保存文化遺產(chǎn)實物及其相關(guān)信息的重要責(zé)任。這些記憶性機構(gòu)所保存的文化遺產(chǎn)對象產(chǎn)生于同樣的文化背景或時期,有時候擁有同樣的創(chuàng)造者。對于一件藝術(shù)品來說,作者關(guān)于它的手稿或有關(guān)它的評論等都處于同一歷史文化背景下,提供著份量相當(dāng)?shù)娜宋囊氐淖C明和可比文化特征的證據(jù)。文化遺產(chǎn)資源的這種異構(gòu)性和保存機構(gòu)的多樣性,決定了文化遺產(chǎn)領(lǐng)域元數(shù)據(jù)標(biāo)準的多樣性。而且隨著信息技術(shù)的發(fā)展,用戶對于全球存取的需求不斷增長。選擇一種體系結(jié)構(gòu)和實現(xiàn)技術(shù)將現(xiàn)有的異構(gòu)信息整合并使得以上問題得到解決是一項重要的任務(wù)。本體以計算機能夠處理的表現(xiàn)語言提供了對同一領(lǐng)域知識的共同理解,支持人與計算機之間的溝通,能夠滿足為異構(gòu)信息資源提供統(tǒng)一存取的信息系統(tǒng)的需求。因此,基于本體的元數(shù)據(jù)集成,能夠確保文化遺產(chǎn)內(nèi)容的完整性和語義網(wǎng)應(yīng)用下存取的便捷性。
1 CIDOC/CRM——概念參考模型
CIDOC概念參考模型(CIDOC Conceptual Reference Model,簡稱CIDOC CRM)是國際博物館理事會(International Council of Museums)下屬的國際文獻工作委員會(International Committee for Documentation,CIDOC)所開發(fā)的面向?qū)ο蟮母拍顓⒖寄P汀IDOC CRM對文化遺產(chǎn)的文獻信息工作中所涉及的隱性概念與顯性概念及其關(guān)系提供了定義及形式化描述,其目的是通過提供一個通用的、可擴展的語義框架以達到對文化遺產(chǎn)信息的共同理解,使文化遺產(chǎn)領(lǐng)域內(nèi)的信息交流與信息系統(tǒng)的建立擁有共同的語言[1]。因此,它同時也是文化遺產(chǎn)的領(lǐng)域知識本體,為文化遺產(chǎn)信息的標(biāo)準規(guī)范及描述架構(gòu)提供基礎(chǔ),是語義網(wǎng)環(huán)境下一個重要的信息標(biāo)準和參考模型。
CIDOC CRM模型的第一個版本于1998年發(fā)表,其開發(fā)經(jīng)歷了10余年的努力。2006年起CIDOC CRM模型已為國際標(biāo)準化組織采納成為國際標(biāo)準,標(biāo)準號為ISO 21127:2006。目前最新的版本是2009年頒布的501版。該版本定義了90個類、148個屬性,涵蓋了圍繞特定文物發(fā)生的歷史史實、人文藝術(shù)、考古遺跡、時間地點人物以及版權(quán)聲明等信息。所有的類都冠以E開頭的序號,如E1 CRM Entity[CRM實體];而屬性都冠以P開頭的序號,如P1 is identified by(identifies)。屬性連接“域”和“范圍”,定義類與類之間的特定關(guān)系。隨著模型的不斷擴展,類和屬性的數(shù)量可能還會增加。圖1顯示了CIDOC CRM核心類之間的一個層級關(guān)系。圖1 CIDOC CRM核心類的層級關(guān)系[2]
2010年5月第30卷第5期基于CIDOC CRM的文化遺產(chǎn)資源的元數(shù)據(jù)集成May,2010Vol30 No5CIDOC CRM是一個嚴格遵循知識本體原則的模型。由于有較長的歷史,所以發(fā)展得比較完善。而且,2003年成立的FRBR和CIDOC CRM國際協(xié)調(diào)工作組(International Working Group on FRBR/CIDOC CRM Harmonisation),將包括作品在內(nèi)的概念整合到CIDOC CRM中,從而進一步優(yōu)化了CIDOC CRM,使博物館界的模型可以更好地適用于大規(guī)模生產(chǎn)的現(xiàn)象[3]。此模型目前已被多個本領(lǐng)域很有影響的項目所采用[4]。
2 基于CIDOC/CRM的元數(shù)據(jù)集成
由于文化遺產(chǎn)信息的異構(gòu)性和記憶機構(gòu)的多樣性,各個機構(gòu)所采用的元數(shù)據(jù)方案不盡相同。開發(fā)一種能夠滿足各方面需要的統(tǒng)一的標(biāo)準元數(shù)據(jù)格式,是解決元數(shù)據(jù)互操作的方法之一,但在各種信息資源和應(yīng)用環(huán)境之間存在復(fù)雜差異的現(xiàn)實環(huán)境下不可能真正適應(yīng)變化多樣的應(yīng)用。元數(shù)據(jù)是為識別和描述資源而產(chǎn)生的,它并不表達豐富的語義。即使元數(shù)據(jù)信息的含義及其與所描述資源的關(guān)系能夠容易的被人所理解和處理,但對于機器來說,這種關(guān)系并不顯著。相反的,本體中的類通過屬性相互連接,屬性明確聲明了實體之間的語義關(guān)系。本體的目的不是描述特定的資源,而是提供了領(lǐng)域內(nèi)基本概念及其關(guān)系的宏觀理解,蘊含豐富的語義關(guān)系和強大的推理功能,能夠滿足文化遺產(chǎn)信息載體和記憶機構(gòu)多樣性的要求。同時,由于本體具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,能夠從語義層面解決數(shù)據(jù)之間的異構(gòu)性[5-6]。因而,基于本體的中介機制,能夠在語義上集成不同的元數(shù)據(jù),為異構(gòu)信息資源提供統(tǒng)一存取。
選擇CIDOC CRM作為中間標(biāo)準有以下3個原因:
(1)CIDOC CRM是一個面向?qū)ο蟮母拍顓⒖寄P?。面向?qū)ο笮问绞悄壳盀橹鼓軐⒍喾N概念模型集成在一起,而同時又保留各概念模型特性的惟一形式[3]。
(2)CIDOC CRM的設(shè)計目標(biāo)就是應(yīng)用于異構(gòu)文化信息的存檔、集成、中介和轉(zhuǎn)換的核心本體。它是由具有層次結(jié)構(gòu)的實體組成的概念模型,實體之間通過屬性語義相關(guān)。CIDOC CRM定義了文化遺產(chǎn)領(lǐng)域中存在于對象、藝術(shù)家、事件、地點及其他概念之間的復(fù)雜關(guān)系。
(3)CIDOC CRM作為一個全球標(biāo)準,提供了與其它多種元數(shù)據(jù)格式之間的映射。并且,CIDOC CRM自身也在不斷地發(fā)展和完善。
CIDOC CRM作為不同系統(tǒng)、元數(shù)據(jù)和語義之間數(shù)據(jù)傳輸和交換基礎(chǔ)的價值是顯而易見的[7]。CIDOC CRM作為一個中間標(biāo)準,可以方便地使文化遺產(chǎn)領(lǐng)域不同的元數(shù)據(jù)得到映射,從而使得集成并且解釋領(lǐng)域內(nèi)各種異構(gòu)數(shù)據(jù)成為可能。作為核心本體,CIDOC還可以以合適的形式集合所有必需的文化信息為進一步的推理服務(wù)[8]。圖2 基于CIDOC CRM的中介機制
圖2展示了一個基于CIDOC CRM中介機制的數(shù)據(jù)資源集合的結(jié)構(gòu)。不同的資源類型可能使用不同的元數(shù)據(jù)標(biāo)準,所有的標(biāo)準都映射到CIDOC CRM。用戶可以向本地系統(tǒng)提出查詢請求,本地的查詢引擎返回本地數(shù)據(jù)的檢索結(jié)果,同時向CIDOC中介系統(tǒng)提交查詢。
CIDOC系統(tǒng)自動根據(jù)模型與相關(guān)元數(shù)據(jù)間的映射機制對讀者請求進行重新形成,轉(zhuǎn)換成對應(yīng)元數(shù)據(jù)能夠執(zhí)行的請求。最終,CIDOC將從各個資源返回的結(jié)果集中,轉(zhuǎn)換成本地系統(tǒng)對應(yīng)的結(jié)果形式,并通過本地系統(tǒng)將結(jié)果返回給用戶。
3 DC和CIDOC CRM的映射
DC元數(shù)據(jù)標(biāo)準框架分為都柏林核心元數(shù)據(jù)創(chuàng)新計劃(簡稱DCMI)術(shù)語和應(yīng)用綱要。
DCMI元數(shù)據(jù)術(shù)語是定義元數(shù)據(jù)術(shù)語的通用標(biāo)準,其體系為:都柏林核心元數(shù)據(jù)元素集(定義DC的15個核心元素)、其他元素和元素限定詞(定義DC元素限定詞和新增元素)、編碼體系(定義DCMI中使用的編碼體系修飾詞)和DCMI類型詞表(定義用于確定資源類型的資源類型元素的值)4個部分。
DC包括15個核心元素,即:題名(Title)、主題(Subject)、描述(Description)、語種(Language)、來源(Source)、關(guān)聯(lián)(Relation)、覆蓋范圍(Coverage)、創(chuàng)建者(Creator)、出版者(Publisher)、其他責(zé)任者(Contributor)、權(quán)限(Rights)、日期(Date)、類型(Type)、標(biāo)識符(Identifier)、格式(Format)。這15個元素按照內(nèi)容可以分為資源內(nèi)容描述項、知識產(chǎn)權(quán)描述項、外部屬性描述項三大項,它們可以選擇使用,也可以重復(fù)使用,元素順序可以任意排列,每個元素可以通過限定詞進一步擴展。
其中,DCType是DC元素集的一個元素,定義了描述資源對象的類型,并提供了一些通用的、跨領(lǐng)域的值的集合。包括:collection,dataset,event,image,interactive resource,moving image,physical object,sound,service,software,still image和text。特別是對于collection,DC資源集合描述工作組開發(fā)了一個專門的應(yīng)用綱要(DCCAP),將資源集合作為一種獨立的數(shù)字或物理對象。表1列出了當(dāng)DCType取不同值時,DC記錄對映的CIDOC CRM中相應(yīng)的類。表1 DCType的值與CIDOC CRM中類的映射[9-11]
DCType的值為CIDOC CRMPhysical objectE19 Physical ObjectCollectionE78 CollectionTextE33 Linguistic ObjectImage/Still ImageE38 ImageMoving imageE36 Visual ItemServiceE29 Design or ProcedureDatasetE31 DocumentSoundE33 Linguistic Object(如果內(nèi)容包含演講)or E73 Information ObjectSoftware/Interactive ResourceE73 Information ObjectEventE7 Activity
DC元素集是一個靈活可用的元數(shù)據(jù)方案,支持數(shù)字資源的信息交換和集成。因為其簡單、易擴展的特性,DC在數(shù)字圖書館中被廣泛應(yīng)用。且DC與許多廣泛使用的元數(shù)據(jù)標(biāo)準之間存在映射,因此其在數(shù)據(jù)交換方面的重要性是顯著的。但是,DC元素的語義依賴于被描述資源的類型。例如,元素DCcreator對于不同的資源類型來說,有不同的語義,對于文本(Text)來說DCcreator意味著文本的作者或者撰寫者,但對于圖像(Image)來說DCcreator意味著攝影者或者畫家。表2列出了對于不同資源類型,其余14個DC元素所對映的CIDOC CRM類。
表2 DC的14個核心元素及限定詞與CIDOC CRM的映射
DC的核心元素及限定詞CIDOC CRMDCTitleE35 Title or E41 Appellation(DCType的值為Event)DCCreatorE39(Actor)DCPublisherE39(Actor)DCDateE52(Time-Span)DCSubjectE1 CRM EntityDCContributorE39(Actor)DCIdentifierE42 Object Identifier or E75 Conceptual Object Identifier(DCType的值為Text/Sound/Software/Interactive Resource)DCRightsE30 RightDCSourceE24 Physical Man-Made Stuff or E53 Place(DCType的值為Physical Object/Collection)DCCoverageE1 CRM EntityDCDescriptionE62 StringDCFormatMediumE55 Type or E57 Material(DCType的值為Physical Object)DCFormatExtentE54 DimensionDCLanguageE56 LanguageDCRelationIsVersionOf,or DCRelationHasVersion各種資源類型相對映的類,見表1DCRelationHasFormat or DCRelationIsFormatOfE11 Motivation EventDCRelationReplaces or DCRelationIsReplacedByE81 Transformation or E7 Activity(DCType的值為Event)DCRelationRequires or DCRelationIsRequiredByE73 Information ObjectDCRelationReferences or DCRelationIsReferencedByE7 Activity or E73 Information ObjectDCRelationHasPart,or DCRelationIsPartOfE19 Physical Object or E78 Collection(DCType的值為Physical Object/Collection);E33 Linguistic Object(DCType的值為Text/Sound);E38 Image or E36Visual Item or E73 Information Object(DCType的值為Image/Still Image/Moving Image);E73 Information Object(DCType的值為Text/Sound/Software/Interactive Resource)
在DC中,元素的語義及元素之間的關(guān)系說明隱含在元素的定義之中,計算機無法理解和處理。而在CIDOC CRM模型中,這個關(guān)系是通過實體——屬性——實體顯性聲明的。因為CIDOC CRM主要關(guān)注圍繞實體的事件的描述,因此DC元素的語義可以通過CIDOC CRM中的一組關(guān)系或者一個事件來表達。例如,在CIDOC CRM模型中類E12 Production與E65 Creation可以用來集中所有與創(chuàng)建事件有關(guān)的信息,這兩個類都是E7 Activity的子類。下面以文本(Text)為例,列出與創(chuàng)建事件相關(guān)的元素在CIDOC CRM中的語義表達:
DC->DC.Creator≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Author≡E55 Type]:E39 Actor
DC->DC.Creator.Name≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Author≡E55 Type]:E39 Actor.P131 is identified by(identifies):E82 Actor Appellation
DC->DC.Publisher≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Publisher≡E55 Type]:E39 Actor
DC->DC.Publisher.Name≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P14 carried out by(performed)[with subproperty P14.1 in the role:Publisher≡E55 Type]:E39 Actor.P131 is identified by(identifies):E82 Actor Appellation
DC->DC.Date.Created≡E33 Linguistic Object P94 has created(was created by):E65 Creation.P4 has time-span(is time-span of):E52 Time-Span
4 結(jié) 論
本文針對文化遺產(chǎn)資源領(lǐng)域提出了一個以CIDOC CRM為中介機制的元數(shù)據(jù)集成方案,并以DC為例,詳細介紹了DC與CIDOC CRM之間的映射。CIDOC CRM定義了文化遺產(chǎn)領(lǐng)域中各個概念的語義關(guān)系,為領(lǐng)域知識的描述提供術(shù)語,從而確定了該領(lǐng)域的基本知識體系,表達該領(lǐng)域中的公共知識?;诒倔w的元數(shù)據(jù)集成方案為不同機構(gòu)間異構(gòu)數(shù)據(jù)的集成提供了一種解決方案。
參考文獻
[1]ICOM/CIDOC Documentation Standards Group.Definition of CIDOC conceptual reference model.Version 501[EB/OL].ICOM/CIDOC CRM Special Interest Group,2009-11-23.
[2]http:∥cidoc.ics.forth.gr/cidoccoregraphicalrepresentation/hierarchy.html[EB].2009-10-13.
[3]Riva P.,Doerr M.and umer M.FRBRoo:Enabling a Common View of Information from Memory Institutions[J].International Cataloguing and Bibliographic Control,2009,38(2):30-34.
[4]http:∥cidoc.ics.forth.gr/usesapplications.html[EB].2009-10-23.
[5]Skarka W.Application of MOKA methodology in generative model creation using CATIA[J].Engineering Applications of Artificia1 Intelligence,2007,20(5):677-690.
[6]Kim KY.Ontology-based assembly design and information sharing for collaborative product development[J].Computer-Aided Design,2006,38(12):1233-1250.
[7]Crofts N.,Doerr M.and Gill T.The CIDOC conceptual reference model:a standard for communicating cultural contents[J].Cultivate Interactive,2003,9.http:∥www.cultivate-int.org/issue9/chios/,2009-10-23.
[8]Doerr M.The CIDOC conceptual reference module:an ontological approach to semantic interoperability of metadata[J].AI Magazine,2003,24(3):75-92.https:∥www.aaai.org/ojs/index.php/aimagazine/article/view/1720/1618,2009-10-23.
[9]Kakali C.,Lourdi I.,Stasinopoulou T.,Bountouri L.,Papatheodorou C.,Doerr M.and Gergatsoulis M.Integrating Dublin Core metadata in culture heritage collections using ontologies[C]∥Proceedings of the 7th International Conference on Dublin Core and Metadata Applications,DC-2007,Singapore,2007:128-139.http:∥www.dcmipubs.org/ojs/index.php/pubs/article/view/16/11,2009-10-23.
[10]Kakali K.,Doerr M.,Papatheodorou C.and Stasinopoulou T.DC.type mapping to CIDOC/CRM[EB/OL].http:∥cidoc.ics.forth.gr/docs/WP5-T55-DC2CRMmapping-060728v02-final.doc,2009-10-23.
[11]Doerr,M.Mapping of the Dublin Core Metadata Element Set to the CIDOC CRM[EB/OL].http:∥cidoc.ics.forth.gr/docs/dctocrmmapping.pdf,2009-10-23.