郭少友 王 旭
(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450001)
數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用方法
郭少友 王 旭
(鄭州大學(xué)信息管理學(xué)院,河南 鄭州 450001)
數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用是指一個(gè)館可以通過(guò)拷貝或鏈接的方式使用另外一個(gè)館的相關(guān)資源,涉及四個(gè)步驟。包括:館際之間建立數(shù)據(jù)映射;選擇合適的復(fù)用粒度;選擇合適的復(fù)用方式;實(shí)現(xiàn)資源復(fù)用。
數(shù)字圖書(shū)館;數(shù)字博物館;資源復(fù)用;數(shù)據(jù)映射
數(shù)字圖書(shū)館把圖書(shū)、期刊、網(wǎng)絡(luò)文獻(xiàn)等信息資源以數(shù)字化形式加以存儲(chǔ),并通過(guò)網(wǎng)絡(luò)提供使用。數(shù)字博物館對(duì)實(shí)體博物館中代表自然和人類文化遺產(chǎn)的各種實(shí)物進(jìn)行加工、整合,并將其以數(shù)字化方式呈現(xiàn)在網(wǎng)絡(luò)上。這兩種數(shù)字化文化服務(wù)平臺(tái)都突破了時(shí)間和空間的限制,使得用戶可以利用互聯(lián)網(wǎng)隨時(shí)隨地享用其豐富的資源。然而,目前國(guó)內(nèi)的數(shù)字圖書(shū)館和數(shù)字博物館大都相互獨(dú)立運(yùn)營(yíng),館際之間缺乏內(nèi)容共享,不能實(shí)現(xiàn)跨庫(kù)、跨系統(tǒng)的數(shù)字資源互連。當(dāng)用戶在數(shù)字博物館網(wǎng)站上瀏覽某個(gè)文物時(shí),無(wú)法順著鏈接去瀏覽數(shù)字圖書(shū)館中的相關(guān)資源,反之亦然。數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用可以解決上述問(wèn)題。數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用則是指A館通過(guò)拷貝或建立鏈接的方式使用B館的某些資源,B館的這些資源在服務(wù)于B館的同時(shí),還被A館重復(fù)使用了。這樣既能充分發(fā)揮數(shù)字圖書(shū)館和數(shù)字博物館各自的資源優(yōu)勢(shì),還能彌補(bǔ)各自的資源缺陷。
關(guān)于數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用,國(guó)內(nèi)外已有相關(guān)的理論研究和實(shí)踐,大致可以分為以下兩類:
1.1 整合式復(fù)用。這類復(fù)用由第三方機(jī)構(gòu)來(lái)完成,將圖書(shū)館、博物館的資源(主要是元數(shù)據(jù))復(fù)制到本地并加以整合,在此基礎(chǔ)上為用戶提供元數(shù)據(jù)檢索服務(wù),用戶可以順著鏈接查看元數(shù)據(jù)所對(duì)應(yīng)的、存儲(chǔ)在數(shù)字圖書(shū)館或數(shù)字博物館中的原始資源。理論研究方面。鄭燃等[1]指出,圖書(shū)館、博物館和檔案館都有極其豐富的數(shù)字資源,但由于行政體制等方面的原因,各自所采用的元數(shù)據(jù)標(biāo)準(zhǔn)、遵循的協(xié)議不太一致,存在重復(fù)勞動(dòng)和資源利用率不高等問(wèn)題,可以通過(guò)資源整合來(lái)解決。實(shí)踐方面。由歐盟資助的文化資源集成項(xiàng)目Europeana[2]已將來(lái)自2 000多個(gè)機(jī)構(gòu)的1 000多萬(wàn)個(gè)數(shù)字對(duì)象的元數(shù)據(jù)集成在一起,用戶可從Europeana的門(mén)戶網(wǎng)站對(duì)元數(shù)據(jù)進(jìn)行檢索,并可進(jìn)一步到各個(gè)機(jī)構(gòu)網(wǎng)站獲取詳細(xì)的數(shù)字對(duì)象信息。
1.2 分散式復(fù)用。這類復(fù)用直接由圖書(shū)館或博物館來(lái)完成,館際之間可以拷貝或鏈接對(duì)方的資源,復(fù)用可以是單向的,也可以是雙向的;可以是一對(duì)多的,也可以是多對(duì)多的。理論研究方面。Frost A[3]歸納了圖書(shū)館與博物館之間協(xié)作式知識(shí)復(fù)用的三個(gè)關(guān)鍵步驟:第一,從協(xié)作單位的知識(shí)庫(kù)中找到一個(gè)可以復(fù)用的詞語(yǔ);第二,在知識(shí)庫(kù)中發(fā)現(xiàn)有助于理解該詞語(yǔ)的上下文知識(shí);第三,在知識(shí)庫(kù)中進(jìn)一步發(fā)現(xiàn)有助于理解該詞語(yǔ)的進(jìn)化歷史知識(shí)。實(shí)踐方面。大英博物館、意大利博物館、阿姆斯特丹博物館等11個(gè)博物館已將其數(shù)字資源轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),美國(guó)國(guó)會(huì)圖書(shū)館、英國(guó)國(guó)家圖書(shū)館、瑞典國(guó)家圖書(shū)館等已將其書(shū)目記錄轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),上述轉(zhuǎn)換結(jié)果都是可共享的、可復(fù)用的[4]。
從目前的情況看,針對(duì)第二類復(fù)用的研究相對(duì)較少,相應(yīng)的實(shí)踐還處于試驗(yàn)階段,雖然這類復(fù)用需要圖書(shū)館和博物館親自處理復(fù)用細(xì)節(jié),增加了各自的負(fù)擔(dān),但從靈活性和方便用戶的角度看,具有一定的意義。本文將在現(xiàn)有研究的基礎(chǔ)上進(jìn)一步探討與第二類復(fù)用相關(guān)的幾個(gè)問(wèn)題,包括:數(shù)據(jù)映射關(guān)系的建立、復(fù)用粒度和復(fù)用方式的確定、復(fù)用的實(shí)現(xiàn)等。
2.1 建立數(shù)據(jù)映射關(guān)系。影響圖書(shū)館和博物館之間資源復(fù)用的主要技術(shù)障礙是資源的異構(gòu),可以通過(guò)數(shù)字對(duì)象的元數(shù)據(jù)之間的映射來(lái)間接實(shí)現(xiàn),而元數(shù)據(jù)之間的映射則包括元數(shù)據(jù)格式之間的映射和值詞匯表之間的映射兩個(gè)方面。
2.1.1 元數(shù)據(jù)格式之間的映射。書(shū)目數(shù)據(jù)是數(shù)字圖書(shū)館的核心資源,一般采用MARC(Machine-Readable Cataloging)格式進(jìn)行描述;文化遺產(chǎn)元數(shù)據(jù)是數(shù)字博物館的核心資源,一般采用博物館元數(shù)據(jù)格式如CIMI、REACH、CDWA或VRA Core來(lái)描述。為了實(shí)現(xiàn)館際資源復(fù)用,首先需要將圖書(shū)館和博物館的數(shù)據(jù)格式“對(duì)齊”,即確定二者的元數(shù)據(jù)格式之間的映射關(guān)系。表1顯示了主要字段與四種博物館元數(shù)據(jù)格式之間相關(guān)字段的映射關(guān)系。
2.1.2 值詞匯表之間的映射。元數(shù)據(jù)格式映射問(wèn)題解決之后,對(duì)于元數(shù)據(jù)中的主題詞、類目詞這兩個(gè)能表征數(shù)字資源內(nèi)容特征的字段來(lái)說(shuō),還涉及語(yǔ)義層面的映射,具體可通過(guò)值詞匯表之間的映射來(lái)完成。圖書(shū)館在描述數(shù)字資源的主題和類目時(shí)所采用的值詞匯表與博物館所采用的可能不同,從而會(huì)導(dǎo)致在描述相同或相似的數(shù)字資源時(shí)選用了語(yǔ)義相同但外觀不同的詞語(yǔ)或代碼,而在元數(shù)據(jù)格式映射這一層面無(wú)法解決這一問(wèn)題,因此需要事先進(jìn)一步建立不同值詞匯表之間的映射,以解決多詞一義問(wèn)題。例如,如果一方采用本體BioCaster中的概念“Person”作為主題詞,另一方采用本體UMLS Semantic Network中的概念“Human”作為主題詞,從關(guān)鍵詞匹配的角度看,兩個(gè)概念并不相關(guān),無(wú)法建立映射關(guān)系;但從語(yǔ)義匹配的角度看,二者則屬于相似概念,可以建立映射關(guān)系[5]。
2.2 確定復(fù)用粒度。按從小到大的順序,可將資源復(fù)用的粒度分為五級(jí):概念級(jí)、知識(shí)元級(jí)、元數(shù)據(jù)級(jí)、單資源級(jí)、多資源級(jí)。概念級(jí)復(fù)用的對(duì)象是單個(gè)概念,主要來(lái)自圖書(shū)館或博物館自建的值詞匯表和本體,例如博物館可以復(fù)用中圖法中的類目詞作為其文化遺產(chǎn)元數(shù)據(jù)中類目字段的值。知識(shí)元級(jí)復(fù)用的對(duì)象是單個(gè)知識(shí)元,其中知識(shí)元是用三元組表示的、包含主謂賓結(jié)構(gòu)的最小知識(shí)單元,是對(duì)資源進(jìn)行知識(shí)標(biāo)引、知識(shí)表示的結(jié)果。元數(shù)據(jù)級(jí)復(fù)用的對(duì)象是單個(gè)資源的元數(shù)據(jù),既可以是只含部分字段的不完整元數(shù)據(jù)記錄,也可以是包含所有字段的完整元數(shù)據(jù)記錄。單資源級(jí)復(fù)用的對(duì)象是單個(gè)數(shù)字資源,既包括數(shù)字對(duì)象,也包括數(shù)字對(duì)象的替代物如元數(shù)據(jù)、知識(shí)摘要、知識(shí)標(biāo)注結(jié)果等。從實(shí)際應(yīng)用的角度看,圖書(shū)館與博物館之間可以達(dá)成知識(shí)產(chǎn)權(quán)方面的協(xié)議,允許自己的部分或全部數(shù)字對(duì)象及其替代物供對(duì)方有限制地或無(wú)限制地復(fù)用。多資源級(jí)復(fù)用的對(duì)象是多個(gè)數(shù)字資源。針對(duì)某個(gè)應(yīng)用,圖書(shū)館或博物館可以同時(shí)復(fù)用對(duì)方的多個(gè)相關(guān)數(shù)字資源,包括這些資源的數(shù)字對(duì)象及其替代物。
表 1 CNMARC主要字段與四種博物館元數(shù)據(jù)格式相關(guān)字段之間的映射關(guān)系
2.3 確定復(fù)用方式。圖書(shū)館或博物館復(fù)用對(duì)方的數(shù)字資源,可以采用以下兩種方式:其一,拷貝式復(fù)用。將被復(fù)用的數(shù)字資源復(fù)制到本地進(jìn)行保存,并在約定的權(quán)限范圍使用復(fù)制過(guò)來(lái)的資源。這種方式可以保證本地用戶在訪問(wèn)復(fù)用資源時(shí)始終有效,但缺點(diǎn)是需要保存并管理拷貝過(guò)來(lái)的復(fù)用數(shù)據(jù),提高了系統(tǒng)運(yùn)行的成本。其二,鏈接式復(fù)用。不必拷貝并保存被復(fù)用的資源,直接在本地資源與被復(fù)用的資源之間建立鏈接;當(dāng)有需要時(shí),將這些被復(fù)用的資源作為臨時(shí)資源下載到本地供用戶使用。這種方式的優(yōu)點(diǎn)是不必承擔(dān)保存并管理被復(fù)用資源的費(fèi)用,但可能出現(xiàn)斷鏈的情況,需要復(fù)用方定期檢查與被復(fù)用方之間資源鏈接的有效性。
2.4 實(shí)現(xiàn)資源的復(fù)用。其一,數(shù)據(jù)獲取。對(duì)于上文所列舉的五級(jí)復(fù)用粒度,復(fù)用方無(wú)論選擇哪一級(jí),都可以采用以下兩種方式來(lái)獲取被復(fù)用的數(shù)據(jù):一是通過(guò)雙方合作的方式獲取數(shù)據(jù)。圖書(shū)館與博物館之間可以建立合作關(guān)系,無(wú)償?shù)亟粨Q各自所擁有的基礎(chǔ)數(shù)據(jù),如值詞匯表、元數(shù)據(jù);如果條件許可的話,甚至可以交換數(shù)字對(duì)象數(shù)據(jù)。這種方式特別適合于同時(shí)擁有數(shù)字圖書(shū)館和數(shù)字博物館的單位,如某些高等院校。二是通過(guò)公知協(xié)議及相應(yīng)的檢索接口獲取數(shù)據(jù)。當(dāng)圖書(shū)館與博物館之間不存在合作關(guān)系時(shí),可以采用OAI-PMH協(xié)議(Open Archives Initia?tive Protocol for Metadata Harvesting)或SPARQL協(xié)議(Simple Protocol and RDF Query Language)來(lái)發(fā)布數(shù)據(jù)和獲取數(shù)據(jù)。OAI-PMH協(xié)議是一種基于HTTP的應(yīng)用層協(xié)議,提供了一個(gè)元數(shù)據(jù)互操作框架。SPARQL協(xié)議是為RDF開(kāi)發(fā)的一種查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議,可以用于任何用RDF格式表示的信息資源。其二,數(shù)據(jù)復(fù)用。復(fù)用粒度不同,復(fù)用時(shí)所采取的具體方法也不同。這里元數(shù)據(jù)復(fù)用是資源復(fù)用的重點(diǎn)。對(duì)于圖書(shū)館而言,一本書(shū)就是一個(gè)資源;對(duì)于博物館來(lái)說(shuō),一件展品就是一個(gè)資源。每個(gè)資源數(shù)字化之后,都可能包含兩個(gè)方面的數(shù)字信息:元數(shù)據(jù)及其對(duì)應(yīng)的數(shù)字對(duì)象。元數(shù)據(jù)的復(fù)用可分為兩種情況:第一,拷貝式復(fù)用。復(fù)用方獲取被復(fù)用方的元數(shù)據(jù)之后,在許可的范圍內(nèi),可直接將這些元數(shù)據(jù)用于本地的各種應(yīng)用。第二,鏈接式復(fù)用。對(duì)于給定的一個(gè)圖書(shū)館數(shù)字資源,其元數(shù)據(jù)是已知的,為了在某個(gè)博物館中找到相關(guān)或相似的資源,可以計(jì)算該資源與該博物館所有數(shù)字資源之間基于元數(shù)據(jù)的相似度,并據(jù)此判斷資源之間的關(guān)系,具體可按如下規(guī)則進(jìn)行:若相似度為1,可認(rèn)為兩組元數(shù)據(jù)所代表的資源完全相同,是相等關(guān)系;若相似度值在[0.9,1)之間,可認(rèn)為是相似關(guān)系;若相似度值在[0.7,0.9)之間,可認(rèn)為是相關(guān)關(guān)系。上述關(guān)系確定之后,可以在復(fù)用方和被復(fù)用方之間建立相應(yīng)的鏈接關(guān)系,當(dāng)復(fù)用方用戶檢索到某個(gè)資源后,可以順著鏈接找到相等、相似或相關(guān)的資源。
數(shù)字圖書(shū)館和數(shù)字博物館大都是獨(dú)立建設(shè)的,彼此之間較難做到資源的共享與復(fù)用??梢酝ㄟ^(guò)拷貝或建立鏈接的方式實(shí)現(xiàn)數(shù)字圖書(shū)館與數(shù)字博物館之間的資源復(fù)用,本文所提的資源復(fù)用方法包括以下四個(gè)基本步驟:其一,首先在館際之間建立數(shù)據(jù)映射關(guān)系,解決影響復(fù)用效果的資源異構(gòu)問(wèn)題。其二,選擇復(fù)用粒度??筛鶕?jù)實(shí)際情況選擇一種或多種粒度。其三,確定復(fù)用方式。復(fù)用方可根據(jù)自身情況,采用拷貝或鏈接的方式來(lái)復(fù)用被復(fù)用方的資源。其四,具體復(fù)用時(shí)首先需要通過(guò)雙方合作或公共檢索接口來(lái)獲取對(duì)方的數(shù)據(jù),然后根據(jù)所選擇的復(fù)用粒度和復(fù)用方式進(jìn)行實(shí)際的資源復(fù)用。下一步將選取一個(gè)實(shí)際的數(shù)字圖書(shū)館和一個(gè)實(shí)際的數(shù)字博物館,利用本文提出的資源復(fù)用方法開(kāi)展實(shí)證研究。
[1]鄭燃,唐義,戴艷清.基于關(guān)聯(lián)數(shù)據(jù)的圖書(shū)館、檔案館和博物館數(shù)字資源整合研究[J].圖書(shū)與情報(bào),2012(1):71-76.
[2]Wikimedia Foundation, Inc. Europeana[EB/OL]. [2014-03-24].http://en.wikipedia.org/wiki/Europeana.
[3]Frost A.Knowledge reuse situations[EB/OL].[2014-02-20]. http://www.knowledge-management-tools.net/knowledge-reuse.ht?m l.
[4]CKAN.Datahub[EB/OL].[2014-02-25].http://datahub.io/da?taset.
[5]米楊,曹錦丹.基于PROMPT的本體映射實(shí)例分析.情報(bào)學(xué)報(bào),2010,29(6):987-991.
王旭(1993.7-),女,在讀本科。
G250.76
A
1671-0037(2014)07-40-2
本文系教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目“圖書(shū)館數(shù)字資源的細(xì)粒度語(yǔ)義化描述與復(fù)用研究”(編號(hào): 13YJA870008)研究成果之一。
郭少友(1964-),男,博士,教授,研究生導(dǎo)師,研究方向:信息檢索等。