劉 麗
(雞西大學圖書館,黑龍江 雞西 158100)
元數(shù)據(jù)在數(shù)字圖書館的應用研究*
劉 麗
(雞西大學圖書館,黑龍江 雞西 158100)
以元數(shù)據(jù)的概念為鋪墊,對元數(shù)據(jù)在數(shù)字圖書館應用的必要性做了闡述,重點探討了元數(shù)據(jù)在數(shù)字圖書館的應用及應當注意和解決的問題.
元數(shù)據(jù);數(shù)字圖書館;DC
元數(shù)據(jù)是為了解決互連網(wǎng)上海量信息資源的組織與管理問題而興盛起來的,它具有信息的發(fā)現(xiàn)與選擇、描述與揭示、整合與集成等功能.元數(shù)據(jù)被廣泛應用在圖書館、自然科學、政務辦公、社會科學等領域.由于數(shù)字圖書館的收藏種類繁多,數(shù)量龐大,既有傳統(tǒng)的印刷資源,又有類型各異的數(shù)字資源等特點,因此為了滿足用戶快速、準確地獲取到所需信息,數(shù)字圖書館必須使用元數(shù)據(jù)對其信息資源進行有效組織與管理.離開元數(shù)據(jù)的數(shù)字圖書館將是一盤散沙,無法提供有效的檢索和處理.
元數(shù)據(jù) (metadata),是用于描述數(shù)據(jù)的內容(what)、覆蓋范圍 (where,when)、質量、管理方式、數(shù)據(jù)的所有者 (who)、數(shù)據(jù)的提供方式 (how)等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁.簡言之,元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù).
在圖書館與信息界,元數(shù)據(jù)被定義為提供關于信息資源或數(shù)據(jù)的一種結構化的數(shù)據(jù),是對信息資源的結構化的描述.其作用為:描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織具有定位、發(fā)現(xiàn)、證明、評估、選擇等功能[1].
從上述定義我們可以看出元數(shù)據(jù)所揭示的內涵似乎與傳統(tǒng)的書目數(shù)據(jù)、MARC數(shù)據(jù)極其相似,都是關于對象數(shù)據(jù) (或資源)重要特征的描述,以促進信息對象的發(fā)現(xiàn)和檢索.但是,我們也不能將元數(shù)據(jù)簡單地等同于傳統(tǒng)的書目記錄.我們知道元數(shù)據(jù)產生于網(wǎng)絡時代,它是為組織與檢索海量網(wǎng)絡信息資源而提出的,它的內涵比書目記錄要豐富得多.它可以為各種形態(tài)的信息資源提供規(guī)范、普遍的描述方法和檢索工具,為分布的、由多種資源組成的信息體系 (如數(shù)字圖書館)提供整合的工具與紐帶.
數(shù)字圖書館的基本邏輯構成是“資源”,資源是可以被標識的任何東西,可以是物理的實體,也可以是數(shù)字對象或者虛擬的復合對象或對象集合.元數(shù)據(jù)的出現(xiàn)就是要整合這些資源,使其有序化.由于元數(shù)據(jù)提供了對資源的各種屬性的描述,因而可以看成是“資源”的替代品.數(shù)字圖書館通過管理元數(shù)據(jù)而管理資源,并提供絕大多數(shù)功能.因此元數(shù)據(jù)通過定義數(shù)字圖書館中資源的信息結構,以及定義由數(shù)字對象構成的資源庫的組織結構,決定著數(shù)字圖書館的信息組織和利用方式,同時元數(shù)據(jù)還是實現(xiàn)跨資源庫語義互操作的基礎.具體來講,元數(shù)據(jù)在數(shù)字圖書館信息組織中的必要性表現(xiàn)在以下幾方面:
浩瀚的網(wǎng)絡資源為信息資源的生成帶來了極大的便利,幾乎任何人在任何時間內都可以成為信息資源的創(chuàng)建者,但由于資源創(chuàng)建者自身素質的差異極大,且缺乏嚴格的網(wǎng)絡出版監(jiān)督機制,導致了信息資源質量的參差不齊,因特網(wǎng)成了展示這些“商品”的雜店.作為數(shù)字圖書館的信息組織人員,其首要的任務就是利用信息資源創(chuàng)建者提供的簡單元數(shù)據(jù),對這些雜貨店的商品進行嚴格篩選,以提供給最終用戶以高質量的信息資源[2].
對信息資源的描述與揭示是元數(shù)據(jù)的最主要的功能,也是數(shù)字圖書館信息組織的核心.同傳統(tǒng)圖書館一樣,對于篩選過的、已成為數(shù)字圖書館館藏的信息資源,信息組織人員需要根據(jù)資源類型使用傳統(tǒng)元數(shù)據(jù)標準 MARC或現(xiàn)代元數(shù)據(jù)如 DC、VRA、FGDC等對其進行描述與揭示,以方便用戶對資源的發(fā)現(xiàn)與檢索.
利用元數(shù)據(jù)整合與集成的功能,建立元數(shù)據(jù)體系,將傳統(tǒng)館藏和數(shù)字化館藏整合集成到一個統(tǒng)一的用戶界面上,使得用戶可以通過任意一個數(shù)字化圖書館的單個界面,訪問互聯(lián)網(wǎng)上的其他數(shù)字化圖書館和信息庫,為用戶提供統(tǒng)一的集成服務.
由于 DC(Dublin Core元數(shù)據(jù))具有結構簡單、易操作、可擴展性等特點,因此數(shù)字圖書館建設多采用DC作為元數(shù)據(jù)方案或參照DC元數(shù)據(jù),并根據(jù)實際需要對 DC元數(shù)據(jù)進行擴展,實現(xiàn)對信息資源的組織及提供檢索.
上海圖書館在數(shù)字圖書館建設中,共實現(xiàn)了 7個數(shù)字化項目,包括:善本古籍、上海圖典、上海文典、中國報刊、民國圖書、點曲臺和科技百花園.這些文獻資源中的圖書已經有完整的MARC格式記錄,古籍已用特殊的元數(shù)據(jù)來描述,圖典則需要重新加工和組織.這樣,上海圖書館在建設的過程中面臨的是多種元數(shù)據(jù)并存的局面,為了滿足不同元數(shù)據(jù)集之間因應用的需要而產生的互操作的需求,定義一個核心元數(shù)據(jù)集顯得非常必要,為了實現(xiàn)不同數(shù)據(jù)集間的互操作,上海圖書館選用 DC元數(shù)據(jù)作為核心元數(shù)據(jù)集,以便于元數(shù)據(jù)之間的轉換與整合.
北京大學的元數(shù)據(jù)設計是在一個總則和總的規(guī)范性文件——《北京大學中文元數(shù)據(jù)標準框架》的指導下,分別完成各資源對象的元數(shù)據(jù)設計.該文件規(guī)定了元數(shù)據(jù)的設計原則、功能、結構等問題.元數(shù)據(jù)分為描述型元數(shù)據(jù)、管理型元數(shù)據(jù)和應用型元數(shù)據(jù),其中描述型元數(shù)據(jù)又劃分為核心元素、本館核心元素和個別元素.其中,核心元素采用了 DC的 14個元素,并且在使用的過程中嚴格遵循 DC的語義定義,通用性最強,此層次的元素是數(shù)據(jù)交換和共享中的核心所在,各資源對象的核心元素都包含在這 14個元素內.本館核心元素和個別元素則是根據(jù)不同對象的特性而定制的.目前已經設計完成的元數(shù)據(jù)方案包括拓片元數(shù)據(jù)、古籍元數(shù)據(jù)、學位論文元數(shù)據(jù)、輿圖元數(shù)據(jù)、電子圖書元數(shù)據(jù)以及人物類元數(shù)據(jù).
作為美國“數(shù)字圖書館首倡計劃”之一的斯坦福大學數(shù)字化圖書館,是一個分布式的、異構的、基于代理的數(shù)字圖書館,其自動服務和收藏功能通過代理服務器來間接獲得.為滿足元數(shù)據(jù)的可容性和內部操作性,它的元數(shù)據(jù)體系包括以下四個基本組成部分:屬性模型代理、屬性模型翻譯器、搜索代理的元數(shù)據(jù)設地、元數(shù)據(jù)包.其中,屬性模型是指自包含的屬性集,即諸如 DC、US MARC等元數(shù)據(jù)標識集.屬性模型代理包含了屬性集和為首要對象定義的屬性,也允許包含屬性間的種種關系.屬性模型翻譯器將來自某個屬性集的屬性和屬性值映射到另一個屬性集中.搜索代理的元數(shù)據(jù)設施為搜索代理的可訪問資源和搜索能力提供了結構化的描述.元數(shù)據(jù)包積聚了從其他三個組成部分中挑選出的元數(shù)據(jù),以利于元數(shù)據(jù)的全局查詢和局部檢索,是該數(shù)字化圖書館的基礎設施,它的核心是代理 (包裝器).元數(shù)據(jù)體系的建成便于各種格式的元數(shù)據(jù)在網(wǎng)絡數(shù)據(jù)庫間進行導入和導出,實現(xiàn)不同格式的元數(shù)據(jù)之間的互換,使得數(shù)字化圖書館最終成為互聯(lián)網(wǎng)上閱讀瀏覽的網(wǎng)絡數(shù)據(jù)庫.
作為國內知名的數(shù)據(jù)提供商,萬方公司于 2003年 8月正式啟動元數(shù)據(jù)標準項目,經過對中外各類成熟的元數(shù)據(jù)的分析和對國內幾大圖書館元數(shù)據(jù)方案的調研,對文獻類 (期刊論文、會議論文、引文、科技文獻)數(shù)據(jù)庫、機構類 (科研機構、高等院校、企業(yè)產品)數(shù)據(jù)庫、標準法規(guī)類數(shù)據(jù)庫、成果專利類數(shù)據(jù)庫、人物類數(shù)據(jù)庫共五大類一百多個數(shù)據(jù)庫進行數(shù)據(jù)規(guī)范的設計.最終決定除人物類采用 vCard元數(shù)據(jù)外,其他四類均采用 DC作為描述型元數(shù)據(jù)的核心元素集,使得 DC在國內的推廣和應用又邁進了一步.
數(shù)字圖書館的信息組織由指針、元數(shù)據(jù)和數(shù)據(jù)部分組成.指針是唯一用來標識數(shù)據(jù)的,對應于傳統(tǒng)圖書館的排架號;元數(shù)據(jù)是一組用來描述數(shù)據(jù)本身特征的數(shù)據(jù)集,對應于傳統(tǒng)圖書館的目錄;數(shù)據(jù)是數(shù)字圖書館的基本信息對象,對應于傳統(tǒng)圖書館的文獻[3].對象數(shù)據(jù)可分布式存放在各地的資源點內,用戶查詢時,利用元數(shù)據(jù)搜索引擎,即通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的 (甚至是同時利用若干個)搜索引擎來實現(xiàn)檢索操作,是對分布于網(wǎng)絡的多種檢索工具的全局控制機制[4].著名的元搜索引擎有 InfoS-pace、Dogpile、Vivisi mo等 (元搜索引擎列表 ),中文元搜索引擎中具有代表性的為搜星搜索引擎、搜魅網(wǎng) (someta)、馬虎聚搜等.在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如 Dogpile,有的則按自定的規(guī)則將結果重新排列組合,如 Vivisimo.因此,在數(shù)字圖書館信息組織中應用元數(shù)據(jù),可以使用戶充分利用元搜索引擎帶寬廣的特性來訪問遠程資源,以提高檢索效率.
元數(shù)據(jù)在數(shù)字圖書館的建設中已經取得了一定的成績,但也存在著一些需要注意和解決的問題,尤其是標準化問題、通用性問題、互操作問題等等.
在數(shù)字圖書館建設中,標準問題最重要的是元數(shù)據(jù)的制作,而與元數(shù)據(jù)的制作緊密相關的問題是元數(shù)據(jù)方案的設計.元數(shù)據(jù)方案的標準化具有廣泛的內涵.它包括元素著錄內容的標準化、同類型數(shù)字化信息資源的著錄所采用元數(shù)據(jù)的一致性、元數(shù)據(jù)方案所采用編碼語言的統(tǒng)一性這幾個方面[5].例如在超星數(shù)字圖書館的一條文獻記錄中,將 Publisher理解為“數(shù)字式資源制作者”,Data理解為“數(shù)字式資源制作日期”,這與 DC元素的本意是否相符合,還有待商榷,而 Format、Type等幾個元素的意義也比較抽象和模糊,各單位在應用的過程中也不盡相同,這些都涉及到元數(shù)據(jù)使用過程中的標準化問題,因此我們在使用元數(shù)據(jù)的過程中,應理解元素的語義定義并嚴格遵守.
今天,在分布式信息環(huán)境中已經有多個元數(shù)據(jù)格式存在,并將有更多的元數(shù)據(jù)格式出現(xiàn),因此元數(shù)據(jù)的互操作問題已成為元數(shù)據(jù)的開發(fā)者和潛在使用者關注的焦點.但在過去的幾年中,不兼容的數(shù)據(jù)格式和數(shù)據(jù)結構阻礙了信息系統(tǒng)之間的互操作.一個日益重要的問題是怎樣實現(xiàn)各種元數(shù)據(jù)間的互操作,以保證任意系統(tǒng)的用戶能夠在整個分布式環(huán)境中發(fā)現(xiàn)、檢索和利用所需要的任意資源和任意服務.因此,筆者建議采用統(tǒng)一的元數(shù)據(jù)標準、元數(shù)據(jù)映射、元數(shù)據(jù)轉換等方式,以實現(xiàn)真正意義上的互訪.
隨著元數(shù)據(jù)的不斷發(fā)展,元數(shù)據(jù)已經不僅僅用于描述信息對象的內容,還可以描述信息對象的制作過程、保存、評估、服務、使用權限等各方面的內容,因此元數(shù)據(jù)的結構和層次也越來越復雜化.人們根據(jù)元數(shù)據(jù)的功能把元數(shù)據(jù)的元素劃分為描述型元素、管理型元素、技術型元素、長期保存型元素等,根據(jù)元數(shù)據(jù)的重要性把元素劃分為核心元素、非核心元素或個別元素等等.元數(shù)據(jù)結構與層次的劃分有利于數(shù)據(jù)處理、數(shù)據(jù)交換或共享過程中對數(shù)據(jù)進行區(qū)分,因此,在對元數(shù)據(jù)的結構層次進行正確的設計時,還應該考慮元數(shù)據(jù)的整體性與系統(tǒng)性問題.
[1]沈鳳善.元數(shù)據(jù)在數(shù)字圖書館中的應用[J].牡丹江師范學院學報,2005,(1):122-123.
[2]邵曉紅.元數(shù)據(jù)在數(shù)字圖書館信息組織中的應用[J].鄂州大學學報,2008,(5):14-16.
[3]盛小平.論元數(shù)據(jù)在數(shù)字圖書館信息組織中的應用[J].圖書情報工作,2001,(7):43-45.
[4]周立清.元搜索引擎概述[EB/OL].http://baike.geiwosou.net/index.php?doc-view-32.html,2010-03-02.
[5]孫嵐玲,等.元數(shù)據(jù)在數(shù)字圖書館中的應用 [J].情報科學,2004,(10):1230-1233.
(責任編校:簡子)
G202
A
1008-4681(2010)02-0076-03
2010-01-21;
2010-04-14
劉麗 (1980-),女,山西代縣人,雞西大學圖書館館員,碩士生.研究方向:數(shù)字圖書館的發(fā)展.