吳玲芳
〔摘 要〕進(jìn)入21世紀(jì),一種基于開放理念的新型知識(shí)組織與傳播形式誕生并迅速發(fā)展,這就是機(jī)構(gòu)知識(shí)庫(kù)?在推動(dòng)機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)中,元數(shù)據(jù)研究是不可或缺的基礎(chǔ)?本文探討了元數(shù)據(jù)的定義?類型?功能特點(diǎn),分析了目前國(guó)際上在建設(shè)機(jī)構(gòu)知識(shí)庫(kù)時(shí)幾種常用開源軟件所使用的元數(shù)據(jù)情況?
〔關(guān)鍵詞〕元數(shù)據(jù);機(jī)構(gòu)知識(shí)庫(kù);資源描述
〔中圖分類號(hào)〕G250.74 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)08-0128-03
Study on Metadata Used in Institutional RepositoryWu Lingfang
(Library,Suzhou University,Suzhou 215006,China)
〔Abstract〕In 21st century,new form of knowledge organization and broadcast pattern has been developed rapidly which based on opening a new form of knowledge organization and dissemination of the birth and rapid development,that is institutional repository.Metadata research is essential basement in promoting institutional repository building.This paper discussed the definition,type,function and roleof metadata,and analysed the metadata of several commonly used software in institutional repository in the world.
〔Key words〕metadata;institutional repository;resource description
進(jìn)入21世紀(jì),在學(xué)術(shù)信息開放獲取運(yùn)動(dòng)的推動(dòng)下,隨著傳統(tǒng)學(xué)術(shù)信息交流體系的變革,一種基于開放理念的新型知識(shí)組織與傳播形式誕生并迅速發(fā)展,這就是機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,簡(jiǎn)稱IR)?
機(jī)構(gòu)知識(shí)庫(kù)是大學(xué)或研究機(jī)構(gòu)通過網(wǎng)絡(luò)來收集?保存?管理?檢索和利用本單位員工科研產(chǎn)出的科學(xué)論文?專著?報(bào)告(包括演示文件)?試驗(yàn)數(shù)據(jù)?教學(xué)課件?檔案資料?照片和視頻等數(shù)字化資料的科研信息基礎(chǔ)設(shè)施和服務(wù)機(jī)制,主要用于知識(shí)產(chǎn)出的開放存貯?交流和利用?
機(jī)構(gòu)知識(shí)庫(kù)利用元數(shù)據(jù)描述?管理數(shù)字信息?機(jī)構(gòu)知識(shí)庫(kù)中的數(shù)據(jù)在來源?載體類型?學(xué)科知識(shí)等多方面的復(fù)雜性,如何以安全?高效的方式來管理和訪問變得極為重要,而解決這一問題的關(guān)鍵是對(duì)元數(shù)據(jù)進(jìn)行科學(xué)有效的管理?元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它包含所描述數(shù)據(jù)的大小?來源?時(shí)間?內(nèi)容摘要?派生?用法等多種信息,其主要目的就是對(duì)指定數(shù)據(jù)進(jìn)行有意義的模型化描述,主要目標(biāo)是提供數(shù)據(jù)資源的全面指南?元數(shù)據(jù)不僅定義了機(jī)構(gòu)知識(shí)庫(kù)中數(shù)據(jù)的模式?來源以及抽取和轉(zhuǎn)換規(guī)則等,而且整個(gè)知識(shí)庫(kù)系統(tǒng)的運(yùn)行都是基于元數(shù)據(jù)的,是元數(shù)據(jù)把知識(shí)庫(kù)系統(tǒng)中的各個(gè)松散的組件聯(lián)系起來,組成了一個(gè)有機(jī)的整體?在推動(dòng)機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)中,對(duì)元數(shù)據(jù)問題的研究是不可或缺的基礎(chǔ)之一?
1 元數(shù)據(jù)的定義
元數(shù)據(jù)的一般定義是:元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data)?它是一種廣泛存在的現(xiàn)象,在許多領(lǐng)域有其具體的定義和應(yīng)用?
在哈佛大學(xué)數(shù)字圖書館項(xiàng)目里其定義為:元數(shù)據(jù)是幫助查找?存取?使用和管理信息資源的信息?在這個(gè)定義里,元數(shù)據(jù)既適合于電子資源,又適合于非電子資源;不僅包括編目信息,也包括其他存取和管理資源的信息[1]?
真溱指出了在圖書館信息界一種較為正式的定義:元數(shù)據(jù)是結(jié)構(gòu)化的編碼數(shù)據(jù),用于描述載有信息實(shí)體的特征,以便標(biāo)識(shí)?發(fā)現(xiàn)?評(píng)價(jià)和管理被描述的這些實(shí)體[2]?
劉嘉在其論文中概括了幾種較具代表性的元數(shù)據(jù)定義?其中一種認(rèn)為,“元數(shù)據(jù)是與對(duì)象相關(guān)的數(shù)據(jù)”,此數(shù)據(jù)使其潛在的用戶不必預(yù)先具備對(duì)這些對(duì)象的存在或特征的完整認(rèn)識(shí)?另一種認(rèn)為“元數(shù)據(jù)是對(duì)信息包(information package)的編碼描述,其目的在于提供一個(gè)中間級(jí)別的描述,使得人們據(jù)此就可以做出選擇,確定哪些為其想要瀏覽或檢索的信息包,而無須檢索大量的全文文本?[3]”
林海青給元數(shù)據(jù)的定義是:元數(shù)據(jù)是一種用來描述數(shù)字化信息資源,特別是網(wǎng)絡(luò)信息資源的基本特征及其相互關(guān)系,從而確保這些數(shù)字化信息資源能夠被計(jì)算機(jī)及其網(wǎng)絡(luò)系統(tǒng)自動(dòng)辨析?分解?提取和分析歸納的一整套編碼體系?
本文給元數(shù)據(jù)的定義采用在圖書館與信息界普遍使用的概念,即:元數(shù)據(jù)是提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對(duì)信息資源的結(jié)構(gòu)化的描述?
2 元數(shù)據(jù)的類型
根據(jù)不同標(biāo)準(zhǔn),可以將元數(shù)據(jù)劃分為不同的類型?從元數(shù)據(jù)在組織信息資源的功能上區(qū)分,元數(shù)據(jù)可以分為以下類型:(1) 知識(shí)描述型元數(shù)據(jù)?用來描述?發(fā)現(xiàn)和鑒別數(shù)字化信息對(duì)象,如MARC?DC,它主要描述信息資源的主題?內(nèi)容特征?(2)結(jié)構(gòu)型元數(shù)據(jù)?用于描述數(shù)字化信息資源的內(nèi)部結(jié)構(gòu)?相對(duì)知識(shí)描述型元數(shù)據(jù)而言,結(jié)構(gòu)型元數(shù)據(jù)更側(cè)重于數(shù)字化信息資源的內(nèi)在特征如目錄?章節(jié)?段落等特征?(3)存取控制型元數(shù)據(jù)?用來描述數(shù)字化信息資源能夠被利用的基本條件和期限,以及指示這些資源的知識(shí)產(chǎn)權(quán)特征和使用權(quán)限?(4)評(píng)價(jià)型元數(shù)據(jù)?描述和管理數(shù)據(jù)在信息評(píng)價(jià)體系中的位置[4]?
按結(jié)構(gòu)化程度分為:非結(jié)構(gòu)化元數(shù)據(jù),如Yahoo等搜索引擎;較少字段的結(jié)構(gòu)化元數(shù)據(jù),如Dublin core等;高度結(jié)構(gòu)化元數(shù)據(jù),如MARC等?如果按其功能可分為描述型元數(shù)據(jù)?管理型元數(shù)據(jù)和結(jié)構(gòu)元數(shù)據(jù)[5]?
從完整性和結(jié)構(gòu)性出發(fā),元數(shù)據(jù)可分為三類:第一類是簡(jiǎn)單記錄格式的網(wǎng)絡(luò)查詢工具;第二類是結(jié)構(gòu)化格式的以發(fā)現(xiàn)為目的的元數(shù)據(jù);第三類是復(fù)雜格式的以詳細(xì)記錄為目的的元數(shù)據(jù)[6]?
在機(jī)構(gòu)知識(shí)庫(kù)里,我們認(rèn)為元數(shù)據(jù)有3種類型:(1)描述元數(shù)據(jù);(2)管理元數(shù)據(jù);(3)結(jié)構(gòu)元數(shù)據(jù)?
3 元數(shù)據(jù)的功能和作用
元數(shù)據(jù)能夠描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織,具有描述?定位?管理?證明?評(píng)估?選擇?交互等功能?龐清社[7]將元數(shù)據(jù)的作用總結(jié)為信息資源的著錄描述功能?組織集合功能?確認(rèn)和檢索功能?管理控制功能?還原功能?動(dòng)態(tài)跟蹤功能以及信息資源管理系統(tǒng)的開發(fā)利用功能等,體現(xiàn)出經(jīng)濟(jì)全球化?社會(huì)信息化使元數(shù)據(jù)功能不斷增加?應(yīng)用不斷擴(kuò)大的趨勢(shì)?
4 機(jī)構(gòu)知識(shí)庫(kù)中幾種常用軟件系統(tǒng)所用元數(shù)據(jù)分析
在機(jī)構(gòu)知識(shí)庫(kù)中,元數(shù)據(jù)倉(cāng)儲(chǔ)實(shí)現(xiàn)對(duì)提交和采集進(jìn)來的數(shù)字對(duì)象的內(nèi)容?結(jié)構(gòu)以及保藏等方面的元數(shù)據(jù)描述信息的集中存儲(chǔ)和管理功能,知識(shí)庫(kù)提供對(duì)數(shù)字對(duì)象的統(tǒng)一存儲(chǔ)和管理,并與元數(shù)據(jù)倉(cāng)儲(chǔ)共同構(gòu)成支持?jǐn)?shù)字對(duì)象的保藏?組織和利用等功能實(shí)現(xiàn)的基礎(chǔ)?
元數(shù)據(jù)標(biāo)準(zhǔn)要使用戶能夠檢索或?yàn)g覽項(xiàng)目以及能夠?qū)C(jī)構(gòu)庫(kù)的內(nèi)容進(jìn)行網(wǎng)絡(luò)管理;大部分機(jī)構(gòu)庫(kù)要能夠支持基本的元數(shù)據(jù)標(biāo)準(zhǔn),尤其是DC標(biāo)準(zhǔn),其余的機(jī)構(gòu)庫(kù)則能夠支持專門領(lǐng)域所元數(shù)據(jù)[8]?
本文對(duì)目前國(guó)際上應(yīng)用較為廣泛的機(jī)構(gòu)知識(shí)庫(kù)軟件DSpace?Eprints?Greenston?Fedora等中的元數(shù)據(jù)情況進(jìn)行介紹分析?
4.1 DSpace
DSpace系統(tǒng)的元數(shù)據(jù)默認(rèn)配置是麻省理工學(xué)院圖書館的配置,即一組基于圖書館應(yīng)用協(xié)議(Library Application Profile)的DC元素和限定詞[9]?各圖書館或科研機(jī)構(gòu)可以在DSpace管理窗口的“Dublin Core注冊(cè)”中根據(jù)實(shí)際需要適當(dāng)修改相應(yīng)的元素或限定詞?
DSpace中,把不同的科研院所和研究中心稱為一個(gè)社區(qū)(Community),把其要提交的數(shù)字化資料稱為館藏(Collection),把描述館藏屬性的條目稱為項(xiàng)目(Item),這些項(xiàng)目由DC元數(shù)據(jù)來描述,項(xiàng)目再分為數(shù)據(jù)束(Bundle),數(shù)據(jù)束由數(shù)字流(BitStream)組成,數(shù)字流是不可以再劃分的?最小的描述單位?資料描述模型如圖1所示[10]?
DSpace中的存檔內(nèi)容具有3種元數(shù)據(jù):描述性元數(shù)據(jù)?管理元數(shù)據(jù)與結(jié)構(gòu)元數(shù)據(jù)?每個(gè)款目都包含一個(gè)限定的Dublin核心描述性元數(shù)據(jù),有關(guān)該款目的其他描述性元數(shù)據(jù)以序列化的數(shù)字流形式存在?管理元數(shù)據(jù)包括保存元數(shù)據(jù)?出處與認(rèn)證政策數(shù)據(jù),其大多存于DSpace關(guān)系數(shù)據(jù)庫(kù)表中,其中保存元數(shù)據(jù)是存儲(chǔ)在Dublin核心記錄中?結(jié)構(gòu)元數(shù)據(jù)包含的信息有:如何將款目?jī)?nèi)的比特流展現(xiàn)給終端用戶,如何展現(xiàn)款目?jī)?nèi)各要素之間的關(guān)系?
4.2 Eprints
Eprints(http:∥www.eprints.org/)是由英國(guó)南安普敦大學(xué)于2000年研發(fā)的通用免費(fèi)軟件?該軟件采用聯(lián)合信息系統(tǒng)委員會(huì)(JISC)資助的開放文獻(xiàn)項(xiàng)目(OAI)制訂的通用元數(shù)據(jù)標(biāo)記標(biāo)準(zhǔn),可兼容各種元數(shù)據(jù)模式[11]?
一個(gè)eprint對(duì)應(yīng)系統(tǒng)內(nèi)的一條記錄,它由一些文檔和元數(shù)據(jù)組成?通常,同一信息會(huì)有多種格式的文檔存在?元數(shù)據(jù)又分為兩類:系統(tǒng)元數(shù)據(jù)字段,如eprint的id和存儲(chǔ)用戶的id,是軟件所必需的字段;存檔元數(shù)據(jù)字段,如題名?作者和年份等,這些字段包含用戶在瀏覽和檢索知識(shí)庫(kù)時(shí)所需的有用信息,這些元數(shù)據(jù)字段可在知識(shí)庫(kù)建立時(shí)自定義建立[12]?
4.3 Greenstone
Greenstone(http:∥www.greenstone.org/)由Waikato大學(xué)的新西蘭數(shù)字圖書館項(xiàng)目制作,與聯(lián)合國(guó)教科文組織及人類信息非政府組織(Human Info NGO)合作開發(fā)與發(fā)行?它是在GNU通用公共許可條款下發(fā)布的開源多語(yǔ)種軟件,包括英語(yǔ)?法語(yǔ)?西班牙語(yǔ)?簡(jiǎn)體中文?繁體中文等多種版本?
在Greenstone中系統(tǒng)有幾種預(yù)定義的元數(shù)據(jù)集,DC就是其中之一,每個(gè)收藏與一個(gè)或多個(gè)元數(shù)據(jù)集相關(guān)聯(lián),圖書館員界面允許通過添加額外的元素來定義新的元數(shù)據(jù)集?此外,系統(tǒng)還允許從文檔自身自動(dòng)抽取的元數(shù)據(jù)信息(如HTML Title tags,meta tags,built-in Word author,title metadata)?系統(tǒng)通過名域namespace來區(qū)分不同的元數(shù)據(jù)集,如文檔可以同時(shí)擁有DC題名和抽取的題名,它們不必具有相同的值?文檔中的元數(shù)據(jù)和元數(shù)據(jù)集自身是用XML表現(xiàn)的?
4.4 Fedora
Fedora由弗吉尼亞大學(xué)和康奈爾大學(xué)共同開發(fā)并實(shí)施,是一個(gè)通用的數(shù)字對(duì)象管理系統(tǒng)?該系統(tǒng)建立在數(shù)字對(duì)象和倉(cāng)庫(kù)結(jié)構(gòu)基礎(chǔ)之上,具有很強(qiáng)的靈活性和擴(kuò)展性,可用于建立功能全面的機(jī)構(gòu)庫(kù)?支持互操作的數(shù)字圖書館等?遵循Mozilla協(xié)議的開發(fā)源代碼系統(tǒng),實(shí)用對(duì)象更傾向于計(jì)算機(jī)學(xué)科人員?
數(shù)字對(duì)象是Fedora知識(shí)庫(kù)中所存儲(chǔ)的數(shù)字內(nèi)容?數(shù)字對(duì)象通過數(shù)據(jù)流將文本?圖像?視頻?元數(shù)據(jù)及其他形式的多媒體數(shù)據(jù)和對(duì)這些數(shù)據(jù)的操作封裝起來?數(shù)據(jù)流,是數(shù)字對(duì)象所包含的內(nèi)容款目?一個(gè)數(shù)字對(duì)象可包含有一個(gè)或多個(gè)數(shù)據(jù)流?數(shù)據(jù)流的內(nèi)容可以是元數(shù)據(jù)或數(shù)據(jù)本身?如果是元數(shù)據(jù),可以是各種格式;如是數(shù)據(jù)本身,可是文本?圖像?音頻或視頻數(shù)據(jù)?每個(gè)數(shù)字對(duì)象都有一個(gè)默認(rèn)的Dublin核心元數(shù)據(jù)數(shù)據(jù)流[12]?
在現(xiàn)有的數(shù)字倉(cāng)儲(chǔ)中,Fedora是惟一徹底落實(shí)了數(shù)字對(duì)象的系統(tǒng)?每個(gè)Fedora數(shù)字對(duì)象有一個(gè)原始的DC記錄,符合OAI PMH 2.0協(xié)議標(biāo)準(zhǔn)所定義的Schema規(guī)范,這種元數(shù)據(jù)可以使用OAI PMH 2.0標(biāo)準(zhǔn)訪問?
下表是對(duì)以上4種常用開源軟件系統(tǒng)元數(shù)據(jù)情況比較分析匯總?
綜觀以上4種常用軟件系統(tǒng)在以下方面存在異同:
相同點(diǎn):
(1)都支持長(zhǎng)期保存的問題,可以給同一種內(nèi)容提供多種數(shù)字格式,使用技術(shù)元數(shù)據(jù)并保證一個(gè)全球惟一的標(biāo)識(shí)符來訪問每個(gè)數(shù)字對(duì)象?
(2)都支持?jǐn)?shù)字對(duì)象,可以是原生的或者是數(shù)字化的,不受特定的文件格式或數(shù)字內(nèi)容類型的限制?
(3)都采用METS標(biāo)準(zhǔn)作為數(shù)據(jù)交換的格式?
(4)采用的標(biāo)準(zhǔn)都是DC元數(shù)據(jù)集,實(shí)現(xiàn)了OAI協(xié)議,提供元數(shù)據(jù)采集服務(wù),方便系統(tǒng)之間的互操作?
不同點(diǎn):
(1)數(shù)據(jù)處理方面?DSpace中的數(shù)據(jù)和元數(shù)據(jù)作為獨(dú)立的兩個(gè)實(shí)體,Fedora中的數(shù)據(jù)和元數(shù)據(jù)被封裝在數(shù)字對(duì)象內(nèi)部?Greenstone元數(shù)據(jù)處理相對(duì)復(fù)雜,批量處理過程(例如建立索引等)影響系統(tǒng)運(yùn)行?
(2)元數(shù)據(jù)支持的靈活程度不同?DSpace中內(nèi)置的支持允許一些簡(jiǎn)單修飾符的DC元數(shù)據(jù),如果要擴(kuò)展其它的元數(shù)據(jù)方案,需要對(duì)數(shù)據(jù)庫(kù)結(jié)構(gòu)進(jìn)行修改?Eprints可以采用任何元數(shù)據(jù)標(biāo)準(zhǔn),可以由管理員選擇元數(shù)據(jù)字段?Fedora中的元數(shù)據(jù) 模型可以是一個(gè)本地的元數(shù)據(jù)集合,一個(gè)標(biāo)準(zhǔn)的元數(shù)據(jù)集合,或者是DC元數(shù)據(jù)的擴(kuò)展?Fedo ra只提供對(duì)DC元數(shù)據(jù)集中的元素進(jìn)行索引和檢索的支持,如果對(duì)其他的元數(shù)據(jù)字段做索引和 檢索,可以擴(kuò)展一個(gè)外部的應(yīng)用程序來實(shí)現(xiàn),比DSpace更為靈活?Greenstone中系統(tǒng)有幾種 預(yù)定義的元數(shù)據(jù)集,DC就是其中之一,每個(gè)收藏與一個(gè)或多個(gè)元數(shù)據(jù)集相關(guān)聯(lián),圖書館員界 面允許通過添加額外的元素來定義新的元數(shù)據(jù)集?
5 結(jié) 語(yǔ)
在機(jī)構(gòu)知識(shí)庫(kù)中,元數(shù)據(jù)通常由資源?屬性?屬性值?操作規(guī)則和聯(lián)合操作規(guī)則五項(xiàng)內(nèi)容組成?其中,資源可以是任何使用URI(統(tǒng)一資源標(biāo)識(shí)符)標(biāo)識(shí)的內(nèi)容,它可以包含多個(gè)屬性和多種操作規(guī)則,每個(gè)屬性有一個(gè)確定的屬性值?當(dāng)有兩種及以上操作規(guī)則時(shí),就需要聲明它們之間的聯(lián)合操作規(guī)則?若沒有定義任何操作規(guī)則,則元數(shù)據(jù)僅由資源?屬性和屬性值三項(xiàng)內(nèi)容構(gòu)成?通過對(duì)元數(shù)據(jù)的管理可以實(shí)現(xiàn)對(duì)分布存儲(chǔ)的數(shù)據(jù)資源進(jìn)行分類?聚合和集中控制,能夠?qū)崿F(xiàn)資源共享?
參考文獻(xiàn)
[1]呂瓊芳.元數(shù)據(jù)與網(wǎng)絡(luò)信息資源的組織開發(fā)[J].浙江圖書館,2005,(3):6-8.
[2]真溱.矛盾重重的元數(shù)據(jù)世界[J].中國(guó)圖書館學(xué)報(bào),2001,(6):56-59.
[3]劉嘉.元數(shù)據(jù):理念與應(yīng)用[J].中國(guó)圖書館學(xué)報(bào),2001,(5):8.
[4]馬珉.元數(shù)據(jù)——組織網(wǎng)上信息資源的基本格式[J].情報(bào)科學(xué),2002,(4):377-379.
[5]吳開華,等.數(shù)字圖書館元數(shù)據(jù)研究[J].中國(guó)圖書館學(xué)報(bào),2002,(3):43-46.
[6]張曉林,等.管理元數(shù)據(jù)的原理與應(yīng)用[J].圖書情報(bào)工作,2003,(10):12-17.
[7]龐清社.元數(shù)據(jù)的具體功能探討[J].湖北檔案,2005,(8):17-19.
[8]姜瑞其.國(guó)外機(jī)構(gòu)庫(kù)發(fā)展概況[J].圖書情報(bào)工作,2005,(11):142-145.
[9]http:∥dublincore.org/documents/library-application-profile,2006-07-11.
[10]陳亞寧,陳淑君,鐘豐謙.Dspace跨機(jī)構(gòu)虛擬典藏庫(kù)之可行性研究[J].教育資料與圖書館學(xué),2004,(12):243-256.
[11]傅蓉.開放存取倉(cāng)儲(chǔ)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2006,(12):136-138.
[12]王穎潔.機(jī)構(gòu)知識(shí)庫(kù)建庫(kù)軟件DSpace?Eprints?Fedora的比較分析[J].圖書館學(xué)刊,2008,(4):133-137.
[13]董麗,等.開放源代碼的數(shù)字資源管理系統(tǒng)DSpace和Fedora的分析和比較[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(7):1-6.