楊永清 黃畢惠
(四川大學(xué)圖書館,成都 610065)
隨著信息技術(shù)的迅猛發(fā)展和信息環(huán)境的巨大改變,圖書館的文獻資源類型不斷擴展,紙本資源、多載體資源、數(shù)據(jù)庫資源、網(wǎng)絡(luò)資源、開放資源等層出不窮,呈現(xiàn)出數(shù)量龐大、來源多樣、結(jié)構(gòu)各異、種類繁多等特點,給用戶快速、準(zhǔn)確地查找和利用資源造成了困擾,也使習(xí)慣于實體資源組織的圖書館對數(shù)字環(huán)境下涌現(xiàn)出來的巨量數(shù)字資源整合深感無力。大量隱性資源、閑置資源不僅造成資源浪費,還難以滿足用戶獲取、關(guān)聯(lián)、挖掘、重組文獻資源中蘊含的知識資源的迫切需求。資源發(fā)現(xiàn)和知識服務(wù)都依賴于海量資源的合理類聚和深度揭示,而此種資源組織方式必須有元數(shù)據(jù)做最基礎(chǔ)的支撐,可以說,元數(shù)據(jù)是圖書館提供資源獲取和知識服務(wù)的基礎(chǔ),是圖書館管理和服務(wù)乃至生存與發(fā)展的重要資本?;诖?,文獻元數(shù)據(jù)體系建設(shè)實踐蓬勃興起,歐洲數(shù)字圖書館于2011年設(shè)計了《Europeana數(shù)據(jù)模型》[1];2012年美國數(shù)字公共圖書館提出了《元數(shù)據(jù)應(yīng)用綱要》,2015年更新了強化關(guān)聯(lián)數(shù)據(jù)的MAP4.0版[2];大英圖書館于2015年發(fā)布了《釋放價值:大英圖書館2015-2018年館藏元數(shù)據(jù)戰(zhàn)略》[3],圖書館界正紛紛加快設(shè)計和實施元數(shù)據(jù)建設(shè)規(guī)劃。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是描述信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù)。圖書館元數(shù)據(jù)種類豐富,包含描述元數(shù)據(jù)、語義元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)等[4]。文獻元數(shù)據(jù)是圖書館元數(shù)據(jù)的重要組成部分,它是以文獻資源為對象,用于實現(xiàn)文獻資源的描述、解釋、定位、存取、發(fā)現(xiàn)、評估、選擇、關(guān)聯(lián)、挖掘等功能,使文獻資源更易管理、檢索和利用的結(jié)構(gòu)化信息。簡言之,文獻元數(shù)據(jù)能夠描述文獻資源本身的特征和屬性,支持文獻資源的組織和整合,實現(xiàn)文獻資源的檢索利用、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)和關(guān)聯(lián)。圖書館文獻元數(shù)據(jù)建設(shè)的目標(biāo),是將海量、多源、異構(gòu)的資源元數(shù)據(jù)通過規(guī)范整理、分類聚合、組織保存等手段整合在一起,統(tǒng)一實施元數(shù)據(jù)生命全周期的集中管理和利用,以改進元數(shù)據(jù)整合集成效果,釋放隱藏元數(shù)據(jù),提高資源發(fā)現(xiàn)效率,推動資源組織向知識組織轉(zhuǎn)型。
進入21世紀(jì),國外的文獻元數(shù)據(jù)集成研究與實踐日益蓬勃。在元數(shù)據(jù)戰(zhàn)略規(guī)劃方面,美國數(shù)字公共圖書館(DPLA)在其元數(shù)據(jù)政策聲明中提出通過開發(fā)和創(chuàng)新元數(shù)據(jù)集成庫和集成工具,開展元數(shù)據(jù)收集、描述、索引、數(shù)據(jù)增強等工作,保障元數(shù)據(jù)的共享與重用[5];大英圖書館在其館藏元數(shù)據(jù)戰(zhàn)略中提出通過建設(shè)豐富、一致、權(quán)威性、持續(xù)性的元數(shù)據(jù)資源體系,將館藏資源與社會資源關(guān)聯(lián)起來,提高資源使用效率[3]。在元數(shù)據(jù)體系框架方面,奧地利學(xué)者Ibrahim等[6]設(shè)計了元數(shù)據(jù)集成體系結(jié)構(gòu)和系統(tǒng)組件;Bansal等[7]提出了用于大數(shù)據(jù)集成的語義提取、轉(zhuǎn)換和加載框架;Lemos等[8]比較分析了多個網(wǎng)絡(luò)多媒體知識組織系統(tǒng)及系統(tǒng)框架。在元數(shù)據(jù)標(biāo)準(zhǔn)方面,美國國會圖書館的合作編目計劃(PCC)致力于元數(shù)據(jù)描述標(biāo)準(zhǔn)的制定、名稱規(guī)范檔和主題規(guī)范檔(主題詞、分類法、敘詞表等)的創(chuàng)建與修訂[9];ProQuest公司的Summon系統(tǒng)制定了統(tǒng)一的元數(shù)據(jù)描述框架,將所有的資源類型映射到Summon統(tǒng)一架構(gòu)下,實現(xiàn)各種類型資源的同步發(fā)現(xiàn)與揭示[10]。在元數(shù)據(jù)集成建設(shè)實踐方面,有資源發(fā)現(xiàn)系統(tǒng)商和免費共享平臺兩大主流,以Summon、Primo、EDS為代表的資源發(fā)現(xiàn)系統(tǒng)商,每個系統(tǒng)內(nèi)集成的各層級文獻元數(shù)據(jù)規(guī)模均是數(shù)以億計。免費共享平臺以國際區(qū)域聯(lián)盟和各國國家圖書館的文獻資源集成共享平臺為代表,歐盟委員會的Europeana、美國數(shù)字公共圖書館的DPLA、澳大利亞國家圖書館的Trove、新西蘭國家圖書館的DigitalNZ、日本國立國會圖書館的NDL等,這些平臺制定了元數(shù)據(jù)的模型與標(biāo)準(zhǔn),如Europeana的數(shù)據(jù)模型(EDM)、NDL的國立國會圖書館都柏林核心元數(shù)據(jù)描述(DC-NDL)[11]等,并整合了各自國家圖書館、博物館、檔案館等文獻機構(gòu)的數(shù)字資源,為公眾提供文獻資源的廣泛使用和共享。
隨著數(shù)字資源數(shù)量激增,我國也在積極探索文獻資源整合及文獻元數(shù)據(jù)集成建設(shè),研究內(nèi)容涉及元數(shù)據(jù)整合平臺、系統(tǒng)架構(gòu)、集成實踐等多個層面。在發(fā)現(xiàn)系統(tǒng)資源整合研究方面,竇天芳等[12]在分析資源發(fā)現(xiàn)系統(tǒng)邏輯結(jié)構(gòu)和功能的基礎(chǔ)上,指出元數(shù)據(jù)質(zhì)量及與圖書館集成系統(tǒng)整合方式是資源發(fā)現(xiàn)的關(guān)鍵問題,提出圖書館發(fā)展前景是基于海量元數(shù)據(jù)倉儲開展數(shù)據(jù)驅(qū)動的知識服務(wù);彭佳等[13]基于發(fā)現(xiàn)系統(tǒng)探討構(gòu)建文獻資源深度聚合框架體系,實現(xiàn)語義層面的文獻組織與整合。在元數(shù)據(jù)集成管理系統(tǒng)研究方面,趙捷等[14]在系統(tǒng)需求分析的基礎(chǔ)上,提出了系統(tǒng)架構(gòu)、系統(tǒng)功能和集成管理流程的設(shè)計方案;丁遒勁等[15]基于國外元數(shù)據(jù)集成實踐經(jīng)驗,提供了一個多來源元數(shù)據(jù)集成組織管理框架,從基礎(chǔ)層、操作層和應(yīng)用層3個層次探討了多源元數(shù)據(jù)的集成管理方法;丁遒勁等[16]設(shè)計了文獻元數(shù)據(jù)集成管理框架和管理流程,提出了元數(shù)據(jù)集成管理的推進策略;姜恩波等[17]針對書目元數(shù)據(jù)介紹了一個集元數(shù)據(jù)檢索、轉(zhuǎn)化和整合功能為一體的開源元數(shù)據(jù)管理發(fā)布平臺。在元數(shù)據(jù)規(guī)范化處理研究方面,趙捷等[14]提出了構(gòu)建規(guī)則庫和規(guī)范檔來解決多源異構(gòu)元數(shù)據(jù)的統(tǒng)一規(guī)范方案。在元數(shù)據(jù)建設(shè)實踐方面,梁蕙瑋等[18]介紹了國家圖書館元數(shù)據(jù)倉儲建設(shè)的目標(biāo)、流程和元數(shù)據(jù)整合方法。綜上所述,我國雖然在文獻資源元數(shù)據(jù)的集成管理研究和實踐方面取得了一定的成果,但在文獻資源元數(shù)據(jù)的多渠道獲取、元數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范化建設(shè)、元數(shù)據(jù)大規(guī)模集成建設(shè)和共享應(yīng)用等方面的研究還具有一定的局限性,需要進一步研究和探索。
元數(shù)據(jù)是資源發(fā)現(xiàn)和知識服務(wù)的基礎(chǔ),發(fā)現(xiàn)的機制是通過對文獻資源元數(shù)據(jù)的集成整合,建立元數(shù)據(jù)倉儲,編制統(tǒng)一的元數(shù)據(jù)預(yù)索引,來實現(xiàn)簡捷高效的資源檢索與服務(wù)。從實踐效果來看,當(dāng)前發(fā)現(xiàn)系統(tǒng)檢索出的資源數(shù)量龐大、相關(guān)性不強、檢索精準(zhǔn)度不高、識別選擇困難,這些現(xiàn)象都與元數(shù)據(jù)的集成管理問題密切相關(guān),如元數(shù)據(jù)倉儲架構(gòu)、元數(shù)據(jù)質(zhì)量、元數(shù)據(jù)測評、元數(shù)據(jù)服務(wù)等[19]。除此之外,筆者認(rèn)為元數(shù)據(jù)集成管理還存在諸多方面的問題,如元數(shù)據(jù)統(tǒng)一集成、元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、元數(shù)據(jù)權(quán)益確立、元數(shù)據(jù)協(xié)同建設(shè)等,這些都是必須加以關(guān)注和解決的問題。
圖書館文獻資源可以大致分為實體資源和數(shù)字資源。長期以來,對實體文獻資源的組織揭示主要是基于編目工作建立MARC書目記錄,通過圖書館的OPAC系統(tǒng)來進行檢索和利用。經(jīng)過五十余年的建設(shè)與發(fā)展,全球已經(jīng)積累了數(shù)量豐富的書目記錄,以O(shè)CLC為例,截至2019年9月,OCLC的WorldCat中書目記錄數(shù)量已經(jīng)超過4.64億條[20]。MARC書目記錄的編制經(jīng)過數(shù)十年的發(fā)展雖然已經(jīng)具備了規(guī)模效應(yīng)和固定模式,對實體資源的計算機檢索和利用作出了積極而重大的貢獻,但由于其揭示粒度粗、無法實現(xiàn)關(guān)聯(lián)開放等缺陷也深受詬病。針對數(shù)字資源而言,目前大型數(shù)據(jù)庫收錄的數(shù)字資源數(shù)量龐大,其涵蓋的元數(shù)據(jù)數(shù)量均數(shù)以億計,對數(shù)字資源的組織揭示也主要是通過商用系統(tǒng)來實現(xiàn)。不同系統(tǒng)中的多種資源給用戶一站式查找和獲取文獻造成了障礙;而且,文獻資源的元數(shù)據(jù)格式類型眾多,加之來源不同、粒度不一、形態(tài)各異,需要通過元數(shù)據(jù)的融合、聚類和重組,對圖書館分散的、獨立存儲于不同系統(tǒng)中的文獻資源元數(shù)據(jù)進行大規(guī)模的統(tǒng)一集成整合,構(gòu)建一個多源異構(gòu)的元數(shù)據(jù)有機體,在語義層面實現(xiàn)文獻資源的類聚與重組,達成對多源異構(gòu)資源一站式檢索的目標(biāo),將“資源發(fā)現(xiàn)”提升為“知識發(fā)現(xiàn)”,滿足用戶獲取知識服務(wù)(如數(shù)據(jù)挖掘、引文分析、科學(xué)數(shù)據(jù)管理、科研前沿預(yù)測等)的迫切需求。
元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范與元數(shù)據(jù)建設(shè)質(zhì)量密切相關(guān)。對于多源異構(gòu)的元數(shù)據(jù)集成不可避免地要面臨元數(shù)據(jù)層次級別不同、粒度粗細不均、著錄形式不一、格式和語義沖突等問題。以元數(shù)據(jù)層級為例,傳統(tǒng)的實體資源元數(shù)據(jù)絕大多數(shù)是書目級元數(shù)據(jù),而大多數(shù)的數(shù)據(jù)庫資源元數(shù)據(jù)是篇章級元數(shù)據(jù),層級不同導(dǎo)致元數(shù)據(jù)粒度不均。以元數(shù)據(jù)著錄為例,同一作品會出現(xiàn)多個題名(如紅樓夢、石頭記),同一責(zé)任者也可能有不同的名稱(如魯迅、周樹人),同樣的數(shù)字還會有不同的表達形式(如阿拉伯?dāng)?shù)字、羅馬數(shù)字)等。以元數(shù)據(jù)格式為例,有marc、dc、xml等,不同的元數(shù)據(jù)格式帶來了格式轉(zhuǎn)換和字段映射問題。以相同資源元數(shù)據(jù)的唯一性為例,不同來源的元數(shù)據(jù)中,同一資源由于被多個數(shù)據(jù)庫收錄,會出現(xiàn)多條元數(shù)據(jù),且同一資源的多條元數(shù)據(jù)之間還存在差異,帶來了元數(shù)據(jù)的判重和歸并問題。沒有統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,將無法實現(xiàn)元數(shù)據(jù)的統(tǒng)一描述、規(guī)范標(biāo)引、集成整合和元數(shù)據(jù)互操作。
元數(shù)據(jù)權(quán)益有兩方面的含義,一是指圖書館收集獲取元數(shù)據(jù)的權(quán)利,二是指元數(shù)據(jù)的資產(chǎn)歸屬認(rèn)定。收集獲取元數(shù)據(jù)的權(quán)利主要是針對商用數(shù)據(jù)庫資源而言。由于全球數(shù)字出版模式的興起,文獻資源大量以數(shù)字化的形態(tài)出品,數(shù)據(jù)庫資源正成為圖書館的主力資源。據(jù)全國高校圖工委統(tǒng)計,許多本科及以上層次高校圖書館的電子資源購置費比例已經(jīng)接近或達到圖書館資源建設(shè)總經(jīng)費的70%[21]。但圖書館花巨資購買的數(shù)據(jù)庫資源大多數(shù)都只有使用權(quán),而沒有電子全文的長期保存權(quán)和擁有權(quán);圖書館引進的商用發(fā)現(xiàn)系統(tǒng)也是以系統(tǒng)接口的方式來提供檢索服務(wù),文獻資源元數(shù)據(jù)并未存儲于圖書館本地系統(tǒng),圖書館對文獻資源元數(shù)據(jù)缺乏自主權(quán)。圖書館收集數(shù)據(jù)庫資源元數(shù)據(jù)困難,究其原因是元數(shù)據(jù)具有信息資源增值功能,很多數(shù)據(jù)庫內(nèi)容提供商為了商業(yè)競爭而壟斷元數(shù)據(jù)資源,不愿意將元數(shù)據(jù)提交給圖書館,這種狀況導(dǎo)致圖書館無法利用海量的基礎(chǔ)元數(shù)據(jù)來開展數(shù)據(jù)挖掘、計算分析等工作,更談不上知識發(fā)現(xiàn)與知識服務(wù)。
元數(shù)據(jù)資產(chǎn)歸屬認(rèn)定是針對大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中元數(shù)據(jù)的注冊機制而言。該元數(shù)據(jù)體系集合了出版發(fā)行部門、內(nèi)容提供商、圖書情報機構(gòu)等跨領(lǐng)域的眾多主體機構(gòu)的元數(shù)據(jù)。缺乏清晰的元數(shù)據(jù)資產(chǎn)權(quán)屬認(rèn)定,會對元數(shù)據(jù)的收割、管理、保存、更新、協(xié)調(diào)共享、館藏資產(chǎn)清點等工作帶來一系列的負面影響,也不利于形成聯(lián)盟層面甚至是國家層面元數(shù)據(jù)大規(guī)模的集成與應(yīng)用。
語義檢索、數(shù)據(jù)挖掘、知識關(guān)聯(lián)和發(fā)現(xiàn)的實現(xiàn)必須基于海量元數(shù)據(jù)資源的集成管理,即需要構(gòu)建“大數(shù)據(jù)”化的文獻資源元數(shù)據(jù)體系。目前我國國家圖書館和大型的圖書館聯(lián)盟都在積極致力于資源元數(shù)據(jù)體系建設(shè),如國家圖書館通過文津搜索系統(tǒng)來收割公共圖書館的文獻元數(shù)據(jù),并與自建元數(shù)據(jù)和外購商用資源元數(shù)據(jù)進行整合集成,構(gòu)建大型元數(shù)據(jù)倉儲[22];中國高等教育文獻保障系統(tǒng)(CALIS)通過e讀學(xué)術(shù)搜索收集了高校成員館提交的免費資源、購買的商用數(shù)據(jù)資源及合作機構(gòu)提供的資源,涵蓋期刊、學(xué)位論文、普通圖書、工具書、年鑒、報紙等資源類型,數(shù)據(jù)量已超過3億條[23];國家科技圖書文獻中心(NSTL)除了資源的自主加工以外,還與出版社、內(nèi)容提供商、數(shù)據(jù)庫代理商等機構(gòu)開展合作集成整合資源,其類型包含圖書、期刊、會議論文、科技報告、專利、標(biāo)準(zhǔn)、計量規(guī)程等。雖然上述大型機構(gòu)和聯(lián)盟的元數(shù)據(jù)集成整合實踐卓有成效,但距“大數(shù)據(jù)”級還相差甚遠,同時在各跨界領(lǐng)域還沒有形成統(tǒng)一的資源描述和元數(shù)據(jù)標(biāo)準(zhǔn),還不能實現(xiàn)元數(shù)據(jù)的共享、復(fù)用和互操作,亟須相關(guān)的上下游行業(yè)和文獻服務(wù)機構(gòu)開展元數(shù)據(jù)的協(xié)同建設(shè)。
數(shù)據(jù)關(guān)聯(lián)和知識發(fā)現(xiàn)必須以“大數(shù)據(jù)”級的文獻資源元數(shù)據(jù)體系為基礎(chǔ),僅靠單一圖書館或單個圖書館聯(lián)盟無法形成海量的元數(shù)據(jù)資源。達成資源發(fā)現(xiàn)和知識服務(wù)的目標(biāo),實施多主體協(xié)同共建文獻資源元數(shù)據(jù)體系的策略是行之有效的路徑。在元數(shù)據(jù)采集、元數(shù)據(jù)更新、元數(shù)據(jù)管理、新技術(shù)應(yīng)用等方面,圖書館需要與信息產(chǎn)業(yè)鏈上的出版商、內(nèi)容提供商、平臺構(gòu)建商、其他信息服務(wù)機構(gòu)開展協(xié)同合作,才能滿足終端用戶更深層次的信息服務(wù)需求;而在元數(shù)據(jù)服務(wù)、終端用戶需求收集、館藏特色資源數(shù)字出版、科研成果信息獲取等方面,信息產(chǎn)業(yè)鏈的上下游機構(gòu)需要與作為信息傳播中介的圖書館協(xié)同合作,才能促使自己的可持續(xù)發(fā)展。因此,文獻元數(shù)據(jù)集成體系建設(shè)與上述產(chǎn)業(yè)鏈上的多個主體相關(guān),多主體、多來源、多類型的異構(gòu)資源元數(shù)據(jù)整合成“大數(shù)據(jù)”級的文獻資源元數(shù)據(jù)體系,采用多主體協(xié)同共建模式既可實現(xiàn)多方共贏,又能滿足用戶所需。多主體協(xié)同共建的重點內(nèi)容有三方面,一是元數(shù)據(jù)的統(tǒng)一集成,二是元數(shù)據(jù)的標(biāo)準(zhǔn)制定,三是元數(shù)據(jù)的資產(chǎn)注冊。應(yīng)該以此為突破口,加強元數(shù)據(jù)的統(tǒng)一集成、細粒度加工和語義關(guān)聯(lián),強化文獻元數(shù)據(jù)的集成管理,破解元數(shù)據(jù)建設(shè)中遭遇的各種難題。
元數(shù)據(jù)統(tǒng)一集成的實質(zhì)就是將分散在相對獨立的各個系統(tǒng)和平臺中的各類型元數(shù)據(jù)進行融合、聚類和重組,形成一個統(tǒng)一、高效、開放的元數(shù)據(jù)有機體系。文獻資源元數(shù)據(jù)集成體系的建設(shè)涉及元數(shù)據(jù)收集、處理、集成組織、服務(wù)應(yīng)用等多個層面(見圖1)。建立元數(shù)據(jù)采集、處理、整合流程,針對多源異構(gòu)元數(shù)據(jù)制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),實現(xiàn)元數(shù)據(jù)的統(tǒng)一規(guī)范和互操作,支持元數(shù)據(jù)的共享和復(fù)用;在對描述型元數(shù)據(jù)進行整合的同時,也需要對語義元數(shù)據(jù)進行規(guī)范整合,揭示元數(shù)據(jù)所表達的各類實體之間、實體與屬性之間的關(guān)系,并利用元數(shù)據(jù)屬性進行聚類重組,統(tǒng)一整合分散于各個系統(tǒng)之中的元數(shù)據(jù),構(gòu)建細粒度、語義豐富的知識網(wǎng)絡(luò)體系,便于計算機對文本內(nèi)容的理解和對語義內(nèi)容的計算,實現(xiàn)文獻檢索服務(wù)向真正意義上的知識服務(wù)的轉(zhuǎn)型。
4.1.1 元數(shù)據(jù)收集
圖書館文獻資源由館藏實體資源、館藏數(shù)字資源(外購和自建)、共享聯(lián)盟資源、其他領(lǐng)域文獻機構(gòu)資源和互聯(lián)網(wǎng)資源等構(gòu)成。因此,文獻資源元數(shù)據(jù)包含書目元數(shù)據(jù)、商用數(shù)字資源元數(shù)據(jù)、自建數(shù)字資源元數(shù)據(jù)、聯(lián)盟資源元數(shù)據(jù)、其他機構(gòu)資源元數(shù)據(jù)和網(wǎng)絡(luò)資源元數(shù)據(jù)等,涵蓋母級元數(shù)據(jù)、卷期元數(shù)據(jù)、篇章級元數(shù)據(jù)等多層級元數(shù)據(jù)。
對上述元數(shù)據(jù)進行收集,應(yīng)明確各類型文獻資源元數(shù)據(jù)的來源:①書目元數(shù)據(jù),存儲于圖書館本地的自動化管理系統(tǒng)中,是圖書館最傳統(tǒng)最基礎(chǔ)的元數(shù)據(jù),是圖書館數(shù)十年編目工作積累的成果,包含館藏圖書、期刊、音像制品等物理資源的編目數(shù)據(jù);②商用數(shù)字資源元數(shù)據(jù),來源于圖書館外購的數(shù)據(jù)庫資源,需要圖書館與數(shù)據(jù)庫商、數(shù)據(jù)庫代理商或資源內(nèi)容提供商進行協(xié)商,簽訂元數(shù)據(jù)收割協(xié)議,按協(xié)議規(guī)定的方式(如FTP、OAI、API、HTTP等)開展元數(shù)據(jù)的采集;③自建數(shù)字資源元數(shù)據(jù),是圖書館根據(jù)學(xué)校教學(xué)科研發(fā)展和圖書館服務(wù)需要自行建設(shè)的特色資源數(shù)據(jù)庫,圖書館擁有該類元數(shù)據(jù)的自主權(quán);④聯(lián)盟元數(shù)據(jù),是圖書館參與合作共建共享的資源元數(shù)據(jù),需要遵循聯(lián)盟共同達成的一致性協(xié)議,采用OAI-PMH等標(biāo)準(zhǔn)訪問接口方式來采集元數(shù)據(jù);⑤網(wǎng)絡(luò)資源元數(shù)據(jù),包括各類免費資源和開放獲取資源元數(shù)據(jù),可以采用搜索引擎等方式來對相關(guān)資源元數(shù)據(jù)進行收集。
4.1.2 元數(shù)據(jù)處理
圖1 文獻元數(shù)據(jù)集成架構(gòu)
對元數(shù)據(jù)進行處理是構(gòu)建多元化異構(gòu)元數(shù)據(jù)統(tǒng)一集成體系必不可少的環(huán)節(jié)。元數(shù)據(jù)處理包含如下內(nèi)容。①元數(shù)據(jù)分析。對各類型元數(shù)據(jù)進行結(jié)構(gòu)分析和屬性分析,了解元數(shù)據(jù)的內(nèi)容結(jié)構(gòu)、句法結(jié)構(gòu)、語義結(jié)構(gòu)及其屬性關(guān)系。②異構(gòu)數(shù)據(jù)同構(gòu)化。首先對來自不同系統(tǒng)、不同類型的數(shù)字資源定義各自一致的元數(shù)據(jù)結(jié)構(gòu);其次設(shè)計異構(gòu)數(shù)據(jù)的相互映射機制,通過數(shù)據(jù)轉(zhuǎn)換消除數(shù)據(jù)結(jié)構(gòu)差異;再次梳理不同類型元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,如書目母體元數(shù)據(jù)與其目次元數(shù)據(jù)的關(guān)系、實體資源元數(shù)據(jù)與同種數(shù)字資源元數(shù)據(jù)的關(guān)系、描述型元數(shù)據(jù)與規(guī)范元數(shù)據(jù)的關(guān)系等。③元數(shù)據(jù)查重歸并。不同系統(tǒng)中針對同一文獻資源可能存在多個重復(fù)的元數(shù)據(jù),由于元數(shù)據(jù)制作機構(gòu)標(biāo)準(zhǔn)不統(tǒng)一,重復(fù)的元數(shù)據(jù)之間還有可能存在差異,首先要發(fā)現(xiàn)和確認(rèn)重復(fù)數(shù)據(jù),制定不同類型元數(shù)據(jù)的查重策略,設(shè)計查重匹配規(guī)則,再對不同層級的各類型元數(shù)據(jù)進行機器自動比對,對重復(fù)冗余的元數(shù)據(jù)進行修改、剔除和合并,以實現(xiàn)來自不同系統(tǒng)的相同元數(shù)據(jù)整合揭示的唯一性,提高文獻資源發(fā)現(xiàn)的效率。
4.1.3 元數(shù)據(jù)整合
文獻資源元數(shù)據(jù)來自不同機構(gòu)的不同數(shù)據(jù)庫,這些數(shù)據(jù)庫的元數(shù)據(jù)字段定義各不相同,采用的資源描述標(biāo)準(zhǔn)也存在差異。這就要求對元數(shù)據(jù)字段進行準(zhǔn)確的分析、確認(rèn)和匹配。制定元數(shù)據(jù)字段匹配策略時,要注重字段的完整性、規(guī)范性、唯一性和語義明確性。
梳理元數(shù)據(jù)表達的各種實體及實體之間的相互關(guān)系,是元數(shù)據(jù)整合的重要一環(huán)。文獻資源中包含多種實體,既可以是具體的人、事、物,也可以是抽象的概念或關(guān)系,如人名、地名、機構(gòu)、事件、概念、公理、生成方式、相互關(guān)系等。分析元數(shù)據(jù)實體及其關(guān)系,制定元數(shù)據(jù)實體抽取策略,建立實體名稱規(guī)范化規(guī)則,并通過實體消歧解決數(shù)據(jù)沖突和語義沖突,實現(xiàn)元數(shù)據(jù)實體融合。
元數(shù)據(jù)整合時應(yīng)對元數(shù)據(jù)的多種形式分別進行整合,如對同種資源的不同載體形式進行整合,對同種資源的不同版本形式進行整合,對同種資源的不同語種形式進行整合等。還應(yīng)根據(jù)元數(shù)據(jù)的類型和層次,對元數(shù)據(jù)進行分層級整合。在對描述型元數(shù)據(jù)進行整合的同時,還要注重對知識元數(shù)據(jù)的整合,注意采用分類法、詞表、領(lǐng)域詞典、本體、語義網(wǎng)絡(luò)等知識組織工具與規(guī)范文檔進行知識標(biāo)引和知識加工,建立知識關(guān)系體系,實現(xiàn)知識實體的識別、深層次聚合和知識關(guān)系網(wǎng)絡(luò)的構(gòu)建。
元數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè)是圖書館數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的重要組成部分。由于文獻資源元數(shù)據(jù)情況復(fù)雜,既有實體資源的書目級元數(shù)據(jù),又有數(shù)字資源的篇章級元數(shù)據(jù);既有圖書館自建元數(shù)據(jù),又有其他來源元數(shù)據(jù),因此在開展元數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)時,要充分考慮各種復(fù)雜情況,按照統(tǒng)一的標(biāo)準(zhǔn)來開展實體資源和數(shù)字資源的統(tǒng)一集成管理。元數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè)涉及標(biāo)準(zhǔn)、規(guī)范和規(guī)則的建立,大致可分為結(jié)構(gòu)標(biāo)準(zhǔn)、內(nèi)容標(biāo)準(zhǔn)、取值標(biāo)準(zhǔn)和交換標(biāo)準(zhǔn)[24]。①結(jié)構(gòu)標(biāo)準(zhǔn)。元數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)定義元數(shù)據(jù)格式,如MARC、DC、BIBFRAME、CDF等。②內(nèi)容標(biāo)準(zhǔn)。元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)描述元數(shù)據(jù)元素選取、著錄和構(gòu)成規(guī)劃,如ISBD、RDA等。③取值標(biāo)準(zhǔn)。元數(shù)據(jù)取值標(biāo)準(zhǔn)確定元數(shù)據(jù)詞表和標(biāo)引詞的選取,如分類法、主題詞表、名稱規(guī)范檔等。④交換標(biāo)準(zhǔn)。元數(shù)據(jù)交換標(biāo)準(zhǔn)(編碼標(biāo)準(zhǔn))記錄元數(shù)據(jù)的存儲和交換,如MARC(2709格式)、XML等。
不同類型的資源元數(shù)據(jù)有不同的元數(shù)據(jù)標(biāo)準(zhǔn),同種類型的資源元數(shù)據(jù)來源于不同的機構(gòu)也可能有不同的元數(shù)據(jù)標(biāo)準(zhǔn),因此廣泛收集的底層元數(shù)據(jù)不可避免地存在元數(shù)據(jù)沖突和差異。為了屏蔽元數(shù)據(jù)沖突,需建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)體系,結(jié)合目標(biāo)任務(wù),兼顧不同元數(shù)據(jù)的多項特征,通過選用國際上成熟的各類型元數(shù)據(jù)標(biāo)準(zhǔn)或自制元數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計能兼容各類型、各領(lǐng)域元數(shù)據(jù)特點的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)規(guī)范體系;并以統(tǒng)一標(biāo)準(zhǔn)體系為藍本,開展原生元數(shù)據(jù)的生產(chǎn)(自建元數(shù)據(jù)),或建立外來元數(shù)據(jù)標(biāo)準(zhǔn)與統(tǒng)一標(biāo)準(zhǔn)體系的映射關(guān)系,通過映射轉(zhuǎn)換,使文獻元數(shù)據(jù)體系建立于統(tǒng)一的標(biāo)準(zhǔn)之上,實現(xiàn)各類型元數(shù)據(jù)的統(tǒng)一管理,提高資源發(fā)現(xiàn)效率,延伸和深化知識服務(wù)。
4.3.1 外購數(shù)字資源元數(shù)據(jù)采集
沒有文獻資源元數(shù)據(jù)做支撐,無法實現(xiàn)基于海量元數(shù)據(jù)體系的數(shù)據(jù)挖掘、數(shù)據(jù)分析、知識服務(wù)等功能,這凸顯了元數(shù)據(jù)采集工作的重要性。圖書館重金外購的商用數(shù)據(jù)庫資源,其文獻元數(shù)據(jù)掌握在數(shù)據(jù)庫商手中。面對元數(shù)據(jù)采集困境,圖書館應(yīng)大膽主張元數(shù)據(jù)權(quán)益,與數(shù)據(jù)庫商開展談判溝通,從互利互惠的角度平衡雙方訴求,簽訂元數(shù)據(jù)收集與利用協(xié)議。協(xié)議涉及元數(shù)據(jù)收割、保存、更新、使用、開發(fā)等各個方面,如元數(shù)據(jù)提供條件(免費提供還是少量付費)、元數(shù)據(jù)提交方式(如OAI、API、FTP、HTTP等)、元數(shù)據(jù)更新周期、元數(shù)據(jù)質(zhì)量要求、元數(shù)據(jù)使用范圍、元數(shù)據(jù)開發(fā)許可等。該協(xié)議對元數(shù)據(jù)的知識產(chǎn)權(quán)、涉及費用、雙方權(quán)利與義務(wù)等都應(yīng)有明確的約定,以避免后續(xù)糾紛給各自帶來不利的影響。同時,應(yīng)注重對多種類型文獻資源的元數(shù)據(jù)收集,不僅注重對常規(guī)的圖書、期刊等資源元數(shù)據(jù)的收集,還要重視對多介質(zhì)資源和特藏資源元數(shù)據(jù)的收集,如音頻、視頻、縮微資料、科學(xué)報告、科研數(shù)據(jù)、課件資料、圖像資料、動漫資料等,以支持特色資源的整合,滿足各種個性化的需求。
4.3.2 元數(shù)據(jù)資產(chǎn)注冊
在基于“大數(shù)據(jù)”級別的大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中,文獻資源元數(shù)據(jù)來源于不同領(lǐng)域的不同機構(gòu),數(shù)據(jù)分布廣泛,體量巨大。通過元數(shù)據(jù)資產(chǎn)注冊,可以了解元數(shù)據(jù)的資產(chǎn)歸屬和分布情況,記錄元數(shù)據(jù)的版權(quán)屬性,登記元數(shù)據(jù)所屬機構(gòu),揭示元數(shù)據(jù)的使用范圍和使用對象。元數(shù)據(jù)資產(chǎn)注冊的內(nèi)容包含元數(shù)據(jù)名稱、存儲類型、數(shù)據(jù)對象、數(shù)據(jù)業(yè)務(wù)規(guī)則、數(shù)據(jù)管理機構(gòu)、數(shù)據(jù)館藏屬性(如數(shù)據(jù)來源、數(shù)據(jù)URL、數(shù)據(jù)存放位置)等(見圖2)。元數(shù)據(jù)資產(chǎn)注冊可以推動元數(shù)據(jù)的共享利用,分清元數(shù)據(jù)的權(quán)屬關(guān)系,有利于元數(shù)據(jù)的管理、更新和協(xié)調(diào)使用,保障不同行業(yè)、不同機構(gòu)協(xié)同建設(shè)的文獻資源元數(shù)據(jù)集成體系平穩(wěn)、持續(xù)地運行。
圖2 文獻元數(shù)據(jù)注冊示意圖
元數(shù)據(jù)協(xié)同建設(shè)是元數(shù)據(jù)共享復(fù)用的基礎(chǔ)。多主體元數(shù)據(jù)協(xié)同建設(shè)首先要做好頂層設(shè)計,制定跨界協(xié)同發(fā)展戰(zhàn)略,建立長效合作機制,打造元數(shù)據(jù)協(xié)同建設(shè)與服務(wù)平臺;要制定管理制度,爭取政策支持,針對涉及的工作環(huán)節(jié)建立多個研究工作小組,保障平穩(wěn)運行,實現(xiàn)多方共贏,確保元數(shù)據(jù)建設(shè)協(xié)同模式不斷創(chuàng)新與發(fā)展。其次,要認(rèn)真研討元數(shù)據(jù)協(xié)同建設(shè)內(nèi)容,注重商用資源、網(wǎng)絡(luò)資源、開放資源、圖書館機構(gòu)知識庫等多源元數(shù)據(jù)的收集渠道,重視元數(shù)據(jù)注冊與管理,研究元數(shù)據(jù)查重、匹配、映射、轉(zhuǎn)換機制。再次,要積極開展元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)的制定,充分考慮各方原有標(biāo)準(zhǔn)之間的差異,建立多方原有標(biāo)準(zhǔn)與統(tǒng)一標(biāo)準(zhǔn)的映射關(guān)系,設(shè)計能兼容多方標(biāo)準(zhǔn)特點的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)體系。然后,要積極開展文獻資源長期保存合作,與出版商、數(shù)據(jù)庫商簽署多方協(xié)議,在全國范圍內(nèi)通過協(xié)同合作建立數(shù)字資源長期保存機制,保障數(shù)字資源的長期使用需求。最后,要強化元數(shù)據(jù)協(xié)同建設(shè)與服務(wù)平臺功能,使其不僅是文獻提供、資源評估、知識服務(wù)等圖書館精細化服務(wù)的平臺,還是出版商、數(shù)據(jù)庫商開展商業(yè)活動需要的資源展示推廣平臺以及用戶需求信息和個性化出版信息征集平臺。總之,兼顧多方需求,開展協(xié)同共建,實現(xiàn)攜手共贏,達成元數(shù)據(jù)協(xié)同建設(shè)目標(biāo)是未來大勢所趨和時代發(fā)展所向。
在數(shù)字資源占據(jù)主導(dǎo)地位的今天,沿用舊的文獻資源整合模式已無法適應(yīng)資源發(fā)現(xiàn)和知識服務(wù)的需求,亟須圖書館融入開放互聯(lián)環(huán)境,參與大數(shù)據(jù)發(fā)展戰(zhàn)略,重構(gòu)資源組織模式,建立文獻元數(shù)據(jù)體系,細粒度地深入揭示文獻資源的外部形態(tài)、內(nèi)容特征以及相互之間的關(guān)聯(lián)關(guān)系。通過不同層級文獻元數(shù)據(jù)集成建設(shè),運用各類詞表、分類法、規(guī)范文檔等知識組織工具,對文獻單元以及知識單元進行結(jié)構(gòu)化、系統(tǒng)化、關(guān)聯(lián)化處理,實現(xiàn)海量、多源、異構(gòu)文獻元數(shù)據(jù)的統(tǒng)一集成;主張元數(shù)據(jù)權(quán)益,推動元數(shù)據(jù)注冊;制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,解決多源元數(shù)據(jù)的格式?jīng)_突和語義沖突;打造元數(shù)據(jù)識別與關(guān)聯(lián)體系,主動融入社會資源的大數(shù)據(jù)環(huán)境,全面釋放館藏資源價值;建立基于信息產(chǎn)業(yè)生態(tài)鏈的跨界元數(shù)據(jù)合作建設(shè)與服務(wù)機制,共同構(gòu)建國家層面的大規(guī)模元數(shù)據(jù)集成體系,更好地適應(yīng)基于開放互聯(lián)環(huán)境的細粒度知識組織,以達成資源發(fā)現(xiàn)、數(shù)據(jù)挖掘和知識服務(wù)的目標(biāo)。