丁遒勁,馬袁燕,李勃慧
(中國科學技術信息研究所,北京 100038)
多來源元數據集成中的組織管理框架研究*
丁遒勁,馬袁燕,李勃慧
(中國科學技術信息研究所,北京 100038)
國家圖書館、CALIS及NSTL均在開展資源發(fā)現系統(tǒng)構建,特別是多來源元數據集成的相關實踐,然而元數據資源的獲取渠道相對單一,尚未形成標準化、模塊化的工作流程。通過對比澳大利亞、日本等國家圖書館的元數據集成實踐,提出一個面向多來源元數據集成的組織管理框架,旨在形成統(tǒng)一的元數據標準、固化元數據獲取流程、明晰相關利益主體間的權益關系。
元數據集成;發(fā)現服務;組織管理
元數據是關于數據的數據。按照館藏文獻的加工揭示粒度,除描述母體的書目級元數據外,還涵蓋描述單篇論文題名、作者等信息的篇章級元數據。由于書目數據是圖書館OPAC系統(tǒng)建設的數據基礎,所以早期以印本進行母體信息揭示的編目工作尤為重要,成為對機構內部及機構間文獻資源共享的重要前提條件。但伴隨著數字出版和數據庫的發(fā)展,文獻資源揭示粒度已從書目層級逐步深化到篇章級乃至文章內部的圖表、實體、公式等層級,語義出版在出版界方興未艾,如Primo、Summon、EDS這類文獻資源發(fā)現系統(tǒng)以億計的篇章級元數據集成顯現出強大的規(guī)模效應,使圖書館原本以書目元數據資源集成為優(yōu)勢的地位受到挑戰(zhàn)。特別是在當前許多高校圖書館以電子資源為主體的文獻資源建設時期,圖書館單純以編目方式進行的書目數據集成工作受到挑戰(zhàn),亟須向多來源元數據集成方向轉變,在自主加工元數據的同時,不斷拓展網絡采集、第三方提供等其他來源渠道。面對龐雜的元數據資源來源渠道,固化元數據資源獲取流程、明晰元數據集成方與提供方的權益關系等有效的組織管理工作,將在較大程度上提升元數據集成的工作效率,為圖書館更大規(guī)模地集成、更精準地發(fā)現資源奠定堅實的數據基礎。
多來源元數據集成的目的在于改進異構資源的整合與發(fā)現效率。伴隨文獻資源的數字出版程度不斷加深,圖書館在向數字資源建設模式轉變的同時也在不斷通過各種努力對數字資源進行整合。如建立期刊導航和數據庫導航、提供全文鏈接服務、建設聯(lián)邦檢索系統(tǒng)等,但都存在一定局限性[1]。2009年1月,全球第一個網絡級資源發(fā)現系統(tǒng)——Summon發(fā)布,該系統(tǒng)通過整合海量的異構資源元數據,形成統(tǒng)一的元數據索引,為用戶提供快速有效的資源發(fā)現與傳遞服務[2],由此基于資源發(fā)現系統(tǒng)的文獻資源整合模式得到迅速發(fā)展。2011年以來,國內對資源發(fā)現系統(tǒng)的研究逐漸增多,國內圖書館對資源發(fā)現系統(tǒng)的實踐程度主要集中于商業(yè)性資源發(fā)現系統(tǒng)的引進和應用,因此相關研究多為資源發(fā)現服務系統(tǒng)構建原理分析[3]、商業(yè)性資源發(fā)現系統(tǒng)的選型與評估[4]、資源發(fā)現系統(tǒng)在圖書館服務中的應用[5]等。同時,當前商業(yè)資源發(fā)現系統(tǒng)中的元數據資源處于集成狀態(tài)而非經過有效地知識組織與關聯(lián),所能提供的發(fā)現服務層次處于“資源”而非“知識”層次。彭佳等以上海交通大學圖書館“思源探索”系統(tǒng)為例,指出需要在元數據倉儲的基礎上,進一步構建資源組織和深度聚合的整體框架體系,從語義層面上實現信息資源的組織和聚合[6];曾建勛等在國家科技信息發(fā)現服務體系構建中,重點強調本體、敘詞表等知識組織工具在文獻資源語義知識組織中的應用,促進資源發(fā)現系統(tǒng)功能從單一資源級發(fā)現服務向引文分析、科研實體識別等知識服務方向拓展[7]。
多來源元數據集成是資源發(fā)現服務系統(tǒng)的數據基礎,因此資源發(fā)現服務系統(tǒng)構建和實踐情況,可在一定程度上反映多來源元數據集成的進展。在我國,除超星、萬方數據庫等中文商業(yè)性資源發(fā)現系統(tǒng)外,國家圖書館等國家級文獻資源服務機構也正在強化資源發(fā)現服務系統(tǒng)建設,構建多來源元數據資源建設渠道體系。其中,國家圖書館“文津搜索”系統(tǒng)通過收割、轉換、清洗、裝載不同來源的元數據,并對館藏資源整合,構建了超大型海量元數據倉儲;其元數據來源于不同系統(tǒng)、不同機構,涵蓋中西文MARC、DC、XML以及MDF等多種數據格式文件[8]。CALIS在三期項目建設中,建立面向圖書館聯(lián)盟“云上的”信息服務協(xié)作網絡。其中,資源匯集與交換平臺負責收集各成員館提交的網上免費資源、外部購買資源以及由合作方提供的資源,成員館數據直接匯集到CALIS全國交換中心,或是成員館數據先匯集到CALIS省級分中心,再匯集到CALIS全國交換中心[9]。NSTL是在原有依托“印本采集+自主加工”的元數據資源建設模式下,不斷向多來源元數據集成方向轉變,并于2015年起陸續(xù)與數據集成商(如Clarivate Analytics)、出版社(如Taylor Francis等)、圖書代理公司(如中國圖書進出口[集團]總公司等)達成元數據合作協(xié)議。
總體而言,我國在多來源元數據集成方面已有一定研究和實踐,但由于當前元數據資源獲取渠道相對單一,獲取方式相對簡單,具有一定局限性,造成元數據集成中的組織管理工作相對粗放,尚未形成標準化、模塊化的工作流程,不利于資源發(fā)現系統(tǒng)建設。因此,亟待強化前期組織管理工作,提升元數據資源獲取質量和效率。
多來源元數據集成中的組織管理目的在于使各類型、各來源渠道均能按照一定標準規(guī)范,高效有序地提交元數據資源,并確保資源集成方、提供方、使用方等各利益主體間的權益均衡,形成良性循環(huán)。具體而言,組織管理工作需包含以下三方面內容。
(1)制定統(tǒng)一的元數據標準規(guī)范。異構元數據資源整合有賴于統(tǒng)一的元數據標準,需要在不同標準間建立映射關系,因此在數據準備階段應向元數據提供方明確可接收/兼容的數據標準、字段必備程度等,甚至提供統(tǒng)一的元數據標準規(guī)范文本,從而提高元數據提供方資源供給的準確性。
(2)固化元數據獲取流程。總體而言,元數據獲取流程涉及數據準備、數據提交、數據校驗三個環(huán)節(jié)。數據準備階段包含向元數據提供方明確數據提交要求,由元數據提供方自行判斷是否符合提交要求;數據提交則須說明支持的數據打包、傳輸方式等;數據校驗包含格式校驗和內容抽查,利用數據校驗工具和人工審核方法分時段抽驗數據的提交情況。
(3)明確相關利益主體間的權益關系。集成海量元數據資源的目的在于高效使用數據,明確各利益主體間的權益關系,以利于資源發(fā)現系統(tǒng)的平穩(wěn)構建與使用。因此,在數據準備階段,就應通過相應協(xié)議文本明確元數據提供方式(免費或有償)、元數據版權歸屬、元數據使用方式與范圍等,以免產生后續(xù)糾紛。
在國外,無論是商業(yè)性資源發(fā)現系統(tǒng)還是公益機構建設的資源發(fā)現服務系統(tǒng)均在多來源元數據集成管理方面取得成功實踐。商業(yè)性資源發(fā)現系統(tǒng)如Summon、EDS、Primo以及Scopus等同時具備發(fā)現和計量評價功能的外文數據庫產品;由非盈利性組織構建的資源集成平臺如澳大利亞國家圖書館Trove系統(tǒng)、日本國立國會圖書館NDL Search、歐洲虛擬博物館Europeana等,以及專門整合開放期刊、開放圖書、開放學位論文等開放資源的集成平臺DOAJ、PubMed Central等。綜合上述平臺的元數據采集規(guī)范、流程與方法實踐,其多來源元數據集成工作基本遵循圖1的組織管理框架,主要目的是固化和細化工作流程,提升多來源元數據集成工作的效率。
總體而言,該組織管理框架分為基礎層、操作層和應用層三個層次。在元數據集成方制定統(tǒng)一數據標準的基礎上,元數據提供方按照數據準備、數據提交、數據校驗等流程實現多來源元數據資源的轉換和映射,最終由數據集成方實現元數據匯集和整合,形成有效的元數據資源集合,以滿足各類用戶需求。
圖1 面向多來源元數據集成的組織管理框架
在多來源元數據集成工作前期,須先構建一個元數據采集工作組,專門負責多來源元數據資源采集工作。如Trove的宏觀調控和運行由Trove小組負責,小組成員是來自澳大利亞國家圖書館的高級管理人員及來自地方圖書館的工作人員。Trove小組主要由四部分組成,分別負責其戰(zhàn)略方向、資源供給、資源構建、數據提供及維護,各部門間相互協(xié)作,職責分明[10]。此外,制訂統(tǒng)一的元數據標準是多來源元數據集成工作需要解決的重要問題,也是后期不同來源、遵循不同標準的元數據進行映射轉換的依據,如日本國立國會圖書館NDL Search、歐洲虛擬博物館Europeana的發(fā)現系統(tǒng)均已制定統(tǒng)一的元數據標準。特別是Europeana參照METS和RDF等相關標準和規(guī)范,設計開放、跨領域的Europeana Data Modal數據模型,在此基礎上確立揭示數字文化資源不同概念間關聯(lián)關系的語義知識本體模型,通過執(zhí)行本體與關聯(lián)數據融合驅動的元數據語義化操作,對跨機構、跨領域的數字文化資源進行關聯(lián)與整合,形成一個語義關聯(lián)數據網絡[11],為其后期開展深層次知識服務提供數據基礎。
3.2.1 數據準備階段
該階段是元數據集成方與提供方交互的初始階段,需要相互了解數據基本情況及數據提交要求,包括數據評估、協(xié)議簽署及數據測試。(1)數據評估內容包括是否為正規(guī)出版物、涵蓋資源品種、元數據遵循標準及提供的數據格式是否在資源集成方可兼容范圍內。如在資源品種層面,PubMed Central對期刊遴選的基本要求包括擁有注冊的ISSN號,出版商在生命科學領域最少擁有2年出版經歷,每種期刊至少包含2.5篇同行評議論文;在元數據層面,PubMed Central推薦出版商提供的數據應遵循NISO的JATS標準,并同時提交XML格式的期刊論文全文且不接受HTML格式。(2)協(xié)議簽署的目的主要是明確資源集成方與資源提供方的權責關系。如資源提供方在Trove系統(tǒng)提交元數據前須簽署《國家發(fā)現服務數據貢獻理解備忘錄》,該協(xié)議文本對知識產權、費用、雙方義務均進行明確約定。(3)數據測試是在正式數據提交前進行雙方磨合。相比而言,日本國立國會圖書館的元數據操作流程較嚴謹,測試工作被細分為樣本數據提取、系統(tǒng)連接和協(xié)調測試兩部分內容,以確保后期工作的順利開展。
3.2.2 數據提交階段
在雙方確認合作、完成初步數據測試后,將進入數據正式提交階段。對元數據集成中的組織管理工作而言,明確元數據提交方式和提交途徑是此階段的主要內容。一般而言,元數據提交方式包括OAI-PMH數據收割、API、網絡爬蟲、FTP傳輸或HTTP等方式。元數據提交途徑指數據提交的組織結構,既包括資源提供方(資源建設方的單一結構),也包括多層級的網絡結構。如在Europeana的數據提交網絡中,資源提供方提供數據到聚合器(項目組或組織),隨后處理該數據并將其提供給Europeana。CALIS也采用類似的數據匯集方式,構成“成員館—CALIS省級分中心—CALIS全國交換中心”三級數據匯交體系。
3.2.3 數據校驗階段
資源集成方在獲取各渠道數據后,需要進行相應的格式校驗和質量抽檢工作以確保提交的質量。一般而言,格式校驗可通過程序自動完成。如PubMed Central的在線格式校驗工具[12]可基于自身格式規(guī)范對數據進行驗證,對不符合規(guī)范的數據項進行警告或報錯。質量抽檢更注重元數據的內容層面(如作者與機構的對應關系、關鍵詞拆分準確性等),以人工抽查的方式確保數據質量的進一步提升。
3.2.4 數據入倉階段
數據入倉涵蓋前期數據查重、數據整合和數據入倉三個環(huán)節(jié)。不同來源、不同渠道獲取的數據必然在種類、卷期乃至篇級數據方面存在交叉重復現象,通過在母體、卷期、篇級、渠道四個層面對數據進行查重和集成整合,增加元數據厚度,形成有機的元數據資源。如某商業(yè)發(fā)現系統(tǒng)對印本資源與電子資源數據主要通過以下三個方面進行匹配和融合:(1)每個ID至少有一個唯一標識符匹配,“ISBN to ISBN”“EISBN to EISBN”“ISSN to ISSN”“EISSN to EISSN”“LCCN to LCCN”;(2)記錄必須有且僅有一個出版年,允許印本資源出版年份與電子資源出版年份差距在一年內;(3)使用模糊邏輯匹配題名,至少匹配一個題名。
基于統(tǒng)一的元數據資源,目前主要應用方式仍處于資源層級的檢索服務,由此衍生出當前市場上眾多資源發(fā)現系統(tǒng)產品,卻遠不能滿足用戶需求,相比于全文數據庫的語義化出版粒度明顯滯后。因此,隨著海量元數據資源的知識組織深度不斷加深,及關聯(lián)數據等在元數據集成中的應用,提供基于作者、機構等海量科研實體的分析服務將成為可能。同時,基于中央元數據倉儲的個性化數據定制以及應用系統(tǒng)的嵌入,也是元數據集成的一種服務形式。如日本國立國會圖書館NDL Search提供API接口服務,支持其他公共圖書館、博物館、美術館等的系統(tǒng)建設與服務。
(1)拓寬元數據獲取渠道,重視版權歸屬處理。目前,我國公益機構的元數據集成實踐主體主要包括國家圖書館、CALIS以及NSTL,或局限于系統(tǒng)內部合作,或基于自身數據基礎重點開拓圖書代理公司、出版社等渠道,尚未在系統(tǒng)內外達成廣泛合作,這與國外部分國家圖書館的建設機制恰好相反。如澳大利亞國家圖書館Trove系統(tǒng)集成澳大利亞的圖書館、博物館、檔案館和其他科學文化機構的5.3億條有關澳大利亞文化遺產的元數據、全文和鏈接資源[13],包含超過2 000家澳大利亞的圖書館、博物館、檔案館和其他文化機構的資源[14]。同時,在與其他機構合作時,發(fā)現系統(tǒng)構建主體已對合作對象的合作內容及合作要求進行明確表述,并形成相應的協(xié)議文本,這對我國文獻信息服務機構推進跨界合作,具有重要借鑒意義。因此,我國在開展相關數據合作時應重視相應合作協(xié)議文本的撰寫,對合作內容、版權歸屬等問題進行清晰界定。
(2)加快統(tǒng)一元數據標準與其他主流標準映射工作,固化元數據提交要求與流程。統(tǒng)一元數據標準是在更大范圍內進行元數據集成、提高集成效率的有效途徑之一。目前,我國主要文獻保障系統(tǒng)內部已形成一定規(guī)模的元數據標準,但仍存在系統(tǒng)性的條塊分割。因此,一方面要加強系統(tǒng)間元數據標準的交流、探討和宣傳,在統(tǒng)一元數據標準建設方面盡可能達成共識;另一方面,要加強元數據標準注冊系統(tǒng)建設,實現單一文獻機構、出版社、圖書代理公司等元數據標準的相互轉換和映射。同時,我國的大范圍元數據集成工作應明確和固化元數據的合作層級(書目級或篇章級)、可提交元數據格式、元數據上傳方式(FTP、網盤、HTTP等)、格式轉換及校驗流程等,在網站顯著位置明確說明,便于元數據合作方對前期的評估以及后續(xù)工作的開展。
(3)拓展合作內容,構建多元化元數據資源服務體系。從元數據獲取渠道看,與出版社、集成商的合作可快速獲取大規(guī)模元數據資源,與館藏機構合作的價值在于館藏信息及后續(xù)服務保障。如澳大利亞國家圖書館、日本國立國會圖書館與其他文獻信息服務機構的合作主要在元數據資源層面,為用戶提供相應的全文獲取渠道(印本資源館藏位置、電子資源全文鏈接等)。從現有服務實踐看,國外發(fā)現系統(tǒng)尚未完全實現后端服務與本地系統(tǒng)的整合。建議我國大型文獻保障機構在與其他文獻信息服務機構開展元數據合作中,除數據本身外,增加原文傳遞服務整合機制,以及通過API方式將資源嵌入合作方本地文獻信息系統(tǒng),從而增加合作雙方黏性,保證資源發(fā)現系統(tǒng)功能的穩(wěn)定性和運行的持續(xù)性。
[1] 包凌,蔣穎.圖書館統(tǒng)一資源發(fā)現系統(tǒng)的比較研究[J].情報資料工作,2012(5):67-72.
[2] 竇天芳,姜愛蓉.資源發(fā)現系統(tǒng)功能分析及應用前景[J].圖書情報工作,2012,56(7):38-43.
[3] 聶華,朱玲.網絡級發(fā)現服務——通向深度整合與便捷獲取的路徑[J].大學圖書館學報,2011,29(6):5-10.
[4] 秦鴻.關于發(fā)現系統(tǒng)的問題與思考[J].數字圖書館論壇,2012(7):17-20.
[5] 陳雪,鄒小筑,邱彥濤.資源發(fā)現系統(tǒng)在科研課題跟蹤服務中的應用[J].圖書館論壇,2015(5):68-74.
[6] 彭佳,鄭巧英.信息資源聚合與組織研究——以發(fā)現系統(tǒng)為例[J].圖書館雜志,2016(3):80-85.
[7] 曾建勛,丁遒勁.基于語義的國家科技信息發(fā)現服務體系研究[J].中國圖書館學報,2017,43(4):51-62.
[8] 楊東波,邢軍.國家圖書館“文津搜索”的設計與實現[J].國家圖書館學刊,2014(3):93-98.
[9] 王文清,張月祥,關濤,等.CALIS資源整合與云服務[J].國家圖書館學刊,2015,24(2):36-42.
[10] 肖希明,李琪.公共數字文化服務合作機制研究[J].圖書與情報,2016(4):31-37.
[11] 王萍,黃新平.基于關聯(lián)開放數據的數字文化資源語義融合方法研究——歐洲數字圖書館案例分析[J].圖書情報工作,2016,60(12):29-37.
[12] File Validation Tools[EB/OL].[2017-11-25].https://www.ncbi.nlm.nih.gov/pmc/pub/validation/.
[13] Trove Content Inclusion Statement[EB/OL].[2017-11-25].http://help.nla.gov.au/trove/our-policies/trove-content-inclusion-policy#anchor-0.[14] Trove.Current Work Counts by Contributor[EB/OL].[2017-11-25].http://trove.nla.gov.au/system/counts.
Research on the Organization and Management Models for Multi-Source Metadata Integration
DING QiuJing, MA YuanYan, LI BoHui
(Institute of Scientific and Technical Information of China, Beijing 100038, China)
In China, the National Library, CALIS and the National Science and Technology Library have developed their own resource discovery system, including integrating the multi-source metadata, but the systems still need to be upgraded in terms of diversity of metadata acquisition channel and standardization of workflow.Based on the metadata integration practice of the national libraries in Australia and Japan, this paper constructs an organization management framework for multisource metadata integration, which aims to form a unified metadata standard, solidify metadata acquisition workflow, and clarify the interest relationship among relevant stakeholders.
Metadata Integration; Discovery Service; Organization and Management
2017-11-15)
G250
10.3772/j.issn.1673-2286.2017.12.009
* 本研究得到國家社會科學基金重點項目“基于知識組織的圖書館資源發(fā)現服務體系研究”(編號:17ATQ002)資助。
丁遒勁,女,1988年生,館員,研究方向:數字資源建設,E-mail:dingqj2011@istic.ac.cn。
馬袁燕,女,1993年生,碩士研究生,研究方向:數字資源建設。
李勃慧,女,1994年生,碩士研究生,研究方向:數字資源建設。