摘 要:圖書館運用數(shù)據(jù)關(guān)聯(lián)技術(shù),在網(wǎng)絡(luò)上擴大館藏資源的應(yīng)用范圍,采取的方法是建立關(guān)聯(lián)數(shù)據(jù)服務(wù)系統(tǒng),把原有MARC改為關(guān)聯(lián)型MARC記錄,并利用MARC21以特定字段的子字段著錄URI,使館藏資源跨系統(tǒng)與相同實體及相關(guān)實體間形成關(guān)聯(lián)。文章介紹了關(guān)聯(lián)數(shù)據(jù)的基本概念,探討了圖書館關(guān)聯(lián)數(shù)據(jù)建立與導(dǎo)入模式,分析了MARC21的特征及MARC21有關(guān)關(guān)聯(lián)數(shù)據(jù)元素的著錄方式,以期為圖書館開展相關(guān)工作提供參考和借鑒。
關(guān)鍵詞:MARC21;Linky MARC;RDF;URI關(guān)聯(lián)數(shù)據(jù);圖書館
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2024)11-0116-03
1 背景
圖書館利用圖書館自動化管理系統(tǒng)保存館藏資源數(shù)據(jù),通過機讀編目格式(Machine-Readable Cataloging,MARC)實現(xiàn)信息著錄與記錄,從而完成圖書館的信息組織工作。由于圖書館很少關(guān)注MARC著錄內(nèi)容與外界信息的關(guān)聯(lián),造成MARC數(shù)據(jù)不易被非圖書館領(lǐng)域的其他單位所了解與接收,影響了圖書館館藏資源跨領(lǐng)域整合發(fā)展。
美國國會圖書館(Library of Congress,LC)于2012年5月宣布以新的書目描述框架BIBFRAME取代MARC,并于2013年正式實施《資源描述與檢索》(Resource Description& Access,RDA)。隨著信息技術(shù)的發(fā)展,圖書館能夠?qū)^藏資源與網(wǎng)絡(luò)資源進(jìn)行關(guān)聯(lián),以匯聚最全面的資源,供讀者參考和使用。
蒂姆·伯納斯·李(Tim Berners-Lee)為構(gòu)建語義網(wǎng),于2006年提出“關(guān)聯(lián)數(shù)據(jù)”概念,其基礎(chǔ)是將數(shù)據(jù)以計算機能夠理解的形式發(fā)布到Web環(huán)境中,形成一個能讓計算機直接或間接處理的數(shù)據(jù)網(wǎng),這就是語義網(wǎng)的開始。實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的最終目標(biāo)是建立一個高度結(jié)構(gòu)化且具有語義關(guān)系的數(shù)據(jù)網(wǎng)絡(luò),提供機器能夠理解的數(shù)據(jù)以及數(shù)據(jù)在語義中存在的復(fù)雜關(guān)系,并通過數(shù)據(jù)間相互關(guān)聯(lián)的特點,使數(shù)據(jù)得以被更廣泛地運用。
2 關(guān)聯(lián)數(shù)據(jù)的基本概念
關(guān)聯(lián)數(shù)據(jù)是關(guān)于“關(guān)系”的數(shù)據(jù),必須具備以下四個要素:一是使用統(tǒng)一資源識別符(Uniform Resource Identifier,URI)為事物命名,URI是用以標(biāo)識網(wǎng)絡(luò)中某一資源名稱位置的字符串,其唯一性足以提供資料的查詢、辨識、比對、關(guān)聯(lián),且允許使用者對互聯(lián)網(wǎng)上的資源通過特定的協(xié)議進(jìn)行操作。二是將超文本傳輸協(xié)議(Hyper Text Transfer Protocol,HTTP)作為客戶端與服務(wù)器端之間查詢及傳送URI的機制[1]。三是符合資源描述框架(Resource Description Framework,RDF)結(jié)構(gòu),RDF是Web上數(shù)據(jù)交換的標(biāo)準(zhǔn)模型。四是采用SPARQL標(biāo)準(zhǔn)。
3 圖書館關(guān)聯(lián)數(shù)據(jù)建立與導(dǎo)入模式
鑒于關(guān)聯(lián)數(shù)據(jù)對圖書館未來服務(wù)的重要性,國外圖書館紛紛致力于圖書館關(guān)聯(lián)數(shù)據(jù)環(huán)境的基礎(chǔ)建設(shè)。國際上重要的大型圖書館關(guān)聯(lián)數(shù)據(jù)的建立與導(dǎo)入模式有以下三種:Linky MARC(關(guān)聯(lián)型MARC)、BIBFRAME 2.0、Schema.org[2]。
3.1 Linky MARC
圖書館采用Linky MARC方式導(dǎo)入關(guān)聯(lián)數(shù)據(jù),其MARC格式并未發(fā)生改變,保持原來的數(shù)據(jù)結(jié)構(gòu),仍以MARC數(shù)據(jù)格式為基礎(chǔ),僅就某些字段增加子字段$0、$1或$4及特定字段(如MARC21書目字段758、權(quán)威字段024),以便加入與關(guān)聯(lián)數(shù)據(jù)有關(guān)的URI。
3.2 BIBFRAME 2.0
LC的BIBFRAME計劃已發(fā)展至BIBFRAME2.0,當(dāng)選用BIBFRAME為書目本體,即意味著完全舍棄以MARC格式的子字段$0、$1或$4著錄URI的方式,改用RDF三元組模型,采用BIBFRAME 2.0作為建模依據(jù),并提供關(guān)聯(lián)數(shù)據(jù)的相關(guān)服務(wù)。
3.3 Schema.org
Schema.org是由Google、Microsoft、Yahoo與Yandex等網(wǎng)絡(luò)搜索引擎公司共同推出的,著重由內(nèi)而外將現(xiàn)有圖書館關(guān)聯(lián)數(shù)據(jù)擴展至外部關(guān)聯(lián)數(shù)據(jù)的信息空間,并將數(shù)據(jù)納入網(wǎng)絡(luò)搜索引擎的索引與查詢范圍,能夠?qū)崿F(xiàn)某種程度的搜索引擎優(yōu)化,有利于后續(xù)數(shù)據(jù)的再利用。
通過對以上三種實現(xiàn)關(guān)聯(lián)數(shù)據(jù)方式的觀察,筆者認(rèn)為圖書館應(yīng)把建立關(guān)聯(lián)數(shù)據(jù)服務(wù)系統(tǒng)及Linky MARC作為首要工作內(nèi)容和方式。目前,國家圖書館的關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)提供開放數(shù)據(jù)服務(wù),具有關(guān)聯(lián)數(shù)據(jù)的檢索和瀏覽功能[3]。
4 MARC21是關(guān)聯(lián)數(shù)據(jù)時代的產(chǎn)物
書目與權(quán)威記錄中加上URI是在MARC基礎(chǔ)上的建設(shè),因此MARC并不會很快消失,并不是所有圖書館都會舍棄MARC,因此圖書館需要建立MARC至關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)移路徑,在MARC書目與權(quán)威記錄中加上URI,進(jìn)而形成Linky MARC,并將其作為關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ),使傳統(tǒng)的MARC記錄能夠與其他數(shù)據(jù)關(guān)聯(lián)。為了關(guān)聯(lián)相關(guān)數(shù)據(jù),圖書館的應(yīng)對方式是以特定字段的子字段著錄URI,包括書目與權(quán)威的子字段$0、$1、$4及書目字段758、權(quán)威字段024。
5 MARC21有關(guān)關(guān)聯(lián)數(shù)據(jù)元素的著錄
MARC21書目與權(quán)威格式的特定字段的子字段與關(guān)聯(lián)數(shù)據(jù)相關(guān)元素URI的著錄有關(guān)。URI是來自互聯(lián)網(wǎng)上已開放的數(shù)據(jù)集所提供的機器可互動的URI,而不是某個網(wǎng)頁或網(wǎng)址的URI。
5.1 MARC21書目與權(quán)威的子字段$0與$1
$0與$1相當(dāng)于RDF數(shù)據(jù)模型中三元組的“客體”,可用URI標(biāo)示。雖然$0與$1都是著錄與$a相同實體的URI,但$0與$1的著錄內(nèi)容有所不同。$0用以著錄識別一個實體的名稱標(biāo)目或標(biāo)簽的URI,著錄來源通常取與主標(biāo)目字段1XX相同的權(quán)威資料庫的權(quán)威記錄(如LC Authorities)。$1則用以著錄識別實體(如一個事件或真實世界的客體)本身的URI,即通過URI指向該實體,著錄來源通常取自與實體相關(guān)的數(shù)據(jù)庫(如ISNI、ORCID、VIAF、Wikidata等)。簡言之,$0用以描述權(quán)威記錄的URI,$1則是標(biāo)示真實世界客體的URI。MARC21通過$0與$1著錄相關(guān)的URI。URI的唯一性與識別性,使MARC21記錄的數(shù)據(jù)能夠關(guān)聯(lián)其他相關(guān)資源。
MARC21對于$0的定義不僅限于URI。$0的定義為權(quán)威記錄控制號或標(biāo)準(zhǔn)號,即包含相關(guān)權(quán)威及分類記錄的系統(tǒng)控制號或標(biāo)準(zhǔn)識別符,這些識別符是文字或URI的形式。因此,$0的著錄內(nèi)容既是URI,也是系統(tǒng)控制符。
書目字段$0的著錄范例如下:
100 1# $a Trollope,Anthony,$d 1815-1882.$0(isni)0000000121358464
100 1#$a Obama,Michelle,$d 1964-$0 http://id.loc.gov/authorities/names/n2008054754 $1 http://viaf.org/viaf/81404344
權(quán)威字段中的$0有關(guān)系統(tǒng)控制符及URI,以及$1有關(guān)URI的著錄范例如下:
024 7# $a 95088304 $2 viaf $1 http://viaf.org/viaf/95088304
024 7# $a Q5559504 $2 wikidata $1 https://www.wikidata.org/entity/Q5559504
5.2 MARC21書目與權(quán)威的子字段$4
$4是著錄書目與權(quán)威記錄中與$e、$i、$j有關(guān)的關(guān)系用語(該用語為控制詞匯)所對應(yīng)的代碼或URI。依據(jù)MARC21的定義,為“$4關(guān)系”,是將記錄中描述的實體用字段中參照實體的關(guān)系代碼或URI進(jìn)行說明。如果實體具有一個以上的關(guān)系,就可使用多個關(guān)系代碼或URI進(jìn)行說明。
$4有關(guān)URI的著錄范例如下:
100 1# $a Dicks,Terrance.$0 http://id.loc.gov/authorities/names/n78057783 $4 aut $4 http://id.loc.gov/vocabulary/relators/aut
700 12 $i Container of (work):$4 http://rdaregistry.info/Elements/w/P10147 $a Dicks,Terrance.$t Doctor Who and the Dalek invasion of Earth
5.3 MARC21書目字段758
書目字段758為資源識別符,既可以是書目記錄中描述的資源,也可以是與其相關(guān)的資源,該字段內(nèi)容具備多個控制子字段($0與$1)及關(guān)系標(biāo)示子字段($i與$4)。如果實體具有一個以上的關(guān)系,就可以使用多個關(guān)系代碼或URI表示。
書目字段758有關(guān)URI的著錄范例如下:
758 ## $4 http://rdaregistry.info/Elements/m/P30135 $i Has work manifested:$a Bored of the Rings $1 http://www.wikidata.org/entity/Q1613936
758 ## $4 http://rdaregistry.info/Elements/w/P10197 $i is parody of work $a Tolkien,J.R.R.(John Ronald Reuel),1892-1973.Lord of the rings $0 http://id.loc.gov/authorities/names/no97079452
5.4 MARC21權(quán)威字段024
權(quán)威字段024著錄與權(quán)威主標(biāo)目(字段1XX)相關(guān)的統(tǒng)一資源識別符(子字段$0的URI)和真實世界客體的統(tǒng)一資源識別符(Real World Object URI,RWO URI)(子字段$1的URI)。子字段$0與$1的著錄原則同5.1所述。
權(quán)威字段024有關(guān)URI的著錄范例如下:
024 7# $a 66481926 $2 viaf $1 http://viaf.org/viaf/66481926
024 7# $a Q334086 $2 wikidata $1 https://www.wikidata.org/entity/Q334086
或
024 8# $1 http://viaf.org/viaf/66481926
024 8# $1 https://www.wikidata.org/entity/ Q334086
權(quán)威字段024的指標(biāo)1為“7”時,需由子字段$2著錄指定的來源、子字段$a著錄來源系統(tǒng)的系統(tǒng)號、子字段$0著錄來源資料的URI、子字段$1著錄來源資料的RWO URI。如果僅著錄子字段$0的URI或子字段$1的RWO URI,不著錄子字段$a來源系統(tǒng)的系統(tǒng)號及子字段$2指定其來源,其指標(biāo)1的值就需要改為“8”。
5.5 MARC21書目與其他相關(guān)字段
書目相關(guān)字段著錄范例如下:
336 ## $a performed music $0 http://rdaregistry.info/termList/RDAContentType/1011
根據(jù)書目字段33X有關(guān)子字段$0的范例,由于著錄內(nèi)容多屬于控制詞匯(如vocabulary或termlist),因此著錄為$0,且目前編目中,字段33X僅著錄$0,未見著錄$1。
權(quán)威相關(guān)字段著錄范例如下:
374 ## $a Astronauts $0 http://id.loc.gov/authorities/subjects/sh85008988$1 http://dbpedia.org/resource/Astronaut $2 lcsh
380 ## $a Horror films $0 http://id.loc.gov/authorities/genreForms/gf2011026321$1 http://www.wikidata.org/entity/Q200092 $2 lcgft
6 結(jié)語
圖書館可運用數(shù)據(jù)關(guān)聯(lián)技術(shù),使館藏資源得以在網(wǎng)絡(luò)上開放及相互串連,形成相關(guān)的關(guān)系網(wǎng)絡(luò),擴大信息服務(wù)的范圍,提供比信息查詢更具智慧的信息探索服務(wù),實現(xiàn)知識共享。在信息探索向語義網(wǎng)的理想目標(biāo)邁進(jìn)前,蒂姆·伯納斯·李在2006年就提出了關(guān)聯(lián)數(shù)據(jù)是實現(xiàn)語義網(wǎng)概念的最佳途徑。為實現(xiàn)這一愿景,全球許多國家的圖書館近年來致力于開展圖書館關(guān)聯(lián)數(shù)據(jù)的相關(guān)工作,如:LC的LC Linked Data Service、法國的BnF Data、LC的BIBFRAME計劃及美國多所大學(xué)圖書館共同參與的關(guān)聯(lián)數(shù)據(jù)合作計劃LD4P(Linked Data for Production)的Share-VDE等,目的是讓圖書館的書目與權(quán)威資料得以跨系統(tǒng)共享,將館藏資源與網(wǎng)絡(luò)資源進(jìn)行關(guān)聯(lián),以應(yīng)對語義網(wǎng)時代的來臨。我國圖書館的關(guān)聯(lián)數(shù)據(jù)工作尚處于起步階段,目前以圖書館現(xiàn)有數(shù)據(jù)建立關(guān)聯(lián)格式及相關(guān)作業(yè)環(huán)境,需要以建立關(guān)聯(lián)資源服務(wù)系統(tǒng)及Linky MARC記錄為首要工作。無論是采用批次處理或人工逐筆處理的方式把原有MARC記錄改為Linky MARC記錄,都有助于圖書館未來快速適應(yīng)關(guān)聯(lián)數(shù)據(jù)環(huán)境,開展這項工作的前提是圖書館編目人員需掌握Linky MARC記錄的相關(guān)知識與操作技能。
參考文獻(xiàn):
[1] 王歡.基于關(guān)聯(lián)數(shù)據(jù)的高校圖書館智庫服務(wù)模型研究[J].情報探索,2021(2):117-122.
[2] 高斌.網(wǎng)絡(luò)環(huán)境下書目信息關(guān)聯(lián)數(shù)據(jù)化的實現(xiàn)方法[J].圖書館論壇,2022(12):110-119.
[3] 蔡穎.國家圖書館關(guān)聯(lián)數(shù)據(jù)注冊與服務(wù)系統(tǒng)設(shè)計及實現(xiàn)[J].數(shù)字圖書館論壇,2019(11):36-43.
(編校:孫新梅)