穆向陽(1.南京郵電大學(xué);2.中國科學(xué)技術(shù)信息研究所)
人類精神以及文化的崇高、博大與深遠(yuǎn)都折射在歷史留給我們的信息資源之中,而圖書館、檔案館、博物館(Library,Archives and Museum,簡稱LAM)就是保存和提供這些歷史文化資源的重要機構(gòu)。文化資源本身就具有其內(nèi)在的統(tǒng)一性,從整體上獲取和使用這些歷史文化資源是用戶的內(nèi)在需求,然而信息資源的內(nèi)在屬性以及技術(shù)和管理手段等方面的不足,造成了LAM長期分立保存歷史文化資源的客觀必然性。隨著人類信息技術(shù)的飛速發(fā)展,打破資源分割、還原歷史以及文化的全貌、從資源的整體維度向用戶提供信息以及知識服務(wù),已經(jīng)成了時代發(fā)展必然而緊迫的需求。
為了更好地履行公共服務(wù)的職能,LAM紛紛將館藏資源數(shù)字化。數(shù)字化資源的先天優(yōu)勢使LAM融合服務(wù)成為可能,這使得諸多學(xué)者開始研究LAM數(shù)字資源的整合問題。目前,相關(guān)領(lǐng)域研究早已從LAM數(shù)字資源元數(shù)據(jù)層的簡單整合過渡到深層次的語義化、智能化整合階段,如何基于LAM數(shù)字資源提供知識服務(wù)、智能服務(wù)已經(jīng)成為當(dāng)下的研究熱點?;贚AM融合的知識服務(wù)和智能服務(wù)均離不開一個重要的智能化組件——本體,但是,目前LAM整合領(lǐng)域?qū)Ρ倔w的研究還處于探索階段,已經(jīng)構(gòu)建的相關(guān)本體不能真正實現(xiàn)LAM數(shù)字資源的深入融合。因此,如何克服本體在LAM數(shù)字資源組織中的局限、構(gòu)建真正適合于統(tǒng)一描述LAM數(shù)字資源的本體、在LAM資源整合過程中更好地發(fā)揮本體的優(yōu)勢等問題需要更深一步的研究。
本體(Ontology)這一概念源自哲學(xué)領(lǐng)域,屬于 “形而上學(xué)” 的分支。形而上學(xué)所關(guān)注的是現(xiàn)實的本質(zhì),也就是存在的本質(zhì)。計算機科學(xué)領(lǐng)域借鑒這一概念,將本體看作是對特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達;工程上的本體具有 “概念模型、明確、形式化、共享” 四個特征;作為知識系統(tǒng)的理論和組件,本體被廣泛應(yīng)用于人工智能方面,它能夠同時指稱模型和現(xiàn)實世界。在信息資源組織過程中,本體已經(jīng)成為了一種重要的知識組織工具,它能夠根據(jù)知識間的語義關(guān)系進行結(jié)構(gòu)化組織,在一定程度上支持語義標(biāo)注和語義互操作,支持知識推理,從而使資源整合上升到知識組織層面。[1]自然,本體也受到LAM合作領(lǐng)域的廣泛青睞,旨在通過本體技術(shù)實現(xiàn)LAM資源深度整合。
從構(gòu)成上看,本體包括以下幾個基本要素:類、屬性、關(guān)系、函數(shù)術(shù)語、約束、規(guī)則、公理、個體(實例)、事件。類是集合、概念、對象的類型或者說是事物的種類,屬于個體(實例)的上一個層次;屬性主要用于描述實例或者類的特征和特點;關(guān)系用于刻畫個體以及類之間的關(guān)聯(lián)關(guān)系;約束、規(guī)則以及公理主要用來支持?jǐn)嘌砸约斑壿嬐评恚皇录軌蚍从硨傩院完P(guān)系所發(fā)生的變化。本體利用上述元素所構(gòu)成的形式化結(jié)構(gòu)來描述客觀世界所具有的樣貌、關(guān)系以及變化,將客觀世界的內(nèi)容映射到計算機世界之中。從本體的特征上來看,它對客觀世界的表達具有一定的局限性。首先,本體包含的結(jié)構(gòu)和關(guān)系是明確的、規(guī)則的、結(jié)構(gòu)化的,它在描述客觀物質(zhì)世界時具有一定的優(yōu)勢,但是在描述人類精神世界時缺乏靈活性以及張力;其次,本體本質(zhì)上屬于一種復(fù)雜的元數(shù)據(jù),它仍然停留在所描述對象的外圍視角,對所描述對象內(nèi)容上的揭示力度不足;最后,本體所體現(xiàn)的關(guān)聯(lián)關(guān)系有限且不夠靈活,仍有進一步完善的空間。但無論如何,本體都是一種關(guān)于現(xiàn)實世界或概念體系的重要知識表達形式,是語義網(wǎng)的核心技術(shù),是LAM數(shù)字資源深度整合不可或缺的重要手段之一。
1.2.1 本體在圖書館領(lǐng)域內(nèi)的研究與應(yīng)用
由于本體在信息資源組織中提供了不同于諸如MARC等簡單元數(shù)據(jù)的全新視角,因而引起了圖情領(lǐng)域的廣泛關(guān)注,本體已經(jīng)成為將信息組織提升至知識組織的重要技術(shù)手段之一。國外學(xué)者如Fassnacht M[2]、Halaris C[3]等早在十多年前就開發(fā)了相應(yīng)本體以解決元數(shù)據(jù)的異構(gòu)問題,并試圖實現(xiàn)資源的語義化組織。在國內(nèi),歐陽寧以《中國圖書館分類法》(以下簡稱《中圖法》)為依據(jù),旨在建立描述領(lǐng)域信息知識的本體,[4]張瑾基于《中圖法》的語義本體進行語義相似度計算,[5]黃金霞通過具體學(xué)科領(lǐng)域本體對資源進行組織,對比了第22版杜威法和第四版《中圖法》。[6]白海燕等以書目為研究對象,參照國外相關(guān)書目本體,基于形式形態(tài)多樣性、生命周期變化性、復(fù)合對象復(fù)雜性對書目進行語義化組織,并結(jié)合本體和關(guān)聯(lián)數(shù)據(jù)提高書目數(shù)據(jù)組織的知識化水平。[7]歐石燕提出了一個本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動的資源語義整合框架,實現(xiàn)了不同格式、文獻類型、數(shù)據(jù)集合中信息資源的語義整合,以及館藏資源與外界資源之間的鏈接與集成。[1]鄧仲華將本體應(yīng)用于古籍版本這一特殊領(lǐng)域,針對古籍版本知識的數(shù)據(jù)進行本體設(shè)計,為古籍版本數(shù)據(jù)庫構(gòu)建打下了基礎(chǔ)。[8]張修文等構(gòu)建了基于本體、關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館館藏資源融合框架,本體在其中的主要作用是解決不同元數(shù)據(jù)格式的語義互操作問題。[9]梁藝多等通過本體和關(guān)聯(lián)數(shù)據(jù)擴展信息資源之間的關(guān)聯(lián)關(guān)系,并利用圖書館資源進行驗證。[10]
1.2.2 本體在博物館領(lǐng)域內(nèi)的研究與應(yīng)用
相對于圖書館來說,國內(nèi)博物館在本體方面的研究較少,各自領(lǐng)域內(nèi)學(xué)者對數(shù)字資源組織與管理的關(guān)注方面也略有不同,這主要是由兩種文化機構(gòu)在服務(wù)類型以及服務(wù)重點等方面的差異造成的。國外博物館領(lǐng)域?qū)Ρ倔w的研究相對較早,且非常注重本體在資源語義整合、檢索可視化等方面的創(chuàng)新與應(yīng)用,如Ngamnij Arch-int等通過本體來解決博物館資源異構(gòu)問題,提升資源整合的語義深度,提供可視化、個性化的資源檢索服務(wù)。[11]近年來,隨著數(shù)字資源在博物館中地位的不斷提升,本體越來越受到國內(nèi)博物館界的重視。劉紹南為了提高數(shù)字博物館的資源組織水平和效率,將本體引入到博物館,并給出了數(shù)字博物館本體應(yīng)用的總體思路。[12]李慧從技術(shù)視角提出了博物館知識庫的構(gòu)建方法,旨在實現(xiàn)博物館知識的共享和重用,并實現(xiàn)了B/S架構(gòu)的博物館知識庫系統(tǒng)。[13]陳明基介紹了數(shù)字博物館網(wǎng)格如何利用本體來實現(xiàn)分布異構(gòu)博物館標(biāo)本資源的整合,以及如何通過本體實現(xiàn)資源的檢索及瀏覽等。[14]章維亞等以藏品為中心構(gòu)建了知識化結(jié)構(gòu)模型,構(gòu)建了博物館領(lǐng)域本體,通過資源的進一步關(guān)聯(lián)與揭示提升博物館服務(wù)的智能化水平。[15]總之,本體技術(shù)已經(jīng)引起了博物館領(lǐng)域的關(guān)注,但相對于圖書館領(lǐng)域來說,其對本體的研究稍顯薄弱。
1.2.3 本體在檔案館領(lǐng)域內(nèi)的研究與應(yīng)用
本體在檔案領(lǐng)域內(nèi)的應(yīng)用處于起步階段,相關(guān)研究成果不多。國外在檔案組織與管理方面已經(jīng)進行了本體應(yīng)用上的嘗試,Daphne Kyriaki-Manessi等詳細(xì)介紹了 “EU Digital Plan 2009-2013” 項目中針對數(shù)字教育領(lǐng)域而構(gòu)建的本體。[16]Goy等為了深入發(fā)掘歷史檔案文獻的文化價值,根據(jù)歷史檔案的語義,通過本體和關(guān)聯(lián)數(shù)據(jù)技術(shù),建立了資源間的深度連接,并為用戶提供動態(tài)交互式的資源訪問機制。[17]我國檔案界對本體的研究尚處于理論探索階段。陳丹分析了本體理論應(yīng)用于數(shù)字檔案館的建模流程,以期提升檔案信息檢索的智能化和人性化水平。[18]賈艷平等建立了基于本體論的數(shù)字檔案館知識檢索模型,并進行了性能測試,驗證了其檢索模型的可行性。[19]張正強全面論述了基于本體的電子文件元數(shù)據(jù)在智慧檔案館建設(shè)中的重要作用,同時指出本體在智慧檔案建設(shè)方面還處于探索階段,其具體建設(shè)和發(fā)展仍面臨諸多問題和挑戰(zhàn)。[20]
LAM擁有的數(shù)字資源屬于深度加工的標(biāo)準(zhǔn)化、結(jié)構(gòu)化數(shù)據(jù),因而元數(shù)據(jù)和本體在LAM資源整合中具有不可替代的重要作用。本體在LAM數(shù)字資源整合理論方面的研究也取得了諸多成果,早在十多年前,國外學(xué)者就開始嘗試通過元數(shù)據(jù)、本體建立更多的分類以容納更為廣泛的資源領(lǐng)域,使本地資源能夠通過更高一層的本體獲得廣泛的關(guān)聯(lián)和利用。但是標(biāo)準(zhǔn)化描述無法取代人類觀察事物時的視角多樣性,所以尋找一套完美的元數(shù)據(jù)資源描述方案是沒有意義的,不過仍然可以通過大量的背景本體來彌補標(biāo)準(zhǔn)化描述的缺陷。[21]趙生輝等在構(gòu)建D-LAM框架的過程中探討了本體在LAM資源整合中的應(yīng)用模式。[22]在本體的具體開發(fā)方法和技術(shù)上,也產(chǎn)生了非常多的理論成果,如Uschold等研究了本體構(gòu)建最為全面的方法。[23]國內(nèi)外學(xué)者對本體在LAM數(shù)字資源整合中的應(yīng)用也進行了大量富有成效的嘗試,比如我國臺灣學(xué)者Ya-Ning Chen等以FRBRoo為一種本體方法來集成異構(gòu)元數(shù)據(jù),使語義和語義關(guān)聯(lián)語境化,并支持語義查詢。[24]陳艷以DC為例詳細(xì)介紹了其與CIDOC CRM本體之間的映射,旨在通過該本體實現(xiàn)LAM文化遺產(chǎn)資源元數(shù)據(jù)的集成。[25]Yoan Gutieérrez等從資源生命周期視角構(gòu)建了一種本體模式,提供了LAM資源整合的示范性知識本體樣本。[26]
目前,本體在三館各自領(lǐng)域以及LAM資源整合中已經(jīng)有了不同程度的研究和應(yīng)用,對其研究與應(yīng)用的總體情況進行特征分析能夠發(fā)現(xiàn)本體在LAM資源整合中存在的局限和問題,為LAM合作中的本體構(gòu)建指明方向。本體已經(jīng)成為LAM數(shù)字資源組織中的一項核心技術(shù),在LAM數(shù)字資源的整合過程中,本體也已經(jīng)成為連接不同元數(shù)據(jù)的重要橋梁和樞紐,比如Europeana和DBpedia等已經(jīng)通過本體成功解決了元數(shù)據(jù)的異構(gòu)問題,并實現(xiàn)了資源的語義化組織。但是,作為一種結(jié)構(gòu)化的描述,本體在文化資源的揭示以及組織上仍然存在諸多局限和問題。目前,三館的本體主要是為了解決各自領(lǐng)域內(nèi)的問題而分別構(gòu)建的,因而這些本體在LAM資源整合項目中具有較大的局限性,如果這些問題得不到很好地處理就很難在LAM數(shù)字資源整合項目中充分發(fā)揮本體的價值。
綜上而言,本體應(yīng)用的總體特征可以概括如下。
(1)本體已經(jīng)被廣泛用于三館的資源組織之中,它是相關(guān)領(lǐng)域進行知識表達、組織、服務(wù)以及重用等方面的重要核心技術(shù)。另外,三館也已經(jīng)注意到本體和關(guān)聯(lián)數(shù)據(jù)技術(shù)的結(jié)合是LAM開展融合服務(wù)的重要基礎(chǔ),也是館藏資源向外延伸和擴展的重要媒介。
(2)三館目前的本體構(gòu)建均以各自領(lǐng)域內(nèi)的專有理論、方法以及技術(shù)為基礎(chǔ),這就降低了已有本體在LAM融合中的通用性以及可重用性。目前,大多LAM資源整合采用通用性比較好的本體,如CIDOC CRM、FRBRoo等,其中,F(xiàn)RBRoo(The object-oriented version of the FRBR,書目記錄功能需求的面向?qū)ο蟀妫┦且粋€為了抓取與表達書目信息潛在語義的正式本體,而CIDOC CRM是面向?qū)ο蟮母拍顓⒖寄P?,同時也是文化遺產(chǎn)的領(lǐng)域知識本體。2003年,F(xiàn)RBR/CIDOC CRM國際協(xié)調(diào)工作組將書目記錄的功能需求FRBR整合到CIDOC CRM之中,提升了博物館界模型的跨領(lǐng)域特性。
(3)三館構(gòu)建的本體類型雖多,但仍無法擺脫實體資源的傳統(tǒng)印記。圖書館領(lǐng)域內(nèi)本體構(gòu)建的思路及類型主要包括:以圖書館元數(shù)據(jù)為基礎(chǔ)構(gòu)建的本體、以文獻類型特征為基礎(chǔ)構(gòu)建的本體、以分類法為基礎(chǔ)的本體、以圖書館服務(wù)為基礎(chǔ)的本體、特定領(lǐng)域本體、以服務(wù)為目的的本體等。同樣,博物館、檔案館有以藏品元數(shù)據(jù)為核心的本體類型、以服務(wù)為核心的本體類型,檔案館有以檔案元數(shù)據(jù)為核心的本體類型等。但是,基本上所有的類型都保留著其實體資源的傳統(tǒng)和印記,隨著資源的數(shù)字化,這些實體特征的重要性已經(jīng)極大降低,有些已經(jīng)成為了無關(guān)緊要的屬性。
(4)本體在LAM資源揭示的程度上存在很大差異,本體在揭示某些類型的信息資源時存在局限。圖書館資源主要以文獻類資源為主,其本體基本上都是把圖書、期刊等文獻資源看成是一個客觀世界中存在的物件,從文獻資源的外部特征對其進行描述,導(dǎo)致無法深入揭示文獻所包含的深奧而廣博的內(nèi)容,因而本體對這種信息資源本身所包含的內(nèi)容揭示程度遠(yuǎn)遠(yuǎn)不夠。同樣,檔案館也存在類似問題。但博物館則不同,由于博物館的資源以文物資源為主,屬于客觀世界中的物件,符合本體的本質(zhì)特征因而能夠?qū)ζ溥M行很好地揭示。
具體說來,本體在LAM數(shù)字資源整合中的局限主要包括以下三個方面:①目前構(gòu)建的本體包含了很多LAM實體資源的屬性描述,限制了其資源整合的范圍,降低了通用性;②本體從資源的外圍對資源進行結(jié)構(gòu)化描述,限制了資源描述的靈活性及內(nèi)容揭示的深度;③本體在館藏資源向外界資源的擴展上存在局限,因而限制了資源的開放性。上述局限是由于本體自身及其所描述資源的內(nèi)在原因共同造成的,這也為LAM數(shù)字資源整合提出了亟待解決的根本問題:①LAM數(shù)字資源描述的通用性本體問題;②對不同資源所包含具體內(nèi)容的揭示問題;③LAM數(shù)字資源集與外界資源的連接問題。
圖1非常形象地描述了本體在LAM數(shù)字資源整合中體現(xiàn)出的局限及對應(yīng)的理想狀態(tài)。圖1-1說明了LAM數(shù)字資源整合領(lǐng)域仍然缺少一套適合描述三館館藏資源的通用性本體,通用性本體的構(gòu)建需要從根本上轉(zhuǎn)變現(xiàn)有的慣性思維,盡可能拋棄實體館藏資源屬性,更多從內(nèi)容特征方面進行宏觀設(shè)計。圖1-2表明了LAM數(shù)字資源內(nèi)容層次上的差異,尤其是圖書和藏品之間具有本質(zhì)上的不同:如果把藏品作為一個獨立的資源進行描述,那么圖書實際上對應(yīng)的是一個包括海量獨立信息的集合。因此,圖書與藏品實際上位于不同層次,需要從不同維度打開層級界限并建立多層次、多維度的關(guān)聯(lián)網(wǎng)絡(luò)。圖1-3反映了本體在LAM數(shù)字資源組織中開放性方面的局限,作為一種特殊類型的元數(shù)據(jù),本體并不具有開放性的先天優(yōu)勢,因而必須與其他資源組織技術(shù)合作,從而提升資源開放度,為用戶提供更為豐富的檢索結(jié)果。
圖1 本體在LAM資源整合中的局限及對應(yīng)的理想狀態(tài)
LAM數(shù)字資源合作最根本的基礎(chǔ)就是文化、知識以及價值的內(nèi)在統(tǒng)一性,這也是三館資源整合內(nèi)在動力的根本來源。對文化資源內(nèi)涵價值的深度挖掘需要依托龐大的社會歷史文化背景知識體系,[27]而知識體系的構(gòu)建正是LAM資源合作的目標(biāo)之一。LAM資源是同一內(nèi)涵在不同場館中的投射,分立狀態(tài)是由技術(shù)、管理等方面的歷史局限造成的,三館經(jīng)過不同維度的沉淀,從不同側(cè)面反映著同樣的歷史以及文化。因而,從內(nèi)容本身出發(fā),以文化和知識的內(nèi)在特征為依據(jù)對LAM資源進行整合更加符合人類的內(nèi)在需求。然而,一方面,實體資源組織下的傳統(tǒng)印記仍然存在,數(shù)字資源很難全面發(fā)揮技術(shù)優(yōu)勢,另一方面,技術(shù)往往受制于其具體的應(yīng)用模式。因此,只有通過合理的技術(shù)架構(gòu)與組合才能達到理想的效果。
LAM數(shù)字資源的整合并非三館資源的簡單集合與羅列,而是構(gòu)建知識與文化的統(tǒng)一體,因而應(yīng)該以資源的內(nèi)容特征為主線構(gòu)建LAM數(shù)字資源通用本體的框架結(jié)構(gòu)(見圖2)。①以資源的內(nèi)容特征為根本依據(jù)進行本體框架的構(gòu)建。LAM數(shù)字資源整合項目均圍繞某一個主題進行,即使綜合性的資源整合項目也可以劃分為不同主題,所以,強調(diào)資源的內(nèi)容特征也就意味著以主題為邏輯依據(jù)架構(gòu)本體,盡可能忽略資源的外在屬性(如文獻類的出版年限、藏品類的材質(zhì)等),資源的具體內(nèi)容可以通過不同實例呈現(xiàn)。②LAM數(shù)字資源整合的本體并非將三館資源整合在一起的本體,而是在某一本體內(nèi)的資源整合。LAM數(shù)字資源整合的目的在于通過不同的資源形式從不同維度展示同一主題,所以應(yīng)該將不同資源整合到同一本體之中,不同資源在不同層面揭示不同的內(nèi)容,比如文獻類資源要被截取為諸多片段鑲嵌到本體的不同層次。③借用已有本體提供更為豐富的外圍信息。三館在各自領(lǐng)域已經(jīng)構(gòu)建的本體更適合于描述其自身資源,可以將其合理地應(yīng)用于整合知識體系,實現(xiàn)本體復(fù)用以及館藏資源不同層面的檢索。由于結(jié)構(gòu)設(shè)置上的特點,這些本體能夠為資源體系提供詳細(xì)的外在屬性特征,豐富資源的外在信息,從而提升所構(gòu)建知識體系的完整性。
由圖2可見,LAM通用本體有四個主要特點。①以資源的內(nèi)容特征為核心,從主題角度出發(fā)構(gòu)建LAM合作本體。②三館數(shù)字資源被無差別地安排在該本體結(jié)構(gòu)的不同層次之中,其中有些是LAM數(shù)字資源所包含的知識元,而有些是資源本身,另外該本體還能充分利用已有的通用本體、領(lǐng)域本體等。③將三館各自領(lǐng)域內(nèi)的元數(shù)據(jù)和本體通過檢索模塊進行整合,實現(xiàn)已有本體重用,利用本體推理向用戶提供不同層次的檢索結(jié)果。④LAM通用本體旨在基于LAM數(shù)字資源本身及所包含的知識元構(gòu)建一個層次化飽滿的知識體系,并以此為基礎(chǔ)提供更具深度的知識服務(wù)。
圖2 LAM領(lǐng)域內(nèi)的本體重用及通用性本體構(gòu)建(以古生物化石為例)
以主題為中心構(gòu)建LAM通用本體需要突破元數(shù)據(jù)描述的資源層次,從而獲取更為具體的知識元。學(xué)界對知識元獲取進行了諸多研究。①知識元的自動抓?。菏紫?,對實體資源進行預(yù)處理,刪除與主題無關(guān)的信息部分;其次,分段讀取預(yù)處理過的文本信息,對文本進行知識特征判斷,依照相應(yīng)類型的知識元實體結(jié)構(gòu)抽取復(fù)合知識特征的文本段落;[28]最后,對抽取的知識元進行加工存儲,如構(gòu)建知識元本體等。②利用語義標(biāo)簽通過自動與手動相結(jié)合的方式對知識元進行語義標(biāo)注,并利用語義標(biāo)簽對知識元進行組織。③協(xié)同編輯關(guān)聯(lián)表法。這種方法允許用戶在資源以及所包含的任何片段間建立語義聯(lián)系,并把這些聯(lián)系保存在一張或多張關(guān)聯(lián)表中,通過這種方式,用戶在使用資源的過程中就形成了協(xié)同效應(yīng),共同豐富知識間的關(guān)聯(lián)關(guān)系。這種方法實際上也提供了知識元的獲取方式,能夠用于LAM數(shù)字資源通用本體的構(gòu)建。
圖3為LAM數(shù)字資源跨層次組織的基本思路,文獻類信息資源可以通過兩種方式獲取知識元:知識元的自動抽取、通過人工添加的語義標(biāo)簽進行知識元的抽取。這些來自于LAM資源具體內(nèi)容的知識元可以直接用于知識元檢索,也可以直接用于LAM通用本體的構(gòu)建。另外,無論是文獻類信息資源還是視頻、圖片等其他類型的數(shù)字資源都可以通過協(xié)同編輯關(guān)聯(lián)表的方式建立知識元之間的聯(lián)系,[29]它是LAM通用本體的有效補充。這種方式可以自由建立信息資源片段以及信息資源任何層級之間的關(guān)聯(lián)關(guān)系,并通過協(xié)同編輯的方式動態(tài)地擴展知識網(wǎng)絡(luò)。這種方式和本體的有效結(jié)合可以極大地解決資源的深度揭示問題。
圖3 LAM數(shù)字資源跨層次組織
為了將互聯(lián)網(wǎng)海量的信息資源和LAM合作數(shù)字資源集連接到一起并解決LAM數(shù)字資源的開放性問題,學(xué)界把主要著眼點放在了關(guān)聯(lián)數(shù)據(jù)這一技術(shù)之上。關(guān)聯(lián)數(shù)據(jù)(Linked Data)本質(zhì)上是一種數(shù)據(jù)的發(fā)布形式,它通過一系列規(guī)范化的標(biāo)準(zhǔn)、協(xié)議以及格式(如URI、HTTP、RDF技術(shù))將不同的數(shù)據(jù)對象連接起來,從而構(gòu)建機器可讀富含語義的數(shù)據(jù)網(wǎng)絡(luò)。用關(guān)聯(lián)數(shù)據(jù)的方式發(fā)布資源主要包括如下步驟:在數(shù)字資源元數(shù)據(jù)的基礎(chǔ)上用規(guī)范化的RDF進行資源描述→按照關(guān)聯(lián)數(shù)據(jù)的四個基本原則發(fā)布數(shù)字資源→利用RDF所具有的機制建立數(shù)據(jù)之間的語義關(guān)聯(lián)。可見,關(guān)聯(lián)數(shù)據(jù)的確能夠讓LAM數(shù)字資源具有一定的開放性,但這種方法仍然沒有擺脫元數(shù)據(jù)或者是本體對資源描述的視角,而主要從資源的外部特征上建立館藏資源和外界資源間的聯(lián)系。因此,可以結(jié)合協(xié)同編輯關(guān)聯(lián)表的方法,合理擴充關(guān)聯(lián)表的結(jié)構(gòu)和內(nèi)容,將資源體系外的URI作為可連接的節(jié)點,從而極大豐富資源的開放程度(見圖4)。
圖4 LAM數(shù)字資源資源開放性解決思路
圖4 形象地反映了LAM數(shù)字資源開放性的解決思路,它結(jié)合了關(guān)聯(lián)數(shù)據(jù)和協(xié)同編輯表的雙重方法,旨在全面擴展資源的開放性。關(guān)聯(lián)數(shù)據(jù)方法是建立在元數(shù)據(jù)和本體基礎(chǔ)之上,而協(xié)同編輯關(guān)聯(lián)表則把所有的關(guān)聯(lián)關(guān)系保存在一張或多張表格之中,具有完全不同于關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)機制,它不需要對連接點指定URI,但可以連接URI,從而與關(guān)聯(lián)數(shù)據(jù)之間形成優(yōu)勢互補。協(xié)同編輯關(guān)聯(lián)表通過資源附帶的表格記錄其與其他LAM數(shù)字資源及外網(wǎng)URI之間的關(guān)聯(lián)關(guān)系,從而與關(guān)聯(lián)數(shù)據(jù)一起共同提升LAM合作體系的資源開放度。