吳曉彤 劉玉博
(山東農業(yè)大學圖書館,山東 泰安 271018)
關聯(lián)數(shù)據(jù)是一種鏈接各類數(shù)據(jù)信息的技術規(guī)范,可以實現(xiàn)機構知識庫內部、外部的數(shù)據(jù)集的互連[4]。因此,將關聯(lián)數(shù)據(jù)作為一種關鍵技術應用于機構知識庫的服務中,探索基于關聯(lián)數(shù)據(jù)的高校機構知識庫服務新模式,提高機構知識庫的知識發(fā)現(xiàn)和資源共享能力,將是機構知識庫未來的發(fā)展趨勢。
針對基于關聯(lián)數(shù)據(jù)的機構知識庫的構建研究,從2019—2021年[5-9],學者們開始從關聯(lián)模式、體系架構以及服務模式等方面構建基于關聯(lián)數(shù)據(jù)的機構知識庫。一些學者結合本單位的實際,探討了機構知識庫中關聯(lián)數(shù)據(jù)的構建模式,或是將關聯(lián)數(shù)據(jù)與資源描述的標準相結合提出了一種圖書館機構知識庫的構建策略。
這些研究為關聯(lián)數(shù)據(jù)技術在我國機構知識庫中的應用提供了有價值的參考,并衍生出一條新的知識發(fā)現(xiàn)服務模式,對我國機構知識庫的建設具有一定的理論指導意義。然而國內基于關聯(lián)數(shù)據(jù)的機構知識庫研究主要存在兩個特點:(1)由于關聯(lián)數(shù)據(jù)方式和系統(tǒng)模型的多樣化,多數(shù)研究需要對多個分布式異構系統(tǒng)中的不同本體模型進行映射;(2)國內研究多數(shù)是在針對自身的情況下采取特定的服務模式,或是針對某個關鍵的技術進行說明,而在構建通用的機構知識庫服務模式方面的研究較少。
綜上所述,我國目前尚未形成通用的機構知識庫服務模式及關聯(lián)數(shù)據(jù)方法,但由于通用模式的開放性和標準化程度更高,是未來機構知識庫發(fā)展的主流。因此,筆者旨在探索一種較為通用的基于關聯(lián)數(shù)據(jù)的高校機構知識庫服務模式和體系架構,充分利用機構知識庫海量的數(shù)字化信息資源及其與整個互聯(lián)網中學術資源的多維度關聯(lián),為我國高校機構知識庫的建設和服務提供參考。
將關聯(lián)數(shù)據(jù)技術應用在機構知識庫中,首先,需要對機構知識庫中的數(shù)字化資源進行語義描述。即選擇合適的語義關聯(lián)模型,根據(jù)機構知識庫中資源實體之間的關聯(lián)和映射關系,由機構知識庫中的資源主體本身擴展到其他任何一個存在該資源主體的數(shù)據(jù)源或屬性中。由于本文旨在探索一種通用的基于關聯(lián)數(shù)據(jù)的機構知識庫服務模式,因此選擇數(shù)字圖書館領域資源,通常采用RDFS和OWL結構進行機構知識庫本體類的實現(xiàn),并使用DC元數(shù)據(jù)對原生數(shù)字資源進行語義信息的描述。
就高校機構知識庫而言,其包含的數(shù)字資源主要包括兩部分:本校圖書館涵蓋的數(shù)字資源和高校人員的原生數(shù)字資源。因此,根據(jù)國家圖書館制定的信息資源名稱規(guī)范表,機構知識庫的數(shù)字資源可以細化為以下6類:
(1)科技成果(Technological Achievements):本機構人員發(fā)表或參與發(fā)表的學術期刊論文、會議論文、學位論文、報紙、專著、專利、軟著、標準、研究報告、預印本等科技成果;
(2)教學資源(Teaching resources):用于日常教學的演示課件、教材、音視頻、網絡教學資源等資料;
以天津市和平區(qū)、河西區(qū)、河東區(qū)、南開區(qū)、河北區(qū)、紅橋區(qū)6個區(qū)的養(yǎng)老機構作為調研對象,每區(qū)隨機抽取8家養(yǎng)老機構,共發(fā)放問卷48份,回收有效問卷46份,有效回收率95.8%。
(3)科研項目(Research project):指校級、市級、省級、國家級的橫向或縱向項目,且確保項目至少有兩名本機構人員主持或參與;
(4)科 技 獎 勵(Science and Technology Awards):本機構作為獲獎單位或獲獎者為本機構人員的市級以上學術獎勵;
(5)新品種(New Breed):由本機構人員選育的、審(認)定機構通過的作物、植物等品種;
(6)責任者(Scholar):主要為較為長期的從屬于本單位的專家學者、科研團隊或者機構,相對較為穩(wěn)定。
對于這些數(shù)字化資源實體,語義描述需要對資源實體的一些核心概念進行確定,即定義對象的類和屬性,并根據(jù)實體間的關系對它們進行關聯(lián),例如科技成果與責任者之間可以通過作者這一屬性進行一對多、多對一、多對多的關聯(lián)。根據(jù)這些對象類與屬性間的關系,通過復用業(yè)界標準詞匯,進行各資源之間的語義關聯(lián)(見圖1)。
接下來,筆者對關聯(lián)圖進行分析解釋。SKOS是一種以RDFS的設計方式描述知識組織的語言;FOAF是一種描述實體及實體之間關系的XML/RDF詞匯表,通過FOAF對學者信息和機構信息進行描述,并通過機構知識庫屬性ir:相似研究方向(similar research direction)在學者之間建立關聯(lián);vCard用于擴展機構相關屬性,通過此復用詞將學者和機構兩者關聯(lián)起來;而機構知識庫中的科技文獻、教學資源、科技獎勵、新品種和科研項目分別通過屬性ir:作者(author)、ir:提供者(contributor)、ir:獲獎者(acquire)和復用詞foaf:項目(presideproject)與學者信息關聯(lián);科技文獻和科研項目之間通過ir:成果(outcome)屬性進行關聯(lián)。
圖1 高校機構知識庫資源的語義關聯(lián)圖
在外部數(shù)字化資源的語義關聯(lián)方面,對于一些網絡檢索平臺,例如,谷歌、百度、維基百科等返回的查詢結果(如XML、JSON格式等),關聯(lián)數(shù)據(jù)技術可以對其數(shù)據(jù)集的API進行抓取和擴展,并轉化為相對應的RDF格式,方便機器進行進一步的結果處理,在此過程中還能夠通過RDF數(shù)據(jù)集關聯(lián)外部的相關數(shù)據(jù)源。
綜上所述,在關聯(lián)數(shù)據(jù)的環(huán)境下,機構知識庫內部的數(shù)字化資源語義關聯(lián)程度能夠更加緊密,同時也能夠實現(xiàn)將機構知識庫成員的檢索結果關聯(lián)到外部數(shù)據(jù)源,從而實現(xiàn)機構知識庫內部、外部不同數(shù)據(jù)集之間的銜接,形成更為開放的、跨機構的、高關聯(lián)的原生數(shù)字資源網絡。
基于關聯(lián)數(shù)據(jù)的高校機構知識庫構建的主要目的是通過對原生數(shù)字資源的語義化描述和語義關聯(lián),實現(xiàn)資源與機構知識庫內、外部相關數(shù)據(jù)源的關聯(lián),提高機構知識庫的知識發(fā)現(xiàn)和資源共享能力,為用戶提供更為高效便捷的服務模式。因此,可以從數(shù)據(jù)層、關聯(lián)層和應用層三個層面設計該模型(見圖2)。
其中,機構知識庫各類原生數(shù)字資源需要存儲在數(shù)據(jù)層中,機構知識庫需要對這些資源進行類型與格式的歸類,并根據(jù)DC元數(shù)據(jù)規(guī)范,對每條數(shù)據(jù)進行語義描述和存儲。為了保證機構知識庫數(shù)字化資源的完整性,收集和存儲數(shù)據(jù)的覆蓋范圍也并不限于本機構,對于其他科研機構、高校等一些合作機構的資源,數(shù)據(jù)層也可以共享。
圖2 基于關聯(lián)數(shù)據(jù)的機構知識庫服務模型
在關聯(lián)層,機構知識庫可以對數(shù)據(jù)層處理后的數(shù)字化資源進行統(tǒng)一的語義描述,應用RDF建立起機構知識庫內部資源間的關聯(lián)以及內部與外部資源間的關聯(lián),通過各資源之間的鏈接,將獨立的數(shù)據(jù)資源整合、排序,形成一個全面完整的知識發(fā)現(xiàn)網絡,進一步提高機構知識庫數(shù)字化資源的開放性,為應用層中用戶對原生數(shù)字資源的獲取提供支持。
應用層在機構知識庫數(shù)據(jù)資源充分關聯(lián)與整合的前提下,主要為用戶提供語義檢索、數(shù)據(jù)瀏覽、知識服務和個性化服務四項內容。在這一層級,機構知識庫可以根據(jù)用戶的檢索需求,高效準確地為用戶推送相關資源,為用戶提供一個原生數(shù)字資源更為豐富的空間,增強用戶資源獲取的體驗感和對機構知識庫的認同感。
本文提出了一種較為通用的基于關聯(lián)數(shù)據(jù)的高校機構知識庫服務模式,分析了關聯(lián)數(shù)據(jù)應用的關鍵技術,包括原生數(shù)字資源的語義描述與關聯(lián),在此基礎上構建了服務模型,并詳細論述了模型的構建方法和具體功能。
基于關聯(lián)數(shù)據(jù)的高校機構知識庫服務模式可以有效解決“信息孤島”的問題,能夠提高知識庫知識發(fā)現(xiàn)能力,加強機構知識庫資源的集成和共享,為我國高校機構知識庫的建設提供參考。