陳海玉 向前 趙冉 何劍鋒
摘要:數字環(huán)境下,館藏紅色文獻的知識存儲、服務利用和傳播效能問題亟待解決。知識庫在知識聚合以及為用戶提供個性化、知識化、專精化服務方面具有優(yōu)勢。本文以紅色基因傳承為導向,探索館藏紅色文獻知識庫在數據獲取與處理、元數據設計、知識關聯與知識服務方面的問題,為今后構建文獻知識庫提供參考。
關鍵詞:紅色文獻 知識庫 知識服務
目前我們提出“把紅色資源利用好、把紅色傳統(tǒng)發(fā)揚好、把紅色基因傳承好”的紅色文化觀,極大激發(fā)了紅色資源新活力。紅色文獻是紅色資源的重要組成部分,理應在紅色資源發(fā)掘利用中發(fā)揮重要作用。隨著新時期信息技術與經濟社會的廣泛融合應用,各地館藏紅色文獻數字資源和數據資源持續(xù)增長,海量集聚的特點凸顯,社會各界對紅色資源的利用需求也呈現多樣化、個性化和智慧化發(fā)展趨勢,加強紅色文獻資源的深度建設、服務創(chuàng)新與開放共享利用已成為社會的廣泛共識。
現有紅色文獻數據庫的利用率不高,存在“信息需求的集結、有序、專精與信息資源的海量、無序、異分的矛盾”[1],制約著紅色文獻資源社會效能的充分發(fā)揮。因此,當前迫切需要加強紅色文獻資源建設,通過推進文獻數字化和數據化,促進信息資源的有效整合、深度挖掘與知識關聯,提升管理及利用效益。本文從紅色基因傳承的視角,探索館藏紅色文獻知識庫在數據獲取與處理、元數據設計、知識關聯與知識服務方面的問題,為今后文獻知識庫的建設與應用提供參考。
(一)有利于推進紅色文獻資源的集成化管理
紅色文獻知識庫構建的目的是成為公眾新型紅色文獻資源共享、紅色精神傳承和各地區(qū)紅色學術交流平臺的重要基礎設施,能夠保存與管理類型異構和數量眾多的紅色文獻資源,既包括各種革命歷史檔案資料、報刊、手稿、文件、日記、書信、年譜、傳單、宣傳標語、票據、圖片、縮微膠片、音視頻資料、軟件、工具等,還包括該領域專家、學者的研究成果和學術報告等,繼而成為全社會不同類型用戶利用紅色資源的文獻資源中心。
(二)有利于實現紅色文獻資源的深度加工與挖掘
館藏紅色文獻知識庫可以有效解決紅色文獻資源關聯性問題,借助新技術、新媒介的多樣性,通過分析、統(tǒng)計、計算等方式重構和創(chuàng)新人文知識,為研究者提供更多視角的研究可能和線索,從而能夠拓寬學術邊界,實現學術領域疆域的重繪。它可以實現新興理念與傳統(tǒng)人文知識的對話,包括突破既定學科邊界的對話,跨越理論與實踐、定性與定量的對話等,其創(chuàng)新性主要體現在加大資源整合力度、細化知識粒度、實現知識聚合與關聯等方面。
(三)有利于滿足社會各界用戶的多樣化利用需求
館藏紅色文獻知識庫是具備異構數據互用性的開放性網絡資源知識庫,是友好型、個性化的人機交互知識庫,能夠為每個用戶、組織和機構提供設施、知識和服務的紅色文獻資源共享基礎。同時,紅色文獻知識庫為學者創(chuàng)造開放的、學術性的生態(tài)環(huán)境,成為具有時代特征和創(chuàng)新性的學術體,并能參與到世界記憶工程構建中,成為緬懷歷史、傳承紅色基因的新型載體。
在紅色文獻知識庫構建中,結合檔案文獻知識內容和領域特征,知識庫架構分為數據存儲層、知識組織層和知識服務層(見圖1)。
數據存儲層是紅色文獻知識庫的基礎,通過數據的有序化和知識化形成粗粒度知識,為知識組織層提供數據來源,是構建知識組織的底層數據。數據存儲層承擔著紅色文獻數據整合、保存和管理的任務,是整個知識庫架構的基礎以及用戶需求服務的保障。
知識組織層是知識庫的核心層,主要是實現知識有序化和知識創(chuàng)新,完成數據存儲層的數據關聯,將數據資源細化升格為知識資源。在知識組織層,我們將借助一些知識組織工具,建立知識間的語義關系,形成中國革命歷史領域本體、數據鏈、知識鏈、用戶需求和用戶行為等關系鏈,并建立紅色文獻知識倉儲。
知識服務層是實現用戶需求和知識組織聯系的接口層。該層雖然不承擔知識組織的具體任務,但它是用戶和知識組織系統(tǒng)之間的紐帶,一方面根據用戶的需求,運用檢索技術、推理技術、關聯分析技術等對知識關系鏈或知識倉儲進行運算,從而實現知識服務;另一方面采集用戶需求信息和使用系統(tǒng)信息,并將這些信息傳遞給知識組織層,為建立用戶行為分析知識關系鏈提供客觀數據。[2]
在實際知識庫構建中,我們既要考慮到紅色文獻資源對社會大眾的愛國宣傳作用,也要考慮到紅色文獻資源研究領域專家學術成果的應用。[3]同時,紅色文獻知識庫的構建還需打破現有知識庫由單個學科機構承擔的窘境,才有利于紅色文獻、科研成果、學術報告等資源的開放。因此,紅色文獻知識庫的構建需要由體制內大型機構牽頭,聯合各地紅色文獻保存主體,打破館際壁壘和地理隔離。
(一)知識庫的數據準備
知識庫的數據準備是知識庫數據存儲層構建的關鍵步驟,同時也是為了實現數據知識化、知識有序化以及知識服務的前期工作。在知識庫的數據準備中,知識表示是十分重要的前期工作,它是知識庫知識組織工作的基礎和保證。在知識表示的前期構建中,我們要重視獲取和選擇相關的知識資源、工具和方法。紅色文獻知識庫的數據準備主要包括知識資源準備和知識組織工具的選取等方面的工作。
紅色文獻知識資源的形式多樣,既有保存于檔案館、博物館、圖書館等機構的尚未正式出版的原始資料和正式出版的一次文獻(如期刊論文、著作等),也有經過整理生成的索引文摘之類的二次文獻和綜合分析產生的綜述、述評類三次文獻。之后,我們再根據用戶需求準備知識資源的形式,根據需求類型設計知識組織的邏輯結構。
選擇合適的知識組織工具是知識組織的關鍵。紅色文獻知識庫可選用本體構建工具進行知識組織,本體構建工具是知識處理及可視化類工具,可建立知識之間的深層次關聯,形成知識網絡,并通過合適的方式展現給用戶。除此之外,還有自然語言處理工具、引文處理及可視化工具等知識組織工具。
(二)知識庫元數據規(guī)范制定
知識庫元數據規(guī)范制定是構建知識組織層的核心內容,對知識庫元數據標引的質量有較大影響。元數據規(guī)范制定大致遵循以下流程:一是選擇知識庫系統(tǒng)平臺,同時確定基礎元數據規(guī)范;二是分析知識庫的功能;三是根據知識庫功能需求對基礎元數據進行擴展或本地化。[4]
如紅色文獻知識庫選用DSpace系統(tǒng)平臺,并基于該平臺進行擴展開發(fā),分析紅色文獻知識庫的功能,即知識服務層可提供的服務,一是知識庫的基本功能,即存儲和展示參與共建機構間的所有紅色文獻;二是擴展的知識庫功能,即基于語義的概念查詢、知識聚合和知識鏈展示,以及知識的創(chuàng)新。根據知識庫的功能,我們可以設計紅色文獻知識庫的元數據,除了啟用DC元數據(即都柏林核心元數據)字段,如Contributor(作者)、Date(出版時間)、Description(摘要)、Identifier(引文格式)等基礎DC元數據字段,還需要進行一些擴展。
紅色文獻知識庫根據其功能進行DC元數據擴展,主要是針對紅色文獻資源屬性和針對知識庫服務的擴展。
(三)知識發(fā)現
知識發(fā)現是連接知識組織層和知識服務層的橋梁,主要由文獻概念提取、本體表示和知識揭示三部分組成,即通過對前期數據準備形成的紅色文獻資源集合進行文獻概念提取,構建概念集合,之后在本體表示和知識揭示中形成語義本體集合(見圖2)。
紅色文獻資源概念的提取是指在不同數據源的結構化和非結構化資源中提取概念。知識的概念和領域,重在揭示信息的內部特征和使知識顯性化,對信息的描述粒度可細化到最小知識單元級別,對異構信息也能很好地處理,對知識的描述突破粒度、結構、類型的限制,可以描述文獻、信息資源,還可以描述其內容中隱含的知識,如人、機構、地點、時間、事件、物體、主題詞、關鍵詞等實體或概念的特征及其相互之間的關系。紅色文獻資源涉及的知識領域屬于中國革命歷史領域,歷史事件、組織、人物等是存在層級化的本體體系,上下層級之間通過概念類定義進行繼承,我們還可直接引入另一個概念類聯系領域中的其他本體,實現知識關聯。[5]
本體表示是在紅色文獻資源概念提取形成概念集合的基礎上對紅色文獻資源進行正式的語義表達,其核心是利用現有的本體對從文獻資源中抽取到的詞匯進行概念規(guī)范化并形成語義,包括選擇、利用與相互映射本體,從而利用本體對文獻資源進行綜合全面的規(guī)范與聚合。本體表示可以實現異構文獻資源的互用性,對不同數據源的概念實現規(guī)范化,以及促進異構資源的融合、互操作和共享等。
知識揭示即對不同數據源中的概念進行研究,包括機器學習和數據關聯,對規(guī)范后的資源概念和關系進行挖掘,揭示知識和深層語義關系。在數據規(guī)范化后,我們基于本體的概念與關系加強領域知識之間的關聯,將異構數據規(guī)范以提高知識聚合的效果。
(四)知識服務
知識服務是知識服務層主要內容。知識服務面向不同層次和不同工作特性的用戶,并根據用戶的需求提供不同特點的知識。知識服務具備面向用戶需求和導向提供服務的特點。要滿足多層次的知識需求,不僅需要知識庫的數據儲存層按照用戶需求劃分知識粒度,更需要在不同粒度知識間建立語義聯系,并將這種聯系建立在數據組織之中,使其能經過推理來滿足更深度的知識需求?;诖?,館藏紅色文獻知識庫需要加強知識的語義標注,更新領域實例來補充和豐富原知識庫,并將中國革命歷史領域知識構建成知識網絡,形成領域知識地圖,以提高知識服務的質量。
館藏紅色文獻知識庫的知識服務是以數據存儲層的資源為基礎,并結合中國革命歷史領域的專家、學者和其他主體的參與情況,在充分挖掘紅色文獻資源的前提下,以用戶需求為服務導向提供開放式的服務,允許認證用戶不受限制地進行檢索、瀏覽和下載。
圖3為紅色文獻知識庫知識服務圖。我們通過知識庫服務使知識的利用延伸和輻射開來,可以提高知識服務多功能和智能多樣化水平,同時精細化知識庫服務體系,保障多個節(jié)點使用環(huán)境下的用戶需求。最后,我們還可以借助信息技術的個性化定制服務來實時更新用戶的“需求與興趣”,以此保證檔案文獻知識庫可持續(xù)的知識服務。
多個平臺、數據異構、元數據不統(tǒng)一、館際壁壘等現象一直是制約著紅色文獻資源知識服務效率的因素。紅色文獻知識庫構建了一個知識聚合的統(tǒng)一平臺,打破傳統(tǒng)以單館或單個機構為主體自建數字資源的模式,實現整體集群效應,大大提升紅色資源的利用效率。一是在開放環(huán)境下嵌入并優(yōu)化技術環(huán)境和管理環(huán)境,實現知識庫知識服務多功能化。多功能主要包括知識庫領域知識概念的檢索、知識關聯形成的知識圖譜服務和知識導航服務等。二是實現知識庫知識服務機制的創(chuàng)新,促進知識庫服務智能多樣化。紅色文獻知識庫服務的多樣化是服務維度的拓寬,主要包括知識分析、知識網絡構建、完整知識本體響應時長等。三是借助新興數字技術,為知識庫知識服務架上“時代翅膀”。紅色文獻知識庫開源的特征為新興數據技術的引入帶來了可能,能夠借助技術的優(yōu)勢不斷優(yōu)化知識庫知識服務的效度和質量。
紅色文獻承載著中國共產黨的初心與使命,理應在紅色基因傳承中貢獻“文獻智慧”,彰顯“文獻作為”。新技術環(huán)境下的紅色文獻建設與利用,追求形式多樣、受眾廣泛、存取便捷、利用高效的目標,將海量、異構的紅色資源組織成為有序的知識資源,并向社會各界提供高效的知識服務,是解決離散且獨立的紅色文獻資源系統(tǒng)化整合問題,充分發(fā)揮紅色文獻資源資政育人作用的重要舉措。因此,各地紅色文獻資源挖掘的深入和服務利用水平的不斷提升,將極大推進相關知識庫的建設與應用,并為各地紅色文化傳播和革命歷史教育發(fā)揮數據中心的作用。
注釋及參考文獻:
[1]徐艷芳,曹高輝,王學東.基于知識構建的老莊研究知識庫知識服務實現探析[J].情報資料工作,2014(1):83-86.
[2]徐緒堪.面向知識服務的知識組織框架體系構建[J].情報學報,2013(12):1278-1287.
[3]陳晶晶,覃芳,董小熔.數字人文背景下檔案館知識服務:價值闡釋與運行邏輯[J].北京檔案,2021(12):23-27.
[4]崔海媛.機構知識庫構建指南[M].北京:海洋出版社,2019:205-206.
[5]夏翠娟.文化記憶資源的知識融通:從異構資源元數據應用綱要到一體化本體設計[J].圖書情報知識,2021(1):53-65.
作者單位:云南大學歷史與檔案學院