王任棟,宋 濤
(長春師范大學圖書館,吉林長春 130032)
基于本體的數(shù)字圖書館知識組織研究
王任棟,宋 濤
(長春師范大學圖書館,吉林長春 130032)
20世紀80年代末以來,在人工智能和知識工程等新興領域里,本體逐漸被廣泛應用,也引起了圖書情報界的極大關注。數(shù)字圖書館知識組織構建模式研究在基于本體的前提下為知識組織在語義層面上拓展了一個嶄新的領域,為實現(xiàn)信息服務的語義化和智能化奠定了基礎。本文介紹并闡述了本體的形式化模型以及本體的具體功能、概念、特點,同時分析了本體作為一種能在知識層次和語義上描述概念體系的相關工具在進行數(shù)字圖書館知識組織中的不足,并提出了基于本體的知識組織模式及流程。
本體;數(shù)字圖書館;知識組織;構建模式
網(wǎng)絡的發(fā)展為信息的利用生產(chǎn)和組織方式帶來了重大革新,信息在網(wǎng)絡資源極速增長的環(huán)境下變得混亂無序,出現(xiàn)了“信息激增”和“信息過載”現(xiàn)象。知識在如此龐大的信息環(huán)境中處于混亂無序的狀態(tài),這種狀態(tài)嚴重影響用戶對知識的利用。本著為用戶提供最好服務的宗旨,數(shù)字圖書館應該對埋藏在海量信息中的知識進行組織。本文立足于現(xiàn)代信息增長現(xiàn)狀,按照有效組織知識的原則,對數(shù)字圖書館基于本體的知識組織進行探討。
1.1 傳統(tǒng)的主題法和分類法在數(shù)字圖書館知識組織中存在的不足
傳統(tǒng)分類法和主題法為圖書館學知識組織做出了不可磨滅的貢獻,但是在信息激增的網(wǎng)絡環(huán)境中,分類法、主題法由于其結構固定,無法適應信息的多維行、動態(tài)性變化,難以適應信息增長的更新速度,尤其是對超媒體和超鏈接等多樣的網(wǎng)絡信息難以進行精確的組織與分類。
1.2 元數(shù)據(jù)在數(shù)字圖書館知識組織中體現(xiàn)出的不足
元數(shù)據(jù)是基于Web環(huán)境產(chǎn)生的,主要適用于HTML、XML等超文本文檔,導致元數(shù)據(jù)在描述其它領域知識時有一定局限性。元數(shù)據(jù)不能完全解決信息系統(tǒng)中存在的語義結構差異問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結構的異構問題及資源對象之間存在的各種關系。其方案停留于信息集成,不能滿足數(shù)字圖書館服務集成的需要。
Ontology稱為本體論、實體論或存在論,是對自然存在及其本質的研究,屬于行而上學論的分支。人工智能和信息科學等學科將Ontology的概念從哲學領域借用過來,一般翻譯成“本體”。人工智能和信息科學領域里的不同專家學者對本體有不同的定義[1],被廣泛認同的是美國斯坦福大學知識系統(tǒng)實驗室的Gruber在1993年曾提出的“An ontology is a specifization of a conceptualization”(概念模型的明確的規(guī)范說明)[2]。
由于本體要為多個領域或單一領域間的關系提供語義路線圖,因此只需要對一個領域進行構建。有必要把數(shù)字圖書館中的知識分為N個學科領域。當要引入某個學科M時,首先遍歷整個數(shù)字圖書館中是否有與學科領域M完全符合的領域I(I=1,2,…,N),通過領域的知識本體的范圍和目標來判斷是否有可用的,如果有,此本體就可以重復使用;如果沒有,可多次使用的本體則需要進行領域知識本體的設計。完成新的領域知識本體設計后對本體進行評價,如果符合標準,那么就實現(xiàn)這個領域知識本體;如果不符合標準,那么就回到本體的設計階段重新開始設計,直到符合評價標準為止。當每個領域知識本體構建好以后,將它們匯集到一起,集成到數(shù)字圖書館中,如圖1所示。
圖1 基于本體的數(shù)字圖書館知識組織構建簡圖
2.1 領域知識本體的需求分析
需求分析是本體開發(fā)的開始,是從實際應用的特點、目標和規(guī)劃出發(fā)而對本體系統(tǒng)進行的一種規(guī)范化描述。領域知識本體的需求分析應該注意需求分析的過程性、動態(tài)性、文檔化。
2.2 領域知識本體的規(guī)劃
2.2.1 領域知識的收集及其獲取途徑
此階段的進行前提是在數(shù)字圖書館中不存在某一領域知識的可復用本體或可復用本體不符合該領域知識組織要求。一般有兩個方法:其一,執(zhí)行者作為該領域的資深從事者;其二,利用知識獲取工具從數(shù)據(jù)庫中提取。兩者可以結合使用,先利用知識獲取工具獲取,再向資深從業(yè)者進行咨詢。
2.2.2 列出重要術語和概念
在收集和獲取領域知識后,列出所有的術語和概念,暫不考慮術語之間的關系,利用自然語言學的方法或者統(tǒng)計的方法來羅列領域內的術語和概念。
2.2.3 概念化
將每一個領域知識概念化,通常利用基于關聯(lián)規(guī)則的方法、詞典的方法、基于概念聚類的方法或基于模板的方法來確定概念之間的關系。
2.2.4 定義類與類等級體系
有常規(guī)方法用于定義類及其等級體系,分別是自頂向下法、自底向上法、綜合自頂向下法和自底向上法。
2.2.5 定義類屬性
定義類屬性也稱為槽。定義好一些類以后,則要開始描述這些類之間的內在結構。在定義類的時候用到一些術語,其它沒有用到的術語可能就是這些類的屬性。屬性分為外在屬性和內在屬性兩大類,外在屬性是對類外在特征定義的概括與描述,內在屬性則是對類自身內在特征的描述。為了能夠全面揭示知識,需要將知識概念的內在屬性和外在屬性都予以定義并且賦予一定的值。
2.2.6 創(chuàng)建實例
在以上過程都完成之后,則需要定義等級體系中某類的下屬實例。首先應該選擇某一個類,其次創(chuàng)建該類的一個或多個具體實例,最后為該類添加賦值屬性。
2.3 本體的評價
無論是對復用本還是新建立的本體,都應該有本體的評價。雖然目前沒有統(tǒng)一的明確規(guī)范的本體評價標準,但是可以從本體的特征及功能來評價。具體可以從本體的完整性、清晰性、一致性、可拓展性、兼容性以及文本的完備性、準確性、可操作性等方面進行評價。
2.4 本體的實現(xiàn)
本體的實現(xiàn)就是利用相應的計算機語言將構建的領域知識本體從自然語言轉換成機器可以理解的邏輯表達式。
2.5 本體的集成與管理維護
當各個學科領域知識本體構建好以后,把這些領域本體聚集在一起,構成數(shù)字圖書館關于各學科的本體知識庫。阮岡納贊曾說圖書館是一個生命著的有機體,同樣,數(shù)字圖書館也是生命著的有機體。數(shù)字圖書館本體知識庫需要時刻管理及維護,以適應各學科知識的增長情況。
[1]Gruber TR.A translation approach to portable ontology specifications[R].Stand for University,Tecrep:logic-92-1,1993.
[2]董慧,姜贏,等.基于數(shù)字圖書館的本體演化和知識管理研究(Ⅲ)——動態(tài)知識描述[J].情報學報,2009(5):643-650.
[3]徐曉梅,牛振東.數(shù)字圖書館的知識組織研究[J].現(xiàn)代圖書情報技術,2007(10):1-6.
[4]畢強,鮑玉來.數(shù)字圖書館知識組織體系構建的發(fā)展路徑——概念格與本體的互補融合[J].華中師范大學學報:人文社會科學版,2011(5):130-136.
[5]覃華兵.知識組織工具——本體研究[D].武漢:武漢大學,2005.
[6]蔣永福,李景正.論知識組織方法[J].中國圖書館學報,2001(1):3-7.
[7]田欣.基于知識本體的圖書館語義檢索系統(tǒng)模型研究[J].情報雜志,2006(6):78-81.
[8]宋劍祥.從國外分類法看《中圖法》對網(wǎng)絡信息資源的組織[J].圖書與情報,2004(2):58-61.
[9]張玉峰.智能信息系統(tǒng)[M].武漢:武漢大學出版社,2008:55-58,396-401.
On the Digital Library Knowledge Organization Based on Ontology
WANG Ren-dong, SONG Tao
(Library of Changchun Normal University, Changchun Jilin 130032, China)
Since the 1990s, ontology is widely used in artificial intelligence, knowledge engineering and other fields, and has aroused great concern in library and Information field. Digtial Library knowkedge organization in ontology-based model shows a new space to the konwledge organization which based on semantic, and lay a foundation for the semantization and intellectualization of information services. This article introduces the formalized model, concepts, functions and character of ontology, analyzes the shortage of ontology in digital library knowledge organization, and put forward the ontology-based knowledge organizating model and procedure.
ontology; digital library; knowledge organization; the mode of construction
2014-10-09
王任棟(1979- ),男,吉林長春人,長春師范大學圖書館網(wǎng)絡技術部館員,從事圖書館數(shù)字化、網(wǎng)絡化研究。
G250
A
2095-7602(2014)06-0180-03