冉 婕,漆麗娟
(云南昭通師范高等??茖W校 計算機科學系,云南 昭通 657000)
知識是推理的基礎,是人類文明的成果和發(fā)展的基石,不能想象人類失去了知識將會怎樣。知識表示是一種數據結構與控制結構的統(tǒng)一體,既考慮知識的存儲又考慮知識的使用。知識表示是一組描述事物的約定,把人類知識表示成機器能處理的數據結構。本體是將世界上所有的東西用層次類別組織起來,它是知識表示的中心內容[1]。近年來,本體論被人們引入知識工程領域,其最終目的是為了解決知識的重用和共享。本體不僅是一個可共享的概念模型,更重要的是:首先,本體所描述的概念不能有二義性,即必須是“明確(explicit)”的;第二,本體不僅能被人理解,還要能被計算機所理解,所以本體應該是被“形式化(formal)”的[2]。本文介紹了典型的本體的形式化定義,包括:OWA(Ontology-based Web Annotation)形式化定義、Maedche A形式化定義、Guarino形式化定義、KAON(Karlsruhe Ontology)形式化定義等;并對這四種形式化定義作了簡單的對比分析。
本體是“共享概念模型明確的形式化規(guī)范說明”。通過本體(Ontology)可以獲取某一領域的知識、本體描述該領域的概念以及這些概念之間的關系[3]。典型的本體一般由概念、概念的屬性、概念間的關系、概念和屬性之間的約束來表示領域知識,這在本質上決定了本體可以借助成熟的關系數據庫技術來完成本體存儲、查詢等工作。OWL(Web Ontology Language)是W3C推薦的語義互聯網中本體描述語言的標準[4]。本體可以采用OWL進行形式化編碼,即用OWL中定義好的元ontology對概念和關系進行形式化描述。
本體的表示有多種:有僅表示概念的,有表示概念和屬性的框架和語義網絡的,還有能表達豐富語義的基于邏輯的表示。ER模型和UML類圖也可認為是本體的表達。當前有邏輯和非邏輯兩種主要的本體表達。非邏輯表達直觀方便但語義不豐富、不精確,沒有強大的推理能力;邏輯表達源于對謂詞演算,可以清晰表達所描述的領域的認識。描述邏輯是一階謂詞邏輯的子集,它只有概念和角色兩個基本成分,較好地與本體的定義相對應。用描述邏輯形式表達的本體語言的兩個基本描述是:原子概念集(其成員用A表示)和原子角色集(其成員用R表示)。原子概念表示領域中的對象,原子角色表示對象之間的關系。復雜的描述可以通過以上2個概念構造符逐步創(chuàng)建[5]。本體的形式化描述主要有基于五元組、六元組、七元組和八元組的描述[6]。參考文獻[6]采用函數式描述語言精確定義了本體建模基元,提出一種具有封閉性的本體代數定義;參考文獻[7]提出了基于屬性文法的本體形式化描述方法;參考文獻[8]將本體抽象為外部聲明和內部表示兩部分,在外部聲明中說明本體中的概念與關系,在內部表示中說明概念與關系的語義關系,建立了本體內的簡單推理模型。
目前本體論的很多定義都具有普遍性,但卻很少有準確的數學定義,即很少從形式化角度對本體進行精確的描述。其主要原因是數學定義應該包括所有不同類型的本體論,并且不應與特殊的知識表示方法有關。本體的形式化定義典型的有:OWA形式化定義、Maedche A形式化定義、Guarino形式化定義、KAON(Karlsruhe Ontology)形 式 化 定 義 等[9]。
在基于本體的Web注釋OWA的框架中,本體論充當組織Web上語義相關數據的領域知識。與傳統(tǒng)的RDB相比,本體由于自身更豐富的語義結構,使之能夠描述更復雜的對象。
OWA本體定義是一個六元組:{C,AC,R,AR,H,X}。其中,C表示概念集;AC表示每個概念的屬性集,概念屬性集AC(ci),即概念集C中每個概念ci用來表示相同種類的一組對象,并能用相同的屬性集進行描述;R表示關系集,關系 ri(cp,cq)即關系 R中的每個關系 ri表示概念cp和cq之間的二元關聯,并且此關系的實例是一對概念對象(cp,cq);AR表示每個關系的屬性集,關系屬性集AR(ri),用于表示關系ri的屬性;H表示概念層次,H是概念集C的概念層次,并是C中概念之間的一組父子關系;X表示公理集,X中的每個公理是對概念的屬性值和關系的屬性值的約束,或是對概念對象之間關系的約束。
Maedche A形式化定義是一個五元組:O={C,R,Hc,Rel,Ao}。其中:C表示概念集合,其中的一個元素稱為一個概念;R表示關系集合,其中的一個元素稱為一個關系;Hc表示概念的層次或分類層次,Hc?C×C即概念間的分類關系,是一種有向關系,Hc(C1,C2)表示 C1是 C2的子概念;Rel表示概念間的非分類關系,Rel:R→C×C是一個函數,Rel(R)=(C1,C2)也可表示為 R(C1,C2);Ao表示使用某種邏輯語言表達的Ontology公理集[10]。
任何邏輯都隱含自身的本體論,該本體論包含理論假定存在的所有事情,因此邏輯理論是本體中所有實體存在的本體論承諾。Quine從邏輯和哲學的角度研究本體論承諾,規(guī)定在邏輯理論強的每個術語都成為該理論的本體?;赒uine的觀點,每個邏輯理論都有其自己的顯式或隱式的本體,但從知識工程的角度來看,涉及本體的很多知識都能取得輕型本體,把知識庫限定在存在于外部本體的術語中,這顯然不實際,因此知識工程中的本體應定義為知識庫中的術語和在本體中同一或等同的術語之間的形式化映射。Guarino把本體論承諾表達成在語言和被稱為本體的某些事物之間的某種映射。Guarino的本體形式描述如下[11-12]:
域空間<D,W>結構,其中D是領域,W是D中最大事物狀態(tài)(或可能世界)的集合。n元概念關系 ρn,域空間<D,W>上的n元概念關系是從集合W到域D中所有n元關系集合的映射,即全函數ρn:2Dn。概念化是一個有序三元組 C=<D,W,R>,其中 R是域空間<D,W>上概念關系ρn的集合。邏輯語言L的內涵解釋<D,R>,其中概念化 C=<D,W,R>,而函數E:V→D∪R是把域 D的元素賦予語言詞匯V的常量符號,并把集合R的元素賦予詞匯V的謂詞符號。
德國Karlsruhe大學AIFB學院的知識管理團隊在開發(fā)Karlsruhe本體框架過程中,經過長期的研討后,對出現本體論的核心及不同擴展進行正式定義,該定義從本體的角度對知識庫作了較全面的形式化定義,對知識庫的本體化描述具有普遍代表性,其具體描述如下:
KAON的本體定義是一個五元組:O:=(C,≤C,R,σ,≤R),其中兩個不相交的集合C和R的元素分別被稱作概念標識符;偏序≤C稱作集合C的概念層次;函數σ:R→C+稱作簽名;偏序≤R稱作集合R的關系層次,r1≤Rr2意味著|σ(r1)|=|σ(r2)|,并且對于每個1≤i≤|σ(r1)|,有 πi(σ(r1))≤Cπi(σ(r2))。 在實際的應用中,幾乎所有的關系都是二元的,故需要定義這些關系的領域和范圍。對于關系 r∈R,有|σ(r)|=2,則定義此關系的領域是 dom(r):=πi(σ(r)),范圍是 range(r):=π2(σ(r))。
概念的和/或關系之間的關聯以及約束能在邏輯語言內進行比較,給出了基于邏輯語言本體定義的公理系統(tǒng),以便允許使用不同的邏輯語言。假設L是邏輯語言,則本體 O:=(C,≤C,R,σ,≤R)的 L公理系統(tǒng)是 A:=(AI,α),其中集合 AI中的元素被稱作公理標識符;α:AI→L是映射;A:=α(AI)的元素被稱作公理。本體 O:=(C,≤C,R,σ,≤R)的 詞 典 是 以 下 結 構 :Leχ:=(SC,SR,Refc,RefR),其中兩個集合SC和SR的元素分別被稱作概念標記與關系標記;如果對于所有的c∈C∩SC有(c,c)∈RefC,則關系RefC?SCC稱作概念的詞匯參考;如果對于所有的r∈R∩SR有(r,r)∈RefR,則關系 fR?SRR稱作關系的詞匯參考。
本體對領域的內涵部分進行形式化,而知識庫中包含對概念實例和關系實例的斷言,故知識庫提供領域的外延部分。知識庫是結構KB:=(CKB,RKB,I,lC,lR),包含兩個集合 CKB和 RKB;集合 I的元素被稱作實例標識符;函數lC:CKB→β(I)稱作概念實例化;如果對于所有的 r∈R,有l(wèi)R(r)∈ ∏c∈σ(r)lC(c), 則 函 數 lR:RKB→β(I+)稱 作 關 系 實 例化。知識庫KB:=(CKB,RKB,I,lC,lR)的實例詞典是組對IL:=(SI,RI),其中集合 SI的元素被稱作實例標記;關系 RI?SII稱作實例的詞匯參考。
本體是對共享的概念化進行形式的規(guī)范說明,是知識工程領域中的一個重要分支。本體的表示有多種,主要包括邏輯和非邏輯兩種主要的本體表達。本文從邏輯表達的角度,給出了OWA(Ontology-based Web Annotation)、Maedche A、Guarino 和 KAON (Karlsruhe Ontology)4種典型形式化定義,并對其進行了對比分析。目前,本體的形式化表示及應用仍是知識工程的一個熱點研究領域,如何用數學的方式更規(guī)范地表達本體,將是下一步研究的重點。
[1]吳強,劉宗田,強宇.基于本體的知識庫推理研究[J].計算機應用研究,2005,21(13):50-52.
[2]張其文,臧鳳奎,李明.本體語言的聯系及其邏輯基礎分析[J].科學技術與工程,2009,9(4):950-953.
[3]王樂,張建軍.OWL本體存儲的分析與應用[J].科學技術與工程,2008,8(7):1831-1834.
[4]OWL Web ontology language guide recommendation[EB/OL](2004-02-10).[2011-12-10]http://www.w3.org/TR/2004/RRC-owlguide-20040210.
[5]王真星,呂滕.基于描述邏輯的本體導航[J].計算機工程,2005,31(11):28-29.
[6]王俊華,左萬利,赫楓齡,等.本體定義及本體代數[J].吉林大學學報(理學版),2010,48(6):1001-1007.
[7]宮慧穎,汪美玲,劉磊.基于屬性文法的本體形式化描述方法及其應用[J].吉林大學學報(信息科學版),2005,23(2):199-204.
[8]張大志,劉磊.一種本體的形式化描述方法及其應用[J].吉林大學學報(信息科學版),2004,22(1):74-78.
[9]程顯毅,劉一松.面向智能體的知識工程[M].北京:科學出版社,2008.
[10]MAEDCHE A.Ontology learning for the semantic Web[M].[S.l.]:Kluwer Academic Publishers,2002.
[11]GUARINO N.Semantic matching:formal ontological distinctions for information organization extraction and integration[C].In:Pazienza M T,eds.Information Extraction:A Multidisciplinary Approach to an Emerging Information Technology,Springer Verlag,1997:139-170.
[12]GUARINO N,WELTY C.A formal ontology of properties[C].In:Dieg R,Corby O,eds.the Proceedings of the 12th International Conference on Knowledge Engineering and Knowledge Management(EKAW’2000),Springer Verlag,2000:97-112.