龍海++朱彥
摘要:介紹頂層本體GFO(general formal ontology,通用形式化本體)的基本概念和框架,及其他3種主流頂層本體--SUMO(推薦上層合并本體)、DOLCE(語言學(xué)和認(rèn)知工程的描述本體)、BFO(基本形式化本體)。并在總體架構(gòu)和適用范圍、對客觀世界的理解等方面進(jìn)行比較,對兼容性、結(jié)構(gòu)化程度和可擴(kuò)展性、成熟度及開放度等方面進(jìn)行評(píng)估,認(rèn)為GFO可以滿足構(gòu)建中醫(yī)藥領(lǐng)域本體上層框架的基本要求。
關(guān)鍵詞:本體;頂層本體;通用形式化本體;中醫(yī)藥本體;推薦上層合并本體;語言學(xué)和認(rèn)知工程的描述本體:基本形式化本體
近年來,本體學(xué)或本體論(Ontology)在信息系統(tǒng)領(lǐng)域中的研究和應(yīng)用越來越普遍,其重要性在電子商務(wù)、語義網(wǎng)絡(luò)、企業(yè)、信息集成、自然語言處理、知識(shí)工程、數(shù)據(jù)庫等不同領(lǐng)域得到了日益廣泛的承認(rèn)和重視。一般來說,本體或本體論有兩個(gè)方面的涵義。其最初的涵義是哲學(xué)層面上的,指一種研究世界本質(zhì)的形而上學(xué);其二是指在信息科學(xué)當(dāng)中的本體學(xué)。按照Gruber提出的定義,本體是對某一可共享的概念模型的形式化的和明確的規(guī)范說明。
1 頂層本體的應(yīng)用
按照本體的抽象化程度,本體一般可分為頂層本體、中間層本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體等。而頂層本體是高層的與某個(gè)特定領(lǐng)域或任務(wù)無關(guān)的本體,它通常只表達(dá)一些常識(shí)性概念和范疇,如時(shí)間、空間、對象、事件等。頂層本體具有普遍性和抽象性,它可以作為構(gòu)建領(lǐng)域本體的基礎(chǔ),并且為不同系統(tǒng)提供一個(gè)共同的知識(shí)庫(見表1)。利用頂層本體來構(gòu)建領(lǐng)域本體,利用頂層本體中已有的概念集、規(guī)范的關(guān)系定義和公理定義,以及合理的邏輯結(jié)構(gòu),可以大大減少本體構(gòu)建過程中的復(fù)雜性,省時(shí)省力;同時(shí),通過遵循同樣的標(biāo)準(zhǔn)規(guī)范,使得將來在不同本體或系統(tǒng)之間的映射和互操作變得容易。
中醫(yī)藥領(lǐng)域頂層本體不僅為中醫(yī)藥領(lǐng)域本體的構(gòu)建提供指導(dǎo)框架,而且有利于實(shí)現(xiàn)中醫(yī)藥領(lǐng)域本體同其他領(lǐng)域本體之間的整合,是實(shí)現(xiàn)不同領(lǐng)域知識(shí)共享和互操作的基礎(chǔ)。目前,關(guān)于中醫(yī)藥領(lǐng)域頂層本體的研究,基本都是參照SUMO(suggestedupper merged ontology,推薦上層合并本體)和西醫(yī)領(lǐng)域的 UMLS (unified medical languagesystem,一體化醫(yī)學(xué)語言系統(tǒng))進(jìn)行構(gòu)建。然而,傳統(tǒng)的中醫(yī)學(xué)理論有著自己獨(dú)特的體系架構(gòu),無論是它的知識(shí)背景、哲學(xué)起源,還是中醫(yī)藥術(shù)語的語義和語境,都與西醫(yī)的知識(shí)體系有著極大的差異。如果按照西醫(yī)理論去詮釋中醫(yī)藥概念和術(shù)語,不顧及中醫(yī)發(fā)展規(guī)律和特殊性,加之選擇不當(dāng),很容易產(chǎn)生語義表達(dá)二義性等諸多問題。
2 GFO介紹
2.1 項(xiàng)目起源
GFO(general formal ontology,通用形式化本體)是目前可供構(gòu)建領(lǐng)域本體所參考的主流頂層本體之一,由德國學(xué)者Heinrich Herre、Barbara Heller以及Onto-Med團(tuán)隊(duì)于20世紀(jì)90年代末創(chuàng)建。它的前身是基礎(chǔ)本體的集成系統(tǒng)(integrated system of foundational ontologies,ISFO)的組成部分,而ISFO又是之前被稱為GOL項(xiàng)目,即后來的關(guān)于本體的發(fā)展和應(yīng)用的集成框架(integrated framework for the development andapplication of ontologies,IFDAO)的一部分。IFDAO是作為萊比錫大學(xué)信息學(xué)院(IFI)和萊大所屬的醫(yī)學(xué)信息統(tǒng)計(jì)學(xué)暨流行病學(xué)研究所(IMISE)于1999年聯(lián)合創(chuàng)建的,它包括本體語言庫、開發(fā)工具系統(tǒng)等一系列組件。該工具系統(tǒng)支持面向領(lǐng)域和一般本體的開發(fā)工作。
2.2 基本概念和框架
GFO致力于構(gòu)建一個(gè)可以適用于所有領(lǐng)域的頂層本體,由3層元本體架構(gòu)組成。(1)抽象頂層:包括集合(set)和條目(item),這兩個(gè)原始元素(或稱初始元素,urelement)作為唯一的元元范疇(meta-meta-categories)。(2)元層面(metalevel):是指基本層以上的元范疇(metacategories),又被稱之為抽象核心層面(abstract-core-level),它從item中被推導(dǎo)出來,被分為范疇(category)和個(gè)體(individuals)。即本體當(dāng)中的每一個(gè)事物或者是范疇,或者是個(gè)體。(3)由所有相關(guān)的GFO基本類別所組成的基本層面(basic-level),這個(gè)層面的謂詞可以通過領(lǐng)域頂層連接公理與領(lǐng)域本體當(dāng)中的范疇進(jìn)行對接。見圖1。
2.3 特點(diǎn)
GFO具有以下7個(gè)特點(diǎn):(1)一方面,區(qū)分靜態(tài)實(shí)體和動(dòng)態(tài)實(shí)體;另一方面,它既包含對象(3D,指三維空間)也包含過程(4D,指三維空間加時(shí)間維),并且將兩者整合進(jìn)一個(gè)連貫一致的框架。為復(fù)雜的領(lǐng)域知識(shí)建模過程創(chuàng)造良好的可能性。(2)通過承認(rèn)共相(universals)、概念(concepts)和符號(hào)結(jié)構(gòu)(symbol structures)這些上層節(jié)點(diǎn)以及它們之間的相互關(guān)系,呈現(xiàn)一個(gè)多元范疇方式,具備更多的抽象性和兼容性。(3)包括現(xiàn)實(shí)的各個(gè)層次(stratum)與層面(level),比如物質(zhì)層次、精神層次、社會(huì)層次,以及各層次之間的意識(shí)層面、化學(xué)層面、生物層面、性格層面、物理層面等。(4)通過本體映射和簡約的原則支持不同領(lǐng)域本體之間互操作性。(5)提供形式化公理集,可以通過元邏輯方式加入到特定的領(lǐng)域本體中。(6)提供幾個(gè)創(chuàng)新的本體模塊,比如函數(shù)模塊(function)和角色模塊(role)。(7)可以支持各種領(lǐng)域本體或應(yīng)用本體,首先是醫(yī)學(xué)、生物學(xué)、生物醫(yī)學(xué)領(lǐng)域,也包括經(jīng)濟(jì)學(xué)和社會(huì)學(xué)等眾多領(lǐng)域。
3 其他常用頂層本體介紹
在本體學(xué)領(lǐng)域,近年來有不同的專家小組先后推出了各自的頂層本體,包括DOLCE (descriptiveontology for linguistic and cognitiveengineering,語言學(xué)和認(rèn)知工程的描述本體)、SUMO、OpenCyc/ResearchCyc、GFO、BFO(basicformal ontology,基本形式化本體)等,擁有各自的理論表達(dá)和分類架構(gòu),它們的共生性和頂層處理方式在2006年3月的頂層本體峰會(huì)上都獲得承認(rèn)。
3.1 SUMO
這是由電氣和電子工程師協(xié)會(huì)組織(IEEE)所屬的標(biāo)準(zhǔn)上層本體(standard upper ontology,SUO)工作組創(chuàng)建的頂層本體(http://www.adampease. org/OP/.),合并了已有的幾個(gè)頂層本體。最初創(chuàng)建它是為了滿足在眾多領(lǐng)域之間對實(shí)體或事件進(jìn)行標(biāo)準(zhǔn)化的描述和詞匯定義的需求。它由美國科學(xué)家Lan Niles和Adam Pease開發(fā),現(xiàn)由技術(shù)知識(shí)公司(Teknowledge Corporation)進(jìn)行維護(hù)。SUMO是一個(gè)輕量級(jí)的本體,它包括的概念和公理都是以一種能被大多數(shù)用戶理解掌握的方式來表示(見圖2)。其特點(diǎn)是致力于實(shí)現(xiàn)數(shù)據(jù)的互操作、信息檢索、自動(dòng)推理和自然語言處理;表示語言為SUO-KIF語言;可以按GNU公共許可協(xié)議提供聯(lián)機(jī)瀏覽;概念完全公理化;與整個(gè)WordNet建立映射;具有多國語言生成模板;支持瀏覽和編輯的工具。作為一個(gè)大型的免費(fèi)的形式化本體庫(包括中間層和眾多領(lǐng)域?qū)颖倔w),它共有約25 000條術(shù)語和約8000條公理。
3.2
DOLCE
最初設(shè)計(jì)DOLCE并不是作為可供候選的關(guān)于一般性或共相的標(biāo)準(zhǔn)本體,而是作為WonderWeb基礎(chǔ)本體庫中的一個(gè)可供參照的模塊,致力于去捕捉在塑成自然語言和人類認(rèn)識(shí)的過程當(dāng)中的最基本的本體范疇。它所引入的范疇也被認(rèn)為是認(rèn)知的人造物,它們極端依賴于人類的感知能力、文化烙印以及社會(huì)習(xí)俗。因此,DOLCE傾向于將自己的范疇作為描述性的觀念,即幫助已經(jīng)形成的概念模型顯式化,而不是去用某種形而上的方式去規(guī)定它們,特別是在語言學(xué)和認(rèn)知工程學(xué)方面。DOLCE在本體設(shè)計(jì)架構(gòu)中排除了一般性或共相這個(gè)實(shí)體,而是用殊相或特殊性(particular)作為它的根元素(見圖3)。因此,它是一個(gè)采取特殊觀的描述型本體。
3.3
BFO
BFO (http://ifomis. uni-saarland. delbfo/-)由美國學(xué)者Barry Smith和他的團(tuán)隊(duì)所創(chuàng)建,最初構(gòu)建時(shí)部分采納了DOLCE和SUMO的一些核心理念(見圖4)。所不同的是,BFO的目標(biāo)是致力于成為某些特定的科學(xué)研究的頂層本體框架,例如在開放的生物學(xué)本體工場(open biological ontologiesFoundry,OBO Foundry)框架里面的生物醫(yī)學(xué)領(lǐng)域本體。因此,BFO并沒有包括其他一些科學(xué)領(lǐng)域比如物理、化學(xué)、生物領(lǐng)域的術(shù)語。而OBO Foundry由超過60個(gè)的080本體所組成,這些本體的設(shè)計(jì)者都是遵循同樣的設(shè)計(jì)原則來開發(fā)他們的本體。這些原則包括必須促進(jìn)在廣泛的080框架內(nèi)的本體之間的互操作性;必須確保能逐漸改善這些本體的質(zhì)量和形式化的精確性;對庫操作的設(shè)計(jì)必須能滿足在生物醫(yī)學(xué)領(lǐng)域日益增長的數(shù)據(jù)和信息集成的需要。
另一方面,BFO的基本理論采取的是一種所謂基于實(shí)證的現(xiàn)實(shí)主義的世界觀,這實(shí)際上是一種簡單的兩分法。它把世界大體分為:(1)共相和殊相;(2)連續(xù)體和事件體(continuant and occurrent); (3)相關(guān)的和非相關(guān)的(dependent and independent); (4)形式的和物質(zhì)的(formal and material)。其中最主要的是連續(xù)體和事件體這兩大范疇。BFO關(guān)于本體的核心理念可歸納為以下幾點(diǎn):(1)共相是與觀察者無關(guān)的客觀存在,它們反映的是現(xiàn)實(shí)的不變量(invariants);(2)所謂壞的本體,其常用術(shù)語缺乏與現(xiàn)實(shí)中的共相的對應(yīng)聯(lián)系,而只是強(qiáng)調(diào)與實(shí)例的對應(yīng)關(guān)系;(3)所謂好的本體是現(xiàn)實(shí)的表示,所以它必須是建立在共相的基礎(chǔ)上,而不是概念。
4比較和評(píng)估
4.1 總體架構(gòu)和適用范圍
對目前在領(lǐng)域本體建模時(shí)比較受推崇的SUMO來說,正如文獻(xiàn)所言,雖然它和其他一些頂層本體和WordNet建立了映射關(guān)系,但它目前沒有繼續(xù)開發(fā)下去,而是處于一種維護(hù)模式。而且它本身的規(guī)模比較小,只有約1000個(gè)概念,是一個(gè)輕量級(jí)本體,將來在本體的應(yīng)用方面會(huì)有局限性。與其他頂層本體相比,SUMO的組件更少一些。
在生物醫(yī)學(xué)等領(lǐng)域作為080本體的參照本體的BFO,也不一定能適用于其他場合。BFO中最主要的兩大范疇是連續(xù)體和事件體,兩者各自獨(dú)立,互不相干,這是一個(gè)二維平面型的頂層本體架構(gòu),這樣的架構(gòu)雖然便于理解,但在知識(shí)表達(dá)上有局限性。
而GFO是一個(gè)多層次、立體型的頂層本體架構(gòu),更適合于對知識(shí)的動(dòng)態(tài)的分析和表達(dá)。特別是涉及到任何有關(guān)過程和變化的理解方面,GFO的思想和對于其概念的定義更為科學(xué)和合理。
4.2 對客觀世界的理解
DOLCE、BFO和GFO三者側(cè)重點(diǎn)不盡相同。DOLCE強(qiáng)調(diào)個(gè)體(殊相)的重要性,所以它的本體架構(gòu)是一個(gè)關(guān)于殊相的本體,在它的體系中排除了共相這個(gè)范疇。BFO認(rèn)為客觀世界的真實(shí)性是通過共相即現(xiàn)實(shí)的不變量來體現(xiàn)的,所以它強(qiáng)調(diào)的是對共相的理解。而GFO采取的是一種相對折中的態(tài)度,即承認(rèn)普遍性,也強(qiáng)調(diào)特殊性。而且GFO也反對BFO中提出的所謂基于實(shí)證的現(xiàn)實(shí)主義立場,Herre認(rèn)為,Smith的觀點(diǎn)中存在著一個(gè)理論盲點(diǎn),即關(guān)于觀點(diǎn)“所謂好的本體是現(xiàn)實(shí)的表示,所以它必須是建立在共相的基礎(chǔ)上,而不是概念”的表述是有缺陷的,因?yàn)樗鼪]有一個(gè)關(guān)于現(xiàn)實(shí)表達(dá)(reality representation)的現(xiàn)成定義可用。這個(gè)缺陷如果不通過對概念的使用就無法彌補(bǔ),即沒有概念就沒有對現(xiàn)實(shí)的表達(dá)。
4.3 概念模型
GFO提出了自己獨(dú)特的時(shí)空觀模型和過程模型,即通過建立時(shí)間邊界(time boundary)和時(shí)間區(qū)間(time interval?;蚍Q時(shí)間體chronoid)這樣的概念模式。假設(shè)兩個(gè)時(shí)點(diǎn)相遇但不重合,timeboundaries coincide兩個(gè)相鄰接的不同過程在維護(hù)自身完整屬性的同時(shí),并不會(huì)相互混淆。類似的,GFO通過精確區(qū)分即時(shí)體(presential)和過程(process),既避免了DOLCE中關(guān)于瞬間的整體endurant和連續(xù)的整體perdurant概念含混的困境,也為認(rèn)識(shí)論上歷來的關(guān)于事物同一性的爭議問題提出了一個(gè)完善的解決方案。
另外,表2基于開放度、結(jié)構(gòu)化程度和可擴(kuò)展性、成熟度、兼容性等評(píng)價(jià)指標(biāo)及其他相關(guān)基本信息,對SUMO、DOCLE、BFO和GFO等4種頂層本體進(jìn)行了比較和評(píng)價(jià)。
5 小結(jié)
本文介紹了頂層本體GFO的基本概念、框架及特點(diǎn);然后從總體架構(gòu)和適用范圍、對客觀世界的理解等方面,與其他主流頂層本體進(jìn)行了比較,并對兼容性、結(jié)構(gòu)化程度和可擴(kuò)展性、成熟度及開放度等方面進(jìn)行評(píng)估。在創(chuàng)建領(lǐng)域本體時(shí),面對頂層本體的選擇有多種選項(xiàng),但是最能滿足實(shí)際需要的才是最適合的。而GFO較好地滿足了作為構(gòu)建中醫(yī)藥領(lǐng)域本體上層框架的基本要求。以后將會(huì)針對中醫(yī)藥頂層本體的研究現(xiàn)狀和難點(diǎn),具體分析GFO在中醫(yī)藥頂層本體構(gòu)建中的獨(dú)特優(yōu)勢,進(jìn)而提出基于GFO構(gòu)建中醫(yī)藥頂層本體的思路和路線圖。