李慧琳,劉 寧,李冠宇
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026)
本體是共享概念模型的明確的形式化規(guī)范說(shuō)明,表示的是精確性概念及其之間的確定性關(guān)系[1]。模糊本體(Fuzzy Ontology)是對(duì)通常意義本體的擴(kuò)展,表示的是模糊概念及其之間的模糊關(guān)系[2]。針對(duì)現(xiàn)實(shí)世界中的不確定性,模糊本體是有效處理和表示不確定信息和知識(shí)的基礎(chǔ)性工具。因此,如何構(gòu)建模糊本體成為亟待解決的問(wèn)題。
關(guān)于模糊本體的構(gòu)建,目前在國(guó)內(nèi)外已有一些方法。模糊本體是模糊集理論 (L.A.Zadeh,1965)[3]和本體理論(T.Gruber,1993)[4]相結(jié)合的產(chǎn)物。除了最基本的手工構(gòu)造模糊本體的方法外,其構(gòu)建思路可總結(jié)為以下兩種[2]:基于模糊集理論和基于現(xiàn)有本體的構(gòu)建方法。本文在現(xiàn)有本體構(gòu)建方法的基礎(chǔ)上,結(jié)合模糊集理論,提出模糊本體構(gòu)建的概念距離聚類(lèi)生成方法,其中心思想是:首先應(yīng)用模糊集理論從實(shí)際領(lǐng)域的信息源中抽取模糊概念及模糊關(guān)系以構(gòu)建出一個(gè)模糊概念格,然后在其上應(yīng)用概念距離聚類(lèi)方法得到模糊概念層次,最終將模糊概念層次映射得到模糊本體。通過(guò)具體的構(gòu)建實(shí)例,驗(yàn)證了該構(gòu)建方法的可用性和有效性。
本體是共享概念模型的明確的形式化說(shuō)明。本體可用三元組O= (C,P,R)表示之。其中,C為概念集,P為屬性集,R為概念之間的關(guān)系[5]。
模糊本體是用于描述和表示不確定信息的一類(lèi)本體,由模糊概念和模糊關(guān)系組成。模糊本體也可用三元組表示O= (Cf,P,Rf)表示,其中Cf為模糊概念集,P為屬性集,Rf為模糊概念集與屬性集之間的笛卡爾積[6]。
模糊概念[7]可表示為Cf= (o1d1,o2d2,…,ondn),其中oi是對(duì)象,di是oi隸屬于Cf的隸屬度。那么,對(duì)象oi屬于概念Cf的隸屬度為di。
模糊關(guān)系R是模糊元組的有窮集合,它是集合叉集P(A1)×P(A2)×…×P(Am)的一個(gè)子集。其中,Ai是屬性域,P(Ai)表示Ai-的冪集。
目前對(duì)模糊本體的構(gòu)建方法研究雖多但均不成熟,其構(gòu)建方法可以歸結(jié)為兩大類(lèi):基于模糊集理論和基于現(xiàn)有的本體構(gòu)建方法。前者主要有基于模糊概念模型、基于語(yǔ)言變量、基于屬性隸屬度和基于MDA的構(gòu)建方法等;而后者主要有5種類(lèi)型:Uschold和King方法;Gruninger和Fox方法;Berneras方法;METHONTOLOGY方法;基于SENSUS方法[8]。
模糊本體的構(gòu)建是以不精確信息為數(shù)據(jù)源且需要在領(lǐng)域?qū)<业膮⑴c下進(jìn)行的,構(gòu)建得到的模糊本體往往呈現(xiàn)多樣性。而由模糊概念和模糊關(guān)系構(gòu)成的模糊概念格具有結(jié)構(gòu)惟一性的特點(diǎn)[9],因此,本文以模糊概念格為基礎(chǔ)構(gòu)建模糊本體,又由于模糊概念外延的模糊性,導(dǎo)致模糊概念格中生成了大量的模糊概念節(jié)點(diǎn),因此需對(duì)模糊概念格進(jìn)行約簡(jiǎn)處理,考慮概念格的構(gòu)成特點(diǎn),對(duì)其運(yùn)用概念距離聚類(lèi)方法進(jìn)行約簡(jiǎn)較為方便和直接,且減少了生成的模糊本體的多樣性。
綜上,本文在模糊概念格的基礎(chǔ)上,運(yùn)用概念距離聚類(lèi)方法對(duì)其進(jìn)行處理,進(jìn)而生成模糊本體。
概念聚類(lèi)是基于模型的聚類(lèi),能夠?qū)ι傻木垲?lèi)確定其屬性特征,且對(duì)新生成的聚類(lèi)給予一定的概念解釋?zhuān)?0]。
概念距離聚類(lèi)方法是一種基于帶有模糊參數(shù)的模糊概念格的概念聚類(lèi)。該聚類(lèi)方法不僅能夠產(chǎn)生樹(shù)狀結(jié)構(gòu)的聚類(lèi)層次,還可以對(duì)概念間有多重繼承關(guān)系的模糊概念格上的模糊概念進(jìn)行聚類(lèi)[11]。
定義1(模糊參數(shù)E) 對(duì)于對(duì)象集合O,屬性集合D=f(O),d∈D,參數(shù)E定義如下
式中:|O|——集合O的元素個(gè)數(shù);
式中:|D|——集合D的元素個(gè)數(shù)。
定義2(模糊參數(shù)δ) 對(duì)于對(duì)象集合O和屬性集合D=f(O),d∈D,參數(shù)δ定義如下
式中:|O|——集合O的元素個(gè)數(shù);|D|——集合D的元素個(gè)數(shù)。
參數(shù)E描述的是對(duì)象的平均隸屬度,參數(shù)δ描述的是對(duì)象隸屬度相對(duì)于參數(shù)E的偏離程度[6]。
定義3(概念距離) 模糊概念 (O1,D1)和其子概念 (O2,D2)的距離定義如下
式中:——概念C1= (O1,D1)的參數(shù);——概念C2= (O2,D2)的參數(shù)。
概念距離聚類(lèi)方法的步驟是:計(jì)算出模糊概念格的模糊參數(shù)E和δ;根據(jù)概念距離公式計(jì)算出有效概念間的距離DS;根據(jù)實(shí)驗(yàn),選取合適的概念距離閾值,合并概念節(jié)點(diǎn),生成模糊概念聚類(lèi)。圖1為概念距離聚類(lèi)的示例。
圖1 概念距離聚類(lèi)示例
模糊本體構(gòu)建的概念距離聚類(lèi)方法的核心思想是:從現(xiàn)實(shí)世界的不確定信息中抽取出模糊形式背景,構(gòu)建模糊概念格,利用聚類(lèi)技術(shù)將模糊概念格轉(zhuǎn)化生成模糊概念層次,最后映射得到模糊本體。
模糊概念格是描述概念的內(nèi)涵 (intension)與外延(extension)具有模糊關(guān)系的不精確性概念的一種方法[12]。
定義4(模糊概念格) 若二元組C= (O’,D’)滿(mǎn)足O’=g(D’)且D’=f(O’),則稱(chēng)C為一個(gè)模糊形式概念。K= (O,D,I)為一個(gè)形式背景,通過(guò)偏序關(guān)系將K中的所有模糊形式概念建立起來(lái)的完全格,叫做K所對(duì)應(yīng)的模糊概念格[13]。
概念格的漸進(jìn)式構(gòu)建算法可以將概念節(jié)點(diǎn)和節(jié)點(diǎn)間的連接關(guān)系同時(shí)產(chǎn)生,因此它非常適合于處理動(dòng)態(tài)數(shù)據(jù)庫(kù)。所以可把這種方法應(yīng)用到模糊概念格的構(gòu)建中。
構(gòu)建模糊概念格的過(guò)程,實(shí)際上是尋找新節(jié)點(diǎn)的直接前驅(qū)和直接后繼的過(guò)程。模糊概念格的漸進(jìn)式構(gòu)建算法分為6個(gè)步驟:
(1)初始化模糊概念格L。從形式背景中生成初始的模糊概念格節(jié)點(diǎn)集,設(shè)每個(gè)節(jié)點(diǎn)為一個(gè)模糊形式概念C(o,f(o)),并初始化為空。
(2)生成新概念節(jié)點(diǎn)。從形式背景中取出一個(gè)對(duì)象x,形成節(jié)點(diǎn)X(x,f(x)),若格L中任意節(jié)點(diǎn)C(extension(C),intension (C)),使得f(x)intension (C),則將節(jié)點(diǎn)X(x,f(x))作為新節(jié)點(diǎn)加入L中。
(3)更新L中的概念節(jié)點(diǎn)。掃描L中所有節(jié)點(diǎn),看是否存在節(jié)點(diǎn)C(extension(C),intension(C))的內(nèi)涵小于等于新生成節(jié)點(diǎn)X(x,f(x))的內(nèi)涵,若存在,則節(jié)點(diǎn)C為更新節(jié)點(diǎn)。將每個(gè)更新節(jié)點(diǎn)更新為 (extension(C)∪x,intension(C)),邊不更新。轉(zhuǎn) (5)
(4)產(chǎn)生子概念節(jié)點(diǎn)。掃描模糊概念格L,將節(jié)點(diǎn)C與新生成節(jié)點(diǎn)X進(jìn)行交運(yùn)算,若內(nèi)涵交集不等于L中任意節(jié)點(diǎn)的內(nèi)涵,則產(chǎn)生子概念節(jié)點(diǎn)C’(extension(C)∪x,intension(C)∩f(x))。查找L中是否存在節(jié)點(diǎn)C’的更新節(jié)點(diǎn),若存在,則更新新生成節(jié)點(diǎn)C’;否則,節(jié)點(diǎn)C’加入到L中,并連接新生成節(jié)點(diǎn)相應(yīng)的邊。
(5)直到形式背景中的所有對(duì)象加入到L中。轉(zhuǎn) (2)
(6)構(gòu)建根節(jié)點(diǎn)和末梢節(jié)點(diǎn)。搜索L中所有沒(méi)有子節(jié)點(diǎn)的節(jié)點(diǎn),如果這樣的節(jié)點(diǎn)多于一個(gè),則生成末梢節(jié)點(diǎn),并增加末梢節(jié)點(diǎn)到這些節(jié)點(diǎn)的邊。同理,生成根節(jié)點(diǎn)。
從模糊概念格到模糊概念層次的過(guò)程,實(shí)際上是用具體地聚類(lèi)算法在格上進(jìn)行概念聚類(lèi)的過(guò)程,由此得到的模糊概念的層次結(jié)構(gòu),可以對(duì)其運(yùn)用映射規(guī)則得到相應(yīng)的模糊本體的概念框架。
結(jié)合上述模糊概念格的生成過(guò)程,在模糊概念格上進(jìn)行概念聚類(lèi),本文采用基于距離的概念聚類(lèi)方法。把概念間概念距離小于距離閾值的概念聚為一類(lèi),基于此法可以得到模糊概念層次。具體操作如下:
(1)計(jì)算模糊參數(shù)E和δ的值。根據(jù)初始形式背景,計(jì)算出模糊概念格中有效節(jié)點(diǎn)的參數(shù)值。(2)計(jì)算有效概念間的距離DS。(3)模糊概念聚類(lèi)。
1)將格中模糊概念的節(jié)點(diǎn)集C、邊集C1C2、概念間的距離DS,作為一個(gè)集合U= {C,C1C2,DS};
2)選取距離閾值T;
3)查找U中符合條件DS<T的邊CaCb,并聚類(lèi)Ca、Cb;
4)子節(jié)點(diǎn)吸收父節(jié)點(diǎn)的內(nèi)涵,并更新子節(jié)點(diǎn)為新節(jié)點(diǎn)C’(extension (Cb),intension (Ca)∪intension (Cb));
5)遞歸3)、4)步驟,直到集合U中不存在DS<T的邊;
(4)生成模糊概念層次。刪除底節(jié)點(diǎn),循環(huán)查找聚類(lèi)后的概念格中的概念節(jié)點(diǎn),若聚類(lèi)生成新節(jié)點(diǎn)C’,則原來(lái)連接到父節(jié)點(diǎn)Ca和子節(jié)點(diǎn)Cb的邊更新為連接到新節(jié)點(diǎn)C’,其余邊不變。
基于上述方法導(dǎo)出的模糊概念層次,可以用來(lái)構(gòu)造模糊本體。根據(jù)模糊概念層次和模糊本體中元素的對(duì)應(yīng)關(guān)系,在模糊概念層次上運(yùn)用特定的映射規(guī)則,映射得到模糊本體原型。兩者的映射規(guī)則如圖2所示。
圖2 模糊概念層次與模糊本體的映射規(guī)則
根據(jù)上述映射規(guī)則得到模糊本體原型,再為其添加屬性、公理、實(shí)例等來(lái)擴(kuò)充和完善模糊本體,通過(guò)該方法生成的模糊本體具有一致性,因而不再需要進(jìn)行一致性檢查。模糊本體是基于有模糊性的不確定信息構(gòu)建生成的,用模糊值表示屬性值的模糊本體體現(xiàn)了現(xiàn)實(shí)性。對(duì)現(xiàn)實(shí)世界中存在的大量非分類(lèi)的不確定信息的描述[14],就需專(zhuān)家參與,才可得到比較完整的模糊本體。
以生活中常見(jiàn)的天氣問(wèn)題為例,表1中以連續(xù)5天的天氣為對(duì)象,氣溫高低、紫外線(xiàn)強(qiáng)弱,風(fēng)級(jí)大小,有無(wú)雨為屬性,抽取得到標(biāo)準(zhǔn)模糊形式背景。設(shè)定閾值為0.5,對(duì)標(biāo)準(zhǔn)模糊形式背景進(jìn)行處理,得到模糊化后的形式背景,如表1所示。
表1 模糊形式背景
根據(jù)模糊形式背景表1,用漸進(jìn)式算法進(jìn)一步構(gòu)造模糊概念格,如圖3所示。
圖3 模糊概念格
模糊概念格中共有7個(gè)模糊形式概念,各有效模糊形式概念的模糊參數(shù)值及構(gòu)成如表2所示。
表2 模糊形式概念構(gòu)成及參數(shù)值
利用3.2節(jié)的概念距離聚類(lèi)方法,對(duì)上述已構(gòu)造出的模糊概念格進(jìn)行聚類(lèi)。首先計(jì)算出概念間的距離,如下:
為本實(shí)例設(shè)定距離閾值為0.5,則運(yùn)用概念距離聚類(lèi)方法得到的模糊概念層次,如圖4所示。
圖4 模糊概念層次
以圖4舉例說(shuō)明模糊本體的生成。依據(jù)3.3節(jié)的規(guī)則來(lái)映射本體,1號(hào)根節(jié)點(diǎn)映射得到無(wú)效的模糊概念,因此,可得到3個(gè)類(lèi)分別用A、B、C表示,以及類(lèi)間的關(guān)系。
表3 模糊本體類(lèi)間關(guān)系
根據(jù)表3中的3個(gè)類(lèi)及其所含模糊概念之間的關(guān)系,就構(gòu)成了一個(gè)模糊本體,如圖5所示。
以類(lèi)A為例,屬性為氣溫高 (0.6)、紫外線(xiàn)強(qiáng) (0.6)和風(fēng)力大于5級(jí) (0.7);實(shí)例為1,2,3,預(yù)測(cè)出未來(lái)連續(xù)3天的天氣情況。模糊本體的這種構(gòu)建方法簡(jiǎn)單易行,根據(jù)特定領(lǐng)域的不確定信息構(gòu)建出的模糊本體,可以直觀的反映現(xiàn)實(shí)世界。
圖5 模糊概念體示例
本文研究了模糊本體構(gòu)建的概念距離聚類(lèi)方法,與手工構(gòu)建模糊本體相比,該方法提高了模糊本體構(gòu)建的效率;與其他構(gòu)建方法相比,該方法構(gòu)建出的模糊本體具有更好的一致性和靈活性。首先利用漸進(jìn)式算法構(gòu)建模糊概念格,結(jié)合模糊集理論和概念距離聚類(lèi)方法,再聚類(lèi)生成模糊概念層次,最后映射得到模糊本體,并以實(shí)際問(wèn)題為例驗(yàn)證了該構(gòu)建方法的有效性。然而目前的研究尚存在著不足,例如沒(méi)有對(duì)聚類(lèi)結(jié)果進(jìn)行有效性評(píng)價(jià)等。下一步將與模糊本體的其他生成算法做對(duì)比研究。
[1]ZHANG Nannan.Research on the method of semi-automatic domain ontology building for the semantic web [D].Dalian:Dalian Maritime University,2008 (in Chinese). [張囡囡.面向語(yǔ)義網(wǎng)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的研究 [D].大連:大連海事大學(xué),2008.]
[2]CAI Yi,LEUNG Hofung.A formal model of fuzzy ontology with property hierarchy and object membership [G].LNCS 5231:Conceptual Modeling.Berlin Heidelberg:Springer-Verlag,2008:69-82.
[3]WANG Biao,DUAN Chanlun,WU Hao,et al.The research and application of rough sets and fuzzy sets [M].Beijing:Electronic Industrial University Press,2008 (in Chinese).[王彪,段禪倫,吳昊,等.粗糙集與模糊集的研究及應(yīng)用 [M].北京:電子工業(yè)出版社,2008.]
[4]XU Hongsheng.Building、merging and presenting of ontology based on formal concept analysis. [D]Kaifeng:Henan University,2007(in Chinese).[徐紅升.基于形式概念分析的本體構(gòu)建、合并與展現(xiàn) [D].開(kāi)封:河南大學(xué),2007.]
[5]WU Zhengchao.Research of domain ontology automatic construction method based on relational database [D].Dalian:Dalian university of Technology,2007 (in Chinese).[吳正超.基于關(guān)系數(shù)據(jù)庫(kù)的領(lǐng)域本體自動(dòng)構(gòu)建方法研究 [D].大連:大連理工大學(xué),2007.]
[6]Giuseppe Fenza,Vincenzo Loia,Sabrina Senatore.Concept mining of semantic web services by means of extended fuzzy formal concept analysis(FFCA) [C].IEEE International Conference on Systems Man and Cybernetics,2008:240-245.
[7]Quan Thanh Tho,Siu Cheung Hui.Automatic fuzzy ontology generation for semantic web [J].IEEE Transactions Knowledge and Data Engineering,2006,6 (18):842-856.
[8]WANG Xiaoying,WANG Xiaoxuan,LIU Peng.Research on Chinese ontology construction and visualization [J].Computer Technology and Development,2010,20 (2):121-124 (in Chinese).[王曉盈,王曉璇,劉鵬.中文本體構(gòu)建及可視化研究 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20 (2):121-124.]
[9]QIANG Yu.Research on fuzzy concept lattice model and its application [D].Shanghai:Shanghai University,2005 (in Chinese).[強(qiáng)宇.模糊概念格模型及其應(yīng)用研究 [D].上海:上海大學(xué),2005.]
[10]HUANG Jianbin,JI Hongbing.A web search results clustering algorithm based on fuzzy concept lattices [J].Xi’an University of Electronic Science and Technology Journal(Natural Science Edition),2005,32 (6):856-860 (in Chinese).[黃健斌,姬紅兵.基于模糊概念格的Web搜索結(jié)果聚類(lèi)算法[J].西安電子科技大學(xué)學(xué)報(bào) (自然科學(xué)版),2005,32 (6):856-860.]
[11]XU Jiaqing.The process cluster and evolution analysis based on the fuzzy formal concept analysis [D].Shanghai:Fudan University,2009(in Chinese). [許佳卿.基于模糊形式概念分析的程序聚類(lèi)及演化分析 [D].上海:復(fù)旦大學(xué),2009.]
[12]LIU Ruixin,SUN Shibao,QIN Keyun.Research on implementation algorithm of fuzzy concept lattices based on different implication operator [J].Computer Engineering and Applications,2007,43 (17):179-181(in Chinese). [劉瑞新,孫士保,秦克云.基于不同蘊(yùn)涵算子的模糊概念格建格算法研究 [J].計(jì)算機(jī)工程與應(yīng)用,2007,43 (17):179-181.]
[13]WU Hongyi.Method and system of constructing fuzzy concept lattice [D].Dalian:Dalian Maritime University Maritime University,2010 (in Chinese).[烏弘毅.模糊概念格的構(gòu)建方法與構(gòu)建系統(tǒng) [D].大連:大連海事大學(xué),2010.]
[14]WANG Suihua,ZHAO Ailing,MA Weiwei.Approach to extracting on-taxonomic relationships for Chinese ontology from web [J].Computer Engineering and Design,2010,31 (2):451-454(in Chinese). [王歲花,趙愛(ài)玲,馬巍巍.從 Web中提取中文本體非分類(lèi)關(guān)系的方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (2):451-454.]