吳星同 翁 燕 朱 婷 陳中育
(浙江師范大學(xué)數(shù)理與信息工程學(xué)院,浙江 金華 321004)
目前,語(yǔ)義相似度的計(jì)算被廣泛的應(yīng)用于信息檢索、語(yǔ)義Web、自然語(yǔ)言處理等領(lǐng)域。本體在語(yǔ)義相似度的計(jì)算中發(fā)揮著非常重要的作用。傳統(tǒng)的基于本體的概念相似度的計(jì)算方法有3種[1-3]:一種是基于語(yǔ)義距離的方法,該方法的基本思想是利用本體結(jié)構(gòu)層次的特點(diǎn),通過(guò)概念之間的距離來(lái)量化,這種相似度計(jì)算方法比較簡(jiǎn)單、直觀(guān),但是它十分依賴(lài)本體的層次結(jié)構(gòu),本體層次結(jié)構(gòu)構(gòu)建的好壞直接影響到概念相似度的準(zhǔn)確性[4];另外一種是基于信息論的方法,該方法是利用兩個(gè)概念間最近的共同概念祖先的信息量來(lái)衡量語(yǔ)義相似度,在理論上更具有說(shuō)服力一些,但是這個(gè)方法只能粗略地量化概念之間的語(yǔ)義相似度,不能更加細(xì)致地區(qū)分各個(gè)概念語(yǔ)義相似度值[5];最后一種方法是基于屬性的方法,該方法就是通過(guò)判斷兩個(gè)概念之間的屬性集來(lái)計(jì)算概念相似度的,并且要求對(duì)每個(gè)概念的屬性進(jìn)行詳細(xì)而全面的描述,但是這樣做的難度相當(dāng)大。本文綜合考慮了上述三種方法的優(yōu)缺點(diǎn),并且結(jié)合了本體所具有的特質(zhì),提出了一種改進(jìn)的本體概念相似度計(jì)算方法,該計(jì)算方法在本體層次樹(shù)結(jié)構(gòu)的基礎(chǔ)上,不僅考慮了語(yǔ)義距離、節(jié)點(diǎn)深度和節(jié)點(diǎn)密度,而且還把概念的有向邊類(lèi)型權(quán)重因素考慮進(jìn)去,使得本體概念之間的語(yǔ)義相似度更加全面,計(jì)算結(jié)果也更加精確。
本體(Ontology)最先是在描述事物的本質(zhì)的時(shí)候出現(xiàn)的,但是隨著計(jì)算機(jī)在人工智能領(lǐng)域的不斷發(fā)展,就被賦予了一個(gè)新的意義。在1998年Studer對(duì)本體的定義反映了本體的本質(zhì),并且得到了廣泛的認(rèn)可:共享概念模型的明確的形式化規(guī)范說(shuō)明[6]。
一個(gè)簡(jiǎn)單的本體可以使用層次結(jié)構(gòu)表示如圖1:
圖1 一個(gè)簡(jiǎn)單的本體圖
圖1中的每個(gè)小圓圈代表的就是一個(gè)節(jié)點(diǎn)概念,每?jī)蓚€(gè)小圓圈節(jié)點(diǎn)之間的連線(xiàn)就代表著語(yǔ)義關(guān)系。自頂向下,概念的劃分從大到小,每一層都是對(duì)上一層詳細(xì)的劃分,越往下,節(jié)點(diǎn)之間的相似度越大。
概念相似度一般來(lái)說(shuō)有著兩層意思,一種意思是代表概念之間的相關(guān)性,另外一種意思是代表了概念之間具有相似的性質(zhì)。例如,概念“人工智能”與概念“機(jī)器人”的相似性非常高,但是“計(jì)算機(jī)軟件”和“編程語(yǔ)言”,它們雖然沒(méi)有很高的相似度,相關(guān)性卻很高。概念相似性反映了概念之間的聚合的特點(diǎn),而概念相關(guān)性反映了概念之間的組合特點(diǎn)[7]。在1998年,lin在信息學(xué)的基礎(chǔ)上,詳細(xì)地闡述了廣泛意義上的概念相似性的定義,提出了四個(gè)相似性直覺(jué),具體描述為:第一,兩個(gè)概念之間的相似性與他們的共同點(diǎn)有關(guān),如果它們具有較多的共同點(diǎn),它們就具有較大的相似度;第二,如果兩個(gè)概念之間顯示出很大的差異性的話(huà),那么就表明它們之間具有較小的相似性;第三,如果兩個(gè)概念不存在差異點(diǎn),換句話(huà)說(shuō)就是如果兩個(gè)概念相同的話(huà),則具有最大的相似性;最后,兩個(gè)概念之間也有可能只存在差異點(diǎn),而不存在共同點(diǎn),這樣就表示兩個(gè)概念屬于互斥的概念,它們之間的相似性也比較小。
當(dāng)兩個(gè)概念元素具有某些共同特征時(shí),則定義它們是相似的,用sim(x,y)表示概念x,y之間的相似度,在形式上,相似度計(jì)算滿(mǎn)足[8]:
(1)相似度的值為[0,1]區(qū)間中的一個(gè)實(shí)數(shù),即sim(x,y)∈[0,1].
(2)如果兩個(gè)對(duì)象是完全相似的,則相似度為1,即sim(x,y)=1當(dāng)且僅當(dāng)x=y.
(3)如果兩個(gè)對(duì)象沒(méi)有任何共同特征,那么相似度為0,即sim(x,y)=0.
(4)相似關(guān)系是對(duì)稱(chēng)的,即sim(x,y)=sim(y,x).
本體結(jié)構(gòu)可以用層次樹(shù)來(lái)表示,本文從語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)的密度和有向邊的類(lèi)型這四個(gè)方面來(lái)全面具體地對(duì)概念相似度進(jìn)行計(jì)算。
3.2.1 語(yǔ)義距離
設(shè)A和B是本體層次樹(shù)中的兩個(gè)概念,則這兩個(gè)概念節(jié)點(diǎn)之間的最短距離定義為語(yǔ)義距離,記做:
其中,weighti表示連接概念節(jié)點(diǎn)A和B的最短路徑上的第i條邊的權(quán)值。在語(yǔ)言學(xué)研究的領(lǐng)域認(rèn)為,兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越大,它們之間的相似度就越??;相反,兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越小,其相似度越大。考慮到語(yǔ)義距離對(duì)語(yǔ)義相似度的影響,以概念A(yù)和B為例,在得到語(yǔ)義距離以后,將語(yǔ)義距離轉(zhuǎn)化為概念語(yǔ)義相似度:
3.2.2 節(jié)點(diǎn)深度
節(jié)點(diǎn)深度指的是概念節(jié)點(diǎn)與樹(shù)根的最短路徑所包括的邊數(shù),在本體的樹(shù)狀層次中,每一層都是對(duì)上層概念的細(xì)化,越到下層,概念的含義越具體。由此可見(jiàn),在語(yǔ)義距離一樣的情況下,兩個(gè)節(jié)點(diǎn)的深度和越大,概念之間的相似度越大,反之亦然。概念節(jié)點(diǎn)深度對(duì)語(yǔ)義相似度的影響因子為:
其中,depth(a)和depth(b)分別為概念a和b的節(jié)點(diǎn)深度。
3.2.3 節(jié)點(diǎn)的密度
在本體的層次結(jié)構(gòu)中,概念的分類(lèi)一般是從粗到細(xì),從大到小的過(guò)程,越往下層本體樹(shù)中的概念分類(lèi)則越來(lái)越細(xì)。節(jié)點(diǎn)密度指的是兩個(gè)概念公共節(jié)點(diǎn)的所有子節(jié)點(diǎn)的個(gè)數(shù)(包括孩子節(jié)點(diǎn)和孫子節(jié)點(diǎn)),一般來(lái)說(shuō),某個(gè)節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)目越多,密度就越大,表明了概念被細(xì)化得越具體,其相似度越大,反之亦然。概念的節(jié)點(diǎn)密度對(duì)語(yǔ)義相似度的影響為:
其中,degree(Aanc)為2個(gè)概念節(jié)點(diǎn)最近祖先節(jié)點(diǎn)的度,即最近祖先節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)量;degree(O)為本體樹(shù)O的度,即本體樹(shù)O中各節(jié)點(diǎn)度的最大值。
3.2.4 有向邊的關(guān)系類(lèi)型
在本體中,概念之間不是只有一種類(lèi)型的關(guān)系,關(guān)系具有多樣性,而在本文中我們只考慮繼承關(guān)系、實(shí)例關(guān)系和同義關(guān)系著三種最主要的關(guān)系。而且不同類(lèi)型之間的關(guān)系就決定了它們之間的概念相似度具有差異性。同義關(guān)系有向邊兩端的概念表示意思相同,即可以理解為兩個(gè)概念是相同的,繼承關(guān)系有向邊的兩端的概念是一個(gè)對(duì)另一個(gè)的細(xì)化,子概念雖包含了父概念的所有信息,但是子概念擁有自己不一樣的信息,與父概念是不一樣的。從以上分析來(lái)看,我們不能簡(jiǎn)單地將本體內(nèi)的概念間有向關(guān)系邊視為一樣,同義關(guān)系的有向邊應(yīng)該比繼承關(guān)系的邊權(quán)重更大。關(guān)于有向邊類(lèi)型和權(quán)重的關(guān)系,可以表示如下:
其中Value(c,p)表示由子節(jié)點(diǎn)c和它的父節(jié)點(diǎn)p所構(gòu)成的有向邊的權(quán)重,該計(jì)算公式將不同的邊類(lèi)型轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值。
如果在樹(shù)狀結(jié)構(gòu)中兩個(gè)概念的節(jié)點(diǎn)通過(guò)n條邊連接,根據(jù)上述公式轉(zhuǎn)化為對(duì)應(yīng)數(shù)值后為v1,v2,…,vn,則連接這兩個(gè)概
在傳統(tǒng)的基于距離、基于信息內(nèi)容和基于屬性的基礎(chǔ)上增加了節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊類(lèi)型等對(duì)概念相似度影響結(jié)果的因素,使得計(jì)算結(jié)果更加準(zhǔn)確,從而得出改進(jìn)后的概念相似度計(jì)算方法:念節(jié)點(diǎn)之間的邊的邊類(lèi)型對(duì)其相似度的貢獻(xiàn)為
其中,α、β、γ、μ分別表示語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊的關(guān)系類(lèi)型對(duì)概念語(yǔ)義相似度影響的權(quán)重,且α+β+γ+μ=1。其中語(yǔ)義距離對(duì)概念語(yǔ)義相似度的計(jì)算結(jié)果影響比較大,所以α賦值要大一些,節(jié)點(diǎn)深度、密度和有向邊類(lèi)型的影響相對(duì)于語(yǔ)義距離要小一些,所以β、γ和μ的賦值比較小。
本文構(gòu)造了一個(gè)“計(jì)算機(jī)科學(xué)本體”來(lái)進(jìn)行實(shí)驗(yàn),結(jié)合上述介紹的相似度的計(jì)算方法,最后通過(guò)java編程來(lái)實(shí)現(xiàn)概念相似度的計(jì)算。因?yàn)楦拍钕嗨贫鹊挠?jì)算和其它的計(jì)算有所不同,所以現(xiàn)在還沒(méi)有一個(gè)規(guī)范的專(zhuān)家系統(tǒng)級(jí)平臺(tái)和規(guī)范的評(píng)估工具。評(píng)判一個(gè)相似度計(jì)算方法的有效性是通過(guò)觀(guān)察實(shí)驗(yàn)所得出的概念相似度計(jì)算結(jié)果和人類(lèi)的主觀(guān)判斷的吻合程度來(lái)實(shí)現(xiàn)的。如果吻合程度越高的話(huà),就表明這種計(jì)算方法的效率就越高?!坝?jì)算機(jī)科學(xué)”的部分領(lǐng)域本體圖如圖2所示:
圖2 “計(jì)算機(jī)科學(xué)本體”領(lǐng)域的部分本體圖
本文采集了30個(gè)(相關(guān)領(lǐng)域的學(xué)者和研究生)關(guān)于這些概念相似度的主觀(guān)判斷的數(shù)據(jù),通過(guò)求這30個(gè)數(shù)據(jù)的平均值,表1中顯示的是計(jì)算所得出的結(jié)果和人們主觀(guān)判斷的結(jié)果比較的表格(表1):
表1 實(shí)驗(yàn)結(jié)果表(部分)
基于上述表格得出的結(jié)論,我們可以通過(guò)引入兼容度(compact)這個(gè)概念,把計(jì)算結(jié)果和專(zhuān)家的主觀(guān)判斷對(duì)比,從而得出兼容度的值。如果計(jì)算結(jié)果所得的compact比較大(接近1,0<compact<1),表明和專(zhuān)家判斷所得出的吻合度比較高,反之亦然。最后得出二者的兼容度為86.6%,由此可以看出本文計(jì)算所得出的兩個(gè)概念的相似度和人類(lèi)主觀(guān)判斷的吻合度較高,該方法是行之有效的。
本文在傳統(tǒng)的基于本體的概念語(yǔ)義相似度算法的基礎(chǔ)上,把傳統(tǒng)的基于信息論算法和基于語(yǔ)義距離的算法的優(yōu)點(diǎn)進(jìn)行了集成,這樣的好處是既解決了信息論方法語(yǔ)義不確定性的問(wèn)題,又使得基于語(yǔ)義距離的計(jì)算結(jié)果更加精確。同時(shí)把節(jié)點(diǎn)密度、節(jié)點(diǎn)深度和有向邊的類(lèi)型這幾個(gè)影響因素考慮進(jìn)去,進(jìn)一步改善了概念相似度算法。從上述的實(shí)驗(yàn)結(jié)果可以看出,本文的算法和專(zhuān)家主觀(guān)的經(jīng)驗(yàn)判斷吻合度比較高,使得搜索引擎的查全率和準(zhǔn)確度有了一定的提升。
[1]Olivier Steichen,Christel Daniel-Le Bozec.Computation of SemanticSimilarity Within an Ontology of Breast Pathology to Assist Inter- observerConsensus[J].Computers in Biology and Medicine,2005(4):1-21.
[2]Gan K W,Wong P W.Annotation Information Structures in ChineseTexts Using How Net[C]//Second Chinese Language Processing Workshop.Hong Kong: [s.n.], 2000:85-92.
[3]Budan Itsky A,Hirst G.Evaluating Word Net- based Measures ofLexical Semantic Relatedness[J].Computational Linguistics,2004(1):1-49.
[4]Cross V.Fuzzy Semantic Distance Measures Between Onto LogicalConcepts[C]//Processing NAFIPS'04: IEEE Annual Meeting of the FuzzyInformation. Washington DC: IEEE Press, 2004:635-640.
[5]Dela Escalera A, Moreno L E,Sal Ichsm A. Road Traffic Sign Detectionand Classification[J].IEEE Transactions on Indus-trial Electronics,1997,44(6):848-859.
[6]Grnber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition: 1993, 5(2):199-220.
[7]李鵬,陶蘭,王弼佐.一種改進(jìn)的本體語(yǔ)義相似度計(jì)算及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28,(01):227-229.
[8]李玲.面向流程診斷的企業(yè)知識(shí)相似度匹配工具研究與開(kāi)發(fā)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.
[9]楊立,左春,王裕國(guó).基于語(yǔ)義距離的K-最近鄰分類(lèi)方法[J].軟件學(xué)報(bào),2005,16,(12):2054-2062.