摘 要:基于SUMO(Suggested Upper Merged Ontology)[1],提出一種計算兩概念語義相似度的語義距離方法#65377;根據(jù)該方法實現(xiàn)一個計算平臺,將計算結(jié)果同人類的主觀判斷進行比較,驗證概念語義相似度計算方法的有效性#65377;研究成果擬在正在研發(fā)的語義數(shù)據(jù)庫中本體集成部分得到應用,也可以為本體的其它相關研究提供一定的技術(shù)方法基礎#65377;
關鍵詞:SUMO;語義距離;語義相似度;主觀判斷
中圖分類號:TP391文獻標識碼:A
1 引 言
目前的Web信息是機器所不能理解和自動處理的,這就無法實現(xiàn)語義的互操作#65377;Tim Berners-Lee于2000年12月18日在國際XML2000的會議上提出了語義Web的構(gòu)想[2]#65377;在語義Web中,概念的語義相似度計算對實現(xiàn)本體集成和信息的語義檢索起著重要的作用#65377;語義Web中數(shù)據(jù)的語義是用本體來描述的,因此,基于本體的概念的語義相似程度計算方法對于在語義Web中需要定量處理概念的語義的各種應用就有了實際意義#65377;
對于概念的語義相似度計算,國外許多研究者利用了語義詞典Word Net中的同義詞集組成的樹狀層次體系結(jié)構(gòu)[3, 4],對于上述方法,實驗驗證都得到了與人的直觀判斷比較符合的結(jié)果#65377;但是,我們發(fā)現(xiàn),上述工作只是針對較簡單的術(shù)語的本體,缺乏支持邏輯推理本文基于SUMO樹中節(jié)點的最短路徑距離,通過計算路徑上各條邊的權(quán)值,得到兩概念間的語義距離,最后將其轉(zhuǎn)化為語義相似度的方法來計算概念間的語義相似度,得到了合理的結(jié)果#65377;
2 語義距離與語義相似度
和語義相似度一樣,語義距離也是語言學中經(jīng)常提到的一個概念,它指兩個概念的相近程度#65377;一般說來,兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯(lián),不能作為結(jié)果集返回#65377;對于返回的結(jié)果集,完全是由用戶自己主觀判斷結(jié)果集合中的任一結(jié)果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;
3 語義距離的計算
SUMO層次樹結(jié)構(gòu)決定了利用兩個概念在樹中的最短路徑距離來表示它們的語義距離是一種自然的度量方法#65377;兩對概念的語義距離相等表明它們的語義相似度是一樣的#65377;但是,在SUMO層次樹中,自頂向下,概念的分類是由大到小,大類間的概念相似度一般要小于小類間的#65377;因此,在同等語義距離(按照上文的定義)的情況下,處于層次樹中離根較遠的概念間的相似度要比離根近的概念間相似度大#65377;由此可見,概念在樹中所處的深度是一個需要考慮的因素,即:處于樹中不同深度的邊應該賦予不同的權(quán)值#65377;另外,概念的父節(jié)點分類細致程度也是計算語義距離時應考慮的一個因素,通過對SUMO樹中概念的深度和寬度等一系列因素對概念間語義相似度的影響,本文得到了計算方法#65377;
4 語義相似度的計算
根據(jù)上面對語義距離的定義可知,對于SUMO中任意兩個概念C1和C2,它們之間的語義距離范圍是Dist(C1,C2)∈(0,αα-1),而它們間相似度取值范圍是sim(C1,C2)∈(0,1),再慮及兩者應是減函數(shù)的關系以及概念間的語義相似度具有不對稱性,本文給出如下定義進行語義距離到語義相似度的轉(zhuǎn)換:
Wid(C)為概念C的寬度,即:其孩子節(jié)點的數(shù)目,pɑrent(C)是C的雙親節(jié)點,t和α是可調(diào)節(jié)的參數(shù),α≥2,β=Dep(C2)Dep(C1)+Dep(C2))#65377;
計算技術(shù)與自動化2007年6月第26卷第2期徐德智等:上位本體中語義相似度的計算及其實現(xiàn)5 實驗及結(jié)果
本文以IEEE提供的以SUO-KIF描述的SUMO為資源,開發(fā)了一個計算平臺——語義相似度計算器,它不僅能計算本文的概念間語義相似度,而且,容易被擴展為其它各種算法的語義相似度比較器#65377;本文將各種不同的機器運算結(jié)果與人類的主觀判斷結(jié)果進行了比較,找出能得到最佳結(jié)果(在有限的實驗數(shù)據(jù)范圍內(nèi))的參數(shù)設置,同時驗證了提出的方法的有效性#65377;
評估一種相似度度量標準的好壞一般有三種方法:理論檢驗#65380;人類主觀判斷和特定領域中的應用#65377;本文采取了第二種方法#65377;
本節(jié)實現(xiàn)了語義相似度的計算平臺,該平臺不僅能計算本文相似度算法下的概念間語義相似度,而且,容易被擴展為各種算法的語義相似度比較器#65377;
我們從SUMO中隨機選擇了五十對概念,對于本文提出的相似度計算公式中的參數(shù)和,利用所實現(xiàn)的計算平臺,選擇了多個值進行實驗#65377;本文將其所有計算結(jié)果與人類判斷結(jié)果相比的偏差繪制成了五十對概念在其上的分布圖如圖1所示#65377;
圖1(a)-(d)分別表示對于相似度計算公式的參數(shù)進行調(diào)節(jié)的不同結(jié)果,圖中橫坐標表示相似度計算公式計算結(jié)果同人類判斷結(jié)果相比的偏差,縱坐標表示在某偏差范圍概念對的分布點數(shù)#65377;這樣,分布越散的(偏差范圍越大的)說明越差,分布越集中(偏差范圍越小的)#65380;中間峰越銳利的(偏差為0左右的概念對越多的)說明越好#65377;按照這樣的標準,可以大致看出,圖1(d)的結(jié)果較好#65377;圖1(d)中,在偏差為0的附近分布點數(shù)高達15,雖然其總體偏差分布較散:-0.25~0.2,但我們發(fā)現(xiàn),在-0.15以及0.15附近,分布點已相當?shù)纳伲钥偟膩碚f,其結(jié)果較好#65377;
圖1 偏差點數(shù)分布圖[JZ)]
6 結(jié)束語
本文首先闡述了語義距離與語義相似度的關系,然后基于樹中節(jié)點的最短路徑距離,通過計算路徑上各條邊的權(quán)值,得到兩概念間的語義距離,最后將其轉(zhuǎn)化為語義相似度#65377;同語義相似度一樣,語義距離也是語言學中經(jīng)常提到的一個概念,它指兩個概念的相近程度#65377;兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯(lián),不能作為結(jié)果集返回#65377;對于返回的結(jié)果集,完全是由用戶自己主觀判斷集合中的任一結(jié)果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;通過實驗比較所獲得的不同結(jié)果,得到了最優(yōu)參數(shù)設置,此時,算法運算的結(jié)果同人類判斷的結(jié)果較為吻合,證明了本文提出的算法是有效的#65377;
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。