張路
長江大學(xué)工程技術(shù)學(xué)院 湖北 434020
本體映射算法以兩個本體作為輸入,然后為這兩個本體的各個元素(概念、屬性或者關(guān)系) 建立相應(yīng)的語義關(guān)系。相似性提取是本體映射的一個重要步驟,它主要是進行概念相似度的計算,提高語義相似度計算精度成為提高語義信息檢索質(zhì)量的關(guān)鍵之一。語義相似度一般是指計算本體概念間的相似度,多數(shù)方法所考慮的概念是基于一個本體的,跨本體概念間的方法比較少。MD3模型是一種典型的計算跨本體概念間相似度的方法。
Triple Matching-Distance Model(MD3)模型是一種跨本體概念間相似度計算框架。計算實體類a和b之間的相似度通過計算同義詞集、特征屬性和語義鄰居之間的加權(quán)和,公式如下:
其中w, u, v表示了各組成部分的重要性。特征屬性細化為組成部分、功能以及其他屬性。概念a和b的語義鄰居及其特征屬性(即概念的部分、功能及其他屬性)也通過同義詞集合描述,每一個相似度的計算都通過Tversky公式:
其中A, B分別表示概念a和b的描述集合,A-B表示屬于A但不屬于B的術(shù)語集(B-A相反)。參數(shù)(,)abα由概念a和b和在各自層次結(jié)構(gòu)中的深度確定。
MD3模型的不足在于沒有考慮對象實例對概念的影響,同時其語義鄰居只考慮語義關(guān)系中層次之間的相似度,沒有考慮非層次之間的相似度。本文在MD3模型的基礎(chǔ)上,參考了其概念名稱相似度、特征屬性,對本體的結(jié)構(gòu)以及概念描述兩方面做了擴充,重點討論了跨本體概念間非層次關(guān)系的相似度的比較和實例對概念相似度的影響,把MD3模型擴展到Extension of Triple Mapping Distance model (EMD3)模型。
屬性有屬性名稱、屬性數(shù)據(jù)類型、屬性實例數(shù)據(jù)等要素,因此判斷兩個屬性是否相似主要從這三個要素來考慮。屬性名稱、屬性類型本身是文本類型,是字符串,因此可以采用字符串相似度計算方法進行判定。例如用Humming distance來比較兩字符串。設(shè)兩字符串s和t,則它們之間的相似度可由下式給出:
其中:若s[i]=t[i],則f(i)=0;否則f(i)=1。由于每個概念的實例對該概念的每個屬性都分配了一個相應(yīng)的值,對于其他類型的數(shù)據(jù),可以采用下面介紹的方法進行計算。
設(shè)概念A(yù)的屬性為ai,概念B的屬性為bj,兩個屬性之間的相似度的計算公式為:
其中wi是權(quán)重,代表屬性名稱、數(shù)據(jù)類型、屬性實例數(shù)據(jù)對屬性相似度計算的重要程度,且和為1。設(shè)概念A(yù),B之間總共計算出m個sim(ai,bj),并設(shè)置相應(yīng)的權(quán)值kl,則概念之間基于屬性的相似度為:
知網(wǎng)中概念的語義用義原來描述,義原是描述概念語義的最小單位,一共有1500多個義原。由于所有義原根據(jù)上下位關(guān)系構(gòu)成了一個樹狀的層次體系,所有可以用語義距離計算相似度。假設(shè)兩個義原在該層次體系中的路徑為d,可以得到兩個義原之間的語義相似度如下:Sim(p1,p2)=α/(d+α),式中α是一個可以調(diào)節(jié)大小的因子。在知網(wǎng)中一個概念由多個義原描述,所以我們只要計算每個義原的相似度來考慮其重要性,就可以得到概念之間的名稱相似度。計算方法如下:其中m, n為概念c1, c2的義原數(shù),wi為第i個義原所占的權(quán)重。
語義關(guān)系包括層次語義關(guān)系和非層次語義關(guān)系,層次語義關(guān)系具有有向傳遞性,非層次關(guān)系不具有傳遞性(如關(guān)聯(lián)關(guān)系)。
(1) 層次語義關(guān)系的計算
本文借鑒參考文獻[1]中的方法來計算層次語義關(guān)系,利用語義鄰居的概念,以實體為中心向周圍輻射,設(shè)定一個語義半徑,半徑取值的大小反映與實體之間的親疏關(guān)系。劃定語義鄰居的范圍集合進行匹配,取集合中的最大值作為語義鄰居之間的相似度。語義鄰居計算公式如下:
(2) 非層次語義關(guān)系的計算
上位詞:定義概念的上位詞為概念所有父類的集合,公式如下:UC(Ci, H)={Cj∈C|H(Ci, Cj)}
基于概念上位詞的定義,定義概念的匹配公式:
與概念相關(guān)的非層次關(guān)系:如果關(guān)系的定義域或值域是概念c,則稱這些關(guān)系為與概念c相關(guān)的非層次關(guān)系,公式如下:
還可以進一步把非層次關(guān)系細化為概念的In關(guān)系和Out關(guān)系(可以認為非層次關(guān)系的方向是從定義域到值域,憑此來定義In和Out的關(guān)系),In關(guān)系指概念c是非層次關(guān)系的值域,公式如下:而Out關(guān)系指的是概念c是非層次關(guān)系的定義域,公式如下:
比較概念的非層次關(guān)系,首先應(yīng)該找出兩個本體中與這兩個概念相關(guān)的同類非層次關(guān)系(無需考慮不同類的非層次關(guān)系),進而比較這些同類非層次關(guān)系的另外一項之間的相似度(如果要比較的概念是非層次關(guān)系的定義域,分別找出這個關(guān)系的值域,通過概念匹配公式對其進行比較,反之亦然)。
其中i,o為權(quán)值,反映的是非層次關(guān)系的值域與定義域?qū)Ω拍钕嗨贫鹊挠绊懗潭?。對層次關(guān)系和非層次關(guān)系計算結(jié)果進行綜合,得到概念語義環(huán)境的相似度計算公式如下:
其中t,u分別是層次關(guān)系和非層次關(guān)系的權(quán)重,因為在本體中層次關(guān)系要比非層次關(guān)系的重要性高,所以在計算中應(yīng)該賦以較大的值,即t>0.5>u,且t+u=1。
基于實例特征計算相似度的理論依據(jù)是,如果概念所具有的實例全部都相同,那么這兩個概念是相同的;如果兩個概念具有相同實例的比重是相同的,那么這兩個概念是相似的。對于概念A(yù),B的具體實例,可以用Jaccard系數(shù)來計算相似度:
其中P(A,B)表示一個實例既屬于概念A(yù)又屬于概念B的概率,表示一個實例屬于概念A(yù)但不屬于B的概率。
由上面的分析,綜合了各個部分相似度的值,得到跨本體概念間相似度的綜合公式如下:
其中m, n, r, t為各個部分所占的權(quán)重,根據(jù)各個部分重要性的不同m, n, r, t分別被賦以不同的值,并且m+n+r+t=1。
本文擴展的模型充分繼承了MD3模型的優(yōu)點,并對MD3模型進行了優(yōu)化。在選擇了適當(dāng)權(quán)重的前提下,EMD3模型能夠確保語義相似度的計算更準(zhǔn)確,更全面。但是在語義相似度計算過程中存在著大量權(quán)重的設(shè)定問題,對模型的性能有一定的影響。如何準(zhǔn)確高效地設(shè)定權(quán)重是未來值得深入研究的問題。
[1] Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.
[2] 徐德智,肖文芳,王懷民.本體映射過程中的概念相似度計算[J].計算機工程與應(yīng)用.2007.
[3] 陳杰,蔣祖華. 領(lǐng)域本體的概念相似度計算[J].計算機工程與應(yīng)用.2006.
[4] 李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應(yīng)用[J].計算機工程與設(shè)計.2007.
[5] Alexander Budanitsky,Graeme Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.
[6] Tversky A.Features of similarity.Psychological Review.1977.