亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

本體相似度計算方法研究

2012-08-06 12:52:10張路

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2012年12期

張路

長江大學(xué)工程技術(shù)學(xué)院湖北 434020

0 引言

本體映射算法以兩個本體作為輸入，然后為這兩個本體的各個元素(概念、屬性或者關(guān)系) 建立相應(yīng)的語義關(guān)系。相似性提取是本體映射的一個重要步驟，它主要是進行概念相似度的計算，提高語義相似度計算精度成為提高語義信息檢索質(zhì)量的關(guān)鍵之一。語義相似度一般是指計算本體概念間的相似度，多數(shù)方法所考慮的概念是基于一個本體的，跨本體概念間的方法比較少。MD3模型是一種典型的計算跨本體概念間相似度的方法。

1 MD3模型

Triple Matching-Distance Model(MD3)模型是一種跨本體概念間相似度計算框架。計算實體類a和b之間的相似度通過計算同義詞集、特征屬性和語義鄰居之間的加權(quán)和，公式如下：

其中w, u, v表示了各組成部分的重要性。特征屬性細化為組成部分、功能以及其他屬性。概念a和b的語義鄰居及其特征屬性(即概念的部分、功能及其他屬性)也通過同義詞集合描述，每一個相似度的計算都通過Tversky公式：

其中A, B分別表示概念a和b的描述集合，A-B表示屬于A但不屬于B的術(shù)語集(B-A相反)。參數(shù)(,)abα由概念a和b和在各自層次結(jié)構(gòu)中的深度確定。

2 EMD3模型

MD3模型的不足在于沒有考慮對象實例對概念的影響，同時其語義鄰居只考慮語義關(guān)系中層次之間的相似度，沒有考慮非層次之間的相似度。本文在MD3模型的基礎(chǔ)上，參考了其概念名稱相似度、特征屬性，對本體的結(jié)構(gòu)以及概念描述兩方面做了擴充，重點討論了跨本體概念間非層次關(guān)系的相似度的比較和實例對概念相似度的影響，把MD3模型擴展到Extension of Triple Mapping Distance model (EMD3)模型。

2.1 概念屬性的相似度

屬性有屬性名稱、屬性數(shù)據(jù)類型、屬性實例數(shù)據(jù)等要素，因此判斷兩個屬性是否相似主要從這三個要素來考慮。屬性名稱、屬性類型本身是文本類型，是字符串，因此可以采用字符串相似度計算方法進行判定。例如用Humming distance來比較兩字符串。設(shè)兩字符串s和t，則它們之間的相似度可由下式給出：

其中：若s[i]=t[i],則f(i)=0;否則f(i)=1。由于每個概念的實例對該概念的每個屬性都分配了一個相應(yīng)的值，對于其他類型的數(shù)據(jù)，可以采用下面介紹的方法進行計算。

設(shè)概念A(yù)的屬性為ai，概念B的屬性為bj，兩個屬性之間的相似度的計算公式為：

其中wi是權(quán)重，代表屬性名稱、數(shù)據(jù)類型、屬性實例數(shù)據(jù)對屬性相似度計算的重要程度，且和為1。設(shè)概念A(yù),B之間總共計算出m個sim(ai，bj)，并設(shè)置相應(yīng)的權(quán)值kl，則概念之間基于屬性的相似度為：

2.2 概念名稱相似度

知網(wǎng)中概念的語義用義原來描述，義原是描述概念語義的最小單位，一共有1500多個義原。由于所有義原根據(jù)上下位關(guān)系構(gòu)成了一個樹狀的層次體系，所有可以用語義距離計算相似度。假設(shè)兩個義原在該層次體系中的路徑為d，可以得到兩個義原之間的語義相似度如下：Sim(p1,p2)=α/(d+α)，式中α是一個可以調(diào)節(jié)大小的因子。在知網(wǎng)中一個概念由多個義原描述，所以我們只要計算每個義原的相似度來考慮其重要性，就可以得到概念之間的名稱相似度。計算方法如下：其中m, n為概念c1, c2的義原數(shù)，wi為第i個義原所占的權(quán)重。

2.3 語義關(guān)系的相似度

語義關(guān)系包括層次語義關(guān)系和非層次語義關(guān)系，層次語義關(guān)系具有有向傳遞性，非層次關(guān)系不具有傳遞性(如關(guān)聯(lián)關(guān)系)。

(1) 層次語義關(guān)系的計算

本文借鑒參考文獻[1]中的方法來計算層次語義關(guān)系，利用語義鄰居的概念，以實體為中心向周圍輻射，設(shè)定一個語義半徑，半徑取值的大小反映與實體之間的親疏關(guān)系。劃定語義鄰居的范圍集合進行匹配，取集合中的最大值作為語義鄰居之間的相似度。語義鄰居計算公式如下：

(2) 非層次語義關(guān)系的計算

上位詞：定義概念的上位詞為概念所有父類的集合，公式如下：UC(Ci, H)={Cj∈C|H(Ci, Cj)}

基于概念上位詞的定義，定義概念的匹配公式：

與概念相關(guān)的非層次關(guān)系：如果關(guān)系的定義域或值域是概念c，則稱這些關(guān)系為與概念c相關(guān)的非層次關(guān)系，公式如下：

還可以進一步把非層次關(guān)系細化為概念的In關(guān)系和Out關(guān)系(可以認為非層次關(guān)系的方向是從定義域到值域，憑此來定義In和Out的關(guān)系)，In關(guān)系指概念c是非層次關(guān)系的值域，公式如下：而Out關(guān)系指的是概念c是非層次關(guān)系的定義域，公式如下：

比較概念的非層次關(guān)系，首先應(yīng)該找出兩個本體中與這兩個概念相關(guān)的同類非層次關(guān)系(無需考慮不同類的非層次關(guān)系)，進而比較這些同類非層次關(guān)系的另外一項之間的相似度(如果要比較的概念是非層次關(guān)系的定義域，分別找出這個關(guān)系的值域，通過概念匹配公式對其進行比較，反之亦然)。

其中i，o為權(quán)值，反映的是非層次關(guān)系的值域與定義域?qū)Ω拍钕嗨贫鹊挠绊懗潭?。對層次關(guān)系和非層次關(guān)系計算結(jié)果進行綜合，得到概念語義環(huán)境的相似度計算公式如下：

其中t，u分別是層次關(guān)系和非層次關(guān)系的權(quán)重，因為在本體中層次關(guān)系要比非層次關(guān)系的重要性高，所以在計算中應(yīng)該賦以較大的值，即t＞0.5＞u，且t+u=1。

2.4 概念實例特征的相似度

基于實例特征計算相似度的理論依據(jù)是，如果概念所具有的實例全部都相同，那么這兩個概念是相同的；如果兩個概念具有相同實例的比重是相同的，那么這兩個概念是相似的。對于概念A(yù),B的具體實例，可以用Jaccard系數(shù)來計算相似度：

其中P(A,B)表示一個實例既屬于概念A(yù)又屬于概念B的概率,表示一個實例屬于概念A(yù)但不屬于B的概率。

2.5 結(jié)論

由上面的分析，綜合了各個部分相似度的值，得到跨本體概念間相似度的綜合公式如下：

其中m, n, r, t為各個部分所占的權(quán)重，根據(jù)各個部分重要性的不同m, n, r, t分別被賦以不同的值，并且m+n+r+t=1。

3 結(jié)語

本文擴展的模型充分繼承了MD3模型的優(yōu)點，并對MD3模型進行了優(yōu)化。在選擇了適當(dāng)權(quán)重的前提下，EMD3模型能夠確保語義相似度的計算更準(zhǔn)確，更全面。但是在語義相似度計算過程中存在著大量權(quán)重的設(shè)定問題，對模型的性能有一定的影響。如何準(zhǔn)確高效地設(shè)定權(quán)重是未來值得深入研究的問題。

[1] Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.

[2] 徐德智,肖文芳,王懷民.本體映射過程中的概念相似度計算[J].計算機工程與應(yīng)用.2007.

[3] 陳杰,蔣祖華. 領(lǐng)域本體的概念相似度計算[J].計算機工程與應(yīng)用.2006.

[4] 李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應(yīng)用[J].計算機工程與設(shè)計.2007.

[5] Alexander Budanitsky,Graeme Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.

[6] Tversky A.Features of similarity.Psychological Review.1977.