亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進(jìn)的本體概念語(yǔ)義相似度計(jì)算方法

2014-04-16 01:29:46吳星同陳中育

電腦與電信 2014年12期

吳星同翁燕朱婷陳中育

（浙江師范大學(xué)數(shù)理與信息工程學(xué)院，浙江金華 321004）

1. 引言

目前，語(yǔ)義相似度的計(jì)算被廣泛的應(yīng)用于信息檢索、語(yǔ)義Web、自然語(yǔ)言處理等領(lǐng)域。本體在語(yǔ)義相似度的計(jì)算中發(fā)揮著非常重要的作用。傳統(tǒng)的基于本體的概念相似度的計(jì)算方法有3種[1-3]：一種是基于語(yǔ)義距離的方法，該方法的基本思想是利用本體結(jié)構(gòu)層次的特點(diǎn)，通過(guò)概念之間的距離來(lái)量化，這種相似度計(jì)算方法比較簡(jiǎn)單、直觀(guān)，但是它十分依賴(lài)本體的層次結(jié)構(gòu)，本體層次結(jié)構(gòu)構(gòu)建的好壞直接影響到概念相似度的準(zhǔn)確性[4]；另外一種是基于信息論的方法，該方法是利用兩個(gè)概念間最近的共同概念祖先的信息量來(lái)衡量語(yǔ)義相似度，在理論上更具有說(shuō)服力一些，但是這個(gè)方法只能粗略地量化概念之間的語(yǔ)義相似度，不能更加細(xì)致地區(qū)分各個(gè)概念語(yǔ)義相似度值[5]；最后一種方法是基于屬性的方法，該方法就是通過(guò)判斷兩個(gè)概念之間的屬性集來(lái)計(jì)算概念相似度的，并且要求對(duì)每個(gè)概念的屬性進(jìn)行詳細(xì)而全面的描述，但是這樣做的難度相當(dāng)大。本文綜合考慮了上述三種方法的優(yōu)缺點(diǎn)，并且結(jié)合了本體所具有的特質(zhì)，提出了一種改進(jìn)的本體概念相似度計(jì)算方法，該計(jì)算方法在本體層次樹(shù)結(jié)構(gòu)的基礎(chǔ)上，不僅考慮了語(yǔ)義距離、節(jié)點(diǎn)深度和節(jié)點(diǎn)密度，而且還把概念的有向邊類(lèi)型權(quán)重因素考慮進(jìn)去，使得本體概念之間的語(yǔ)義相似度更加全面，計(jì)算結(jié)果也更加精確。

2. 本體概述

本體（Ontology）最先是在描述事物的本質(zhì)的時(shí)候出現(xiàn)的，但是隨著計(jì)算機(jī)在人工智能領(lǐng)域的不斷發(fā)展，就被賦予了一個(gè)新的意義。在1998年Studer對(duì)本體的定義反映了本體的本質(zhì)，并且得到了廣泛的認(rèn)可：共享概念模型的明確的形式化規(guī)范說(shuō)明[6]。

一個(gè)簡(jiǎn)單的本體可以使用層次結(jié)構(gòu)表示如圖1：

圖1 一個(gè)簡(jiǎn)單的本體圖

圖1中的每個(gè)小圓圈代表的就是一個(gè)節(jié)點(diǎn)概念，每?jī)蓚€(gè)小圓圈節(jié)點(diǎn)之間的連線(xiàn)就代表著語(yǔ)義關(guān)系。自頂向下，概念的劃分從大到小，每一層都是對(duì)上一層詳細(xì)的劃分，越往下，節(jié)點(diǎn)之間的相似度越大。

3. 概念相似度的描述

概念相似度一般來(lái)說(shuō)有著兩層意思，一種意思是代表概念之間的相關(guān)性，另外一種意思是代表了概念之間具有相似的性質(zhì)。例如，概念“人工智能”與概念“機(jī)器人”的相似性非常高，但是“計(jì)算機(jī)軟件”和“編程語(yǔ)言”，它們雖然沒(méi)有很高的相似度，相關(guān)性卻很高。概念相似性反映了概念之間的聚合的特點(diǎn)，而概念相關(guān)性反映了概念之間的組合特點(diǎn)[7]。在1998年，lin在信息學(xué)的基礎(chǔ)上，詳細(xì)地闡述了廣泛意義上的概念相似性的定義，提出了四個(gè)相似性直覺(jué)，具體描述為：第一，兩個(gè)概念之間的相似性與他們的共同點(diǎn)有關(guān)，如果它們具有較多的共同點(diǎn)，它們就具有較大的相似度；第二，如果兩個(gè)概念之間顯示出很大的差異性的話(huà)，那么就表明它們之間具有較小的相似性；第三，如果兩個(gè)概念不存在差異點(diǎn)，換句話(huà)說(shuō)就是如果兩個(gè)概念相同的話(huà)，則具有最大的相似性；最后，兩個(gè)概念之間也有可能只存在差異點(diǎn)，而不存在共同點(diǎn)，這樣就表示兩個(gè)概念屬于互斥的概念，它們之間的相似性也比較小。

3.1 語(yǔ)義相似度的定義

當(dāng)兩個(gè)概念元素具有某些共同特征時(shí)，則定義它們是相似的，用sim(x,y)表示概念x,y之間的相似度，在形式上，相似度計(jì)算滿(mǎn)足[8]：

(1)相似度的值為[0,1]區(qū)間中的一個(gè)實(shí)數(shù),即sim(x,y)∈[0,1].

(2)如果兩個(gè)對(duì)象是完全相似的,則相似度為1,即sim(x,y)=1當(dāng)且僅當(dāng)x=y.

(3)如果兩個(gè)對(duì)象沒(méi)有任何共同特征,那么相似度為0,即sim(x,y)=0.

(4)相似關(guān)系是對(duì)稱(chēng)的,即sim(x,y)=sim(y,x).

3.2 概念相似度計(jì)算模型

本體結(jié)構(gòu)可以用層次樹(shù)來(lái)表示，本文從語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)的密度和有向邊的類(lèi)型這四個(gè)方面來(lái)全面具體地對(duì)概念相似度進(jìn)行計(jì)算。

3.2.1 語(yǔ)義距離

設(shè)A和B是本體層次樹(shù)中的兩個(gè)概念，則這兩個(gè)概念節(jié)點(diǎn)之間的最短距離定義為語(yǔ)義距離，記做：

其中,weighti表示連接概念節(jié)點(diǎn)A和B的最短路徑上的第i條邊的權(quán)值。在語(yǔ)言學(xué)研究的領(lǐng)域認(rèn)為，兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越大，它們之間的相似度就越??；相反，兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越小，其相似度越大。考慮到語(yǔ)義距離對(duì)語(yǔ)義相似度的影響，以概念A(yù)和B為例，在得到語(yǔ)義距離以后，將語(yǔ)義距離轉(zhuǎn)化為概念語(yǔ)義相似度：

3.2.2 節(jié)點(diǎn)深度

節(jié)點(diǎn)深度指的是概念節(jié)點(diǎn)與樹(shù)根的最短路徑所包括的邊數(shù)，在本體的樹(shù)狀層次中，每一層都是對(duì)上層概念的細(xì)化，越到下層，概念的含義越具體。由此可見(jiàn)，在語(yǔ)義距離一樣的情況下，兩個(gè)節(jié)點(diǎn)的深度和越大，概念之間的相似度越大，反之亦然。概念節(jié)點(diǎn)深度對(duì)語(yǔ)義相似度的影響因子為：

其中,depth(a)和depth(b)分別為概念a和b的節(jié)點(diǎn)深度。

3.2.3 節(jié)點(diǎn)的密度

在本體的層次結(jié)構(gòu)中，概念的分類(lèi)一般是從粗到細(xì)，從大到小的過(guò)程，越往下層本體樹(shù)中的概念分類(lèi)則越來(lái)越細(xì)。節(jié)點(diǎn)密度指的是兩個(gè)概念公共節(jié)點(diǎn)的所有子節(jié)點(diǎn)的個(gè)數(shù)（包括孩子節(jié)點(diǎn)和孫子節(jié)點(diǎn)），一般來(lái)說(shuō)，某個(gè)節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)目越多，密度就越大，表明了概念被細(xì)化得越具體，其相似度越大，反之亦然。概念的節(jié)點(diǎn)密度對(duì)語(yǔ)義相似度的影響為：

其中,degree(Aanc)為2個(gè)概念節(jié)點(diǎn)最近祖先節(jié)點(diǎn)的度，即最近祖先節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)量；degree(O)為本體樹(shù)O的度,即本體樹(shù)O中各節(jié)點(diǎn)度的最大值。

3.2.4 有向邊的關(guān)系類(lèi)型

在本體中，概念之間不是只有一種類(lèi)型的關(guān)系，關(guān)系具有多樣性，而在本文中我們只考慮繼承關(guān)系、實(shí)例關(guān)系和同義關(guān)系著三種最主要的關(guān)系。而且不同類(lèi)型之間的關(guān)系就決定了它們之間的概念相似度具有差異性。同義關(guān)系有向邊兩端的概念表示意思相同，即可以理解為兩個(gè)概念是相同的，繼承關(guān)系有向邊的兩端的概念是一個(gè)對(duì)另一個(gè)的細(xì)化，子概念雖包含了父概念的所有信息，但是子概念擁有自己不一樣的信息，與父概念是不一樣的。從以上分析來(lái)看，我們不能簡(jiǎn)單地將本體內(nèi)的概念間有向關(guān)系邊視為一樣，同義關(guān)系的有向邊應(yīng)該比繼承關(guān)系的邊權(quán)重更大。關(guān)于有向邊類(lèi)型和權(quán)重的關(guān)系，可以表示如下：

其中Value(c,p)表示由子節(jié)點(diǎn)c和它的父節(jié)點(diǎn)p所構(gòu)成的有向邊的權(quán)重,該計(jì)算公式將不同的邊類(lèi)型轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值。

如果在樹(shù)狀結(jié)構(gòu)中兩個(gè)概念的節(jié)點(diǎn)通過(guò)n條邊連接，根據(jù)上述公式轉(zhuǎn)化為對(duì)應(yīng)數(shù)值后為v1,v2,…,vn,則連接這兩個(gè)概

4. 改進(jìn)后的概念相似度的計(jì)算公式

在傳統(tǒng)的基于距離、基于信息內(nèi)容和基于屬性的基礎(chǔ)上增加了節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊類(lèi)型等對(duì)概念相似度影響結(jié)果的因素，使得計(jì)算結(jié)果更加準(zhǔn)確，從而得出改進(jìn)后的概念相似度計(jì)算方法：念節(jié)點(diǎn)之間的邊的邊類(lèi)型對(duì)其相似度的貢獻(xiàn)為

其中,α、β、γ、μ分別表示語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊的關(guān)系類(lèi)型對(duì)概念語(yǔ)義相似度影響的權(quán)重,且α+β+γ+μ=1。其中語(yǔ)義距離對(duì)概念語(yǔ)義相似度的計(jì)算結(jié)果影響比較大，所以α賦值要大一些，節(jié)點(diǎn)深度、密度和有向邊類(lèi)型的影響相對(duì)于語(yǔ)義距離要小一些，所以β、γ和μ的賦值比較小。

5. 實(shí)驗(yàn)

本文構(gòu)造了一個(gè)“計(jì)算機(jī)科學(xué)本體”來(lái)進(jìn)行實(shí)驗(yàn)，結(jié)合上述介紹的相似度的計(jì)算方法，最后通過(guò)java編程來(lái)實(shí)現(xiàn)概念相似度的計(jì)算。因?yàn)楦拍钕嗨贫鹊挠?jì)算和其它的計(jì)算有所不同，所以現(xiàn)在還沒(méi)有一個(gè)規(guī)范的專(zhuān)家系統(tǒng)級(jí)平臺(tái)和規(guī)范的評(píng)估工具。評(píng)判一個(gè)相似度計(jì)算方法的有效性是通過(guò)觀(guān)察實(shí)驗(yàn)所得出的概念相似度計(jì)算結(jié)果和人類(lèi)的主觀(guān)判斷的吻合程度來(lái)實(shí)現(xiàn)的。如果吻合程度越高的話(huà)，就表明這種計(jì)算方法的效率就越高?！坝?jì)算機(jī)科學(xué)”的部分領(lǐng)域本體圖如圖2所示：

圖2 “計(jì)算機(jī)科學(xué)本體”領(lǐng)域的部分本體圖

本文采集了30個(gè)（相關(guān)領(lǐng)域的學(xué)者和研究生）關(guān)于這些概念相似度的主觀(guān)判斷的數(shù)據(jù)，通過(guò)求這30個(gè)數(shù)據(jù)的平均值，表1中顯示的是計(jì)算所得出的結(jié)果和人們主觀(guān)判斷的結(jié)果比較的表格（表1）：

表1 實(shí)驗(yàn)結(jié)果表（部分）

基于上述表格得出的結(jié)論，我們可以通過(guò)引入兼容度（compact）這個(gè)概念，把計(jì)算結(jié)果和專(zhuān)家的主觀(guān)判斷對(duì)比，從而得出兼容度的值。如果計(jì)算結(jié)果所得的compact比較大（接近1,0＜compact＜1）,表明和專(zhuān)家判斷所得出的吻合度比較高，反之亦然。最后得出二者的兼容度為86.6%，由此可以看出本文計(jì)算所得出的兩個(gè)概念的相似度和人類(lèi)主觀(guān)判斷的吻合度較高，該方法是行之有效的。

6. 結(jié)束語(yǔ)

本文在傳統(tǒng)的基于本體的概念語(yǔ)義相似度算法的基礎(chǔ)上，把傳統(tǒng)的基于信息論算法和基于語(yǔ)義距離的算法的優(yōu)點(diǎn)進(jìn)行了集成，這樣的好處是既解決了信息論方法語(yǔ)義不確定性的問(wèn)題，又使得基于語(yǔ)義距離的計(jì)算結(jié)果更加精確。同時(shí)把節(jié)點(diǎn)密度、節(jié)點(diǎn)深度和有向邊的類(lèi)型這幾個(gè)影響因素考慮進(jìn)去，進(jìn)一步改善了概念相似度算法。從上述的實(shí)驗(yàn)結(jié)果可以看出，本文的算法和專(zhuān)家主觀(guān)的經(jīng)驗(yàn)判斷吻合度比較高，使得搜索引擎的查全率和準(zhǔn)確度有了一定的提升。

[1]Olivier Steichen,Christel Daniel-Le Bozec.Computation of SemanticSimilarity Within an Ontology of Breast Pathology to Assist Inter- observerConsensus[J].Computers in Biology and Medicine,2005(4):1-21.

[2]Gan K W,Wong P W.Annotation Information Structures in ChineseTexts Using How Net[C]//Second Chinese Language Processing Workshop.Hong Kong: [s.n.], 2000:85-92.

[3]Budan Itsky A,Hirst G.Evaluating Word Net- based Measures ofLexical Semantic Relatedness[J].Computational Linguistics,2004(1):1-49.

[4]Cross V.Fuzzy Semantic Distance Measures Between Onto LogicalConcepts[C]//Processing NAFIPS'04: IEEE Annual Meeting of the FuzzyInformation. Washington DC: IEEE Press, 2004:635-640.

[5]Dela Escalera A, Moreno L E,Sal Ichsm A. Road Traffic Sign Detectionand Classification[J].IEEE Transactions on Indus-trial Electronics,1997,44(6):848-859.

[6]Grnber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition: 1993, 5(2):199-220.

[7]李鵬,陶蘭,王弼佐.一種改進(jìn)的本體語(yǔ)義相似度計(jì)算及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28,(01):227-229.

[8]李玲.面向流程診斷的企業(yè)知識(shí)相似度匹配工具研究與開(kāi)發(fā)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

[9]楊立,左春,王裕國(guó).基于語(yǔ)義距離的K-最近鄰分類(lèi)方法[J].軟件學(xué)報(bào),2005,16,(12):2054-2062.