亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)的本體概念語(yǔ)義相似度計(jì)算方法

        2014-04-16 01:29:46吳星同陳中育
        電腦與電信 2014年12期
        關(guān)鍵詞:計(jì)算方法相似性本體

        吳星同 翁 燕 朱 婷 陳中育

        (浙江師范大學(xué)數(shù)理與信息工程學(xué)院,浙江 金華 321004)

        1. 引言

        目前,語(yǔ)義相似度的計(jì)算被廣泛的應(yīng)用于信息檢索、語(yǔ)義Web、自然語(yǔ)言處理等領(lǐng)域。本體在語(yǔ)義相似度的計(jì)算中發(fā)揮著非常重要的作用。傳統(tǒng)的基于本體的概念相似度的計(jì)算方法有3種[1-3]:一種是基于語(yǔ)義距離的方法,該方法的基本思想是利用本體結(jié)構(gòu)層次的特點(diǎn),通過(guò)概念之間的距離來(lái)量化,這種相似度計(jì)算方法比較簡(jiǎn)單、直觀(guān),但是它十分依賴(lài)本體的層次結(jié)構(gòu),本體層次結(jié)構(gòu)構(gòu)建的好壞直接影響到概念相似度的準(zhǔn)確性[4];另外一種是基于信息論的方法,該方法是利用兩個(gè)概念間最近的共同概念祖先的信息量來(lái)衡量語(yǔ)義相似度,在理論上更具有說(shuō)服力一些,但是這個(gè)方法只能粗略地量化概念之間的語(yǔ)義相似度,不能更加細(xì)致地區(qū)分各個(gè)概念語(yǔ)義相似度值[5];最后一種方法是基于屬性的方法,該方法就是通過(guò)判斷兩個(gè)概念之間的屬性集來(lái)計(jì)算概念相似度的,并且要求對(duì)每個(gè)概念的屬性進(jìn)行詳細(xì)而全面的描述,但是這樣做的難度相當(dāng)大。本文綜合考慮了上述三種方法的優(yōu)缺點(diǎn),并且結(jié)合了本體所具有的特質(zhì),提出了一種改進(jìn)的本體概念相似度計(jì)算方法,該計(jì)算方法在本體層次樹(shù)結(jié)構(gòu)的基礎(chǔ)上,不僅考慮了語(yǔ)義距離、節(jié)點(diǎn)深度和節(jié)點(diǎn)密度,而且還把概念的有向邊類(lèi)型權(quán)重因素考慮進(jìn)去,使得本體概念之間的語(yǔ)義相似度更加全面,計(jì)算結(jié)果也更加精確。

        2. 本體概述

        本體(Ontology)最先是在描述事物的本質(zhì)的時(shí)候出現(xiàn)的,但是隨著計(jì)算機(jī)在人工智能領(lǐng)域的不斷發(fā)展,就被賦予了一個(gè)新的意義。在1998年Studer對(duì)本體的定義反映了本體的本質(zhì),并且得到了廣泛的認(rèn)可:共享概念模型的明確的形式化規(guī)范說(shuō)明[6]。

        一個(gè)簡(jiǎn)單的本體可以使用層次結(jié)構(gòu)表示如圖1:

        圖1 一個(gè)簡(jiǎn)單的本體圖

        圖1中的每個(gè)小圓圈代表的就是一個(gè)節(jié)點(diǎn)概念,每?jī)蓚€(gè)小圓圈節(jié)點(diǎn)之間的連線(xiàn)就代表著語(yǔ)義關(guān)系。自頂向下,概念的劃分從大到小,每一層都是對(duì)上一層詳細(xì)的劃分,越往下,節(jié)點(diǎn)之間的相似度越大。

        3. 概念相似度的描述

        概念相似度一般來(lái)說(shuō)有著兩層意思,一種意思是代表概念之間的相關(guān)性,另外一種意思是代表了概念之間具有相似的性質(zhì)。例如,概念“人工智能”與概念“機(jī)器人”的相似性非常高,但是“計(jì)算機(jī)軟件”和“編程語(yǔ)言”,它們雖然沒(méi)有很高的相似度,相關(guān)性卻很高。概念相似性反映了概念之間的聚合的特點(diǎn),而概念相關(guān)性反映了概念之間的組合特點(diǎn)[7]。在1998年,lin在信息學(xué)的基礎(chǔ)上,詳細(xì)地闡述了廣泛意義上的概念相似性的定義,提出了四個(gè)相似性直覺(jué),具體描述為:第一,兩個(gè)概念之間的相似性與他們的共同點(diǎn)有關(guān),如果它們具有較多的共同點(diǎn),它們就具有較大的相似度;第二,如果兩個(gè)概念之間顯示出很大的差異性的話(huà),那么就表明它們之間具有較小的相似性;第三,如果兩個(gè)概念不存在差異點(diǎn),換句話(huà)說(shuō)就是如果兩個(gè)概念相同的話(huà),則具有最大的相似性;最后,兩個(gè)概念之間也有可能只存在差異點(diǎn),而不存在共同點(diǎn),這樣就表示兩個(gè)概念屬于互斥的概念,它們之間的相似性也比較小。

        3.1 語(yǔ)義相似度的定義

        當(dāng)兩個(gè)概念元素具有某些共同特征時(shí),則定義它們是相似的,用sim(x,y)表示概念x,y之間的相似度,在形式上,相似度計(jì)算滿(mǎn)足[8]:

        (1)相似度的值為[0,1]區(qū)間中的一個(gè)實(shí)數(shù),即sim(x,y)∈[0,1].

        (2)如果兩個(gè)對(duì)象是完全相似的,則相似度為1,即sim(x,y)=1當(dāng)且僅當(dāng)x=y.

        (3)如果兩個(gè)對(duì)象沒(méi)有任何共同特征,那么相似度為0,即sim(x,y)=0.

        (4)相似關(guān)系是對(duì)稱(chēng)的,即sim(x,y)=sim(y,x).

        3.2 概念相似度計(jì)算模型

        本體結(jié)構(gòu)可以用層次樹(shù)來(lái)表示,本文從語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)的密度和有向邊的類(lèi)型這四個(gè)方面來(lái)全面具體地對(duì)概念相似度進(jìn)行計(jì)算。

        3.2.1 語(yǔ)義距離

        設(shè)A和B是本體層次樹(shù)中的兩個(gè)概念,則這兩個(gè)概念節(jié)點(diǎn)之間的最短距離定義為語(yǔ)義距離,記做:

        其中,weighti表示連接概念節(jié)點(diǎn)A和B的最短路徑上的第i條邊的權(quán)值。在語(yǔ)言學(xué)研究的領(lǐng)域認(rèn)為,兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越大,它們之間的相似度就越??;相反,兩個(gè)概念節(jié)點(diǎn)的語(yǔ)義距離越小,其相似度越大。考慮到語(yǔ)義距離對(duì)語(yǔ)義相似度的影響,以概念A(yù)和B為例,在得到語(yǔ)義距離以后,將語(yǔ)義距離轉(zhuǎn)化為概念語(yǔ)義相似度:

        3.2.2 節(jié)點(diǎn)深度

        節(jié)點(diǎn)深度指的是概念節(jié)點(diǎn)與樹(shù)根的最短路徑所包括的邊數(shù),在本體的樹(shù)狀層次中,每一層都是對(duì)上層概念的細(xì)化,越到下層,概念的含義越具體。由此可見(jiàn),在語(yǔ)義距離一樣的情況下,兩個(gè)節(jié)點(diǎn)的深度和越大,概念之間的相似度越大,反之亦然。概念節(jié)點(diǎn)深度對(duì)語(yǔ)義相似度的影響因子為:

        其中,depth(a)和depth(b)分別為概念a和b的節(jié)點(diǎn)深度。

        3.2.3 節(jié)點(diǎn)的密度

        在本體的層次結(jié)構(gòu)中,概念的分類(lèi)一般是從粗到細(xì),從大到小的過(guò)程,越往下層本體樹(shù)中的概念分類(lèi)則越來(lái)越細(xì)。節(jié)點(diǎn)密度指的是兩個(gè)概念公共節(jié)點(diǎn)的所有子節(jié)點(diǎn)的個(gè)數(shù)(包括孩子節(jié)點(diǎn)和孫子節(jié)點(diǎn)),一般來(lái)說(shuō),某個(gè)節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)目越多,密度就越大,表明了概念被細(xì)化得越具體,其相似度越大,反之亦然。概念的節(jié)點(diǎn)密度對(duì)語(yǔ)義相似度的影響為:

        其中,degree(Aanc)為2個(gè)概念節(jié)點(diǎn)最近祖先節(jié)點(diǎn)的度,即最近祖先節(jié)點(diǎn)的直接子節(jié)點(diǎn)的數(shù)量;degree(O)為本體樹(shù)O的度,即本體樹(shù)O中各節(jié)點(diǎn)度的最大值。

        3.2.4 有向邊的關(guān)系類(lèi)型

        在本體中,概念之間不是只有一種類(lèi)型的關(guān)系,關(guān)系具有多樣性,而在本文中我們只考慮繼承關(guān)系、實(shí)例關(guān)系和同義關(guān)系著三種最主要的關(guān)系。而且不同類(lèi)型之間的關(guān)系就決定了它們之間的概念相似度具有差異性。同義關(guān)系有向邊兩端的概念表示意思相同,即可以理解為兩個(gè)概念是相同的,繼承關(guān)系有向邊的兩端的概念是一個(gè)對(duì)另一個(gè)的細(xì)化,子概念雖包含了父概念的所有信息,但是子概念擁有自己不一樣的信息,與父概念是不一樣的。從以上分析來(lái)看,我們不能簡(jiǎn)單地將本體內(nèi)的概念間有向關(guān)系邊視為一樣,同義關(guān)系的有向邊應(yīng)該比繼承關(guān)系的邊權(quán)重更大。關(guān)于有向邊類(lèi)型和權(quán)重的關(guān)系,可以表示如下:

        其中Value(c,p)表示由子節(jié)點(diǎn)c和它的父節(jié)點(diǎn)p所構(gòu)成的有向邊的權(quán)重,該計(jì)算公式將不同的邊類(lèi)型轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值。

        如果在樹(shù)狀結(jié)構(gòu)中兩個(gè)概念的節(jié)點(diǎn)通過(guò)n條邊連接,根據(jù)上述公式轉(zhuǎn)化為對(duì)應(yīng)數(shù)值后為v1,v2,…,vn,則連接這兩個(gè)概

        4. 改進(jìn)后的概念相似度的計(jì)算公式

        在傳統(tǒng)的基于距離、基于信息內(nèi)容和基于屬性的基礎(chǔ)上增加了節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊類(lèi)型等對(duì)概念相似度影響結(jié)果的因素,使得計(jì)算結(jié)果更加準(zhǔn)確,從而得出改進(jìn)后的概念相似度計(jì)算方法:念節(jié)點(diǎn)之間的邊的邊類(lèi)型對(duì)其相似度的貢獻(xiàn)為

        其中,α、β、γ、μ分別表示語(yǔ)義距離、節(jié)點(diǎn)深度、節(jié)點(diǎn)密度和有向邊的關(guān)系類(lèi)型對(duì)概念語(yǔ)義相似度影響的權(quán)重,且α+β+γ+μ=1。其中語(yǔ)義距離對(duì)概念語(yǔ)義相似度的計(jì)算結(jié)果影響比較大,所以α賦值要大一些,節(jié)點(diǎn)深度、密度和有向邊類(lèi)型的影響相對(duì)于語(yǔ)義距離要小一些,所以β、γ和μ的賦值比較小。

        5. 實(shí)驗(yàn)

        本文構(gòu)造了一個(gè)“計(jì)算機(jī)科學(xué)本體”來(lái)進(jìn)行實(shí)驗(yàn),結(jié)合上述介紹的相似度的計(jì)算方法,最后通過(guò)java編程來(lái)實(shí)現(xiàn)概念相似度的計(jì)算。因?yàn)楦拍钕嗨贫鹊挠?jì)算和其它的計(jì)算有所不同,所以現(xiàn)在還沒(méi)有一個(gè)規(guī)范的專(zhuān)家系統(tǒng)級(jí)平臺(tái)和規(guī)范的評(píng)估工具。評(píng)判一個(gè)相似度計(jì)算方法的有效性是通過(guò)觀(guān)察實(shí)驗(yàn)所得出的概念相似度計(jì)算結(jié)果和人類(lèi)的主觀(guān)判斷的吻合程度來(lái)實(shí)現(xiàn)的。如果吻合程度越高的話(huà),就表明這種計(jì)算方法的效率就越高?!坝?jì)算機(jī)科學(xué)”的部分領(lǐng)域本體圖如圖2所示:

        圖2 “計(jì)算機(jī)科學(xué)本體”領(lǐng)域的部分本體圖

        本文采集了30個(gè)(相關(guān)領(lǐng)域的學(xué)者和研究生)關(guān)于這些概念相似度的主觀(guān)判斷的數(shù)據(jù),通過(guò)求這30個(gè)數(shù)據(jù)的平均值,表1中顯示的是計(jì)算所得出的結(jié)果和人們主觀(guān)判斷的結(jié)果比較的表格(表1):

        表1 實(shí)驗(yàn)結(jié)果表(部分)

        基于上述表格得出的結(jié)論,我們可以通過(guò)引入兼容度(compact)這個(gè)概念,把計(jì)算結(jié)果和專(zhuān)家的主觀(guān)判斷對(duì)比,從而得出兼容度的值。如果計(jì)算結(jié)果所得的compact比較大(接近1,0<compact<1),表明和專(zhuān)家判斷所得出的吻合度比較高,反之亦然。最后得出二者的兼容度為86.6%,由此可以看出本文計(jì)算所得出的兩個(gè)概念的相似度和人類(lèi)主觀(guān)判斷的吻合度較高,該方法是行之有效的。

        6. 結(jié)束語(yǔ)

        本文在傳統(tǒng)的基于本體的概念語(yǔ)義相似度算法的基礎(chǔ)上,把傳統(tǒng)的基于信息論算法和基于語(yǔ)義距離的算法的優(yōu)點(diǎn)進(jìn)行了集成,這樣的好處是既解決了信息論方法語(yǔ)義不確定性的問(wèn)題,又使得基于語(yǔ)義距離的計(jì)算結(jié)果更加精確。同時(shí)把節(jié)點(diǎn)密度、節(jié)點(diǎn)深度和有向邊的類(lèi)型這幾個(gè)影響因素考慮進(jìn)去,進(jìn)一步改善了概念相似度算法。從上述的實(shí)驗(yàn)結(jié)果可以看出,本文的算法和專(zhuān)家主觀(guān)的經(jīng)驗(yàn)判斷吻合度比較高,使得搜索引擎的查全率和準(zhǔn)確度有了一定的提升。

        [1]Olivier Steichen,Christel Daniel-Le Bozec.Computation of SemanticSimilarity Within an Ontology of Breast Pathology to Assist Inter- observerConsensus[J].Computers in Biology and Medicine,2005(4):1-21.

        [2]Gan K W,Wong P W.Annotation Information Structures in ChineseTexts Using How Net[C]//Second Chinese Language Processing Workshop.Hong Kong: [s.n.], 2000:85-92.

        [3]Budan Itsky A,Hirst G.Evaluating Word Net- based Measures ofLexical Semantic Relatedness[J].Computational Linguistics,2004(1):1-49.

        [4]Cross V.Fuzzy Semantic Distance Measures Between Onto LogicalConcepts[C]//Processing NAFIPS'04: IEEE Annual Meeting of the FuzzyInformation. Washington DC: IEEE Press, 2004:635-640.

        [5]Dela Escalera A, Moreno L E,Sal Ichsm A. Road Traffic Sign Detectionand Classification[J].IEEE Transactions on Indus-trial Electronics,1997,44(6):848-859.

        [6]Grnber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition: 1993, 5(2):199-220.

        [7]李鵬,陶蘭,王弼佐.一種改進(jìn)的本體語(yǔ)義相似度計(jì)算及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28,(01):227-229.

        [8]李玲.面向流程診斷的企業(yè)知識(shí)相似度匹配工具研究與開(kāi)發(fā)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

        [9]楊立,左春,王裕國(guó).基于語(yǔ)義距離的K-最近鄰分類(lèi)方法[J].軟件學(xué)報(bào),2005,16,(12):2054-2062.

        猜你喜歡
        計(jì)算方法相似性本體
        Abstracts and Key Words
        一類(lèi)上三角算子矩陣的相似性與酉相似性
        浮力計(jì)算方法匯集
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        淺析當(dāng)代中西方繪畫(huà)的相似性
        低滲透黏土中氯離子彌散作用離心模擬相似性
        隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
        一種伺服機(jī)構(gòu)剛度計(jì)算方法
        亚洲欧美日韩专区一| 久久久久成人精品免费播放动漫| 国产精品欧美久久久久久日本一道| 亚洲一区精品无码色成人| 国产精品综合久久久久久久免费| 日日麻批视频免费播放器| 黑人老外3p爽粗大免费看视频| 亚洲色婷婷一区二区三区| 久久成年片色大黄全免费网站| 亚洲福利av一区二区| 精品国产三级a在线观看不卡| 国产福利精品一区二区| 99久久久久国产| 亚洲天堂色婷婷一区二区| 丰满少妇按摩被扣逼高潮| 久久www色情成人免费观看| 国产白丝网站精品污在线入口| 日韩av中文字幕少妇精品| 嫩草伊人久久精品少妇av| 欧美亚洲日本国产综合在线| 亚洲欧洲日韩另类自拍| 国产高清女主播在线观看| 国内精品久久久久伊人av| 精品一品国产午夜福利视频| 夫妻一起自拍内射小视频| 国产精品久久久在线看| 中文字幕+乱码+中文字幕一区| 久草午夜视频| 日韩精品一区二区在线视| 无码无套少妇毛多18p| 久久欧美与黑人双交男男| 日韩av在线不卡一区二区三区 | 欧美多人片高潮野外做片黑人| 中文乱码人妻系列一区二区| 国产三级在线观看性色av| 亚洲色图在线免费观看视频| 特级做a爰片毛片免费看108| 欧美日韩a级a| 国产白色视频在线观看| 欧美日韩精品一区二区三区高清视频| 亚洲伊人久久成人综合网|