亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于路徑與深度的同義詞詞林詞語(yǔ)相似度計(jì)算

        2016-05-04 02:54:34陳宏朝朱新華馬潤(rùn)聰
        中文信息學(xué)報(bào) 2016年5期
        關(guān)鍵詞:語(yǔ)義深度

        陳宏朝,李 飛,朱新華,馬潤(rùn)聰

        (廣西師范大學(xué) 多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

        基于路徑與深度的同義詞詞林詞語(yǔ)相似度計(jì)算

        陳宏朝,李 飛,朱新華,馬潤(rùn)聰

        (廣西師范大學(xué) 多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

        該文提出了一種基于路徑與深度的同義詞詞林詞語(yǔ)語(yǔ)義相似度計(jì)算方法。該方法通過(guò)兩個(gè)詞語(yǔ)義項(xiàng)之間的最短路徑以及它們的最近公共父結(jié)點(diǎn)在層次樹(shù)中的深度計(jì)算出兩個(gè)詞語(yǔ)義項(xiàng)的相似度。在處理兩個(gè)詞語(yǔ)義項(xiàng)的最短路徑與其最近公共父結(jié)點(diǎn)的深度時(shí),為提高路徑與深度計(jì)算的合理性,為分類樹(shù)中不同層之間的邊賦予不同的權(quán)值,同時(shí)通過(guò)兩個(gè)義項(xiàng)在其最近公共父結(jié)點(diǎn)中的分支間距動(dòng)態(tài)調(diào)節(jié)詞語(yǔ)義項(xiàng)間的最短路徑,從而平衡兩個(gè)詞語(yǔ)的相似度。該方法修正了目前相關(guān)算法只能得出幾個(gè)固定的相似度值,所有最近公共父結(jié)點(diǎn)處于同一層次的義項(xiàng)對(duì)之間的相似度都相同的不合理現(xiàn)象,使詞語(yǔ)語(yǔ)義相似度的計(jì)算結(jié)果更為合理。實(shí)驗(yàn)表明,該方法對(duì)MC30詞對(duì)的相似度計(jì)算值與人工判定值相比,取得了0.856的皮爾遜相關(guān)系數(shù),該結(jié)果高于目前大多數(shù)詞語(yǔ)相似度算法與MC30的相關(guān)度。

        同義詞詞林;路徑;深度;分支間距;最近公共父結(jié)點(diǎn)

        1 引言

        詞語(yǔ)語(yǔ)義相似度的計(jì)算是自然語(yǔ)言處理的重要研究?jī)?nèi)容,在智能檢索、詞義排歧、自動(dòng)問(wèn)答和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是一個(gè)基礎(chǔ)研究課題,正在被越來(lái)越多的研究人員所關(guān)注。目前詞語(yǔ)相似度計(jì)算的研究策略大體分為兩類[1]: 一類是根據(jù)某種世界知識(shí)來(lái)計(jì)算,主要是基于概念間結(jié)構(gòu)層次關(guān)系組織的語(yǔ)義詞典的方法,根據(jù)在這類語(yǔ)言學(xué)資源中概念之間的上下位關(guān)系和同位關(guān)系來(lái)計(jì)算詞語(yǔ)的相似度;另一類是利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),這種基于統(tǒng)計(jì)的方法主要將上下文信息的概率分布作為詞語(yǔ)語(yǔ)義相似度的參照依據(jù)。

        目前可為英文詞語(yǔ)的語(yǔ)義相似度計(jì)算提供支持的語(yǔ)義詞典主要有WordNet[2]、FrameNet[3]、MindNet[4]等。可為漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算提供支持的語(yǔ)義詞典主要有《知網(wǎng)》[5]、《同義詞詞林》[6]、《中文概念詞典》[7]等。

        關(guān)于相似度的概念,Dekang Lin認(rèn)為任何兩個(gè)對(duì)象的相似度取決于它們的共性(commonality ) 和個(gè)性(differentces)[8], 他從信息理論的角度給出任意兩個(gè)對(duì)象相似度的通用公式如式(1)所示。

        (1)

        其中分子是描述A、B共性所需要的信息量大小。分母是完整的描述出A、B所需要的信息量大小。Dekang Lin 的這一理論是目前絕大多數(shù)基于語(yǔ)義詞典的方法的詞語(yǔ)相似度計(jì)算模型的基本思想[9]。

        目前,國(guó)內(nèi)中文詞語(yǔ)相似度計(jì)算的相關(guān)研究主要采用《知網(wǎng)》作為分類詞典[9-11],采用《同義詞詞林》的相關(guān)研究較少。事實(shí)上,《同義詞詞林》是目前國(guó)內(nèi)在結(jié)構(gòu)上與著名英文語(yǔ)義詞典WordNet最為接近的一個(gè)分類詞典[12],而國(guó)際上許多著名的詞語(yǔ)相似度算法[13-15]都是采用WordNet作為分類詞典,因此《同義詞詞林》在中文詞語(yǔ)相似度計(jì)算的研究中是大有潛力的。目前,基于《同義詞詞林》的詞語(yǔ)相似度計(jì)算研究主要有:田久樂(lè)[16]利 用《同 義 詞 詞林》提出的綜合詞語(yǔ)距離與分支層間隔的詞語(yǔ)相似度計(jì)算方法;耿端[17]提出的基于邊權(quán)重的同義詞詞林詞語(yǔ)相似度計(jì)算方法。這兩種方法在國(guó)際標(biāo)準(zhǔn)測(cè)試集MC30中的相似度測(cè)量值與人工判定值的皮爾遜相關(guān)系數(shù)偏低,與國(guó)際上優(yōu)秀的基于路徑和深度的算法相比還有一定的差距。

        2 相關(guān)知識(shí)

        2.1 同義詞詞林簡(jiǎn)介

        同義詞詞林是由梅家駒[6]等人于1983年編撰的可計(jì)算漢語(yǔ)詞庫(kù),其設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)漢語(yǔ)同義詞和同類詞的劃分和歸類。同義詞詞林經(jīng)哈爾濱工業(yè)大學(xué)信息檢索研究室的擴(kuò)展后,目前共有七萬(wàn)多個(gè)詞語(yǔ),這些詞語(yǔ)被分為了12個(gè)大類,95個(gè)中類,1 428個(gè)小類,小類下方進(jìn)一步劃分為4 026個(gè)詞群和17 797個(gè)原子詞群兩級(jí)[18]。為便于處理不同大類的詞語(yǔ)對(duì),本文為所有大類虛構(gòu)了一個(gè)根結(jié)點(diǎn)O,從而形成圖1所示的六層樹(shù)形結(jié)構(gòu)。

        同義詞詞林中上面四層的結(jié)點(diǎn)都代表抽象的類別,只有最底層的葉子結(jié)點(diǎn)才是一個(gè)個(gè)具體的詞條或義項(xiàng)[12],同一個(gè)詞條可能在不同的類別中同時(shí)存在,即詞條的義項(xiàng)編碼不是唯一的。第一至三大類多屬名詞,數(shù)詞和量詞在第四大類中,第五類多屬形容詞,第六至十類多是動(dòng)詞,十一類多屬虛詞,十二類是難以被分到上述類別中的一些詞語(yǔ)。大類和中類的排序遵照具體概念到抽象概念的原則[6]。

        關(guān)于詞條的編碼如表1所示。第八位編碼只有三種情況,“=”代表“相等”、“同義”?!?”代表“不等”、“同類”,屬于相關(guān)詞語(yǔ)?!癅”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒(méi)有同義詞也沒(méi)有相關(guān)詞[6]。前七位編碼就可以唯一確定一條編碼,即不存在這種情況: 前七位編碼相同而第八位不相同的多條編碼同時(shí)存在。當(dāng)前七位編碼確定以后,第八位就是固定的,要么是“=”,要么是“#”,要么是“@”。例如,(喬木,灌木,林木)這一組同義詞在詞林中的編碼為“Bh01A68#”。

        本研究使用的同義詞詞林是哈爾濱工業(yè)大學(xué)發(fā)布的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》的 1.0 版本。

        表1 詞林中詞語(yǔ)的編碼結(jié)構(gòu)

        2.2 基于路徑和深度的方法介紹

        基于路徑和深度的方法目前已廣泛應(yīng)用于基于WordNet的英語(yǔ)詞語(yǔ)相似度計(jì)算。Wu等人[19]在機(jī)器翻譯作詞語(yǔ)選擇問(wèn)題的時(shí)候,提出了這種方法。他們定義詞語(yǔ)義項(xiàng)s1和s2的相似度計(jì)算公式如式(2)所示。

        (2)

        這里N1和N2分別表示義項(xiàng)s1和義項(xiàng)s2到他們最近公共父結(jié)點(diǎn)的路徑距離,H表示義項(xiàng)s1和s2最近公共父結(jié)點(diǎn)到根結(jié)點(diǎn)的距離,即深度。

        Hao等人[20]也利用兩個(gè)詞語(yǔ)義項(xiàng)的最短路徑跟它們的最近公共父結(jié)點(diǎn)的深度來(lái)計(jì)算兩個(gè)詞語(yǔ)在WordNet中的相似度,其詞語(yǔ)義項(xiàng)s1和s2相似度計(jì)算公式如式(3)所示。

        (3)

        這里d表示兩個(gè)詞語(yǔ)義項(xiàng)之間的路徑距離,h表示它們最近公共父結(jié)點(diǎn)的深度,α和β是平滑參數(shù)。當(dāng)h=0的時(shí)候,將兩個(gè)詞語(yǔ)義項(xiàng)間的相似度處理為0,α的取值范圍在0-1之間,每次的變化步長(zhǎng)為0.1,β每次變化的步長(zhǎng)為1。他們通過(guò)實(shí)驗(yàn)得出當(dāng)α=0,β=1的時(shí)候相似度取值最合理。

        Liu等人[21]提出了一種改進(jìn)式(2)的計(jì)算相似度方法。他們方法的基本思想是基于人工判定的方法,用詞語(yǔ)義項(xiàng)s1和s2的共同特性與它們二者總的特性的比值作為兩個(gè)詞語(yǔ)義項(xiàng)的相似度,提出相似度計(jì)算公式如式(4)所示。

        (4)

        這里l是詞語(yǔ)義項(xiàng)s1和s2的最短路徑,d是最近公共父結(jié)點(diǎn)的深度,α和β是平滑參數(shù)且(0<α,β<1),它們通過(guò)實(shí)驗(yàn)得出式(4)中的參數(shù)α=0.5,β=0.55,但在實(shí)際測(cè)量時(shí),存在對(duì)于不同大類之間的詞的相似度都為0的現(xiàn)象。

        田久樂(lè)[16]提出了一種變異的基于路徑和深度的同義詞詞林詞語(yǔ)相似度計(jì)算方法,對(duì)于兩個(gè)詞語(yǔ)義項(xiàng)s1和s2,其相似度計(jì)算公式如式(5)所示。

        (5)

        3 基于路徑和深度的同義詞詞林詞語(yǔ)相似度的計(jì)算方法

        3.1 基于路徑和深度的詞林詞語(yǔ)相似度公式的提出

        Wu等人[19]是最早在式(1)的思想之上采用路徑與深度來(lái)計(jì)算詞語(yǔ)相似度的,他們提出了式(2)計(jì)算兩個(gè)詞語(yǔ)的相似度,但是該公式對(duì)路徑與深度未使用任何動(dòng)態(tài)調(diào)節(jié)參數(shù),這在葉子結(jié)點(diǎn)深度不均勻、義項(xiàng)遍布所有結(jié)點(diǎn)的WordNet中是可以反映出多數(shù)義項(xiàng)對(duì)之間的差異性的,但詞林的所有義項(xiàng)都在葉子結(jié)點(diǎn)且所有葉子結(jié)點(diǎn)的深度相同,因此如果直接在同義詞詞林中應(yīng)用該公式,只能得出0,0.2,0.4,0.8,1等幾個(gè)固定的相似度值,這樣所有最近公共父結(jié)點(diǎn)處于同一層次的義項(xiàng)對(duì)之間的相似度都相同,這與實(shí)際情況不相符;同樣,Hao等人[20]提出的式(3)與Liu等人[21]提出的式(4),由于只采用了固定參數(shù)來(lái)調(diào)節(jié)路徑與深度,因此應(yīng)用于同義詞詞林也只能得出幾個(gè)固定的相似度值,無(wú)法進(jìn)一步反映出公共父結(jié)點(diǎn)處于同一層次的義項(xiàng)對(duì)之間的差異性。

        為解決上述問(wèn)題,本文提出一種新的基于一個(gè)動(dòng)態(tài)調(diào)節(jié)參數(shù)的詞語(yǔ)相似度計(jì)算方法。首先,根據(jù)式(1)的思想,我們提出在語(yǔ)義詞典中任意兩個(gè)義項(xiàng)概念s1和s2的特性與相似度的關(guān)系為式(6)。

        (6)

        其中,comm(s1,s2)表示兩個(gè)義項(xiàng)s1和s2在語(yǔ)義詞典中的共同特性,diff(s1,ss)表示s1和s2在語(yǔ)義詞典中的差異特性。

        在詞林中,對(duì)任意兩個(gè)詞語(yǔ)義項(xiàng)s1和s2,它們?cè)跇?shù)形圖中的關(guān)系可以抽象為圖2所示。O為樹(shù)的根結(jié)點(diǎn),LCP為義項(xiàng)s1和s2的最近公共父結(jié)點(diǎn),Path1、Path2分別為義項(xiàng)s1和s2到它們最近公共父結(jié)點(diǎn)的路徑距離,Depth為s1、s2最近公共父結(jié)點(diǎn)到根結(jié)點(diǎn)的深度距離。

        圖2 詞林樹(shù)形結(jié)構(gòu)抽象圖

        由圖2,我們提出對(duì)于任意兩個(gè)義項(xiàng)s1和s2在詞林中的共性與差異性的計(jì)算公式為式(7)、式(8)。

        其中,Path(s1,s2)=Path1+Path2,表示兩個(gè)義項(xiàng)之間的最短路徑;α為深度調(diào)節(jié)參數(shù),β為路徑調(diào)節(jié)參數(shù)。將式(7)、式(8)代入式(6),可以得到任意兩個(gè)義項(xiàng)s1、s2的相似度計(jì)算公式為式(9)。

        (9)

        當(dāng)兩個(gè)義項(xiàng)的編碼相同且處于“=”后面時(shí),表示兩個(gè)義項(xiàng)為同義詞,他們相似度被處理為1;當(dāng)兩個(gè)義項(xiàng)的編碼相同且處于“#”后面時(shí),表示兩個(gè)義項(xiàng)為同類詞,他們相似度被處理為0.5。

        考慮到有的詞語(yǔ)會(huì)有多個(gè)義項(xiàng),兩個(gè)詞語(yǔ)的最終相似度取所有義項(xiàng)對(duì)中相似度最大者。設(shè)詞語(yǔ)w1有m個(gè)義項(xiàng),詞語(yǔ)w2有n個(gè)義項(xiàng),則詞語(yǔ)w1與w2在同義詞詞林中的相似度計(jì)算公式為式(10)。

        (10)

        其中,sim(s1i,s2j)表示詞語(yǔ)w1的第i個(gè)義項(xiàng)與w2的第j個(gè)義項(xiàng)的相似度值。

        3.2 路徑和深度的計(jì)算公式

        為確保義項(xiàng)路徑距離計(jì)算的合理性,本文借助文獻(xiàn)[1]的思想在詞語(yǔ)路徑與深度的計(jì)算公式中引入了邊權(quán)重概念。本文為圖1所示的同義詞詞林結(jié)構(gòu)中五條不同層次之間的邊,從下到上分別設(shè)定權(quán)重Weight(i)(1≤i≤5)(對(duì)應(yīng)圖1中的WT1、WT2、WT3、WT4、WT5),且滿足:

        其中,設(shè)圖1中最底部的葉子結(jié)點(diǎn)的層編號(hào)為0,最上面根結(jié)點(diǎn)層編號(hào)為5,Weight(i)為上層編號(hào)為i的邊的權(quán)重。

        于是,設(shè)義項(xiàng)s1和s2的最近公共父結(jié)點(diǎn)LCP處于第k層且到根結(jié)點(diǎn)共有m條邊相連,則LCP的深度距離Depth(LCP(s1,s2))的計(jì)算公式如式(11)所示。

        (11)

        由于在詞林中,所有詞語(yǔ)義項(xiàng)都處于最低的葉子層,因此任意兩個(gè)義項(xiàng)到其最近公共父結(jié)點(diǎn)的距離都是相同的。設(shè)義項(xiàng)s1、s2到其最近公共父結(jié)點(diǎn)分別有n條邊相連,則義項(xiàng)s1與s2之間的最短路徑距離Path(s1,s2)的計(jì)算公式如式(12)所示。

        (12)

        3.3α和β參數(shù)的取值

        在同義詞詞林的分類樹(shù)中,不同大類詞語(yǔ)義項(xiàng)的公共父結(jié)點(diǎn)為本文所虛擬的根結(jié)點(diǎn),而根結(jié)點(diǎn)的深度Depth =0,為了避免不同大類詞語(yǔ)義項(xiàng)間的相似度為0,我們假定根結(jié)點(diǎn)的深度為α(α∈[0,1])。

        在詞林語(yǔ)義詞典中,每個(gè)分類結(jié)點(diǎn)下方分支結(jié)點(diǎn)的排列與編碼具有一定規(guī)律,圖3給出了在詞林分類結(jié)構(gòu)中,最近公共父結(jié)點(diǎn)為第四層“Ae02A 工人類”的分支結(jié)點(diǎn)排列與編碼示例。

        圖3中,第五層中的詞語(yǔ)編碼從左到右依次遞增編碼,例如,“工人”的編碼為Ae02A01,“工匠”的編碼為Ae02A02,“師傅”的編碼為Ae02A03,…,“畫(huà)匠”的編碼為Ae02A13,…,“工程建設(shè)者”的編碼為Ae02A24。從圖3可以看出,在分支層中,分支結(jié)點(diǎn)的編碼一般遵循從抽象類到一般的原則,且間距越近的兩個(gè)概念意義越接近,該規(guī)律同樣出現(xiàn)在最近公共父結(jié)點(diǎn)處于更高層次的分支結(jié)點(diǎn)中。于是我們能夠得出兩個(gè)詞語(yǔ)義項(xiàng)的相似度與其在最近公共父結(jié)點(diǎn)中的分支間距線性負(fù)相關(guān)。另一方面,在語(yǔ)義詞典的分類結(jié)構(gòu)中,每個(gè)分類結(jié)點(diǎn)下面的直接孩子數(shù)N差別很大,因此我們?nèi)∮脙蓚€(gè)義項(xiàng)在分支層的相對(duì)間距作為路徑調(diào)節(jié)參數(shù)β,并將其視作義項(xiàng)之間路徑的延伸,如式(13)所示。

        圖3 詞林分支結(jié)構(gòu)實(shí)例

        (13)

        其中,i為分支結(jié)點(diǎn)B1,B2所在層的編號(hào)(圖4),Weight(i)為連接分支結(jié)點(diǎn)與最近公共父結(jié)點(diǎn)的邊權(quán)重,N表示兩個(gè)義項(xiàng)最近公共父結(jié)點(diǎn)(LCP)的直接孩子的個(gè)數(shù),K表示兩個(gè)義項(xiàng)在最近公共父結(jié)點(diǎn)中的分支間距,比如在圖4中,s1與s2這兩個(gè)詞語(yǔ)義項(xiàng)之間的K=2,N=5。

        圖4 分支間距示意圖

        4 實(shí)驗(yàn)與分析

        目前國(guó)際上對(duì)詞語(yǔ)相似度算法的評(píng)價(jià)標(biāo)準(zhǔn)普遍采用Miller & Charles(MC)發(fā)布的英語(yǔ)普通名詞數(shù)據(jù)集(Common nouns dataset)及其人工判定值[22]。該數(shù)據(jù)集分別由高度相關(guān)、中度相關(guān)與低度相關(guān)共30個(gè)英語(yǔ)詞對(duì)組成,并讓38個(gè)試驗(yàn)者對(duì)數(shù)據(jù)集進(jìn)行語(yǔ)義相似度判斷,最后取他們的平均值作為人工判定值。Miller & Charles發(fā)布的英語(yǔ)普通名詞數(shù)據(jù)集來(lái)源于Rubenstein & Goodenough(RG)[23]發(fā)布的65對(duì)名詞數(shù)據(jù)集。雖然Miller & Charles的實(shí)驗(yàn)比Rubenstein & Goodenough實(shí)驗(yàn)晚25年左右,但是這兩個(gè)數(shù)據(jù)集的皮爾遜相關(guān)系數(shù)卻是達(dá)到了0.97,這說(shuō)明人對(duì)詞語(yǔ)間的語(yǔ)義相似度的認(rèn)識(shí)隨著時(shí)間的流逝還是比較穩(wěn)定的,人對(duì)詞語(yǔ)間的評(píng)判值可以被當(dāng)作評(píng)估詞語(yǔ)語(yǔ)義相似計(jì)算方法的依據(jù)。

        在本文中,考慮到國(guó)際標(biāo)準(zhǔn)測(cè)試集MC30在評(píng)判詞語(yǔ)相似度方法中的流行程度,我們將Rubenstein & Goodenough的65對(duì)詞分割成兩部分: 一部分包含MC和RG共同使用的30對(duì)詞,定義為集合D0;另一部分包含RG65對(duì)詞中剩余的35對(duì)詞,定義為集合D1。為了確保實(shí)驗(yàn)結(jié)果的客觀性,我們使用集合D1去訓(xùn)練我們的計(jì)算公式,對(duì)參數(shù)α和β進(jìn)行優(yōu)化處理,然后再用集合D0去測(cè)試我們的方法。

        4.1 α和β參數(shù)的確定

        首先,將訓(xùn)練集合D1中的35對(duì)英語(yǔ)詞對(duì)按照意義最接近的原則翻譯成對(duì)應(yīng)的中文名詞詞對(duì)(表2),然后在訓(xùn)練集合D1中不斷地改變參數(shù)α以及參數(shù)β中的權(quán)值,最后比較參數(shù)α和權(quán)值改變時(shí)計(jì)算的相似度值與Rubenstein & Goodenough的人工判定值的皮爾遜相關(guān)系數(shù),當(dāng)皮爾遜相關(guān)系數(shù)達(dá)到最大時(shí),所用的參數(shù)α和權(quán)重即為我們確定的參數(shù)值。通過(guò)實(shí)驗(yàn)我們確定參數(shù)α=0.9,權(quán)重函數(shù)Weight(i)按照表3取值時(shí)效果最好,皮爾遜相關(guān)系數(shù)為0.8615,數(shù)據(jù)如表2所示。

        表2 D1數(shù)據(jù)集中的最佳計(jì)算結(jié)果

        續(xù)表

        表3 邊權(quán)重函數(shù)的最佳離散值

        4.2 對(duì)比實(shí)驗(yàn)

        本文采用Miller & Charles(MC)發(fā)布的數(shù)據(jù)集及其人工判定值作為標(biāo)準(zhǔn),比較本文提出的式(10)與Wu等人提出的式(2)和Hao等人提出的式(3)、Liu等人提出的式(4)以及田久樂(lè)提出的式(5)的詞語(yǔ)相似度計(jì)算結(jié)果。首先,將測(cè)試集合D0中的30個(gè)英語(yǔ)詞對(duì)按照意義最接近的原則翻譯成對(duì)應(yīng)的中文名詞詞對(duì),然后采用不同的公式對(duì)該數(shù)據(jù)集計(jì)算相似度(表4),最后計(jì)算出不同公式的相似度計(jì)算值與MC人工值的皮爾遜相關(guān)系數(shù)(表5)。為增加結(jié)果的可比性,表5還列出了若干英文詞語(yǔ)相似度算法與MC30人工判定值的皮爾遜相關(guān)系數(shù)。

        表4 Miller詞對(duì)集的計(jì)算結(jié)果對(duì)比

        續(xù)表

        表5 不同方法與MC人工值的皮爾遜相關(guān)系數(shù)

        4.3 結(jié)果分析

        通過(guò)上述實(shí)驗(yàn)與實(shí)例,可以得出以下結(jié)論。

        (1) 從上述對(duì)比實(shí)驗(yàn)可以看出: 效果最好的是本文提出的基于路徑和深度的同義詞詞林詞語(yǔ)語(yǔ)義相似度計(jì)算方法,所得出的相似度值的覆蓋范圍最廣,且與MC30人工值的皮爾遜相關(guān)系數(shù)達(dá)到了0.856,該值高于目前國(guó)內(nèi)外大多數(shù)詞語(yǔ)相似度算法。本文方法與MC30皮爾遜相關(guān)系數(shù)比較高的原因是,本文公式嚴(yán)格遵循了任意兩個(gè)對(duì)象相似度的通用公式的思想,并且通過(guò)采用動(dòng)態(tài)邊權(quán)重,調(diào)高了最近公共父結(jié)點(diǎn)層次較低的詞語(yǔ)相似度的值(表4中的前九對(duì)詞語(yǔ)),而同時(shí)調(diào)低了最近公共父結(jié)點(diǎn)層次較高的詞語(yǔ)相似度的值(表4中的最后九對(duì)詞語(yǔ)),從而使計(jì)算結(jié)果更加符合實(shí)際情況。

        (2) 式(2)、(3)與(4)的方法在計(jì)算相似度時(shí),只能得出五個(gè)固定的相似度值,所有最近公共父結(jié)點(diǎn)處于同一層次的義項(xiàng)對(duì)之間的相似度都相同,這與實(shí)際應(yīng)用情況不相符,本文方法通過(guò)一個(gè)基于分支間距的動(dòng)態(tài)路徑調(diào)節(jié)參數(shù)β避免了這種現(xiàn)象。同時(shí),本文方法通過(guò)一個(gè)深度調(diào)節(jié)參數(shù)α,避免了表4中最后四對(duì)跨大類的詞語(yǔ)相似度為0的現(xiàn)象。

        (3) 田久樂(lè)提出的式(5)的計(jì)算結(jié)果,與MC人工值的皮爾遜相關(guān)系數(shù)只有0.520 4,主要是由于該公式直接使用分支間距作為相似度的調(diào)節(jié)參數(shù),從而使公式對(duì)詞語(yǔ)在最近公共父結(jié)點(diǎn)中的分支間距過(guò)于敏感,造成分支間距較大的詞對(duì)的相似度值過(guò)低,如在計(jì)算“轎車”與“汽車”、“男孩子”與“小伙子”兩個(gè)詞對(duì)的相似度時(shí),由于他們?cè)谧罱哺附Y(jié)點(diǎn)中的分支間距過(guò)大,造成了他們的相似度過(guò)低。而在本文的方法中,分支間距只是作為義項(xiàng)之間路徑的延伸,從而降低了對(duì)該值的敏感度,提高了詞語(yǔ)相似度的準(zhǔn)確度。

        (4) 在表4中,所有方法在計(jì)算“食物”與“水果”詞對(duì)的相似度時(shí)與MC人工值相比都偏低,這主要是在同義詞詞林分類結(jié)構(gòu)中,將“食物”歸為第二大類“物”中的“糧食”中類而將“水果”歸為“物”的“草木”中類,造成二者的公共父結(jié)點(diǎn)的層次過(guò)高?!靶值堋迸c“和尚”詞對(duì)的相似度計(jì)算結(jié)果過(guò)低,也是他們?cè)谕x詞詞林分類結(jié)構(gòu)中公共父結(jié)點(diǎn)的層次過(guò)高造成的。

        (5) 通過(guò)表5可以看出,同樣的式(2)、式(3)、式(4)在同義詞詞林中的MC30皮爾遜相關(guān)系數(shù)要高于其在英文WordNet中的結(jié)果,這說(shuō)明同義詞詞林的簡(jiǎn)明分類結(jié)構(gòu)要優(yōu)于WordNet的復(fù)雜分類結(jié)構(gòu),因此只要有優(yōu)秀的應(yīng)用算法相配合,同義詞詞林在中文信息處理中是可以大有作為的。

        5 結(jié)束語(yǔ)

        本文提出了一種新的基于路徑與深度的詞語(yǔ)相似度計(jì)算方法,合理地利用了兩個(gè)詞語(yǔ)在樹(shù)形結(jié)構(gòu)中的最短路徑、最近公共父結(jié)點(diǎn)的深度與分支間距等因素。實(shí)驗(yàn)證明,該方法計(jì)算出的詞語(yǔ)相似度與人工判定值高度相似,在相關(guān)領(lǐng)域具有較好的實(shí)用價(jià)值。我們也發(fā)現(xiàn)有一些詞語(yǔ)無(wú)論用哪種方法計(jì)算結(jié)果均不理想,這種情況主要是詞語(yǔ)在詞典結(jié)構(gòu)中的分類不合理造成的,這需要修正詞典的分類結(jié)構(gòu)才能解決。我們下一步打算進(jìn)一步引入最近公共父結(jié)點(diǎn)的信息內(nèi)容對(duì)本文方法進(jìn)行優(yōu)化。

        [1] 葛斌,李芳芳,郭絲路,等大權(quán). 基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,09: 3329-3333.

        [2] G A Miller, C Fellbaum. Semantic network of English [M], B. Levin (Ed.), lexical & conceptual semantics, Amsterdam: Elsevier Science Publishers, 1991.

        [3] C F Baker. The BerkeleyFrameNet project[C]// Proceedings of the COLING-ACL, Montreal, Canada, 1998: 86-90.

        [4] S D Richardson, W B Dolan.MindNet: Acquiring and structuring semantic information from text[C]// Proceedings of COLING-ACL, Quebec, Canada, 1998: 1098-1102.

        [5] 董振東.語(yǔ)義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造[ J ].語(yǔ)言文字應(yīng)用, 1998, 03: 76-83.

        [6] 梅家駒, 等. 同義詞詞林[M]. 上海: 上海辭書(shū)出版社出版, 1983.

        [7] 于江生,俞士汶.中文概念詞典的結(jié)構(gòu)[ J ].中文信息學(xué)報(bào), 2002,16(4): 12-20.

        [8] Dekang Lin. An Information Theoretic Definition of Similarity Semantic distance in WordNet[C]//Proceedings of the Fifteenth International Conference on Machine Learning, Madison, Wisconsin, USA,1998: 928-933.

        [9] 張亮,尹存燕,陳家駿.基于語(yǔ)義樹(shù)的中文詞語(yǔ)相似度計(jì)算與分析[J].中文信息學(xué)報(bào),2010,24(6): 23-29.

        [10] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北: 第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì), 2002: 59-76.

        [11] 江敏,肖詩(shī)斌,王弘蔚,等. 一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J]. 中文信息學(xué)報(bào),2008,22(5): 84-89.

        [12] 梅立軍,周強(qiáng),臧路,等. 知網(wǎng)與同義詞詞林的信息融合研究[J].中文信息學(xué)報(bào),2005,19(1): 63-70.

        [13] Mohamed AliHadj Taieb, Mohamed Ben Aouicha, Abdelmajid Ben Hamadou. A new semantic relatedness measurement using wordnet features [J]. Knowledge and Information Systems, 2014, 41(2): 467-497.

        [14] L Meng, J Gu, Z Zhou. A new model of information content based on concept's topology for measuring semantic similarity in WordNet [J]. Journal of Grid & Distributed Computing, 2012, 5(3): 81-96.

        [15] Z Zhou, Y Wang, J Gu. A new model of information content for semantic similarity in WordNet[C]//Proceedings of the International Conference on the Future Generation Communication and Networking Symposia, Sanya, China, 2008: 85-89.

        [16] 田久樂(lè),趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,06: 602-608.

        [17] 耿端.基于同義詞詞林的評(píng)分在中醫(yī)案例自測(cè)系統(tǒng)中的應(yīng)用[D]. 西北大學(xué)碩士學(xué)位論文,2013.

        [18] 劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J]. 中文信息學(xué)報(bào),2014,28(2): 91-99.

        [19] Z. Wu, M. Palmer. Verbs semantics and lexical selection [C]// Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics, ACL'94, Association for Computational Linguistics, Stroudsburg, PA, USA, 1994: 133-138.

        [20] D.Hao, W. Zuo, T. Peng. An approach for calculating semantic similarity between words using wordnet [C]//Proceedings of the second International Conference on Digital Manufacturing and Automation, Zhangjiajie, China, 2011: 177-180.

        [21] X. Liu, Y. Zhou, R.Zheng. Measuring semantic similarity in WordNet[C]//Proceedings of the Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, China, 2007: 3431-3435.

        [22] G.A. Miller, W.G. Charles. Contextual correlates of semantic similarity [J]. Language and Cognitive Processes, 1991, 6 (1): 1-28.

        [23] H. Rubenstein, J.B.Goodenough. Contextual correlates of synonymy[C]//Proceedings of the ACM8(10), 1965: 627-633.

        [24] P. Resnik. Semantic Similarity in Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language [J]. Journal of Artificial Intelligence Research, 1999, 11: 95-130.

        [25] J W Kim, K S Candan. CP/CV: Concept similarity mining without frequency information from domain describing taxonomies [C]//Proceedings of the 15th ACM international conference on Information and knowledge management, New York, USA, 2006: 483-492.

        [26] A H T Mohamed,B A Mohamed, A B Hamadou. Ontology-based approach for measuring semantic similarity [J]. Journal of Engineering Applications of Artificial Intelligence, 2014,36: 238-261.

        A Path and Depth—Based Approach to Word Semantic Similarity Calcalation in CiLin

        CHEN Hongchao,LI Fei,ZHU Xinhua, MA Runcong

        (Guangxi Key Lab of Multi-source Information Mining & Security, Guangxi Normal University, Guilin,Guangxi 541004,China)

        In this paper, we propose a word semantic similarity approach based on the path and depth in CiLin. This approach exploits the shortest path between two word senses and the depth of their lowest common parent node in the hierarchy tree to calculate the semantic similarity between two word senses. In order to improve the rationality of calculating the path and depth, we assign different weights to the edges between the different layers in classification tree, while dynamically adjusting the shortest path between two senses through their branch interval in the lowest common parent node. The experiments show that the correlation coefficient between the human judgments in MC30 dataset and the computational measures presented in this approach is 0.856, which is higher than those of most of current semantic similarity algorithms.

        CiLin; path; depth; branch interval; lowest common parent node

        陳宏朝(1963—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、知識(shí)工程等。E?mail:chen7297@sina.com李飛(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:312078417@qq.com朱新華(1965—),通信作者,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、智能教學(xué)系統(tǒng)等。E?mail:zxh429@263.net

        1003-0077(2016)05-0080-09

        2015-01-07 定稿日期: 2015-05-25

        國(guó)家自然科學(xué)基金(61363036,61462010)

        猜你喜歡
        語(yǔ)義深度
        深度理解一元一次方程
        語(yǔ)言與語(yǔ)義
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        提升深度報(bào)道量與質(zhì)
        新聞傳播(2015年10期)2015-07-18 11:05:40
        認(rèn)知范疇模糊與語(yǔ)義模糊
        “深+N季”組配的認(rèn)知語(yǔ)義分析
        丰满人妻猛进入中文字幕| 亚洲中文字幕久久精品蜜桃| 久久久精品久久久国产| 午夜免费观看日韩一级视频| 亚洲啪av永久无码精品放毛片| 日本精品一区二区三区在线视频 | 蜜桃精品国产一区二区三区| 肥老熟女性强欲五十路| 国产揄拍国产精品| 婷婷丁香五月亚洲| 另类人妖在线观看一区二区| 亚洲一区二区三区精品| 狠狠噜天天噜日日噜无码| 亚洲综合网在线观看首页| 黑人免费一区二区三区| 国产在线一区二区三精品乱码| 无码免费一区二区三区| 国产日产精品久久久久久| av网站免费在线不卡| 欧美xxxxx高潮喷水| 国模欢欢炮交啪啪150 | 亚洲女同一区二区久久| 黄色国产一区二区99| 国产av旡码专区亚洲av苍井空| 久久aⅴ无码一区二区三区| 成年人男女啪啪网站视频| 大陆老熟女自拍自偷露脸| 一品二品三品中文字幕| 色爱无码A V 综合区| 亚洲综合一区二区三区久久| 人妻中文字幕乱人伦在线| 丰满的少妇xxxxx青青青| 亚洲无码vr| 国产精品国产自产拍高清| 亚洲国产成人片在线观看| 欧美日韩精品乱国产538| 91九色国产在线观看| 精品香蕉99久久久久网站| 亚洲国产高清在线一区二区三区| 精品无码人妻久久久一区二区三区| 玖玖资源站亚洲最大的网站|