亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文Word Net的中英文詞語相似度計算

        2010-09-07 07:28:34吳思穎吳揚揚
        關(guān)鍵詞:語義深度方法

        吳思穎, 吳揚揚

        (華僑大學(xué)計算機科學(xué)與技術(shù)學(xué)院 福建廈門361021)

        基于中文Word Net的中英文詞語相似度計算

        吳思穎, 吳揚揚

        (華僑大學(xué)計算機科學(xué)與技術(shù)學(xué)院 福建廈門361021)

        介紹一種基于中文WordNet的中英文詞語相似度計算方法.在WordNet同義詞集的上下位關(guān)系圖中,引入了距離、密度、深度3個因素來估計同義詞集之間的相似度,采用一個自適應(yīng)的方案來解決候選同義詞集組合的權(quán)重和取舍問題.實現(xiàn)了一個可以計算英-英、漢-英、漢-漢詞語之間相似度的算法,所得結(jié)果比較符合人們對詞語的理解.

        中文Wo rdNet;詞語相似度;語義相似度

        0 引言

        Wo rdNet是按語義關(guān)系組織的,它使用同義詞集合代表概念,詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系在概念之間體現(xiàn),一個詞語屬于若干個同義詞集,而一個同義詞集又包含若干個詞語.由于語義關(guān)系是一種詞義之間的關(guān)系,而詞義是用同義詞集合來表示,因此很自然地把語義關(guān)系看作為同義詞集合之間的關(guān)系. WordNet中詞匯概念的語義關(guān)系主要包括上下位、同義、反義、整體和部分、蘊含、屬性、致使等不同的語義關(guān)系.中文Wo rdNet建立在普林斯頓大學(xué)開發(fā)的英文Wo rdNet詞典的原理基礎(chǔ)上,實現(xiàn)了一個約118 000中文詞和115 400同義詞集的中文-中文詞典的功能,是使用了現(xiàn)有的英-漢詞典庫對英文WordNet中的詞進行手工翻譯而得到的.它同樣也具有同義詞、同等詞、泛詞等在英-英詞典中提供的功能.

        詞語相似度的計算方法主要分為兩類[1-2]:一類方法稱為基于上下文的方法,它利用大規(guī)模的語料或詞語定義,收集統(tǒng)計數(shù)據(jù),來評估詞匯語義相似度;另一類是利用詞典中的關(guān)系和層次結(jié)構(gòu),如概念之間的上下位關(guān)系和同位關(guān)系來計算詞語的相似度.文獻[3]利用了同義詞集在WordNet中的最短距離和這條路徑的轉(zhuǎn)向次數(shù)來計算詞語的相似度;文獻[4]引入了本體和語料庫,以2個同義詞集的公共子結(jié)點的范圍和公共的信息來計算其相似度;文獻[1]從WordNet中提取同義詞并采取向量空間方法計算英語詞語的相似度.但由于Wo rdNet詞典的語言限制,它們都局限于英文詞語的語義相似度分析.文獻[5]討論了義原的相似度計算方法、集合和特征結(jié)構(gòu)的相似度計算方法,并在此基礎(chǔ)上提出了利用《知網(wǎng)》進行詞語相似度計算的算法.本文利用中文Wo rdNet,在Wo rdNet同義詞集的上下位關(guān)系圖中,引入了距離、密度、深度3個因素來估計同義詞集之間的相似度,用一個自適應(yīng)的方案來解決候選同義詞集組合的權(quán)重和取舍問題,設(shè)計并實現(xiàn)了一個能計算英-英、英-漢、漢-漢詞語之間相似度的算法,所得結(jié)果比較符合人們對詞語的理解.

        1 詞語相似度計算方法

        要計算2個詞語之間的相似度,首先需要分別查出這2個詞語所屬的所有同義詞集,并兩兩組合計算其相似度,最后根據(jù)這些同義詞集組合的相似度計算出2個詞語之間的相似度.下面分別介紹同義詞集和詞語的相似度計算.

        1.1 同義詞集的相似度

        在WordNet中,同義詞集(synset)之間的上下位關(guān)系形成了一個圖結(jié)構(gòu),每個synset有0個或若干個上位和下位synset.因此,基于以下原則來計算同義詞集之間的相似度[6]:

        1)在上下位關(guān)系圖中,任意2個synset結(jié)點的距離越遠(yuǎn),語義相似度越小.

        2)圖中結(jié)點所處的位置密度越高,說明該局部的詞義劃分越細(xì),相似度越低.

        3)在上下位關(guān)系圖中相同距離的2個synset結(jié)點,所處的層次越深,描述的事物越具體,因此相似度越大.

        引入距離因子、密度因子、深度因子來衡量同義詞集之間的相似度.距離因子σ計算公式為

        其中,lenth為2個synset之間的距離,θ為閾值參數(shù).距離越大,σ值就越小,當(dāng)距離大于閾值θ時,距離因子為0.

        密度越大,語義相似度越低.密度的計算可從局部結(jié)點的個數(shù)入手,具體方法為:分別從2個當(dāng)前結(jié)點出發(fā)向上走3層,每一層的結(jié)點個數(shù)分別記PN1,PN2,PN3.期間2個結(jié)點若相遇,則終止,并將其上層結(jié)點數(shù)計為0,最終計算局部結(jié)點個數(shù)PN為

        其中,PN1是當(dāng)前結(jié)點所在層次的結(jié)點個數(shù),PN2,PN3依次為其上層結(jié)點個數(shù).則密度因子φ為

        PN值越大表示密度越大,密度因子越小,且PN≥1,使得0<φ≤1.此外,深度越深,語義相似度越大.深度因子ω的計算公式為

        其中,dep th為該節(jié)點的深度,Ed為整棵語義樹中所有結(jié)點的平均深度.即當(dāng)結(jié)點的深度大于均值時,其深度因子為正,否則為負(fù).

        綜合考慮距離、密度、深度3個因素,則2個同義詞集之間的相似度為

        若sim>1,則取sim=1.-φ和-ω分別為2個詞的密度因子和深度因子的均值;α和β分別為密度因子和深度因子的權(quán)重.

        1.2 詞語之間的相似度

        由于每個詞語有一個或多個詞義(sense),即它屬于若干個同義詞集,因此采用如下步驟計算2個詞語之間的相似度:

        1)用聯(lián)合查詢語句在中文Wo rdNet詞典數(shù)據(jù)庫的各個翻譯版本中,查找出被比較的詞(英文單詞或中文詞語)所有可能出現(xiàn)的同義詞集的id.

        2)將中文單詞所屬同義詞集的標(biāo)識synset_id轉(zhuǎn)換為對應(yīng)的英文同義詞集的synset_id.

        3)令詞a有m個詞義(屬于m個同義詞集),詞b有n個詞義,即a,b所屬的同義詞集有m×n對組合.計算這m×n對同義詞集的相似度,并排序.

        4)從大到小排序后,第1對同義詞集所占的比重最大,令其權(quán)重為ρ,則第2對同義詞集所占的權(quán)重為剩余比重×ρ,以此類推.設(shè)置一個閾值參數(shù)δ(0<δ<1),計算過程中僅考慮所有組合的前百分比閾值,如δ=0.3,則僅計算所有同義詞集組合相似度最大的前30%.

        在實際操作中,當(dāng)同義詞集組合個數(shù)較多時,常出現(xiàn)1對或前幾對同義詞集的相似度非常大,因此首對權(quán)重ρ不宜過大,否則將失去綜合權(quán)衡的意義.為了能夠綜合考慮被選取的同義詞集組合的影響力,考慮根據(jù)選取的同義詞集組合的數(shù)量來調(diào)節(jié)各組合所占的權(quán)重.因此,提出了一個根據(jù)同義詞集組合個數(shù)num自適應(yīng)調(diào)節(jié)參數(shù)ρ的公式,使得ρ∈[0.5,0.9],即當(dāng)入選的同義詞集組合個數(shù)num越小,首對同義詞集的權(quán)重ρ越高(最大0.9),而ρ值隨num的增加而遞減(最小0.5),計算公式為

        其中,num=m×n.

        2 實驗結(jié)果與分析

        根據(jù)上述方法,實現(xiàn)了一個基于中文WordNet的詞語相似度計算程序模塊.在實驗中,根據(jù)多次嘗試中取得的經(jīng)驗,將文中提到的幾個參數(shù)設(shè)置如下:距離因子中的閾值參數(shù)θ=7;深度因子中所有結(jié)點的平均深度經(jīng)計算得Ed=8.624 3;密度因子權(quán)重α=0.1;深度因子權(quán)重β=0.1;同義詞集組合前百分比閾值δ=0.2,即取相似度最大的前20%的組合考慮.

        對于詞語相似度計算結(jié)果的評價,最好是放到實際的系統(tǒng)中(如本課題后期研究的數(shù)據(jù)空間的進化將利用此結(jié)果數(shù)據(jù)模式進行匹配),觀察不同的計算方法對系統(tǒng)性能的影響,在條件不許可的情況下采用人工判別的方法.

        對比了文獻[5]中介紹的同樣能計算中文詞語相似度的基于《知網(wǎng)》的詞匯語義相似度計算方法,對比結(jié)果如表1所示,方法1為文獻[5]中介紹的方法,方法2為本文介紹的基于中文WordNet的相似度計算方法.

        對比表1結(jié)果,方法2的實驗結(jié)果與人們的理解比較一致,方法1得到的相似度與人們的理解相對差別大一些.例如,方法1對“論文”、“文章”、“文獻”這樣詞義接近的詞匯的相似度估計相差巨大,因為方法1中計算詞語相似度時采用了2個詞之間各個概念相似度的最大值.而方法2計算結(jié)果中,“論文”與“文章”、“文獻”的相似度比較接近,都在0.91以上,因為方法2對詞語各個概念(同義詞集)的各種組合采取了一種動態(tài)加權(quán)和的辦法,能自適應(yīng)地調(diào)整組合之間的權(quán)重.

        本算法的另一個獨特之處是兼容中英文雙語的相似度計算,表2給出另外一些測試結(jié)果.

        表1 與文獻[5]結(jié)果對比Tab.1 The results compared w ith literature[5]

        表2 本算法的測試結(jié)果列舉Tab.2 Some examp les w ith the p roposed method

        從實驗結(jié)果可以看出,“父親”和“father”同為正式用語,相似度高于“父親”和“爸爸”,而同為口語的“爸爸”和“dad”也有較高的相似度;“中國”和“亞洲”的相似度高于“中國”和“歐洲”也是較為合理的;“貓”直接類屬于“動物”,因此“貓”和“動物”的相似度大于“貓”和“狗”的相似度.總體上看,該方法得到的大部分結(jié)果是較為準(zhǔn)確的.

        3 小結(jié)

        本文主要分析了中文WordNet的體系結(jié)構(gòu),根據(jù)影響詞語相似度的距離、密度和深度3個因素,定義了完整的同義詞集之間的相似度算法,并采用了自適應(yīng)的方法對被查詞語的同義詞集組合進行了取舍和權(quán)重定義.最后,實現(xiàn)了一個計算中英文詞語相似度的算法,并進行了實驗.測試結(jié)果表明:本方法得到的結(jié)果與人工判別結(jié)果基本一致,比基于《知網(wǎng)》的詞匯語義相似度計算方法更符合人們的理解.下一步研究將把詞語相似度算法應(yīng)用于數(shù)據(jù)空間管理系統(tǒng)的進化和檢索中,使數(shù)據(jù)空間的查詢結(jié)果更為準(zhǔn)確有效.

        [1] 荀恩東,顏偉.基于語義網(wǎng)計算英語詞語相似度[J].情報學(xué)報,2006,25(1):43-48.

        [2] Sebti A,Barfrous A A.A new wo rd sense similarity measure in WordNet[C]//Proceedingsof the International M ulticonference on Computer Science and Information Technology.Washinton D C:IEEE Computer Society,2008:369-373.

        [3] Hirst G,St-Onge D.Lexical chains as rep resentationsof context fo r the detection and correction of malap ropisms[M]// WordNet:an Electronic Lexical Database.Cambridge M A:M IT Press,1998.

        [4] Resnik P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedingsof the 14th International Joint Conference on A rtificial Intelligence.San Francisco:Mo rgan Kaufmann Publishers Inc,1995:448-453.

        [5] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].計算語言學(xué)及中文信息處理,2002,7(2):59.

        [6] 張承立,陳劍波,齊開悅.基于語義網(wǎng)的語義相似度算法改進[J].計算機工程與應(yīng)用,2006,42(17):165-166.

        Chinese and English Word Sim ilarity Measure Based on Chinese WordNet

        WU Si-ying, WU Yang-yang
        (College of Com puter Science and Technology,H uaqiao University,X iamen 361021,China)

        A method for measuring similarity of Chinese and English words based on Chinese WordNet is introduced.In the hypernym relative graph of synonym set(synset),the factors of distance,density and dep th are used to measure the similarity of synset,and the weight of the combination pairs of the two words’synset is settled in adap tive mode.An algorithm that can measure English-English,Chinese-English and Chinese-Chinese word similarity has been imp lemented.Experiment results show that the similaritiesmeasured by the p roposed algorithm accord w ith the judgment of the peop le.

        Chinese WordNet;word similarity;semantic similarity

        TP 391

        A

        1671-6841(2010)02-0066-04

        2009-12-01

        福建省科技計劃重點項目,編號2008 I0021;福建省自然科學(xué)基金資助項目,編號2009J01289.

        吳思穎(1985-),男,碩士研究生,主要從事數(shù)據(jù)庫應(yīng)用技術(shù)研究,E-mail:w usy85@gmail.com;通訊聯(lián)系人:吳揚揚(1957-),女,教授,主要從事數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘研究,E-mail:w uyangyang@sina.com.

        猜你喜歡
        語義深度方法
        深度理解一元一次方程
        語言與語義
        深度觀察
        深度觀察
        深度觀察
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        精品手机在线视频| 国产一二三四2021精字窝| 777国产偷窥盗摄精品品在线| 成人做爰69片免费看网站| 四虎国产精品免费久久麻豆| 日本国产一区二区在线观看| 亚洲欧美综合精品成人网站| 精品午夜福利无人区乱码一区| 久久久精品国产亚洲AV蜜| 亚洲女同恋中文一区二区| 国产亚洲成人av一区| 无码日韩精品一区二区三区免费| 亚州精品无码人妻久久| 国产视频在线播放亚洲| 狠狠色噜噜狠狠狠狠97首创麻豆| 天天做天天爱天天爽综合网 | 一二三四日本中文在线| 亚欧AV无码乱码在线观看性色| 一区二区三区在线视频免费观看| 国产综合开心激情五月| 99国产精品自在自在久久| 在线免费日韩| 久久精品亚洲国产成人av| 午夜视频在线观看一区二区小 | 日韩a∨精品日韩在线观看| 日产精品一区二区免费| 中文字日产幕码三区的做法步| 国产午夜鲁丝片av无码| 久久久久国产一级毛片高清版A| 亚洲综合偷拍一区二区| 国产69精品久久久久9999apgf| 国产成人麻豆精品午夜福利在线| 欧美亚洲国产丝袜在线| 午夜精品免费视频一区二区三区| 精品国产一二三产品区别在哪| 亚洲国产一区在线二区三区| 蜜桃视频一区二区三区| 亚洲爆乳无码专区www| 日本动态120秒免费| 日本高清一区二区在线观看| 国产精选自拍视频网站|