亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        短文本語義相似度計算研究

        2019-10-23 11:23:20張敏
        微型電腦應(yīng)用 2019年10期
        關(guān)鍵詞:相似性度量語料庫

        張敏

        (西安翻譯學院 工程技術(shù)學院, 西安 710105)

        0 引言

        文本相似度計算方法在文本分類、信息檢索、提取摘要、機器翻譯自動評估方法、文本摘要等大型文檔或同義詞測試等自然語言處理和相關(guān)領(lǐng)域的應(yīng)用中已有很長的歷史,文本相似度的度量方法也被發(fā)現(xiàn)對文本一致性的評價有幫助[1]。在網(wǎng)絡(luò)信息呈爆炸性增長的互聯(lián)網(wǎng)時代,如何高效利用網(wǎng)絡(luò)信息,對自然語言處理領(lǐng)域的研究有著更高的要求。

        在文本相似度計算方面,AGI RREE[2]等人通過計算在WordNet中詞節(jié)點之間上下位關(guān)系構(gòu)成的最短路徑來計算詞語之間的相似度。許多學者也考慮到其他因素對語義距離的影響,如SU J等人[3]根據(jù)兩個詞的公共祖先節(jié)點的最大信息量來衡量兩個詞的語義相似度; Dekang Lin[4]等人在計算詞語的語義相似度時,除了節(jié)點間的路徑長度外,還考慮到概念層次樹的深度和區(qū)域密度的影響。王斌[5]利用《同義詞詞林》作為語義詞典計算漢語詞匯的相似度;在語義相似度計算領(lǐng)域中,劉群[6]等對“知網(wǎng)”的知識描述語言進行了研究。該方法采用了“整體的相似度等于部分相似度加權(quán)平均”的做法,充分利用了“知網(wǎng)”中對每個概念進行描述時的豐富的語義信息,得到的結(jié)果與人的直覺比較符合。但該方法對于相關(guān)性詞語(如法院和警察)的相似度計算方面與人的直覺比較不符合,影響在文本分類,文本聚類,文檔自動文摘等領(lǐng)域的應(yīng)用。此外江敏[7]等人又在劉群的基礎(chǔ)上,加入義原間的反義、對義關(guān)系來計算詞語的相似度。吳健[8]等人提出了一種基于本體論的詞匯相似度計算方法。

        本文提出了一種利用成分詞的相似性信息來度量文本語義相似性的度量方法。我們描述了單詞語義相似度度量,并展示了如何使用它們來推導一個文本到文本的相似度度量。通過對釋義識別任務(wù)的評估,我們證明了這種文本語義相似度的度量方法優(yōu)于現(xiàn)有的相似度方法。

        1 短文本語義相似度

        給定兩個輸入文本段,我們希望自動得出一個分數(shù),表明它們在語義級別上的相似性,從而超越了傳統(tǒng)上用于此任務(wù)的簡單詞匯匹配方法。雖然我們承認一個綜合的文本語義相似度指標也應(yīng)該考慮到文本的結(jié)構(gòu),但我們首先分析了這個問題,并試圖將文本的語義相似度作為組成詞的語義相似度的函數(shù)來建模。我們通過將詞與詞之間的相似性和詞的特異性指標結(jié)合到一個公式中來實現(xiàn)這一點。給定輸入的兩個文本段T1和T2,用公式(1)計算兩個文本段之間的相似性,如式(1)。

        (1)

        給定一個詞與詞之間的相似性度量和一個詞的特異性度量,我們使用一個度量來定義兩個文本段T1和T2的語義相似性,該度量依次結(jié)合了每個文本段相對于另一個文本段的語義相似性。首先,對于T1段中的每個單詞w,我們嘗試根據(jù)下一節(jié)描述的單詞間相似性度量方法之一,識別T2段中語義相似度最高的單詞(max(sim(w,T2)))。接下來,同樣的過程被應(yīng)用于確定T1中最相似的單詞,從T2中的單詞開始,然后,用對應(yīng)的詞的特異性對詞的相似性進行加權(quán),求和,并根據(jù)每個文本段的長度進行標準化,最后,使用平均值將得到的相似度評分組合在一起。注意,只有開放類單詞和基數(shù)可以參與這個語義匹配過程。正如前面使用基于向量的模型對文本相似性所做的工作一樣,所有虛詞都被丟棄。

        這樣我們可以給兩個特定詞匯之間的語義匹配識別以更高的權(quán)重(例如,警察和特警),并給通用概念之間的相似性測量以較低的權(quán)重(例如,成為)。雖然單詞的特異性已經(jīng)在一定程度上由它們在語義層次中的深度來衡量,但是我們使用基于語料庫的單詞特異性度量來加強這一因素,該度量基于從大型語料庫中學習到的分布信息。

        這個相似度得分在0和1之間,1表示相同的文本段,0表示兩個段之間沒有語義重疊。除了相似的單詞,我們也考慮到詞語特異性, 單詞的特異性是由Sparck-Jones[9]引入的逆文檔頻率(idf)確定的,它的定義是語料庫中的文檔總數(shù)除以包含該單詞的文檔總數(shù),然后將得到的商取對數(shù),計算公式如式(2)。

        (2)

        |D|:語料庫中的文件總數(shù),|{j:wi∈dj}|:包含詞語wi的文件數(shù)目(即ni,j≠0的文件數(shù)目)如果該詞語不在語料庫中,就會導致被除數(shù)為零,因此一般情況下使用1+|{j:wi∈dj}|

        2 實驗

        通過實例說明文本相似性度量的應(yīng)用。給定兩個文本段,如下所示,我們想要確定一個反映它們語義相似性的評分。為了便于說明,我們將注意力限制在一個基于語體的度量上,我們還通過在數(shù)據(jù)集[10]上找到它們的覆蓋范圍,來獲得語義相似度度量的適用性。

        文本段1:When secretary and other employees entered the office for investment intention, some functionary and investors ignored them.

        文本段2: When secretary and clerks walked into the office together with investment project, civil servants and holders showed contempt for them.

        從兩個文本段中的每一個開始,對于每個開放類單詞,確定另一個文本段中最相似的單詞。如前所述,語義相似性只在詞性相同的詞之間存在。從第一個文本段開始的單詞相似性評分和單詞特異性(idf),如表1所示。

        表1 短文本中詞語相似度值和單詞特異性idf值

        利用式(1),將單詞相似性及其對應(yīng)的特異性結(jié)合起來,確定兩篇文章的語義相似性為0.79。這個相似度評分正確地識別了兩個文本段之間的釋義關(guān)系。盡管有一些詞同時出現(xiàn)在兩個句子中(如secretary,investment),但也有一些詞是不相同的,但卻緊密相關(guān)的(如: functionary,civil servants)。與傳統(tǒng)的基于詞匯匹配的相似度度量方法不同,我們的度量方法考慮了這些單詞的語義相似度,從而實現(xiàn)了更精確的文本相似度度量。

        3 總結(jié)

        實驗證明,將語義信息納入文本相似度的測量中,大大增加了對隨機基線和基于向量余弦相似度基線的識別的可能性,余弦距離使用兩個向量夾角的余弦值作為衡量兩個個體間差異的大小,更加注重兩個向量在方向上的差異,而不是位置,適合于網(wǎng)絡(luò)短文本相似度計算?;谙蛄康挠嘞蚁嗨苹€,使用一種將幾個相似度指標結(jié)合在一起的方法來達到最佳的性能,在數(shù)據(jù)集上進行的實驗表明,語義相似度方法優(yōu)于基于簡單詞匯匹配的方法,其整體精確度提高,誤差率顯著降低。

        猜你喜歡
        相似性度量語料庫
        有趣的度量
        一類上三角算子矩陣的相似性與酉相似性
        模糊度量空間的強嵌入
        淺析當代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        《語料庫翻譯文體學》評介
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        把課文的優(yōu)美表達存進語料庫
        低滲透黏土中氯離子彌散作用離心模擬相似性
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        国产mv在线天堂mv免费观看| 亚洲字幕中文综合久久| 丰满少妇被粗大猛烈进人高清| 一区二区三区国产亚洲网站| 一本无码av一区二区三区| 俺来也三区四区高清视频在线观看 | 狠狠做深爱婷婷久久综合一区| 精品乱子伦一区二区三区| 天堂av中文在线官网| 91精品国产综合久久熟女| 男男啪啪激烈高潮cc漫画免费| 日韩在线观看你懂的| 久草视频在线视频手机在线观看 | 精品国产一区二区三区av性色| 久久成人麻豆午夜电影| 久久免费网站91色网站| 久草福利国产精品资源| 九九热线有精品视频86| 国产91在线免费| 国产精品亚洲最新地址| 人妻 丝袜美腿 中文字幕| 国产无套护士在线观看| av无码电影一区二区三区| 日本精品免费看99久久| 粗大猛烈进出高潮视频| 樱花AV在线无码| 日韩人妻大奶子生活片| 艳妇臀荡乳欲伦交换h在线观看| 乱人伦中文字幕成人网站在线| 久久久久久人妻一区二区无码Av | 国产成人精品人人做人人爽97 | 天堂一区人妻无码| 在线a人片免费观看高清| 三上悠亚亚洲精品一区| 专干老肥熟女视频网站300部| 亚洲一区精品无码色成人 | 日韩综合无码一区二区| 中文字幕熟妇人妻在线视频| 国产一区二区精品网站看黄| 99久久99久久久精品蜜桃| 免费99精品国产自在在线|